2005年04月14日 木曜日

今日は1日中XML/HTML周りの調査

サイト全体の見直しを考えていて、これまで積んできた日記を中心とするデータの再利用を行うため、XMLやXHTML周りの調査など。うちの日記は、僕が書く際になるべくHTML4 Strictになるように書いているので、扱いやすいデータだと思うのですが、任意に何個かのファイルに対してHTML Tidyをかけてみた。割とすんなりとXHTML1.0 Strictに変換できることが分かったので、これで処理してみることにする。ざっくりと使えそうなTidyの設定ファイルは以下のようなもの。

add-xml-decl:true
add-xml-space:false
assume-xml-procins:false
bare:false
break-before-br:false
clean:true
drop-empty-paras:true
drop-font-tags:true
drop-proprietary-attributes:false
enclose-block-text:false
enclose-text:true
escape-cdata:false
fix-bad-comments:true
fix-uri:true
hide-comments:false
hide-endtags:false
indent-cdata:false
input-xml:false
join-classes:false
join-styles:true
logical-emphasis:true
lower-literals:true
ncr:true
numeric-entities:false
output-xhtml:true
output-xml:false
quote-ampersand:true
quote-marks:true
quote-nbsp:true
replace-color:false
show-body-only:false
uppercase-attributes:false
uppercase-tags:false
word-2000:false
split:true
doctype:strict
repeated-attributes:keep-last
output-html:false
indent:false
indent-attributes:false
literal-attributes:false
markup:true
wrap-asp:true
wrap-attributes:false
indent-spaces:2
tab-size:4
wrap:1000
wrap-jste:true
wrap-php:true
wrap-script-literals:false
wrap-sections:true
punctuation-wrap:false
vertical-space:false
show-errors:6
show-warnings:true
ascii-chars:true
input-encoding:shiftjis
output-encoding:shiftjis
output-bom:auto
newline:CRLF
fix-backslash:true
force-output:false
gnu-emacs:true
quiet:false
keep-time:true
write-back:false
tidy-mark:true
accessibility-check:0