ツールの復元

パソコンが変わったときの移行作業のミス(2代目VAIO→3代目VAIO/最近まで使用)で、ソースが散逸してなくなっていたツールの復元がなんとかできた。HTMLファイルからタグをすべて削除して普通のテキストファイルにするものである。ただし「br」タグは単純に削除できないので特別の考慮が必要になる。

これには4つの復元パターンがあったが、4種類の差はソースレベルでは意味はあるが(関数などの使い方の参考になる)、実用レベルではほとんど意味がない。結果がいいのがベストだというわけで、そのうちの最も「いい」と考えていたもの1つだけの再現である(たぶん当時もそう思っていたはず)。


ファイルはありすぎても困ることはない。なくしたものを再現するほうがはるかに面倒である。

これを機に、EUC-JPの文字コードを使うファイルに使うCSSも統一しておいた(eucjp.css)。以前はこれはプログラムが出力したものだという「差」をつけるために、文字サイズを小さく、それに合わせて字間・行間も狭くしていた。今はもうそういうことをする理由はないので、一般的な*.htmlと同じにした。ただしフォントは「MS 明朝」にして「差」をつけている(通常は「ゴシック」)。

html2txt_file.php
個別ファイルごとにHTMLファイルをフラットなテキストファイル(タグを全部削除)にする。



html2txt_folder.php
フォルダ単位でそこにある全部のHTMLファイルを一括してフラットなテキストファイル(タグを全部削除)にする。



- 2018/10/21 -



どこかへ散逸してしまった思っていた「4つの復元パターン」のソースが、パソコンの大整理(大掃除)をしていたら出てきた(bin/storage/php_storage/xyz/php_1)。
以下の四つのパターンである(この項の文と図は作成時のもの)。

html2txt_string1.php
改行は削除しない。
タグやCSSとJScript内のコメントは削除される。
これでは「すき間」が多すぎる。
html2txt_string2.php
改行を削除する。
タグやCSSとJScript内のコメントは削除される。
これでは文字が詰まりすぎる。

html2txt_line1.php
「行頭の改行」だけを削除することができる。
CSSとJScript内のコメントが削除できない(終了タグも残る)。
html2txt_line2.php
「行頭の改行」だけを削除することができる。
CSSとJScript内のコメントも削除できる。

機械的に改行を削除できないのは、レイアウト上から見やすくなるように考慮して最初から空行にしてある部分と、タグを削除したために空行になった部分との見分けがつかないからである。
一番最後のパターン(html2txt_line2.php)が、理想的な形ではないがこの中ではもっともマトモである。当面はこのhtml2txt_line2.phpを使うことにする。
HTML5になってJavaScriptが標準装備になったのでJavaScript非対応のブラウザのためのコメントというものも不要になった。
ちなみに、上のhtml2txt_file.phpは以前のline_cut_tags.phpと同じ。上のhtml2txt_folder.phpは以前のhtml2txt_line2.phpと同じである。




- Copyright(C) Mermaid Tavern