枕草子 (My Favorite Things)

【第756回】 半自動化の思いつき(2002年1月11日)

昨日と同じく往路あさま504号。昨夜は入浴後,2:30まで索引作りを続けたので,今日も目が覚めたら6:30だったのだ。

索引作りは相変わらず先が見えない。このまま続けていては間に合わないような気がしてきた。で,ふと思いついたのだが,こんな作業は,ある程度自動化できるかもしれない。つまり,索引語になるくらいの言葉なら何度もでてくる筈だという仮定さえ許されるなら,テキストを茶筌に入力して形態素に分けてからsortをかけて,1行ずつ読んでいって2回以上でてきたものだけ出力するというフィルタをかませればいい。それに目を通して直す(例えば一般的な言葉は削除するとか)ということにすれば,今やっている地道な作業より100倍楽だろう。

45万字に目を通して索引語を抜き出すなんて仕事は,神経がおかしくなりそうだ。内容も,「えー,違うんじゃない?」というような文章もあって,直したくなってくるし。

問題は,人名と国名を,専門用語とは別ファイルにしなくてはいけないということで,それだけは手作業にせざるを得ない。国名だけならすべての国名一覧をどこかから探してきて,そのどれかと一致した語は国名リストの方に入れて,専門用語からは削除する,とすれば良さそうだが,人名は無理だ。

もっとも元ファイルが,「頻」とか「澤」とかが●になっていたり,Wordでの脚注文字列が脚注参照位置に挿入されていたり,「生(せい)産(ざん)」とか書かれていたりするので,結局は莫大な手作業が必要になるだろうと思われ,今から方針変更をしても間に合いそうにないのだが。

取りあえずやらないよりはましだから,フィルタをかけるだけコンピュータにやらせておこうかと思う。どうせ後でキーワードファイルを使って元テキストをマークアップしてhtml化するスクリプトは書かなくてはいけないし(この日記生成スクリプトをちょこっと変えればできる)。

結局,茶筌では細かく区切れ過ぎてしまうので,この目的には適していないことがわかった。やはり思いつきは思いつきに過ぎないのだった。例えば,再生産が「再」と「生産」に分かれてしまう。正しく分割するには,人口学の辞書が必要だということなのだろう。考えてみたら,このところやっている手作業は,まさにそれを作っているわけだ。ただし,カタカナの連続は一語と見なされるようなので,カタカナ表記の国名のリストアップには使える。

大事なことを見過ごしていた。キーワードはネストされる可能性があるので,一括置換の反復ではうまくいかないかもしれない。長い方からやって,タグ内にあったら無視するというやり方にすれば良さそうだが,当初思っていたよりもスクリプトが難しくなりそうだ。

もっと大事なことを見過ごしていた。マークアップはやらなくても良くなったのだった。スクリプトを書き始める前に気がついて良かった。

夕方,共著者から論文修正を貰った。が,人口大事典の索引を優先していたら,修正した論文を3部プリントし終えて封をし終えたのが21:00を過ぎてしまい,投函しそびれた。失敗した。明日,妻が東京に出るときにもっていって貰って投函しておいて貰おう。終電1本前で帰宅途中だが,さすがに金曜日だけあって,高崎まで座れなかった。


前【755】(推薦(2002年1月10日) ) ▲次【757】(自宅で仕事は最低限のノルマだけ(2002年1月12日〜15日) ) ●枕草子トップへ