研究の方法


(1)従来のツール―総索引―

(2)『新編国歌大観』45万首の総索引作りは,ほぼ不可能

(3)計算機による形態素解析は,実用レベルに程遠い

(4)和歌を単なる文字列として捉える

(5)部分文字列検索で,よりきめ細かな検索を実現

(6)検索から発見へ―研究支援としての「発見科学」―


(1)従来のツール―総索引―

古典和歌に限らず,表現の分析には,まず,総索引を作成することが,常套手段です.総索引とは,作品中に生起する単語を見出し語とし,品詞情報等とともに,その語の作品中での生起箇所,あるいは和歌の場合には歌番号を列記した索引をいいます.これの作成のためには,文または和歌を単語に分割し,各々の品詞や活用形等を決定するという作業が必要です.このような統語的情報を表すタグを埋め込んだ機械可読テキストを,タグ付きコーパス(tagged corpus)といいます.総索引は,このコーパスから切り出した語を五十音順に整列して得られますから,総索引のもつ情報は,本質的に,すべてコーパス中に含まれると言えます.一方,単語の生起順序等の情報は,コーパスを総索引の形に変換した時点で失われてしまいます.したがって,旧来の総索引にこだわらず,コーパスそのものを相手にした,計算機による有効な処理方式を探っていくことが重要です. 目次に戻る

(2)『新編国歌大観』45万首の総索引作りは,ほぼ不可能

そこで,このタグ付きコーパスの作成について考えてみましょう.もし,『新編国歌大観』に収められた45万首すべてを正確に読み解き,単語に分割する基準を首尾一貫させることができるならば,これほどすばらしいことはありません.けれども,現実には,1語で二つの意味を担う掛詞の処理や,複合語の扱いをどうするかなど,問題は山積しています.一首の歌の解釈にすら,行き詰まることがしばしばですから,いわんや,たった一つの歌集に対する注釈作業でさえも容易でないことは,私たち自身を含め,実際にそれを試みたことのある人が共通してもつ実感でしょう. 目次に戻る

(3)計算機による形態素解析は,実用レベルに程遠い

一方,計算機によって文の単語分割を行い,品詞等の統語的情報を付与する,いわゆる形態素解析の研究は,自然言語処理の分野で古くから行われていますが,精度が低く,実用レベルには程遠いものです.そもそも,人手を用いてさえ,先に述べたような困難があるのですから,計算機プログラムにとってはなおさらです.現在の状況では,労力の軽減など望むべくもありません. 目次に戻る

(4)和歌を単なる文字列として捉える

このように,現時点においては,単語分割を行わずに目的を達成するための方策を講じなければなりません.そこで本研究では,和歌の5-7-5-7-7の各句それぞれを,単語の区切り等は無視して,単なる文字の連鎖と捉え,付属語と同形の文字列も付属語と区別せずに扱うことにします.ここでは,たとえば,次の歌に見える二つの「らむ」を区別しません.
さかざらむ/ものならなくに/さくらばな/おもかげにのみ/まだきみゆらむ 亭子院歌合』3番
初句と結句とについて,単語に分解してみますと,
(初句) さか-ざら-む
(結句) まだき-みゆ-らむ
となり,これら二つの「らむ」の品詞は,異なります.しかし,ここでは単語としての性質の違いは問題にしません.両者の意味は違っていても,一首の中に二つの「らむ」が存するというのは,いわゆる「同文字病」であり,この歌合の判詞にも,「左(当該歌)はらむといふことふたつあり」と指摘されています.つまり,「いったんは品詞を無視し,単なる文字列として見る」ことは,一見乱暴な処置のようですが,総索引によっては得にくい,実際の作歌の心得に近付く可能性を秘めているのです. 目次に戻る

(5)部分文字列検索で,よりきめ細かな検索を実現

『新編国歌大観』CD-ROM版付属の検索ソフトウェアは,総索引の代替品として,和歌の部分文字列検索の機能を備えています.すなわち,目的の単語と同形の文字列を探索できるので,得られた結果を人手で絞り込むことによって,必要な用例を得ることができます.本研究でも,これと同様に,付属語と同形の文字列は付属語として扱い,そのために生じる問題は,最終的には人間に委ねることにします.しかし,付属語のなす言い回しを扱う際には,一首の和歌における,付属語の生起する順序等が重要ですから,この付属ソフトウェアのもつ機能だけでは不十分です.実際,このソフトウェアでは,検索時に指定できる論理式の形式も,きわめて簡単なものに制限されており,また,順序の指定等はできません.そこで,まず,そのような要求に応えるべく,よりきめ細かな検索機能を備えたツールを作成しました.このツールは,汎用テキストデータベース管理システムSIGMAに基づくものです. 目次に戻る

(6)検索から発見へ―研究支援としての「発見科学」―

ところで,これまでの議論は,研究者が任意の表現にまず注目し,次にその用例を収集する,といったシナリオを前提としています.上述のツールも,そのような過程で威力を発揮するものです.そこでは,研究者がどのような歌もしくは表現に着目するかが,研究の成否を分ける鍵となります.
ところが,先に述べたとおり,付属語は意味を担わないため,それ自体が一首の骨格を形成していても,研究者の記憶に残りにくい,という事情がありました.そこで,もし,この着目すべき歌や表現について,計算機プログラムが何らかの指針を与えてくれたとすれば,そこから研究の糸口が得ることも期待できます.情報科学の一分野として最近誕生し,注目を集めている発見科学(Discovery Science)は,まさにこのような形での研究支援を目指すものです.これによって,私たちは,付属語のなすパターンの自動抽出法や,類似歌の自動抽出法を開発しています. 目次に戻る

Last update: May 27, 2002