4. 和歌データベースにおける特徴パターンの発見

   竹田正幸,山崎真由美,福田智子,南里一郎
  「情報処理学会論文誌」Vol.40, pp. 783-795, 平成11年3月

【要旨】
 本研究では,和歌のデータを対象に,歌集の特徴を抽出する問題を扱う.特徴として,「*せば*ざらましを」などの付属語のパターンを考える.付属語のパターンは,表現技法上の特徴を表しており,たとえば,「*せば*ざらましを」は反実仮想に対応する.1つの歌集に表れるパターンの数は数十万にものぼるため,そのすべてを研究者が吟味することは,現実的には不可能である.そこで,その大量のパターンの中から「重要」と思われるものだけを,数百程度のオーダーで自動抽出することを考えたい.これが可能となれば,研究者はそれらのパターンを重点的に吟味することにより,有用な知見を得ることができよう.このことを実現するためには,「重要」性を形式的に定義することが必要となる.この定義は非常に難しい問題であるが,本研究では,これをBrazmaら(1996)にならって,最小記述長(Minimum Description Length;MDL)原理に基づいて与える.この手法を5つの歌集に適用したところ,和歌の研究者にとって有用なパターンが得られることが分かった.また,この経験に基づき,和歌文学研究支援のためのテキストデータマイニングシステムを作成した.このシステムは,研究者を主体とした研究を支えるための有用な道具となりうる.著者らは,このシステムを用いて,新しいスタイルの和歌文学研究を進行中である.