9. 歌集間における表現特徴の自動抽出 ―部分文字列の生起頻度にみる―

   竹田正幸,福田智子,南里一郎
 「情報処理学会研究報告」Vol.2000 No.67, pp. 39-46, 平成12年7月

【要旨】
 本稿では,文学作品,とくに和歌集から表現特徴を抽出する問題を扱う.すなわち,二人の歌人(作家)による作品を対象に,一方に比較的よく表れるが他方には表れにくい表現を特徴として取り出す.この問題は,テキストデータに対する最適パターン発見問題において,抽出するパターンを部分文字列パターンに制限したものと捉えることができる.このための有効な方法の一つとして,テキスト中に表れるパターンを「良さ」の尺度に従って降順に整列したリストを作成し,その上位部分を人間であるエキスパートの手によって吟味する,という方式が考えられる.しかし,日本語テキストには,単語間に明示的な区切りがないため,部分文字列は,単語や単語列の無意味な断片であることが多く,エキスパートの作業負担は小さくない.そこで,その負担をいかにして軽減し,作業支援を行なうかが,成功の鍵を握っているといってよい.本稿では,
(1)リスト中の冗長性を除くため,ある同値関係のもとで各同値類の最長文字列である代表元(これを主要部分文字列とよぶ)のみを扱うこと.
(2)興味のある文字列の「近傍」をその生起のコンテクストと同様にして自由に閲覧するための方法.
を提案する.この方法を用いて,私家集(西行の「山家集」と慈円の「拾玉集」,藤原定家の「拾遺愚草」と同為家の「為家集」)からの表現特徴の抽出を行なった.得られた結果は,個々の歌人のもつ,これまで見過ごされてきた一面の発見へつながるものと期待できる.