閲覧履歴と検索結果に対するWikipediaを用いた補間トピックの抽出と評価
波木井 征 北山 大輔
第15回データ工学と情報マネジメントに関するフォーラム (DEIM2023), 3a-9-3, 岐阜県, 2023年3月, 査読無
論文PDF
概要
近年,検索技術の向上によりユーザが求める情報が容易に取得できるようになっている. 未知の知識を習得する際,自分の知識が不足していると理解が困難になる場面がある. 例えば,機械学習の基礎を知っている人が自然言語処理のBERTを学習しようとする場合,自然言語処理や機械学習のモデルなどの知識があればより理解が容易になると考えられる. ユーザの過去のWeb閲覧履歴から抽出したキーワードを既知のトピック,ユーザの今の検索キーワードを未知のトピックとすると,今の検索結果を理解するために必要となるキーワードは,その補間となるトピックといえる. そこで本研究では,一般的な知識グラフに基づき,段階的に知識を習得することを目的とし,既知のトピックとユーザが得たい未知のトピックを繋ぐ補間トピックを抽出し,検索クエリとして提示する手法を提案する. 具体的には,一般的な知識グラフにはWikipediaのリンク構造を用い,グラフ上にて,トピックを示すノードを繋ぐパス上にある補間トピック候補のノードの重要度を算出する. 我々は,算出する際の観点として,補間ノード間の接続強度,補間ノードの集約性,既知ノードと未知ノードの対等性で算出した. しかし,対等性では関係のあるノードも候補から外れてしまうことがあることから,対等性を省き,未知ノードとの関連性の観点を加えて算出する. それに加えて,本稿では算出したスコアが高い補間ノードと未知ノードの語を組み合わせた検索クエリを作成し,その結果を閲覧することで未知トピックへの理解が容易になるかを評価する.