観光情報の属性判定のためのスポット頻度に基づく概念辞書構築手法
峯 祥平,北山 大輔,中島 伸介,角谷 和俊
第8回データ工学と情報マネジメントに関するフォーラム(DEIM Forum 2016),H4-1,福岡県,2016年3月,査読無
論文PDF
概要
一般に,旅行者が観光の計画を立てる際,ガイドブックやWebから情報を収集する.旅行者によって欲しい情報は変わっていくため,各内容にラベルやタグといった属性が付与されていると必要な情報のみを収集できるため便利である.しかし,実際にはWeb上のページにはそのような属性はつけられていない.スポット内でのページの位置付けは定まっておらず,スポット間でのページの関連付けもされてないため,旅行者はページを手動で閲覧し,情報を取捨選択しながら取得しなければならない.我々は,スポットのWebページには概要,歴史,アクセス情報などの役割があると仮定し,各ページに属性を付与することで,他スポットにおける対応する情報も収集できるのではないかと考えた.本稿では,属性を付与するための観光概念辞書構築手法を説明する.具体的には,スポット間で共通に出現しており,かつスポット内のページ集合において出現頻度が低い単語Aはページの概念を表すという指標を考えた.この単語Aと共通して出現する単語Bに対しても,その出現するスポット数に応じて特徴量に傾斜をつける.これを繰り返すことにより,ページの概念を表現する辞書を構築する.