投稿日: WWW 論文紹介

Web Object Retrieval

Nie, Zaiqing
Ma, Yunxiao
Shi, Shuming
Wen, Ji-Rong
Ma, Wei-Ying
In Proc. of WWW 2007
http://dl.acm.org/citation.cfm?id=1242584

概要

オブジェクト単位での検索を実現することが目的.例えば,「デジカメ」で検索したら,Webページが検索されるのではなく,デジカメのリストが表示されるようにする.
クエリとオブジェクトの適合度を測るために,Web上からオブジェクトの属性値を抽出する必要があるが,Web上の情報は必ずしも正しくなかったり,同じオブジェクトの同じ属性名の属性値でもサイトによって記述方法が違っていたりするので,それらを上手く吸収してやる必要がある.

手法

1つのオブジェクトの情報(属性値)は,複数の情報源から集められる.例えば論文をオブジェクトとみなした論文検索の場合,1つの論文の情報をACMやDBLP,SCIなどから集めてくる.このとき,そのページに記載されているオブジェクトの情報自体に誤りが含まれることもあるので,各情報源がどれだけ信頼できるか,重みを決める.例えば,ACMは信用できるので重み0.8,のようにする.この値はいくつかのサンプルデータをもとに決める.
次に,ある論文の情報を記述した複数のページから,タイトル,著者,アブストラクト,のような属性値を抽出する.ここでも,サイトによって著者名が省略されていたりして,属性値の一貫性が失われていたり,属性が上手く抽出できなかったりすることがあるので,各サイトの情報をどれだけ重視するか,重みを決める.属性値の抽出には既存手法を利用.
最後に,各オブジェクトに各属性値を紐付ける.クエリとの適合度を計算するときに,どの属性値を重視するかの重みを決める.例えば,論文のタイトルにクエリが含まれていたらそのオブジェクトは適合オブジェクトである可能性が高いので,タイトルの重みは0.6,のようにする.

以上をもとに,以下の3つの手法を提案.いずれの手法でも,クエリに対する適合度は言語モデル的方法で求める.
1.Record-level Representation Model
 オブジェクトの属性値を明示的には求めずに,ACMの1つの論文のページなどを検索単位とする.どの情報源を重視するかを表すパラメータの値のみ決める必要あり.
2.Attribute-level Representation Model
 オブジェクトの属性値を明示的に求め,情報源の信頼度,属性抽出の信頼度,属性の重要度を考慮する.
3.Model Balancing Record-level and Attribute-level Representations
 オブジェクトの属性値を明示的に求め,属性抽出の信頼度が低くても,ある属性値集合からの語の出現確率をより重視するように2.を拡張した手法.1.と2.を混ぜたような手法.

実験

検索の対象としたオブジェクトは論文.論文データの抽出源はSCI,DBLP,ACM,CiteSeerを利用.
クエリはLibraのクエリログから抽出したものを使用.
比較手法としては,従来の文書検索のBag of Words的手法と,情報源の信頼度と属性抽出の信頼度に重みをつけない手法を使用.
評価にはPrecisionとMAPを用い,提案手法3が最も良いという結果に.


-WWW, 論文紹介
-

関連記事

Spatio-Temporal Topic Modeling in Mobile Social Media for Location Recommendation

Bo, Hu and Mohsen, Jamali and Martin, Ester In Proc. of ICDM 2013 概要 チェックインサービス等でのユーザと場所と時刻を考慮したモデル化 …

Semantic Annotation of Mobility Data using Social Media

Wu, Fei and Li, Zhenhui and Lee, Wang-Chien and Wang, Hongjian and Huang, Zhuojie In Proc. of WWW 20 …

Improving passage ranking with user behavior information

Weize Kong Elif Aktolga James Allan In Proc. of CIKM 2013 概要 検索中のユーザの振る舞いを基に検索結果をリランキングする研究はこれまでにも行わ …

Re-Examining Search Result Snippet Examination Time for Relevance Estimation

Lagun, Dmitry Agichtein, Eugene In Proc. of SIGIR2012 http://dl.acm.org/citation.cfm?id=2348509 概要 従 …

【論文紹介】The automated acquisition of suggestions from tweets

Dong, Li and Wei, Furu and Duan, Yajuan and Liu, Xiaohua and Zhou, Ming and Xu, Ke AAAI 2013 ACM, PD …