投稿日: SIGIR 論文紹介

Retrieval models for question and answer archives

Xue, Xiaobing
Jeon, Jiwoon
Croft, W. Bruce
In Proc. of SIGIR 2008
http://dl.acm.org/citation.cfm?id=1390416

概要

CQA中のQAのペアの中から,ユーザのクエリに適合したQAのペアを返すことが目的.翻訳の分野で使われている手法に基づいて,回答文中の語を質問文で使われる語に翻訳することで,クエリとの適合度を向上させることを狙っている.
例えば,「エベレスト」という語が質問文に出現したとき,回答文にはその高さである「29,035」という語に「翻訳」されて出現する,のように考える.

手法

クエリ\mbox{\boldmath {\rm $q$}}}が与えられたときに,P(\mbox{\boldmath {\rm $q$}}}|(q,a)_{i})が最大になるようなQAのペア(q,a)_{i}を求める.
翻訳のために提案されたIBMモデルと,情報検索のために提案されたquery likelihood language modelを組み合わせて用いる.
両モデルには共通点が多いが,最も大きな違いは,ある文書から単語が生成される確率の求め方にある.Language modelでは,
 P(w|D)=\frac{tf(w,D)}{|D|}
と,最尤推定で求める.
IBM modelでは,
 P(w|D)=\sum_{t \in D}P(w|t)P(t|D)
のように,語wD中のあらゆる語から確率的に翻訳されると考える.
この論文ではこれら2つを線形結合して文書から単語が生成される確率を求めている.さらに,質問文だけでなく回答文からもクエリが生成されることを考慮して,QAペアからクエリが生成される確率を以下のようにしている.
 P(w|(q,a))=\alpha P_{ml}(w|q) + \beta \sum{t \in q} P(w|t)P_{ml}(t|q) + \gamma P_{ml}(w|a)
ただしP_{ml}(w|q) = \frac{tf(w,q)}{|q|}であり,\alpha + \beta + \gamma = 1である.

単語aから単語bが生成(翻訳)される確率を求める手法として以下の2つを提案している.
1つ目は,単語aが質問文中に出現したもとでの単語bの回答文中での出現確率およびその逆をもとめ,線形結合する.次式で表される.
 P_{lin}(w_{i}|w_{j})=(1-\delta )P(w_{i},Q|w_{j},A) + \delta P(w_{i},A|w_{j},Q)
2つ目は,翻訳の分野で用いられている手法を利用する.
単語aが単語bに翻訳される確率は,EMアルゴリズムを用いて求める.
単純には,翻訳前と翻訳後の文のペアを大量に用意し,語aと語bがそれぞれ翻訳前・翻訳後の多くのペアに出現すればbaの訳語とみなすというもの.
QAにおいては,QとAのどちらを翻訳前の状態とみなすかで2通りの単語の生起確率が考えられるため,この論文では両方を考えている.

実験

データはWondirというQAサービスから収集された約100万件のQAペアを使用.
クエリはTRECのQAタスクに用いられた50の質問文を使用.
評価指標にはMAPとPrecisionを用い,結果としては手法のパートの最後の2手法のうち,翻訳的な手法を用いたものが最も良い結果となった.


-SIGIR, 論文紹介
-

関連記事

【論文紹介】Cats and Captions vs. User Characteristics and the Clock: A Time-Controlled Analysis of Multimodal Content

Hessel, Jack and Lee, Lillian and Mimno David In Proc. of WWW 2017 概要 Redditと呼ばれるソーシャルニュースサイトに投稿された画 …

Extending Faceted Search to the General Web

Kong, Weize Allan, James In Proc. of CIKM2014 http://dl.acm.org/citation.cfm?id=2661964 概要 ファセットを提示す …

AutoWeb: automatic classification of mobile web pages for revisitation

Liu, Jie Xu, Wenchang Shi, Yuanchun In Proc. of MobileHCI 2012 http://dl.acm.org/citation.cfm?id=237 …

Mining Contentious Documents Using an Unsupervised Topic Model Based Approach

Amine, Trabelsi and Osmar R., Zaiane In Proc. of ICDM 2014 概要 ある話題に関する文書集合が与えられたときに、「賛成」や「反対」などの各観点( …

Tourist Trip Planning Functionalities: State–of–the–Art and Future

Souffriau, W. Vansteenwegen, P. In Current Trends in Web Engineering http://link.springer.com/chapte …