投稿日: SIGIR 論文紹介

Retrieval models for question and answer archives

Xue, Xiaobing
Jeon, Jiwoon
Croft, W. Bruce
In Proc. of SIGIR 2008
http://dl.acm.org/citation.cfm?id=1390416

概要

CQA中のQAのペアの中から,ユーザのクエリに適合したQAのペアを返すことが目的.翻訳の分野で使われている手法に基づいて,回答文中の語を質問文で使われる語に翻訳することで,クエリとの適合度を向上させることを狙っている.
例えば,「エベレスト」という語が質問文に出現したとき,回答文にはその高さである「29,035」という語に「翻訳」されて出現する,のように考える.

手法

クエリ\mbox{\boldmath {\rm $q$}}}が与えられたときに,P(\mbox{\boldmath {\rm $q$}}}|(q,a)_{i})が最大になるようなQAのペア(q,a)_{i}を求める.
翻訳のために提案されたIBMモデルと,情報検索のために提案されたquery likelihood language modelを組み合わせて用いる.
両モデルには共通点が多いが,最も大きな違いは,ある文書から単語が生成される確率の求め方にある.Language modelでは,
 P(w|D)=\frac{tf(w,D)}{|D|}
と,最尤推定で求める.
IBM modelでは,
 P(w|D)=\sum_{t \in D}P(w|t)P(t|D)
のように,語wD中のあらゆる語から確率的に翻訳されると考える.
この論文ではこれら2つを線形結合して文書から単語が生成される確率を求めている.さらに,質問文だけでなく回答文からもクエリが生成されることを考慮して,QAペアからクエリが生成される確率を以下のようにしている.
 P(w|(q,a))=\alpha P_{ml}(w|q) + \beta \sum{t \in q} P(w|t)P_{ml}(t|q) + \gamma P_{ml}(w|a)
ただしP_{ml}(w|q) = \frac{tf(w,q)}{|q|}であり,\alpha + \beta + \gamma = 1である.

単語aから単語bが生成(翻訳)される確率を求める手法として以下の2つを提案している.
1つ目は,単語aが質問文中に出現したもとでの単語bの回答文中での出現確率およびその逆をもとめ,線形結合する.次式で表される.
 P_{lin}(w_{i}|w_{j})=(1-\delta )P(w_{i},Q|w_{j},A) + \delta P(w_{i},A|w_{j},Q)
2つ目は,翻訳の分野で用いられている手法を利用する.
単語aが単語bに翻訳される確率は,EMアルゴリズムを用いて求める.
単純には,翻訳前と翻訳後の文のペアを大量に用意し,語aと語bがそれぞれ翻訳前・翻訳後の多くのペアに出現すればbaの訳語とみなすというもの.
QAにおいては,QとAのどちらを翻訳前の状態とみなすかで2通りの単語の生起確率が考えられるため,この論文では両方を考えている.

実験

データはWondirというQAサービスから収集された約100万件のQAペアを使用.
クエリはTRECのQAタスクに用いられた50の質問文を使用.
評価指標にはMAPとPrecisionを用い,結果としては手法のパートの最後の2手法のうち,翻訳的な手法を用いたものが最も良い結果となった.


-SIGIR, 論文紹介
-

関連記事

Adaptive Query Suggestion for Difficult Queries

Liu, Yang Song, Ruihua Chen, Yu Nie, Jian-Yun Wen, Ji-Rong In Proc. of SIGIR 2012 http://dl.acm.org/ …

Regularization of Latent Variable Models to Obtain Sparsity

Ramnath Balasubramanyan, William W. Cohen In Proc. of SDM 2013 概要 LDAのようなトピックモデルでは、単語が所属するトピックの分布や、文 …

Identifying topical authorities in microblogs

Pal, Aditya Counts, Scott In Proc. of WSDM2011 http://dl.acm.org/citation.cfm?id=1935843 概要 あるキーワードに …

Fighting search engine amnesia: reranking repeated results

Shokouhi, Milad White, Ryen W. Bennett, Paul Radlinski, Filip In Proc. of SIGIR 2013 http://dl.acm.o …

Identifying breakpoints in public opinion

Akcora, Cuneyt Gurcan Bayir, Murat Ali Demirbas, Murat Ferhatosmanoglu, Hakan In Proc. of SOMA 2010 …