投稿日: SIGIR 論文紹介

Retrieval models for question and answer archives

Xue, Xiaobing
Jeon, Jiwoon
Croft, W. Bruce
In Proc. of SIGIR 2008
http://dl.acm.org/citation.cfm?id=1390416

概要

CQA中のQAのペアの中から,ユーザのクエリに適合したQAのペアを返すことが目的.翻訳の分野で使われている手法に基づいて,回答文中の語を質問文で使われる語に翻訳することで,クエリとの適合度を向上させることを狙っている.
例えば,「エベレスト」という語が質問文に出現したとき,回答文にはその高さである「29,035」という語に「翻訳」されて出現する,のように考える.

手法

クエリ\mbox{\boldmath {\rm $q$}}}が与えられたときに,P(\mbox{\boldmath {\rm $q$}}}|(q,a)_{i})が最大になるようなQAのペア(q,a)_{i}を求める.
翻訳のために提案されたIBMモデルと,情報検索のために提案されたquery likelihood language modelを組み合わせて用いる.
両モデルには共通点が多いが,最も大きな違いは,ある文書から単語が生成される確率の求め方にある.Language modelでは,
 P(w|D)=\frac{tf(w,D)}{|D|}
と,最尤推定で求める.
IBM modelでは,
 P(w|D)=\sum_{t \in D}P(w|t)P(t|D)
のように,語wD中のあらゆる語から確率的に翻訳されると考える.
この論文ではこれら2つを線形結合して文書から単語が生成される確率を求めている.さらに,質問文だけでなく回答文からもクエリが生成されることを考慮して,QAペアからクエリが生成される確率を以下のようにしている.
 P(w|(q,a))=\alpha P_{ml}(w|q) + \beta \sum{t \in q} P(w|t)P_{ml}(t|q) + \gamma P_{ml}(w|a)
ただしP_{ml}(w|q) = \frac{tf(w,q)}{|q|}であり,\alpha + \beta + \gamma = 1である.

単語aから単語bが生成(翻訳)される確率を求める手法として以下の2つを提案している.
1つ目は,単語aが質問文中に出現したもとでの単語bの回答文中での出現確率およびその逆をもとめ,線形結合する.次式で表される.
 P_{lin}(w_{i}|w_{j})=(1-\delta )P(w_{i},Q|w_{j},A) + \delta P(w_{i},A|w_{j},Q)
2つ目は,翻訳の分野で用いられている手法を利用する.
単語aが単語bに翻訳される確率は,EMアルゴリズムを用いて求める.
単純には,翻訳前と翻訳後の文のペアを大量に用意し,語aと語bがそれぞれ翻訳前・翻訳後の多くのペアに出現すればbaの訳語とみなすというもの.
QAにおいては,QとAのどちらを翻訳前の状態とみなすかで2通りの単語の生起確率が考えられるため,この論文では両方を考えている.

実験

データはWondirというQAサービスから収集された約100万件のQAペアを使用.
クエリはTRECのQAタスクに用いられた50の質問文を使用.
評価指標にはMAPとPrecisionを用い,結果としては手法のパートの最後の2手法のうち,翻訳的な手法を用いたものが最も良い結果となった.


-SIGIR, 論文紹介
-

関連記事

User see, user point: gaze and cursor alignment in web search

Huang, Jeff White, Ryen Buscher, Georg In Proc. of CHI 2012 http://dl.acm.org/citation.cfm?id=220859 …

Modeling User Interest and Community Interest in Microbloggings: An Integrated Approach

Tuan-Anh Hoang In Proc. of PAKDD 2015 概要 ツイッターユーザの興味と所属するコミュニティを、ユーザのツイート内容と振る舞い(リツイート、メンション、ハッシュタグの …

【論文紹介】Generative Feature Language Models for Mining Implicit Features from Customer Reviews

Karmaker Santu, Shubhra Kanti and Sondhi, Parikshit and Zhai, ChengXiang CIKM 2016 ACM 概要 イリノイ大学のChe …

What’s in a hashtag?: content based prediction of the spread of ideas in microblogging communities

sur, Oren Rappoport, Ari In Proc. of WSDM 2012 http://dl.acm.org/citation.cfm?id=2124320 概要 ツイッター上で、 …

It Is Not Just What We Say, But How We Say Them: LDA-based Behavior-Topic Model

Qiu, Minghui and Zhu, Feida and Jiang, Jing In Proc. of SDM 2013 概要 トピックモデルを用いて文書の生成過程をモデル化する際、通常は文書 …