情報検索分野の最新研究をキャッチアップ!「IR Reading 2024秋」参加レポート

こんにちは!電通総研AITCの村本です。

2024年11月9日(土)に開催された「IR Reading 2024秋」に参加してきましたので、参加レポートをまとめます!

IR Readingについて

紹介

IR Readingは、ACM SIGIR 東京支部が開催している、情報検索(Information Retrieval)分野における主要国際会議の論文読み合わせを行う勉強会です。オンラインで開催され、アカデミア、インダストリ問わず自由に参加可能です。発表は1人(1グループ)5分から15分で実施され、質疑応答はチャットを用いて行われます。

sigirtokyo.github.io

今回主な対象となっていた国際会議は以下の4つになります。

  • SIGIR 2024:The International ACM SIGIR Conference on Research and Development in Information Retrieval、情報検索分野における最高峰の国際会議
  • ICTIR 2024:The International Conference on the Theory of Information Retrieval 、情報検索の理論に関する国際会議
  • CIKM 2024:The Conference on Information and Knowledge Management、情報検索、データマネジメント、データベースの複合領域に関する国際会議
  • TheWebConf 2024:旧International World Wide Web Conference、World Wide Webの将来の方向性をテーマにした国際会議

当日の様子

事前にHPからIR ReadingのSlack参加リンクを踏んでワークスペースに参加し、そこで当日のZoomリンクなど確認して参加する形になります。

聴講のみの参加も可能ですが、今回は私も論文紹介を行いました。全体では発表者が24名、聴講者を合わせると計57名の参加だったようです。参加比率としてはアカデミアとインダストリが7:3くらいの印象でした。また、今回は招待講演として、インダストリからオランダのラドバウド大学博士後期課程に進んだ城光英彰さんも現地から参加されていました。両方を知る立場からのお話や、取り組んでいる研究について聞くことができ面白かったです。

オンラインでの開催ということもあり、発表者とのやり取りは基本的にSlack上のチャットになります。発表内容に関するQAはもちろん、普段論文を査読しているような方からのコメントがあったりと、貴重なやり取り・情報を見ることができます。私は自身の出身研究室の方々が参加していたこともあり、研究室の方々と1つの部屋に集まって参加していたので、紹介された論文についてその場で意見交換できました。

論文の紹介時間に関しては発表者に任されており、じっくり手法を紹介する人や、短くまとめて紹介する人など様々います。学生さん含め総じてわかりやすい発表、資料が多かったです。

開発よりの発表者は、私もそうですが実践的な手法や課題に関する論文を紹介している印象でした。RAGなどの手法が登場したことで、もともと情報検索分野にいなかった方が情報検索分野に興味を持ち始めているので、今後参加者は増えていくかもしれません。

紹介された論文をいくつかピックアップ

私自身が紹介した論文と、個人的にいくつか興味があった論文をピックアップして簡単に紹介します。

紹介論文:MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation(SIGIR 2024)[1]

私が紹介した論文はSIGIR 2024にてBest Short Papers 特別賞を受賞した「MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation」です。

紹介資料はこちらになります。

speakerdeck.com

この論文では、RAGのためのデータ保存、データ検索の仕組みをクライアントサイドで実装するOSS「MeMemo」が紹介されています。

単にローカル環境でRAGを動かすだけであればLlamaIndexなどを活用することも検討できます。しかし結局サーバの立ち上げが必要になることには変わりはありません。そこで、MeMemoは完全にクライアントサイド(ブラウザ上)で動作するベクトル検索のためのデータ保存機能(Indexed DBの活用)と、近似最近傍探索アルゴリズムHierarchical Navigable Small World(HNSW)によるベクトル検索の仕組みを提供しています。

※LlamaIndexの参考 tech.dentsusoken.com

資料内にも記載していますが、サーバーサイドの準備が完全に不要になることは、「シンプルにRAGを試してみたい」、「データプライバシーをあまり考慮したくない」というニーズを満たすことができ、非常に魅力的なメリットとなります。論文中でも触れられていましたが、ブラウザ上で動作可能というアクセス性を活かして、IoTデバイスなどにRAGを搭載することも可能になるかもしれません。

一方で、クライアントサイドですべてを実現する場合、クライアント側のマシンスペックに影響を受けやすくなるため、注意が必要です。また、ユーザークエリに対してベクトルの類似性で検索は可能ですが、一般的な全文検索機能は提供されていません。より効果的なRAGシステムを提供する場合、全文検索とベクトル検索を組み合わせるなど精度向上の工夫を取り入れる必要があるでしょう。(以下コラム参照)

aitc.dentsusoken.com

Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)[2]

前節でも触れていますが、検索対象の文書集合からクエリに適合する文書を抽出する際、意味的な検索を行うためにベクトル検索を行うことが多いです。この際、クエリと文書集合の両方をベクトル化(エンベディング)する必要があります。

このベクトル化のためのモデル(エンベディングモデル)は、様々な訓練済みモデルが提供されていますが、「検索」という観点で最適なモデルはコーパス(検索対象の文書集合)によって異なります。しかし、多種多様なモデルの中から最適なモデルを判断するのは難しいため、この論文では「LLMを使って疑似的に評価セットを作成し、その評価セットで性能が良かったモデルを採用する」という手法を提案しています。

この課題は最近私自身悩んでいたポイントでした。LLMに対してユーザーが求める情報を適切に渡す(知識拡張する)ためには、より良い検索を実現する必要があります。ベクトル検索をする以上、エンベディングモデルが検索目的に適したモデルであることも同様に重要です。

研究目的・課題特化ソリューションであればエンベディングモデルをファインチューニングすることも考えられますが、RAGシステムを提供する開発者目線で考えると、可能な限り提供されている訓練済みモデルを使い分けることを目指したいです。ですので、この論文で紹介されている検証方法は、採用するモデルを選択するうえでの一つの指標にできそうだと感じました。

発表者による資料がとても分かりやすいので、詳細は上記リンクをご覧ください。

The Power of Noise: Redefining Retrieval for RAG Systems (SIGIR 2024)[3]

この論文では、RAGシステムにおけるLLMの回答精度を引き上げるための情報検索部分に焦点を当て、どのような文書をLLMに与えると良いのかを分析しています。要点をまとめると、次の3点が挙げられています。

  1. プロンプト内にて正解(取得したかった)情報テキストはクエリの近くに配置する
  2. 類似しているものの回答を含まない高スコアの文書をプロンプトに追加しない
  3. 検索結果に関係のないランダムな文書を“うまく”含めると、回答精度が向上する可能性がある

1、2については経験則的に理解できるのですが、3に関しては意外な知見でした。過学習を防ぐようなイメージなのでしょうか。論文中でも具体的なメカニズムについては解明されていませんでしたが、考慮事項として知ることができてよかったです。

LDRE: LLM-based Divergent Reasoning and Ensemble for Zero-Shot Composed Image Retrieval(SIGIR 2024)[4]

LLMベースの画像検索手法についての論文です。いわゆるComposed Image Retrieval (CIR)に関する問題で、入力は「画像」と「テキスト」、出力は「画像」となります。クエリ画像に対してクエリテキストの内容を反映した場合に最も適する画像を検索します。

クエリ画像に対して多様な視点から複数のキャプション(テキスト情報)を生成し、クエリテキストに書かれた内容に基づいてLLMでキャプションを編集した「修正キャプション」を生成し、検索に利用するようです。また、タイトルにもあるように学習が必要ない点が開発目線で嬉しい手法だと思います。

我々AITCも直近でKnow Narrator SearchにマルチモーダルRAG機能をリリースしましたが、今後の参考になる研究だと感じました。

LLaVA-Chef: A Multi-modal Generative Model for Food Recipes(CIKM 2024)[5]

画像エンコーダーとLlama2を組み合わせたend-to-endモデルLLaVAをベースに、Vicuna(言語モデル)とCLIP(画像エンコーダー)を組み合わせたレシピ生成手法(LLava-Chef)について提案しています。この手法では、「料理画像」、「料理名(テキスト)」、「材料(テキスト)」を入力として、具体的な調理手順(レシピ)を生成します。

こちらに関しては、我々の活動に応用できそうというよりは個人的に面白いと思ったので取り上げました。そもそも画像とレシピが紐づいたデータセットが存在することも初めて知りました。コードも提供されているので(GitHubリポジトリ)、また機会があれば触ってみようかと思います。

感想とまとめ

今回はIR Reading 2024秋の参加レポートを書きました。

AITCでは生成AIのさらなる活用を目指しています。最近では、AIエージェント(関連コラム)の研究開発にも取り組んでいますが、AIエージェントにおいても「適切な情報を取得するツール」は重要な要素となります。

社内で検証を続けている「問い合わせ対応エージェント」(以下コラム参照)においても、事前知識として問い合わせ対応を行うシステムの情報を渡したり、問い合わせ内容に関する情報をツールで取得したりしています。この部分でいかにLLMに対して有用な情報を渡すことができるか(データ集合から情報を取得できるか)が、エージェントの性能に影響すると考えられます。情報検索技術に関しては継続的にキャッチアップしていきたいところです。

aitc.dentsusoken.com

IR Readingでは、普段から情報検索分野の研究に取り組まれているリサーチャーの方や、検索システムに関わるデベロッパーの方々が最新の研究について解説してくださります。また、発表される皆さんの資料がわかりやすいのもIR Readingの特徴で、情報検索技術のキャッチアップとして非常に有意義な勉強会だと思います。毎年、春と秋に開催しているので継続的に参加し、Know Narratorやエージェントの研究開発等に活かしていきたいと思います。

最後に

電通総研、AITCでは所属しているメンバーが様々な経歴や興味を持っていることもあり、多種多様な対外活動に参加しています。今回、参加したIR Readingも、私が学生時代に参加していた延長で参加した形です。このように、自分から積極的に対外活動に参加することを推奨してくれる環境があり、様々なメンバーがいろいろなところで情報キャッチアップしているのはAITCの魅力の1つだと思います。

もし興味がありましたら、下記のページにAITCでの働き方や募集職種、組織などの採用に関わる情報をまとめています。カジュアル面談の応募フォームもこちらのページにリンクがありますので、ぜひご覧ください。 aitc.dentsusoken.com

参考文献

[1]Zijie J. Wang and Duen Horng Chau. 2024. MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24). Association for Computing Machinery, New York, NY, USA, 2765–2770. https://doi.org/10.1145/3626772.3657662

[2]Ekaterina Khramtsova, Shengyao Zhuang, Mahsa Baktashmotlagh, and Guido Zuccon. 2024. Leveraging LLMs for Unsupervised Dense Retriever Ranking. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24). Association for Computing Machinery, New York, NY, USA, 1307–1317. https://doi.org/10.1145/3626772.3657798

[3]Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, and Fabrizio Silvestri. 2024. The Power of Noise: Redefining Retrieval for RAG Systems. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24). Association for Computing Machinery, New York, NY, USA, 719–729. https://doi.org/10.1145/3626772.3657834

[4]Zhenyu Yang, Dizhan Xue, Shengsheng Qian, Weiming Dong, and Changsheng Xu. 2024. LDRE: LLM-based Divergent Reasoning and Ensemble for Zero-Shot Composed Image Retrieval. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '24). Association for Computing Machinery, New York, NY, USA, 80–90. https://doi.org/10.1145/3626772.3657740

[5]Fnu Mohbat and Mohammed J. Zaki. 2024. LLaVA-Chef: A Multi-modal Generative Model for Food Recipes. In Proceedings of the 33rd ACM International Conference on Information and Knowledge Management (CIKM '24). Association for Computing Machinery, New York, NY, USA, 1711–1721. https://doi.org/10.1145/3627673.3679562


執筆

電通総研 AIトランスフォーメンションセンター

村本 直樹