AI分野のトップ国際会議 ICML 現地参加レポート

こんにちは!電通総研AITCの太田です。

普段は、社内向けChatGPTソリューション Know Narrator の開発や生成AIエージェントの研究開発をおこなっています。

2024年7月21日~27日まで、オーストリアのウィーンで開催されたAI分野の最難関の国際会議であるICMLに現地参加していました。 主な参加目的は生成AIエージェントやLLMの技術動向を調査することでした。

この記事では、ICMLで注目を集めていた研究の内容や学会の様子などをお伝えします。

ICML 2024の全体感

2024年7月21日から27日の1週間で開催されました。

開催期間中の主な内容を簡単にご紹介します。

初日である日曜日は、スポンサーが登壇するEXPOが行われました。 月曜日には、朝から夕方までチュートリアルセッションが実施されました。 火曜日から木曜日の3日間は、ポスター発表と招待講演が行われました。 金曜日と土曜日には、ワークショップが開催されました。

企業ブースの出展は、月曜日、火曜日、水曜日の3日間にわたって行われました。

学会の会場の様子

街の中心から外れたとこにある広い会場でした。とても静かな場所です。

口頭発表が行われる会場はとても広かったです。

投稿数と採択数の推移

ICML Remarks Opening Remarks では、学会の全体のサマリーを発表されました。

以下の画像はその発表の資料から抜粋したものです。SNSでも話題になっていましたが、LLMの流行により、論文の投稿数が昨年から44%も増加しています。

Main Conferenceの採択率は27.55%でした。

多くの発表があった研究テーマ

研究テーマに関するキーワードを集計するとLLMに関するものが上位を占めていますが、強化学習やグラフニューラルネット、連合学習も上位に来ています。 現地にいてもLLMに関するテーマは圧倒的に多い印象を受けました。 LLMは様々な技術が総合格闘技的に組み合わさっている面もあるので、必然的に様々な研究分野から見たLLMについての議論が尽きない状態でした。

個人的に興味深かったテーマ

全日程を通して以下のようなテーマが興味深かったです。

動画生成、コード生成、アライメント、LLMの解析、Embodied Agents、Web Agentsです。

  • 生成AIエージェントの応用事例としてWeb Agents、Embodied Agentsとコード生成によるデータ分析が目立ちました。
  • 基盤モデルに関しては、動画生成やアライメントのテーマが個人的に知らないことが学びが多かったです。
  • LLMの性能解析、コード生成、文脈内学習、LLM as a Judge の発表も目を惹きました。

業務で活用しているテーマやこれから進めようと思っているテーマについて、様々な実験データで検証し、モデル間の傾向などを分析している発表は興味を引きました。

聴講して、「自分の業務で検証した感覚と合うな」と思ったり、「やっぱりあのモデルは良くなかったのか」、「あのテーマは実務で取り組むにはまだ早いな」、「あの研究は意外にホットなテーマなのか」といったことがわかります。

今回得た知見は日頃の研究開発に活かしていきたいと思います。具体的な研究に関しては後でポスターとして紹介します。

興味のあった論文の関係性

  

発表内容の紹介

ここからは、ICMLで特に注目した発表やイベントの内容を紹介します。

チュートリアル

ICMLのチュートリアルでは特定の各研究テーマについて基礎から体系的に学ぶことができます。

55件の応募の中から採択された12件が2時間枠で発表されます。 私が聴講したのは以下の3つです。それぞれ翌日にはオンラインで動画が見れました。

Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems

LLMを提供するために必要な技術を論文ベースで紹介する発表でした。

元論文はこちら arxiv.org

Understanding the Role of Large Language Models in Planning

タスクの実施計画を立てる能力がLLMにあるのかを問うチュートリアルです。

LLM自身が古典的な計画を立てることはできないですが、外部の検証者やソルバーと連携して計画支援できると主張されていました。

  • CoT、ReAct、ファインチューニングなどはプランニングにあまり役立たない(一般化が不十分であるため)
  • 自己検証によって精度が改善することはできない
  • 人間が反復的にプロンプトを提供することは「クレバー・ハンス効果」を招く

クレバー・ハンス効果:タスクに対して本質的な思考をせずに、ユーザーが求めていそうな回答を予測して出力してしまうこと

資料は以下で公開されています。

www.dropbox.com

Challenges in Language Model Evaluations

LLMの出力の評価に関するチュートリアルです。

  • ゼロショットおよび少数ショットのプロンプトタスクを対象に事前学習されたLLMと指示チューニング済みLLMの評価
  • エージェントの評価、ツールの使用 + 関数呼び出し、検索拡張生成(RAG)はチュートリアル対象外

評価の難しさは以下のポイントにあるとのことでした。

  • 精度の再現性
  • few-shot含むプロンプトの敏感さ
  • リークの可能性のあるWebから集めた評価データ
  • 公平な評価

公演者は、データセットの設計とデータ収集方法に対してもっと取り組む必要があると述べていました。

ポスター

IKEAの倉庫並みに広い大広間で一度に数百枚のポスターが発表されます。 それが午前午後の2回×3日あります。画像のように会場が広いのですべてのポスターを軽く見て回るだけで30分はかかります。

今年からポジションペーパーも募集され、特定の研究領域の目指すべき方向性や課題について発表していました。 ポジションペーパーは論文の題目の最初に”position:”と書いています。

特に多くの人が集まっていたポスターと個人的に面白かったポスターを紹介します。

エージェントに関するもの抜粋

他にも人が定期的に集まり注目が高かったポスターを載せておきます。

招待公演

招待公演では5件ありました。 個人的にメタラーニングのMAMLを提案したChelsea Finn先生のロボットの話が面白かったです。

"What robots have taught me about machine learning"

ロボット開発から、機械学習について何を学んだか?という発表です。

ロボットへのAI応用の文脈で最近のVLM(Vision-Language Model・視覚情報と言語情報を同時に理解できるモデル)の複数の研究から得られた知見を紹介していました。

  • ラベル付きデータより自然言語のフィードバックの方が情報量が多くはるかに収集コストが安い
  • Webデータで事前学習したモデルは下流タスクでOOD汎化(入力データに対する汎用性)の改善が見られた
  • VLMによる文脈内学習により、テスト時のロボットの適応性が向上した

ワークショップ

最後の2日は、ワークショップでテーマごとに口頭発表、ポスター発表、パネルディスカッションなどがあります。 私は以下の4つのワークショップに参加しました。

Multi-modal Foundation Model meets Embodied AI

このワークショップではマルチモーダル基盤モデル(MFM)が身体性エージェントにどう適用されるかに関する発表が行われました。

  • MFMがEAIエージェントの意思決定や新しい環境への一般化をどう支援できるか
  • 複雑で長期的なタスクのためのアーキテクチャの提案と、MFMがエージェントの知覚や意思決定をどう強化できるのか
  • 生成モデルを世界シミュレーターとして使用し、物理法則をシミュレートできるか
  • ロボットの模倣学習に必要な多様なデータセットの効率的な収集方法

icml-mfm-eai.github.io

Large Language Models and Cognition

言語モデルと認知タスクの関係ついて焦点を当てたワークショップでした。

  • 推論、ナビゲーション、計画、心の理論などの認知タスクの性能に関して、LLM の現在の位置付けはどこか
  • 認知能力に関する言語モデルの基本的な限界は何か
  • 特定のタスクをエンドツーエンドで微調整した LLM と、外部モジュールと組み合わせた拡張 LLM とを比較するとどうなるのか
  • 人間の言語学習とNNモデルの言語学習のデータ効率の差は縮まりつつあるのか

llm-cognition.github.io

Trustworthy Multi-modal Foundation Models and AI Agents (TiFA)

マルチモーダル基盤モデルとAIエージェントの信頼、安全、頑健、リスクに関するワークショップでした。

MFMとAIエージェントは、様々なモダリティ(テキスト、画像、音声、ビデオなど)を統合し、ツール利用、コードの解釈、APIアクセスなどの新しい機能を持つことで、従来の技術よりもさらに社会への影響を加速させています。これらのシステムの信頼性と安全性を確保するためには、単に頑健性を向上させるだけでなく、リスク評価、緩和策、そして開発・運用のライフサイクル全体にわたる安全メカニズムの確立が重要です。

icml-tifa.github.io

Text, camera, action! Frontiers in controllable video generation

制御可能な動画生成(CVG)のワークショップでは、動画生成モデルを中心に様々な応用が取り上げられていました。 動画生成モデルの発展は凄まじく、テキストで動画の内容を指定したり、異なるカメラアングルでシーンを生成したり、キャラクターの動作を指示することが可能です。 利用用途も3Dシーンの生成やロボティクスのタスク学習、ゲームプレイのためのインタラクティブな環境の作成にも応用されています。

OpenAIから世界シミュレータとしての動画生成モデルSoraの発表がありました。 学習データは何を使ってるの?など答えられない質問が飛び交い刺激的で面白かったです。

icml.cc

企業ブース

企業ブースでは39社が出展していました。企業の内訳は、金融系が18社と多く、続いてビッグテック系で、AIベンダー系と続いていました。 特に有名企業のブースには、インターン希望者の説明で長蛇の列ができてました。 プロダクトのデモが常にあるところは少なく、特に初日は大量のノベルティが各ブースで配布されており、お祭り状態でした。

Google DeepMind やMicrosoft は特定の時間を設けて、プロダクトや研究の詳細な内容を企業ブースで説明していました。

その際に、ブースでイヤホンが配布されており、少し離れていてもモニターの前で発表している内容がイヤホンを通して聞けたので、ガヤガヤしていた環境ではとても聞きやすかったです。

www.microsoft.com

deepmind.google

日本のAI学会のブースと違って会社概要のビラは少なく、QRコードを読み込んでホームページに誘導する企業が多かったです。 ビラがあっても発表内容が書いてある感じでした。ノベルティはTシャツが多くて、あちこち回っていたら、持ってきたシャツの枚数くらい貰っていました。

その他・感想など

写真で雑多に紹介します。

学会で休憩時間に出されるチョコは美味しい

企業ブースで出版社が出展しており、Bishop先生が直々にサインをしていたので、僕も買ってサインをもらいました。 PRMLを学生のときに読んで勉強していたことを伝え、お礼を言えたので大満足です。この出張で一番の出費でしたね。

Bishop先生に会えました

基本的に食事の値段が高く、毎食数千円かかるため、ホテル近くのパン屋さんをよく利用していました。時差ボケもあって、毎朝6時の開店と同時に買いに行っていましたが、日本より美味しくて今でも食べたいですね。

毎朝通ったパン屋さん

観光もそれっぽいところは夕方から一通り行けたと思います。

シュテファン大聖堂

まとめ

約10日及ぶ出張でしたが、現地に参加することで著名人の講演や全然追っていない分野の発展も含めて学べました。 発表は録画が見れるのでQAなども後で字幕付きで聞き直せて理解できるのも良かったです。 エージェントに関しても動向や課題がわかったので、実務に活かしていきたいと思います。

このように電通総研のAITCでは手を挙げればチャレンジングな機会を提供してくれます。 もし興味がありましたら、採用もおこなっていますのでよろしくお願いします。

aitc.dentsusoken.com

執筆 AITC AIソリューション開発 グループ 太田