こんにちは!電通総研AITCの太田です。
普段は、社内向けChatGPTソリューション Know Narrator の開発や生成AIエージェントの研究開発をおこなっています。
2024年7月21日~27日まで、オーストリアのウィーンで開催されたAI分野の最難関の国際会議であるICMLに現地参加していました。 主な参加目的は生成AIエージェントやLLMの技術動向を調査することでした。
この記事では、ICMLで注目を集めていた研究の内容や学会の様子などをお伝えします。
ICML 2024の全体感
2024年7月21日から27日の1週間で開催されました。
開催期間中の主な内容を簡単にご紹介します。
初日である日曜日は、スポンサーが登壇するEXPOが行われました。 月曜日には、朝から夕方までチュートリアルセッションが実施されました。 火曜日から木曜日の3日間は、ポスター発表と招待講演が行われました。 金曜日と土曜日には、ワークショップが開催されました。
企業ブースの出展は、月曜日、火曜日、水曜日の3日間にわたって行われました。
学会の会場の様子
街の中心から外れたとこにある広い会場でした。とても静かな場所です。
口頭発表が行われる会場はとても広かったです。
投稿数と採択数の推移
ICML Remarks Opening Remarks では、学会の全体のサマリーを発表されました。
以下の画像はその発表の資料から抜粋したものです。SNSでも話題になっていましたが、LLMの流行により、論文の投稿数が昨年から44%も増加しています。
Main Conferenceの採択率は27.55%でした。
多くの発表があった研究テーマ
研究テーマに関するキーワードを集計するとLLMに関するものが上位を占めていますが、強化学習やグラフニューラルネット、連合学習も上位に来ています。 現地にいてもLLMに関するテーマは圧倒的に多い印象を受けました。 LLMは様々な技術が総合格闘技的に組み合わさっている面もあるので、必然的に様々な研究分野から見たLLMについての議論が尽きない状態でした。
個人的に興味深かったテーマ
全日程を通して以下のようなテーマが興味深かったです。
動画生成、コード生成、アライメント、LLMの解析、Embodied Agents、Web Agentsです。
- 生成AIエージェントの応用事例としてWeb Agents、Embodied Agentsとコード生成によるデータ分析が目立ちました。
- 基盤モデルに関しては、動画生成やアライメントのテーマが個人的に知らないことが学びが多かったです。
- LLMの性能解析、コード生成、文脈内学習、LLM as a Judge の発表も目を惹きました。
業務で活用しているテーマやこれから進めようと思っているテーマについて、様々な実験データで検証し、モデル間の傾向などを分析している発表は興味を引きました。
聴講して、「自分の業務で検証した感覚と合うな」と思ったり、「やっぱりあのモデルは良くなかったのか」、「あのテーマは実務で取り組むにはまだ早いな」、「あの研究は意外にホットなテーマなのか」といったことがわかります。
今回得た知見は日頃の研究開発に活かしていきたいと思います。具体的な研究に関しては後でポスターとして紹介します。
発表内容の紹介
ここからは、ICMLで特に注目した発表やイベントの内容を紹介します。
チュートリアル
ICMLのチュートリアルでは特定の各研究テーマについて基礎から体系的に学ぶことができます。
55件の応募の中から採択された12件が2時間枠で発表されます。 私が聴講したのは以下の3つです。それぞれ翌日にはオンラインで動画が見れました。
Towards Efficient Generative Large Language Model Serving: A Tutorial from Algorithms to Systems
LLMを提供するために必要な技術を論文ベースで紹介する発表でした。
元論文はこちら arxiv.org
Understanding the Role of Large Language Models in Planning
タスクの実施計画を立てる能力がLLMにあるのかを問うチュートリアルです。
LLM自身が古典的な計画を立てることはできないですが、外部の検証者やソルバーと連携して計画支援できると主張されていました。
- CoT、ReAct、ファインチューニングなどはプランニングにあまり役立たない(一般化が不十分であるため)
- 自己検証によって精度が改善することはできない
- 人間が反復的にプロンプトを提供することは「クレバー・ハンス効果」を招く
クレバー・ハンス効果:タスクに対して本質的な思考をせずに、ユーザーが求めていそうな回答を予測して出力してしまうこと
資料は以下で公開されています。
Challenges in Language Model Evaluations
LLMの出力の評価に関するチュートリアルです。
- ゼロショットおよび少数ショットのプロンプトタスクを対象に事前学習されたLLMと指示チューニング済みLLMの評価
- エージェントの評価、ツールの使用 + 関数呼び出し、検索拡張生成(RAG)はチュートリアル対象外
評価の難しさは以下のポイントにあるとのことでした。
- 精度の再現性
- few-shot含むプロンプトの敏感さ
- リークの可能性のあるWebから集めた評価データ
- 公平な評価
公演者は、データセットの設計とデータ収集方法に対してもっと取り組む必要があると述べていました。
ポスター
IKEAの倉庫並みに広い大広間で一度に数百枚のポスターが発表されます。 それが午前午後の2回×3日あります。画像のように会場が広いのですべてのポスターを軽く見て回るだけで30分はかかります。
今年からポジションペーパーも募集され、特定の研究領域の目指すべき方向性や課題について発表していました。 ポジションペーパーは論文の題目の最初に”position:”と書いています。
特に多くの人が集まっていたポスターと個人的に面白かったポスターを紹介します。
エージェントに関するもの抜粋
- DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning
- データサイエンスの自動化
- MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation
- 機械学習の実験自動化
- A Multimodal Automated Interpretability Agent
- モデルの解釈の自動化
- GPT-4V(ision) is a Generalist Web Agent, if Grounded
- Webナビゲーション
- Position: Towards Unified Alignment Between Agents, Humans, and Environment
- アライメントは人間、環境、エージェントの状態をそれぞれの観点が必要
- Position: Levels of AGI for Operationalizing Progress on the Path to AGI
- AGIに向けた段階を人間の能力レベルと問題解決能力の広さで分別
- Position: A Call for Embodied AI
- Embodied AIが目指す方向を提言
- Position: Video as the New Language for Real-World Decision Making
- 動画生成の可能性を提言
- Position: LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks
- LLMに古典的な計画ができないと主張
他にも人が定期的に集まり注目が高かったポスターを載せておきます。
- SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention
- 多変量時系列予測におけるLLMの解析
- Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision
- 弱モデルで作った教師データで強モデルを微調整すると弱モデルより精度向上するか検証
- Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
- LLMを使ったコードベースの推論手法
- What is Dataset Distillation Learning?
- データセット蒸留
- Can Mamba Learn How To Learn? A Comparative Study on In-Context Learning Tasks
- MambaモデルのICLの能力調査
- Human Alignment of Large Language Models through Online Preference Optimisation
- LLMをオンラインで人間の好みに最適化する手法の提案
- Position: Understanding LLMs Requires More Than Statistical Generalization
- LLMの理論の方向性
- MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions
- テキストと画像のペアから画像検索
- Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models
- 大規模ビジョンモデルの知識を小規模モデルに転移
- How Language Model Hallucinations Can Snowball
- LLMの幻覚がどのように雪だるま式に増えるかを分析
- In-Context Unlearning: Language Models as Few-Shot Unlearners
- LLMが学習した情報を効率的に忘れる手法を提案
- Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
- LLMの不確実性を「モデル不確実性」と「データ不確実性」に分解する手法を提案
- Explorations of Self-Repair in Language Models
- LLMの自己修正メカニズムを調査し、LayerNormの役割とその影響を分析
- CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution
- コードの実行能力を測定するためのベンチマークを提案
- Genie: Generative Interactive Environments
- ユーザーが仮想世界を生成・操作できる新しいインタラクティブな環境生成モデルを提案
招待公演
招待公演では5件ありました。 個人的にメタラーニングのMAMLを提案したChelsea Finn先生のロボットの話が面白かったです。
"What robots have taught me about machine learning"
ロボット開発から、機械学習について何を学んだか?という発表です。
ロボットへのAI応用の文脈で最近のVLM(Vision-Language Model・視覚情報と言語情報を同時に理解できるモデル)の複数の研究から得られた知見を紹介していました。
- ラベル付きデータより自然言語のフィードバックの方が情報量が多くはるかに収集コストが安い
- Webデータで事前学習したモデルは下流タスクでOOD汎化(入力データに対する汎用性)の改善が見られた
- VLMによる文脈内学習により、テスト時のロボットの適応性が向上した
ワークショップ
最後の2日は、ワークショップでテーマごとに口頭発表、ポスター発表、パネルディスカッションなどがあります。 私は以下の4つのワークショップに参加しました。
Multi-modal Foundation Model meets Embodied AI
このワークショップではマルチモーダル基盤モデル(MFM)が身体性エージェントにどう適用されるかに関する発表が行われました。
- MFMがEAIエージェントの意思決定や新しい環境への一般化をどう支援できるか
- 複雑で長期的なタスクのためのアーキテクチャの提案と、MFMがエージェントの知覚や意思決定をどう強化できるのか
- 生成モデルを世界シミュレーターとして使用し、物理法則をシミュレートできるか
- ロボットの模倣学習に必要な多様なデータセットの効率的な収集方法
Large Language Models and Cognition
言語モデルと認知タスクの関係ついて焦点を当てたワークショップでした。
- 推論、ナビゲーション、計画、心の理論などの認知タスクの性能に関して、LLM の現在の位置付けはどこか
- 認知能力に関する言語モデルの基本的な限界は何か
- 特定のタスクをエンドツーエンドで微調整した LLM と、外部モジュールと組み合わせた拡張 LLM とを比較するとどうなるのか
- 人間の言語学習とNNモデルの言語学習のデータ効率の差は縮まりつつあるのか
Trustworthy Multi-modal Foundation Models and AI Agents (TiFA)
マルチモーダル基盤モデルとAIエージェントの信頼、安全、頑健、リスクに関するワークショップでした。
MFMとAIエージェントは、様々なモダリティ(テキスト、画像、音声、ビデオなど)を統合し、ツール利用、コードの解釈、APIアクセスなどの新しい機能を持つことで、従来の技術よりもさらに社会への影響を加速させています。これらのシステムの信頼性と安全性を確保するためには、単に頑健性を向上させるだけでなく、リスク評価、緩和策、そして開発・運用のライフサイクル全体にわたる安全メカニズムの確立が重要です。
Text, camera, action! Frontiers in controllable video generation
制御可能な動画生成(CVG)のワークショップでは、動画生成モデルを中心に様々な応用が取り上げられていました。 動画生成モデルの発展は凄まじく、テキストで動画の内容を指定したり、異なるカメラアングルでシーンを生成したり、キャラクターの動作を指示することが可能です。 利用用途も3Dシーンの生成やロボティクスのタスク学習、ゲームプレイのためのインタラクティブな環境の作成にも応用されています。
OpenAIから世界シミュレータとしての動画生成モデルSoraの発表がありました。 学習データは何を使ってるの?など答えられない質問が飛び交い刺激的で面白かったです。
企業ブース
企業ブースでは39社が出展していました。企業の内訳は、金融系が18社と多く、続いてビッグテック系で、AIベンダー系と続いていました。 特に有名企業のブースには、インターン希望者の説明で長蛇の列ができてました。 プロダクトのデモが常にあるところは少なく、特に初日は大量のノベルティが各ブースで配布されており、お祭り状態でした。
Google DeepMind やMicrosoft は特定の時間を設けて、プロダクトや研究の詳細な内容を企業ブースで説明していました。
その際に、ブースでイヤホンが配布されており、少し離れていてもモニターの前で発表している内容がイヤホンを通して聞けたので、ガヤガヤしていた環境ではとても聞きやすかったです。
日本のAI学会のブースと違って会社概要のビラは少なく、QRコードを読み込んでホームページに誘導する企業が多かったです。 ビラがあっても発表内容が書いてある感じでした。ノベルティはTシャツが多くて、あちこち回っていたら、持ってきたシャツの枚数くらい貰っていました。
その他・感想など
写真で雑多に紹介します。
企業ブースで出版社が出展しており、Bishop先生が直々にサインをしていたので、僕も買ってサインをもらいました。 PRMLを学生のときに読んで勉強していたことを伝え、お礼を言えたので大満足です。この出張で一番の出費でしたね。
基本的に食事の値段が高く、毎食数千円かかるため、ホテル近くのパン屋さんをよく利用していました。時差ボケもあって、毎朝6時の開店と同時に買いに行っていましたが、日本より美味しくて今でも食べたいですね。
観光もそれっぽいところは夕方から一通り行けたと思います。
まとめ
約10日及ぶ出張でしたが、現地に参加することで著名人の講演や全然追っていない分野の発展も含めて学べました。 発表は録画が見れるのでQAなども後で字幕付きで聞き直せて理解できるのも良かったです。 エージェントに関しても動向や課題がわかったので、実務に活かしていきたいと思います。
このように電通総研のAITCでは手を挙げればチャレンジングな機会を提供してくれます。 もし興味がありましたら、採用もおこなっていますのでよろしくお願いします。
執筆 AITC AIソリューション開発 グループ 太田