12 Days of OpenAIの内容をまとめながら、2025年に向けて、生成AIの成長を感じていく
- 12 Days of OpenAIとは?
- Day1: o1 and ChatGPT Pro
- Day2: OpenAI's Reinforcement Fine-Tuning Research Program
- Day3: Sora
- Day 4: Canvas
- Day5: ChatGPT in Apple Intelligence
- Day 6: Santa Mode & Video in Advanced Voice
- Day 7: Projects in ChatGPT
- Day 8: Search
- Day 9: Holiday treats for developers
- Day 10: 1-800-CHATGPT
- Day 11: Work with apps
- Day 12: o3 preview & call for safety researchers
12 Days of OpenAIとは?
OpenAI社は、2024年12月5日から12日間にわたり、「12 Days of OpenAI」と題した特別イベントを開催し、以下のURLで公開しています。
このイベントは、欧米でクリスマス前に行われる「アドベントカレンダー」に着想を得たもののようです。毎日一つずつ新しい驚き(新たな製品や機能の発表、デモンストレーション等)を提供する形式となっています。
以下、Day1から概要を説明していきます!
Day1: o1 and ChatGPT Pro
初日は、以下2つの発表がありました。
1.「o1」モデルの正式リリース
- 特徴:
- 速度と精度の向上:
- o1-previewと比較して、応答速度が約50%向上。
- エラー率が34%低減。
- マルチモーダル対応:
- テキストと画像の統合理解が可能に。
- 科学技術分野に特化:
- 数学、プログラミング、複雑な科学的タスクで優れたパフォーマンスを発揮。
- 柔軟な思考:
- 単純な質問には即答、複雑な問題には深く思考。
- 速度と精度の向上:
- デモ例:
- 歴史の質問: ローマ皇帝のリストと詳細について、高速かつ正確に回答。
- マルチモーダル問題:
- 手書きのデータセンター設計図を画像として解析し、物理的な冷却システムの設計計算を実行。
2.新料金プラン「ChatGPT Pro」
- 価格: 月額200ドル。
- 主な利点:
- 無制限のモデルアクセス:
- GPT-4.0、o1、音声機能の高度版などを無制限に利用可能。
- o1 Proモード:
- 通常のo1モデルをさらに強化し、計算リソースを追加投入することで、特に困難な問題への対応力を向上。
- 信頼性向上:
- 回答の一貫性と正確性が強化され、長時間のタスクにも対応。
- 無制限のモデルアクセス:
- ターゲットユーザー:
- 技術職やパワーユーザー。
- プログラミングや科学的分析でモデルを限界まで活用する人々。
今後の展望
- o1モデルのAPI化:
- 開発者向け機能(構造化出力、関数呼び出し、画像理解など)を追加予定。
- 新しいツール:
- Webブラウジング、ファイルアップロードなどの機能を実装予定。
- 長期的なタスク処理能力の強化:
- より大規模で長時間の計算を可能にするための技術開発。
コメント
o1モデルは、性能と機能面で大幅に進化しました。 o1-previewは、Know Narratorですでにビジネス現場でもデータ分析や深い考察で有効に活用され始めていましたが、今までは文章だけでした。o1が画像対応したのは、大きいです!
Day2: OpenAI's Reinforcement Fine-Tuning Research Program
概要
OpenAIが提供する新しいカスタマイズ技術「Reinforcement Fine-Tuning (RFT)」を紹介。 従来の「ファインチューニング」と異なり、RFTはモデルが独自のドメインで新しい推論方法を学ぶために強化学習を活用する。これにより、少ないデータセットでも専門分野に特化したモデルを作成できるようになる。
主なポイント
- モデルカスタマイズの進化
- RFTにより、o1シリーズのモデルをユーザー自身のデータセットに基づいてカスタマイズ可能。
- 通常の教師ありファインチューニングはモデルが既存のデータを模倣するが、RFTは推論の新しい方法を学習させる。
- 適用分野
- 法律、金融、エンジニアリング、保険など、専門知識を必要とする分野で有用。
- 例として、Thomson Reutersがo1 Miniをリーガルアシスタント用にRFTを適用。
- 少量データでの効果
- 数十から数百の例だけでモデルの推論能力を大幅に向上可能。
- 例として、1,100の症例データセットを使用して遺伝子疾患の診断タスクを実施。
- 実験と成果
- o1 Mini(小型・高速・低コストモデル)をベースにRFTを適用し、o1モデルより高い精度を達成。
- 遺伝病研究では、症状リストに基づき病因遺伝子を特定。正答率が大幅に向上。
- 手順の簡略化
- ユーザーはJSONL形式のデータセットと評価基準(グレーダー)を用意するだけで、OpenAIのインフラを活用してトレーニングが可能。
- グレーダーはモデル出力を評価し、正解との一致度に応じてスコアを割り当てる。
- 科学研究での活用
- Berkeley Labとの協力で、o1モデルを活用し、希少遺伝病の原因を探る。
- 患者の症状から原因遺伝子を推論するモデルを構築。
今後の展開
- 2025年初頭にRFTを公開予定。
- 研究機関や企業向けにアルファプログラムを拡大中。
- 応募リンクは動画説明欄に記載。
コメント
強化学習を活用したファインチューニングは、専門知識を必要とする複雑なタスクにおけるAI活用の新たな可能性を示しており、法務、科学、医療など多岐にわたる分野での応用が期待されます。
Day3: Sora
概要
動画生成プロダクト「Sora」を発表しました。Soraは、AIを活用して動画を生成し、人々の創造力を拡張するために設計されたと言及されています。
主なポイント
- Soraの位置付けと重要性
- 創造的なツール: AIを活用し、クリエイターが新しい方法で表現する手助けをすることが目的。
- AIの多様な活用: テキストだけでなく、動画生成や理解を通じて、より豊かなAI体験を目指している。
- AGI(汎用人工知能)への貢献: 動画生成は、AIが物理法則や複雑なシナリオを学ぶ重要な環境。
- プロダクトの特徴と機能
- 主要機能:
- テキストからの動画生成。
- 画像を基にした動画生成。
- 動画のリミックスやループ作成。
- 新機能「ストーリーボード」で、複数のアクションをシーケンス化した動画の作成。
- 多彩なオプション:
- アスペクト比(横長、正方形、縦長)。
- 解像度(480p~1080p)。
- 長さ(5秒~20秒)。
- 複数バリエーションの生成。
- リミックス機能: 既存の動画に変更を加えることが可能(例: マンモスをロボットに置き換える)。
- 主要機能:
- Sora Turbo
- 動画生成速度とコストを改善した最新モデル。
- 複雑な動画生成や物理シミュレーションに対応。
- 利用方法
- 利用条件: ChatGPT PlusまたはProのアカウントがあれば追加料金なしで利用可能。
- 提供地域: 米国および多くの国で利用可能(欧州と英国は後日予定)。
- 創造的表現とコミュニティ
- 「Explore」という機能で、他のユーザーが作成した動画を閲覧し、学びやインスピレーションを得られる。
- 動画の生成プロセスを共有し、他者がそれを再利用可能。
- 安全性とモデレーション
- 悪用防止と創造性のバランスを重視。
- 保守的なモデレーションで運用開始し、フィードバックを元に改善予定。
今後の展開
- 「GPT-1」の初期状態と同様、現在のSoraはまだ発展途上であり、さらなる進化を期待。
- 創造性を拡張するツールとして、クリエイターの表現力を高める可能性を秘めている。
コメント
2024年2月に”Sora”が発表されたから、やっと来ました! 当時から、様々なところで大きなニュースで取り上げられていたので、ご存知の方も多いでしょう。
以下、具体的なSoraの紹介動画です。
Day 4: Canvas
概要
Day4はCanvas。この機能は、ChatGPTと共同で文書やコードを作成・編集できる新しいインターフェースです。
主なポイント
1.全ユーザーへの提供
今までプラスユーザー向けにベータ提供されていたCanvasが、全ユーザーに開放。 ChatGPTの主要なインターフェースとして統合され、文書やコードの共同作業が可能になります。
2.Pythonコードの実行
Canvas内で直接Pythonコードを実行できる機能が追加されました。これにより、テキストやグラフィックの出力を即座に確認可能です。
3.カスタムGPTsとの統合
CanvasをカスタムGPTに組み込むことで、特定のタスク向けの高度なコラボレーションが可能になります。
4.デモ内容
- 文書の共同作業
左側にチャット、右側にCanvasが表示され、リアルタイムでChatGPTが文書を生成・編集。
ユーザーも文書内で直接編集でき、フィードバックや修正依頼が簡単に行えます。 ショートカット機能として「長さの調整」「読みやすさの変更」「絵文字追加」などが搭載。
- エッセイ編集の支援
エッセイをCanvasに貼り付けると、ChatGPTが選択箇所ごとにフィードバックを提供。 コメントの適用・却下が可能で、ユーザー自身が内容を自由に編集可能。
- コード編集と実行
PythonコードをCanvasに貼り付けてバグを指摘・修正。 内蔵のPythonエミュレータを使用してコードを即時実行し、エラーの診断・修正を支援。
- カスタムGPTとの統合
サンタクロースの手紙の返信を支援するカスタムGPTを例に、Canvasの活用方法を解説。 カスタムGPTはCanvasを活用して適切なツールを選択し、作業効率を向上させます。
コメント
Canvasにより、文書やコードの編集・フィードバックが直感的に行えるのはいいですね。
Day5: ChatGPT in Apple Intelligence
概要
Appleとの連携により、iOSおよびMac OS向けのChatGPT統合が発表されました。これにより、AppleデバイスでChatGPTをより簡単かつ便利に使用できるようになります。
主なポイント
- Siriとの統合
- SiriがタスクをChatGPTに渡すことで複雑なタスクを解決可能。
- 例: Siriに「クリスマスパーティーを計画して」と依頼。
- 文書編集支援
- 文書の要約、キーポイント抽出、文書作成をChatGPTでサポート。
- 例: 文書を一から生成し、細かい編集も可能。
- ビジュアルインテリジェンス
- iPhoneのカメラ機能を活用し、見ている対象物についてChatGPTが情報を提供。
- 例: クリスマスセーターコンテストの参加者をランキング。
- Mac OSとの統合
- Siriや書き込みツールを用いて、PDFの要約や分析を簡単に行える。
- 例: 49ページのPDFをアップロードし、モデルのコーディング能力向上技術について理解。
- 保存と継続
- ChatGPTアプリに直接アクセスし、過去のやり取りを保存、さらに深い解析や編集が可能。
使用例:
- クリスマスパーティー計画: ゲストリストや音楽リストを生成し、さらにはアルバムカバーのデザインも提案。
- PDF解析: 長文のドキュメントを分析し、内容を理解しやすい形式(例: グラフやチャート)で提供。
メリット:
- Appleデバイスを使ったシームレスな利用体験。
- アカウントなしでも利用可能(ログインすればさらに充実した機能が利用可能)。
- フリクションレスでどこでも使える便利さ。
コメント
Appleデバイスを使っているユーザーには、非常に嬉しい情報ですね。
個人ユーザーにもっとAIを使ってもらうためには、生成AIを意識しないで使用される世界感が必要ですので、デバイスの標準機能として生成AIが組み込まれていくのは、大きな一歩です。
Day 6: Santa Mode & Video in Advanced Voice
概要
ChatGPTの「Advanced Voice Mode」に新しいビデオと画面共有機能が導入されました。
主なポイント
1.ビデオ機能の導入
- Advanced Voice Modeでリアルタイムビデオチャットが可能に。
- 実際の画面共有や映像を通じて、リアルタイムで対話やサポートを受けられる。
- デモでは、Kevin(プロダクトリード)がChatGPTに自己紹介をさせ、同僚を紹介する場面や、コーヒーの淹れ方をビデオで教えてもらうシーンを披露。
2.画面共有機能
- 自分の画面を共有して具体的なサポートを受けられる。
- メッセージアプリを例に挙げ、友人への返信内容をChatGPTに相談するデモが紹介。
3.Santa Modeの新機能
- ChatGPTでサンタクロースと会話できる「Santa Mode」を提供開始。
- サンタに質問したり、クリスマス関連の物語を聞いたりすることが可能。
- サンタの声は陽気で親しみやすいトーンで設定されている。
- 初回利用時には「Advanced Voice」の使用制限が一度リセットされ、制限があってもサンタと会話可能。
4.利用可能範囲
- ビデオ・画面共有機能は、最新のモバイルアプリで順次ロールアウト中。
- Plus、Pro、Enterpriseユーザーなどが対象。
- Santa Modeはグローバル展開され、デスクトップやモバイルアプリで利用可能。
コメント
2024年2月に発表されていた”Video in Advanced Voice”が発表されました。AIが我々の環境をよりリアルタイムに見て理解してもらえるような世界観です。未来を感じますね。 来月以降はサンタが北極に帰ってしまうので、サンタモードは12月末までのようです。
Day 7: Projects in ChatGPT
概要
新機能「Projects」がChatGPTに導入されました!この機能により、会話やファイルをプロジェクト単位で整理・管理でき、タスク効率を向上させます。プロジェクトごとにカスタム指示や関連ファイルを追加し、柔軟に活用可能です。Canvasモードとの統合により、特定のセクション編集や差分ビューも可能になり、より直感的な操作を実現します。
主なポイント
1.新機能「Projects」の特徴
- プロジェクト単位で会話やファイルを整理・管理可能。
- ファイルアップロード、会話履歴追加、カスタム指示設定が可能。
- Canvasモードによる差分ビュー編集で効率的な作業をサポート。
2.具体的な活用例
- イベント管理: ギフト交換イベントのデータ管理と割り当ての自動化。
- 日常タスクの効率化: 家庭のメンテナンス記録や家電設定の一元管理。
- プログラミング支援: ウェブサイトテンプレートの編集やプロジェクト整理。
3.導入スケジュール
- 即日利用可能。Plus、Pro、Teamsユーザー向けに公開済。
- 無料ユーザーやエンタープライズ向けには2024年初頭に導入予定。
コメント
プロジェクトを定義して、カテゴライズできるのは便利ですね。
Day 8: Search
概要
ChatGPTの検索機能を改善しました。さらに、音声モードと統合し、会話形式でリアルタイムのWeb検索が可能に。
主なポイント
1.検索機能の改善
- 検索速度が向上し、モバイル体験も強化。
- マップ表示やリッチな検索結果で視覚的に分かりやすい。
2.音声モードとの統合
- Advanced Voice ModeでWeb検索が利用可能に。
- 自然な会話の流れで質問や追加検索ができる。
3.無料ユーザーへの提供開始
- ログイン済みの無料ユーザー全員が利用可能。
- 全プラットフォーム(Web、iOS、Android)で展開。
コメント
音声入力との統合により、直感的でシームレスな検索体験が提供され、日常の情報収集がさらに効率化されますね。一般的な情報検索において、ググれ(Google検索)からChatれ(ChatGPTによる検索)がさらに増えていきそうです。
Day 9: Holiday treats for developers
概要
API関連の新機能・改善が多数発表されました。
主なポイント
o1モデルの正式API提供開始
- APIでfunction calling、構造化出力、developer messagesなどが利用可能に。
- Reasoning effortパラメータ導入で計算資源の最適化が可能。
- Vision(画像)入力対応。Tier 5顧客から段階的に提供開始。
リアルタイムAPIの強化
- WebRTC対応により、リアルタイム音声アプリケーション開発が容易化。
- ネットワーク変動対応、エコーキャンセルなどWebRTCの恩恵を受けられる。
- 価格引き下げ:GPT-4の音声トークンが60%値下げ、さらにGPT-4-miniオーディオトークンは10倍安価。
- Python SDK対応、新たなガードレールや関数呼び出し対応による機能拡充。
新しい微調整手法:Preference Fine-Tuning (DPO)
- 既存のファインチューニング・強化学習(強化微調整)に加え、2つの応答を比較し、好ましい方を学習させるDPO導入。
- スタイル、フォーマット、トーンなどユーザー好みの出力品質向上に有効。
- GPT-4-0.1に対応、まもなくGPT-4-miniにも対応予定。価格は従来の微調整と同等。
開発者体験の向上
- 新たにGo言語、Java向け公式SDK提供開始。
- APIキー取得やサインアップフローの簡易化。
- 過去のDev Daysセッション動画のYouTube公開。
- 発表者やPMによるAMAセッションを開発者フォーラムで開催。
今後の展開
- リアルタイムAPIのさらなる機能強化と事例拡大が期待されます。
コメント
今回の発表は、多くの開発者が求めていた機能を幅広くカバーしており、特にo1モデルの正式API提供、リアルタイムAPIのWebRTC対応による利便性向上、柔軟な微調整手法(DPO)の追加など、24年5月に発表された世界観を実現する内容を、実際に実現するための機能が提供されたと考えられます。
Azureからの提供は、時期は出ていませんが、以下のURLで発表がありました。 実際に使えるようになるのは、ホリデーシーズンなので、年明けになりそうな予感です。
Day 10: 1-800-CHATGPT
概要
より多くの人がアクセス可能となる世界を目指して、電話やWhatsAppを活用してChatGPTを利用する新しい方法が紹介されました。
主なポイント
ChatGPTの進化と展開
- 初期のWeb版リリースから、iOS・Androidアプリ、さらにはMacやWindows用アプリへと展開。
- 新たに、電話(1-800-CHAT-GPT)やWhatsAppでのアクセスが可能に。
利用方法の紹介
- 電話での利用は米国国内で無料通話が月15分可能。
- WhatsAppでは、どの国からでもメッセージを送信可能。
- これらはアカウントなしで使用可能で、簡単な手続きでアクセスできる。
デモ内容
- 電話やWhatsAppを使って、ChatGPTが以下のような様々なタスクに対応可能であることを実演。
- 地域情報の提供(例:観光地の説明)
- 言語翻訳(例:スペイン語での挨拶)
- 料理レシピの提案(ベジタリアンやヴィーガン、肉中心のオプション)
- 強化学習の説明など、教育的な質問にも対応。
- 電話やWhatsAppを使って、ChatGPTが以下のような様々なタスクに対応可能であることを実演。
今後の展開
- テキストベースの会話だけでなく、将来的には画像や検索機能を含む追加機能も利用可能にする計画。
- 現在これらの機能はモバイルアプリやWeb版のみで提供中。
今後の展開
- 電話やWhatsAppでのサービスをさらに充実させ、アカウント連携による高度な機能(画像や検索対応など)の提供を予定。
- より多様なユーザー層に対応するためのアクセシビリティの向上。
- さらなるフィードバックに基づくユーザーエクスペリエンスの改善。
コメント
電話やWhatsAppのような日常的なツールを利用できる点は画期的です。業務にどのように活用できるか、これからの事例が楽しみです。
Day 11: Work with apps
概要
今回の発表では、ChatGPTのデスクトップアプリ(Mac版・Windows版)を活用して、より円滑にアプリケーションや作業内容をChatGPTに共有し、コード編集、ドキュメント編集、リサーチ、コンテンツ作成などを効率化する機能が紹介されました。また、音声モードを活用して、音声対話による文書編集のサポートやターミナル・IDEとの連携など、実用性の高い機能拡張が行われています。
主なポイント
デスクトップアプリとの統合強化:
Mac用デスクトップアプリがよりネイティブで軽量化され、キーボードショートカット(Option+Space)で即座にChatGPTを呼び出せます。また、Windows版にも機能が順次拡大予定。アプリへの直接アクセスとコンテキスト共有:
ChatGPTがローカルで起動中のアプリ(IDE、ターミナル、Notion、Apple Notes、Quipなど)に直接「接続」し、選択中のテキストや表示内容を自動的に参照。これにより、コピー&ペーストの手間を削減し、コードの補完やドキュメント編集が容易になります。開発者フローの簡略化:
ターミナル(例:Warp)やIDE(Xcode、VS Code、JetBrains系など)上での操作をChatGPTが支援。コードの修正、コマンド生成、可視化(グラフ化)を行い、スムーズな開発プロセスを実現。リサーチ機能との組み合わせ:
ドキュメント編集時には検索モードをオンにすることで、ChatGPTがWeb検索を行い、文体や内容を他の部分と調和させるなど高度な編集が可能。音声対話モードの追加:
Advanced Voice Modeをデスクトップアプリ統合機能にも対応させ、文章校正やアイデア出しなどを自然な音声対話で行えるように。
今後の展開
- 2025年に向け、ChatGPTがますますエージェント的機能(ユーザーの代行タスク遂行)を強化する計画が示唆されています。
- Windows版への機能拡張や、より多くのアプリケーション連携、より高度なモデルとの統合も期待されます。
コメント
今回の機能強化は、ChatGPTを「単なる対話ボット」から「デスクトップ全体をカバーする生産性支援ツール」へと進化させる大きな一歩といえます。
自分の隣に自分の画面をみてサポートしてくれる人がいて、アドバイスとか作業をしてくれる世界観です。まさにMy Copilotです。
今後の新しい仕事のスタイルを予感させる革新的なアップデートですね。
Day 12: o3 preview & call for safety researchers
概要
新たなフロンティアモデル「o3」と「o3 mini」を発表しました。これらのモデルは、高度な推論能力を備え、特にコーディングや数学の分野で卓越した性能を示しています。また、安全性を重視し、外部研究者向けの公開テストを開始することを発表しました。
主なポイント
性能向上
- コーディング(Codeforces):o3は01を大幅に上回る性能(ELO 2727)。
- 数学(Amy & GPQ Diamond):96.7%と87.7%の正答率を達成。
- 新たなベンチマーク(ARC AGI):ARC AGIで87.5%のスコアを記録。
o3 miniの特徴
- コスト効率が高く、推論時間を用途に応じて調整可能(低・中・高)。
- プログラミングや数学において優れた性能を発揮。
- APIにおいて機能呼び出しや構造化出力をサポート。
安全性向上への取り組み
- 新技術「Deliberative Alignment」を採用し、安全境界の正確性を向上。
- 外部の安全性研究者によるテストを奨励。
補足説明
Amy(American Mathematics Competitions): Amyは、アメリカ数学コンテスト(AMC)の一部であり、高校生を対象とした数学競技です。AMCは、数学的才能を発掘・育成する目的で開催されており、優秀な成績を収めた学生は、さらに高度な競技や国際数学オリンピック(IMO)への道が開かれます。
GPQ Diamond(Graduate-Level Google-Proof Q&A Benchmark): GPQ Diamondは、生物学、物理学、化学の分野における大学院レベルの難易度を持つ質問集で、AIモデルの高度な推論能力を評価するためのベンチマークとして使用されます。このベンチマークは、専門家によって作成された高品質な問題を含み、AIの性能評価において重要な指標となっています。
ARC AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence): ARC AGIは、人工汎用知能(AGI)の能力を評価するためのベンチマークで、抽象的な推論や問題解決能力を測定することを目的としています。具体的には、入力と出力の例からルールを推測し、新たな問題に適用する能力を試すタスクが含まれています。このベンチマークは、AIモデルの汎用的な知能を評価するための重要な指標とされています。
Deliberative Alignment: OpenAIが開発した新しい安全性向上のための技術で、AIモデルが提示された入力(プロンプト)に対して、安全性を高めた応答を行うための方法を洗練させるものです。 従来のAI安全性トレーニングでは、「これは安全」、「これは不安全」という例をモデルに学習させるだけでした。この方法では、モデルが曖昧なケースや意図的に工夫されたケース(いわゆる「脱獄プロンプト」)を見抜くのが困難でした。Deliberative Alignmentでは、AIの推論能力を使い、モデル自身がプロンプトを深く分析しながら、安全性について「考える」ことができます。
今後の展開
- o3 miniの正式リリース:2024年1月末予定。
- o3の正式リリース:o3 miniの後、早期に予定。
- 次世代ベンチマーク開発:2025年に向け、ARC AGIの更新と新たな基準の開発を予定。
コメント
o1が出たと思ったら、次はo3とは。
前から、OpenAI社もAIモデルの安全性に関していろいろな取り組みをしていますが、
今回、特に安全性を意識した外部テストの取り組みは、技術と倫理の両立を目指すOpenAIの姿勢を強調した形となりました。
今後のモデルの進化とその応用範囲の広がりが非常に楽しみです。
以上、12 Days of OpenAIでした!
執筆
AITC センター長
深谷 勇次