各生成AIモデルの最大トークン数比較ガイド

はじめに

生成AIの性能や使い勝手を語るうえで欠かせない指標が、「コンテクスト長」「最大入力トークン」「最大出力トークン」です。これらの数値はモデルごとに大きく異なり、生成AIの業務利用設計に直結します。

本記事は、 生成AIモデル選定のチェックポイントを説明した後に、GPTシリーズ/Claude/Gemini 等の主要モデルのそれぞれの値を横断比較します。

生成AIの「コンテクスト長」「最大入出力トークン」に関しては、以下を参照ください。

生成AIのコンテクスト長と最大入出力トークンをGPT5で解説

はじめに 近年の生成AI(ChatGPT、Claude、Geminiなど)は、コンテクスト長の大幅拡大により、長文の資料や大量の情報を一度に扱えるようになりました。 特に昨今では AI…

 

生成AIモデル選定のチェックポイント

生成AIモデルの選定は、単なるスペック比較だけでなく、自社の業務特性や目標に合致しているかを見極めることが重要です。以下の観点を深く掘り下げて検討することが重要です。

1.用途

要約、文章生成、データ解析、対話応答など、主な利用目的を明確化します。複合的に活用する場合は、どの機能を最優先するかを決めることがモデル選びの第一歩です。

2.データ量と種類

長期履歴や数百ページ規模の文書を扱うか、短文・単発リクエスト中心かを確認します。さらにテキスト以外に画像や音声などマルチモーダル対応が必要かも考慮します。
ドキュメントレビューや契約書比較など、長い履歴や大量の文書をまとめて扱いたい場合は、コンテクスト長が大きいモデル(例:Gemini 2.xシリーズ、GPT-4.1など)がおすすめです。
長文レポート生成や物語作成のように出力の長さを重視する場合は、最大出力トークンが大きいモデルを選びましょう。Claude Sonnet 3.7(β)やGPT-5などは128k級の出力にも対応します。

3.コスト構造

トークン単価だけでなく、API呼び出し頻度、推論時間による従量課金、モデルの種類ごとの価格差を含めて総合的に試算します。社内の利用拡大に伴うコスト増も見越しましょう。

4.応答速度と安定性

リアルタイム性が重要な顧客対応や会話用途か、時間をかけても高精度な出力が必要な分析用途かで選択肢は変わります。応答の一貫性や再現性も評価軸に加えると安心です。

5.将来の拡張性

現時点のニーズだけでなく、今後の業務拡大や新規プロジェクトに対応できるモデルかどうか、アップデートや新機能追加の頻度も含めて検討しましょう。

6.セキュリティと運用要件

機密データを扱う場合、データ保持ポリシー、モデルの安全性、ログや監査、暗号化やアクセス制御などの要件を満たすか確認します。

主要モデルの最新仕様一覧(2026年2月更新:GPT5.2/ GPT-5.3-Codex/ Gemini 3 Pro/Gemini 3.1 Pro/Claude Opus 4.6追加)

※ 下表は公式ドキュメント情報を元に作成。ベータ機能やAPI更新で変動する場合があります。

※※最新モデルが出たら適宜更新します。

-より長く、より正確に考えられる“高精度・長文対応の次世代推論モデル:GPT-5.2、より高度な推論機能を備えたGeminiモデルであるGemini 3 Pro、Gemini 3.1 Pro、Anthropicの Claude Opus 4.6を追加しました

モデル名コンテクスト長最大入力トークン最大出力トークン補足説明
GPT-5.2400,000272,000128,000OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-5.2
GPT-5.1400,000272,000128,000OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-5.1

ChatGPT Enterprise / Edu のヘルプでは、
GPT-5.1 のコンテクスト長は 128K
GPT-5.1 Thinking は 196K
と書かれている。これは ChatGPT 製品側(UI)での利用上限 で、API の生モデル仕様(400K)より小さく制限されている
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-and-edu-models-limits
GPT-5.3-Codex400,000272,000128,000OpenAIモデルページ。
https://openai.com/ja-JP/index/introducing-gpt-5-3-codex/
https://platform.openai.com/docs/models/gpt-5-codex
GPT‑4o128,000-16,384OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-4o
GPT‑4o mini128,000-16,384OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-4o-mini
o1200,000-100,000OpenAIモデルページ。
https://platform.openai.com/docs/models/o1
o3‑mini200,000-100,000OpenAIモデルページ。
https://platform.openai.com/docs/models/o3-mini
o4‑mini200,000-100,000OpenAIモデルページ。
https://platform.openai.com/docs/models/o4-mini
o3200,000-100,000
OpenAIモデルページ。
https://platform.openai.com/docs/models/o3
GPT‑4.11,047,576-32,768OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-4.1
GPT‑4.1 mini1,047,576-32,768OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-4.1-mini
o3‑pro200,000-100,000OpenAIモデルページ。
https://platform.openai.com/docs/models/o3-pro
gpt‑oss‑20B/120B131,072-≤131,072
(理論上限)
ローカル推論では入出力の配分は実行エンジン設定次第
https://platform.openai.com/docs/models/gpt-oss-120b
GPT‑5(main/mini/nano)400,000272,000128,000OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-5
「API では、すべての GPT‑5 モデルが最大 272,000 の入力トークンと最大 128,000 の推論・出力トークンに対応しており、合計で最大 400,000 トークンのコンテキスト長を扱えます。」と説明
https://openai.com/ja-JP/index/introducing-gpt-5-for-developers/
GPT-5-Codex400,000272,000128,000OpenAIモデルページ。
https://platform.openai.com/docs/models/gpt-5-codex
Gemini 3.1 Pro1,114,1121,048,57665,536Gemini APIドキュメント(モデルコード: gemini-3.1-pro-preview)
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview?hl=ja
Gemini 3 Pro1,114,1121,048,57665,536Gemini APIドキュメント
https://ai.google.dev/gemini-api/docs/models/gemini-3-pro-preview?hl=ja
Gemini 2.0 Flash/-Lite1,056,7681,048,5768,192Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash?hl=ja
Gemma 3128,000
(※1Bは 32,000)
可変(合計内)可変(合計内)「出力は入力を差し引いた合計枠内で可変」と説明。
https://ai.google.dev/gemma/docs/core?hl=ja
Gemini 2.5 Flash/‑Lite1,114,1111,048,57665,535Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=ja
Gemini 2.5 Pro1,114,1111,048,57665,535Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。
https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=ja
Gemma 3n32,000可変(合計内)可変(合計内)出力上限は推論ランタイム設定に依存。
https://ai.google.dev/gemma/docs/gemma-3n?hl=ja
 Claude Opus 4.6200,000 (標準)/1M(beta)200,000(標準)/1M(beta)128,000200Kコンテキスト(betaで1M)+最大128K出力
https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6
Claude Sonnet 4.5200,000136,00064,000Anthropic公式比較表。
https://docs.claude.com/en/docs/about-claude/models/overview#model-comparison-table
Claude Sonnet 3.7200,000136,00064,000
(※βで 128,000 可)
Anthropic公式の比較表。
https://docs.anthropic.com/en/docs/about-claude/models/overview
Claude Sonnet 4200,000
(※βで 1,000,000 可)
136,000
(※β時は 936,000)
64,000Anthropic公式の比較表。
https://docs.anthropic.com/en/docs/about-claude/models/overview
Claude Opus 4.1200,000168,00032,000Anthropic公式比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview

まとめ

昨今は 100万トークン級のコンテクスト長や、思考時間を調整する「Thinking」系の進化により、長さだけでなく推論の質と柔軟性が重要になっています。

用途と制約(精度・コスト・速度)を踏まえ、最適なモデルの組み合わせを選ぶことが、生成AI活用のROI最大化につながります。


ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。

筆者
AITC センター長
深谷 勇次