各生成AIモデルの最大トークン数比較ガイド

目次
はじめに
生成AIの性能や使い勝手を語るうえで欠かせない指標が、「コンテクスト長」「最大入力トークン」「最大出力トークン」です。これらの数値はモデルごとに大きく異なり、生成AIの業務利用設計に直結します。
本記事は、 生成AIモデル選定のチェックポイントを説明した後に、GPTシリーズ/Claude/Gemini 等の主要モデルのそれぞれの値を横断比較します。
生成AIの「コンテクスト長」「最大入出力トークン」に関しては、以下を参照ください。
※本記事の、「主要モデルの最新仕様一覧」の情報は、最新の生成AIモデルが発表されたタイミングで、随時追記しています
生成AIモデル選定のチェックポイント
生成AIモデルの選定は、単なるスペック比較だけでなく、自社の業務特性や目標に合致しているかを見極めることが重要です。以下の観点を深く掘り下げて検討することが重要です。
1.用途
要約、文章生成、データ解析、対話応答など、主な利用目的を明確化します。複合的に活用する場合は、どの機能を最優先するかを決めることがモデル選びの第一歩です。
2.データ量と種類
長期履歴や数百ページ規模の文書を扱うか、短文・単発リクエスト中心かを確認します。さらにテキスト以外に画像や音声などマルチモーダル対応が必要かも考慮します。
ドキュメントレビューや契約書比較など、長い履歴や大量の文書をまとめて扱いたい場合は、コンテクスト長が大きいモデルがおすすめです。
長文レポート生成や物語作成のように出力の長さを重視する場合は、最大出力トークンが大きいモデルを選びましょう。GPT-5などは128k級の出力にも対応します。
3.コスト構造
トークン単価だけでなく、API呼び出し頻度、推論時間による従量課金、モデルの種類ごとの価格差を含めて総合的に試算します。社内の利用拡大に伴うコスト増も見越しましょう。
4.応答速度と安定性
リアルタイム性が重要な顧客対応や会話用途か、時間をかけても高精度な出力が必要な分析用途かで選択肢は変わります。応答の一貫性や再現性も評価軸に加えると安心です。
5.将来の拡張性
現時点のニーズだけでなく、今後の業務拡大や新規プロジェクトに対応できるモデルかどうか、アップデートや新機能追加の頻度も含めて検討しましょう。
6.セキュリティと運用要件
機密データを扱う場合、データ保持ポリシー、モデルの安全性、ログや監査、暗号化やアクセス制御などの要件を満たすか確認します。
主要モデルの最新仕様一覧(2026年5月更新:GPT 5.5/Gemma 4/Claude Opus 4.8/Gemini 3.5 Flash追加)
※ 下表は公式ドキュメント情報を元に作成。ベータ機能やAPI更新で変動する場合があります。
※※専門的な業務に特化して設計された最新のOpenAIのフロンティアモデルであるGPT-5.4、より高度な推論機能を備えたGeminiモデルであるGemini 3.5 Flash、Gemma 4、Anthropicの Claude Opus 4.8など、最新モデルを随時追記しています
| モデル名 | コンテクスト長 | 最大入力トークン | 最大出力トークン | 補足説明 |
|---|---|---|---|---|
| GPT-5.5 | 1,050,000 | 922,000 | 128,000 | https://developers.openai.com/api/docs/models/gpt-5.5 GPT-5.5では、入力トークンが272Kを超えるプロンプトについて、standard、batch、flexの各利用形態において、セッション全体に対して入力料金は2倍、出力料金は1.5倍になる |
| GPT-5.5 Pro | 1,050,000 | 922,000 | 128,000 | https://developers.openai.com/api/docs/models/gpt-5.5-pro GPT-5.5 Proは難しい問題に取り組むよう設計されているため、一部のリクエストでは完了までに数分かかる場合がある。 |
| GPT‑5.4 mini | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-mini |
| GPT‑5.4 nano | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-nano |
| GPT-5.4 | 1,050,000 | 922,000 | 128,000 | OpenAIモデルページ。1.05M context windowに増加。 https://developers.openai.com/api/docs/models/gpt-5.4 |
| GPT-5.4 Pro | 1,050,000 | 922,000 | 128,000 | OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-pro |
| GPT-5.2 | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5.2 |
| GPT-5.1 | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5.1 |
| GPT-5.3-Codex | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://openai.com/ja-JP/index/introducing-gpt-5-3-codex/ https://platform.openai.com/docs/models/gpt-5-codex |
| GPT‑4o | 128,000 | - | 16,384 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4o |
| GPT‑4o mini | 128,000 | - | 16,384 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4o-mini |
| o1 | 200,000 | - | 100,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/o1 |
| o3‑mini | 200,000 | - | 100,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/o3-mini |
| o4‑mini | 200,000 | - | 100,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/o4-mini |
| o3 | 200,000 | - | 100,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/o3 |
| GPT‑4.1 | 1,047,576 | - | 32,768 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4.1 |
| GPT‑4.1 mini | 1,047,576 | - | 32,768 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4.1-mini |
| o3‑pro | 200,000 | - | 100,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/o3-pro |
| gpt‑oss‑20B/120B | 131,072 | - | ≤131,072 (理論上限) | ローカル推論では入出力の配分は実行エンジン設定次第 https://platform.openai.com/docs/models/gpt-oss-120b |
| GPT‑5(main/mini/nano) | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5 「API では、すべての GPT‑5 モデルが最大 272,000 の入力トークンと最大 128,000 の推論・出力トークンに対応しており、合計で最大 400,000 トークンのコンテキスト長を扱えます。」と説明 https://openai.com/ja-JP/index/introducing-gpt-5-for-developers/ |
| GPT-5-Codex | 400,000 | 272,000 | 128,000 | OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5-codex |
| Gemini 3.5 Flash | 1M | 1,048,576 | 65,536 | Googleの高速・高性能モデル。テキスト、画像、動画、音声、PDFを入力でき、出力はテキスト。Thinking、コード実行、関数呼び出し、構造化出力、検索グラウンディング、URLコンテキスト、キャッシュに対応。知識カットオフは2025年1月。 https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash?hl=ja |
| Gemini 3.1 Pro | 1,114,112 | 1,048,576 | 65,536 | Gemini APIドキュメント(モデルコード: gemini-3.1-pro-preview) https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview?hl=ja |
| Gemini 3 Pro | 1,114,112 | 1,048,576 | 65,536 | Gemini APIドキュメント https://ai.google.dev/gemini-api/docs/models/gemini-3-pro-preview?hl=ja |
| Gemini 2.0 Flash/-Lite | 1,056,768 | 1,048,576 | 8,192 | Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash?hl=ja |
| Gemma 4 | 256,000(※E2B/E4Bは128,000) | 可変(合計内) | 可変(合計内) | E2B/E4Bは128K、26B A4B/31Bは256K。Open-weightモデルのため、入出力の配分は総コンテクスト枠内で可変。実運用上の上限は推論ランタイム設定にも依存。 https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja |
| Gemma 3 | 128,000 (※1Bは 32,000) | 可変(合計内) | 可変(合計内) | 「出力は入力を差し引いた合計枠内で可変」と説明。 https://ai.google.dev/gemma/docs/core?hl=ja |
| Gemini 2.5 Flash/‑Lite | 1,114,111 | 1,048,576 | 65,535 | Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=ja |
| Gemini 2.5 Pro | 1,114,111 | 1,048,576 | 65,535 | Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=ja |
| Gemma 3n | 32,000 | 可変(合計内) | 可変(合計内) | 出力上限は推論ランタイム設定に依存。 https://ai.google.dev/gemma/docs/gemma-3n?hl=ja |
| Claude Opus 4.8 | 1,000,000 | 1,000,000(コンテクスト長に依存。128,000出力を確保する設計では実効入力は約872,000) | 128,000 | 長時間のエージェント型コーディング、高自律タスク向け https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8 |
| Claude Opus 4.7 | 1,000,000 | 1M(コンテクスト長に依存) | 128,000 | 「最大トークン数競争」よりも「長大コンテキストの安定運用」に重心を置いたモデル https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7 |
| Claude Opus 4.6 | 200,000 (標準)/1M(beta) | 200,000(標準)/1M(beta) | 128,000 | 200Kコンテキスト(betaで1M)+最大128K出力 https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6 |
| Claude Sonnet 4.5 | 200,000 | 136,000 | 64,000 | Anthropic公式比較表。 https://docs.claude.com/en/docs/about-claude/models/overview#model-comparison-table |
| Claude Sonnet 3.7 | 200,000 | 136,000 | 64,000 (※βで 128,000 可) | Anthropic公式の比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview |
| Claude Sonnet 4 | 200,000 (※βで 1,000,000 可) | 136,000 (※β時は 936,000) | 64,000 | Anthropic公式の比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview |
| Claude Opus 4.1 | 200,000 | 168,000 | 32,000 | Anthropic公式比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview |
| Qwen3.6-27B | 262,144 | 出力枠と共有。最大出力81,920を確保するなら約180,224、推奨出力32,768なら約229,376 | 推奨32,768、最大81,920 | https://ai.azure.com/catalog/models/qwen-qwen3.6-27b |
| DeepSeek-V4-Pro/Flash | 1,000,000 | 未公表。最大出力384Kを確保する前提なら実効約616K | 384,000 | https://ai.azure.com/catalog/models/DeepSeek-V4-Flash |
まとめ
昨今は 100万トークン級のコンテクスト長や、思考時間を調整する「Thinking」系の進化により、長さだけでなく推論の質と柔軟性が重要になっています。
用途と制約(精度・コスト・速度)を踏まえ、最適なモデルの組み合わせを選ぶことが、生成AI活用のROI最大化につながります。
ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。
筆者
AITC センター長
深谷 勇次


