各生成AIモデルの最大トークン数比較ガイド

2026年5月28日 2026年6月3日

fukayayuji

はじめに
生成AIモデル選定のチェックポイント
主要モデルの最新仕様一覧（2026年5月更新：GPT 5.5/Gemma 4/Claude Opus 4.8/Gemini 3.5 Flash追加）
まとめ

はじめに

生成AIの性能や使い勝手を語るうえで欠かせない指標が、「コンテクスト長」「最大入力トークン」「最大出力トークン」です。これらの数値はモデルごとに大きく異なり、生成AIの業務利用設計に直結します。

本記事は、生成AIモデル選定のチェックポイントを説明した後に、GPTシリーズ／Claude／Gemini 等の主要モデルのそれぞれの値を横断比較します。

生成AIの「コンテクスト長」「最大入出力トークン」に関しては、以下を参照ください。

※本記事の、「主要モデルの最新仕様一覧」の情報は、最新の生成AIモデルが発表されたタイミングで、随時追記しています

生成AIモデル選定のチェックポイント

生成AIモデルの選定は、単なるスペック比較だけでなく、自社の業務特性や目標に合致しているかを見極めることが重要です。以下の観点を深く掘り下げて検討することが重要です。

1．用途

要約、文章生成、データ解析、対話応答など、主な利用目的を明確化します。複合的に活用する場合は、どの機能を最優先するかを決めることがモデル選びの第一歩です。

2．データ量と種類

長期履歴や数百ページ規模の文書を扱うか、短文・単発リクエスト中心かを確認します。さらにテキスト以外に画像や音声などマルチモーダル対応が必要かも考慮します。
ドキュメントレビューや契約書比較など、長い履歴や大量の文書をまとめて扱いたい場合は、コンテクスト長が大きいモデルがおすすめです。
長文レポート生成や物語作成のように出力の長さを重視する場合は、最大出力トークンが大きいモデルを選びましょう。GPT-5などは128k級の出力にも対応します。

3．コスト構造

トークン単価だけでなく、API呼び出し頻度、推論時間による従量課金、モデルの種類ごとの価格差を含めて総合的に試算します。社内の利用拡大に伴うコスト増も見越しましょう。

4．応答速度と安定性

リアルタイム性が重要な顧客対応や会話用途か、時間をかけても高精度な出力が必要な分析用途かで選択肢は変わります。応答の一貫性や再現性も評価軸に加えると安心です。

5．将来の拡張性

現時点のニーズだけでなく、今後の業務拡大や新規プロジェクトに対応できるモデルかどうか、アップデートや新機能追加の頻度も含めて検討しましょう。

6．セキュリティと運用要件

機密データを扱う場合、データ保持ポリシー、モデルの安全性、ログや監査、暗号化やアクセス制御などの要件を満たすか確認します。

主要モデルの最新仕様一覧（2026年5月更新：GPT 5.5/Gemma 4/Claude Opus 4.8/Gemini 3.5 Flash追加）

※ 下表は公式ドキュメント情報を元に作成。ベータ機能やAPI更新で変動する場合があります。
※※専門的な業務に特化して設計された最新のOpenAIのフロンティアモデルであるGPT-5.4、より高度な推論機能を備えたGeminiモデルであるGemini 3.5 Flash、Gemma 4、Anthropicの Claude Opus 4.8など、最新モデルを随時追記しています

モデル名	コンテクスト長	最大入力トークン	最大出力トークン	補足説明
GPT-5.5	1,050,000	922,000	128,000	https://developers.openai.com/api/docs/models/gpt-5.5 GPT-5.5では、入力トークンが272Kを超えるプロンプトについて、standard、batch、flexの各利用形態において、セッション全体に対して入力料金は2倍、出力料金は1.5倍になる
GPT-5.5 Pro	1,050,000	922,000	128,000	https://developers.openai.com/api/docs/models/gpt-5.5-pro GPT-5.5 Proは難しい問題に取り組むよう設計されているため、一部のリクエストでは完了までに数分かかる場合がある。
GPT‑5.4 mini	400,000	272,000	128,000	OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-mini
GPT‑5.4 nano	400,000	272,000	128,000	OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-nano
GPT-5.4	1,050,000	922,000	128,000	OpenAIモデルページ。1.05M context windowに増加。 https://developers.openai.com/api/docs/models/gpt-5.4
GPT-5.4 Pro	1,050,000	922,000	128,000	OpenAIモデルページ。 https://developers.openai.com/api/docs/models/gpt-5.4-pro
GPT-5.2	400,000	272,000	128,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5.2
GPT-5.1	400,000	272,000	128,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5.1
GPT-5.3-Codex	400,000	272,000	128,000	OpenAIモデルページ。 https://openai.com/ja-JP/index/introducing-gpt-5-3-codex/ https://platform.openai.com/docs/models/gpt-5-codex
GPT‑4o	128,000	-	16,384	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4o
GPT‑4o mini	128,000	-	16,384	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4o-mini
o1	200,000	-	100,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/o1
o3‑mini	200,000	-	100,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/o3-mini
o4‑mini	200,000	-	100,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/o4-mini
o3	200,000	-	100,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/o3
GPT‑4.1	1,047,576	-	32,768	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4.1
GPT‑4.1 mini	1,047,576	-	32,768	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-4.1-mini
o3‑pro	200,000	-	100,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/o3-pro
gpt‑oss‑20B/120B	131,072	-	≤131,072 （理論上限）	ローカル推論では入出力の配分は実行エンジン設定次第 https://platform.openai.com/docs/models/gpt-oss-120b
GPT‑5（main/mini/nano）	400,000	272,000	128,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5 「API では、すべての GPT‑5 モデルが最大 272,000 の入力トークンと最大 128,000 の推論・出力トークンに対応しており、合計で最大 400,000 トークンのコンテキスト長を扱えます。」と説明 https://openai.com/ja-JP/index/introducing-gpt-5-for-developers/
GPT-5-Codex	400,000	272,000	128,000	OpenAIモデルページ。 https://platform.openai.com/docs/models/gpt-5-codex
Gemini 3.5 Flash	1M	1,048,576	65,536	Googleの高速・高性能モデル。テキスト、画像、動画、音声、PDFを入力でき、出力はテキスト。Thinking、コード実行、関数呼び出し、構造化出力、検索グラウンディング、URLコンテキスト、キャッシュに対応。知識カットオフは2025年1月。 https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flash?hl=ja
Gemini 3.1 Pro	1,114,112	1,048,576	65,536	Gemini APIドキュメント（モデルコード: gemini-3.1-pro-preview） https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview?hl=ja
Gemini 3 Pro	1,114,112	1,048,576	65,536	Gemini APIドキュメント https://ai.google.dev/gemini-api/docs/models/gemini-3-pro-preview?hl=ja
Gemini 2.0 Flash/-Lite	1,056,768	1,048,576	8,192	Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-0-flash?hl=ja
Gemma 4	256,000（※E2B/E4Bは128,000）	可変（合計内）	可変（合計内）	E2B/E4Bは128K、26B A4B/31Bは256K。Open-weightモデルのため、入出力の配分は総コンテクスト枠内で可変。実運用上の上限は推論ランタイム設定にも依存。 https://ai.google.dev/gemma/docs/core/model_card_4?hl=ja
Gemma 3	128,000 （※1Bは 32,000）	可変（合計内）	可変（合計内）	「出力は入力を差し引いた合計枠内で可変」と説明。 https://ai.google.dev/gemma/docs/core?hl=ja
Gemini 2.5 Flash/‑Lite	1,114,111	1,048,576	65,535	Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=ja
Gemini 2.5 Pro	1,114,111	1,048,576	65,535	Vertex AI公式の Max input / Max output を合算して表のコンテクスト長を算出。 https://cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=ja
Gemma 3n	32,000	可変（合計内）	可変（合計内）	出力上限は推論ランタイム設定に依存。 https://ai.google.dev/gemma/docs/gemma-3n?hl=ja
Claude Opus 4.8	1,000,000	1,000,000（コンテクスト長に依存。128,000出力を確保する設計では実効入力は約872,000）	128,000	長時間のエージェント型コーディング、高自律タスク向け https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8
Claude Opus 4.7	1,000,000	1M（コンテクスト長に依存）	128,000	「最大トークン数競争」よりも「長大コンテキストの安定運用」に重心を置いたモデル https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
Claude Opus 4.6	200,000 （標準）／1M（beta）	200,000（標準）／1M（beta）	128,000	200Kコンテキスト（betaで1M）＋最大128K出力 https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-6
Claude Sonnet 4.5	200,000	136,000	64,000	Anthropic公式比較表。 https://docs.claude.com/en/docs/about-claude/models/overview#model-comparison-table
Claude Sonnet 3.7	200,000	136,000	64,000 （※βで 128,000 可）	Anthropic公式の比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview
Claude Sonnet 4	200,000 （※βで 1,000,000 可）	136,000 （※β時は 936,000）	64,000	Anthropic公式の比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview
Claude Opus 4.1	200,000	168,000	32,000	Anthropic公式比較表。 https://docs.anthropic.com/en/docs/about-claude/models/overview
Qwen3.6-27B	262,144	出力枠と共有。最大出力81,920を確保するなら約180,224、推奨出力32,768なら約229,376	推奨32,768、最大81,920	https://ai.azure.com/catalog/models/qwen-qwen3.6-27b
DeepSeek-V4-Pro/Flash	1,000,000	未公表。最大出力384Kを確保する前提なら実効約616K	384,000	https://ai.azure.com/catalog/models/DeepSeek-V4-Flash

まとめ

昨今は 100万トークン級のコンテクスト長や、思考時間を調整する「Thinking」系の進化により、長さだけでなく推論の質と柔軟性が重要になっています。

用途と制約（精度・コスト・速度）を踏まえ、最適なモデルの組み合わせを選ぶことが、生成AI活用のROI最大化につながります。

ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。

AITC | AI TRANSFORMATION CENTER

お問い合わせフォーム

🕒️2025年7月28日

筆者
AITC センター長
深谷勇次

コラムカテゴリー: AIエージェント、生成AI、自然言語処理AI

各生成AIモデルの最大トークン数比較ガイド

はじめに

生成AIのコンテクスト長と最大入出力トークンをGPT5で解説

生成AIモデル選定のチェックポイント

主要モデルの最新仕様一覧（2026年5月更新：GPT 5.5/Gemma 4/Claude Opus 4.8/Gemini 3.5 Flash追加）

まとめ

AIシェイムを越える評価軸―問うべきは「AIを使ったか」ではなく「価値を生んだか」

Microsoft Build 2026～生成AIは「答えるAI」から「働くAI」へ～New!!