AI Ready Data　生成AI活用のボトルネックはファイル形式にある

2026年2月12日 2026年4月13日

fukayayuji

～AI Ready Dataを作るうえで、Markdown（マークダウン）が効き、Excel／PowerPointが詰まりやすい理由～

はじめに
AI Ready Dataとは何か（“AIが読める”ではなく“AIが迷わない”）
なぜMarkdownがAI Ready Dataとして良いのか
MarkdownはRAGにも有効
とはいえ、現場のドキュメントはExcelとかPowerPointとかWordですが、、、
データExcelと帳票Excelは完全に別物で、帳票Excelは厳しい
PowerPointが厳しい理由
Word／PDFが厳しい理由
生成AI視点の“読み取りやすさ”比較表
まとめ

はじめに

生成AIを業務に活用しようとすると、多くのチームが同じ壁にぶつかります。

「モデルやプロンプトは頑張った。でも、社内ドキュメントを読ませると回答が不安定だったり、検索が当たらなかったりするので、結局手で直す、、、」

原因はシンプルで、生成AIの性能よりも“入力されるデータの状態（AI Ready Data）”が支配的だからです。

この記事でお話ししていますが、GPT5系など、昨今の生成AIはすでに本当に賢く、回答が不充分な原因は、ほぼ生成AIに渡している情報に起因します。

AITC | AI TRANSFORMATION CENTER

モデルオーバーハングを越えて、生成AIを業務価値に変える

🕒️2026年1月26日

特に現場では、Excel・PowerPoint・Word／PDFが情報資産の中心になりがちですが、これらは人間には読みやすい一方で、AIにとっては「意味構造」が取り出しづらいデータです。

本記事では、「なぜそうなるのか」を分解し、Markdown（マークダウン）を軸にAI Ready Data（エイアイレディーデータ）に関してご説明します。

AI Ready Dataとは何か（“AIが読める”ではなく“AIが迷わない”）

AI Ready Dataは、生成AIが解釈ミスしにくい形で、構造と文脈が明示されたデータです。

ここで重要なのは、「テキスト化されている」だけでは不十分で、見出し・箇条書き・定義・前提・例外・粒度などの“意味の区切り”が、機械にも分かる形で表現されていることです。

この観点で、Markdownは非常に最適です。Markdownとは、文章をシンプルな記号で装飾できる軽量な記法で、見出し・箇条書き・リンク・コードなどを、HTMLのような複雑なタグを書かずに表現できます。

なぜMarkdownがAI Ready Dataとして良いのか

Markdownが生成AIと相性が良い理由は、構造がプレーンテキスト上に明示されるからです。

見出し（#）、箇条書き（-）、番号付き手順（1.）などが、視覚ではなくテキスト記号として残るため、取り込み後も構造が崩れにくいです。

以下のコラムでも少し触れているように、Markdownは構造が明快でAIが理解しやすく、学習データにも多く採用されています。

AITC | AI TRANSFORMATION CENTER

生成AIを思いのままに！実践的なプロンプトのコツをデータサイエンティストが紹介

🕒️2025年9月3日

MarkdownはRAGにも有効

RAG（Retrieval-Augmented Generation）は、検索で拾った情報（チャンク）を元に生成AIが回答する方式です。RAGの精度は「何を、どう分割（チャンク化）して、どんなメタデータを付けて検索するか」に大きく依存します。

MarkdownはRAGのデータソースとして、以下の理由で特に有効だと言えます。

1. 見出し階層（H1/H2/H3…）が“意味の境界”としてそのまま使える

セクション単位でチャンク化しやすく、検索結果にも文脈が残りやすい

2. チャンクに“見出しパス”をメタデータとして付与しやすい

例：「API Reference > Auth > OAuth2」のような階層をそのまま保持できる

3. 実装面でも、Markdown見出しを利用した分割はしやすい

要するに、Markdownは「AIが読む」だけでなく「AIが探す」=RAGのデータとして良い形式と言えます。

とはいえ、現場のドキュメントはExcelとかPowerPointとかWordですが、、、

とはいえ、理屈は分かっていても現場の実態はタイトル通り、日々の業務として回っているのは、Markdownよりも ExcelやPowerPoint であることが圧倒的に多いはずです。

要件整理はExcel、方針共有はPowerPoint、レビューや稟議も結局そのファイルが起点になる。だから生成AI活用の議論も、自然と「じゃあこのExcelとPowerPointをAIで読ませて、うまく使えない？」という話になりがちです。

ただ、ここで一つだけ先に押さえておきたいポイントがあります。それは、

Excel／PowerPointは“人間が読むために最適化された形式”で、AIが意味構造を取り出すにはハードルが高い場面が少なくない

ということです。

この違いを理解せずに生成AI活用のプロジェクトを推進すると、RAG以前に「そもそも取り込み・分割・検索が安定しない」という壁にぶつかります。

では、どんなExcelならAIに強く、どんなExcelだとだめなのでしょうか？

データExcelと帳票Excelは完全に別物で、帳票Excelは厳しい

現場のExcelは次の2種類に分かれます。

1. データExcel（AIに比較的向く）

枚の整った表、1行目が列名、セル結合なし、空行なし、1セル1値
→いわゆる、CSVっぽいExcelです

2. 帳票Excel（AIに厳しい）

セル結合、見出しの段組、複数ブロック、複数シート分割、印刷範囲前提、注記が表内に混在
→いわゆる、人間が読む・印刷するために見た目を整えたExcelです

生成AIは、Excelを読むときにだいたいこういう前提で解釈します。

列（カラム）＝項目の意味（例：日付、部門、金額…）
行＝1件分のレコード（例：1つの取引、1つの申請…）
セル＝1つの値（例：2026/3/1、クロスイノベーション本部、120000…）

この形に近いほど、AIは「これは表だ」「この列は何の意味だ」「この行は1件だ」と判断しやすくなり、取り込み → 分割（チャンク化）→ 検索（RAG）→ 回答の流れが安定します。

一方、帳票Excelは“読む人”にとっては親切ですが、AIにとっては落とし穴が増えます。

理由はシンプルで、意味の手がかりが「見た目」に埋め込まれているからです。

例えば、

セル結合で「見出しっぽく見せている」
罫線や空白で「ここで表が区切れている」
右上に注記があり「人は自然に補足として読む」
印刷レイアウト前提で、表が分割されている

こうした情報は人間には直感的ですが、AIの取り込み処理では

「どこが見出しで、どこからがデータなのか」

「このブロックは同じ表の続きなのか、別の表なのか」

が曖昧になり、結果として誤った表構造として解釈される事態が発生します。

つまり、帳票Excelは “意味”がセルの値だけで完結しておらず、座標・見た目・レイアウトに依存しているため、AIが読み違えやすいのです。

PowerPointが厳しい理由

PowerPointは「伝えるためのレイアウト」が主役です。

テキスト抽出では、視覚的な配置順と内部的な読み上げ順が一致しない場合があり、意図しない順番で解釈されやすい課題があります。

さらにもう1つ、実務上の大きな問題があります。

PowerPointには、画像・スクリーンショット・グラフ・表（場合によっては“表の画像”）が大量に入ります。ここがAI取り込みの落とし穴になりがちです。

画像内テキストは、そのままだと“テキスト”として抽出できない

OCRが必要になるか、抽出漏れ・誤読が起きる（特に小さい文字・グラフの軸ラベル）

グラフ／図は“意味”が本体なのに、抽出されるのは見た目の断片になりやすい

何を示すグラフか（指標・単位・期間・結論）が欠ける

「なにかの画像がはってある」ことしか分からない場合が多い

＝ AIも“意味説明”が無ければ理解に困る

つまり、PowerPointは「文章量が少ない」だけでなく、情報の核が“非テキスト要素”として埋め込まれがちで、AIにとって不利になりやすいわけです。

Word／PDFが厳しい理由

WordやPDFは、社内外に配布する「完成版ドキュメント」として非常に優秀です。特にPDFは、環境が変わっても見た目が崩れないという点で、最終成果物として重宝されます。

ただし、生成AIに読み込ませるという観点では、この“見た目の強さ”が逆にハードルになる場合があります。

PDF

PDFは、人間が読むと「段落」「見出し」「表」に見えますが、内部的には文字や線がページ上のどこに置かれているか（配置情報）として管理されていることが多いです。
そのため、AIや抽出ツールが内容を取り出そうとすると、

どこが見出しで、どこからが本文か
段落の区切りはどこか
表の行・列はどう対応しているか
2段組の左右どちらから読むべきか

といった“意味構造”を、毎回推測しながら復元する必要があります。結果として、抽出が不安定になりやすいのです。

また、「見た目どおりにコピペできない」問題が起きる場合があります。典型例は以下です。

順序が入れ替わる：2段組や図の回り込みで、貼り付けると左右の文が混ざる
改行や空白が崩れる：1行ごとに変な改行が入る／単語の途中で改行される
文字が欠ける・別文字になる：埋め込みフォントや特殊記号で、貼り付けると別の文字に化ける
透明テキストが混ざる：PDF上で見えないテキスト層が混入して違う内容が貼られる

これは、PDFが「人間に見せるための見た目」を優先して作られているため、“文章としての読み順”が内部に明確に保存されていない（または、複数のレイヤーが存在する）点に原因があります。

Word(.docx)

見出しスタイルや箇条書き、表などを正しく使っていれば、AIにとっても比較的扱いやすくなります。

一方で、現場のWordは次の理由で見た目は整っていても構造が壊れているケースがよくあります。

見出しが「太字＋フォントサイズ変更」で作られていて、見出しとして認識できない
箇条書きが「手打ちのハイフン」で、リスト構造になっていない
表がレイアウト目的で使われ、表の意味（行列の対応）が曖昧
図・テキストボックス・段組・回り込みが多く、読み順が崩れる
変更履歴・コメント・脚注などが混在し、どこが正本か分からなくなる

つまりWordは、「きちんとスタイル運用されているなら強い」が、「見た目編集中心の運用だと、PDF同様に“意味の抽出が難しい文書”になりやすい」という性質があります。

このような性質のせいで、PDFやWordをそのままRAGに入れると、

見出しと本文が崩れてチャンクが変な位置で切れる
表が壊れて「列の意味」が落ちる
文章の順序が入れ替わり、回答がズレる

といった形で、検索の当たりが悪くなる／回答根拠が不安定になることが起こる場合があります

生成AI視点の“読み取りやすさ”比較表

以下、本記事で説明してきた内容を1つの表でまとめます。

観点	Markdown	Word / PDF	データExcel	帳票Excel	PowerPoint
構造の明示	◎	△	△ or ○（1シート1テーブル、1行目ヘッダ、セル結合なしなら明確）	×（セル結合・段組・複数ブロック・印刷レイアウトで“見た目構造”化）	×（読み順ズレ＋レイアウト依存、さらに図表が多い）
意味の分離	◎	△	△（列=意味になりやすいが、単位・定義が別途ないと崩れる）	×（値・見出し・注記・計算意図が混在しやすい）	△（図形配置＋画像/グラフ/表で意味が埋もれやすい。ページ単位の分離は明確）
再利用性	◎	△	○（分析・連携は強い。CSV化やデータ辞書があるとさらに安定）	△（再利用はできるが、抽出・整形コストが高い）	△（スライド再編集コストが高い。テキスト正本がないと運用が重い）
差分管理	◎	×	× or ○（CSV/TSV等に落とせば○、xlsxのままだと差分が見えない）	×（体裁変更が差分ノイズ化しやすい）	×（視覚依存で差分が追いにくい）
AI理解度	非常に高い	中（文章中心で）	中（整った1テーブル＋列定義ありなら）	低（帳票化・複数シート・結合セルで低に寄る）	低（画像・グラフ・表が増えるほど低に寄る。説明テキスト併設で改善）

まとめ

本記事では、生成AI活用の成否が「モデル性能」だけで決まるのではなく、現場にある情報資産が“AIにとって扱いやすい形（AI Ready Data）”になっているか？に、大きく左右される状況を整理してきました。

Markdownは生成AIとの相性がよく、一方でExcelやPowerPoint、Word／PDFは「人間が読む・配布する」用途に最適化されているがゆえに、読み順やレイアウト依存、図表・注記の混在などが原因で、AIが意味を取り違えやすい、特にExcelは「データExcel」と「帳票Excel」で難易度が大きく変わり、同じ“Excel”でもAI Ready Data観点では全く別であると説明しました。

ただ現実には、現場の主流がExcelやPowerPointである以上、「AI Readyな理想形に揃えてから使う」だけでは前に進まない場面も多いはずです。だからこそ私たちは、これらの現場課題に正面から向き合いながら、Know Narratorを日々進化させています。

AITC | AI TRANSFORMATION CENTER

電通総研の生成AI活用プラットフォーム： Know Narrator

🕒️2025年1月17日

たとえばマルチモーダル機能のように、画像・図表・スライドなど “あまりAI Readyではないデータ” であっても、Know NarratorがAI Ready Dataに変換することで、業務で高精度に活用できる状態にもっていくことが可能です。

データ整備の進め方から、RAG設計、運用まで見据えたプラットフォームづくり、段階的なAI Ready化など、コンサルティング含めてご相談ください。

次回：AI Ready DataのためのMarkdown入門（基礎編）

次回は、より具体的に、Markdownの書き方を、事例ベースで説明いたします。

AITC | AI TRANSFORMATION CENTER

AI Markdown入門から基礎編　基本文法を実務で使ってみよう

🕒️2026年2月24日

筆者
AITC センター長
深谷勇次

コラムカテゴリー: AIエージェント、データ準備・分析、生成AI、自然言語処理AI、RAG

AI Ready Data　生成AI活用のボトルネックはファイル形式にある

はじめに

AI Ready Dataとは何か（“AIが読める”ではなく“AIが迷わない”）

なぜMarkdownがAI Ready Dataとして良いのか

MarkdownはRAGにも有効

1. 見出し階層（H1/H2/H3…）が“意味の境界”としてそのまま使える

2. チャンクに“見出しパス”をメタデータとして付与しやすい

3. 実装面でも、Markdown見出しを利用した分割はしやすい

とはいえ、現場のドキュメントはExcelとかPowerPointとかWordですが、、、

データExcelと帳票Excelは完全に別物で、帳票Excelは厳しい

1. データExcel（AIに比較的向く）

2. 帳票Excel（AIに厳しい）

PowerPointが厳しい理由

画像内テキストは、そのままだと“テキスト”として抽出できない

グラフ／図は“意味”が本体なのに、抽出されるのは見た目の断片になりやすい

「なにかの画像がはってある」ことしか分からない場合が多い

Word／PDFが厳しい理由

PDF

Word(.docx)

生成AI視点の“読み取りやすさ”比較表

まとめ

次回：AI Ready DataのためのMarkdown入門（基礎編）

マルチモーダルRAGで図・グラフを読み解き、業務効率化へ

LLM as a Judgeを実践するためのプロンプト設計・改善・バイアス対策