AI Ready Data 生成AI活用のボトルネックはファイル形式にある

~AI Ready Dataを作るうえで、Markdown(マークダウン)が効き、Excel/PowerPointが詰まりやすい理由~
目次
はじめに
生成AIを業務に活用しようとすると、多くのチームが同じ壁にぶつかります。
「モデルやプロンプトは頑張った。でも、社内ドキュメントを読ませると回答が不安定だったり、検索が当たらなかったりするので、結局手で直す、、、」
原因はシンプルで、生成AIの性能よりも“入力されるデータの状態(AI Ready Data)”が支配的だからです。
この記事でお話ししていますが、GPT5系など、昨今の生成AIはすでに本当に賢く、回答が不充分な原因は、ほぼ生成AIに渡している情報に起因します。
特に現場では、Excel・PowerPoint・Word/PDFが情報資産の中心になりがちですが、これらは人間には読みやすい一方で、AIにとっては「意味構造」が取り出しづらいデータです。
本記事では、「なぜそうなるのか」を分解し、Markdown(マークダウン)を軸にAI Ready Data(エイアイレディーデータ)に関してご説明します。
AI Ready Dataとは何か(“AIが読める”ではなく“AIが迷わない”)
AI Ready Dataは、生成AIが解釈ミスしにくい形で、構造と文脈が明示されたデータです。
ここで重要なのは、「テキスト化されている」だけでは不十分で、見出し・箇条書き・定義・前提・例外・粒度などの“意味の区切り”が、機械にも分かる形で表現されていることです。
この観点で、Markdownは非常に最適です。Markdownとは、文章をシンプルな記号で装飾できる軽量な記法で、見出し・箇条書き・リンク・コードなどを、HTMLのような複雑なタグを書かずに表現できます。
なぜMarkdownがAI Ready Dataとして良いのか
Markdownが生成AIと相性が良い理由は、構造がプレーンテキスト上に明示されるからです。
見出し(#)、箇条書き(-)、番号付き手順(1.)などが、視覚ではなくテキスト記号として残るため、取り込み後も構造が崩れにくいです。
以下のコラムでも少し触れているように、Markdownは構造が明快でAIが理解しやすく、学習データにも多く採用されています。
MarkdownはRAGにも有効
RAG(Retrieval-Augmented Generation)は、検索で拾った情報(チャンク)を元に生成AIが回答する方式です。RAGの精度は「何を、どう分割(チャンク化)して、どんなメタデータを付けて検索するか」に大きく依存します。
MarkdownはRAGのデータソースとして、以下の理由で特に有効だと言えます。
1. 見出し階層(H1/H2/H3…)が“意味の境界”としてそのまま使える
セクション単位でチャンク化しやすく、検索結果にも文脈が残りやすい
2. チャンクに“見出しパス”をメタデータとして付与しやすい
例:「API Reference > Auth > OAuth2」のような階層をそのまま保持できる
3. 実装面でも、Markdown見出しを利用した分割はしやすい
要するに、Markdownは「AIが読む」だけでなく「AIが探す」=RAGのデータとして良い形式と言えます。
とはいえ、現場のドキュメントはExcelとかPowerPointとかWordですが、、、
とはいえ、理屈は分かっていても現場の実態はタイトル通り、日々の業務として回っているのは、Markdownよりも ExcelやPowerPoint であることが圧倒的に多いはずです。
要件整理はExcel、方針共有はPowerPoint、レビューや稟議も結局そのファイルが起点になる。だから生成AI活用の議論も、自然と「じゃあこのExcelとPowerPointをAIで読ませて、うまく使えない?」という話になりがちです。
ただ、ここで一つだけ先に押さえておきたいポイントがあります。それは、
Excel/PowerPointは“人間が読むために最適化された形式”で、AIが意味構造を取り出すにはハードルが高い場面が少なくない
ということです。
この違いを理解せずに生成AI活用のプロジェクトを推進すると、RAG以前に「そもそも取り込み・分割・検索が安定しない」という壁にぶつかります。
では、どんなExcelならAIに強く、どんなExcelだとだめなのでしょうか?
データExcelと帳票Excelは完全に別物で、帳票Excelは厳しい
現場のExcelは次の2種類に分かれます。
1. データExcel(AIに比較的向く)
枚の整った表、1行目が列名、セル結合なし、空行なし、1セル1値
→いわゆる、CSVっぽいExcelです
2. 帳票Excel(AIに厳しい)
セル結合、見出しの段組、複数ブロック、複数シート分割、印刷範囲前提、注記が表内に混在
→いわゆる、人間が読む・印刷するために見た目を整えたExcelです
生成AIは、Excelを読むときにだいたいこういう前提で解釈します。
- 列(カラム)=項目の意味(例:日付、部門、金額…)
- 行=1件分のレコード(例:1つの取引、1つの申請…)
- セル=1つの値(例:2026/3/1、クロスイノベーション本部、120000…)
この形に近いほど、AIは「これは表だ」「この列は何の意味だ」「この行は1件だ」と判断しやすくなり、取り込み → 分割(チャンク化)→ 検索(RAG)→ 回答 の流れが安定します。
一方、帳票Excelは“読む人”にとっては親切ですが、AIにとっては落とし穴が増えます。
理由はシンプルで、意味の手がかりが「見た目」に埋め込まれているからです。
例えば、
- セル結合で「見出しっぽく見せている」
- 罫線や空白で「ここで表が区切れている」
- 右上に注記があり「人は自然に補足として読む」
- 印刷レイアウト前提で、表が分割されている
こうした情報は人間には直感的ですが、AIの取り込み処理では
「どこが見出しで、どこからがデータなのか」
「このブロックは同じ表の続きなのか、別の表なのか」
が曖昧になり、結果として誤った表構造として解釈される事態が発生します。
つまり、帳票Excelは “意味”がセルの値だけで完結しておらず、座標・見た目・レイアウトに依存しているため、AIが読み違えやすいのです。
PowerPointが厳しい理由
PowerPointは「伝えるためのレイアウト」が主役です。
テキスト抽出では、視覚的な配置順と内部的な読み上げ順が一致しない場合があり、意図しない順番で解釈されやすい課題があります。
さらにもう1つ、実務上の大きな問題があります。
PowerPointには、画像・スクリーンショット・グラフ・表(場合によっては“表の画像”)が大量に入ります。ここがAI取り込みの落とし穴になりがちです。
画像内テキストは、そのままだと“テキスト”として抽出できない
OCRが必要になるか、抽出漏れ・誤読が起きる(特に小さい文字・グラフの軸ラベル)
グラフ/図は“意味”が本体なのに、抽出されるのは見た目の断片になりやすい
何を示すグラフか(指標・単位・期間・結論)が欠ける
「なにかの画像がはってある」ことしか分からない場合が多い
= AIも“意味説明”が無ければ理解に困る
つまり、PowerPointは「文章量が少ない」だけでなく、情報の核が“非テキスト要素”として埋め込まれがちで、AIにとって不利になりやすいわけです。
Word/PDFが厳しい理由
WordやPDFは、社内外に配布する「完成版ドキュメント」として非常に優秀です。特にPDFは、環境が変わっても 見た目が崩れない という点で、最終成果物として重宝されます。
ただし、生成AIに読み込ませるという観点では、この“見た目の強さ”が逆にハードルになる場合があります。
PDFは、人間が読むと「段落」「見出し」「表」に見えますが、内部的には 文字や線がページ上のどこに置かれているか(配置情報)として管理されていることが多いです。
そのため、AIや抽出ツールが内容を取り出そうとすると、
- どこが見出しで、どこからが本文か
- 段落の区切りはどこか
- 表の行・列はどう対応しているか
- 2段組の左右どちらから読むべきか
といった“意味構造”を、毎回推測しながら復元する必要があります。結果として、抽出が不安定になりやすいのです。
また、「見た目どおりにコピペできない」問題が起きる場合があります。典型例は以下です。
- 順序が入れ替わる:2段組や図の回り込みで、貼り付けると左右の文が混ざる
- 改行や空白が崩れる:1行ごとに変な改行が入る/単語の途中で改行される
- 文字が欠ける・別文字になる:埋め込みフォントや特殊記号で、貼り付けると別の文字に化ける
- 透明テキストが混ざる:PDF上で見えないテキスト層が混入して違う内容が貼られる
これは、PDFが「人間に見せるための見た目」を優先して作られているため、“文章としての読み順”が内部に明確に保存されていない(または、複数のレイヤーが存在する)点に原因があります。
Word(.docx)
見出しスタイルや箇条書き、表などを正しく使っていれば、AIにとっても比較的扱いやすくなります。
一方で、現場のWordは次の理由で 見た目は整っていても構造が壊れているケースがよくあります。
- 見出しが「太字+フォントサイズ変更」で作られていて、見出しとして認識できない
- 箇条書きが「手打ちのハイフン」で、リスト構造になっていない
- 表がレイアウト目的で使われ、表の意味(行列の対応)が曖昧
- 図・テキストボックス・段組・回り込みが多く、読み順が崩れる
- 変更履歴・コメント・脚注などが混在し、どこが正本か分からなくなる
つまりWordは、「きちんとスタイル運用されているなら強い」が、「見た目編集中心の運用だと、PDF同様に“意味の抽出が難しい文書”になりやすい」という性質があります。
このような性質のせいで、PDFやWordをそのままRAGに入れると、
- 見出しと本文が崩れてチャンクが変な位置で切れる
- 表が壊れて「列の意味」が落ちる
- 文章の順序が入れ替わり、回答がズレる
といった形で、検索の当たりが悪くなる/回答根拠が不安定になることが起こる場合があります
生成AI視点の“読み取りやすさ”比較表
以下、本記事で説明してきた内容を1つの表でまとめます。
| 観点 | Markdown | Word / PDF | データExcel | 帳票Excel | PowerPoint |
| 構造の明示 | ◎ | △ | △ or ○(1シート1テーブル、1行目ヘッダ、セル結合なしなら明確) | ×(セル結合・段組・複数ブロック・印刷レイアウトで“見た目構造”化) | ×(読み順ズレ+レイアウト依存、さらに図表が多い) |
| 意味の分離 | ◎ | △ | △(列=意味になりやすいが、単位・定義が別途ないと崩れる) | ×(値・見出し・注記・計算意図が混在しやすい) | △(図形配置+画像/グラフ/表で意味が埋もれやすい。ページ単位の分離は明確) |
| 再利用性 | ◎ | △ | ○(分析・連携は強い。CSV化やデータ辞書があるとさらに安定) | △(再利用はできるが、抽出・整形コストが高い) | △(スライド再編集コストが高い。テキスト正本がないと運用が重い) |
| 差分管理 | ◎ | × | × or ○(CSV/TSV等に落とせば○、xlsxのままだと差分が見えない) | ×(体裁変更が差分ノイズ化しやすい) | ×(視覚依存で差分が追いにくい) |
| AI理解度 | 非常に高い | 中(文章中心で) | 中(整った1テーブル+列定義ありなら) | 低(帳票化・複数シート・結合セルで低に寄る) | 低(画像・グラフ・表が増えるほど低に寄る。説明テキスト併設で改善) |
まとめ
本記事では、生成AI活用の成否が「モデル性能」だけで決まるのではなく、現場にある情報資産が“AIにとって扱いやすい形(AI Ready Data)”になっているか?に、大きく左右される状況を整理してきました。
Markdownは生成AIとの相性がよく、一方でExcelやPowerPoint、Word/PDFは「人間が読む・配布する」用途に最適化されているがゆえに、読み順やレイアウト依存、図表・注記の混在などが原因で、AIが意味を取り違えやすい、特にExcelは「データExcel」と「帳票Excel」で難易度が大きく変わり、同じ“Excel”でもAI Ready Data観点では全く別であると説明しました。
ただ現実には、現場の主流がExcelやPowerPointである以上、「AI Readyな理想形に揃えてから使う」だけでは前に進まない場面も多いはずです。だからこそ私たちは、これらの現場課題に正面から向き合いながら、Know Narratorを日々進化させています。
たとえばマルチモーダル機能のように、画像・図表・スライドなど “あまりAI Readyではないデータ” であっても、Know NarratorがAI Ready Dataに変換することで、業務で高精度に活用できる状態にもっていくことが可能です。
データ整備の進め方から、RAG設計、運用まで見据えたプラットフォームづくり、段階的なAI Ready化など、コンサルティング含めてご相談ください。
次回:AI Ready DataのためのMarkdown入門(基礎編)
次回は、より具体的に、Markdownの書き方を、事例ベースで説明いたします。
筆者
AITC センター長
深谷 勇次




