AI Ready Data 生成AI活用のボトルネックはファイル形式にある

~AI Ready Dataを作るうえで、Markdown(マークダウン)が効き、Excel/PowerPointが詰まりやすい理由~

はじめに

生成AIを業務に活用しようとすると、多くのチームが同じ壁にぶつかります。

「モデルやプロンプトは頑張った。でも、社内ドキュメントを読ませると回答が不安定だったり、検索が当たらなかったりするので、結局手で直す、、、」

原因はシンプルで、生成AIの性能よりも“入力されるデータの状態(AI Ready Data)”が支配的だからです。

この記事でお話ししていますが、GPT5系など、昨今の生成AIはすでに本当に賢く、回答が不充分な原因は、ほぼ生成AIに渡している情報に起因します。

特に現場では、Excel・PowerPoint・Word/PDFが情報資産の中心になりがちですが、これらは人間には読みやすい一方で、AIにとっては「意味構造」が取り出しづらいデータです。

本記事では、「なぜそうなるのか」を分解し、Markdown(マークダウン)を軸にAI Ready Data(エイアイレディーデータ)に関してご説明します。

AI Ready Dataとは何か(“AIが読める”ではなく“AIが迷わない”)

AI Ready Dataは、生成AIが解釈ミスしにくい形で、構造と文脈が明示されたデータです。

ここで重要なのは、「テキスト化されている」だけでは不十分で、見出し・箇条書き・定義・前提・例外・粒度などの“意味の区切り”が、機械にも分かる形で表現されていることです。

この観点で、Markdownは非常に最適です。Markdownとは、文章をシンプルな記号で装飾できる軽量な記法で、見出し・箇条書き・リンク・コードなどを、HTMLのような複雑なタグを書かずに表現できます。

なぜMarkdownがAI Ready Dataとして良いのか

Markdownが生成AIと相性が良い理由は、構造がプレーンテキスト上に明示されるからです。

見出し(#)、箇条書き(-)、番号付き手順(1.)などが、視覚ではなくテキスト記号として残るため、取り込み後も構造が崩れにくいです。

以下のコラムでも少し触れているように、Markdownは構造が明快でAIが理解しやすく、学習データにも多く採用されています。

MarkdownはRAGにも有効

RAG(Retrieval-Augmented Generation)は、検索で拾った情報(チャンク)を元に生成AIが回答する方式です。RAGの精度は「何を、どう分割(チャンク化)して、どんなメタデータを付けて検索するか」に大きく依存します。

MarkdownはRAGのデータソースとして、以下の理由で特に有効だと言えます。

1. 見出し階層(H1/H2/H3…)が“意味の境界”としてそのまま使える

セクション単位でチャンク化しやすく、検索結果にも文脈が残りやすい

2. チャンクに“見出しパス”をメタデータとして付与しやすい

例:「API Reference > Auth > OAuth2」のような階層をそのまま保持できる

3. 実装面でも、Markdown見出しを利用した分割はしやすい

要するに、Markdownは「AIが読む」だけでなく「AIが探す」=RAGのデータとして良い形式と言えます。

とはいえ、現場のドキュメントはExcelとかPowerPointとかWordですが、、、

とはいえ、理屈は分かっていても現場の実態はタイトル通り、日々の業務として回っているのは、Markdownよりも ExcelやPowerPoint であることが圧倒的に多いはずです。

要件整理はExcel、方針共有はPowerPoint、レビューや稟議も結局そのファイルが起点になる。だから生成AI活用の議論も、自然と「じゃあこのExcelとPowerPointをAIで読ませて、うまく使えない?」という話になりがちです。

ただ、ここで一つだけ先に押さえておきたいポイントがあります。それは、

Excel/PowerPointは“人間が読むために最適化された形式”で、AIが意味構造を取り出すにはハードルが高い場面が少なくない

ということです。

この違いを理解せずに生成AI活用のプロジェクトを推進すると、RAG以前に「そもそも取り込み・分割・検索が安定しない」という壁にぶつかります。

では、どんなExcelならAIに強く、どんなExcelだとだめなのでしょうか?

データExcelと帳票Excelは完全に別物で、帳票Excelは厳しい

現場のExcelは次の2種類に分かれます。

1. データExcel(AIに比較的向く)

枚の整った表、1行目が列名、セル結合なし、空行なし、1セル1値
→いわゆる、CSVっぽいExcelです

2. 帳票Excel(AIに厳しい)

セル結合、見出しの段組、複数ブロック、複数シート分割、印刷範囲前提、注記が表内に混在
→いわゆる、人間が読む・印刷するために見た目を整えたExcelです

生成AIは、Excelを読むときにだいたいこういう前提で解釈します。

  • 列(カラム)=項目の意味(例:日付、部門、金額…)
  • 行=1件分のレコード(例:1つの取引、1つの申請…)
  • セル=1つの値(例:2026/3/1、クロスイノベーション本部、120000…)

この形に近いほど、AIは「これは表だ」「この列は何の意味だ」「この行は1件だ」と判断しやすくなり、取り込み → 分割(チャンク化)→ 検索(RAG)→ 回答 の流れが安定します。

一方、帳票Excelは“読む人”にとっては親切ですが、AIにとっては落とし穴が増えます。

理由はシンプルで、意味の手がかりが「見た目」に埋め込まれているからです。

例えば、

  • セル結合で「見出しっぽく見せている」
  • 罫線や空白で「ここで表が区切れている」
  • 右上に注記があり「人は自然に補足として読む」
  • 印刷レイアウト前提で、表が分割されている

こうした情報は人間には直感的ですが、AIの取り込み処理では

「どこが見出しで、どこからがデータなのか」

「このブロックは同じ表の続きなのか、別の表なのか」

が曖昧になり、結果として誤った表構造として解釈される事態が発生します。

つまり、帳票Excelは “意味”がセルの値だけで完結しておらず、座標・見た目・レイアウトに依存しているため、AIが読み違えやすいのです。

PowerPointが厳しい理由

PowerPointは「伝えるためのレイアウト」が主役です。

テキスト抽出では、視覚的な配置順と内部的な読み上げ順が一致しない場合があり、意図しない順番で解釈されやすい課題があります。

さらにもう1つ、実務上の大きな問題があります。

PowerPointには、画像・スクリーンショット・グラフ・表(場合によっては“表の画像”)が大量に入ります。ここがAI取り込みの落とし穴になりがちです。

画像内テキストは、そのままだと“テキスト”として抽出できない

OCRが必要になるか、抽出漏れ・誤読が起きる(特に小さい文字・グラフの軸ラベル)

グラフ/図は“意味”が本体なのに、抽出されるのは見た目の断片になりやすい

何を示すグラフか(指標・単位・期間・結論)が欠ける

「なにかの画像がはってある」ことしか分からない場合が多い

= AIも“意味説明”が無ければ理解に困る

つまり、PowerPointは「文章量が少ない」だけでなく、情報の核が“非テキスト要素”として埋め込まれがちで、AIにとって不利になりやすいわけです。

Word/PDFが厳しい理由

WordやPDFは、社内外に配布する「完成版ドキュメント」として非常に優秀です。特にPDFは、環境が変わっても 見た目が崩れない という点で、最終成果物として重宝されます。

ただし、生成AIに読み込ませるという観点では、この“見た目の強さ”が逆にハードルになる場合があります。

PDF

PDFは、人間が読むと「段落」「見出し」「表」に見えますが、内部的には 文字や線がページ上のどこに置かれているか(配置情報)として管理されていることが多いです。
そのため、AIや抽出ツールが内容を取り出そうとすると、

  • どこが見出しで、どこからが本文か
  • 段落の区切りはどこか
  • 表の行・列はどう対応しているか
  • 2段組の左右どちらから読むべきか

といった“意味構造”を、毎回推測しながら復元する必要があります。結果として、抽出が不安定になりやすいのです。

また、「見た目どおりにコピペできない」問題が起きる場合があります。典型例は以下です。

  • 順序が入れ替わる:2段組や図の回り込みで、貼り付けると左右の文が混ざる
  • 改行や空白が崩れる:1行ごとに変な改行が入る/単語の途中で改行される
  • 文字が欠ける・別文字になる:埋め込みフォントや特殊記号で、貼り付けると別の文字に化ける
  • 透明テキストが混ざる:PDF上で見えないテキスト層が混入して違う内容が貼られる

これは、PDFが「人間に見せるための見た目」を優先して作られているため、“文章としての読み順”が内部に明確に保存されていない(または、複数のレイヤーが存在する)点に原因があります。

Word(.docx)

見出しスタイルや箇条書き、表などを正しく使っていれば、AIにとっても比較的扱いやすくなります。

一方で、現場のWordは次の理由で 見た目は整っていても構造が壊れているケースがよくあります。

  • 見出しが「太字+フォントサイズ変更」で作られていて、見出しとして認識できない
  • 箇条書きが「手打ちのハイフン」で、リスト構造になっていない
  • 表がレイアウト目的で使われ、表の意味(行列の対応)が曖昧
  • 図・テキストボックス・段組・回り込みが多く、読み順が崩れる
  • 変更履歴・コメント・脚注などが混在し、どこが正本か分からなくなる

つまりWordは、「きちんとスタイル運用されているなら強い」が、「見た目編集中心の運用だと、PDF同様に“意味の抽出が難しい文書”になりやすい」という性質があります。

このような性質のせいで、PDFやWordをそのままRAGに入れると、

  • 見出しと本文が崩れてチャンクが変な位置で切れる
  • 表が壊れて「列の意味」が落ちる
  • 文章の順序が入れ替わり、回答がズレる

といった形で、検索の当たりが悪くなる/回答根拠が不安定になることが起こる場合があります

生成AI視点の“読み取りやすさ”比較表

以下、本記事で説明してきた内容を1つの表でまとめます。

観点MarkdownWord / PDFデータExcel帳票ExcelPowerPoint
構造の明示△ or ○(1シート1テーブル、1行目ヘッダ、セル結合なしなら明確)×(セル結合・段組・複数ブロック・印刷レイアウトで“見た目構造”化)×(読み順ズレ+レイアウト依存、さらに図表が多い)
意味の分離△(列=意味になりやすいが、単位・定義が別途ないと崩れる)×(値・見出し・注記・計算意図が混在しやすい)△(図形配置+画像/グラフ/表で意味が埋もれやすい。ページ単位の分離は明確)
再利用性○(分析・連携は強い。CSV化やデータ辞書があるとさらに安定)△(再利用はできるが、抽出・整形コストが高い)△(スライド再編集コストが高い。テキスト正本がないと運用が重い)
差分管理×× or ○(CSV/TSV等に落とせば○、xlsxのままだと差分が見えない)×(体裁変更が差分ノイズ化しやすい)×(視覚依存で差分が追いにくい)
AI理解度非常に高い中(文章中心で)中(整った1テーブル+列定義ありなら)低(帳票化・複数シート・結合セルで低に寄る)低(画像・グラフ・表が増えるほど低に寄る。説明テキスト併設で改善)

まとめ

本記事では、生成AI活用の成否が「モデル性能」だけで決まるのではなく、現場にある情報資産が“AIにとって扱いやすい形(AI Ready Data)”になっているか?に、大きく左右される状況を整理してきました。

Markdownは生成AIとの相性がよく、一方でExcelやPowerPoint、Word/PDFは「人間が読む・配布する」用途に最適化されているがゆえに、読み順やレイアウト依存、図表・注記の混在などが原因で、AIが意味を取り違えやすい、特にExcelは「データExcel」と「帳票Excel」で難易度が大きく変わり、同じ“Excel”でもAI Ready Data観点では全く別であると説明しました。

ただ現実には、現場の主流がExcelやPowerPointである以上、「AI Readyな理想形に揃えてから使う」だけでは前に進まない場面も多いはずです。だからこそ私たちは、これらの現場課題に正面から向き合いながら、Know Narratorを日々進化させています。

たとえばマルチモーダル機能のように、画像・図表・スライドなど “あまりAI Readyではないデータ” であっても、Know NarratorがAI Ready Dataに変換することで、業務で高精度に活用できる状態にもっていくことが可能です。

データ整備の進め方から、RAG設計、運用まで見据えたプラットフォームづくり、段階的なAI Ready化など、コンサルティング含めてご相談ください。

次回:AI Ready DataのためのMarkdown入門(基礎編)

次回は、より具体的に、Markdownの書き方を、事例ベースで説明いたします。

筆者
AITC センター長
深谷 勇次