マルチモーダルRAGで図・グラフを読み解き、業務効率化へ

こんにちは。AITC のAIコンサルティンググループに所属する髙野志歩です。

企業で生成AIツールを導入・活用する動きが活発になる中、「ChatGPTやCopilotを社内で試してみたが、自社ならではのノウハウまでは活用できていない」「社内ドキュメントの山の中に答えはあるはずなのに、AIからはそこまでたどり着けていない」といった課題が、生成AI活用の文脈でよく話題に上がるようになってきました。

こうした課題に対する代表的な打ち手が、社内文書を検索して根拠を添える RAG(Retrieval-Augmented Generation) です。
一方で、実務で参照される資料には図・グラフ・フローチャート・画面キャプチャなど「テキスト以外に重要情報が載っている」ケースも多く、テキストだけを読み取って回答を生成するRAGでは“肝心な部分”を拾いきれないことがあります。


そこで本記事では、図やグラフを含む資料まで横断的に参照し、回答生成に活用できる マルチモーダルRAG について解説します。加えて、社内ナレッジを安全に扱うための留意点と実践ポイントを提示します。

最後に、電通総研が提供するソリューション「Know Narrator Search(ノウナレーター サーチ)」を例に、手軽にマルチモーダルRAGを運用する方法も解説しますので、ぜひ最後までお読みください。

社内ナレッジ活用の鍵となるRAGとは

まず、社内ナレッジ活用の文脈でよく登場するRAGについて簡単におさらいします。

RAG (Retrieval-Augmented Generation)は、ユーザーからの質問に対して、そのままLLMに答えさせるのではなく、まず社内ドキュメントやデータベースから関連情報を検索し、その結果をプロンプトに添えて回答を生成させる手法です。社内ポータルのマニュアル、設計仕様書、FAQ、議事録など、LLMが事前に学習していない自社固有の情報も、検索を挟むことで回答に反映できるようになります。

また、回答と一緒に「どのドキュメントのどの部分を参照したか」を提示できるため、ハルシネーション対策や説明責任の観点からも有効です。

RAGの基本的な仕組みや、システム選定時に押さえるべきポイントについては、別コラムで詳しく整理していますので、あわせてご覧ください。


本稿では、こちらのRAGを前提にしつつ、「図・グラフをどう活用するか」という一歩踏み込んだテーマにフォーカスします。

テキストRAGだけでは取りこぼしてしまう“図・グラフの知識”

RAGを導入すると、「テキストで書かれている社内ナレッジ」はかなり活用しやすくなります。しかし、実際にお客様とご一緒していると、テキストRAGだけではどうしても取りこぼしてしまう情報が見えてきます。

代表的なのが、次のようなドキュメントです。

  • 手順書に含まれるフローチャートや業務フロー図
  • CAEや試験レポートに貼り付けられたグラフやヒートマップ
  • 品質報告書の散布図やパレート図
  • 製品構成図、システム構成図、配線図 など

こうした資料では、「一番伝えたいこと」が文章ではなく図・グラフ側に集約されているケースが少なくありません。にもかかわらず、従来のRAGはテキスト部分には強いものの、画像として埋め込まれている情報は十分に扱えないことが多く、「惜しい回答」が生まれがちです。

例えば、次のような“あるある”が挙げられます。

  • フローチャートの中にだけ条件分岐が書かれており、LLMの回答ではその条件が抜け落ちる
  • グラフの傾きやピークの位置にこそ意味があるのに、凡例やキャプションのテキスト情報しか参照されない
  • 製品構成図を見れば一目で分かる関係性を、テキストだけから推測しようとして回りくどい説明になる

結果として、「AIの回答だけでは不安なので、結局PDFを開いて自分で図を確認する」という状況が残り、現場の工数削減効果も頭打ちになってしまいます。

この“図・グラフの壁”を越えるために登場してきたのが、マルチモーダルRAGです。

図・グラフまで読み解くマルチモーダルRAGとは

マルチモーダルとは、テキストだけでなく、画像・音声・動画など複数の形態のデータを同時に扱うことを指します。
一言でいうと、マルチモーダルRAGは「社内資料の“図やグラフ”も検索・参照して答えを作れるRAG」です。

従来のRAGでは「画像の周辺テキスト+メタ情報」しか扱えなかったところを、マルチモーダルRAGでは次のようなことが可能になります。

  • グラフの軸や凡例を読んで数値傾向を把握する
  • フローチャートの形や矢印の向きから手順を読み取る
  • 図表の中の注記や色分けを理解する

これにより、「図やグラフを前提に書かれた資料」を丸ごとAIで活用しやすくなります。

ユースケース1:手順書や業務フロー図を読み取って次の一手を案内

業務手順書や社内規程の資料には、フローチャートやスイムレーン図が多用されています。テキスト部分だけでは「例外パターン」や「分岐条件」が把握しづらく、「図を見ないと判断できない」ことも多いのではないでしょうか。

マルチモーダルRAGを使うと、フローチャート画像そのものをAIに読ませたうえで、

「この条件に該当する場合、次に実施すべき手続きはどれか」
「この部門から見た場合、承認フローはどうなるか」

といった質問に答えさせることができます。図面を一枚一枚開き直すことなく、チャット形式で「今の自分の状況にとっての次の一手」をナビゲートできるイメージです。

ユースケース2:レポートの図表・スクリーンショットから状況を素早く把握する

社内の報告書や障害報告、運用手順には、グラフ・表・画面キャプチャが頻出します。ところが、重要な手がかりが画像側にあると、テキスト検索や従来のRAGでは拾いきれず、「結局ファイルを開いて目視で確認する」手戻りが起こりがちです。

マルチモーダルRAGであれば、図表やスクリーンショットを参照しながら、たとえば次のような問いに答えさせることができます。

  • 「このグラフから読み取れる傾向(増減・ピーク・外れ値)は何か」
  • 「このエラー画面(スクリーンショット)に書かれている要点は何で、切り分けの次アクションは何か」
  • 「このスライド(図表)で言いたい結論は何で、根拠はどこか」

もちろん、画像の種類や解像度、専門性の高さによって読み取り精度は揺れます。そのため、最初から“高度な判断を完全自動化する”というよりは、一次整理(要点抽出・候補提示・参照箇所の提示)をAIに任せる用途から始めると効果が出やすくなります。

ユースケース3:図表も含めた“本当に知りたい要約”を作る

調査報告書や営業資料などでは、本文のテキストよりも、図表やサマリースライドに意思決定のポイントが集約されていることが少なくありません。

マルチモーダルRAGを使うと、図表部分も含めてドキュメント全体を俯瞰し、

「この資料の結論と、その根拠になっている図表はどれか」
「部長向けに3分で説明するなら、どのスライドを押さえるべきか」

といった“要は何を押さえればよいか”という視点での要約を行うことができます。単純なテキスト要約よりも、“決裁者が知りたいポイント”に近づけるのがマルチモーダルRAGの強みです。

マルチモーダルRAGを社内に導入する際のポイント

「マルチモーダルRAGが良さそうなのは分かったが、実際にどこから手を付ければよいか分からない」という声もよく伺います。ここでは、DX推進部門や情報システム部門の立場で検討する際のポイントをいくつか挙げてみます。

どのナレッジからマルチモーダル対応を始めるか

すべての社内ドキュメントをいきなりマルチモーダル対応する必要はありません。まずは次のような条件を満たす領域から着手するのがおすすめです。

  • 図・グラフを多用している
  • 参照頻度が高く、問い合わせも多い
  • 手戻りやミスが業務インパクトに直結する

例えば、「設備トラブル時の原因切り分けフロー」「品質異常発生時の判断チャート」「複雑な稟議フロー」などは、マルチモーダルRAGの効果が見えやすい領域です。

画像ドキュメントの前処理と運用ルール

マルチモーダルRAGの精度を上げるには、画像ドキュメント側の「整え方」も重要です。

  • 解像度が低すぎる図をスキャンし直す
  • 元データ(PPTやCAD図面)から、なるべく高品質な画像を生成する
  • 図番号やキャプションをきちんと付けておく
  • 不要なスクリーンショットや重複ファイルを棚卸しする

といった基本的なルールを設けるだけでも、AIが正しく読み取れる情報量は大きく変わります。

セキュリティと権限管理の考え方

画像には、テキスト以上に機密情報が紛れ込みやすいという側面もあります。ホワイトボードのメモや個人情報が映り込んだ写真など、テキスト化されていなくても情報漏えいにつながりうるためです。

そのため、マルチモーダルRAGの導入時には、

  • どのクラウドストレージ(SharePoint、Boxなど)のどのフォルダを検索対象にするか
  • 部署や役職ごとにどこまでの情報を参照可能とするか
  • AIが参照するデータを、自社のクラウド環境内に閉じて運用できるか

といった設計が欠かせません。

効果をどう測るか

最後に、導入効果を測る指標もあらかじめ決めておくと、稟議や横展開の際に説明しやすくなります。例えば、

  • 図表を含む問い合わせの平均回答時間の削減率
  • 「図を見に行く必要があった質問」のうち、AIだけで完結した割合
  • ナレッジ活用による不具合再発率の低下 など

定量・定性の両面から効果をモニタリングし、必要に応じてナレッジ範囲や前処理ルールを見直していくことが重要です。

Know Narrator Searchで実現するマルチモーダルRAG

ここまで見てきたように、マルチモーダルRAGは「図表や画像を含む社内ナレッジ」を活用するうえで有効です。一方で、実際に社内導入しようとすると、検索基盤の構築、画像処理、生成AIとの統合、権限管理、ログ分析など検討事項が多く、PoC止まりになりやすいのも現実です。

そこで電通総研では、マルチモーダルRAGの実運用を前提に、必要な要素をまとめて提供できる業務向けRAGソリューションとして「Know Narrator Search(ノウナレーター サーチ)」を提供しています。

マルチモーダルRAGとクラウドストレージ連携

Know Narrator Searchの大きな特長のひとつが、マルチモーダルRAG対応です。参照対象のドキュメント内に含まれる画像をそのまま生成AIに入力し、グラフや図表、写真の内容も踏まえて回答を生成できます。

また、SharePointやBoxなどのクラウドストレージに格納されたフォルダを「業務ナレッジ」としてマッピングしておけば、ファイル更新のたびに自動的に検索対象が同期される仕組みも用意されています。これにより、利用部門側でわざわざファイルをアップロードし直すことなく、常に最新の社内情報を前提にRAGを実行できます。

さらに、Know Narratorは自社のクラウド環境内で運用できるため、参照ドキュメントや質問文が外部クラウドに出ていくことなく、セキュアな環境でマルチモーダルRAGを実現できます。

社内システムやAIエージェントとの連携

Know Narratorシリーズの各機能はAPIとして提供されているため、既存の社内システムから「検索エンジン兼RAGエンジン」として呼び出すことも可能です。例えば、

  • 社内ポータルサイトの検索機能をKnow Narrator Searchで置き換える
  • ワークフローシステムの画面から、関連マニュアルや過去事例をマルチモーダルRAGで呼び出す
  • Know Narrator AgentSourcing(エージェントソーシング)上のAIエージェントが、裏側でKnow Narrator Searchを使って根拠集めを行う

といった形で、用途に応じた組み込みができます。

特に、AIエージェントの自律タスク実行を検討されている企業にとっては、「信頼できるRAG基盤があるかどうか」が成功の分かれ目になります。その意味でも、マルチモーダルRAGに対応したKnow Narrator Searchは、DX推進の中核部品としてご活用いただけると考えています。

まとめ

本記事では、社内ナレッジ活用の鍵となるRAGと、図・グラフまで読み解くマルチモーダルRAG、そしてそれを実現するソリューションであるKnow Narrator Searchについて紹介しました。

社内に眠る膨大な情報を安全かつ効果的に活用するためには、RAGの導入はもちろん、図やグラフを含むドキュメントまで対象にしたマルチモーダル対応の環境を整えることが非常に重要です。

ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。

執筆
AIコンサルティンググループ
髙野志歩