シーズベースの生成AIソリューション開発のためのKaggle活用

はじめに

こんにちは、AITC 製品開発グループ Kaggle Masterの阿田木です。

今から一年前に登場したChatGPTにより、生成AIの分野にかつてないほどに注目が集まっているように感じます。

AITCでは、生成AIを、お客様が安心・安全に業務活用できるソリューション:Know Narratorを開発し、数十社のお客様に利用頂いております。また特定の業務に生成AIを活用したプロジェクトも行っています。

isid-ai.jp

大規模言語モデル(LLM)を用いたChatGPTのようなソリューションは現在複数の会社が提供を開始しており、一長一短はあるかもしれませんが似通ったソリューションが乱立している状況かと思います。

その中で他社よりいいもの、本家のChatGPTより良いものをお客様に提供し続けていくには、自社で開発しているソリューションの価値を向上させ続ける必要があります。

価値を生み出すためには、アイデアを形にする技術力が必要ですが、何よりもまず必要なのはアイデアそのものです。

そのアイデアを考えるアプローチとして、ニーズベース(Need-Based)とシーズベース(Seed-Based)という考え方があります。

  • ニーズベースのアプローチは、市場や消費者のニーズや要望に基づいて製品やサービスを開発する考え方です。企業は市場調査や消費者フィードバックを活用して、どのような製品やサービスが需要があり、お客様のニーズを満たすのかを理解し、それに基づいて製品を設計・提供します。 このアプローチでは、市場の需要が最初に存在しており、それに応じて製品が開発されます。

  • シーズベースのアプローチは、技術やイノベーションに焦点を当て、新しいアイデアや技術の種をまくことから始まります。これは、未知の需要や市場の可能性に賭ける形です。新しい技術やアイデアを栽培し、それを市場に導入することで、新たな需要を生み出すことを期待します。 このアプローチでは、まだ存在しない需要を創造することが重要です。

AITCでの製品開発

AITCでは、生成AIソリューションの開発をニーズベースとシーズベース2つのアプローチから進めています。

ニーズベースの製品開発

ニーズベースのアプローチでは、お客様の要望をもとに製品をよりよくしていきます。

AITCの製品開発グループが開発した製品や機能を活用し、AITCのAIコンサルタントが、お客様とプロジェクトを推進します。そこで提供したソリューションや業務に即した要望をくみ取り、要望を満たす機能を製品開発グループが開発し、そして再びAIコンサルタントがよりお客様のご要望にあったものを提供していく、というサイクルが回っています。

現在、Know Narratorのリリースでは、できるだけ早くお客様が要望される仕組みを提供するために、アジャイル型の開発体制を採用し、1か月に1~2度の頻度でアップデート版を提供できるようにしております。このようなサイクルを回し続けることで私たちAITCではお客様に寄り添った価値を提供できるよう努めております。

シーズベースの製品開発

一方AITCでは、シーズベースのアプローチも行っています。主に先行研究や最新論文の手法をもとに研究開発し、PoCという形でトライ&エラーを繰り返しながらよりよい価値をお客様に提供できるようにしております。

ここで重要な観点は、先行研究や最新論文の手法が必ずしも有用な手法ではないということです。

そこで我々は、Kaggleというデータ分析コンペティションが開催されているプラットフォームを活用しています。

Kaggleでは、全世界の腕利きのデータサイエンティストが、過去有用だった手法だけでなく先行研究や最新論文の手法、独自開発した手法など、あらゆる手法を用いて、より精度の高いAIモデルを作成することを目的としています。

実データに近いデータ(あるいは実データ)に対して、特定のタスクに各手法を適用し、効果を測定するため、Kaggleで通用した手法は、性能という側面では実用的であるといえます。

前置きが長くなってしまいましたが、この記事では、シーズベースによる生成AIソリューション開発において、我々がどのようにKaggleを利用して調査を行っているのかご紹介します。

Kaggleと生成AI

Kaggleでは、2023年以前は画像生成系などの生成AI系のコンペ(※賞金やメダルが付与されるようなコンペ)はほとんど開催されておりませんでした。しかし、近年、ChatGPTの登場により、生成AIという言葉が注目を集め、関連する技術であるLLMを用いたコンペが開催されるようになりました。

私が記憶している限り、初めてのコンペは2023年7月に開催されたLLM Science Examコンペが初回だったと思います。

このコンペは私も参加し、全体の上位1%(24位/2664チーム中)以内に入ることができましたが、初めての生成AIをテーマとしたコンペだったこともあり、熾烈を極めるコンペとなりました。

コンペとしての注目度が高く、世界中の優秀なkagglerたちがこぞって参加していたため、コンペ終盤まで気を抜くことができず、開催期間中はずっと寝不足だったことを覚えております(笑) 。

このコンペの概要とタスクは以下の通りです。

概要

LLM(ChatGPT)が作ったSTEM(科学・技術・工学・数学)分野の問題をどのくらい精度よく解答できるか?という自然言語処理系のコンペです

タスク

問題文(prompt)とA~Eの選択肢(option)が与えられ、それを解くモデルの精度を競います

タスクのイメージ

全体として検索拡張生成 (RAG: Retrieval Augmented Generation)という手法を用いて戦うことが非常に重要でした。

  • RAGとは、ユーザーからの質問とその質問に関係する文章をプロンプトとして入力することにより、モデルが本来持っていない知識から回答を生成する技術になります。

AITCで開発しているKnow Narrator Searchのアーキテクチャーとして採用されており、以下のAITCコラムで詳しく解説していますので御覧ください。

isid-ai.jp

isid-ai.jp

上位チームの解法にはLLMを用いた手法が多かったですが、ChatGPT登場以前から自然言語系のタスクでよく使われていた自然言語モデルであるDeBERTa系モデルであってもRAGの文章検索が適切に実施されていれば金メダル(上位15位以内)がとれるという感じでした。

このコンペで重要であったRAGの文章検索では、様々な工夫がされていましたが、特に効果のあった手法としては、キーワードベースの検索とベクトルベースの類似検索を組み合わせることでした。

組み合わせ方としては各検索手法を用いて予測した結果の加重平均(もしくは単なる平均)を用いることや、検索フェーズの段階で組み合わせる手法(ハイブリッド検索)により検索した結果を予測器(AIモデル)に情報として与えることでした。このような手法をモデルにうまく組込んだチームが上位には多かった印象です。

Kaggleでの学びとAITCの製品開発

我々AITCが提供する生成AIソリューションであるKnow NarratorシリーズのKnow Narrator Searchでは、上記コンペで使われていたRAGという手法を活用し、お客様の社内文章の情報をGPTモデルに知識として与え、質疑回答することが可能です。

GPTモデル等のLLMに外部知識を与えるRAGという手法は、広義の意味ではオープンブックアプローチと呼ばれており、大学における教材持ち込み可の試験のように、記憶から事実を思い出そうとするのではなく、教科書の内容を閲覧して質問に答えるようモデルに求めているということになります。これにより、より正確な情報をもとに回答することができる(ハルシネーション対策)だけでなく、モデルが知らない情報も回答することができるようになります。

ChatGPTをはじめとするLLMを活用したソリューションは、学習している知識量には制限があったり、記憶違いによる嘘(ハルシネーション)が発生するという問題がありますが、Know Narrator SearchではRAGを採用することでより正確に、より多くの知識をもとに回答することができるようになりました。

さらに、AITCでは、Kaggleコンペで培ったハイブリッド検索をはじめとする様々な手法を用いた精度向上や機能拡張の検証を進めており、今後Know Narratorシリーズに実装予定です。

まとめ

Kaggleコンペに参加することで、有用な手法であることを確かめることができるだけでなく、世界基準の技術をいち早くキャッチアップすることが可能です。

画像生成系のコンペも開催されていたり、LLMコンペも引き続き開催されていることも踏まえると、今後、生成AI分野の課題がKaggleで取り扱れることが増えてくると考えられます。

何より、Kaggleに参加し、いろいろな手法を試したりキャッチアップすることは本当に楽しいです。

今後もKaggleに参加して培った技術を基に、よりよいソリューションを社会に提供できるように精進してまいりたいと思います。

最後に

AITCでは、今回紹介したハイブリッド検索だけでなく、生成AIの性能を引き出す多様なノウハウを保有しております。※詳細はこちらのコラムを参照ください

今後もAITCではKaggleだけでなく、多くのお客様からのご要望に応えるべく、研究開発とコンサルティングを提供してまいります。

ChatGPTや生成AIをビジネスに活用したい方やAITCの活動に参加されたい方は、ぜひ以下のお問い合わせフォームからご相談いただければ幸いです。

お問い合わせフォーム