こんにちは。AIトランスフォーメーションセンターの徳原です。
エンタープライズRAG(Retrieval-Augmented Generation)ソリューション Know Narrator Searchを利用したプロジェクト支援を1年半ほど実施しています。継続してRAGの精度改善に取り組んでいるのですが、GPT-3.5 turboよりも、より新しいGPT-4.0、GPT-4.0よりもより新しいGPT-4oのほうが、明らかに回答精度が高くなることを感じます。
※Know Narrator Searchに関してはこちらを
※RAGに関して詳しく知りたい方はこちらを
単純にモデル自身の文章生成能力が向上しているので、RAGでの回答精度が向上していると考えられますが、それ以上に、RAGでは大量の文章を読み込むため、同時に認識できる情報量が新しいモデルのほうが大きいことが精度改善の大きな要因となります。
また、これまで最新モデルであったGPT-4oは1,000トークン分(300文字~500文字程度)の入力に対する料金が約0.7円とGPT-4.0(約4.6円)よりは格安ですが、GPT-3.5(約0.1円)よりは高額でした。GPT-4oは一度に認識できる情報量が増えたので、大量の情報を入力させたいところですが、これでは運用コストが気になってしまい、気兼ねなくは利用できないユースケースがありました。
そのような状況の中、登場したのがGPT-4o miniです。その利用料金は1,000 トークン分の入力あたりなんと約0.02円!これなら思う存分、ChatGPTに大量の情報を参照させることができます。
これまで、そのコストパフォーマンスの高さからよく用いられていたGPT-3.5 turboですが、Azureでの提供は制限され始めており、今後は利用できなくなる可能性があるため、GPT-3.5 turboから、よりコストが低いGPT-4o miniへの切り替えを検討する方が増えてくると思われます。
ここで気になるのが、GPT-4o miniの回答精度です。この利用料金でGPT-4o並の精度でしたら文句なしです。
ということで、GPT-3.5 turbo、GPT-4o、GPT-4o miniのRAGにおける回答精度を弊社の業務規定に関する複数の質問によって比較してみました。
質問1:テレワーク勤務に対して金銭的な補助はありますか?
検証の準備としてKnow Narrator Searchには業務ナレッジとして予め弊社の就業規定に関する複数のファイルを登録しておきました。
この業務ナレッジをKnow Narrator SearchによってGPT-3.5 turbo、GPT-4o、GPT-4o miniのそれぞれのモデルに参照させ、期待した回答を得られるか検証します。
テレワーク勤務の補助に関しては、弊社では在宅勤務等補助手当として全社員一律で5000円が支給されています。
GPT-3.5の回答
はい、テレワーク勤務においては、通信費や光熱費などの費用補助があります。具体的には、自宅での通信費(自宅有線LAN)は個人負担となりますが、社内標準スマホや会社貸与の通信カード/ポケットWiFiは会社負担となります。また、光熱費については全般的には個人負担となりますが、水道・ガス・光熱費等に充てるための費用補助として在宅勤務等補助手当を支給しています。
在宅勤務等補助手当の存在は回答していますが、その金額は答えられませんでした。通信カード/ポケットWiFiの話も答えていますが、聞きたい情報とはあまり関連のない内容なので、シンプルに在宅勤務等補助手当の金額を答えてほしかったです。
GPT-4oの回答
結論から申し上げますと、テレワーク勤務に対して金銭的な補助があります。 具体的には、水道・光熱費等の補助として在宅勤務等補助手当が全社員(契約社員含む)に一律5,000円/月支給されます。この手当はテレワーク勤務が標準勤務形態の一つとなっていることを考慮したものであり、金額の見直しまたは廃止が検討されます。
必要な情報が全て入っているので合格だと思います。
GPT-4o miniの回答
はい、テレワーク勤務に対して金銭的な補助があります。具体的には、「在宅勤務等補助手当」として、全社員に一律で5,000円/月が支給されます。この手当は、光熱費や通信費の補助に充てられます。 ただし、支給額の見直しや廃止が検討されることがあります。何か他に知りたいことはありますか?
GPT-4oとほぼ同じ回答ですね。合格です。
質問2:勤続年数ごとのリフレッシュ休暇の取得可能日数を答えてください
弊社では勤続年数5年ごとにリフレッシュ休暇という特別休暇(有給休暇とほぼ同じ扱い)が付与されます。付与される日数は年次によって違うのでその部分をわかりやすく答えてくれることを期待しています。
GPT-3.5の回答
勤続年数ごとのリフレッシュ休暇の取得可能日数は以下のとおりです。
勤続5年目: 連続5日間 勤続10年目: 連続5日間 勤続15・25・35・45年目: 連続10日間 勤続20・30・40年目: 連続10日間 また、勤続10年目以上の方には「リフレッシュボーナス」も支給されます。
正解です。こちらは複数のドキュメントに書かれているので簡単だったと思います。ちなみに、リフレッシュボーナスはリフレッシュ休暇を取得すると支給される手当です。
GPT-4oの回答
結論から申し上げますと、勤続年数に応じたリフレッシュ休暇の取得可能日数は以下の通りです。
勤続5年目:連続5日間 勤続10年目:連続5日間 勤続15年目、25年目、35年目、45年目:連続10日間 勤続20年目、30年目、40年目:連続10日間 補足として、勤続10年目以上の場合、リフレッシュ休暇とともにリフレッシュボーナスが支給されます。
こちらも正解です。
GPT-4o miniの回答
勤続年数に応じたリフレッシュ休暇の取得可能日数は以下の通りです。
勤続5年目:連続5日間
勤続10年目:連続5日間(リフレッシュボーナス10万円支給)
勤続15年目:連続10日間(リフレッシュボーナス5万円支給)
勤続20年目:連続10日間(リフレッシュボーナス10万円支給)
勤続25年目:連続10日間(リフレッシュボーナス5万円支給)
勤続30年目:連続10日間(リフレッシュボーナス10万円支給)
勤続35年目:連続10日間(リフレッシュボーナス5万円支給)
勤続40年目:連続10日間(リフレッシュボーナス10万円支給)
勤続45年目:連続10日間(リフレッシュボーナス5万円支給)
この制度は心身のリフレッシュを目的としています。
この回答が一番いいですね。各年次ごとの休暇日数がわかりやすいですし、リフレッシュボーナスの額も記載されています。
質問3:院了手当の額を教えてください
弊社では、大学院卒業者に専門職昇格後3年間まで毎月2万円支給されます。
GPT-3.5の回答
申し訳ありませんが、参照情報には院了手当の具体的な額に関する情報は記載されていません。もし院了手当に関する詳細な情報を知りたい場合は、所属する組織や担当窓口にお問い合わせいただくか、公式の情報源をご確認ください。
正解できませんでした。
GPT-4oの回答
結論から申し上げますと、院了手当は月額20,000円です。
補足説明として、院了手当は院卒入社者に対して支給されますが、専門職またはシニアコンサルタントに昇格した後、3年間までが支給対象期間となります。
完璧な回答です。
GPT-4o miniの回答
関連ドキュメントが見つからず、大変申し訳ございませんが、ご希望の情報について回答することができません。もう少し具体的に知りたいことをお伺いしてもいいですか?
正解できませんでした。実はこの記述は事前に登録した文書をよく読まないと見つからないのですが、GPT-3.5 turboとGPT-4o miniでは必要な情報が見つけられなかったようです。GPT-4oはやはり入力文章の認識能力に優れているのでRAG向きのモデルですね。
まとめ
GPT-3.5 turbo、GPT-4o、GPT-4o miniのRAGでの性能を検証しましたが、GPT-4o miniは、参照情報から質問に対してわかりやすく情報を提供することができていました。質問によってはGPT-4oよりも優れた回答をすることがありました。
回答のわかりやすさといった出力に対するメリットの反面、GPT-4o miniはGPT-4oと比較すると入力情報である参照文章から必要な情報を抜き出せないという現象が稀に起こることが今回の検証でわかりました。
したがって、RAGで利用する生成AIモデルの運用は、GPT-4oとGPT-4o miniを組み合わせて運用することをおすすめします。まずは、今回検証したモデルの中で最も利用料金が低額であるGPT-4o miniを使用し、期待した回答が得られなかった場合や回答の正確性を確かめたい場合のみGPT-4oを使用することで、より効果的なRAGの運用を実現できます。
運用コストを気にしないのであれば、最初からGPT-4oを利用してもいいかもしれません。
今後もAITCではChatGPTを用いたソリューション開発や、研究開発を推進して参りますので、ChatGPTや生成AIをビジネスに活用したいと思われている方は、ぜひお問い合わせいただいて、直接ディスカッションさせていただければと思います。
ご相談を希望される方は、お気軽にこちらのお問い合わせフォームからご連絡ください。