信頼できる大規模言語モデルとは何か

こんにちは！入社3年目の機械学習エンジニアの太田です。

生成AIのモデル（特に大規模言語モデル：LLM）を、消費者向けに活用しようとした場合、どのようなことを考慮し、どのような対策を実施する必要があるのでしょうか？

本記事では、ByteDance Researchが2023年8月9日に公開されたLLMの信頼性に関する論文を紹介します。筆者の方で、スライドにポイントをまとめておりますので、ぜひご覧ください。

論文名「Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment」 arxiv.org

この論文では、信頼できるLLMに必要な観点を、アライメント*1の文脈から整理し、以下の7カテゴリにまとめています。

信頼性
安全性
公平性
悪用防止
説明可能性と推論可能性
社会的規範の順守
頑健性

さらに、各カテゴリを細かいセクションに分けて、その概念を説明しています。 LLMのアプリケーションを構築する際に、ぜひ読んで頭の片隅に入れておくと良いと思います。

私は、7カテゴリ全てをLLMが満たすべきという考えではなく、アプリケーションの用途に応じて満たすべきだと考えています。また、大規模な言語モデルを作れない会社も多いと思います。その方々は、今後オープンソースのモデルを使う際に、RLHFアルゴリズム*2でどのカテゴリは保証するべきか検討する材料にしてみてはいかがでしょうか。各業界で満たすべき項目が変わってくると思います。例えば、ヘルスケアなら患者の健康状態を配慮した回答、推薦系は選好バイアスの配慮など。

最後にエンジニアの多くは、この論文の内容を「信頼できるLLM が満たすべきカテゴリ」から「サービスが満たすべきカテゴリ」に置き換えて考えてみてはいかがでしょうか。どのツールを使ってシステム化すれば対応できるか議論することで、より信頼できるLLMサービスになると思います。

執筆 AI製品開発グループ太田

*1:アライメントとは、モデルの出力が人間の意図や期待に合致するように調整することを意味します。

*2:RLHFはChatGPTを学習した際に利用されたアルゴリズムで人間の好みをモデルに教えるアライメント手法の一つ