データの価値を測る予測困難度とは? vol.1

最新論文を再現結果付きで紹介します。

概要

本記事では、データセットの各サンプルの予測困難度を定量化する技術を紹介します。 具体的には、予測深度(Prediction Depth)[1] を紹介します。この予測深度はNeurIPS2021に採択されているGoogle社の論文“Deep Learning Through the Lens of Example Difficulty”で紹介されている手法になります。

問題の背景

近年、データセットの各データの価値に注目が集まっています。最近のAutoML機能 含め、データの価値を考慮せずに学習をおこなうことが多いです。データの価値を区別せずに学習をおこなうと精度改善が頭打ちになる場合があります。

このデータの価値については様々な考え方があります。 例えば、サンプルレベルに複雑性、データセットレベルでは多様性という概念[2] があります。

複雑性:NLPにおける長文や、画像認識における複数のオブジェクトが写る画像など 多様性:あるクラス中の出現頻度が低いサンプル、別クラスと間違いそうなサンプル

データの価値の貢献

データの価値を定量化することで、データの価値が高いものからアノテーションをする優先順位付けに役立ちます。 また、データの価値が低い画像を取り除く(学習の影響を小さくする)ことで、精度が改善する可能性があります。

関連研究

データの価値を踏まえた学習アルゴリズムは、カリキュラム学習[2]、データノイズに対するロバスト学習[3]で議論されています。

さらに近年、対照学習[4]や距離学習[5]においても、負例サンプルをどう定義するかでデータの性質を議論する研究(Hard Example Mining[4,5])があります。

本題

本コラムではデータセットを分析し、画像の予測困難度の定量化手法を紹介します。また、紹介する手法の再現実装をおこないました。この手法が発展することで、データ分析、予測精度改善がより発展することを期待します。

予測困難度とは

予測困難度とは、予測する難しさを指します。 今回紹介する手法はどちらも、学習した深層モデルとデータセットが与えられた時、どの入力の予測が難しいのかをランキングします。

予測困難度の活用方法

3つの場面でそれぞれ活用できます。

1. データセットの探索

そもそも画像データセットにはテーブルデータのような属性が含まれていないため、画像データセットの探索は、可視化する軸が少なく難しいです。 ユーザは、予測困難度から難易度別にデータセットの全体的な分布を理解し、出現頻度の低いサンプルなど整理できます。

2. データの分析

他クラスと間違えやすい画像やノイジーな画像が調べられます。 モデルのバイアス傾向が分かります。

3. 学習方法の改善

カリキュラム学習で予測困難度の低いサンプルから学習する戦略に活用することができます。

予測困難度の定量化手法、予測深度とは

冒頭で紹介したように予測困難度は予測深度から定量化することが可能です。Google社が提案した予測深度 prediction depth (PD)[1] は、各層の特徴空間でk-近傍分類をおこない、最終層の予測結果と各層の予測結果の一貫性の度合いを深度として表しています。 この指標の背景には、多層ニューラルネットワークの学習は簡単なサンプルから1層目で特徴が分離され、難しいサンプルほど、最終層で分離される特性をもとに作られた指標です。 具体的には、学習済みモデルに対して、各層の特徴量空間でk-近傍分類をおこない、予測ラベルを求めます。最終層の予測ラベル結果と各層が一貫しているほど、予測深度は小さく、一貫していないほど予測深度が大きくなります。

実装した所感としては、モデルの層が深く、データセットのサイズが大きいほど、予測深度を算出するのに計算時間がかかりました。

再現実装の実験設定 CIFAR-10のデータセット[6]を用いて、ResNet18を学習させました。 予測深度の計算には全層を使わず、入力層、2層目、4層目、6層目、8層目、最終層を用いました。

予測困難度と不確実性の関係

予測困難度が高い、つまり予測深度が大きいサンプルは分類が難しく、精度が悪いことが期待されます。 そこで、予測困難度が高いと確信度は低く、エントロピーが高くなることを確認しました。

図の横軸は予測深度を示し、縦軸は確信度とエントロピーを指します。 予測深度が深くなるほど、確信度の低いサンプルが含まれていることがわかります。

予測困難度を活用したデータセットの探索

予測困難度を全体的に探索することで、データセットの全体的な分布が見えてきます。

予測深度指標と画像データとの関係

予測深度が小さいと背景が黒緑色で鳥の色味も写る角度も似たような画像が多かったです。予測深度が大きくなるにつれ、背景色がカラフルになり、鳥の写り方にも多様性が増していきました。 CIFAR-10のテストデータに含まれる全クラスの予測深度を図の上部に示しました。難しい画像と易しい画像が少なく、ほどほどに複雑な画像が多く含まれていることがわかります。

予測困難度を活用したデータ分析

1. 他のクラスと間違えやすい画像が抽出されます。 予測深度が最大の画像には、最終層まで分類クラスが定まらず、間違えている画像もあります。

下図は、正解が鳥クラスなのに間違えている予測深度10の例を抽出しています。鳥の顔が画像全体に写ると犬と誤分類され、背景が緑だと馬や鹿に分類される傾向が見えます。

2. 確信度を見ながら、自信を持って間違えているサンプルを探れます。 予測深度が小さい画像は、学習序盤から安定して分類できている画像が多く、確信度が高いです。その中でも間違えている画像を見ることで、モデルのバイアスを知ることができます。

下図は、正解が鳥クラスなのに間違えている予測深度2の例を抽出しています。 最初の層から一貫してbirdをplaneと間違えています。確信度はどれも0.98~1.00になります。おそらく「空が映っている」かつ「翼を広げている」と飛行機と誤分類しているようです。

予測困難度(深層深度):低 (PD:2)

予測困難度を活用した予測精度の改善

訓練データの予測困難度が高い画像を除外することで精度が改善するか?

予測困難度が高い画像を取り除くだけでは、精度は変わりませんでした。

そこで、より分類難易度が低いデータから学習をはじめ、徐々に訓練データの難易度を上げていくカリキュラム学習の考え方を適用しました。

予測深度の低い画像から学習を始め、徐々に予測深度の高い画像をデータセットに追加しながら学習することで、予測精度は86.89%→87.63%まで改善しました。 新たに正しく分類できた画像は予測困難度の高い画像とも相関はなく、全体的に分類できる画像が増える結果になりました。

まとめ

本ブログでは、データの価値を考える指標として、予測困難度を表す予測深度を紹介しました。データの価値の定量化は、多くの研究[7,8,9]があり、どの指標が効果的かはタスクによって異なります。簡単に様々な指標でデータの価値を測れることが期待されます。

次回

isid-ai.jp

関連研究

[1] Baldock, Robert, Hartmut Maennel, and Behnam Neyshabur. "Deep learning through the lens of example difficulty." Advances in Neural Information Processing Systems 34 (2021).

[2] Wang, Xin, Yudong Chen, and Wenwu Zhu. "A survey on curriculum learning." IEEE Transactions on Pattern Analysis and Machine Intelligence (2021).

[3] Hua, Weizhe, et al. "BulletTrain: Accelerating robust neural network training via boundary example mining." Advances in Neural Information Processing Systems 34 (2021).

[4] Tabassum, Afrina, et al. "Hard Negative Sampling Strategies for Contrastive Representation Learning." arXiv preprint arXiv:2206.01197 (2022).

[5] Suh, Yumin, et al. "Stochastic class-based hard example mining for deep metric learning." Proceedings of the IEEE/CVF Conference on Computer V

[6] CIFAR10 / CIFAR100: Krizhevsky, Alex, and Geoffrey Hinton. "Learning multiple layers of features from tiny images." (2009): 7. URL: https://www.cs.toronto.edu/~kriz/cifar.html

[7] Carlini, Nicholas, Ulfar Erlingsson, and Nicolas Papernot. "Distribution density, tails, and outliers in machine learning: Metrics and applications." arXiv preprint arXiv:1910.13427 (2019).

[8] Varshney, Neeraj, Swaroop Mishra, and Chitta Baral. "ILDAE: Instance-Level Difficulty Analysis of Evaluation Data." arXiv preprint arXiv:2203.03073 (2022).

[9] Collins, Edward, Nikolai Rozanov, and Bingbing Zhang. "Evolutionary data measures: Understanding the difficulty of text classification tasks." arXiv preprint arXiv:1811.01910 (2018).

執筆
AI 製品開発グループ
太田 真人