令和5年度 ITパスポート試験 公開問題 問76 解説 機械学習の再現率
品質管理担当者が行っている検査を自動化することを考えた。10,000枚の製品画像と,それに対する品質管理担当者による不良品かどうかの判定結果を学習データとして与えることによって,製品が不良品かどうかを判定する機械学習モデルを構築した。100枚の製品画像に対してテストを行った結果は表のとおりである。品質管理担当者が不良品と判定した製品画像数に占める,機械学習モデルの判定が不良品と判定した製品画像数の割合を再現率としたとき,このテストにおける再現率は幾らか。
- ア. 0.05
- イ. 0.25
- ウ. 0.50 ✓ 正答
- エ. 0.80
解説
再現率(Recall)を求めるには、問題文の定義通り「実際に不良品であるもの」のうち「モデルが正しく不良品と判定したもの」がどれだけあるかを計算します。
今回の表から必要な数値を拾い出すと、以下の通りとなります。 分母:実際に不良品である製品数 = 機械学習モデルが不良品と判定した数(5枚)+機械学習モデルが良品と判定した数(5枚)= 10枚 分子:実際に不良品で、かつ機械学習モデルも不良品と判定した数 = 5枚
計算式は となり、正解はウとなります。
再現率とは機械学習における分類モデルの評価指標の一つです。別名で「網羅率」や「感度」とも呼ばれます。この指標が重要視されるのは、見逃しが許されないケースにおいてです。
例えば、今回の品質管理のように「不良品を良品と間違えて出荷してしまうリスク」を避けたい場合、再現率が高いモデルが求められます。もし再現率が低いと、不良品を見逃す確率が高まり、消費者の手に届いてしまうことによる損害が大きくなります。
試験対策として、混同行列(今回のようなクロス集計表)を用いた評価指標は頻出です。セットで覚えておくべき指標に「適合率(Precision)」があります。
適合率は「モデルが不良品だと判定したもの」のうち「実際に不良品だったもの」の割合です。 今回の例で計算すると、モデルが不良品と判定したのは、不良品(5枚)+良品を誤判定した数(もし表に記載があればその値)となります。
再現率と適合率はトレードオフの関係にあることが多く、どちらを重視するかはシステムに求められる要件によって決まります。ITパスポートでは、これら計算式の分母と分子が何を指しているのかを正しく読み取れるようにしておくことが合格への近道です。
- 機械学習モデルの評価指標:適合率(Precision)と再現率(Recall)(経済産業省 情報セキュリティ関連資料などでも用いられる基礎概念)