【G検定対策】評価指標の使い分け方は?わかりやすく整理

AIの評価では、単に「正解率が高いか」だけを見ればよいとは限りません。データに偏りがある場合、精度が高く見えても、本当に見つけたいものを見逃していることがあります。
重要なのは、見逃しを減らしたいのか、誤判定を減らしたいのか、全体の正解率を見たいのかを目的に合わせて整理することです。
この記事では、精度・適合率・再現率・F1値の使い分けを、混同行列や交差検証との関係も含めて解説します。
評価指標の使い分け方とは?

評価指標の使い分け方とは、AIを使う目的に合わせて、見るべき指標を選ぶことです。
AIの性能を評価するとき、よく使われる指標には、精度・適合率・再現率・F1値があります。
それぞれ見ているものが違います。
| 指標 | 一言でいうと | 重視する場面 |
|---|---|---|
| 精度 | 全体でどれだけ正解したか | データの偏りが少ないとき |
| 適合率 | 陽性と予測した中でどれだけ正解したか | 誤判定を減らしたいとき |
| 再現率 | 実際の陽性をどれだけ拾えたか | 見逃しを減らしたいとき |
| F1値 | 適合率と再現率のバランス | 両方を見たいとき |
ざっくり言うと、見逃しが問題なら再現率、誤判定が問題なら適合率、両方のバランスならF1値 を見ます。
G検定では、指標の名前だけでなく、どの場面でどの指標を使うかが問われやすいです。
精度だけでは不十分な理由

精度は、全体の中でどれだけ正解したかを見る指標です。
たとえば、100件中95件を正しく分類できれば、精度は95%です。
一見すると、とてもよいモデルに見えます。
しかし、データに偏りがある場合は注意が必要です。
たとえば、100件のうち95件が通常データ、5件が異常データだったとします。
このとき、AIがすべてを「通常」と予測しても、95件は当たるため、精度は95%になります。
| 状態 | 結果 |
|---|---|
| 通常データ95件 | 正しく通常と判定 |
| 異常データ5件 | すべて見逃す |
| 精度 | 95% |
この場合、精度は高く見えますが、異常データをまったく見つけられていません。
つまり、目的によっては 精度が高くても役に立ちにくいモデル になることがあります。
そのため、評価指標は目的に合わせて使い分ける必要があります。
見逃しを減らしたいときは再現率

見逃しを減らしたいときは、再現率を重視します。
再現率とは、実際に陽性であるものを、どれだけ拾えたかを見る指標です。
たとえば、病気の検査では、本当に病気の人を見逃すことが大きな問題になります。
このような場面では、多少の誤検知があっても、まずは見逃しを減らすことが重要です。
| 場面 | 重視する指標 | 理由 |
|---|---|---|
| 病気の検査 | 再現率 | 病気の人を見逃したくない |
| 異常検知 | 再現率 | 異常を取りこぼしたくない |
| 不正検知 | 再現率 | 不正を見逃したくない |
再現率は、本当に拾うべきものをどれだけ拾えたか を見る指標です。
「見逃しが危険な場面では再現率」と整理するとわかりやすいです。
誤判定を減らしたいときは適合率

誤判定を減らしたいときは、適合率を重視します。
適合率とは、AIが陽性と予測したもののうち、どれだけ本当に陽性だったかを見る指標です。
たとえば、迷惑メール判定で、通常のメールを何度も迷惑メールにしてしまうと困ります。
このような場面では、「陽性」と判定したものの正しさが重要になります。
| 場面 | 重視する指標 | 理由 |
|---|---|---|
| 迷惑メール判定 | 適合率 | 通常メールを誤って迷惑扱いしたくない |
| おすすめ表示 | 適合率 | 関係ないものを出しすぎたくない |
| 検索結果 | 適合率 | 不要な結果を減らしたい |
適合率は、AIが当てたつもりのものが本当に正しいか を見る指標です。
「誤判定を減らしたい場面では適合率」と整理すると判断しやすくなります。
両方のバランスを見たいときはF1値

F1値は、適合率と再現率のバランスを見るための指標です。
適合率だけが高くても、再現率が低ければ見逃しが多い可能性があります。
反対に、再現率だけが高くても、適合率が低ければ誤判定が多い可能性があります。
| 状態 | 起きやすい問題 |
|---|---|
| 適合率が高い・再現率が低い | 慎重すぎて見逃しが多い |
| 適合率が低い・再現率が高い | 広く拾いすぎて誤判定が多い |
| F1値を見る | 適合率と再現率のバランスを確認できる |
F1値は、どちらか一方だけでなく、両方をバランスよく見たいときに使います。
G検定では、F1値を 適合率と再現率のバランスを見る指標 として押さえておくとよいです。
不均衡データではどの指標を見るべきか?

不均衡データとは、クラスごとのデータ数に大きな偏りがあるデータのことです。
たとえば、通常データが99%、異常データが1%のような場合です。
このようなデータでは、精度だけを見ると危険です。
AIがすべてを多数派のクラスと予測しても、高い精度が出てしまうことがあるからです。
| データの状態 | 注意点 |
|---|---|
| 通常データが多い | すべて通常と予測しても精度が高く見える |
| 異常データが少ない | 本当に見つけたい異常を見逃す可能性がある |
| 精度だけを見る | モデルの問題に気づきにくい |
不均衡データでは、目的に応じて適合率・再現率・F1値を見ることが重要です。
特に、少数派のクラスを見つけたい場合は、再現率やF1値を確認するとよいです。
混同行列との関係

評価指標は、混同行列とセットで理解すると整理しやすくなります。
混同行列とは、AIの予測結果を「実際の状態」と「予測した状態」で整理した表です。
| 空 | 実際に陽性 | 実際に陰性 |
|---|---|---|
| 陽性と予測 | TP | FP |
| 陰性と予測 | FN | TN |
それぞれの意味は次の通りです。
| 用語 | 意味 |
|---|---|
| TP | 陽性を正しく陽性と予測 |
| FP | 陰性を誤って陽性と予測 |
| FN | 陽性を誤って陰性と予測 |
| TN | 陰性を正しく陰性と予測 |
適合率では、FPが重要になります。
FPが多いと、陽性と予測した中に間違いが多いことになるからです。
再現率では、FNが重要になります。
FNが多いと、本当は陽性なのに見逃したものが多いことになるからです。
| 指標 | 関係するミス | 見ていること |
|---|---|---|
| 適合率 | FP | 誤判定を減らせているか |
| 再現率 | FN | 見逃しを減らせているか |
| F1値 | FP・FN | 適合率と再現率のバランス |
混同行列を理解しておくと、評価指標の意味がかなり整理しやすくなります。
交差検証との関係

評価指標は、1回だけ計算すれば十分とは限りません。
データの分け方によって、評価結果がたまたま良く見えたり、悪く見えたりすることがあります。
そこで使われるのが交差検証です。
交差検証は、データの分け方を変えながら複数回評価し、モデルの性能を安定して確認する方法です。
| 用語 | 役割 |
|---|---|
| 評価指標 | モデルの性能を数値で見る |
| 交差検証 | 評価結果の偏りを減らす |
| 汎化性能 | 未知のデータにも対応できる力 |
たとえば、適合率や再現率を1回だけ確認するより、交差検証で複数回確認した方が、モデルの実力を見やすくなります。
評価指標は 何を見るか、交差検証は どう安定して評価するか と分けると理解しやすいです。
G検定ではどう問われる?
G検定では、評価指標の計算そのものよりも、目的に応じた使い分けが問われやすいです。
特に、精度だけで判断してよいか、適合率と再現率のどちらを重視するか、F1値をいつ使うかを整理しておくと判断しやすくなります。
| 問われやすい内容 | 押さえるポイント |
|---|---|
| 精度 | 全体の正解率を見る |
| 適合率 | 誤判定を減らしたいときに重視 |
| 再現率 | 見逃しを減らしたいときに重視 |
| F1値 | 適合率と再現率のバランスを見る |
| 不均衡データ | 精度だけでは判断しにくい |
| 混同行列 | TP・FP・FN・TNとつながる |
| 交差検証 | 評価を安定させる |
次のように整理しておくと、選択肢を判断しやすくなります。
| 状況 | 見る指標 |
|---|---|
| 全体の正解率を見たい | 精度 |
| 見逃しを減らしたい | 再現率 |
| 誤判定を減らしたい | 適合率 |
| バランスを見たい | F1値 |
| 評価を安定させたい | 交差検証 |
「精度が高いからよいモデル」と考えるのではなく、何を見逃したくないのか、何を誤判定したくないのか まで考えることが大切です。
まとめ

評価指標は、AIの性能を目的に合わせて確認するためのものです。
精度は全体の正解率、適合率は陽性と予測した中の正しさ、再現率は実際の陽性をどれだけ拾えたかを見ます。
F1値は、適合率と再現率のバランスを見る指標です。
| 指標 | 一言でいうと | 使う場面 |
|---|---|---|
| 精度 | 全体の正解率 | データの偏りが少ないとき |
| 適合率 | 当てた中の正しさ | 誤判定を減らしたいとき |
| 再現率 | 本物を拾う力 | 見逃しを減らしたいとき |
| F1値 | バランス | 適合率と再現率を両方見たいとき |
| 交差検証 | 複数回評価 | 評価を安定させたいとき |
G検定では、評価指標を単独で暗記するよりも、目的に応じてどの指標を選ぶか で整理することが大切です。
特に、不均衡データでは精度だけでは判断しにくいため、適合率・再現率・F1値をあわせて確認する考え方を押さえておきましょう。
関連記事・おすすめ記事
各指標の基本的な意味を確認したい場合は、精度・適合率・再現率の記事で整理しています。

指標を正しく使うためには、評価データの分け方や検証方法も重要です。

評価指標が良く見えても、学習データに合わせすぎている場合は過学習に注意が必要です。

評価結果の原因を整理するときは、バイアスと分散の関係も確認しておくと理解しやすくなります。







