2026.06.29

【G検定対策】AIはどう評価されるのか？

seo-webmaster

プロモーションが含まれています

AIは「予測できたら終わり」ではありません。

本当に重要なのは「その予測は良いのか？」を確認することです。

AI内部では

入力

↓

予測

↓

正解と比較

↓

修正

↓

再予測

↓

評価

という流れが繰り返されています。

ここを理解すると

なぜ精度だけでは危険なのか
なぜ適合率と再現率を使い分けるのか
なぜ過学習が問題になるのか

が一気につながります。

今回は「AIはどう評価されるのか？」を流れで整理し、試験に備えましょう。

ジャンプするもくじ

AIは「予測しただけ」では終わらない
なぜ「損失関数」と「評価指標」は混同しやすいのか？
なぜ「精度」だけでは危険なのか？
AI評価で最も重要なのは「目的」
G検定ではどう問われる？
まとめ
関連記事・おすすめ記事

AIは「予測しただけ」では終わらない

AIは「予測する機械」ではありません。

本当は「予測結果を確認して改善する仕組み」です。

AI内部では

入力

↓

予測

↓

正解と比較

↓

修正

↓

再予測

↓

評価

が繰り返されています。

つまり「評価」はAI学習の最後ではなく、次の学習につながる重要工程 です。

ここで重要なのが「AIは何を基準に修正や評価をしているのか？」です。

そして、評価するには「何をもって良いAIとするのか？」という基準が必要になってきます。

例えば

たくさん当たれば良い？
見逃しが少なければ良い？
間違った警告を減らすべき？

用途によって「良いAI」の基準は変わります。

評価①｜どれくらい当たった？（精度）

最も有名なのが 精度（Accuracy）です。

意味は「全体のうち、どれくらい正解したか？」です。

例えば 100件中90件正解なら： 精度90% です。

ただし 精度だけでは危険 です。

なぜなら「ほとんど正常」なデータでは、全部「正常」と予測するだけで高精度になる場合があるためです。

つまり「当たりやすい問題」では精度が高く見えてしまう のです。

評価②｜見逃していない？（再現率）

再現率（Recall）は「本当に検出したいものを見逃していないか？」を見る指標です。

例えば、病気検出AI。

本当に病気の人をどれだけ見つけられたか？を確認します。

ここで重要なのは「見逃し防止」です。

つまり、再現率が高いほど「本当に危険なもの」を拾いやすい ということです。

評価③｜本当に正しい？（適合率）

適合率（Precision）は「AIが陽性と言ったものは、本当に陽性か？」を見る指標です。

例えばスパムメール判定。

普通メールをスパム判定してしまうと困ります。

つまり「誤判定を減らしたい」場面で重要になります。

適合率が高いほど 無駄な警告が少ない ということです。

評価④｜バランスは良い？（F1値）

適合率と再現率は どちらかだけ高ければ良いわけではありません。

そこで使われるのが F1値 です。

これは「適合率」と「再現率」のバランス を見る指標です。

つまり

見逃しを減らしたい
誤判定も減らしたい

という、両方を重視したい場面 で使用されます。

評価⑤｜未知データでも強い？（汎化性能）

AIで最も重要なのは「知らないデータでも使えるか？」です。

これを 汎化性能 と言います。

ここで問題になるのが 過学習 です。

過学習すると

訓練データだけ高精度
未知データで失敗

が起きます。

つまり「覚えすぎ」です。

AI評価では「未知データでも安定するか？」が非常に重要です。

なぜ「損失関数」と「評価指標」は混同しやすいのか？

ここは非常に重要です。

多くの人が

損失関数
評価指標

を混同します。

理由は どちらも「AIの良し悪し」を見ているように見えるから です。

損失関数

AI内部で「どれだけ間違えたか？」を数値化し、修正に使います。

評価指標

人間が「このAIは良いのか？」を判断するために使います。

損失関数と評価指標の違い

つまり 用途が違います。

　損失関数 → AI内部の修正用

　評価指標 → 人間の確認用

ここは非常に混同しやすいポイントです。

なぜ「精度」だけでは危険なのか？

ここも重要です。

例えば、1000件中990件が正常。

この場合全部「正常」と予測すると 精度99% になります。

ですが 異常を1件も検出できていません。

つまり「高精度＝良いAI」ではないのです。

ここで

再現率
適合率
F1値

が必要になります。

AI評価で最も重要なのは「目的」

AI評価で最重要なのは「何を重視するか？」です。

例えば

病気検出
→ 見逃しNG
→ 再現率重視

スパム判定
→ 誤判定NG
→ 適合率重視

つまり 用途によって最適な評価方法は変わる のです。

G検定ではどう問われる？

G検定では

精度
適合率
再現率
F1値
混同行列

が頻出です。

特に「どの指標を重視すべきか？」がよく問われます。

つまり「定義暗記」だけでは危険です。

重要なのは「どんな場面で使うか？」を理解することです。

まとめ

AIは「予測するだけ」ではありません。

本当に重要なのは「その予測をどう評価するか？」です。

AI内部では

予測

↓

正解と比較

↓

誤差確認

↓

修正

↓

再学習

↓

評価

という流れが繰り返されています。

この「評価」を理解すると

なぜ精度だけでは危険なのか
なぜ適合率と再現率を使い分けるのか
なぜ過学習が問題なのか
なぜ評価方法を間違えると危険なのか

がつながって理解できるようになります。

AI理解で重要なのは「用語暗記」ではなく「AI内部で何が起きているか？」を流れで理解することです。

関連記事・おすすめ記事

AIの評価では、単に当たったかどうかだけでなく、目的に応じて精度、適合率、再現率、F1値などを使い分けることが重要です。

過学習やバイアスと分散もあわせて確認すると、評価の見方を整理しやすくなります。

おすすめ記事	確認できる内容
精度・再現率・適合率とは？	分類モデルの評価指標／精度・適合率・再現率の違い／F1値との関係
評価指標の使い分け	目的に応じた評価指標／見逃し・誤検出の考え方／指標選びの注意点
交差検証とは？	データの分け方を変える評価／汎化性能の確認／過学習の見つけ方
過学習とは？	学習データに合わせすぎる状態／未知データへの弱さ／評価で注意するポイント
バイアスと分散とは？	未学習・過学習の原因／モデルの複雑さとの関係／評価結果の見方