【G検定対策】過学習とは?わかりやすく整理

過学習とはなんでしょうか。一言でいうと…
過学習 = 覚えすぎて応用できない状態
過学習 = 覚えすぎて応用できない状態
です。
AIはデータを使って学習しますが、そのデータに「最適化しすぎる」と新しいデータに対応できなくなります。
過学習はG検定では必ずと言っていいほど出題される項目です。この記事では過学習を図解イメージでシンプルに整理します。
結論:過学習を1分で理解

モデルとは『AIがデータをもとに判断するための「仕組み」や「計算のルール」のこと』です。
過学習 とは 学習しすぎて、新しい問題に応用できない状態 です。
よくある誤解

ほぼ確実に引っかかるポイントです。
下記は 間違った認識 です。
■ 学習すればするほど良い
■ 精度が高いモデルは優秀
■ 学習すればするほど良い
■ 精度が高いモデルは優秀
ここが分からないと、この先すべてが曖昧になります。
人間での具体例

テストで考えてみてください。
過去問を丸暗記 → 本番は違う問題 → 解けない
過去問を丸暗記 → 本番は違う問題 → 解けない
これが過学習です。
つまり過学習の状態の時、AIは
「問題を理解した」のではなく
「答えを覚えただけ」
です。
モデルが賢すぎると…

モデルとは『AIがデータをもとに判断するための「仕組み」や「計算のルール」のこと』です。
学習の状態には3つの状態があります。
緑 :学習不足(アンダーフィット)
青 :ちょうど良い(適切)
オレンジ:過学習(オーバーフィット)
緑 :学習不足(アンダーフィット)
青 :ちょうど良い(適切)
オレンジ:過学習(オーバーフィット)
中央の状態(ちょうどよい(適切))が理想です
なぜ過学習が起きるのか

理由はシンプルです。
■ 学習データが少ない
■ 学習しすぎている
■ モデルが複雑すぎる
■ 学習データが少ない
■ 学習しすぎている
■ モデルが複雑すぎる
見落としがちなのは
モデルが賢すぎると逆にダメになる
ことです。
モデルとは『AIがデータをもとに判断するための「仕組み」や「計算のルール」のこと』です。
どうやって防ぐか

基本だけ押さえればOKです。
■ データを増やす
■ 学習を途中で止める(早期終了)
■ モデルをシンプルにする
■ データを増やす
■ 学習を途中で止める(早期終了)
■ モデルをシンプルにする
完璧に覚える必要はありません。「対策がある」と知ることが重要です。
G検定ではどう問われる?
G検定では以下がよく問われます。
- 過学習の意味
- アンダーフィットとの違い
- 対策方法
用語だけでなく「イメージ」で理解しておくと強いです
まとめ

最後にもう一度、過学習を振り返ります。
■ 過学習 = 覚えすぎて応用できない
■ 精度が高いだけではダメ
■ 「ちょうど良い学習」が最も重要
■ 過学習 = 覚えすぎて応用できない
■ 精度が高いだけではダメ
■ 「ちょうど良い学習」が最も重要
これがわかればG検定の過学習の問題は解きやすくなるはずです。
関連記事・おすすめ記事
機械学習とディープラーニングの違いを整理しました。

教師あり学習・教師なし学習・強化学習の違いを整理しました。

CNN・RNN・Transformerの違いを整理しました。

どの分野から出題されるか予想しました。

G検定 合格体験談です。2回目の受験で何とか合格できました。





