【G検定対策】正規化・標準化とは?|データを学習しやすいスケールに整える考え方

seo-webmaster
プロモーションが含まれています
正規化・標準化とは?のイメージ画像

正規化・標準化は、データの値の大きさをそろえる前処理です。

AIや機械学習では、年齢、身長、年収、購入回数のように、単位や値の範囲が違うデータを同時に扱います。

そのまま学習すると、値が大きい特徴だけが強く影響してしまうことがあります。

そこで、正規化や標準化によって、特徴量のスケールを整えます。

この記事では、正規化と標準化の違い、正則化との違い、AIでなぜ重要なのかを、G検定向けにわかりやすく整理します。

正規化・標準化とは?

正規化・標準化とは?のイメージ画像

正規化・標準化とは、データの値の大きさをそろえるための前処理です。

AIは、データを数値として扱います。

そのため、特徴量ごとの値の範囲が大きく違うと、学習が不安定になったり、一部の特徴だけが強く影響したりすることがあります。

たとえば、次のようなデータを考えます。

年齢
20〜80くらい
身長
140〜190くらい
年収
200万〜1000万くらい
購入回数
0〜50くらい

このように、特徴量によって値の範囲は大きく違います。

正規化・標準化は、このような数値のスケールをそろえるために使います。

用語 一言でいうと
正規化 値の範囲をそろえる前処理
標準化 平均やばらつきを基準にそろえる前処理
目的 AIが特徴量を扱いやすくする
関係する分野 データ前処理、特徴量設計、機械学習

なぜ正規化・標準化が必要なのか?

なぜ正規化・標準化が必要なのか?のイメージ画像

正規化・標準化が必要になる理由は、特徴量ごとのスケールが違うからです。

たとえば、年齢と年収を同時に使う場合、年収の数値は年齢よりかなり大きくなります。

AIは数値をもとに計算するため、値が大きい特徴量を「重要そう」と扱ってしまうことがあります。

もちろん、値が大きいからといって、本当に重要とは限りません。

正規化・標準化は、特徴量を公平に扱いやすくするための準備です。

流れで見ると、次のようになります。

特徴量ごとに値の範囲が違う
値が大きい特徴が強く影響しやすい
正規化・標準化でスケールをそろえる
AIが学習しやすくなる

正規化とは?

正規化とは?のイメージ画像

正規化とは、データの値の範囲をそろえる前処理です。

代表的な方法は、値を0〜1の範囲に変換する方法です。

たとえば、身長、年収、購入回数のように値の範囲が違う特徴量を、同じような範囲にそろえます。

イメージとしては、次のような変換です。

小さい値
0に近い値
大きい値
1に近い値

代表的な式は次の形です。

 正規化後の値 = (元の値 – 最小値) / (最大値 – 最小値)

この式を覚えることよりも、G検定では「値の範囲をそろえる」という意味を押さえることが重要です。

標準化とは?

標準化とは?のイメージ画像

標準化とは、データを平均0、標準偏差1に近づける前処理です。

平均からどれくらい離れているかを基準にして、値を変換します。

代表的な式は次の形です。

 標準化後の値 = (元の値 – 平均) / 標準偏差

標準化では、単に0〜1に収めるのではなく、平均とばらつきを基準にします。

そのため、「平均より大きいか」「平均からどれくらい離れているか」を見やすくなります。

たとえば、テストの点数で考えると、単純な点数だけでなく、平均との差を見るイメージです。

  • 平均より高い
  • 平均に近い
  • 平均より低い

このような位置関係を扱いやすくするのが標準化です。

正規化と標準化の違い

正規化と標準化の違いのイメージ画像

正規化と標準化は、どちらもデータのスケールを整える前処理です。

ただし、そろえ方が違います。

項目 正規化 標準化
目的 値の範囲をそろえる 平均とばらつきを基準にそろえる
代表的な変換 0〜1の範囲に変換する 平均0、標準偏差1に近づける
基準 最小値・最大値 平均・標準偏差
イメージ 値の範囲をそろえる 平均との差を見やすくする
関係する考え方 スケーリング 平均、分散、標準偏差

ざっくり言うと、正規化は「範囲をそろえる」、標準化は「平均との差でそろえる」と考えるとわかりやすいです。

正則化との違い

正則化との違いのイメージ画像

G検定では、正規化、標準化、正則化を混同しないことが重要です。

特に、正規化と正則化は名前が似ています。

しかし、意味はまったく違います。

正規化・標準化は、データを学習しやすくするための前処理です。

一方、正則化は、過学習を防ぐための工夫です。

用語 目的 一言でいうと
正規化 値の範囲をそろえる データのスケールを整える
標準化 平均とばらつきを基準にそろえる 平均との差を扱いやすくする
正則化 過学習を防ぐ モデルが複雑になりすぎないようにする

正規化・標準化は「データ側」の調整です。

正則化は「モデル側」の調整です。

この違いを押さえると、混同しにくくなります。

AI・機械学習での役割

AI・機械学習での役割のイメージ画像

正規化・標準化は、機械学習の前処理として使われます。

特に、距離や勾配を使う手法では重要です。

たとえば、k-means法 や k近傍法 では、データ同士の距離を使います。

特徴量のスケールが違うと、値の大きい特徴量が距離計算に強く影響します。

また、勾配降下法を使うモデルでは、特徴量のスケールがそろっている方が学習が安定しやすくなります。

ニューラルネットワークでも、入力データのスケールを整えることがあります。

ただし、すべての手法で同じように重要というわけではありません。

決定木やランダムフォレストのような木構造の手法では、正規化・標準化の影響が比較的小さい場合もあります。

G検定では、手法ごとの細かい使い分けよりも、「特徴量のスケールをそろえる前処理」として理解しておくことが大切です。

データ前処理・特徴量設計との関係

データ前処理・特徴量設計との関係のイメージ画像

正規化・標準化は、データ前処理の一部です。

また、特徴量設計とも関係します。

データ前処理は、AIが学習しやすいようにデータを整える作業です。

特徴量設計は、AIが学習しやすい特徴を作る作業です。

正規化・標準化は、その中で「数値のスケールを整える」役割を持ちます。

たとえば、欠損値を処理したあと、外れ値を確認し、必要に応じて正規化・標準化を行う流れが考えられます。

正規化・標準化で注意したいこと

正規化・標準化で注意したいことのイメージ画像

正規化・標準化では、学習データとテストデータの扱いに注意が必要です。

機械学習では、学習データで計算した最小値、最大値、平均、標準偏差を使って、検証データやテストデータも変換します。

テストデータまで含めて平均や標準偏差を計算してしまうと、本来は学習時に知らない情報を使うことになります。

これは、データリーケージにつながる可能性があります。

つまり、正規化・標準化は便利ですが、データの分け方と処理の順番にも注意が必要です。

G検定ではどう問われる?

G検定では、正規化・標準化の細かい計算よりも、意味や違いが問われやすいです。

特に、正則化との混同に注意が必要です。

問われやすい観点 押さえるポイント
正規化の意味 値の範囲をそろえる前処理
標準化の意味 平均0、標準偏差1に近づける前処理
正則化との違い 正則化は過学習を防ぐ工夫
AIで使う理由 特徴量のスケールをそろえて学習しやすくする
関係する分野 データ前処理、特徴量設計、勾配降下法

AIの学習をはじめたばかりの人は、まず次の3つを区別すると理解しやすくなります。

正規化
値の範囲をそろえる
標準化
平均との差を基準にそろえる
正則化
過学習を防ぐ

まとめ

正規化・標準化とは?のまとめのイメージ画像

正規化・標準化は、AIがデータを学習しやすくするための前処理 です。

正規化は、値の範囲をそろえる考え方 です。

標準化は、平均と標準偏差を基準に値をそろえる考え方 です。

どちらも、特徴量のスケールを整えるために使います。

一方、正則化は過学習を防ぐ工夫であり、正規化・標準化とは目的が違います。

用語 意味 覚え方
正規化 値の範囲をそろえる 0〜1などにそろえる
標準化 平均とばらつきを基準にそろえる 平均0、標準偏差1に近づける
正則化 過学習を防ぐ モデルを複雑にしすぎない
G検定での重要点 意味と違いを理解する 名前の似た用語を混同しない

正規化・標準化は、数式を暗記するよりも、「AIがデータを公平に扱いやすくする準備」として理解すると、機械学習全体の流れとつながりやすくなります。

関連記事・おすすめ記事

データを学習しやすく整える作業を理解するなら、先にこちらを確認してください。

【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理
【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理

AIに使う特徴をどう作るかを理解するなら、こちらも関連します。

【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理
【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理

数値データをAIがどう扱うかを理解するなら、こちらがつながります。

【G検定対策】ベクトル・行列とは?|AIがデータを数字のまとまりとして扱う考え方をわかりやすく整理
【G検定対策】ベクトル・行列とは?|AIがデータを数字のまとまりとして扱う考え方をわかりやすく整理

平均や標準偏差の意味を復習するなら、こちらを確認してください。

【G検定対策】期待値・分散・標準偏差とは?|データの平均的な値とばらつきをわかりやすく整理
【G検定対策】期待値・分散・標準偏差とは?|データの平均的な値とばらつきをわかりやすく整理

勾配降下法との関係を理解するなら、こちらもおすすめです。

【G検定対策】微分とは?|勾配降下法と重みの更新につながる考え方を整理
【G検定対策】微分とは?|勾配降下法と重みの更新につながる考え方を整理

名前が似ていて混同しやすい正則化はこちらで整理できます。

【G検定対策】正則化とは?わかりやすく整理
【G検定対策】正則化とは?わかりやすく整理

重要用語をチェックシートとしてまとめました。

こちらもおすすめ
【G検定対策】重要用語チェックシート
【G検定対策】重要用語チェックシート

用語の意味をまとめて確認したい場合は、G検定で覚えたいAI用語一覧もあわせて読んでみてください。

【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理

1回目不合格でした。不合格だった原因を分析しました。

【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴

公式テキスト

Amazonで確認

楽天市場で確認

合格時に使用した問題集

Amazonで確認

楽天市場で確認

書いている人
運営者
運営者
このブログの運営者です。文系出身です。SEO検定1級、ウェブマスター検定1級を取得しました。ブログ運営には「AIの活用は必須」と思いG検定を取得しました。G検定は簡単といわれがちですが1回目は不合格でした。その失敗経験を元に、これから受験する方の助けになればとできるだけわかりやすくG検定対策は解説しています。間違い等あればご指摘いただければ幸いです。合格バッチ
記事URLをコピーしました