【G検定対策】相関係数・偏相関係数・共分散・分散とは?|データの関係性とばらつきをわかりやすく整理

seo-webmaster
プロモーションが含まれています
相関係数・偏相関係数・共分散・分散とは?のイメージ画像

G検定では、AIに必要な数理・統計知識として、データのばらつきや関係性を表す用語が問われることがあります。

その中でも混同しやすいのが、分散、共分散、相関係数、偏相関係数です。

これらはすべて、データを見るための考え方ですが、見ているポイントが少しずつ違います。

分散
1つのデータのばらつきを見る
共分散
2つのデータが一緒に動くかを見る
相関係数
2つのデータの関係の強さを見る
偏相関係数
他の要因の影響を取り除いて関係を見る

この記事では、相関係数、偏相関係数、共分散、分散の違いを、G検定で理解しやすいように整理します。

相関係数・偏相関係数・共分散・分散とは?

相関係数・偏相関係数・共分散・分散とは?のイメージ画像

相関係数、偏相関係数、共分散、分散は、データのばらつきや関係性を表すための統計的な考え方です。

それぞれの役割は、次のように整理できます。

用語 見るもの 一言でいうと
分散 1つのデータのばらつき 平均からどれくらい散らばっているか
共分散 2つのデータの動き方 一緒に増えるか、一緒に減るか
相関係数 2つのデータの関係の強さ 関係性を -1〜1 で表す
偏相関係数 他の要因を除いた関係 第三の要因の影響を取り除いて見る

大きく分けると、分散は「1つのデータ」、共分散、相関係数、偏相関係数は「複数のデータの関係」を見る考え方です。

なぜAIで重要なのか?

なぜAIで重要なのか?のイメージ画像

AIは、データからパターンを学習します。

そのため、データがどのくらいばらついているのか、特徴同士にどのような関係があるのかを理解することは重要です。

AIとの関係は、次の流れで整理できます。

データにばらつきや関係性がある
統計的な指標で特徴を確認する
不要な特徴や強すぎる関係に気づく
特徴量設計やモデル解釈に役立つ

たとえば、特徴量同士の関係が強すぎる場合、似た情報を重複して使っている可能性があります。

また、ある変数同士に関係があるように見えても、実は別の要因が影響している場合もあります。

このようなときに、相関係数や偏相関係数の考え方が関係します。

分散とは?

分散とは?のイメージ画像

分散とは、データが平均からどれくらいばらついているかを表す指標です。

たとえば、テストの点数が全員ほぼ同じなら、ばらつきは小さくなります。
一方で、点数が高い人と低い人に大きく分かれていれば、ばらつきは大きくなります。

分散のイメージは、次の通りです。

状態 分散のイメージ
値が平均の近くに集まっている 分散は小さい
値が平均から大きく離れている 分散は大きい

分散は、データの散らばり具合を見るための基本的な指標です。

機械学習では、データのばらつきが大きすぎると学習が不安定になったり、外れ値の影響を受けやすくなったりすることがあります。

標準偏差との関係

標準偏差との関係のイメージ画像

分散とあわせて出てきやすい用語に、標準偏差があります。

標準偏差は、分散の平方根です。

分散は計算上便利ですが、単位が二乗になります。

標準偏差は元のデータと同じ単位で考えやすいため、ばらつきの大きさを直感的に理解しやすい指標です。

分散と標準偏差の違いは、次のように整理できます。

用語 意味
分散 平均からのばらつきを二乗して平均したもの
標準偏差 分散の平方根。元の単位でばらつきを見やすい

G検定では、細かい計算よりも、分散はばらつき、標準偏差は分散を見やすくしたもの、という理解が重要です。

共分散とは?

共分散とは?のイメージ画像

共分散とは、2つのデータがどのように一緒に動くかを表す指標です。


たとえば、気温が上がるとアイスの売上も上がる場合、気温とアイスの売上は同じ方向に動いていると考えられます。

このような関係を見るのが共分散です。

共分散の符号は、次のように整理できます。

共分散 動き方
正の値 一方が増えると、もう一方も増えやすい 気温が上がるとアイスの売上も増える
負の値 一方が増えると、もう一方は減りやすい 価格が上がると購入数が減る
0に近い 一緒に動く傾向が弱い 関係がはっきりしない

ただし、共分散は値の単位やスケールの影響を受けます。

そのため、共分散だけを見ても、関係がどれくらい強いのかを直感的に比較しにくい場合があります。

相関係数とは?

相関係数とは?のイメージ画像

相関係数とは、2つのデータの関係の強さを -1 から 1 の範囲で表す指標です。

共分散はスケールの影響を受けますが、相関係数は -1 から 1 の範囲にそろえられるため、関係の強さを比較しやすくなります。

相関係数の見方は、次の通りです。

相関係数 関係 イメージ
1に近い 強い正の相関 一方が増えると、もう一方も増えやすい
0に近い 相関が弱い 直線的な関係が見えにくい
-1に近い 強い負の相関 一方が増えると、もう一方は減りやすい

相関係数は、データ同士の関係を見るときによく使われます。

ただし、相関係数が高いからといって、必ず原因と結果の関係があるとは限りません。

相関と因果の違い

相関と因果の違いのイメージ画像

相関とは、2つのデータに関係がありそうに見えることです。

因果とは、一方が原因となって、もう一方に影響していることです。

相関と因果の違いは、G検定でも重要です。

用語 意味
相関 2つのデータが一緒に動いているように見える関係
因果 一方が原因となって、もう一方に影響している関係

たとえば、アイスの売上と熱中症の件数に相関があったとしても、アイスが熱中症の原因とはいえません。

この場合、気温という別の要因が両方に影響している可能性があります。

偏相関係数とは?

偏相関係数とは?のイメージ画像

偏相関係数とは、他の変数の影響を取り除いたうえで、2つの変数の関係を見る指標です。

たとえば、アイスの売上と熱中症の件数に関係があるように見える場合を考えます。

しかし、どちらにも気温が影響しているかもしれません。

このとき、気温の影響を取り除いたうえで、アイスの売上と熱中症の件数の関係を見るのが偏相関係数の考え方です。

偏相関係数のイメージは、次の通りです。

アイスの売上と熱中症に関係がありそうに見える
ただし、気温が両方に影響している可能性がある
気温の影響を取り除いて関係を見る
残った関係を確認する

偏相関係数は、「見かけの関係」と「本当に残る関係」を分けて考えるために使われます。

4つの関係を流れで整理

4つの関係を流れで整理のイメージ画像

分散、共分散、相関係数、偏相関係数は、ばらつきから関係性へ進む流れで理解するとわかりやすくなります。

整理すると、次のようになります。

分散:1つのデータのばらつきを見る
共分散:2つのデータが一緒に動くかを見る
相関係数:関係の強さを -1〜1 で見る
偏相関係数:他の要因を除いて関係を見る

最初に分散で「ばらつき」を見ます。

次に共分散で「一緒に動くか」を見ます。

さらに相関係数で「関係の強さ」を見ます。

最後に偏相関係数で「他の要因を除いても関係が残るか」を見ます。

混同しやすい用語の違い

混同しやすい用語の違いのイメージ画像

この分野では、用語の名前が似ているため混同しやすくなります。

特に、共分散と相関係数、相関係数と偏相関係数の違いを整理しておくことが重要です。

比較 違い 押さえるポイント
分散と共分散 分散は1つのデータ、共分散は2つのデータを見る ばらつきか、関係性か
共分散と相関係数 共分散はスケールの影響を受け、相関係数は -1〜1 にそろえる 比較しやすいのは相関係数
相関係数と偏相関係数 偏相関係数は他の変数の影響を取り除く 第三の要因を考える
相関と因果 相関があっても原因とは限らない 見かけの関係に注意する

G検定では、細かい計算よりも「どの指標が何を表すか」を問われることが多いです。

機械学習との関係

機械学習との関係のイメージ画像

分散、共分散、相関係数、偏相関係数は、機械学習の前処理や特徴量設計とも関係します。

主な関係は、次の通りです。

用語 機械学習との関係
分散 特徴量のばらつきを見る ほとんど変化しない特徴は情報が少ない場合がある
共分散 特徴量同士が一緒に動くかを見る 2つの特徴が似た動きをしているか確認する
相関係数 特徴量同士の関係の強さを見る 似た情報を持つ特徴量が重複していないか確認する
偏相関係数 第三の要因を除いた関係を見る 見かけの関係かどうかを確認する

AIはデータから学習するため、データ同士の関係を理解しておくことは大切です。

ただし、G検定では高度な統計計算そのものよりも、機械学習でなぜ必要になるのかを理解しておくとよいです。

G検定ではどう問われる?

G検定では、分散、共分散、相関係数、偏相関係数について、意味や違いを問われる可能性があります。

問われやすいポイントは、次の通りです。

問われやすい観点 押さえるポイント
分散の意味 データが平均からどれくらいばらついているか
共分散の意味 2つのデータが同じ方向に動くか、逆方向に動くか
相関係数の範囲 -1〜1 の範囲で関係の強さを表す
偏相関係数の意味 他の変数の影響を取り除いた関係を見る
相関と因果の違い 相関があっても、因果関係があるとは限らない

特に、「相関係数が高い=原因である」と考えないことが重要です。

関係があるように見えても、第三の要因が影響している場合があります。

まとめ

相関係数・偏相関係数・共分散・分散とは?のイメージ画像のまとめのイメージ画像

分散、共分散、相関係数、偏相関係数は、データのばらつきや関係性を理解するための基本的な考え方です。

まとめると、次のようになります。

用語 意味 覚え方
分散 1つのデータのばらつき 平均からどれくらい散らばるか
共分散 2つのデータの動き方 一緒に動くかを見る
相関係数 2つのデータの関係の強さ -1〜1 で関係を表す
偏相関係数 他の要因を除いた関係 第三の要因を取り除く

G検定では、数式を暗記するよりも、それぞれが何を見ている指標なのかを理解することが大切です。

  • 分散はばらつき
  • 共分散は一緒に動くか
  • 相関係数は関係の強さ
  • 偏相関係数は他の要因を除いた関係

この流れで整理しておくと、数理・統計分野の問題を理解しやすくなります。

関連記事・おすすめ記事

AIに必要な数理・統計知識を分野全体で確認したい場合は、こちらの記事もおすすめです。

【G検定対策】AIに必要な数理・統計知識の重要用語まとめ
【G検定対策】AIに必要な数理・統計知識の重要用語まとめ

評価指標との違いや使い分けを整理したい場合は、こちらの記事で詳しく解説しています。

【G検定対策】評価指標の使い分け方は?わかりやすく整理
【G検定対策】評価指標の使い分け方は?わかりやすく整理

データのばらつきとモデルの失敗をつなげて理解したい場合は、こちらの記事も参考になります。

【G検定対策】バイアスと分散とは?過学習・未学習の原因をわかりやすく整理
【G検定対策】バイアスと分散とは?過学習・未学習の原因をわかりやすく整理

特徴量との関係を整理したい場合は、こちらの記事がおすすめです。

【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理
【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理

データを学習しやすい状態に整える流れを確認したい場合は、こちらの記事も参考になります。

【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理
【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理

機械学習の全体像とつなげて理解したい場合は、こちらの記事で整理できます。

【G検定対策】機械学習の概要まとめ|教師あり・教師なし・強化学習をつなげて理解する
【G検定対策】機械学習の概要まとめ|教師あり・教師なし・強化学習をつなげて理解する

重要用語をチェックシートとしてまとめました。

こちらもおすすめ
【G検定対策】重要用語チェックシート
【G検定対策】重要用語チェックシート

用語の意味をまとめて確認したい場合は、G検定で覚えたいAI用語一覧もあわせて読んでみてください。

【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理

1回目不合格でした。不合格だった原因を分析しました。

【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴

公式テキスト

Amazonで確認

楽天市場で確認

合格時に使用した問題集

Amazonで確認

楽天市場で確認

書いている人
運営者
運営者
このブログの運営者です。文系出身です。SEO検定1級、ウェブマスター検定1級を取得しました。ブログ運営には「AIの活用は必須」と思いG検定を取得しました。G検定は簡単といわれがちですが1回目は不合格でした。その失敗経験を元に、これから受験する方の助けになればとできるだけわかりやすくG検定対策は解説しています。間違い等あればご指摘いただければ幸いです。合格バッチ
記事URLをコピーしました