【G検定対策】相関係数・偏相関係数・共分散・分散とは?|データの関係性とばらつきをわかりやすく整理

G検定では、AIに必要な数理・統計知識として、データのばらつきや関係性を表す用語が問われることがあります。
その中でも混同しやすいのが、分散、共分散、相関係数、偏相関係数です。
これらはすべて、データを見るための考え方ですが、見ているポイントが少しずつ違います。
この記事では、相関係数、偏相関係数、共分散、分散の違いを、G検定で理解しやすいように整理します。
相関係数・偏相関係数・共分散・分散とは?

相関係数、偏相関係数、共分散、分散は、データのばらつきや関係性を表すための統計的な考え方です。
それぞれの役割は、次のように整理できます。
| 用語 | 見るもの | 一言でいうと |
|---|---|---|
| 分散 | 1つのデータのばらつき | 平均からどれくらい散らばっているか |
| 共分散 | 2つのデータの動き方 | 一緒に増えるか、一緒に減るか |
| 相関係数 | 2つのデータの関係の強さ | 関係性を -1〜1 で表す |
| 偏相関係数 | 他の要因を除いた関係 | 第三の要因の影響を取り除いて見る |
大きく分けると、分散は「1つのデータ」、共分散、相関係数、偏相関係数は「複数のデータの関係」を見る考え方です。
なぜAIで重要なのか?

AIは、データからパターンを学習します。
そのため、データがどのくらいばらついているのか、特徴同士にどのような関係があるのかを理解することは重要です。
AIとの関係は、次の流れで整理できます。
たとえば、特徴量同士の関係が強すぎる場合、似た情報を重複して使っている可能性があります。
また、ある変数同士に関係があるように見えても、実は別の要因が影響している場合もあります。
このようなときに、相関係数や偏相関係数の考え方が関係します。
分散とは?

分散とは、データが平均からどれくらいばらついているかを表す指標です。
たとえば、テストの点数が全員ほぼ同じなら、ばらつきは小さくなります。
一方で、点数が高い人と低い人に大きく分かれていれば、ばらつきは大きくなります。
分散のイメージは、次の通りです。
| 状態 | 分散のイメージ |
|---|---|
| 値が平均の近くに集まっている | 分散は小さい |
| 値が平均から大きく離れている | 分散は大きい |
分散は、データの散らばり具合を見るための基本的な指標です。
機械学習では、データのばらつきが大きすぎると学習が不安定になったり、外れ値の影響を受けやすくなったりすることがあります。
標準偏差との関係

分散とあわせて出てきやすい用語に、標準偏差があります。
標準偏差は、分散の平方根です。
分散は計算上便利ですが、単位が二乗になります。
標準偏差は元のデータと同じ単位で考えやすいため、ばらつきの大きさを直感的に理解しやすい指標です。
分散と標準偏差の違いは、次のように整理できます。
| 用語 | 意味 |
|---|---|
| 分散 | 平均からのばらつきを二乗して平均したもの |
| 標準偏差 | 分散の平方根。元の単位でばらつきを見やすい |
G検定では、細かい計算よりも、分散はばらつき、標準偏差は分散を見やすくしたもの、という理解が重要です。
共分散とは?

共分散とは、2つのデータがどのように一緒に動くかを表す指標です。
たとえば、気温が上がるとアイスの売上も上がる場合、気温とアイスの売上は同じ方向に動いていると考えられます。
このような関係を見るのが共分散です。
共分散の符号は、次のように整理できます。
| 共分散 | 動き方 | 例 |
|---|---|---|
| 正の値 | 一方が増えると、もう一方も増えやすい | 気温が上がるとアイスの売上も増える |
| 負の値 | 一方が増えると、もう一方は減りやすい | 価格が上がると購入数が減る |
| 0に近い | 一緒に動く傾向が弱い | 関係がはっきりしない |
ただし、共分散は値の単位やスケールの影響を受けます。
そのため、共分散だけを見ても、関係がどれくらい強いのかを直感的に比較しにくい場合があります。
相関係数とは?

相関係数とは、2つのデータの関係の強さを -1 から 1 の範囲で表す指標です。
共分散はスケールの影響を受けますが、相関係数は -1 から 1 の範囲にそろえられるため、関係の強さを比較しやすくなります。
相関係数の見方は、次の通りです。
| 相関係数 | 関係 | イメージ |
|---|---|---|
| 1に近い | 強い正の相関 | 一方が増えると、もう一方も増えやすい |
| 0に近い | 相関が弱い | 直線的な関係が見えにくい |
| -1に近い | 強い負の相関 | 一方が増えると、もう一方は減りやすい |
相関係数は、データ同士の関係を見るときによく使われます。
ただし、相関係数が高いからといって、必ず原因と結果の関係があるとは限りません。
相関と因果の違い

相関とは、2つのデータに関係がありそうに見えることです。
因果とは、一方が原因となって、もう一方に影響していることです。
相関と因果の違いは、G検定でも重要です。
| 用語 | 意味 |
|---|---|
| 相関 | 2つのデータが一緒に動いているように見える関係 |
| 因果 | 一方が原因となって、もう一方に影響している関係 |
たとえば、アイスの売上と熱中症の件数に相関があったとしても、アイスが熱中症の原因とはいえません。
この場合、気温という別の要因が両方に影響している可能性があります。
偏相関係数とは?

偏相関係数とは、他の変数の影響を取り除いたうえで、2つの変数の関係を見る指標です。
たとえば、アイスの売上と熱中症の件数に関係があるように見える場合を考えます。
しかし、どちらにも気温が影響しているかもしれません。
このとき、気温の影響を取り除いたうえで、アイスの売上と熱中症の件数の関係を見るのが偏相関係数の考え方です。
偏相関係数のイメージは、次の通りです。
偏相関係数は、「見かけの関係」と「本当に残る関係」を分けて考えるために使われます。
4つの関係を流れで整理

分散、共分散、相関係数、偏相関係数は、ばらつきから関係性へ進む流れで理解するとわかりやすくなります。
整理すると、次のようになります。
最初に分散で「ばらつき」を見ます。
次に共分散で「一緒に動くか」を見ます。
さらに相関係数で「関係の強さ」を見ます。
最後に偏相関係数で「他の要因を除いても関係が残るか」を見ます。
混同しやすい用語の違い

この分野では、用語の名前が似ているため混同しやすくなります。
特に、共分散と相関係数、相関係数と偏相関係数の違いを整理しておくことが重要です。
| 比較 | 違い | 押さえるポイント |
|---|---|---|
| 分散と共分散 | 分散は1つのデータ、共分散は2つのデータを見る | ばらつきか、関係性か |
| 共分散と相関係数 | 共分散はスケールの影響を受け、相関係数は -1〜1 にそろえる | 比較しやすいのは相関係数 |
| 相関係数と偏相関係数 | 偏相関係数は他の変数の影響を取り除く | 第三の要因を考える |
| 相関と因果 | 相関があっても原因とは限らない | 見かけの関係に注意する |
G検定では、細かい計算よりも「どの指標が何を表すか」を問われることが多いです。
機械学習との関係

分散、共分散、相関係数、偏相関係数は、機械学習の前処理や特徴量設計とも関係します。
主な関係は、次の通りです。
| 用語 | 機械学習との関係 | 例 |
|---|---|---|
| 分散 | 特徴量のばらつきを見る | ほとんど変化しない特徴は情報が少ない場合がある |
| 共分散 | 特徴量同士が一緒に動くかを見る | 2つの特徴が似た動きをしているか確認する |
| 相関係数 | 特徴量同士の関係の強さを見る | 似た情報を持つ特徴量が重複していないか確認する |
| 偏相関係数 | 第三の要因を除いた関係を見る | 見かけの関係かどうかを確認する |
AIはデータから学習するため、データ同士の関係を理解しておくことは大切です。
ただし、G検定では高度な統計計算そのものよりも、機械学習でなぜ必要になるのかを理解しておくとよいです。
G検定ではどう問われる?
G検定では、分散、共分散、相関係数、偏相関係数について、意味や違いを問われる可能性があります。
問われやすいポイントは、次の通りです。
| 問われやすい観点 | 押さえるポイント |
|---|---|
| 分散の意味 | データが平均からどれくらいばらついているか |
| 共分散の意味 | 2つのデータが同じ方向に動くか、逆方向に動くか |
| 相関係数の範囲 | -1〜1 の範囲で関係の強さを表す |
| 偏相関係数の意味 | 他の変数の影響を取り除いた関係を見る |
| 相関と因果の違い | 相関があっても、因果関係があるとは限らない |
特に、「相関係数が高い=原因である」と考えないことが重要です。
関係があるように見えても、第三の要因が影響している場合があります。
まとめ

分散、共分散、相関係数、偏相関係数は、データのばらつきや関係性を理解するための基本的な考え方です。
まとめると、次のようになります。
| 用語 | 意味 | 覚え方 |
|---|---|---|
| 分散 | 1つのデータのばらつき | 平均からどれくらい散らばるか |
| 共分散 | 2つのデータの動き方 | 一緒に動くかを見る |
| 相関係数 | 2つのデータの関係の強さ | -1〜1 で関係を表す |
| 偏相関係数 | 他の要因を除いた関係 | 第三の要因を取り除く |
G検定では、数式を暗記するよりも、それぞれが何を見ている指標なのかを理解することが大切です。
- 分散はばらつき
- 共分散は一緒に動くか
- 相関係数は関係の強さ
- 偏相関係数は他の要因を除いた関係
この流れで整理しておくと、数理・統計分野の問題を理解しやすくなります。
関連記事・おすすめ記事
AIに必要な数理・統計知識を分野全体で確認したい場合は、こちらの記事もおすすめです。

評価指標との違いや使い分けを整理したい場合は、こちらの記事で詳しく解説しています。

データのばらつきとモデルの失敗をつなげて理解したい場合は、こちらの記事も参考になります。

特徴量との関係を整理したい場合は、こちらの記事がおすすめです。

データを学習しやすい状態に整える流れを確認したい場合は、こちらの記事も参考になります。

機械学習の全体像とつなげて理解したい場合は、こちらの記事で整理できます。







