【G検定対策】確率分布とは?|正規分布・二項分布・ベルヌーイ分布・ポアソン分布をわかりやすく整理

AIや機械学習では、データの「値」だけでなく、その値がどのように現れやすいのかも重要になります。
ある値がよく出るのか、まれにしか出ないのか、平均の近くに集まりやすいのか、広くばらつくのかによって、データの見方は変わります。
このような「値の出やすさ」を整理する考え方が、確率分布です。
この記事では、G検定対策として、確率分布の意味、確率変数との関係、離散型・連続型の違い、ベルヌーイ分布、二項分布、正規分布、ポアソン分布の基本を、AIや機械学習とのつながりからわかりやすく整理します。
確率分布とは?

確率分布とは、ある値がどれくらいの確率で起こるのかを整理したもの です。
もう少し簡単にいうと、確率分布は「どの値が、どれくらい出やすいか」を表します。
たとえば、サイコロを1回振る場合、出る値は1〜6のどれかです。
それぞれの目が出る確率を並べると、「どの値が出やすいか」の全体像が見えてきます。
確率分布を理解する流れは、次の通りです。
ポイントは、確率分布は「1つの値」だけを見るものではないという点です。
値と確率の対応関係全体を見る考え方 だと押さえると理解しやすくなります。
なぜAIで重要なのか?

AIや機械学習では、データからパターンを学習します。
そのため、データがどのように分布しているのかを理解することは重要です。
データが平均の近くに集まっているのか、極端な値が多いのか、特定の値やクラスに偏っているのかによって、前処理やモデルの判断に影響します。
たとえば、データの分布を見ることで、次のようなことを考えやすくなります。
- 外れ値が多くないか
- 特定の値やクラスに偏っていないか
- 標準化や正規化が必要か
- 学習データとテストデータの傾向が大きく違わないか
- 本番データでも同じような傾向があるか
G検定では、細かい数式よりも、確率分布はデータの出方を表すもの だと理解しておくことが大切です。
確率変数とは?

確率分布を理解するには、確率変数も押さえておくとわかりやすくなります。
確率変数とは、確率によって値が決まる変数 のことです。
たとえば、コインを投げたときに表が出るか裏が出るかは、投げる前には決まっていません。
サイコロも、振る前にはどの目が出るか決まっていません。
このように、結果によって値が変わるものを確率変数として考えます。
値を決める
のように値を決める
確率変数がどの値をどれくらい取りやすいのかを整理したものが、確率分布です。
離散型と連続型の違い
確率分布には、大きく分けて離散型と連続型があります。
違いは、次の表で整理します。
| 種類 | 意味 | 例 |
|---|---|---|
| 離散型 | 値が飛び飛びに決まる | 人数、回数、成功・失敗、サイコロの目 |
| 連続型 | 値が連続的に変わる | 身長、体重、時間、温度 |
「数えられる値」は離散型、「連続的に変わる値」は連続型と考えると整理しやすいです。
G検定では、分布名だけでなく、その分布が離散型なのか連続型なのかも意識しておくと混同しにくくなります。
ベルヌーイ分布とは?

ベルヌーイ分布とは、結果が2つだけの試行を表す確率分布 です。
たとえば、成功か失敗、表か裏、クリックするかしないか、合格か不合格のように、結果が2択になる場合に使われます。
ベルヌーイ分布では、1回の試行でどちらの結果が起こるかを考えます。
- 表か裏
- 成功か失敗
- クリックするかしないか
- 合格か不合格
このように、結果が2つだけで、1回の試行を見るのがベルヌーイ分布です。
ベルヌーイ分布は、次に説明する二項分布を理解する前提にもなります。
二項分布とは?

二項分布とは、ベルヌーイ試行を複数回行ったとき、成功回数がどう分布するかを表すもの です。
ベルヌーイ分布が「1回の成功・失敗」を見るのに対して、二項分布は「複数回のうち何回成功するか」を見ます。
たとえば、10回試して何回成功するか、100人に表示して何人がクリックするか、といった場面です。
関係は、次のように見るとわかりやすくなります。
ベルヌーイ分布は1回、二項分布は複数回と覚えると混同しにくいです。
正規分布とは?

正規分布とは、平均の近くにデータが集まり、平均から離れるほど少なくなる分布 です。
グラフにすると、山のような形になります。
身長、テストの点数、測定誤差など、現実のデータでよく出てくる考え方です。
正規分布では、平均、分散、標準偏差が重要になります。
平均は山の中心を表し、分散や標準偏差はデータの広がりを表します。
標準偏差が大きいほど、データは広くばらつきます。
G検定対策では、正規分布を「平均の近くに集まりやすい山型の分布」と押さえておくとよいです。
ポアソン分布とは?

ポアソン分布とは、一定の時間や範囲の中で、ある出来事が何回起こるかを表す分布 です。
たとえば、1時間あたりの問い合わせ件数、1日あたりの来店数、一定時間内のエラー発生回数などを考えるときに使われます。
ポアソン分布では、「起こるかどうか」よりも、決められた時間や範囲の中で何回起こったか に注目します。
- 1時間あたりの問い合わせ件数
- 1日あたりの来店数
- 一定時間内のエラー発生回数
- 一定範囲内で発生した出来事の回数
二項分布もポアソン分布も「回数」を扱いますが、見ているものは少し違います。
二項分布は、決まった回数の試行のうち何回成功するかを見ます。
ポアソン分布は、一定時間や一定範囲の中で何回起こるかを見ます。
代表的な確率分布の違い

代表的な確率分布は、名前だけで覚えるよりも、何を表している分布なのか で整理すると混同しにくくなります。
違いは、次の表で整理します。
| 分布 | 一言でいうと | 例 |
|---|---|---|
| ベルヌーイ分布 | 1回の成功・失敗を見る | クリックする・しない |
| 二項分布 | 複数回のうち成功回数を見る | 10回中何回成功するか |
| 正規分布 | 平均の近くに集まるデータを見る | 身長、点数、測定誤差 |
| ポアソン分布 | 一定時間・範囲での発生回数を見る | 1時間あたりの問い合わせ件数 |
ベルヌーイ分布は1回、二項分布は複数回、正規分布は山型、ポアソン分布は発生回数、と整理すると覚えやすくなります。
確率分布と期待値・分散・標準偏差の関係

確率分布は、期待値、分散、標準偏差とも強く関係します。
確率分布が「値の出やすさ全体」を表すのに対して、期待値、分散、標準偏差は、その分布の特徴を要約する指標として使われます。
関係は、次の表で整理します。
| 用語 | 確率分布との関係 |
|---|---|
| 確率分布 | 値と確率の対応関係全体を表す |
| 期待値 | 確率的に見た平均的な値を表す |
| 分散 | 値が平均からどれくらい散らばるかを表す |
| 標準偏差 | ばらつきを元の単位に近い形で見やすくする |
つまり、確率分布は全体像です。
期待値は中心、分散と標準偏差は広がりを見る指標だと考えると整理しやすくなります。
機械学習との関係

機械学習では、データの分布がとても重要です。
学習データと本番データの分布が大きく違うと、検証ではうまくいっても、本番では性能が出ないことがあります。
また、外れ値が多い、特定の値に偏っている、クラスの分布が偏っている、といった問題も、モデルの学習に影響します。
機械学習との関係は、次の流れで見るとわかりやすいです。
確率分布は、単なる数学用語ではありません。
AIがどのようなデータから学ぶのかを理解するための土台になります。
G検定ではどう問われる?
G検定では、確率分布について高度な計算を求められるというより、代表的な分布の意味や違いを問われる可能性があります。
特に、次の観点を押さえておくとよいです。
| 問われやすい観点 | 押さえるポイント |
|---|---|
| 確率分布の意味 | 値と確率の対応関係を表す |
| 確率変数との関係 | 確率によって値が決まる変数の出やすさを表す |
| 離散型と連続型 | 数えられる値か、連続的な値かで区別する |
| ベルヌーイ分布 | 1回の成功・失敗を見る |
| 二項分布 | 複数回のうち成功回数を見る |
| 正規分布 | 平均の近くに集まる山型の分布 |
| ポアソン分布 | 一定時間・範囲での発生回数を見る |
特に混同しやすいのは、ベルヌーイ分布と二項分布、二項分布とポアソン分布です。
ベルヌーイ分布は1回の試行、二項分布は複数回の試行です。
二項分布は決まった試行回数の中での成功回数、ポアソン分布は一定時間や一定範囲での発生回数を見ます。
まとめ

確率分布とは、ある値がどれくらいの確率で起こるのかを整理したものです。
AIや機械学習では、データがどのように分布しているかを理解することで、データの偏り、外れ値、標準化、学習データと本番データの違いなどを考えやすくなります。
最後に、重要なポイントを表で整理します。
| 用語 | 一言でいうと |
|---|---|
| 確率分布 | どの値がどれくらい出やすいかを表す |
| 確率変数 | 確率によって値が決まる変数 |
| 離散型 | 人数や回数のように数えられる値を扱う |
| 連続型 | 身長や時間のように連続的な値を扱う |
| ベルヌーイ分布 | 1回の成功・失敗を見る |
| 二項分布 | 複数回のうち成功回数を見る |
| 正規分布 | 平均の近くに集まりやすい分布 |
| ポアソン分布 | 一定時間・範囲での発生回数を見る |
G検定対策では、分布の名前を暗記するだけでなく、「何を見ている分布なのか」を押さえることが大切です。
関連記事・おすすめ記事
期待値・分散・標準偏差との関係を確認したい場合は、こちらも参考になります。

分散を、共分散や相関係数との関係まで広げて理解したい場合は、こちらも参考になります。

データの分布を見たあと、どのように整えるかを知りたい場合は、こちらで整理しています。

数値データをAIが学習しやすい特徴に変える考え方は、こちらで整理しています。

確率分布が機械学習全体のどこに関係するのかを確認したい場合は、こちらも参考になります。

数理・統計の重要用語をまとめて確認したい場合は、こちらも参考になります。







