【G検定対策】情報量・エントロピーとは?|AIで使われる不確かさの考え方を整理

seo-webmaster
プロモーションが含まれています
情報量・エントロピーとは?のイメージ画像

情報量・エントロピーは、データや予測にどれくらい「不確かさ」があるかを考えるための数理・統計の考え方です。

AIでは、分類、決定木、損失関数、交差エントロピーなどで関係します。

G検定では、細かい計算よりも、情報量は「珍しいことほど大きい」、エントロピーは「不確かさが大きいほど大きい」という意味を理解しておくことが大切です。

情報量・エントロピーとは?

情報量・エントロピーとは?のイメージ画像

情報量とは、ある出来事が起きたときに、どれくらい情報として意味があるかを表す考え方 です。

起こりやすい出来事が起きても、あまり驚きはありません。

一方、起こりにくい出来事が起きると、多くの情報を得たと考えます。

エントロピーは、情報量をもとに、全体としてどれくらい不確かかを見る考え方です。

用語 意味
情報量 ある出来事が起きたときに得られる情報の大きさ
エントロピー 全体としてどれくらい不確かかを表す値
機械学習での役割 分類、決定木、損失関数などを理解する土台になる

情報量は「1つの出来事」に注目します。

エントロピーは「確率分布全体の不確かさ」に注目します。

なぜ情報量・エントロピーが重要なのか?

なぜ情報量・エントロピーが重要なのか?のイメージ画像

AIは、データをもとに予測や分類を行います。

このとき、予測がはっきりしている場合もあれば、どれを選べばよいか迷う場合もあります。

情報量・エントロピーは、この「迷いやすさ」、「不確かさ」を数値として考えるために使われます。

データを見る
どの分類に入るかを考える
予測がはっきりしているかを見る
不確かさを数値で表す
エントロピーや損失関数の理解につながる

たとえば、画像を見て「犬である確率が90%」なら、予測はかなりはっきりしています。

一方で、「犬50%、猫50%」なら、どちらとも言いにくく、不確かさが大きい状態です。

このような違いを理解するために、情報量やエントロピーの考え方が役立ちます。

情報量とは?

情報量とは?のイメージ画像

情報量は、出来事の珍しさと関係します。

起こる確率が高い出来事ほど、情報量は小さくなります。

起こる確率が低い出来事ほど、情報量は大きくなります。

出来事 起こりやすさ 情報量
毎日よく起こること 高い 小さい
たまに起こること 中くらい 中くらい
めったに起こらないこと 低い 大きい

たとえば、晴れの日が多い地域で「今日も晴れです」と言われても、得られる情報は大きくありません。

一方で、ほとんど雨が降らない地域で「今日は大雨です」と言われると、情報としての意味は大きくなります。

情報量は、イメージとしては次のように考えます。

起こりやすいこと
情報量は小さい
起こりにくいこと
情報量は大きい

数式では、情報量は次のように表されることがあります。

 情報量 = -log(確率)

ただし、G検定ではこの式を細かく計算するよりも、「確率が低い出来事ほど情報量が大きい」と理解しておくことが大切です。

エントロピーとは?

エントロピーとは?のイメージ画像

エントロピーとは、全体としてどれくらい不確かかを表す考え方 です。

予測や分類がはっきりしている状態では、エントロピーは小さくなります。

どれが起こるかわからない状態では、エントロピーは大きくなります。

状態 エントロピー
結果がほぼ決まっている 犬である確率がほぼ100% 小さい
少し迷いがある 犬70%、猫30% 中くらい
どれも同じくらいありそう 犬50%、猫50% 大きい

エントロピーは、確率分布全体の不確かさを見ます。

たとえば、コイン投げで表と裏が同じ確率なら、どちらが出るか予測しにくい状態です。

このような状態は、エントロピーが高いといえます。

反対に、必ず表が出るコインであれば、結果はほぼ決まっています。

この場合、不確かさは小さいため、エントロピーは低くなります。

情報量とエントロピーの違い

情報量とエントロピーの違いのイメージ画像

情報量とエントロピーは似ていますが、見ている対象が違います。

情報量は、ある1つの出来事が起きたときの情報の大きさです。

エントロピーは、起こりうる出来事全体を見たときの不確かさです。

用語 見ているもの ポイント
情報量 1つの出来事 珍しい出来事ほど大きい
エントロピー 確率分布全体 不確かさが大きいほど大きい
機械学習での見方 予測や分類の不確かさ 分類問題や損失関数の理解につながる

情報量は「その出来事からどれくらい情報を得たか」を考えます。

エントロピーは「そもそも全体としてどれくらい予測しにくいか」を考えます。

決定木との関係

決定木との関係のイメージ画像

エントロピーは、決定木でも重要です。

決定木は、データを条件で分けながら分類する手法です。

このとき、分けた後のグループがきれいに分類されているほど、エントロピーは小さくなります。

たとえば、あるグループの中身がすべて「合格」なら、分類ははっきりしています。

一方で、「合格」と「不合格」が半分ずつ混ざっていると、分類は不確かです。

決定木では、条件で分けることによって、エントロピーをどれだけ減らせるかが重要になります。

この不確かさの減少は、情報利得と呼ばれます。

分ける前の不確かさ
条件でデータを分ける
分けた後の不確かさを見る
不確かさが大きく減れば、よい分け方と考える

G検定では、エントロピーは「決定木でデータの混ざり具合を見る指標」として出てくることがあります。

損失関数・交差エントロピーとの関係

損失関数・交差エントロピーとの関係のイメージ画像

エントロピーは、損失関数の理解にも関係します。

分類問題では、AIが各クラスに対して確率を出すことがあります。

たとえば、画像を見て次のように予測するイメージです。

  • 犬 : 0.8
  • 猫 : 0.1
  • 鳥 : 0.1

正解が犬であれば、この予測は比較的よい予測です。

一方で、正解が犬なのに「犬:0.1」と予測していれば、間違いが大きいと考えます。

このような分類問題でよく使われる損失関数が、交差エントロピーです。

交差エントロピーは、正解と予測のズレを確率として評価する考え方です。

G検定では、交差エントロピーは「分類問題で使われる損失関数」として押さえるとよいです。

確率分布との関係

確率分布との関係のイメージ画像

情報量・エントロピーは、確率分布と強く関係します。

確率分布とは、どの値や出来事がどれくらいの確率で起こるかを表したものです。

エントロピーは、その確率分布を見て、不確かさの大きさを考えます。

たとえば、ある分類問題で、1つのクラスに確率が集中していれば、予測ははっきりしています。

一方で、複数のクラスに確率が分散していれば、予測は迷っている状態です。

このように、エントロピーは確率分布の形を見る考え方といえます。

AIで情報量・エントロピーが使われる場面

AIで情報量・エントロピーが使われる場面のイメージ画像

情報量・エントロピーは、AIのさまざまな場面で登場します。

代表的な関係は次のように整理できます。

場面 関係する考え方 押さえるポイント
分類問題 予測確率 どのクラスか迷うほど不確かさが大きい
決定木 エントロピー・情報利得 データの混ざり具合を見て分け方を考える
損失関数 交差エントロピー 正解と予測のズレを確率で評価する
確率分布 不確かさ 確率が分散しているほど不確かさが大きい

情報量・エントロピーは、単独で覚えるよりも、分類、決定木、損失関数とつなげて理解するとわかりやすくなります。

エントロピーが高いとはどういうことか?

エントロピーが高いとはどういうことか?のイメージ画像

エントロピーが高いとは、結果が予測しにくい状態 です。

分類問題でいえば、どのクラスも同じくらいありそうな状態です。

たとえば、AIが次のように予測したとします。

  • 犬 : 0.34
  • 猫 : 0.33
  • 鳥 : 0.33

この場合、AIはかなり迷っています。

どのクラスも同じくらいありそうなので、不確かさが大きい状態です。

一方で、次のような予測なら、AIはかなり自信を持っているように見えます。

  • 犬 : 0.95
  • 猫 : 0.03
  • 鳥 : 0.02

この場合、確率が犬に集中しているため、不確かさは小さくなります。

ただし、エントロピーが低ければ必ず正しいわけではありません。

AIが自信を持って間違えることもあります。

そのため、エントロピーは「予測の不確かさ」を見る考え方であり、「正しさそのもの」を保証するものではありません。

情報量・エントロピーで注意したいこと

情報量・エントロピーで注意したいことのイメージ画像

情報量・エントロピーを理解するときは、役割の違いに注意します。

情報量は、1つの出来事の珍しさを表す考え方です。

エントロピーは、確率分布全体の不確かさを表す考え方です。

交差エントロピーは、分類問題で正解と予測のズレを評価する損失関数です。

特に、エントロピーと交差エントロピーは名前が似ているため混同しやすいですが、役割は異なります。

G検定では、計算式よりも「何を表す考え方なのか」、「どの場面で使われるのか」を押さえておきましょう。

G検定ではどう問われる?

G検定では、情報量・エントロピーについて、細かい計算問題よりも意味や使われ方が問われやすいです。

押さえたいポイントは、次の5つです。

問われやすい観点 押さえるポイント
情報量の意味 起こりにくい出来事ほど情報量が大きい
エントロピーの意味 不確かさが大きいほどエントロピーが大きい
決定木との関係 データの混ざり具合や分け方のよさと関係する
交差エントロピー 分類問題で使われる代表的な損失関数
確率分布との関係 確率が分散しているほど不確かさが大きい

特に、決定木、情報利得、交差エントロピー、分類問題との関係は押さえておきたいポイントです。

まとめ

情報量・エントロピーとは?のまとめのイメージ画像

情報量は、ある出来事が起きたときに得られる情報の大きさ です。

起こりにくい出来事ほど、情報量は大きくなります。

エントロピーは、確率分布全体の不確かさを表す考え方 です。

分類がはっきりしているほどエントロピーは小さく、どれが起こるかわからないほどエントロピーは大きくなります。

AIでは、情報量・エントロピーは、分類、決定木、損失関数、交差エントロピーなどと関係します。

G検定では、数式を細かく計算するよりも、「珍しい出来事ほど情報量が大きい」「不確かさが大きいほどエントロピーが大きい」と理解しておきましょう。

関連記事・おすすめ記事

確率の分布と不確かさをつなげて理解したい場合は、こちらの記事がおすすめです。

【G検定対策】確率分布とは?|正規分布・二項分布・ベルヌーイ分布・ポアソン分布をわかりやすく整理
【G検定対策】確率分布とは?|正規分布・二項分布・ベルヌーイ分布・ポアソン分布をわかりやすく整理

平均的な値やばらつきの考え方を復習したい場合は、こちらの記事がおすすめです。

【G検定対策】期待値・分散・標準偏差とは?|データの平均的な値とばらつきをわかりやすく整理
【G検定対策】期待値・分散・標準偏差とは?|データの平均的な値とばらつきをわかりやすく整理

条件付き確率とのつながりを確認したい場合は、こちらの記事がおすすめです。

【G検定対策】条件付き確率とは?|ある条件のもとで起こる確率をわかりやすく整理
【G検定対策】条件付き確率とは?|ある条件のもとで起こる確率をわかりやすく整理

確率を使った推論の考え方を整理したい場合は、こちらの記事がおすすめです。

【G検定対策】ベイズの定理とは?|条件付き確率とAIの推論をわかりやすく整理
【G検定対策】ベイズの定理とは?|条件付き確率とAIの推論をわかりやすく整理

分類問題で使われる損失の考え方を確認したい場合は、こちらの記事がおすすめです。

【G検定対策】損失関数とは?わかりやすく整理
【G検定対策】損失関数とは?わかりやすく整理

モデルの評価指標とあわせて理解したい場合は、こちらの記事がおすすめです。

【G検定対策】精度・再現率・適合率とは?わかりやすく整理
【G検定対策】精度・再現率・適合率とは?わかりやすく整理

数理・統計分野の用語をまとめて復習したい場合は、こちらの記事がおすすめです。

【G検定対策】AIに必要な数理・統計知識の重要用語まとめ
【G検定対策】AIに必要な数理・統計知識の重要用語まとめ

重要用語をチェックシートとしてまとめました。

こちらもおすすめ
【G検定対策】重要用語チェックシート
【G検定対策】重要用語チェックシート

用語の意味をまとめて確認したい場合は、G検定で覚えたいAI用語一覧もあわせて読んでみてください。

【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理

1回目不合格でした。不合格だった原因を分析しました。

【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴

公式テキスト

Amazonで確認

楽天市場で確認

合格時に使用した問題集

Amazonで確認

楽天市場で確認

書いている人
運営者
運営者
このブログの運営者です。文系出身です。SEO検定1級、ウェブマスター検定1級を取得しました。ブログ運営には「AIの活用は必須」と思いG検定を取得しました。G検定は簡単といわれがちですが1回目は不合格でした。その失敗経験を元に、これから受験する方の助けになればとできるだけわかりやすくG検定対策は解説しています。間違い等あればご指摘いただければ幸いです。合格バッチ
記事URLをコピーしました