【G検定対策】決定木・ランダムフォレストとは?|木構造で判断し、複数の木で予測を安定させる考え方を整理

seo-webmaster
プロモーションが含まれています
決定木・ランダムフォレストとは?のイメージ画像

決定木は、条件分岐を使ってデータを分けていく機械学習の手法です。


「気温が高いか」、「購入回数が多いか」、「画像の特徴があるか」のように、条件を順番にたどりながら判断します。

一方、ランダムフォレストは、複数の決定木を組み合わせて予測を安定させる手法です。

G検定では、決定木を単独で覚えるだけでなく、教師あり学習、分類、回帰、過学習、アンサンブル学習とのつながりで理解しておくことが大切です。

決定木・ランダムフォレストとは?

決定木・ランダムフォレストとは?のイメージ画像

決定木とは、条件分岐を木のようにつなげて、分類や回帰を行う手法です。

たとえば、ある人が商品を買うかどうかを予測する場合、次のように条件をたどって判断します。

年齢は30歳以上か?
過去に購入したことがあるか?
サイトを何回見たか?
購入する可能性を判断する

ランダムフォレストは、この決定木をたくさん作り、それぞれの予測結果を組み合わせる手法です。

1本の決定木だけに頼るよりも、複数の木で判断した方が、予測が安定しやすくなります。

決定木とランダムフォレストの関係は、次のように整理できます。

用語 意味 ポイント
決定木 条件分岐を使って予測する手法 判断の流れが見えやすい
ランダムフォレスト 複数の決定木を組み合わせる手法 予測を安定させやすい
アンサンブル学習 複数のモデルを組み合わせる考え方 ランダムフォレストの土台になる

教師あり学習との関係

教師あり学習との関係のイメージ画像

決定木とランダムフォレストは、教師あり学習で使われる代表的な手法です。

教師あり学習
入力データと正解ラベルを使って、
予測のルールを学習する
決定木
正解に近づくように、
どの条件で分ければよいかを学習する

たとえば、次のような使い方があります。

目的 決定木で行うこと
分類 購入する / 購入しない どちらのクラスに入るかを判断する
分類 迷惑メール / 通常メール メールの特徴から種類を分ける
回帰 売上金額の予測 数値を予測する
回帰 住宅価格の予測 条件から価格を予測する

ここで大切なのは、決定木は分類だけでなく、回帰にも使えるという点です。

G検定では、分類手法として出てくることが多いですが、数値予測にも使えることを押さえておくと理解しやすくなります。

決定木の仕組み

決定木の仕組みのイメージ画像

決定木は、データを条件で分けながら、最終的な予測へ進みます。

木構造で考えると、上から下へ条件をたどるイメージです。

学習データを見る
分けやすい条件を探す
条件に沿ってデータを分ける
さらに条件を追加して分ける
最終的な分類や数値を予測する

たとえば、商品を買うかどうかを予測する場合、決定木は次のような条件を作ります。

  • 過去に購入したことがあるか
  • サイトの閲覧回数が多いか
  • キャンペーンを見たか

このような条件をたどりながら、最終的に「購入しそう」、「購入しなさそう」のように予測します。

決定木は、人間にとって判断の流れが見えやすいことが特徴です。

なぜ決定木が使われるのか?

なぜ決定木が使われるのか?のイメージ画像

決定木が使われる理由は、判断の流れを理解しやすいからです。

ニューラルネットワークのように内部の判断が見えにくいモデルと比べると、決定木は「どの条件で分けたのか」が比較的わかりやすいです。

主な特徴は、次の通りです。

特徴 内容 注意点
解釈しやすい 条件分岐で判断の流れを見やすい 木が深くなると複雑になる
分類と回帰に使える クラス分類にも数値予測にも使える 目的に応じて使い分ける
前処理が比較的少ない 特徴量のスケール差に強い場合がある データ品質の影響は受ける
過学習しやすい 学習データに合わせすぎることがある 木の深さなどを調整する

決定木はわかりやすい一方で、学習データに細かく合わせすぎると、過学習が起きやすくなります。

その弱点を補う考え方として、ランダムフォレストが登場します。

ランダムフォレストとは?

ランダムフォレストとは?のイメージ画像

ランダムフォレストは、複数の決定木を作り、それらの予測を組み合わせる手法です。

名前の通り、たくさんの木を集めた森のようなイメージです。

1本の決定木だけで判断すると、学習データの偏りに引っ張られやすくなります。

そこで、ランダムフォレストでは、少しずつ異なるデータや特徴量を使って、複数の決定木を作ります。

そのうえで、分類なら多数決、回帰なら平均のようにして、最終的な予測を決めます。

項目 決定木 ランダムフォレスト
モデルの数 1本の木 複数の木
判断の安定性 データに左右されやすい 安定しやすい
過学習 起きやすい 抑えやすい
解釈しやすさ 比較的わかりやすい 単体の木よりは見えにくい

ランダムフォレストは、決定木のわかりやすさを活かしつつ、複数の木で予測を安定させる手法です。

アンサンブル学習との関係

アンサンブル学習との関係のイメージ画像

ランダムフォレストは、アンサンブル学習の代表例です。

アンサンブル学習とは、複数のモデルを組み合わせて、単独のモデルよりもよい予測を目指す考え方です。

1人だけの意見で判断するより、複数人の意見を集めた方が安定することがあります。

ランダムフォレストも同じで、1本の決定木ではなく、複数の決定木の結果を組み合わせて予測します。

特に、ランダムフォレストはバギングの考え方と関係します。

バギングとは、学習データから少しずつ違うデータを取り出して、複数のモデルを作る方法です。

G検定では、次の関係で整理しておくと覚えやすくなります。

用語 押さえ方
アンサンブル学習 複数のモデルを組み合わせる考え方
バギング データを少しずつ変えて複数のモデルを作る方法
ランダムフォレスト 複数の決定木を組み合わせる代表的な手法

「ランダムフォレスト=アンサンブル学習の一種」と押さえておくと、他の手法との関係も理解しやすくなります。

過学習との関係

過学習との関係のイメージ画像

決定木は、条件分岐を細かく増やしていくと、学習データにぴったり合いやすくなります。

一見すると性能が高く見えますが、本番データではうまく予測できないことがあります。

これが過学習です。

決定木では、木が深くなりすぎると、細かい例外まで覚えてしまいやすくなります。

そのため、木の深さを制限したり、分岐を増やしすぎないようにしたりすることが重要です。

ランダムフォレストは、複数の決定木を組み合わせることで、1本の木に依存しすぎる問題を抑えます。

ただし、ランダムフォレストを使えば必ず過学習しない、というわけではありません。

データの質、特徴量、モデル設定によって結果は変わります。

特徴量設計との関係

特徴量設計との関係のイメージ画像

決定木やランダムフォレストは、特徴量の影響を受けます。

特徴量とは、AIが判断に使うデータの項目です。

たとえば、購入予測であれば、年齢、購入回数、閲覧回数、滞在時間などが特徴量になります。

どの特徴量を使うかによって、決定木の分岐も変わります。

つまり、決定木は「どの条件で分けるか」を学習しますが、その条件の材料になるのは特徴量です。

そのため、特徴量設計が悪いと、決定木やランダムフォレストでも良い予測はできません。

G検定では、アルゴリズムだけでなく、データ前処理や特徴量設計との関係も意識しておくと理解が深まります。

決定木・ランダムフォレストとSVMの違い

決定木・ランダムフォレストとSVMの違いのイメージ画像

決定木やランダムフォレストと一緒に、SVMが出てくることがあります。

どちらも教師あり学習の代表的な手法ですが、考え方は違います。

決定木は、条件分岐でデータを分けます。

SVMは、境界線や境界面を使ってデータを分けます。

細かい数式よりも、まずは分け方のイメージの違いを押さえることが大切です。

手法 分け方のイメージ 押さえるポイント
決定木 条件分岐で分ける 判断の流れが木構造になる
ランダムフォレスト 複数の決定木で分ける 予測を安定させやすい
SVM 境界線や境界面で分ける マージンを意識する

この違いを押さえておくと、次にSVMを学ぶときにも理解しやすくなります。

G検定ではどう問われる?

G検定では、決定木やランダムフォレストについて、細かい計算よりも意味と関係が問われやすいです。

特に、次のポイントを押さえておきましょう。

決定木
条件分岐を使って分類や回帰を行う手法
ランダムフォレスト
複数の決定木を組み合わせる手法

ランダムフォレストは、アンサンブル学習の代表例です。

決定木は解釈しやすい一方で、過学習しやすい特徴があります。

ランダムフォレストは、複数の木を使うことで予測を安定させやすくします。

分類だけでなく、回帰にも使える点も押さえておくと安心です。

まとめ

決定木・ランダムフォレストとは?のまとめのイメージ画像

最後に、決定木とランダムフォレストの要点を整理します。

決定木
条件分岐を使って、分類や回帰を行う手法です。
木構造
条件を上から順番にたどり、最終的な予測へ進む形です。
ランダムフォレスト
複数の決定木を組み合わせて、予測を安定させる手法です。
アンサンブル学習
複数のモデルを組み合わせて、予測性能や安定性を高める考え方です。
過学習との関係
決定木は過学習しやすく、ランダムフォレストはその影響を抑えやすい手法です。

決定木は、条件で分けながら予測するわかりやすい手法です。

ランダムフォレストは、その決定木を複数組み合わせて、予測を安定させる手法です。

G検定では、「決定木」、「ランダムフォレスト」、「アンサンブル学習」、「過学習」の関係をセットで理解しておきましょう。

関連記事・おすすめ記事

教師あり学習全体の中で位置づけを確認するなら、こちらの記事がおすすめです。

【G検定対策】教師あり学習の代表的なアルゴリズムを整理
【G検定対策】教師あり学習の代表的なアルゴリズムを整理

分類、回帰、教師なし学習との違いを整理するなら、こちらの記事がおすすめです。

【G検定対策】教師あり学習と教師なし学習とは?|分類・回帰・クラスタリングの違いを整理
【G検定対策】教師あり学習と教師なし学習とは?|分類・回帰・クラスタリングの違いを整理

複数のモデルを組み合わせる考え方を確認するなら、こちらの記事がおすすめです。

【G検定対策】アンサンブル学習とは?|なぜ複数のAIを組み合わせるのか?
【G検定対策】アンサンブル学習とは?|なぜ複数のAIを組み合わせるのか?

過学習との関係を確認するなら、こちらの記事がおすすめです。

【G検定対策】過学習とは?わかりやすく整理
【G検定対策】過学習とは?わかりやすく整理

特徴量との関係を確認するなら、こちらの記事がおすすめです。

【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理
【G検定対策】特徴量設計とは?|AIが学習しやすい特徴を作る考え方をわかりやすく整理

データを整える流れを確認するなら、こちらの記事がおすすめです。

【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理
【G検定対策】データ前処理とは?|AIが学習しやすいデータに整える作業をわかりやすく整理

機械学習全体の流れを確認するなら、こちらの記事がおすすめです。

【G検定対策】機械学習の概要まとめ|教師あり・教師なし・強化学習をつなげて理解する
【G検定対策】機械学習の概要まとめ|教師あり・教師なし・強化学習をつなげて理解する

重要用語をチェックシートとしてまとめました。

こちらもおすすめ
【G検定対策】重要用語チェックシート
【G検定対策】重要用語チェックシート

用語の意味をまとめて確認したい場合は、G検定で覚えたいAI用語一覧もあわせて読んでみてください。

【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理

1回目不合格でした。不合格だった原因を分析しました。

【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴

公式テキスト

Amazonで確認

楽天市場で確認

合格時に使用した問題集

Amazonで確認

楽天市場で確認

書いている人
運営者
運営者
このブログの運営者です。文系出身です。SEO検定1級、ウェブマスター検定1級を取得しました。ブログ運営には「AIの活用は必須」と思いG検定を取得しました。G検定は簡単といわれがちですが1回目は不合格でした。その失敗経験を元に、これから受験する方の助けになればとできるだけわかりやすくG検定対策は解説しています。間違い等あればご指摘いただければ幸いです。合格バッチ
記事URLをコピーしました