【G検定対策】教師なし学習の代表的な手法を整理

seo-webmaster
プロモーションが含まれています
教師なし学習の代表的な手法を整理のイメージ画像

教師なし学習は、正解ラベル(答え)がないデータから、データの特徴やまとまりを見つける学習方法です。

教師あり学習では「犬か猫か」、「売上はいくらか」のように正解をもとに学習しますが、教師なし学習では、AIがデータの中にある似ている部分や構造を探します。

G検定では、教師あり学習との違いだけでなく、クラスタリング・次元削減・PCAの関係が問われやすいです。

この記事では、教師なし学習の代表的な手法を、AIの学習をはじめたばかりの人向けに整理します。

教師なし学習の代表的な手法

教師なし学習の代表的な手法のイメージ画像

教師なし学習では、正解ラベルを使わずにデータの特徴を見つけます。

代表的な手法は、主に次の2つです。

手法 一言でいうと
クラスタリング 似たデータをグループに分ける
次元削減 データの特徴を少ない情報に整理する

さらに、次元削減の代表例として PCA(主成分分析) があります。

大事な整理は、次の通りです。

  • クラスタリング = 似ているものをまとめる
  • 次元削減 = 特徴を減らして見やすくする
  • PCA = 次元削減の代表的な方法

教師あり学習との違い

教師あり学習との違いのイメージ画像

教師なし学習を理解するときは、教師あり学習との違いを先に押さえるとわかりやすいです。

学習方法 正解ラベル 目的
教師あり学習 ある 正解に近い予測をする
教師なし学習 ない データの構造や特徴を見つける

たとえば、犬と猫の画像に「犬」「猫」という正解ラベルがついていれば、教師あり学習です。

一方で、正解ラベルがない状態で、似た画像同士を自動でまとめる場合は、教師なし学習です。

クラスタリングとは?

クラスタリングとは?のイメージ画像

クラスタリングとは、似ているデータ同士をグループに分ける手法です。

たとえば、顧客データをもとに、購買傾向が似ている人をグループに分けるような場面で使われます。

観点 内容
目的 似たデータをまとめる
正解ラベル 使わない
使われる例 顧客分類、画像の整理、文書の分類

ポイントは、最初から「この人はAグループ」と正解が決まっているわけではないことです。

データの特徴を見て、AIが似ているものをまとめます。

k-meansとは?

k-meansとは?のイメージ画像

k-meansは、クラスタリングの代表的な手法です。

最初にグループ数を決めて、データを近いグループに分けていきます。

用語 一言でいうと
k グループ数
means 平均
k-means 平均に近いデータを集める方法

たとえば、k=3と決めると、データを3つのグループに分けようとします。

G検定では、k-meansは クラスタリングの代表例 として整理しておくとよいです。

階層的クラスタリングとは?

階層的クラスタリングとは?のイメージ画像

階層的クラスタリングは、データを段階的にまとめていく方法です。

最初はバラバラのデータを、似ているもの同士で少しずつまとめていきます。

手法 イメージ
k-means 最初にグループ数を決める
階層的クラスタリング 似ているものから段階的にまとめる

階層的クラスタリングは、木の枝のような構造でグループの関係を表すことがあります。

細かい計算よりも、段階的にグループを作る方法 と覚えるとよいです。

次元削減とは?

次元削減とは?のイメージ画像

次元削減とは、データの特徴量を減らして、扱いやすくする手法です。

AIで扱うデータには、多くの特徴が含まれています。

たとえば、顧客データなら

  • 年齢
  • 購入回数
  • 購入金額
  • 閲覧回数
  • 滞在時間

のように、多くの情報があります。

特徴量が多すぎると、データの関係が見えにくくなることがあります。

そこで、重要な情報をなるべく残しながら、特徴量を少なく整理するのが次元削減です。

PCAとは?

PCAとは?のイメージ画像

PCAは、次元削減の代表的な手法です。

日本語では 主成分分析 と呼ばれます。

用語 一言でいうと
PCA 次元削減の代表的な方法
主成分分析 データの特徴を少ない軸にまとめる方法
次元削減 特徴量を減らして整理する考え方

PCAでは、データのばらつきをよく表す方向を見つけて、少ない軸でデータを表します。

G検定対策では、数式よりも、次のように整理しておくと十分です。

  • PCA = 主成分分析
  • PCA = 次元削減の代表例
  • 多くの特徴を少ない軸にまとめる方法

クラスタリングと次元削減の違い

クラスタリングと次元削減の違いのイメージ画像

クラスタリングと次元削減は、どちらも教師なし学習に関係します。

ただし、目的が違います。

手法 目的
クラスタリング 似たデータをグループに分ける
次元削減 特徴量を減らして整理する

クラスタリングは「分ける」ことが目的です。

次元削減は「減らして見やすくする」ことが目的です。

この違いを押さえると、混同しにくくなります。

教師なし学習の代表的な手法を一覧で整理

教師なし学習の代表的な手法を一覧で整理のイメージ画像

まとめると下の表になります。

用語 一言でいうと 分類
クラスタリング 似たデータをグループに分ける 教師なし学習
k-means 代表的なクラスタリング手法 クラスタリング
階層的クラスタリング 段階的にグループを作る クラスタリング
次元削減 特徴量を減らして整理する 教師なし学習
PCA 次元削減の代表的な方法 次元削減
主成分分析 データを少ない軸で表す PCA

まずは、細かい手法をバラバラに覚えるよりも、次の関係を押さえることが大切です。

教師なし学習
├ クラスタリング
│ ├ k-means
│ └ 階層的クラスタリング
└ 次元削減
  └ PCA(主成分分析)

G検定ではどう問われる?

G検定では、教師なし学習の手法そのものよりも、どの用語が何をするものか が問われやすいです。

問われ方 選ぶ用語
正解ラベルなしで学習する 教師なし学習
似たデータをグループに分ける クラスタリング
クラスタリングの代表的な手法 k-means
特徴量を減らして整理する 次元削減
次元削減の代表的な手法 PCA
PCAの日本語名 主成分分析

特に混同しやすいのは、クラスタリングと分類です。

分類は、正解ラベルを使ってカテゴリを予測します。

クラスタリングは、正解ラベルなしで似たデータをまとめます。

なぜ混同しやすい?

なぜ混同しやすい?のイメージ画像

教師なし学習が混同しやすい理由は、似たような言葉が近くに出てくるからです。

混同しやすいもの 違い
分類 正解ラベルありでカテゴリを予測する
クラスタリング 正解ラベルなしでグループに分ける
次元削減 特徴量を減らして整理する
PCA 次元削減の代表的な方法

特に、分類とクラスタリングはどちらも「分ける」ように見えるため、混同しやすいです。

大事なのは、正解ラベルがあるかどうかです。

  • 分類 = 正解ラベルあり
  • クラスタリング = 正解ラベルなし

この違いを押さえておくと、G検定でも判断しやすくなります。

まとめ

教師なし学習の代表的な手法を整理のまとめのイメージ画像

教師なし学習は、正解ラベルがないデータから、特徴や構造を見つける学習方法です。

代表的な手法には、クラスタリングと次元削減があります。

クラスタリングは、似たデータをグループに分ける方法です。

次元削減は、特徴量を減らしてデータを扱いやすくする方法です。

PCAは、次元削減の代表的な手法で、日本語では主成分分析と呼ばれます。

G検定では、細かい計算よりも、次の関係を整理しておくことが大切です。

教師なし学習
正解ラベルなしで
特徴を見つける
クラスタリング・次元削減
k-means・PCA

分類・回帰・クラスタリングの違いをあわせて確認すると、教師あり学習と教師なし学習の関係がより整理しやすくなります。

関連記事・おすすめ記事

教師あり学習と教師なし学習の違いを先に整理したい方は、こちらの記事も参考になります。

関連記事
【G検定対策】教師あり学習と教師なし学習とは?|分類・回帰・クラスタリングの違いを整理
【G検定対策】教師あり学習と教師なし学習とは?|分類・回帰・クラスタリングの違いを整理

教師あり学習側の代表的な手法もあわせて確認すると、違いが整理しやすくなります。

関連記事
【G検定対策】教師あり学習の代表的なアルゴリズムを整理
【G検定対策】教師あり学習の代表的なアルゴリズムを整理

機械学習全体の位置づけを確認したい方は、こちらの記事もあわせて読むと理解しやすくなります。

関連記事
【G検定対策】機械学習とディープラーニングの違いをわかりやすく整理|教師あり・教師なしも解説
【G検定対策】機械学習とディープラーニングの違いをわかりやすく整理|教師あり・教師なしも解説

G検定の学習分野全体を確認したい方は、8分野の記事一覧も活用してください。

関連記事
【G検定対策】G検定整理記事を8分野で分類|苦手分野から学べる記事一覧
【G検定対策】G検定整理記事を8分野で分類|苦手分野から学べる記事一覧

用語の意味をまとめて確認したい場合は、G検定で覚えたいAI用語一覧もあわせて読んでみてください。

こちらもおすすめ
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理
【G検定対策】G検定で覚えたいAI用語一覧|意味・違い・見分け方をわかりやすく整理

1回目不合格でした。不合格だった原因を分析しました。

こちらもおすすめ
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴
【不合格体験談】G検定に落ちた原因|「成功体験」と「過学習」が落とし穴

公式テキスト

Amazonで確認

楽天市場で確認

合格時に使用した問題集

Amazonで確認

楽天市場で確認

書いている人
運営者
運営者
このブログの運営者です。文系出身です。SEO検定1級、ウェブマスター検定1級を取得しました。ブログ運営には「AIの活用は必須」と思いG検定を取得しました。G検定は簡単といわれがちですが1回目は不合格でした。その失敗経験を元に、これから受験する方の助けになればとできるだけわかりやすくG検定対策は解説しています。間違い等あればご指摘いただければ幸いです。
記事URLをコピーしました