【G検定対策】トークンとは?|AIが文章を「細かく分けて理解する仕組み」

ChatGPTやGPTなどの生成AIでは、AIが文章をそのまま理解しているように見えます。
しかし、実際のAI内部では、文章を「トークン」という小さな単位に分割して処理しています。生成AIは、このトークン同士の関係を確認しながら、次に来る言葉を予測しています。
この「トークン」の理解は、Attention・Transformer・GPT・LLM・RAGなどを理解する土台になります。
生成AI系は用語だけを暗記すると混同しやすいため「AI内部で何が起きているのか?」という流れで理解することが重要です。
この記事では「トークンとは何か?」を、AI内部処理の流れから、AIの学習をはじめたばかりの人向けにわかりやすく整理していきます。
トークンとは?

トークンとは「AIが文章を処理するための最小単位」です。
人間は文章をそのまま読めますが、AIは「細かく分割」しないと処理できません。
例えば
「私はAIを勉強しています」
という文章は、AI内部では
私 | は | AI | を | 勉強 | して | います
のように区切られます。
この「分割された単位」がトークンです。
AI内部では何が起きている?

生成AI内部では、次のような流れが起きています。
つまり、GPTは「次のトークン」を予測し続けています。
例えば
「今日はとても」
まで入力された場合、AIは
- 暑い
- 寒い
- 楽しい
など、次に来そうなトークンを予測しています。
なぜトークン化が必要なのか?

理由は「AIは文字をそのまま理解できない」からです。
AI内部では
へ変換されます。
つまり、「文章を数学的に扱える形」へ変換しているのです。
これがないと
- 次単語予測
- Attention
- Transformer処理
ができません。
トークン数が重要になる理由

ChatGPTなどで「トークン数制限」という言葉を聞くことがあります。
これは「AIが一度に扱える量」に限界があるためです。
例えば
- 長すぎる文章
- 長い会話履歴
- 巨大なPDF
などでは、古い内容が忘れられることがあります。
これは「扱えるトークン数」に上限があるためです。
Attentionとどう関係している?

Attentionは「どのトークンを重要視するか?」を判断する仕組みです。
例えば
「私は昨日、本屋でAIの本を買った」
という文章では
- AI
- 本
などが重要になる場合があります。
Attentionは「どのトークン同士が関係しているか?」を確認しています。
つまり
という流れです。
Transformerとどう関係している?

Transformerは「トークン同士の関係」を一気に確認できる構造です。
従来のRNNでは、前から順番に読む必要がありました。
しかし、Transformerでは「文章全体を同時に見る」ことができます。
これにより
- 長文理解
- 文脈理解
- 高速処理
が大きく改善されました。
GPTとどう関係している?

GPTは「Transformerを使った生成AI」です。
そしてGPT内部では「次のトークン予測」が行われています。
例えば
「AIの勉強は」
という入力なら、次に
- 楽しい
- 難しい
- 重要
などを予測します。
つまり、GPTは「トークン予測マシン」とも言えます。
RAGとどう関係している?

RAGでは「関連情報を検索して追加」します。
このとき重要なのが「意味の近さ」です。
RAGでは
(ベクトル化)
という流れが起きています。
つまり「トークン化」はRAGの土台でもあります。
混同しやすい用語

トークンは
- 単語
- 文字
- 文節
と混同されやすいです。
しかし、実際には「AI専用の分割単位」です。
また
- Attention
- Transformer
- GPT
は別物ですが、全部「トークン処理」を中心に動いています。
そのため「全部同じに見える」状態になりやすいのです。
G検定ではどう問われる?
G検定では、直接「トークンとは?」と出るだけではなく、生成AI系問題の土台として問われやすいです。
例えば
- GPTは何を予測しているか
- Transformerは何を処理しているか
- Attentionは何を見ているか
- なぜ長文処理が改善したか
など。
つまり「トークンを中心に整理」すると、生成AI系がかなり理解しやすくなります。
まとめ

トークンとは「AIが文章を処理するための最小単位」です。
生成AI内部では
という流れが起きています。
そして
- Attention
- Transformer
- GPT
- LLM
- RAG
などは、すべて「トークン処理」を中心に動いています。
つまり「トークン理解」は、生成AI理解の入口とも言えます。
関連記事・おすすめ記事
「Attentionとは?」、トークン同士の関係をどう確認しているのか理解しやすくなります。

「Transformerとは?」、 トークンを“同時に処理する仕組み”が整理できます。

「GPTとは?」、 GPTが「次のトークン予測」をしている意味が理解しやすくなります。

1回目、不合格だった理由を分析しました。



