2026.07.01

【G検定対策】トークンとは？｜AIが文章を「細かく分けて理解する仕組み」

seo-webmaster

プロモーションが含まれています

ChatGPTやGPTなどの生成AIでは、AIが文章をそのまま理解しているように見えます。

しかし、実際のAI内部では、文章を「トークン」という小さな単位に分割して処理しています。生成AIは、このトークン同士の関係を確認しながら、次に来る言葉を予測しています。

この「トークン」の理解は、Attention・Transformer・GPT・LLM・RAGなどを理解する土台になります。

生成AI系は用語だけを暗記すると混同しやすいため「AI内部で何が起きているのか？」という流れで理解することが重要です。

この記事では「トークンとは何か？」を、AI内部処理の流れから、AIの学習をはじめたばかりの人向けにわかりやすく整理していきます。

ジャンプするもくじ

トークンとは？
混同しやすい用語
G検定ではどう問われる？
まとめ
関連記事・おすすめ記事

トークンとは？

トークンとは「AIが文章を処理するための最小単位」です。

人間は文章をそのまま読めますが、AIは「細かく分割」しないと処理できません。

例えば

　「私はAIを勉強しています」

という文章は、AI内部では

　私｜は｜ AI ｜を｜勉強｜して｜います

のように区切られます。

この「分割された単位」がトークンです。

AI内部では何が起きている？

生成AI内部では、次のような流れが起きています。

入力文章

↓

トークンへ分割

↓

意味を数値化

↓

Attentionで重要度確認

↓

次のトークンを予測

↓

文章生成

つまり、GPTは「次のトークン」を予測し続けています。

例えば

　「今日はとても」

まで入力された場合、AIは

暑い
寒い
楽しい

など、次に来そうなトークンを予測しています。

なぜトークン化が必要なのか？

理由は「AIは文字をそのまま理解できない」からです。

AI内部では

文字

↓

トークン

↓

数値

へ変換されます。

つまり、「文章を数学的に扱える形」へ変換しているのです。

これがないと

次単語予測
Attention
Transformer処理

ができません。

トークン数が重要になる理由

ChatGPTなどで「トークン数制限」という言葉を聞くことがあります。

これは「AIが一度に扱える量」に限界があるためです。

例えば

長すぎる文章
長い会話履歴
巨大なPDF

などでは、古い内容が忘れられることがあります。

これは「扱えるトークン数」に上限があるためです。

Attentionとどう関係している？

Attentionは「どのトークンを重要視するか？」を判断する仕組みです。

例えば

「私は昨日、本屋でAIの本を買った」

という文章では

などが重要になる場合があります。

Attentionは「どのトークン同士が関係しているか？」を確認しています。

つまり

トークン

↓

Attentionで関連確認

↓

意味理解

という流れです。

Transformerとどう関係している？

Transformerは「トークン同士の関係」を一気に確認できる構造です。

従来のRNNでは、前から順番に読む必要がありました。

しかし、Transformerでは「文章全体を同時に見る」ことができます。

これにより

長文理解
文脈理解
高速処理

が大きく改善されました。

GPTとどう関係している？

GPTは「Transformerを使った生成AI」です。

そしてGPT内部では「次のトークン予測」が行われています。

例えば

「AIの勉強は」

という入力なら、次に

楽しい
難しい
重要

などを予測します。

つまり、GPTは「トークン予測マシン」とも言えます。

RAGとどう関係している？

RAGでは「関連情報を検索して追加」します。

このとき重要なのが「意味の近さ」です。

RAGでは

文章

↓

トークン化

↓

Embedding
（ベクトル化）

↓

意味検索

という流れが起きています。

つまり「トークン化」はRAGの土台でもあります。

混同しやすい用語

トークンは

単語
文字
文節

と混同されやすいです。

しかし、実際には「AI専用の分割単位」です。

また

Attention
Transformer
GPT

は別物ですが、全部「トークン処理」を中心に動いています。

そのため「全部同じに見える」状態になりやすいのです。

G検定ではどう問われる？

G検定では、直接「トークンとは？」と出るだけではなく、生成AI系問題の土台として問われやすいです。

例えば

GPTは何を予測しているか
Transformerは何を処理しているか
Attentionは何を見ているか
なぜ長文処理が改善したか

など。

つまり「トークンを中心に整理」すると、生成AI系がかなり理解しやすくなります。

まとめ

トークンとは「AIが文章を処理するための最小単位」です。

生成AI内部では

文章

↓

トークン化

↓

意味確認

↓

次トークン予測

という流れが起きています。

そして

Attention
Transformer
GPT
LLM
RAG

などは、すべて「トークン処理」を中心に動いています。

つまり「トークン理解」は、生成AI理解の入口とも言えます。

関連記事・おすすめ記事

トークンを理解するには、単語埋め込み、Transformer、LLMとの関係をあわせて整理しておくと理解しやすくなります。

おすすめ記事	確認できる内容
単語埋め込みとは？	単語の数値化／ベクトル表現／トークンとの関係
Transformerとは？	トークンの同時処理／Attention／文章生成が得意な理由
LLMとは？	大規模言語モデル／GPTとの違い／トークン処理との関係