【G検定対策】事前学習(Pre-training)とは?|LLMはどうやって大量知識を身につけるのか

事前学習とは、AIが特定の仕事をする前に、大量のデータから言葉の使われ方や文脈のパターンを学んでおく段階のことです。
LLMやBERT、GPTのようなモデルは、いきなり質問応答や文章生成だけを学ぶのではなく、まず大量の文章を通して「言葉と言葉の関係」を身につけます。
この記事では、事前学習が何をしているのか、自己教師あり学習やファインチューニングとどう違うのかを、AIの学習をはじめたばかりの人にもわかりやすく整理します。
事前学習(Pre-training)とは?

事前学習は、AIにとっての 基礎学習 のようなものです。
人間でたとえると、いきなり専門試験の問題を解く前に、文章を読む力、言葉の意味を理解する力、文脈をつかむ力を身につける段階に近いです。
AIも同じで、最初から「法律相談に答える」、「医療文書を分類する」、「チャットで自然に返答する」といった個別の仕事だけを学ぶわけではありません。
まずは大量の文章を使って
- 文章の中でどの単語がよく一緒に使われるか
- 文脈によって意味がどう変わるか
- 次にどのような単語が来やすいか
- 文章全体としてどのような意味を持つか
といった、言語の基本的なパターンを学びます。
この段階が 事前学習 です。
事前学習では何を学んでいるのか?

事前学習でAIが学んでいるのは、単なる単語の暗記ではありません。
重要なのは、言葉の関係性 や 文脈のパターン です。
たとえば、次のような文章があるとします。
「私は朝、コーヒーを飲んで会社へ行った」
この文章を大量のデータの中で学ぶことで、AIは次のような関係を少しずつ身につけます。
- 「朝」と「コーヒー」は一緒に出やすい
- 「会社へ行く」は日常行動と関係しやすい
- 「飲む」の対象には「コーヒー」「水」「お茶」などが来やすい
- 文章の流れから、次に来そうな言葉を予測できる
つまり、事前学習とは、AIが文章を丸暗記することではなく、言葉の使われ方の傾向を学ぶこと です。
ここを理解すると、LLMがなぜ自然な文章を生成できるのかも見えやすくなります。
事前学習の流れ

事前学習の流れは、シンプルに整理すると次のようになります。
ここで重要なのは、事前学習もAIの基本的な学習の流れと同じだという点です。
つまり
という流れを大量に繰り返しています。
LLMが賢く見えるのは、最初から知識を持っているからではありません。大量のデータから、何度も予測と修正を繰り返しているからです。
自己教師あり学習との関係

事前学習を理解するときに、よく一緒に出てくるのが 自己教師あり学習 です。
この2つは混同しやすいですが、役割が少し違います。
つまり、自己教師あり学習という方法を使って、事前学習を行う と考えるとわかりやすいです。
たとえば、文章の一部を隠して、その隠れた単語を予測する学習があります。
「私は朝、____を飲んだ」
この空欄に入る言葉を予測することで、AIは文脈を学びます。
このように、データそのものから問題と正解のような形を作り出して学習する方法が、自己教師あり学習です。
そして、その自己教師あり学習を使って、大量の文章から基礎的な言語能力を身につける段階が、事前学習です。
BERTとGPTでは事前学習のしかたが違う

BERTとGPTは、どちらも事前学習を行います。
ただし、学び方が違います。
BERTは、文章の一部を隠して、その単語を予測するような学習をします。
そのため、前後両方の文脈を見ながら意味を理解することに向いています。
一方、GPTは、左から右へ文章を読み、次に来る単語を予測するような学習をします。
そのため、文章を自然に続けて生成することに向いています。
整理すると、次のようになります。

ここで大切なのは、BERTもGPTも、いきなり特定の仕事だけを覚えているわけではないという点です。
まず、事前学習によって、言葉や文脈の基本パターンを学んでいます。
ファインチューニングとの違い

事前学習とファインチューニングも、非常に混同しやすい用語です。
違いは、次のように整理できます。

たとえば、事前学習によってAIは文章の読み方や言葉の関係を広く学びます。
しかし、それだけでは「法律文書を分類する」「医療系の質問に答える」「カスタマーサポート向けに返答する」といった特定の用途に最適化されているとは限りません。
そこで、特定の目的に合わせて追加で学習させるのがファインチューニングです。
つまり
という関係です。
事前学習とRAGの違い

事前学習とRAGも、生成AIの文脈では混同されやすいです。
事前学習は、モデルの中に言語パターンや一般的な知識を身につける段階です。
一方、RAGは、必要に応じて外部情報を検索し、その情報を使って回答する仕組みです。
つまり

事前学習だけでは、学習後に出てきた新しい情報には対応しにくいです。
そこで、RAGのように外部情報を参照する仕組みが重要になります。
ここを理解すると、次の関係が見えてきます。
この流れで整理すると、生成AI関連の用語がかなりつながりやすくなります。
なぜ事前学習が重要なのか?

事前学習が重要なのは、AIの性能の土台になるからです。
事前学習が不十分だと、AIは言葉の意味や文脈を十分に理解できません。
逆に、大量のデータでしっかり事前学習されたモデルは、さまざまなタスクに応用しやすくなります。
たとえば、文章分類、要約、翻訳、質問応答、文章生成など、さまざまな処理に展開できます。
これは、事前学習によって汎用的な言語能力を身につけているからです。
そのため、事前学習はLLMを理解するうえで非常に重要です。
GPTやBERTを個別に覚えるだけではなく、どちらも事前学習によって基礎力を身につけたモデルである と理解すると、生成AI全体の構造が見えやすくなります。
なぜ混同しやすいのか?

事前学習が混同されやすい理由は、似た用語が近くにたくさん出てくるからです。
特に混同しやすいのは、次の4つです。

ここで大切なのは、用語を単独で覚えないことです。
次のように流れで見ると、混同しにくくなります。
このように整理すると、それぞれの役割がはっきりします。
G検定ではどう問われる?
G検定では、事前学習という用語そのものだけでなく、関連する用語との違いが問われる可能性があります。
特に注意したいのは、次のような聞かれ方です。
- 事前学習とは何か
- 自己教師あり学習との関係
- ファインチューニングとの違い
- BERTやGPTがどのように学習されるか
- 事前学習済みモデルを特定タスクに適用する流れ
- LLMが大量データから基礎的な言語能力を身につける仕組み
選択肢では、次のような混同が起こりやすいです。
G検定では、細かい数式よりも、どの段階で何をしているのか が重要です。
つまり、事前学習は、モデルが広い基礎力を身につける段階 と理解しておくと、選択肢に惑わされにくくなります。
まとめ

事前学習(Pre-training)とは、AIが特定の仕事をする前に、大量の文章データから言葉の使われ方や文脈のパターンを学ぶ段階です。
BERTやGPT、LLMは、いきなり文章理解や文章生成だけを学んでいるわけではありません。
まず事前学習によって、言葉と言葉の関係、文脈、次に来やすい単語、文章全体の意味の傾向などを広く学びます。
ここで重要なのは、事前学習を単なる「知識の暗記」と考えないことです。
事前学習は、大量の文章から言語のパターンを学び、さまざまなタスクに応用できる基礎力を作る段階です。
また、事前学習は自己教師あり学習、ファインチューニング、RAGと混同されやすい用語です。
整理すると
- 自己教師あり学習:学習方法
- 事前学習:広く基礎力を身につける段階
- ファインチューニング:特定の目的に合わせる段階
- RAG:外部情報を参照して補う仕組み
です。
G検定では、用語を単独で覚えるよりも、AIがどの順番で学習し、どの段階で何をしているのかを理解することが大切です。
事前学習を理解すると、BERT、GPT、LLM、ファインチューニング、RAGの関係が一気につながりやすくなります。
関連記事・おすすめ記事
事前学習は、生成AIやLLMを理解するうえで中心になる考え方です。関連する記事とあわせて読むことで、AIがどのように文章を学び、用途に合わせて使われるのかが整理しやすくなります。
事前学習でよく使われる「自己教師あり学習」の考え方を整理できます。

事前学習とファインチューニングの違いを理解するのに役立ちます。

事前学習された大規模言語モデルの全体像を確認できます。

GPTがどのように文章生成に向いているのかを、事前学習の理解とつなげられます。

BERTとGPTの事前学習の違いを理解しやすくなります。

事前学習だけでは補いにくい最新情報や外部情報の扱いを整理できます。

1回目不合格でした。不合格だった原因を分析しました。



