教師なしでどうやって「正解ラベル」を得ているのか？

AIs

2025.05.10

→ 答え：自己教師あり学習（Self-Supervised Learning）を使っている。

🎓 自己教師ありとは？

「正解ラベル」を外から与えなくても、
入力そのものから“予測すべきターゲット”を作れる学習方式。

📚 LLMの例：「次の単語予測」

入力：

arduinoコピーする編集する"The cat sat on the"

モデルにやらせるタスク：

arduinoコピーする編集する↓ この後に来るべき単語は？ → 正解 = "mat"

→ 正解ラベル = 実際の文章の続き
　= 「教師がいなくても、データに答えが埋まっている」ってこと。

他の例（BERTなど）：

マスク予測（Masked Language Modeling）
例： “The cat [MASK] on the mat” → 正解 = “sat”
文の順序判断（Next Sentence Prediction）
例：2文が実際に続いてるか、ランダムかを当てる

目次

→ 答え：**自己教師あり学習（Self-Supervised Learning）**を使っている。
🎓 自己教師ありとは？
📚 LLMの例：「次の単語予測」
1. 入力：
2. モデルにやらせるタスク：
他の例（BERTなど）：

✅【2】じゃあ「層を増やす」ってどうやってやってるの？
✅ まとめ（超要点）

✅【2】じゃあ「層を増やす」ってどうやってやってるの？

→ 答え：Transformerの「Attentionブロック」をただ“積み上げてる”だけ。

🧱 各層の基本構造（1ブロック）：

Multi-Head Attention（並列の注意処理）
残差接続 + LayerNorm（安定化）
Feed Forward Network（非線形変換）
また残差 + LayerNorm

plaintextコピーする編集する[入力ベクトル]
 ↓
[Self-Attention] → [Add & Norm]
 ↓
[FeedForward] → [Add & Norm]
 ↓
[出力ベクトル]

この 1層分のモジュールを、ただ順番にコピーして積むだけ。

🧱 層を増やす = モジュールを縦に積むだけ

plaintextコピーする編集する[層1] → [層2] → [層3] → ... → [層N]

各層ごとに**別の重み行列（W_Q, W_K, W_V, FFN）**を持っていて、
学習時にそれぞれが **“ちょっとずつ違う役割”**を獲得していく。

💡 なぜ層を重ねると良くなるのか？

層が増えるほど：

前の層が拾った文脈を、次の層が「再解釈」できる
抽象度が上がっていく（構文 → 概念 → 意図）
より遠くの関係性（長文・伏線）まで拾える

✅ まとめ（超要点）

疑問	答え
教師いないのにどう学習？	データの続きを当てる「自己教師あり学習」
正解ラベルはどこにある？	文章の続きを“自分で”正解として使ってる
層をどう作った？	Attention + FFN をただ積み重ねただけ
層が増えると何が起こる？	文脈の再構成が繰り返されて、意味が抽象化する