→ 答え:**自己教師あり学習(Self-Supervised Learning)**を使っている。
🎓 自己教師ありとは?
「正解ラベル」を外から与えなくても、
入力そのものから“予測すべきターゲット”を作れる学習方式。
📚 LLMの例:「次の単語予測」
入力:
arduinoコピーする編集する"The cat sat on the"
モデルにやらせるタスク:
arduinoコピーする編集する↓ この後に来るべき単語は? → 正解 = "mat"
→ 正解ラベル = 実際の文章の続き
= 「教師がいなくても、データに答えが埋まっている」ってこと。
他の例(BERTなど):
- マスク予測(Masked Language Modeling)
例: “The cat [MASK] on the mat” → 正解 = “sat” - 文の順序判断(Next Sentence Prediction)
例:2文が実際に続いてるか、ランダムかを当てる
✅【2】じゃあ「層を増やす」ってどうやってやってるの?
→ 答え:Transformerの「Attentionブロック」をただ“積み上げてる”だけ。
🧱 各層の基本構造(1ブロック):
- Multi-Head Attention(並列の注意処理)
- 残差接続 + LayerNorm(安定化)
- Feed Forward Network(非線形変換)
- また残差 + LayerNorm
plaintextコピーする編集する[入力ベクトル]
↓
[Self-Attention] → [Add & Norm]
↓
[FeedForward] → [Add & Norm]
↓
[出力ベクトル]
この 1層分のモジュールを、ただ順番にコピーして積むだけ。
🧱 層を増やす = モジュールを縦に積むだけ
plaintextコピーする編集する[層1] → [層2] → [層3] → ... → [層N]
各層ごとに**別の重み行列(W_Q, W_K, W_V, FFN)**を持っていて、
学習時にそれぞれが **“ちょっとずつ違う役割”**を獲得していく。
💡 なぜ層を重ねると良くなるのか?
層が増えるほど:
- 前の層が拾った文脈を、次の層が「再解釈」できる
- 抽象度が上がっていく(構文 → 概念 → 意図)
- より遠くの関係性(長文・伏線)まで拾える
✅ まとめ(超要点)
疑問 | 答え |
---|---|
教師いないのにどう学習? | データの続きを当てる「自己教師あり学習」 |
正解ラベルはどこにある? | 文章の続きを“自分で”正解として使ってる |
層をどう作った? | Attention + FFN をただ積み重ねただけ |
層が増えると何が起こる? | 文脈の再構成が繰り返されて、意味が抽象化する |