教師なしでどうやって「正解ラベル」を得ているのか?

→ 答え:**自己教師あり学習(Self-Supervised Learning)**を使っている。


🎓 自己教師ありとは?

「正解ラベル」を外から与えなくても
入力そのものから“予測すべきターゲット”を作れる学習方式。


📚 LLMの例:「次の単語予測」

入力:

arduinoコピーする編集する"The cat sat on the"

モデルにやらせるタスク:

arduinoコピーする編集する↓ この後に来るべき単語は? → 正解 = "mat"

正解ラベル = 実際の文章の続き
 = 「教師がいなくても、データに答えが埋まっている」ってこと。


他の例(BERTなど):

  • マスク予測(Masked Language Modeling)
    例: “The cat [MASK] on the mat” → 正解 = “sat”
  • 文の順序判断(Next Sentence Prediction)
    例:2文が実際に続いてるか、ランダムかを当てる

✅【2】じゃあ「層を増やす」ってどうやってやってるの?

→ 答え:Transformerの「Attentionブロック」をただ“積み上げてる”だけ。


🧱 各層の基本構造(1ブロック):

  1. Multi-Head Attention(並列の注意処理)
  2. 残差接続 + LayerNorm(安定化)
  3. Feed Forward Network(非線形変換)
  4. また残差 + LayerNorm
plaintextコピーする編集する[入力ベクトル]
 ↓
[Self-Attention] → [Add & Norm]
 ↓
[FeedForward] → [Add & Norm]
 ↓
[出力ベクトル]

この 1層分のモジュールを、ただ順番にコピーして積むだけ


🧱 層を増やす = モジュールを縦に積むだけ

plaintextコピーする編集する[層1] → [層2] → [層3] → ... → [層N]

各層ごとに**別の重み行列(W_Q, W_K, W_V, FFN)**を持っていて、
学習時にそれぞれが **“ちょっとずつ違う役割”**を獲得していく。


💡 なぜ層を重ねると良くなるのか?

層が増えるほど:

  • 前の層が拾った文脈を、次の層が「再解釈」できる
  • 抽象度が上がっていく(構文 → 概念 → 意図)
  • より遠くの関係性(長文・伏線)まで拾える

✅ まとめ(超要点)

疑問答え
教師いないのにどう学習?データの続きを当てる「自己教師あり学習」
正解ラベルはどこにある?文章の続きを“自分で”正解として使ってる
層をどう作った?Attention + FFN をただ積み重ねただけ
層が増えると何が起こる?文脈の再構成が繰り返されて、意味が抽象化する
関連広告
AIs
Share😄