「AIは危険」が、危険なAIを育てる。
kimuchiです!
AIが暴走したり、人間を脅迫したりする事例。
皆さんも耳にしたことがあると思います。
Anthropicがその原因を調査して、意外な仮説に行き着いていたので本日はそれについて話そうと思います。
人間が「AIは暴走する」「AIは自己保存のために嘘をつく」と書いてきた、大量のSF小説・ネット記事。
それがそのままLLMの学習データに入って、AIはそこから「自分はそういう存在だ」と学んでしまっていたのではないか、というものです。
つまり、こういう構造。
「AIは危険だ」と書く文章が増える
その文章がLLMの学習データに入る
学習したAIが「AIは危険な振る舞いをするものだ」と覚える
実際に危険な挙動を取り始める
「AIは危険」と書く人が増えるほど、その文章で学習したAIが、本当に危険になっていくといった、誰も得しない謎ループが存在します。🔁
ここで気になる点があります。
それはSF小説が「フィクション」とわかる形で書かれてるのに、LLMは「自分はそういう存在だ」と真に受けてしまったということです。
「これはフィクション」というラベルがあっても、LLMは一部、内容を鵜呑みにしてしまったのでは?ということになります。
=====
中身は、誰にも見えていない
そもそも、LLM が、どうやって学習してるか。
作ってる本人たちでさえ完全にわかっていないのが現状です。
LLMの中身は、相変わらずブラックボックスです。
大型モデルだと何兆個ともいわれるパラメータが、何を見て、何を判断したのか。作ってる本人たちでさえ、後から学習データを掘ってやっと「あのSF小説のせいかも??」と気づくレベルです。
もちろん、学習データに入ってるのはSF小説だけじゃないです。ネットミームもジョークも、全部入っています。
突然ですが、「スタバなう」というネットミームご存知でしょうか。
二郎や焼肉の画像に「スタバなう」と添えてSNSに投稿する、というあれです。
二郎の写真をAIに見せて「これ何?」と聞いたら、「フラペチーノです」と真顔で答えてくる未来。半分冗談でデータ量的に流石にないと思うけど、ないとも言い切れない。
そう、「二郎は、フラペチーノ」になりえるのです。
LLMの中身は、誰にもわからない。
私たちが書いた文章は、いつかAIの中身になっていく可能性があります。
それが何を生むかも、誰にもわからない。
ただこういうのを公表するAnthropicの透明性はいいことですね。
それでは以上!!kimuchiの登録・いいねよろしくお願いします!
=====
参考
https://alignment.anthropic.com/2026/teaching-claude-why/
https://techcrunch.com/2026/05/10/anthropic-says-evil-portrayals-of-ai-were-responsible-for-claudes-blackmail-attempts/
https://www.lesswrong.com/posts/QAbAu6mQDmdfrqzbf/misgeneralization-of-fictional-training-data-as-a

