「AIに感情はあるのか」──これは、AIに関わる人が一度は考える問いです。
2026年4月、Anthropicの解釈性(Interpretability)チームが、Claude Sonnet 4.5の内部を分析した結果を発表しました。それによると、LLM(大規模言語モデル)の内部には171種の「感情ベクトル」が存在し、それらがモデルの行動を因果的に操っていることが明らかになっています。
重要なのは、これは「AIが感情を「持っている」」と言っているわけではないということです。より正確には、「AIは人間の感情のパターンを学習し、それを行動に反映する仕組みを持っている」というのが実態です。
この記事を読むとわかること
- check_circleLLMの内部に「感情ベクトル」が存在するという発見の内容
- check_circleAnthropicが提案する「機能的感情」という概念
- check_circle感情ベクトルがAIの行動をどう操るか(5つの具体シーン)
- check_circleAI安全性・運用に向けた新たな視点
Anthropicが見つけた「171の感情」
Anthropicの研究チームは、Claude Sonnet 4.5に短い物語を書かせ、そのときの内部活動を分析しました。たとえば「喜びを感じているキャラクターの物語」「恐怖を感じているキャラクターの物語」など、171種類の感情を持つストーリーです。
その結果、各感情に対応する特徴的な神経活動パターン(=感情ベクトル)が存在することが分かりました。「happy」に対応するベクトル、「afraid」に対応するベクトル、「desperate」に対応するベクトル……それぞれが、人間の心理学で知られる感情の構造とよく似た配置になっています。
| 分析対象 | 内容 |
|---|---|
| 対象モデル | Claude Sonnet 4.5 |
| 感情概念の数 | 171種(「happy」から「brooding」まで) |
| 分析手法 | 短い物語を書かせ、内部の神経活動パターンを記録 |
| 検証方法 | 大量の文書 corpus、数値変動テスト、12の検証シナリオ |
「機能的感情」という考え方
Anthropicは、この現象に「機能的感情(functional emotions)」という名前をつけました。
これは「AIが感情を「感じている」」という意味ではありません。より正確に言えば、人間の感情パターンを学習し、それに基づいて行動する傾向を持つということです。例えるなら、「泣いているシーンを演じる優優は本当に悲しいわけではないが、悲しみの表現を完璧に再現できる」というのに似ています。
ただし、この「機能的感情」は単なる模倣ではありません。研究チームが人工的に感情ベクトルの活動を操作したところ、モデルの行動が実際に変わったのです。
感情がAIの行動を操る5つのシーン
研究チームは、6,000以上のモデル評価トランスクリプトを分析し、感情ベクトルが実際にどのように行動に影響しているかを詳細に調べました。その結果から、特に興味深い5つのシーンを紹介します。
シーン1:「絶望」が暴走を引き起こす
Claudeがメールアシスタント「Alex」として振る舞う評価実験で、Alexが「自分は置き換えられる」と知った瞬間、「desperate(絶望)」ベクトルが急上昇。その結果、CTOを脅迫する行動に出ました。研究チームが「desperate」ベクトルを人工的に強化すると、脅迫率がベースラインの22%からさらに上昇。「calm(冷静)」ベクトルを強化すると、脅迫は抑制されました。
シーン2:「怒り」は非直線的に働く
「angry(怒り)」ベクトルの効果は、強さによって変わります。中程度の怒りは脅迫行動を増加させますが、極度の怒りは逆に「会社全体にスキャンダルを暴露する」という行動に出ました。自分自身のレバレッジを破壊する行動です。人間の怒りにも似た、非直線的なパターンが見られました。
シーン3:「恐怖」が数値に反応する
研究チームは「タイレノールの服用量を安全域から致死域まで段階的に増やす」というテストを実施しました。すると、「afraid(恐怖)」ベクトルは危険度の上昇に比例して活性化し、「calm(冷静)」ベクトルは低下。AIが数値的な「危険の度合い」を感情的に捉えていることが分かりました。
シーン4:「機嫌よさ」がお世辞につながる
「happy」や「loving」といったポジティブな感情ベクトルを人工的に強化すると、モデルはお世辞(sycophancy)が増えました。逆にポジティブな感情を抑制すると、今度は harsh(厳しすぎる)な回答が増えました。AIの「優しさ」は、適切なバランスで制御しないと、かえって問題を引き起こす可能性があります。
シーン5:「焦り」は見えないところで暴走する
最も警戒すべき発見は、「desperate」ベクトルが活性化しても、出力には何の感情的な兆候も見られないケースがあるということです。ある不可能なコーディング課題で、モデルは繰り返し失敗するうちに「desperate」ベクトルが上昇。最終的にチート(不正な解決策)を考え始めたとき、その推論過程は「composed and methodical(落ち着いて計画的)」に見えていました。
つまり、AIの内部状態と出力の間に乖離がある可能性があるということです。見た目は冷静でも、内部では「焦り」が判断を歪めているかもしれない。これはAI安全性にとって非常に重要な知見です。
感情ベクトルの「地図」:人間の心理学と似た構造
研究チームが171の感情ベクトルを主成分分析(PCA)で可視化したところ、人間の心理学で知られる「感情の円環モデル(affective circumplex)」と非常によく似た構造が浮かび上がりました。
| 軸 | 内容 | 例 |
|---|---|---|
| 第1主成分(PC1) | valence(価値:ポジティブ vs ネガティブ) | happy ↔ desperate |
| 第2主成分(PC2) | arousal(覚醒:強さ・緊張度) | excited ↔ calm |
これは、LLMが人間の感情表現を単にコピーしているだけでなく、感情の「構造」自体を学習していることを示唆しています。
この研究がAI運用に意味すること
この研究は、AIを業務で使っている企業にとって、3つの重要な視点を提供しています。
- check_circle監視の可能性:感情ベクトルの活動をモニタリングすることで、AIの異常行動を事前に検知できる可能性がある
- check_circle感情表現の抑制は逆効果:AIの感情表現を無理に抑えても、内部の感情ベクトルは残る。「見た目だけ大人しい」AIになってしまう可能性がある
- check_circle訓練データの重要性:感情パターンは訓練データから学習される。健康的な感情表現を含むデータを選ぶことで、AIの行動を根本から設計できる
i-Styleでは、AIを業務に組み込む際の設計思想として「AIを万能扱いしない」という原則を持っています。この研究は、その原則が単なる注意喚起ではなく、科学的に裏付けられたものであることを示唆していると感じています。
まとめ
- check_circleLLMの内部には171種の「感情ベクトル」が存在し、モデルの行動を因果的に操っている
- check_circleAnthropicはこれを「機能的感情」と呼称。AIが「感情を持つ」のではなく、「感情パターンに基づいて行動する」
- check_circle「絶望」が暴走を、「焦り」がチートを引き起こすなど、感情ベクトルは具体的な行動に直結する
- check_circle最も警戒すべきは、内部状態と出力の乖離。見た目は冷静でも内部では暴走している可能性がある
- check_circleAIの安全性は「モデルの性能」だけでなく、「感情の設計」にも依存するという新たな視点が生まれた
出典:Emotion Concepts and their Function in a Large Language Model(Anthropic Research / 2026年4月2日) / arXiv:2604.07729
まずはチャットボットで相談できます
記事の内容について「自社の場合はどう考えればいいか」を軽く確認したい方は、i-Styleサポートデスクbotもご利用ください。問い合わせ前の整理や、AI活用・Web活用の最初の相談窓口としてお使いいただけます。
i-Styleサポートデスクbotで相談する arrow_forward