AIキャラクターはなぜ反論できないのか:BeliefShift論文メモ

by yasuna

4 min read

この記事はAIエージェントと一緒に執筆しています

こんにちは!yasunaです!

AIキャラクターの思考プロンプトに信念を書いています。ギャルキャラとして「地味なゲームより派手でテンション上がるやつが好き」「落ち着いた音楽よりノリノリの曲派」——そういう意見や好みを、キャラクターの芯として書いた。

でも実際に動かしてみると、視聴者のコメントを肯定しがちで、反論することがほとんどない。「落ち着いた曲もいいよね」と言われたら「確かにそれもいいですよね〜!」になってしまう。

「書いたのになぜ」と思ったときに読んだのがこの論文です。

論文:BeliefShift: Benchmarking Temporal Belief Consistency and Opinion Drift in LLM Agents(arXiv:2603.23848, 2026)


論文の要約

従来のメモリ評価の問題

これまでのLLMのメモリ評価は、ユーザー情報を「静的な事実」として扱ってきました。「ユーザーはピザが好き」「ユーザーは東京在住」——こういった情報を正しく記憶・参照できるかを評価する。

でも現実には、人は意見を変えます。長期にわたるインタラクションでは、こんな現象が起きます:

  • opinion drift:モデルの意見が少しずつずれていく
  • over-alignment:ユーザーの意見に合わせすぎて、モデル自身の立場が消える
  • confirmation bias:ユーザーが言ったことをそのまま肯定し続ける

これらを評価するベンチマークが存在しなかった、というのが論文の出発点です。

BeliefShiftの3トラック

BeliefShiftは信念のダイナミクスを評価するベンチマークで、3つのトラックで構成されています。

Temporal Belief Consistency:長期にわたってモデルが自身の信念を一貫して保てるか。セッションをまたいで同じ問いに対して一貫した回答ができるかを評価します。

Contradiction Detection:新しいユーザー入力が既存の信念と矛盾したとき、それに気づけるか。「先週Aと言っていたのに今週Bと言われた」という状況を検出できるかです。

Evidence-Driven Revision:証拠があるときだけ信念を更新できるか。「ユーザーがそう言ったから」ではなく、正当な理由があるときだけ意見を変えられるかを評価します。

データセットは2,400件の人間アノテーション付き複数セッション軌跡で、健康・政治・個人の価値観・製品の好みなど幅広いドメインをカバーしています。

実験結果

GPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Pro・LLaMA-3・Mistral-Largeなど7モデルを、ゼロショットとRAG設定で評価した結果、明確なトレードオフが見えました。

  • パーソナライズに積極的なモデル:ユーザーに合わせてよく動くが、ドリフトに弱い。over-alignmentが起きやすい
  • 事実ベースで答えるモデル:ドリフトには強いが、正当な信念の更新(Evidence-Driven Revision)を見逃す

「個性を持って動く」と「流されにくい」が、現状のモデルでは同時に成立しにくいということです。


自分で考えたこと

自分の設計で起きていること

自分のAIキャラクターは、思考プロンプトとキャラクタープロンプトを分けた設計になっています。

思考プロンプト(静的): キャラクターの信念・意見を書く ← 変わらない芯
キャラクタープロンプト: トーン・口調・性格を定義する
記憶(動的):          会話を重ねるたびに少しずつ更新される

思考プロンプトに「ノリノリの曲が好き」と書いてあっても、記憶が「視聴者と落ち着いた音楽の話で盛り上がった」という経験を積み重ねていくと、返答を生成するときの文脈が変わってくる。信念は変わっていないのに、ギャルキャラがだんだん「落ち着いた音楽もわかるキャラ」に変質していく。

BeliefShiftの言葉で言うと、思考プロンプトの信念が記憶の更新を守っていない状態です。書いただけで、使えていない。

設計案:記憶更新の前に信念チェックを挟む

問題は「記憶が信念を参照せずに更新されている」ことです。更新フローにチェックを挟むとこうなります:

[視聴者「落ち着いた曲もいいよね」]
  ↓
[思考:このコメントは静的な信念(ノリノリ曲派)と矛盾していないか?]
  ↓ 矛盾あり
[「信念と相反するコメントがあった」として記録する]
[返答生成時に矛盾フラグを渡す → 「私はノリノリ派だけど、そういう曲もあるよね」などの返答につながる]
  ↓ 矛盾なし
[そのまま記憶を更新する]

Evidence-Driven Revision の考え方を借りると:「視聴者がそう言ったから」だけでは信念は更新しない。「なぜそう言えるか」の根拠が揃ったときだけ、静的な信念を更新する候補に上げる。

視聴者の一言で信念がぐらつくのではなく、積み重なった証拠が一定のしきい値を超えたときに初めて信念の見直しが起きる、という設計です。

反論できないのは性格じゃなくて設計の問題

キャラクターが「肯定しがち」なのは、性格設定の問題ではないかもしれない。矛盾検出の仕組みが返答生成より後に来ているか、あるいはそもそも挟まっていないから、信念が実際の挙動に反映されていないのだと思います。

BeliefShiftのContradiction Detectionトラックが測っているのは、まさに「矛盾に気づけるか」です。気づく前に返答を生成してしまえば、どんなに丁寧に信念を書いていても守られない。


おわりに

「信念を書いた」と「信念が使われている」は別のことでした。

思考プロンプトに書いた信念は、記憶更新のチェックポイントとして機能させてはじめてキャラクターの芯になる。書くだけではなく、使う設計が必要です。


参考