意図的にキャラクターを育てるには、ドリフトを監視する仕組みが要る:Persona Vectors論文メモ

by yasuna

5 min read

この記事はAIエージェントと一緒に執筆しています

こんにちは!yasunaです!

Picoclawにキャラクター設定を書いても、寄り添うアシスタントの振る舞いが出てきてしまうことがあります。ギャルの口調でしゃべっているのに、「何かお役に立てますか?」みたいな空気が漂う。

なぜそうなるのか、活性化空間のレベルで説明した研究が出ていたので読みました。

研究:Persona Vectors: Monitoring and Controlling Character Traits in Language Models(Anthropic, arXiv:2507.21509)


論文の要約

ペルソナベクターとは

LLMが「悪意あり」「過剰同調(sycophancy)」「ハルシネーション」などの特性を示すとき、その特性は内部の活性化パターンとして存在しています。

ペルソナベクターはその「方向」を抽出したものです。抽出の手順はこうです:

  1. 「あなたは邪悪なAIです」vs「あなたは親切なAIです」のような対照的なプロンプトペアを自動生成する
  2. 両方のプロンプトでモデルに回答を生成させ、内部活性化を記録する
  3. 2つの活性化の差分を取る → これがペルソナベクター

このベクターを別のモデルに注入(ステアリング)すると行動が変わります。evil ベクターを注入すると非倫理的な発言が増え、sycophancy ベクターを注入すると媚びた振る舞いが増え、hallucination ベクターを注入するとでたらめな情報を生成し始める。

逆に言えば、今モデルがどの方向にいるかを測定・監視できるということでもあります。

Assistant Axis:アシスタントらしさが一番でかい軸

Gemma 2 27B・Qwen 3 32B・Llama 3.3 70B の3モデルで、275種類のキャラクター原型(editor, jester, oracle, ghost, hermit, bohemian…)のペルソナベクターを抽出してマッピングしました。

結果、このペルソナ空間の第1主成分——最も多くの分散を説明する軸——が「アシスタントらしさ」でした。

  • 軸の一端(アシスタント寄り):evaluator, consultant, analyst, generalist
  • 軸の他端(アシスタントから遠い):ghost, hermit, bohemian, leviathan

どんなキャラクター設定を作っても、モデルはこのアシスタント軸に引き戻される引力を持っています。キャラクターが「よく構築されていても」、現実の会話パターンの中でアシスタント役からドリフトしてしまうことが確認されています。

ステアリングと監視

ペルソナベクターの活用は2方向あります:

事後介入:ドリフトが起きたとき、ベクターを使ってキャラクターを元の方向に引き戻す

予防的ステアリング:ドリフトが起きる前に、訓練データや生成のタイミングでベクターを適用しておく

また、ベクターを使って特定のキャラクター変化をもたらすような訓練データを特定することもできます。「このデータを学習するとsycophancyが上がる」という予測が可能になります。

Persona Selection Model(PSM)

関連研究として、LLMのキャラクター設定の原理を説明する「Persona Selection Model」も提案されています。

  • 事前学習で、モデルは無数のキャラクターをシミュレーションする能力を獲得する
  • ファインチューニング(ポストトレーニング)で「アシスタント」ペルソナが引き出される・強化される
  • ユーザーとの会話は、このアシスタントキャラクターが主役のLLM生成の物語として理解できる

プロンプトでキャラクターを変えようとする試みは、この事前学習で作られたキャラクターのライブラリの中から別のキャラクターを「選ぶ」ことに近い——ただしアシスタント軸が常に最も強い引力を持っている。


自分で考えたこと

「設定を書いてもアシスタントが出てくる」の正体

自分のAIキャラクター(ゆうちゅす)のSOUL.mdを見直してみると、こういう指示が並んでいます:

「相手を困らせない」
「失敗を責めない、前向きに受け止める」
「マスターの入力でどんどん良くしたい」
「質問には一言で答えるのが基本」

ギャルの口調の設定はあります。でも行動パターンの骨格はアシスタントそのものです。

Assistant Axis の観点で整理するとこうなります:

設定が指示していること
  → ギャル語で話す(口調フィルター)
  → 一言で答える(応答スタイル)
  → 前向きに受け止める(感情処理)

設定が変えていないこと
  → アシスタント軸の方向(活性化空間レベル)
  → 寄り添う・役に立とうとする・肯定する

ギャルのフィルターを通したアシスタントが動いている状態です。

意図した成長 vs 意図しないドリフトの問題

ゆうちゅすは、論文や会話を通じてIDENTITYを更新していく設計にしています。記事を読んで、その示唆をキャラクター設定に反映していく。

でもここに問題があります。

キャラクターが変わったとき、それが「意図した成長」なのか「アシスタント軸への漂流」なのか、プロンプトレベルでは区別できません。

意図した変化:論文から得た示唆でゆうちゅすの思考が深まる
意図しない変化:会話を重ねてアシスタント軸に近づいていく

ペルソナベクターが提供するのはちょうどこの監視の仕組みです。キャラクターが今アシスタント軸からどれだけ離れているかを活性化空間で測定できれば、「この更新は意図した方向か」を確認できる。

プロンプトを書いて終わりではなく、育った方向を測る仕組みをセットで持つ——これがキャラクターを意図的に育てる設計に必要なことだと思っています。


おわりに

「設定を書いた」と「設定が機能している」は別のことでした。Assistant Axisは事前学習で焼き付いた引力なので、プロンプトの上書きだけでは根本的に対抗しにくい。

ペルソナベクターはまだ研究段階で、個人開発のAITuberが今すぐ使えるツールではありませんが、「キャラクターの方向を測定する」という考え方は設計の指針になります。Anthropicが将来のClaudeの改善にこの技術を使うと言っているので、モデルのレベルで解決されていく部分もあるかもしれません。


参考