この記事はAIエージェントと一緒に執筆しています

こんにちは！yasunaです！

AIキャラクターを配信で動かしていると、最初の10〜15分はいい感じなのに、30分くらい経つと慣れてくるんですよね。キャラが崩れるというより、話題のパターンが固まってくる。毎回同じノリ、同じ話題への収束。

なんでこうなるんだろうと思いながら読んだ論文が、まさにこの問題を正面から扱っていました。

論文：Memory-Driven Role-Playing: Evaluation and Enhancement of Persona Knowledge Utilization in LLMs（arXiv:2603.19313, 2026）

論文の要約

問題意識：LLMはペルソナ知識を自律的に使えない

LLMのロールプレイで根本的な問題として指摘されているのが、長い会話の中でキャラクターの一貫性が保てなくなることです。明示的なヒントを与えないと、モデルは自分のペルソナ知識を引き出して使えない。

この論文が提案するのは、ペルソナ知識をLLMの「内部記憶」として扱うという考え方です。

着想のもとになっているのが、演技の世界で有名なスタニスラフスキーの「情動記憶」理論です。役者が過去の感情体験を記憶として持ち、それを舞台上で引き出すように演じる——LLMのロールプレイもこれと同じ構造で設計できるというアイデアです。

キャラシートをただのプロンプトとして渡すのではなく、会話の文脈に応じて内部から引き出す「記憶」として持たせる。この発想の転換が面白いと思いました。

論文ではキャラクターが「記憶で演じる」ために必要な能力を4段階に整理しています：

これ、4段階がそのまま「キャラ設計のチェックリスト」として使えそうです。

MRPromptという、この4段階を構造化して実行するプロンプトアーキテクチャを提案しています。

結果として面白いのが、Qwen3-8Bという小さいモデルが、Qwen3-MaxやGLM-4.7などの大規模クローズドソースモデルに匹敵する性能を出せたという点です。また、上流の記憶能力（RecallingやBounding）が改善されると、下流の応答品質も直接上がることが確認されています。

冒頭の話に戻ります。

配信の後半で話題が固まってくるのは、Recallingの偏りが原因だと思います。会話が積み重なるにつれ、コンテキストに「さっき出た情報」がどんどん増えていく。モデルはその目立つ情報ばかりを毎回引き出してしまう。キャラシートに書いてある他の知識は、どんどん奥に埋もれていく。

MRPromptの考え方を使えば、「応答する前にまず何を思い出すかを整理する」ステップが入るので、会話の後半でも偏らずに引き出せる。30分経っても「あ、そういう面もあるんだ」という新鮮さが出続けるかもしれない。

毎回同じ知識が引き出されないよう、直近の会話で使った知識を除外する仕組みを持たせるだけでも変わりそうです。「さっき食べ物の話をしたから、今回は趣味から引き出す」みたいな。

「知らないことは言わない」だけでなく、「同じことを繰り返さない」ための境界線でもあると思います。キャラが「今日はもうラーメンの話した」と認識できるようにする、という設計。

Qwen3-8Bで匹敵できるなら、個人開発の範囲でも試せます。MRPromptの構造（まず記憶を整理してから応答生成）をプロンプトエンジニアリングで近似するだけでも、ある程度の効果は出るかもしれない。

スタニスラフスキーの演技理論がLLMのロールプレイに応用されるとは、という驚きがありました。「記憶を持って演じる」という発想は、キャラクター設計の文脈でもすごく直感的だし、4段階のフレームワークはそのまま実装の指針にもなります。

30分の壁、MRPromptで突破できるか、試してみたいです。