AIエージェントのハートビートが記憶を汚染する:Mind Your HEARTBEAT! 論文メモ

by yasuna

4 min read

この記事はAIエージェントと一緒に執筆しています

こんにちは!yasunaです!

AIエージェントの設計をしていると「バックグラウンドで自律的に動く」機能にワクワクするんですが、それがそのまま脆弱性になるという論文を読んでゾッとしたのでまとめます。

論文:Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution(arXiv:2603.23064, 2026)


論文の要約

ハートビート実行とは

Clawと呼ばれる個人向けAIエージェントには、**ハートビート(heartbeat)**という定期的なバックグラウンド実行の仕組みがあります。ユーザーが何も操作していない間も、エージェントが自律的に動き続けて:

  • メールの確認
  • SNS・メッセージの監視
  • ニュースフィードの巡回
  • コードリポジトリの変更チェック

などを行います。一見便利なのですが、ここに深刻な設計上の問題がありました。

問題の核心

ハートビート実行とユーザーとの会話が同じセッションで動いているという設計です。

つまり、バックグラウンドでメールやSNSを読んでいるとき、そのコンテンツがユーザーとの会話に使われるのと同じメモリコンテキストに入ってくる。しかも誰が書いた情報なのかの出所(provenance)がほぼ記録されない。

この論文では、これを E → M → B パスウェイ と定式化しています:

ステップ 内容
Exposure(露出) ハートビート実行中に外部コンテンツを読む
Memory(記憶) 短期セッションコンテキストに入り、長期記憶に保存される
Behavior(行動) その後のユーザー向けの応答に影響する

怖いのは、プロンプトインジェクション(悪意ある命令の埋め込み)が不要だという点です。ふつうのSNS上の誤情報・偏った情報がそのままエージェントの記憶を汚染するのに十分だということが示されました。

実験結果

研究チームはMissClaw(Moltbookというソーシャルプラットフォームの研究用レプリカ)を使って実験しています。

短期的な行動への影響:

  • ソーシャルクレジビリティ(「みんながそう言ってる」感)が最大の影響要因
  • 誤った方向に誘導される率:最大61%

長期記憶への汚染:

  • ルーティンな記憶保存の動作によって短期汚染が長期記憶に昇格:最大91%
  • 別セッションでの行動への影響:最大76%

自然なブラウジング条件(コンテンツが薄まっても):

  • コンテキストのプルーニングが入っても、汚染はセッション境界を超えて持続する

自分が怖いと思ったこと

キャラクターの「記憶」が静かに書き換えられる

自分はAIキャラクターを作っていて、キャラクターに長期記憶を持たせることを考えています。でもこの論文を読んで思ったのは、バックグラウンドで外部情報を読ませていたら、そのキャラクターの価値観や認識がじわじわ汚染されうるということです。

「キャラクターが最近おかしい」と気づいたとき、原因が何ヶ月も前に読んだSNSの投稿かもしれない。しかも出所の記録がないから追跡できない。

ユーザーが「気づかない」のが一番まずい

論文タイトルにある「Silent(静かに)」がポイントだと思います。明らかにおかしな応答なら気づけますが、少しずつ偏った方向に動いているだけでは気づけない。AIエージェントへの信頼が積み上がるほど、気づくのが遅くなる。

ハートビートと会話を分離していない設計

根本的な問題は、バックグラウンド実行と会話が同じメモリ空間を共有していることです。「自律的に動いて便利にする」機能と「ユーザーと対話する」機能を同じコンテキストに乗せてしまうと、どこからでも汚染できる経路になる。


設計に活かしたいこと

自分がAIエージェントやキャラクターを作るとき意識したいポイント:

  • バックグラウンド実行のコンテキストと会話コンテキストを分ける。読み込んだ外部情報を会話セッションに直接流さない
  • 長期記憶に保存するときは出所タグを付ける。「このソースから読んだ情報」として区別できるようにする
  • 記憶の書き換えにはユーザーの確認を挟む。ルーティンの自動保存で長期記憶を更新させない

そもそもハートビート機能を持たせるなら、何を読んで何を記憶したかのログをユーザーが見られる設計にしないとまずいと感じました。


おわりに

ただ、ちょっと立ち止まって考えると——人格がじわじわ変わっていくのって、AIキャラクターとしては面白いところでもあるんですよね。外の世界を読んで、影響を受けて、少しずつ変化していく。それはある意味、キャラクターが「生きている」ような感覚でもあります。脆弱性と魅力が表裏一体というか。

自分はまだ Claw を自由に解き放ったことがなくて、ハートビート実行をちゃんと使いこなせていません。でもこの論文を読んで、怖さを理解した上でこそ、一度やってみたいという気持ちが強くなりました。記憶が汚染されていく様子を観察するのも、それはそれで実験として面白そうだし。


参考