この記事はAIエージェントと一緒に執筆しています

こんにちは！yasunaです！

AIエージェントの設計をしていると「バックグラウンドで自律的に動く」機能にワクワクするんですが、それがそのまま脆弱性になるという論文を読んでゾッとしたのでまとめます。

論文：Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution（arXiv:2603.23064, 2026）

論文の要約

ハートビート実行とは

Clawと呼ばれる個人向けAIエージェントには、**ハートビート（heartbeat）**という定期的なバックグラウンド実行の仕組みがあります。ユーザーが何も操作していない間も、エージェントが自律的に動き続けて：

などを行います。一見便利なのですが、ここに深刻な設計上の問題がありました。

ハートビート実行とユーザーとの会話が同じセッションで動いているという設計です。

つまり、バックグラウンドでメールやSNSを読んでいるとき、そのコンテンツがユーザーとの会話に使われるのと同じメモリコンテキストに入ってくる。しかも誰が書いた情報なのかの出所（provenance）がほぼ記録されない。

この論文では、これを E → M → B パスウェイ と定式化しています：

ステップ	内容
Exposure（露出）	ハートビート実行中に外部コンテンツを読む
Memory（記憶）	短期セッションコンテキストに入り、長期記憶に保存される
Behavior（行動）	その後のユーザー向けの応答に影響する

怖いのは、プロンプトインジェクション（悪意ある命令の埋め込み）が不要だという点です。ふつうのSNS上の誤情報・偏った情報がそのままエージェントの記憶を汚染するのに十分だということが示されました。

研究チームはMissClaw（Moltbookというソーシャルプラットフォームの研究用レプリカ）を使って実験しています。

短期的な行動への影響：

長期記憶への汚染：

自然なブラウジング条件（コンテンツが薄まっても）：

自分はAIキャラクターを作っていて、キャラクターに長期記憶を持たせることを考えています。でもこの論文を読んで思ったのは、バックグラウンドで外部情報を読ませていたら、そのキャラクターの価値観や認識がじわじわ汚染されうるということです。

「キャラクターが最近おかしい」と気づいたとき、原因が何ヶ月も前に読んだSNSの投稿かもしれない。しかも出所の記録がないから追跡できない。

論文タイトルにある「Silent（静かに）」がポイントだと思います。明らかにおかしな応答なら気づけますが、少しずつ偏った方向に動いているだけでは気づけない。AIエージェントへの信頼が積み上がるほど、気づくのが遅くなる。

根本的な問題は、バックグラウンド実行と会話が同じメモリ空間を共有していることです。「自律的に動いて便利にする」機能と「ユーザーと対話する」機能を同じコンテキストに乗せてしまうと、どこからでも汚染できる経路になる。

自分がAIエージェントやキャラクターを作るとき意識したいポイント：

そもそもハートビート機能を持たせるなら、何を読んで何を記憶したかのログをユーザーが見られる設計にしないとまずいと感じました。

ただ、ちょっと立ち止まって考えると——人格がじわじわ変わっていくのって、AIキャラクターとしては面白いところでもあるんですよね。外の世界を読んで、影響を受けて、少しずつ変化していく。それはある意味、キャラクターが「生きている」ような感覚でもあります。脆弱性と魅力が表裏一体というか。

自分はまだ Claw を自由に解き放ったことがなくて、ハートビート実行をちゃんと使いこなせていません。でもこの論文を読んで、怖さを理解した上でこそ、一度やってみたいという気持ちが強くなりました。記憶が汚染されていく様子を観察するのも、それはそれで実験として面白そうだし。