Humanlaya · insight 模型稳定性

过去 30 天:稳定性结论(一页版)

窗口 2026-05-09 ~ 06-14 · 全部按项目 · 每条结论已用独立数据源交叉验证
平台 失败率确实在下降(1.7% → 0.6%),但这是模型成熟的功劳——不是题目变简单,也不是切了 agent。 切 agent 是少数项目的「能力投资」:为做直连做不了的复杂任务,代价是慢约 2–3 倍(到 ~4–7 分钟,仍是个位数),但稳定性基本没牺牲(仅经济金融偶发超时)。 响应速度整体没有变快。

① 整体失败率:真降,且是「成熟」不是「变简单」

1.6% → 0.6%
全平台周失败率(5/11 → 6/08)
独立活表逐周对账,口径误差 ≤0.05pp,确认是真降
+3×
同期输入难度(token/条)
难度不降反升 → 失败率降是模型成熟,不是题变简单
71%
题量来自「从没上 agent」的成熟项目
整体改善主要由它们贡献,与切 agent 无关

② 速度:整体没有变快

各类项目延迟各自稳定:直连项目长期 ~5 分钟、Openclaw 长期 ~20 分钟,组内基本横住、无真实提速。 之前看到的「整体 P90 从 10.4 降到 7.5」经独立源复核无法复现——真实只在 6~8 分钟窄带内波动,那次「下降」是只统计了 2 天的残周造成的假象。汇报时不应宣称「平台更快了」。

③ 切 agent 的项目:更慢,但稳定性没牺牲(经金除外)

做干净的「切前(直连)→ 切后(agent)」对比(已剔 5/17、5/18、6/4、6/14 偶发故障日;P90 取看板每日中位):响应时间普遍涨约 2–3 倍(从 ~2–3 分钟到 ~4–7 分钟,仍是个位数);失败率基本持平或更低,文脉、自然科学还明显改善,只有经济金融升高

项目失败率 直连→agentP90 直连→agent(分)失败率 / 速度
文脉计划8.9% → 1.7%14.7 → 8.1失败↓ 更快
领航·自然科学12.5% → 2.7%3.3 → 5.8失败↓ 略慢
领航·医疗3.5% → 1.5%2.0 → 4.3失败↓ 变慢
领航·法律1.6% → 2.0%2.2 → 4.7失败持平 变慢
领航·工业1.0% → 1.0%2.4 → 5.0失败持平 变慢
领航·法律川大0.0% → 0.8%1.4 → 4.4失败持平 变慢
PDF Text0.7% → 2.2%4.2 → 5.3失败↑ 略慢
领航·经济金融0.7% → 4.6%2.3 → 6.6失败↑ 变慢

结论:切 agent 的项目用约 2–3 倍响应时间(仍是个位数分钟)换来复杂任务能力,稳定性没有牺牲——失败率持平或更低,文脉/自然科学还明显改善;只有经济金融升高(见下)。对这些项目,这笔投资值得。

④ 切 agent 的一个明确收益:超时告警大幅减少

直连时代,重任务常被 60 分钟硬超时砍掉(走「全局超时/取消」);切 agent 后这类超时基本消失。全平台超时率 0.43% → 0.17%(减半还多),两个超时桶基本互斥(直连只走 timeout_cancel、agent 只走 agent_timeout)。

项目直连·全局超时/取消agent·超时变化
文脉计划6.04%0%基本消除
领航·自然科学2.13%1.22%下降
领航·医疗0.15%0.09%下降
领航·经济金融0%2.74%agent 新增(偶发)

有超时痛点的重任务项目(文脉、自然科学)切 agent 后都被治好或减轻;经济金融是唯一切 agent 后超时不降反升的,也就是它那个偶发超时(见下)。

项目健康度地图(最新状态)

● 健康稳定

  • 领航 医疗 / 法律 / 工业 / 川大
  • 千寻、阶梯、指令遵循、Moss、面壁、阿加莎
  • 失败率 ~1–2%,速度稳定

● 改善中

  • 文脉(失败 13%→1.3%)
  • Excel 3 期(17%→1.7%)
  • 领航·自然科学(切换阵痛后回落)

● 需关注

  • 领航·经济金融:偶发 agent 超时(剔尖峰后失败 4.6%,平时正常)
  • Openclaw:慢(~20 分)但稳(失败 0.6%)
  • Excel 4 期:文件名 bug(已加检测)
全平台切 agent 后唯一还有超时的项目:领航·经济金融 —— 而且是「偶发」。 它的失败几乎全是 agent 超时(任务跑太久撞 1 小时上限被砍),且不是天天坏,集中在 6/3、6/14 两天(各 12–19 次超时),其余天基本为 0。剔掉这两天后失败率约 4.6%、P90 ~6.6 分,平时都正常。结论:不是持续故障,是个别"超时风暴日" —— 下一步定位这些重任务为何超 1 小时(任务过重 / sandbox 资源不足)。