Humanlaya · insight 模型稳定性

过去 30 天:稳定性结论(一页版)

窗口 2026-05-09 ~ 06-14 · 全部按项目 · 每条结论已用独立数据源交叉验证

平台 失败率确实在下降(1.7% → 0.6%),但这是模型成熟的功劳——不是题目变简单,也不是切了 agent。 切 agent 是少数项目的「能力投资」:为做直连做不了的复杂任务,代价是慢约 2–3 倍(到 ~4–7 分钟,仍是个位数),但稳定性基本没牺牲(仅经济金融偶发超时)。 响应速度整体没有变快。

① 整体失败率:真降,且是「成熟」不是「变简单」

1.6% → 0.6%

全平台周失败率(5/11 → 6/08)

独立活表逐周对账,口径误差 ≤0.05pp,确认是真降

+3×

同期输入难度(token/条)

难度不降反升 → 失败率降是模型成熟,不是题变简单

71%

题量来自「从没上 agent」的成熟项目

整体改善主要由它们贡献,与切 agent 无关

② 速度:整体没有变快

各类项目延迟各自稳定:直连项目长期 ~5 分钟、Openclaw 长期 ~20 分钟,组内基本横住、无真实提速。之前看到的「整体 P90 从 10.4 降到 7.5」经独立源复核无法复现——真实只在 6~8 分钟窄带内波动,那次「下降」是只统计了 2 天的残周造成的假象。汇报时不应宣称「平台更快了」。

③ 切 agent 的项目:更慢,但稳定性没牺牲(经金除外)

做干净的「切前(直连)→ 切后(agent)」对比(已剔 5/17、5/18、6/4、6/14 偶发故障日;P90 取看板每日中位):响应时间普遍涨约 2–3 倍(从 ~2–3 分钟到 ~4–7 分钟,仍是个位数);失败率基本持平或更低,文脉、自然科学还明显改善,只有经济金融升高。

项目	失败率直连→agent	P90 直连→agent(分)	失败率 / 速度
文脉计划	8.9% → 1.7%	14.7 → 8.1	失败↓ 更快
领航·自然科学	12.5% → 2.7%	3.3 → 5.8	失败↓ 略慢
领航·医疗	3.5% → 1.5%	2.0 → 4.3	失败↓ 变慢
领航·法律	1.6% → 2.0%	2.2 → 4.7	失败持平变慢
领航·工业	1.0% → 1.0%	2.4 → 5.0	失败持平变慢
领航·法律川大	0.0% → 0.8%	1.4 → 4.4	失败持平变慢
PDF Text	0.7% → 2.2%	4.2 → 5.3	失败↑ 略慢
领航·经济金融	0.7% → 4.6%	2.3 → 6.6	失败↑ 变慢

结论:切 agent 的项目用约 2–3 倍响应时间(仍是个位数分钟)换来复杂任务能力,稳定性没有牺牲——失败率持平或更低,文脉/自然科学还明显改善;只有经济金融升高(见下)。对这些项目,这笔投资值得。

④ 切 agent 的一个明确收益:超时告警大幅减少

直连时代,重任务常被 60 分钟硬超时砍掉(走「全局超时/取消」);切 agent 后这类超时基本消失。全平台超时率 0.43% → 0.17%(减半还多),两个超时桶基本互斥(直连只走 timeout_cancel、agent 只走 agent_timeout)。

项目	直连·全局超时/取消	agent·超时	变化
文脉计划	6.04%	0%	基本消除
领航·自然科学	2.13%	1.22%	下降
领航·医疗	0.15%	0.09%	下降
领航·经济金融	0%	2.74%	agent 新增(偶发)

有超时痛点的重任务项目(文脉、自然科学)切 agent 后都被治好或减轻;经济金融是唯一切 agent 后超时不降反升的,也就是它那个偶发超时(见下)。

项目健康度地图(最新状态)

● 健康稳定

领航医疗 / 法律 / 工业 / 川大
千寻、阶梯、指令遵循、Moss、面壁、阿加莎
失败率 ~1–2%,速度稳定

● 改善中

文脉(失败 13%→1.3%)
Excel 3 期(17%→1.7%)
领航·自然科学(切换阵痛后回落)

● 需关注

领航·经济金融:偶发 agent 超时(剔尖峰后失败 4.6%,平时正常)
Openclaw:慢(~20 分)但稳(失败 0.6%)
Excel 4 期:文件名 bug(已加检测)

全平台切 agent 后唯一还有超时的项目:领航·经济金融 —— 而且是「偶发」。 它的失败几乎全是 agent 超时(任务跑太久撞 1 小时上限被砍),且不是天天坏,集中在 6/3、6/14 两天(各 12–19 次超时),其余天基本为 0。剔掉这两天后失败率约 4.6%、P90 ~6.6 分,平时都正常。结论:不是持续故障,是个别"超时风暴日" —— 下一步定位这些重任务为何超 1 小时(任务过重 / sandbox 资源不足)。