阶梯计划 · AI Checker 成本归因

为什么阶梯单轮/多轮的单题 API 成本全平台最高 —— 假设逐个排除 + 三方口径对账 · 2026-06-27

数据源:insight 分析库(直连实测) · 看板 insight.humanlaya.com/dashboard/settlement & project-report · 题目前端 talents-ai.com/admin/items · 所有数字均连库复现,关键项三方对拍。

0 · 全部 checker 清单(以前端为准 · 确定数)

口径只有一套:以专家/质检在题目前端页看到的为准,每个 checker 标【✅前端可见】或【🔒背后跑】。下面是单轮 131 实跑的全部 checker(确定数,非约等于):

前端看到的检测库 check_type调用次数token占比前端
反作弊检测 已修,现73/次cheating10,63252.3%可见
单轮 AI 质检 gategate_quality98614.1%可见
质量检测v3sp_mod_quality12,6849.6%可见
批量评分规则rubrics_batch3,2565.3%可见
场景标签检测v3sp_tag5,1434.7%可见
指令拆分v3sp_mod_split2,2642.7%可见
参考答案校验reference1,4982.1%可见
完备性检测coverage1,7731.4%可见
逐条评分rubric10,3027.8%🔒背后跑

只有「逐条评分」前端看不到 —— 它在后台按"每条 rubric 一次"增量跑(改哪条查哪条),所以专家/质检页里不单列,但照样调模型、照样烧 token。其余 8 个前端流程里都看得到。

看板「PE节点质量」只显示其中有"通过/否"判定的那几个(更少),那是看板自己的过滤,不代表只有那几个在跑。多轮 133 同理,其逐条评分占 36.7%(见 §4)。

三方对拍(已验):题 76755 反作弊 = 库 11 = 前端 ~11 ✅;质量检测 = 库 12 = 前端 ~12 ✅。题 76625:6/18 = 25 反作弊 + 25 质量(前端拉到底可数到)。看板单题 API ¥684.38 = 库复现 ¥684.38、付费完成 45 = 库 45 ✅。

1 · 现象:阶梯单题 API 全平台最高

¥684
单轮 131 · API/完成题
¥296
多轮 133 · API/完成题
¥6–87
小龙虾 / Excel 对比
82–90%
API 里是 checker(非跑模型)
项目每次 checker token每完成题调用次数API/完成题废弃率
阶梯单轮 13126k115¥68494%
阶梯多轮 13332k84¥29693%
Excel大师3期 9720k41¥8785%
小龙虾一期 1286k207¥6092%
小龙虾二期 1392k45¥692%

口径:API/完成题 = 结算周期内项目全部 API ÷ 付费完成数(看板「完成口径/题」同源,已复现到分);token/次 = 该项目 checker 调用平均 total_tokens;调用次数/完成题 = 该状态题的 checker 调用 ÷ 题数。

2 · 逐个排除假设

H1 · 是 AI checker 数量太多吗?
不是
阶梯有效 checker(≥100 次)9 个,但小龙虾一期也 9 个、Excel3 期 7 个。数量不是阶梯独有的问题。
H2 · 是专家每题跑的次数特别多吗?
不是
每完成题调用次数:阶梯 84–115,而小龙虾一期 207 反而更高,Excel 仅 22–41。阶梯在"次数"上并不突出。
H3 · 是每次调用的 token 太重吗?
是 · 主因
每次 checker:阶梯 26–32k、Excel 20k、小龙虾 2–6k(差 4–13 倍)。根源:阶梯每题平均 17–19 条 rubric(最多 100+),多轮还带 22 轮对话,每次检查都把整段 prompt + 全部 rubric / 历史塞进去。这是任务复杂度决定的,砍不掉;能砍的是"每次别全量塞"。
H4 · 是废弃率高、分母小把单题口径抬高了吗?
是 · 次因
单题成本 = 总 API ÷ 完成题。阶梯 71%(单轮)/69%(多轮)的 checker token 烧在最终废弃的题上,而完成的题极少(完成率仅 2–22%)→ 分母小、口径被抬高。
H5 · 是某几个题 / 某几个专家大量刷出来的吗?
不是
调用不集中:最烧的 10 道题只占全部调用 9%;按账号看没有人超 3%;摊在 121 个出题人身上。不是少数坏人/恶意刷。
H6 · 重跑多 = 返修来回的死亡螺旋吗?
不是(数据推翻)
按调用量分档(单轮 131):
题数均调用均返修打回完成率
低 <50 次562150.12%
中 50–149193850.815%
高 150+ 次1002401.619%
高调用题(240 次)平均只被打回 1.6 次(多轮 2.2),根本不是返修螺旋。那些调用主要是标注阶段反复自检(改一版点一次检测)。而且调用越多、完成率反而越高(19% vs 2%)—— 是认真磨,不是被来回打回。
H7 · 反作弊(查重)是头号烧钱项吗?
曾是 · 已修复
历史上反作弊占单轮 checker token 52%(累计 6 亿 token,每次塞历史 prompt)。6/26 PE 改动后,每次 token 从 2 万–20 万骤降到 73(连库按天证实)→ 这刀已经砍完,往后基本不烧。

3 · 结论

阶梯 API 贵 = 题本身复杂(每次 token 大)× 废弃率高(分母小)。
不是 checker 数量多、不是专家跑太多轮、不是有人恶意刷、不是返修死亡螺旋。
查重(反作弊)曾是最大单项,但已于 6/26 修复

两个项目的剩余成本结构不一样(所以不能并起来看):

4 · 分项目 checker 明细(正确口径)

token 占比 = 该项目 checker 累计 total_tokens 占比(历史口径;反作弊那块是 6/26 修复前的账)。"节点"= 看板有判定 / "子检查"= 无判定、UI 不单列。

阶梯单轮 131 · checker 总 11.79 亿 token

检测(UI 中文名)类型调用次数token 占比
反作弊检测 已修,现 73/次节点10,63252.3%
单轮 AI 质检 gate节点98614.1%
质量检测节点12,6849.6%
逐条评分子检查10,3027.8%
批量评分规则节点3,2565.3%
场景标签检测子检查5,1434.7%
指令拆分子检查2,2642.7%
参考答案校验节点1,4982.1%
完备性检测节点1,7731.4%

去掉已修的反作弊后,往后大头:单轮 AI 质检 gate ~30% > 质量 ~20% > 逐条 ~16% > 批量 ~11%。

阶梯多轮 133 · checker 总 7.87 亿 token

检测类型调用次数token 占比
逐条评分子检查10,83936.7%
反作弊检测 已修节点1,84322.2%
批量评分规则节点3,49213.8%
考点完备性节点1,9307.3%
参考答案校验节点1,4816.4%
清晰度检测节点1,8625.8%
指令拆分(多轮)子检查9103.4%
多轮 AI 质检 gate节点3072.5%
场景标签检测子检查1,2741.7%

去掉已修的反作弊后:逐条 ~47% 绝对大头 > 批量 ~18% > 完备性 ~9%。

5 · 改进方案(按 ROI 排序)

#问题解法难易
1反作弊每次塞历史、烧几万 token,占单轮 52%,且对"难度/AI生成"没用已修(6/26) → 每次 73 token已完成
2单轮 AI 质检 gate 单次 ~25 万 token(全量塞 rubric + 历史)瘦身:只带相关 rubric 段 / 去掉冗余历史快照中 · checker 侧可改
3多轮逐条评分占 47%(增量、砍不掉),量大是因返修/自检多治根:降难度门槛 + 早给"过不了"信号,减少反复磨难 · 难度校准
4废弃率 92–94%,API 摊到极少完成题同上,废弃降→分母大→单题成本自然塌难 · 根因
5题本身复杂(17–19 rubric、多轮长上下文)砍不动,接受 —— 别在这浪费力气不动

6 · gate_quality 瘦身方案(实锤,可直接提研发)

「单轮 AI 质检 gate」每次输入约 41 万 token(单次最贵)。解剖一条真实输入(59.97 万字符):

组成占比能不能砍
真正要判的考点正文(rubricDetail)~0.3%必留
整段题目 prompt 被重复嵌 48 次(每条 rubric 的 contentSnapshot 各带一份全文,每份 ~5.7k 字符)~大头砍47份留1份
之前"逐条评分"的完整结果(每条 rubric 的 asyncCheckState:模型一/二 × 各项判定理由,共 197 段)~大头删/只留结论
元数据(checkTime / requestTime / batchId / aiCheckPassed…)零散
结论:砍掉重复 prompt + 旧检查结果两坨,保守省 70–80%+ token(41 万 → 几万),考点正文一字不动、判断质量不受影响。

给研发的提法:contentSnapshot 的 prompt 全文只保留一份全局;② 去掉 asyncCheckState(旧逐条结果)或只留结论不留理由;③ 去掉无关元数据。需研发确认一点:gate 判断时是否真用到 asyncCheckState —— 不用 = 直接全删。

附录 · 口径对账细节

A. 库 vs 前端为什么数字不同

tbl_rubric_ai_check_log每一次模型调用流水(含跨天的反复自检、子检查);前端是清理/分页后的视图,且逐条评分不单列。例:76625 从 6/8 改到 6/18 共 3 天,质量检测 70 次、逐条 152 次 —— 都是不同分钟的独立调用,非重复;前端拉到底可对上节点类(反作弊/质量/批量等)。

B. 反作弊"0 token"是什么

全 131 反作弊 1.06 万次调用中:33% 是 0 token(该题没有历史可比对 = 无需检测,直接返回),67% 烧几万~69 万 token(注入历史比对)。所以它忽烧忽不烧是真实的,不是数据错;6/26 改动后整体降到 73 token/次。

C. 节点 vs 子检查判定

依据 dwd_pe_gate_log_detail.display_status:产出 passed/failed 的 = 看板节点;只产 completed 的 = 子检查(逐条评分、场景标签、指令拆分)。check_type ↔ check_name(中文)一一对应,无归并。