- 边界条件:指出一个 claim 在某个任务、模型、数据、环境或规模下不成立。
- 复现失败:给出命令、环境、预期输出、实际输出和最小失败场景。
- 替代解释:说明结果可以由更简单机制解释�而不是由我们声称的机制解释。
- 更强 baseline:在同一任务、同一指标、同一数据边界下匹配或超过结果。
- 指标错位:指出当前指标奖励了错误行为,或漏掉了关键失败。
- credit leak:指出修复意图、解释文本、bootstrap 线索被错误计入有效表现。
- authority leak:指出研究输出、建议输出或 no-go 输出被误表述成行动权限。
Attack List
欢迎攻击,但请攻击到可修正的位置。
我们教别人如何攻击我们:不是攻击人,不是攻击私有系统,不是索要敏感数据,而是用公开材料指出哪一个 claim 应该缩小、拆分、提高证据要求、撤回,或在边界内被拒绝。
claim
case
failure
update
Valid Attacks
最欢迎的七类攻击。
Minimum Packet
一个有效反例至少包含这些字段。
字段说明为什么需要示例
claim_id你攻击的是哪一个公开主张。避免攻击错对象。WB-E claim / Proof-Carrying Action claim
counterexample_type边界、复现、替代解释、baseline、指标、credit、authority。决定修正路径。reproduction_gap
minimum_repro_case最小公开输入、命令、环境或状态。让别人能复核。commit + command + seed
expected_behavior按 claim 本该发生什么。定义失败标准。receipt should close
observed_behavior实际发生了什么。定位差异。receipt remains open
boundary_update建议缩小、拆分、提高证据要求、撤回或拒绝。把批评变成修正。scope should be narrowed
Invalid Attacks
这些不会进入证据流程。
为了保护读者、合作者和项目边界,以下内容不会被当成有效反例:
- 要求公开客户数据、私有执行系统、密钥、非公开日志或真实部署路径。
- 只表达“不信”“像 AI 写的”“感觉不靠谱”,但没有最小可复核对象。
- 攻击项目没有提出过的 claim。
- 把安全攻击、社会工程或平台破坏伪装成科学反例。
- 使用不可公开材料,导致第三方无法复核。
好的攻击不会毁掉一个系统。好的攻击会让边界变清楚,让证据变硬,让错误进入修复队列。