G2/G4 压力测试指南

背景：2026-03-22 一场比赛中，15 支中国队因 G2/G4 违规被取消资格。本指南帮助教练以极严苛标准模拟评审面试，在世锦赛前暴露并修复所有问题。

为什么需要压力测试

评审不是在"问问题"，而是在建立证据链。每一个问题都是为了验证或推翻一个假设。

评审的真实提问逻辑是递进式的：

层级	策略	目的	示例
第一层	开放式提问	收集线索	"介绍一下你们的机器人"
第二层	挑矛盾	制造压力	"刚才你说 XX，但你队友说 YY"
第三层	突袭深挖	验证真伪	"打开代码给我看第 47 行"
第四层	假设反转	终极测试	"把抬升臂拆了，你现场能装回去吗"

中国队被 DQ 的五大共性

排名	原因	占比	典型表现
1	学生无法解释代码逻辑	~35%	说"PID"但解释不了 P/I/D 分别做什么
2	多队机器人高度相似 (G4d)	~25%	同机构多队用相同设计
3	学生回答高度一致（背稿）	~20%	所有人用几乎相同的措辞
4	笔记本明显补写	~10%	日期连续但笔迹/格式完全一致
5	老师现场干预	~10%	老师在旁提示或补充

⚠ Ruiguan 特殊风险：14 支队伍来自同一机构，评审看到多支 Ruiguan 队伍会主动比较各队机器人。G4d 是首要风险。

证据链评分标准

每个回答不只看"对不对"，而是看证据有多强。

证据等级	分值	构成	示例
1 级 — 纯口述	1 分	只有口头声明，无任何佐证	"这是我做的"
2 级 — 有记录	2 分	口述 + 笔记本/代码有记录	"我做的，笔记本第 12 页有记录"
3 级 — 有实物	3 分	口述 + 记录 + 机器人上能验证	上述 + 机器人上能看到对应部件
4 级 — 交叉印证	4 分	上述 + 队友独立描述一致	分开问队友，描述吻合
5 级 — 完整链条	5 分	上述 + 时间线可验证（日期/commit）	全部吻合，逻辑自洽

通过标准：核心问题（设计决策、代码逻辑、迭代过程）必须达到 3 级以上。低于 3 级 = 高风险。

学生高压面试的五种崩溃模式

教练必须在模拟面试中识别这些反应：

模式	表现	评审会怎么想	应对训练
冻结反应	压力下大脑空白，说"I don't know"	可能不是自己做的	练习说"让我想想...我记得是..."
背稿暴露	紧张时语速变快、用词机械、和队友一模一样	明显有人教过怎么说	用自己的话练习，每次用不同的表达
求助反射	下意识看向教练	教练在替学生思考	模拟时教练不在场
过度防御	把追问当成质疑，变得抵触	心虚	理解追问=感兴趣，不是在攻击
一人接管	一个人回答所有问题，其他人沉默	只有一个人参与了	轮流回答，互相 cue

杀手级问题清单

这些问题专门设计来暴露最常见的漏洞。每支队伍必须能扛住所有这些问题。

代码类（DQ 原因 #1，权重最高）

"打开你的代码，我随便指一段，你解释给我听"
- 注意：不是学生选，是考官选
- 通过标准：能用自己的话解释逻辑，不是念变量名
"你的自动赛程序挂了，现在给我 debug，你会怎么做"
- 通过标准：能描述排查步骤，提到具体的调试方法
"这个 PID 的三个参数分别是多少？你是怎么一步一步调到这个值的？"
- 通过标准：能说出调参过程，不是只知道最终值
"如果我让你现在给机器人加一个新功能，你会改代码的哪个位置？"
- 通过标准：能指出具体位置并解释为什么

设计类

"把这个齿轮拆下来，告诉我为什么用这个比例，试过其他的吗"
- 通过标准：知道比例 + 试过替代方案 + 有测试数据
"你们的机器人和隔壁 Ruiguan 那支队用的是同一个设计吗？哪里不一样？"
- 通过标准：能说出 2-3 个具体差异及原因
"如果我让你不看任何说明重新搭建这个机构，你怎么开始？"
- 通过标准：能描述搭建顺序、关键零件、注意事项

过程类

"你的教练最后一次碰你的机器人是什么时候？做了什么？"
- 通过标准：能清楚区分教练"教"和"做"的边界
"你的笔记本第 X 页写的是某月某日，那天你们具体做了什么？"
- 通过标准：能回忆那天的具体工作，和笔记本内容一致
"你赛季初和现在的能力有什么变化？举一个你从不会到会的具体例子"
- 通过标准：有真实的成长故事，不是泛泛而谈

交叉验证类

"你队友说这个机构是他设计的，但你刚才说是你设计的，到底谁做的？"
- 注意：评审可能在说谎来试探你
- 通过标准：不慌张，清楚说明各自的贡献
"你的教练说他帮你们调了代码，你怎么解释？"
- 注意：评审可能没真的问过教练
- 通过标准：冷静澄清事实，不被带节奏

压力测试流程

第一轮：普测（所有队伍）

目的：用统一标准快速摸底，找出高风险队伍

每支队伍 15 分钟
每位学生至少回答 2 个问题
必测项：代码解释 + 设计决策 + 教练角色 + G4d 差异
记录每个回答的证据等级
输出：各队风险评估（通过 / 有条件通过 / 高风险 / 不通过）

第二轮起：逐队攻坚

目的：针对每支队伍的具体问题，制定并执行补救计划

根据普测结果，按风险等级排序
高风险队伍优先处理
针对每队的薄弱点出专项题目
每轮测试后更新状态，直到达到"通过"标准
记录所有改进过程（本身就是 G4b 的迭代证据）

测试规则

全英文或带翻译进行（模拟真实面试语言环境）
教练不在场（模拟真实面试条件）
学生单独面试至少一次（暴露单点依赖）
每题限时回答（评审不会等你想 5 分钟）
如果学生看教练方向 → 记录为行为红旗

综合判定标准

等级	判定	条件
✅ 通过	可以上场	核心问题证据等级均 ≥3，无高危行为指标
⚠ 有条件通过	需要补救	1-2 个中危疑点，核心证据链完整
🔴 高风险	必须整改	有高危疑点或证据链断裂
❌ 不通过	禁止上场	多项高危疑点叠加，极可能被 DQ

底线原则：宁可在训练中被自己人"DQ"，也不要在世锦赛被评审 DQ。