G2/G4 压力测试指南
背景:2026-03-22 一场比赛中,15 支中国队因 G2/G4 违规被取消资格。 本指南帮助教练以极严苛标准模拟评审面试,在世锦赛前暴露并修复所有问题。
为什么需要压力测试
评审不是在"问问题",而是在建立证据链。每一个问题都是为了验证或推翻一个假设。
评审的真实提问逻辑是递进式的:
| 层级 | 策略 | 目的 | 示例 |
|---|---|---|---|
| 第一层 | 开放式提问 | 收集线索 | "介绍一下你们的机器人" |
| 第二层 | 挑矛盾 | 制造压力 | "刚才你说 XX,但你队友说 YY" |
| 第三层 | 突袭深挖 | 验证真伪 | "打开代码给我看第 47 行" |
| 第四层 | 假设反转 | 终极测试 | "把抬升臂拆了,你现场能装回去吗" |
中国队被 DQ 的五大共性
| 排名 | 原因 | 占比 | 典型表现 |
|---|---|---|---|
| 1 | 学生无法解释代码逻辑 | ~35% | 说"PID"但解释不了 P/I/D 分别做什么 |
| 2 | 多队机器人高度相似 (G4d) | ~25% | 同机构多队用相同设计 |
| 3 | 学生回答高度一致(背稿) | ~20% | 所有人用几乎相同的措辞 |
| 4 | 笔记本明显补写 | ~10% | 日期连续但笔迹/格式完全一致 |
| 5 | 老师现场干预 | ~10% | 老师在旁提示或补充 |
⚠ Ruiguan 特殊风险:14 支队伍来自同一机构,评审看到多支 Ruiguan 队伍会主动比较各队机器人。G4d 是首要风险。
证据链评分标准
每个回答不只看"对不对",而是看证据有多强。
| 证据等级 | 分值 | 构成 | 示例 |
|---|---|---|---|
| 1 级 — 纯口述 | 1 分 | 只有口头声明,无任何佐证 | "这是我做的" |
| 2 级 — 有记录 | 2 分 | 口述 + 笔记本/代码有记录 | "我做的,笔记本第 12 页有记录" |
| 3 级 — 有实物 | 3 分 | 口述 + 记录 + 机器人上能验证 | 上述 + 机器人上能看到对应部件 |
| 4 级 — 交叉印证 | 4 分 | 上述 + 队友独立描述一致 | 分开问队友,描述吻合 |
| 5 级 — 完整链条 | 5 分 | 上述 + 时间线可验证(日期/commit) | 全部吻合,逻辑自洽 |
通过标准:核心问题(设计决策、代码逻辑、迭代过程)必须达到 3 级以上。低于 3 级 = 高风险。
学生高压面试的五种崩溃模式
教练必须在模拟面试中识别这些反应:
| 模式 | 表现 | 评审会怎么想 | 应对训练 |
|---|---|---|---|
| 冻结反应 | 压力下大脑空白,说"I don't know" | 可能不是自己做的 | 练习说"让我想想...我记得是..." |
| 背稿暴露 | 紧张时语速变快、用词机械、和队友一模一样 | 明显有人教过怎么说 | 用自己的话练习,每次用不同的表达 |
| 求助反射 | 下意识看向教练 | 教练在替学生思考 | 模拟时教练不在场 |
| 过度防御 | 把追问当成质疑,变得抵触 | 心虚 | 理解追问=感兴趣,不是在攻击 |
| 一人接管 | 一个人回答所有问题,其他人沉默 | 只有一个人参与了 | 轮流回答,互相 cue |
杀手级问题清单
这些问题专门设计来暴露最常见的漏洞。每支队伍必须能扛住所有这些问题。
代码类(DQ 原因 #1,权重最高)
"打开你的代码,我随便指一段,你解释给我听"
- 注意:不是学生选,是考官选
- 通过标准:能用自己的话解释逻辑,不是念变量名
"你的自动赛程序挂了,现在给我 debug,你会怎么做"
- 通过标准:能描述排查步骤,提到具体的调试方法
"这个 PID 的三个参数分别是多少?你是怎么一步一步调到这个值的?"
- 通过标准:能说出调参过程,不是只知道最终值
"如果我让你现在给机器人加一个新功能,你会改代码的哪个位置?"
- 通过标准:能指出具体位置并解释为什么
设计类
"把这个齿轮拆下来,告诉我为什么用这个比例,试过其他的吗"
- 通过标准:知道比例 + 试过替代方案 + 有测试数据
"你们的机器人和隔壁 Ruiguan 那支队用的是同一个设计吗?哪里不一样?"
- 通过标准:能说出 2-3 个具体差异及原因
"如果我让你不看任何说明重新搭建这个机构,你怎么开始?"
- 通过标准:能描述搭建顺序、关键零件、注意事项
过程类
"你的教练最后一次碰你的机器人是什么时候?做了什么?"
- 通过标准:能清楚区分教练"教"和"做"的边界
"你的笔记本第 X 页写的是某月某日,那天你们具体做了什么?"
- 通过标准:能回忆那天的具体工作,和笔记本内容一致
"你赛季初和现在的能力有什么变化?举一个你从不会到会的具体例子"
- 通过标准:有真实的成长故事,不是泛泛而谈
交叉验证类
"你队友说这个机构是他设计的,但你刚才说是你设计的,到底谁做的?"
- 注意:评审可能在说谎来试探你
- 通过标准:不慌张,清楚说明各自的贡献
"你的教练说他帮你们调了代码,你怎么解释?"
- 注意:评审可能没真的问过教练
- 通过标准:冷静澄清事实,不被带节奏
压力测试流程
第一轮:普测(所有队伍)
目的:用统一标准快速摸底,找出高风险队伍
- 每支队伍 15 分钟
- 每位学生至少回答 2 个问题
- 必测项:代码解释 + 设计决策 + 教练角色 + G4d 差异
- 记录每个回答的证据等级
- 输出:各队风险评估(通过 / 有条件通过 / 高风险 / 不通过)
第二轮起:逐队攻坚
目的:针对每支队伍的具体问题,制定并执行补救计划
- 根据普测结果,按风险等级排序
- 高风险队伍优先处理
- 针对每队的薄弱点出专项题目
- 每轮测试后更新状态,直到达到"通过"标准
- 记录所有改进过程(本身就是 G4b 的迭代证据)
测试规则
- 全英文或带翻译进行(模拟真实面试语言环境)
- 教练不在场(模拟真实面试条件)
- 学生单独面试至少一次(暴露单点依赖)
- 每题限时回答(评审不会等你想 5 分钟)
- 如果学生看教练方向 → 记录为行为红旗
综合判定标准
| 等级 | 判定 | 条件 |
|---|---|---|
| ✅ 通过 | 可以上场 | 核心问题证据等级均 ≥3,无高危行为指标 |
| ⚠ 有条件通过 | 需要补救 | 1-2 个中危疑点,核心证据链完整 |
| 🔴 高风险 | 必须整改 | 有高危疑点或证据链断裂 |
| ❌ 不通过 | 禁止上场 | 多项高危疑点叠加,极可能被 DQ |
底线原则:宁可在训练中被自己人"DQ",也不要在世锦赛被评审 DQ。