你对 LLM 的评估体系会失效，而你甚至不会察觉

来源：OSChina 时间：2026-05-18 18:27:07

刚从 Deepmind 离职的工程师 Lun Wang 发表关于大模型性能评估的文章：《你对 LLM 的评估体系会失效，而你甚至不会察觉》。我们擅长评估已经存在的模型，却极不擅长评估即将构建的模型——尤其是当模型跨越到新的能力阶段时。大多数基准测试、安全评估和红队演练协议都隐含假设：下一代模型是当前模型的更强版本。但如果...

你对 LLM 的评估体系会失效，而你甚至不会察觉

相关阅读

📌 相关专题