刚从 Deepmind 离职的工程师 Lun Wang 发表关于大模型性能评估的文章:《你对 LLM 的评估体系会失效,而你甚至不会察觉》。 我们擅长评估已经存在的模型,却极不擅长评估即将构建的模型——尤其是当模型跨越到新的能力阶段时。大多数基准测试、安全评估和红队演练协议都隐含假设:下一代模型是当前模型的更强版本。但如果...