小米开源 OneVL：统一视觉 - 语言模型的多任务学习新范式

来源：OSChina 时间：2026-05-14 10:34:59

小米研究院近日发布了名为 OneVL 的新型视觉-语言模型架构，旨在解决多任务学习中的核心挑战：如何让单一模型同时处理图像识别、目标检测、视觉问答和图像分割等多种任务。现有的视觉-语言模型通常采用"专家混合"架构，即为每种任务训练专门的组件。这种方式虽然在某单一任务上效果出色，但随之而来的是高昂的推理成本和...

小米开源 OneVL：统一视觉 - 语言模型的多任务学习新范式

相关阅读

📌 相关专题