小米研究院近日发布了名为 OneVL 的新型视觉-语言模型架构,旨在解决多任务学习中的核心挑战:如何让单一模型同时处理图像识别、目标检测、视觉问答和图像分割等多种任务。 现有的视觉-语言模型通常采用"专家混合"架构,即为每种任务训练专门的组件。这种方式虽然在某单一任务上效果出色,但随之而来的是高昂的推理成本和...
小米研究院近日发布了名为 OneVL 的新型视觉-语言模型架构,旨在解决多任务学习中的核心挑战:如何让单一模型同时处理图像识别、目标检测、视觉问答和图像分割等多种任务。 现有的视觉-语言模型通常采用"专家混合"架构,即为每种任务训练专门的组件。这种方式虽然在某单一任务上效果出色,但随之而来的是高昂的推理成本和...