华中科技大学推出开源多模态大模型：Monkey

Monkey，一款由华中科技大学与金山软件联手打造的高性能多模态大模型，以其独特的输入分辨率提升和多级描述生成方法，成功应对了复杂场景和视觉细节处理的难题。这款模型可直接基于现有的视觉编辑器进行构建，无需进行从零开始的预训练，从而显著提高了研发效率。

Monkey的多级描述生成方式为其提供了丰富的上下文信息，有助于模型学习和理解场景与对象之间的关联。通过在16个不同的数据集上进行广泛的测试，Monkey在图像字幕、视觉问答、文档分类等多模态任务中均表现出色，充分展示了其在处理细微视觉信息和复杂场景理解方面的卓越能力，预示着其广阔的应用前景。

此外，Monkey的训练数据集的质量对于其性能的提升起到了至关重要的作用。研究人员精心生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，再将不同模型的输出进行融合，从而显著增强了大模型对图像细节的理解能力。

在模型的选择上，Monkey采用了开源模型Qwen-VL作为语言解码器，以及拥有20亿参数的ViT-BigHuge作为视觉编码器，从而避免了不必要的重复预训练和资源浪费。为了进一步增强Monkey的识别能力、输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，研究人员精心设计了包括多级描述生成、高分辨率编码和多任务训练在内的三个训练阶段。

经过在16个不同数据集上的全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务，Monkey在多个数据集上都显示出明显的优势。特别是在图像字幕任务上，Monkey在TextCaps数据集上的出色表现，充分证明了其对图片中文本元素的多模态理解能力。

研究人员表示，Monkey在医学影像、卫星图像等领域具有广泛的应用前景，并将持续优化Monkey模型的感知、联想、推理和泛化能力。总的来说，Monkey以其卓越的性能和广泛的应用前景，展示了多模态大模型的巨大潜力。未来，我们期待看到Monkey在各领域的应用价值得到进一步提升。