最近,加州大学伯克利分校的研究团队发布并开源了首个全球模型,名为LWM(LargeWorldModel)系列。该模型采用了丰富的视频和书籍数据集,并运用RingAttention技术,实现了对长序列的可扩展训练,从而将模型的上下文长度扩展到了惊人的1M token。
在各项实验中,LWM系列模型展现出了卓越的多模态性能,尤其在文本图像生成、文本视频生成及基于图像的对话任务中表现突出。
值得一提的是,研究团队在比较中发现,LWM系列模型在多模态能力上超越了当前的商业模型GPT-4V和Gemini Pro,特别是在处理超长视频理解方面显示出了其独特的优势。更为激动人心的是,作为一款基于Llama27B的开源模型,LWM在开源社区中受到了热烈追捧。在短短不到两周的时间内,该模型在GitHub上收获了超过6.2k的star,足见其受欢迎程度。
在模型的训练过程中,研究团队采用了两阶段的训练方法。首先是上下文扩展阶段,利用Books3数据集将上下文长度从32K提升至1M。其次是视觉语言培训阶段,通过联合训练长视频和语言序列,进一步提升模型在多模态任务中的性能。此外,研究团队还对不同长度的文本和视频数据进行了精细化的逐步训练,并在模型设计和训练过程中进行了一系列的调整和优化。
这一开源的全球模型不仅展示了出色的多模态处理能力,还为相关领域的研究和开发提供了宝贵的参考。其卓越的性能和开源的特性,已经吸引了大量开发者的关注和参与,有望为人工智能领域的进步和创新注入新的活力。
相关论文已发布在:论文地址:https://arxiv.org/pdf/2402.08268.pdf
项目源代码及更多详情可访问:项目入口:https://github.com/LargeWorldModel/LWM
暂无评论...