商汤NEO开源:革新多模态模型,开启AI高效统一新时代

主页    AI更新快报    商汤NEO开源:革新多模态模型,开启AI高效统一新时代

 

 

商汤科技与南洋理工大学联合发布开源多模态模型架构NEO

近日,商汤科技与南洋理工大学S - Lab携手合作,联合发布并开源了全新的多模态模型架构NEO。这一举措在人工智能领域引起了广泛关注,该架构通过底层架构的创新,成功实现了视觉与语言的深层统一,在性能、效率和通用性方面均取得了全面性的突破。

NEO的显著优势

NEO最为显著的优势在于其极致的数据效率。在当前的多模态模型领域,数据量的需求往往是巨大的,但NEO却独树一帜。它仅需3.9亿图像文本示例,这仅仅相当于业界同等性能模型所需数据量的1/10,就能够开发出顶尖的视觉感知能力。而且,NEO无需依赖海量数据以及额外的视觉编码器,凭借其简洁的架构,在多项视觉理解任务中,能够追平Qwen2 - VL、InternVL3等顶级模块化旗舰模型。在MMMU、MMB、MMStar、SEED - I、POPE等多项公开权威评测中,NEO均斩获高分,其综合性能优于其他原生VLM,真正实现了原生架构“精度无损”。

业内主流多模态模型的弊端

目前,业内主流的多模态模型大多遵循“视觉编码器 + 投影器 + 语言模型”的模块化范式。这种基于大语言模型的扩展方式,虽然实现了图像输入的兼容,但本质上是以语言为中心的,图像与语言的融合仅仅停留在数据层面。这种“拼凑”式的设计存在明显的弊端,不仅学习效率低下,还限制了模型在复杂多模态场景下的处理能力,尤其是在涉及图像细节捕捉或复杂空间结构理解的任务中表现不佳。

NEO的创新突破

而NEO则从底层打破了这种“拼凑式”设计的桎梏。它通过在注意力机制、位置编码和语义映射三个关键维度进行底层创新,让模型天生就具备统一处理视觉与语言的能力。

  • 原生图块嵌入(Native Patch Embedding):它摒弃了离散的图像tokenizer,通过独创的Patch Embedding Layer(PEL)自底向上构建从像素到词元的连续映射,能更精细地捕捉图像细节,从根本上突破了主流模型的图像建模瓶颈。
  • 原生多头注意力(Native Multi - Head Attention):针对不同模态特点,在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存,极大提升了模型对空间结构关联的利用率,从而更好地支撑复杂的图文混合理解与推理。
2025/12/03 15:49
Browsing amount:0
Collection