DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型


 

月 28 日消息,就在北京时间今日凌晨,DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B,其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

 

IT之家附地址:

 

GitHub:点此前往

 

HuggingFace:点此前往

 

 

 

 

 

 

官方对该模型的介绍大意如下:

 

Janus-Pro 是一种创新的自回归框架,实现多模态信息的统一理解与生成。与以往的方法不同,Janus-Pro 通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。

 

这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。

 

Janus 的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro 成为下一代统一多模态模型的有力竞争者。

 

摘要的大意如下:

 

Janus-Pro 是一个统一的多模态大语言模型(MLLM),通过将视觉编码过程从多模态理解和生成中解耦来实现更高效的处理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。

 

在多模态理解任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,Janus-Pro 使用一个来自特定来源的分词器,降采样率为 16。

Janus-Pro
是先前工作 Janus 的进阶版本。具体来说,Janus-Pro
整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro
在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。

 

 

 

据官方介绍,JanusFlow 引入了一种极简架构,它将自回归语言模型与校正流(一种最先进的生成模型方法)相集成。研究发现,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构调整。大量实验表明,JanusFlow 在各自领域内取得了与专用模型相当甚至更好的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。

 

 

 

 

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

所有跟帖: 

GPT-3是175B的参数量,功能更强劲的GPT-4没公布参数量 -victor1988- 给 victor1988 发送悄悄话 (0 bytes) () 01/28/2025 postreply 06:15:25

同等的功能参数越少说明架构越高明。 -监考老师- 给 监考老师 发送悄悄话 监考老师 的博客首页 (0 bytes) () 01/28/2025 postreply 08:26:35

请您先登陆,再发跟帖!