时间: 2025-08-06 07:54:20 | 作者: 华体会app怎么样
”)正式推出并开源选用自回归道路的多模态一致预练习模型Skywork UniPic,在单一模型中深层次地交融图画了解、文本到图画生成、图画修改三大中心才能。该模型根据大规划高质量数据来进行端到端预练习,具有杰出的通用性与可迁移性。
据悉,Skywork UniPic在单一模型中深层次地交融图画了解、文本生成图画(T2I)与图画修改三大中心使命,构建了真实一致的多模态模型架构。
传统多模态一致模型多依靠VQ或VAE编码器来紧缩视觉内容,尽管具有必定作用,但也存在局限性。它们更偏重保存图画的视觉细节而非语义信息,这会在某些特定的程度上削弱模型的图画了解才能。
为此,Skywork UniPic团队学习Harmon架构规划,并在表征办法上做出要害调整。选用MAR编码器作为图画生成途径的视觉表征根底,一起引进SigLIP2作为图画了解途径的骨干。
此外,Skywork UniPic完结端到端优化流程,能够在必定程度上完结生成、了解、修改三大才能的协同练习和相互促进,打破传统办法中才能权衡的技能瓶颈。这一架构规划不只坚持了自回归模型的简练高效,更经过同享编码器完成了跨使命的深度协同,为多模态一致模型的实用化布置奠定了根底。
在寻求模型才能极限的一起,Skywork UniPic也坚持功率重要性的规划理念。Skywork UniPic以1.5B的紧凑参数规划,在无CoT(思想链)的情况下取得了SOTA(“当时最佳水平”)分数,迫临部分较大模型带CoT的0.88分;在DPG-Bench杂乱指令生图基准上到达85.5分的职业SOTA水平。