时间: 2025-08-06 07:54:29 | 作者: 华体会app怎么样
正式推出并开源选用自回归道路的“多模态一致预练习模型Skywork UniPic”,在单一模型中深层次地交融图画了解、文本到图画生成、图画修改三大中心才能。该模型根据大规划高质量数据来进行端到端预练习,具有杰出的通用性与可迁移性。
介绍,GPT-4o的敏捷走红,标志着AI范畴多模态一致预练习模型的老练。Skywork UniPic连续了GPT-4o的自回归范式,在单一模型中深层次地交融图画了解、文本生成图画(T2I)与图画修改三大中心使命,构建了真实一致的多模态模型架构。
传统多模态一致模型多依靠VQ或VAE编码器来紧缩视觉内容,尽管具有必定作用,但也存在局限性,它们更偏重保存图画的视觉细节而非语义信息,这会在某些特定的程度上削弱模型的图画了解才能。
为此,Skywork UniPic团队学习Harmon架构规划,并在表征办法上做出要害调整:选用MAR编码器作为图画生成途径的视觉表征根底,一起引进SigLIP2作为图画了解途径的骨干。
Skywork-UniPic模型中心才能包括:图文了解、图画生成、图画修改。此外,Skywork-UniPic完结端到端优化流程,能够在必定程度上完结生成、了解、修改三大才能的协同练习和相互促进,打破传统办法中才能权衡的技能瓶颈。
这一架构规划不只坚持了自回归模型的简练高效,更经过同享编码器完成了跨使命的深度协同,为多模态一致模型的实用化布置奠定了坚实根底。用户只需输入提示词,Skywork-UniPic即能够像VLM相同了解图画、像T2I模型相同生成图片,还能够像美图东西相同,一键完成风格转绘/吉卜力化的修改功用。
公司表明,在寻求模型才能极限的一起,也坚持功率重要性的规划理念。Skywork UniPic以1.5B的紧凑参数规划,真实诠释了“小而美”的技能美学。
曩昔半年,现已开源了多个SOTA大模型,包括奖赏模型、推理、软件工程、多模态、空间智能等范畴。本次Skywork-UniPic正式参加“Skywork”开源大家庭,让AI真实成为每个人触手可及的构思同伴。