正文

阿里50亿参数ai画画模型火了！将图像拆分再自由重组，达摩院副院长率队打造...

QbitAl  QbitAl  2023-03-07  565

关键词：

明敏发自凹非寺
量子位 | 公众号 QbitAI

AI画画通用模型，新增一员大将！

由阿里达摩院副院长周靖人等人打造的可控扩散模型Composer，一经发布就小火了一把。

这个模型由50亿参数训练而来，和Stable Diffusion原理不同。

它更进一步把训练图像拆解成了多个元素，然后基于这些元素训练扩散模型，让它们能够灵活组合。

由此一来，模型的创造能力就比仅基于图像大很多。

如果有100张能拆分成8个元素的图像，那么就能生成一个数量为100的8次方的结果组合。

网友们看了纷纷表示，AI画画发展速度也太快了！

团队表示，模型的训练和推理代码都在路上了。

有限手段的无限使用

该框架的核心思想是组合性（compositionality），模型名字就叫做Composer。

观察到现下很多AI画画模型，在细节的可控性上还没有做到很好，比如准确改变颜色、形状等。

研究团队认为，想要实现图像的可控生成，不能依赖于对模型的调节，重点应该放在组合性上，这种方式可以将图像的创造力提升到指数级。

引用语言学大师诺姆·乔姆斯基的经典语录来解释模型，就是：

有限手段的无限使用。

具体来看，该模型就是将每个训练图像拆解成一系列基础元素，如蒙版图、草稿图、文字描述等，用它们来训练一个扩散模型。

然后让这些被拆分的元素，在推理阶段灵活组合，生成大量新的图像输出。

它可以支持多种形式作为输入。比如文字描述作为全局信息，深度图和草图作为局部引导，颜色直方图为低级细节等。

在保证生成图像可控的基础上，作为一个通用框架，该模型还能不用再训练就可以完成大量经典生成任务。

举例来看，图（a）中，最左边的是原图，后面4个是通过对Composer不同子集的表示进行调节而生成的新结果。

图（b）展示的是图像插值的结果。

图像重构的话是酱婶儿的，Composer能够简单地改变图像表示来重新配置图像，比如草稿图和分割图。

还有对图像的特定部分进行编辑。

比如给蛋糕派换口味、把珍珠耳环少女的脸换成梵高、让兔子长一张熊猫脸等。

比较经典的图像生成任务也能挑战，而且无需再训练。

团队表示，现有成果还存在一定局限性，比如在单一条件输入的情况下，生成效果不是很好。以及输入不同语义的图像和文本嵌入时，生成结果会降低对文本嵌入的权重。

而针对AI画画模型都需要面对的风险问题，团队表示为避免被滥用，他们会在公开模型前先创建一个过滤版本。

达摩院副院长带队

该研究由阿里及蚂蚁团队完成。

通讯作者为周靖人。

他现任阿里达摩院副院长、阿里云智能CTO，是IEEE Fellow。

2004年于哥伦比亚大学获得计算机博士学位，后加入微软担任研发合伙人。

2015年，周靖人加入阿里巴巴集团，先后负责过达摩院智能计算实验室、大数据智能计算平台、搜索推荐事业部等。

论文一作Huang Lianghua同样来自达摩院，研究方向为扩大模型规模和数据来表示学习和内容生成。

论文地址：
https://arxiv.org/abs/2302.09778

GitHub地址：
https://github.com/damo-vilab/composer

— 完 —

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”？最有竞争力和潜力的AIGC力量位于何方？

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集，期待有更多优秀的机构、产品、案例与技术能够被大众看到。

点这里👇关注我，记得标星哦～

ai大牛周明打造的轻量“孟子模型”开源！靠10亿参数冲上clue榜第三，可用于新闻分类文案生成...

明敏发自凹非寺量子位报道|公众号QbitAI只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型，现在开源了！其打造团队澜舟科技-创新工场最新宣布，基于孟子通用模型，他们将开源4个模型。分别可用于... 查看详情

ai人脸检测智能分析网关算法模型管理，支持自由组合算法

...禁区闯入），用户可以根据自己的需求创建算法模型、自由组合算法。例如：智慧工地模型可以选择人脸检测和安全帽检测等基础算法进行组合。创建完成后，模型列表会显示出用户的自定义模型，如图所示&#... 查看详情

全球最大ai巨量模型，参数2457亿炼丹16天专注中文，打造者绝对让你意外

晓查梦晨发自凹非寺量子位报道|公众号QbitAI一个比GPT-3还大的AI模型，如果把近5年中文互联网能爬取到的内容看了个遍，会怎么样？能学会日语。我们把日语词汇“气持”的中文含义告诉它，它能熟练运用“气持... 查看详情

又被ai抢饭碗？2457亿参数规模，全球最大中文人工智能巨量模型“源1.0”正式开源...

作者 | 伍杏玲出品| AI科技大本营（ID:rgznai100）输入：昔我往矣，杨柳依依。今我来思，雨雪霏霏。行道迟迟，载渴载饥。我心伤悲，莫知我哀！（以战争为题写一首诗）回复：我欲... 查看详情

我用python轻松玩转chatgpt的聊天机器人和ai画画(代码片段)

...ChatGPT机器人模型和AI画画模型了：聊天机器人API接口参数说明model：模查看详情

视觉版chatgpt来了！吸收ai画画全技能，msra全华人团队打造，微软16年老将领衔...

明敏发自凹非寺量子位|公众号QbitAIChatGPT会画画了！问它：能生成一张猫片给我吗？立刻连文带图全有了。还能根据新的文字指令调整图片：把猫换成狗。同时也看得懂图、有理解能力。比如发一张图给它，然... 查看详情

重磅！1750亿参数大模型首次公开所有代码，效果媲美gpt-3

...研究的大型语言模型访问权限，并表示这个具有1750亿参数查看详情

不再隐瞒了，训练千亿参数模型的法宝，告诉你们

摘要：盘古的训练以「昇腾AI处理器」为基座，同时借助了「CANN异构计算架构」，让硬件算力得以充分释放，大大缩短了训练时间！2021年4月，“华为云盘古大模型”一炮走红AI人工智能领域。如果你问ÿ... 查看详情

如何训练2457亿参数量的中文巨量模型“源1.0”

如何训练2457亿参数量的中文巨量模型“源1.0”浪潮人工智能研究院从2018年的BERT到2020年的GPT-3，NLP语言模型经历了爆发式的发展过程，其中BERT模型的参数量为3.4亿，而GPT-3的模型参数量达到了1750亿。2021年9月，浪... 查看详情

中英文最大ai模型世界纪录产生，大模型竞赛新阶段来了

...始寻求合作了。本周，英伟达与微软联合发布了5300亿参数的“威震天-图灵”（Megatron-Turing），成为迄今为止全球最大AI单体模型。仅仅在半个月前，国内的浪潮发布了2500亿参数的中文AI巨量模型“源查看详情

卷到自己？继imagen之后，推出200亿文本生成的图像模型惊呆网友！

...本到图像生成的新型机器学习技术使它们成为可能。这些模型可以通过简单的文本提示生成高质量的照片级真实感图像。在G 查看详情

专属大模型来了！还有ecs降价40%50款产品免费试用｜阿里云峰会亮点一览

4月11日，阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在云峰会上表示，阿里巴巴所有产品未来将接入“通义千问”大模型，进行全面改造。自2019年起，阿里即开始进行大模型研究，并在近期推出阶... 查看详情

基于单机最高能效270亿参数gpt模型的文本生成与理解(代码片段)

概述GPT模型能较好的处理文本生成领域的各种任务，比如文本补全，自由问答，完形填空，写作文，写摘要，写小说，写诗歌等等。最近火爆全网的人工智能产品ChatGPT也是以GPT文本生成模型为底座。虽... 查看详情

比openai更好！！谷歌发布20亿参数通用语音模型——usm

...使用人数最多的1000种语言。近日，谷歌正式发布20亿参数通用语音模型——USM，可支持100多种语言自动识别内容检测。谷歌将其描述为“最先进的通用语音模型”，拥有20亿个参数，经过了1200万小时的语音、280亿... 查看详情

ai科学语言大模型火了，数学生物计算机样样行，编代码写综述也不在话下

Pine发自凹非寺量子位|公众号QbitAIAI搜索引擎再度进化？！给这个AI一个主题，分分钟给你甩出一篇论文综述，而且还会自己提供论文引文。又或者输入一个科学类的名词，AI也能迅速生成这个名词专属的维基百... 查看详情

卷到自己？继imagen之后，推出200亿文本生成的图像模型惊呆网友！(代码片段)