阿里50亿参数ai画画模型火了!将图像拆分再自由重组,达摩院副院长率队打造...

QbitAl QbitAl     2023-03-07     565

关键词:

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

AI画画通用模型,新增一员大将!

由阿里达摩院副院长周靖人等人打造的可控扩散模型Composer,一经发布就小火了一把。

这个模型由50亿参数训练而来,和Stable Diffusion原理不同。

更进一步把训练图像拆解成了多个元素,然后基于这些元素训练扩散模型,让它们能够灵活组合。

由此一来,模型的创造能力就比仅基于图像大很多。

如果有100张能拆分成8个元素的图像,那么就能生成一个数量为100的8次方的结果组合。

网友们看了纷纷表示,AI画画发展速度也太快了!

团队表示,模型的训练和推理代码都在路上了。

有限手段的无限使用

该框架的核心思想是组合性(compositionality),模型名字就叫做Composer

观察到现下很多AI画画模型,在细节的可控性上还没有做到很好,比如准确改变颜色、形状等。

研究团队认为,想要实现图像的可控生成,不能依赖于对模型的调节,重点应该放在组合性上,这种方式可以将图像的创造力提升到指数级。

引用语言学大师诺姆·乔姆斯基的经典语录来解释模型,就是:

有限手段的无限使用。

具体来看,该模型就是将每个训练图像拆解成一系列基础元素,如蒙版图、草稿图、文字描述等,用它们来训练一个扩散模型。

然后让这些被拆分的元素,在推理阶段灵活组合,生成大量新的图像输出。

它可以支持多种形式作为输入。比如文字描述作为全局信息,深度图和草图作为局部引导,颜色直方图为低级细节等。

在保证生成图像可控的基础上,作为一个通用框架,该模型还能不用再训练就可以完成大量经典生成任务。

举例来看,图(a)中,最左边的是原图,后面4个是通过对Composer不同子集的表示进行调节而生成的新结果。

图(b)展示的是图像插值的结果。

图像重构的话是酱婶儿的,Composer能够简单地改变图像表示来重新配置图像,比如草稿图和分割图。

还有对图像的特定部分进行编辑。

比如给蛋糕派换口味、把珍珠耳环少女的脸换成梵高、让兔子长一张熊猫脸等。

比较经典的图像生成任务也能挑战,而且无需再训练。


团队表示,现有成果还存在一定局限性,比如在单一条件输入的情况下,生成效果不是很好。以及输入不同语义的图像和文本嵌入时,生成结果会降低对文本嵌入的权重。

而针对AI画画模型都需要面对的风险问题,团队表示为避免被滥用,他们会在公开模型前先创建一个过滤版本。

达摩院副院长带队

该研究由阿里及蚂蚁团队完成。

通讯作者为周靖人

他现任阿里达摩院副院长、阿里云智能CTO,是IEEE Fellow。

2004年于哥伦比亚大学获得计算机博士学位,后加入微软担任研发合伙人。

2015年,周靖人加入阿里巴巴集团,先后负责过达摩院智能计算实验室、大数据智能计算平台、搜索推荐事业部等。

论文一作Huang Lianghua同样来自达摩院,研究方向为扩大模型规模和数据来表示学习和内容生成。

论文地址:
https://arxiv.org/abs/2302.09778

GitHub地址:
https://github.com/damo-vilab/composer

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。

点这里👇关注我,记得标星哦~

ai大牛周明打造的轻量“孟子模型”开源!靠10亿参数冲上clue榜第三,可用于新闻分类文案生成...

明敏发自凹非寺量子位报道|公众号QbitAI只用10亿参数就杀进中文自然语言理解CLUE榜单前三的孟子模型,现在开源了!其打造团队澜舟科技-创新工场最新宣布,基于孟子通用模型,他们将开源4个模型。分别可用于... 查看详情

ai人脸检测智能分析网关算法模型管理,支持自由组合算法

...禁区闯入),用户可以根据自己的需求创建算法模型、自由组合算法。例如:智慧工地模型可以选择人脸检测和安全帽检测等基础算法进行组合。创建完成后,模型列表会显示出用户的自定义模型,如图所示&#... 查看详情

全球最大ai巨量模型,参数2457亿炼丹16天专注中文,打造者绝对让你意外

晓查梦晨发自凹非寺量子位报道|公众号QbitAI一个比GPT-3还大的AI模型,如果把近5年中文互联网能爬取到的内容看了个遍,会怎么样?能学会日语。我们把日语词汇“气持”的中文含义告诉它,它能熟练运用“气持... 查看详情

又被ai抢饭碗?2457亿参数规模,全球最大中文人工智能巨量模型“源1.0”正式开源...

作者 | 伍杏玲 出品| AI科技大本营(ID:rgznai100)输入:昔我往矣,杨柳依依。今我来思,雨雪霏霏。行道迟迟,载渴载饥。我心伤悲,莫知我哀!(以战争为题写一首诗)回复:我欲... 查看详情

我用python轻松玩转chatgpt的聊天机器人和ai画画(代码片段)

...ChatGPT机器人模型和AI画画模型了:聊天机器人API接口参数说明model:模 查看详情

视觉版chatgpt来了!吸收ai画画全技能,msra全华人团队打造,微软16年老将领衔...

明敏发自凹非寺量子位|公众号QbitAIChatGPT会画画了!问它:能生成一张猫片给我吗?立刻连文带图全有了。还能根据新的文字指令调整图片:把猫换成狗。同时也看得懂图、有理解能力。比如发一张图给它,然... 查看详情

重磅!1750亿参数大模型首次公开所有代码,效果媲美gpt-3

...研究的大型语言模型访问权限,并表示这个具有1750亿参数 查看详情

不再隐瞒了,训练千亿参数模型的法宝,告诉你们

摘要:盘古的训练以「昇腾AI处理器」为基座,同时借助了「CANN异构计算架构」,让硬件算力得以充分释放,大大缩短了训练时间!2021年4月,“华为云盘古大模型”一炮走红AI人工智能领域。如果你问ÿ... 查看详情

如何训练2457亿参数量的中文巨量模型“源1.0”

如何训练2457亿参数量的中文巨量模型“源1.0”浪潮人工智能研究院从2018年的BERT到2020年的GPT-3,NLP语言模型经历了爆发式的发展过程,其中BERT模型的参数量为3.4亿,而GPT-3的模型参数量达到了1750亿。2021年9月,浪... 查看详情

中英文最大ai模型世界纪录产生,大模型竞赛新阶段来了

...始寻求合作了。本周,英伟达与微软联合发布了5300亿参数的“威震天-图灵”(Megatron-Turing),成为迄今为止全球最大AI单体模型。仅仅在半个月前,国内的浪潮发布了2500亿参数的中文AI巨量模型“源 查看详情

卷到自己?继imagen之后,推出200亿文本生成的图像模型惊呆网友!

...本到图像生成的新型机器学习技术使它们成为可能。这些模型可以通过简单的文本提示生成高质量的照片级真实感图像。在G 查看详情

专属大模型来了!还有ecs降价40%50款产品免费试用|阿里云峰会亮点一览

4月11日,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在云峰会上表示,阿里巴巴所有产品未来将接入“通义千问”大模型,进行全面改造。自2019年起,阿里即开始进行大模型研究,并在近期推出阶... 查看详情

基于单机最高能效270亿参数gpt模型的文本生成与理解(代码片段)

概述GPT模型能较好的处理文本生成领域的各种任务,比如文本补全,自由问答,完形填空,写作文,写摘要,写小说,写诗歌等等。最近火爆全网的人工智能产品ChatGPT也是以GPT文本生成模型为底座。虽... 查看详情

比openai更好!!谷歌发布20亿参数通用语音模型——usm

...使用人数最多的1000种语言。近日,谷歌正式发布20亿参数通用语音模型——USM,可支持100多种语言自动识别内容检测。谷歌将其描述为“最先进的通用语音模型”,拥有20亿个参数,经过了1200万小时的语音、280亿... 查看详情

ai科学语言大模型火了,数学生物计算机样样行,编代码写综述也不在话下

Pine发自凹非寺量子位|公众号QbitAIAI搜索引擎再度进化?!给这个AI一个主题,分分钟给你甩出一篇论文综述,而且还会自己提供论文引文。又或者输入一个科学类的名词,AI也能迅速生成这个名词专属的维基百... 查看详情

卷到自己?继imagen之后,推出200亿文本生成的图像模型惊呆网友!(代码片段)

...本到图像生成的新型机器学习技术使它们成为可能。这些模型可以通过简单的文本提示生成高质量的照片级真实感图像。在G 查看详情

放话挑战gpt-3!以色列推出参数多30亿词条多5倍的新语言模型|公测不用排队...

...可以免费“调教”。大多少呢?GPT-3模型拥有1750亿个参数,而他 查看详情

deepmind“反向”搭建transformer方法火了:由可解释程序设计ai,项目已开源

萧箫发自凹非寺量子位|公众号QbitAI先搭个模型,效果好就试着解释它,是我们常见的AI设计套路。但,有人已经受够了这样“莫名其妙”的流程——既然人类总是试图解释AI模型,那为什么不能反过来,直接用... 查看详情