卷到自己?继imagen之后,推出200亿文本生成的图像模型惊呆网友!(代码片段)

CSDN资讯 CSDN资讯     2022-11-29     550

关键词:

整理 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

你是否见过破巢而出的小狗?或者是在飞艇里俯瞰蒸汽朋克城市?又或是两个机器人在电影院里度过一个浪漫夜晚呢?这些听起来可能有些不可思议,但一种名为文本到图像生成的新型机器学习技术使它们成为可能。

这些模型可以通过简单的文本提示生成高质量的照片级真实感图像。

在 Google 研究院科学家和工程师一直在探索使用各种 AI 技术进行文本到图像的生成。经过大量测试,最近宣布了两种新的文本到图像模型 - Imagen 和 Parti。两者都能够生成逼真的图像,但使用不同的方法。

文本到图像模型的工作原理

使用文本到图像模型,人们提供文本描述,模型生成与描述尽可能匹配的图像。像“一个苹果”或“一只坐在沙发上的猫”这样简单的描述,也可以是更复杂的细节,互动和描述性指标,比如“一个可爱的树懒拿着一个小宝箱。胸口发出明亮的金色光芒。

在过去几年中,ML 模型已经在具有相应文本描述的大型图像数据集上进行训练,从而产生了更高质量的图像和更广泛的描述。这引发了这一领域的重大突破,包括 Open AI 的 DALL-E 2。

谷歌亮出最新文本到图像生成模型

如今,文本到图像生成模式风靡一时,但谷歌公司最近密集的一系列新发布,却让大众有些出乎意料。5 月底谷歌刚刚推出 Imagen,它结合了 Transformer 语言模型和高保真扩散模型的强大功能,在文本到图像的合成中提供前所未有的逼真度和语言理解能力。与仅使用图像 - 文本数据进行模型训练的先前工作相比,Imagen 的关键突破在于“谷歌的研究者发现在纯文本语料库上预训练的大型 LM 的文本嵌入对文本到图像的合成显著有效。”Imagen 的文本到图像生成可谓天马行空,能生成多种奇幻却逼真的有趣图像。在 Imagen 发布之后,他们进行了新的研究,决定展示另一个模型构建来完成同样的任务。

这一最新模型被命名为Parti(Pathways Autoregressive Text-to-Image)。虽然 Imagen 和 DALL· E2 是一种扩散模型,但 Parti 遵循 DALL· E 的足迹作为自回归模型。无论其架构和培训方法如何,最终用途都是一样的,这些模型(包括 Parti)将根据用户的文本输入生成细致的图像。

Imagen 的图像生成具有与 Open AI 的DALL-E 2 相似的架构,但输入依据的是大型 AI 语言模型——由于具有更高的语言理解能力,因此可以从文本描述获得更好的图像生成结果。

新的 AI 模型 Parti 尝试使用一种更接近大型语言模型功能的替代架构,这些语言模型能根据之前的单词和句子或段落的上下文预测合适的新词。Parti 将这一原则应用于图像,并取得了成功。

Parti 表明,与大型语言模型一样,图像 AI 通过更全面的训练和更多的参数获得了明显更好的结果。它还可以将长而复杂的文本输入准确地翻译成图像,这表明它可以更好地理解语言和主题之间的关系。

再来看下 Parti 效果,袋熊在瀑布旁,背着书包,拄着拐杖眺望着远方:

一只熊猫戴着一顶巫师帽骑在马上:

Parti 详细参数

研究人员创建了四种不同规模的 Parti 模型,其中包括 3.5 亿、7.5 亿、30 亿和 200 亿的参数计数。这些模型是使用 Google Cloud TPU 进行训练的,这些 TPU 能够轻松支持创建这些巨大的模型。

像所有其他文本到图像生成器一样,Parti 以各种类似的方式处理存在的各种问题,例如不正确的对象计数、混合特征、不正确的关系定位或大小、不正确处理否定,列表可能会继续等。

例如:

Parti 生成的图像分辨率为 256 x 256 像素,可以放大到 1024 x 1024 像素。下图显示了四种经过不同级别训练的 Parti 模型在相同命令提示下生成图像的质量差异。具有 200 亿参数的最大模型生成了与长文本输入匹配的无错误图像。最大版本的 Parti 模型甚至可以拼写单词,而 DALL-E 2 只能生成图像。

谷歌的研究团队写道:“20B 模型特别适合于需要世界知识、特定视角或符号书写和表示的抽象任务。”

另外,Parti 还可以生成超越培训材料及其主题的出色的图像。研究人员认为,这意味着图像 AI 能够准确地再现世界知识,以精细的细节和交互组合产生许多主角和对象,并遵循特定的图像格式和风格。

生成图像背后风险也令人担忧 

尽管 Parti 已经有能力生成“以假乱真”的超逼真图片,但其实该系统存在的一些问题也不容忽视。 

谷歌研究团队对模型生成的图像可能包含对人的刻板印象也感到担忧,这也是 Imagen 和 DALL-E 2 正在努力解决的问题。此外,由于可能会产生逼真的人物图像,因此存在额外的深度伪造风险。研究团队目前没有公布模型、代码和其他数据。

谷歌也将推动结合两种模型的优点的新想法,并扩展到相关任务,例如添加通过文本交互式生成和编辑图像的功能。还将继续进行深入的比较和评估,以符合人工智能原则。研究者的目标是以安全、负责任的方式将基于这些模型的用户体验带给世界,从而激发创造力。

参考链接:

https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/

https://wandb.ai/telidavies/ml-news/reports/Google-s-Parti-The-Newest-Text-To-Image-Generation-Model--VmlldzoyMjExNjA2


 

— 推荐阅读 —

☞字节跳动正大量招聘芯片工程师或准备自研芯片;Google放缓招聘;Android 13 Beta 4发布|极客头条
☞一个补丁迭代了16个版本后被撤,我的 Linux内核之旅!
☞库克不愿量产、每年投 10 亿,已耗时 8 年的苹果汽车何时能面世?

文本生成图像?google推出imagen新系统(代码片段)

...继DALLE-2之后,Google推出一款全新的文本-图像生成器Imagen,它可以满足任何人的奇思妙想,把复杂的文本转化解释成图片形式,使人更加直观理解文字。其主要利用了机器学习和人工智能技术,从庞大的照片数... 查看详情

ai教程之谷歌的新imagen视频从文本生成视频

谷歌发布了ImagenVideo,这是一个可以根据文本提示生成视频的AI系统。这看起来像是Google对Meta(Facebook2.0)最近宣布的Make-A-Video的回应。这是初步结果的样子。ImagenVideo在1400万个视频-文本对和6000万个图像-文本对以及公开可用的LAION-... 查看详情

基于单机最高能效270亿参数gpt模型的文本生成与理解(代码片段)

...应用领域的效果很好,但是训练成本非常高。以OpenAI推出的1750亿 查看详情

人工智能ai想要搭建“真本地”的永远免费-真正属于自己的chatgpt吗?国产开源版chatglm:保姆级上手教程!

清华智谱 AI开源了 GLM 系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。这是继此前开源 GLM-130B千亿基座模型之后,智谱 AI 再次推出大模型方向的研究成果。与此... 查看详情

继欧洲之后,工信部推出强硬新规,苹果如不遵从或被逐出中国市场

近日工信部发文要求所有手机企业都要支持Type-c接口,不然将不予准入,在当下诸多安卓手机都已支持Type-c接口的情况下,此举无疑就是针对苹果,苹果是当下唯一坚持自研接口Lightning的手机企业。Type-c接口已成... 查看详情

serverless开源架构方案

...的计算资源。继AWSLambda之后,很多公有云提供商都推出了自己的Serverless支持。2016年Google、MicrosoftAzure相继推出自己的CloudFunction服务,2017年国内公有云提供商阿里云和腾讯 查看详情

人工智能里程碑chatgpt

...热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己极具创意的与ChatGPT交流的成果。ChatGPT在大量网友的疯狂测试中表现出各种惊人的能力,如流畅对答、写代码、写剧本、纠错等,甚至让记者编辑、程序员等从业者都... 查看详情

自己搭一个文本描述生成图片的系统

...生成一些UI素材图片岂不是美滋滋。。那有没有开源的能自己搭一个简单的我们只需要描述就生成图片的工具呢?答案是肯定的。二、稳定扩散模型    稳定扩散模型在AI图像生成中的应用是比较新颖的一种方法。... 查看详情

用人工智能学习,凡亿推出pcb问题解答智能搜索机器人:pcb助手

...到很多大大小小的问题,遗憾的是身边没有一个能及时给自己解答问题的高手指点,通过论坛、群等方式询问可能半天也得不到解答,就算有人回答了,自己可能也会怀疑是不是这样,这是不是最好的答案?通过百度,知乎等大... 查看详情

继cdh收费之后,这家公司率先推出了免费版大数据套件服务!

背景在大数据业务系统中,所有技术栈生态均是围绕着存储进行扩展的,目前开源的主流存储技术栈主要包含如下3种类型:·HDFS:Hadoop系列套件,包含Hive、HBase、Phoenix等;·ElasticSearch:包含Logstash、Ela... 查看详情

微软英伟达联手推出语言模型mt-nlp,5300亿参数,现存最大!

...品| AI科技大本营(ID:rgznai100)微软和英伟达联手推出最大、最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG)。微软和英伟达宣布,他们联合推出迄今为止最大和最强的人工智能驱动的语言模型࿱... 查看详情

青云qingcloud宣布完成c轮融资,金额1亿美元

...年完成金额为200万美元的A轮融资,投资方为蓝驰创投;之后于2013年7月推出青云QingCloud云计算平台,并于2013年完成金额为2000万美元的B轮融资,由光速安振中国领投,蓝 查看详情

快让想象力跟上ai的发展!metaai推出文本生成视频模型#make-a-video

...-Video#未来的编剧就是导演?真的看到任何人都能落地自己想象力的时代来临了小杜Make-A-Video可以让我们仅用几句话或几行文本生成异想天开、独一无二的视频。促进想象力变为现实的AI工具包发展得越来越多样了~Make-A-V... 查看详情

电话号码分身(代码片段)

题目描述继MIUI8推出手机分身功能之后,MIUI9计划推出一个电话号码分身的功能:首先将电话号码中的每个数字加上8取个位,然后使用对应的大写字母代替("ZERO","ONE","TWO","THREE","FOUR","FIVE","SIX","SEVEN","EIGHT","NINE"),然后随机打乱... 查看详情

电话号码分身(代码片段)

题目描述继MIUI8推出手机分身功能之后,MIUI9计划推出一个电话号码分身的功能:首先将电话号码中的每个数字加上8取个位,然后使用对应的大写字母代替("ZERO","ONE","TWO","THREE","FOUR","FIVE","SIX","SEVEN","EIGHT","NINE"),然后随机打乱... 查看详情

捐赠200亿美元,比尔·盖茨势要退出世界富豪榜!(代码片段)

...微软为世界科技发展带来巨大变革,也是因为其退休之后, 查看详情

华为鸿蒙突破1.5亿用户后,再迎来重大利好

...。目前仅有华为手机自家采用鸿蒙系统,不过依靠它自己的努力,从今年6月初推送鸿蒙系统以来,4个月就取得了1.5亿用户,成为全球市场发展最快的手机操作系统。不过华为对鸿 查看详情

serverless开源架构方案——knative

...的计算资源。继AWSLambda之后,很多公有云提供商都推出了自己的Serverless支持。2016年Google、MicrosoftAzure相继推出自己的CloudFunction服务,2017年国内公有云提供商阿里云和腾讯云也分别推出了各自的Serverless产品。整体来说,Serverless... 查看详情