2022年度十大ai技术盘点:aigc风暴来袭,自动驾驶后会无期?

AI科技大本营 AI科技大本营     2023-01-02     602

关键词:

  “科学不能告诉我们应该做什么,只能告诉我们能做什么。”

——让-保罗·萨特《存在与虚无》

这一年,AI又有哪些前沿技术突破呢?通过汇总梳理2022年10大AI技术,AI科技大本营发现,这些突破主要集中在图像、视频和语音语义领域。从具体技术来看,虽然有像扩散模型等最新的模型范式,但GAN仍然占据着重要的地位。而卷积和神经网络,以及强化学习等深度学习算法,是被期待获得更多突破的领域。

然而,略微遗憾的是,前些年被寄予厚望的自动驾驶在这一年似乎没有显著进展,尽管Waymo和Cuise在凤凰城和旧金山开启了服务,但如何解决安全问题仍然是一大难题。对此,它们希望通过传统摄像技术附加3D点云同时实现物体和距离的双重感知保障,但是否有效还需验证。

整体上,当下的AI仍处于技术革新的验证阶段,离真正落地产业化看似还有一些距离。但大模型、多模态掀起的AIGC风暴,已经席卷了整个世界。

翻译 & 整理 | 杨阳

出品 | AI科技大本营


傅立叶卷积:实现在线图片修复

你是否有过这样的经历,当和朋友拍了一张非常棒的照片后,突然身后有不适合的场景,比如有人在你身后抢拍。不论是不合适的人还是有一个垃圾桶,如果你在自拍之前没有避开,那这张照片似乎就毁了。

然而,如果有AI来辅助,你的这张照片很可能重新焕发生机。一项通过使用傅立叶卷积的掩模绘画技术可以自动删除图像中不需要的人或物,而且可以直接在Intasgram上修改后发帖。只需要点击一下,就可以像专业的PS设计师一样随时改图。

“选中—删除”,效果堪比PS

论文地址:https://arxiv.org/pdf/2109.07161.pdf

基于GAN的面部编辑:遇见二十年后的自己

你想看看二十年后的自己长什么样吗?一项基于GAN的面部编辑技术,可以让你看到未来的自己。对于大部分图像设计师来说,进行面部“改良”并不是什么难事,但大多时候需要消耗很长的时间,少说也需要几个小时,多则数百上千小时。但如果你使用AI工具,这项工作很可能在几分钟之内就能完成。

除了可以预测未来容貌,或者让自己看起来更年轻,这项技术也可以添加各类表情,包括微笑。目前这项技术主要应用于图片,也可以用于视频,包括应用在电影行业中。

论文地址:https://arxiv.org/abs/2201.08361

神经网络渲染:拍照生成虚拟3D图像和视频

当你在玩游戏的时候,有没有想过各个场景中的物体是怎么做出来的?确实可能是插画师画的。但如果有一台相机,可以从不同角度拍摄几张照片,通过神经网络的渲染,就可以在虚拟空间中生成逼真的物体、人物,或者是场景的3D图像。

尽管目前这项技术还面临着诸如场景融合等方面的挑战,但从现实世界取材,生成虚拟3D世界的趋势已经势不可挡。

论文地址:https://arxiv.org/pdf/2201.02533.pdf

DALL·E2:文本生成图片火爆一整年

文本生成图像这一年的火爆无需赘言,掀起这一趋势的非DALL·E2莫属。在DALL·E生成图形的基础上,升级版的DALL·E2学会了图像修复的新技能。在一项对DALL·E2的测试中,它甚至可以理解场景中图像之间的相互关系,包括水可以反射影像,准确将不同方位的物体在水中实现位置精确的投影。

DALL·E2在水中反射火烈鸟

DALL·E2 扩散模型是一种从随机噪声开始学习并不断迭代,通过更改噪声以返回到图像的模型。相较GAN,通过扩散模型,文本生成图像得以更加快速地实现。

论文地址:https://cdn.openai.com/papers/dall-e-2.pdf

SpeechPainter:用AI进行语音和语法的修复

AI不仅可以修复图像,也可以修复语音。一款名为SpeechPainter的语音修复工具可以根据用户定义的修复目标进行音频的修复。具体来说,它不仅可以合成语音中的空白音轨,还可以纠正错误的语法表达和不标准的发音。

基于感知器IO的SpeechPainter模型

通过GAN的生成器和辨别器,一方面训练生成新的数据,输入音轨;判别器则对训练集中生成的样本进行真伪的判别。

论文地址:https://arxiv.org/pdf/2202.07273.pdf

ChatGPT:压轴出场,惊艳四方

前些天,AI的网络世界中充斥着ChatGPT。其实AI语音并不稀奇了,ChatGPT凭什么火爆网络?首先,是因为它的大模型属性,与它的前一代 GPT-3相比,ChatGPT理论上更擅长交谈;其次,“强化学习”是给ChatGPT赋予魔力的关键所在。最后,是算法的再训练。

基于以上特性,ChatGPT被寄予迈向对话式AI的第一步。不过,它确实有超越以往AI语音助手的更加强大的理解能力,甚至可以“自我”纠错。这让人产生错觉,怀疑它是否有意识,或者哪怕是高级智能,但实际上它还仅仅是算法而已。

官网博客地址:https://openai.com/blog/chatgpt/

语言翻译:如何将一个模型扩展到数百种语言?

像ChatGPT一样的语言模型确实很炫酷,但它们也有一个共同的问题——只适用于英语。而只要不是英语世界的人,就无法通过这些语言模型来做任何操作。然而,目前世界上已经查明的语言种类一共有5671种,如果每种语言都做一个模型显然是不现实的。

Meta AI的语言模型“不让任何语言掉队”可以通过一个模型翻译数百种不同的语言,目前已经可以翻译200种语言。如何仅通过少量的数据来提升低资源语言的性能?通过稀疏门控专家混合网络 (MoE)可以实现跨语言迁移和干扰之间的更为优化的权衡。

相关阅读地址:https://www.louisbouchard.ai/no-language-left-behind/

自动驾驶:结合激光雷达和摄像头进行3D物体检测

图像和语言太“闹腾”,终于轮到自动驾驶了。实际上,自动驾驶这两年的热度骤降,离成为人工智能的皇冠似乎越来越远,甚至有知名的从业者非常悲观,认为现有的技术不可能实现真正意义上的自动驾驶。

能否实现自动驾驶更加准确的视觉识别,决定了它的安全程度。特斯拉只使用摄像头来探寻外界,但大多数自动驾驶,比如Waymo,会同时使用摄像头和3D雷达传感器。这些雷达传感器的作用路径很容易理解,它们不像摄像头一样产生图像,而是通过点云。

和摄像头呈现图像作用机制不同,雷达传感器主要通过计算脉冲激光投射到物体上的传播时间来测算物体之间的距离。通过传统摄像头和雷达传感器的结合,同时显示物体信息和距离信息,可以让自动驾驶更加安全。

论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

人工智能多面手Gato,为什么说它很厉害?

Gato是Deepmind创建的多模态代理,它可以控制机械臂,代玩Atari游戏,标注图片标题,以及和人聊天,可以说是AI模型界的变形金刚。

相较于其他AI模型,Gato不仅精通某个领域,它还接受了604项具有不同模式、观察和动作规范的任务训练,使其成为完美的多面手。Gato的精进似乎预示着通用人工智能 (AGI) 的到来。

论文地址:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

“看到”声音:观察不可察觉的高频振动

你没有看错,这项AI技术就是要让你“看到”声音。卡耐基梅隆大学的博士后研究员发明了一种让人们看到声音的方法。通过一种新型的摄像系统和成像设备,能够让我们看到肉眼所看不到的声音。

该系统的工作原理是分析使用卷帘快门和全局快门拍摄的图像的斑点图案的差异。算法计算两个视频流中斑点模式的差异,并将这些差异转换为振动以重建声音。通过更好地观察到不可察觉的高频振动,为计算机视觉开辟了新的应用。

论文地址:https://www.louisbouchard.ai/cvpr-2022-best-paper/

参考链接:

1、https://github.com/louisfb01/best_AI_papers_2022

2、https://www.louisbouchard.ai/lama/

3、https://www.louisbouchard.ai/stitch-it-in-time/

4、https://www.louisbouchard.ai/neroic/

5、https://www.louisbouchard.ai/speech-inpainting-with-ai/

6、https://www.louisbouchard.ai/waymo-lidar/

7、https://www.louisbouchard.ai/deepmind-gato/

8、https://www.louisbouchard.ai/no-language-left-behind/

9、https://www.louisbouchard.ai/cvpr-2022-best-paper/

10、https://www.louisbouchard.ai/chatgpt/

2023,aigc能赚到钱吗?

...数字人也频频露脸。2022年12月,Science杂志发布了2022年度科学十大突破,果不其然,AIGC入选。火爆背后,AIGC 查看详情

年度十大前沿科技趋势:aigc市场规模将超万亿,量子计算落地临门一脚|附下载...

杨净发自凹非寺量子位|公众号QbitAI再变幻莫测的技术发展周期,如果以年为单位也能探寻到每一次的关键进程。那么在全新的幂集创新中,今年有哪些新技术新突破领衔?又有什么样的趋势值得关注?比如已在产... 查看详情

ai动漫作画强势来袭,漫画艺术将遭遇重创?

...,AIGC行业被迅速卷入舆论旋涡。  随着AI作画底层技术StableDiffusion的完全开源,AI作画工具更是很快在全球范围内异军突起, 查看详情

阿里灵杰:与开发者一起推动ai创新落地

...疑是贯穿2022年的热点。12月16日,Science杂志发布了2022年度科学十大突破,AIGC赫然在列。以文生图,对话机器人等AI创新应用的落地,引发一轮又一轮的全民狂欢热潮。AI技术蓬勃发展,如何才能更好的实现AI创... 查看详情

2022,谷歌抖音和百度涌向aigc

...浪潮。基于StableDiffusion开源模型,字节也推出2022抖音年度爆款「AI绘画」,统计显示有2758.3万人使用过这款特效。抖音和快手都看到了AIGC技术在图像应用上的巨大价值,快手对AIGC的布局也证实了这一点。快手在11月... 查看详情

dtt年度收官圆桌π,华为云8位技术专家的年末盘点

摘要:收下这份DTT年度收官圆桌π总结,在新的一年心想事成,技术上更上一层楼。本文分享自华为云社区《DTT年度收官圆桌π,华为云8位技术专家的年末盘点》,作者:华为云社区精选。在2022年的年末&#x... 查看详情

去年精准预言aigc爆发!今年百度又看好这十大科技趋势

萧箫发自凹非寺量子位|公众号QbitAI2023年,我们还会见证新的AI突破吗?过去一年里,我们围观了ChatGPT的崛起,看见国内外多模态大模型同台竞技,察觉到自动驾驶公司的商业化加速落地,也发现以AI制药... 查看详情

2016年开发者头条十大文章

2016年开发者头条十大获赞最多文章|年度盘点(一)2016年开发者头条十大收藏最多文章|年度盘点(二) 查看详情

精华总结|「跨越疫情之境,迈向新的征程」盘点一下2022年度我们开发团队对于云原生的技术体系的变革历程(代码片段)

云原生发展历程「2022年已过去,最开心的两件事」「盘点2022年的其他的重大的事件」「直奔主题-云原生的改革之路」【Kubernetes的版本升级】版本升级大纲升级版本升级版本的必要性更换可视化界面Rancher(摒弃选择࿰... 查看详情

年度盘点:2022年,云计算的需求与变化趋势

作者|孙琦(万博智云CTO及联合创始人,公众号“老孙正经胡说”作者)编辑|宋慧出品|CSDN云计算编者注:2023年已来,数字化转型仍然是IT的主旋律。不过,与以往一窝蜂、追求形式化的数字化不同,在... 查看详情

腾讯云开发者2022年度热文盘点

01十亿人都在用的健康码运维体系如何设计?随着疫情防控模式的迭代,健康码访问DAU逐渐趋于下跌,意味着健康码将逐步完成历史使命,见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观... 查看详情

腾讯云开发者2022年度热文盘点

01十亿人都在用的健康码运维体系如何设计?随着疫情防控模式的迭代,健康码访问DAU逐渐趋于下跌,意味着健康码将逐步完成历史使命,见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观... 查看详情

science年度十大科学突破出炉:韦伯望远镜高居榜首,aigcnasa主动撞击小行星紧随其后...

...子位|公众号QbitAI前脚韦伯望远镜运维科学家刚获得Nature年度十大人物;紧接着,Science也将韦伯望远镜评为年度最大科学突破!今天,Science重磅发布2022年度科学十大突破,并刊登在最新一期封面上。围观网友... 查看详情

精华总结|「跨越疫情之境,迈向新的征程」盘点一下2022年度我们开发团队对于云原生的技术体系的变革历程

世界上并没有完美的程序,但是我们并不因此而沮丧,因为写程序就是一个不断追求完美的过程。「新的挑战已开启,回顾2022年最开心的两件事」一转眼,2022年就这么悄无声息的过去了,对我而言,最高兴的就是新冠疫情已经... 查看详情

喜讯apachedolphinscheduler荣获“2020年度十大开源新锐项目”

...xff0c;11月19日,由InfoQ发起并组织的【2020中国技术力量年度榜单评选】结果正式揭晓。 2020年度十大开源新锐项目、2020年度十大开源杰出贡献人物、2020年度十大云原生创新技术方案以及2020年度十大云原生行业落地典范四大榜... 查看详情

年度盘点丨2022计讯物联企业文化活动精彩盘点

2022年,计讯物联聚焦企业文化软实力,以文化力引领企业发展力和核心竞争力,以塑造一流队伍为核心,不断找准发力点,深度策划系列企业文化活动,不断促进企业文化与公司业务的融合,持续增强全体计讯人的归属感和凝... 查看详情

重磅!2022年剑桥ai全景报告出炉,文本生成图像掀起新风暴!

...发展现状和未来预期进行了深入分析和说明。报告囊括的技术范畴包括 查看详情

智慧医疗2017年度盘点之前沿技术

...生活中不可或缺的一部分。  此前,OFweek人工智能网从年度产品模块对智慧医疗进行了盘点,后续还将从年度数据、资本事件、新入局者等几大板块入手进行梳理,敬请关注。  1、物联网技术  物联网 查看详情