ai大模型加持,生成式搜索来了!

QbitAl QbitAl     2022-12-16     768

关键词:

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

最近有两件事,让搜索引擎重回聚光灯下。

百度发布“文心百中”,用AI大模型技术驱动的产业级搜索系统。构建企业内部搜索引擎的人力成本减少90%以上,同时只需要极低数据。

几乎同一时间,OpenAI最新发布聊天机器人ChatGPT,网友发现用它来寻找问题的答案虽然有时会出错,但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了。

搜索引擎这个经典技术,就要迎来一轮变革了吗?

想当年,搜索引擎是PC互联网时代的流量入口,绝对的王者。

进入移动互联网时代后,虽然不再是最受关注的焦点,但搜索也仍旧是高频刚需,逐渐融入人们的日常生活。

当人们重新把目光看向搜索引擎,也会注意到它这些年并没有停止进化。

搜索变了

过去一提到搜索,肯定离不开关键词。前几届世界杯时,人们更习惯于搜“世界杯 直播地址”,关键词之间用空格隔开。

就好像把所有网页当成一个大文档,用类似Ctrl+F的方式去对关键词做匹配

随着手机、移动互联网的普及,人们的需求也在变化,现在更倾向于提出一个问题,并期待搜索引擎能直接给出回答

如搜索“世界杯直播在哪看?”,更口语化也更复杂,甚至一些时候就是语音转换出来的。

搜索引擎也在适应这种变化,给出的结果不再是单纯的页面排序。

针对一些问题,会给出对内容深入理解后的答案抽取

有时会给出更直观、更容易跟着操作的视频内容

甚至在理解需求的基础上出现配套的服务跳转

这些变化看起来并不复杂,背后却要有很多技术做支撑。

在这里要重点讲一下百度今年亮相的两项新技术,“知一”“千流”

先看跨模态大模型知一,AI技术在搜索场景落地的代表。

简单来说,知一大模型可以从全网形态各异的资源中持续学习,无论是文本、图片、视频还是结构化信息都可以融会贯通。

打破了资源形态的界限,就更容易理解用户的搜索需求。

从技术层面讲,知一使用了百度文心大模型技术。大规模预训练技术提升模型性能,蒸馏压缩率高达99%的模型小型化技术以降低成本,得以在搜索场景全面应用。

据了解,目前知一在百度搜索的各场景中每天要进行上万亿次的推理。如此巨大的使用规模又带来新的问题,如何把满足需求的结果高效呈现给用户。

这就要提到新一代索引技术千流,负责把不同维度的信息进行智能有序的组织。

千流与之前的索引技术相比,主打多领域、多维度表达的立体栅格化索引。

如何理解栅格化?

在过去,搜索引擎为提高效率会把内容按质量横向分层。先从高质量内容开始检索,满足需求就可以及时返回结果,还未满足再进入下一层。

如今,在千流中又把质量最高的一批内容按领域垂直分层。质量分层+内容命中结合,一横一纵把内容切分成栅格按需检索,大大减少每次检索的计算量。

百度工程师透露,这样节省下的计算量也没有闲着,而是对内容进行精耕细作,用不同的算法从多维度提高索引的质量。

还有一个额外好处,在不同栅格之间可以应用个性化算法。就好比“一鱼多吃”,不同的部分使用不同的烹饪方法。

知一和千流配合起来,整个系统还会根据模型最新学习到的知识,进行实时动态调整,确保最优检索效果。最大程度避免无效计算,最终把满足需求的结果高效呈现给用户。

这些新技术,在实际业务中是否起到了效果呢?

答案或许可以从数据中找。

反馈驱动创新

9月份举办的万象·百度移动生态大会,百度指出,过去一年,百度搜索规模逆势增长17%

最新的百度第三季度财报也显示,移动端搜索查询次数同比实现两位数的增长。

百度集团资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰指出,其中的关键是“反馈驱动创新”

一方面反馈来自智能搜索。百度搜索每天响应来自100多个国家、几十亿次的搜索请求。

另一方面则来自智能推荐。2022年第三季度百度App信息流内容分发量同比增长23%,其中的用户点赞、评论、分享也都是用户最直接的反馈。

用户的高频需求,驱动着AI技术变革。新技术又能激发新用户需求表达,两者构成“双轮驱动”,持续推动搜索进化。

比如虚拟人技术加持下,可以实现交互式对话,单纯的搜索之外又有了聊天、陪伴需求。

正如百度研究院在年初的十大科技趋势中所预测的,AIGC(AI Generated Content,人工智能生成内容)在今年大放异彩。

未来AIGC继续与搜索深度结合,还将带来“搜索即生成”甚至“搜索即创造”。

不会再有“抱歉,没有找到相关的网页,请检查您的输入是否正确”,而是用户点下搜索按钮的一瞬间,本不存在的内容由AI即时创造出来。

百度CEO李彦宏前段时间也说过:

随着技术的突破,AI作画、AI视频、甚至AI构建一个虚拟世界可能都会像手机拍照一样简单。

而一切技术的突破和创新,都离不开人才。

为了更好推动技术和算法创新、促进产学研交流、培养人才,百度举办了首届搜索技术创新挑战赛。

大赛提供30万元总奖金池、提供英伟达A100算力资源,更是有机会接触到百度海量搜索业务的脱敏数据。

本届大赛分为两个赛道:‍

搜索问答,旨在探索开放领域搜索场景。面对网页文档质量参差不齐、长短不一,问题答案分布零散、长度较长等问题,希望参赛者能进一步提升深度智能问答效果,给用户提供更好的搜索体验。

搜索模型推理优化,对于保障亿万用户流畅的搜索体验、控制算力成本开销至关重要。希望参赛者通过各种优化技术,挑战最优的模型推理性能。

大赛期间,百度还提供了丰富的相关课程和学习资料,搜索技术与GPU加速计算专家也将提供全程的技术辅导。

本次大赛对全社会开放,消息一出立即吸引了大量高校学生、企业团队或个人开发者,目前已有1500+队伍报名参加,成为搜索技术领域一次盛会。

大赛地址:
https://sti.baidu.com

—  —

点这里👇关注我,记得标星哦~

生成式ai(generativeai)将重新定义生产力

文章大纲人工智能模型的新范式“生成式AI模型(GenerativeModel)”GPT模型的演进历史生成式AI(GenerativeAI)将重新定义生产力编写代码金融行业信息安全芯片领域参考文献与学习路径人工智能模型的新范式“生成式AI模型(Generativ... 查看详情

大数据ai视觉chatgpt来了,微软发布,代码已开源

...ual-chatgpt:VisualChatGPTVisualChatGPT将ChatGPT和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。近年来,大型语言模型(LLM)取得了令人难以置信的进展,尤其是去年11月30日,OpenAI重磅推出的聊天对话模型ChatGPT... 查看详情

大数据ai视觉chatgpt来了,微软发布,代码已开源

...ual-chatgpt:VisualChatGPTVisualChatGPT将ChatGPT和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。近年来,大型语言模型(LLM)取得了令人难以置信的进展,尤其是去年11月30日,OpenAI重磅推出的聊天对话模型ChatGPT... 查看详情

生成式ai:百度“文心一言”对标chatgpt?什么技术趋势促使chatgpt火爆全网?

...规则?四、为何生成式AI迅速爆发和突破?4.1、大模型突破瓶颈4.2、多模态融合打破边界五、生成式AI技术趋势分析六、生成式AI无法产生创意的基本元素总结前言2023年3月27日,百度文心一言正式发布,李彦宏开场... 查看详情

中英文最大ai模型世界纪录产生,大模型竞赛新阶段来了

边策 发自凹非寺量子位报道|公众号QbitAI超大AI模型训练成本太高hold不住?连市值万亿的公司都开始寻求合作了。本周,英伟达与微软联合发布了5300亿参数的“威震天-图灵”(Megatron-Turing),成为迄今为止全... 查看详情

当大火的文图生成模型遇见知识图谱,ai画像趋近于真实世界

...多模态内容平台的繁荣。在海量多模态数据和深度学习大模型的加持下,AI生成内容(AIGeneratedContent,AIGC)呈现出爆发性增长趋势。其中,文图生成(Text-to-imageGeneration)任务是流行的跨模态 查看详情

生成式ai“暴走”,bat兵戎相见?

...了进攻生成式AI赛道的号角。百度开启对标ChatGPT的大语言模型“文心一言”产品的邀请测试;腾讯AILab推出3D游戏场景自动生成解决方案;阿里宣布将全力投入生成式AI大模型建设并提供算力支撑。其实往深了说,这些... 查看详情

对手来了!亚马逊生成式ai比gpt-3.5更好(代码片段)

...nceQA基准测试中,研究人员表明:亚马逊的新语言模型比GPT-3.5高出16个百分点(75.17%),甚至超过了许多人类。注:ScienceQA基准测试是一组带有注释答案的大型多模态科学问题集。它有超过21,000道多模态选... 查看详情

科技云报道:ai大模型背后,竟是惊人的碳排放

科技云报道原创。自从ChatGPT这样的大型语言模型在全球引起轰动以来,很少有人注意到,训练和运行大型语言模型正在产生惊人的碳排放量。虽然OpenAI和谷歌都没有说过他们各自产品的计算成本是多少,但据第三方... 查看详情

ai未来十年新范式,生成式人工智能的挑战与机遇

目录0写在前面1什么是生成式模型?2生成式模型的挑战3自主智能新架构4持续学习与表征解耦4.1学习范式4.2学习架构5生成式AI与元宇宙6智慧文档:赋能数字化转型7结语0写在前面2023年3月18日,由中国图象图形学学会&#x... 查看详情

如何加速大模型开发?技术方案拆解来了:昇思mindspore技术一览

...到23年初,与以往的技术突破不同的是,此次的大模型不仅被技术界关注,而且备受投资界、产业界和大众消费者的追捧,使它成为历史上最快月活过亿的现象级应用,继而引发全球科技巨头的AI竞赛。大模型... 查看详情

生成式人工智能(generativeai)入门指南

...本。NLP技术,如标记化和情感分析,有助于训练AI模型理解上下文并生成连贯的输出。强化学习在训练生成式AI模型 查看详情

cursor编程初体验,搭载gpt-4大模型,你的ai助手,自然语言编程来了(代码片段)

...天体验了下最新生产力工具Cursor,基于最新的GPT-4大模型,目前免费,国内可访问,不限次数,跨平台,你确定不来体验一把?官方的Slogan:BuildSoftware.Fast.Write,edit,andchataboutyourcodewithGPT-4Inpartnershipwit... 查看详情

吴恩达的2022年终盘点:生成式aivit大模型

...受欢迎;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。 以下是来自AndrewNg的问候。亲爱的朋友们:随着寒假的临近,我突然想到,我们不是... 查看详情

ai大模型的白垩纪

...了。在AI领域,这两年最忙的一项基础技术应该非大模型莫属。随着最近AI绘画、AI生成视频等能力不断刷新大众对AI技术边界的认知,站在AI创作家们背后的大模型的地位也跟着水涨船高。轰轰烈烈的“炼大模型”运动似... 查看详情

吴恩达的2022年终盘点:生成式aivit大模型

...受欢迎;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。 亲爱的朋友们:随着寒假的临近,我突然想到,我们不是在面对人工智能的冬天ÿ... 查看详情

大模型训练难于上青天?效率超群易用的“李白”模型库来了

来源|机器之心大模型多了去了,告诉我怎么加速?自2018年BERT诞生,到GPT-3、ViT等拥有数以亿计的参数规模的模型不断涌现,AI模型参数量的爆发式增长已不足为奇,让炼丹师无暇顾及甚至感到麻木。与此... 查看详情

pai-diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋

...海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AIGeneratedContent,AIGC)的应用呈现出爆发性增长趋势。其中,文图生成(Text-to-imageGeneration)任务是最流行的AIGC任务之一,旨在生成与给... 查看详情