中国开源深度学习框架第六年:百度飞桨国内综合份额第一,全球开发者超400万...

QbitAl QbitAl     2023-03-09     799

关键词:

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

前不久,中兴结束5年合规检查期的消息,在科技圈引发不小波澜。

在这样一个特殊的时间节点下,“缺芯少魂”方面的自主自强问题,再次成为全社会关注的焦点。

芯片,代表着底层算力;魂则是指系统

如今,AI被视为高精尖技术竞赛角逐的战场,其最核心的系统便是深度学习框架

国际两大主流深度学习框架TensorFlow、PyTorch之外,中国的开源框架,发展怎么样了?

具体都有哪些玩家入场?其背后技术实力如何?是否能够自主自立、不会重蹈“缺芯”覆辙?

今天,我们就来试着找寻这些问题的答案。

国产开源框架情况

在问题的最开始,我们来盘一盘如今市面上有哪些主流国产开源框架。

百度飞桨(PaddlePaddle),深度学习开源框架的先头兵,在2016年就已率先对外发布。

而后在2020年,国内开源框架迎来了第一波集中爆发。

独角兽旷视拿出工业级深度学习框架天元(MegEngine),一流科技OneFlow、华为(MindSpore)也在同年登场。

学界方面,清华大学开源了支持即时编译的深度学习框架计图(Jittor)。

显然,过去几年中,“开源”、“AI底层”成为了国内AI厂商们十分重视的发展战略。

其背后原因可大致归结为两点。

第一,在深度学习迎来高速发展的大背景下,传统产业转向智能化,AI的注入是关键因素之一。

小到一次人脸识别、大到一座城市的智能化管理,深度学习已经渗透到我们的日常生活之中,成为社会高速发展的一条重要纽带。

第二,尽管TensorFlow、PyTorch在技术上发展已经非常成熟,但是外部环境变化,使得我国拥有自主创新的AI底层能力成为眼下之刚需,这也为国内深度学习开源框架带来了发展的土壤。

实际上,从2016年至今,国内深度学习开源框架在经历多年积累、沉淀、探索后,一些成果已经初步涌现。

根据IDC中国公开发布的深度学习开源框架市场研究报告,截至2021年上半年,TensorFLow、PyTorch以及百度飞桨成为国内最高频使用的开源框架;

百度飞桨已凝聚406万开发者,服务15.7万企事业单位,开发模型达47.6万个。

市场份额方面,百度飞桨在国内综合市场份额已超越TensorFlow和PyTorch,位居中国第一

那么,它是如何一步步发展至如今这一水平的?其背后经验是否值得参考借鉴?

作为国产头雁,以百度飞桨为例,或许能厘清一条中国自研开源框架发展之路。

自主技术系统需要怎样炼成?

当下,我们已经处于以深度学习为核心的第三次AI浪潮,新兴技术迎来集中爆发期。在这样一个百舸争流的环境中,如何开拓出自己的一席之地?

瞄准技术核心底层,大厂们深谙此道。

正如前文所提及的,框架被视为深度学习的核心灵魂,在推动人工智能进入工业大生产上,具有举足轻重的作用。

在此背景下,如何为自家深度学习开源框架开辟出一席之地?

参考飞桨,连点成线总结概括,大概需要4方面的努力:

  • 技术积累

  • 场景应用

  • 产业供需

  • 开发者生态

缺一不可。

首先,及时起步、抢占身位

这里最典型的案例,便是谷歌TensorFlow。

2015年,TensorFlow先声夺人,迅速在工业界内赢得开发者们的青睐,由此奠定了它全球两大主流框架的地位。

百度飞桨几乎是同一时间站在了起跑线上。

2016年,百度飞桨便先以PaddlePaddle的名字在GitHub上对外开源,并且提供中英文双语技术文档。

而如果从筹备、研发期算起,百度飞桨的起点还要更早,可追溯到2010-2013年。

起跑早、发力早,带来的优势也十分明显——可以有更加充足的时间积累底层技术。

目前,百度AI方面专利申请数量超过1.3万件,连续四年位列中国第一,其中深度学习专利数量位居全球第一。

将专利技术握在自己手里,意味着中国深度学习技术可以更加自主自强;同时,更早积累技术也为中国团队参与到行业标准建立,提供了机会。

如今,百度飞桨的核心框架贯穿开发、训练、推理部署三个环节,基础模型库覆盖CV、NLP、推荐、语音、知识增强的文心大模型。

第二,深度学习框架要能够解决行业中的实际问题

工业界出身的深度学习框架,对理解行业场景有着先天优势。

加之飞桨诞生于中国,还能更加了解中国企业的实际需求,也为开拓海外市场提供丰富经验参考。

过去几年来,百度飞桨官方发布的产业级开源算法模型已经超过了500个,并发布13个精度与性能平衡的产业级PP系列模型,覆盖工业、农业、交通、科学计算等20多个行业领域。

在此我们可以看一些具体实例。

农业增产方面,百度飞桨联合京东方后稷打造了智慧水培植物工厂;

煤矿生产领域,华夏信天机器人公司基于飞桨的目标检测工具套件PaddleDetection,开发出输煤胶带智能巡检机器人。

当然还有更为前沿的应用场景。

前不久,百度生物计算方面研究登上Nature子刊,这一成果的底层技术支持便来自百度飞桨。

基于飞桨,百度开发出了一个可用于生物计算的工具组件螺旋桨(PaddleHelix),涉及领域包括药物研发、疫苗设计和精准医疗等。

还有此前东京奥运会上,中国跳水梦之队背后的隐形AI教练——国内首个云端3D+AI跳水训练系统,底层能力同样来自飞桨。

第三,协同上下游共同推动自主创新

在实际应用层面,企业由于框架与硬件不适配,总是会带来额外的人力物力成本。

在这方面,百度飞桨实现了国产芯片适配量第一,同时还是英伟达三大支持框架之一——也是其中唯一深度适配的中国框架。

除了自研昆仑芯之外,飞桨已经和英特尔、英伟达等在内的22家国内外硬件厂商,完成了31种芯片的适配和优化。

值得一提的是,深度学习开源框架对底层硬件的适配,反过来也会开拓国产硬件的使用场景,促进国产硬件的发展。

第四,深度学习开源框架能否发展更为长远,良好的开发者生态也是关键之一。

有人用、越用越好,可以看作是评判一个深度学习框架的标准。

飞桨在这方面已经初具规模。

其中,百度飞桨在开源社区的影响力位居国内第一,在GitHub上总star位于全球第三、中国第一。

《2021中国开源年度报告》显示,2021年GitHub中国项目活跃度Top 30中,飞桨占据了5个项目,其中飞桨框架位列第一。

中国自研开源框架如何突围?

综上,便是百度飞桨为中国深度学习框架发展提供的一些思考。

如今,全球深度学习框架“PPT”格局初现,百度飞桨PaddlePaddle与TensorFlow、PyTorch已展开正面交锋。

但不可否认的是,前路仍旧漫长,中国深度学习框架能够提升的空间还非常广阔。

最近,百度方面也提出了自己的见解。

百度AI技术生态总经理马艳军博士表示,当前中国深度学习框架的发展有三大关键点:

  • 技术实力

  • 功能体验

  • 生态规模

技术实力,不难理解。

技术创新的源头,说到底还是人才。目前,我国在AI底层技术人才的储备上,仍有不足。

飞桨也是在边研发边培养这方面的人才。同时还打造了AI Studio学习与实训社区,让更多对AI感兴趣的人有机会入门、进阶和快速提升。

飞桨还与高校“产教融合”:合作人工智能相关教材、提供人工智能教育资源,超过700所高校的3000多名AI专业教师从飞桨举办的深度学习师资培训中受益。

其次,在功能体验上。

中国是全球产业链最完整的国家,但同时产业体系也相当复杂,尤其是中小企业方面,如何快速向智能化转型,已经成为国家、行业都在重点关注的问题。

那么,如何让各行各业的专业人才,即使没有AI专业知识和背景也能顺利使用AI,便是AI产业需要从底层技术上思考的问题。

低门槛,俨然是众望所需。

这也是百度飞桨的特色之一。

无论是TensorFlow还是PyTorch,都未在易用性方面下大功夫,对初学者友好度不高。而百度飞桨正好弥补了这一市场痛点。

最后,还是要说回到开发者生态上。

马艳军博士提到,百度飞桨与开发者们一直保持紧密联系,比如遇到问题可以直接通过QQ交流群反馈给内部工作人员。

同时,百度飞桨还经常开展线上直播福利课程,毕竟自学嘛,也是程序员必备自我修养了。

从这些动作中也不难看出,与谷歌、Meta让开源框架“野蛮生长”的路线不同,百度飞桨不仅仅是为开发者提供一个好用的底层框架,还投入了大量人力、物力来打造一个友好度更高、适用性更强的生态。

最后的最后,我们再来放眼瞭望一下整体人工智能产业的大环境。

去年4月,在首届济南国家级人工智能创新应用先导区高端峰会上,中国工程院院士潘云鹤就指出:

人工智能应用的先导区要鼓励使用中国自己的平台,促进中国人工智能实现自主可控。

另一方面,IDC报告指出,安全性开始成为开发者使用开源框架的考量因素之一。

而值得庆幸的是,潘云鹤院士表示,这方面中国也开始慢慢形成自己的优势,百度飞桨便是最好的证明之一。

正如马艳军博士所说:

尽管深度学习框架属于高投入、长周期、抢生态的竞争,但已经得到国家和企业的战略性支持,是开启下一个AI时代的钥匙。

板凳甘坐十年冷,只为星火可燎原。

十年技术投入,百度飞桨站稳中国市场,未来的挑战依然艰巨,挑战总是与机会并存,相信心怀技术信仰的百度,可以不断推动中国的人工智能走在世界的前列。

凝聚406万开发者,飞桨十大发布提速产业智能化

...06万开发者、创建47.6万模型、服务15.7万企事业单位,中国深度学习平台综合市场份额第一。飞桨十大新发布引领AI技术和生态发展。王海峰表示,飞桨秉承技术创新、开源开放的初心,坚定不移地在核心技术的积累和... 查看详情

凝聚406万开发者飞桨十大发布提速产业智能化

...06万开发者、创建47.6万模型、服务15.7万企事业单位,中国深度学习平台综合市场份额第一。飞桨十大新发布引领AI技术和生态发展。王海峰表示,飞桨秉承技术创新、开源开放的初心,坚定不移地在核心技术的积累和... 查看详情

paddlehub

...dlePaddle中文译为“飞桨”,是百度公司于2016年正式开源开放,技术领先,功能完备的产业级深度学习平台。飞桨集深度学习核心框架,基础模型库,工具组件和服务平台于一体。飞桨起源于产业实践,目前飞桨已经广泛应... 查看详情

飞桨升级创新引领12月12日上海,邀您共话深度学习框架创新大趋势

...界大咖与开发者们分享在产业智能化升级、AI人才培养、开源开放助力技术创新等重要问题上的洞察与思考,并深入讨论最新技术趋势等热点话题。下午的平行论坛,将分别聚焦飞桨全新的升级创新、AI+Science交叉前沿... 查看详情

飞桨升级创新引领12月12日上海,邀您共话深度学习框架创新大趋势

...界大咖与开发者们分享在产业智能化升级、AI人才培养、开源开放助力技术创新等重要问题上的洞察与思考,并深入讨论最新技术趋势等热点话题。下午的平行论坛,将分别聚焦飞桨全新的升级创新、AI+Science交叉前沿... 查看详情

飞桨企业版发布智能边缘控制台,5分钟零代码自动化模型部署

...续积累与突破 峰会现场,马艳军表示,飞桨作为中国首个自主研发、功能丰富、开源开放的产业级深度学习平台,核心技术持续积累与突破,全新发布的开源框架2.2版本,涉及深度学习开发、训练、文本任务... 查看详情

飞桨企业版发布智能边缘控制台,5分钟零代码自动化模型部署

...续积累与突破 峰会现场,马艳军表示,飞桨作为中国首个自主研发、功能丰富、开源开放的产业级深度学习平台,核心技术持续积累与突破,全新发布的开源框架2.2版本,涉及深度学习开发、训练、文本任务... 查看详情

飞桨企业版发布智能边缘控制台,5分钟零代码自动化模型部署

...续积累与突破 峰会现场,马艳军表示,飞桨作为中国首个自主研发、功能丰富、开源开放的产业级深度学习平台,核心技术持续积累与突破,全新发布的开源框架2.2版本,涉及深度学习开发、训练、文本任务... 查看详情

开源开放生态共建!立足国内开源社区大生态,畅聊飞桨开源社区共建理念

...平行论坛带来精彩的前沿观点分享。今天将为大家介绍【开源开放生态共建】平行论坛精彩亮点,一起来先睹为快!当前开源已经成为全球基础创新和 查看详情

飞桨企业版重磅发布智能边缘控制台5分钟零代码自动化模型部署

...续积累与突破峰会现场,马艳军表示,飞桨作为中国首个自主研发、功能丰富、开源开放的产业级深度学习平台,核心技术持续积累与突破,全新发布的开源框架2.2版本,涉及深度学习开发、训练、文本任务... 查看详情

百度飞桨发布开源生态最新成果:汇聚370万开发者

...深度学习技术及应用国家工程实验室副主任吴甜受邀参加开源生态论坛,发表《人工智能开源开放平台支撑产业科技创新》的主题演讲,分享百度在开源与生态建设方面的思考和举措,并公布了飞桨深度学习开源开放... 查看详情

百度飞桨发布开源生态最新成果:汇聚370万开发者

...深度学习技术及应用国家工程实验室副主任吴甜受邀参加开源生态论坛,发表《人工智能开源开放平台支撑产业科技创新》的主题演讲,分享百度在开源与生态建设方面的思考和举措,并公布了飞桨深度学习开源开放... 查看详情

百度飞桨公布最新成果:凝聚535万开发者,服务20万家企事业单位

...+2022深度学习开发者峰会如期而至。鹏城实验室主任、中国工程院高文院士,深圳大学电子与信息工程学院院长、深度学习技术及应用国家工程研究中心技术委员会副主任、中国工程院丁文华院士受邀致辞,百度首席... 查看详情

百度飞桨公布最新成果:凝聚535万开发者,服务20万家企事业单位

...+2022深度学习开发者峰会如期而至。鹏城实验室主任、中国工程院高文院士,深圳大学电子与信息工程学院院长、深度学习技术及应用国家工程研究中心技术委员会副主任、中国工程院丁文华院士受邀致辞,百度首席... 查看详情

百度cto王海峰:ai大生产平台再升级助力中国科技自立自强

...飞桨汇聚406万开发者、服务15.7万家企事业单位,位居中国深度学习平台综合市场份额第一。领先的AI能力既支撑百度全面发展,探索生物计算、量子计算等前沿领域,也通过百度智能云在制造、能源、金融、城市建设... 查看详情

使用飞桨paddlehub实现皮影戏(代码片段)

...体的技术先进、功能完备的开源深度学习平台,已被中国企业广泛使用,深度契合企业应用需求,拥有活跃的开发者社区生态。提供丰富的官方支持模型集合,我们这里将要使用到其中的骨骼节点检测模型,... 查看详情

12家硬件厂商发布飞桨生态发行版软硬一体协同发展

...深度学习平台的最新技术和生态进展,全新发布飞桨开源框架2.4版本,带来业界首个端到端大模型开发套件PaddleFleetX,联合12家硬件生态伙伴发 查看详情

paddlepaddle:在serverless架构上十几行代码实现ocr能力

...百度多年的深度学习技术研究和业务应用为基础,是中国首个自主研发、功能完备、开源开放的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、 查看详情