阿里云机器学习pai构建ai集团军作战,联手intel在ai软硬件领域发力

Python中文社区 Python中文社区     2022-12-08     580

关键词:

第一届“英特尔创新大师杯”深度学习挑战赛已在阿里云天池平台如火如荼的进行中。本次大赛由英特尔主办,阿里云计算平台机器学习PAI联合达摩院以及中文信息协会等组织机构联合承办,共有近7500支队伍报名参赛,并取得了优异的成绩。阿里云天池平台是业界领先的科技众智平台,旨在打造“数据众智、众创”的第一平台,此次举办的英特尔创新大师杯”深度学习挑战赛则是聚焦在当下火热的计算机视觉OCR领域以及自然语言处理NLP领域的经典技术方向,希望通过比赛引导开发者们找到更创新优化的技术解决方案,促进AI行业开发者们的技术交流。本次比赛的参赛选手中不仅有来自国内外各个企业的代表,也有很多来自国内知名高校的年轻选手,包括:北京大学,复旦大学,浙江大学,华北电力大学,重庆理工大学,中国海洋大学,北京科技大学,北京交通大学,华中科技大学,西安电子科技大学,四川大学等等。

在现实场景中文字是人们生活中必不可少的部分,我们每天都在生活和工作中处理不可计数的文字信息,例如:书本中的文字,海报中的文字,票据中的文字等等。本次比赛OCR赛道的任务旨在解决这类光学文字的提取问题:如何将现实场景中出现的文字信息,更准确的转化为电子设备可以处理的文本信息,以满足人们在不同行业应用中的需求。

此外,地址也是日常生活中一种重要且常用的文本信息,像是汽车导航、电商购物、快递配送、人口普查、水电气开户等都需要我们用到地址信息。常见的地址可能会包含行政区划信息,如省、市、县、乡镇的信息;也有可能会包含路网信息,如路名,路号,道路设施等; 智能地址要素解析可以将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。而智能地址文本相关性服务更可以帮助人类根据不同形式的地址表述来快速搜索定位到准确的地址。

本次“英特尔创新大师杯”深度学习挑战赛正是由“通用场景OCR文本识别任务”、“NLP地址要素解析任务”和“NLP地址相关性任务”三个赛道组成,参赛选手可以自由报名参加任何赛道,发挥自己的算法技术和创造力,探索中文语义AI技术在各类日常生活实用场景中的应用。 值得一提的是,本次参赛的开发者可以在阿里云天池实验室提供的交互式建模平台PAI-DSW上进行模型训练。PAI DSW(Data Science Workshop)由阿里云机器学习平台 PAI 于 2018 年针对算法开发人员推出的云端机器学习编程环境,在已有 PAI Studio 提供的组件化拖拉拽式模型训练服务的基础上,提供了更具灵活性和自主性的模型开发和训练。PAI DSW在集成 JupyterLab 的基础上,内置了丰富的数据开发和机器学习算法库,并为天池参赛选手提供了多种免费的计算资源,包括当下主流的 CPU 和 GPU。

事实上,“英特尔创新大师杯”深度学习挑战赛只是PAI和Intel合作的一个缩影。PAI和英特尔合作贯穿了从硬件至驱动再到软件,第七代高主频实例包括了英特尔至强处理器,为机器学习平台提供了非常大的优化空间,例如在互联网行业,不管是在内容推荐、广告推荐、商品推荐这些领域,把内容信息转换成特征信息,需要使用非常多的自然语言处理技术,英特尔产品DL boost能够大幅提升NLP的效率,推升我们在公共云客户以及专有云客户使用平台的性价比。CPU硬件上集成了 BF16加速指令能够大幅度提升PAI训练平台加速的效率,同时AVX-512指令集提供通用的底层算子。软件搭配英特尔® oneAPI深度神经网络库(oneDNN)非常容易集成,降低优化和使用门槛。

PAI和英特尔在AI领域的合作,可以说是一次成功的强强合作。英特尔对于自己硬件性能的理解以及我们对于在模型上面对训练对场景的理解,形成一个更好的联动,把AI自动化能够做起来,我们的用户更加随心所欲地进行模型的变化。双方合作具备领先性,能够推动业界标准的提高,在benchmark(全球AI性能榜单)上进一步去发布结果,推动整个CPU平台工作的演进。

从英特尔和阿里云PAI的合作也可以窥探出整个AI技术的发展趋势在向智能化、自动化以及工程化发展。Gartner 将「AI 工程化」列为 2021 年度九大重要战略科技趋势之一。AI 要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。

针对AI工程化落地的实践经验,阿里云认为模型超大规模化是非常重要的一个基础能力。2021年初,阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。PAI 团队自研 Whale 分布式训练框架,在计算效率、通信效率、显存消耗等多个方面进行了深度优化,从而帮助M6模型快速迭代训练。

基于机器学习平台PAI,阿里云希望构建大规模AI端到端的能力,从底层芯片到分布式系统,再到上层算法和数据的规模化,打造AI工程化集团作战的能力,服务于各行各业。

↓↓↓ 点击阅读原文,了解更多详情!

阿里云机器学习平台pai之理论基础

🍓在前几章的学习中,我们学习了阿里云系列的计算平台MaxComputer、大数据治理和分析平台DataWorks和可视化平台QuickBI,今天进入阿里云大数据的最后部分的学习——机器学习平台PAI,对往期内容感兴趣的小伙伴可... 查看详情

阿里云机器学习平台pai之理论基础

🍓在前几章的学习中,我们学习了阿里云系列的计算平台MaxComputer、大数据治理和分析平台DataWorks和可视化平台QuickBI,今天进入阿里云大数据的最后部分的学习——机器学习平台PAI,对往期内容感兴趣的小伙伴可... 查看详情

阿里云机器学习平台pai之分类实践(代码片段)

...容👇:hadoop专题:hadoop系列文章.spark专题:spark系列文章.阿里云系列:阿里云MaxComputerSQL学习之DDL.阿里云系列:阿里云MaxComputerSQL学习之DML.阿里云系列:阿里云Ma 查看详情

pai-diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋

导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AIGeneratedContent,AIGC)的应用呈现出爆发性增长趋势。其中,文图生成(Text-to-imageGeneration)任务是最流行的AIGC任务之... 查看详情

阿里pai深度学习组件:tensorflow实现图片智能分类实验

PAI简介阿里云机器学习PAI(PlatformofArtificialIntelligence)是一款一站式的机器学习平台,包含数据预处理、特征工程、常规机器学习算法、深度学习框架、模型的评估以及预测这一整套机器学习相关服务。由于目前PAI还属于公测阶... 查看详情

机器学习pai实践二人口普查统计

...、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘数据中的价值。本系列文章包含详细的实验流程以及相关的文档教程... 查看详情

阿里pai_机器学习-入门介绍

世界上机器学习的从业者基本是算法的使用者10万,真正算法的研究者2万 查看详情

[阿里云-机器学习pai快速入门与业务实战]课时1-机器学习背景知识以及业务架构介绍

什么是机器学习?     机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在一下一些方面发挥作用:营销类场景:商品推荐、用户... 查看详情

轻量化ai服务再添两将!阿里云机器学习paidsw2.0&alink商业版重磅发布(代码片段)

DSW2.0:面向AI研发的集成开发平台DSW(DataScienceWorkshop)是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累,围绕提高AI算法研发效率,降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环境。DSW2.0是借... 查看详情

机器学习pai实践二人口普查统计

...、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习怎样通过算法来挖掘数据中的价值。本系列文章包括具体的实验流程以及相关的文档教程... 查看详情

感悟:微博深度学习平台架构和实践

...布式性能上表现优异。PaddlePaddle、鲲鹏、Angel则是百度、阿里、腾讯分别推出的分布式计算框架。 腾讯深度学习平台DI-X 腾讯深度学习平台DI-X于2017年3月发布。DI-X基于腾讯云的大数据存储与处理能力来提供一站式的机器... 查看详情

阿里云随笔(10)-pai-automl

在数据管理中,重新上传完整的白葡萄酒数据。然后可以进入数据开发,写sql代码对数据表进行查询。比如统计训练样本和测试数据的大小。打开建立好的葡萄酒质量多分类模型看看分类评结果。正确率83.55%开始自动调... 查看详情

阿里云启动天池电力ai大赛是怎么回事?

4月26日,云栖大会·南京峰会召开。本次会议上,阿里云天池平台联合扬中高新区政府、大航集团,启动电力AI大赛------大航杯“智造扬中”电力AI大赛。“用电之痛”是全国千万用电及售电企业的大难题。据了解,仅2016年全社... 查看详情

阿里灵杰:ai工程化助力产业数字升级

...、应用开发运维等各种环节进行全周期管理。而这恰恰是阿里灵杰——阿里云大数据+AI一体化产品体系所期望和擅长的。12月3日,2021阿里灵杰AI工程化峰会圆满落幕。阿里巴巴集团副总裁、阿里云智能计算平台事业部负... 查看详情

阿里云pai-diffusion功能再升级,全链路支持模型调优,平均推理速度提升75%以上(代码片段)

...;旨在生成与给定文本对应的图像。在先前的工作中,阿里云机器学习PAI团队开源了PAI-Diffusion系列模型(看这里),包括一系列通用场景和特定场景的文图生成模型,例如古诗配图、二次元动漫、魔幻现实等。... 查看详情

pai文本分析实验:常用文本分析组件及案例实战

...程:机器学习PAI眼中的《人民的名义》。准备开始还是在阿里PAI环境下,我们从实验模板:人民的名义分析进入,然后点击去PAI平台创建,这样就在机器学习页面创建好了实验。接下 查看详情

基于maxcompute+pai的用户增长方案实践

...xff0c;包含拉新、促活、留存、创收、分享。本文作者李博阿里云智能高级产品专家在过去一年阿里云PAI机器学习团队做了很多偏业务的实践,其中有一条就是基于MaxCompute+PAI的产品方案实践,解决客户遇到用户增长相... 查看详情

主流机器学习平台调研与对比分析

梗概本报告主要调研目前主流的机器学习平台,包括但不限于Amazon的Sagemaker,Alibaba的PAI,Baidu的PaddlePaddle。对产品的定位、功能、实践、定价四个方面进行详细解析,并通过标杆对比分析提出一套机器学习平台评... 查看详情