如何搭建ai数据中台?(代码片段)

北京小辉 北京小辉     2022-12-06     451

关键词:

转自: 宜信技术学院

       AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。

什么是AI数据中台?

       在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是烟筒构架,每个部门各自满足业务部门的需求。

       这种构架不仅耗费各部门大量的精力也使得各个系统难以打通管理,无法形成更强大的数据能力,同时,对数据进行维护的工作量也非常大。但是在如今人工智能变革过程中,数据的获取和使用无疑成为了智能程度高低的瓶颈,所以能不能建立AI数据中台,意味着你的智能系统成败的关键。

       现在的数据中台是全新的架构变革。一切业务数据化,一切数据业务化,是AI时代的标配。5G技术的发展,可能会进一步放大视图声数据的重要性。

       不管从数据量的增长、数据处理技术的进步,还在站在企业对数据中台的认知来说, AI数据中台搭建都是每个企业必须要考虑的。AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。

       什么是AI数据中台?首先它不是一个平台,也不是一个系统,AI数据中台包含先进技术,但不仅仅是技术,更重要的是依托先进技术,利用其所拥有的核心资源,构建生态向心力,所以说AI数据中台是一种能力。

AI 数据中台整体架构

       数据中台对一个企业,起着至关重要的作用,各个业务系统经年累月以烟囱架构形式存在而导致的数据孤岛、数据隔离、数据不一致等等。因为这些问题实在是过于繁杂,因此数据仓库、数据湖、主数据治理等一系列的工作职能应运而生。

       这样的数据治理工作在进行了很多年后,数据中台这个概念逐渐有人提出了,阿里的《企业IT转型直到:阿里巴巴中台战略思想与架构实践》这本书更是对这个概念做了一次普及。

       现在我们发现,深度学习、机器学习等等一系列技术开始在这个平台下起到作用的时候。AI中台开始落地实施,AI中台是数据中台的进一步延伸,从数据中台一步一步演进过去。

       AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的及业务赋能的作用。

       简单来说,一个企业各个应用源源不断的产生数据,各个业务模块的数据汇总,经过统一的清洗、归类、纠错、标注、定义、颗粒化及构建索引,形成数据中台。再根据各类算法及机器学习,从而形成企业的AI中台。可对外输出决策能力、算法模型、功能模型及业务能力,这就是一个简单的AI中台模型。

AI 数据中台解决的问题,可以总结为五点

       1)效率问题:人工智能本质上,是要解决效率问题。在人工智能时代,体力活或者技术型的劳动不再需要人去做,因为平台数据割裂,互为一体,用户数据分散存储,有存储用户性别的数据。但是另外的应用无法调用,需要用户再次输入,重复操作。效率降低。
       2)协作问题:各应用之间的协作在大企业中很常见,协作的前提是能够互通有无,但是如果不知道对方有哪些可以帮到自己,沟通过程中就会出现需求不明确现象,当建立AI数据中台后就可以打破窗户纸,协作更加顺畅。
       3)关联度问题:一个完整的用户画像需要多方位的数据信息,例如可以根据根据用户点餐的习惯,可以判断ta的日常饮食习惯,结合用户的浏览的租房内容可以判断ta的消费档次,再结合投递职位的薪资,我们可以计算出ta的基本收入,只有数据丰富才有可能形成智能。
       4)能力问题:数据中台并非把数据堆到一起,那不叫AI数据中台,做数据挖掘后你会发现,这些数据可以为每个单独的业务模块赋能,也就是说通过各个业务模块提供的数据,整理挖掘后再为各个业务提供之前没有的能力。
       5)时效问题:数据有价值,实时数据更有价值,在没有AI数据中台前,无法做到数据通信的时效性,当有了AI数据中台后时效性的数据会成为企业决策和产品能力提升的关键因素。

AI数据中台团队

       搭建AI数据中台需要有一个独立的团队,能够对所有业务的数据做统一梳理、归纳。其中必不可缺的角色包括:

数据产品经理:数据产品经理这个职位,其实很跨界:需要懂程序,做数据收集及清洗;需要懂产品,了解内外部用户需求和理解市场;需要懂数据,用数据的方式证明、证伪及发现问题。数据产品经理既要完成数据体系设计,让原本无序或庞杂的数据变得“规矩”,又要根据业务场景的变化,不断调整项目内容,推进项目进度。所以说数据产品经理是搭建AI数据中台的整体把控者。
业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据,使得产品符合逻辑。
数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。
数据分析团队:分析数据价值、探索场景,生产更多的数据服务。
数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具来围绕业务场景解决数据质量和安全问题。就类似每个程序员要配备两个测试员一样,数据治理同样重要。
智能算法团队:为数据分析、业务探索提供智能和算法工具。实现中台的AI化。

AI 数据中台中的产品经理定位

数据都是有用的:所有数据都是有用的,凡是用户留下的数据包括停留时长、触达页面,页面热区等,都是有用的,尽可能的保留用户所有痕迹。在不同的场景下数据的需求维度不一样,不同的数据组合可以帮助你构建不同的算法模型。
培养大数思维:数据产品经理必须具备大数思维,因为你要处理的数据量级都是超大的,如果你处理的是文本数据量是1亿条,那么有5000条的错误率,要不要忽略,0.005%,这是可以忽略的,但是5000的量级在传统的产品中一般是不可忽略的。数据是相对的,培养大数思维会少做好多无用功。
不要相信知觉,相信结果:在处理数据中不要单凭自己看到的一部分数据量而判断所有的数据集,不要感觉某些数据是不是有用,是不是需要标注。要不断的去测试调优,要相信最终的结果。
数据隐私问题:如果系统自动推送一个你感兴趣的广告产品,有的人会理解很贴心,正好符合我的需求,很多人会觉得吓一跳:它怎么知道我喜欢这个?要想获得更好的体验必须牺牲个人隐私,这到底是不是一个必要条件。个人感觉这个问题必将被技术解决,任何技术产品的问题最终会被其他技术解决。现阶段的产品经理只有做到依靠现有的脱敏等技术手段及道德底线来维护现有用户的数据隐私问题。

总结

       AI发展必需依靠算法、数据和算力三方面的组合才能有更好的效果,现阶段算力需要硬件的突破,算法的进步需要更多的算法工程师的努力才能有突破。能否高效的利用数据是各大公司的差距所在,AI数据中台无疑是解决这个问题的最优解。率先搭建持续优化,也许可以帮助大企业在智能化方向上有个大的进步。

大数据中台(代码片段)

 数据中台的由来数据中台最早是阿里提出的,但真正火起来是2018年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数... 查看详情

3.数据中台---数据中台建设与架构(代码片段)

第3章 数据中台建设与架构3.1 持续让数据用起来的价值框架 业务数据化=>数据资产化=>资产服务化=>服务业务化3.2 数据中台建设方法论 1种战略行动 把用数据中台驱动业务发展定位为企业级战略,全局谋划。 在中台... 查看详情

7.数据中台---数据开发:数据体系建设(代码片段)

7.1 数据体系规划 各种系统产生的原始数据堆积在一起导致使用成本非常高,这类数据只能在某些数据技术基础非常好的部门使用,而且会经常出现 命名不一、口径不一的问题,从而导致整个企业的数据无法真正用起来。数据... 查看详情

markdown写出高大上时序图(代码片段)

上一篇文章分享了如何使用Markdown写流程图,继续挖掘md毫不含糊的功能,再分享一个md格式的时序图。数据中台->缓存:读取缓存缓存->数据中台:返回缓存Noteleftof数据中台:如果没有读到缓存,就直接调用数据服务数据中台->... 查看详情

chatgpt搭建ai网站实战(代码片段)

...服、智能助手、个性化推荐等。今天笔者给大家分享一下如何使用ChatGPT的API模型快速搭建一个AI网站。2.内容在实战中,我发现ChatGPT的最大优势在于其自然流畅的对话交互能力。ChatGPT能够自动理解用户的意图和提出的问题,并... 查看详情

大数据中台(代码片段)

 数据中台的由来数据中台最早是阿里提出的,但真正火起来是2018年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数... 查看详情

搭建中台架构的几个误区

...的了解,对一些核心问题的处理仍不得要领。01、仅搭建平台数据中台建设仅仅是企业IT变革的起点,建设一个项目或者搭建一个平台并不能解决企业数字化转型中遇到的所有问题。数据中台是企业数字化变革的关键,... 查看详情

业务中台数据一致性方案(代码片段)

引言随着业务的发展,微服务架构逐渐成为当下业务中台的主流架构形式,它不但解决了各个应用之间的解耦问题,同时也解决了单体应用的性能问题实现可扩展可动态伸缩的能力。如下图所示,业务中台就是将... 查看详情

贝壳找房——业务数据治理中台实践(代码片段)

关注下面公众号,回复:数据治理关键字即可获取PPTEND热门内容两年经验斩获蚂蚁/头条/PingCAPOffer,牛逼了快手大数据平台服务化实践深入理解Java内存模型关注我关注我,Java学习不迷路!点个赞+在看,... 查看详情

昇腾ai推理环境搭建(代码片段)

官网参考文档:https://support.huaweicloud.com/devg-mindstudio302/atlasms_02_0033.html主机环境:ubuntu18.04初始化root密码sudopasswdroot允许root账号远程登录:sudovim/etc/ssh/sshd_config修改PermitRootLoginyes保存 查看详情

万级tps亿级流水-中台账户系统架构设计(代码片段)

...级流水-中台账户系统架构设计背景业务模型应用层设计数据层设计日切对账背景我们需要给所有前台业务提供统一的账户系统,用来支撑所有前台产品线的用户资产管理,统一提供支持大并发万级TPS、亿级流水、数据强一致、... 查看详情

万级tps亿级流水-中台账户系统架构设计(代码片段)

...级流水-中台账户系统架构设计背景业务模型应用层设计数据层设计日切对账背景我们需要给所有前台业务提供统一的账户系统,用来支撑所有前台产品线的用户资产管理,统一提供支持大并发万级TPS、亿级流水、数据强一致、... 查看详情

mongodb在评论中台的实践(代码片段)

本文主要讲述vivo评论中台在数据库设计上的技术探索和实践。一、业务背景随着公司业务发展和用户规模的增多,很多项目都在打造自己的评论功能,而评论的业务形态基本类似。当时各项目都是各自设计实现,存在较多重复... 查看详情

面试业务中台是什么?(代码片段)

...前言什么是业务中台?什么时候需要业务中台?如何规划和建设业务中台?业务中台建设的关键要素业务中建设的核心技术前言什么是业务中台,企业需要业务中台吗?怎么规划和建设业务中台,业务中台... 查看详情

马蜂窝数据仓库架构实践

...一些通用、组件化的工具,这些可以支撑数据中台的快速搭建。作为中台的另一大核心部分,马蜂窝数据仓库主要承担数据统一化建设的工作,包括统一数据模型,统一指标体系等。下面介绍马蜂窝在数据仓库建设方面的具体实... 查看详情

还在调api写所谓的ai“女友”,唠了唠了,教你基于python咱们“new”一个(深度学习)(代码片段)

...的表示表达one-hot编码词嵌入大致原理实现简单版复杂版如何训练转换后的形状RNN循环网络RNNRNN投影图RNN是三维立体的LSTM&GRU构建数据配置数据集准备分词划分数据集加载模型搭建基本概念Encoder搭建DecoderAttention机制decoder与beams... 查看详情

揭秘vivo如何打造千万级dau活动中台-启航篇(代码片段)

本文首发于vivo互联网技术微信公众号?链接:https://mp.weixin.qq.com/s/Ka1pjJKuFwuVL8B-t7CwuA作者:悟空中台研发团队一、缘起-什么是悟空活动中台?随着vivo互联网用户量级不断增加,应用商店、官网商城、游戏中心和浏览器等vivo官方产... 查看详情

警惕ai,我搭建了一个“枪枪爆头”的视觉ai自瞄程序,却引发了一场“山雨欲来”(代码片段)

前言前段时间在网上看到《警惕AI外挂!我写了一个枪枪爆头的视觉AI,又亲手“杀死”了它》 这个视频,引起了我极大的兴趣。视频中提到,在国外有人给使命召唤做了个AI程序来实现自动瞄准功能。它跟传统... 查看详情