解码阿里数据:对外数据产品也浮出水面

author author     2022-08-15     208

关键词:

解码阿里数据:对外数据产品也浮出水面

2014-05-21 

大数据时代,阿里巴巴[微博]集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。

  马云[微博]曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已经渐次展开:

  2010年,推出重整的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期又接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫[微博]主导建设了与各大配送公司对接的“天网体系”,最近牵头成立智能骨干物流网络“菜鸟科技”,构建物流信息数据平台。

  阿里数据十年铸剑,如今只是起手开了个局。

  十年进化

  从报表到分析工具、flash,阿里的数据产品越来越没“数据味”。

  从2003年淘宝起步开始,阿里集团数据平台事业部负责人“七公”(本名汪海)就一直在与数据打交道,他的经历勾勒出了这家数据巨人的演变轨迹。

  阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。

  在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手——易趣,当时eBay[微博]、亚马逊[微博]都已成立成熟的BI部门。恰是与易趣的竞争,推动了阿里的数据应用。据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。

  2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。

  2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。这一年,阿里拥有了第一款严格意义上的数据产品——“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务——两项业务均带有天然的数据属性,成为阿里大数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确——搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。

  2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。

  阿里的对外数据产品也浮出水面。脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。

  与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。相比IBM[微博]、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。

  同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。

  这一系列变革之后,阿里最高层提出了“数据开放”。2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。产品研发发端于阿里数据平台团队对客户的走访。当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产品化,阿里数据的价值出来了!

  此后,阿里内部数据产品的开发进入井喷状态。淘宝数据部门开发出“活动直播间”,帮助买家更好地参与促销运营。2011年上半年,“卖家云图”、“页面点击”接连出现。

  2011年,现任阿里数据委员会负责人的车品觉加盟支付宝[微博],发现阿里数据产品线存在短板:高层一端数据过多,关联性不强,难以快速进行全局诊断;一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。

  于是,车品觉研发了两款产品,一款名为“观星台”,是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;另一款叫“地动仪”,可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音。随后,车品觉进入淘宝,又开发了两款产品“黄金(1290.70,-3.90,-0.30%)策”和 “无量神针”。七公领导的另一支数据团队也开发了一系列产品,如 “淘宝指数”,以及2012年“双11”期间推出的“淘宝时光机”。

  一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”、“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越没有“数据味”,但是,其对消费场景和行为的洞察却越来越深了。

 

  高速公路与跑车

  数据时科学的,数据的取舍、分析维度的选择更像是艺术。

  2012年,阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。

  阿里云拆分,独立运行;阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由阿里集团CEO陆兆禧亲自掌管;同时成立虚拟组织“集团数据委员会”,车品觉出任首任会长。

  王坚领导的阿里云是“密码盘”中的最底层架构,提供基础的运算平台。譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;在此之上,则是七公领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;再往上即车品觉带领的淘宝网[微博]商业智能部门,他们使用数据进行分析。同时,“数据委员会”的成员们分属阿里各业务公司,他们利用七公团队的工作成果进行再分析。

  可以这样理解三层架构:阿里云是IasS(基础设施即服务),阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。

  阿里集团内的数据大多都经过这样的旅程——用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到七公团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被储存在分主题的数据集市。当数据委员会的分析师们进行数据挖掘时,就可能被采用。

  目前,数据业务平台已整合了阿里集团的全部数据。此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与该平台直接相连。

  IBM咨询经理陈琪说,大数据概念存在两层结构。一层是人们热议的、不乏科幻感的分析预测能力;另一层则是处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。

  车品觉做的是前者,而七公维护的是后者。

  车品觉评论说,七公团队在修建高速公路,而他的团队则在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。”七公告诉《21CBR》,其服务器上保有的历史数据已超过100PB,且都已经过“清洗”。

  “清洗”被两人反复提及,它保障数据的质量,直接关乎大数据运营的准确性。那么,如何清洗数据?首先得让数据“对得上、产生关联”。互联网行业发展迅速且难于规划,通常不断试错、快速迭代,不同部门、业务之间的数据往往难于打通,不少公司各业务甚至连用户cookie、日志格式都不同。阿里或许是幸运的,从2004年起,整个淘宝系的日志格式就已统一。

  这仅仅是开始,数据处理的链条极长,任何一个环节出错都会影响后端。车品觉说,数据污染往往有两个原因——采集错误、数据口径不同。前者往往来自于部门协作脱节,如前端业务部门的开发人员改变了页面功能但未及时通知数据部门,那么,相关用户行为产生的数据定义就已失真;后者则更易理解,譬如有的电商公司统计“转化率”只统计用户点击购买,有的公司则进一步考虑点击后是否付费、是否退款。

  数据委员会的工作就是要统一集团的统计口径和统计方法,制定关于质量和安全的范式,其成员来自各个业务公司,由车品觉主持规范工作。2013年,他将数据质量和数据安全视为最重要的课题,设置了对应的两个小组。“数据是科学的,清洗过程中的取舍、分析时维度的选择则要靠分析师的修为,这部分不那么科学,更像是艺术。”车品觉说。

  其实,参与阿里大数据战略的团队还有很多,如“共享平台事业部”旗下的搜索团队,担负着为集团各部门“清洗”非结构化数据的任务;数据平台事业部下有一支20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等向外开放的数据产品;各业务公司的分析师也都负责各自业务的数据清洗工作。

 

  数据的觉醒

  大数据概念不再是“忽悠”,正当“亮剑”时。

  车品觉很推崇数据界前辈提出的一段“六字真言”:“对比、细分、溯源”。他认为还要加上一项“趋势”,这是由传统BI领域跃入“大数据时代”的关键一步。人们憧憬的大数据方法论,要求推测未来、洞悉全局、引导决策的能力。

  不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是“忽悠”。接受《21CBR》采访时,他特意更正,“忽悠”是指现在的基础,大数据的前提拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI以后未必好用,并不完全适合未来的数据世界。”

  阿里集团整体正以数据作为行动新方向。

  早在2011年,时任阿里集团首席人力官、支付宝CEO彭蕾(现任阿里小微集团CEO)就提醒车品觉,要尝试从“数据化运营”转向“运营数据”。

  马云谋划的是,庞大数据平台作为信息流的精华部门,与物流、现金流结合,构建闭合且不断外扩的生态体系,除提供内部数据决策支撑之外,甚至可以形成数据的交易平台。阿里数据的分量已不容小视,淘宝系交易额已超过万亿元,其庞大生态中可以实时捕捉经济运行的脉动,阿里研究院每个月会接到好几波各级政府索要数据的要求。近期,不少政府官员前来向车品觉咨询大数据在公共行政管理的应用。

  宏大愿景之下,阿里数据团队态势严峻。数据团队应该是CEO直属的战略级团队,如今,车品觉坦言,CEO、管理层的注视让他们感到压力日增。“马云知道数据要耐心养”,但是,高层已频频问及数据业务落地状况, “不能再只是讲故事了,我们到时候必须亮剑了”。

  现在,车品觉的团队正加强挖掘内部数据的力度,为数据分析、预判提供更多可靠的参考维度。最近,团队的研究广度已从淘宝系延展到整个阿里系,并已开始考虑向阿里系外部提供数据工具。车品觉让数据产生商业价值的意愿空前强烈,他正积极搜寻机会,希望为合作伙伴提供足以指导决策的数据方案——2013年以前,数据产品提供的多是诊断辅助,现在开始引导决策。

  这一计划已有成果出现。杨滔,车品觉团队中的一位数据科学家,他牵头为“聚划算”设计了一套数据工具,预测商品能否成为“爆款”。这款产品参考60多个变量,能输出商品是否爆款、最终销量、库存等数个关键预判数据,可直接作为商品能否参与活动的判断标准。据了解,该产品目前预测的准确度已达到80%以上。

  杨滔正琢磨着参考更多维度的变量,将系统应用范围拓展到线上、线下的通用产品,以帮助综合零售企业整体预测实体店和在线渠道的销售和库存状况,直接作用于经营决策。杨滔还在开发一款产品,带有浓烈的“人机对话学习”色彩,通过研究淘宝购物推荐达人的行为,分析其规律,进而改进淘宝系统的推荐工具,提高个性化推荐的能力。

  整个阿里系业务中,最为炫目的是阿里金融的小贷业务,这是大数据应用的典型案例,阿里金融数据团队设计的模型综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策,其贷款不良率仅为0.78%。

  目前,阿里数据分析团队主要使用阿里内部的数据——仅仅这些他们还远没有完全挖掘,然而,车品觉认为,数据产品只有用更多维度进行综合关联比照,才能掌握更为真实的商业动向。阿里的数据支撑团队又一次提前开始“修路”——准备更多维度的外部数据。据透露,七公的团队已开始接入高德等关联公司的信息。

  车品觉说,阿里目前已到了大数据的海边,是在国内互联网行业“做得最狠的”,“如果阿里做不出来,中国在大数据应用的进程可能会减速”。

沉入海底2年的微软数据中心浮出水面:故障率只有陆地上的1/8,除了长点贝类和藻类完全没问题...(代码片段)

...进程序员交流群👇👇2014年微软首次提出了水下数据中心概念,当时认为这个概念有望为沿海人口提供高速云服务,并节省能源。2015年,微软在太平洋开展为期105天的部署过程中证明了水下数据中心概念是切... 查看详情

短信权限问题再次浮出水面,Play 商店现在拒绝了我的应用更新

】短信权限问题再次浮出水面,Play商店现在拒绝了我的应用更新【英文标题】:SMSpermissionissueresurfacedandplaystorenowrejectedmyappupdate【发布时间】:2019-11-0410:19:44【问题描述】:所以我让Play商店抱怨我的一个应用程序具有READ_SMS、REC... 查看详情

“联通云”正式浮出水面要讲出云计算怎样的“新故事”?

...计算厂商都使出浑身解数,深耕细分业务场景。相比阿里云、腾讯云等互联网厂商成为国内云计算市场的主导力量,运营商进入云计算头部市场的时间显然较晚。但值得注意的是,运营商的技术起步并不晚。以中国联... 查看详情

解密arm中国:全球最具影响力的芯片公司中国布局浮出水面

经济观察报记者陈伊凡沈怡然李华清对于Arm与中国合资公司事宜,5月4日下午,Arm授权的代表邮件回复《经济观察报》称:“合资公司目前刚开始运营”,“我们的重点是让这个新的合资公司取得成功;开发出全新的Arm... 查看详情

继林俊杰后,阿迪达斯"买地"深度入局,区块链元宇宙两大龙头浮出水面

...宇宙热度,区块链元宇宙两大龙头TheSandbox和Decentraland浮出水面…… 01 元宇宙正在形成一个真实存在的市场首先,要从元宇宙概念的市场表现分析,元宇宙正在形成一个真实存在的市场。2020年底,腾讯创始人马... 查看详情

数据分析前沿的观点

在一个罕见的数据分析领导者聚会中,各种新的解决方案渐渐浮出水面,这些方案旨在解决人才,组织和前沿采用等一系列难题。作者:BradBrown来源:企业网D1Net|2020-08-0410:01收藏分享去年10月,来自数据分析领域的先进企业的八... 查看详情

干货:解码onedata,阿里的数仓之路。

免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的... 查看详情

排序算法之冒泡和快排

冒泡排序:顾名思义:参与排序的数据就像水中的气泡慢慢浮出水面一样“浮”到数列顶端。冒泡排序要点:1、 两层循环,外层循环控制走访数列重复进行的次数,内层循环进行数据的比较、交换,是数据“上浮”。2、&nbs... 查看详情

从飞天到倚天阿里云底层自研技术大爆发

10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥、灵杰等多款重磅产品,阿里云“做深基础”成果浮出水面,底层自研技术迎来大爆发。阿里云智能总裁张建锋表示,过去十二年,阿里... 查看详情

算法篇-常见算法(代码片段)

...素的个数首先假设第一个数5(索引为0的数为最大的会先浮出水面)然后与相邻数(索引比它大的)比较,这里5<7,所以更正假设,这时候认为7会先浮出水面,然后重复上面的过程,一直到找到最大值 查看详情

无法使用 JSONDecoder 返回或解码数据

】无法使用JSONDecoder返回或解码数据【英文标题】:Can\'treturnordecodedatawithJSONDecoder【发布时间】:2017-12-1616:26:16【问题描述】:我正在学习在Xcode游乐场中使用JSON解码数据,但无法弄清楚我的代码有什么问题,我无法返回数据也... 查看详情

pythonstr与bytes编码解码

参考技术A下面一张图搞懂编码、解码、编码表之间的关系。不难看出,它们是一种根据编码表进行翻译、映射的过程:实际上,字符串类型只有encode()方法,没有decode()方法,而bytes类型只有decode()方法而没有encode()方法。二进制... 查看详情

为啥无法解码这个以太坊 tx 输入数据?

】为啥无法解码这个以太坊tx输入数据?【英文标题】:Whycan\'tthisetherumtxinputdatabedecoded?为什么无法解码这个以太坊tx输入数据?【发布时间】:2021-05-0616:54:14【问题描述】:如果你去thistransactionpageonetherscan,向下滚动到InputData部... 查看详情

编解码再进化:ali266与下一代视频技术

...此所带来的视频数据量的爆发式增长更加加剧了对高效编解码这样的底层硬核技术的急迫需求。新视频编解码标准VVC定稿不久之后,阿里巴巴的视频团队开始全力投入开展VVC软件编解码的开发工作。在LiveVideoStackCon2021北京峰... 查看详情

winccoa-ctrl-使用ctrlhttp对外开放数据接口(代码片段)

序有的时候我们需要将OA中的数据提供给上层业务,当然这种需求WinCCOA给了我们很多方法,比如使用OPCUAServer,也可以使用API二次开发,今天我们使用OA内置的HttpServer对外提供RESTful风格的查询方式,使用这种方式应该是一般web开发工作... 查看详情

计算机网络复习笔记1

...算机网络发展的七个阶段批处理:事先将用户程序和数据写入存储设备,使用时由计算机读取并处理数据分时系统:每个终端与计算机之间里的通信线路连接形成线路结构,网络的概念就慢慢浮出了水面。计算机... 查看详情

如何在 Swift 中解码这个 JSON 数据?

】如何在Swift中解码这个JSON数据?【英文标题】:HowdoIdecodethisJSONDatainSwift?【发布时间】:2020-08-2218:22:32【问题描述】:如何解码这个JSON数据?我使用“向下钻取”方法完成了它,在该方法中我不断调用每个键并打印值。我也尝... 查看详情

阿里巴巴数据治理平台建设经验

目录前言01、数据繁荣的红利与挑战02、阿里巴巴数据治理平台建设实践一、数据生产规范性治理二、数据生产稳定性治理三、数据生产质量治理四、数据应用提效治理五、数据安全管控治理六、数据成本治理七、数据治理组织... 查看详情