腾讯技术工程|腾讯海外计费系统架构演进

author author     2022-10-13     654

关键词:

作者简介:abllen,2008年加入腾讯,一直专注于腾讯计费平台建设,主导参与了腾讯充值中心、计费开放平台、统一计费米大师等项目,见证了米大师从0到1,业务营收从PC到移动多终端再到全球化的跨越过程。20+篇支付专利主撰写人。目前专注于跟团队一起为腾讯业务提供稳定高效安全的全球化个人和企业市场计费服务。


经过海外3年建设,腾讯Midas(米大师)计费逐步构建起了一个分布式的全球计费系统,来助力公司及业内产品计费扬帆出海,走向深蓝。在刚过去的北京全球架构师峰会上,腾讯计费平台部架构师陈宁国分享了Midas在海外计费系统架构演进上的一系列思路与做法。

技术分享图片

 

Midas计费,目前已经接入2000+ APP,60多万家商户,覆盖国内10+和海外40+渠道,托管账户总量200多亿,每日流水稽核500多亿条,基本上涵盖了所有常见的计费模式,如虚拟代币购买、道具、订阅、实物等,是一个全方位的一站式计费平台。

技术分享图片


在讨论海外的计费架构演进前,先看下国内在线交易系统的简要架构。

技术分享图片

 

该架构下,计费系统已具有如下能力:

1.整体多地部署,具备跨城容灾能力

2.就近接入,通过GLSB等机制,尽量将用户的请求从邻近公网入口导入计费系统,这可以明显降低用户时耗,提升体验;

3.域内系统自治,存储底层来解决必要的数据跨区域访问问题,如某些风控策略,数据必须全局共享, 底层的透明网关会根据请求信息来就决定是本地访问还是远程访问。在这个机制下,故障时一地区可在短时间内甚至无缝来承载另一地区的全部交易请求,以达成系统的高可用。

 

计费走向海外国际化,所要面对的首要核心问题就是地域跨度,从下图即2017-12-7日的Midas全球各区域实时支付时耗图就可以看到,内部网络单路径的时耗,经常性约200ms左右,作为对比,深圳到上海的时耗一般都在50ms以内,而实际的请求往往要经历多次路径接力,特别是从用户终端到就近接入点,耗时更久,这对系统流程控制、监控、发布等都有挑战。其次,随着部署地域的增加,不同地区的网络结构,机器软硬件环境,及机器数都会有所限制,譬如在国内, 一整套计费系统一般机器数都在百台以上,而在海外某些地区,出于业务试水等情况,机器可能刚开始只有3~5台, 那么就需要有办法将数百台机器的计费系统缩减到只需3台即可正常运行。还有就是底层存储,需要能实现跨区域数据主动动态迁移。

技术分享图片


架构演进之一,整体网络优化。

Midas海外计费,目前主要部署在香港(HK)和加拿大(CA)两大公司自有IDC,及南北美、欧洲、澳洲的AWS,还有部分是合作伙伴机房。在这些区域间,涉及到多级骨干网,二级网络和本地运营商网络,物理路径长,时耗常不稳定,我们通过利用公司全球POP加速点的部署,结合分析海外网络结构特点,建设了8个自营的交易中心入口,并利用智能DNS远程代理方式,来优化如AWS的接入点,最终有效避开了局部经常性的网络异常,加之终端的针对性优化,如预加载,请求合并等,成功将全球17个地区单次通信平均时耗明显降低。

技术分享图片

下图是MC的优化前后支付时耗图,可以看到优化后平均单次通信时耗都降到了800ms内。

技术分享图片

 

架构演进之二, 配置、发布及数据处理

 针对海外的机房差异性大的特点,我们设计了一套配置的统一推送同步系统,譬如针对合作商网络,布置中间层代理,对于不同地域,将配置打标记做差异化减少网络数据流量,并且实现应用及活动规则等细粒度配置同步,同时,还能实时获得各配置下发的进度及生效情况,最终实现的配置的跨国秒级下发。

技术分享图片

针对海外机房众多的问题,还研发了全球发布平台,能根据各地域机房情况采取相应的最优化发布策略,最终实现即时的按需发布。

技术分享图片

 

随着发布地点的增加, 监控和交易数据的实时处理愈发重要,我们构建了一个集中式的数据收集及处理平台,最终实现秒级的全球交易异常告警及数据稽核。

技术分享图片

 

架构演进之三,跟随部署

 计费针对海外的机房环境差异及机器数限制,采用了两项策略。


一项解决环境依赖,譬如,对能提供docker类虚拟化容器环境的,构建计费系统的镜像来部署;对不能提供虚拟化容器的,在自有的开发框架层上,直接打包开发环境的runtime,不再依赖部署机器的runtime,同时,还提供这些runtime的hook,使得框架中的app也不再依赖部署机器的runtime。最后,对于app使用的特定库,要求尽量采用静态编译的办法来解依赖。


另一项, 对于机器数量有限制的,采取灵活适配的办法,通过将大的系统模块完全微服务化来达成。微服务化后,每个系统都有一个或多个app组成, 而这些app均可以在统一的框架下运行,这样最少3台机器(考虑存储的需要)就可以部署所需要的全部功能, 并且,微服务化后还使得计费部署能根据场景灵活组合做最佳化适配。细节如下图

 

技术分享图片


架构演进之四,框架与交易引擎

前面讲到要完全微服务化,随着逻辑被分拆,app增多,会面临新的服务治理的问题,一方面是服务间的访问调度,一个是服务内逻辑的可控性。


对于服务调度,我们开发了TDF框架,来实现服务间的动态路由、负载均衡、灰度、引流、流控等管理。

技术分享图片

 

对于服务内逻辑,特别是计费强调高一致事务类的,我们开发了交易引擎 TDXA,通过范式定义来简化XA事务开发,如包括 TCC TRY_BESTDB及几者的混合处理等,实现事务及异常处理的完备;同时引入图形化的流程管理,使得逻辑流程可以通过图检查来确保完备,还可以展示某个请求的处理过程,这使得流程更加清晰化,增强逻辑可维护性。

技术分享图片

 

架构演进之五,跨地域动态迁移


在跨地域情况下,严重的时耗问题使得远程访问代价过大,这时就需要有办法能将远程访问尽量变本地化,下图是我们考虑的策略,根据用户的就近位置来决定数据归属。如对同一个账户表,如果用户位置变动是短暂行为,则仍旧是远程访问原位置数据,如果位置明确变动,则会自动做数据的平滑迁移,即短期的数次远程访问后,会将数据搬到用户新的所在位置,变成快速本地访问,这可以明显降低交易时耗,提升用户付费体验。

 技术分享图片


经多以上的这些架构调整,最终我们构建了一套全球化的计费系统, 实现如下预定目标:

1.灵活按需部署,按需快速发布、灰度、扩容,并实现高可用


2.多主中心 + 各小中心 + 集中式运营,具体为:

A)自营全球7大机房,外发部署就近8国,覆盖全球主要区域

B)4大POP加速点, 3大远程代理, 单次通信时耗降低到1s内;

C)海外已接入40个渠道,基本涵盖各区域主流渠道

D)业务接入周期从1月降低到3天,实现秒级的发布与异常告警;

E)数据跨地域动态迁移,基本做到全本地化访问,进一步降低付费时耗。


3.我们认为这是目前阶段能达到的较合理的计费体系,线上运行也表明符合预期。

技术分享图片

      

结束语

经过持续建设优化,Midas米大师已成为一套完备的全球性、全场景、一站式整体解决方案。支付的持续发展有赖于付费场景的扩展,Midas欢迎各类业务的洽谈接入与合作。米大师自身也将继续追求技术的突破,不断迭代演化,为各业务营收带来更大的价值。

 

专题介绍

ArchSummit全球架构师峰会是InfoQ中国团队推出的面向高端技术管理者、架构师的技术大会,参会者数量1000+。其中,出品人及演讲嘉宾中高级技术专家比例占79%,90%拥有10年以上开发经验。本次“TEGer在全球架构师峰会”专题将带来TEG人在会上的系列主题分享。


技术分享图片

在pgconf.asia-主论坛,纵览腾讯云postgresql技术演进

演讲时段:12.1410:50-11:20演讲主题:腾讯云PostgreSQL生态演进与技术架构分享演讲嘉宾:刘少蓉博士,腾讯云数据库技术专家组负责人会场:主论坛作为腾讯云数据库技术专家组负责人,刘少蓉博士在主论坛... 查看详情

在pgconf.asia-主论坛,纵览腾讯云postgresql技术演进

演讲时段:12.1410:50-11:20演讲主题:腾讯云PostgreSQL生态演进与技术架构分享演讲嘉宾:刘少蓉博士,腾讯云数据库技术专家组负责人会场:主论坛作为腾讯云数据库技术专家组负责人,刘少蓉博士在主论坛... 查看详情

低延时直播技术优化实践,画质增强技术应用实践,云剪辑架构设计与演进,web端音视频通话技术探索...

快直播,低延时直播技术优化实践Topic《腾讯云快直播低延时播放质量优化实践》费伟 腾讯云专家工程师随着直播行业的快速发展,特别是在疫情的影响下,各种低延时直播需求得到了爆发性增长,以腾讯云快直... 查看详情

腾讯技术工程|腾讯企业级消息中间件cmq技术解密

作者简介:ziza,2012年加入腾讯,一直专注于腾讯中间件产品的建设,主导参与了腾讯消息中间件CMQ、CKafka、MQforIoT等项目,见证了腾讯云消息服务从0到1的整个过程。目前专注于于分布式服务开发与治理平台TSF的建设。大规模分... 查看详情

腾讯技术工程|腾讯移动分析系统揭密

作者简介:foreach,2012年加入腾讯,一直专注于腾讯大数据产品建设,重点参与腾讯移动分析(MTA)、腾讯移动推送(信鸽)等核心产品研发,亲身经历两款产品从0开始到数十万开发者使用的过程。目前专注于系统改造优化,以... 查看详情

摩拜国际化架构如何演进

...在全球十多个机房。自建的DevOps工具链,支撑着数百人的技术团队高速运转。演讲大纲 微服务改造容器化、单元化部署核心系统重构及性能优化海外独立部署DevOps支撑工具链本视频来自 查看详情

腾讯看点cto徐羽:qq浏览器背后的推荐ai中台|aicon

随着信息流和短视频应用的发展,推荐系统已经从传统的单目标浅层网络的中小型架构演进为多目标超大规模深度学习的复杂架构。这种复杂的系统的演进对大规模的训练推理和在线排序提出了非常高的技术要求。另外随着... 查看详情

转载大型网站架构的演进

...淘宝,要解决海量的商品信息的搜索、下单、支付,例如腾讯,要解决数亿的用户实时消息传输,百度 查看详情

高并发大访问量架构设计演进之路归纳总结

...系统的安全架构第09:架构实战案例分析第10:如何成为技术专家系统的垂直伸缩,水平伸缩系统的性能瓶颈:分部式缓存;分布式数据存储,分布式服务架构;强烈的好奇心,工程技术,产生价值赚钱(科学研究不同)扎实的... 查看详情

大数据架构系列:如何理解湖仓一体?

导语 | 本文推选自腾讯云开发者社区-【技思广益·腾讯技术人原创集】专栏。该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口。栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启迪共... 查看详情

大数据架构系列:如何理解湖仓一体?

导语 | 本文推选自腾讯云开发者社区-【技思广益·腾讯技术人原创集】专栏。该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口。栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启迪共... 查看详情

腾讯技术工程|腾讯报告tensorflow首个安全风险谷歌确认并致谢

日前,腾讯发现谷歌人工智能学习系统TensorFlow存在严重安全风险,可被黑客利用带来安全威胁。据悉,该风险是TensorFlow首个自身安全风险,腾讯安全平台部预研团队已向谷歌报告这一风险并获得致谢。腾讯安全平台部预研团队... 查看详情

微信搜一搜在线检索技术演进复盘

作者:kaelhua,腾讯WXG后台开发工程师背景2020年下半年我们(搜一搜工程团队)开发了一个新的内存检索引擎ZeroSearch,并开始对搜一搜背后的大量垂直搜索系统进行升级,随着升级过程中遇到的各种问题和新的需求&#... 查看详情

cdn技术学习笔记

参考资料[CDN内容分发网络架构与四大关键技术][腾讯云论坛-说说CDN技术][阿里云CDN技术演进][阿里云技术揭秘] 架构1.中心 1.1 CDN网管中心不仅能对系统中的各个子系统和设备进行实时监控,对各种故障产生相应的告警... 查看详情

抖音ios工程架构演进

...短短4年间,抖音从零爆发性增长。快速的业务发展也对技术支撑提出了更高的要求,为了保障敏捷的业务开发,提升跨团队的协同合作效率,提高本地研发和CI/CD效率,抖音iOSApp工程架构在不同的阶段进行了不同的技术方案的改... 查看详情

腾讯bugly干货分享微信android热补丁实践演进之路

本文来自于腾讯bugly开发者社区,非经作者同意,请勿转载,原文地址:http://bugly.qq.com/bbs/forum.php?mod=viewthread&tid=1264&extra=page%3D1继插件化后,热补丁技术在2015年开始爆发,目前已经是非常热门的Android开发技术。其中比较著... 查看详情

数据恢复工程师视角看腾讯云静默损坏事件

腾讯云在这次事件中的结论表述为因受所在物理硬盘固件版本Bug导致的静默错误,文件系统元数据损坏:根据这个表述,故障应出现在硬盘固件故障导致的文件系统元数据损坏。这其中,涉及具备因果关系的三个知识点:硬盘固... 查看详情

架构搜集之腾讯信鸽精准推送系统

  查看详情