###好好好好##知识图谱在金融风控领域的应用现状

mishidemudong mishidemudong     2022-12-07     633

关键词:

2020年是个人触碰知识图谱时间最多的一年,技术知识的重新梳理和学习,相关项目的参与,几乎从年初持续到年末。一直想总结知识图谱在金融领域的应用现状,但总是挣不脱一个字:乱。最直观的“乱象”是不同机构对这项技术的称呼五花八门——关联网络、关系图谱、复杂网络、知识图谱。严格来讲它们彼此之间紧密相连又有所区别,本文并不打算严谨地去论证它们的区别和联系,请允许我偷懒采用图谱这个名称来泛指这项技术,就是各位所想的——节点-关系网络。

图谱之乱远不止此。

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。从理论(PPT)角度而言,图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。从理论到实际,中间隔着一条马里亚纳大海沟。为了满足业务需求,现在普遍的做法如下:

梳理数据->设计图谱->构建图谱->社区划分->社群定性->团伙输出

这里有几个值得深入思考的问题:

  1. 图谱的设计是同构图还是异构图
  2. 如果是异构图应该包含哪些实体,如果是同构图,如何定义节点之间的关系
  3. 依赖算法的社区划分,能否得到真实的符合业务需要的社群
  4. 如何进行社群定性 ,定性是否合理
  5. 新数据进来后,如何更新图谱,如何判断新数据的标签结果

除了团伙识别外,知识图谱应用于金融风控的另一个方向是图指标计算。这里体现出图谱应用的又一个乱象:图指标和图的分离。图指标表面看起来和图紧密相关,实际上图指标通常通过大数据平台(hive, spark)而并非利用图数据库计算而来。导致的问题是图指标的结果和图谱的结果不一致。

举例:

假设我们的图谱结构如下:

图指标举例:该账户1度关联账户平均开户天数、该账户2度关联账户平均交易金额、该账户度中心性

上述的指标计算主体都是账户,按照SQL计算的指标结果和图库计算结果是一致的,因为都是以账户为中心关联到其他节点。

但是,业务又提出需求想计算其他主体的图指标,比如:该设备1度关联的IP数量,该设备1度关联账户交易次数等等。现在指标计算主体已经不是账户,如果我们还是按照原来的图谱结构来计算指标,会发现设备1度根本关联不到IP,但是利用SQL从交易流水数据却能算出结果。同一条数据,SQL可以以任意字段group by,然后count其他字段。一种解决的办法是重新设计图谱结构,如下:

理论上这种结构更符合实际情况,账户只有通过设备才能和IP发生联系,但是不论哪种结构都无法完全满足多维度主体的图指标计算,最后的做法只能是图谱归图谱,指标是指标,图谱和指标相割裂。

更为实际的情况远比这棘手,业务需要的指标通常都带有时间窗口的限制,比如过去3天账户1度关联账户交易平均金额、过去7天账户1度关联账户平均交易金额等等,图谱在处理时间窗口数据问题上又显得捉襟见肘。

也许是业界过于神化人工智能的“智能”忽略了“人工”,也对知识图谱自动输出给予非常高的期待而忽视了其最本质最重要的可视化分析功能。此前一次项目交流中,有位业务人员说“你们的图谱产品也就是做了数据可视化,指标计算我用一般的数据库也能算出来呀”。说者无心听者有意,这反映了不少人对图谱最基本的数据展示功能嗤之以鼻,PPT上宣传的那么厉害的技术,当然要更高端大气上档次,怎么能只用它做数据可视化呢。这是图谱认知之乱。图谱将关系数据库中一条条“线状”的数据提升至“面状”或“网状”数据,数据展示形式的变化带来的是获取信息的视角变化,信息丰富度的变化。就像二维空间的蚂蚁永远想象不到三维空间的风景。基于图谱数据可视化,可以做更多关联关系的分析,然而这个分析过程是没有定论,没有约束,没有标准的,智者见智仁者见仁。图谱分析技术(图查询语言)的不统一严重限制了图谱可视化分析功能的普及,没有标准的分析方法也制约了人们正确认知图谱。

那么图谱可视化分析在实际业务场景能做什么?个人经验之谈,最重要的一点:案件排查。信贷场景、交易反欺诈等场景银行端的数据量和数据维度非常充足,构建的图谱自然是十分庞大复杂。图谱的分析首先得找到切入点,通常是有风险的客户、账户,进而关联出对应的公司、电话、家庭地址、设备等其他实体。通过从案件节点入手,利用图谱研究欺诈分子间的关联关系,顺藤摸瓜识别出其他可疑分子。利用图谱进行案件排查还有可能发现风险群体之间的特殊关联模式,典型的有传销账户金字塔结构,洗钱账户金字塔和倒金字塔结构。还有一些非常见的模式,如下图所示,两个客户(黄色节点)通过联系人(绿色节点)和联系电话(粉色节点)形成了交叉匹配关联,利用传统数据分析很难发现这种没有任何直接共同节点关联的联系。图谱可视化分析对解释团伙关联风险,理解作案手法起到巨大作用。遗憾的是就目前而言,这个过程无法实现自动化,非常依赖分析人员的技术和业务水平,有着一定的使用门槛。风控业务人员关心的是技术产出的结果,花钱采购了一个宣传得NBHH产品,然而还要求自己学习新技术才能使用,不能够自动产出风险名单,这种赔了夫人又折兵吃力不讨好的事甲方可不干。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。从解决方案层面,图谱的全应用流程如下:

图谱应用目前的重点是上述流程图的前四个部分,第五部分列举了两种图谱和机器学习相结合的方式,分别是利用图谱构建机器学习特征和利用图谱构建图神经网络。如前所述,走过前四步,尽管还未走得踏实,第五步终将很快到来。

“不识庐山真面目,只缘身在此山中”,图谱在金融风控中的作用毋庸置疑,但是现实项目里总是会被各类问题缠绕不开。暗流涌动之下,图谱目前的乱象是技术从学术应用到工业必经之路,既是机遇,也是挑战。关于图谱技术及应用更多的细节无法用一篇文章完全阐述,后续会用图谱专题做深入探讨。

知识图谱在金融领域的应用

一.知识图谱和金融领域简述什么是知识图谱?借鉴其中一个理解:知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。 具体理论知识就不在此赘述,对于这个抽象的概念会有一... 查看详情

大规模高质量的金融知识图谱,如何自动化构建?

知识图谱(KnowledgeGraph,KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系,目前已经成为认知智能的基石,是发展人工智能的核心技术,它让机器语言认知、可解释人工智能成为可能,能够显著增强机... 查看详情

知识图谱+金融

在整个技术链条中,知识图谱居于核心的地位,可以说是金融报表电子化(以XBRL为代表)以来又一次质的飞跃。知识图谱是金融数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,是把人的经验和人脉... 查看详情

nlpir技术运用知识图谱技术应用于智能金融

...、微观资讯中发现、分析并整合与各类决策相关的信息。知识图谱在金融中有多项应用,首先通过信息检索技术获取相关文本,然后借语义分析技术从非结构化文本中提取结构化的信息,最后将这些信息加以提炼,并且使之关联... 查看详情

一文get汽车知识的语义网络及图谱构建

...、李本阳出品 |AI科技大本营(ID:rgznai100)知识图谱的概念最早由Google在2012年提出,旨在架构更智能的搜索引擎,2013年之后开始在学术界和产业界普及,目前很多大型互联网公司都在积极部署本企业的知... 查看详情

一文get汽车知识的语义网络及图谱构建

...、李本阳出品 |AI科技大本营(ID:rgznai100)知识图谱的概念最早由Google在2012年提出,旨在架构更智能的搜索引擎,2013年之后开始在学术界和产业界普及,目前很多大型互联网公司都在积极部署本企业的知... 查看详情

这是一份通俗易懂的知识图谱技术与应用指南

...证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文以通俗易懂的方式来讲解知识图谱相关的知识、尤其对从零开始搭建知识图谱过程当中需要经历的步骤以及每个阶... 查看详情

人工智能技术在金融风控领域中的应用

...控介绍信贷业务就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段。通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概... 查看详情

知识图谱实战应用1-知识图谱的构建与可视化应用(代码片段)

大家好,今天给大家带来知识图谱实战应用1-知识图谱的构建与可视化应用。知识图谱是一种概念模型,用于表示和组织实体之间的关系,从而实现大规模的语义查询和推理。一、知识图谱的应用领域1.搜索引擎:... 查看详情

读书笔记-《好好学习》

买书如山倒,看书如抽丝???融会贯通概要什么是临界知识如何掌握临界知识学习知识心态什么是知识改变人的行为,认知的信息都是知识,玩游戏,看电视临界知识用有限的时间,去掌握那些被广泛应用的、重要的基本规律... 查看详情

a.特定领域知识图谱知识推理方案:知识图谱推理算法综述[一](基于距离的翻译模型:transetranshtransrtranshtransarotate)(代码片段)

推荐参考文章:A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[一](基于距离的翻译模型:TransE、TransH、TransR、TransH、TransA、RotatE)A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[二](DTransE/PairRE:基于表... 查看详情

b.特定领域知识图谱知识推理方案[一]:基于表示学习的知识感知推理算法[对抗负采样logicrule,链接预测任务]在关系预测推荐场景下应用

推荐文章:推荐参考文章:A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[一](基于距离的翻译模型:TransE、TransH、TransR、TransH、TransA、RotatE)A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[二](DTransE/Pair... 查看详情

知识图谱可以用python构建吗?

参考技术A知识图谱可以用python构建吗?答案当然是可以的!!!那么如何使用python构建什么是知识图谱从Google搜索,到聊天机器人、金融风控、物联网场景、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。它在技... 查看详情

chatgpt在医疗领域的应用

第10章ChatGPT在金融领域的应用10.1金融领域的现状和需求随着科技的不断进步,金融领域也越来越需要依靠人工智能技术来提高效率和准确性。ChatGPT作为一种自然语言处理技术,在金融领域中也有着广泛的应用。本节将从ChatGPT在... 查看详情

最新风控模型竞赛开始了!金融大数据应用-企业信贷风险防控-中国建设银行数据集-作者开箱测评

...涉及,特别是以生物特征识别、机器学习、计算机视觉、知识图谱等技术赋能下的金融行业,已经衍生出智能营销、智能身份识别、智能客服等多个金融人工智能典型场景。 赛题任务  1.将金融数据与政务数据相结合,可自... 查看详情

a.特定领域知识图谱知识推理方案:知识图谱推理算法综述[四](基于图传播的模型:node2vecgcngraphsagegeniepath等)算法汇总和应用场景归纳(代码片段)

推荐参考文章:A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[一](基于距离的翻译模型:TransE、TransH、TransR、TransH、TransA、RotatE)A.特定领域知识图谱知识推理方案:知识图谱推理算法综述[二](DTransE/PairRE:基于表... 查看详情

特定领域知识图谱知识融合方案(实体对齐)

优酷领域知识图谱为例基础方案1.1领域知识图谱模式层构建(业务侧已完成)在领域知识图谱中,模式层(SchemaLevel)的构建一般会先于数据层,知识图谱的schema在构建过程中,不仅借助行业专业人员并对大量的底层数据做分析和... 查看详情

知识图谱1

知识图谱利用图形化信息建立起各信息之间的关系,主要用来搜索相关信息,随着现在技术和要求的提高,用知识图谱来预测推断也成为了新的研究方向。在经济领域和医疗领域都有现实应用,需要广泛的数据以... 查看详情