正文

问答知识库快速构建技术解析及行业实践

中关村科金  中关村科金  2022-12-28  744

关键词：

对话式AI类产品，已经在各行各业中实现规模化的应用。随着科技创新支撑下的高质量行业发展，人工智能已成为数字经济时代的核心生产力。其中对话式AI，作为人工智能技术的一个分支，随着深度学习、预训练模型等技术的突破，逐渐在各行各业中实现了从产品测试到规模化应用的落地。比如：智能客服、外呼机器人、语音助手等产品应用。

据艾瑞咨询2022年《中国对话式AI行业发展白皮书》所示，预计到2026年，对话式AI的核心产品规模将达到108亿元，带动相关产业规模超385亿元，2021~2026年的年均复合增长率（CAGR）分别为18.9%和25%；对话式AI作为“替代与辅助人工”的核心应用，为市场最原始直观的“降本增效”价值诉求提供了先行落地的有效解决方案。众多企业将引入“对话式AI”作为智能化转型的首要试验田。

艾瑞咨询：2019-2026年中国对话式AI产品及带动相关产业规模

企业在应用对话式AI产品中，通常会遇到以下两个痛点：

1、部署阶段-问答知识库构建周期长，用户冷启动门槛高。主要表现在：1、企业数据分散在会话日志、网页等多种文档中，需要人工收集。2、企业数据积累较少，需要业务专家介入梳理。3、人工标注成本居高不下，易受个人主观意识左右，影响模型训练效果。

2、运营阶段-AI服务效果不稳定，且缺乏有效的监控手段，不能及时进行模型调优。主要表现在：1、系统中人工构建知识库质量不可控，导致AI服务效果不稳定。2、系统对未覆盖知识无法做到及时发现，导致无法回答，用户体验差。3、系统无法对错误案例（BadCase）及时分析，模型无法及时更新。

上述两个痛点说明，对话式AI产品若要实际满足用户需求，仅拥有对话能力是不够的，更需要完善的问答知识库作为底层支撑。换句话说，问答知识库的规模和质量直接决定了对话式AI产品的整体服务效果。然而仅靠人力堆积的模式来构建和运营知识库，不仅服务质量得不到保证，而且项目运营成本也存在失控的风险，早已无法适应市场的要求和增速。

问答知识库的快速构建及闭环运营能力，是解决上述两个痛点的关键。

问答知识库快速构建及闭环运营的核心技术介绍

问答知识库的构建和运营是一项系统工程，冷启动阶段运用系统工具辅助人工快速构建知识体系，推进对话式AI落地；运营阶段运用大数据挖掘技术，实现价值数据自动回流，知识库持续更新。两套体系搭建完成后将形成数据闭环，并相辅相成，逐步形成“双飞轮”的自运营体系。其整体运行逻辑如下图：

知识构建及闭环运营工具流程图

如图所示：冷启动阶段运用知识挖掘、智能标注、智能荐句、质量检查等工具辅助人工快速构建知识体系；运营阶段运用新知识发现、BadCase分析、质量检查等工具保持模型持续迭代。其中用到的核心技术主要有文本聚类、样本增广、知识质量检查等。下面就针对这些核心技术做下介绍。

1、文本聚类技术，可以为知识库持续挖掘和发现新的知识：

文本聚类技术在知识构建及闭环运营工具中，主要用于新知识的发现（无法聚到现有的任何一个意图类别中）和拒识问题的归纳（可以聚到现有意图体系中，但是现在无法应答，需要人工处理）。当前的主流算法为无监督句向量表示+聚类算法，聚类算法常采用K-means、DBSCAN等，目前常用的无监督句向量表示方法有：

表1.目前常用的无监督句向量表示方法

随着深度学习的发展，预训练模型目前是向量表示的主流方法。最简单的方式是使用BERT的[CLS]token对应的embedding作为整句话的句向量表示。但是该向量存在向量坍塌的问题，即使差异性非常大的两个句子，相似度得分也可能会比较高。因此引入了对比学习，对比学习主要思想是让相似的文本对应的向量表示尽可能接近，不相似的文本对应的向量尽可能远离，目前预训练+对比学习是获取无监督句向量的主流方法。

经过调研，研究院团队将句向量的获取方式由无监督升级为了半监督，将少量带标注的先验知识融入模型，使模型能够学习到更具区分性的向量表示，从而进一步提升了文本聚类的效果。下图为某电商场景半监督聚类和无监督聚类效果对比，可以明显看出半监督聚类结果更加内聚（半监督对于相似的文本只聚出了3类，而无监督聚出了7类）。

表2.某电商场景半监督聚类和无监督聚类效果对比

我们也在公开数据集上对比了各种聚类算法的效果，半监督模型+对比学习的效果提升明显。

表3.公开数据集上各聚类算法的效果对比

聚类效果评价指标：

NMI(Normalized Mutual Information, 标准化互信息)

AMI(Adjusted Mutual Information, 调整互信息)

AR(Adjusted Rand, 调整兰德指数)

文本聚类在实践中发现的新知识和重新归纳的拒识问题经人工审核，采用率可达87%。大大降低了运营人员人力投入。为提升聚类速度，我们使用batch K-means替换K-means算法，在聚类效果不变的情况下，速度提升了近3倍。

2、样本增广技术，可以解决知识库语料稀少和不平衡的问题：

样本增广技术，主要应用在智能荐句工具中解决知识库语料稀少和不平衡问题。当前主流样本增广算法如下：

表4.当前主流样本增广算法

中关村科金人工智能研究院结合一线运营人员与客户的实际应用反馈，系统分析了上述各方案的优缺点之后，创造性地提出了一种融合了文本检索和生成式样本增广的技术，作为最终的样本增广方案。

其中文本检索是利用研究院积累的大量真实行业知识语料（已脱敏）作为检索底库，基于文本语义向量匹配技术从底库中获取语义相似样本，可以同时兼顾增广样本的多样性、准确性和真实性。我们采用融合了对比学习的半监督预训练模型获取文本语义向量，用余弦相似度作为度量指标，为提升检索速度，使用了milvus向量索引。生成式样本增广我们采用了Prefix_LM结构模型，然后在生成结果基础上做了进一步的数据后处理。

大致流程为：当用户输入待增广样本，系统先从历史积累的语料库中检索相似样本，当检索数量能达到用户需求时，直接返回检索结果；如果数量不足，再通过生成式样本增广算法进行扩充。考虑到生成式样本增广的不可控问题，我们做了两个数据后处理操作，进一步提升生成样本的质量。一是通过计算生成样本与原始样本的相似度，如果相似度太低则不采纳该生成结果；二是通过语言模型对生成样本进行打分，如果分数太低也不采纳。最终增广样本的人工采用率近70%，大大降低了运营人员人力投入成本。下面以“怎么提现呢”为例，样本增广效果对比如下：

表5.样本增广效果对比

3、知识质量检查技术，可以检测数据标注质量并对潜在错误样本进行矫正：

知识质量检查技术主要用于评估数据标注质量并挑选出潜在的标注错误样本。我们采用了Cleanlab工具，对标注样本进行了1~5的噪音指数评分，值越高说明人工标注结果越有可能存在错误，需要对标注进行复核纠正。经过质量检查和标注矫正后，意图识别准确率平均可提升6%~15%。以保险领域的一部分知识为例，质量检查结果如下：

表6.某保险场景部分知识质量检查结果

问答知识库构建技术助力多行业快速落地对话式AI

中关村科金人工智能研究院自主研发的问答知识库快速构建工具，目前已在保险、电商、银行、零售等多个行业，永安保险、步步高等多个头部企业中，实现落地应用。在上述场景中，基于文本聚类技术进行新知识发现，可发现占对话日志总量2%~3%的无法应答的新知识，经人工审核，采用率可达87%；智能荐句工具通过样本增广技术为每条知识平均增广10条相似样本，经过人工审核，采用率近70%；知识质量检查工具可以在减少85%人工审核工作量下提升10%的意图识别准确率；BadCase分析及回流工具平均每周可以自动回流一次知识库并重新训练一次模型。

实践证明，问答知识库快速构建及闭环运营工具可至少节省2/3的知识库运营和维护人力，使冷启动和知识库更新时间缩短近70%。

总结与展望

现阶段对话式AI技术应用的业界难题，主要是新场景中对话机器人的冷启动问题。上面介绍了我们在快速构建问答知识库上的工作，在一定程度上解决了冷启动问题，使冷启动和知识库更新时间缩短近70%，但是仍然需要一定的人力在工具的辅助下进行知识库审核和构建。目前流行的基于提示学习prompt的小样本学习，可充分利用预训练模型在大量无监督数据集上学习到的丰富知识，进一步减少冷启动所需要的数据量和人力投入。

未来，中关村科金将利用现有的知识库快速构建技术，结合最新的小样本学习方法，进一步缩短对话式AI的部署周期，为企业的智能化转型和对话式AI的大规模快速落地提供有力的支持。

作者：李宽中关村科金人工智能研究院高级算法研究员

论文笔记基于知识图谱的农业智能问答系统

基于知识图谱的农业智能问答系统前言知识图谱简介知识图谱生命周期知识获取知识抽取知识存储与应用相关技术和工具农业知识图谱构建流程本体层构建实体层构建基于Neo4j的农业知识图谱问答系统算法设计基于知识图谱的问... 查看详情

这个工具可以快速构建问答社区

...帮助你快速构建一个问答系统，用于提供客户服务、知识库管理等场景。系统支持多种输入输出方式，包括命令行、HTTPAPI、自然语言处理等，可以方便地集成到各种应用中。以下是answer项目的核心卖点，查看详情

kg美团知识图谱问答技术实践与探索(代码片段)

美团知识图谱问答技术实践与探索1背景与挑战2解决方案2.1Query理解2.2关系识别2.3复杂问题理解2.3.1带约束问题2.3.2多跳问题2.4观点问答2.5端到端方案的探索3应用实践3.1酒店问一问3.2门票地推3.3商家推荐回复4总结与展望1背景与挑... 查看详情

如何快速构建自己的数据中台知识体系

最近订阅学习了郭老师的《数据中台实战课》专栏，一口气学完后，做了一些总结笔记分享给大家，希望会对你有所帮助！总结的文章我会分为上下两篇来写，先讲原理，再谈实践，从原理到技术，最后到实践。这样大家也能跟... 查看详情

行业知识图谱的构建及应用

【说在前面】本人博客新手一枚，象牙塔的老白，职业场的小白。以下内容仅为个人见解，欢迎批评指正，不喜勿喷！[认真看图][认真看图]【补充说明】如果你对知识图谱感兴趣，欢迎先浏览我的另一篇随笔：基于图模型的智... 查看详情

acmmm2021｜在多模态训练中融入“知识+图谱”：方法及电商应用实践

...产业界的广泛关注。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。作者|朱渝珊来源|阿里技术公众号一背景1多模态知识图谱随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识... 查看详情

问答系统介绍

...言处理问题，通过对问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。对事实性问答任务而言（如政策问题）这种做法依赖于知识图谱，准确率比较高。要求知识图谱是比较大规模的，因为KB-QA无法给出在知... 查看详情

一文看懂大数据生态圈完整知识体系大数据技术及架构图解实战派

...据行业从零到一的发展历程，通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。目前大数据生态圈中的核心技术总结下来如图1所示，分为以下9类，下面分别介绍。图1一、数据采集技术框架数据采集也被称为数据... 查看详情

简单构建基于rdf和sparql的kbqa（知识图谱问答系统）

...运行通过。注：KBQA即是我们通常所说的基于知识图谱的问答系统。这里简单构建的EasyKBQA，数据来源于网络，源码地址看下面补充说明。目录：　　-流程原理　　-实际过程　　-程序运行　　-补充说明流程原理：该问答系统可... 查看详情

nlpir搭建行业知识图谱实现智能客服应用

...高效的专业知识图谱服务。用户只需提供数据与需求，可快速获取知识图谱成果。文档解析：KGB知识图谱引擎，可解析多种格式与版本文档：TXT、DOC、EXCEL、PPT、PDF、XML等。对于图片信息，OCR可自动查看详情

在线文本实体抽取能力，助力应用解析海量文本数据(代码片段)

...现过程中，则需要用到文本实体抽取能力识别问题和知识库中的实体信息，再通过多种算法模型匹配出精准回答。信息索引使用在线文本实体抽取能力，可命名特定实体信息作为索引和超链接。比如用户在评论时提到... 查看详情

汉语语法

...分词、文本分类、命名实体识别、句法分析、信息抽取、知识库构建、主题词识别、自动摘要、智能问答、语义理解、对话生成、话题推荐、语言模型、机器翻译、语义表示等方面在中文中的快速发展和广泛使用，必须很好的掌... 查看详情

知识图谱--概念与技术

...术、涵盖词汇挖掘、存储、查询与检索；推荐、自然语言问答，以及自然语言理解。内容还是通俗易通的查看详情

angularcli介绍及配置文件主要参数含义解析

使用AngularCLI可以快速，简单的搭建一个angular2或angular4项目，是只要掌握几行命令就能构建出前端架构的最佳实践，它本质也是使用了webpack来编译，打包，压缩等构建的事情，适合想用webpack的特性又不想学习webpack那些复杂的配... 查看详情

kgb知识图谱在智能问答方向发挥技术特色

...然语言问题，通过对问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。与对话系统、对话机器人的交互式对话不同，智能问答具有以下特点：答案：回答的答案是知识库中的实体或实体关系，或者no-answer（即... 查看详情

等级保护知识问答

等级保护知识问答一、什么是等级保护？答：信息安全等级保护是指对国家重要信息、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护，对信息系统中使用的信息... 查看详情

年度发布｜华为云2021应用构建技术实践精选集，免费下载

...为云社区精选。在这充满变化的年代，数字技术正在快速发展。Cloud2.0时代已经到来，各行各业对数字化、在线化、智能化的需求越来越迫切。每一位身处其中的开发者都可以创造独特价值。然而，开发者普遍会遇... 查看详情

布比并行快速的多链分片技术特性及实现原理|商用区块链bubichain详解

总体而言，区块链技术的大规模商业化仍处于相对早期的阶段。企业对区块链技术的性能和易用性的高要求、区块链技术本身的可扩展性瓶颈和运营效率低下构成了目前制约行业发展的主要矛盾。基于大量的商业实践和区块... 查看详情