腾讯ailab计算机视觉中心人脸&ocr团队近期成果介绍

腾讯云加社区 腾讯云加社区     2022-10-04     571

关键词:

欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~

作者:周景超

上一期中介绍了我们团队部分已公开的国际领先的研究成果,近期我们有些新的成果和大家进一步分享。

1 人脸进展

人脸是最重要的视觉信息之一。以貌识人、以貌取人是人的本性,也是最自然、最常用的身份确认和交互方式之一。互联网和移动互联网上每天上传和传播的天文数字级别的照片中有很大一部分都是和人脸相关的(比如国际知名互联网公司Facebook每天都有亿级以上的海量人脸照片和视频上传),因此人脸检测与识别技术在学术界和工业界都备受关注,是各种国际前沿视觉技术的重要检验场之一。

在上一期中已介绍了我们团队在人脸检测与人脸识别上所取得的世界领先的原创性成果,迄今为止,我们团队在人脸检测的国际最权威评测平台WIDER FACE的所有三个测试子集、人脸识别的国际最权威评测平台Megaface Challenge 2(不同于Megaface Challenge 1,Megaface Challenge 2严格限定参赛者使用官方提供的固定的训练数据以公平地对比不同人脸算法的性能)的所有测试任务中都取得世界第一的性能。众所周知,原创性技术和落地应用这二者是密切相关、相辅相成的,一方面,原创性技术需要在落地应用场景中检验其有效性并帮助解决工业界的实际需求。另一方面,工业界的很多实际需求是之前长期存在但是在技术层面长期解决不了的,对这些技术难题如果没有真正创新性的技术突破也就难以真正解决。

就应用进展而言,我们团队自主研发的人脸技术已经接入公司的若干重要场景下的应用业务。其中一个是TEG信安业务场景,目的是精准识别海量上传图像中的敏感人物,针对带有敏感人物的图片或视频进行拦截。该项目的难点在于待识别的敏感人物会以各种形式出现在图片当中,比如漫画和处理过的照片都是比较难的情况。我们采用自主研发的人脸识别模型对该问题进行了建模,同时利用TEG信安提供的业务数据对业务场景进行了优化。

我们的人脸技术接入的另一个重要业务是MIG互联网+合作事业部政企项目组的腾讯慧眼项目。腾讯慧眼项目主要针对政务和生活场景,通过人脸验证完成自动化的身份鉴别,方便百姓远程办事,让数据多跑路,百姓少跑腿,为百姓带来更多“刷脸”办政务的创新场景。在政务场景下的人证比对中,我们的人脸技术在内测的业务数据上已达到甚至超过了知名人脸公司依图科技(与商汤科技、旷世科技齐名的人脸巨头公司)的精度。目前该项目正在进展中,并将在近期开放至腾讯慧眼项目的开放平台上。

此外,我们的人脸技术还广泛应用在了内部团队其他视觉相关项目中。例如在我们的图像数据分类项目中,人脸检测技术用于辅助半自动的标注任务。在AI Lab自研的AI有嘻哈项目中,人脸技术也将被用于识别图片中的名人脸,以便进一步的提高图片配文的质量。

2 OCR进展

2.1 ICDAR竞赛

在上一期中介绍了我们团队在OCR的ICDAR Robust Reading竞赛中所取得的佳绩。该竞赛有两个很重要的竞争很激烈的场景:互联网图片场景图像(Born-Digital Images)和对焦自然场景文本图像(Focused Scene Text Images)。我们在这两个场景的文本定位任务(Task 1: Text Localization)和单词识别任务(Task 3: Word Recognition),一共四个任务上都取得第一名的佳绩。一般对每个场景的Robust Reading竞赛,传统上分成四个任务:文本定位、文本分割(Text Segmentation)、单词识别、和端到端识别(End to End)。在传统OCR时代,识别图片中的文本必然经过检测、分割和识别三个阶段。在深度学习时代,近年来由于RNN的出现,对于检测到的单词可以直接训练网络做识别,分割这个任务已没有太大意义,成为鸡肋,也没有团队参加这项任务,ICDAR 2017年公布的新的竞赛数据集,如:COCO-Text,直接取消了这项任务。

近期我们向OCR的ICDAR Robust Reading竞赛的最终目标(端到端识别,即采用端到端的方法识别图片中的文本)发起冲击,并取得突破,在上述两大重要场景的端到端识别上也都获得第一名。值得一提的是,迄今为止我们在这OCR的两大重要场景上都实现了大满贯,超过了该领域的众多强劲对手(百度、阿里、商汤、旷世科技、和各大高校),囊括了所有的6项冠军(忽略已经被淘汰的分割任务)。

就技术手段而言,我们基于在该领域的深厚技术底蕴(人脸与OCR的很多底层技术是相通的)以及在参加文本定位和单词识别任务中所积累的国际领先技术,进一步采用了级联训练(Cascade Training)的方法,把文本定位网络和单词识别网络集成起来,使得结果可以正向流动、反馈可以逆向传播。凭借着这种方法,我们在互联网图片和对焦自然场景文本图片这两个重要场景的端到端任务上都获得第一名的佳绩,截图如下所示。

相关链接:http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=4

技术分享图片

图2. 互联网图片端到端任务上的排名

互联网图片端到端任务部分结果如下图所示,详细结果可在网站上查询:http://rrc.cvc.uab.es/?ch=1&com=evaluation&view=method_samples&task=4&m=31774>v=1

 

技术分享图片技术分享图片技术分享图片

图3. 互联网图片端到端任务的部分结果

相关链接:http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=4

技术分享图片

图4. 对焦自然场景文本图片端到端任务上的排名

对焦自然场景文本图像端到端任务部分结果如下图所示,详细结果可在网站上查询:http://rrc.cvc.uab.es/?ch=2&com=evaluation&view=method_samples&task=4&m=31791>v=1

 

技术分享图片技术分享图片技术分享图片

图5. 对焦自然场景文本图片端到端任务的部分结果

 

3 小结

人脸&OCR团队一直以来按照“夯实基础,做既有创新性又能落地应用的国际前沿工作”这个研究思路开展和推进工作,迄今为止我们不仅在人脸与OCR的多项国际权威榜单名列榜首,而且我们的技术在公司的多个重要的场景中得到了很好的应用。近期,我们团队参与的“AI在腾讯信息安全中的应用”项目获得了2017年下半年技术突破奖银奖,截图如下。

 

技术分享图片

在2017腾讯全球合作伙伴大会上,AI Lab计算机视觉中心负责人刘威博士也向公司的合作伙伴和行业精英介绍了我们团队在人脸与OCR上的若干研究成果,如下图所示:

 

技术分享图片技术分享图片

人脸&OCR团队将继续以踏实、进取的态度做好研究工作和项目落地,不忘初心,继续为人脸与OCR的技术发展贡献自己的力量。

 

相关阅读

腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍(1)

腾讯 AI Lab 计算机视觉中心人脸 & OCR 团队近期成果介绍 ( 2 )


此文已由作者授权腾讯云技术社区发布,转载请注明原文出处

acmmm&eccv2022|美团视觉8篇论文揭秘内容领域的智能科技

...广泛。前不久,美团视觉智能部的8篇论文被多媒体和计算机视觉领域顶会ACMMM与ECCV收录,本文将快速带你了解这8篇论文的研究成 查看详情

eccv2018|ubc&腾讯ailab提出首个模块化gan架构,搞定任意图像ps组合

...配对也不能组合。在本文中,英属哥伦比亚大学(UBC)与腾讯AILab共同提出了一种新型的模块化多域生成对抗网络架构——ModularGAN,生成的结果优于以上三种基线结果。该架构由几个可重复利用和可组合的模块组成。不同的模块... 查看详情

acmmm&eccv2022|美团视觉8篇论文揭秘内容领域的智能科技

...广泛。前不久,美团视觉智能部的8篇论文被多媒体和计算机视觉领域顶会ACMMM与ECCV收录,本文将快速带你了解这8篇论文的研究成果及其可在内容领域的落地应用。内容生产围绕素材解析、创意生成、展示自适应等内容生... 查看详情

从研究到应用:腾讯ailab的自然语言理解和生成

3月16日在腾讯AILab第二届学术论坛上,腾讯AILab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。自然语言的理解自然语言理解的目标是... 查看详情

Azure 认知服务 - 计算机视觉 - OCR 不适用于手写

】Azure认知服务-计算机视觉-OCR不适用于手写【英文标题】:AzureCognitiveService-ComputerVision-OCRnotworkingforHandwriting【发布时间】:2021-10-2604:37:04【问题描述】:我正在尝试使用Azure认知服务的计算机视觉OCR。我可以为图像中的计算机... 查看详情

cvpr2022|处理速度仅用0.2秒!港科大&腾讯ailab开源基于gan反演的高保真图像编辑算法...(代码片段)

...微信技术交流群迈微导读 本文介绍了一篇来自港科大和腾讯AILab已被CVPR2022收录的工作。工作提出了一种新颖的高保真GAN反演框架,该框架能够在保留图像特定细节(例如背 查看详情

cvpr2022|处理速度仅用0.2秒!港科大&腾讯ailab开源基于gan反演的高保真图像编辑算法...(代码片段)

...微信技术交流群迈微导读 本文介绍了一篇来自港科大和腾讯AILab已被CVPR2022收录的工作。工作提出了一种新颖的高保真GAN反演框架,该框架能够在保留图像特定细节(例如背 查看详情

python计算机视觉:人脸识别

讲明一下:并没有实现人脸识别的算法,只是利用人脸特征文件(文件从官网上下载),从而进行人脸识别,总感觉识别出来的效果还是有问题的,如:图片最好是人脸的正脸。1.人脸特征文件下载直接去github或者gitee(建议gitee)上... 查看详情

[计算机视觉]人脸应用:人脸检测人脸对比五官检测眨眼检测活体检测疲劳检测

人脸应用在计算机视觉体系中占很大一块,在深度学习火起来之前,基于传统机器学习的人脸应用就已经很成熟了,有很多商用应用场景。本文用一个可以实际运行的Demo来说明人脸应用中常见的技术概念,包含‘... 查看详情

谷歌视觉 OCR 数据表

...描述】:我正在探索用于OCR的GoogleVisionAPI。我们有很多由计算机生成并由用户填写的表格。就像医疗报告和登记表一样。我们需要处理这些图像并从中取出角色。我已经尝试过GoogleVisionAPI,它在计算机生成表单的情况下效果很好... 查看详情

Azure 计算机视觉 API - PDF 文件上的 OCR 到文本

】Azure计算机视觉API-PDF文件上的OCR到文本【英文标题】:AzureComputerVisionAPI-OCRtoTextonPDFfiles【发布时间】:2019-03-0415:42:35【问题描述】:我正在尝试利用计算机视觉API对作为扫描文档但被视为图像PDF的PDF文件进行OCR。我已经对其进... 查看详情

腾讯技术工程|腾讯ailab11篇论文精选:图像描述nmt模型图卷积神经网络等

...018将于2月2日至7日在美国新奥尔良举行,在本届大会上,腾讯AILab有11篇论文被录用,涉及图像描述、更低计算成本的预测表现、NMT模型中的特定翻译问题、自适应图卷积神经网络、DNN面对对抗样本的优化问题等,本文精选了11篇... 查看详情

腾讯副总裁姚星:腾讯ailab将致力打造通往agi之路

背景:3月15日,腾讯AILab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。今天,腾讯副总裁... 查看详情

遇到选项卡时 Microsoft Azure 计算机视觉 OCR 添加换行符

】遇到选项卡时MicrosoftAzure计算机视觉OCR添加换行符【英文标题】:MicrosoftAzureComputerVisionOCRAddsNewLinewhenTabEncountered【发布时间】:2021-12-0304:16:26【问题描述】:OCR响应似乎将任何大于标准空格的空格作为新行返回。想知道客户端... 查看详情

使用计算机视觉深入学习和创建现代ocr管道

...据和发票等项目。我们的移动文档扫描仪仅输出图像-就计算机而言,图像中的任何文本都只是一组像素,无法复制粘贴,搜索或您可以对文本执行的任何其他操作。因此,需要应用光学字符识别或OCR。此过程从我们的文档扫描... 查看详情

计算机视觉40例案例32:定位人脸(代码片段)

【导读】本文是专栏《计算机视觉40例简介》的第32个案例《定位人脸》。该专栏简要介绍李立宗主编《计算机视觉40例——从入门到深度学习(OpenCV-Python)》一书的40个案例。目前,该书已经在电子工业出版社出版&#x... 查看详情

计算机视觉项目-文档扫描ocr识别(代码片段)

...OpenCV的相关知识🎉作者简介:⭐️⭐️⭐️目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉python网页爬虫、机器学习、计算机视觉(OpenCV)、群智能算法。然后正 查看详情

ai+游戏:高效利用样本的强化学习|腾讯ailab学术论坛演讲

3月15日,腾讯AILab第二届学术论坛在深圳举行,聚焦人工智能在医疗、游戏、多媒体内容、人机交互等四大领域的跨界研究与应用。全球30位顶级AI专家出席,对多项前沿研究成果进行了深入探讨与交流。腾讯AILab还宣布了2018三大... 查看详情