正文

easynlp开源中文nlp算法框架

ejinxian  ejinxian  2022-10-23  632

关键词：

1、背景

随着 BERT、Megatron、GPT-3 等预训练模型在 NLP 领域获得前瞻的成果，许多多团队也进入超大规模训练中，使得训练模型从亿级别发展到了千亿甚至万亿的规模。首先，模型参数量过大使得训练和推理速度过慢且部署成本极高；其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的应用，PAI 团队推出了 EasyNLP 中文 NLP 算法框架，助力大模型快速且高效的落地。

EasyNLP 简述

EasyNLP 是 PAI 算法团队基于 PyTorch 开发的易用且丰富的中文 NLP 算法框架，EasyNLP 提供了简洁的接口供用户开发 NLP 模型，包括 NLP 应用 AppZoo 和预训练 ModelZoo。无缝对接 PAI 系列产品，例如 PAI-DLC、PAI-DSW、PAI-Designer 和 PAI-EAS，给用户带来高效的从训练到落地的完整体验。

开源项目地址：GitHub - alibaba/EasyNLP: EasyNLP: A Comprehensive and Easy-to-use NLP Toolkit

EasyNLP 主要特性如下：

1、易用且兼容开源

EasyNLP 支持常用的中文 NLP 数据和模型，EasyNLP 还抽象了一定的自定义模块如 AppZoo 和 ModelZoo，降低 NLP 应用的门槛。

2、大模型小样本落地技术

EasyNLP 框架集成了多种经典的小样本学习算法，例如 PET、P-Tuning 等，

3、大模型知识蒸馏技术

EasyNLP 支持数据增强，通过预训练模型来增强目标领域的数据，可以有效的提升知识蒸馏的效果，

EasyNLP 框架

EasyNLP 架构主核心模块

基础模块：提供了预训练模型库 ModelZoo，支持常用的中文预训练模型，包括 BERT，MacBERT，WOBERT 等；也提供常用的 NN 模块，方便用户自定义模型；

应用层：AppZoo 支持常见的 NLP 应用比方说文本分类，文本匹配等；EasyNLP 支持预训练模型落地工具，包括小样本学习和知识蒸馏，助力大模型快速落地，这里也集成了多个 PAI 团队自研的算法；

NLP 应用和解决方案：提供了多个 NLP 解决方案和 ModelHub 模型帮助用户解决业务问题；

工具层：可以支持本地拉起服务，也可以在阿里云产品上部署和调用，比方说 PAI-DLC、PAI-DSW、PAI-Designer 和 PAI-EAS，给用户带来高效的从训练到落地的完整体验；

RoadMap

基于 EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark
知识预训练技术：发布一系列知识预训练模型，致力于提升预训练模型的常识性和知识性
中文预训练模型：发布针对中文的 SOTA 的预训练模型，降低中文预训练技术门槛
多模态预训练：发布针对中文的多模态预训练模型
中文数据的收集和 API 接口：收集常用的中文数据，提供预处理和训练接口
垂直场景的 SOTA 中文模型整合：针对垂直业务场景，整合效果最好的中文模型
发布解决方案和 PAI 组件

参考：阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP，助力 NLP 大模型落地 - OSCHINA - 中文开源技术交流社区

easynlp简介

EasyNLP中文NLP算法框架作者：PAI（阿里云人工智能平台）算法团队平台：基于PyTorch优势：中文预训练模型提供：AppZoo和预训练ModelZoo，ModelZoo有很多预训练模型，EasyNLP可以无缝接入huggingface/transformers的模型；AppZoo支持文本分类，... 查看详情

跨模态学习能力再升级，easynlp电商文图检索效果刷新sota(代码片段)

...工作（看这里）中，中⽂NLP/多模态算法框架EasyNLP支持了CLIP的基础功能，包括模型的Finetune、文图向量抽取等。在本期的工作中，我们对EasyNLP框架进行了再一次升级，推出了融合了丰富电商场景知识的CLIP... 查看详情

easynlp发布融合语言学和事实知识的中文预训练模型ckbert

导读预训练语言模型在NLP的各个应用中都有及其广泛的应用；然而，经典的预训练语言模型（例如BERT）缺乏对知识的理解，例如知识图谱中的关系三元组。知识增强预训练模型使用外部知识（知识图谱，字典和文本等）或者句... 查看详情

easynlp发布融合语言学和事实知识的中文预训练模型ckbert(代码片段)

导读预训练语言模型在NLP的各个应用中都有及其广泛的应用；然而，经典的预训练语言模型（例如BERT）缺乏对知识的理解，例如知识图谱中的关系三元组。知识增强预训练模型使用外部知识（知识图谱ÿ... 查看详情

nlp︱中文分词技术小结几大分词引擎的介绍与比较

...是商业应用的过程中存在的以下的问题：1、是否先利用开源的分词平台进行分词后，再自己写一些算法进行未登录词、歧义词的识别？2、或者直接调用下查看详情

nlp：自然语言处理技术最强学习路线之nlp简介(岗位需求/必备技能)早期/中期/近期应用领域(偏具体应用)经典nlp架构(偏具体算法)概述常用工具/库/框架/产品环境安装(更新中)

...(算法【计算机视觉/自然语言处理/机器学习、科研院所/开源社区】、数据【IOT/互联网/手机/传感器/音视频】、计算【计算芯片/服务器及存储器/AI软件框架/云服务】)NLP基本必备技能NLP领域英语缩写词、术语等概念简介要掌握正... 查看详情

easynlp中文文图生成模型带你秒变艺术家

作者：汪诚愚、刘婷婷导读宣物莫大于言，存形莫善于画。--【晋】陆机多模态数据（文本、图像、声音）是人类认识、理解和表达世间万物的重要载体。近年来，多模态数据的爆炸性增长促进了内容互联网的繁荣，也带来了大... 查看详情

百度paddlepaddle常规赛nlp赛道火热开启

...习框架应运而生，这是国内唯一一家拥有自主知识产权的开源深度学习框架。在此框架中，汇聚了更多的AI科学家、架构师、AI爱好者，设置常规赛，提供丰富的真实数据，多样的算法赛题，显示百度对深度学习框架战略地位的... 查看详情

最强nlp预训练模型库pytorch-transformers正式开源：支持6个预训练框架，27个预训练模型

先上开源地址：https://github.com/huggingface/pytorch-transformers#quick-tour官网：https://huggingface.co/pytorch-transformers/index.htmlPyTorch-Transformers（正式名称为pytorch-pretrained-bert）是一个用于自然语言处理（NLP）的最先进的预训练查看详情

easynlp集成k-bert算法，借助知识图谱实现更优finetune

作者：汪诚愚张涛林黄俊导读知识图谱（KnowledgeGraph）的概念⾸次出现2012年，由Google提出，它作为⼀种⼤规模语义⽹络，准确地描述了实体以及实体之间的关系。知识图谱最早应⽤于搜索引擎，⽤于准备返回⽤户所需的知识。随... 查看详情

easynlp带你实现中英文机器阅读理解

作者：施晨、黄俊导读机器阅读理解是自然语言处理（NLP），特别是自然语言理解（NLU）领域最重要的研究方向之一。自1977年首次被提出以来，机器阅读理解已有近50年的发展史，历经“人工规则”、“传统机器学习”、“深度... 查看详情

easynlp中文文图生成模型带你秒变艺术家(代码片段)

导读宣物莫大于言，存形莫善于画。--【晋】陆机多模态数据（文本、图像、声音）是人类认识、理解和表达世间万物的重要载体。近年来，多模态数据的爆炸性增长促进了内容互联网的繁荣，也带来了大量多... 查看详情

目录nlp相关理论及应用

...卷积神经网络CNNword2vec+textcnn文本分类简述及代码（包含中文文本分类实战）使用inceptionv3做各种图像分类识别08-4机器学习、深度学习及NLP需要掌握的相关算法关于nlp的学习资料收集查看详情

nlp中语言模型的建立及平滑算法介绍

以下内容全部来自宗成庆博士的《统计自然语言处理（中文信息处理）》一书的第五章（部分）。还有许多其他的平滑方法，不介绍了。最后，总结一下：查看详情

easynlp集成k-bert算法，借助知识图谱实现更优finetune(代码片段)

导读知识图谱（KnowledgeGraph）的概念⾸次出现2012年，由Google提出，它作为⼀种⼤规模语义⽹络，准确地描述了实体以及实体之间的关系。知识图谱最早应⽤于搜索引擎，⽤于准备返回⽤户所需的知识。随着... 查看详情

【nlp中文分词】一、规则分词之最大匹配法

参考技术A算法：逆向最大匹配法与正向最大匹配法的区别在于步骤3：若这m个字符不属于词典里面的词，则去除这m个字符的第一个字符同时运用正向最大匹配法和逆向最大匹配法，比较两者结果，取分词数少的结果作为最终结... 查看详情

mmseg中文分词算法解析

...别的时候，我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文分词等，整体使用下来，感... 查看详情

正文