nlp书单

dongxiaoxuan dongxiaoxuan     2023-04-25     296

关键词:

自然语言处理入门基础

1 数学基础

(1)线性代数

向量、 矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧式距离、皮尔逊相关系数)

(2)概率论

随机试验、条件概率、全概率、贝叶斯定理、信息论

(3)统计学

图形可视化(饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘)

数据度量标准(平均数、中位数、众数、期望、方差、标准差)

概率分布(几何分布、二项分布、正态分布、泊松分布)

统计假设检验

2 语言学基础

语音、词汇、语法

3 Python基础

廖雪峰教程,Python从入门到实践

4 机器学习基础

统计学习方法、机器学习周志华、机器学习实战

5 深度学习基础

CNN、RNN、LSTM

6 自然语言处理的理论基础

统计自然语言处理(宗成庆第二版)、Python自然语言处理、数学之美(第二版)

 

7、NLP常用工具

(1)Anaconda

Anaconda是一个用于科学计算的Python开发平台,支持 Linux,Mac和Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。Anaconda利用conda命令来进行package和environment的管理,并且已经包含了Python和相关的配套工具。Anaconda集成了大量的机器学习库以及数据处理必不可少的第三方库,比如NumPy,SciPy,Scikit-Learn以及TensorFlow等。

(2)Scikit-learn

Scikit-learn是广受欢迎的入门级机器学习库,包含大量的机器学习算法和特征提取实现,使用非常简便。Scikit-learn实现的是浅层学习算法,神经网络仅实现了多层感知机。

(3)TensorFlow

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,可被用于语音识别或图像识别等多项机器学习和深度学习领域。

(4)Keras

Keras是一个高级别的Python神经网络框架,能在TensorFlow或者 Theano 上运行。Keras的作者、谷歌AI研究员Francois Chollet宣布了一条激动人心的消息,Keras将会成为第一个被添加到TensorFlow核心中的高级别框架,这将会让Keras变成Tensorflow的默认API。

(5)Gensim

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。

(6)NLTK

在NLP领域中,NLTK是最常使用的一个Python库。

(7)Jieba

Jieba,结巴分词是最受欢迎的中文分词工具。

 

8、NLP语言模型

(1)词的独热表示(one-hot representation)

(2)Bag of Words

(3)Bi-gram 和 N-gram

(4)词的分布式表示(distributed representation)

(5)共现矩阵(Cocurrence martrix)

(6)神经网络语言模型(Neural Networ Language model,NNLM)

(7)word2vec

连续词袋模型(Continuous Bag of Words,CBOW)

Skip-Gram模型

 

 

9、快速入门NLP方法

(1)认真看完一本NLP相关的书,坚持看完一部视频。

(2)看这两年相关方向的综述论文,然后看一些经典的论文和最新论文。

(3)独立实现一个小型的自然语言处理项目。

(4)可以在Github上找到很多相关的开源代码,选一个自己感兴趣的方向进行研究。

历史书单

...p;About云中文论坛 JavaPlatformSDKJava8懒妹表达式  书单:2015豆瓣书单 豆瓣千人8.0+书单编程入口:Eclipse servlet&n 查看详情

我的书单

2018年书单C++程序设计(西安电子科技出版社)刘瑞芳、肖波、许桂平、孙勇、徐慧民编著  查看详情

2017年书单

书单2019,20182017年书单:2017-12月《不能承受的生命之轻》《霍乱时期的爱情》(2017-12-06完成)读后总结2017-1月11月《白鹿原》《万历15年》《刀锋》《一个陌生女人的来信》《围城》《追风筝的人》《岛上书店》读后总结《月亮与... 查看详情

我的书单

2018.2《能力,手段,心态》 查看详情

我的2016书单以及为2017年准备的书单

看见博客园不少博友都在晒书单,我也想梳理下自己2016年读了哪些书。这些书大多都是在手机上读的,电子书确实比纸质书要方便许多。写下这些东西给自己做个记录,回顾下2016,展望下2017。2016年读了不少文学作品,技术类... 查看详情

2017书单

...模式:     Java并发编程实践  以此作为自己的书单,时刻提醒自己需要学习!!! 查看详情

自然语言处理书单

目录书单1.SpeechandLanguageProcessing(3rded.draft)2.FoundationsofStatisticalNaturalLanguageProcessing3.NeuralNetworkMethodsinNaturalLanguageProcessing(Synthesis LecturesonHumanLanguageTechnologies)5.Intro 查看详情

半年书单

从现在到年底的书单: 把这些书读完,让自己更强大。 1、C++ 要精通 2、python熟悉 3、深度学习 熟悉 4、Linux基础操作 熟悉 5、数据结构 精通 LeetCode刷题目。  查看详情

历史书单

 2018-09月《利用Python进行数据分析》(2018-09-15start)《美团机器学习实践》(2018-09-15完)《李飞飞·深度学习计算机视觉》(2018-09-1040%) 查看详情

一些书单

...来的学习做些回顾吧学习永无止境--> 2015年已完成书单:文学:硅谷之火浪潮之巅天才在左疯子在右从0到1生命咖啡馆黑客与画家奇思妙想:15位计算机天才及其重大发现乔布斯传平凡的世界(三部全)一只iphone的全球旅行&... 查看详情

19年书单

阿特拉斯耸耸肩理性乐观派经济学原理简单逻辑学即刻时间,专栏《数据结构与算法》即刻时间,专栏《从0开始学架构》即刻时间,专栏《微服务架构实战》 查看详情

书单2020

2020.01读完:null正在读:《利用Python进行数据分析第2版》计划读:《高等数学第7版同济大学》《DeepLearningwithPython》《信息论基础 第2版》《概率论与数理统计第4版浙江大学》 查看详情

阿里大神favoorr提供的书单

 Thoughtwoks中国的推荐书单 <http://www.douban.com/doulist/2012097/ >新浪微博-秦迪 <http://blog.2baxb.me/reading_list>江南白衣书单 <http://calvin1978.blogcn.com/articles/bookshelf. 查看详情

2020年书单

...于2019年下半年几乎没有读书,故在这里整理一份2020年的书单。鉴于自己执行力有限,故仅确定10本的书作为必读书单,其他的归于非必读,若尚有余力就读吧。必读:1.GTD2.JAVA基础卷1(复习)3.设计模式之禅(或其他一本设计模... 查看详情

1.程序员必读书单

程序员必读书单1.0发表于 2015-02-25  |  分类于 阅读  | 本文把程序员所需掌握的关键知识总结为三大类19个关键概念,然后给出了掌握每个关键概念所需的入门书籍,必读书籍,以及延伸阅读。旨... 查看详情

我的书单

  特开此文记录我说读技术书单(闲书就不计入了),一方面是鼓励和监督不断提升自我的过程;一方面是给大家做个参考~如果时间富裕也会写相关的读书笔记,加油!!   name:                 d... 查看详情

一些书单

1,SICP  StructureandInterpretationofComputerPrograms 计算机程序的构造和解释  相应的教程:   http://swiss.csail.mit.edu/classes/6.001/abelson-sussman-lectures/  http://www.wisdomandwonder.com/link/2 查看详情

书单收集

一、京东一周书单(每周为你推荐7本书)1.第一期:GET你的洪荒之力https://pro.m.jd.com/mall/active/iUDQXg5AoAk36xKZQmshD8Z6u3X/index.html1)硬派健身2)力量3)TheSecret秘密4)魔力5)遇见未知的自己https://book.douban.com/subject/2340100/6)向前一步htt... 查看详情