关键词:
def wordfeatures(word):
return {"cnword":word}
.....
classifier=nltk.NaiveBayesClassifier.train(samplewords)
#大学所属的类别 http://blog.csdn.net/myhaspl
print u"----大学所属的类别-----"
print classifier.classify({"cnword":u"大学"})
#大脑所属的类别http://blog.csdn.net/myhaspl
print u"----大脑所属的类别-----"
print classifier.classify({"cnword":u"大脑"})
#测试数据分类准确率http://blog.csdn.net/myhaspl
print nltk.classify.accuracy(classifier,testwords)
#特征0分类最有效的10个词http://blog.csdn.net/myhaspl
for wf,mostword in classifier.most_informative_features(10):
print mostword,
print
#为显示utf-8,将show_most_informative_features代码进行修改http://blog.csdn.net/myhaspl
#classifier.show_most_informative_features(10) 也可直接调用这句,但是UTF8显示有问题 http://blog.csdn.net/myhaspl
cpdist = classifier._feature_probdist
print('Most Informative Features')
for (fname, fval) in classifier.most_informative_features(10):
def labelprob(l):
return cpdist[l, fname].prob(fval)
labels = sorted([l for l in classifier._labels
if fval in cpdist[l, fname].samples()],
key=labelprob)
if len(labels) == 1:
continue
l0 = labels[0]
l1 = labels[-1]
if cpdist[l0, fname].prob(fval) == 0:
ratio = 'INF'
else:
ratio = '%8.1f' % (cpdist[l1, fname].prob(fval) /
cpdist[l0, fname].prob(fval))
print fname+"="+fval,
print(('%6s : %-6s = %s : 1.0' % (("%s" % l1)[:6], ("%s" % l0)[:6], ratio)))
运行结果:
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =>|
----大学所属的类别-----
教育
----大脑所属的类别-----
科技
0.977346278317
世界 公司 事先 游戏 之后 领域 采用 学科 里面 技术
Most Informative Features
cnword=世界 科技 : 教育 = 20.6 : 1.0
cnword=公司 科技 : 教育 = 12.4 : 1.0
cnword=事先 科技 : 教育 = 5.8 : 1.0
cnword=游戏 科技 : 教育 = 5.8 : 1.0
cnword=之后 科技 : 教育 = 4.5 : 1.0
cnword=领域 科技 : 教育 = 4.5 : 1.0
cnword=采用 科技 : 教育 = 4.5 : 1.0
cnword=学科 科技 : 教育 = 4.1 : 1.0
cnword=里面 科技 : 教育 = 4.1 : 1.0
cnword=技术 科技 : 教育 = 4.1 : 1.0
本博客所有内容是原创,如果转载请注明来源
http://blog.csdn.net/myhaspl/
朴素贝叶斯分类,对词条分类如上
《nlp的相关资料推荐》
...据分析与挖掘实战》,《精通数据科学》学习建议:扎实数学和技术基础; 前沿知识难以进行系统的学习,所以一方面要接受信息,另一方面要坚持查资料去看 多阅读工具给出的文档 看论文 ... 查看详情
python机器学习及实践+从零开始通往kaggle竞赛之路
...读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTenso... 查看详情
深度学习机器学习与nlp的前世今生
...、为什么做文本挖掘什么是NLP?简单来说:NLP的目的是让机器能够理解人类 查看详情
机器学习算法与编程实践之中文文本分类
这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情
NLP/机器学习文本比较[关闭]
】NLP/机器学习文本比较[关闭]【英文标题】:NLP/MachineLearningtextcomparison[closed]【发布时间】:2013-08-2816:29:22【问题描述】:我目前正在开发一个程序,该程序能够将小文本(比如250个字符)与类似文本的集合(大约1000-2000个文本... 查看详情
机器学习:人工智能主要分支
...支一、计算机视觉二、语音识别三、文本挖掘/分类四、机器翻译五、机器人人工智能主要分支通讯、感知与行动是现代人工智能的三个关键能力,在这里我们将根据这些能力/应用对这三个技术领域进行介绍:计算机视觉... 查看详情
数据挖掘与机器学习——weka应用技术与实践
第一章weka介绍1.1weka简介 weka是怀卡托智分析环境(WaikatoEnvironmentforKnowledgeAnalysis)的英文缩写,官方网址为:<http://www.cs.waikato.ac.nz/ml/weka/>,在该网站可以免费下载可运行软件和代码,还可以获得说明文档... 查看详情
机器学习实践:《python机器学习实践指南》中文pdf+英文pdf+代码
机器学习是近年来渐趋热门的一个领域,同时Python语言经过一段时间的发展也已逐渐成为主流的编程语言之一。《Python机器学习实践指南》结合了机器学习和Python语言两个热门的领域,通过利用两种核心的机器学习算法来将Python... 查看详情
机器学习数学系列:机器学习与数学基础知识
目录:机器学习基础: 机器学习的分类与一般思路微积分基础: 泰勒公式,导数与梯度概率与统计基础: 概率公式、常见分布、常见统计量线性代数基础: 矩阵乘法的几何意义 这是一张非常著名的图,... 查看详情
菜鸟的数据挖掘之路
从书中读到数据科学家应具备:计算机科学,数学,统计学,机器学习,某一领域的专业知识,沟通和演讲的技巧,数据可视化等七项技能。统计学家和机器学习专家在处理问题的方式角度有所不同。统计学家认为模型... 查看详情
机器学习--如何将nlp应用到深度学习
...络能够识别的东西。 词向量 作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种方法已经有多种应用,但是依然存在一个缺点:不能表示词与词的... 查看详情
机器学习--如何将nlp应用到深度学习
...网络能够识别的东西。 词向量作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种方法已经有多种应用,但是依然存在一个缺点:不能表示词与词的... 查看详情
01_机器学习简介
...器学习目标: 以算法、案例为驱动的学习,浅显易懂的数学知识。目标: 熟悉机器学习各类算法的原理 掌握算法的使用,能够结合场景解决实际问题 掌握机器学习算法库和框架的技能 机器学习主要领域... 查看详情
聊天机器人(chatbot)终极指南:自然语言处理(nlp)和深度机器学习(deepmachinelearning)(代码片段)
...(NLP)以及如何将NLP和深度学习(DeepLearning)应用到聊天机器人(Chatbots)方面的最好的资料。时不时地我会发现一个出色的资源,因此我很快就开始把这些资源编制成列表。不久,我就发现自己开始与bot开发人员和bot社区的其... 查看详情
nlp书单
自然语言处理入门基础1数学基础(1)线性代数向量、矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧式距离、皮尔逊相关系数)(2)概率论随机试验、条... 查看详情
机器学习基础与实践----数据降维之pca
...了。本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序。(数学推导... 查看详情
《机器学习算法原理与编程实践》学习笔记
....2初识矩阵(略)1.2.3矢量化编程与GPU运算(略)1.2.4理解数学公式与NumPy矩阵运算1.矩阵的初始化#coding:utf-8importnumpyasnp#导入NumPy包#创建3*5的全0矩阵和全1的矩阵myZero=np.zeros([3,5])#3*5的全0矩阵printmyZeromyZero=np. 查看详情
保姆级nlp学习路线来啦!(代码片段)
...or/nlp_tutorial下面开始学!习!(敲黑板)如何系统地学习机器学习是一门既重理论又重实践的学科,想一口吃下这个老虎是不可能的,因此学习应该是个循环且逐渐细化的过程。首先要有个全局印象, 查看详情