正文

《python机器学习及实践》----良/恶性乳腺癌肿瘤预测

wangshuang1631  wangshuang1631  2022-12-04  763

关键词：

本片博客是根据《Python机器学习及实践》一书中的实例，所有代码均在本地编译通过。数据为从该书指定的百度网盘上下载的。
代码片段：

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LogisticRegression

df_train = pd.read_csv('D:\\Source Code\\machinelearn\\\\breast-cancer-train.csv')
df_test = pd.read_csv('D:\\Source Code\\machinelearn\\\\breast-cancer-test.csv')
df_test_negative = df_test.loc[df_test['Type'] == 0][['Clump Thickness','Cell Size']]
df_test_positive = df_test.loc[df_test['Type'] == 1][['Clump Thickness','Cell Size']]
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

intercept = np.random.random([1])
coef = np.random.random([2])
lx = np.arange(0,12)
ly = (-intercept - lx * coef[0]) / coef[1]
plt.plot(lx,ly,c='yellow')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

lr = LogisticRegression()
lr.fit(df_train[['Clump Thickness','Cell Size']][:10],df_train['Type'][:10])
print 'Testing accuracy (10 training samples):',lr.score(df_test[['Clump Thickness','Cell Size']],df_test['Type'])
intercept = lr.intercept_
coef = lr.coef_[0,:]
ly = (-intercept - lx * coef[0]) / coef[1]
plt.plot(lx,ly,c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

lr = LogisticRegression()
lr.fit(df_train[['Clump Thickness','Cell Size']],df_train['Type'])
print 'Testing accuracy (All training samples):',lr.score(df_test[['Clump Thickness','Cell Size']],df_test['Type'])
intercept = lr.intercept_
coef = lr.coef_[0,:]
ly = (-intercept - lx * coef[0]) / coef[1]
plt.plot(lx,ly,c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

机器学习之良/恶性乳腺癌肿瘤预测

知识点：　　逻辑斯蒂回归分类器　　训练数据集：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data数据预处理打开ipython网页解释器#导入模块importpandasaspdimportnumpyasnp#创建特征列表表头col 查看详情

python机器学习及实践——进阶篇2（特征提升之特征筛选）

总体来说，良好的数据特征组合不需太多，便可以使得模型的性能表现突出。比如我们在“良/恶性乳腺癌肿瘤预测“问题中，仅仅使用两个描述肿瘤形态的特征便取得较高的识别率。冗余的特征虽然不会影响模型性... 查看详情

chapter02“良/恶性乳腺癌肿瘤预测”的问题

最近比较闲，是时候把自己以前看的资料整理一下了。 LogisticRegression：由于在训练过程中考虑了所有的样本对参数的影响，因此不一定获得最佳的分类器，对比下一篇svm只用支持向量来帮助决策最优线性分类模型。importpandas... 查看详情

机器学习逻辑回归对肿瘤预测(代码片段)

目录1逻辑回归api介绍2案例：癌症分类预测-良／恶性乳腺癌肿瘤预测2.1背景介绍2.2案例分析2.3代码实现2.4小结1逻辑回归api介绍sklearn.linear_model.LogisticRegression(solver=‘liblinear’,penalty=‘l2’,C=1.0)solver可选参数:‘libl... 查看详情

机器学习逻辑回归算法(代码片段)

逻辑回归算法学习目标1.逻辑回归的介绍1.1逻辑回归的应用场景1.2逻辑回归的原理1.2.1输入1.2.2激活函数1.3损失以及优化1.3.1损失1.3.2优化1.4小结2.逻辑回归api介绍3.案例：癌症分类预测-良／恶性乳腺癌肿瘤预测3.1背景介绍3.... 查看详情

《python机器学习及实践》----监督学习经典模型

本片博客是根据《Python机器学习及实践》一书中的实例，所有代码均在本地编译通过。数据为从该书指定的百度网盘上下载的，或者是sklearn自带数据下载到本地使用的。代码片段：importpandasaspdimportnumpyasnpcolumn_names=... 查看详情

《python机器学习及实践》----模型实用技巧

本片博客是根据《Python机器学习及实践》一书中的实例，所有代码均在本地编译通过。数据为从该书指定的百度网盘上下载的，或者是sklearn自带数据下载到本地使用的。代码片段：measurements=['city':'Dubai'... 查看详情

python机器学习及实践+从零开始通往kaggle竞赛之路

...习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn... 查看详情

《python机器学习及实践》----无监督学习之数据聚类

本片博客是根据《Python机器学习及实践》一书中的实例，所有代码均在本地编译通过。数据为从该书指定的百度网盘上下载的，或者是sklearn自带数据下载到本地使用的。代码片段：#coding:utf-8#分别导入numpy、matplotlib以... 查看详情

《python机器学习及实践》----无监督学习之特征降维

本片博客是根据《Python机器学习及实践》一书中的实例，所有代码均在本地编译通过。数据为从该书指定的百度网盘上下载的，或者是sklearn自带数据下载到本地使用的。代码片段：#coding:utf-8importnumpyasnpM=np.array([[1,... 查看详情

《python机器学习及实践》----监督学习经典模型

机器学习ng-02

　　回归这个词的意思是，我们在试着推测出这一系列连续值属性。　　　　分类指的是，我们试着推测出离散的输出值：0或1良性或恶性，而事实上在分类问题中，输出可能不止两个值。比如说可能有三种乳腺癌，所以你... 查看详情

《python机器学习及实践》----模型实用技巧

python机器学习及实践——特征降维

特征降维是无监督学习的另一个应用，目的有两个：一是我们经常在实际项目中遭遇特征维度非常高的训练样本，而往往无法借助自己的领域知识人工构建有效特征；二是在数据表现方面，我们无法用肉眼观... 查看详情

《机器学习及实践--从零开始通往kaggle竞赛之路》

...个把月的时间把这本书过了一遍。这是一本非常适合基于python入门的机器学习入门的书籍，全书通俗易懂且有代码提供。书中源代码连接为Ipython环境。主页君使用的是pycharm，python2.7，具体安转过程书本写的很详细。码完书中代... 查看详情

python机器学习及实践——进阶篇5（模型检验）

前面时不时提到模型检验或者交叉验证等词汇，特别是在对不同模型的配置，不同的特征组合，在相同的数据和任务下进行评价的时候。究其原因是因为仅仅使用默认配置的模型与不经处理的数据特征，在大多数... 查看详情

python机器学习及实践——基础篇3（svm）(代码片段)

图中有三种颜色的线，用来划分这两种类别的训练样本。其中绿色直线H1在这些训练样本上表现不佳，本身就带有分类错误；蓝色直线H2和红色直线H3如果作为这个二分类问题的线性分类模型，在训练集上的... 查看详情