利用SVM对乳腺癌进行预测

作者：孤独秀风_328 | 来源：互联网 | 2023-08-06 10:19

关于SVM的原理可参考https:zhuanlan.zhihu.comp24638007其中的KKT条件和强对偶性的互相推导可参考我之前的博客：https:blog

关于SVM的原理可参考https://zhuanlan.zhihu.com/p/24638007

其中的KKT条件和强对偶性的互相推导可参考我之前的博客：https://blog.csdn.net/qq_35985044/article/details/85324714

import pandas as pd import matplotlib.pyplot as plt import seaborn as snsdata = pd.read_csv(&＃39;breast_cancer_01/data.csv&＃39;) print(data.columns) print(data.head(5)) print(data.describe())

部分结果如下：

Index([&＃39;id&＃39;, &＃39;diagnosis&＃39;, &＃39;radius_mean&＃39;, &＃39;texture_mean&＃39;, &＃39;perimeter_mean&＃39;,&＃39;area_mean&＃39;, &＃39;smoothness_mean&＃39;, &＃39;compactness_mean&＃39;, &＃39;concavity_mean&＃39;,&＃39;concave points_mean&＃39;, &＃39;symmetry_mean&＃39;, &＃39;fractal_dimension_mean&＃39;,&＃39;radius_se&＃39;, &＃39;texture_se&＃39;, &＃39;perimeter_se&＃39;, &＃39;area_se&＃39;, &＃39;smoothness_se&＃39;,&＃39;compactness_se&＃39;, &＃39;concavity_se&＃39;, &＃39;concave points_se&＃39;, &＃39;symmetry_se&＃39;,&＃39;fractal_dimension_se&＃39;, &＃39;radius_worst&＃39;, &＃39;texture_worst&＃39;,&＃39;perimeter_worst&＃39;, &＃39;area_worst&＃39;, &＃39;smoothness_worst&＃39;,&＃39;compactness_worst&＃39;, &＃39;concavity_worst&＃39;, &＃39;concave points_worst&＃39;,&＃39;symmetry_worst&＃39;, &＃39;fractal_dimension_worst&＃39;],dtype=&＃39;object&＃39;)id diagnosis radius_mean texture_mean perimeter_mean area_mean \
0 842302 M 17.99 10.38 122.80 1001.0
1 842517 M 20.57 17.77 132.90 1326.0
2 84300903 M 19.69 21.25 130.00 1203.0
3 84348301 M 11.42 20.38 77.58 386.1
4 84358402 M 20.29 14.34 135.10 1297.0

#columns取列名，index取行名 features_mean = list(data.columns[2:12]) features_se = list(data.columns[12:22]) features_worst = list(data.columns[22:32]) features_worst

[&＃39;radius_worst&＃39;,&＃39;texture_worst&＃39;,&＃39;perimeter_worst&＃39;,&＃39;area_worst&＃39;,&＃39;smoothness_worst&＃39;,&＃39;compactness_worst&＃39;,&＃39;concavity_worst&＃39;,&＃39;concave points_worst&＃39;,&＃39;symmetry_worst&＃39;,&＃39;fractal_dimension_worst&＃39;]

#删除ID列 data.drop("id",axis=1,inplace=True) #将B良性替换成0， M恶性替换成1 data[&＃39;diagnosis&＃39;] = data[&＃39;diagnosis&＃39;].map({&＃39;B&＃39;:0, &＃39;M&＃39;:1}) corr = data[features_mean].corr() plt.figure(figsize=(10,10))sns.heatmap(corr, annot=True) plt.show()

from sklearn.model_selection import train_test_split from sklearn import svm from sklearn import metrics from sklearn.preprocessing import StandardScaler# 特征选择 features_remain = [&＃39;radius_mean&＃39;,&＃39;texture_mean&＃39;, &＃39;smoothness_mean&＃39;,&＃39;compactness_mean&＃39;,&＃39;symmetry_mean&＃39;, &＃39;fractal_dimension_mean&＃39;] # 抽取30%的数据作为测试集，其余作为训练集 train, test = train_test_split(data, test_size = 0.3)# in this our main data is splitted into train and test # 抽取特征选择的数值作为训练和测试数据 train_X = train[features_remain] train_y=train[&＃39;diagnosis&＃39;] test_X= test[features_remain] test_y =test[&＃39;diagnosis&＃39;]# 采用Z-Score规范化数据，保证每个特征维度的数据均值为0，方差为1 ss = StandardScaler() #提取训练集数据的均值和方差，并利用这两个参数对训练集进行标准化 train_X = ss.fit_transform(train_X) #利用训练集的均值和方差对测试集进行标准化 test_X = ss.transform(test_X)model = svm.SVC() model.fit(train_X,train_y) prediction = model.predict(test_X) print(&＃39;准确率: &＃39;, metrics.accuracy_score(prediction,test_y))

准确率: 0.9415204678362573

还有用PCA降维的，可参考https://blog.csdn.net/Vincent_Chu/article/details/90046985

推荐阅读

select
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
select
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
text
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
plugins
如何优化Webpack打包后的代码分割

本文介绍了如何通过优化Webpack的代码分割来减小打包后的文件大小。主要包括拆分业务逻辑代码和引入第三方包的代码、配置Webpack插件、异步代码的处理、代码分割重命名、配置vendors和cacheGroups等方面的内容。通过合理配置和优化，可以有效减小打包后的文件大小，提高应用的加载速度。 ... [详细]

蜡笔小新 2023-12-09 08:10:47
int
tcpdump 4.5.1 crash 深入分析

tcpdump 4.5.1 crash 深入分析 ... [详细]

蜡笔小新 2023-12-09 07:11:34
select
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
int
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
include
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
int
OC学习笔记之@property和@synthesize

本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]

蜡笔小新 2023-12-14 12:05:06
object
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
object
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
int
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
int
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
text
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
text
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16

孤独秀风_328

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章