当前位置: 开发笔记 > 编程语言 > 正文

使用机器学习的疾病预测

作者：为了未来而奋斗2010 | 来源：互联网 | 2023-10-14 16:00

使用机器学习的疾病预测原文:https://www.gees

使用机器学习的疾病预测

原文:https://www . geesforgeks . org/疾病-预测-使用-机器学习/

本文旨在实现一个健壮的机器学习模型，该模型可以根据人类所具有的症状有效地预测人类的疾病。让我们看看如何解决这个机器学习问题:

进场:

收集数据:数据准备是任何机器学习问题的首要步骤。我们将使用来自卡格尔的数据集来解决这个问题。这个数据集由两个 CSV 文件组成，一个用于训练，一个用于测试。数据集中总共有 133 列，其中 132 列代表症状，最后一列是预后。

清理数据:清理是机器学习项目中最重要的一步。我们数据的质量决定了我们机器学习模型的质量。因此，在将数据输入模型进行训练之前，总是需要对数据进行清理。在我们的数据集中，所有的列都是数字的，目标列即预测是字符串类型，并使用标签编码器编码为数字形式。

模型构建:数据采集、清理后，数据准备就绪，可以用来训练机器学习模型。我们将使用这些清理过的数据来训练支持向量分类器、朴素贝叶斯分类器和随机森林分类器。我们将使用混淆矩阵来确定模型的质量。

推断:在训练三个模型之后，我们将通过组合所有三个模型的预测来针对输入症状预测疾病。这使得我们的整体预测更加稳健和准确。

最后，我们将定义一个函数，该函数以逗号分隔的症状作为输入，使用训练好的模型基于症状预测疾病，并以 JSON 格式返回预测。

实施工作流程:

确保下载训练和测试，并将 train.csv、test.csv 放入数据集文件夹。打开 jupyter 笔记本，单独运行代码，以便更好地理解。

Python 3

# Importing libraries import numpy as np import pandas as pd from scipy.stats import mode import matplotlib.pyplot as plt import seaborn as sns from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split, cross_val_score from sklearn.svm import SVC from sklearn.naive_bayes import GaussianNB from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score, confusion_matrix %matplotlib inline

读取数据集

首先，我们将使用熊猫库从文件夹中加载数据集。在读取数据集时，我们将删除空列。这个数据集是一个干净的数据集，没有空值，所有的特征都由 0 和 1 组成。每当我们解决一个分类任务时，都有必要检查我们的目标列是否平衡。我们将使用条形图来检查数据集是否平衡。

Python 3

# Reading the train.csv by removing the # last column since it's an empty column DATA_PATH = "dataset/Training.csv" data = pd.read_csv(DATA_PATH).dropna(axis = 1) # Checking whether the dataset is balanced or not disease_counts = data["prognosis"].value_counts() temp_df = pd.DataFrame({ "Disease": disease_counts.index, "Counts": disease_counts.values }) plt.figure(figsize = (18,8)) sns.barplot(x = "Disease", y = "Counts", data = temp_df) plt.xticks(rotation=90) plt.show()

输出:

从上面的图中，我们可以观察到数据集是一个平衡的数据集，即每种疾病正好有 120 个样本，不需要进一步平衡。我们可以注意到，我们的目标列，即预测列是对象数据类型，这种格式不适合训练机器学习模型。因此，我们将使用标签编码器将预测列转换为数字数据类型。标签编码器通过为标签指定唯一的索引，将标签转换为数字形式。如果标签的总数是 n，那么分配给每个标签的数字将在 0 到 n-1 之间。

Python 3

# Encoding the target value into numerical # value using LabelEncoder encoder = LabelEncoder() data["prognosis"] = encoder.fit_transform(data["prognosis"])

推荐阅读

uri
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
const
2016年10月25日数学考试：斐波那契数列与矩阵快速幂的应用

本次考试于2016年10月25日上午7:50至11:15举行，主要涉及数学专题，特别是斐波那契数列的性质及其在编程中的应用。本文将详细解析考试中的题目，并提供解题思路和代码实现。 ... [详细]

蜡笔小新 2024-12-25 13:08:21
spring
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
process
使用预处理器开关确定类的版本

本文探讨了如何通过预处理器开关选择不同的类实现，并解决在特定情况下遇到的链接器错误。 ... [详细]

蜡笔小新 2024-12-22 12:03:31
spring
深入解析SpringMVC核心组件：DispatcherServlet的工作原理

本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制，旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题：1. HTTP请求如何映射到Controller；2. Controller是如何被执行的。 ... [详细]

蜡笔小新 2024-12-21 18:50:52
spring
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
js
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
js
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
js
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
spring
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
window
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
window
macOS系统及其关键功能解析

本文详细介绍了macOS系统的核心组件，包括如何管理其安全特性——系统完整性保护（SIP），并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说，了解这些信息有助于更好地管理和优化系统性能。 ... [详细]

蜡笔小新 2024-12-26 18:05:04
process
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
install
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09

为了未来而奋斗2010

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章