当前位置: 开发笔记 > 编程语言 > 正文

Python机器学习数据预处理：读取txt数据文件并切分为训练和测试数据集

作者：Mr-o蛋挞 | 来源：互联网 | 2023-10-12 13:10

背景信息在使用Python进行机器学习时，经常需要自己完成数据的预处理，本节主要实现对txt文本数据的读取，该文本满足如下要求ÿ

背景信息

在使用Python进行机器学习时&＃xff0c;经常需要自己完成数据的预处理&＃xff0c;本节主要实现对txt文本数据的读取&＃xff0c;该文本满足如下要求&＃xff1a;

每行为一条样本数据&＃xff0c;包括特征值与标签&＃xff0c;标签在最后
样本数据的特征值之间以及标签之间使用,分割
文本末尾无空行&＃xff08;在人为编辑过程中很容易在末尾加入空行&＃xff0c;要检查并删除&＃xff09;

本文先给出实现代码&＃xff0c;最后以Iris数据集为例说明如何使用。

代码实现

# 引入所需包 import numpy as np import random

#读取数据函数,输入为数据文件名和训练、测试切分比率&＃xff0c;返回为list类型的训练数据集和测试数据集 def loadData(fileName,ratio): trainingData&＃61;[]testData&＃61;[]with open(fileName) as txtData:lines&＃61;txtData.readlines()for line in lines:lineData&＃61;line.strip().split(&＃39;,&＃39;) #去除空白和逗号“,”if random.random()

#输入为list类型数据,分割为特征和标签两部分&＃xff0c;返回为np.narray类型的特征数组和标签数组 def splitData(dataSet): character&＃61;[]label&＃61;[]for i in range(len(dataSet)):character.append([float(tk) for tk in dataSet[i][:-1]])label.append(dataSet[i][-1])return np.array(character),np.array(label)

`使用样例`


使用的数据集&＃xff1a;Iris数据集&＃xff0c;样例如下所示&＃xff1a;
4.8,3.0,1.4,0.3,Iris-setosa
5.1,3.8,1.6,0.2,Iris-setosa
4.6,3.2,1.4,0.2,Iris-setosa
5.3,3.7,1.5,0.2,Iris-setosa
5.0,3.3,1.4,0.2,Iris-setosa
7.0,3.2,4.7,1.4,Iris-versicolor
6.4,3.2,4.5,1.5,Iris-versicolor
6.9,3.1,4.9,1.5,Iris-versicolor
5.5,2.3,4.0,1.3,Iris-versicolor
6.5,2.8,4.6,1.5,Iris-versicolor
测试代码
iris_file&＃61;&＃39;/book/iris.data&＃39;
ratio&＃61;0.7
trainingData, testData&＃61;loadData(iris_file,ratio) ##加载文件&＃xff0c;按一定比率切分为训练样本和测试样本
trainingCharacter,trainingLabel&＃61;splitData(trainingData)  #将训练样本切分为数据和标签两个数组
testCharacter,testLabel&＃61;splitData(testData)  #将测试样本切分为数据和标签两个数组




    
        
                        python
                        机器学习
                        文件
                        import
                        random
                        list
                        io
                        ip
                        split
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        数组
                        PyCharm下载与安装指南
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 09:42:41
                    

                

                
                                
                    
                        get
                        Python配置文件读写指南
                    

                    
                                                
                        本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 08:39:55
                    

                

                                
                    
                    
                
                
                                
                    
                        byte
                        深入理解Python的os和sys模块
                    

                    
                                                
                        本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 22:04:19
                    

                

                
                                
                    
                        filter
                        从 .NET 转 Java 的自学之路：IO 流基础篇
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 17:37:25
                    

                

                
                                
                    
                        web
                        深入理解Tornado模板系统
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 19:22:16
                    

                

                
                                
                    
                        filter
                        Java并发编程：LinkedBlockingQueue的实际应用
                    

                    
                                                
                        本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 18:51:49
                    

                

                
                                
                    
                        runtime
                        Python 的 10 个开发技巧！太实用了
                    

                    
                                                
                        1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 18:36:54
                    

                

                
                                
                    
                        metadata
                        数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》
                    

                    
                                                
                            
                        
                                                
                        本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 18:29:55
                    

                

                
                                
                    
                        get
                        Python自动化处理：从Word文档提取内容并生成带水印的PDF
                    

                    
                                                
                            
                        
                                                
                        本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 13:10:20
                    

                

                
                                
                    
                        get
                        Python 提取和替换 Word 文档中的图片
                    

                    
                                                
                        本文介绍如何使用 Python 提取和替换 .docx 文件中的图片。.docx 文件本质上是压缩文件，通过解压可以访问其中的图片资源。此外，我们还将探讨使用第三方库 docx 的方法来简化这一过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 18:52:14
                    

                

                
                                
                    
                        string
                        解析JSON格式文本并处理数据
                    

                    
                                                
                        本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 16:06:09
                    

                

                
                                
                    
                        string
                        使用Python在SAE上开发新浪微博应用的初步探索
                    

                    
                                                
                            
                        
                                                
                        最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 13:36:52
                    

                

                
                                
                    
                        default
                        基于机器学习的人脸识别系统实现
                    

                    
                                                
                            
                        
                                                
                        本文介绍了一种使用机器学习技术构建人脸识别系统的实践案例。通过结合Python编程语言和深度学习框架，详细展示了从数据预处理到模型训练的完整流程，并提供了代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-22 16:01:32
                    

                

                
                                
                    
                        get
                        CentOS7源码编译安装MySQL5.6
                    

                    
                                                
                            
                        
                                                
                        2019独角兽企业重金招聘Python工程师标准一、先在cmake官网下个最新的cmake源码包cmake官网：https:www.cmake.org如此时最新 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 17:49:56
                    

                

                
                                
                    
                        select
                        使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库
                    

                    
                                                
                        本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 17:34:42

















    

    
        
            
            
                
                
            

            
                Mr-o蛋挞            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    input
                
                                
                    metadata
                
                                
                    default
                
                                
                    get
                
                                
                    search
                
                                
                    hashset
                
                                
                    triggers
                
                                
                    web
                
                                
                    plugins
                
                                
                    dagger
                
                                
                    c语言
                
                                
                    fetch
                
                                
                    timestamp
                
                                
                    actionscrip
                
                                
                    testing
                
                                
                    const
                
                                
                    integer
                
                                
                    runtime
                
                                
                    string
                
                                
                    dockerfile
                
                                
                    spring
                
                                
                    byte
                
                                
                    regex
                
                                
                    filter
                
                                
                    hashcode
                
                                
                    solr
                
                                
                    loops
                
                                
                    email
                
                                
                    grid
                
                                
                    select
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1JavaScript范例体系详解
                
                                
                    2使用 ES7 Decorators 简化this的绑定
                
                                
                    3为PHP5安装curl和gd
                
                                
                    4PostgreSQL的upsert实例操作(insert
                
                                
                    5wordpress 一键搭建属于自己的网站
                
                                
                    6洪流学堂分享有赏·攻略
                
                                
                    7开发笔记:mybatismybatis中insert 主键自增和不自增的插入情况mysql
                
                                
                    8android app拉不起来 不报错,为什么我用android studio从git导入项目以后出现如下报错?难道还不支持android studio吗？...
                
                                
                    9[题解]LuoGu1801：黑匣子_NOI导刊2010提高（06）
                
                                
                    10React 分别打包测试、生产环境的配置
                
                                
                    11WPF主窗口在项目子文件夹中如何启动
                
                                
                    12依赖注入_php 依赖注入容器
                
                                
                    13[系统开发] 一个基于Django和PureCSS的内容管理系统
                
                                
                    14一份来自清华的数据分析笔记，请查收！
                
                                
                    15从零搭建Koa2 Server