当前位置: 开发笔记 > 编程语言 > 正文

在Lua中处理TSV文件

作者：E阳光男孩 | 来源：互联网 | 2023-10-14 10:54

我有一个非常大的TSV文件。第一行是标题。如果字段为空白，则以下各行包含数

我有一个非常大的TSV文件。第一行是标题。如果字段为空白，则以下各行包含数据，其后是制表符或双标签，否则字段可以包含字母数字或字母数字加标点符号。

例如：

Field1Field2FieldN

字段可以包含空格，标点符号或字母数字。唯一保持正确的是：

每个字段后都有一个标签，最后一个标签除外

最后一个字段后跟换行符

空白字段中有一个标签。像所有其他字段一样，它们后面都有一个选项卡。这使它们成为了双重标签。

我已经尝试过在lua中进行模式匹配的许多组合，但从未完全正确。通常带有标点符号的字段（时间和日期字段）才是让我受益的字段。

我需要保留空白字段（带有双标签的字段），以便其余字段始终处于相同的索引值。

预先感谢！

尝试以下代码：

function test(s) local n=0 s=s..'\t' for w in s:gmatch("(.-)\t") do n=n+1 print(n,"["..w.."]") end end test("10\t20\t30\t\t50") test("100\t200\t300\t\t500\t")

它在字符串的末尾添加了一个制表符，以便所有字段都跟随一个制表符，甚至最后一个也是如此。

行和列分开：

local filename = "big_tables.tsv" -- tab separated values -- local filename = "big_tables.csv" -- comma separated values local lines = io.lines(filename) -- open file as lines local tables = {} -- new table with columns and rows as tables[n_column][n_row]=value for line in lines do -- row iterator local i = 1 -- first column for value in (string.gmatch(line,"[^%s]+")) do -- tab separated values -- for value in (string.gmatch(line,'%d[%d.]*')) do -- comma separated values tables[i]=tables[i]or{} -- if not column then create new one tables[i][#tables[i]+1]=tonumber(value) -- adding row value i=i+1 -- column iterator end end

推荐阅读

tags
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
java
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
java
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
java
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
ip
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
python
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10
python
利用R语言进行股票价格数据的线性回归分析

本文介绍了如何使用R语言对Excel中的股票价格数据集执行线性回归分析。通过具体的代码示例，展示了数据的导入、处理及模型构建的过程。 ... [详细]

蜡笔小新 2024-12-15 21:32:26
datetime
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17
datetime
导入大csv文件到mysql（CSV导入）

导入大csv文件到mysql（CSV导入） ... [详细]

蜡笔小新 2024-12-12 15:01:40
java
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
python
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
uri
解决Classic ASP与PHP HMAC_SHA256哈希结果不一致的问题

本文探讨了如何在Classic ASP中实现与PHP的hash_hmac('SHA256', $message, pack('H*', $secret))函数等效的哈希生成方法。通过分析不同实现方式及其产生的差异，提供了一种使用Microsoft .NET Framework的解决方案。 ... [详细]

蜡笔小新 2024-12-21 10:38:09
java
Java 中的不可变集合与同步集合详解

本文将详细探讨 Java 中提供的不可变集合（如 `Collections.unmodifiableXXX`）和同步集合（如 `Collections.synchronizedXXX`）的实现原理及使用方法，帮助开发者更好地理解和应用这些工具。 ... [详细]

蜡笔小新 2024-12-20 15:34:31
java
Java 中重写与重载的区别

本文详细解析了 Java 编程语言中重写（Override）和重载（Overload）的概念及其主要区别，帮助开发者更好地理解和应用这两种多态性机制。 ... [详细]

蜡笔小新 2024-12-20 09:23:33
datetime
ML学习笔记20210824分类算法模型选择与调优

3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]

蜡笔小新 2024-12-19 09:10:33

E阳光男孩

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章