过滤数百万条记录的平面文件中的数据-filteringdatainaflatfilewithmillionsofrecords

作者：技术潜行者 | 来源：互联网 | 2023-09-03 11:28

Ihaveagzippedfiletradedata.txt.gzwhichcontainsmillionsofrecords.thisfilehasabout50fi

I have a gzipped file tradedata.txt.gz which contains millions of records. this file has about 50 fields separated by |. The 45th field can contain values such as 0000, 0002, 0003, 0004 and blank value(null). I want to filter the file and get those rows with value 0000,0002 and blank values only. I want to do this in the fastest way using awk, perl, or any other language.

我有一个gzip压缩文件tradedata.txt.gz,其中包含数百万条记录。此文件有大约50个以|分隔的字段。第45个字段可以包含诸如0000,0002,0003,0003和空值(空值)之类的值。我想过滤文件并获取值为0000,0002且仅为空值的行。我想使用awk,perl或任何其他语言以最快的方式执行此操作。

For example, the data looks like this (I am only displaying few fields for illustration purposes).

例如,数据看起来像这样(我只显示几个字段用于说明目的)。

abc|234|test|0000|test2|1
abc|2343|test1|0002|test2|1
abc|2345|test3|0004|test2|1
abc|2346|test4|0004|test2|1
abc|2347|test5|0003|test2|1
abc|2348|test6||test2|1
abc|234|test|0003|test2|1

The results after filtering the data should be:

过滤数据后的结果应为:

abc|234|test|0000|test2|1
abc|2343|test1|0002|test2|1
abc|2348|test6||test2|1

As you can see, I am only pulling records with value 0000,0002 and blank. Can someone help with this request using awk, perl or anything other language that does it the fastest way?

正如您所看到的,我只会提取值为0000,0002且空白的记录。有人可以使用awk,perl或其他任何语言以最快的方式帮助处理此请求吗?

2 个解决方案

#1

Using awk:

$ awk -F'|' '$4=="0000"||$4=="0002"||$4==""' file
abc|234|test|0000|test2|1
abc|2343|test1|0002|test2|1
abc|2348|test6||test2|1

Change $4 to $45 for your actual input file.

将实际输入文件的$ 4更改为$ 45。

Using perl:

$ perl -F'\|' -lane 'print if grep $F[3] eq $_, ("0002", "0000", "")' file
abc|234|test|0000|test2|1
abc|2343|test1|0002|test2|1
abc|2348|test6||test2|1

Change $F[3] to $F[44] for your actual input file.

将实际输入文件的$ F [3]更改为$ F [44]。

Update:

As hobbs mentioned in the comment below, you can try the following if existing solution aren't quick enough:

正如下面评论中提到的hobbs,如果现有解决方案不够快,您可以尝试以下方法:

perl -F'\|' -lane 'print if $F[3] =~ /\A(?:0002|0000|)\z/' file

perl -F'\ |' -lane'打印如果$ F [3] =〜/ \ A(?:0002 | 0000 |)\ z /'文件

#2

Here is all in one test

这是一次测试

awk -F'|' '$4~/^(000(0|2)|)$/' file
abc|234|test|0000|test2|1
abc|2343|test1|0002|test2|1
abc|2348|test6||test2|1

推荐阅读

plugins
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
php
解决 Ubuntu 下 Samba 重新安装时配置文件未重新生成的问题

在 Ubuntu 中遇到 Samba 服务器故障时，尝试卸载并重新安装 Samba 发现配置文件未重新生成。本文介绍了解决该问题的方法。 ... [详细]

蜡笔小新 2024-11-12 13:02:23
string
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
php
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
数组
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
string
如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析

如何使用 `org.apache.tomcat.websocket.server.WsServerContainer.findMapping()` 方法及其代码示例解析 ... [详细]

蜡笔小新 2024-11-11 10:08:55
format
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
function
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
get
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
数组
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
format
将PEBuilder转换为DIBooter.sh，集成DI工具至启动层（5）：实现离线镜像引导安装

本文探讨了将PEBuilder转换为DIBooter.sh的方法，重点介绍了如何将DI工具集成到启动层，实现离线镜像引导安装。通过使用DD命令替代传统的grub-install工具，实现了GRUB的离线安装。此外，还详细解析了bootice工具的工作原理及其在该过程中的应用，确保系统在无网络环境下也能顺利引导和安装。 ... [详细]

蜡笔小新 2024-10-28 13:49:10
js
深入浅出解析HTTP协议的核心功能与应用

前言——协议是指预先设定的通信规则，确保双方能够按照既定标准进行有效沟通，从而实现准确的信息交换。例如，驯兽师通过拍手使动物坐下，这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用，解析其在现代网络通信中的重要作用。 ... [详细]

蜡笔小新 2024-10-26 18:47:54
js
网站前端开发的核心理念与必备技能解析

网站前端开发的核心理念与必备技能解析 ... [详细]

蜡笔小新 2024-10-24 10:26:17
dll
IIS启用Gzip的方法与优缺点分析-Discuz

IIS启用Gzip的方法与优缺点分析是千自学中一篇关于Discuz论坛的文章简介:现代的浏览器IE6和Firefox都支持客户端Gzip，也就是说，在服务器上的网页，传输之前，先使用Gzip压缩再传输给客户端，客户端接收之后由浏览器解压显示，这样虽然稍微占用了一些服务器和客户端的C ... [详细]

蜡笔小新 2024-10-15 18:00:47

技术潜行者

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章