热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

linux基础命令bzip2

bzip2使用Burrows-Wheeler块排序文本压缩算法,将文件进行压缩,压缩比率比一般算法高一些。bzip2要求命令行标志附带一个文件名列表。每

bzip2

      使用Burrows-Wheeler块排序文本压缩算法,将文件进行压缩,压缩比率比一般算法高一些。bzip2要求命令行标志附带一个文件名列表。每个文件都被自己的压缩版本替换,名称为“original_name.bz2”。每个压缩文件与相应的原始文件具有相同的修改日期、权限和所有权(如果可能的话),因此可以在解压缩时正确地还原这些属性。

     默认情况下,bzip2和bunzip2不会覆盖现有文件。如果希望发生这种情况,请指定“-f”标志。如果没有指定文件名,bzip2将从标准输入压缩到标准输出。在这种情况下,bzip2拒绝将压缩输出写入终端,因为这将是完全不可理解的,因此毫无意义。

     bunzip2(或bzip2 -d)解压缩所有指定的文件。未由bzip2创建的文件将被检测和忽略,并发出警告。bzip2试图从压缩文件中猜测解压缩文件的文件名,如下所示:

filename.bz2    becomes  filename

filename.bz     becomes  filename

filename.tbz2   becomes  filename.tar

filename.tbz    becomes  filename.tar

anyothername    becomes  anyothername.out

     如果文件没有以.bz2、.bz、.tbz2或.tbz中的某个结尾,bzip2抱怨它无法猜测原始文件的名称,并使用原始名称并附加.out。与压缩一样,不提供文件名会导致从标准输入到标准输出的解压缩。bunzip2将正确解压缩一个文件,该文件是两个或多个压缩文件的级联。其结果是连接相应的未压缩文件。还支持连接压缩文件的完整性测试(-t)。

     还可以通过赋予“-c”标志将文件压缩或解压缩到标准输出。可以像这样压缩和解压缩多个文件。结果输出按顺序输入到stdout。以这种方式压缩多个文件会生成包含多个压缩文件表示的流。这样的流只能通过bzip2版本0.9.0或更高版本正确地解压缩。在解压缩流中的第一个文件后,bzip2的早期版本将停止。

     bzcat(或bzip2 -dc)将所有指定的文件解压到标准输出。bzip2将按照这个顺序从环境变量BZIP2和BZIP读取参数,并在从命令行读取任何参数之前对它们进行处理。这为提供默认参数提供了一种方便的方法。

     压缩总是被执行,即使压缩文件比原始文件稍大。小于100个字节的文件往往会变大,因为压缩机制在50个字节的范围内有一个恒定的开销。随机数据(包括大多数文件压缩器的输出)编码大约为每字节8.05位,扩展幅度约为0.5%。

     bzip2使用32位crc来确保解压缩版本的文件与原始文件相同。这可以防止压缩数据的损坏,防止bzip2中未被检测到的bug(希望非常不可能)。数据损坏的可能性是微乎其微的,大约每处理40亿个文件就有一个机会。但是,请注意,检查是在解压时发生的,因此它只能告诉您某些事情是错误的。它无法帮助您恢复原始未压缩数据。您可以使用bzip2recover尝试从损坏的文件中恢复数据。

     返回值:0表示正常退出,1表示环境问题(文件未找到,无效标志,I/O错误,&c),2表示损坏的压缩文件,3表示内部一致性错误(例如,bug),导致bzip2恐慌。

此命令的适用范围:RedHat、RHEL、Ubuntu、CentOS、SUSE、openSUSE、Fedora。

 

1、语法

     bzip2 [ -cdfkqstvzVL123456789 ]  [ filenames ...  ]

 

2、选项列表

选项

说明

-h | --help

帮助信息

-V | --version

显示命令版本信息

-c | --stdout

将解压或者解压文件写到标准输出

-d | --decompress 

解压

--z | -compress

对-d的补充:强制压缩,而不管调用名称如何

-t | --test

检查指定文件的完整性,但不要解压缩它们。这确实执行了一次尝试解压缩,并丢弃了结果。

-f | --force

强制执行

-k | --keep

解压之后,保留源文件

-s | --small

减少内存使用,用于压缩、解压缩和测试。使用修改的算法对文件进行解压缩和测试,该算法每个块字节只需要2.5字节。这意味着任何文件都可以在2300 k内存中解压缩,尽管速度是正常速度的一半。

在压缩期间,-s选择200 k的块大小,这将内存的使用限制在大约相同的数字上,而代价是压缩比。简而言之,如果你的机器内存不足(8兆字节或更少),那就用-s来做所有的事情。请参阅下面的内存管理。

-L | --license | -V | --version

列出gzip的许可证

-q | --quite

跳过所有的警告信息

-v | --verbose

显示详细执行过程

-1 ~-9

指定压缩比率,将块大小设为100k,200k,900K。解压时无效,“-1”等价于“--fast”,“-9”等价于“--best“。

-v | --verbose

显示执行过程

--

将所有后续参数视为文件名,即使它们以‘-’开头。这样您就可以处理以‘-’开头的文件,例如:“bzip2  --  -myfilename”。

--repetitive-fast

--repetitive-best

这些标志在0.9.5及以上版本中是多余的。它们对早期版本中排序算法的行为提供了一些粗略的控制,这有时是有用的。0.9.5及以上版本的改进算法使这些标志不相关

 

3、内存管理

     bzip2以块压缩大型文件。块大小既影响压缩比,也影响压缩和解压缩所需的内存量。标志-1到-9指定块大小分别为100000字节至900000字节(默认值)。解压缩时,从压缩文件的头读取用于压缩的块大小,然后为其分配足够的内存来解压缩文件。由于块大小存储在压缩文件中,因此在解压缩过程中,标志-1至-9与此无关,因而被忽略。压缩和解压缩需求(以字节为单位)可估计为

Compression:   400k + ( 8 x block size )

Decompression: 100k + ( 4 x block size ), or 100k + ( 2.5 x block size )

     更大的区块大小给出迅速递减的边际回报。大部分压缩来自块大小的前两三百k,在小型机器上使用bzip 2时要记住这一点。同样重要的是要认识到,解压缩内存需求是通过选择块大小在压缩时间设置的。

     对于默认的900k块大小压缩的文件,bunzip2需要大约3700千字节来解压缩。为了支持对4MB机器上的任何文件进行解压缩,bunzip2可以选择使用大约一半的内存(约2300千字节)来解压缩。解压缩速度也减半,因此您应该只在必要时使用此选项。相关的标志是-s。通常,尝试并使用允许的最大块大小的内存约束,因为这样可以最大限度地实现压缩。压缩和解压缩速度几乎不受块大小的影响。

     另一个要点适用于适合单个块的文件,意味着大多数使用大块大小的文件。接触到的实际内存量与文件大小成正比,因为文件小于块。例如,使用标志-9压缩一个文件的长度为20000字节,将导致压缩器分配大约7600k的内存,但只会触及400k+20000*8=56万字节的内存。类似地,解压缩程序将分配3700k,但只会触及100k+20000*4=180 k字节。

     下面是一个表,它总结了不同块大小的最大内存使用量

     Compress     Decompress       Decompress       Corpus

     Flag             usage      usage       -s usage     Size

     -1               1200k       500k         350k      914704

     -2               2000k       900k         600k      877703

     -3               2800k      1300k         850k      860338

     -4               3600k      1700k        1100k      846899

     -5               4400k      2100k        1350k      845160

     -6               5200k      2500k        1600k     838626

     -7               6100k      2900k        1850k      834096

     -8               6800k      3300k        2100k      828642

     -9               7600k      3700k        2350k      828642

 

4、从损坏的文件中恢复数据

     bzip2以块的形式压缩文件,通常长达900千字节。每个块都是独立处理的。如果媒体或传输错误导致multi-block .bz2文件损坏,则可以从文件中未损坏的块恢复数据。每个块的压缩表示由一个48位模式分隔,这使得以合理的确定性找到块边界成为可能。每个块还带有自己的32位CRC,因此损坏的块可以与未损坏的块区分开来。

     bzip2Recovery是一个简单的程序,其目的是搜索“.bz2”文件中的块,并将每个块写入自己的“.bz2”文件中。然后可以使用“bzip2  –t”测试结果文件的完整性,并解压缩未损坏的文件。

     bzip2Recovery接受一个参数,即受损文件的名称,并写入一些文件“rec00001file.bz2”、“rec00002file.bz2”等,其中包含提取的块。输出文件名的设计使得在随后的处理中使用通配符。例如,“bzip2  -dc  rec*file.bz2  >  recovered_data”按正确的顺序处理文件。

     处理大型bz2文件时,bzip2恢复应该是最有用的,因为这些文件将包含许多块。在损坏的单块文件上使用它显然是徒劳无功的,因为损坏的块无法恢复。如果希望通过媒体或传输错误最大限度地减少任何潜在的数据丢失,可以考虑使用较小的块大小进行压缩。

 

5、执行情况说明

     压缩的排序阶段收集文件中类似的字符串。正因为如此,包含大量重复符号的文件,如“aabaabaabaab.”(重复几百次)可能比正常压缩速度慢。在这方面,0.9.5及以上的版本比以前的版本要好得多。最坏压缩时间与平均压缩时间之比在10:1左右.对于以前的版本,这个数字更像是100:1。如果需要,可以使用-vvvv选项来非常详细地监视进度。减压速度不受这些现象的影响。

     bzip 2通常分配几兆字节的内存进行操作,然后以相当随机的方式对其进行充电。这意味着压缩和解压缩的性能在很大程度上取决于您的机器能够为缓存丢失提供服务的速度。正因为如此,通过对代码进行小幅度的更改以降低漏出率,从而提供了不成比例的大幅度性能改进。我认为bzip 2在具有非常大缓存的机器上表现最好。

7、实例

     1)压缩文件

[root@localhost weijie]# bzip2 1.c                   //压缩1.c,源文件会被删除

[root@localhost weijie]# ls

11.c  1.c.bz2  2.c  3.c  4.c  5.c  6.c~  bak

[root@localhost weijie]# bzip2 -c 2.c > res.bz2     //1.c压缩到res,源文件不动

[root@localhost weijie]# ls

11.c  1.c.bz2  2.c  3.c  4.c  5.c  6.c~  bak  res.bz2

     2)解压

[root@localhost weijie]# bzip2 -d res.bz2            //解压

[root@localhost weijie]# ls

11.c  1.c.bz2 2.c  3.c  4.c 5.c  6.c~  bak res

     3)将两个文件压缩到一个文件中

[root@localhost weijie]# cat 1.c 2.c                   //输出两个文件的内容

hello world, 

i am david. 

i love linux, 

love code.

123

23

212

[root@localhost weijie]# bzip2 –c 1.c > foo.gz        //1.c压缩到foo

[root@localhost weijie]# bzip2 –c 2.c >> foo.gz       //2.c压缩到foo

[root@localhost weijie]# bgzip2 -d foo.gz              //解压foo

[root@localhost weijie]# cat foo                        //显示foo的内容

hello world, 

i am david. 

i love linux, 

love code.

123

23

212

 

 

 

做了一个Linux学习的平台,目前出来一个雏形,各位可以参考使用
链接:https://pan.baidu.com/s/1GOLVU2CbpBNGtunztVpaCQ  密码:n7bk

转载于:https://www.cnblogs.com/wj78080458/p/10062068.html


推荐阅读
  • 如何使用PLEX播放组播、抓取信号源以及设置路由器
    本文介绍了如何使用PLEX播放组播、抓取信号源以及设置路由器。通过使用xTeve软件和M3U源,用户可以在PLEX上实现直播功能,并且可以自动匹配EPG信息和定时录制节目。同时,本文还提供了从华为itv盒子提取组播地址的方法以及如何在ASUS固件路由器上设置IPTV。在使用PLEX之前,建议先使用VLC测试是否可以正常播放UDPXY转发的iptv流。最后,本文还介绍了docker版xTeve的设置方法。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • Webmin远程命令执行漏洞复现及防护方法
    本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法,同时提供了防护方法。漏洞存在于Webmin的找回密码页面中,攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外,还指出了参考链接中的数据包不准确的问题,并解释了漏洞触发的条件。最后,给出了防护方法以避免受到该漏洞的攻击。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • Vagrant虚拟化工具的安装和使用教程
    本文介绍了Vagrant虚拟化工具的安装和使用教程。首先介绍了安装virtualBox和Vagrant的步骤。然后详细说明了Vagrant的安装和使用方法,包括如何检查安装是否成功。最后介绍了下载虚拟机镜像的步骤,以及Vagrant镜像网站的相关信息。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Centos7搭建ELK(Elasticsearch、Logstash、Kibana)教程及注意事项
    本文介绍了在Centos7上搭建ELK(Elasticsearch、Logstash、Kibana)的详细步骤,包括下载安装包、安装Elasticsearch、创建用户、修改配置文件等。同时提供了使用华为镜像站下载安装包的方法,并强调了保证版本一致的重要性。 ... [详细]
  • 如何方便地退订邮件列表,避免混乱和烦恼
    本文介绍了如何方便地退订邮件列表,避免混乱和烦恼。文章指出,退订邮件列表可能会造成混乱,特别是当被意外添加到列表中时。为了快速、轻松地取消订阅,建议不要将退订电子邮件发送到用于发布消息的电子邮件地址。文章还介绍了邮件列表由邮件列表软件控制,作为邮件列表成员,可以对该软件进行一些用户控制。一些邮件列表允许使用自动电子邮件地址退订,但这可能会带来一些混乱。最后,文章提到退订邮件列表需要向电子邮件服务器发送特殊命令来脱离列表。 ... [详细]
  • centos安装Mysql的方法及步骤详解
    本文介绍了centos安装Mysql的两种方式:rpm方式和绿色方式安装,详细介绍了安装所需的软件包以及安装过程中的注意事项,包括检查是否安装成功的方法。通过本文,读者可以了解到在centos系统上如何正确安装Mysql。 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • Linux下安装免费杀毒软件ClamAV及使用方法
    本文介绍了在Linux系统下安装免费杀毒软件ClamAV的方法,并提供了使用该软件更新病毒库和进行病毒扫描的指令参数。同时还提供了官方安装文档和下载地址。 ... [详细]
author-avatar
哗锅_348
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有