TIFF图像文件格式详解【转】

作者：吴款爷 | 来源：互联网 | 2023-09-12 03:42

【首先向原作者致敬】1什么是TIFF？TIFF是TaggedImageFileFormat的缩写。在现在的标准中，只有TIFF存在，其他的提法已经舍弃不用了。做为一种标记语言，T

【首先向原作者致敬】

1 什么是TIFF？

TIFF是Tagged Image File Format的缩写。在现在的标准中，只有TIFF存在，其他的提法已经舍弃不用了。做为一种标记语言，TIFF与其他文件格式最大的不同在于除了图像数据，它还可以记录很多图像的其他信息。它记录图像数据的方式也比较灵活，理论上来说，任何其他的图像格式都能为TIFF所用，嵌入到TIFF里面。比如JPEG， Lossless JPEG， JPEG2000和任意数据宽度的原始无压缩数据都可以方便的嵌入到TIFF中去。由于它的可扩展性， TIFF在数字影响、遥感、医学等领域中得到了广泛的应用。TIFF文件的后缀是.tif或者.tiff

2 TIFF文件结构

TIFF文件中的三个关键词是：图像文件头Image File Header(IFH)，图像文件目录Image File Directory(IFD)和目录项Directory Entry(DE)。每一幅图像是以8字节的IFH开始的，这个IFH指向了第一个IFD。IFD包含了图像的各种信息，同时也包含了一个指向实际图像数据的指针。
IFH的构成：

Byte 0-1: 字节顺序标志位，值为II或者MM。II表示小字节在前，又称为little-endian。MM表示大字节在前，又成为big-endian。

Byte 2-3: TIFF的标志位，一般都是42

Byte 4-7: 第一个IFD的偏移量。可以在任意位置，但必须是在一个字的边界，也就是说必须是2的整数倍。
IFD的构成(0代表此IFD的起始位置)：

Byte 0-1: 表示此IFD包含了多少个DE，假设数目为n

Byte 2-(n*12+1): n个DE

Byte (n*12+2)-(n*12+5): 下一个IFD的偏移量，如果没有则置为0
DE的构成：

Byte 0-1: 此TAG的唯一标识

Byte 2-3: 数据类型。

Byte 4-7: 数量。通过类型和数量可以确定存储此TAG的数据需要占据的字节数

Byte 8-11: 如果占用的字节数少于4，则数据直接存于此。如果超过4个，则这里存放的是指向实际数据的指针

可以用以下的图来表示(图来自http://www.cppblog.com/windcsn/archive/2009/03/12/1158.html)

在TIFF6.0中，定义了12种数据类型，分别是：

1 = BYTE 8-bit unsigned integer.

2 = ASCII 8-bit byte that contains a 7-bit ASCII code; the last byte

must be NUL (binary zero).

3 = SHORT 16-bit (2-byte) unsigned integer.

4 = LONG 32-bit (4-byte) unsigned integer.

5 = RATIONAL Two LONGs: the first represents the numerator

6 = SBYTE An 8-bit signed (twos-complement) integer.

7 = UNDEFINED An 8-bit byte that may contain anything, depending on

the definition of the field.

8 = SSHORT A 16-bit (2-byte) signed (twos-complement) integer.

9 = SLONG A 32-bit (4-byte) signed (twos-complement) integer.

10 = SRATIONAL Two SLONG’s: the first represents the numerator of a

fraction, the second the denominator.

11 = FLOAT Single precision (4-byte) IEEE format.

12 = DOUBLE Double precision (8-byte) IEEE format.

－个TIFF文件可能包含多个IFD，每一个IFD都是一个子文件。Baseline解码器只要求解第一个IFD所对应的图像数据。扩展的TIFF图像经常包含多个IFD，每一个IFD都包含了不同的信息。

TIF图一般由三个部分组成：文件头（简称IFH）、文件目录（简称IFD）、图像数据。

一、图像文件头（Image File Header）
IFH数据结构包含3个成员共计8个字节（见表一）：

表一 IFH结构描述

------------------------------------------------------------

名称　　　　　　　　字节数　数据类型说明

------------------------------------------------------------

Byteorder　　　　　　　2　　Integer　　TIF标记，其值为4D4D或4949

Version　　　　　　　　2　　Integer　　版本号，其值恒为2A00

Offset to first IFD　　4　　Long　　　第一个IFD的偏移量

------------------------------------------------------------

表一说明
1.Byteorder：可能是H4D4D或H4949，H4D4D表示该图是摩托罗拉整数格式，H4949表示该图是Intel整数格式。
2.Version：总是H2A00，它可能是tif文件的版本，也可能用于进一步校验该文件是否为TIF格式。
3.Offset to first IFD：第一个IFD相对文件开始处的偏移量（因为可能会有多个顺序排列的IFD）。
IFD数据结构并不一定紧跟在IFH后面，相反，它常常位于第三部分图像数据的后面，即TIF图像文件的一般组织形式是：IFH——图像数据——IFD。
二、图像文件目录（Image File Directory）
IFD是TIF图像文件中重要的数据结构，它包含了三个成员。由于一个TIF文件中可以有多个图像，而一个IFD只标识一个图像的所有属性（有的文章把“属性”称之为“标签”），所以，一个TIF文件中有几个图像，就会有几个IFD。IFD的结构见表二：

表二 IFD结构描述

-----------------------------------------------------------------

名称　　　　　　　　　字节数　数据类型说明

-----------------------------------------------------------------

Directory Entry Count 　2　　Integer　　本IFD中DE的数量

Directory Entry(1)　　　12　　　　　　　简称DE，中文译义“目录项”

Directory Entry(2)　　　12

……

Directory Entry(N)　　　12

Offset to next IFD　　　4　　Long　　　　下一个IFD的偏移量

-----------------------------------------------------------------

表二说明
1.Directory Entry Count：指出在该IFD中DE的个数；
2.Directory Entry：共12个字节，结构见表三。需要指出的是，DE的个数是不定的，因为每个DE只标识了图像的一个属性，那么这幅图像有N个属性就会有N个DE，用户甚至可添加自定义的标记属性，这就是为什么称TIF格式文件为“可扩充标记的文件”的原因。
3.Offset to next IFD Or NULL：下一个IFD相对于文件开始处的位置，这是一个链式构成。如果该数字为0，表示已经是最后一个IFD。当然，如果该TIF文件只包含了一幅图像，那么就只有一个IFD，显然这个偏移量也会等于0。

表三 DE结构描述

--------------------------------------------------

名称　　　　　字节数　　数据类型说明

--------------------------------------------------

tag　　　　　　　2　　　Integer　　本属性的标签编号

type　　　　　　 2　　　Integer　　本属性值的数据类型

length　　　　　 4　　　Long　　　该类型数据的数量

valueOffset　　　4　　　Long　　　属性值的存放偏移量

--------------------------------------------------

表三说明
由DE标识的图像属性有：图像的大小、分辨率、是否压缩、像素的行列数、颜色深度（单色、16色、256色、真彩色）等等。其中：
①tag：是该属性的标签编号（TagID），在图像文件目录中，它是按照升序排列的（但不一定是连续的）。这些编号在TIF格式官方白皮书中可以查到相应的含义，但遗憾的是，我们到哪儿可以找到官方白皮书呢？所以，笔者只能把网上能找得到资料（再结合自己的实验结果）罗列出来，见表四。
②type：表示该属性数据的类型，一般认为TIF官方指定的有5种数据类型（但也有说12种数据类型的）。见表五。
③length：该种类型的数据的个数，而不是某个数据的长度。
④valueOffset：是tagID代表的变量值相对文件开始处的偏移量，但如果变量值占用的空间不多于4个字节（例如只有1个Integer类型的值），那么该值就直接存放在valueOffset中，没必要再另外指向一个地方了。

表四 DE中标签编号的含义

-------------------------------------------------------------------------

TagID　属性名称 type 说明

-------------------------------------------------------------------------

0100 图像宽　　　　　　　0003

0101 图像高　　　　　　　0003

0102 颜色深度　　　　　　0003　　值＝1为单色，＝4为16色，＝8为256色。
如果该类型数据个数＞2个，说明是真彩图像

0103 图像数据是否压缩　　0003　　值＝05表示压缩

0106 图像是否采用反色显示0003　　值＝01表示反色，否则表示不反色

0111 图像扫描线偏移量　　0004　　图像数据起始字节相对于文件开始处的位置

0116 图像扫描线的数量　　0004　　表示图像有几行扫描线，实际上等于图像高度

0117 图像数据字节总数　　0003　　如果不是偶数，那么实际存放时会在后面加0

011A 水平分辩率偏移量　　0005　　常用计量单位是：像素/英寸

011B 垂直分辩率偏移量　0005　　常用计量单位是：像素/英寸

0131 生成该图像的软件名　0002　　文本类型

0132 生成该图像的时间　　0002　　文本类型

0140 调色板偏移量　　　　0003　　256色和16色图像才有此属性，而且有连续2个
调色板，但属性的length值只表示出1个调色板

-------------------------------------------------------------------------

表四说明
①“水平（垂直）分辩率”是分数型的属性，其值要占用8个字节，所以在valueOffset中存放的肯定是它的具体数值的偏移量，而不是数值本身。
②“生成图像的软件名称”和“生成图像的时间”这两个字符型属性，它们的值所占用的空间也会大于4字节，所以在valueOffset中存放的也是它们的值的偏移量，而不是值本身。
③“图像数据字节总数”一般是个偶数，如果是奇数，那么实际存放时会在后面加一个0，但这个0不会计算在字节总数之内。

表五 DE中的数据类型

--------------------------------------------------------------------

type值　数据类型　说明

--------------------------------------------------------------------

0001　　Byte

0002　　Ascii　　　文本类型，7位Ascii码加1位二进制0

0003　　Integer

0004　　Long

0005　　RATIONAL　分数类型，由两个Long组成，第1个是分子，第2个是分母

--------------------------------------------------------------------
三、图像数据。这些数据可能是压缩的，也可能是未压缩的。如果经过压缩，那么压缩算法又有许多种，所以，图像数据是TIF文件中最为复杂的部分，暂还没有哪个软件能译出所有的压缩算法。
四、一个 Tif 文件的实例
让我们自己动手做一个实验，以加深理性认识。
用系统自带的画图程序新建一个17*15的白色图像，另存为TIF文件，它的全部数据如下（因设备差异你的数据也许会有些微不同）：

0000: 49 49 2A 00 4E 00 00 00 80 3F E0 50 38 24 16 0D

0010: 07 84 42 61 50 B8 64 36 1D 0F 88 44 62 51 38 A4

0020: 56 2D 17 8C 46 63 51 B8 E4 76 3D 1F 90 48 64 52

0030: 39 24 96 4D 18 80 80 00 60 00 00 00 01 00 00 00

0040: 60 00 00 00 01 00 00 00 08 00 08 00 08 00 0F 00

0050: FE 00 04 00 01 00 00 00 00 00 00 00 00 01 03 00

0060: 01 00 00 00 11 00 00 00 01 01 03 00 01 00 00 00

0070: 0F 00 00 00 02 01 03 00 03 00 00 00 48 00 00 00

0080: 03 01 03 00 01 00 00 00 05 00 00 00 06 01 03 00

0090: 01 00 00 00 02 00 00 00 11 01 04 00 01 00 00 00

00A0: 08 00 00 00 15 01 03 00 01 00 00 00 03 00 00 00

00B0: 16 01 04 00 01 00 00 00 0F 00 00 00 17 01 04 00

00C0: 01 00 00 00 2F 00 00 00 1A 01 05 00 01 00 00 00

00D0: 38 00 00 00 1B 01 05 00 01 00 00 00 40 00 00 00

00E0: 1C 01 03 00 01 00 00 00 01 00 00 00 28 01 03 00

00F0: 01 00 00 00 02 00 00 00 3D 01 03 00 01 00 00 00

0100: 01 00 00 00 00 00 00 00

简要分析（请注意转换16进制数据时，低位在前，高位在后）：

0000－0007：文件头，可以看出，该图是Intel整数格式，第一个IFD的偏移量为4E。

0008－0037：图像数据。注意最后那个0是补加的，它没有统计在“图像数据字节总数”属性值中。

0038－003F：水平分辩率值。

0040－0047：垂直分辩率值。

0048－004D：颜色深度值。

004E－0107：第一个IFD。Directory Entry Count的值（004E－004F）为F，表示这个IFD中有15个DE，每个DE占用12字节，15个DE共占用180字节，加上Directory Entry Count占用的2字节，再加上
Offset to next IFD占用的4字节，这个IFD共占用186字节，换算为16进制就是BA，所以，它的数据结束于0107。Offset to next IFD的值（最后4个字节）均为0，表示整幅图像文件只有这一个IFD。其中15个DE的描述见表六。

表六一个Tif文件实例的DE描述

-------------------------------------------------------------------------

顺号   偏移量 TagID    Type       length valueOffset          说明

--------------------------------------------------------------------------

1      0050　00FE     Long　　　1　　　00　　　　未知属性值＝0

2      005C　0100　 Integer       1　　　11　　　　图像宽为17像素（10进制）

3      0068　0101　 Integer       1　　　0F　　　　图像高为15像素（10进制）

4    0074　0102　 Integer       3　　　48　　　　图像为真彩色，其值存放在48－4D

5    0080　0103　 Integer       1　　　05　　　　图像数据是压缩的

6     008C　0106 Integer      1　　　02　　　　图像不反色显示

7     0098　0111 Long　　　 1　　　08　　　　图像数据起始字节为8

8    00A4　0115　 Integer     1　　　03　　　　未知属性值＝3

9      00B0　0116　 Long　　　 1　　　0F　　　　图像扫描线有15行

10 00BC　0117　 Long　　　 1　　　2F　　　　图像共有47个字节的压缩数据

11　 00C8　011A　 RATIONAL　1　　　38　　　　水平分辩率存放在38－3F

12　 00D4　011B　 RATIONAL　1　　　40　　　　垂直分辩率存放在40－47

13　 00E0　011C　 Integer     1　　　01　　　　未知属性值＝1

14　 00EC　0128　 Integer     1　　　02　　　　未知属性值＝2

15　 00F8　013D　 Integer      1　　　01　　　　未知属性值＝1

--------------------------------------------------------------------------

表六说明
①水平分辩率值存放在0038－003F，占用8个字节，这8个字节是：60 00 00 00 01 00 00 00。由于它是分数类型，前4个字节是分子，其值为60000000，转换为10进制就是96，后4个字节是分母，其值是10000000，转换为10进制就是1，所以，分数值是：96/1，它表示每英寸96像素。
②垂直水平分辩率值存放在0040－0047，请参照①进行分析。
③颜色深度属性，它有3个Integer类型的值，共计6字节，所以valueOffset中存放的也是其值的偏移量。它的属性值存放在0048－004D，3个整形数据值都为8，表示这是一幅24位真彩色的图像。

推荐阅读

sum
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
sum
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
express
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
express
如何使用PHP代码将表格导出为UTF8格式的Excel文件

本文介绍了如何使用PHP代码将表格导出为UTF8格式的Excel文件。首先，需要连接到数据库并获取表格的列名。然后，设置文件名和文件指针，并将内容写入文件。最后，设置响应头部，将文件作为附件下载。 ... [详细]

蜡笔小新 2023-12-11 00:29:33
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
go
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
int
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
web
如何在Windows环境下配置php+apache环境

本文介绍了在Windows环境下如何配置php+apache环境，包括下载php7和apache2.4、安装vc2015运行时环境、启动php7和apache2.4等步骤。希望对需要搭建php7环境的读者有一定的参考价值。摘要长度为169字。 ... [详细]

蜡笔小新 2023-12-13 10:39:24
config
r2dbc配置多数据源

R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]

蜡笔小新 2023-12-12 16:38:53
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
js
手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？

本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]

蜡笔小新 2023-12-12 15:58:44
filter
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
config
突破MIUI14限制，自定义胶囊图标、大图标样式，支持任意APP

本文介绍了如何突破MIUI14的限制，实现自定义胶囊图标和大图标样式，并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ... [详细]

蜡笔小新 2023-12-12 12:07:16
int
IOS开发之短信发送与拨打电话的方法详解

本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ... [详细]

蜡笔小新 2023-12-11 20:15:47

吴款爷

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章