当前位置: 开发笔记 > 编程语言 > 正文

python计算数据包校验和（python接口数据校验）

作者：危亚丽 | 来源：互联网 | 2023-10-16 08:28

本文目录一览：1、怎么用python算p值和t检验

本文目录一览：

1、怎么用python算p值和t检验

2、python数据统计分析

3、IP/UDP/TCP/ICMP数据报协议的校验和的区别和计算

4、GPRMC校验位如何计算 python csdn

5、校验和求计算？计算过程最好给我讲下？

怎么用python算p值和t检验

引入相关模块，这次我们使用stats的

产生两列随机变量，用到了stats。norm.rvs，参数loc表示平均数，scale表示标准差，size是样本量这是产生的两个变量的数据的一部分

ttest_rel的用法：输出t和p值从p值可以看出，这两列数据是没有差异的。

当然，ttest_rel还可以接受pandas.DataFrame数据，先从excel中读取数据我们可以看一下数据的基本内容：

我们可以选择scoreA和ScoreB这两列数据进行T检验输出的结果可见两列变量均值无差异

我们还可以同时对多个变量进行检验，比如：这是产生的结果可见：第一个array表示t值，两个表示p值，因此我们可以知道p(scoreA)=0.1260.05

python数据统计分析

1. 常用函数库

scipy包中的stats模块和statsmodels包是python常用的数据分析工具，scipy.stats以前有一个models子模块，后来被移除了。这个模块被重写并成为了现在独立的statsmodels包。

scipy的stats包含一些比较基本的工具，比如：t检验，正态性检验，卡方检验之类，statsmodels提供了更为系统的统计模型，包括线性模型，时序分析，还包含数据集，做图工具等等。

2. 小样本数据的正态性检验

(1) 用途

夏皮罗维尔克检验法 (Shapiro-Wilk) 用于检验参数提供的一组小样本数据线是否符合正态分布，统计量越大则表示数据越符合正态分布，但是在非正态分布的小样本数据中也经常会出现较大的W值。需要查表来估计其概率。由于原假设是其符合正态分布，所以当P值小于指定显著水平时表示其不符合正态分布。

正态性检验是数据分析的第一步，数据是否符合正态性决定了后续使用不同的分析和预测方法，当数据不符合正态性分布时，我们可以通过不同的转换方法把非正太态数据转换成正态分布后再使用相应的统计方法进行下一步操作。

(2) 示例

(3) 结果分析

返回结果 p-value=0.029035290703177452，比指定的显著水平（一般为5%）小，则拒绝假设：x不服从正态分布。

3. 检验样本是否服务某一分布

(1) 用途

科尔莫戈罗夫检验(Kolmogorov-Smirnov test)，检验样本数据是否服从某一分布，仅适用于连续分布的检验。下例中用它检验正态分布。

(2) 示例

(3) 结果分析

生成300个服从N(0,1)标准正态分布的随机数，在使用k-s检验该数据是否服从正态分布，提出假设：x从正态分布。最终返回的结果，p-value=0.9260909172362317，比指定的显著水平（一般为5%）大，则我们不能拒绝假设：x服从正态分布。这并不是说x服从正态分布一定是正确的，而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受，认为x服从正态分布。如果p-value小于我们指定的显著性水平，则我们可以肯定地拒绝提出的假设，认为x肯定不服从正态分布，这个拒绝是绝对正确的。

4.方差齐性检验

(1) 用途

方差反映了一组数据与其平均值的偏离程度，方差齐性检验用以检验两组或多组数据与其平均值偏离程度是否存在差异，也是很多检验和算法的先决条件。

(2) 示例

(3) 结果分析

返回结果 p-value=0.19337536323599344, 比指定的显著水平（假设为5%）大，认为两组数据具有方差齐性。

5. 图形描述相关性

(1) 用途

最常用的两变量相关性分析，是用作图描述相关性，图的横轴是一个变量，纵轴是另一变量，画散点图，从图中可以直观地看到相关性的方向和强弱，线性正相关一般形成由左下到右上的图形；负面相关则是从左上到右下的图形，还有一些非线性相关也能从图中观察到。

(2) 示例

(3) 结果分析

从图中可以看到明显的正相关趋势。

6. 正态资料的相关分析

(1) 用途

皮尔森相关系数（Pearson correlation coefficient）是反应两变量之间线性相关程度的统计量，用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间，以及自变量和因变量之间的相关性。

(2) 示例

(3) 结果分析

返回结果的第一个值为相关系数表示线性相关程度，其取值范围在[-1,1]，绝对值越接近1，说明两个变量的相关性越强，绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value，统计学上，一般当p-value0.05时，可以认为两变量存在相关性。

7. 非正态资料的相关分析

(1) 用途

斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data )，它主要用于评价顺序变量间的线性相关关系，在计算过程中，只考虑变量值的顺序（rank, 值或称等级），而不考虑变量值的大小。常用于计算类型变量的相关性。

(2) 示例

(3) 结果分析

返回结果的第一个值为相关系数表示线性相关程度，本例中correlation趋近于1表示正相关。第二个值为p-value，p-value越小，表示相关程度越显著。

8. 单样本T检验

(1) 用途

单样本T检验，用于检验数据是否来自一致均值的总体，T检验主要是以均值为核心的检验。注意以下几种T检验都是双侧T检验。

(2) 示例

(3) 结果分析

本例中生成了2列100行的数组，ttest_1samp的第二个参数是分别对两列估计的均值，p-value返回结果，第一列1.47820719e-06比指定的显著水平（一般为5%）小，认为差异显著，拒绝假设；第二列2.83088106e-01大于指定显著水平，不能拒绝假设：服从正态分布。

9. 两独立样本T检验

(1) 用途

由于比较两组数据是否来自于同一正态分布的总体。注意：如果要比较的两组数据不满足方差齐性，需要在ttest_ind()函数中添加参数equal_var = False。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，第二个值为p-value，pvalue=0.19313343989106416，比指定的显著水平（一般为5%）大，不能拒绝假设，两组数据来自于同一总结，两组数据之间无差异。

10. 配对样本T检验

(1) 用途

配对样本T检验可视为单样本T检验的扩展，检验的对象由一群来自正态分布独立样本更改为二群配对样本观测值之差。它常用于比较同一受试对象处理的前后差异，或者按照某一条件进行两两配对分别给与不同处理的受试对象之间是否存在差异。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，第二个值为p-value，pvalue=0.80964043445811551，比指定的显著水平（一般为5%）大，不能拒绝假设。

11. 单因素方差分析

(1) 用途

方差分析(Analysis of Variance，简称ANOVA)，又称F检验，用于两个及两个以上样本均数差别的显著性检验。方差分析主要是考虑各组之间的平均数差别。

单因素方差分析（One-wayAnova），是检验由单一因素影响的多组样本某因变量的均值是否有显著差异。

当因变量Y是数值型，自变量X是分类值，通常的做法是按X的类别把实例成分几组，分析Y值在X的不同分组中是否存在差异。

(2) 示例

(3) 结果分析

返回结果的第一个值为统计量，它由组间差异除以组间差异得到，上例中组间差异很大，第二个返回值p-value=6.2231520821576832e-19小于边界值（一般为0.05）,拒绝原假设, 即认为以上三组数据存在统计学差异，并不能判断是哪两组之间存在差异。只有两组数据时，效果同 stats.levene 一样。

12. 多因素方差分析

(1) 用途

当有两个或者两个以上自变量对因变量产生影响时，可以用多因素方差分析的方法来进行分析。它不仅要考虑每个因素的主效应，还要考虑因素之间的交互效应。

(2) 示例

(3) 结果分析

上述程序定义了公式，公式中，"~"用于隔离因变量和自变量，”+“用于分隔各个自变量， ":"表示两个自变量交互影响。从返回结果的P值可以看出，X1和X2的值组间差异不大，而组合后的T:G的组间有明显差异。

13. 卡方检验

(1) 用途

上面介绍的T检验是参数检验，卡方检验是一种非参数检验方法。相对来说，非参数检验对数据分布的要求比较宽松，并且也不要求太大数据量。卡方检验是一种对计数资料的假设检验方法，主要是比较理论频数和实际频数的吻合程度。常用于特征选择，比如，检验男人和女人在是否患有高血压上有无区别，如果有区别，则说明性别与是否患有高血压有关，在后续分析时就需要把性别这个分类变量放入模型训练。

基本数据有R行C列, 故通称RC列联表(contingency table), 简称RC表，它是观测数据按两个或更多属性（定性变量）分类时所列出的频数表。

(2) 示例

(3) 结果分析

卡方检验函数的参数是列联表中的频数，返回结果第一个值为统计量值，第二个结果为p-value值，p-value=0.54543425102570975，比指定的显著水平（一般5%）大，不能拒绝原假设，即相关性不显著。第三个结果是自由度，第四个结果的数组是列联表的期望值分布。

14. 单变量统计分析

(1) 用途

单变量统计描述是数据分析中最简单的形式，其中被分析的数据只包含一个变量，不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。

单变量数据统计描述从集中趋势上看，指标有：均值，中位数，分位数，众数；从离散程度上看，指标有：极差、四分位数、方差、标准差、协方差、变异系数，从分布上看，有偏度，峰度等。需要考虑的还有极大值，极小值（数值型变量）和频数，构成比（分类或等级变量）。

此外，还可以用统计图直观展示数据分布特征，如：柱状图、正方图、箱式图、频率多边形和饼状图。

15. 多元线性回归

(1) 用途

多元线性回归模型（multivariable linear regression model ），因变量Y（计量资料）往往受到多个变量X的影响，多元线性回归模型用于计算各个自变量对因变量的影响程度，可以认为是对多维空间中的点做线性拟合。

(2) 示例

(3) 结果分析

直接通过返回结果中各变量的P值与0.05比较，来判定对应的解释变量的显著性，P0.05则认为自变量具有统计学意义，从上例中可以看到收入INCOME最有显著性。

16. 逻辑回归

(1) 用途

当因变量Y为2分类变量（或多分类变量时）可以用相应的logistic回归分析各个自变量对因变量的影响程度。

(2) 示例

(3) 结果分析

直接通过返回结果中各变量的P值与0.05比较，来判定对应的解释变量的显著性，P0.05则认为自变量具有统计学意义。

python计算数据包校验和（python接口数据校验）

IP/UDP/TCP/ICMP数据报协议的校验和的区别和计算

首先，IP、ICMP、UDP和TCP报文头部都有校验和字段，大小都是16bit，算法也基本一样：

在发送数据时，为了计算数据包的校验和。应该按如下步骤：

（1）把校验和字段置为0；

（2）把需校验的数据看成以16位为单位的数字组成，依次进行二进制反码求和；（3）把得到的结果存入校验和字段中。在接收数据时，计算数据包的校验和相对简单，按如下步骤：

（1）把首部看成以16位为单位的数字组成，依次进行二进制反码求和，包括校验和字段；

（2）检查计算出的校验和的结果是否为0；

（3）如果等于0，说明被整除，校验是和正确。否则，校验和就是错误的，协议栈要抛弃这个数据包。

虽然上面四种报文的校验和算法一样，但在作用范围存在不同：IP校验和只校验20字节的IP报头；而ICMP校验和覆盖整个报文（ICMP报头+ICMP数据）；UDP和TCP校验和不仅覆盖整个报文，而且还有12字节的IP伪首部，包括源IP地址(4字节)、目的IP地址(4字节)、协议(2字节，第一字节补0)和TCP/UDP包长(2字节)。另外UDP、TCP数据报的长度可以为奇数字节，所以在计算校验和时需要在最后增加填充字节0（注意，填充字节只是为了计算校验和，可以不被传送）。

这里还要提一点，UDP的校验和是可选的，当校验和字段为0时，表明该UDP报文未使用校验和，接收方就不需要校验和检查了！那如果UDP校验和的计算结果是0时怎么办呢？书上有这么一句话：“如果校验和的计算结果为0，则存入的值为全1（65535），这在二进制反码计算中是等效的。”

讲了这么多，那这个校验和到底是怎么算的呢？

1. 什么是二进制反码求和

对一个无符号的数，先求其反码，然后从低位到高位，按位相加，有溢出则向高位进1（跟一般的二进制加法规则一样），若最高位有进位，则向最低位进1。

首先这里的反码好像跟我们以前学的有符号数的反码不一样（即正数的反码是其本身，负数的反码是在其原码的基础上，符号位不变，其余各位取反），这里不分正负数，直接每个位都取反！

上面加粗的那句是跟我们一般的加法规则不太一样的地方：最高位有进位，则向最低位进1。确实有些疑惑，为什么要这样做呢？仔细分析一下（为了方便说明，以 4bit二进制反码求和举例），上面的这种操作，使得在发生加法进位溢出时，溢出的值并不是10000，而是1111。也即是当相加结果满1111时溢出，这样也可以说明为什么0000和1111都表示0了（你同样可以发现，任何数与这两个数做二进制反码求和运算结果都是原数，这恰好符合数0的加法意义）。

下面再举例两种二进制反码求和的运算：

原码加法运算反码加法运算

3（0011）+ 5（0101）= 8（1000） 3（1100）+ 5（1010）= 8（0111）

8（1000）+ 9（1001）= 1（0001） 8（0111）+ 9（0110）= 2（1101）

从上面两个例子可以看出，当加法未发生溢出时，原码与反码加法运算结果一样；当有溢出时，结果就不一样了，原码是满10000溢出，而反码是满1111溢出，所以相差正好是.

1。举例只是为了形象地观察二进制反码求和的运算规则，至于为什么要定义这样的规则以及该运算规则还存在其它什么特性，可能就需要涉及代数理论的东西的了（呜呜~~数学理论没学好啊，只能从表面上分析分析）。

另外关于二进制反码求和运算需要说明的一点是，先取反后相加与先相加后取反，得到的结果是一样的！（事实上我们的编程算法里，几乎都是先相加后取反。）

2. 校验和算法的实现

讲了什么是二进制反码求和，那么校验和的算法实现就简单多了。废话少说，直接上代码：

[cpp] view plaincopy

//计算校验和

USHORT checksum(USHORT *buffer,int size)

{

unsigned long cksum=0;

while(size1)

{

cksum+=*buffer++;

size-=sizeof(USHORT);

}

if(size)

{

cksum+=*(UCHAR *)buffer;

}

//将32位数转换成16

while (cksum16)

cksum=(cksum16)+(cksum 0xffff);

return (USHORT) (~cksum);

}

buffer是指向需校验数据缓存区的指针，size是需校验数据的总长度（字节为单位）

4~13行代码对数据按16bit累加求和，由于最高位的进位需要加在最低位上，所以cksum必须是32bit的unsigned long型，高16bit用于保存累加过程中的进位；另外代码10~13行是对size为奇数情况的处理！

14~16行代码的作用是将cksum高16bit的值加到低16bit上，即把累加中最高位的进位加到最低位上。这里使用了while循环，判断cksum高16bit是否非零，因为第16行代码执行的时候，仍可能向cksum的高16bit进位。

有些地方是通过下面两条代码实现的：

cksum = (cksum 16) + (cksum 0xffff);

cksum += (cksum 16);

这里只进行了两次相加，即可保证相加后cksum的高16位为0，两种方式的效果一样。事实上，上面的循环也最多执行两次！

17行代码即对16bit数据累加的结果取反，得到二进制反码求和的结果，然后函数返回该值。

3. 为什么使用二进制反码求和呢？

好了，最后一个问题，为什么要使用二进制反码来计算校验和呢，而不是直接使用原码或者补码？

这个问题我想了很久，由于水平有限实在弄不明白，于是在百度上一阵狂搜，什么都没有（不知道是百度不给力，还是大家都不关注这个问题呢？）。果断换google，敲了3个关键词：why checksum tcp，嘿嘿结果第二篇就是我想要的文章了！！！

先把链接给大家吧：

这篇文章主要介绍二进制反码求和（the 1's complement sum）与补码求和（the 2's complement sum）的区别，另外还说明了在TCP/IP校验和中使用反码求和的优点。

It may look awkword to use a 1's complement addition on 2's complement machines. This method however has its own benefits.

Probably the most important is that it is endian independent. Little Endian computers store hex numbers with the LSB last (Intel processors for example). Big Endian computers put the LSB first (IBM mainframes for example). When carry is added to the LSB to form the 1's complement sum (see the example) it doesn't matter if we add 03 + 01 or 01 + 03. The result is the same.

Other benefits include the easiness of checking the transmission and the checksum calculation plus a variety of ways to speed up the calculation by updating only IP fields that have changed.

上面是原文的一部分，说明在TCP/IP校验和中使用反码求和的一些优点：

a. 不依赖系统是大端还是小端。即无论你是发送方计算或者接收方检查校验和时，都不需要调用htons 或者 ntohs，直接通过上面第2节的算法就可以得到正确的结果。这个问题你可以自己举个例子，用反码求和时，交换16位数的字节顺序，得到的结果相同，只是字节顺序相应地也交换了；而如果使用原码或者补码求和，得到的结果可能就不相同！

b. 计算和验证校验和比较简单，快速。说实话，这个没怎么看明白，感觉在校验和计算方面，原码或者补码求和反而更简单一些（从C语言角度），在校验和验证上面，通过一样的算法判断结果是否为全 0，确实要方便一些，所以可能从综合考虑确实反码求和要简便一些。另外，IP报文在传输过程中，路由器经常只修改TTL字段（减1），此时路由器转发该报文时可以直接增加它的校验和，而不需要对IP整个首部进行重新计算。当然，可能从汇编语言的角度看，反码求和还有很多高效的地方，这里就不在深入追究了~~~

GPRMC校验位如何计算 python csdn

如果是当作无符号整数来计算，则算法要简单很多，实际上都可以缩减为一句代码的事。如果是当作带符号整数来计算，则算法要复杂一下，要处理各种上溢出和下溢出的情形。正如文章开头指出的，不论使用哪种方式，最后的二进制表示都是一样的。

所以一般情况下可以使用无符号整数来计算校验和，简单快速。

校验和求计算？计算过程最好给我讲下？

校验和算法

unsigned short check_sum(unsigned short *addr,int len)

{

short answer=0;

while(nleft1)

{

sum+=*w++;

nleft-=2;

}

if(nleft==1)

{

*(unsigned char *)(answer)=*(unsigned char *)w;

sum+=answer;

}

sum=(sum16)+(sum0xffff);

sum+=(sum16);

answer=~sum;

return(answer);

}

首先，IP、ICMP、UDP和TCP报文头都有检验和字段，大小都是16bit，算法基本上也是一样的。

在发送数据时，为了计算数据包的检验和。应该按如下步骤：

1、把校验和字段设置为0；

2、把需要校验的数据看成以16位为单位的数子组成，依次进行二进制反码求和；

3、把得到的结果存入校验和字段中

在接收数据时，计算数据包的检验和相对简单，按如下步骤：

1、把首部看成以16位为单位的数字组成，依次进行二进制反码求和，包括校验和字段；

2、检查计算出的校验和的结果是否为0；

3、如果等于0，说明被整除，校验和正确。否则，校验和就是错误的，协议栈要抛弃这个数据包。

虽然说上面四种报文的校验和算法一样，但是在作用范围存在不同：IP校验和只校验20字节的IP报头；而ICMP校验和覆盖整个报文(ICMP报头+ICMP数据)；UDP和TCP校验和不仅覆盖整个报文，而且还有12个字节的IP伪首部，包括源IP地址(4字节)、目的IP地址(4字节)、协议(2字节)、TCP/UDP包长(2字节)。另外UDP、TCP数据报的长度可以为奇数字节，所以在计算校验和时需要在最后增加填充字节0(填充字节只是为了计算校验和，可以不被传送)。

在UDO传输协议中，校验和是可选的，当校验和字段为0时，表明该UDP报文未使用校验和，接收方就不需要校验和检查了！那如果UDP校验和的计算结果是0时怎么办？书上有一句话：“如果校验和的计算结果为0，则存入的值为全1(65535)，这在二进制反码计算中是等效的”

那么校验和到底怎么计算了？

1、什么是二进制反码求和

对一个无符号的数，先求其反码，然后从低位到高位，按位相加，有益处则向高位进1(和一般的二进制法则一样),若最高位有进位，则向最低位进1.

首先这里的反反码好像和以前学的有符号反码不一样，这里不分正负数，直接每个为都取反。

上面加粗的那句话和我们平时的加法法则不一样，最高位有进位，则向最低位进1。确实有些疑惑，为什么要这样呢？自习分析一下，上面的这种操作，使得在发送加法进位溢出时，溢出值并不是10000，而是1111.也即是当相加结果满1111时溢出，这样也可以说明为什么0000和1111都表示0了。

下面是两种二进制反码求和的运算：

原码加法运算：3(0011)+5(0101)=8(1000)

8(1000)+9(1001)=1(0001)

反码加法运算：3(1100)+5(1010)=8(0111)

8(0111)+9(0110)=2(1101)

从上面的例子中，当加法未发生溢出时，原码与反码加法运算结果一样；当有溢出时，结果就不一样了，原码是满10000溢出，而反码是满1111溢出，所以相差正好是1.