校验技术

ID:3719 · 发表于 2008-7-27 10:28

校验，是在数据传送过程中为了检查数据完整性的一种手段。通常的做法是发送方在数据帧之中或者之后附带一段校验码，接收方通过特定的方式对接收到的所有数据做某种操作，操作的结果与预定的不符，说明传送中发生了错误，而有些校验码还附带纠错功能，即检查出错误后还可以恢复原数据，不过这种恢复是建立在一些假设基础上的，因此在实际大量数据传输中并不经常使用。
首先介绍distance的概念，distance就是两个N位码之间不同的位的个数。例如0110100与0111010，他们有3个位不同，distance就为3。
所有校验码的原理都是一样的：即从选取一个集合，这个集合中任意2个码的distance要大于m。只用这个集合中的元素传输数据，如果接收方接受到的数据不属于此集合，说明有错误在传输中发生。上面说的校验码就是为了达到这个目的。
如大家最熟悉最简单的奇偶校验，通过添加一个校验位，合法码集合的任意2个码的distance大于2，即1个合法码至少要改变2个位才能得到另一个合法码。
一个最小distance为m的集合，可以检测最多m-1位错误的传输，若有m位错误，就会被当作合法码而校验成功，还拿奇偶校验做例子，如果发生了2个位都因错误改变了（如1011变为1000），奇偶校验后还是合法的。
再说一个奇偶校验的衍生，就是累加和校验。奇偶校验的算法可以描述为：我们对一个数据帧按位相加，所得的结果作为校验位。类似的，我们讲数据1byte1byte的相加，无视溢出，就得到累加和校验byte。当然，并不一定必须要1byte1byte相加，这取决于处理器的位数，用16位机你也可以用2byte做累加和。

海明校验：distance=3,即可以校验2位错误
海明校验的基本思想是把数据分组，分别对每个组做奇偶校验。通过一系列规则的确定检查并且改正错误
分组规则：海明校验用bit1,bit2,bit4,bit8,bit16,bit32.......做为校验位，插到数据帧里面。这里的bit1,bit2指的是将校验位插入后，从低位到高位进行编号，从1开始编。例如发送01010010111（高位在前），则其中最末位1（bit1）,次末位1（bit2）,以及0(bit4),1(bit8),就是校验位。

由于校验位是2的倍数，因此校验位的编码都只含有1个1，如bit1=bit0001,bit2=bit0010,bit4=bit0100,bit8=bit1000.......那么，我们把所有与之对应位是1的分在一组，如bit3=bit0011,bit5=bit0101,bit7=bit0111,bit9=bit1001,bit11=bit1011,bit13=bit1101,bit15=bit1111这些最低位都为1，因此与bit1校验位分在同一组。对这组做奇校验或者偶校验，决定bit1的值。

bit7       bit6       bit5       bit3       bit4       bit2       bit1
1          0          1                         0
1          0                         0                      1
1          1                         0                                        0
这是一个7位数据的例子，bit7,6,5与bit4分为一组；bit7,6,3与bit2分为一组；bit7,5,3与bit1分为一组;对每行做偶校验，即可决定bit4,bit2,bit1的值
下面看下海明校验怎样纠错，在实际传输中，两位都发生错误的几率比一位发生错误的几率高很多，我们假设只有1位发生错误，如：
bit7       bit6       bit5       bit3       bit4       bit2       bit1
1          0          1                         1
1          0                         0                      0
1          1                         0                                     0
可以看出，第一行与第二行不满足偶校验规则，而能够引起这一结果的只有可能是bit6在传输中发生了错误，因为只有bit6对且仅对这两行产生效果。我们将bit6取反就可得到未出错的数据

CRC校验，cyclic redundancy check 循环冗余码校验。这种校验被广泛用于数据传输之中，因为它的纠错率很高，你的硬盘上，每512个字节后就会有一个CRC校验码，但是大部分人可能都不知道CRC校验的原理，这是我研究好久才得出的结论，网上绝对找不到的。
CRC校验的原理很简单：任何一个数位异或它本身，就得到全0。下面我们看一下CRC是如何产生校验码的。先介绍一下生成多项式的概念，一个多项式可以由一段二进制代码表示，如x3+x2+1可以用1101来表示，即1*x3+1*x2+0*x1+1*x0(次方我打不出来。。。)数据传送中，接受方和发送方先约定一个生成多项式（你可以在各种通信协议中找到，例如CRC-ITU,CRC-16，CRC-12等等），用数据帧左移N位后所代表的多项式除以NN+1位的生成多项式，就可得到N位的余式，这个余式代表的二进制序列就作为CRC校验码。这里的多项式除法和我们一般的除法有一些不同，大家不要深究，但是有除法的概念会对以后查表算法的理解有很到的帮助，所以在这里介绍一下。
那么怎么进行这种除法呢？比如数据帧为1011，生成多项式为11011，以生成4位CRC，首先把数据帧左移4位成10110000，写在被除数的位置，然后和11011首位对齐，做位异或：
10110000
11011
01101000（结果）
将11011右移直到上一步结果的左数第一个1与11011首位对齐，继续做位异或，直到结果为4位或以下
01101000
011011
00000100
则4位CRC就为0100
将来我们发送的数据就是10110100，将CRC附在数据帧后面。
很奇妙的是：把这个发送数据按上述规律再做同样的位异或操作，得到必定是全0，（原理会在以后讲到）大家可以笔算一下。这就是CRC检查错误的方法，CRC也有纠错功能，如果得到结果不是全0，则还按上述规则继续位异或，我们会发现余数是按某个规律循环的，这也是循环冗余码校验之所以得名的原因，直到出现某个特殊的余数时，可以证明出错位此时对应的就是出错位。但在实际中大量数据传输这种纠错能力很少应用，这里就不详细介绍了。

上次我们已经得到计算CRC的方法，在这里重复下：求N位CRC
先初始化一个N位的移位寄存器为全0，每次将寄存器里数据左移一位，左移后，取数据帧1位输入（从高位到低位顺序取），输入位^溢出位=1，整个寄存器需要异或上生成多项式除去最高位.输入位^溢出位=0，不做任何操作，继续左移求下一位的CRC。
按这个算法，很容易写出软件计算的程序
/*------产生1bitCRC校验------*/
void Bit_gen(bit in)
{bit temp=in^(CRC&0x80);//溢出位与入位异或,决定CRC是否与生成多项式按位异或
CRC<<=1;//右移
if(temp) CRC^=CRCgen;//CRCgen为CRC生成多项式对应的序列
}

现在就可以解释为什么CRC校验之后是全0了，收到数据帧+CRC校验码后，继续用以上算法，如果传输无误将数据帧输入后，得到的一定是和收到的CRC校验码相同的码，那么每次输入和溢出位必定都相等，所以异或之后一定为0，即不需要再异或生成多项式去最高位，这样左移N位后，得到的就是N个0。

实际上，寄存器的初始化不需要是全0（但收发双方初始化要相同），也不需要是高位先入（收发双方入的顺序要一样），只要算法一样，执行CRC校验都可以校验出误码来。

显然，如要计算一个庞大的数据帧，这种按位输入的方法显然是太慢了，512KB的数据就要移位512*1024*1024次，这在有些情况中是不能容忍的，为此，引入byte型算法，即每次计算一个byte的CRC

byte型算法：对于给定的一个生成多项式，1byte数据的CRC有256个不同的可能值，即每1个8位数据都对应了一个CRC码，byte型算法就是把这个码表存到程序储存器里，通过查表就可得到任1byte的CRC。
比如unsigned int code CRClist[256]=
{0x0000, 0x1021, 0x2042, 0x3063, 0x4084, 0x50a5, 0x60c6, 0x70e7,
0x8108, 0x9129, 0xa14a, 0xb16b, 0xc18c, 0xd1ad, 0xe1ce, 0xf1ef,
0x1231, 0x0210, 0x3273, 0x2252, 0x52b5, 0x4294, 0x72f7, 0x62d6,
0x9339, 0x8318, 0xb37b, 0xa35a, 0xd3bd, 0xc39c, 0xf3ff, 0xe3de,
0x2462, 0x3443, 0x0420, 0x1401, 0x64e6, 0x74c7, 0x44a4, 0x5485,
0xa56a, 0xb54b, 0x8528, 0x9509, 0xe5ee, 0xf5cf, 0xc5ac, 0xd58d,
0x3653, 0x2672, 0x1611, 0x0630, 0x76d7, 0x66f6, 0x5695, 0x46b4,
0xb75b, 0xa77a, 0x9719, 0x8738, 0xf7df, 0xe7fe, 0xd79d, 0xc7bc,
0x48c4, 0x58e5, 0x6886, 0x78a7, 0x0840, 0x1861, 0x2802, 0x3823,
0xc9cc, 0xd9ed, 0xe98e, 0xf9af, 0x8948, 0x9969, 0xa90a, 0xb92b,
0x5af5, 0x4ad4, 0x7ab7, 0x6a96, 0x1a71, 0x0a50, 0x3a33, 0x2a12,
0xdbfd, 0xcbdc, 0xfbbf, 0xeb9e, 0x9b79, 0x8b58, 0xbb3b, 0xab1a,
0x6ca6, 0x7c87, 0x4ce4, 0x5cc5, 0x2c22, 0x3c03, 0x0c60, 0x1c41,
0xedae, 0xfd8f, 0xcdec, 0xddcd, 0xad2a, 0xbd0b, 0x8d68, 0x9d49,
0x7e97, 0x6eb6, 0x5ed5, 0x4ef4, 0x3e13, 0x2e32, 0x1e51, 0x0e70,
0xff9f, 0xefbe, 0xdfdd, 0xcffc, 0xbf1b, 0xaf3a, 0x9f59, 0x8f78,
0x9188, 0x81a9, 0xb1ca, 0xa1eb, 0xd10c, 0xc12d, 0xf14e, 0xe16f,
0x1080, 0x00a1, 0x30c2, 0x20e3, 0x5004, 0x4025, 0x7046, 0x6067,
0x83b9, 0x9398, 0xa3fb, 0xb3da, 0xc33d, 0xd31c, 0xe37f, 0xf35e,
0x02b1, 0x1290, 0x22f3, 0x32d2, 0x4235, 0x5214, 0x6277, 0x7256,
0xb5ea, 0xa5cb, 0x95a8, 0x8589, 0xf56e, 0xe54f, 0xd52c, 0xc50d,
0x34e2, 0x24c3, 0x14a0, 0x0481, 0x7466, 0x6447, 0x5424, 0x4405,
0xa7db, 0xb7fa, 0x8799, 0x97b8, 0xe75f, 0xf77e, 0xc71d, 0xd73c,
0x26d3, 0x36f2, 0x0691, 0x16b0, 0x6657, 0x7676, 0x4615, 0x5634,
0xd94c, 0xc96d, 0xf90e, 0xe92f, 0x99c8, 0x89e9, 0xb98a, 0xa9ab,
0x5844, 0x4865, 0x7806, 0x6827, 0x18c0, 0x08e1, 0x3882, 0x28a3,
0xcb7d, 0xdb5c, 0xeb3f, 0xfb1e, 0x8bf9, 0x9bd8, 0xabbb, 0xbb9a,
0x4a75, 0x5a54, 0x6a37, 0x7a16, 0x0af1, 0x1ad0, 0x2ab3, 0x3a92,
0xfd2e, 0xed0f, 0xdd6c, 0xcd4d, 0xbdaa, 0xad8b, 0x9de8, 0x8dc9,
0x7c26, 0x6c07, 0x5c64, 0x4c45, 0x3ca2, 0x2c83, 0x1ce0, 0x0cc1,
0xef1f, 0xff3e, 0xcf5d, 0xdf7c, 0xaf9b, 0xbfba, 0x8fd9, 0x9ff8,
0x6e17, 0x7e36, 0x4e55, 0x5e74, 0x2e93, 0x3eb2, 0x0ed1, 0x1ef0
};
这是CRC-16通信协议规定的CRC码表，它的生成多项式是0x1021，是初始化全0得到的码表。值得一提的是，对于一个生成多项式，初始化不同，得到的码表也不同，应此余式表可以是多种多样的，所以大家见到和这个表不一样的表也不要惊讶~~
这个表在储存器里以一维数组的形式储存，对应第i 个元素就是i 的CRC码。如00000000的CRC就是第一个0x0000.
那么怎么算多byte的CRC呢？其实算法和按位求的算法很类似：以CRC-16为例
先初始化一个16位的移位寄存器，每次将寄存器里数据左移一byte，左移后，取数据帧1byte输入，输入byte按位异或溢出byte，（这是一个1byte的数据）得到在表中的位置，查表得CRC（这是16位的数据）再加上寄存器里的值，就是此byte输入后的CRC。
程序如下：
void CRC_gen(uchar byte)
{uchar temp=(uchar)(CRC>>8);//取高字节CRC
CRC<<=8;//CRC左移1byte
CRC^=CRClist[byte^temp];//此字节的CRC=(上字节的CRC左移1byte)^(上字节CRC高字节+此字节查表后得到的CRC)
}

帐号		自动登录	找回密码
密码			立即注册