为便于软件的移植,浮点数的表示形式应该有统一标准(定义)。1985年IEEE(Institute of Electrical and Electronics Engineers)提出了IEEE754标准。该标准规定基数为2,阶码E用移码(非标准移码,标准移码与补码的符号位相反,而非标准移码要再减一)[1]表示,尾数M用原码表示,根据二进制的规格化方法,数值的最高位总是1,该标准将这个1缺省存储,使得尾数表示范围比实际存储的多一位。IEEE754标准中有三种形式的浮点数:短浮点数(又称单精度浮点数)、长浮点数(又称双精度浮点数)、临时浮点数(又称扩展精度浮点数,这种浮点数没有隐含位),它们的具体格式如下表:
类型
存储位数
偏置值
数符(S)
阶码(E)
尾数(M)
总位数
十六进制
十进制
短浮点数(Single,float)
1位
8位
23位
32位
7FH
+127
长浮点数(Double)
1位
11位
52位
64位
3FFH
+1023
临时浮点数(扩展精度浮点数)
1位
15位
64位
80位
3FFFH
+16383
对于阶码为0或255的情况,IEEE754标准有特别的规定:
如果 E 是0 并且 M 是0,则这个数的真值为±0(正负号和数符位有关) 如果 E = 255 并且 M 是0,则这个数的真值为±∞(同样和符号位有关) 如果 E = 255 并且 M 不是0,则这不是一个数(NaN)。
短浮点数和长浮点数(不含临时浮点数)的存储在尾数中隐含存储着一个1,因此在计算尾数的真值时比一般形式要多一个整数1。对于阶码E的存储形式因为是127的偏移,所以在计算其移码时与人们熟悉的128偏移不一样,正数的值比用128偏移求得的少1,负数的值多1,为避免计算错误,方便理解,常将E当成二进制真值进行存储。例如:将数值-0.5按IEEE754单精度格式存储,先将-0.5换成二进制并写成标准形式:-0.5(10进制)=-0.1(2进制)=-1.0×2-1(2进制,-1是指数),这里s=1,M为全0,E-127=-1,E=126(10进制)=01111110(2进制),则存储形式为:
1 01111110 000000000000000000000000=BF000000(16进制)
这里不同的下标代表不同的进制。