為什麼 Float和Double會有誤差 (浮點數儲存原理)

前言：

大家都知道float和double會有誤差

但原因是什麼呢?

今天就跟大家分享Float和Double會誤差的原因

一開始先對於float和double做身家調查

類型	最小值	最大值
float	1.175494351 E – 38	3.402823466 E + 38
double	2.2250738585072014 E – 308	1.7976931348623158 E + 308

類型	有效數字	位元組數
float	6 – 7	4
double	15 – 16	8

以float來說可以儲存4 byte = 32 bit 是說最多可以存32個 0 or 1

但 float 和 int都是 32 bit 使用方式卻完全不一樣

浮點數計算方式是由 IEEE 754 進位浮點數算術標準創立

他把浮點數分成三部分 Sign(符號), Exponent(指數), Mantissa(尾數) 來表示他的值**

表示方式 1111 1111 1111 1111 1111 1111 1111 1111

到目前因該是有看沒有懂XD

等等帶個範例大家就會比較清楚了

後面看到 X 代表等待計算的值

12.5f 為例子如何計算出 32 bit 如何儲存這個值?

所以我們可以得出 12.5f 在 32bit 中是

0100 0001 0100 1000 0000 0000 0000 0000

這裡有個工具 Float (IEEE754 Single precision 32-bit) 可以方便我們來驗算值是否正確

他很貼心幫我們列出 ** Sign(符號), Exponent(指數), Mantissa(尾數) ** 位置給我們對應

現在我們知道計算 Exponent(指數) 需要將值轉成二進制 ,但如果是12.53f 轉成二進制會變成這樣1100.100000111100111....... 極限值就會和原本的值出現誤差

如圖我們可以看到 12.53f 其實會變成 1.252999973297119140625E1 這就是float不準確的原因

float介紹完了 double和float概念一樣只是儲存空間更大而已^^

因為為了節省空間浮點數使用特別儲存方式來節省空間,有一好沒兩好這樣就少了精準度

__此文作者__：Daniel Shih(石頭)
__此文地址__： https://isdaniel.github.io/float-double/
__版權聲明__：本博客所有文章除特別聲明外，均採用 CC BY-NC-SA 3.0 TW 許可協議。轉載請註明出處！