当前位置 : 主页 > 大数据 > 区块链 >

在转换为Protobuf / C float时,Python float何时会失去精度?

来源:互联网 收集:自由互联 发布时间:2021-06-22
我有兴趣最小化从 Python序列化的protobuf消息的大小. Protobuf有浮点数(4个字节)和双精度数(8个字节). Python有一个浮点类型,实际上是C double,至少在CPython中是这样. 我的问题是:给定一个Py
我有兴趣最小化从 Python序列化的protobuf消息的大小.

Protobuf有浮点数(4个字节)和双精度数(8个字节). Python有一个浮点类型,实际上是C double,至少在CPython中是这样.

我的问题是:给定一个Python float的实例,是否有一种“快速”方法来检查如果将值分配给protobuf float(或者实际上是C float),该值是否会失去精度?

您可以检查将float转换为十六进制表示形式;符号,指数和分数各自得到一个单独的部分.如果分数仅使用前6个十六进制数字(其余7个数字必须为零),并且第6个数字为偶数(因此最后一位未设置),您的64位双浮点数将适合32位单个数字.指数限制在介于-126和127之间的值:

import math
import re

def is_single_precision(
        f,
        _isfinite=math.isfinite,
        _singlepat=re.compile(
            r'-?0x[01]\.[0-9a-f]{5}[02468ace]0{7}p'
            r'(?:\+(?:1[01]\d|12[0-7]|[1-9]\d|\d)|'
            r'-(?:1[01]\d|12[0-6]|[1-9]\d|\d))$').match):
    return not _isfinite(f) or _singlepat(f.hex()) is not None or f == 0.0

float.hex()方法非常快,比通过struct或numpy往返更快;您可以在不到半秒的时间内创建100万个十六进制表示:

>>> timeit.Timer('(1.2345678901e+26).hex()').autorange()
(1000000, 0.47934128501219675)

正则表达式引擎也相当快,并且在上面的函数中优化了名称查找,我们可以在大约1.1秒内测试100万个浮点值:

>>> import random, sys
>>> testvalues = [0.0, float('inf'), float('-inf'), float('nan')] + [random.uniform(sys.float_info.min, sys.float_info.max) for _ in range(2 * 10 ** 6)]
>>> timeit.Timer('is_single_precision(f())', 'from __main__ import is_single_precision, testvalues; f = iter(testvalues).__next__').autorange()
(1000000, 1.1044921400025487)

上面的工作原理是因为float的binary32格式为分数分配了23位.指数被分配8位(有符号).正则表达式只允许设置前23位,并且指数在有符号的8位数字的范围内.

另见

> IEEE 754 single-precision binary floating-point format: binary32
> IEEE 754 double-precision binary floating-point format: binary64

这可能不是你想要的!以1/3或1/10为例.两者都是需要在浮点值中近似的值,并且两者都未通过测试:

>>> (1/3).hex()
'0x1.5555555555555p-2'
>>> (1/10).hex()
'0x1.999999999999ap-4'

您可能不得不采用启发式方法;如果您的十六进制值在分数的前6位数中全部为零,或者在(-126,127)范围之外的指数,则转换为double将导致太多损失.

网友评论