大数据(big data),是指数据量巨大,无法使用传统工具进行处理的数据集合。
1.大量(volume)
大数据的特征首先就是数据规模巨大。随着互联网、物联网、移动互联等技术的发展,人和事物的所有轨迹都可以被记录下来,数据呈爆炸式增长,需要分析处理的数据达到PB和EB,乃至ZB。
表1 单位换算关系
Byte
1Byte = 8bit
KB
1KB = 1024Byte
MB
1MB = 1024KB
GB
1GB = 1024MB
TB
1TB = 1024GB
PB
1PB = 1024TB
EB
1EB =1024PB
ZB
1ZB = 1024EB
2.高速性(Velocity)
数据的增长速度和处理速度是大数据高速性的重要体现。生活中每个人都离不开互联网,也就是说每个人每天都想大数据提供大量的资料。与以往的报纸书信等传统数据载体的传播方式不同,在大数据时代,数据的交换和传播主要通过互联网云计算等方式实现,速度惊人。正因为如此,大数据对处理和响应速度要求极高,一条数据的分析必须在几秒内完成,数据处理与丢弃几乎无延迟。
3.多样性(Variety)
大数据具有多样性,不同的数据源产生海量的非结构化数据。大数据可以分为三类,一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据之间因果关系强;二是半结构化数据,如HTML文档、邮件、网页等,其特点是数据之间因果关系弱;三是非结构化数据,如视频、图片、音频、文本等。其特点数据间没有因果关系。半结构化、非结构化数据需要经过清洗、整理、筛选,变为结构化数据。
4.价值(Value)
大数据的核心特征是价值密度低。由于数据样本不全面,数据采集不及时,数据不连续等原因,有价值的数据所占的比例很小。与传统的小数据相比,大数据最大的价值在于,可以从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有用的信息,通过机器学习、人工智能或数据挖掘等方法深度分析,得到新规律和新知识,并运用于交通、电商、医疗等各个领域,最终达到提高生产率、推进科学研究的效果。
5.真实性(Veracity)
大数据的重要性就在于对决策的支持,数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是成功决策最坚实的基础。真实是对大数据的重要要求,也是大数据面临的巨大挑战。