首页 >> 图书情报学
大数据质量测度模型构建
2018年09月21日 11:17 来源:情报理论与实践 作者:莫祖英 字号

内容摘要:文章将大数据质量分为原始质量、过程质量和结果质量,并根据不同的数据处理阶段分析其质量测度指标,通过专家打分计算各指标的权重值,从而构建大数据质量的测度模型。研究发现,大数据结果质量的重要性程度明显高于原始质量和过程质量,说明大数据质量的重点在于面向应用的结果质量上,而结果质量的形成离不开原始质量和过程质量的保障。大数据质量测度是实施大数据质量管理与控制的重要基础。

关键词:

作者简介:

  所谓大数据,是指由移动计算、社交网络、传感器和监控设备等信息源产生,主要包括用户多媒体服务数据、服务系统监控与管理数据、用户行为数据、服务市场环境和客户关系数据等。大数据的来源复杂性和类型多样性造成其价值密度低、提取难度大等特点,同时也给大数据质量管理带来了困扰。大数据应用强调对总体数据的处理与分析、关注事物之间的相关关系以及对发展趋势的分析预测,这就要求大数据在准确性、时效性、完整性、真实性等质量方面具有一定的保障。而大数据的规模性、高速性和数据来源及形式上的多样性,使数据更可能产生不一致和冲突,这些都会导致大数据质量问题,因此在利用大数据进行分析时,需要对大数据质量进行评价,并实施一定的质量管理措施来保障大数据应用。

  

  1 大数据质量

  

  根据已有的对“大数据”概念的界定,发现“大数据”区别于传统数据的本质特征是其数据规模已超出常规软件的处理能力,只有采用新的处理技术、平台等才能实现数据分析与预测的数据集合。大数据通常是由网站、传感器、系统等设备自动生成,故具有真实性特征。根据Juran提出的“质量即适合于使用”这一观点,大数据质量可以理解为“大数据中适合于进行数据分析、处理、预测等使用过程并满足用户需求的特征”。大数据处理流程主要包括数据收集、数据预处理、数据存储、数据分析与挖掘、数据展示(可视化过程)、大数据应用等环节[1],数据质量贯穿于整个大数据流程,故可将大数据质量分为原始质量、过程质量和结果质量。

  

  1)原始质量。大数据原始质量是指数据采集过程中采集到的原始大数据的质量,包括数据的真实性、完整性、一致性、准确性、时效性、安全性等。大数据通常由系统、传感器、网站等设备自动生成,它真实记录了数据对象的变化状态及其运行方式,体现了原始大数据的真实性特征,包括数据的可信性、真伪性、来源和信誉、有效性和可审计性等方面,同时要防止一些恶意攻击性的“数据污染”。在完整性方面,包括时间上的完整性、数据值的完整性等;在一致性方面,包括同构或异构来源数据的一致性、格式一致性、编码一致性等[2];在时效性方面,则是时间越近的原始大数据,其分析与预测的结果越准确。由于大数据多是由机器、系统、网站等自动采集或存储的,其产生速度快、流通快,时间上呈现连续性特征,使原始大数据具有更强的时效性。

  

  2)过程质量。大数据过程质量指经过数据预处理、数据存储等环节后的大数据质量,它为大数据分析与挖掘提供准备,其质量高低直接关系到大数据分析结果的价值。过程质量主要体现在大数据的安全性、可用性等方面。安全性质量包括数据来源的安全性、数据存取的安全性、权限管理、访问控制等,以保障大数据的真实性。可用性质量是指经过采集、预处理并进行存储的过程大数据可用于大数据分析、预测而获取有价值信息的属性,它是实现大数据价值的必要条件。

  

  3)结果质量。大数据结果质量指经过数据分析与挖掘、数据展示后产生的最终结果的质量,包括分析结果的价值性、直观性、时效性、准确性、适用性等,且与用户的需求和感知密切相关。不同质量属性之间也是相互关联的,如大数据分析结果的价值性离不开其准确性、时效性、适用性等质量特征,而价值性、适用性等特征又因用户需求而异,直观性、时效性和准确性则具有相对独立性。

  

  总之,大数据质量与大数据的收集、处理、存储、分析、可视化等过程密切相关,而在不同的阶段其质量内涵不同,本文拟从原始质量、过程质量和结果质量3个方面来分析大数据质量测度的指标,并通过专家访谈与调研构建大数据质量测度模型,为实现大数据的质量评价与管理提供理论框架与指导。

  

  2 大数据质量测度指标分析

  

  大数据在不同阶段的数据质量会受到各种处理技术、存储技术、数据源、采集方式、大数据分析能力、预测能力、用户的需求与感知、业务需求等各方面的影响,而不同类型大数据采用的分析与处理方法不同,数据质量的测度指标也不尽相同,本文分别从大数据的原始质量、过程质量和结果质量3个方面分析大数据质量的测度指标。

  

  2.1 原始质量测度指标

  

  1)数据源的规范性。数据源的规范性决定了所采集的大数据的规范性,它是保证大数据中获取有效数据的重要因素。不规范的数据源会带来大量的无效数据和无效的数据加工。

  

  2)数据源的安全稳定性。它是保证采集到的大数据具有真实性的重要条件。只有使不断产生数据的数据源安全、稳定地运行,才能做到准确无误地反映其描述的对象与实体,这就需要对数据源进行自动检测与修复,以保证数据的真实性和准确性。

  

  3)数据采集的实时性。它是保障大数据时效性和价值性的重要条件,尤其是对于一些客观事实类、动态变化类的数据以及它的时间特征,需做到数据采集的实时性。

  

  4)数据采集的无误性。即确保所采集数据的准确性,不能存在与客观事实不符的数据描述。需要对数据源进行自动检测、修复等,以及设置基于规则的、基于主数据的错误发现。

  

  5)数据采集的完整性。大数据强调的是总体数据、全数据的分析与挖掘,因此在数据采集时尽可能保证所需数据的完整性。当然,数据不可能完全没有缺失,其关键在于数据的缺失是否在不影响分析结果的可接受范围内,或者可通过数据统计等方法来弥补缺失数据。数据采集的完整性可采用空值频率等指标来表示。

  

  6)数据定义的一致性。大数据是异构数据,且类型多样,要实现对多种数据类型、数据格式进行集成处理,需进行统一的数据定义与数据编码,避免数据被模糊定义或错误定义,为后期的数据处理与分析埋下隐患。

作者简介

姓名:莫祖英 工作单位:

转载请注明来源:中国社会科学网 (责编:闫琪)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
网站地图