实时数据质量核查系统

引言


大数据是数字化、信息化发展到一定阶段的产物。近年来,随着互联网与人类生活高度融合,指数增长、海量聚集的数据逐渐成为价值的源泉。“数据即价值”的时代也随之拉开序幕。然而巨大的效益潜力往往掺杂着隐形的数据问题,数据质量、数据处理和数据安全等问题形式愈发严峻。本项目着力于大数据时代的数据质量管理问题,对开放的自收集数据的质量情况进行识别、度量、预警、运维等一系列活动。本系统旨在提出一个数据质量核查框架,对自定义数据质量进行实时监控,保证系统运行时输入数据的质量的稳定性。

系统架构


系统功能


对于数据接入系统传入的数据,本系统在七个指标(一致性、完整性、合理性、有效性、唯一性、时效性、正确性)的基础上对数据质量进行核查,并将核查结果按照自定义度量规则进一步度量。系统依据用户自定义预警规则与业务规则对数据质量进行预警。管理与运维服务向用户提供友好界面用于修改或者增加规则、显示数据统计情况等。

系统特点


1. 本系统重定义了数据指标。数据指标并无明确规定,但通常包括一致性、完整性、合理性、有效性、唯一性、时效性、正确性等七个指标。
 2. 系统在数据指标的基础上进一步定义度量规则,可以针对用户需求自定制规则。
 3. 本系统基于Spark Streaming流式数据处理技术提供了数据质量管理系统的模版,能进行实时数据质量管理。
  

成员


郗茜、杨嘉琪、汪佳玮、刘径心、刘剑文、段雨萱、陆涛


<<< 返回