书
书
书犐犆犛
35
.
240
.
01
犔
70
中华人民共和国国家标准
犌犅
/
犜
36344
—
2018
信息技术
数据质量评价指标
犐狀犳狅狉犿犪狋犻狅狀狋犲犮犺狀狅犾狅犵狔
—
犈狏犪犾狌犪狋犻狅狀犻狀犱犻犮犪狋狅狉狊犳狅狉犱犪狋犪狇狌犪犾犻狋狔
2018
06
07
发布
2019
01
01
实施
国家市场监督管理总局
中国国家标准化管理委员会
发布目
次
前言
Ⅰ
…………………………………………………………………………………………………………
1
范围
1
………………………………………………………………………………………………………
2
术语和定义
1
………………………………………………………………………………………………
3
指标框架
2
…………………………………………………………………………………………………
4
概述
2
………………………………………………………………………………………………………
5
指标说明
2
…………………………………………………………………………………………………
5.1
评价表中表头信息说明
2
……………………………………………………………………………
5.2
规范性
3
………………………………………………………………………………………………
5.3
完整性
4
………………………………………………………………………………………………
5.4
准确性
4
………………………………………………………………………………………………
5.5
一致性
4
………………………………………………………………………………………………
5.6
时效性
5
………………………………………………………………………………………………
5.7
可访问性
5
……………………………………………………………………………………………
附录
A
(
资料性附录
)
数据质量评价过程
6
………………………………………………………………
参考文献
7
………………………………………………………………………………………………………
犌犅
/
犜
36344
—
2018
前
言
本标准按照
GB
/
T1.1
—
2009
给出的规则起草
。
请注意本文件的某些内容可能涉及专利
。
本文件的发布机构不承担识别这些专利的责任
。
本标准由全国信息技术标准化技术委员会
(
SAC
/
TC28
)
提出并归口
。
本标准起草单位
:
中国电子技术标准化研究院
、
御数坊
(
北京
)
科技咨询有限公司
、
上海市信息投资股份有限公司
、
中国科学院计算机网络信息中心
、
深圳市华傲数据技术有限公司
、
贵阳信息技术研究院
(
中科院软件所贵阳分部
)、
国网浙江省电力有限公司
。
本标准主要起草人
:
卫凤林
、
宾军志
、
甘似禹
、
胡良霖
、
于文渊
、
黎俊茂
、
陈峰
、
杨达
、
王静
、
董建
、
张群
、
张展新
、
赵菁华
、
李冰
、
李易昂
、
秦俊宁
、
陈利跃
。
Ⅰ
犌犅
/
犜
36344
—
2018
信息技术
数据质量评价指标
1
范围
本标准规定了数据质量评价指标的框架和说明
。
本标准适用于数据生存周期各个阶段的数据质量评价
。
2
术语和定义
下列术语和定义适用于本文件
。
2
.
1
数据
犱犪狋犪
信息的可再解释的形式化表示
,
以适用于通信
、
解释或处理
。
注
:
可以通过人工或自动手段处理数据
。
[
GB
/
T5271.1
—
2000
,
定义
01.01.02
]
2
.
2
元数据
犿犲狋犪犱犪狋犪
关于数据或数据元素的数据
(
可能包括其数据描述
),
以及关于数据拥有权
、
存取路径
、
访问权和数据易变性的数据
。
[
GB
/
T5271.17
—
2010
,
定义
17.06.05
]
2
.
3
数据质量
犱犪狋犪狇狌犪犾犻狋狔
在指定条件下使用时
,
数据的特性满足明确的和隐含的要求的程度
。
2
.
4
原始数据
狉犪狑犱犪狋犪
终端用户所存储使用的各种未经过处理或简化的数据
。
注
:
原始数据有多种存在形式
,
如文本数据
,
图像数据
,
音频数据或者几种数据混合存在
。
2
.
5
数据生存周期
犱犪狋犪犾犻犳犲犮狔犮犾犲
将原始数据转化为可用于行动的知识的一组过程
。
2
.
6
数据集
犱犪狋犪狊犲狋
具有一定主题
,
可以标识并可以被计算机化处理的数据集合
。
2
.
7
数据模型
犱犪狋犪犿狅犱犲犾
对分析的图像和文本表述
,
该分析识别了组织为完成其使命
、
功能
、
目标
、
目的和战略
,
以及管理和评价组织所需要的数据
。
注
1
:
在从高到低的不同抽象层次表示数据时
,
通常会区分概念模型
(
与某些努力相关的概念组成的模型
)、
逻辑模
型和物理模型
。
注
2
:
所使用数据模型的使用周境的边界的正规描述
,
称为上下文模式
。
注
3
:
数据模型标识实体
、
域
(
属性
)
以及与其他数据的关系
(
关联
),
提供数据和数据间关系的概念视图
。
1
犌犅
/
犜
36344
—
2018
示例
1
:
由框图组成的语义数据模型
,
这种框代表对业务有意义的事务集
,
如
“
人
”
或
“
行动
”,
以及描述这类实体对之间关系的线条
。
示例
2
:
应用特定数据管理技术的关系表或可扩展标记语言
XML
等是逻辑数据模型
。
2
.
8
数据标准
犱犪狋犪狊狋犪狀犱犪狉犱
数据的命名
、
定义
、
结构和取值规范方面的规则和基准
。
3
指标框架
数据质量评价指标框架见图
1
。
说明
:
规范性
———
数据符合数据标准
、
数据模型
、
业务规则
、
元数据或权威参考数据的程度
。
完整性
———
按照数据规则要求
,
数据元素被赋予数值的程度
。
准确性
———
数据准确表示其所描述的真实实体
(
实际对象
)
真实值的程度
。
一致性
———
数据与其他特定上下文中使用的数据无矛盾的程度
。
时效性
———
数据在时间变化中的正确程度
。
可访问性
———
数据能被访问的程度
。
图
1
数据质量评价指标框架
4
概述
第
5
章规定的六大类评价指标
,
是实施数据质量评价的最小集
,
数据质量评价过程参见附录
A
。
5
指标说明
5
.
1
评价表中表头信息说明
评价表中的表头说明如下
:
a
)
指标编号及编码规则
:
指标编号是评价指标的唯一性编号
,
由一级指标和二级指标共
4
位数字组成
。
编码规则见图
2
。
××
一级指标
,
2
位数字
××
二级指标
,
2
位数字
图
2
编码规则
1
)
一级指标
:
由
2
位数字组成
,
01
代表规范性
、
02
代表完整性
、
03
代表准确性
、
04
代表一致
2
犌犅
/
犜
36344
—
2018
性
、
05
代表时效性
、
06
代表可访问性
;
2
)
二级指标
:
由
2
位数字组成的顺序码
,
范围为
01
~
99
。
b
)
指标名称
:
评价指标的名称
。
c
)
指标描述
:
评价指标的解释
。
d
)
计算方法
:
评价指标的计算方法
。
5
.
2
规范性
规范性评价指标定义见表
1
。
表
1
规范性评价指标
指标编号指标名称 指标描述 计算方法
0101
数据标准数据符合数据标准的度量
。
注
1
:
评价数据质量时需要收集数据在命名
、
创建
、
定义
、
更新和归档时遵循的标准
,
包括国际标准
、
国家标
准
、
行业标准
、
地方标准或相关规定等
。
注
2
:
和数据归档一样甚至更重要
,
在一个完整的数据规
则中旧数据的销毁一般也有一个比较详细且具有可
执行性的规定
犡
=
犃
/
犅
式中
:
犃
=
满足数据标准要求的数据集中
元素的个数
;
犅
=
被评价的数据集中元素的个数
0102
数据模型数据符合数据模型的度量
。
注
1
:
数据模型是一种直观描述组织数据结构的手段
,
是
数据表达的规范
。
注
2
:
评价数据质量时需要检查是否存在清晰可理解的数
据模型定义以及这些数据的组织形式
犡
=
犃
/
犅
式中
:
犃
=
满足数据模型要求的数据集中
元素的个数
;
犅
=
被评价的数据集中元素的个数
0103
元数据数据符合元数据定义的度量
。
注
:
元数据标注
、
描述或刻画其他数据
、
以使检索
、
或使用
信息更容易
。
评价数据质量时需要检查是否提供可
解读的元数据文档
。
示例
:
包含各字段名称
、
描述
、
类型值域等内容的数据字典
为一种元数据文档
犡
=
犃
/
犅
式中
:
犃
=
满足元数据定义的数据集中元
素的个数
;
犅
=
被评价的数据集中元素的个数
0104
业务规则数据符合业务规则的度量
。
注
1
:
业务规则是一种权威性原则或指导方针
,
用来描述
业务交互
,
并建立行动和数据行为结果及完整性的
规则
。
注
2
:
评价数据质量时需要检查是否存在良好归档的业务规则
犡
=
犃
/
犅
式中
:
犃
=
满足业务规则的数据集中元素
的个数
;
犅
=
被评价的数据集中元素的个数
0105
权威参考数
据
(
权威参考
源
)
参考数据是系统
、
应用软件
、
GB-T 36344-2018 信息技术 数据质量评价指标
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-17 23:28:45上传分享