DB37/T 4646.1-2023 公共数据 数据治理规范 第1部分:数据归集

DB37/T 4646.1-2023 Public Data Data Governance Specification Part 1: Data Collection

山东省地方标准 简体中文 现行 页数:22页 | 格式:PDF

基本信息

标准号
DB37/T 4646.1-2023
标准类型
山东省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2023-08-22
实施日期
2023-09-22
发布单位/组织
山东省市场监督管理局
归口单位
-
适用范围
-

发布历史

文前页预览

研制信息

起草单位:
山东省大数据局、山东省大数据中心、烟台市大数据中心、山东新一代标准化研究院有限公司、山东省计算中心 (国家超级计算济南中心 ) 、浪潮数字 (山东) 建设运营有限公司、山东优数网络科技有限公司、山东省新型智慧城市大数据工程技术研究院、中国标准化研究院、山东省标准化研究院
起草人:
王伟、林庆、朱薪安、姜青岳、王铁、相树志、王茜、郑慧、关新雨、柯林森、郑奇、何敬明、石伟、刘福才、史丛丛、王溪、李杨、王庆明、许德民、李童、钱恒、郑祎、张媛、邹丰义、刘佳佳、许潇文、相吉利、王亚楠
出版信息:
页数:22页 | 字数:- | 开本: -

内容描述

ICS35.240

CCSL67

37

山东省地方标准

DB37/T4646.1—2023

公共数据数据治理规范

第1部分:数据归集

Publicdata—Specificationofdatagovernance—

Part1:Datacollection

2023-08-22发布2023-09-22实施

山东省市场监督管理局发布

DB37/T□4646.1—2023

目次

前言.................................................................................II

引言................................................................................III

1范围...............................................................................1

2规范性引用文件.....................................................................1

3术语和定义.........................................................................1

4缩略语.............................................................................1

5数据归集流程.......................................................................2

5.1明确归集范围...................................................................2

5.2明确归集方式...................................................................2

5.3开展数据归集...................................................................2

5.4归集结果确认...................................................................3

6数据归集要求.......................................................................3

6.1库表归集.......................................................................3

6.2文件归集.......................................................................4

6.3服务接口归集...................................................................6

7数据更新要求.......................................................................6

8数据归集安全.......................................................................7

附录A(资料性)库表归集相关数据表约束及示例.........................................8

A.1业务数据表约束及示例...........................................................8

A.2对账数据表约束及示例...........................................................8

附录B(资料性)文件归集相关数据表约束及示例........................................10

B.1文件信息表约束及示例..........................................................10

B.2文件拆分信息表约束及示例......................................................10

B.3对账数据表约束及示例..........................................................11

附录C(资料性)服务接口数据示例及内容描述..........................................13

C.1XML格式数据示例...............................................................13

C.2增加信息服务接口..............................................................13

C.3删除信息服务接口..............................................................14

C.4修改信息服务接口..............................................................14

C.5只增信息服务接口..............................................................15

参考文献.............................................................................16

DB37/T4646.1—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

本文件是DB37/T4646《公共数据数据治理规范》的第1部分。DB37/T4646已经发布了以下部分:

——第1部分:数据归集;

——第2部分:数据清洗比对;

——第3部分:数据返还;

——第4部分:资源服务目录。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由山东省大数据局提出、归口并组织实施。

DB37/T4646.1—2023

引言

为构建完善全省一体化数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山

东省先后印发《山东省“十四五”数字强省建设规划》(鲁政字〔2021〕128号)等一系列政策文件,

对全省一体化数据资源体系建设和管理提出要求。

为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、

数据清洗比对、数据返还、资源服务目录等工作存在的普遍问题,制定DB37/T4646《公共数据数据

治理规范》系列标准。DB37/T4646拟由以下四个部分构成。

——第1部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平

台的流程和要求。

——第2部分:数据清洗比对。目的在于规范各级公共管理和服务机构依托省一体化大数据平台

开展数据清洗比对工作的流程、方法和要求。

——第3部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展

数据返还工作的流程和要求。

——第4部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台

开展资源服务目录管理和应用的工作要求。

III

DB37/T4646.1—2023

公共数据数据治理规范第1部分:数据归集

1范围

本文件规定了公共数据的数据归集流程、数据归集要求、数据更新要求、数据归集安全等。

本文件适用于指导各级公共管理和服务机构归集数据至省一体化大数据平台。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T22239—2019信息安全技术网络安全等级保护基本要求

GB/T35273—2020信息安全技术个人信息安全规范

GB/T37973—2019信息安全技术大数据安全管理指南

DB37/T4646.2—2023公共数据数据治理规范第2部分:数据清洗比对

3术语和定义

下列术语和定义适用于本文件。

3.1

公共数据资源目录directoryofpublicdataresources

按照一定的分类方法进行排序和编码的一组信息,用于描述各个公共数据特征及组织方式,便于公

共数据的组织、检索、定位、发现与获取。

[来源:DB37/T3520—2019,3.2,有修改]

3.2

省一体化大数据平台provincialintegratedbigdataplatform

全省公共数据管理、共享开放的统一基础支撑平台,由省级枢纽、市级节点和县级节点组成。

3.3

公共管理和服务机构publicadministrationandservicesorganization

国家机关、法律法规授权的具有管理公共事务职能的组织,以及供水、供电、供气、公共交通等公

共服务运营单位。

4缩略语

下列缩略语适用于本文件。

CSV:逗号分隔文件格式(Comma-SeparatedValues)

FTP:文件传输协议(FileTransferProtocol)

GZIP:文件压缩程序(GNUZIP)

HTTP:超文本传输协议(HypertextTransferProtocol)

HTTPS:超文本传输安全协议(HypertextTransferProtocolSecure)

IP:网络互联协议(InternetProtocol)

1

DB37/T4646.1—2023

PDF:可携带文档格式(PortableDocumentFormat)

SFTP:安全文件传送协议(SecretFileTransferProtocol)

TXT:文本(Text)

URI:统一资源标识符(UniformResourceIdentifier)

UTF-8:Unicode的可变长度字符编码(8-bitUnicodeTransformationFormat)

UUID:通用唯一识别码(UniversallyUniqueIdentifier)

XML:可扩展标记语言(ExtensibleMarkupLanguage)

5数据归集流程

5.1明确归集范围

公共管理和服务机构应根据业务职责,编制并动态维护公共数据资源目录,按照“按需归集、应归

尽归”的原则,将本机构所有可归集公共数据持续归集至省一体化大数据平台。

5.2明确归集方式

5.2.1应结合归集数据的范围、数据传输要求等,确定数据的归集方式。

5.2.2公共数据的归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据

传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。

注:以服务接口方式归集数据时,有公共管理和服务机构推送待归集数据、大数据工作主管部门拉取待归集数据两

种方式,本文件以公共管理和服务机构推送待归集数据方式为主。

5.3开展数据归集

5.3.1应将数据库表结构发送至大数据工作主管部门,并根据数据归集方式和数据实际情况,做好数

据归集前准备工作并开展数据归集。

5.3.2以库表方式开展数据归集的要求应符合6.1,主要工作包括:

a)应在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建

多个前置库;

b)应在前置库中建设业务数据表、对账数据表,业务数据表存储待归集的业务数据,对账数据

表存储数据的更新情况。

注:前置机主要部署在公共管理和服务机构端,用于实现库表、文件数据的批量传输。

5.3.3以文件方式开展数据归集的要求应符合6.2,主要工作包括:

a)应在前置机中建设文件系统,用于临时存储待归集的文件;

b)在前置库中建设文件信息表、文件拆分信息表、对账数据表,文件信息表、文件拆分信息表

分别存储非结构化文件的详细信息和拆分信息,对账数据表存储文件的更新情况。

5.3.4以服务接口方式开展数据归集主要工作包括:

a)大数据工作主管部门应根据提供的库表结构开发服务接口,挂载到相关公共数据资源目录下,

通过省一体化大数据平台发布,服务接口的命名、服务方法、请求类型、输入参数和输出参

数等应符合DB37/T4225—2020中第5章的规定;

b)应依据服务接口要求,开发服务接口调用程序,调用服务接口推送本机构数据至省一体化大

数据平台,可采用压缩等技术实现数据高速传输,服务接口相关要求应符合6.3。

5.3.5以库表和文件方式归集数据时,大数据工作主管部门应依据业务数据表结构、对账数据表内容

等开展数据归集。

2

DB37/T4646.1—2023

5.4归集结果确认

5.4.1大数据工作主管部门应通过对账数据等对已归集数据进行核对,确保公共管理和服务机构提供

的数据与已归集的数据、公共数据资源目录一致。

5.4.2大数据工作主管部门应对已归集数据开展数据清洗比对等数据治理工作,反馈问题数据和数据

质量报告,公共管理和服务机构对问题数据开展源头治理,对修正数据重新进行归集。其中,数据清洗

比对应符合DB37/T4646.2—2023的要求。

6数据归集要求

6.1库表归集

6.1.1前置库

前置库应支持国产数据库,字符编码应为UTF-8。

6.1.2业务数据表

业务数据表除业务字段外应包含记录ID、批次号、业务操作标识、更新时间字段等扩展信息。业务

数据表扩展信息的字段名称和说明见表1,业务数据表的约束和示例见A.1。

表1业务数据表扩展信息

字段名称字段说明

记录ID记录ID为业务数据主键,是业务数据的唯一记录标识,宜使用UUID主键策略。

批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数

批次号据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从00000001顺序递增。

以2022051000000003为例,该数据序号表示2022年5月10日第3批次数据。

业务操作标识用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删除

业务操作标识

为“D”。

更新时间更新时间为业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。

6.1.3对账数据表

对账数据表见表2,约束和示例见A.2。

表2对账数据表

字段名称字段说明

对账记录唯一标识对账记录唯一标识为对账表主键,宜使用UUID主键策略。

表名表名为该批次更新数据所在业务数据表的名称。

批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数

批次号据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从00000001顺序递增。

以2022051000000003为例,该数据序号表示2022年5月10日第3批次数据。

批次条数批次条数为该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致。

批次时间为对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DD

批次时间

hh:mm:ss。

3

DB37/T4646.1—2023

表2对账数据表(续)

字段名称字段说明

批次状态为本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账数据表批次数量与

批次状态

业务数据表实际数量不一致。

6.2文件归集

6.2.1文件系统

文件系统可采用FTP、SFTP等。

6.2.2文件

命名约束

文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(0~

9)、英文字符(a~z、A~Z)、下划线“_”组成。

文件大小

应设置文件大小阈值,文件超出阈值应拆分成多个小文件。

文件格式

结构化文件格式包括CSV、TXT、XLS、XLSX等,非结构化文件格式包括PDF、DOC、DOCX、WPS、ZIP,

以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX的首行数据应为列名,字符编码应为UTF-8,

且不应存在特殊字符,其他约束包括但不限于:

a)TXT、CSV文件格式的数据应以半角逗号作分隔符;

b)XLS、XLSX文件格式的约束主要包括:

1)应只包括一个表单页,如存在多个表单页应拆分成多个文件;

2)不应存在行或列的合并;

3)不应存在相同列名;

4)不应有空白行。

文件内容

结构化文件中除业务字段外,应包含记录ID、批次号、业务操作标识和更新时间等字段,应符合6.1.2

要求。

6.2.3文件信息表

文件信息表见表3,约束和示例见B.1。

表3文件信息表

字段名称

推荐标准