DB3301/T 0468-2024 实有人口数据治理规范

DB3301/T 0468-2024 Population data governance norms

浙江省地方标准 简体中文 现行 页数:17页 | 格式:PDF

基本信息

标准号
DB3301/T 0468-2024
标准类型
浙江省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2024-08-30
实施日期
2024-09-30
发布单位/组织
杭州市市场监督管理局
归口单位
-
适用范围
-

发布历史

文前页预览

研制信息

起草单位:
起草人:
出版信息:
页数:17页 | 字数:- | 开本: -

内容描述

ICS35.240.01

CCSL67

3301

浙江省杭州市地方标准

DB3301/T0468—2024

实有人口数据治理规范

2024-08-30发布2024-09-30实施

杭州市市场监督管理局发布

DB3301/T0468—2024

目次

前言.................................................................................II

1范围...............................................................................1

2规范性引用文件.....................................................................1

3术语和定义.........................................................................1

4基本要求...........................................................................2

5治理架构...........................................................................2

6治理过程...........................................................................3

7数据应用接口.......................................................................7

8数据评价与改进.....................................................................7

附录A(资料性)实有人口和地址地名信表信息...........................................8

附录B(资料性)数据清洗示例........................................................11

参考文献.............................................................................13

I

DB3301/T0468—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由杭州市数据资源管理局提出、归口并组织实施。

本文件起草单位:杭州市西湖区数据资源管理局、杭州市大数据管理服务中心、中共杭州市西湖区

委政法委员会、杭州市公安局西湖区分局、杭州西湖新基建数字技术有限公司、杭州数梦工场科技有限

公司、杭州西湖智算公共服务有限公司、杭州西湖投资集团有限公司、杭州市勘测设计研究院有限公司。

本文件主要起草人:陈宏、陈春江、方建军、李志强、吴宣铖、吴志伟、马文翰、孙慧洁、叶文烨、

商康俊、周丽华、丁鹏、施昶帅、念灿华、从方祥。

II

DB3301/T0468—2024

实有人口数据治理规范

1范围

本文件规定了实有人口数据治理的基本要求、治理架构、治理过程、数据应用接口、数据评价与改

进。

本文件适用于实有人口基础信息和地址信息的数据治理。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T2261.1个人基本信息分类与代码第1部分:人的性别代码

GB/T2261.2个人基本信息分类与代码第2部分:婚姻状况代码

GB3304中国各民族名称的罗马字母拼写法和代码

GB/T4658学历代码

GB/T4762政治面貌代码

GB11643公民身份号码

GB/T22239信息安全技术网络安全等级保护基本要求

GB/T39477信息安全技术政务信息共享数据安全技术要求

GA214.12常住人口管理信息规范第12部分:宗教信仰代码

GA/T1218实有人口基础信息数据项

DB33/T2487公共数据安全体系建设指南

DB3301/T0296—2022社会治理要素统一地址规范

3术语和定义

下列术语和定义适用于本文件。

实有人口actualpopulation

区域内实际居住的常住人口和流动人口。

数据治理datagovernance

数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。

[来源:GB/T34960.5—2018,3.1]

网格grid

在社区(行政村)及其它特定区域划定的基层治理基本工作单元。

[来源:DB3301/T0296—2022,3.6]

1

DB3301/T0468—2024

数据仓resourcedatawarehouse

业务过程中收集、产生的,随时间动态更新,信息类型、格式等相对稳定的各类公共数据资源集合。

[来源:DB33/T2350—2022,]

4基本要求

组织保障

应建立实有人口数据治理组织架构,包括数据管理者、数据执行者、数据提供者、数据使用者等,

主要职责:

a)数据管理者:负责组织和管理数据治理的运行,建立和维护数据治理框架和流程,确保数据的

准确性、完整性和可靠性。牵头制定数据质量管理、数据分类和标准化、数据安全和隐私保护

等方面的工作。

b)数据执行者:负责执行数据治理策略和规范,负责数据采集、数据处理、数据存储和数据访问

等具体的数据操作任务,按照规定的流程和标准处理数据,并确保数据的质量和安全。

c)数据提供者:负责提供数据资源,包括数据的收集、整理、归档和更新等工作,按照规定的数

据标准和政策提供高质量的数据,支持组织的决策和业务需求。

d)数据使用者:利用数据进行分析、决策和业务操作。应遵守数据治理规范,确保数据的合法使

用和保密性。提供数据使用的反馈和需求,改进数据治理的效果。

安全保障

4.2.1安全管理应符合GB/T39477、DB33/T2487的规定。

4.2.2数据归集、治理、应用等系统应达到GB/T22239等级保护三级及以上的要求。

4.2.3数据应存储于数据仓,并配置必要的安全防护、数据脱敏和审计功能,数据实时或定期备份。

4.2.4应对数据的使用和维护行为进行监控和审计。

数据标准管理

4.3.1应结合业务实际,统筹管理实有人口数据和地名地址数据相关标准。

4.3.2应根据相关国家标准、行业标准、地方标准,规范数据资源管理工作。

4.3.3应建立数据治理规则,对数据资源进行治理实施和处理。

5治理架构

概述

实有人口数据治理的总体架构分为三层,包括数源层、治理层、应用层(见图1)。

2

DB3301/T0468—2024

图1总体架构

数源层

由多个部门提供实有人口和地名地址源数据,包括但不限于户籍数据、基层摸排数据、基层治理系

统中的人口数据、死亡人口数据、党员数据、失信执行人数据、门诊就诊数据、行政办件数据等。

治理层

实现实有人口的数据识别、数据归集、数据清洗、数据质量监督、问题数据处理、数据核查更新等

工作。

应用层

完成治理后的数据封装成接口,支撑数据应用。

6治理过程

数据识别

6.1.1应明确数据管理目标,用于指导后续的数据识别过程。

6.1.2应对各个部门和系统的人口和地址数据进行调研和分析,了解各个部门和系统中存在的人口和

地址数据对象以及其属性。

6.1.3应识别数据的唯一标识和核心特征等关键属性。

示例:在人口数据中,姓名、身份证号码、出生日期、户籍所在地等关键属性;在地址数据中,小区、楼牌、单元、

楼层、户室等关键属性。

6.1.4应对数据进行比对和分析,识别重复的数据记录以及不一致的数据。

6.1.5应与涉及人口和房屋数据的相关部门进行沟通和协作。了解各个部门的数据需求和使用情况,

3

DB3301/T0468—2024

以及数据在业务过程中的流动情况。

6.1.6应基于识别和分析的结果,制定人口和地址数据的数据管理策略。

数据归集

6.2.1归集范围

包含管辖区域内多个部门以及上级部门回流的实有人口数据和地名地址数据资源。

6.2.2归集类型

归集数据包括结构化数据、半结构化数据、非结构化数据:

a)结构化数据:按照固定的模式和预定义的数据模型进行组织,数据元素之间有明确定义的关系,

以表格形式存储在关系型数据库中,具有明确的字段和数据类型,适合进行查询、分析和处理。

b)半结构化数据:半结构化数据介于结构化数据和非结构化数据之间,具有一定的结构化特征,

但不符合传统关系型数据库的严格模式。半结构化数据通常是自描述的,结构和内容混合在一

起,如HTML文档、电子邮件等。

c)非结构化数据:数据元素之间缺乏统一的组织结构和明确的关系,其格式和内容多样化,包括

文本文档、图像、音频、视频等。

6.2.3归集方式

库表方式

宜采用ETL(Extract-Load-Transform)工具,实现周期性调度(实时、每日、每周、每月、每季

度、每半年、每年、其他、自定义)。

服务接口方式

宜包括资源性状态传输应用程序编程接口(RESTfulAPI)、简单对象访问协议网络服务接口(SOAP

Webservice)、网络套接字协议(WebSocket)等服务接口方式。

数据文件方式

数据文件方式采集的途径包括但不限于:文件传输协议(FTP)服务、邮件、介质等数据文件。格

式包括但不限于:可扩展标记语言(XML)、工作表(XLSX)、文本(CSV)、文档(DOC、DOCX)等。

数据填报方式

支持对地址地名逐个填报或者批量导入方式填报,支持与数据仓中已有数据进行关联匹配,提交后

归集至数据仓。

6.2.4归集内容

数据归集内容包括实有人口信息、地址地名信息:

a)实有人口信息包括但不限于姓名、性别、联系方式、现居住地址、户籍所在地、证件类型、证

件编号、国籍、民族、学历、政治面貌、婚姻状况、镇街编号等信息。实有人口信息见表A.1。

b)地址地名信息包括但不限于住所名称、省、市、区县、镇街、社区、自然村、街路巷、门牌、

小区、建筑物、楼牌、单元、楼层、户室、网格编码、楼栋编码、户室编码、地址编码等信息。

地址地名信息见表A.2。

4

DB3301/T0468—2024

数据清洗

6.3.1制定清洗策略

明确清洗的目标、范围和策略,建立数据过滤策略,以清除无效数据、干扰数据、过时数据、重复

数据、不一致数据等数据,确保数据质量。

6.3.2人口数据清洗

基本信息提取

从不同数源部门和上级部门回流的数据中提取人口基本信息,包括姓名、出生日期民族、户籍地、

居住地、文化程度、婚姻状况等。

数据清洗比对

按照GA/T1218、GB11643、GB/T2261.1进行人员基本信息数据清洗比对,包括但不限于字段命名

统一、字段格式统一、数据标准统一、数据纠错、去除空白字符、全角半角转换、去除重复数据等。示

例见附录B。

数据转换合并

应包括下列内容:

a)将多张人口数据表进行行列转换并合并为中间表;

b)根据数据来源设置权重,结合业务时间排序,获取人口每项属性的有效的最新数据,对中间表

进行去重,形成最终表;

c)对最终表的数据进行行列转换,实现数据合并。

6.3.3地址数据清洗

数据清洗比对

根据数据标准进行数据清洗比对,包括但不限于地址数据纠错、去除空白字符、全角半角转换。示

例见附录B。

地址数据切片

将地名地址切片成行政区划省份代码、行政区划省份名称、行政区划地市代码、行政区划地市名称、

行政区划区县代码、行政区划区县名称、乡镇街道代码、乡镇街道名称、村(社区)代码、街路巷、门

牌号、小区独立建筑物名称、楼幢、单元、楼层、户室。示例见附录B。

经纬度提取

基于原始地名地址文本数据,通过地理编码接口,获取经纬度。基于经纬度转换为地理围栏对应的

坐标系坐标。示例见附录B。

数据入网格

通过经纬度与行政区划边界信息配装计算出地址所在网格信息。

地址数据赋码

地址地名数据编码应符合DB3301/T0296—2022第6章的要求。

5

DB3301/T0468—2024

6.3.4数据关联映射

基于已有的小区/独立建筑物、楼幢、单元、户室、道路、门牌号与标准地址库建立映射,包

括以下层级:

a)行政区划级别:从大到小依次为省、市、区县、

推荐标准

相似标准推荐

更多>