DB5120/T 19.4-2023 数据资源体系技术指南 第4部分:数据仓库建设指南

DB5120/T 19.4-2023 Data Resource System Technical Guide Part 4: Guide for Data Warehouse Construction

四川省地方标准 简体中文 现行 页数:14页 | 格式:PDF

基本信息

标准号
DB5120/T 19.4-2023
标准类型
四川省地方标准
标准状态
现行
中国标准分类号(CCS)
-
国际标准分类号(ICS)
发布日期
2023-12-22
实施日期
2023-12-29
发布单位/组织
资阳市市场监督管理局
归口单位
资阳市政务服务和大数据管理局
适用范围
适用于资阳市域的数据仓库建设。

发布历史

文前页预览

研制信息

起草单位:
资阳市大数据服务中心、资阳数智科技有限公司
起草人:
刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀 、陈熙。
出版信息:
页数:14页 | 字数:- | 开本: -

内容描述

ICS35.240.01

CCSL70DB5120

四川省(资阳市)地方标准

DB5120/T19.4—2023

数据资源体系技术指南

第4部分:数据仓库建设指南

2023-12-22发布2023-12-29实施

资阳市市场监督管理局发布

DB5120/T19.4—2023

目  次

前 言.................................................................................................................................................................II

1范围.................................................................................................................................................................1

2规范性引用文件.............................................................................................................................................1

3术语和定义.....................................................................................................................................................1

4缩略语.............................................................................................................................................................2

5综述.................................................................................................................................................................2

6命名规范.........................................................................................................................................................4

7开发规范.........................................................................................................................................................7

参考文献.............................................................................................................................................................10

I

DB5120/T19.4—2023

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。

本文件由资阳市政务服务和大数据管理局提出并归口。

本文件由资阳市市场监督管理局批准并发布。

本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。

本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、

郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。

本文件为首次发布。

II

DB5120/T19.4—2023

数据资源体系技术指南

第4部分:数据仓库建设指南

1范围

本文件规定了资阳市域数据仓库建设相关术语和定义、缩略语、综述、命名规范、开发规范等工作

规范。

本文件适用于资阳市域的数据仓库建设。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T5271.1信息技术词汇第1部份:基本术语

GB/T11457信息技术软件工程术语

GB/T18492信息技术系统及软件完整性级别

GB/T20270信息安全技术网络基础安全技术要求

GB/T20271信息安全技术信息系统通用安全技术要求

GB/T22032系统工程系统生存周期过程

GB/T21062.3政务信息资源交换体系第3部分:数据接口规范

GB/T25000系统与软件工程(所有部分)

GB/T28452信息安全技术应用软件系统通用安全技术要求

GB/T29264信息技术服务分类与代码

GB/T29765信息安全技术数据备份与恢复产品技术要求与测试评价方法

GB/T35295信息技术大数据术语

GB/T36625.3智慧城市数据融合第3部分:数据采集规范

GB/T38667信息技术大数据数据分类指南

GB/T40094.2电子商务数据交易第2部分:数据描述规范

GB/T40094.3电子商务数据交易第3部分:数据接口规范行

GB/T42450信息技术大数据数据资源规划

DB51/T3056政务数据数据分类分级指南

3术语和定义

GB/T5271.1、GB/T11457、GB/T18492、GB/T20270、GB/T20271、GB/T21062.3、GB/T25000、

GB/T28452、GB/T29264、GB/T29765、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T

40094.3、GB/T42450、DB51/T3056界定的以及下列术语和定义适用于本文件。

3.1

数据仓库datawarehouse

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

1

DB5120/T19.4—2023

3.2

贴源层operationaldatastore

数据准备区,与数据源的数据同构,是数据仓库层加工数据的来源,主要目的是简化后续数据加工

处理的工作。

3.3

标准层standarddata

贴源层的数据进行清洗、转化后的数据,为后续数据加工提供标准数据。

3.4

明细层datawarehousedetail

保存通过标准层标准化之后的所有历史数据,为后续数据加工提供统一的、标准的数据视图。

3.5

汇聚层datawarehousesummary

按主题对明细层数据进行综合、归类。

3.6

集市层datamart

在汇聚层的基础上,满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、

需要计算的指标、维度的层次等,生成的面向决策分析需求的数据立方(一个全局数据表与其多个重要

字段的索引组成的一个类似于立方体的数据组织结构)。

4缩略语

下列缩略语适用于本文件。

ODS:贴源层(OperationalDataStore)

STD:标准层(STandardDat)

DWD:明细层(DataWarehouseDetail)

DWS:汇聚层(DataWarehouseSummary)

DM:集市层(DataMart)

5综述

5.1目的

本文件的拟制是为了规范数据仓库的建设过程,降低开发难度,保障开发质量,避免因开发不规范

文档导致的重复开发及返工等问题。

5.2原则

数据仓库建设的基本原则主要有三条:

a)统一性:为了保持开发风格一致,使得各类命名、各类规则、各类数据格式、开发过程阶段、

问题处理方式等保持统一,数据仓库的建设需符合“统一性”原则。

2

DB5120/T19.4—2023

b)明确性:为了保证开发内容的可理解和易运维,数据仓库的建设需符合“明确性”的原则,命

名明确、代码明确、规则明确、处理流程明确、各类分层明确等。

c)可扩展性:为了保障后续数据仓库在各个维度的易扩展能力,需要遵循“可扩展性”原则,要

求在模型设计、字段设计、代码设计等阶段关注此原则。。

5.3数据架构(数据采集过程与采集规范一致),如图1所示

图1数据架构

5.4分区选取原则

5.4.1表分区原则:

a)有数据更新的表需要做分区,若表数据量少则每个分区存当前全量数据,数据量大则每个分区

放增量数据;

b)分区列尽量选择能够让数据均匀分布的列,避免数据倾斜;

c)有必要时可以选择多级分区(如:地区/年/月/日);

d)需要频繁查询且数据量较大的表。

5.4.2表不分区原则:

a)数据几乎不更新的表不需要做分区,如字典表;

b)数据量少于100万条。。

5.5任务调度

任务调度是配置任务的运行周期,主要基于数据资源中心数据开发平台或其他大数据平台的工作流

配置。

主要包括以下属性:

a)调度周期:工作流调度频率,支持分钟/小时/天/周/月/年。

b)起止时间:调度将在有效日期内生效并自动调度,每次调度生成工作流实例。

c)依赖