DB13/T 2351.3-2016 标准文献结构化数据规范 第3部分:元数据著录规则

DB13/T 2351.3-2016 Standard document structuring data specification Part 3: Metadata recording rules

河北省地方标准 简体中文 现行 页数:31页 | 格式:PDF

基本信息

标准号
DB13/T 2351.3-2016
标准类型
河北省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2016-05-23
实施日期
2016-07-01
发布单位/组织
河北省质量技术监督局
归口单位
-
适用范围
-

发布历史

文前页预览

研制信息

起草单位:
起草人:
出版信息:
页数:31页 | 字数:- | 开本: -

内容描述

ICS01.140.20

A14

DB13

河北省地方标准

DB13/T2351.3—2016

标准文献结构化数据规范

第3部分:元数据著录规则

Structureddataspecificationsofstandarddocuments

Part3:Descriptiverulesofmetadata

2016-05-23发布2016-07-01实施

河北省质量技术监督局发布

DB13/T2351.3—2016

前言

本部分按照GB/T1.1-2009给出的规则起草。

DB13/TDB13/T2351《标准文献结构化数据规范》包括了3部分:

——第1部分:全文元数据;

——第2部分:指标元数据;

——第3部分:元数据著录规则。

本部分是第3部分,本部分与第1、2部分配套使用。

本部分由河北省服务业标准化技术委员会提出并归口。

本部分起草单位:河北省标准化研究院。

本部分主要起草人:卢艳芳、施健、马星晓、谢燕、闫志强、张园园、陈南、李建勋、赵倩、安姣、

郭天强、李朴。

I

DB13/T2351.3—2016

引言

标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要

定位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文

献电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单

元存储无法实现小颗粒度的指标数据的检索、比对分析。只有通过数据处理将非结构化文档转换为结构

化或半结构化文档方能解决上述问题。

为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在

此基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内

容数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而

言之,标准结构化加工抽取出的数据是哪些数据?2)抽取出来的数据进行加工应符合什么样的数据规

范要求,方能满足与原始标准文本内容的一致性的需求。

解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现;

解决第二个问题,需要建立数据的著录规则,实现数据的规范性。

项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了

分析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标

准进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数

据的规范要求,形成了《标准文献结构化数据规范》。

目前,在行业内广泛使用的GB/T22373-2008《标准文献元数据》是针对标准文献题录的元数据标

准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的

全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进

标准文献信息资源的开发利用。

II

DB13/T2351.3—2016

标准文献结构化数据规范第3部分:元数据著录规则

1范围

本部分规定了标准文献结构化全文(全文、术语、图像、表格、公式)、指标元数据加工的术语和定

义、著录项目、著录总则和著录细则等内容。

本部分适用于标准文献结构化数据的处理。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T1.1标准化工作导则第1部分:标准的结构和编写

GB/T7408数据元和交换格式信息交换日期和时间表示法(GB/T7408-2005,ISO

8601:2000,IDT)

GB18030信息技术中文编码字符集

GB/T22373-2008标准文献元数据

DB13/T2351.1-2016标准文献结构化数据规范第1部分:全文元数据

DB13/T2351.2-2016标准文献结构化数据规范第2部分:指标元数据

汉语分类主题词表中国科学技术信息研究所与北京图书馆主编(1980年)

3术语和定义

下列术语和定义适用于本文件。

3.1

著录description

对文献的内容和形式特征进行分析、选择和记录的过程。

[GB/T22373-2008,定义第3.10]

3.2

著录项目elements

用以揭示标准文献形式特征和内容特征的记录事项。

3.3

核心元数据coremetadata

描述信息资源基本属性的元数据元素和元数据实体。

[GB/T26816-2011,定义3.5]

1

DB13/T2351.3—2016

4著录项目和核心元数据

4.1全文元数据著录项目和核心元数据

全文元数据著录项目和核心元数据见表1。

表1全文元数据著录项目、定义和核心元数据

序号著录项目定义核心元数据

0标识符名称空间中对象的唯一标识符。*

由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,

1标准号*

标准号由标准代号、顺序号、发布年份及有关标识符组成。

2标准名称标准的中文名称*

标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见

3篇章条编号*

DB13/T2351.1-2015中的附录B.1.1)。

4篇章条名称标准中篇章条的标题名称。*

5篇章条内容标准中篇章条的段落内容。*

6篇章条类型描述篇章条类别。

7篇章条所在页码同一标准篇章条首次出现所在的页码。

8篇章条父章节当前篇章条的上一级章节的编号。

9篇章条顺序号篇章条顺序号。

10文字以文字形式描述的标准内容。*

标准内容中表格按特定规则的顺序编号。(表号定义说明见DB13/T*

11表号

2351.1-2015中的附录B.2.1)。

12表名描述表格主题的名称。*

13表格图像路径表格图像文件存储的路径。*

14表注标准内容中表格的注释。*

15表格所在页码标准内容中同一表格首次出现所在页码。

16同一表格顺序号跨页表格图像文件的顺序号。

17表格HTML格式用HTML描述的表格信息。

标准内容中图像按特定规则的顺序编号。(图号定义说明见附录

18图号*

B.3.1)。

19图名描述图的主题的名称。*

20图像路径图像文件存储的路径。*

21图注标准内容中图像的注释。*

22图像所在页码标准内容中同一图像首次出现的页码。

23同一图像顺序号同一图号的图像在不同页赋予的顺序编号。

24术语中文名称术语的中文标题名。*

25术语英文名称术语的英文标题名。*

26术语内容术语的定义内容。*

2

DB13/T2351.3—2016

表1(续)

序号著录项目定义核心元数据

为了使用方便,使术语称谓中的成分进行有规律的节缩或者省略形成

27术语缩略语

的词。

28术语同义词表达意义相同或相近,但是表达形式不同的词汇。

29术语禁用词禁止使用的术语。

30术语注术语条款的注释。

31术语所在页码标准内容中该术语首次出现所在页码。

32公式名称描述公式的主题的名称。*

33公式图像路径公式图像文件存储的路径。*

34公式注公式的注释。*

35公式所在页码标准内容中同一公式首次出现所在页码。

36更新时间描述全文数据修改更新的时间。*

关于标准文献全文元数据库中记录所处的状态(修改、删除、新增)

37记录状态*

的说明。

38版本描述全文数据更新的版本编号。*

39加工单位描述全文数据加工单位的信息。

注:标星号“*”的数据项为核心元数据。

4.2技术指标元数据著录项目和核心元数据

技术指标元数据著录项目和核心元数据见表2。

表2技术指标元数据著录项目和核心元数据

序号著录项目定义核心元数据

0标识符名称空间中对象的唯一标识符。*

由有关标准化机构给定的用于唯一识别某一标准的注册号或登

1标准号记号,标准号由标准代号、顺序号、发布年份及有关标识符组*

成。

2标准名称标准的中文名称。*

3标准对象描述一个实体的标准化活动的作用对象。*

4指标对象描述一个实体的质量特征的作用对象。*

描述指标对象的特性、特征的名称。如:形状、颜色、气味、

5指标对象属性名称*

优劣、用途等都是指标对象的性质。

6指标对象属性值描述指标对象属性的内容。*

7指标对象属性类型描述指标对象的类别。

对指标数据产生有一定约束关系的因素名称。如:环境因素、

8指标影响因素名称*

测试方法、工具、工艺、作用对象等。

9指标影响因素值指标影响因素的具体内容描述。*

3

DB13/T2351.3—2016

表2(续)

序号著录项目定义核心元数据

10指标影响因素类型描述指标影响因素的类别。

11指标名称描述实体质量特征属性的技术要求名称。*

12指标内容某项技术要求的具体内容描述。*

13计量单位

推荐标准