DB13/T 2351.1-2016 标准文献结构化数据规范 第1部分:全文元数据

DB13/T 2351.1-2016 Standard Document Structuring Data Specification Part 1: Full Text Metadata。

河北省地方标准 简体中文 现行 页数:28页 | 格式:PDF

基本信息

标准号
DB13/T 2351.1-2016
标准类型
河北省地方标准
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2016-05-23
实施日期
2016-07-01
发布单位/组织
河北省质量技术监督局
归口单位
-
适用范围
-

发布历史

文前页预览

研制信息

起草单位:
起草人:
出版信息:
页数:28页 | 字数:- | 开本: -

内容描述

ICS01.140.20

A14

DB13

河北省地方标准

DB13/T2351.1—2016

标准文献结构化数据规范

第1部分:全文元数据

Structureddataspecificationsofstandarddocuments

Part1:Full-textMetadata

2016-05-23发布2016-07-01实施

河北省质量技术监督局发布

DB13/T2351.1—2016

目次

前言II

引言III

1范围1

2规范性引用文件1

3术语和定义1

4全文元数据的属性2

5全文元数据模型2

6全文元数据描述3

7全文元数据字典描述14

8全文元数据扩展原则和方法14

附录A(规范性附录)标准文献全文结构化元数据代码集15

附录B(规范性附录)篇章条编号、表号和图号说明16

附录C(资料性附录)标准文献结构化全文元数据-字典描述18

参考文献22

I

DB13/T2351.1—2016

前言

本部分按照GB/T1.1-2009给出的规则起草。

DB13/T2351《标准文献结构化数据规范》包括了3部分:

——第1部分:全文元数据;

——第2部分:指标元数据;

——第3部分:元数据著录规则。

本部分是第1部分,本部分与第3部分配套使用。

本部分由河北省标准化研究院提出并归口。

本部分起草单位:河北省标准化研究院。

本部分主要起草人:施健、卢艳芳、马星晓、李朴、李建勋、谢燕、闫志强、张园园、陈南、赵倩、

郭天强、安姣。

II

DB13/T2351.1—2016

引言

标准文献电子文档格式有DOCX、数字版PDF、扫描版PDF。在生产、科研和管理过程中,往往需要定

位到标准内容、指标信息上,如:检索标准指标、指标比对及标准水平分析等。但是,现有的标准文献

电子文档为非结构化文档,这一特性决定它的内容检索指向性笼统模糊,故而,以非结构化文档为单元

存储无法实现小颗粒度的指标数据的检索、比对分析,只有通过数据处理将非结构化文档转换为结构化

或半结构化文档方能解决上述问题。

为寻求上述瓶颈的突破,河北省标准化研究院在2012年将标准文献结构化列为重点科研项目,在此

基础上,2013年又承担了国家标准化委员会标准化信息中心的《“双打”重点产品标准文献结构化内容

数据库》项目,而实现标准文献结构化必须首要解决2个问题:1)结构化标准的数据结构问题,换而言

之,标准结构化加工抽取出的数据是哪些数据?2)对抽取出来的数据进行加工应符合什么样的数据规

范要求,方能满足与原始标准文本内容的一致性的需求。

解决第一个问题,需要建立标准结构化数据模型,并通过元数据规范来实现;

解决第二个问题,需要建立数据的著录规则,实现数据的规范性。

项目组在确定文献结构化抽取技术的基础上,对4000余项强制性国家标准的内容要素逐一进行了分

析研究、归纳总结后,按UML思想确定了标准结构化数据模型,并在工程上对4000余项强制性国家标准

进行了结构化数据的抽取验证,确定了结构化元数据。通过验证测试,逐步完善了加工抽取结构化数据

的规范要求,形成了《标准文献结构化数据规范》。

目前,在行业内广泛使用的GB/T22373-2008《标准文献元数据》是针对标准文献题录的元数据标

准,侧重的是标准文献形式特征,而此次制定的《标准文献结构化数据规范》是关于标准内容结构化的

全文元数据和指标元数据规范,希望此两个标准的结合使用,实现标准文献信息资源的统一描述,促进

标准文献信息资源的开发利用。

III

DB13/T2351.1—2016

标准文献结构化数据规范第1部分:全文元数据

1范围

本部分规定了标准文献结构化全文元数据(包括全文、术语、图像、表格和公式)的术语和定义、

属性、模型、描述以及扩展原则和方法。

本部分适用于标准文献结构化数据的处理。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T74088数据元和交换格式信息交换日期和时间表示法(GB/T7408-2005,ISO

8601:2000,IDT)

GB/T18391.3-2009信息技术元数据注册系统(MDR)第3部分:注册系统元模型与基本属性

(ISO/IEC11179-3:2003,IDT)

GB/T19710-2005地理信息元数据(ISO19115-2003,MOD)

GB/T26816-2011信息资源核心元数据

3术语和定义

下列术语和定义适用于本部分。

3.1

信息资源informationresource

在政治、经济和社会等各领域产生和使用、具有各种载体形式的信息内容。

[GB/T26816-2011,定义3.1]

3.2

元数据metadata

定义和描述其他数据的数据。

[GB/T18391.3-2009,定义3.2.18]

3.3

元数据元素metadataelement

元数据的基本单元。

注:元数据元素在元数据实体中是唯一的。

[GB/T19710-2005,定义4.61]

3.4

1

DB13/T2351.1—2016

元数据实体metadataentity

一组说明信息资源相关特性的元数据元素。

注:可以包含一个或一个以上元数据实体。

[GB/T19710-2005,定义4.71]

3.5

核心元数据coremetadata

描述信息资源基本属性的元数据元素和元数据实体。

[GB/T26816-2011,定义3.5]

4全文元数据的属性

4.1中文名称

指元数据元素或元数据实体的中文名称,用本部分第6章中各条的标题来表达。

4.2英文名称

元数据元素的英文名称,一般用小写英文全称,英文单词之间用空格分隔。

元数据实体的英文名称,每一个单词首字母为大写,其余字母为小写,英文单词之间用空格分隔。

4.3缩写名

应符合GB/T26816-2011中4.6的要求。

4.4定义

应符合GB/T26816-2011中4.2的要求。

4.5数据类型

应符合GB/T26816-2011中4.4的要求。

4.6值域

应符合GB/T26816-2011中4.5的要求。

4.7约束/条件

应符合GB/T26816-2011中4.7的要求,约束/条件代码见附录A表A.1。

4.8最大出现次数

应符合GB/T26816-2011中4.8的要求。

5全文元数据模型

标准文献结构化全文元数据模型见图1。

2

DB13/T2351.1—2016

图1全文元数据模型

6全文元数据描述

6.1全文元数据

中文名称:全文元数据

英文名称:Full-textMetadata

缩写名:FulTxtMdata

定义:描述结构化标准中全文数据的元数据。

数据类型:复合型

约束/条件:M

最大出现次数:1

6.2标识符

3

DB13/T2351.1—2016

中文名称:标识符

英文名称:identifier

缩写名:ID

定义:名称空间中对象的唯一标识符。

数据类型:字符串

值域:UUID

约束/条件:M

最大出现次数:1

6.3全文

中文名称:全文

英文名称:FullText

缩写名:FulTxt

定义:以篇章条形式描述的标准内容。

数据类型:复合型

约束/条件:M

最大出现次数:1

6.4标准号

中文名称:标准号

英文名称:documentreference

缩写名:docRef

由有关标准化机构给定的用于唯一识别某一标准的注册号或登记号,标准号

定义:

由标准代号、顺序号、发布年份及有关标识符组成。

数据类型:字符串

值域:标准代号+1个空格+顺序号+1个连字符"-"+4位发布年份

约束/条件:M

最大出现次数:1

6.5标准名称

中文名称:标准名称

英文名称:documentnameinChinese

缩写名:docNmCN

定义:标准的中文名称

数据类型:字符串

值域:自由文本

约束/条件:M

最大出现次数:1

6.6篇章条编号

中文名称:篇章条编号

英文名称:chapternumber

缩写名:chapNo

4

DB13/T2351.1—2016

定义:标准内容中篇章条按一定规则的顺序编号(篇章条编号定义说明见附录B.1.1)。

数据类型:字符串

值域:见附录B.1.2

约束/条件:O

最大出现次数:1

6.7篇章条名称

中文名称:篇章条名称

英文名称:chaptername

缩写名:chapNm

定义:标准中篇章条的标题名称。

数据类型:字符串

值域:自由文本

约束/条件:M

最大出现次数:1

6.8篇章条内容

中文名称:篇章条内容

英文名称:CharpterContent

缩写名:ChapCont

定义:标准中篇章条的段落内容。

数据类型:复合型

值域:自由文本

约束/条件:M

最大出现次数:1

6.9篇章条类型

中文名称:篇章条类型

英文名称:chaptertype

缩写名:chapTyp

定义:描述篇章条类别。

数据类型:字符串

值域:字典(篇章条类型代码见附录表A.2)。

约束/条件:O

最大出现次数:N

6.10篇章条所在页码

中文名称:篇章条所在页码

英文名称:charpterpagenumber

缩写名:chapPNo

定义:同一标准篇章条首次出现所在的页码。

数据类型:数值型

值域:正整数

5

DB13/T2351.1—2016

约束/条件:M

最大出现次数:1

6.11篇章条父章节

中文名称:篇章条父章节

英文名称:parentchapternumber

缩写名:parChpNo

定义:当前篇章条的上一级章节的编号。

数据类型:字符串

值域:条层级最多4层的篇章条编号

约束/条件:C

最大出现次数:1

6.12篇章条顺序号

中文名称:篇章条顺序号

英文名称:charpterordernumber

缩写名:chpOrdNo

定义:篇章条的顺序号

数据类型:数值型

值域:正整数

约束/条件:M

最大出现次数:1

6.13文字

中文名称:文字

英文名称:word

缩写名:wrd

定义:以文字形式描述的标准内容。

数据类型:自由文本

约束/条件:O

最大出现次数:1

6.14表格

中文名称:表格

英文名称:Table

缩写名:Tab

定义:以表格形式描述的标准内容。

数据类型:复合型

约束/条件:O

最大出现次数:N

6.15表号

中文名称:表号

6

DB13/T2351.1—2016

英文名称:tablenumber

缩写名:tabNo

定义:标准内容中表格按特定规则的顺序编号。(表号定义说明见附录B.2.1)。

数据类型:字符串

值域:见附录B.2.2

约束/条件:O

最大出现次数:1

6.16表名

中文名称:表名

英文名称:tablename

缩写名:tabNm

定义:描述表格主题的名称。

数据类型:字符串

值域:自由文本

约束/条件:M

最大出现次数:1

6.17表格图像路径

中文名称:表格图像路径

英文名称:tableimagepath

缩写名:tabImgPath

定义:表格图像文件存储的路径。

数据类型:字符串

值域:自由文本

约束/条件:M

最大出现次数:1

6.18表注

中文名称:表注

英文名称:tablenote

缩写名:tabNote

定义:标准内容中表格的注释。

数据类型:字符串

值域:自由文本

约束/条件:O

最大出现次数:1

6.19表格所在页码

中文名称:表格所在页码

英文名称:tablepagenumber

缩写名:tabPNo

定义:标准内容中同一表格首次出现所在页码。

7

DB13/T2351.1—2016

数据类型:数值型

值域:正整数

约束/条件:M

最大出现次数:1

6.20同一表格顺序号

中文名称:同一表格顺序号

英文名称:sametableordernumber

缩写名:tabOrdNo

定义:跨页表格图像文件的顺序号。

数据类型:数值型

值域:正整数

约束/条件:M

最大出现次数:1

6.21表格HTML格式

中文名称:表格HTML格式

英文名称:tableHTMLcode

缩写名:tabHTML

定义:用HTML描述的表格信息。

数据类型:字符串

值域:自由文本

约束/条件:C

最大出现次数:1

6.22图像

中文名称:图像

英文名称:Image

缩写名:Img

定义:以图形式描述的标准内容。

数据类型:复合型

约束/条件:O

最大出现次数:N

6.23图号

中文名称:图号

英文名称:imagenumber

缩写名:imgNo

定义:标准内容中图像按特定规则的顺序编号。(图号定义说明见附录B.3.1)。

数据类型:字符串

值域:见附录B.3.2

约束/条件:O

最大出现次数:1

8

DB13/T2351.1—2016

6.24图名

中文名称:图名

英文名称:imagename

缩写名:imgNm

定义:描述图的主题的名称。

数据类型:字符串

值域:自由文本

约束/条件:M

最大出现次数:1

6.25图像路径

中文名称:图像路径

英文名称:imagepath

缩写名:imgPath

定义:图像文件存储的路径。

数据类型:字符串

值域:自由

推荐标准