YY/T 1833.2-2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求

YY/T 1833.2-2022 Artificial intelligence medical device—Quality requirements and evaluation—Part 2:General requirements for datasets

行业标准-医药 中文简体 现行 页数:22页 | 格式:PDF

基本信息

标准号
YY/T 1833.2-2022
相关服务
标准类型
行业标准-医药
标准状态
现行
中国标准分类号(CCS)
国际标准分类号(ICS)
发布日期
2022-07-01
实施日期
2023-07-01
发布单位/组织
国家药品监督管理局
归口单位
全国人工智能医疗器械标准化技术归口单位
适用范围
本文件规定了人工智能医疗器械全生命周期使用的数据集的通用质量要求和评价方法。
本文件适用于人工智能医疗器械研发、生产、测试、质控等环节使用的数据集的开发与评价。

研制信息

起草单位:
中国食品药品检定研究院、解放军总医院、上海长征医院、中国科学院深圳先进技术研究院、华为技术有限公司、飞利浦(中国)投资有限公司、上海西门子医疗器械有限公司、杭州依图医疗技术有限公司、腾讯医疗健康(深圳)有限公司、上海联影智能医疗科技有限公司、广州柏视医疗科技有限公司、美中互利医疗有限公司、慧影医疗科技(北京)有限公司、北京安德医智科技有限公司、广州市妇女儿童医疗中心、中山大学中山眼科中心
起草人:
王浩、刘士远、何昆仑、郑海荣、李佳戈、詹翊强、孟祥峰、萧毅、葛鑫、刘东泉、颜子夜、钱天翼、丁子建、陆遥、任海萍、柴象飞、周娟、王珊珊、张培芳、梁会营、林浩添
出版信息:
页数:22页 | 字数:44 千字 | 开本: 大16开

内容描述

ICS1104099

CCSC.30.

中华人民共和国医药行业标准

YY/T18332—2022

.

人工智能医疗器械质量要求和评价

第2部分数据集通用要求

:

Artificialintelligencemedicaldevice—Qualityrequirementsandevaluation—

Part2Generalreuirementsfordatasets

:q

2022-07-01发布2023-07-01实施

国家药品监督管理局发布

YY/T18332—2022

.

目次

前言

…………………………Ⅰ

引言

…………………………Ⅱ

范围

1………………………1

规范性引用文件

2…………………………1

术语和定义

3………………1

数据集说明要求

4…………………………3

数据集质量要求

5…………………………7

数据集质量符合性评价

6…………………10

附录规范性数据集类型说明

A()………………………14

附录资料性数据筛选与清洗说明

B()…………………15

参考文献

……………………17

YY/T18332—2022

.

前言

本文件按照标准化工作导则第部分标准化文件的结构和起草规则的规定

GB/T1.1—2020《1:》

起草

本文件是人工智能医疗器械质量要求和评价的第部分已经发布

YY/T1833《》2。YY/T1833

了以下部分

:

第部分术语

———1:;

第部分数据集通用要求

———2:。

请注意本文件的某些内容可能涉及专利本文件的发布机构不承担识别专利的责任

。。

本文件由国家药品监督管理局提出

本文件由全国人工智能医疗器械标准化技术归口单位归口

本文件起草单位中国食品药品检定研究院解放军总医院上海长征医院中国科学院深圳先进技

:、、、

术研究院华为技术有限公司飞利浦中国投资有限公司上海西门子医疗器械有限公司杭州依图医

、、()、、

疗技术有限公司腾讯医疗健康深圳有限公司上海联影智能医疗科技有限公司广州柏视医疗科技

、()、、

有限公司美中互利医疗有限公司慧影医疗科技北京有限公司北京安德医智科技有限公司广州市

、、()、、

妇女儿童医疗中心中山大学中山眼科中心

、。

本文件主要起草人王浩刘士远何昆仑郑海荣李佳戈詹翊强孟祥峰萧毅葛鑫刘东泉

:、、、、、、、、、、

颜子夜钱天翼丁子建陆遥任海萍柴象飞周娟王珊珊张培芳梁会营林浩添

、、、、、、、、、、。

YY/T18332—2022

.

引言

近年来人工智能医疗器械不断发展成为医疗器械标准化领域的一个新兴方向我国已初步建立

,,。

人工智能医疗器械标准体系在该标准体系中人工智能医疗器械质量要求和评价是

。,YY/T1833《》

基础通用标准为开展细分领域的标准化活动提供指导拟由八个部分组成

,,。

第部分术语目的在于为人工智能医疗器械的质量评价活动提供术语

———1:。。

第部分数据集通用要求目的在于提出数据集的通用质量要求与评价方法

———2:。。

第部分数据标注通用要求目的在于提出数据标注环节的质量要求与评价方法

———3:。。

第部分可追溯性通用要求目的在于提出人工智能医疗器械可追溯性的通用要求及评价

———4:。

方法

第部分算法安全要求目的在于规范人工智能医疗器械采用的人工智能算法的安全要求

———5:。

与评价方法

第部分环境要求目的在于规范人工智能医疗器械的运行环境条件要求与评价方法

———6:。。

第部分隐私保护要求目的在于加强人工智能医疗器械保护受试者隐私的能力

———7:。。

第部分伦理要求目的在于从技术层面实现人工智能伦理的要求保护人的权益

———8:。,。

本文件为其他部分提供数据集质量评价相关的工作思路

数据集是人工智能医疗器械研发训练测试质控等环节常用的资源对产品质量有重要影响本

、、、,。

文件作为人工智能医疗器械质量要求和评价的第部分把数据集纳入产品质量评价

YY/T1833《》2,

体系的一部分也为后续制定细分领域的数据集专用要求提供依据

,。

YY/T18332—2022

.

人工智能医疗器械质量要求和评价

第2部分数据集通用要求

:

1范围

本文件规定了人工智能医疗器械全生命周期使用的数据集的通用质量要求和评价方法

本文件适用于人工智能医疗器械研发生产测试质控等环节使用的数据集的开发与评价

、、、。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款其中注日期的引用文

。,

件仅该日期对应的版本适用于本文件不注日期的引用文件其最新版本包括所有的修改单适用于

,;,()

本文件

计数抽样检验程序第部分声称质量水平的评定程序

GB/T2828.44:

计数抽样检验程序第部分小总体声称质量水平的评定程序

GB/T2828.1111:

计量抽样检验程序第部分对均值的声称质量水平的评定程序

GB/T6378.44:

人工智能医疗器械质量要求和评价第部分术语

YY/T1833.11:

3术语和定义

界定的以及下列术语和定义适用于本文件

YY/T1833.1。

31

.

计数检验inspectionbyattributes

关于规定的一个或一组要求或者仅将单位产品划分为合格或不合格或者仅计算单位产品中不合

,,

格数的检验

来源

[:GB/T2828.1—2012,3.1.3]

32

.

计量质量特性variablesqualitycharacteristic

被检的单位产品特性能用连续尺度进行度量的质量特性

来源

[:GB/T8054—2008,3.1.3]

33

.

计量抽样检验samplinginspectionbyvariables

按规定的抽样方案从批中随机抽取一定数量的单位产品用测量试验或其他方法取得它们的质

。、

量特性值与质量要求进行对比并判断该批产品能否接收的过程

,,。

来源

[:GB/T8054—2008,3.1.4]

34

.

批lot

按抽样目的在基本相同条件下组成的总体的一个确定部分

,。

1

YY/T18332—2022

.

来源

[:GB/T10111—2008,3.1.4]

35

.

准确度accuracy

对数据内容正确形式有效的一种度量

、。

来源有修改

[:GB/T11457—2006,2.22,]

36

.

精度precision

对于说明的量的精确或差异的程度例如位十进制数字对位十进制数字

。,25。

来源

[:GB/T11457—2006,2.1160]

注含义有别于算法性能指标的精确度

:。

37

.

一致性consistency

在数据集的各阶段部分之间一致标准化无矛盾的程度

、,、、。

来源有修改

[:GB/T11457—2006,2.320,]

38

.

可得性availability

数据集在投入使用时可操作或可利用的程度

来源有修改

[:GB/T11457—2006,2.115,]

39

.

信息安全性informationsecurity

[]

对数据进行的保护以防止其受到意外的或蓄意的存取使用修改毁坏或泄密

,、、、。

安全性也涉及对受试者隐私元数据通信以及计算机安装的物理保护

、、。

来源有修改

[:GB/T11457—2006,2.1420,]

310

.

可移植性portability

数据集能被安装替换或从一个系统移动到另一个系统中并保持已有质量的属性的程度

、,。

311

.

数据集制造责任方datasetmanufactureresponsibleorganization

对某数据集的设计制造负有责任的实体

、。

来源有修改

[:GB9706.1—2020,3.101,]

312

.

离群值outlier

一组数据中被认为与该组其他数据不一致的观测值

注离群值可能来源于不同的总体或由于不正确的记录或其他误差的结果

:,。

来源有修改

[:CNASGL-002—2018,3.6,]

313

.

数据集说明datasetdescription

陈述数据集各种性质的文档

2

YY/T18332—2022

.

4数据集说明要求

41数据集描述

.

411数据集整体描述

..

4111数据集类型

...

数据集说明应按照附录的要求注明数据集的类型

A,。

4112数据集形态

...

数据集说明应描述数据集的数据模态数据格式数据量存储方式

、、、。

4113数据集层次

...

数据集说明应描述数据集的数据层次子集分解和组合变化

、。

4114应用场景

...

数据集说明应描述数据集预期模拟的应用场景

4115版本控制

...

数据集说明应描述数据集的版本号存储信息说明文档编制时间使用状态

、、、。

4116数据集更新

...

对于动态数据集数据集说明应描述新增数据的入组规则和数据退役规则

,。

4117文档管理

...

数据集说明宜通过计算机技术如软硬件普通网络云服务对文档内容进行发布交换管理和

(、、),、、

查询

4118元数据属性

...

数据集说明宜描述数据集元数据属性如数据集名称标识符发布方语种分类类目名称摘

,、、、、、

要等

4119数据元属性

...

数据集说明宜描述数据元的共用属性专用属性如数据集版本注册机构分类模式主管机构等

、,、、、。

注注册机构主管机构定义见

:、WS/T303—2009。

41110标注信息

...

数据集说明应描述数据集是否具有标注信息

412数据采集信息

..

4121合规性陈述

...

数据集说明应提供数据来源的合规性陈述

3

YY/T18332—2022

.

4122隐私保护

...

数据集说明应描述用于保护受试者隐私的技术手段如数据去标识化数据匿名化等适当时数

,、。,

据集说明文档应描述数据去标识化或者数据匿名化的规则

4123多样性

...

数据集说明应提供数据来源多样性的描述如人群采集场所采集设备参数设置操作人员资质

,、、、、、

采集流程采集时间等

、。

4124数据采集依从原则

...

数据集说明应提供数据采集依据的法规技术标准临床规范专家共识或其他参考文献

、、、。

4125数据筛选

...

数据集说明应描述数据的录入排除标准以及进行数据筛选的方法如人工清洗自动清洗

、,,、。

注示例见附录

:B。

413数据预处理

..

适当时数据集说明应描述数据预处理的操作步骤和内容

,。

414数据集标注

..

4141数据集标注依从原则

...

数据集如具有标注信息数据集说明应描述数据集标注依据的法规技术标准临床规范专家共识

,、、、

或其他参考文献

4142参考标准

...

数据集如具有标注信息数据集说明应描述数据集参考标准的制定规则范围存储格式与数据规

,、、

范如果参考标准是可验证的应描述参考标准的验证方式

。,。

4143标注流程

...

数据集如具有标注信息数据集说明应描述数据标注与质控流程明确决策机制在多人标注多

,,。、

重标注的情况下应描述标注分歧的仲裁机制

,。

4144其他标注信息

...

数据集如具有标注信息数据集说明应描述除参考标准外的其他标注信息的范围数据规范和存储

,、

格式

415数据集存储信

定制服务

    推荐标准