欢迎访问江苏省超声技术质量控制中心!

搜索
0512-62362333

联系我们

江苏省超声技术质量控制中心

联系人:殷林亮

电话:0512-62362333

地址:江苏省苏州市道前街26号 苏州市立医院超声诊断中心

质控规范

首页>新闻资讯>质控规范

江苏省超声人工智能辅助诊断临床应用质量控制

2023-03-01

image.png

一、时代背景:

21世纪是公认的人工智能时代,从1950年提出人工智能概念之后,人工智能经历了两次起伏。随着深度学习、高性能计算硬件、互联网等相关技术的突破性进展,人工智能在算法、算力、数据三个关键方面具备了坚实基础,正式进入高速发展第三个黄金时期。人工智能为医学带来了无限潜力与可能。

人工智能(Artificial Intelligence,AI)辅助诊断已经在超声影像领域进行了广泛性的探索性应用,其中甲状腺和乳腺的人工智能辅助诊断已经形成商业化的使用。人工智能将显著地影响医学实践,改变患者体验和医生的日常生活。与此同时,AI先进的技术也带来一些列的新的挑战,需要我们规范化使用,才能确保准确率。为此我们要发布超声人工智能辅助诊断临床应用质控标准


二、应用目的:

规范人工智能辅助诊断技术的临床应用,保证医疗质量和医疗安全,制定行业质量标准。为临床应用人工智能辅助诊断技术质量控制的标准化提供依据。


三、技术要求:

设备:彩色多普勒超声诊断仪,配备相应的探头和软件。应用大数据深度学习研究为基础,开发出成熟的人工智能辅助诊断应用软件。可以是在机分析应用软件或者独立的离线分析软件。

人员:具备职业资质的专业性医疗工作者,并且应当接受厂家的规范化培训。


四、质控标准:

1、设备

(1)硬件要求:

超声影像设备,包括数据采集、存储、传输、管理、算法部署运行等涉及的硬件应当纳入质量控制范畴,在安全性、有效性、可靠性、复现性、可用性等方面可参照现有医院硬件设备的日常质控规程进行考量。以移动医疗APP形式部署和使用的人工智能辅助诊断,对APP的运行设备同样应进行考量。人工智能辅助诊断的部署、使用、校准、维护、维修等环节应当严格控制和观测相关硬件的变化,以避免产品表现出现波动。

(2)软件要求:

一般使用在机的超声人工智能辅助分析软件,可以实时或者离线再次分析,多次分析。对于独立软件形态的医学影像AI产品,临床使用质量控制需要开展运行效率、并发数、可移植性、网络响应、内存占用、存储空间管理等方面的检查与测试,观测软件在临床实际使用周境下的性能;对于嵌入式软件组件、软硬件一体化产品,应当参考独立软件质控要求,对其可能的变化予以评价和观测。

2、人员

(1)资质要求:

为避免超声人工智能辅助诊断对人工判断、临床决策的误导,人工智能辅助诊断的相关人员(包括图像采集人员、医护人员、物理师、质控人员等)应当足够了解实际部署场景,具有基本的职业资质和从业经验,对本机构的诊疗相关工作具有丰富的实践经验,有独立根据临床分工进行操作、决策和承担责任的能力。

(2)培训要求:

相关人员应当接受厂家的培训,熟悉产品的技术文件、操作使用、研发遵照的标准规范,了解数据采集的要求和规范,能够理解和转化产品的上市前评价指标。以AI图像辅助诊断分析为例,如果使用者既有的图像判读习惯与产品研发所依据的标准不同,那么产品给出的病灶标注、分类、分割等信息将很可能偏离使用者的预期。如果使用人员不能识别这种差异,那么判断上的分歧就难以化解,甚至产生不良事件的误报。

(3)能力管理要求:

为保证人机协同的效率和效果,建议使用部门关注人工智能辅助诊断使用人员的能力,适当时,进行实验室间比对和人员比对,观测使用者自身的判断能力、稳定性和机构之间的一致性,并采取必要的干预。

3、材料(图像采集)

(1)采集图像标准化:

临床使用质量控制的重要材料是图像采集。图像采集的差异对人工智能辅助诊断的结果影响较大,因此需加强图像采集的标准化,在图像采集,存储格式、传输协议、图像后处理的质量管理与评价等方面建立标准规范,保障临床使用质量控制能够依托高质量的数据库。

(2)标注标准化:

医学影像的标注在AI产品的临床使用质量控制中同样具有重要地位。使用同一个数据集对同一产品在不同机构开展临床使用质量评价时,不同机构在标注准确性、稳定性等方面的差异将导致评价结果和感受的不同,因而需要开展标准化标注,在数据标注规则、标注流程设计、标注人员管理、过程质控等方面建立标准规范。

4、方法

(1)指标:

日常质控可以引用上市前评价的部分指标,在日常质控数据集上测试算法性能,如诊断准确率、重复性、数据采集准确率、人工智能辅助诊断平均时间等。

(2)产品性能测试方式:

建议以批量处理数据集的形式开展产品算法性能的日常质控,提高效率和可重复性。对用于统计分类的产品,日常质控需要计算混淆矩阵、敏感度、特异度等指标;对用于病灶分割与尺寸测量的产品,日常质控需要实现算法结果可视化、手工尺寸测量、手工边界勾勒、交并比计算等功能,以支持人机比对和金标准比对。

(3)临床绩效评价:

参考国内外现有的医学服务质量控制文献,建议从以下4个角度评价产品的临床绩效。

①医疗服务环境的特征。本要素考虑的是影响临床绩效的各种外在因素,例如AI设备单位时间(平均)处理的患者数据量和患者类型(体检、门诊、急诊、住院等)、医师与AI设备比例、医师与患者比例。这些指标反映人工智能辅助诊断使用者的工作量和负荷水平,有助于优化使用者的工作时间,改善医疗服务。

②医疗服务过程中的表现。本要素衡量的是临床绩效的过程参数,例如平均AI报告等候时间、生理异常与危险事件报警数量。平均AI报告等候时间既包含AI运算的时间,又包含医师审核与纠正结果的时间,能够综合反映AI在医疗服务中的效率。生理异常与危险事件报警数量指的是每天由AI发现的需要及时处理的危重病例数量,反映了AI在挽救患者生命方面的贡献。

③医疗服务结果。本要素衡量的是临床绩效的结果表现,例如报告的准确率、一致性。这些指标以定量的方式描述AI与医师判断的一致程度,反映了AI辅助医师的能力。一般来说,其评价方法与上市注册的产品技术要求中的方法基本一致,有时需要根据医师的关注点进行调整。

④人机协同能力。本要素考虑的是AI算法对医师的影响。对于使用AI对医学影像进行辅助分类或辅助探测的产品,建议收集一部分经伦理委员会批准使用的前瞻性数据,用于建立和比较人+AI、人的ROC曲线下面积(area under curve,AUC)。当人+AI的AUC大于人的AUC且具有统计学意义时,可以认为AI对于医师的辅助作用是积极显著的。

5、环境

在算力、网络带宽等硬件条件满足的前提下,建议日常质控的环境应在日常工作环境与标准化数据标注环境两种条件下进行,以分析使用者的体验和判断是否受环境影响出现差异。如果影响显著,说明产品与日常工作环境的适配应当加强,以保障产品性能符合预期。


五、对临床性能偏离的响应 

考虑到日常使用环境的变化和患者数据的不确定性,人工智能辅助诊断在临床部署后的性能可能在不同程度上偏离预期,临床使用阶段应当明确对这种偏离的应对措施,这涉及真实世界数据的开发利用。

真实世界中AI产品性能的评价,可以看作基于动态前瞻式数据集的性能测试,当真实世界数据的总体和分层的样本量具有统计意义时,即可用于观测实际性能与临床预期的偏离。观测的频率由经济和技术条件决定。

出现性能偏离时,建议研究人员进一步分析真实临床使用环境下影响产品性能的因素,例如运行环境、人员操作、患者群体等方面的信息,并关注数据质量管理、数据标注标准规范的演化,综合判断产品能否继续有效执行任务,以采取修复、校准、改进、召回、淘汰等后续整改措施。临床机构发生整改后,应当对产品进行重复性测试,确认算法性能与日常质控结果一致后方可重新启用。上述流程和结果应形成详细记录,反馈给生产厂家。

当人工智能辅助诊断在临床绩效、临床使用风险方面出现显著问题时,建议及时报告不良事件。典型问题包括大范围误诊/漏诊、界面崩溃、算力异常、操作异常、质控结果不可重复、数据管理混乱、数据丢失、患者隐私泄露等。


六、其他应注意的问题 

在临床使用阶段,产品的非预期使用带来的风险值得特殊关注,建议临床机构在使用前明确人工智能辅助诊断在临床使用中的角色,例如独立输出诊断结果(直接产生报告)、第一读片人(AI先出结果,再由医师审核)、第二读片人(医师先读数据,然后AI分析数据,提醒医师避免漏诊)等情况,以防止AI的跨角色使用。AI决策与医师决策的结果必须有明确的标识和区分。

为避免非预期使用,临床机构应明确产品的适应证范围,防止非预期结果影响医学诊疗。即使这种非预期结果在个别病例上符合医师的判断,它有可能在其他的病例上作为假阳性的结果干扰医师,从而降低医疗服务质量。

预防非预期使用,还应当关注产品关键参数的变化。典型代表是AI进行辅助分类时使用的阈值。阈值的选择,会直接影响产品分类的敏感度和特异度。根据已公开的资料,敏感度、特异度、AUC是产品上市前评价中建议并经常采用的指标,其中敏感度、特异度是针对特定阈值的。如果生产厂家和临床机构认为有必要针对具体场景调整阈值,建议在上市前质量评价阶段进行相应研究,以保证性能的可重复性。

从研究的角度看,应鼓励临床机构对客观出现的非预期结果开展分析,寻找规律,促进产品功能扩展。实际上,这种分析属于医学大数据的开发利用,本质上是依托临床数据开展的科研活动。首先在流程上,研究人员应满足临床伦理和科研管理的法规要求,获得相关部门的批准。其次,研究使用的软件、算法、计算平台应当与临床使用中的人工智能辅助诊断软硬件相隔离,避免临床数据在未受控的情况下流入科研平台,同时防止科研产生的数据、结果干扰临床诊疗。


七、相关评价指标

1、诊断准确率

定义:诊断准确是指实施人工智能辅助诊断技术所得的诊断与患者病理诊断相符合。诊断准确率是指诊断准确的例数占同期人工智能辅助诊断技术总例数的比例。

image.png

意义:反映人工智能辅助诊断技术的准确性。


2、信息采集准确率

定义:信息采集准确是指采集的信息样本能满足人工智能辅助诊断技术需要。信息采集准确率是指信息采集准确的样本数占同期采集的信息样本总数的比例。

image.png

意义:反映人工智能辅助诊断系统的客观性。


3、人工智能辅助诊断平均时间

定义:从下达人工智能辅助诊断医嘱到发出诊断报告的平均时间(以分钟为单位)。

image.png

意义:反映人工智能辅助诊断的及时性和管理效率。


4、人工智能辅助诊断增益率

①诊断准确率增益率。

定义:单位时间、单位人员条件下,人工智能辅助诊断准确率和人工诊断准确率差值与人工智能辅助诊断准确率和人工诊断准确率中高值的比例。

image.png

意义:反映人工智能辅助诊断技术的效率。


②日人均诊断量增益率。

定义:单位时间、单位人员条件下,日人均人工智能辅助诊断量和日人均人工诊断量差值与日人均人工智能辅助诊断量和日人均人工诊断量中高值的比例。

计算方法:


意义:反映人工智能辅助诊断技术的效率。

image.png


③诊断平均时间增益率。

定义:单位时间、单位人员条件下,人工智能辅助诊断平均时间和人工诊断平均时间差值与人工智能辅助诊断平均时间和人工诊断平均时间中高值的比例。

image.png

意义:反映人工智能辅助诊断技术的效率。


返回