【原】FDA｜医疗器械开发中的机器学习规范：指导原则

智药邦 2021-11-29

展开全文

2021年10月27日，FDA、加拿大卫生部和英国药品和保健品管理局（MHRA）联合发布了10项指导原则，可以为机器学习规范（Good Machine Learning Practice, GMLP）的发展提供参考。这些指导原则将有助于促进安全、有效和高质量的使用人工智能和机器学习（AI/ML）的医疗设备的开发。

人工智能和机器学习技术有可能通过从每天提供医疗服务的过程中产生的大量数据中获得新的和重要的见解，来改变医疗服务。它们使用软件算法从现实世界的使用中学习，在某些情况下可能使用这些信息来改善产品的性能。但是，由于它们的复杂性以及开发的迭代和数据驱动的性质，它们也有独特的考虑。

这10条指导原则旨在为开发机器学习规范奠定基础，针对这些产品的独特性质。它们还将有助于培养这一快速发展领域的未来增长。

这10条指导原则确定了国际医疗器械监管机构论坛（IMDRF）、国际标准组织和其他合作机构可以努力推进GMLP的领域。合作的领域包括研究、创建教育工具和资源、国际协调和共识标准，这可能有助于为监管政策和监管指南提供信息。

我们设想这些指导原则可用于：采用在其他部门已被证实的做法；对其他部门的做法进行调整，使其适用于医疗技术和卫生保健部门；为医疗技术和卫生保健部门创造新的具体做法。

随着基于AI/ML的医疗设备的发展，GMLP的规范和共识标准也必须随之发展。如果我们要赋予利益相关者权力，以推进这一领域负责任的创新，与我们的国际公共卫生伙伴建立强有力的伙伴关系将是至关重要的。因此，我们希望这项初步的合作工作能够为我们更广泛的国际参与提供信息，包括与IMDRF的合作。

我们欢迎你继续通过Regulations.gov的公共目录（FDA-2019-N-1185）提供反馈，我们期待着与你一起参与这些工作。数字健康卓越中心正在为FDA带头开展这项工作。请直接与我们联系：Digitalhealth@fda.hhs.gov, software@mhra.gov.uk, 和 mddpolicy-politiquesdim@hc-sc.gc.ca。

指导原则

1.在整个产品生命周期中利用多学科的专业知识

深入了解一个模型在临床工作流程中的预期整合，以及预期的好处和相关的病人风险，可以帮助确保支持ML的医疗设备是安全和有效的，并在设备的生命周期内解决临床上有意义的需求。

2.实施软件工程和安全规范

模型设计的实施要注意"基本要素"：良好的软件工程规范、数据质量保证、数据管理和强大的网络安全规范。这些做法（包括有条不紊的风险管理和设计过程）可以适当地捕捉和沟通设计、实施和风险管理的决定和理由，并确保数据的真实性和完整性。

3.临床研究参与者和数据集能够代表预期的患者群体

数据收集协议，应确保预期患者群体的相关特征（例如，在年龄、性别、种族和民族方面）、使用和测量输入在临床研究和训练及测试数据集中有足够规模的样本代表，从而使结果可以合理地推广到相关人群。这对于管理任何偏见、促进在预期的病人群体中的适当和可推广的性能、评估可用性以及识别模型可能表现不佳的情况都很重要。

4.训练数据集独立于测试数据集

训练和测试数据集的选择和维护要适当地相互独立。所有潜在的依赖性来源，包括病人、数据采集和现场因素，都应该被考虑和解决，以确保独立性。

5.选定的参考数据集是基于现有的最佳方法

用于开发参考数据集（即参考标准）的公认的最佳可用方法，可以确保收集临床相关的和充分表征的数据，并了解参考的局限性。如果有的话，在模型开发和测试中使用公认的参考数据集，以促进和证明模型的稳健性和在预期病人群体中的普遍性。

6.模型设计适合现有数据并反映设备的预期用途

模型设计适合现有数据，并支持积极减轻已知风险，如过度拟合、性能下降和安全风险。与产品相关的临床效益和风险应当被充分理解，用于得出有临床意义的测试性能目标，并支持产品能够安全和有效地实现其预期用途。考虑因素包括全局和局部性能的影响，以及设备输入、输出、预期病人群体和临床使用条件的不确定性/变异性。

7.重点放在Human-AI部分的性能上

在模型存在“人在循环中”的情况下，人为因素的考虑和模型输出的人为部分的可解释性应当得到解决，重点是 Human-AI部分的性能，而不仅仅是孤立的模型的性能。

8.测试证明设备在临床相关条件下的性能

制定并执行统计学上合理的测试计划，以产生独立于训练数据集的临床相关设备性能信息。考虑的因素包括预期的病人群体、重要的亚群、临床环境和Human-AI部分的使用、测量输入和潜在的混杂因素。

9.为用户提供清晰的和基本的信息

向用户提供清晰的、与背景相关的信息，这些信息适用于目标受众（如医疗服务提供者或患者），包括：产品的预期用途和使用指征、模型在适当的亚组中的表现、用于训练和测试模型的数据特征、可接受的输入、已知的限制、用户界面解释和模型的临床工作流程整合。用户也会了解到设备的修改和来自真实世界的性能监测的更新、可用的决策依据，以及与开发商沟通产品问题的方法。

10.对已部署的模型进行性能监测，并对再训练风险进行管理

已部署的模型有能力在"真实世界"的使用中被监控，重点是保持或改善安全和性能。此外，当模型在部署后被定期或持续训练时，有适当的控制措施来管理过度拟合、非预期偏差或模型退化的风险（例如，数据集漂移），这可能会影响模型的安全和性能，因为它被Human-AI部分使用。

参考资料

https://www./medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles