1. 引言:从合规到竞争力——医疗器械可用性工程的战略价值
1.1 全球监管框架的趋同与强化
医疗器械的可用性工程,亦称人因工程,已从行业最佳实践演变为全球主要监管市场的强制性合规要求。美国食品药品监督管理局(FDA)于2016年发布的《应用人因工程与可用性工程优化医疗器械设计》指南,与国际电工委员会(IEC)发布的IEC 62366-1:2015《医疗器械 第1部分:可用性工程在医疗器械中的应用》共同构成了当前国际监管的基石。欧盟医疗器械法规(MDR)2017/745明确要求制造商在技术文档中纳入可用性工程过程。中国国家药品监督管理局(NMPA)紧随其后,于2020年发布《医疗器械人因设计技术审查指导原则》,将人因设计文档列为注册申报的必备材料。
这一监管趋同现象的背后,是全球医疗器械不良事件数据的警示。据FDA的MAUDE数据库统计,约40%至50%的医疗器械相关严重不良事件可归因于使用错误,而非设备本身的硬件故障。这些错误往往源于用户界面设计缺陷,例如:标签信息模糊、操作流程复杂、警报系统混乱等。因此,可用性工程不再是锦上添花的“加分项”,而是关乎患者安全、企业法律风险与市场准入的“生命线”。
1.2 可用性工程与生物相容性的分野与关联
实现碳中和需要PAS 2060标准指导下的系统规划。
在医疗器械研发体系中,可用性工程与生物相容性评价(依据ISO 10993系列标准)分属两个截然不同的技术领域。生物相容性聚焦于材料与人体组织、体液的化学与生物学相互作用,评估细胞毒性、致敏、刺激等风险。而可用性工程则聚焦于用户(医护人员、患者、护理人员)与设备界面(硬件、软件、标签、说明书)的交互过程,旨在识别并降低因使用错误导致的伤害风险。
然而,在高风险器械中,两者存在深层关联。例如,一台设计不当的胰岛素泵,其显示界面字体过小(可用性问题)可能导致患者输注过量,而输注过量引发的组织损伤可能被误判为生物相容性问题。因此,对于植入式心脏起搏器、自动体外除颤器(AED)、输液泵、呼吸机等高风险设备,监管机构要求制造商在风险管理文档中明确区分“由材料引起的伤害”与“由使用错误引起的伤害”,并分别提交ISO 10993生物相容性报告与IEC 62366可用性工程报告。
1.3 本文的研究范围与产业视角
本文将从资深产业顾问的视角,系统阐述IEC 62366-1:2015框架下的核心方法论:使用规范的构建与用户界面验证/确认评估方法。文章将结合FDA、NMPA的审评要求,通过真实企业案例与数据表格,剖析如何将抽象的人因工程理论转化为可执行、可审计的研发流程。本文不讨论通用软件开发流程,而是专注于医疗器械特有的“使用风险”识别与缓解策略。
---
2. 核心概念与标准体系
2.1 IEC 62366-1:2015 的架构与关键术语
IEC 62366-1:2015 定义了一个迭代的、基于风险管理的可用性工程过程。该标准的核心逻辑可概括为:识别使用场景 → 分析使用风险 → 设计界面 → 验证/确认 → 迭代优化。其关键术语定义如下:
2.2 FDA、NMPA 与 IEC 标准的映射关系
| 术语 | 定义 | 产业解读 |
|---|---|---|
| 使用规范 | 描述预期用户、使用环境、用户任务以及用户与设备交互特征的文档。 | 可用性工程的“输入”,决定了后续所有分析的范围。 |
| 使用错误 | 用户执行任务时导致的结果与预期结果不同。 | 不一定是用户的过错,往往是界面设计未能匹配用户认知模型。 |
| 异常使用 | 用户故意忽视安全规则或绕过安全功能的行为。 | 设计中必须考虑“防错”机制,而非依赖用户培训。 |
| 关键任务 | 若执行错误或失败,可能导致不可接受伤害的任务。 | 可用性确认测试的核心对象。 |
| 形成性评价 | 在设计过程中进行的小规模、迭代式测试,用于发现问题并改进设计。 | 通常在原型阶段进行,成本低、频率高。 |
| 总结性评价 | 在最终设计完成前进行的正式测试,用于证明设备可以被预期用户安全有效地使用。 | 监管提交的关键证据,通常需要统计显著性的样本量。 |
| 监管机构 | 核心指南/标准 | 提交文档要求 | 特殊关注点 |
|---|---|---|---|
| FDA | 2016年人因工程指南;IEC 62366-1 (认可标准) | 人因工程报告 (HF Report),包含使用规范、形成性评价总结、总结性评价报告 | 强调“使用安全”而非“使用满意度”;要求明确区分“用户群体”(如:专业护士 vs 非专业家属) |
| NMPA | 《医疗器械人因设计技术审查指导原则》(2020) | 人因设计文档,包括用户特征分析、使用环境分析、任务分析、风险管理报告 | 特别要求分析中国本土用户的语言、文化、教育背景差异;要求提供中文界面验证数据 |
| 欧盟 (MDR) | IEC 62366-1:2015 + EN 62366-1:2015 | 可用性工程文件,作为技术文档的一部分 | 强调“通用安全与性能要求”(GSPR)中关于可用性的要求;需包含上市后监督(PMS)数据反馈 |
2.3 风险管理标准 ISO 14971 的衔接
可用性工程并非孤立活动,而是医疗器械风险管理(ISO 14971)的一部分。IEC 62366-1 明确指出,可用性工程过程应整合到整体风险管理流程中。具体衔接点包括:
- 风险识别:通过任务分析,识别“使用错误”这一危害源。
- 风险估计:评估使用错误发生的概率及其导致的伤害严重度。
- 风险控制:通过界面设计(如:防呆设计、强制序列、清晰反馈)来降低使用错误概率。
- 剩余风险评价:确认经过界面优化后,剩余使用风险是否可接受。
- 人口统计学特征:年龄、性别、教育水平、语言能力。
- 身体能力:视力(包括矫正视力)、听力、手部灵活性、力量。
- 认知能力:记忆力、注意力、决策能力、对技术术语的理解水平。
- 专业背景:培训经历、使用同类设备的经验、对风险的认知水平。
- 心理状态:在紧急情况下的应激反应、疲劳程度、多任务处理能力。
- 物理环境:光照条件(强光下屏幕反光?暗室中屏幕刺眼?)、噪音水平(警报声能否被听到?)、空间限制(设备放置位置是否合理?)、温度/湿度(是否影响触屏灵敏度?)。
- 社会环境:用户是否在紧急情况下独自操作?是否有旁观者干扰?是否有其他设备同时运行导致注意力分散?
- 组织环境:医院的工作流程(护士执行操作的时间窗口)、家庭中的作息规律(夜间使用是否影响睡眠)。
- 环境噪音:急诊科平均噪音为65-70分贝,高峰时超过80分贝。因此,原设计的50分贝报警音完全无法被听见。
- 光照变化:护士在快速推车移动时,会经历从明亮走廊到昏暗病房的光照突变,导致屏幕内容短暂不可读。
- 分心因素:护士在操作输液泵时,平均每40秒会被打断一次(接电话、回答患者问题)。
- 任务描述:用户需要做什么?
- 操作频率:是高频操作(如:每日设置)还是低频操作(如:年度维护)?
- 任务关键性:该任务的失败是否会导致严重伤害?
- 潜在使用错误:用户可能会如何做错?错误的原因是什么?(感知错误、认知错误、动作错误)
- 现有控制措施:当前设计有哪些防错机制?
- 认知走查(Cognitive Walkthrough):由人因专家模拟用户,逐步骤检查界面是否符合用户的“目标-行动-反馈”认知模型。
- 专家评审(Heuristic Evaluation):基于尼尔森可用性原则(如:一致性、错误预防、可见性等),由2-3名专家对界面进行系统检查。
- 快速原型测试:使用纸质原型、可交互的Figma/Sketch模型或低代码原型,邀请5-8名代表用户进行任务操作,观察其行为并记录错误。
- 信息架构测试:测试用户能否在标签、说明书、或屏幕上快速找到所需信息。
- 第一轮(纸质原型):发现用户普遍无法理解“添加记录”图标(一个加号),误认为是“新建用户”。改进:改为“+”号旁边加文字“测血糖”。
- 第二轮(高保真原型):用户在绑定蓝牙时,因APP未提供“搜索设备”进度条,导致用户以为手机死机。改进:增加“正在搜索设备...”动画及超时提示。
- 第三轮(测试版):用户在夜间低血糖报警时,APP的“确认”按钮太小,导致用户多次点击失败。改进:将按钮面积扩大至44x44像素以上,并增加“摇一摇手机”关闭报警的备用方式。
- 样本量要求:FDA通常要求每个用户群体至少15名代表用户,以检测出90%以上的可用性问题(基于统计学原理)。对于高风险设备,可能需要更多用户(如30-50名)。
- 测试环境:必须在模拟真实使用环境的实验室中进行。例如,测试除颤仪时,需模拟嘈杂、混乱的急救现场;测试家用器械时,需在模拟家庭环境中进行,包括光线、噪音、空间限制。
- 数据收集:必须记录“使用错误”、“困难操作”、“接近错误”以及“用户主观反馈”。视频录像和眼动追踪是常用工具。
- 通过标准:设备必须证明,在预期使用条件下,所有“关键任务”的“使用错误率”低于预定的可接受标准。通常,对于可能导致严重伤害的任务,错误率应为0%。
- 原有设计主要面向欧美用户,界面为英文,按键标识采用图标(如:一个圆形箭头代表“循环”),中国老年用户难以理解。
- 报警音设计参照欧洲标准,频率较高,部分中国老年患者反映“刺耳且造成焦虑”。
- 缺乏针对中国家庭使用环境的任务分析数据。
- 用户特征重分析:A公司招募了30名中国COPD患者(年龄60-80岁,农村及城市各半)进行访谈和观察。发现:农村患者对“图标”的理解远低于文字;超过60%的患者需要戴老花镜操作;多数患者将“压力”和“流量”参数混淆。
- 界面本土化设计:
- 将关键按键改为“中文+图标”双标识(如:“启动/停止”+ 播放/暂停图标)。
- 增加“超大字体”模式,字体放大至常规模式的1.5倍。
- 将参数显示区域分为“重要”(压力、漏气量)和“次要”(呼吸频率),用颜色区分。
- 报警系统优化:将报警音从高频(2000Hz)调整为中低频(500Hz-1000Hz),并增加“语音报警”功能(如:“请检查面罩是否漏气”)。
- 形成性评价:进行了4轮快速原型测试,共招募40名用户,迭代了20余项界面细节。
- 总结性评价:在模拟家庭环境中测试,15名用户完成所有关键任务,未出现导致伤害的严重使用错误。
- 使用规范不完整:未区分“ICU护士”和“普通病房护士”的操作差异,认为所有护士具有相同的技能水平。
- 任务分析遗漏:未分析“在患者转运过程中操作输液泵”这一高风险场景。
- 总结性评价样本不足:仅测试了10名用户,且测试环境过于理想化(安静的实验室),未模拟急诊科的真实噪音和分心情况。
- 重新构建使用规范:区分三个用户群体(ICU护士、病房护士、急救转运护士),并为每个群体建立独立的用户特征档案。
- 补充任务分析:增加“转运场景”的任务分析,识别出“管路意外脱落”、“电池电量耗尽”等关键风险。
- 重新进行总结性评价:
- 样本量从10人增加至30人(每个用户群体10人)。
- 测试环境改造:搭建模拟急诊科环境,背景噪音设置为70分贝,并安排“干扰人员”模拟护士被打断。
- 增加眼动追踪设备,分析护士在报警时的视觉注意力分配。
- 设计变更:基于新测试数据,将“转运模式”设计为独立物理按键,防止误触;电池电量低报警提前至剩余10%时发出,且不可静音。
- 自动化偏见:用户过度信任AI建议,忽略自身判断,导致“自动化偏见”错误。
- 模式混淆:用户不清楚系统当前处于“AI辅助模式”还是“人工控制模式”,导致操作失误。
- 反馈缺失:AI决策过程对用户不透明,用户无法理解系统为何做出该推荐,难以进行有效干预。
- “防错”设计优先级提升:例如,家用血压计必须自动识别袖带是否佩戴正确,并在错误时阻止测量。
- 远程指导与故障排除:设备需集成视频通话或AR远程指导功能,帮助用户解决操作问题。
- 数据解读的界面化:用户需要的是“易懂的健康建议”(如:“您的血压偏高,建议休息后复测”),而非原始数据曲线。
- 建立“可用性数据库”:将呼叫中心记录、社交媒体反馈、维修报告中的“使用错误”信息结构化。
- 定期更新使用规范:每年至少一次,根据PMS数据更新用户特征和环境分析。
- 实施“持续确认”:当发生重大设计变更或发现新的使用错误模式时,启动补充的形成性评价或总结性评价。
- 早期介入:在概念设计阶段即启动使用规范分析,而非在产品定型后补文档。
- 数据驱动:所有界面决策应基于真实用户测试数据(形成性评价),而非工程师的主观判断。
- 跨部门协作:人因工程师、工业设计师、软件工程师、法规事务人员、临床专家需组成联合团队。
- 拥抱迭代:接受“设计永远有改进空间”的理念,将可用性工程视为一个持续循环,而非一次性项目。
- U.S. Food and Drug Administration (FDA). (2016). Applying Human Factors and Usability Engineering to Medical Devices.
- International Electrotechnical Commission (IEC). (2015). IEC 62366-1:2015 Medical devices - Part 1: Application of usability engineering to medical devices.
- International Organization for Standardization (ISO). (2016). ISO 14971:2019 Medical devices - Application of risk management to medical devices.
- 国家药品监督管理局 (NMPA). (2020). 医疗器械人因设计技术审查指导原则.
- International Electrotechnical Commission (IEC). (2016). IEC 62366-2:2016 Medical devices - Part 2: Guidance on the application of usability engineering to medical devices.
- AAMI. (2018). HE75:2008/(R)2018 Human Factors Engineering for Medical Devices.
- 企业内部研发数据与案例复盘(经脱敏处理).
---
3. 使用规范的构建:用户、环境与任务的系统化分析
3.1 用户特征分析的深度与广度
使用规范的第一部分是对“预期用户”的定义。这不仅仅是简单的“医生”或“患者”,而是需要多维度的深度刻画。根据FDA指南,用户特征分析应至少涵盖以下维度:
案例:某款家用无创呼吸机的用户特征分析
3.2 使用环境分析:从ICU到家庭场景的挑战
| 用户群体 | 典型特征 | 对设计的影响 |
|---|---|---|
| 患者(主要用户) | 年龄55-75岁,慢性阻塞性肺疾病(COPD)患者;视力可能下降;手指灵活性因长期患病而减弱;对“呼吸机”有恐惧心理。 | 要求:大字体高对比度显示;一键启动/停止;物理按键而非触屏;提供“引导式”设置流程。 |
| 家属(次要用户) | 年龄30-50岁,非医学专业;白天工作,夜间照顾患者;容易疲劳。 | 要求:清晰的状态指示灯(如:绿灯正常,红灯报警);简易的报警静音功能;远程监控APP。 |
| 呼吸治疗师(安装/维护) | 专业人员,熟悉设备参数;但时间紧迫,需快速完成设置。 | 要求:提供隐藏的“专业模式”用于参数微调;支持蓝牙数据导出。 |
企业案例:某输液泵在急诊科的使用环境分析
某国际医疗巨头在开发新一代输液泵时,对急诊科进行了实地观察。他们发现:
设计改进:基于上述观察,该公司将报警音提升至75分贝且采用“渐强”模式;屏幕采用自动亮度调节并增加“高对比度”模式;操作流程设计为“可中断后恢复”,即护士被打断后,设备能保存当前步骤,无需重新开始。
3.3 任务分析:识别关键任务与使用错误
任务分析是使用规范的核心。通常采用 层级任务分析(Hierarchical Task Analysis, HTA) 方法,将用户操作分解为“目标→任务→子任务→动作”。对于每个子任务,需要分析:
通过ISO 13485认证,企业质量管理能力达到国际水平。
| 任务步骤 | 子任务 | 潜在使用错误 | 错误后果 | 风险等级 (严重度×概率) |
|---|---|---|---|---|
| 1. 准备药物 | 从药瓶中抽取胰岛素 | 抽取空气而非药物;剂量计算错误 | 低血糖或高血糖昏迷 | 严重 × 高 |
| 2. 连接管路 | 将输液管插入泵门 | 管路未完全锁紧 | 输注中断,无报警 | 严重 × 中 |
| 3. 设置参数 | 输入输注速率 | 小数点位置错误(如:输入5.0 vs 50.0) | 药物过量 | 灾难性 × 中 |
| 4. 启动输注 | 按下“开始”键 | 未确认管路排气即启动 | 空气栓塞 | 灾难性 × 低 |
| 5. 处理报警 | 响应“阻塞”报警 | 未检查管路,直接按“静音” | 治疗中断,病情恶化 | 严重 × 中 |
---
4. 用户界面评估方法:形成性评价与总结性评价
4.1 形成性评价:迭代设计的“显微镜”
形成性评价是贯穿整个设计周期的小规模、低成本、高频率测试。其目标不是“证明”设计正确,而是“发现”设计缺陷。常见方法包括:
企业案例:某血糖仪APP的形成性评价迭代
某国内血糖仪厂商在开发配套APP时,进行了3轮形成性评价,每轮招募8名糖尿病患者。
数据支撑:经过3轮形成性评价,该APP的“关键任务完成率”从第一轮的62%提升至第三轮的94%;“严重使用错误”数量从12个降至1个。
4.2 总结性评价:监管合规的“照妖镜”
总结性评价(Summative Evaluation)是向监管机构提交的最终证据。它必须在最终设计(或接近最终设计)上进行,且测试条件应尽可能模拟真实使用环境。IEC 62366-1 和 FDA 指南对总结性评价提出了严格要求:
总结性评价测试场景设计示例(以输液泵为例)
4.3 数据驱动的决策:使用错误分析矩阵
| 测试场景 | 模拟任务 | 关键任务 | 通过标准 |
|---|---|---|---|
| 场景1:常规更换输液袋 | 1. 断开旧管路;2. 连接新管路;3. 手动排气;4. 启动输注 | 手动排气(避免空气栓塞) | 0次“未排气即启动”错误 |
| 场景2:处理高优先级报警 | 1. 识别“管路阻塞”报警;2. 查找阻塞原因;3. 解除阻塞;4. 恢复输注 | 正确识别并解除阻塞 | 0次“错误地按静音后离开”错误 |
| 场景3:紧急参数修改 | 1. 医生口头要求更改速率;2. 在界面中找到修改入口;3. 输入新速率;4. 确认修改 | 输入速率(避免小数点错误) | 小数点错误率 ≤ 1% |
| 测试编号 | 用户ID | 任务 | 观察到的行为 | 错误类型 | 根本原因分析 | 对患者影响 | 风险等级 | 改进措施 |
|---|---|---|---|---|---|---|---|---|
| 1 | P05 | 设置速率 | 用户输入“5.0”,但系统默认单位是“ml/h”,用户实际想输入“50 ml/h”。 | 认知错误 (单位混淆) | 输入字段未显示单位;屏幕上的“ml/h”字体太小 | 药物输注不足 | 严重 | 在输入框旁边用大字体显示“ml/h”;增加“确认输入”弹窗显示“您输入的是5.0 ml/h,请确认” |
| 2 | P12 | 处理报警 | 用户听到报警后,首先按下了“静音”键,然后才开始检查。 | 动作错误 (顺序错误) | 报警静音键过于突出,且未设置“必须先查看”的强制序列 | 报警可能被忽略 | 严重 | 将“静音”键设计为需要长按2秒才能生效;增加“查看报警详情”作为第一步操作 |
5. 企业实践与案例研究
5.1 案例一:某国产呼吸机企业通过NMPA人因审评
背景:一家国内呼吸机厂商(以下简称“A公司”)计划将一款无创呼吸机从CE市场拓展至NMPA注册。该公司已有成熟的技术平台,但缺乏系统的人因工程文档。
挑战:
解决方案:
结果:A公司顺利通过NMPA审评,人因工程文档一次性通过。上市后,该产品在老年患者中的“首次使用成功率”从竞品的65%提升至88%,客户投诉率下降40%。
5.2 案例二:某国际巨头输液泵的FDA 483观察项整改
背景:一家全球领先的输液泵制造商(以下简称“B公司”)在FDA现场审核中收到Form 483观察项,指出其可用性工程文档存在重大缺陷。
FDA 483核心问题:
整改措施:
PIR(消费后回收)材料在医疗器械领域应用日益广泛。
结果:B公司提交整改报告后,FDA认可其纠正措施。该案例在行业内被广泛引用,警示企业:可用性工程不是一次性的“文档作业”,而是需要深度融入研发流程的系统工程。
---
6. 挑战与未来趋势
6.1 AI技术与自主系统的可用性挑战
随着AI诊断软件、手术机器人、自主给药系统等产品的涌现,传统的人因工程方法面临挑战。AI系统的“行为”具有不确定性和不可解释性,用户(医生)难以预测AI何时会出错。这带来了新的可用性风险:
产业方向:IEC 62366系列标准正在修订,预计将增加对“机器学习医疗设备”的可用性要求。制造商需设计“可校准信任”的界面,例如:明确显示AI的置信度、提供“否决AI建议”的便捷入口、在AI无法决策时清晰告知用户。
6.2 远程医疗与家庭使用的普及
后疫情时代,远程监测设备和家用医疗器械的爆发式增长,对可用性工程提出了新要求。用户群体从“受过专业训练的医护人员”转变为“缺乏医学知识的患者和家属”。这要求界面设计必须极度简化、容错性极高。
GRS认证验证产品中回收材料的比例和来源。
6.3 法规的持续演进:IEC 62366-2 与上市后监督
IEC 62366-2:2016 提供了可用性工程过程的实施指南,而未来的趋势是将可用性工程与上市后监督(PMS)紧密结合。监管机构要求制造商持续收集用户反馈、投诉、不良事件,并利用这些数据更新使用规范和风险管理文档。
企业行动建议:
---
7. 结论:构建以用户为中心的风险控制体系
IEC 62366-1 提供的不仅是一套方法论,更是一种“以用户为中心”的设计哲学。对于医疗器械制造商而言,将可用性工程从“合规负担”转化为“竞争优势”,需要做到以下几点:
在全球医疗器械监管日益严格的背景下,系统、严谨的可用性工程实践,是降低产品上市风险、减少召回损失、最终保障患者安全的唯一可靠路径。制造商必须认识到,一个设计精良的界面,比任何用户培训都更能有效防止使用错误。
---
参考来源: