一、ISO/IEC 42001:2023 9.1 标准原文
原文:组织应确定:需要监视和测量什么;需要用什么方法进行监视、测量、分析和评价,以确保有效的结果;何时实施监视和测量;何时应对监视和测量结果进行分析和评价。组织应保留文件化信息,作为结果的证据。
组织应评估人工智能管理体系的绩效和有效性。
二、条款解读说明
2.1 AI管理体系的绩效,不等于模型准确率
在人工智能场景下,一提到“监视和测量”,很多人首先想到的就是准确率、召回率、错误率、响应时间等技术指标。这些当然重要,但ISO/IEC 42001第9.1条关注的是人工智能管理体系的绩效和有效性,而不是单个模型的技术表现。因此,组织需要监视和评价的对象,既包括AI系统本身的运行表现,也包括治理机制是否真的有效,例如风险评估是否按时完成、控制措施是否被执行、用户告知是否到位、人工监督是否有效、事件是否及时闭环、供应商是否持续满足要求、培训和意识是否产生了行为改变。
如果组织只看技术KPI,就会错过很多决定AIMS成败的关键信号。一个模型可能准确率很高,但用户并不理解其适用边界;一个系统运行稳定,但人工监督长期形同虚设;一个供应商交付能力下降,却没有被监测指标及时反映出来。9.1条的意义,就在于要求组织建立一套既看技术结果、也看治理结果的评价视角。
2.2 9.1条要求组织回答的四个问题
| 问题 | 标准要求 | 在AI治理中的具体体现 | 常见输出 |
|---|---|---|---|
| 看什么 | 确定需要监视和测量什么 | 模型表现、控制执行、事件、反馈、培训、供应商等 | 指标清单 |
| 怎么测 | 确定方法 | 日志、抽样检查、数据分析、问卷、审核、人工复核 | 测量方法说明 |
| 何时测 | 何时实施监视和测量 | 实时、日常、月度、季度或事件触发 | 监测频次表 |
| 如何判断 | 何时分析和评价结果 | 何时升级、何时采取纠正措施、何时进入管理评审 | 分析评价结论 |
2.3 好的监视评价体系,必须兼顾“可操作”和“可解释”
9.1最常见的失败方式有两种。第一种是指标太少,只能看出系统是否“跑着”,看不出治理是否有效。第二种是指标太多,团队每周都在填表,但无法看出哪些变化真正重要。AI治理评价的关键,不在于指标数量,而在于能否回答关键管理问题。例如:风险在升高还是降低?控制措施是有效还是失效?新的影响正在出现还是被缓解?用户理解和接受度是否在改善?供应商和内部流程是否稳定可靠?如果指标无法帮助回答这些问题,再复杂的监测体系也只是噪声。
另外,9.1还强调“用什么方法进行监视、测量、分析和评价,以确保有效的结果”。这说明组织不仅要有数据,还要确保方法本身可靠。比如,评价模型是否公平不能只用平均准确率;评价人工监督是否有效不能只看是否存在监督岗位;评价用户告知是否到位不能只看是否有说明文案,而要看用户是否真正能获取并理解。方法选错,结果就会失真,进而误导决策。
三、实施要点
3.1 建立技术指标和治理指标的双层体系
- 技术指标可涵盖准确率、稳定性、延迟、漂移等;治理指标可涵盖风险评估完成率、控制执行率、事件闭环时效、人工监督有效性和用户反馈情况。
- 双层指标体系能避免把AIMS简化为模型性能管理。
- 对不同系统可设置不同指标组合,但都应能支撑体系有效性判断。
3.2 为关键指标定义方法、口径和阈值
- 每个核心指标都应明确数据来源、计算方式、责任人和升级阈值。
- 没有统一口径,趋势分析和跨期对比就缺乏意义。
- 评价方法一致,是9.1能否产生管理价值的前提。
3.3 把周期监测和事件触发分析结合起来
- 常规指标适合周期性跟踪,重大事件、投诉、供应商异常和模型偏移则应触发临时分析。
- 如果只依赖固定周期,很多高影响问题会被延后发现。
- 对高风险系统,应设置自动告警和人工复核双机制。
3.4 让分析评价结果能够驱动动作
- 监测结果应能明确回答是继续观察、升级处理、调整控制、启动纠正措施还是提交管理评审。
- 如果数据只停留在仪表盘上,没有后续动作,就说明9.1只做了一半。
- 分析结果驱动管理动作,才算真正完成评价。
3.5 保留结果证据并支持趋势判断
- 标准要求保留文件化信息作为结果证据,因此组织应能查看历史指标、分析结论和采取的动作。
- 趋势判断往往比单点结果更有价值,例如风险是否连续升高、事件是否反复发生、供应商表现是否长期下降。
- 趋势视角能够帮助管理层看见体系运行的真实状态。
四、常用工具与实施方法
| 工具/方法 | 适用目的 | 实施建议 | 输出成果 |
|---|---|---|---|
| AI绩效指标库 | 统一定义监视和测量对象 | 区分技术指标和治理指标 | 指标清单 |
| 监测方法说明书 | 规范数据来源和计算口径 | 为关键指标设统一定义 | 方法文档 |
| 仪表盘与例会机制 | 周期跟踪和分析评价 | 按月或按季度固定复盘 | 监测报告 |
| 事件触发分析机制 | 快速响应异常和偏差 | 与告警、投诉和内审联动 | 专题分析记录 |
| 趋势对比报表 | 观察体系长期变化 | 至少保留关键指标多期数据 | 趋势图和结论 |
五、典型案例
案例一:准确率很好,但投诉持续上升
- 背景:某AI推荐系统技术指标持续达标。
- 问题:用户投诉却连续增加,原因是结果解释不足且反馈通道不清晰。
- 改进:组织在9.1中加入用户理解度和反馈闭环指标。
- 结果:监视对象从“模型表现”扩展到“治理结果”。
案例二:只看月报,错过重大异常窗口
- 背景:团队按月统计运行情况。
- 问题:某次模型更新后的异常在两周内持续扩大,但直到月底才被正式分析。
- 改进:新增事件触发分析和关键阈值告警机制。
- 结果:高影响偏差能够被更早识别。
案例三:指标很多,但没人知道哪些最重要
- 背景:某组织建立了数十项AI指标。
- 问题:管理层每次看报告都难以抓住重点,导致评价无法支持决策。
- 改进:组织重构指标体系,保留少量关键指标并配套明确阈值和升级动作。
- 结果:监视评价真正开始服务于管理判断。
六、成文信息管理要求
9.1明确要求保留文件化信息作为结果证据。组织应能证明自己监视了什么、如何测量、何时分析、得出了什么结论,以及结论后采取了什么动作。
| 建议文件或记录 | 关键内容 | 用途 |
|---|---|---|
| 监测指标清单 | 指标名称、定义、责任人、频次 | 证明监视对象已明确 |
| 测量与分析方法说明 | 数据来源、计算口径、评价标准 | 证明方法能产生有效结果 |
| 监测结果记录 | 原始数据、趋势、异常点 | 证明监测已执行 |
| 分析评价结论 | 问题判断、升级建议、责任分配 | 证明结果被解释和评价 |
| 后续动作记录 | 纠正措施、风险处置、管理评审输入 | 证明评价结果进入治理动作 |
七、常见误区及踩坑提醒
| 误区 | 问题表现 | 正确做法 |
|---|---|---|
| 把9.1等同于模型性能统计 | 忽略治理控制和相关方反馈 | 建立技术和治理双层指标体系 |
| 指标很多但口径混乱 | 跨期结果无法比较,分析容易失真 | 统一定义方法和阈值 |
| 只定期看,不及时看 | 重大异常被延后发现 | 结合周期监测与事件触发分析 |
| 分析后没有动作 | 报告写得很好,但没有改变任何控制 | 明确结果联动路径和责任人 |
| 不保留历史结果 | 无法判断体系是在改善还是退化 | 保存趋势数据和分析记录 |