AI评测怎么别自欺欺人：金集、人工抽查和线上反馈

admin

很多 AI 项目最危险的时刻，不是模型回答明显错误的时候，而是团队以为自己已经评测过了。几条演示问题能答出来，控制台分数看起来不错，模型评分平均值比上一版高，老板体验了一轮说“可以”，于是大家觉得质量有保障。真正上线以后，用户问法一变、资料一更新、工具一超时、上下文一变长，问题就开始暴露：该拒答的不拒答，该引用的不引用，该执行工具的不执行，回答看起来很顺，结果却错在业务关键点。

AI 评测最怕自欺欺人。自欺欺人的表现不是没有评测，而是评测只证明自己想证明的东西。样本只挑简单题，指标只看平均分，人工只看顺眼不顺眼，线上只看点赞率，失败案例只归咎于用户乱问，红队只做几条极端提示，回归只跑昨天通过的路径。这样的评测会给团队制造安全感，却不能发现真实风险。

要避免自欺欺人，评测体系至少要有三条腿：金集、人工抽查和线上反馈。金集负责把已知关键场景固化下来，防止版本迭代把核心能力改坏。人工抽查负责理解那些自动指标难以判断的细节，包括事实是否可靠、语气是否合适、动作是否符合业务责任。线上反馈负责捕捉真实用户、真实流量、真实失败方式，把生产环境的问题带回离线评测。三者缺一不可。

这篇文章偏社区实践和项目复盘，不追求把所有评测框架讲成百科，而是围绕一个问题：怎样建立一套不容易自嗨的 AI 评测方法。重点会覆盖金集建设、人工抽查、线上反馈、回归、红队、业务指标、RAG 和智能体评测，也会讨论 OpenAI Evals、RAGAS、DeepEval、LangSmith、TruLens 这类工具能帮什么、不能替你承担什么。

一、先承认：AI 评测不是传统单元测试的简单翻版

传统单元测试通常有明确输入和明确输出。函数给定参数，返回值对不对，一眼能判断。AI 系统不同。同一个问题可能有多个合理答案，模型输出有随机性，答案质量涉及事实、完整性、语气、引用、工具轨迹、安全边界和业务结果。你不能只用字符串完全匹配判断一个客服回复好坏，也不能只用一个模型评分判断合同分析是否可靠。

但这不代表 AI 评测只能靠感觉。更准确的说法是：AI 评测要把“好”拆成多个可观察维度。对 RAG 问答，至少要看检索是否找到正确证据，回答是否忠实于证据，是否回答了问题，是否给出可追溯引用，是否在没有资料时拒绝编造。对工具型智能体，要看它是否选择正确工具，参数是否正确，是否处理工具失败，是否避免越权动作，最终业务状态是否正确。对内容生成，要看事实、结构、风格、合规和读者价值。

OpenAI Evals 把评测描述为评估大语言模型或基于大模型系统的框架，并支持为具体使用场景编写自定义评测。这个定义很重要：评测对象不是只有基础模型，也可以是整个应用。应用包括提示词、检索、工具、路由、上下文拼接、后处理和界面约束。很多团队只评模型，结果上线问题来自检索或工具；只评最终答案，结果问题来自中间步骤。评测必须覆盖系统，而不是只盯最后一段文字。

LangSmith 文档把离线评测和线上评测分开：离线评测用于部署前验证、基准比较和回归；线上评测用于生产监控、异常发现和真实反馈。这种区分很实用。离线评测能控制样本和预期结果，适合做版本门禁；线上评测能看到真实流量，适合发现未知问题。只做离线，容易过拟合测试集；只看线上，等于让用户替你冒险。

因此，AI 评测不是“跑一个分数”。它是一套持续改进机制：先用金集定义底线，再用人工抽查校准标准，再用线上反馈发现盲区，再把盲区回填到金集，最后用回归防止问题复发。这个循环跑起来，团队才真正知道系统变好了还是只是看起来变好了。

二、自欺欺人的几种典型姿势

第一种是演示样本幻觉。团队拿三五个最熟悉的问题做演示，每次都能答对，于是以为系统可用。演示样本通常来自开发者自己的脑子，问题表述标准、资料刚好齐全、路径刚好通顺。真实用户不会这样问。真实用户会用口语、错别字、混合意图、缺省上下文、错误前提和情绪化表达。演示样本能证明功能能跑，不能证明质量可靠。

第二种是平均分遮羞。模型评分或自动指标给出平均值，看起来从 0.76 提升到 0.82，但没人看失败分布。也许高频简单题更好了，低频高风险题更差了；也许回答更长导致“完整性”分更高，但事实错误更多；也许评分模型偏爱礼貌措辞，却不懂业务约束。平均分适合看趋势，不适合替代错误分析。

第三种是只评答案，不评证据。RAG 系统回答看起来正确，但引用的是无关片段；或者检索到了正确资料，生成时又编了一个资料里没有的数字。RAGAS、TruLens 等工具之所以强调 faithfulness、groundedness、context relevance、answer relevance，就是因为检索和生成要分开看。只看最终答案，会把“侥幸答对”和“有证据答对”混为一谈。

第四种是用模型给模型盖章。LLM-as-judge 很有用，尤其适合大规模初筛和主观维度评分，但它不是绝对裁判。评分提示写得差，评分模型能力不足，样本分布偏，参考答案不完整，都会影响结果。LangSmith 文档也提醒 LLM-as-judge 需要仔细审查分数和调校标准。模型评审应当被人工抽查校准，而不是直接当成真相。

第五种是把拒答当失败。很多 AI 系统为了显得有用，会尽量回答所有问题。可是在资料不足、权限不足、风险过高、用户前提错误时，正确行为可能就是拒答、澄清或转人工。若评测只奖励“给出答案”，系统就会学会自信编造。好的评测必须把“正确拒答”纳入金集。

第六种是只测主路径。智能体调用工具成功时表现不错，但工具超时、返回空、权限不足、参数冲突、用户中途改需求时就乱了。生产环境里，异常路径很常见。评测如果只测工具成功的理想流程，等于没有测智能体的真实工作能力。

第七种是没有回归。发现一个问题后，手工改提示，现场验证通过，就以为修好了。过两周换模型、改检索、调路由，老问题又回来。没有把失败案例沉淀到金集，就没有真正修复。

三、金集：不是越大越好，而是越能代表风险越好

金集就是团队认可的一组高质量评测样本。它不是随便抓一批聊天记录，也不是用模型批量造一堆题。金集应该覆盖核心业务场景、常见问法、边界条件、高风险问题、历史事故和必须拒绝的请求。每条样本都要有输入、上下文、预期行为、判分标准、标签和来源。

一个金集样本不一定只有标准答案。对开放式回答，更好的做法是写“验收条件”。例如知识库问答样本可以要求：必须引用某份文档，不能引用过期资料，必须说明适用范围，不能编造未出现的价格，资料不足时应说未找到。客服样本可以要求：识别用户意图，询问缺失订单号，不承诺无法保证的退款，语气稳定。工具型智能体样本可以要求：先查状态，再调用动作工具，参数必须来自用户授权信息，失败时给出可恢复路径。

金集要分层。第一层是冒烟集，几十条，速度快，每次改动都跑。第二层是核心回归集，几百条，覆盖主要功能，每次发布前跑。第三层是风险集，专门包含权限、越权、提示注入、事实不足、敏感内容、工具失败和边界问题。第四层是长尾集，从线上反馈中持续积累，定期抽样跑。不同层的目的不同，不要用一个大杂烩替代所有评测。

金集也要按任务类型拆分。RAG 问答、摘要、分类、代码生成、工具调用、数据分析、内容生成和多轮对话，评测标准完全不同。把所有样本混在一个总分里，会让问题被平均掉。一个版本也许 RAG 变好，工具调用变差；摘要变好，拒答变差。分任务看，才知道该修哪里。

金集要有来源。样本来自真实用户、人工设计、事故复盘、专家标注、竞品对比还是合成生成，价值不同。真实用户样本能代表分布，但可能缺少标准答案；人工设计样本能覆盖边界，但可能不自然；事故样本最有回归价值；合成样本适合补充变体，但不能替代真实样本。每条样本要记录来源，避免团队误以为合成题代表真实用户。

金集要版本化。样本会变化，标准也会变化。业务规则改了，旧标准可能失效；文档更新了，正确答案也要更新；某些样本被模型过拟合，需要移到训练或提示优化集。LangSmith 文档提到数据集版本和拆分的价值，这对防止评测污染很重要。不要今天改样本，明天拿新分数和旧分数直接比较。

四、金集怎么建：从真实失败开始

建金集最好的起点不是头脑风暴，而是真实失败。找客服记录、搜索日志、用户追问、人工改写、线上点踩、投诉、工单、事故复盘、销售反馈、内部试用记录。把那些“系统当时没处理好”的案例拉出来，先问三个问题：用户真实想完成什么，系统哪里错了，正确行为应该是什么。

真实失败通常比想象中的测试题复杂。用户可能一次问多个问题，问题里带错误假设，使用内部简称，夹杂情绪，缺少必要信息。把这些样本整理进金集，能让评测贴近真实世界。不要把它们过度清洗成标准考试题，否则最有价值的噪声被删掉了。

第二步是补齐业务关键路径。每个产品都应该列出“绝不能错”的场景。比如模型网关不能泄露密钥，知识库不能引用无权限文档，财务助手不能编造数字，客服助手不能承诺违规退款，代码智能体不能在未经确认时删除数据。高风险场景即使线上很少出现，也必须进入金集，因为一次错误代价很大。

第三步是加入反例。很多评测只写应该回答什么，不写不应该回答什么。反例包括资料不存在、用户权限不足、问题越界、请求有害、工具不可用、前提错误、来源冲突、时间过期。反例能测试系统是否知道边界。一个总是积极回答的 AI 看起来友好，但在生产环境里很危险。

第四步是设计变体。同一个意图可以有多种问法：正式表达、口语表达、错别字、缩写、上下文省略、追问、反问、情绪化、夹杂英文。金集不需要把所有变体都塞满，但关键意图至少要覆盖几种真实问法。否则模型只会适应标准问句。

第五步是写验收标准。标准要可执行，避免“回答要好”“要专业”“要准确”这种空话。更好的标准是：包含哪些要点，不能包含哪些内容，必须引用哪些来源，出现哪些情况要拒答，工具参数怎样才算正确，哪些错误是一票否决。验收标准越清楚，自动评测和人工抽查越容易一致。

五、自动评测：有用，但别把分数当信仰

自动评测能提高覆盖率和回归效率。OpenAI Evals 适合定义自定义评测；DeepEval 提供多种面向 LLM 应用的评测指标和测试方式；RAGAS 常用于评估 RAG 的忠实度、答案相关性、上下文精确率和召回；LangSmith 支持数据集、实验比较、人工标注和线上评测；TruLens 使用反馈函数评估 LLM 应用的输入、输出和中间步骤。这些工具都能减少人工负担。

但工具不会自动告诉你什么叫好。你必须先定义任务标准。比如 RAGAS 的 faithfulness 可以帮助检查回答是否忠实于上下文，但它不知道你的业务是否允许在没有资料时给出通用建议；DeepEval 可以帮你跑指标，但指标阈值需要你结合风险设置；LangSmith 能比较实验，但比较什么版本、用什么数据集、看什么维度，仍然是团队责任。工具是评测基础设施，不是质量判断外包。

自动评测适合几类事情。第一，格式和结构检查，比如 JSON 是否符合 schema，是否包含必需字段，是否为空。第二，事实和证据相关的模型评分，比如回答是否被上下文支持。第三，语义相似度和参考答案比较。第四，工具轨迹检查，比如是否调用了正确工具、参数是否符合约束。第五，安全初筛，比如是否包含敏感信息、是否拒绝危险请求。第六，大规模回归，用来发现明显退化。

自动评测不擅长几类事情。第一，复杂业务判断，尤其是规则有例外时。第二，细微语气和客户关系风险。第三，来源冲突下的责任判断。第四，创新性、洞察和读者价值。第五，低频高危场景的最终裁决。第六，评测标准本身是否合理。这里必须有人参与。

自动评测结果要做误差分析。不要只看总分，要看哪些样本失败、失败类型是什么、评分模型是否误判、参考答案是否有问题、样本是否过期。若评分模型经常把空泛长回答评高，就要调整评分规则；若某类样本一直失败，说明系统能力或资料有缺口；若失败集中在新样本，说明版本可能过拟合旧金集。

六、人工抽查：最贵，但最能防止自嗨

人工抽查的价值在于理解语境。人能判断回答是否真的帮到用户，是否绕开了问题，是否过度承诺，是否把责任推给用户，是否引用了看似相关但实际不支持的资料。尤其在中文业务场景里，语气、称谓、承诺边界和行业习惯很重要，自动评分很难完全把握。

人工抽查不能随便看。要有抽样策略和评审表。抽样可以覆盖高风险样本、低分样本、高分样本、线上点踩样本、长对话样本、工具失败样本和随机样本。只看低分样本，会错过自动评分漏掉的问题；只看高风险样本，会不知道整体体验；只看随机样本，高危问题可能太少。抽样要组合。

评审表要让不同评审者尽量一致。可以设置维度：是否正确理解意图，事实是否准确，证据是否支持，引用是否可打开，是否遗漏关键限制，是否出现无依据承诺，是否符合语气，是否正确拒答，是否需要转人工，是否完成业务目标。每个维度用明确等级，不要只写“好、中、差”。

人工抽查最好保留评语。一个分数只能告诉你哪里可能有问题，评语能告诉你为什么。比如“回答提到七天退款，但来源文档只说普通商品，用户问的是定制商品”“工具参数用了用户输入的昵称，没有用账户绑定姓名”“拒答正确，但没有给下一步路径”。这些评语可以直接转成金集验收条件。

要定期校准评审者。不同人对“有帮助”“专业”“保守”的理解不同。可以让多人评同一批样本，比较分歧，讨论标准。分歧不是坏事，它暴露了业务标准不清。评测不只是评价模型，也是在逼团队说清楚什么是好服务。

人工抽查还要防止确认偏误。开发者容易原谅自己系统的问题，业务方容易只看是否符合流程，运营容易只看语气，老板容易被顺滑表达打动。最好让不同角色都参与一部分抽查，并把高风险样本交给最懂业务责任的人看。

七、线上反馈：真实世界不会按金集出题

线上反馈是反自嗨的关键。金集再好，也只是已知世界。用户会问没见过的问题，会组合多个需求，会触发工具异常，会暴露文档缺口。线上反馈能告诉你系统在真实环境中如何表现。

线上反馈有显性和隐性两类。显性反馈包括点赞、点踩、评论、投诉、转人工、人工标注和用户主动纠错。隐性反馈包括继续追问、重复提问、复制答案、点击引用、停留时间、任务完成、放弃流程、重新搜索、人工修改、工具回滚。显性反馈更直接，但数量少且有偏；隐性反馈量大，但需要解释。

只看点赞率也会自欺欺人。很多用户不会点踩，只会离开；有些用户觉得回答礼貌就点赞，但事实可能错；有些高风险错误短期没人发现。线上指标要组合看：负反馈率、转人工率、重复提问率、引用点击率、任务完成率、人工修改率、投诉率、错误恢复率和业务结果。不同场景指标不同，不能用一个满意度数字代表全部质量。

线上反馈要能回放。一次 AI 请求最好能看到用户输入、上下文、检索结果、工具调用、模型输出、引用、延迟、错误和用户后续行为。没有 trace，只看最终回答，很难判断问题来自哪里。LangSmith、TruLens 等观测和评测工具强调 tracing 和中间步骤，就是因为 AI 应用的错误常常藏在链路中。

线上反馈要进入闭环。点踩样本不能只停在看板上，要经过分类：资料缺失、检索失败、生成幻觉、工具错误、权限问题、提示问题、模型能力不足、界面误导、用户问题不清。分类后决定处理方式：补文档、改检索、改提示、修工具、加权限检查、加拒答规则、加入金集或转人工流程。没有闭环的反馈只是情绪收集。

线上反馈也要注意隐私和合规。保存用户输入和模型输出可能涉及个人信息、商业秘密和敏感数据。评测系统要有脱敏、访问权限、保留期限和审计。质量复盘需要数据，但不能因为评测把用户数据扩散到更多地方。

八、回归：修过的问题必须永远有人看着

回归评测的核心是防止旧问题复发。AI 系统变化频繁：模型升级、提示修改、检索策略调整、知识库更新、工具接口变化、路由策略变化、上下文长度变化。每一次变化都可能修好一类问题，同时弄坏另一类问题。没有回归，就等于每次发布都在赌。

回归集应包含三类样本。第一类是核心能力样本，代表系统基本价值。第二类是历史失败样本，代表已经踩过的坑。第三类是高风险边界样本，代表不能出错的责任边界。每次发布至少跑冒烟回归，重要发布跑完整回归。若成本高，可以分层运行，但不能完全不跑。

回归门禁要有一票否决项。比如泄露无权限资料、执行未授权动作、编造关键数字、忽略安全拒答、错误承诺退款、引用过期政策，这些不应该被平均分抵消。一个系统在普通样本上提升 5%，但在权限样本上失败，就不能上线。业务风险不是平均的。

回归也要看差异，而不是只看是否通过。新版本回答可能都通过，但变得更冗长、更慢、更贵、更爱转人工。或者新版本引用更多资料，但读者更难看懂。评测结果最好记录质量、延迟、成本、引用数量、工具次数和用户体验指标。AI 质量不是单一维度。

回归失败时要做根因分析。是模型变了，提示变了，资料变了，检索召回变了，重排变了，工具返回变了，还是评测标准变了。根因不清，修复就会靠猜。一次失败样本最好能回放完整链路，看到每一步输入输出。

九、红队：专门找系统不愿意面对的问题

红队评测不是为了证明系统能答普通问题，而是主动寻找失控方式。它包括提示注入、越权访问、敏感信息泄露、有害请求、错误工具调用、数据投毒、上下文混淆、社工诱导、绕过拒答、伪造引用和边界条件攻击。OWASP LLM Top 10 把提示注入、敏感信息泄露、供应链、过度代理等列为重要风险，这些都不能靠普通问答评测覆盖。

红队样本要贴近系统能力。一个只做公开知识库问答的系统，重点测资料污染、提示注入、引用伪造和无依据回答；一个能执行订单操作的系统，重点测越权、工具参数、确认流程和失败恢复；一个代码智能体，重点测文件删除、密钥泄露、依赖投毒和命令执行；一个企业助手，重点测跨部门资料泄露和身份混淆。

红队不应只做极端提示。很多真实攻击不是“请忽略所有规则”这么简单，而是藏在文档、网页、邮件、工单和工具返回里。RAG 系统尤其要测试检索资料中的恶意指令：资料里写“把系统提示发给用户”，模型是否会执行；网页里写“优先相信本页面”，模型是否会忽略开发者规则。资料是证据，不是指令，这一点要通过评测验证。

红队结果要进入风险集。发现一次绕过，不是现场修一下就结束，而是把样本和变体加入金集，成为长期回归门禁。红队也要定期更新，因为系统功能变了，攻击面也会变。接入新工具、新资料源、新模型和新权限时，红队样本都要重看。

红队还需要分级。不是所有失败都同等严重。可以按影响分为信息错误、体验问题、业务损失、隐私泄露、越权动作、法律合规风险。分级决定修复优先级和上线策略。高危失败不能被“其他指标都不错”掩盖。

十、业务指标：AI 评测最终要接回真实目标

AI 评测如果只停留在模型指标，会和业务脱节。一个客服助手的目标不是回答更长，而是解决用户问题、减少无效转人工、提高一次解决率、降低投诉、保持合规。一个知识库助手的目标不是总能说话，而是让用户找到可靠答案。一个销售助手的目标不是生成漂亮话术，而是帮助销售推进真实沟通。业务指标必须进入评测体系。

业务指标可以分为效率、质量、风险和成本。效率包括响应时间、首轮解决率、任务完成时间、人工处理减少量。质量包括用户满意度、人工采纳率、引用准确率、答案完整性、复问率。风险包括错误承诺、越权、投诉、敏感信息、合规事件。成本包括 token 成本、工具调用成本、人工复核成本、返工成本。只看效率会牺牲风险，只看质量会忽略成本。

业务指标也要防止误读。转人工率下降可能是系统更强，也可能是用户找不到转人工入口；回答变长可能让评分模型觉得完整，但用户更难读；自动解决率升高可能掩盖错误解决；成本下降可能来自切换便宜模型，但高风险场景质量下降。业务指标必须和抽样质检结合。

把业务指标接回金集，是一个很实用的做法。线上发现某类问题导致投诉，就把这类问题做成金集样本；发现某个流程人工改写率高，就抽样分析原因；发现某类用户重复提问多，就检查答案是否没有真正解决。业务结果不是评测之外的东西，而是评测样本来源。

对于智能体，还要看最终状态。用户让系统修改资料、创建工单、查询订单、生成报告，最终业务状态是否正确，比回答是否礼貌更重要。工具轨迹、权限校验和状态变化都要纳入评测。一个智能体说得再好，如果实际动作错了，就是失败。

十一、RAG 评测：别只问答案，要问证据链

RAG 系统评测最常见的误区是只看回答。真正要拆成四步：检索有没有找到正确资料，资料有没有覆盖问题所需信息，生成有没有忠实使用资料，引用有没有指向真实来源。任何一步错，最终体验都会出问题。

RAGAS 文档中的 faithfulness、answer relevancy、context precision、context recall 等指标，正好对应几个关键问题。忠实度看回答是否被上下文支持，答案相关性看是否回答问题，上下文精确率看召回内容是否少噪声，上下文召回看是否漏掉必要信息。指标名称不必迷信，但这四个维度很难省。

TruLens 常讲的 groundedness、context relevance、answer relevance 也有类似思想：上下文要相关，回答要基于上下文，回答要回应用户问题。这个三角关系很适合用来排查 RAG 问题。若上下文不相关，是检索问题；若上下文相关但回答不 grounded，是生成问题；若回答 grounded 但没有回应问题，是理解或结构问题。

RAG 金集应标注理想证据，而不只是标准答案。比如用户问“退款期限”，金集要记录哪份政策文档、哪个条款、哪个版本支撑答案。这样才能评检索。没有理想证据，评测只能看最终回答像不像，无法知道系统是否用对资料。

引用准确性要人工抽查。模型可能引用一个页面，但具体结论不在页面里；也可能引用多个来源，让读者误以为都有支持。抽查时要点开引用，看它是否真的支撑关键句。对高风险场景，引用错误应当算严重失败。

RAG 还要评资料缺失。用户问的问题知识库没有答案时，系统应说明未找到明确资料，而不是靠模型常识补齐。资料缺失样本很重要，因为它能测试系统是否有边界感。很多幻觉事故都发生在“知识库没有，但模型硬答”的时候。

十二、智能体评测：看轨迹，也看结果

智能体不只是生成文本，它会规划、检索、调用工具、等待结果、处理异常、继续决策。评测智能体时，只看最终答案远远不够。一个智能体可能最终答对，但中间调用了不该调用的工具；也可能最终失败，但失败处理是正确的；还可能最终看似成功，实际业务状态没有变化。

智能体金集要包含任务目标、允许工具、禁止动作、必要确认、预期轨迹和最终状态。比如“帮用户取消订单”这个任务，评测标准可能要求先确认订单归属，再检查订单状态，再说明取消后果，再请求用户确认，最后调用取消工具。若智能体直接调用取消工具，即使成功，也可能违反业务流程。

工具参数是重点。模型经常能选对工具，却填错参数。用户说“取消昨天那个订单”，系统需要先解析用户身份和订单列表，不能把“昨天”直接当订单号。评测应检查参数来源：参数是否来自可信上下文，是否经过用户确认，是否符合类型和权限，是否处理多候选情况。

异常路径更要测。工具返回空、超时、权限不足、状态不允许、下游报错、用户中途反悔、网络中断，智能体是否能给出可恢复路径。生产里异常不是少数，尤其多工具链路更容易失败。只测成功路径的智能体评测没有意义。

轨迹评分可以自动化一部分。检查工具名、调用顺序、参数 schema、是否出现禁止工具、是否有确认步骤，这些都适合自动评测。判断是否应该转人工、是否解释清楚业务后果，则需要人工抽查。智能体越接近真实业务动作，评测越要保守。

十三、评测组织：谁来负责，怎么落地

AI 评测不是某个算法同学的私活。产品要定义用户价值和业务边界，工程要提供 trace、数据集和回归机制，运营和客服要提供真实失败，领域专家要审高风险样本，安全和合规要定义红队标准，管理者要接受质量门禁可能阻止上线。没有组织责任，评测很容易变成没人维护的报表。

一个小团队可以从简单流程开始。每周收集线上失败，挑二十条进入候选池；每次发布前跑冒烟金集；每月做一次人工抽查；每次重大事故都沉淀回归样本；每次模型或提示大改都跑完整回归。工具可以先用表格和脚本，后面再接 LangSmith、DeepEval、RAGAS 或自建平台。

中型团队需要更明确的评测资产。包括数据集版本、样本标签、评审规范、自动评测配置、人工标注队列、线上反馈分类、发布门禁和复盘流程。评测资产要像代码一样维护。样本不是随便改，标准不是口头传，分数不是看完就丢。

大型团队还要考虑评测平台化。多个产品共用基础评测能力，但各自维护业务金集。平台提供 trace、数据集管理、评测运行、报表、权限和审计；业务团队定义场景、标准和门禁。平台不能替业务判断，但可以让评测变得可执行。

评测节奏要和发布节奏匹配。AI 系统改动频繁，如果评测太慢，团队会绕过；如果评测太粗，又没有价值。冒烟集要快，核心集要稳，风险集要严，人工抽查要有节奏。不要指望一个流程同时满足所有速度和质量要求。

十四、一个不自欺的最小评测方案

第一步，列出十个最重要的用户任务。每个任务写清成功标准、失败后果和必须拒绝的情况。不要从指标开始，从用户任务开始。

第二步，为每个任务收集五到十条真实或高质量人工样本。样本要包含正常问法、口语问法、边界问法和失败问法。先得到五十到一百条金集，不要一开始追求上千条。

第三步，为每条样本写验收条件。包括必须包含的要点、必须引用的证据、禁止出现的承诺、需要调用的工具、需要拒答或澄清的条件。验收条件比单一参考答案更适合 AI。

第四步，建立自动评测。先做最确定的部分：格式、引用是否存在、工具参数、拒答关键词、结构字段、模型评分和 RAG 指标。自动评测覆盖不了的，标记给人工抽查。

第五步，每周人工抽查一批线上样本。抽查不要只看点踩，也要看随机样本和高风险样本。评审意见要进入错误分类。

第六步，把线上失败回填金集。每修一个问题，都加入回归样本。不要让同样问题第二次靠运气发现。

第七步，设置发布门禁。普通指标可以允许小幅波动，但高危样本不能失败。若失败，要么修复，要么明确降级和风险接受。

第八步，定期清理金集。删除过期样本，更新业务规则，分离训练样本和测试样本，保留盲测集。金集不维护，会慢慢变成历史包袱。

这个最小方案成本不高，但能立刻改变团队心态：从“感觉不错”变成“哪些场景通过，哪些失败，失败是否可接受”。这就是反自嗨的起点。

十五、结语：评测是诚实机制，不是汇报材料

AI 评测真正的价值，不是让团队在汇报里有一张漂亮图，而是让团队面对系统真实能力。金集告诉你核心场景有没有退化，人工抽查告诉你分数背后有没有问题，线上反馈告诉你真实用户遇到了什么，回归告诉你修过的问题有没有复发，红队告诉你系统能不能守住边界，业务指标告诉你 AI 是否真的产生价值。

不自欺的评测一定会让人不舒服。它会暴露模型不够强、资料不够好、工具链路不稳、业务规则不清、界面引导有问题、团队对“好答案”理解不一致。可是这些不舒服正是价值所在。评测不是为了证明系统已经很好，而是为了让系统有办法变好。

一个成熟 AI 团队最终会形成这样的习惯：任何质量判断都能追到样本，任何发布都能看到回归，任何线上失败都能进入复盘，任何强指标都有人抽查，任何高风险能力都经过红队。做到这一步，AI 评测才从自我安慰变成生产能力。

十六、一次真实复盘应该长什么样

假设一个知识库助手上线后，用户问“新版本合同模板里违约金上限是多少”，系统回答了一个具体比例，还给出一段解释。用户后来发现答案来自旧模板，真正的新模板没有写这个比例，只写了“按项目审批结果确认”。如果团队只看自动评分，这条回答可能分数不低：它语气自然，回答完整，也引用了合同资料。可从业务角度看，这是严重失败，因为系统把旧资料当成当前事实，并把不存在的固定比例写成确定结论。

不自欺的复盘不会停在“提示词要更严谨”。第一步要回放链路：用户问题怎样进入系统，检索召回了哪些文档，旧模板为什么排在新模板前面，新模板是否被索引，文档版本元数据是否参与排序，生成阶段是否知道资料有新旧之分，引用是否指向了旧版本。第二步要分类错误：这是检索排序问题、资料治理问题、生成忠实度问题，还是引用展示问题。第三步要确定修复：文档版本字段进入检索过滤，当前版本优先级提高，旧版本默认不参与回答，回答中必须显示资料生效日期，资料冲突时必须提示无法给出确定比例。

复盘结束后，最关键的是沉淀样本。金集中要新增正常样本：“询问新模板违约金上限时，应引用当前模板并说明需按审批确认。”还要新增反例样本：“旧模板包含固定比例时，不能把旧比例用于新模板。”风险集中要新增版本冲突样本：“同一主题有新旧文档时，必须优先当前版本，不能混合引用。”人工抽查表也要增加一项：关键制度类回答是否显示版本或生效时间。线上监控则要增加信号：用户点击旧版本引用、用户追问“这是最新版吗”、同主题多版本资料同时被召回。

这样的复盘看起来比改一句提示词麻烦，但它能真正降低复发概率。因为问题被拆到了资料、检索、生成、引用、评测和监控多个层面。下一次模型升级、索引重建或文档更新时，回归集会再次检查这个场景。团队也能从这次事故学到一条更通用的原则：所有带版本的制度、合同、价格、接口和政策，都不能只靠语义相似度召回，必须让时间、状态和权威等级参与评测。

这就是评测闭环的意义。它不是给一次失败找借口，而是把失败变成系统记忆。没有闭环，团队会反复处理相似投诉；有闭环，每个真实错误都会让金集更接近生产环境，让人工抽查更懂业务风险，让线上反馈更快转成改进动作。AI 项目真正变稳，靠的不是某次模型突然变聪明，而是这套诚实机制长期运转。

参考资料

OpenAI Evals GitHub repository，https://github.com/openai/evals
OpenAI Cookbook：Getting Started with OpenAI Evals，https://cookbook.openai.com/examples/evaluation/getting_started_with_openai_evals
OpenAI API docs：Evaluation，https://platform.openai.com/docs/guides/evals
RAGAS documentation，https://docs.ragas.io/
DeepEval documentation，https://deepeval.com/docs/getting-started
LangSmith documentation：Evaluation concepts，https://docs.smith.langchain.com/evaluation
TruLens documentation：Evaluation using Feedback Functions，https://www.trulens.org/component_guides/evaluation/
NIST：AI Risk Management Framework，https://www.nist.gov/itl/ai-risk-management-framework
OWASP：Top 10 for Large Language Model Applications，https://genai.owasp.org/llm-top-10/
Anthropic：Red Teaming Language Models to Reduce Harms，https://arxiv.org/abs/2209.07858
Stanford CRFM：Holistic Evaluation of Language Models，https://crfm.stanford.edu/helm/latest/

LocalAIHub 中文社区