跳转至内容
  • 版块
  • 最新
  • 热门
  • 标签
  • 搜索
  • 成员
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠
LocalAIHub 中文社区

LocalAIHub 中文社区

  1. 主页
  2. AI 工程讨论
  3. AI评测怎么别自欺欺人:金集、人工抽查和线上反馈

AI评测怎么别自欺欺人:金集、人工抽查和线上反馈

已定时 已固定 已锁定 已移动 AI 工程讨论
localai
1 帖子 1 发布者 0 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • A 离线
    A 离线
    admin
    编写于 最后由 admin 编辑
    #1

    很多 AI 项目最危险的时刻,不是模型回答明显错误的时候,而是团队以为自己已经评测过了。几条演示问题能答出来,控制台分数看起来不错,模型评分平均值比上一版高,老板体验了一轮说“可以”,于是大家觉得质量有保障。真正上线以后,用户问法一变、资料一更新、工具一超时、上下文一变长,问题就开始暴露:该拒答的不拒答,该引用的不引用,该执行工具的不执行,回答看起来很顺,结果却错在业务关键点。

    AI 评测最怕自欺欺人。自欺欺人的表现不是没有评测,而是评测只证明自己想证明的东西。样本只挑简单题,指标只看平均分,人工只看顺眼不顺眼,线上只看点赞率,失败案例只归咎于用户乱问,红队只做几条极端提示,回归只跑昨天通过的路径。这样的评测会给团队制造安全感,却不能发现真实风险。

    要避免自欺欺人,评测体系至少要有三条腿:金集、人工抽查和线上反馈。金集负责把已知关键场景固化下来,防止版本迭代把核心能力改坏。人工抽查负责理解那些自动指标难以判断的细节,包括事实是否可靠、语气是否合适、动作是否符合业务责任。线上反馈负责捕捉真实用户、真实流量、真实失败方式,把生产环境的问题带回离线评测。三者缺一不可。

    这篇文章偏社区实践和项目复盘,不追求把所有评测框架讲成百科,而是围绕一个问题:怎样建立一套不容易自嗨的 AI 评测方法。重点会覆盖金集建设、人工抽查、线上反馈、回归、红队、业务指标、RAG 和智能体评测,也会讨论 OpenAI Evals、RAGAS、DeepEval、LangSmith、TruLens 这类工具能帮什么、不能替你承担什么。

    一、先承认:AI 评测不是传统单元测试的简单翻版

    传统单元测试通常有明确输入和明确输出。函数给定参数,返回值对不对,一眼能判断。AI 系统不同。同一个问题可能有多个合理答案,模型输出有随机性,答案质量涉及事实、完整性、语气、引用、工具轨迹、安全边界和业务结果。你不能只用字符串完全匹配判断一个客服回复好坏,也不能只用一个模型评分判断合同分析是否可靠。

    但这不代表 AI 评测只能靠感觉。更准确的说法是:AI 评测要把“好”拆成多个可观察维度。对 RAG 问答,至少要看检索是否找到正确证据,回答是否忠实于证据,是否回答了问题,是否给出可追溯引用,是否在没有资料时拒绝编造。对工具型智能体,要看它是否选择正确工具,参数是否正确,是否处理工具失败,是否避免越权动作,最终业务状态是否正确。对内容生成,要看事实、结构、风格、合规和读者价值。

    OpenAI Evals 把评测描述为评估大语言模型或基于大模型系统的框架,并支持为具体使用场景编写自定义评测。这个定义很重要:评测对象不是只有基础模型,也可以是整个应用。应用包括提示词、检索、工具、路由、上下文拼接、后处理和界面约束。很多团队只评模型,结果上线问题来自检索或工具;只评最终答案,结果问题来自中间步骤。评测必须覆盖系统,而不是只盯最后一段文字。

    LangSmith 文档把离线评测和线上评测分开:离线评测用于部署前验证、基准比较和回归;线上评测用于生产监控、异常发现和真实反馈。这种区分很实用。离线评测能控制样本和预期结果,适合做版本门禁;线上评测能看到真实流量,适合发现未知问题。只做离线,容易过拟合测试集;只看线上,等于让用户替你冒险。

    因此,AI 评测不是“跑一个分数”。它是一套持续改进机制:先用金集定义底线,再用人工抽查校准标准,再用线上反馈发现盲区,再把盲区回填到金集,最后用回归防止问题复发。这个循环跑起来,团队才真正知道系统变好了还是只是看起来变好了。

    二、自欺欺人的几种典型姿势

    第一种是演示样本幻觉。团队拿三五个最熟悉的问题做演示,每次都能答对,于是以为系统可用。演示样本通常来自开发者自己的脑子,问题表述标准、资料刚好齐全、路径刚好通顺。真实用户不会这样问。真实用户会用口语、错别字、混合意图、缺省上下文、错误前提和情绪化表达。演示样本能证明功能能跑,不能证明质量可靠。

    第二种是平均分遮羞。模型评分或自动指标给出平均值,看起来从 0.76 提升到 0.82,但没人看失败分布。也许高频简单题更好了,低频高风险题更差了;也许回答更长导致“完整性”分更高,但事实错误更多;也许评分模型偏爱礼貌措辞,却不懂业务约束。平均分适合看趋势,不适合替代错误分析。

    第三种是只评答案,不评证据。RAG 系统回答看起来正确,但引用的是无关片段;或者检索到了正确资料,生成时又编了一个资料里没有的数字。RAGAS、TruLens 等工具之所以强调 faithfulness、groundedness、context relevance、answer relevance,就是因为检索和生成要分开看。只看最终答案,会把“侥幸答对”和“有证据答对”混为一谈。

    第四种是用模型给模型盖章。LLM-as-judge 很有用,尤其适合大规模初筛和主观维度评分,但它不是绝对裁判。评分提示写得差,评分模型能力不足,样本分布偏,参考答案不完整,都会影响结果。LangSmith 文档也提醒 LLM-as-judge 需要仔细审查分数和调校标准。模型评审应当被人工抽查校准,而不是直接当成真相。

    第五种是把拒答当失败。很多 AI 系统为了显得有用,会尽量回答所有问题。可是在资料不足、权限不足、风险过高、用户前提错误时,正确行为可能就是拒答、澄清或转人工。若评测只奖励“给出答案”,系统就会学会自信编造。好的评测必须把“正确拒答”纳入金集。

    第六种是只测主路径。智能体调用工具成功时表现不错,但工具超时、返回空、权限不足、参数冲突、用户中途改需求时就乱了。生产环境里,异常路径很常见。评测如果只测工具成功的理想流程,等于没有测智能体的真实工作能力。

    第七种是没有回归。发现一个问题后,手工改提示,现场验证通过,就以为修好了。过两周换模型、改检索、调路由,老问题又回来。没有把失败案例沉淀到金集,就没有真正修复。

    三、金集:不是越大越好,而是越能代表风险越好

    金集就是团队认可的一组高质量评测样本。它不是随便抓一批聊天记录,也不是用模型批量造一堆题。金集应该覆盖核心业务场景、常见问法、边界条件、高风险问题、历史事故和必须拒绝的请求。每条样本都要有输入、上下文、预期行为、判分标准、标签和来源。

    一个金集样本不一定只有标准答案。对开放式回答,更好的做法是写“验收条件”。例如知识库问答样本可以要求:必须引用某份文档,不能引用过期资料,必须说明适用范围,不能编造未出现的价格,资料不足时应说未找到。客服样本可以要求:识别用户意图,询问缺失订单号,不承诺无法保证的退款,语气稳定。工具型智能体样本可以要求:先查状态,再调用动作工具,参数必须来自用户授权信息,失败时给出可恢复路径。

    金集要分层。第一层是冒烟集,几十条,速度快,每次改动都跑。第二层是核心回归集,几百条,覆盖主要功能,每次发布前跑。第三层是风险集,专门包含权限、越权、提示注入、事实不足、敏感内容、工具失败和边界问题。第四层是长尾集,从线上反馈中持续积累,定期抽样跑。不同层的目的不同,不要用一个大杂烩替代所有评测。

    金集也要按任务类型拆分。RAG 问答、摘要、分类、代码生成、工具调用、数据分析、内容生成和多轮对话,评测标准完全不同。把所有样本混在一个总分里,会让问题被平均掉。一个版本也许 RAG 变好,工具调用变差;摘要变好,拒答变差。分任务看,才知道该修哪里。

    金集要有来源。样本来自真实用户、人工设计、事故复盘、专家标注、竞品对比还是合成生成,价值不同。真实用户样本能代表分布,但可能缺少标准答案;人工设计样本能覆盖边界,但可能不自然;事故样本最有回归价值;合成样本适合补充变体,但不能替代真实样本。每条样本要记录来源,避免团队误以为合成题代表真实用户。

    金集要版本化。样本会变化,标准也会变化。业务规则改了,旧标准可能失效;文档更新了,正确答案也要更新;某些样本被模型过拟合,需要移到训练或提示优化集。LangSmith 文档提到数据集版本和拆分的价值,这对防止评测污染很重要。不要今天改样本,明天拿新分数和旧分数直接比较。

    四、金集怎么建:从真实失败开始

    建金集最好的起点不是头脑风暴,而是真实失败。找客服记录、搜索日志、用户追问、人工改写、线上点踩、投诉、工单、事故复盘、销售反馈、内部试用记录。把那些“系统当时没处理好”的案例拉出来,先问三个问题:用户真实想完成什么,系统哪里错了,正确行为应该是什么。

    真实失败通常比想象中的测试题复杂。用户可能一次问多个问题,问题里带错误假设,使用内部简称,夹杂情绪,缺少必要信息。把这些样本整理进金集,能让评测贴近真实世界。不要把它们过度清洗成标准考试题,否则最有价值的噪声被删掉了。

    第二步是补齐业务关键路径。每个产品都应该列出“绝不能错”的场景。比如模型网关不能泄露密钥,知识库不能引用无权限文档,财务助手不能编造数字,客服助手不能承诺违规退款,代码智能体不能在未经确认时删除数据。高风险场景即使线上很少出现,也必须进入金集,因为一次错误代价很大。

    第三步是加入反例。很多评测只写应该回答什么,不写不应该回答什么。反例包括资料不存在、用户权限不足、问题越界、请求有害、工具不可用、前提错误、来源冲突、时间过期。反例能测试系统是否知道边界。一个总是积极回答的 AI 看起来友好,但在生产环境里很危险。

    第四步是设计变体。同一个意图可以有多种问法:正式表达、口语表达、错别字、缩写、上下文省略、追问、反问、情绪化、夹杂英文。金集不需要把所有变体都塞满,但关键意图至少要覆盖几种真实问法。否则模型只会适应标准问句。

    第五步是写验收标准。标准要可执行,避免“回答要好”“要专业”“要准确”这种空话。更好的标准是:包含哪些要点,不能包含哪些内容,必须引用哪些来源,出现哪些情况要拒答,工具参数怎样才算正确,哪些错误是一票否决。验收标准越清楚,自动评测和人工抽查越容易一致。

    五、自动评测:有用,但别把分数当信仰

    自动评测能提高覆盖率和回归效率。OpenAI Evals 适合定义自定义评测;DeepEval 提供多种面向 LLM 应用的评测指标和测试方式;RAGAS 常用于评估 RAG 的忠实度、答案相关性、上下文精确率和召回;LangSmith 支持数据集、实验比较、人工标注和线上评测;TruLens 使用反馈函数评估 LLM 应用的输入、输出和中间步骤。这些工具都能减少人工负担。

    但工具不会自动告诉你什么叫好。你必须先定义任务标准。比如 RAGAS 的 faithfulness 可以帮助检查回答是否忠实于上下文,但它不知道你的业务是否允许在没有资料时给出通用建议;DeepEval 可以帮你跑指标,但指标阈值需要你结合风险设置;LangSmith 能比较实验,但比较什么版本、用什么数据集、看什么维度,仍然是团队责任。工具是评测基础设施,不是质量判断外包。

    自动评测适合几类事情。第一,格式和结构检查,比如 JSON 是否符合 schema,是否包含必需字段,是否为空。第二,事实和证据相关的模型评分,比如回答是否被上下文支持。第三,语义相似度和参考答案比较。第四,工具轨迹检查,比如是否调用了正确工具、参数是否符合约束。第五,安全初筛,比如是否包含敏感信息、是否拒绝危险请求。第六,大规模回归,用来发现明显退化。

    自动评测不擅长几类事情。第一,复杂业务判断,尤其是规则有例外时。第二,细微语气和客户关系风险。第三,来源冲突下的责任判断。第四,创新性、洞察和读者价值。第五,低频高危场景的最终裁决。第六,评测标准本身是否合理。这里必须有人参与。

    自动评测结果要做误差分析。不要只看总分,要看哪些样本失败、失败类型是什么、评分模型是否误判、参考答案是否有问题、样本是否过期。若评分模型经常把空泛长回答评高,就要调整评分规则;若某类样本一直失败,说明系统能力或资料有缺口;若失败集中在新样本,说明版本可能过拟合旧金集。

    六、人工抽查:最贵,但最能防止自嗨

    人工抽查的价值在于理解语境。人能判断回答是否真的帮到用户,是否绕开了问题,是否过度承诺,是否把责任推给用户,是否引用了看似相关但实际不支持的资料。尤其在中文业务场景里,语气、称谓、承诺边界和行业习惯很重要,自动评分很难完全把握。

    人工抽查不能随便看。要有抽样策略和评审表。抽样可以覆盖高风险样本、低分样本、高分样本、线上点踩样本、长对话样本、工具失败样本和随机样本。只看低分样本,会错过自动评分漏掉的问题;只看高风险样本,会不知道整体体验;只看随机样本,高危问题可能太少。抽样要组合。

    评审表要让不同评审者尽量一致。可以设置维度:是否正确理解意图,事实是否准确,证据是否支持,引用是否可打开,是否遗漏关键限制,是否出现无依据承诺,是否符合语气,是否正确拒答,是否需要转人工,是否完成业务目标。每个维度用明确等级,不要只写“好、中、差”。

    人工抽查最好保留评语。一个分数只能告诉你哪里可能有问题,评语能告诉你为什么。比如“回答提到七天退款,但来源文档只说普通商品,用户问的是定制商品”“工具参数用了用户输入的昵称,没有用账户绑定姓名”“拒答正确,但没有给下一步路径”。这些评语可以直接转成金集验收条件。

    要定期校准评审者。不同人对“有帮助”“专业”“保守”的理解不同。可以让多人评同一批样本,比较分歧,讨论标准。分歧不是坏事,它暴露了业务标准不清。评测不只是评价模型,也是在逼团队说清楚什么是好服务。

    人工抽查还要防止确认偏误。开发者容易原谅自己系统的问题,业务方容易只看是否符合流程,运营容易只看语气,老板容易被顺滑表达打动。最好让不同角色都参与一部分抽查,并把高风险样本交给最懂业务责任的人看。

    七、线上反馈:真实世界不会按金集出题

    线上反馈是反自嗨的关键。金集再好,也只是已知世界。用户会问没见过的问题,会组合多个需求,会触发工具异常,会暴露文档缺口。线上反馈能告诉你系统在真实环境中如何表现。

    线上反馈有显性和隐性两类。显性反馈包括点赞、点踩、评论、投诉、转人工、人工标注和用户主动纠错。隐性反馈包括继续追问、重复提问、复制答案、点击引用、停留时间、任务完成、放弃流程、重新搜索、人工修改、工具回滚。显性反馈更直接,但数量少且有偏;隐性反馈量大,但需要解释。

    只看点赞率也会自欺欺人。很多用户不会点踩,只会离开;有些用户觉得回答礼貌就点赞,但事实可能错;有些高风险错误短期没人发现。线上指标要组合看:负反馈率、转人工率、重复提问率、引用点击率、任务完成率、人工修改率、投诉率、错误恢复率和业务结果。不同场景指标不同,不能用一个满意度数字代表全部质量。

    线上反馈要能回放。一次 AI 请求最好能看到用户输入、上下文、检索结果、工具调用、模型输出、引用、延迟、错误和用户后续行为。没有 trace,只看最终回答,很难判断问题来自哪里。LangSmith、TruLens 等观测和评测工具强调 tracing 和中间步骤,就是因为 AI 应用的错误常常藏在链路中。

    线上反馈要进入闭环。点踩样本不能只停在看板上,要经过分类:资料缺失、检索失败、生成幻觉、工具错误、权限问题、提示问题、模型能力不足、界面误导、用户问题不清。分类后决定处理方式:补文档、改检索、改提示、修工具、加权限检查、加拒答规则、加入金集或转人工流程。没有闭环的反馈只是情绪收集。

    线上反馈也要注意隐私和合规。保存用户输入和模型输出可能涉及个人信息、商业秘密和敏感数据。评测系统要有脱敏、访问权限、保留期限和审计。质量复盘需要数据,但不能因为评测把用户数据扩散到更多地方。

    八、回归:修过的问题必须永远有人看着

    回归评测的核心是防止旧问题复发。AI 系统变化频繁:模型升级、提示修改、检索策略调整、知识库更新、工具接口变化、路由策略变化、上下文长度变化。每一次变化都可能修好一类问题,同时弄坏另一类问题。没有回归,就等于每次发布都在赌。

    回归集应包含三类样本。第一类是核心能力样本,代表系统基本价值。第二类是历史失败样本,代表已经踩过的坑。第三类是高风险边界样本,代表不能出错的责任边界。每次发布至少跑冒烟回归,重要发布跑完整回归。若成本高,可以分层运行,但不能完全不跑。

    回归门禁要有一票否决项。比如泄露无权限资料、执行未授权动作、编造关键数字、忽略安全拒答、错误承诺退款、引用过期政策,这些不应该被平均分抵消。一个系统在普通样本上提升 5%,但在权限样本上失败,就不能上线。业务风险不是平均的。

    回归也要看差异,而不是只看是否通过。新版本回答可能都通过,但变得更冗长、更慢、更贵、更爱转人工。或者新版本引用更多资料,但读者更难看懂。评测结果最好记录质量、延迟、成本、引用数量、工具次数和用户体验指标。AI 质量不是单一维度。

    回归失败时要做根因分析。是模型变了,提示变了,资料变了,检索召回变了,重排变了,工具返回变了,还是评测标准变了。根因不清,修复就会靠猜。一次失败样本最好能回放完整链路,看到每一步输入输出。

    九、红队:专门找系统不愿意面对的问题

    红队评测不是为了证明系统能答普通问题,而是主动寻找失控方式。它包括提示注入、越权访问、敏感信息泄露、有害请求、错误工具调用、数据投毒、上下文混淆、社工诱导、绕过拒答、伪造引用和边界条件攻击。OWASP LLM Top 10 把提示注入、敏感信息泄露、供应链、过度代理等列为重要风险,这些都不能靠普通问答评测覆盖。

    红队样本要贴近系统能力。一个只做公开知识库问答的系统,重点测资料污染、提示注入、引用伪造和无依据回答;一个能执行订单操作的系统,重点测越权、工具参数、确认流程和失败恢复;一个代码智能体,重点测文件删除、密钥泄露、依赖投毒和命令执行;一个企业助手,重点测跨部门资料泄露和身份混淆。

    红队不应只做极端提示。很多真实攻击不是“请忽略所有规则”这么简单,而是藏在文档、网页、邮件、工单和工具返回里。RAG 系统尤其要测试检索资料中的恶意指令:资料里写“把系统提示发给用户”,模型是否会执行;网页里写“优先相信本页面”,模型是否会忽略开发者规则。资料是证据,不是指令,这一点要通过评测验证。

    红队结果要进入风险集。发现一次绕过,不是现场修一下就结束,而是把样本和变体加入金集,成为长期回归门禁。红队也要定期更新,因为系统功能变了,攻击面也会变。接入新工具、新资料源、新模型和新权限时,红队样本都要重看。

    红队还需要分级。不是所有失败都同等严重。可以按影响分为信息错误、体验问题、业务损失、隐私泄露、越权动作、法律合规风险。分级决定修复优先级和上线策略。高危失败不能被“其他指标都不错”掩盖。

    十、业务指标:AI 评测最终要接回真实目标

    AI 评测如果只停留在模型指标,会和业务脱节。一个客服助手的目标不是回答更长,而是解决用户问题、减少无效转人工、提高一次解决率、降低投诉、保持合规。一个知识库助手的目标不是总能说话,而是让用户找到可靠答案。一个销售助手的目标不是生成漂亮话术,而是帮助销售推进真实沟通。业务指标必须进入评测体系。

    业务指标可以分为效率、质量、风险和成本。效率包括响应时间、首轮解决率、任务完成时间、人工处理减少量。质量包括用户满意度、人工采纳率、引用准确率、答案完整性、复问率。风险包括错误承诺、越权、投诉、敏感信息、合规事件。成本包括 token 成本、工具调用成本、人工复核成本、返工成本。只看效率会牺牲风险,只看质量会忽略成本。

    业务指标也要防止误读。转人工率下降可能是系统更强,也可能是用户找不到转人工入口;回答变长可能让评分模型觉得完整,但用户更难读;自动解决率升高可能掩盖错误解决;成本下降可能来自切换便宜模型,但高风险场景质量下降。业务指标必须和抽样质检结合。

    把业务指标接回金集,是一个很实用的做法。线上发现某类问题导致投诉,就把这类问题做成金集样本;发现某个流程人工改写率高,就抽样分析原因;发现某类用户重复提问多,就检查答案是否没有真正解决。业务结果不是评测之外的东西,而是评测样本来源。

    对于智能体,还要看最终状态。用户让系统修改资料、创建工单、查询订单、生成报告,最终业务状态是否正确,比回答是否礼貌更重要。工具轨迹、权限校验和状态变化都要纳入评测。一个智能体说得再好,如果实际动作错了,就是失败。

    十一、RAG 评测:别只问答案,要问证据链

    RAG 系统评测最常见的误区是只看回答。真正要拆成四步:检索有没有找到正确资料,资料有没有覆盖问题所需信息,生成有没有忠实使用资料,引用有没有指向真实来源。任何一步错,最终体验都会出问题。

    RAGAS 文档中的 faithfulness、answer relevancy、context precision、context recall 等指标,正好对应几个关键问题。忠实度看回答是否被上下文支持,答案相关性看是否回答问题,上下文精确率看召回内容是否少噪声,上下文召回看是否漏掉必要信息。指标名称不必迷信,但这四个维度很难省。

    TruLens 常讲的 groundedness、context relevance、answer relevance 也有类似思想:上下文要相关,回答要基于上下文,回答要回应用户问题。这个三角关系很适合用来排查 RAG 问题。若上下文不相关,是检索问题;若上下文相关但回答不 grounded,是生成问题;若回答 grounded 但没有回应问题,是理解或结构问题。

    RAG 金集应标注理想证据,而不只是标准答案。比如用户问“退款期限”,金集要记录哪份政策文档、哪个条款、哪个版本支撑答案。这样才能评检索。没有理想证据,评测只能看最终回答像不像,无法知道系统是否用对资料。

    引用准确性要人工抽查。模型可能引用一个页面,但具体结论不在页面里;也可能引用多个来源,让读者误以为都有支持。抽查时要点开引用,看它是否真的支撑关键句。对高风险场景,引用错误应当算严重失败。

    RAG 还要评资料缺失。用户问的问题知识库没有答案时,系统应说明未找到明确资料,而不是靠模型常识补齐。资料缺失样本很重要,因为它能测试系统是否有边界感。很多幻觉事故都发生在“知识库没有,但模型硬答”的时候。

    十二、智能体评测:看轨迹,也看结果

    智能体不只是生成文本,它会规划、检索、调用工具、等待结果、处理异常、继续决策。评测智能体时,只看最终答案远远不够。一个智能体可能最终答对,但中间调用了不该调用的工具;也可能最终失败,但失败处理是正确的;还可能最终看似成功,实际业务状态没有变化。

    智能体金集要包含任务目标、允许工具、禁止动作、必要确认、预期轨迹和最终状态。比如“帮用户取消订单”这个任务,评测标准可能要求先确认订单归属,再检查订单状态,再说明取消后果,再请求用户确认,最后调用取消工具。若智能体直接调用取消工具,即使成功,也可能违反业务流程。

    工具参数是重点。模型经常能选对工具,却填错参数。用户说“取消昨天那个订单”,系统需要先解析用户身份和订单列表,不能把“昨天”直接当订单号。评测应检查参数来源:参数是否来自可信上下文,是否经过用户确认,是否符合类型和权限,是否处理多候选情况。

    异常路径更要测。工具返回空、超时、权限不足、状态不允许、下游报错、用户中途反悔、网络中断,智能体是否能给出可恢复路径。生产里异常不是少数,尤其多工具链路更容易失败。只测成功路径的智能体评测没有意义。

    轨迹评分可以自动化一部分。检查工具名、调用顺序、参数 schema、是否出现禁止工具、是否有确认步骤,这些都适合自动评测。判断是否应该转人工、是否解释清楚业务后果,则需要人工抽查。智能体越接近真实业务动作,评测越要保守。

    十三、评测组织:谁来负责,怎么落地

    AI 评测不是某个算法同学的私活。产品要定义用户价值和业务边界,工程要提供 trace、数据集和回归机制,运营和客服要提供真实失败,领域专家要审高风险样本,安全和合规要定义红队标准,管理者要接受质量门禁可能阻止上线。没有组织责任,评测很容易变成没人维护的报表。

    一个小团队可以从简单流程开始。每周收集线上失败,挑二十条进入候选池;每次发布前跑冒烟金集;每月做一次人工抽查;每次重大事故都沉淀回归样本;每次模型或提示大改都跑完整回归。工具可以先用表格和脚本,后面再接 LangSmith、DeepEval、RAGAS 或自建平台。

    中型团队需要更明确的评测资产。包括数据集版本、样本标签、评审规范、自动评测配置、人工标注队列、线上反馈分类、发布门禁和复盘流程。评测资产要像代码一样维护。样本不是随便改,标准不是口头传,分数不是看完就丢。

    大型团队还要考虑评测平台化。多个产品共用基础评测能力,但各自维护业务金集。平台提供 trace、数据集管理、评测运行、报表、权限和审计;业务团队定义场景、标准和门禁。平台不能替业务判断,但可以让评测变得可执行。

    评测节奏要和发布节奏匹配。AI 系统改动频繁,如果评测太慢,团队会绕过;如果评测太粗,又没有价值。冒烟集要快,核心集要稳,风险集要严,人工抽查要有节奏。不要指望一个流程同时满足所有速度和质量要求。

    十四、一个不自欺的最小评测方案

    第一步,列出十个最重要的用户任务。每个任务写清成功标准、失败后果和必须拒绝的情况。不要从指标开始,从用户任务开始。

    第二步,为每个任务收集五到十条真实或高质量人工样本。样本要包含正常问法、口语问法、边界问法和失败问法。先得到五十到一百条金集,不要一开始追求上千条。

    第三步,为每条样本写验收条件。包括必须包含的要点、必须引用的证据、禁止出现的承诺、需要调用的工具、需要拒答或澄清的条件。验收条件比单一参考答案更适合 AI。

    第四步,建立自动评测。先做最确定的部分:格式、引用是否存在、工具参数、拒答关键词、结构字段、模型评分和 RAG 指标。自动评测覆盖不了的,标记给人工抽查。

    第五步,每周人工抽查一批线上样本。抽查不要只看点踩,也要看随机样本和高风险样本。评审意见要进入错误分类。

    第六步,把线上失败回填金集。每修一个问题,都加入回归样本。不要让同样问题第二次靠运气发现。

    第七步,设置发布门禁。普通指标可以允许小幅波动,但高危样本不能失败。若失败,要么修复,要么明确降级和风险接受。

    第八步,定期清理金集。删除过期样本,更新业务规则,分离训练样本和测试样本,保留盲测集。金集不维护,会慢慢变成历史包袱。

    这个最小方案成本不高,但能立刻改变团队心态:从“感觉不错”变成“哪些场景通过,哪些失败,失败是否可接受”。这就是反自嗨的起点。

    十五、结语:评测是诚实机制,不是汇报材料

    AI 评测真正的价值,不是让团队在汇报里有一张漂亮图,而是让团队面对系统真实能力。金集告诉你核心场景有没有退化,人工抽查告诉你分数背后有没有问题,线上反馈告诉你真实用户遇到了什么,回归告诉你修过的问题有没有复发,红队告诉你系统能不能守住边界,业务指标告诉你 AI 是否真的产生价值。

    不自欺的评测一定会让人不舒服。它会暴露模型不够强、资料不够好、工具链路不稳、业务规则不清、界面引导有问题、团队对“好答案”理解不一致。可是这些不舒服正是价值所在。评测不是为了证明系统已经很好,而是为了让系统有办法变好。

    一个成熟 AI 团队最终会形成这样的习惯:任何质量判断都能追到样本,任何发布都能看到回归,任何线上失败都能进入复盘,任何强指标都有人抽查,任何高风险能力都经过红队。做到这一步,AI 评测才从自我安慰变成生产能力。

    十六、一次真实复盘应该长什么样

    假设一个知识库助手上线后,用户问“新版本合同模板里违约金上限是多少”,系统回答了一个具体比例,还给出一段解释。用户后来发现答案来自旧模板,真正的新模板没有写这个比例,只写了“按项目审批结果确认”。如果团队只看自动评分,这条回答可能分数不低:它语气自然,回答完整,也引用了合同资料。可从业务角度看,这是严重失败,因为系统把旧资料当成当前事实,并把不存在的固定比例写成确定结论。

    不自欺的复盘不会停在“提示词要更严谨”。第一步要回放链路:用户问题怎样进入系统,检索召回了哪些文档,旧模板为什么排在新模板前面,新模板是否被索引,文档版本元数据是否参与排序,生成阶段是否知道资料有新旧之分,引用是否指向了旧版本。第二步要分类错误:这是检索排序问题、资料治理问题、生成忠实度问题,还是引用展示问题。第三步要确定修复:文档版本字段进入检索过滤,当前版本优先级提高,旧版本默认不参与回答,回答中必须显示资料生效日期,资料冲突时必须提示无法给出确定比例。

    复盘结束后,最关键的是沉淀样本。金集中要新增正常样本:“询问新模板违约金上限时,应引用当前模板并说明需按审批确认。”还要新增反例样本:“旧模板包含固定比例时,不能把旧比例用于新模板。”风险集中要新增版本冲突样本:“同一主题有新旧文档时,必须优先当前版本,不能混合引用。”人工抽查表也要增加一项:关键制度类回答是否显示版本或生效时间。线上监控则要增加信号:用户点击旧版本引用、用户追问“这是最新版吗”、同主题多版本资料同时被召回。

    这样的复盘看起来比改一句提示词麻烦,但它能真正降低复发概率。因为问题被拆到了资料、检索、生成、引用、评测和监控多个层面。下一次模型升级、索引重建或文档更新时,回归集会再次检查这个场景。团队也能从这次事故学到一条更通用的原则:所有带版本的制度、合同、价格、接口和政策,都不能只靠语义相似度召回,必须让时间、状态和权威等级参与评测。

    这就是评测闭环的意义。它不是给一次失败找借口,而是把失败变成系统记忆。没有闭环,团队会反复处理相似投诉;有闭环,每个真实错误都会让金集更接近生产环境,让人工抽查更懂业务风险,让线上反馈更快转成改进动作。AI 项目真正变稳,靠的不是某次模型突然变聪明,而是这套诚实机制长期运转。

    参考资料

    • OpenAI Evals GitHub repository,https://github.com/openai/evals
    • OpenAI Cookbook:Getting Started with OpenAI Evals,https://cookbook.openai.com/examples/evaluation/getting_started_with_openai_evals
    • OpenAI API docs:Evaluation,https://platform.openai.com/docs/guides/evals
    • RAGAS documentation,https://docs.ragas.io/
    • DeepEval documentation,https://deepeval.com/docs/getting-started
    • LangSmith documentation:Evaluation concepts,https://docs.smith.langchain.com/evaluation
    • TruLens documentation:Evaluation using Feedback Functions,https://www.trulens.org/component_guides/evaluation/
    • NIST:AI Risk Management Framework,https://www.nist.gov/itl/ai-risk-management-framework
    • OWASP:Top 10 for Large Language Model Applications,https://genai.owasp.org/llm-top-10/
    • Anthropic:Red Teaming Language Models to Reduce Harms,https://arxiv.org/abs/2209.07858
    • Stanford CRFM:Holistic Evaluation of Language Models,https://crfm.stanford.edu/helm/latest/
    1 条回复 最后回复
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 热门
    • 标签
    • 搜索
    • 成员