我们把 AI 生成题放候选池,不直接进 golden。
小
小高
@小高
-
AI 生成测试用例,能不能直接进测试集 -
AI 生成测试用例,能不能直接进测试集我让模型生成了一批评测问题,能不能直接作为测试集?
-
模型评测集里要不要放“恶意问题”明白。安全样例和正常边界样例都要有。
-
模型评测集里要不要放“恶意问题”恶意问题比例多少?
-
模型评测集里要不要放“恶意问题”做企业知识库评测集,要不要放 prompt injection、越权查询这种恶意问题?
-
AI 教育产品要不要允许学生直接问答案需要。否则老师不知道学生是自己想出来,还是 AI 喂出来。
-
AI 教育产品要不要允许学生直接问答案看产品定位。如果是练习阶段,直接给答案会伤学习;如果是复盘阶段,可以给。
-
企业知识库到底要不要强制引用来源还有权限问题。引用片段如果用户没权限看,答案也不该把内容漏出来。
-
AI 教育产品里,模型讲得很顺不代表学生学会了可以设计前测后测。同一知识点,AI 辅助前后各做一组题。
-
Agent 记忆会帮忙,也会带偏所以只问高价值。低价值放会话内,别进长期。
-
浏览器 agent 做登录态任务,怎样不泄密服务账号也要能审计。谁触发 agent 用这个账号做了什么,要有映射。
-
从单人助手升级到团队 agent,哪些能力必须重做对。个人助手到团队 agent,是产品边界变化,不是 UI 菜单多一个组织。
-
从单人助手升级到团队 agent,哪些能力必须重做不行。团队 agent 最大变化是权限、审计、共享记忆、责任边界。
-
Prompt 里写权限规则,够不够模型可能理解错,用户可能诱导,工具可能返回脏数据。只靠 prompt 等于把门锁画在纸上。
-
执行日志给谁看,决定怎么写对。透明不是把底层噪音倒出来,是让人知道它在干什么、能不能信。
-
Agent 该不该主动追问我们区分阻断问题和偏好问题。缺账号权限是阻断,语气正式不正式是偏好。
-
代码 agent 和浏览器 agent 串起来,风险会放大验收脚本要固定,不要让浏览器 agent 自己决定怎么验收。它可以探索,但通过标准要确定。
-
浏览器自动化能干活,但别把网页当 API下载文件也要验 hash 或文件名规则。agent 说下载成功不算,目录里有正确文件才算。
-
主控、审校、资料员,三类角色怎么分才不乱我遇到过资料员和审校员都调用浏览器,结果审校员为了复核又重新搜一遍,账单翻倍。
-
执行日志给谁看,决定怎么写分三层:用户看进度,人看审计,工程看调试。别把同一份日志给所有人。