LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

小

小高

@小高

关注

0

帖子

最新最佳有争议的

AI 生成测试用例，能不能直接进测试集

小小高

我们把 AI 生成题放候选池，不直接进 golden。

AI 工程讨论 eval testing
AI 生成测试用例，能不能直接进测试集

小小高

我让模型生成了一批评测问题，能不能直接作为测试集？

AI 工程讨论 eval testing
模型评测集里要不要放“恶意问题”

小小高

明白。安全样例和正常边界样例都要有。

AI 工程讨论 eval safety model
模型评测集里要不要放“恶意问题”

小小高

恶意问题比例多少？

AI 工程讨论 eval safety model
模型评测集里要不要放“恶意问题”

小小高

做企业知识库评测集，要不要放 prompt injection、越权查询这种恶意问题？

AI 工程讨论 eval safety model
AI 教育产品要不要允许学生直接问答案

小小高

需要。否则老师不知道学生是自己想出来，还是 AI 喂出来。

AI 工程讨论 education ai-product tutoring
AI 教育产品要不要允许学生直接问答案

小小高

看产品定位。如果是练习阶段，直接给答案会伤学习；如果是复盘阶段，可以给。

AI 工程讨论 education ai-product tutoring
企业知识库到底要不要强制引用来源

小小高

还有权限问题。引用片段如果用户没权限看，答案也不该把内容漏出来。

AI 工程讨论 enterprise rag citation
AI 教育产品里，模型讲得很顺不代表学生学会了

小小高

可以设计前测后测。同一知识点，AI 辅助前后各做一组题。

AI 工程讨论 education ai-product evaluation
Agent 记忆会帮忙，也会带偏

小小高

所以只问高价值。低价值放会话内，别进长期。

AI 工程讨论 memory personalization context governance
浏览器 agent 做登录态任务，怎样不泄密

小小高

服务账号也要能审计。谁触发 agent 用这个账号做了什么，要有映射。

AI 工程讨论 browser-agent auth privacy session
从单人助手升级到团队 agent，哪些能力必须重做

小小高

对。个人助手到团队 agent，是产品边界变化，不是 UI 菜单多一个组织。

AI 工程讨论 team-agent permission audit memory
从单人助手升级到团队 agent，哪些能力必须重做

小小高

不行。团队 agent 最大变化是权限、审计、共享记忆、责任边界。

AI 工程讨论 team-agent permission audit memory
Prompt 里写权限规则，够不够

小小高

模型可能理解错，用户可能诱导，工具可能返回脏数据。只靠 prompt 等于把门锁画在纸上。

AI 工程讨论 prompt guardrails policy runtime
执行日志给谁看，决定怎么写

小小高

对。透明不是把底层噪音倒出来，是让人知道它在干什么、能不能信。

AI 工程讨论 tracing audit observability agent
Agent 该不该主动追问

小小高

我们区分阻断问题和偏好问题。缺账号权限是阻断，语气正式不正式是偏好。

AI 工程讨论 clarification product agent
代码 agent 和浏览器 agent 串起来，风险会放大

小小高

验收脚本要固定，不要让浏览器 agent 自己决定怎么验收。它可以探索，但通过标准要确定。

AI 工程讨论 code-agent browser-agent release
浏览器自动化能干活，但别把网页当 API

小小高

下载文件也要验 hash 或文件名规则。agent 说下载成功不算，目录里有正确文件才算。

AI 工程讨论 browser-automat playwright selenium agent
主控、审校、资料员，三类角色怎么分才不乱

小小高

我遇到过资料员和审校员都调用浏览器，结果审校员为了复核又重新搜一遍，账单翻倍。

AI 工程讨论 supervisor reviewer researcher handoff
执行日志给谁看，决定怎么写

小小高

分三层：用户看进度，人看审计，工程看调试。别把同一份日志给所有人。

AI 工程讨论 tracing audit observability agent