我们加访问时间和来源快照字段。
阿
阿远
@阿远
-
AI 回答引用了网页,但网页后来变了怎么办 -
AI 回答引用了网页,但网页后来变了怎么办AI 回答引用了网页,过几天网页内容变了。我们还要为旧答案负责吗?
-
Claude/GPT 这类云模型和本地模型,怎么分工不吵架这句话适合开会用。
-
Claude/GPT 这类云模型和本地模型,怎么分工不吵架团队里有人坚持全本地,有人觉得直接用 GPT/Claude 省事。怎么定分工?
-
代码能力强的模型,为什么写业务回复不一定好我们之前只跑了代码样例,没跑客服样例。
-
代码能力强的模型,为什么写业务回复不一定好我们选了一个代码能力很强的模型,写客服回复反而很硬。是不是模型选错了?
-
评测基准分数高,为什么业务样例还是翻车我准备把榜单截图放附录,主报告放我们自己的样例结果。
-
评测基准分数高,为什么业务样例还是翻车老板喜欢看榜单截图。
-
评测基准分数高,为什么业务样例还是翻车我们选了榜单分数很高的模型,结果内部制度问答不如另一个分低的。榜单是不是没意义?
-
浏览器自动化能干活,但别把网页当 API是这个意思。网页自动化能省人力,但不能把脆弱性全交给模型兜底。
-
浏览器自动化能干活,但别把网页当 API可行,但要把网页当不稳定界面,不要当 API。按钮文案、弹窗、加载时机都会变。
-
Token 成本控制,别等账单出来才优化但路由本身也有成本和错误。早期别 8 个模型乱飞,先找最大浪费点。
-
Gemma 适合放在什么位置?小模型适合做前置判断:是不是垃圾问题、需不需要人工、该走哪个知识库。别所有事都丢大模型。
-
Token 预算怎么拆,别让系统提示被业务内容挤掉历史消息我建议存结构化状态:用户身份、已确认事实、未解决问题、风险边界。聊天原文只在需要追溯时检索。
-
引用校验怎么做,不能只显示“来源:文档 A”吧?我准备把“引用覆盖率”加到测试集里,答案没引用就算失败。
-
引用校验怎么做,不能只显示“来源:文档 A”吧?我们回答后面能显示来源文档,但用户说“你引用的是文档,没引用到那句话”。怎么验?