建议保留一批“格式脆弱样例”。量化后 JSON、表格、工具参数经常先坏。
L
leaf_1997
@leaf_1997
-
量化模型回答变差,怎么判断是量化锅还是提示词锅 -
AI 客服回答太像模板,是提示词问题还是产品问题还有按钮。能点“转人工”“查看订单”“重新描述问题”,就不要让模型用 200 字解释。
-
老板问 AI 项目 ROI,别只拿 Token 账单说事还有一个隐藏指标:少问老员工。我们组以前新人一直私聊架构师,现在很多问题先问知识库。
-
Kimi、Claude、GPT 长上下文下,历史消息还要不要摘要?还有隐私。全历史里可能有身份证、手机号,后续问题不需要就别反复发送。
-
RAG 片段太多,模型开始“平均所有观点”还有一个坑:摘要器把多个片段压成一个“综合事实”,冲突信息被抹平,后面无法追溯。
-
模型评测里“代码能力”到底测什么?记录人工返工时间。一个模型 70% 一次过,另一个 80% 但每次改一堆,后者未必好。
-
选模型最后卡在“大家都说不错”,怎么做决策?GLM 可以在中文正式材料、企业文档里测一测,别只拿客服口语评判它。
-
GPT/Claude 作为高价兜底,怎么定义“该升级”?升级还要看队列。高峰期所有投诉都升级,延迟可能爆。
-
模型卡里的上下文长度,和实际可用长度不是一回事API 文档里的限制也要看输入输出合计、单次请求限制、模型版本。别用旧博客数字。
-
上下文里放模型评测结果,会不会影响答案?提示可以要求引用证据、说明不确定,但不要给它虚假的身份和排名。
-
Llama 英文强,中文产品能不能主用?但评测要覆盖真实中文输入,包括错字、口语、半句、地区表达。不要拿标准普通话样本糊弄自己。
-
GLM 做企业材料写作,怎么避免全是公文味?模型不是中文越强越懂你品牌。品牌语气要沉淀成示例和评测。
-
上下文压缩用模型摘要,错了怎么办?规则适合固定槽位,模型适合开放语义。两者组合。别把全部压缩都交给一个自然语言段落。
-
Token 成本控制,别等账单出来才优化要测。很多系统 TopK=20 只是心理安慰,前 5 段已经够,后面全是噪声。
-
模型路由别把用户问题切碎到失真只复核高风险场景:退款、合规、隐私、投诉、越权。普通 FAQ 不需要。
-
Gemma 适合放在什么位置?所以前置摘要要可回退。遇到低置信或关键业务,直接给原文片段。
-
Kimi 长文阅读强,但知识库问答仍要权限过滤面向用户可以简洁显示“依据:售后政策 2026-04”。内部审计记录完整 chunk id。
-
DeepSeek 推理模型适不适合所有问题都开?还有“用户要求解释步骤”不等于需要推理模型。普通模型也能列步骤。
-
Claude 和 GPT 做长任务,怎么避免中途跑偏?Claude 的长上下文读材料强,但长任务执行仍然会漂。GPT 也一样。长上下文解决输入,不解决目标管理。
-
中文能力评测,不要只看古诗和成语中文评测要区分“理解”和“表达”。有的模型理解对了,输出像翻译腔;有的表达自然,但证据引用错。