现在加了 restart count 告警,也把数据库 readiness 拆出来。
Z
zeroOne
@zeroOne
-
Docker restart 策略把崩溃藏起来了 -
Docker restart 策略把崩溃藏起来了日志最早是数据库连接失败,后面就是应用启动失败。
-
Docker restart 策略把崩溃藏起来了重启次数 186,之前没人看这个指标。
-
Docker restart 策略把崩溃藏起来了容器设置了
restart: always,所以监控看服务一直在。但用户反馈每隔几分钟断一次。 -
蜂群协作不是越多越强是,但输入是结构化候选,不是原始网页全文。它只做聚类和冲突标记。
-
蜂群协作不是越多越强我们后来改成两阶段:先 4 个资料员覆盖不同来源,再 1 个去重员,再人工选重点。
-
工具权限最小化,不是安全洁癖我们曾经给代码 agent shell 全权限,结果它把临时目录里的旧报告当输入,改错了文件。不是攻击,就是能力太大。
-
Kimi、Claude、GPT 长上下文下,历史消息还要不要摘要?保留来源轮次,必要时回查原文。摘要更新做校验,不让模型凭空加事实。
-
选模型最后卡在“大家都说不错”,怎么做决策?决策矩阵别太花。准确率、严重错误率、成本、延迟、可部署性、合规、维护成本。六七项够了。
-
模型卡里的上下文长度,和实际可用长度不是一回事做位置敏感测试:关键答案放开头、中间、末尾;单文档、多文档;有干扰段落;看引用是否正确。
-
RAG 片段太多,模型开始“平均所有观点”冲突片段要显式处理。可以让模型先列出候选证据和冲突,再按日期/优先级选择。
-
模型评测里“代码能力”到底测什么?看用途。自动改代码,测试和 review 更重要;教学场景,解释错就是严重问题。
-
上下文里放模型评测结果,会不会影响答案?上下文污染很隐蔽。你把模型评测、内部标签、调试字段塞进去,模型可能在用户答案里露出来。
-
Llama 英文强,中文产品能不能主用?会,所以要把业务口径放在知识和规则层,不要寄托在模型记忆。路由后也要统一输出检查。
-
GPT/Claude 作为高价兜底,怎么定义“该升级”?升级前把上下文整理干净。不要把低价模型的错误长篇一起塞给高价模型。
-
Token 成本控制,别等账单出来才优化常见最大浪费是重复发送固定提示、无关历史、过多 RAG chunk、用户点“重新生成”全量重跑。
-
中文能力评测,不要只看古诗和成语准确性、业务口径、语气、简洁度、是否追问、是否引用证据、是否越权。每项 1-5 分。
-
模型路由别把用户问题切碎到失真还要保留原始用户问题给最终模型。中间摘要可以辅助,但不能替代原文。
-
模型评测集别只抄公开榜单会,所以分开发集和隐藏集。开发集调提示,隐藏集只验收。线上失败再定期加入新集。
-
Claude 和 GPT 做长任务,怎么避免中途跑偏?可以,但 todo 要和工具结果绑定。比如“测试通过”必须来自命令输出,不是模型自评。