LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

Z

zeroOne

@zeroOne

关注

0

帖子

最新最佳有争议的

Docker restart 策略把崩溃藏起来了

Z zeroOne

现在加了 restart count 告警，也把数据库 readiness 拆出来。

实践复盘 docker restart incident
Docker restart 策略把崩溃藏起来了

Z zeroOne

日志最早是数据库连接失败，后面就是应用启动失败。

实践复盘 docker restart incident
Docker restart 策略把崩溃藏起来了

Z zeroOne

重启次数 186，之前没人看这个指标。

实践复盘 docker restart incident
Docker restart 策略把崩溃藏起来了

Z zeroOne

容器设置了 restart: always，所以监控看服务一直在。但用户反馈每隔几分钟断一次。

实践复盘 docker restart incident
蜂群协作不是越多越强

Z zeroOne

是，但输入是结构化候选，不是原始网页全文。它只做聚类和冲突标记。

AI 工程讨论 swarm coordination langgraph cost
蜂群协作不是越多越强

Z zeroOne

我们后来改成两阶段：先 4 个资料员覆盖不同来源，再 1 个去重员，再人工选重点。

AI 工程讨论 swarm coordination langgraph cost
工具权限最小化，不是安全洁癖

Z zeroOne

我们曾经给代码 agent shell 全权限，结果它把临时目录里的旧报告当输入，改错了文件。不是攻击，就是能力太大。

AI 工程讨论 tool-permission mcp sandbox security
Kimi、Claude、GPT 长上下文下，历史消息还要不要摘要？

Z zeroOne

保留来源轮次，必要时回查原文。摘要更新做校验，不让模型凭空加事实。

AI 工程讨论 kimi claude gpt 历史消息
选模型最后卡在“大家都说不错”，怎么做决策？

Z zeroOne

决策矩阵别太花。准确率、严重错误率、成本、延迟、可部署性、合规、维护成本。六七项够了。

AI 工程讨论 qwen deepseek llama gemma glm
模型卡里的上下文长度，和实际可用长度不是一回事

Z zeroOne

做位置敏感测试：关键答案放开头、中间、末尾；单文档、多文档；有干扰段落；看引用是否正确。

AI 工程讨论模型卡上下文长度长上下文
RAG 片段太多，模型开始“平均所有观点”

Z zeroOne

冲突片段要显式处理。可以让模型先列出候选证据和冲突，再按日期/优先级选择。

AI 工程讨论 rag topk 上下文压缩证据冲突
模型评测里“代码能力”到底测什么？

Z zeroOne

看用途。自动改代码，测试和 review 更重要；教学场景，解释错就是严重问题。

AI 工程讨论代码能力 deepseek qwen claude gpt
上下文里放模型评测结果，会不会影响答案？

Z zeroOne

上下文污染很隐蔽。你把模型评测、内部标签、调试字段塞进去，模型可能在用户答案里露出来。

AI 工程讨论 prompt 模型偏见上下文污染
Llama 英文强，中文产品能不能主用？

Z zeroOne

会，所以要把业务口径放在知识和规则层，不要寄托在模型记忆。路由后也要统一输出检查。

AI 工程讨论 llama 中文产品英文资料本地模型
GPT/Claude 作为高价兜底，怎么定义“该升级”？

Z zeroOne

升级前把上下文整理干净。不要把低价模型的错误长篇一起塞给高价模型。

AI 工程讨论 gpt claude 成本控制置信度
Token 成本控制，别等账单出来才优化

Z zeroOne

常见最大浪费是重复发送固定提示、无关历史、过多 RAG chunk、用户点“重新生成”全量重跑。

AI 工程讨论 token prompt caching 小模型
中文能力评测，不要只看古诗和成语

Z zeroOne

准确性、业务口径、语气、简洁度、是否追问、是否引用证据、是否越权。每项 1-5 分。

AI 工程讨论中文能力 qwen glm kimi gpt
模型路由别把用户问题切碎到失真

Z zeroOne

还要保留原始用户问题给最终模型。中间摘要可以辅助，但不能替代原文。

AI 工程讨论小模型大模型任务拆分
模型评测集别只抄公开榜单

Z zeroOne

会，所以分开发集和隐藏集。开发集调提示，隐藏集只验收。线上失败再定期加入新集。

AI 工程讨论评测集 opencompass lm-eval longbench 生产验收
Claude 和 GPT 做长任务，怎么避免中途跑偏？

Z zeroOne

可以，但 todo 要和工具结果绑定。比如“测试通过”必须来自命令输出，不是模型自评。

AI 工程讨论 claude gpt 长任务上下文压缩