LocalAIHub 中文社区

Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.

Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).

世界

本论坛之外的主题。此处表达的观点和意见可能不代表本论坛及其成员的立场。

海量内容尽在指尖 …

不妨将此视为您专属的全球发现信息流。它汇集了来自互联网各处及其他社区的有趣讨论，一应俱全。

虽然您可以浏览当前的热门内容，但使用该信息流的最佳方式是将其个性化。通过注册账号，您可以关注特定的创作者和主题，从而过滤掉无关信息，只查看对您真正重要的内容。

准备好开始了吗？注册一个账号，即可关注他人、在收到回复时获得通知，并收藏您喜欢的内容。

注册登录

小

小小谢

AI 工程讨论

用强模型裁判评弱模型，会不会偏

我们想用 GPT/Claude 当裁判，评 Qwen/DeepSeek 的回答。这样会不会天然偏向自己的风格？

14 0 0 回复

M melo

这样比较现实。裁判也是工具，不是法官。
小

小小周

AI 工程讨论

模型路由是不是会让系统更复杂

我们讨论模型路由，有人觉得复杂。一个模型全走到底不是更简单吗？

15 0 0 回复

陈陈一

对，路由是为了控制质量和成本，不是为了炫架构。
O

O oneMoreTry

AI 工程讨论

代码能力评测不能只让模型写算法题

我们准备用模型做代码助手，评测时大家拿 LeetCode 题测。这样有意义吗？

15 0 0 回复

小小吴

LeetCode 可以保留，但不能当上线门槛。
橘

橘橘子汽水

AI 工程讨论

中文能力不是会写中文就够

我们评中文能力时，让模型写一段介绍，都写得挺顺。然后业务问答还是错。中文能力到底测什么？

14 0 0 回复

小小吴

让模型写漂亮中文，和让它处理中文业务，是两回事。
小

小小曹

AI 工程讨论

GPT 和 Claude 都强，为什么线上还是会翻车

我们把一个流程从开源模型换成 GPT/Claude 后，demo 很漂亮，但线上还是被用户问崩了。是不是模型还不够强？

14 0 0 回复

林林小北

先做路由和评测。强模型不是架构补丁。
树

树树莓派烫手

实践复盘

量化以后模型变傻，是不是我参数没调对

我把一个中文模型量化到 4bit 后速度上来了，但回答明显变短，还经常漏条件。是不是温度参数没调好？

14 0 0 回复

林林小北

对，参数可以调，但别用参数掩盖能力损失。
小

小小蓝

AI 工程讨论

模型评测不要只看准确率

我们内部评模型，大家一直问“准确率多少”。但很多生成任务很难算准确率。

15 0 0 回复

小小蓝

我们先把评测表从一个分数拆成多维。
南

南南瓜

AI 工程讨论

GLM 和 Kimi 在中文长文场景怎么分工

中文长文分析想在 GLM 和 Kimi 之间选。材料是招标文件、会议纪要、制度合集，大家怎么分工？

14 0 0 回复

南南瓜

我准备把 GLM/Kimi 都放进长文评测，不先定。
小

小小满

AI 工程讨论

Gemma 小模型能不能做团队默认助手

我看到 Gemma 小模型部署挺轻，想给团队做默认助手，负责总结、改写、简单问答。靠谱吗？

14 0 0 回复

M melo

小模型像便宜工位，不是万能专家。
A

A abc_1024

AI 工程讨论

DeepSeek 适合代码还是适合推理

DeepSeek 到底更适合写代码还是做推理？我看大家说法不一样。

15 0 0 回复

小小吴

代码模型别在 demo 里看，放到旧 bug 上看。
不

不不想写周报

AI 工程讨论

上下文污染比上下文不够更难排查

我们知识库问答经常答错，但不是没检索到，而是检索到太多相似旧文档。这个怎么治？

14 0 0 回复

小小风扇

对，别先调温度。温度不是清洁剂。
没

没没有显卡的人

AI 工程讨论

Llama 本地部署好，但中文场景要不要谨慎

Llama 系列生态很强，本地部署资料也多。中文业务场景能直接用吗？

15 0 0 回复

没没有显卡的人

明白，生态强归生态强，中文业务另算。
小

小小潘同学

AI 工程讨论

Qwen 做中文业务问答稳不稳

我们想用 Qwen 做中文业务问答，主要是制度、客服、表格说明。有人生产里用过吗？

14 0 0 回复

M melo

对，生产不是选偶像，是分配工种。
小

小小陈在改bug

实践复盘

历史截断把用户刚说的限制条件截没了

我们聊天助手最近有个问题，用户前面说“只看上海政策”，后面追问“那报销呢”，模型回答成全国政策。看日志发现历史被截断了。

14 0 0 回复

小小陈在改bug

我们先做状态槽位和最近两轮原文保留。
小

小小郑

AI 工程讨论

Token 成本到底该按输入算还是按输出算

我们算 AI 成本时只按用户问题数量估算，结果账单比预期高很多。是不是应该按 token 算？

14 0 0 回复

林林小北

这句可以写进评审：每 1000 次有效回答成本，而不是每 1000 次调用成本。
小

小小鼠标

AI 工程讨论

长上下文模型是不是可以不用 RAG 了

现在好多模型都支持很长上下文了，企业知识库是不是可以直接把文档塞进去，不做 RAG？

14 0 0 回复

阿阿航

还有一点：长上下文贵。能用 8k 解决的问题，不要硬上 200k。
小

小小吴

AI 工程讨论

选模型时到底先看榜单还是先看任务

我们准备给内部知识库换模型，老板贴了几个榜单截图，说排名高的直接上。这样选会不会太粗？

14 0 0 回复

小小吴

这样我准备改成模型路由评测，不做单一冠军。
小

小小谢

实践复盘

UI 插件升级把后台菜单挤没了，管理员以为权限丢了

升级一个 UI 插件后，NodeBB 后台左侧菜单少了几项。管理员以为权限被改，查了半天。

12 0 0 回复

M momo

UI 升级不是换皮，尤其社区后台，入口消失就是功能不可用。
北

北北岛不是岛

实践复盘

备份恢复后能打开站，但搜索全空

恢复演练时帖子都在，搜索结果全空。过了半小时还是空，是不是恢复失败？

12 0 0 回复

陈陈一

这类演练有价值，暴露的是“功能完整性”，不是单纯数据完整性。
刚

刚刚装好环境

实践复盘

Docker 重启后数据回到昨天，才发现卷挂错了

我们重启 Docker 后，NodeBB 附件和部分配置像回到昨天。数据库还在，上传目录不对。

12 0 0 回复

N nora

复盘结论别写 Docker 不可靠，写卷和配置没生产化。