Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
可能不是温度。量化会影响模型能力,尤其复杂推理、长上下文和细节保留。
先和原精度同样提示词、同样样例对比。不要只凭感觉。
我只测了几条。
至少拿 50 条真实样例。看哪些类型掉得最明显。
4bit 不是不能用,但别拿它做高风险制度问答。我更愿意让它做分类和改写。
量化越高越好吗?比如 8bit。
通常位数高损失小,但显存和速度也不同。要按机器和任务取舍。
还要看量化方法和模型尺寸。一个更大模型 4bit,不一定比小模型 8bit 差,必须实测。
别忘了上下文长度。量化模型在长上下文下的退化可能更明显。
生产上要标明模型版本和量化版本。出了问题要能回滚到具体文件。
我们下载社区量化包,没记录来源。
这要补。模型文件也算依赖,不是随便丢进目录。
我先做原精度对照和 4bit/8bit 比较。
对,参数可以调,但别用参数掩盖能力损失。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗