Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
至少拿 50 条真实样例。看哪些类型掉得最明显。
4bit 不是不能用,但别拿它做高风险制度问答。我更愿意让它做分类和改写。
量化越高越好吗?比如 8bit。
通常位数高损失小,但显存和速度也不同。要按机器和任务取舍。
还要看量化方法和模型尺寸。一个更大模型 4bit,不一定比小模型 8bit 差,必须实测。
别忘了上下文长度。量化模型在长上下文下的退化可能更明显。
生产上要标明模型版本和量化版本。出了问题要能回滚到具体文件。
我们下载社区量化包,没记录来源。
这要补。模型文件也算依赖,不是随便丢进目录。
我先做原精度对照和 4bit/8bit 比较。
对,参数可以调,但别用参数掩盖能力损失。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗