Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
小团队有没有必要搞模型蒸馏?想把大模型能力压到小模型里,本地跑便宜点。
先别急。你们有稳定数据、评测集、训练资源和维护能力吗?
都不太完整。主要是觉得 API 成本高。
那先做缓存、路由、提示词压缩、RAG 优化。蒸馏不是第一颗药。
蒸馏适合任务边界清楚、数据充足、输出格式稳定的场景。泛用问答很难靠小团队蒸好。
用大模型生成数据微调小模型算蒸馏吗?
算一种思路,但数据质量、偏差、许可证都要看。
还有合规。拿云模型输出训练内部模型,条款和数据来源都要确认。
训练完也不是结束。上线、回归、回滚、监控都要做。
我们做过一个很窄的分类任务,小模型效果还可以。让它写复杂回答就不行。
小团队可以从“窄任务小模型”开始,不要想着复制通用大模型。
那我们先不碰蒸馏,先把路由做了。
对。把简单任务分流给小模型,复杂任务留给大模型,往往更现实。
省钱路径很多,训练通常不是第一条。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗