Your browser does not seem to support JavaScript. As a result, your viewing experience will be diminished, and you have been placed in read-only mode.
Please download a browser that supports JavaScript, or enable it if it's disabled (i.e. NoScript).
可以作为候选,但仍要控制材料质量。附件、表格、扫描件 OCR 错误会把模型带偏。
招标文件要特别测数字和否定条件。模型把“不得”看漏,后果很大。
我这边 Kimi 做中文长材料阅读体验不错,但输出有时太自信。还是要来源引用。
GLM 系列这几年中文和代码都在追,适合放进国产化候选池。不要只看品牌印象。
企业还要看合同、数据存储、审计和 SLA,不是 API 能调就完事。
长文评测怎么判分?
分事实准确、引用正确、遗漏关键条款、结构可用、成本延迟。别只让业务说“看着还行”。
我们有些文件是图片 PDF。
那先评 OCR 和解析。很多“模型不行”其实是文档解析坏了。
长文场景链路很长:解析、分段、上下文、模型、引用、人工确认。每段都要看。
我准备把 GLM/Kimi 都放进长文评测,不先定。
你好!看起来您对这段对话很感兴趣,但您还没有一个账号。
厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。
有了你的建议,这篇帖子会更精彩哦 💗