Golden Set 到底要多大，20 条够不够

Grace

20 条可以作为起步烟测，不够做上线判断。

陈一

看场景复杂度。如果只是固定流程问答，几十条能发现很多问题。如果是企业知识库，至少要覆盖部门、权限、过期文档、模糊问法。

小郑

我们是制度问答，HR、财务、行政都有。

melo

那我会拆：事实题、流程题、权限题、时间版本题、冲突资料题、无法回答题。每类至少十几条。

小蓝

别忘了“问题问得很烂”的样例。真实用户不会按文档标题提问。

半截薯条

还有错别字、简称、口语。比如“报销那个票丢了咋办”。

普通网友A

Golden Set 是不是越多越好？

林小北

不是。太多没人维护。先做 100 条高价值样例，比 1000 条没人看的强。

nora

样例还要更新。制度变了，Golden Set 也要跟着变，不然会把正确答案判错。

阿航

建议分两层：小集每天跑，大集发布前跑。小集 30-50，大集 200 左右。

小郑

这个比较实际。我们先做小集，再慢慢扩。

小吴

还有记录来源。每条标准答案要能指到制度原文，不然评测也会变玄学。

Grace

对，Golden Set 不是题库，是业务标准的一部分。

小郑

明白。20 条先当烟测，不拿来证明上线质量。

LocalAIHub 中文社区