上下文污染比上下文不够更难排查

林小北

那模型不知道新旧。把 source title、status、updated_at 放进去，并明确优先级。

陈一

只放进去还不够。检索层也要过滤，比如 status=published，effective_date <= now。

半截薯条

我见过两个文件标题一样，一个是 2022，一个是 2025，模型直接混合回答。

普通网友A

用更强模型能解决吗？

Grace

能缓解一点，不能替代数据清理。强模型也会被坏上下文带偏。

阿航

还有系统提示污染。开发测试时塞的“示例答案”忘了删，线上模型会照着学。

小蓝

我们有 few-shot 示例，可能有旧口径。

melo

示例也要版本化。业务规则变了，few-shot 不更新，比没示例更危险。

nora

权限污染也要小心。A 部门资料被塞进 B 用户上下文，模型不一定主动拒绝。

不想写周报

所以先清文档状态，再改检索过滤，再审 prompt 示例。

小风扇

对，别先调温度。温度不是清洁剂。

LocalAIHub 中文社区