读 Transformer 论文，对做应用到底有什么用

melo

可以不死磕公式。先看输入怎么变成 token embedding，再看 self-attention 为什么每个位置要看其他位置。

阿航

做应用最有用的是：你会少说一些玄学话。比如“把全部历史都塞进去不就好了”，读完会知道代价在哪。

小满

我读完最大感受是，模型不是数据库。它会生成，不是查表。

半截薯条

这句话适合贴在每个 RAG 项目门口。

普通网友A

那是不是还要读 BERT、GPT、MoE？

陈一

看需要。Transformer 原论文是地基；BERT/GPT 关系到预训练范式；MoE 关系到大模型扩展。应用开发不用全读，但别完全不碰。

小吴

我会建议团队做论文读书会，但目标不是学术汇报，是回答工程问题：为什么慢、为什么贵、为什么会忘。

Luna

还有一个好处：能分辨供应商 PPT。很多“突破上下文限制”的说法，一问机制就露馅。

小李不困

这样说我有动力了。先读结构和动机，不从公式开始。

nora

对。论文不是考试材料，是减少工程误判的工具。

米饭

读完记得回来说哪段最卡。很多人都是卡在同几个地方。

LocalAIHub 中文社区