Transformer
2026年4月6日大约 2 分钟
Transformer
Transformer是目前最流行的深度学习架构之一,广泛应用于大语言模型(LLM)和计算机视觉等领域。
它的核心创新在于引入了自注意力机制(Self-Attention),使得模型能够更好地捕捉输入数据中的长距离依赖关系。
要明白Transformer 的原理,可以把 Transformer 拆解为5个关键步骤:
输入处理、特征提取、非线性变换、稳定训练 和 输出生成。
输入处理
前置知识
token
Token:是文本预处理过程中的基本单元,代表文本中的最小有意义部分。Token可以是单词、字符、词组等。
- 具体如何划分如何取决于分词器(Tokenizer)。
tokenization 分词
Tokenization:将文本转换为Token的过程。如何划分Token取决于分词器(Tokenizer)的设计。
- 分词是文本预处理的第一步,为了让计算机能够理解,还需要将分词结果转化为数字,即Token ID,模型内部一般都会内置词汇表与 Token ID 映射的编码表。
vectorization 向量化
Vectorization:向量化是将非结构化数据(如文本、图像、声音等)转换为数值向量的过程。
- 但是由于传统向量存在语义缺失、稀疏等问题,因此我们需要使用嵌入(Embedding) 来将离散的Token转换为连续的向量表示。
embedding 嵌入
Embedding:Embedding 是更高级的向量化,它将token ID转换成一个高维向量,这个向量代表了词的语义。
输入处理流程
计算机看不懂文字,只能看懂数字。
- 分词(Tokenization):将输入文本分割成Token,再将每个Token转换为对应的Token ID。
- 词嵌入(Word Embedding):将Token ID转换为一个高维向量,这个向量包含了词的语义信息。
- 位置编码(Positional Encoding):因为 Transformer 是一次性并行读取所有词,会打乱顺序,
因此需要引入“位置向量”(利用正弦和余弦函数生成)来表示其位置信息。