日期:2025-06-28 09:26:29

解码组件的输出是一个实数的向量,我们如何能够把这些浮点数变成一个单词?这便是后面的 linear+softmax 模块需要做的。
线性变换层是一个简单的全连接层神经网络,它可以把 Decoder 产生的向量矩阵投射到一个比它大的多的一个被称为 对数几率的向量 里(logits, 维度为 vocab_size), 表示模型对每个词汇的 “原始分数” 。 例如,词表有 30000 个词,则输出一个 30000 维的向量,并且每个单元格里都对应某一个单词的分数。
最后会通过 softmax 层,把这些分数转换成概率信息, 概率最高的单元格 则会被选中,并且它对应的单词作为 这个时间步的输出 ,具体流程如下图所示。
发布于:湖南省广盛网提示:文章来自网络,不代表本站观点。