多头注意力
- class torch.ao.nn.quantizable.MultiheadAttention(embed_dim, num_heads, dropout=0.0, bias=True, add_bias_kv=False, add_zero_attn=False, kdim=None, vdim=None, batch_first=False, device=None, dtype=None)[source][source]¶
- forward(query, key, value, key_padding_mask=None, need_weights=True, attn_mask=None, average_attn_weights=True, is_causal=False)[source][source]¶
- 注意:::
请参阅forward()
获取更多信息
- 参数:
query (Tensor) – 将查询和一组键值对映射到输出。详见“Attention Is All You Need”。
key (Tensor) – 将查询和一组键值对映射到输出。详见“Attention Is All You Need”获取更多详情。
value (Tensor) – 将查询和一组键值对映射到输出。详见“Attention Is All You Need”获取更多详情。
key_padding_mask (Optional[Tensor]) – 如果提供,指定在键中的填充元素将由注意力忽略。当给定二进制掩码且值为 True 时,对应于注意力层的值将被忽略。
need_weights (bool) – 输出 attn_output_weights。
attn_mask(可选[Tensor])- 2D 或 3D 掩码,用于阻止对某些位置的注意力。2D 掩码将广播到所有批次,而 3D 掩码允许为每个批次的条目指定不同的掩码。
- 返回类型:
tuple[torch.Tensor, Optional[torch.Tensor]]
- 形状:
输入:
query: 其中 L 是目标序列长度,N 是批次大小,E 是嵌入维度。 如果
batch_first
是True
。key: ,其中 S 为源序列长度,N 为批大小,E 为嵌入维度。 如果
batch_first
是True
。value: 其中 S 为源序列长度,N 为批大小,E 为嵌入维度。 如果
batch_first
是True
。key_padding_mask: 其中 N 为批大小,S 为源序列长度。如果提供一个布尔张量,则值为
True
的位置将被忽略,而值为False
的位置将保持不变。attn_mask: 2D mask 其中 L 为目标序列长度,S 为源序列长度。3D mask 其中 N 为批大小,L 为目标序列长度,S 为源序列长度。attn_mask 确保位置 i 可以关注未掩码的位置。如果提供一个布尔张量,则值为
True
的位置不允许关注,而False
值将保持不变。如果提供一个浮点张量,它将被添加到注意力权重中。如果指定,则应用因果掩码作为注意力掩码。与提供 attn_mask 互斥。默认:
False
。average_attn_weights:如果为 true,表示返回的
attn_weights
将在头部之间平均。否则,提供每个头部的attn_weights
。注意,此标志仅在need_weights=True.
时才有效。默认:True(即在头部之间平均权重)输出:
attn_output: ,其中 L 是目标序列长度,N 是批次大小,E 是嵌入维度。 如果
batch_first
是True
。attn_output_weights:如果
average_attn_weights=True
,则返回平均头部注意力的形状为 ,其中 N 是批次大小,L 是目标序列长度,S 是源序列长度。如果average_attn_weights=False
,则返回每个头部的注意力权重形状为 。