快捷键

展开 ¶

class torch.nn.Unfold(kernel_size, dilation=1, padding=0, stride=1)[source][source]

从批处理的输入张量中提取滑动局部块。

考虑一个形状为 (N,C,)(N, C, *) 的批处理 input 张量,其中 NN 是批处理维度, CC 是通道维度, * 代表任意空间维度。此操作将空间维度中的每个滑动 kernel_size -大小的块展平为一个 3-D output 张量的列(即最后一个维度),形状为 (N,C×(kernel_size),L)(N, C \times \prod(\text{kernel\_size}), L) ,其中 C×(kernel_size)C \times \prod(\text{kernel\_size}) 是每个块中的值总数(一个块有 (kernel_size)\prod(\text{kernel\_size}) 个空间位置,每个位置包含一个 CC -通道的向量), LL 是此类块的总数:

L=dspatial_size[d]+2×padding[d]dilation[d]×(kernel_size[d]1)1stride[d]+1,L = \prod_d \left\lfloor\frac{\text{spatial\_size}[d] + 2 \times \text{padding}[d] % - \text{dilation}[d] \times (\text{kernel\_size}[d] - 1) - 1}{\text{stride}[d]} + 1\right\rfloor,

其中 spatial_size\text{spatial\_size}input 的空间维度( * 之上)形成, dd 是所有空间维度的总和。

因此,在最后一个维度(列维度)上索引 output 可以得到某个块内的所有值。

paddingstridedilation 参数指定了如何检索滑动块。

  • stride 控制滑动块的步长。

  • padding 控制在重塑之前,每个维度上的点数两侧的隐式零填充的数量。

  • dilation 控制内核点之间的间距;也称为à trou 算法。描述起来比较困难,但这个链接有一个很好的可视化说明 dilation 的作用。

参数:
  • kernel_size (int 或元组) – 滑动块的大小

  • 扩展 (int 或元组,可选) – 控制邻域内元素步长的参数。默认:1

  • 填充 (int 或元组,可选) – 在输入两侧添加的隐式零填充。默认:0

  • 步长(int 或元组,可选)- 输入空间维度中滑动块的步长。默认:1

  • 如果 kernel_sizedilationpaddingstride 是整数或长度为 1 的元组,它们的值将在所有空间维度上复制。

  • 对于两个输入空间维度的情况,此操作有时被称为 im2col

注意

Fold 通过将所有包含的块中的所有值相加来计算结果大张量中的每个组合值。 Unfold 通过从大张量中复制值来提取局部块中的值。因此,如果块重叠,它们不是彼此的逆。

通常,折叠和展开操作之间的关系如下。考虑使用相同参数创建的 FoldUnfold 实例:

>>> fold_params = dict(kernel_size=..., dilation=..., padding=..., stride=...)
>>> fold = nn.Fold(output_size=..., **fold_params)
>>> unfold = nn.Unfold(**fold_params)

然后,对于任何(支持的) input 张量,以下等式成立:

fold(unfold(input)) == divisor * input

其中 divisor 是一个只依赖于形状和数据类型的张量:

>>> input_ones = torch.ones(input.shape, dtype=input.dtype)
>>> divisor = fold(unfold(input_ones))

divisor 张量不包含零元素时, foldunfold 操作互为逆运算(除以常数因子)。

警告

目前仅支持 4-D 输入张量(批量的图像类张量)。

形状:
  • 输入: (N,C,)(N, C, *)

  • 输出:如上所述的 (N,C×(kernel_size),L)(N, C \times \prod(\text{kernel\_size}), L)

示例:

>>> unfold = nn.Unfold(kernel_size=(2, 3))
>>> input = torch.randn(2, 5, 3, 4)
>>> output = unfold(input)
>>> # each patch contains 30 values (2x3=6 vectors, each of 5 channels)
>>> # 4 blocks (2x3 kernels) in total in the 3x4 input
>>> output.size()
torch.Size([2, 30, 4])

>>> # Convolution is equivalent with Unfold + Matrix Multiplication + Fold (or view to output shape)
>>> inp = torch.randn(1, 3, 10, 12)
>>> w = torch.randn(2, 3, 4, 5)
>>> inp_unf = torch.nn.functional.unfold(inp, (4, 5))
>>> out_unf = inp_unf.transpose(1, 2).matmul(w.view(w.size(0), -1).t()).transpose(1, 2)
>>> out = torch.nn.functional.fold(out_unf, (7, 8), (1, 1))
>>> # or equivalently (and avoiding a copy),
>>> # out = out_unf.view(1, 2, 7, 8)
>>> (torch.nn.functional.conv2d(inp, w) - out).abs().max()
tensor(1.9073e-06)

© 版权所有 PyTorch 贡献者。

使用 Sphinx 构建,并使用 Read the Docs 提供的主题。

文档

PyTorch 的全面开发者文档

查看文档

教程

深入了解初学者和高级开发者的教程

查看教程

资源

查找开发资源并获得您的疑问解答

查看资源