torch.linalg.svd¶
- torch.linalg.svd(A, full_matrices=True, *, driver=None, out=None)¶
计算矩阵的奇异值分解(SVD)
设 为 或 ,当 k = min(m,n)时,矩阵 的满秩奇异值分解(SVD)定义为
其中,当 为复数时, 和 是共轭转置,当 为实数时,是转置。在实数情况下,矩阵 、 (以及 )是正交的,在复数情况下是酉的。
当 m > n(或 m < n)时,我们可以去掉 U(或 V)的最后一个 m - n(或 n - m)列,以形成降秩 SVD:
其中, 。在这种情况下, 和 也具有正交归一列。
支持输入 float、double、cfloat 和 cdouble 数据类型。也支持矩阵批处理,如果
A
是矩阵批,则输出具有相同的批维度。返回的分解是一个命名元组(U,S,Vh),对应于上面的 , , 。
奇异值按降序返回。
参数
full_matrices
在完整(默认)和简化 SVD 之间进行选择。CUDA 中使用 cuSOLVER 后端时,可以通过
driver
kwarg 来选择用于计算 SVD 的算法。驱动程序的选择是精度和速度之间的权衡。如果
A
是良态的(其条件数不是太大),或者你不在乎一些精度损失。对于一般矩阵:‘gesvdj’(Jacobi 方法)
如果
A
是高或宽(m >> n 或 m << n):‘gesvda’(近似方法)
如果
A
条件不佳或精度相关:‘gesvd’(基于 QR)
默认情况下(
driver
= None),我们调用‘gesvdj’,如果失败,则回退到‘gesvd’。与 numpy.linalg.svd 的区别:
与 numpy.linalg.svd 不同,此函数总是返回三个张量的元组,并且不支持 compute_uv 参数。请使用
torch.linalg.svdvals()
,它仅计算奇异值,而不是 compute_uv=False。
注意
当
full_matrices
= True 时,将忽略与 U[…, :, min(m, n):]和 Vh[…, min(m, n):, :]相关的梯度,因为这些向量可以是相应子空间的任意基。警告
返回的张量 U 和 V 不是唯一的,它们与
A
也不连续。由于这种非唯一性,不同的硬件和软件可能计算不同的奇异向量。这种非唯一性是由以下事实引起的:在实数情况下,将任意一对单向量 乘以-1,或在复数情况下乘以 ,会产生矩阵的另一对有效单向量。因此,损失函数不应依赖于这个 量,因为它没有明确定义。当计算该函数的梯度时,会检查复数输入。因此,当输入是复数且位于 CUDA 设备上时,该函数梯度的计算将同步该设备与 CPU。
警告
使用 U 或 Vh 计算的梯度只有在
A
没有重复的单值时才是有限的。如果A
是矩形的,此外,零也不能是其单值之一。此外,如果任何两个单值之间的距离接近零,梯度将数值不稳定,因为它依赖于通过计算 的单值 。在矩形情况下,当A
具有小的单值时,梯度也将数值不稳定,因为它也依赖于计算 。参见
torch.linalg.svdvals()
仅计算单值。与torch.linalg.svd()
不同,svdvals()
的梯度始终是数值稳定的。用于计算矩阵另一种类型谱分解的函数。特征值分解仅适用于方阵。
torch.linalg.eigh()
用于计算厄米矩阵和对称矩阵的特征值分解的(更快)函数。torch.linalg.qr()
用于另一种(更快)的分解,适用于一般矩阵。- 参数:
A(张量)- 形状为(*, m, n)的张量,其中*表示零个或多个批处理维度。
full_matrices (布尔值,可选) – 控制是否计算全 SVD 或降阶 SVD,从而确定返回的张量 U 和 Vh 的形状。默认:True。
- 关键字参数:
driver (字符串,可选) – 要使用的 cuSOLVER 方法的名称。此关键字参数仅在 CUDA 输入上有效。可用选项有:None,gesvd,gesvdj 和 gesvda。默认:None。
out (元组,可选) – 三个张量的输出元组。如果为 None,则忽略。
- 返回值:
与上面提到的 、 、 对应的命名元组 (U, S, Vh)。
即使
A
是复数,S 也始终是实值。它也将按降序排列。U 和 Vh 将具有与
A
相同的数据类型。左/右奇异向量将由 U 的列和 Vh 的行给出。
示例:
>>> A = torch.randn(5, 3) >>> U, S, Vh = torch.linalg.svd(A, full_matrices=False) >>> U.shape, S.shape, Vh.shape (torch.Size([5, 3]), torch.Size([3]), torch.Size([3, 3])) >>> torch.dist(A, U @ torch.diag(S) @ Vh) tensor(1.0486e-06) >>> U, S, Vh = torch.linalg.svd(A) >>> U.shape, S.shape, Vh.shape (torch.Size([5, 5]), torch.Size([3]), torch.Size([3, 3])) >>> torch.dist(A, U[:, :3] @ torch.diag(S) @ Vh) tensor(1.0486e-06) >>> A = torch.randn(7, 5, 3) >>> U, S, Vh = torch.linalg.svd(A, full_matrices=False) >>> torch.dist(A, U @ torch.diag_embed(S) @ Vh) tensor(3.0957e-06)