1 min read

无监督学习:SVD线性变换拆解与信息量化的深度

SVD(奇异值分解)是线性代数领域中,可适用于任意维度矩阵的分解方法。不同于仅能作用于特定方阵的特征分解,SVD可对任意m×n矩阵完成标准化拆解,将复杂的线性变换转化为可量化、可拆分的基础几何操作,是数据降维、信号去噪、数据压缩等工程场景的数学:基础。

一、SVD的核心分解结构

SVD的通用分解公式为:A = UΣVᵀ

其中,A为任意m×n的原始矩阵,U为m×m矩阵,Σ为与A同维度的m×n矩阵,Vᵀ为n×n矩阵。该公式将原始矩阵对应的线性变换,拆解为三个连续的基础操作,操作执行顺序为从右至左,对应Vᵀ、Σ、U的作用。

第一个操作由Vᵀ完成,作用于输入空间。Vᵀ对应的变换仅包含旋转或镜像,不会改变输入向量的长度,也不会改变向量间的夹角,全程无信息损失。该操作的核心作用,是将输入空间的标准坐标系,旋转至与矩阵变换的主方向对齐,为后续的缩放操作提供标准化的坐标体系。

第二个操作由Σ完成,是整个分解中唯一改变向量长度的环节。Σ为对角矩阵,仅对角线位置存在非零元素,其余位置元素均为0。对角线的非零元素被称为奇异值,按数值从大到小排列。该操作仅沿对齐后的坐标轴方向做拉伸或压缩,不会改变向量的方向,也不会产生额外的空间畸(jī)变。

第三个操作由U完成,作用于输出空间。与Vᵀ的特性一致,U对应的变换也仅包含旋转或镜像,不会改变向量长度与向量间的夹角,无信息损失。该操作的核心作用,是将经过缩放处理的向量,从中间主方向坐标系旋转至输出空间的标准坐标系,完成整个线性变换流程。

二、三个矩阵的正交性判定

正交矩阵的定义包含两个必要条件:第一,矩阵必须为行数与列数相等的方阵;第二,矩阵的转置与自身的乘积为单位矩阵,等价于矩阵的列向量两两正交,且每一列的L2范数等于1。正交矩阵对应的变换,仅能实现保长保角的旋转或镜像操作。

基于该定义,可对SVD分解的三个矩阵做明确判定:

U与V(Vᵀ为V的转置)均为方阵,且满足正交矩阵的核心性质,属于正交矩阵。正交矩阵的转置同样为正交矩阵,因此Vᵀ也符合正交矩阵的全部定义要求。

Σ不满足正交矩阵的定义要求。首先,Σ的维度与原始矩阵A一致,当A为非方阵时,Σ也为非方阵,不满足正交矩阵的前提条件;其次,即便A为方阵,Σ为对角方阵,其对角线的奇异值也几乎不可能全部为1,无法满足正交矩阵列向量范数为1的要求。从功能层面看,正交矩阵的核心是保长,而Σ的核心作用是改变向量长度,二者的核心功能存在本质差异。

三、奇异值的能量量化逻辑

矩阵的总能量,有严格的数学:定义,等于其Frobenius范数的平方。该数值与SVD分解得到的奇异值存在直接对应关系,即矩阵的Frobenius范数平方,等于所有奇异值的平方和,公式为:||A||_F² = σ₁² + σ₂² + ... + σ_r²,其中r为矩阵的秩(zhì),σ_i为第i个奇异值。

基于该公式,可计算单个奇异值对应的能量贡献占比,公式为:第i个奇异值的能量占比 = σ_i² / 所有奇异值的平方和。该占比可直接对应奇异值对应方向的信息含量。

在真实场景的有效数据中,奇异值普遍呈现快速衰减的特征,即前少数几个大奇异值,即可覆盖矩阵绝大部分的总能量。例如一组奇异值为10, 1, 0.1, 0.01,第一个奇异值的能量占比约为99%,仅前1个奇异值即可承载矩阵的核心信息。该特性为低秩近似、数据压缩、去噪等操作提供了理论支撑,通过保留前k个大奇异值、舍弃尾部小奇异值的方式,可在信息损失极小的前提下,实现数据的降维、压缩与去噪。

四、与方差分解的同源性

SVD的能量分解逻辑,与统计学中的方差分解存在高度同源性,核心都是对整体的变异量做成分拆解,量化不同成分的贡献度。

在主成分分析(PCA)中,方差分解的核心是将原始数据的总方差,拆解到各个主成分上,计算每个主成分的方差解释率。经过中心化处理的数据矩阵,其PCA的主成分对应SVD分解中的右奇异向量V,每个主成分解释的方差,与对应奇异值的平方直接相关,主成分的方差解释率公式,与SVD中奇异值的能量占比公式一致。二者的底层逻辑重合,PCA的方差分解,是SVD能量分解在统计学场景中的直接应用。

在向量自回归(VAR)模型中,方差分解的应用场景为时间序列分析,核心是将变量的总预测方差,拆解为系统内不同变量冲击的贡献度,量化不同冲击对变量波动的影响。该方法与SVD能量分解的应用场景、数学:对象存在差异,但核心思想同源,均为对整体变异量的成分拆解与贡献度量化。

五、近似方法的同构性:以开根号速算为例

舍弃微小项以实现简化的逻辑,并非SVD独有的策略,在数学的多个分支中均有体现。开根号速算方法提供了一个清晰的对照案例。

5.1 问题背景

在无计算器的场景下,快速估算非完全平方数的平方根具有实用价值。以估算√33为例,33介于25(5²)与36(6²)之间,需要找到其近似值。

5.2 核心方法:高阶小原理

该方法的操作步骤分为四步:

步骤一:找邻近完全平方数

已知36 = 6,且33接近36,推测√33 ≈ 5.x(因为5²=25,6²=36,33在25和36之间)。

步骤二:设未知数并展开平方

设√33 = 5+x,其中x是一个很小的数。对等式两边平方:

33 = (5+x)² = 25 + 10x + x²

步骤三:忽略微小项求解

因为x很小,x²的影响可以忽略。在√33的案例中,x≈0.8,x²≈0.64,其对整体方程的影响力仅约1.6%。因此近似为:

33 ≈ 25 + 10x

解得:10x = 33 - 25 = 8 ⟹ x = 0.8

步骤四:得出近似值

因此,√33 ≈ 5 + 0.8 = 5.8,且误差小于1%。

5.3 与SVD的同构性

开根号速算与SVD低秩近似的底层逻辑高度一致:

维度 SVD低秩近似 开根号速算
核心操作 舍弃尾部小奇异值 舍弃x²微小项
贡献度分析 前k个奇异值覆盖99%能量 10x项覆盖98.4%贡献
损失量化 舍弃部分的信息损失 x²项的误差约1.6%
工程价值 数据降维、压缩、去噪 无计算器时的快速估算

两种方法的本质相同:通过舍弃影响较小的成分,保留核心信息或主要效果,在可接受的误差范围内实现简化。

5.4 历史渊源

开根号速算的数学原理可追溯到线性近似与微分近似的思想,其理论基石可联系至牛顿迭代法与泰勒展开。牛顿迭代法(17世纪)通过迭代逐步逼近平方根的精确值,而开根号速算是其一阶近似的简化形式。这种方法属于近似思想在速算场景下的实用化演绎,并非由单独个体发明,而是数学近似方法的自然延伸。

SVD的低秩近似与开根号的线性近似,分属线性代数与微积分两个分支,但它们共享同一个工程思维:在精确性不是首要目标的场景下,通过结构化舍弃微小成分,实现效率的提升。这种思维在数据处理、数值计算、工程设计中广泛存在。

SVD的核心价值,在于将复杂的矩阵线性变换,拆解为三个无额外副作用的基础操作,同时通过奇异值实现了对矩阵信息的量化拆分。该特性让SVD可广泛应用于各类数据处理场景,成为线性代数在工程领域中应用范围最广的工具之一。而开根号速算等近似方法,则从另一个维度展示了舍弃微小项的工程逻辑,两者共同构成了数学近似方法在实践中的完整图景。