典型相关分析
典型相关分析 (Canonical Correlation Analysis ,CCA)
是为了研究两组变量(向量)之间的关联关系,其目的是找出两组变量的各自的
\(r\)
组线性组合,线性组合的相关性从大到小排列,以主成分思想衡量两组变量之间的线性关系。
\[[\boldsymbol{x}_1,\boldsymbol{x}_2,\dotsb,\boldsymbol{x}_p] , [\boldsymbol{y}_1,\boldsymbol{y}_2,\dotsb,\boldsymbol{y}_q]\]
首先分别在每组变量中找出第 \(k\) 对线性组合,使其具有第 \(k\) 大最大相关性,即
\[\left\{\begin{matrix} \boldsymbol{u}_k=\alpha_{k1}\boldsymbol{x}_1+\alpha_{k2}\boldsymbol{x}_2+\dotsb+\alpha_{kp}\boldsymbol{x}_p\\ \boldsymbol{v}_k=\alpha_{k1}\boldsymbol{y}_1+\alpha_{k2}\boldsymbol{y}_2+\dotsb+\alpha_{kq}\boldsymbol{y}_q \end{matrix}\right. \] \[\left(k=1,2,\dotsb,r \small \leqslant \min(p,q)\right)\]
其中 \(\boldsymbol{u}_k\) 与 \(\boldsymbol{u}_1,\boldsymbol{u}_2,\dots,\boldsymbol{u}_{k-1}\) 线性无关, \(\boldsymbol{v}_k\) 与 \(\boldsymbol{v}_1,\boldsymbol{v}_2,\dots,\boldsymbol{v}_{k-1}\) 线性无关,且相关性从小到大依次排列。
典型相关分析数学模型
典型相关和典型相关变量定义
设两组随机变量为 \(\small \boldsymbol{X}=[\boldsymbol{x}_1,\boldsymbol{x}_2,\dotsb,\boldsymbol{x}_p]^T , \boldsymbol{Y}=[\boldsymbol{y}_1,\boldsymbol{y}_2,\dotsb,\boldsymbol{y}_q]^T\) 。我们希望找到 \(\small \boldsymbol{\alpha}=[\alpha_1,\dotsb,\alpha_p] ,\boldsymbol{\beta}=[\beta_1,\dotsb,\beta_p]\) 使得 \(\small \rho(\boldsymbol{\alpha}\boldsymbol{X},\boldsymbol{\beta}\boldsymbol{Y})\) 最大。由相关系数定义:
\[\rho\left(\boldsymbol{\alpha X}, \boldsymbol{\beta Y}\right)=\frac{\operatorname{Cov}\left(\boldsymbol{\alpha X},\boldsymbol{ \beta Y}\right)}{\sqrt{\operatorname{Var}\left(\boldsymbol{\alpha X}\right)} \sqrt{\operatorname{Var}\left(\boldsymbol{\beta Y}\right)}}\]
对于任意常数 \(k_1,k_2,c_1,c_2\) 有 \[\rho(k_1\boldsymbol{\alpha X}+c_1,k_2\boldsymbol{\beta Y}+c_2)=\rho(\boldsymbol{\alpha X},\boldsymbol{\beta Y})\]
说明 \(\boldsymbol{\alpha X},\boldsymbol{\beta Y}\) 不唯一,故限定 \(\small{Var}(\boldsymbol{\alpha X})=1,Var(\boldsymbol{\beta Y})=1\) 即满足与协方差矩阵的关系 \(\small \boldsymbol{\alpha}\boldsymbol{\Sigma}_{\tiny \boldsymbol{XX}}\boldsymbol{\alpha}^T=1,\boldsymbol{\beta}\boldsymbol{\Sigma}_{\tiny \boldsymbol{YY}}\boldsymbol{\beta}^T=1\) 。
如果存在 \(\boldsymbol{\alpha}_k=[\alpha_{k1},\alpha_{k2},\dotsb,\alpha_{kp}],\boldsymbol{\beta}_k=[\beta_{k1},\beta_{k2},\dotsb,\beta_{kq}]\) 使得
$$ { \[\begin{array}{l} \rho(\boldsymbol{\alpha}_k\boldsymbol{X},\boldsymbol{\alpha}_j\boldsymbol{X})=0,\rho(\boldsymbol{\beta}_k\boldsymbol{Y},\boldsymbol{\beta}_j\boldsymbol{Y})=0,\small j=1,2,\dots,k-1&\\ \rho(\boldsymbol{\alpha}_k\boldsymbol{X},\boldsymbol{\beta}_k\boldsymbol{Y})=\max_{} \rho(\boldsymbol{\alpha}\boldsymbol{X},\boldsymbol{\beta}\boldsymbol{Y}) < \rho(\boldsymbol{\alpha}_{k-1}\boldsymbol{X},\boldsymbol{\beta}_{k-1}\boldsymbol{Y})\\ \boldsymbol{\alpha}_k\boldsymbol{\Sigma}_{\tiny \boldsymbol{XX}}\boldsymbol{\alpha}_k^T=1,\boldsymbol{\beta}_k\boldsymbol{\Sigma}_{\tiny \boldsymbol{YY}}\boldsymbol{\beta}_k^T=1\\ \end{array}\]. $$
则称 \(\boldsymbol{\alpha}_k\boldsymbol{X},\boldsymbol{\beta}_k\boldsymbol{Y}\) 是 \(\boldsymbol{X},\boldsymbol{Y}\) 的第 \(k\) 对(组)典型相关变量,他们之间的相关系数称之为第 \(k\) 个典型相关系数 \(\small \left(k=1,2,\dots,min(p,q)\right)\)。
典型相关变量的解法
将两组变量的协方差矩阵分块得
\[Cov\begin{bmatrix}\boldsymbol{X} \\ \boldsymbol{Y} \\\end{bmatrix} =\begin{bmatrix} Var(\boldsymbol{X}) & Cov(\boldsymbol{X},\boldsymbol{Y}) \\ Cov(\boldsymbol{Y},\boldsymbol{X}) & Var(\boldsymbol{Y}) \\ \end{bmatrix} =\begin{bmatrix} \boldsymbol{\Sigma_{XX}} & \boldsymbol{\Sigma_{XY}} \\ \boldsymbol{\Sigma_{YX}} & \boldsymbol{\Sigma_{YY}} \\ \end{bmatrix}\]
此时
\[\rho(\boldsymbol{u},\boldsymbol{v})=\frac{Cov(\boldsymbol{\alpha X},\boldsymbol{\beta Y})}{\sqrt{D(\boldsymbol{\alpha X})}\sqrt{D(\boldsymbol{\beta Y})}}=\boldsymbol{\alpha\Sigma_{\tiny XY}\beta^T}\]
此问题转换为在 \(\small \boldsymbol{\alpha}\boldsymbol{\Sigma}_{\tiny \boldsymbol{XX}}\boldsymbol{\alpha}^T=1,\boldsymbol{\beta}\boldsymbol{\Sigma}_{\tiny \boldsymbol{YY}}\boldsymbol{\beta}^T=1\) 条件下求 \(\small \boldsymbol{\alpha\Sigma_{\tiny XY} \beta^T}\) 的极大值。
引入拉格朗日乘数 \(\lambda,\omega\) 即问题为求下式的最大值。
\[S(\boldsymbol{\alpha},\boldsymbol{\beta})=\boldsymbol{\alpha\Sigma_{\tiny XY} \beta^T}-\frac{\lambda}{2}(\boldsymbol{\alpha}\boldsymbol{\Sigma}_{\tiny \boldsymbol{XX}}\boldsymbol{\alpha}^T-1)-\frac{\omega}{2}(\boldsymbol{\beta}\boldsymbol{\Sigma}_{\tiny \boldsymbol{YY}}\boldsymbol{\beta}^T-1)\]
由极值的必要条件得到偏导方程组
\[\left\{\begin{matrix} \frac{\partial S}{\partial \boldsymbol{\alpha }}=\boldsymbol{\Sigma_{\tiny XY}\beta }-\lambda \boldsymbol{\Sigma_{\tiny XX}\alpha }=0\\ \frac{\partial S}{\partial \boldsymbol{\beta }}=\boldsymbol{\Sigma_{\tiny YX}\alpha }-\omega \boldsymbol{\Sigma_{\tiny YY}\beta }=0\\ \end{matrix}\right.\]
\[\left\{\begin{matrix} \left(\boldsymbol{\Sigma_{XY}}\boldsymbol{\Sigma_{YY}^{-1}}\boldsymbol{\Sigma_{YX}}-\lambda^2\boldsymbol{\Sigma_{XX}}\right)\boldsymbol{\alpha}=0\\ \left(\boldsymbol{\Sigma_{YX}}\boldsymbol{\Sigma_{XX}^{-1}}\boldsymbol{\Sigma_{XY}}-\lambda^2\boldsymbol{\Sigma_{YY}}\right)\boldsymbol{\beta}=0\\ \end{matrix}\right.\]
记
\[M_1=\boldsymbol{\Sigma_{XX}^{-1}}\boldsymbol{\Sigma_{XY}}\boldsymbol{\Sigma_{YY}^{-1}}\boldsymbol{\Sigma_{YX}},M_{2}=\boldsymbol{\Sigma_{YY}^{-1}}\boldsymbol{\Sigma_{YX}}\boldsymbol{\Sigma_{XX}^{-1}}\boldsymbol{\Sigma_{XY}}\]
得
\[M_1\boldsymbol{\alpha}=\lambda^2\boldsymbol{\alpha},M_2\boldsymbol{\beta}=\lambda^2\boldsymbol{\beta}\]
记 \(\small T=\boldsymbol{\Sigma_{XX}^{-1/2}\Sigma_{XY}\Sigma_{YY}^{-1/2}}\) 有 \(\small M_1=TT^{\prime},M_2=T^{\prime}T\) 故 \(M_1,M_2\) 有相同的非零特征值
说明 \(\lambda^2\) 既是 \(M_1\) 又是 \(M_2\) 的特征根, \(\boldsymbol{\alpha},\boldsymbol{\beta}\) 是对应的特征向量, \(M_1,M_2\) 的特征根非负数且在区间 \([0,1]\) 上,非零特征根的数量不妨设为 \(\small r=\min(p,q)\)。
设特征根排列为 \(\small \lambda_1^2 \ge \lambda_2^2 \ge \dotsb \ge \lambda_r^2\) 其余特征根为 \(0\) ,称 \(\lambda_1,\lambda_2,\dotsb,\lambda_r\) 为典型相关系数。对应从 \(\small M_1\boldsymbol{\alpha}=\lambda^2\boldsymbol{\alpha}\) 解出的特征向量为 \(\small \boldsymbol{\alpha}_1,\dotsb,\boldsymbol{\alpha}_r\) ;从 \(\small M_2\boldsymbol{\beta}=\lambda^2\boldsymbol{\beta}\) 解出的特征向量为 \(\small \boldsymbol{\beta}_1,\dotsb,\boldsymbol{\beta}_r\) 。可得到 \(\boldsymbol{u_k}\) \(\boldsymbol{v_k}\) 的线性组合: \[\boldsymbol{u}_k=\boldsymbol{\alpha}_k\boldsymbol{X},\boldsymbol{v}_k=\boldsymbol{\beta}_k\boldsymbol{X},k=1,2,\dotsb,r,\]
满足:
\[Cov(\boldsymbol{u}_i,\boldsymbol{u}_j)=0,Cov(\boldsymbol{v}_i,\boldsymbol{v}_j)=0,{\small i \ne j}\\ Cov(\boldsymbol{u}_i,\boldsymbol{v}_i)=\lambda_i,Cov(\boldsymbol{u}_i,\boldsymbol{v}_j)=0,\small i \ne j \]
样本典型相关分析步骤
设样本总体 \(\small \boldsymbol{Z}=[\boldsymbol{x}_1,\dotsb,\boldsymbol{x}_p,\boldsymbol{y}_1,\dotsb,\boldsymbol{y}_q]^T\)
对于每次观测
\[Z_{(t)}=\left[\begin{array}{l} \boldsymbol{X}_{(t)} \\ \boldsymbol{Y}_{(t)} \end{array}\right]_{(p+q) \times 1} \quad(t=1,2, \cdots, n)\]
于是样本数据矩阵为
\[\left(\left[\begin{array}{cccc:cccc} x_{11} & x_{21} & \cdots & x_{p1} & y_{11} & y_{21} & \cdots & y_{q1} \\ x_{12} & x_{22} & \cdots & x_{p2} & y_{12} & y_{22} & \cdots & y_{q2} \\ \vdots & \vdots & & \vdots & \vdots & \vdots & & \vdots \\ x_{1n} & x_{2n} & \cdots & x_{pn} & y_{1n} & y_{2n} & \cdots & y_{qn} \end{array}\right]^T\right)_{(p+q)\times n}\]
协方差矩阵的无偏估计为
\[\boldsymbol{\hat{\Sigma}}=\frac{1}{n-1} \sum_{t=1}^{n}\left(Z_{(t)}-\bar{Z}\right)\left(Z_{(t)}-\bar{Z}\right)^{\prime}\]
其中 \(\bar{Z}=\frac{1}{n}\sum\limits_{i=1}^nX_{(i)}\)
记样本矩阵 \(\boldsymbol{Z}_{\tiny (p+q)\times n}\) 每个元素减去每一行的平均值得到矩阵 \(\boldsymbol{Z}^*_{\tiny (p+q)\times n}\)
\[\boldsymbol{\hat{\Sigma}}=\frac{1}{n-1}\boldsymbol{Z}^*(\boldsymbol{Z}^*)^T=\left[\begin{array}{c:c} \boldsymbol{\hat{\Sigma}_{\tiny XX}} & \boldsymbol{\hat{\Sigma}_{\tiny XY}} \\ \hdashline \boldsymbol{\hat{\Sigma}_{\tiny Y X}} & \boldsymbol{\hat{\Sigma}_{\tiny YY}} \end{array}\right]\begin{array}{c} \tiny p\\ \tiny q \end{array}\]
样本典型相关变量和系数
以下用 \(\boldsymbol{\hat{\Sigma}}\) 替换 \(\boldsymbol{\Sigma}\) 。
- 方法一
记
\[M_1=\boldsymbol{\Sigma_{XX}^{-1}}\boldsymbol{\Sigma_{XY}}\boldsymbol{\Sigma_{YY}^{-1}}\boldsymbol{\Sigma_{YX}}\\M_{2}=\boldsymbol{\Sigma_{YY}^{-1}}\boldsymbol{\Sigma_{YX}}\boldsymbol{\Sigma_{XX}^{-1}}\boldsymbol{\Sigma_{XY}}\]
分别求出 \(M_1,M_2\) 的特征值与特征向量,特征值从大到小排列为 \(\lambda_1^2,\lambda_2^2,\dots\) ,其对应的特征向量分别为 \((\boldsymbol{\alpha}_1,\boldsymbol{\alpha}_2,\dots)\) 和 \((\boldsymbol{\beta}_1,\boldsymbol{\beta}_2,\dots)\)
- 方法二
令 \(T=\boldsymbol{\Sigma_{XX}^{-1/2}\Sigma_{XY}\Sigma_{YY}^{-1/2}}\) ,计算 \(TT^{\prime}\) 的特征值从大到小排列为 \(\lambda_1^2,\lambda_2^2,\dots\) ,记 \(\boldsymbol{l}_k\) 为 \(TT^{\prime}\) 的特征根 \(\lambda_k^2\) 对应的单位正交特征向量。令
\[\left\{\begin{array}{c} \boldsymbol{\alpha}_k=\boldsymbol{\Sigma_{\tiny XX}^{-1/2}}\boldsymbol{l}_k,\\ \boldsymbol{\beta}_k=\lambda_k^{-1}\boldsymbol{\Sigma_{\tiny YY}^{-1}\Sigma_{YX}}\boldsymbol{\alpha}_k, \end{array}\right.\]
原始变量与典型变量相关性
原始变量与典型变量的相关系数
\[ \begin{array}{l} \rho\left(\boldsymbol{x}_{i}, \boldsymbol{u}_{j}\right)=\sum\limits_{k=1}^{p} \alpha_{k j} \operatorname{Cov}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{k}\right) / \sqrt{D\left(\boldsymbol{x}_{i}\right)}, j=1, \cdots, s_{\circ} \\ \rho\left(\boldsymbol{x}_{i}, \boldsymbol{v}_{j}\right)=\sum\limits_{k=1}^{q} \beta_{k j} \operatorname{Cov}\left(\boldsymbol{x}_{i}, \boldsymbol{y}_{k}\right) / \sqrt{D\left(\boldsymbol{x}_{i}\right)}, j=1, \cdots, s, \\ \rho\left(\boldsymbol{y}_{i}, \boldsymbol{u}_{j}\right)=\sum\limits_{k=1}^{p} \alpha_{k j} \operatorname{Cov}\left(\boldsymbol{y}_{i}, \boldsymbol{x}_{k}\right) / \sqrt{D\left(\boldsymbol{y}_{i}\right)}, j=1, \cdots, s, \\ \rho\left(\boldsymbol{y}_{i}, \boldsymbol{v}_{j}\right)=\sum\limits_{k=1}^{q} \beta_{k j} \operatorname{Cov}\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{k}\right) / \sqrt{D\left(\boldsymbol{y}_{i}\right)}, j=1, \cdots, s_{\circ} \end{array} \]
各组原始变量被典型变量所解释的方差比例
原始变量 \(\boldsymbol{X}\) 被 \(\boldsymbol{u}_i\) 解释的方差比例 \[m_{u_i}=\sum_{k=1}^p\rho^2(\boldsymbol{u}_i,\boldsymbol{x}_k)/p\]
原始变量 \(\boldsymbol{X}\) 被 \(\boldsymbol{v}_i\) 解释的方差比例 \[m_{v_i}=\sum_{k=1}^p\rho^2(\boldsymbol{v}_i,\boldsymbol{x}_k)/p\]
原始变量 \(\boldsymbol{Y}\) 被 \(\boldsymbol{u}_i\) 解释的方差比例 \[n_{u_i}=\sum_{k=1}^q\rho^2(\boldsymbol{u}_i,\boldsymbol{y}_k)/q\]
原始变量 \(\boldsymbol{Y}\) 被 \(\boldsymbol{v}_i\) 解释的方差比例 \[n_{v_i}=\sum_{k=1}^q\rho^2(\boldsymbol{v}_i,\boldsymbol{y}_k)/q\]
样本典型相关系数显著性检验
整体检验
\[H_0:\lambda_1=\lambda_2=\dotsb=\lambda_r=0\quad ,{\tiny即\boldsymbol{\Sigma_{\tiny XY}}=0}\\ H_1:\lambda_i \small(i=1,2,\dots,r)中至少有一个非0,{\tiny即\boldsymbol{\Sigma_{\tiny XY}}\ne0}\]
记 \[\Lambda_{1}=\frac{|\hat{\boldsymbol{\Sigma}}|}{\left|\hat{\boldsymbol{\Sigma}}_{X X}\right|\left|\hat{\boldsymbol{\Sigma}}_{Y Y}\right|}\\\] 得 \[\Lambda_{1}=\left|\boldsymbol{I}_{p}-\hat{\boldsymbol{\Sigma}}_{X X}^{-1} \hat{\boldsymbol{\Sigma}}_{X Y} \hat{\boldsymbol{\Sigma}}_{Y Y}^{-1} \hat{\boldsymbol{\Sigma}}_{Y X}\right|=\prod_{i=1}^{r}\left(1-\lambda_{i}^{2}\right)\]
验证统计量 \[Q_{1}=-\left[n-1-\frac{1}{2}(p+q+1)\right] \ln \Lambda_{1}\]
近似服从自由度为 \(pq\) 的 \(\chi ^2\) 分布,在给定的显著性水平 \(\alpha\) 下,若 \(Q_1\ge \chi_\alpha^2(pq)\) ,则拒绝原假设,认为至少第一对典型变量之间相关性显著。
部分总体为零的检验
\[H_0:\lambda_2=\lambda_3=\dotsb=\lambda_r=0,\\ H_1:\lambda_2,\lambda_3,\dotsb,\lambda_r\small至少有一个非零\]
若原假设 \(H_0\) 被接受,则认为只有第一对典型变量有用;若 \(H_0\) 被拒绝,则第二对典型变量也有用,并进行进一步假设
\[H_0:\lambda_3=\lambda_4=\dotsb=\lambda_r=0,\\ H_1:\lambda_3,\lambda_4,\dotsb,\lambda_r\small至少有一个非零\]
如此进行下去直到对于某个 \(k\)
\[H_0:\lambda_k=\lambda_{k+1}=\dotsb=\lambda_r=0,\\
H_1:\lambda_k,\lambda_{k+1},\dotsb,\lambda_r\small至少有一个非零\]
记
\[\Lambda_{k}=\prod_{i=k}^{r}\left(1-\lambda_{i}^{2}\right)\] 在原假设为真的情况下 \[Q_k=-\left[n-k-\frac{1}{2}(p+q+1)\right] \ln \Lambda_{k}\] 近似服从自由度为 \((p-k+1)(p-k+1)\) 的 \(\chi ^2\) 分布。在显著性水平 \(\alpha\) 下若 \(Q_k\ge \chi_\alpha^2\left[(p-k+1)(p-k+1)\right]\) ,则拒绝原假设,则至少认为第 \(k\) 对典型变量之间相关性显著。
参考
- 司守奎 孙兆亮. 数学建模算法与运用[M]. 第2版. 第268页. ↩︎
- https://zhuanlan.zhihu.com/p/372774724 ↩︎
- 高惠璇. 应用多元统计分析[M]. 第2版. 第354页. ↩︎