蔓草札记

图解卡尔曼滤波是如何工作的

xhhjin — Mon, 27 Sep 2021 08:27:31 +0000

本文是国外博主 Bzarg 在 2015 年写的一篇图解。卡尔曼滤波可以被认为是一种数据融合算法，已有 50 多年的历史，是当今使用最重要和最常见的数据融合算法之一，它解决的是如何从多个不确定数据中提取相对精确的数据，而这包含了两个前提条件：
1，实践前提：这些数据满足高斯分布；
2，理论前提：一个高斯分布乘以另一个高斯分布可以得到第三个高斯分布，第三个高斯分布即为提取到相对精确的数据范围。

我必须要告诉你一些关于卡尔曼滤波的知识，因为它的作用是非常惊人的。

令人惊讶的是，似乎很少有软件工程师和科学家了解它，这让我有点小失望，因为在一些含有不确定因素的场景里，如何去综合获取有效的信息，卡尔曼滤波是一个通用并且强有力的算法，有时候它提取精确信息的能力看上去就像是“见证奇迹的时刻”。如果看到这里你认为我说的话里有夸大的水分，你可以看下我之前发布的效果视频，在这个 demo 里我通过检测角速度来获取一个自由物体的姿态，效果奇佳。

什么是卡尔曼滤波？

你可以在任何含有不确定因素的动态系统里使用卡尔曼滤波，而且你应该可以通过某种数学建模对系统下一步动向做一个大概的预测。尽管系统总是会受到一些未知因素的干扰，但是卡尔曼滤波总是可以用来提高系统预估的精确度，这样你就可以更加准确地知道到底发生了什么事情。而且它可以有效利用多个粗糙数据之间的关系，而单独面对这些数据你可能都无从下手。

卡尔曼滤波尤其适合动态系统，它对于内存要求极低（它仅需要保留系统上一个状态的数据，而不是一段跨度很长的历史数据），并且它运算很快，这使得它非常适合解决实时问题和应用于嵌入式系统。

如果你尝试去谷歌搜索相关资料，对于卡尔曼滤波的数学表达总是很枯燥并且难理解。这增加了大家的学习成本甚至打击了大家的学习兴趣，因为卡尔曼滤波真的是超级简单，当然前提是你用正确的方式去理解它。因此这就形成了一个很有意义的学术话题，我将会通过很多清晰、漂亮的图片以及颜色标注来阐述这个话题。对学习者的预备知识要求很简单，你只需要对概率论和矩阵运算有一些简单的基础知识。

我们从一个简单的例子入手，看下卡尔曼滤波可以解决什么问题。如果你想直接看公式推导，可以跳到下一节。

利用卡尔曼滤波我们可以做什么？

我们举一个玩具的例子：你开发了一款小型机器人，它可以在树林里自主移动，并且这款机器人需要明确自己的位置以便进行导航。

我们可以通过一组状态变量 $\vec{x_k}$ 来描述机器人的状态，包括位置和速度：

$$
\vec{x_k} = (\vec{p}, \vec{v})
$$

注意这个状态仅仅是系统所有状态中的一部分，你可以选取任何数据变量作为观测的状态。在我们这个例子中选取的是位置和速度，它也可以是水箱中的水位，汽车引擎的温度，一个用户的手指在平板上划过的位置，或者任何你想要跟踪的数据。

我们的机器人同时拥有一个 GPS 传感器，精度在 10m。这已经很好了，但是对我们的机器人来说它需要以远高于 10m 的这个精度来定位自己的位置。在机器人所处的树林里有很多溪谷和断崖，如果机器人对位置误判了哪怕只是几步远的距离，它就有可能掉到坑里，所以仅靠 GPS 是不够的。

同时我们可以获取到一些机器人的运动的信息：驱动轮子的电机指令对我们也有用处。如果没有外界干扰，仅仅是朝一个方向前进，那么下一个时刻的位置只是比上一个时刻的位置在该方向上移动了一个固定距离。当然我们无法获取影响运动的所有信息：机器人可能会受到风力影响，轮子可能会打滑，或者碰到了一些特殊的路况；所以轮子转过的距离并不能完全表示机器人移动的距离，这就导致通过轮子转动预测机器人位置不会非常准确。

GPS 传感器也会告知我们一些关于机器人状态的信息，但是会包含一些不确定性因素。我们通过轮子转动可以预知机器人是如何运动的，同样也有一定的不准确度。

如果我们综合两者的信息呢？可以得到比只依靠单独一个信息来源更精确的结果么？答案当然是 YES，这就是卡尔曼滤波要解决的问题。

卡尔曼滤波如何看待你的问题

我们再来看下需要解决的问题，同样是上边的系统，系统状态包括位置和速度。

\begin{aligned}
\vec{x} = \begin{bmatrix}
p\\
v
\end{bmatrix}
\end{aligned}

我们不知道位置和速度的准确值；但是我们可以列出一个准确数值可能落在的区间。在这个范围里，一些数值组合的可能性要高于另一些组合的可能性。

卡尔曼滤波假设所有的变量（在我们的例子中为位置和速度）是随机的且符合高斯分布。每个变量有一个平均值 $\mu$，代表了随机分布的中心值（也表示这是可能性最大的值），和一个方差 $\sigma^2$，代表了不确定度。

在上图中位置和速度是无关联的，即系统状态中的一个变量并不会告诉你关于另一个变量的任何信息。

下图则展示了一些有趣的事情：在现实中，速度和位置是有关联的，如果已经确定位置的值，那么某些速度值存在的可能性更高。

假如我们已知上一个状态的位置值，现在要预测下一个状态的位置值。如果我们的速度值很高，我们移动的距离会远一点。相反，如果速度慢，机器人不会走的很远。

这种关系在跟踪系统状态时很重要，因为它给了我们更多的信息：一个测量值告诉我们另一个测量值可能是什么样子。这就是卡尔曼滤波的目的，我们要尽量从所有不确定信息中提取有价值的信息！

这种关系可以通过一个称作协方差的矩阵来表述，简而言之，矩阵中的每个元素 $\Sigma_{ij}$ 表示了第 $i$ 个状态变量和第 $j$ 个状态变量之间的关系（你可能猜到了协方差矩阵是对称的，即交换下标 $i$ 和 $j$ 并无任何影响）。协方差矩阵通常表示为 $\Sigma$，它的元素则表示为 $\Sigma_{ij}$ 。

利用矩阵描述问题

我们对系统状态的分布建模为高斯分布，所以在 $k$ 时刻我们需要两个信息：最佳预估值 $\mathbf{\hat{x}_k}$（平均值，有些地方也表示为 $\mathbf{\mu}$），和它的协方差矩阵 $\mathbf{P_k}$

\begin{equation} \label{eq:statevars}
\begin{aligned}
\mathbf{\hat{x}}_k &= \begin{bmatrix}
\text{position}\\
\text{velocity}
\end{bmatrix}\\
\mathbf{P}_k &=
\begin{bmatrix}
\Sigma_{pp} & \Sigma_{pv} \\
\Sigma_{vp} & \Sigma_{vv} \\
\end{bmatrix}
\end{aligned}
\end{equation}

（这里我们只记录了位置和速度，但是如果需要的话我们可以把任何数据变量放进我们的系统状态里）

下一步，我们需要通过当前阶段（$k-1$ 时刻）的状态来预测下一阶段（$k$ 时刻）的状态。请注意，我们不知道状态的准确值，但是我们的预测函数并不在乎，它仅仅是对 $k-1$ 时刻所有可能值的范围进行预测转移，然后得出一个 $k$ 时刻新值的范围。

我们可以通过一个状态转移矩阵 $\mathbf{F_k}$ 来描述这个转换

它把 $k-1$ 时刻所有可能的状态值转移到一个新的范围内，这个新的范围代表了系统新的状态值可能存在的范围，如果 $k-1$ 时刻估计值的范围是准确的话。

通过一个运动公式来表示这种预测下个状态的过程：

\begin{split}
\color{deeppink}{p_k} &= \color{royalblue}{p_{k-1}} + \Delta t &\color{royalblue}{v_{k-1}} \\
\color{deeppink}{v_k} &= &\color{royalblue}{v_{k-1}}
\end{split}

整理为矩阵：

\begin{align}
\color{deeppink}{\mathbf{\hat{x}}_k} &= \begin{bmatrix}
1 & \Delta t \\
0 & 1
\end{bmatrix} \color{royalblue}{\mathbf{\hat{x}}_{k-1}} \\
&= \mathbf{F}_k \color{royalblue}{\mathbf{\hat{x}}_{k-1}} \label{statevars}
\end{align}

我们现在有了一个状态转移矩阵，可以简单预测下个状态，但仍不知道如何更新协方差矩阵。

这里我们需要另一个公式。如果我们对每个点进行矩阵 $\color{firebrick}{\mathbf{A}}$ 转换，它的协方差矩阵 $\Sigma$ 会发生什么变化呢？

这个简单，直接告诉你结果。

\begin{equation}
\begin{split}
Cov(x) &= \Sigma\\
Cov(\color{firebrick}{\mathbf{A}}x) &= \color{firebrick}{\mathbf{A}} \Sigma \color{firebrick}{\mathbf{A}}^T
\end{split} \label{covident}
\end{equation}

结合 \eqref{covident} 和 \eqref{statevars}：

\begin{equation}
\begin{split}
\color{deeppink}{\mathbf{\hat{x}}_k} &= \mathbf{F}_k \color{royalblue}{\mathbf{\hat{x}}_{k-1}} \\
\color{deeppink}{\mathbf{P}_k} &= \mathbf{F_k} \color{royalblue}{\mathbf{P}_{k-1}} \mathbf{F}_k^T
\end{split}
\end{equation}

外界作用力

我们并没有考虑到所有影响因素。系统状态的改变并不只依靠上一个系统状态，外界作用力可能会影响系统状态的变化。

例如，跟踪一列火车的运动状态，火车驾驶员可能踩了油门使火车提速。同样，在我们机器人例子中，导航软件可能发出一些指令启动或者制动轮子。如果我们知道这些额外的信息，我们可以通过一个向量 $\color{darkorange}{\vec{\mathbf{u}_k}}$ 来描述这些信息，把它添加到我们的预测方程里作为一个修正。

假如我们通过发出的指令得到预期的加速度 $\color{darkorange}{a}$，上边的运动方程可以变化为：

\begin{split}
\color{deeppink}{p_k} &= \color{royalblue}{p_{k-1}} + {\Delta t} &\color{royalblue}{v_{k-1}} + &\frac{1}{2} \color{darkorange}{a} {\Delta t}^2 \\
\color{deeppink}{v_k} &= &\color{royalblue}{v_{k-1}} + & \color{darkorange}{a} {\Delta t}
\end{split}

矩阵形式：

\begin{equation}
\begin{split}
\color{deeppink}{\mathbf{\hat{x}}_k} &= \mathbf{F}_k \color{royalblue}{\mathbf{\hat{x}}_{k-1}} + \begin{bmatrix}
\frac{\Delta t^2}{2} \\
\Delta t
\end{bmatrix} \color{darkorange}{a} \\
&= \mathbf{F}_k \color{royalblue}{\mathbf{\hat{x}}_{k-1}} + \mathbf{B}_k \color{darkorange}{\vec{\mathbf{u}_k}}
\end{split}
\end{equation}

$\mathbf{B}_k$ 称作控制矩阵， $\color{darkorange}{\vec{\mathbf{u}_k}}$ 称作控制向量（没有任何外界动力影响的系统，可以忽略该项）。

我们增加另一个细节，假如我们的预测转换矩阵不是 100% 准确呢，会发生什么？

外界不确定性

如果状态只会根据系统自身特性演变那将不会有任何问题。如果我们可以把所有外界作用力对系统的影响计算清楚那也不会有任何问题。

但是如果有些外力我们无法预测呢？假如我们在跟踪一个四轴飞行器，它会受到风力影响。如果我们在跟踪一个轮式机器人，轮子可能会打滑，或者地面上的突起会使它降速。我们无法跟踪这些因素，并且这些事情发生的时候上述的预测方程可能会失灵。

我们可以把“世界”中的这些不确定性统一建模，在预测方程中增加一个不确定项。

这样，原始状态中的每一个点可以都会预测转换到一个范围，而不是某个确定的点。可以这样描述： $\color{royalblue}{\mathbf{\hat{x}}_{k-1}}$ 中的每个点移动到一个符合方差 $\color{mediumaquamarine}{\mathbf{Q}_k}$ 的高斯分布里。另一种说法，我们把这些不确定因素描述为方差为 $\color{mediumaquamarine}{\mathbf{Q}_k}$ 的高斯噪声。

这会产生一个新的高斯分布，方差不同，但是均值相同。

对 ${\color{mediumaquamarine}{\mathbf{Q}_k}}$ 简单叠加，可以拿到扩展的方差，这样就得到了完整的预测转换方程。

\begin{equation}
\begin{split}
\color{deeppink}{\mathbf{\hat{x}}_k} &= \mathbf{F}_k \color{royalblue}{\mathbf{\hat{x}}_{k-1}} + \mathbf{B}_k \color{darkorange}{\vec{\mathbf{u}_k}} \\
\color{deeppink}{\mathbf{P}_k} &= \mathbf{F_k} \color{royalblue}{\mathbf{P}_{k-1}} \mathbf{F}_k^T + \color{mediumaquamarine}{\mathbf{Q}_k}
\end{split}
\label{kalpredictfull}
\end{equation}

新的预测转换方程只是引入了已知的可以预测的外力影响因素。

新的不确定性可以通过老的不确定性计算得到，通过增加外界无法预测的、不确定的因素成分。

到这里，我们得到了一个模糊的估计范围，一个通过 $\color{deeppink}{\mathbf{\hat{x}}_k}$ 和 $\color{deeppink}{\mathbf{P}_k}$ 描述的范围。如果再结合我们传感器的数据呢？

通过测量值精炼预测值

我们可能还有一些传感器来测量系统的状态。目前我们不用太关心所测量的状态变量是什么。也许一个测量位置一个测量速度。每个传感器可以提供一些关于系统状态的数据信息，每个传感器检测一个系统变量并且产生一些读数。

注意传感器测量的范围和单位可能与我们跟踪系统变量所使用的范围和单位不一致。我们需要对传感器做下建模：通过矩阵 $\mathbf{H}_k$

我们可以得到传感器读数分布的范围：

\begin{equation}
\begin{aligned}
\vec{\mu}_{\text{expected}} &= \mathbf{H}_k \color{deeppink}{\mathbf{\hat{x}}_k} \\
\mathbf{\Sigma}_{\text{expected}} &= \mathbf{H}_k \color{deeppink}{\mathbf{P}_k} \mathbf{H}_k^T
\end{aligned}
\end{equation}

卡尔曼滤波也可以处理传感器噪声。换句话说，我们的传感器有自己的精度范围，对于一个真实的位置和速度，传感器的读数受到高斯噪声影响会使读数在某个范围内波动。

我们观测到的每个数据，可以认为其对应某个真实的状态。但是因为存在不确定性，某些状态的可能性比另外一些可能性更高。

我们将这种不确定性（如传感器噪声）的协方差表示为 $\color{mediumaquamarine}{\mathbf{R}_k}$，读数的分布均值等于我们观察到传感器的读数，我们将其表示为 $\color{yellowgreen}{\vec{\mathbf{z}_k}}$。

所以现在我们有了两个高斯分布，一个来自于我们通过状态转移预测的预测值，另一个来自于我们实际传感器读数的测量值。

我们必须尝试去把两者的数据预测值（粉色）与观测值（绿色）融合起来。

所以我们得到的新的数据会长什么样子呢？对于任何可能的读数 $(z_1,z_2)$，我们都有两个相关的概率：（1）我们的传感器读数 $\color{yellowgreen}{\vec{\mathbf{z}_k}}$ 是 $(z_1,z_2)$ 的测量值的概率，以及（2）先前估计值被认为是我们应该看到的读数的概率。

如果我们有两个概率，并且想知道两个概率都为真的机会，则将它们相乘。因此，我们对两个高斯分布进行了相乘处理：

相乘之后得到的即为重叠部分，这个区域同时属于两个高斯分布。并且比单独任何一个区域都要精确。这个区域的平均值取决于我们更取信于哪个数据来源，这样我们也通过我们手中的数据得到了一个最好的估计值。

唔~ 这看上去像另一个高斯分布。

事实证明，两个独立的高斯分布相乘之后会得到一个新的具有其均值和协方差矩阵的高斯分布！新高斯分布的均值和方差均可以通过老的均值方差求得。下面开始推公式。

高斯分布相乘

首先考虑一维高斯情况：一个均值为 $\mu$，方差为 $\sigma^2$ 的高斯分布的形式为：

\begin{equation} \label{gaussformula}
\mathcal{N}(x, \mu,\sigma) = \frac{1}{ \sigma \sqrt{ 2\pi } } e^{ -\frac{ (x – \mu)^2 }{ 2\sigma^2 } }
\end{equation}

我们想知道两个高斯分布相乘会发生什么。蓝色曲线代表了两个高斯分布的交集部分。

\begin{equation} \label{gaussequiv}
\mathcal{N}(x, \color{fuchsia}{\mu_0}, \color{deeppink}{\sigma_0}) \cdot \mathcal{N}(x, \color{yellowgreen}{\mu_1}, \color{mediumaquamarine}{\sigma_1}) \stackrel{?}{=} \mathcal{N}(x, \color{royalblue}{\mu’}, \color{mediumblue}{\sigma’})
\end{equation}

将公式 $\eqref{gaussformula}$ 代入公式 $\eqref{gaussequiv}$，我们可以得到新的高斯分布的均值和方差如下所示：

\begin{equation} \label{fusionformula}
\begin{aligned}
\color{royalblue}{\mu’} &= \mu_0 + \frac{\sigma_0^2 (\mu_1 – \mu_0)} {\sigma_0^2 + \sigma_1^2}\\
\color{mediumblue}{\sigma’}^2 &= \sigma_0^2 – \frac{\sigma_0^4} {\sigma_0^2 + \sigma_1^2}
\end{aligned}
\end{equation}

我们将其中的一小部分重写为 $\color{purple}{\mathbf{k}}$：

\begin{equation} \label{gainformula}
\color{purple}{\mathbf{k}} = \frac{\sigma_0^2}{\sigma_0^2 + \sigma_1^2}
\end{equation}

\begin{equation}
\begin{split}
\color{royalblue}{\mu’} &= \mu_0 + &\color{purple}{\mathbf{k}} (\mu_1 – \mu_0)\\
\color{mediumblue}{\sigma’}^2 &= \sigma_0^2 – &\color{purple}{\mathbf{k}} \sigma_0^2
\end{split} \label{update}
\end{equation}

这样一来，公式的形式就简单多了！我们顺势将公式 $\eqref{gainformula}$ 和 $\eqref{update}$ 的矩阵形式写在下面：

\begin{equation} \label{matrixgain}
\color{purple}{\mathbf{K}} = \Sigma_0 (\Sigma_0 + \Sigma_1)^{-1}
\end{equation}

\begin{equation}
\begin{split}
\color{royalblue}{\vec{\mu}’} &= \vec{\mu_0} + &\color{purple}{\mathbf{K}} (\vec{\mu_1} – \vec{\mu_0})\\
\color{mediumblue}{\Sigma’} &= \Sigma_0 – &\color{purple}{\mathbf{K}} \Sigma_0
\end{split} \label{matrixupdate}
\end{equation}

$\color{purple}{\mathbf{K}}$ 被称为卡尔曼增益，待会会用到。

简单，我们快结束了。

公式汇总

我们有两个高斯分布，一个是我们的预测值 $(\color{fuchsia}{\mu_0}, \color{deeppink}{\Sigma_0}) = (\color{fuchsia}{\mathbf{H}_k \mathbf{\hat{x}}_k}, \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T})$，另外一个是实际的测量值 $(\color{yellowgreen}{\mu_1}, \color{mediumaquamarine}{\Sigma_1}) = (\color{yellowgreen}{\vec{\mathbf{z}_k}}, \color{mediumaquamarine}{\mathbf{R}_k})$，我们将这两个高斯分布带入公式 $\eqref{matrixupdate}$ 中就可以得到二者的重叠区域：

\begin{equation}
\begin{aligned}
\mathbf{H}_k \color{royalblue}{\mathbf{\hat{x}}_k’} &= \color{fuchsia}{\mathbf{H}_k \mathbf{\hat{x}}_k} & + & \color{purple}{\mathbf{K}} ( \color{yellowgreen}{\vec{\mathbf{z}_k}} – \color{fuchsia}{\mathbf{H}_k \mathbf{\hat{x}}_k} ) \\
\mathbf{H}_k \color{royalblue}{\mathbf{P}_k’} \mathbf{H}_k^T &= \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T} & – & \color{purple}{\mathbf{K}} \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T}
\end{aligned} \label {kalunsimplified}
\end{equation}

从公式 $\eqref{matrixgain}$ 我们可以知道，卡尔曼增益是：

\begin{equation} \label{eq:kalgainunsimplified}
\color{purple}{\mathbf{K}} = \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T} ( \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T} + \color{mediumaquamarine}{\mathbf{R}_k})^{-1}
\end{equation}

然后我们将公式 $\eqref{kalunsimplified}$ 与公式 $\eqref{eq:kalgainunsimplified}$ 中的 $\mathbf{H}_k$ 去除，同时将 $\color{royalblue}{\mathbf{P}_k’}$ 后面的 $\mathbf{H}_k^T$ 去除，我们可以得到最终的化简形式的更新方程：

\begin{equation}
\begin{split}
\color{royalblue}{\mathbf{\hat{x}}_k’} &= \color{fuchsia}{\mathbf{\hat{x}}_k} & + & \color{purple}{\mathbf{K}’} ( \color{yellowgreen}{\vec{\mathbf{z}_k}} – \color{fuchsia}{\mathbf{H}_k \mathbf{\hat{x}}_k} ) \\
\color{royalblue}{\mathbf{P}_k’} &= \color{deeppink}{\mathbf{P}_k} & – & \color{purple}{\mathbf{K}’} \color{deeppink}{\mathbf{H}_k \mathbf{P}_k}
\end{split}
\label{kalupdatefull}
\end{equation}

\begin{equation}
\color{purple}{\mathbf{K}’} = \color{deeppink}{\mathbf{P}_k \mathbf{H}_k^T} ( \color{deeppink}{\mathbf{H}_k \mathbf{P}_k \mathbf{H}_k^T} + \color{mediumaquamarine}{\mathbf{R}_k})^{-1}
\label{kalgainfull}
\end{equation}

至此，我们得到了每个状态的更新步骤，$\color{royalblue}{\mathbf{\hat{x}}_k’}$ 是我们最佳的预测值，接下来我们可以持续进行预测（通过 $\color{royalblue}{\mathbf{P}_k’}$），然后更新，重复上述过程！。

总结

在上述所有数学公式中，你需要实现的只是公式 $\eqref{kalpredictfull}, \eqref{kalupdatefull}$ 和 $\eqref{kalgainfull}$（或者，如果你忘记了这些，可以从等式 $\eqref{covident}$ 和 $\eqref{matrixupdate}$ 重新推导所有内容。）

这将使你能够准确地对任何线性系统建模。对于非线性系统，我们使用扩展卡尔曼滤波器，该滤波器通过简单地线性化预测和测量值的均值进行工作。

如果我讲的还不错的话，希望读者也可以认识到卡尔曼滤波有多酷，并且在某个新的领域使用它。

欢迎转载，转载请注明出处：蔓草札记 » 图解卡尔曼滤波是如何工作的

一种协方差矩阵的几何解释

xhhjin — Wed, 15 Sep 2021 10:04:05 +0000

这是一篇关于协方差矩阵几何解释的翻译文章。

原文地址：https://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

介绍

本文我们将通过探索线性变换与所得数据协方差之间的关系为协方差矩阵提供一个直观的几何解释。大部分教科书基于协方差矩阵的概念解释数据的形状，这里，我们采取一个相反的做法，根据数据的形状来解释协方差矩阵的概念。

在《为什么样本方差除以 N-1？》的文章中，我们讨论了方差的概念，并提供了众所周知的估算样本方差公式的推导和证明。这篇文章中使用的图 1 表明标准差（方差的平方根）提供了数据在特征空间上传播多少的量度。

图 1. 高斯密度函数。对于正态分布的数据，68% 的样本落在平均值加减标准差定义的区间内。

我们发现，样本方差的无偏估计可由下式获得：

\begin{align}
\tag{1} \label{eq1}
\begin{split}
\sigma_{x}^{2} &= \frac{1}{N-1} \sum_{i=1}^{N}(x_{i}-\mu)^{2} \\
&= E[(x-E(x))(x-E(x))] \\
&= \sigma ( x , x )
\end{split}
\end{align}

然而，方差只能用于解释平行于特征空间轴方向的数据传播。考虑图 2 所示的 2D 特征空间：

图 2. 数据的对角线传播由协方差捕获

对于这个数据，我们可以计算出 x 方向上的方差 $\sigma(x, x)$ 和 y 方向上的方差 $\sigma(y, y)$。然而，数据的水平传播和垂直传播都不能解释明显的对角线传播相关性。图 2 清楚地显示，如果一个数据点的 x 值增加，则 y 值也将增加，这产生了正相关，这种相关性可以通过扩展方差概念到所谓的数据“协方差”捕捉到：

\begin{align}
\tag{2} \label{eq2}
\sigma(x,y)=E[(x-E(x))(y-E(y))]
\end{align}

对于 2D 数据，我们得到 $\sigma(x,x)$，$\sigma(y,y)$，$\sigma(x,y)$ 和 $\sigma(y,x)$，这些值可以用矩阵来表示，该矩阵叫做协方差矩阵：

\begin{align}
\tag{3} \label{eq3}
\Sigma = \left[ \begin{matrix} \sigma(x,x)&\sigma(x,y)\\
\sigma(y,x)&\sigma(y,y)
\end{matrix} \right]
\end{align}

如果 x 与 y 是正相关的，那么 y 和 x 也是正相关的，也就是说，$\sigma(x,y)=\sigma(y,x)$。因此，协方差矩阵始终是一个对称矩阵，其对角线上是方差，非对角线上是协方差。二维正态分布数据完全由其均值和 2×2 协方差矩阵就可以完全解释，同样，一个 3×3 协方差矩阵用于捕捉 3D 数据的传播，一个 NxN 协方差矩阵捕获 N 维数据的传播。

图 3 说明了数据的整体形状如何定义协方差矩阵：

图 3. 协方差矩阵定义了数据的形状。对角线传播由协方差捕获，而轴对齐传播由方差捕获。

协方差矩阵的特征值分解

在下一节，我们将讨论如何将协方差矩阵解释为白数据转换成我们观察到数据的线性算子。然而，在深入技术细节之前，对特征向量和特征值如何唯一地确定协方差矩阵（数据形状）有一个直观的认识是非常重要的。

正如我们在图 3 看到的，协方差矩阵定义了我们数据的传播（方差）和方向（协方差）。因此，如果我们想用一个向量和它的大小来表示协方差矩阵，我们应该简单地尝试找到指向数据最大传播方向上的向量，其大小等于这个方向上的传播（方差）。

如果我们定义这个向量为 $\vec{v}$，那么我们数据 $D$ 到这个向量上的映射为 $\vec{v}^\mathrm{T}D$，映射数据的方差是 $\vec{v}^\mathrm{T}\Sigma\vec{v}$。由于我们正在寻找指向最大方差方向的向量 $\vec{v}$，所以我们应该选择它的成分，使得映射数据的协方差矩阵 $\vec{v}^\mathrm{T}\Sigma\vec{v}$ 尽可能的大。最大化 $\vec{v}$ 的形式为 $\vec{v}^\mathrm{T}\Sigma\vec{v}$ 的任何函数，其中 $\vec{v}$ 是归一化单位向量，可以用一个所谓的瑞利商表示。通过设置 $\vec{v}$ 等于矩阵的最大特征特征向量 $\Sigma$ 可以获得这样瑞利商的最大值。

换句话说，协方差矩阵的最大特征向量总是指向数据最大方差的方向，并且该向量的大小等于相应的特征值，第二大特征向量总是正交于最大特征向量，并指向第二大数据的传播方向。

现在，让我们来看一些例子，在文章《特征值和特征向量》中，我们看到一个线性变换矩阵 $T$ 完全由它的特征向量和特征值定义，应用到协方差矩阵，这意味着：

\begin{align}
\tag{4} \label{eq4}
\Sigma\vec{v}=\lambda\vec{v}
\end{align}

其中 $\vec{v}$ 是 $\Sigma$ 的一个特征向量，而 $\lambda$ 是其对应的特征值。

如果我们数据的协方差矩阵是对角矩阵，且协方差为零，那么这意味着方差必须等于特征值 $\lambda$，如图 4 所示，特征向量用绿色和洋红色表示，特征值显然等于协方差矩阵的方差分量。

图 4. 协方差矩阵的特征向量

然而，如果协方差矩阵不是对角的，即协方差不为零，那么情况就会复杂一些。特征值仍代表数据最大传播方向的方差大小，协方差矩阵的方差分量仍然表示 x 轴和 y 轴方向上的方差大小，但由于数据不是轴对齐的，所以这些值不再相同，如图 5 所示。

图 5. 特征值与方差

通过比较图 5 与图 4，很明显可以看到特征值表示沿特征向量方向数据的方差，而协方差矩阵的方差分量表示沿轴的传播，如果没有协方差，则这两个值是相等的。

协方差矩阵作为线性变换

现在，让我们暂时忘记协方差矩阵，图 3 中的每个示例都可以简单地认为是图 6 的一个线性变换实例：

图 6. 具有单位协方差矩阵的数据称为白数据。

设图 6 所示的数据为 $D$，则图 3 所示的每个实例可以通过一个线性变换从 $D$ 得到：

\begin{align}
\tag{5} \label{eq5}
D^\prime = TD
\end{align}

其中 $T$ 是变换矩阵，包括一个旋转矩阵 $R$ 和缩放矩阵 $S$：

\begin{align}
\tag{6} \label{eq6}
T = RS
\end{align}

这些矩阵定义为：

\begin{align}
\tag{7} \label{eq7}
R = \left[ \begin{matrix}
cos(\theta) & -sin(\theta) \\
sin(\theta) & cos(\theta)
\end{matrix}\right]
\end{align}

其中 $\theta$ 是旋转角度，以及：

\begin{align}
\tag{8} \label{eq8}
S = \left[ \begin{matrix}
s_x & 0 \\
0 & s_y
\end{matrix}\right]
\end{align}

$s_x$ 和 $s_y$ 分别是 x 方向和 y 方向的比例因子。

在下面的段落中，我们将讨论协方差矩阵 $\Sigma$ 与线性变换矩阵 $T= RS$ 之间的关系。

让我们先从未缩放（缩放相当于 1）和未旋转的数据开始，在统计学中，这往往为“白数据’，因为它的样本是从标准正态分布中抽取的，因此对应于白（不相关）噪声：

图 7. 白数据是具有单位协方差矩阵的数据。

这个“白”数据的协方差矩阵等于单位矩阵，使得方差和标准差等于 1，协方差等于 0：

\begin{align}
\tag{9} \label{eq9}
\Sigma = \left[ \begin{matrix}
\sigma_x^2 & 0 \\
0 & \sigma_y^2
\end{matrix}\right]
= \Bigg [ \begin{matrix}
1 & 0 \\ 0 & 1
\end{matrix} \Bigg]
\end{align}

现在让我们用因子 4 在 x 方向缩放数据：

\begin{align}
\tag{10} \label{eq10}
D^\prime = \left[ \begin{matrix}
4 & 0 \\
0 & 1
\end{matrix}\right]
\end{align}

数据 $D^\prime$ 现在如下：

图 8. x 方向的方差导致水平缩放。

$D^\prime$ 的协方差 $\Sigma^\prime$ 现在是：

\begin{align}
\tag{11} \label{eq11}
\Sigma^\prime = \left[ \begin{matrix}
\sigma_x^2 & 0 \\
0 & \sigma_y^2
\end{matrix}\right]
= \Bigg [ \begin{matrix}
16 & 0 \\ 0 & 1
\end{matrix} \Bigg]
\end{align}

因此，$D^\prime$ 的协方差 $\Sigma^\prime$ 与线性变换矩阵 $T$ 有关系，$D^\prime=TD$，其中:

\begin{align}
\tag{12} \label{eq12}
T = \sqrt{\Sigma^\prime}
= \left[ \begin{matrix}
4 & 0 \\
0 & 1
\end{matrix}\right]
\end{align}

然而，尽管数据在 x 和 y 方向上缩放时等式（$\ref{eq12}$）成立，但当应用旋转时是否依然成立呢？为了研究一般情况下线性变换矩阵 $T$ 和协方差矩阵 $\Sigma^\prime$ 之间的关系，我们试图分解协方差矩阵为旋转矩阵和缩放矩阵的乘积。

正如我们之前所看到的，我们可以用特征向量和特征值表示协方差矩阵：

\begin{align}
\tag{13} \label{eq13}
\Sigma\vec{v}=\lambda\vec{v}
\end{align}

其中 $\vec{v}$ 是 $\Sigma$ 的一个特征向量，而 $\lambda$ 是其对应的特征值。

等式（$\ref{eq13}$）对矩阵 $\Sigma$ 的每个特征向量和特征值都成立。在 2D 情况下，我们会得到两个特征值和两个特征值，由公式（$\ref{eq13}$）定义的两个方程组可以使用矩阵符号来表示：

\begin{align}
\tag{14} \label{eq14}
\Sigma V = VL
\end{align}

其中 $V$ 的列是由 $\Sigma$ 的特征向量组成的矩阵，$L$ 是由对应特征值组成的对角矩阵。

这意味着我们可以将协方差矩阵表示为特征向量和特征值的函数：

\begin{align}
\tag{15} \label{eq15}
\Sigma = VLV^{-1}
\end{align}

方程（$\ref{eq15}$）就是所谓协方差矩阵的特征值分解，并可以使用奇异值分解算法来获得，而特征向量表示数据最大方差的方向，特征值表示那些方向方差的大小。换句话说，$V$ 表示旋转矩阵，而 $\sqrt{L}$ 表示一个缩放矩阵。协方差矩阵可以进一步分解为：

\begin{align}
\tag{16} \label{eq16}
\Sigma = RSSR^{-1}
\end{align}

其中 $R=V$ 是一个旋转矩阵，$S=\sqrt{L}$ 是一个缩放矩阵。

在等式（$\ref{eq6}$）中，我们定义了一个线性变换 $T= RS$。由于 $S$ 是对角缩放矩阵，所以 $S=S^\mathrm{T}$，此外，由于 $R$ 为正交矩阵，$R^{-1}=R^\mathrm{T}$。因此，$T^\mathrm{T}(RS)^\mathrm{T}=S^\mathrm{T}R^\mathrm{T}=SR^{-1}$ ，则协方差矩阵可以写为：

\begin{align}
\tag{17} \label{eq17}
\Sigma = RSSR^{-1}=TT^\mathrm{T}
\end{align}

换言之，如果我们应用由 $T=RS$ 定义的线性变换到图 7 的原始白数据 $D$，我们将得到旋转和缩放的数据 $D^\prime$ 及协方差矩阵 $TT^\mathrm{T} = \Sigma^\prime = RSSR^{-1}$。如图 10 所示：

图 10. 协方差矩阵表示原始数据的线性变换。

图 10 的彩色箭头表示特征向量。最大特征向量，即与最大特征值对应的特征向量，总是指向数据最大方差的方向，并由此确定其方向。因为旋转矩阵的正交性，次特征向量总是正交于最大特征向量。

总结

在本文中，我们展示了观察数据的协方差矩阵与白（不相关）数据的线性变换直接相关，这种线性变换完全由数据的特征向量和特征值确定，而特征向量表示旋转矩阵，特征值对应于每个维度上缩放因子的平方。

扩展阅读

1，神奇又好玩的协方差矩阵

欢迎转载，转载请注明出处：蔓草札记 » 一种协方差矩阵的几何解释

什么是特征值和特征向量？

xhhjin — Tue, 14 Sep 2021 08:50:10 +0000

这是一篇关于特征值和特征向量理解和计算的翻译文章。

原文地址：https://www.visiondummy.com/2014/03/eigenvalues-eigenvectors/

介绍

特征向量和特征值在计算机视觉和机器学习中有许多重要的应用，众所周知的例子是用于降维的 PCA（主成分分析）或用于人脸识别是特征脸，特征向量和特征值的一个有趣应用在我的另一篇有关误差椭圆的博文中提到。此外，特征值分解形成协方差矩阵几何解释的基础。在这篇文章中，我将简单的介绍这个数学概念，并且说明如何手动计算二维方形矩阵的特征值分解。

特征向量是一个特殊的向量，当在它上面应用线性变换时其方向保持不变。我们来看下面的图像，其中有三个向量被展示出来，绿色正方形表示施加到这三个向量上的线性变换。

当对特征向量进行线性变换 (如：缩放) 时，特征向量 (红色) 不会改变方向，但其他向量 (黄色) 会。

在这种情况下变换仅仅是水平方向乘以因子 2 和垂直方向乘以因子 0.5，所以变换矩阵 $A$ 定义为：

$$ A = \left[ \begin{array} { l l } { 2 } & { 0 } \\ { 0 } & { 0.5 } \end{array} \right] $$

通过应用这个变换，向量 $\vec{v} = (x , y)$ 被缩放为 $\vec{v{\prime}}=A\vec{v} $。上图表明一些向量（以红色显示）的方向不受此线性变换的影响，这些向量被称为变换的特征向量，并且唯一的定义了方阵 $A$。这种独特的、确定性的关系正是这些向量被称为“特征向量”（Eigen 在德语意思是“特定的”）的原因。

通常，$A$ 矩阵的特征向量 $\vec{v}$ 满足下列式子：

$$ \begin{equation} A\vec{v}=\lambda\vec{v} \tag{1} \label{eq1} \end{equation}$$

其中 $\lambda$ 是所谓的“特征值”，它是一个标量值，这意味着，向量 $\vec{v}$ 上的线性变换 $A$ 完全由 $\lambda$ 定义。

我们可以重写（$\ref{eq1}$）式为：

\begin{align}
\tag{2} \label{eq2}
\begin{split}
A\vec{v}-\lambda\vec{v} = 0\\
\Rightarrow\vec{v}(A-\lambda I)=0
\end{split}
\end{align}

其中 $I$ 是和矩阵 $A$ 有相同维数的单位矩阵。

此时，假定 $\vec{v}$ 不是零向量，那么等式（$\ref{eq2}$）只能在 $(A-\lambda I)$ 不可逆的时候才能被定义，而如果一个方阵是不可逆的，这意味着它的行列式必须等于零，因此，要找到 $A$ 的特征向量，我们只需求解以下公式：

\begin{align}
Det(A-\lambda I)=0 \tag{3} \label{eq3}
\end{align}

在以下部分我们将通过解等式（$\ref{eq3}$）来确定矩阵 $A$ 的特征向量和特征值。本例中的矩阵 $A$ 被定义为：

$$ A = \left[ \begin{matrix} { 2 } & { 3 } \\ { 2 } & { 1 } \end{matrix} \right] \tag{4} \label{eq4} $$

计算特征值

为了确定本例中的特征值，我们将等式（$\ref{eq4}$）的矩阵 $A$ 代入到等式（$\ref{eq3}$）中，得到：

$$ Det \left( \begin{matrix} { 2 – \lambda } & { 3 } \\ { 2 } & { 1 – \lambda } \end{matrix} \right) = 0 \tag{5} \label{eq5} $$

计算行列式：

\begin{align}
\tag{6} \label{eq6}
\begin{split}
& \quad {( 2 – \lambda ) ( 1 – \lambda ) – 6 = 0 } \\
& \Rightarrow {2 – 2 \lambda – \lambda + \lambda ^ { 2 } – 6 = 0 } \\
& \Rightarrow { \lambda ^ { 2 } – 3 \lambda – 4 = 0 }
\end{split}
\end{align}

为了解 $\lambda$ 的二次方程，我们找到判别式：

$$ D = b ^ { 2 } – 4 a c = ( – 3 ) ^ { 2 } – 4 * 1 * ( – 4 ) = 9 + 16 = 25 $$

由于判别式严格为正，这意味着对于 $\lambda$ 有两个不同的值：

\begin{align}
\tag{7} \label{eq7}
\begin{split}
\begin{array} { l }
{ \lambda _ { 1 } = \frac { – b – \sqrt { D } } { 2 a } = \frac { 3 – 5 } { 2 } = – 1 } \\
{ \lambda _ { 2 } = \frac { – b + \sqrt { D } } { 2 a } = \frac { 3 + 5 } { 2 } = 4 }
\end{array}
\end{split}
\end{align}

现在我们已经确定了两个特征值 $\lambda_1$ 和 $\lambda_2$。需要注意的是大小为 $N*N$ 的方阵总是具有 $N$ 个特征值，每一个特征值对应一个特征向量，特征值指定特征向量的大小。

计算第一个特征向量

现在，我们可以将等式（$\ref{eq7}$）的特征值代入到等式（$\ref{eq1}$）来确定特征向量，然后通过求解方程组得到特征向量。

我们首先对特征值 $\lambda_1$ 求解其对应的特征向量：

\begin{align}
\left[ \begin{array} { l } { 2 } & { 3 } \\ { 2 } & { 1 } \end{array} \right]
\left[ \begin{array} { l } { x _ { 11 } } \\ { x _ { 12 } } \end{array} \right]
= – 1
\left[ \begin{array} { l } { x _ { 11 } } \\ { x _ { 12 } } \end{array} \right]
\end{align}

由于这仅仅是方程组的矩阵符号，我们写出它等价形式的方程组：

\begin{align}
\tag{8} \label{eq8}
\left\{
\begin{array} { l }
{ 2 x _ { 11 } + 3 x _ { 12 } = – x _ { 11 } } \\
{ 2 x _ { 11 } + x _ { 12 } = – x _ { 12 } }
\end{array}
\right.
\end{align}

根据方程组第一个等式可以得到：

\begin{align}
\tag{9} \label{eq9}
x _ { 11 } = – x _ { 12 }
\end{align}

因为特征向量仅仅代表一个方向（相应特征值表示幅度），特征向量的所有标量倍数都是平行于该特征向量的向量，因此它们是等效的（如果我们对它做向量标准化，则它们是相等的）。为进一步求解上面的方程组，我们可以任意选择一个 $x_{11}$ 或 $x_{12}$ 的真实值，并用等式（\ref{eq9}）来确定另一个。

对于这个例子，我们随意地选择 $x_{12}= 1$，进而得到 $x_{11}=-1$，因此，对应于特征值 $\lambda_1$ 的特征向量是：

\begin{align}
\tag{10} \label{eq10}
\vec{v_1} = \left[ \begin{matrix} { – 1 } \\ { 1 } \end{matrix} \right]
\end{align}

计算第二个特征向量

第二个特征向量的计算类似于第一特征向量。我们现在将 $\lambda_2 = 4$ 代入等式（\ref{eq1}），得到：

\begin{align}
\tag{11} \label{eq11}
\left[ \begin{matrix} { 2 } & { 3 } \\ { 2 } & { 1 } \end{matrix} \right]
\left[ \begin{matrix} { x _ { 21 } } \\ { x _ { 22 } } \end{matrix} \right]
= 4 * \left[ \begin{array} { l } { x _ { 21 } } \\ { x _ { 22 } } \end{array} \right]
\end{align}

写成方程组的形式，等价于：

\begin{align}
\tag{12} \label{eq12}
\left\{
\begin{array} { l }
{ 2 x _ { 21 } + 3 x _ { 22 } = 4 x _ { 21 } } \\
{ 2 x _ { 21 } + x _ { 22 } = 4 x _ { 22 } }
\end{array}
\right.
\end{align}

根据方程组第一个等式可以得到：

\begin{align}
\tag{13} \label{eq13}
x _ { 22 } = \frac { 3 } { 2 } x _ { 21 }
\end{align}

然后，我们任意地选择 $x_{21}= 2$，并找到 $x_{22}= 3$，因此，对应于特征值 $\lambda_2=4$ 的特征向量是：

\begin{align}
\tag{14}\label{eq14}
\vec{v_2} = \left[ \begin{array} { l } { 3 } \\ { 2 } \end{array} \right]
\end{align}

总结

在本文中，我们回顾了特征向量和特征值的理论概念。这些概念对于计算机视觉和机器学习中使用的许多技术都非常重要，例如通过 PCA 进行降维，或用 EigenFaces 进行脸部识别。

欢迎转载，转载请注明出处：蔓草札记 » 什么是特征值和特征向量？

手机分辨率多少才够用？

xhhjin — Fri, 12 Mar 2021 09:43:00 +0000

2012 年 10 月 18 日 HTC 在日本召开发布会，推出了一款被命名为 HTC J Butterfly 的机型，它是全球首款配备了 1080P 分辨率屏幕的智能手机产品，它的诞生正式宣告智能手机告别 720P 时代，进入到了“全高清”的纪元。然而，在 J Butterfly 诞生八年多后的今天，整个智能手机行业的主流屏幕分辨率依旧停滞不前。2021 年 1 月 15 日，安兔兔方面发布了 2020 年第四季度的用户偏好排行调查报告，在其中所有参与统计的数据中，屏幕横向分辨率为 1080P 的机型比例高达 86% 以上，占据了绝对主流的市场份额。

众所周知，智能手机的技术进步水平和性能提升速度，近年来绝对是“突飞猛进”的，如今主流智能手机在性能上也早已超过 2012 年的 HTC J Butterfly 数倍之多。那么，为什么智能手机的屏幕分辨率却并没有什么进步呢？

首先，屏幕技术和手机性能不背锅。事实上早在 2013 年 12 月 18 日，vivo 就推出了行内第一款屏幕分辨率达到 2560×1440 的 Xplay 3S；到了 2015 年 9 月 2 日，我们也迎来了首款 4K 屏幕分辨率的智能手机产品 —— 索尼 Z5 Premium。

当然，可能有的朋友知道，近年来智能手机用户比起分辨率，普遍更重视高刷新率，这是否意味着手机厂商会为了更高的刷新率，而放弃高分屏呢？某种程度上来说这种看法有一定的道理，因为无论高分辨率还是高刷新率，本身都需要更高的屏幕传输带宽。对于性能平庸的一些主控来说，确实可能存在两者无法同时共存的情况，但对于当今的主流高端平台来说，它们的 GPU 性能与内存带宽，应对“高分屏 + 高刷屏“其实都毫无问题。比如说 OPPO 在 2020 年发布的 Find X2 Pro、一加在 2020 年推出的一加 8 Pro，都使用了骁龙 865+120Hz 3K 屏的组合，并且从实际体验上来说，也完全不存在卡顿的问题。

不仅如此，得益于近年来的技术进步，顶级高分辨率屏幕的功耗问题也早以得到解决。以三星近日刚刚推出的 Galaxy S21 Ultra 为例，通过采用 10Hz-120Hz 的可变刷新率设计以及新的 M12 发光材料，其所使用的那块 6.8 英寸 3200×1440 屏幕，在维持 3K 分辨率和 1500nit 峰值亮度的同时，还能同时开启高刷新率模式并保持不错的续航能力。

事实上，人眼的分辨率才是高分屏的痛点。人眼其实没有“分辨率”这个指标，应该用“视觉张角”来评价人眼的分辨能力。根据目前的研究表明，人眼的理论分辨能力大约为 20 角秒（1 度＝60 分＝3600 秒的“秒”），但是实际分辨能力没这么高。对于最容易分辨的 5000 纳米波长左右的黄绿光（其他波长的光线分辨能力会更差一些），眼神比较好的（像白天能看到星星二战时期日本王牌飞行员），可以达到 1 角分；视力 1.5 的普通人，3～5 角分；近视眼、远视眼，带散光……就比较杯具了。

假设用智能手机的都是人类中眼神比较好的人，按照分辨能力 1 角分来分析计算：1 角分＝1/60 度＝2Pi/（60×360）＝0.0003 弧度，即：在 1 米处能够看到的最小点距为 0.3 毫米；相应的，在 1 米处放置一个屏幕的话，它的分辨率如果达到 1 英寸 /0.3 毫米＝25.4/0.3＝85PPI，就应该足够了。当然，你并不是每次都把每种屏幕放在离你 1 米远的地方：如果屏幕离你近，分辨率需要相应增加；如果屏幕离你远，分辨率减小一些你也不会觉得观看感觉差。

下面咱们就计算一下，在各种屏幕的典型使用距离下，分辨率应该达到什么等级：

手机：一般观看距离在 25 厘米～30 厘米之间，分辨率应该达到：85×（100/30～100/25）＝283PPI～340PPI；
平板：一般观看距离在 40 厘米～50 厘米之间，分辨率应该达到：85×（100/50～100/40）＝170PPI～213PPI；
液晶电视：一般观看距离在 2 米～4 米之间，分辨率应该达到：85×（1/4～1/2）＝21PPI～43PPI；

应该说，苹果把 300PPI 叫做视网膜屏幕还是有点依据的，在手机的正常观看距离内，没有必要追求太高的 PPI，不是技术达不到，而是你的眼睛没有那么好。因此，按照 300PPI 够用，350PPI 过极限来算，目前主流的 1920*1080 屏幕可以支持到 6-7 寸的屏幕，而 7 寸已经算是平板手机了，也就是说对于手机，1080P 的分辨率足够用，再高不是不行，而是在正常距离内大部分人的眼睛分辨率不出来，没有实际的意义。

至于 2K 屏幕，甚至更高 PPI 的屏幕流行，更多是市场宣传的需要，否者，除非你真有鹰的眼睛，或者把手机贴到鼻子尖上用（屏幕距离眼睛 10cm，你就需要 850PPI 的屏幕，2K 屏幕就不够用了，4K 屏幕才能满足你）。虽然 2K 屏幕从体验上说没有必要，从功耗上看有一些劣势，但是市面上 2K 屏幕的产品依然不少，而且没有大规模的反应出来问题。这说明目前的技术条件下 2K 屏幕依然有生命力。所以，对于 2K 屏幕，消费者无可无不可，用了即使感知不出来但是看着 2K 的参数就爽，增加的那点功耗对现在的电池来说完全不是问题。

欢迎转载，转载请注明出处：蔓草札记 » 手机分辨率多少才够用？

记 Python whl is not a supported wheel on this platform 的解决方案

xhhjin — Fri, 15 Mar 2019 03:13:28 +0000

按照官方教程安装 PyTorch 时出现了类似 *****.whl is not a supported wheel on this platform 的错误，最早怀疑是 Python 版本的问题，查了些资料但都没找到点子上，偶然在查找过程中发现了一个查看 pip 支持文件格式的方法，几番确认下来，发现是 pip 版本太老，不支持这个 whl 文件的缘故。

那么如何根据 Python 和 pip 查看本机支持哪些文件格式，选择合适的 whl 文件呢？

可以用下面两个命令尝试下，前面一个是高版本 pip 的，后面一个是低版本的。

# 高版本
import pip._internal
print(pip._internal.pep425tags.get_supported())

# 低版本
import pip
print(pip.pep425tags.get_supported())

在这次碰到的问题中，先是用后面一个方法查看了系统所能支持的文件版本，对比发现官方没有合适的 whl 文件，接着就升级 pip，升级后就得用前面一个高版本的方法查看支持的文件格式了，选择正确的版本，顺利安装。

欢迎转载，转载请注明出处：蔓草札记 » 记 Python whl is not a supported wheel on this platform 的解决方案

WordPress 代码高亮插件 Enlighter

xhhjin — Mon, 04 Mar 2019 12:19:58 +0000

2018 年 12 月，WordPress 5.0 正式版发布，主要有两个更新：内置默认编辑器由 TinyMCE 更换为更换为 Gutenberg（古腾堡）；新增官方主题 Twenty Nineteen。因为之前在老版本时通过插件的方法体验过古登堡编辑器，没什么大的问题，这次升级后便也懒得改回老的编辑器了，与时俱进还是挺重要的嘛。

但在使用时发现之前使用的 Crayon Syntax Highlighter 代码高亮插件不好用了，插件页面也显示三年未更新了，得重新寻找一个，最后确定为 Enlighter。体验下来，虽然对 Enlighte 的样式并不十分满意，但最终确定为 Enlighter 是其对原来的 Crayon Syntax Highlighter 代码块可以兼容。

换起来挺简单的：安装 Enlighter，停用 / 删除 Crayon Syntax Highlighter，再按照下面配置一下，就可以实现对原有 Crayon Syntax Highlighter 代码块的兼容了：

1、Enlighter -> Option -> Block CSS Selector 设为

pre.EnlighterJSRAW, pre[class="lang:"][class~="decode:true"]

2、Enlighter -> Option -> Inline CSS Selector 设为

code.EnlighterJSRAW, span[class="lang:"][class~="decode:true"][class~="crayon-inline"]

3、Enlighter -> BETA -> Dynamic Resource Invocation (DRI) 必须关闭

虽然 Enlighte 的配置选项不少，但基本都用的默认，最后只是选了个看得顺眼的主题，配置些基础选项就完成了。本博客设置的是 Droide 主题， Code-Indent 设为 4 Spaces，去除了 Info-button 的勾选。

参考文章：
1，使用 Enlighter 替换 Crayon Syntax Highlighter

欢迎转载，转载请注明出处：蔓草札记 » WordPress 代码高亮插件 Enlighter

PyTorch 中 Tensor 和 PILImage 的相互转换

xhhjin — Wed, 27 Feb 2019 08:44:45 +0000

在 PyTorch 实现图像的 Normalize 和反 Normalize 的实验中，发现经过这两个转换后存储的图像和原始图像虽然视觉上没什么差异，但在二进制上却不能完全匹配，这里记录下问题的原因分析及最终的解决过程。

下面是抽象出来的问题及解决问题的代码：

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import torch
from PIL import Image
import torchvision.transforms as transforms

# 1. Read image
imgFolder = "/home/test/image/"
imgSrc = Image.open(imgFolder + "src.jpg")
imgSrc.save(imgFolder + "./00src.png")

# 2. Save source image
tensorSrc = transforms.ToTensor()(imgSrc)
imgRlt = transforms.ToPILImage()(tensorSrc)
imgRlt.save(imgFolder + "./00rlt.png")

# Normalized transform
tensorTrans = tensorSrc.clone()
tensorTrans = transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))(tensorTrans)
tensorRevert = tensorTrans * 0.5 + 0.5

# 3. Usual revert transform
imgRevert = transforms.ToPILImage()(tensorRevert)
imgRevert.save(imgFolder + "01rlt.png")

# 4. Rectified revert transform
if isinstance(tensorTrans, torch.FloatTensor):
    imgRevert = tensorRevert.mul(255).round().byte()
    imgRevert = transforms.ToPILImage()(imgRevert)
    imgRevert.save(imgFolder + "02rlt.png")

主要对比的是上面代码中存储的几幅图像：

（1）输入图像 src.jpg，读入后为了防止编码差异，便于和后面的结果图进行二进制对比，直接存储为 00src.png；
（2）将图像直接转换成 Tensor 并立即重新转换成 PILImage，存储为 00rlt.png；
（3）将图像转换成的 Tensor 经过 Normalize 和按照 Normalize 定义推算出的反向计算反转回图像，存储为 01rlt.png；
（4）通过对前面 1，2，3 中结果不一致的原因分析得到的修正方案，结果图像存储为 02rlt.png。

对于存储的图像，通过 Beyond Compare 进行对比，发现 00src.png 和 00rlt.png 是完全一致的（符合预期），但 00src.png 和 01rlt.png 却不完全一致（不符合预期）。出现这个现象后，直观的想法是由于精度不够引起的，但具体哪一步的精度出了问题，还需进一步调查。

在查看了 transforms.ToTensor 和 transforms.ToPILImage 的源代码后，对问题进行进一步抽象，见下面代码：

import torch
torch.set_printoptions(precision = 32)

a = torch.tensor(4, dtype=torch.uint8)
b = a.float().div(255)
c = (b - 0.5) / 0.5
d = c * 0.5 + 0.5
e = d.mul(255)
f = e.byte()
print("a = " + str(a) + "\nb = " + str(b) + "\nc = " + str(c))
print("d = " + str(d) + "\ne = " + str(e) + "\nf = " + str(f))

输出结果为：

a = tensor(4, dtype=torch.uint8)
b = tensor(0.01568627543747425079345703125000)
c = tensor(-0.96862745285034179687500000000000)
d = tensor(0.01568627357482910156250000000000)
e = tensor(3.99999976158142089843750000000000)
f = tensor(3, dtype=torch.uint8)

为便于查看问题，通过 torch.set_printoptions 设置了输出精度。对于每个变量代表的意义，大致理解如下：a 相当于原始图像，b 相当于图像转换为 Tensor，c 相当于 Normalize，d 相当于反 Normalize，e 为反转回图像的一个中间结果，f 为最终结果。很显然按此步骤，图像像素值 4 在经历 Normalize 和反 Normalize 过程后，最终在新的图像上像素值变成了 3。

接着将上面的计算结果和 wolframalpha 中计算的结果进行对比，可以发现，b 的精度已经出问题了，高精度计算中 4/255 的结果如下：

4/255 = 0.015686274509803921568627450980392156862745098039215686274...

很明显，问题的原因就是算法精度不够而最后的转换又是直接取整，导致出现了不符合预期的结果（有兴趣的话，也可以对比验证下其余步骤的结果）。既然搞清楚了原因，修正的方法就很简单了，再取整前加个 round 函数就可以了，见最上面得到 02rlt.png 图像的代码，最终可验证 00src.png 和 02rlt.png 是二进制一致的。

欢迎转载，转载请注明出处：蔓草札记 » PyTorch 中 Tensor 和 PILImage 的相互转换

SourceCounter 注册序列号生成

xhhjin — Tue, 07 Aug 2018 12:49:04 +0000

SourceCounter 是一款十分好用的源代码统计工具（官方下载地址），支持 30 多种代码格式，能够统计包括：代码行数、注释、空行、文件大小等数据；另外，它还支持对软件开发项目的各个开发阶段的工数、成本、质量指标等进行分析和预测。如果只是简单查看下代码信息，那么免费版就够用了，但如果想把详细的报表都导出来，就需要注册序列号了。

但由于此软件过于久远，连开发者都没有维护了，序列号也就没办法通过正常渠道拿到了，在飘云阁上倒是看到了一个破解版本，但没有账号，无法下载。最后从一个很老的博客中找到了一点提示：

C 盘序列号 xor 0x0160821B

原文在这里：SourceCounter 注册码生成。第一次看到这个提示，我是拒绝的，太随意了，完全搞不懂，但在其它各种方法的尝试都失败后，只能回头好好研究这仅有的提示了，尝试之后居然成功了，这里稍微展开说下步骤，方便有需要的朋友。

首先运行 cmd，输入命令 dir，会得到系统盘的序列号，如下面的是 02B2-1A17。

Microsoft Windows [ 版本 10.0.17134.1]
(c) 2018 Microsoft Corporation。保留所有权利。

C:\Users\xhh2113>dir
 驱动器 C 中的卷没有标签。
 卷的序列号是 02B2-1A17

 C:\Users\xhh2113 的目录

2018/07/31  17:02              .
2018/07/31  17:02              ..

然后用上面得到的卷的序列号去异或十六进制的 0160821B 就生成了最终的 SourceCounter 注册码。这里用的是 win10 自带的计算器，选择“程序员”，然后点击“HEX”按十六进制计算，算得结果 03D2980C（如果不足 8 位，前面补 0）。

最后将这个序列号填入 SourceCounter，就可以正常使用导出功能了，注册效果见上面图片。

欢迎转载，转载请注明出处：蔓草札记 » SourceCounter 注册序列号生成

写在 WordPress 博客被黑之后

xhhjin — Mon, 23 Jul 2018 08:36:06 +0000

前段时间，博客接连被黑了几次，这对于我来说还是头一次遭遇。第一次被黑的时候，后台登陆不进去，查看数据库发现账号和密码被改了，以为是密码泄漏了，于是重置主机内容，更换账号密码，用备份数据重新上线；隔了一周，发现又登陆不上了，首页还被篡改了一部分内容，真是无语，简单处理了下又可以访问了；没想到过了几天，又被黑了，真是心累，放了好几天都懒得处理，后果就越来越严重了，主机被上传了新的目录和文件，接着网站链接也被用 .htaccess 改的指向别处了，看来不得不好好收拾一下了。

去 Google 上搜了一下，找到一篇不错的文章—— WordPress 终极安全指南，参考着把里面提到的绝大部分操作都实现了。

下面简单说下这次处理的几个地方：

一、自动更新

通过插件 Companion Auto Update 让 WordPress 核心、插件和主题的一直保持最新。

二、自动备份

这个之前就设置了，用的是 BackWPup 插件定期备份网站数据到 Dropbox，这次在文章中看到推荐的是 UpdraftPlus，后面可以对比试下哪个好用。

三、安全扫描

通过 WordFence 插件来搞定，功能还挺强大的，设置了隐藏 WordPress 版本号、禁止上传文件夹执行代码，同时还限制了登陆尝试次数，防止暴力破解。

四、保护登陆入口

安装了 WPS Hide Login 插件，禁止对 /wp-admin 和 /wp-login.php 的访问，并把登录入口修改成自定义 URL。

五、修改数据库前缀

防止 SQL 注入，这次数据库被改，怀疑这个可能性极大，之前装 WordPress 都喜欢用默认前缀 wp_ 的，看来后面得改下习惯。

六、关闭 XML-RPC

通过 Disable XML-RPC 插件，彻底关闭了 XML-RPC 功能。

七，启用 Https

之前怕麻烦，一直懒得升级，这次被迫弄了下，借助 Really Simple SSL 插件升级到了 Https，还算比较快的，就是要验证的细节比较多，后面把 Google Webmasters 中的相关信息也更新了下。

重新部署之后到现在也有两三周了，通过 WordFence 后台发现了一些异常的访问，也屏蔽了一些 IP，但至少目前博客看起来还是安全的，没有被渗透的迹象。

上周的时候，Google 搜索了下博客名字，本来是想看下是否还有之前加上的垃圾链接时，发现居然有全站链接了，不清楚是不是改了 Https 之后带来的，算是个意外之喜。

个人博客虽小，安全也得注意，尤其对于 WordPress 这么流行的博客系统，安装后一定要检查是否做到了以下三点：自动更新、安全插件定期扫描和自动备份，做到了这三点，基本可保网站无虞。

欢迎转载，转载请注明出处：蔓草札记 » 写在 WordPress 博客被黑之后

简述 LLVM 与 Clang 及其关系

xhhjin — Thu, 19 Jul 2018 10:05:19 +0000

随着 Android P 的逐步应用，越来越多的客户要求编译库时用 libc++ 来代替 libstdc++。libc++ 和 libstdc++ 这两个库有关系呢？它们两个都是 C++ 标准库，libc++ 是针对 Clang 编译器特别重写的 C++ 标准库，而 libstdc++ 则是 GCC 的对应 C++ 标准库了。从 Android 市场来说，Android NDK 已在具体应用中放弃了 GCC，全面转向 Clang，正如很早前 Android NDK 在 Changelog 中提到的那样：

Everyone should be switching to Clang.
GCC in the NDK is now deprecated.

Android NDK 从 r11 开始建议大家切换到 Clang，并且把 GCC 标记为 deprecated，将 GCC 版本锁定在 GCC 4.9 不再更新；
Android NDK 从 r13 起，默认使用 Clang 进行编译，但是暂时也没有把 GCC 删掉，Google 会一直等到 libc++ 足够稳定后再删掉 GCC；
Android NDK 在 r17 中宣称不再支持 GCC 并在后续的 r18 中删掉 GCC，具体可见 NDK 的版本历史。

接下来，简要的介绍一下 Clang。Clang 是一个 C、C++、Objective-C 和 Objective-C++ 编程语言的编译器前端，采用底层虚拟机（LLVM）作为后端。至于为什么有了 GCC 还要开发 Clang？Clang 相比 GCC 又有什么优势呢？网上有很多信息可以参考，这里只简单提两点：（1）Clang 采用的是 BSD 协议的许可证，而 GCC 采用的是 GPL 协议，显然前者更为宽松；（2）Clang 是一个高度模块化开发的轻量级编译器，编译速度快、占用内存小、有着友好的出错提示。

然后说下 Clang 背后的 LLVM（Low Level Virtual Machine）。LLVM 是以 BSD 许可来开发的开源的编译器框架系统，基于 C++ 编写而成，利用虚拟技术来优化以任意程序语言编写的程序的编译时间、链接时间、运行时间以及空闲时间，最早以 C/C++ 为实现对象，对开发者保持开放，并兼容已有脚本。LLVM 计划启动于 2000 年，最初由 University of Illinois at Urbana-Champaign 的 Chris Lattner 主持开展，2006 年 Chris Lattner 加盟苹果公司并致力于 LLVM 在苹果公司开发体系中的应用，所以苹果公司也是 LLVM 计划的主要资助者。目前 LLVM 因其宽松的许可协议，更好的模块化、更清晰的架构，成为很多厂商或者组织的选择，已经被苹果 IOS 开发工具、Facebook、Google 等各大公司采用，像 Swift、Rust 等语言都选择了以 LLVM 为后端。

在理解 LLVM 之前，先说下传统编译器的工作原理，基本上都是三段式的，可以分为前端、优化器和后端。前端负责解析源代码，检查语法错误，并将其翻译为抽象的语法树；优化器对这一中间代码进行优化，试图使代码更高效；后端则负责将优化器优化后的中间代码转换为目标机器的代码，这一过程后端会最大化的利用目标机器的特殊指令，以提高代码的性能。基于这个认知，我们可以认为 LLVM 包括了两个概念：一个广义的 LLVM 和一个狭义的 LLVM 。广义的 LLVM 指的是一个完整的 LLVM 编译器框架系统，包括了前端、优化器、后端、众多的库函数以及很多的模块；而狭义的 LLVM 则是聚焦于编译器后端功能的一系列模块和库，包括代码优化、代码生成、JIT 等。

下面大概讲一讲 LLVM 和 Clang 的关系。我们将它们对应于传统的编译器当中的几个独立的部分，这样能够更加方便明确的表述出它们之前的关系。

对应到这个图中，可以非常明确的找出它们的关系。整体的编译器架构就是 LLVM 架构；Clang 大致可以对应到编译器的前端，主要处理一些和具体机器无关的针对语言的分析操作；编译器的优化器和后端部分就是之前提到的 LLVM 后端，即狭义的 LLVM。

此外，由于 LLVM 的命名最早源自于底层虚拟机（Low Level Virtual Machine）的首字母缩写，但这个项目的范围并不局限于创建一个虚拟机，这个缩写导致了大量的疑惑。LLVM 成长之后已成为众多编译工具及低级工具技术的统称，使得这个名字变得更不贴切，所以开发者决定放弃这个缩写的涵义，现在 LLVM 已独立成为一个品牌，适用于 LLVM 下的所有项目，包括 LLVM 中介码、LLVM 除错工具、LLVM C++ 标准库等。

欢迎转载，转载请注明出处：蔓草札记 » 简述 LLVM 与 Clang 及其关系