Thinking deeply!


好记性不如烂笔头,专门开一篇来记录学习中遇到的一些重要概念。

一、高等数学

1. 函数空间

   看周志华的《机器学习》,里面有个名词函数空间,它的中文维基百科给出的定义是:
   在数学中,函数空间是从集合X到集合Y的给定类型的一组函数。
   通俗点来讲,这个“空间”中的所有元素都是函数(负责自变量到因变量的转换),并且这些函数都满足一定的条件。
   函数空间的概念在许多数学领域中均有自己的意义,这里我们只关心集合论、线代中的相关问题。

1.1 集合论

   在集合论中,从集合$X$到$Y$的函数空间记做:$X \rightarrow Y$或者$Y^X$,其中的特列就是,$X$的所有子集(power set或powerset)可以用从$X$到二项集合$\lbrace 0, 1 \rbrace$的所有函数的集合来标识,记做:$2^X$。

1.2 线性代数

   在线性代数中,函数空间(也是向量空间)则是同一个域上的向量空间$V$到另一个向量空间$W$的所有线性变换的集合。

2. 偏导数

   在手写SVM证明过程的时候,发现偏导数的知识点远远不只我们平时高数里面学的那些。按照变量类型划分,有Scalar(标量)、Vector(矢量)、Matrix(矩阵),两两结合就有3 * 3 = 9中形式,如下表:

变量类型 标量 向量 矩阵
标量 $\frac {\large \partial y} {\large \partial x}$ $\large \frac {\partial \vec y} {\partial x}$ $\frac {\large \partial \textbf{Y}} {\large \partial x}$
向量 $\frac {\large \partial y} {\large \partial \vec x }$ $\frac {\large \partial \vec y} {\large \partial \vec x }$ $\color {fuchsia} {\frac {\large \partial \textbf{Y}} {\large \partial \vec x}}$
矩阵 $\frac {\large \partial y} {\large \partial \textbf{X}}$ $\color {fuchsia} {\frac {\large \partial \vec y} {\large \partial \textbf{X}}}$ $\color {fuchsia} {\frac {\large \partial \textbf{Y}} {\large \partial \textbf{X}}}$

  上述表中的偏导数有不同的记法,wikipedia上讲了两种,一种是Numerator-layout notation(分子记法),另一种是Denominator-layout notation(分母记法),当然也可以两种方式混排,为了减少节省篇幅(并且有些偏导仅能用分子记法表示),这里采用第一种分子记法
  注意,上表中带颜色部分的偏导,因为属于更高阶(秩≥2)的张量,无法直接写在一个矩阵中,所以在此不给出这部分表达式,wikipedia上的原话是:

However, these derivatives are most naturally organized in a tensor of rank higher than 2, so that they do not fit neatly into a matrix.

2.1 标量的偏导

2.1.1 标量对标量的偏导

   标量对标量的偏导(Scalar-by-scalar)的求法正是我们日常中见得最多也是用的最多的,如下:

$$
\frac {\partial \large y} {\partial x}
\tag{1 - 2 - 1}
$$

2.1.2 向量对标量的偏导

   向量对标量偏导(Vector-by-scalar)求法如下:

$$
\frac {\partial \bf{\vec y}} {\partial x} =
\begin{bmatrix}
\frac{\partial y_1}{\partial x} \\\\
\frac{\partial y_2}{\partial x} \\\\
\vdots \\\\
\frac{\partial y_m}{\partial x}
\end{bmatrix}
\tag{1 - 2 - 2}
$$

2.1.3 矩阵对标量的偏导

   矩阵对标量偏导(Matrix-by-scalar)求法如下,其中矩阵$\bf{X}$为m * n矩阵:

$$
\frac {\partial \large \textbf{Y}} {\partial x} =
\begin{bmatrix}
\frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x} \\\\
\frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x} \\\\
\vdots & \vdots & \ddots & \vdots \\\\
\frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}
\end{bmatrix}
\tag{1 - 2 - 3}
$$

2.2 向量的偏导

2.2.1 标量对向量的偏导

   标量对向量偏导(Scalar-by-vector)求法如下:

$$
\frac {\partial \large y} {\partial \bf{\vec x}} =
\begin{bmatrix}
\frac {\partial \large y} {\partial x_1} \ , \ \frac {\partial \large y} {\partial x_2} \ , \ \cdots \ , \ \frac {\partial \large y} {\partial x_n}
\end{bmatrix}
\tag{1 - 2 - 4}
$$

2.2.2 向量对向量的偏导

   向对向量偏导(Vector-by-vector)求法如下:

$$
\frac {\partial \large \bf{\vec y}} {\partial \large \bf{\vec x}} =
\begin{bmatrix}
\frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\\\
\frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\\\
\vdots & \vdots & \ddots & \vdots \\\\
\frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}
\end{bmatrix}
\tag{1 - 2 - 5}
$$

2.2.3 *矩阵对向量的偏导

   矩阵对向量偏导(Matrix-by-vector)在此不予列出,原因前文已述及

2.3 矩阵的偏导

2.3.1 标量对矩阵的偏导

   标量对矩阵偏导(Scalar-by-Matrix)求法如下,其中矩阵$\bf{X}$为m * n矩阵:

$$
\frac {\partial \large y} {\partial \large \bf{Y}} =
\begin{bmatrix}
\frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{m1}} \\\\
\frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{m2}} \\\\
\vdots & \vdots & \ddots & \vdots \\\\
\frac{\partial y}{\partial x_{1n}} & \frac{\partial y}{\partial x_{2n}} & \cdots & \frac{\partial y}{\partial x_{mn}} \\\\
\end{bmatrix}
\tag{1 - 2 - 6}
$$

2.3.2 *向量对矩阵的偏导

   向量对矩阵偏导(Vector-by-Matrix)在此也不予列出。

2.3.3 *矩阵对矩阵的偏导

   矩阵对矩阵偏导(Matrix-by-Matrix)在此也不予列出。

3. 概率分布

3.1 多元/维高斯分布

3.1.1 一元/维高斯分布

  设$X \sim N(\mu, \sigma^2)$,则其概率密度函数为:

$$
f(x) = \frac{1}{\sqrt{2 \pi} \sigma} exp \lgroup -\frac{(x - \mu)^2}{2 \sigma^2} \rgroup
\tag{1 - 3 - 1}
$$

  式中$\mu$为期望,$\sigma$为方差。

3.1.2 二元/维高斯分布

  设$X_1 \sim N(\mu_1, \sigma^2_1), \ X_2 \sim N(\mu_2, \sigma^2_2)$,且$X_1、X_2$并不相互独立,其相关系数为$\rho$,即有$(X_1, \ X_2) \sim (\mu_1, \ \mu_2, \ \sigma^2_1, \ \sigma^2_2, \ \rho)$,则其概率密度函数为:

$$
\begin{split}
f(x_1, \ x_2) = \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} exp \lbrack &-\frac{1}{2(1 - \rho^2)} \lgroup \frac{(x_1 - \mu_1)^2}{\sigma^2_1} \ \\\\
&- \ \frac{2\rho (x_1 - \mu_1)(x_2 - \mu_2)}{\sigma_1 \sigma_2} \ \\\\
&+ \ \frac{(x_2 - \mu_2)^2}{\sigma^2_2} \rgroup \rbrack
\end{split}
\tag{1 - 3 - 2}
$$

  改写成向量形式,现记:

$$
\begin{split}
\vec x &= (x_1, \ x_2)^T \\\\
\vec \mu &= (\mu_1, \ \mu_2)^T \\\\
C &=
\begin{bmatrix}
\sigma^2_1 & \rho \sigma_1 \sigma_2 \\\\
\rho \sigma_1 \sigma_2 & \sigma^2_2
\end{bmatrix}
=
\begin{bmatrix}
c_{11} & c_{12} \\\\
c_{21} & c_{22}
\end{bmatrix}
\end{split}
$$

  则二元/维高斯分布概率密度的向量形式为:

$$
f(\vec x) = f(x_1, \ x_2) = \frac{1}{2\pi \sqrt{det (C) }} exp \lbrack -\frac{1}{2} (\vec x - \vec \mu)^T C^{-1} (\vec x - \vec \mu) \rbrack
\tag{1 - 3 - 3}
$$

  式中,$det(C) = |C| = \sigma^2_1 \sigma^2_2 - \rho^2 \sigma^2_1 \sigma^2_2 = \sigma^2_1 \sigma^2_2(1 - \rho^2)$,为协方差矩阵$C$对应的行列式之值。如果对上式(3 - 3)的指数中的幂有疑问,自行展开对比即可,这里不赘述。

3.1.3 多元/维高斯分布

  从二元/维高斯分布出发,可以推导出(过程略)$n$元/维高斯分布的向量形式为:

$$
f(\vec x; \mu \ , C) = \frac{1}{(2\pi)^{\frac{n}{2}} (det (C))^\frac{n}{2}} exp \lbrack -\frac{1}{2} (\vec x - \vec \mu)^T C^{-1} (\vec x - \vec \mu) \rbrack
\tag{1 - 3 - 4}
$$

  式中$C$为一$n*n$的协方差阵,$det(C)$仍然表示其对应的行列式的值。

二、信息论

1.1 采样

  根据奈奎斯特(香农采样定理)采样定理:

$$
f_s > 2· f_{max}
\tag{2 - 1 - 1}
$$

  用语言描述则是:为了准确还原原始信号,采样频率要大于信号中最高频率的2倍。公式非常简单,但是其所蕴含的哲理却并不那么显见,特别是信号中的最高频率这几个字非常值得体会。
  通信理论中,采样分过采样(oversampling) $VS$ 欠采样(undersampling)、上采样(upsampling) $VS$ 下采样(downsampling)。

1.1.1 过采样

  过采样,是指采样频率大于信号频率2倍及以上的采样,只有过采样才能重建原始信号。过采样针对模拟信号数字信号的过程。

1.1.2 欠采样

  欠采样与过采样是一对,顾名思义,它是指采样频率小于信号频率2倍的采样,欠采样无法完全重建原始信号。欠采样也是针对模拟信号数字信号的过程。
  欠采样的一个比较著名的现象是告诉旋转的车轮看起来更像是在反着转,这种现象称为混叠

1.1.3 上采样

  上采样,是通过插值的方式对原始信号进行处理(比如图像的放大)。

1.1.4 下采样

  下采样,它与上采样是一对,它通过采样的方式来减少原始数据(比如图像的缩小)。比如对一副分辨率为$M * N$的图片,进行$k$倍下采样后,得到的图像分辨率为$(M/k) * (N/k)$。

三、矩阵论

1 范数

  关于范数,Wikipedia)上式这么定义的:

In linear algebra, functional analysis, and related areas of mathematics, a norm is a function that assigns a strictly positive length or size to each vector in a vector space—save for the zero vector, which is assigned a length of zero. A seminorm, on the other hand, is allowed to assign zero length to some non-zero vectors (in addition to the zero vector).

  范数满足三个特性:

  • 1.$p(\vec x) \geq 0$,即非负性;
  • 2.$p(a \vec x) = |a| \cdot p(\vec x)$,即齐次性;
  • 2.$p(\vec x + \vec y) \leq p(\vec x) + p(\vec y)$,即三角不等式;

  其中$p(\cdot)$表示对$\cdot$取范数。范数分为向量范数(vector norm)矩阵范数(matrix norm)

1.1 向量范数

1.1.1 向量$p$范数

  向量的p范数定义为向量中所有元素绝对值的$p$次方之和再开$p$次方

$$
||\vec x||_{p} = (\sum_{i=1}^N |x_i|^p)^{\frac{1}{p}}, \quad p \in [1, \ +\infty] \ 或 \ p = 0
\tag{3 - 1 - 1}
$$

  根据$p$最常用的取值,我们有以下几种范数(注意当$p \in (0, 1)$的时候并不满足范数的三角不等式特性)。

1.1.2 向量0范数

  向量的0范数定义为向量中所有非零元素的个数

1.1.3 向量1范数

  向量的1范数定义为向量中所有元素的绝对值之和

$$
||\vec x||_1 = \sum_{i=1}^N |x_i|
\tag{3 - 1 - 2}
$$

1.1.4 向量2范数

  向量的2范数定义为向量中所有元素平方之和再开方,向量的二范数实际上与欧式距离是一样的。

$$
||\vec x||_2 = \sqrt{\sum_{i=1}^N x_i^2}
\tag{3 - 1 - 3}
$$

1.1.5 向量$\infty$范数

  向量的2范数定义为向量中所有元素绝对值的最大值

$$
||\vec x||_{\infty} = \max_{i=1} |x_i|
\tag{3 - 1 - 4}
$$

1.2 矩阵范数

1.2.1 矩阵$p$范数

  矩阵的$p$范数定义为:

$$
||\textbf{A}||_{p} = (\max_{||x||_p = 1} ||\textbf{A}x||_p)^{\frac{1}{p}}
\tag{3 - 1 - 5}
$$

1.2.2 矩阵1范数

  矩阵的1范数定义为矩阵每一行的所有列元素绝对值之和的最大值,故又称为列和范数

$$
||\textbf{A}||_{1} = \max_{j} \sum_{i} |\textbf{A}_{ij}|
\tag{3 - 1 - 6}
$$

1.2.3 矩阵2范数

  矩阵的2范数定义为矩阵最大特征值的开方,又称普范数

$$
||\textbf{A}||_{2} = \sqrt{\max_{j} \lambda_j} = \sqrt{\max eig(A^H A)}
\tag{3 - 1 - 7}
$$

1.2.4 矩阵$\infty$范数

  矩阵的$\infty$范数定义为矩阵每一列所有行元素绝对值之和的最大值,故又称为行和范数

$$
||\textbf{A}||_{infty} = \max_{i} \sum_{j} |\textbf{A}_{ij}|
\tag{3 - 1 - 7}
$$

1.2.5 矩阵$F$范数

  矩阵的$F$(Frobenius)范数定义为矩阵所有元素绝对值平方之和再开方

$$
||\textbf{A}||_{F} = \sqrt{\sum_{ij} |\textbf{A}_{ij}|^2} = \sqrt{Tr(A A^H)}
\tag{3 - 1 - 8}
$$

1.2.6 矩阵Max范数

  矩阵的max范数定义为矩阵所有元素绝对值的最大值

$$
||\textbf{A}||_{max} = \max_{ij} |\textbf{A}_{ij}|
\tag{3 - 1 - 9}
$$

1.2.7 矩阵KF范数

  矩阵的KF范数定义为矩阵奇异值的1范数

$$
||\textbf{A}||_{KF} = ||sing(\textbf{A})||_1
\tag{3 - 1 - 10}
$$

  上式中$||sing(\textbf{A})||$表示矩阵A的奇异值向量。

2 特殊矩阵

  一些比较有意思的矩阵。

2.1 Toeplitz矩阵

  托普利兹矩阵(Toeplitz),简称为T矩阵,又称常对角矩阵,定义为如下形式:

$$
\textbf{A} =
\begin{bmatrix}
a_0 & a_{-1} & a_{-2} &\cdots & \cdots & a_{-(n-1)}\\
a_1 & a_0 & a_{-1} &\ddots & \ddots & \vdots \\
a_2 & a_1 & a_{0} &\ddots & \ddots & \vdots \\
\vdots & \ddots & \ddots &\ddots & a_{-1} & a_{-2} \\
\vdots & \ddots & \ddots &a_1 & a_0 & a_{-1} \\
a_{n-1} & \cdots & \cdots &a_2 & a_1 & a_0 \\
\end{bmatrix}
\tag{3 - 2 - 1}
$$

  Toeplitz矩阵的特点是其第$i$行$j$列的元素,等于其左上角即$i-1$行$j - 1$列的元素,数学表达式为:

$$
\textbf{A}_{i,j} = \textbf{A}_{i-1,j-1}
\tag{3 - 2 - 2}
$$

  Toeplitz矩阵其元素完全由第1行和第1列的$2n-1$个元素就能确定。它之所以叫常对角矩阵,是因为其左上至右下的每一条对角线上的所有元素都是相同的,T矩阵没有要求必须是方阵

2.1.1 Toeplitz矩阵示例1

  下面是一个数字信号处理领域经常用到的特殊T型矩阵,它不但具备T型阵的特点,还是一个对称阵,如下所示:

$$
\textbf{T} =
\begin{bmatrix}
t_0 & t_1 & t_2 &\cdots & t_n\\
t_1 & t_0 & t_1 &\cdots & t_{n-1}\\
t_2 & t_1 & t_0 &\cdots & t_{n-2}\\
\vdots & \vdots & \vdots &\ddots & \vdots\\
t_n & t_{n-1} & t_{n-2} &\cdots & t_0\\
\end{bmatrix}
\tag{3 - 2 - 3}
$$

2.1.2 Toeplitz矩阵示例2

  再来,下面是一个前向移位矩阵:

$$
\textbf{T} =
\begin{bmatrix}
0 & 1 &\cdots & 0\\
0 & \ddots & \ddots &\vdots\\
\vdots & \ddots & \ddots &1\\
0 & \cdots & 0 &0\\
\end{bmatrix}
\tag{3 - 2 - 4}
$$

  Toeplitz矩阵的另一个重要特性是可以用来做卷积!

$$
y = h*x =
\begin{bmatrix}
h_1 & 0 & \cdots & 0 & 0\\
h_2 & h_1 & \cdots & \vdots & \vdots\\
h_3 & h_2 & h_1 & \cdots & 0\\
\vdots & \vdots & \vdots &\ddots & \vdots\\
0 & 0 & \cdots & h_{m-1} & h_{m-2}\\
\vdots & \vdots & \vdots & h_{m} & h_{m-1}\\
0 & 0 & 0 & \cdots & h_{m}\\
\end{bmatrix}
\begin{bmatrix}
x_1\\
x_2\\
x_3\\
\vdots\\
x_n\\
\end{bmatrix}
\tag{3 - 2 - 5}
$$

  上式的另一种表达形式为:

$$
y^T =
\begin{bmatrix}
h_1 & h_2 &h_3 & \cdots &h_n\\
\end{bmatrix}
\begin{bmatrix}
x_1 & x_2 & x_3 & \cdots & x_n & 0 & 0 & 0 & \cdots & 0\\
0 & x_1 & x_2 & x_3 & \cdots & x_n & 0 & 0 & \cdots & 0\\
0 & 0 & x_1 & x_2 & x_3 & \cdots & x_n & 0 & \cdots & 0\\
\vdots & \vdots & \vdots &\vdots & \vdots & \cdots & \vdots & \vdots & \cdots & 0\\
0 & \cdots & 0 & 0 & x_1 & \cdots & x_{n-2} & x_{n-1} & x_n & \vdots\\
0 & \cdots & 0 & 0 & 0 & x_1 & \cdots & x_{n-2} & x_{n-1} & x_n\\
\end{bmatrix}
\tag{3 - 2 - 6}
$$

  一些比较有意思的矩阵。

2.2 Hankel矩阵

  汉克尔矩阵(Hankle),是方阵,其每一条副对角线上的元素均相等,定义为如下形式:

$$
\textbf{A} =
\begin{bmatrix}
a_0 & a_1 & a_2 &\cdots & \cdots & a_{(n-1)}\\
a_1 & a_2 & a_3 &\ddots & \ddots & \vdots \\
a_2 & \vdots & \vdots &\ddots & \ddots & \vdots \\
\vdots & \ddots & \ddots &\ddots & \ddots & a_{2n-4} \\
\vdots & \ddots & \ddots &\ddots & a_{2n-4} & a_{2n-3} \\
a_{n-1} & \cdots & \cdots &a_{2n-4} & a_{2n-3} & a_{2n-2} \\
\end{bmatrix}
\tag{3 - 2 - 7}
$$

  Hankle矩阵的特点是其第$i$行$j$列的元素,等于对称位置即$j$行$i$列的元素,数学表达式为:

$$
\textbf{A}_{i,j} = \textbf{A}_{j,i}
\tag{3 - 2 - 8}
$$

  Hankle矩阵其是一个对称阵,它与上面所说来的Toeplitz矩阵有着紧密联系,仔细观察可以发现,Hankle矩阵自右上至左下的每一条对角线的所有元素均是相同的,刚好与T矩阵相反

  若$H \in C^{n \times n},T \in C^{n \times n}$即H、T分别表示$n \times n$的Hankle、Toeplit方阵,那么它们之间的相互转换关系为:

$$
\begin{cases}
\begin{split}
\textbf{T} &= \textbf{J}_n \cdot \textbf{H} = \textbf{H} \cdot \textbf{J}_n \\
\\
\textbf{H} &= \textbf{J}_n \cdot \textbf{T} = \textbf{T} \cdot \textbf{J}_n \\
\end{split}
\end{cases}
\tag{3 - 2 - 9}
$$

  对于非方阵,则有:

$$
\textbf{H}_{m \times n} = \textbf{T}_{m \times n} \cdot \textbf{J}_n \\
\tag{3 - 2 - 10}
$$

  式中$\textbf{J}_n$表示n阶反向方阵,即:

$$
\textbf{J}_n =
\begin{bmatrix}
0 & 0 & 0 &\cdots & 0 & 1\\
0 & 0 & 0 &\ddots & 1 & 0 \\
\vdots & \vdots & \vdots &\vdots & \vdots & \vdots \\
0 & 1 & 0 &\cdots & 0 & 0 \\
1 & 0 & 0 & \cdots & 0 & 0 \\
\end{bmatrix}
\tag{3 - 2 - 11}
$$

2.2.1 Hankel转Toeplitz示例

  给定Hankel、Toeplitz矩阵如下:

$$
\textbf{T}_{5 \times 5} =
\begin{bmatrix}
a & b & c &d & e\\
f & a & b & c &d\\
g & f & a & b & c\\
h & g & f & a & b\\
i & h & g & f & a\\
\end{bmatrix} \quad , \quad
\textbf{H}_{5 \times 5} =
\begin{bmatrix}
a & b & c &d & e\\
b & c & d & e &f\\
c & d & e &f & g\\
d & e &f & g & h\\
e &f & g & h & i\\
\end{bmatrix}
\tag{3 - 2 - 12}
$$

  则$\textbf{T}_{5 \times 5} \cdot \textbf{J}_{5 \times 5}$结果如下:

$$
\textbf{T} \cdot \textbf{J} =
\begin{bmatrix}
a & b & c &d & e\\
f & a & b & c &d\\
g & f & a & b & c\\
h & g & f & a & b\\
i & h & g & f & a\\
\end{bmatrix} \cdot
\begin{bmatrix}
0 & 0 & 0 &0 & 1\\
0 & 0 & 0 & 1 &0\\
0 & 0 & 1 & 0 & 0\\
0 & 1 & 0 & 0 & 0\\
1 & 0 & 0 & 0 & 0\\
\end{bmatrix} =
\begin{bmatrix}
e & d & c &b & a\\
d & c & b & a &f\\
c & b & a & f & g\\
b & a & f & g & h\\
a & f & g & h & i\\
\end{bmatrix}
\tag{3 - 2 - 13}
$$

  把上式最终结果和$\textbf{H}_{5 \times 5}$对比,虽然元素上没有严格对应(比如前者副对角线上元素是$a$,而后者是$e$),但是前者形式上已经完全符合Hankle矩阵的定义。Wiki上提到的两者的关系,指的就是这个意思,而并不是说元素要严格一致,我之前因为这个原因纠结了很久。

  附上Wiki关于两个矩阵关系的原话:

The Hankel matrix is closely related to the Toeplitz matrix (a Hankel matrix is an upside-down Toeplitz matrix).

2.3 Hessian矩阵

  海森矩阵(Hessian),又称黑塞、海瑟、海塞矩阵,定义为如下形式:

$$
\textbf{H(f)} =
\begin{bmatrix}
\frac{\partial^2f}{\partial x^2_1} & \frac{\partial^2f}{\partial x_1 \partial x_2} &\cdots & \frac{\partial^2f}{\partial x_1 \partial x_n}\\
\frac{\partial^2f}{\partial x_2 \partial x_1} & \frac{\partial^2f}{\partial x^2_2} &\cdots & \frac{\partial^2f}{\partial x_2 \partial x_n}\\
\vdots & \vdots & \ddots &\vdots\\
\frac{\partial^2f}{\partial x_n \partial x_1} & \frac{\partial^2f}{\partial x_n \partial x_2} &\cdots & \frac{\partial^2f}{\partial x^2_n}\\
\end{bmatrix}
\tag{3 - 2 - 14}
$$

  Hessian矩阵是由多变量函数的二阶偏导数组成的,数学表达式为:

$$
\textbf{H(f)}_{i,j}(x) = D_i D_j f(x)
\tag{3 - 2 - 15}
$$

  如果f函数在区域D内的每个二阶导数都是连续的,即有:

$$
\frac{\partial}{\partial x} (\frac{\partial f}{\partial y}) = \frac{\partial}{\partial y} (\frac{\partial f}{\partial x})
\tag{3 - 2 - 16}
$$

2.3.1 Hessian矩阵应用

  此时海森矩阵在D区域内为对称矩阵。海森矩阵对应的行列式可以用来判定$f$的临界点属于鞍点还是极值点。判别依据如下:

  • 1.|H| > 0,若$\frac{\partial^2f}{\partial x^2_1} > 0$,则$(x_0, y_0)$为局部极小点;若$\frac{\partial^2f}{\partial x^2_1} < 0$,则$(x_0, y_0)$为局部极大点。
  • 2.|H| < 0,则$(x_0, y_0)$为鞍点。
  • 3.|H| = 0,则需要更高阶的倒数来判别。

  或者按如下的条件来判断:

  • 1.当H为正定矩阵,临界点$x_0$是一个局部的极小点;
  • 2.当H为负定矩阵,临界点$x_0$是一个局部的极大点;
  • 3.当H = 0,需要更高阶的倒数来判断;
  • 4.其它所有情况,临界点$x_0$不是局部极值
2.3.2 Hessian矩阵参考资料

  关于Hessian矩阵的其它参考资料罗列如下:

2.4 Hermitian矩阵

  埃尔米特矩阵(Hermitian),又称为自共轭矩阵,定义为如下形式:

$$
\textbf{A} =
\begin{bmatrix}
a_{11} & a_{12} &\cdots & a_{1n}\\
\overline{a_{12}} & a_{22} &\cdots & a_{2n}\\
\vdots & \vdots & \ddots &\vdots\\
\overline{a_{1n}} & \overline{a_{2n}} &\cdots & a_{nn}\\
\end{bmatrix}
\tag{3 - 2 - 17}
$$

  式中,$\overline{(\cdot)}$表示共轭算子。其数学表达式为:

$$
a_{ij} = \overline{a_{ji}} \quad 或 \quad \textbf{A} = \overline{\textbf{A}^T} \quad 或 \quad \textbf{A} = \textbf{A}^H
\tag{3 - 2 - 18}
$$

  Hermitian矩阵的主对角线上的元素必须是实数,如果非对角线不包含虚数的对称矩阵也是Hermitian矩阵(特例)。对于满足如下条件的矩阵我们则称为反Hermitian矩阵(对称位置元素互为共轭相反数)。

$$
a_{ij} = -\overline{a_{ji}} \quad 或 \quad \textbf{A} = -\overline{\textbf{A}^T} \quad 或 \quad \textbf{A} = -\textbf{A}^H
\tag{3 - 2 - 19}
$$

2.4.1 Hermitian矩阵性质

  Hermitian矩阵的主要性质如下:

  • 1.可逆的Hermitian矩阵的逆矩阵仍然为Hermitian矩阵;
  • 2.Hermitian矩阵A的n阶$\textbf{A}^n$仍然保持为Hermitian矩阵;
  • 3.两个Hermitian矩阵的和仍保持为Hermitian矩阵,当且仅当两个矩阵可交换的时候,其乘积保持为Hermitian矩阵;
  • 4.所有Hermitian矩阵均为正规矩阵,即$\textbf{AA}^H = \textbf{A}^H\textbf{A}$;
  • 5.Hermitian矩阵的特征值均为实数,其特征向量相互正交,Hermitian矩阵可以被酉对角化
  • 6.以Hermitian可以特征分解为$\textbf{A} = \textbf{U} \Lambda \textbf{U}^H$,其中$\textbf{U}$为其特征向量组成的酉矩阵(正交矩阵在复数域上的延伸),$\Lambda$为其特征值形成的对角阵;
2.4.2 Hermitian参考资料

  关于Hermitian矩阵的其他参考资料:

2.5 Vandermonde矩阵

  范德蒙矩阵(Vandermonde),定义为如下形式:

$$
\textbf{V} =
\begin{bmatrix}
1 & \alpha_1 & \alpha^2_1 &\cdots & \alpha^{n-1}_1\\
1 & \alpha_2 & \alpha^2_2 &\cdots & \alpha^{n-1}_2\\
\vdots & \vdots & \vdots & \ddots &\vdots\\
1 & \alpha_m & \alpha^2_m &\cdots & \alpha^{n-1}_m\\
\end{bmatrix}
\tag{3 - 2 - 20}
$$

  该矩阵的特点是,每一行都是一个等比级数。其数学表达式为:

$$
\textbf{V}_{i,j} = \alpha^{j-1}_i
\tag{3 - 2 - 21}
$$

2.5.1 Vandermonde矩阵性质

  Vandermonde的性质不多,比较明显的是,其对应的行列式的值。

$$
\begin{split}
det(\textbf{V}) &= \prod_{1 \leq i \leq j \leq n} (\alpha_j - \alpha_i) \\
&= (\alpha_2 - \alpha_1) \cdot \\
& \quad \ (\alpha_3 - \alpha_2) \cdot (\alpha_3 - \alpha_1) \\
& \quad \ (\alpha_4 - \alpha_3) \cdot (\alpha_4 - \alpha_2) \cdot (\alpha_4 - \alpha_1) \\
& \quad \qquad \ \vdots \qquad \qquad \ \vdots \qquad \qquad \ \vdots \\
& \quad \ (\alpha_n - \alpha_{n-1}) \cdot (\alpha_n - \alpha_{n-2}) \cdots (\alpha_n - \alpha_1) \\
\end{split}
\tag{3 - 2 - 22}
$$

2.6 Hamiltonian矩阵

  汉密尔顿矩阵(Hamiltonian),定义为满足如下性质的矩阵:

$$
\textbf{JA}^T = \textbf{JA}
\tag{3 - 2 - 23}
$$

  式中的J为2n阶斜对称矩阵(反对称矩阵)
$$
\textbf{J} =
\begin{bmatrix}
0 & \textbf{I}_n\\
-\textbf{I}_n & 0\\
\end{bmatrix}
\tag{3 - 2 - 24}
$$

2.6.1 Hamiltonian矩阵特性

  如果把Hamiltonian矩阵写成如下的分块阵:

$$
\textbf{A} =
\begin{bmatrix}
a & b\\
c & d\\
\end{bmatrix}
\tag{3 - 2 - 25}
$$

  则有如下特性:

  • 1.a、b均为对称矩阵;
  • 2.有$a + d^T = 0$;
  • 3.两个Hamiltonian矩阵之和也保持为Hamiltonian矩阵;
  • 4.实Hamiltonian矩阵的特征多项式为偶数,若$\lambda$为其特征值,则$-\lambda、\lambda^*、-\lambda^*$也为该Hamiltonian矩阵的特征值;