lec3:
二阶条件
Note
范数
极大值函数(无法用二阶条件分析)
解析近似:构造函数,无穷阶可微
logsumexp
证明凸性:
Question
习题:
是否为凹函数?
Tip
考虑一维形式?(凹函数)
Note
一个标量函数 \(f(x)\)(其中 \(x\) 是一个矩阵)是凹函数的二阶条件是,其 Hessian 矩阵是负半定的。对于矩阵变量的函数,这等价于证明其在任意方向上的二阶方向导数均非正。
具体来说,我们需要证明对于任意正定矩阵 \(x \succ 0\) 和任意对称矩阵 \(V\),下式成立: $$ \frac{d2}{dt2} f(x+tV) \bigg|_{t=0} \le 0 $$
证明步骤
-
定义辅助函数 设 \(x\) 是一个 \(n \times n\) 的正定矩阵,\(V\) 是一个任意的 \(n \times n\) 对称矩阵。我们定义一个单变量函数 \(g(t)\): $$ g(t) = f(x+tV) = \log \det (x+tV) $$ 我们的目标是计算 \(g''(t)\) 并在 \(t=0\) 处求值。
-
计算一阶导数 \(g'(t)\) 我们使用链式法则以及矩阵行列式的导数公式:\(\frac{d}{dt} \det(A(t)) = \det(A(t)) \text{tr}(A(t)^{-1} \frac{d A(t)}{dt})\)。 由此可得对数行列式的导数公式: $$ \frac{d}{dt} \log \det(A(t)) = \frac{1}{\det(A(t))} \frac{d}{dt} \det(A(t)) = \text{tr}\left(A(t)^{-1} \frac{d A(t)}{dt}\right) $$ 在我们的问题中,\(A(t) = x+tV\),因此 \(\frac{d A(t)}{dt} = V\)。 将此代入公式,我们得到 \(g(t)\) 的一阶导数: $$ g'(t) = \text{tr}\left((x+tV)^{-1} V\right) $$
-
计算二阶导数 \(g''(t)\) 接下来,我们对 \(g'(t)\) 求导。这需要用到矩阵逆的导数公式:\(\frac{d}{dt} A(t)^{-1} = -A(t)^{-1} \left(\frac{d A(t)}{dt}\right) A(t)^{-1}\)。 $$ \begin{aligned} g''(t) &= \frac{d}{dt} \text{tr}\left((x+tV)^{-1} V\right) \ &= \text{tr}\left(\frac{d}{dt}\left((x+tV)^{-1}\right) V\right) \ &= \text{tr}\left(-\left((x+tV)^{-1} \frac{d(x+tV)}{dt} (x+tV)^{-1}\right) V\right) \ &= \text{tr}\left(-(x+tV)^{-1} V (x+tV)^{-1} V\right) \end{aligned} $$
-
在 \(t=0\) 处求值 将 \(t=0\) 代入 \(g''(t)\) 的表达式: $$ g''(0) = -\text{tr}\left(x^{-1} V x^{-1} V\right) $$
-
证明 \(g''(0) \le 0\) 我们需要证明 \(-\text{tr}\left(x^{-1} V x^{-1} V\right) \le 0\),这等价于证明 \(\text{tr}\left(x^{-1} V x^{-1} V\right) \ge 0\)。
- 因为 \(x\) 是正定矩阵 (\(x \succ 0\)),所以它的逆 \(x^{-1}\) 也是正定矩阵。
- 因为 \(x^{-1}\) 是正定的,所以它存在一个唯一的正定平方根,我们记为 \((x^{-1/2})\)。
- 利用迹 (trace) 的循环性质 \(\text{tr}(AB) = \text{tr}(BA)\),我们可以重写表达式: $$ \begin{aligned} \text{tr}(x^{-1} V x^{-1} V) &= \text{tr}(x^{-1/2} x^{-1/2} V x^{-1/2} x^{-1/2} V) \ &= \text{tr}\left((x^{-1/2} V x^{-1/2}) (x^{-1/2} V x^{-1/2})\right) \end{aligned} $$
- 我们定义一个新矩阵 \(A = x^{-1/2} V x^{-1/2}\)。
- 因为 \(x^{-1/2}\) 和 \(V\) 都是对称矩阵,所以 \(A\) 也是一个对称矩阵。
- 表达式变为 \(\text{tr}(A^2)\)。
- 对于任何实对称矩阵 \(A\),其迹可以表示为其特征值 \(\lambda_i\) 的和。因此,\(A^2\) 的特征值为 \(\lambda_i^2\)。 $$ \text{tr}(A^2) = \sum_{i=1}^n \lambda_i(A^2) = \sum_{i=1}^n (\lambda_i(A))^2 $$
- 由于特征值 \(\lambda_i(A)\) 是实数,它们的平方 \((\lambda_i(A))^2\) 必然是非负的。
- 因此,它们的和也必然是非负的: $$ \text{tr}(A^2) = \sum_{i=1}^n (\lambda_i(A))^2 \ge 0 $$
- 这就证明了 \(\text{tr}\left(x^{-1} V x^{-1} V\right) \ge 0\)。
-
结论 因为 \(\text{tr}\left(x^{-1} V x^{-1} V\right) \ge 0\),所以: $$ g''(0) = -\text{tr}\left(x^{-1} V x^{-1} V\right) \le 0 $$ 由于二阶方向导数对于任意方向 \(V\) 都是非正的,这表明函数 \(f(x)\) 的 Hessian 矩阵是负半定的。因此,函数 \(f(x) = \log \det (x)\) 在其定义域(所有正定矩阵的集合)上是凹函数。