多変数関数の極値判定
注意
この記事では、分かりやすさのために一部厳密性を犠牲にしている部分があります。
厳密でない部分が来た場合には脚注等でなぜ厳密でないかを書きます。
定理
という級関数がある。
これがで極値を持つ条件は
まずであること
としたとき、
ならば極値ではない
ならばのときに極小値であり、のときに極大値である。
(注:ならばとなるようなことはない。)
の場合は個別に考える
覚えにくい!
ところで、この定理を覚えにくいと感じる人は多いだろうと見ている。何故ならば条件も複雑な上に証明を見てもパッとしないからである。この記事を読んでいる人の多くは大学1年生だと思うが、定期試験の直前でこの定理の主張を暗記するという人も少なくないだろう。ここでは、この定理のイメージを説明することで覚えにくさを解消していきたいと思う。
記号の定義
$$H_f(x,y)=\begin{pmatrix}\frac{\partial^2 f}{\partial x^2}(x,y)&\frac{\partial^2 f}{\partial x\partial y}(x,y)\\\frac{\partial^2 f}{\partial y\partial x}(x,y)&\frac{\partial^2 f}{\partial y^2}(x,y)\end{pmatrix}$$
と定める。これをヘッセ行列という。
お行儀のいい関数の場合、ヘッセ行列は対称行列となる。この対称行列という性質は固有値の議論をする際に便利なので重要な性質である。*1
また、
$$\nabla f(x,y)=\left(\frac{\partial f}{\partial x}(x,y),\frac{\partial f}{\partial y}(x,y)\right)\in\mathbb{R}^2$$
この三角のやつをナブラといい、をの勾配ベクトルという。また、をと書くこともある。gradとはgradientの略である。
この定理は、ヘッセ行列の固有値についての議論に落とし込むとシンプルになる。
ちなみに大学一年生ならば、微分積分学と並行してやっている線形代数学で固有値についてやるはずである。一見複雑に見えるこの定理も、線形代数学の言葉を使って表現することで分かりやすくなる。
また、以降では偏微分の略記をする。
$$\frac{\partial f}{\partial x}=f_x,\frac{\partial f}{\partial y}=f_y$$
$$H_f=\begin{pmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{pmatrix}$$
定理(言い換え)
という級関数がある。
これがで極値を持つ条件は
・前提として であること
・の固有値が全部正ならばはで極小値
・の固有値が全部負ならばはで極大値
・の固有値に正のものと負のものが混じっているならばはで極値ではない
・の固有値に0があるならばはで極値かどうかは分からない(個別に判定)
定理の同値性
固有値は固有方程式の解である。よっての固有値は以下の方程式の解となる。
$$\det (H_f(a,b)-\lambda I_2)=0$$
ただしは2×2の単位行列である。
$$\Leftrightarrow \det \begin{pmatrix}f_{xx}-\lambda&f_{xy}\\f_{yx}&f_{yy}-\lambda\end{pmatrix}(a,b)=0$$
$$\Leftrightarrow \lambda^2-\left(f_{xx}+f_{yy}\right)\lambda+f_{xx}f_{yy}-(f_{xy})^2=0$$
これはについての2次方程式となるが、判別式を考えると
$$D=\left(f_{xx}-f_{yy}\right)^2+\left(f_{xy}\right)^2\geq 0$$
結局どうやって言い換えているかというと解と係数の関係である。
の固有値ををおくとこの式はと書ける。
はと言い換えられるため、となる。
よってであってとなるが、これはかつと同値である。
何故ならば、からとなるため、とは符号が同じとなるからである。
極大値の場合も同じように言い換えれてかつとなる。
また、ならば固有値の積が負になるため、固有値の符号が異なるのである。
定理の利点
これは2変数関数に限らず、一般の変数関数に拡張することができる。
拡張すると以下のようになる。
において、級関数の極値判定を考える。
ここで、
$$\nabla f=\left(\frac{\partial f}{\partial x_1},\ldots,\frac{\partial f}{\partial x_n}\right)=(f_{x_1},\ldots,f_{x_n})$$
であり、
$$H_f=\begin{pmatrix}\frac{\partial^2 f}{\partial x_1^2}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\\vdots&\ddots&\vdots\\\frac{\partial^2f}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2f}{\partial x_n^2}\end{pmatrix}=\begin{pmatrix}f_{x_1x_1}&\cdots&f_{x_1x_n}\\\vdots&\ddots&\vdots\\f_{x_nx_1}&\cdots&f_{x_nx_n}\end{pmatrix}$$
と定めたとき、
となるようなに対して、の固有値を考えれば良い。
固有値が全て正ならば極小値であり、固有値が全て負ならば極大値であり、固有値に正と負が混じっていれば極値ではない。また固有値に0があればどうなるかは不明である。
また、ヘッセ行列は対称行列であるため*2固有値は実数となるため、複素数固有値を持つことを考える必要はない。
定理のイメージ
以下、カジュアルな証明を書いてみる。
をテイラー展開で2次まで近似してみる。ここでは十分0と近いものとする。すると
$$f(a+x)\approx f(a)+x\cdot \nabla f(a)+\frac{1}{2}{x}^{\top}H_f(a)x$$
となる。
ここで、厳密にはテイラー展開で近似したときの誤差がどれくらいの大きさなのかを気にする必要がある。ここではあえてという近似という意味を持つ値で書いているが、実質=と同じような使い方をしている。実際を十分0に小さくなるように値を取ると誤差が他の項と比べて無視できるほど小さくなるため、と十分近い近傍の範囲内での議論に影響が出ることはない。
ここでは転置であり、(ドット)は上の内積である。
ここで、は対称行列であるため、直交対角化ができる。
という直交行列とという対角行列を用いて、
$$H_f(a)=P\Lambda P^{-1}=P\Lambda P^{\top}$$
と書ける。(ここで、直交行列はという性質を満たしていることに注意)
ここで、となるようにを定義する。のときにとなることに注意。また、が直交行列であることから、が成立することに注意。
すると、
$$f(a+Py)\approx f(a)+(Py)\cdot \nabla f(a)+\frac{1}{2}{y}^{\top}\Lambda y$$
となる。
極値判定する際には、前提としてとなるようなについてだけ考える。このような前提を満たしているについて
$$f(a+Py)\approx f(a)+\frac{1}{2}{y}^{\top}\Lambda y$$
となる。ここで、
$$\Lambda=\begin{pmatrix}\lambda_1&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&\lambda_n\end{pmatrix},y=\begin{pmatrix}y_1\\\vdots\\y_n\end{pmatrix}$$
とすると、
$$f(a+Py)\approx f(a)+\frac{1}{2}\sum_{k=1}^{n}\lambda_k y_k^2$$
となる。
また、の各成分は、の固有値となっていることに注意する。
もしならば、
$$f(a+Py)\geq f(a)$$
となるため、では極小値となる。
逆にならば、
$$f(a+Py)\leq f(a)$$
となるため、では極大値となる。
一方でかつのようながあるならば、
とという基本ベクトルで書いた場合、(とは番目の成分が1でそれ以外の成分は0となるようなの元である。についても同様)
$$f(a+P(y_i e_i))\approx f(a)+\frac{1}{2}\lambda_i y_i^2\gt f(a)$$
かつ
$$f(a+P(y_je_j))\approx f(a)+\frac{1}{2}\lambda_j y_j^2\lt f(a)$$
となり、方向だけで見れば極小となっていて、方向だけで見れば極大となっている。このように方向によって極大か極小かが変わるため、このときでははにおいては極値ではない。ちなみに、このときの状況においては点で鞍点(あんてん)であるという。
最後に、固有値にとなるようなが混じっている場合、
$$f(a+P(y_i e_i))\approx f(a)+\frac{1}{2}\lambda_i y_i^2\approx f(a)$$
となる。これだけではどうなっているかはわからない。具体的には、二次までの近似だけでは答えが出せないため、それ以上の近似をする必要がある。
関連記事
「固有値が全て正」は「正定値行列」と言い換えることができる。
「固有値が全て負」は「負定値行列」と言い換えることができる。