開集合と閉集合

定義

集合$U\subset \mathbb{R}^n$が開集合であるとは、以下の性質が成り立つことである。

任意の$x\in U$に対して、ある$\varepsilon \gt 0$が存在して、$B(x,\varepsilon)\subset U$である。

ここで、$B(x,\varepsilon)=\{y\in\mathbb{R}^n;|y-x|\lt \varepsilon\}$

ノルムについては$|y-x|=\sqrt{\sum_{i=1}^{n}|x_i-y_i|^2}$という感じ

 

集合$V\subset \mathbb{R}^n$が閉集合であるとは、補集合$\mathbb{R}^n\setminus V$が開集合であることを言う。

開集合や閉集合の例

$n=1$のとき

区間$(a,b)$は開集合である。

区間$[a,b]$は閉集合である。

半開区間$[a,b),(a,b]$は開集合でも閉集合でもない

$(1,2)\cup (3,4)$は開集合である

$[1,2]\cup [3,4]$は閉集合である

$(1,2)\cup [3,4]$は開集合でも閉集合でもない

$\{0\}$(一点集合)は閉集合である

$\mathbb{R}\setminus \{0\}$は開集合である

有限集合$\{0,1,2,3,4\}$は閉集合である

$\mathbb{Z}$(整数全体の集合)は閉集合である

$\mathbb{Q}$(有理数全体の集合)は開集合でも閉集合でもない

 

$n=2$のとき

$\{(x,y)\in\mathbb{R}^2;x^2+y^2\lt 1\}$は開集合である

$\{(x,y)\in\mathbb{R}^2;-1\lt x,y\lt 1\}$は開集合である

$\{(x,y)\in\mathbb{R}^2;x^2+y^2\leq 1\}$は閉集合である

$\{(x,y)\in\mathbb{R}^2;-1\leq x,y\leq 1\}$は閉集合である

$\{(x,y)\in\mathbb{R}^2;1\leq  x^2+y^2\leq 2\}$は閉集合である

$\{(x,y)\in\mathbb{R}^2;1\leq  x^2+y^2\lt 2\}$は開集合でも閉集合でもない

 

一般のとき

$B(x,\varepsilon)=\{y\in\mathbb{R}^n;|y-x|\lt \varepsilon\}$は開集合である

$\emptyset,\mathbb{R}^n$空集合と全体集合は開集合であり、同時に閉集合でもある。

ちなみにユークリッド空間では、開集合かつ閉集合であるような集合は空集合と全体集合以外には存在しない。・・・ということなので、ユークリッド空間じゃない何かしらのなにかに対して開集合や閉集合が定義できて、そのときに空集合でも全体集合でもないのに開かつ閉であるような集合が存在しているかもしれない。

 

性質

区間は開集合

$n=1$において、開区間は開集合である。$(a,b)$

$x\in (a,b)$について、$\varepsilon=\min\{\dfrac{x-a}{2},\dfrac{b-x}{2}\}\gt 0$とすれば$B(x,\varepsilon)\subset (a,b)$

開集合同士の直積

開集合と開集合の直積は開集合である。例えば、$(a,b)\times (c,d)$は開集合である

連続写像から定まる開集合

$f:\mathbb{R}^n\to\mathbb{R}^m $は連続写像として、$U\in\mathbb{R}^m $を開集合とする。このとき、$f^{-1}(U)\subset \mathbb{R}^n$もまた開集合である。

例えば、$n=2,m=1$として、$f(x,y)=x^2+y^2$,$U=(-\infty,1)$とした場合、$f^{-1}(U)=\{(x,y)\in \mathbb{R}^2;x^2+y^2\lt 1\}$となる。よって$\{(x,y)\in \mathbb{R}^2;x^2+y^2\lt 1\}$は開集合である。

開集合同士の共通部分と和集合

$U_1,U_2\subset\mathbb{R}^n$が開集合であるとき、$U_1\cap U_2,U_2\cup U_2$もまた開集合である。

ここで、気をつけなければいけないのは、$\cup$のほうは無限個の合併を考えてもいいのだけど、$\cap$の場合は有限個の集合の共通部分しか許されていないのである。

例えば、$U_n=(-1/n,1/n)$というような開集合の列があったとき、$\cap_{n=1}^{\infty} U_n=\{0\}$となって開集合ではなくなるのである。

なぜ和集合では大丈夫なのに共通部分ではダメなのだろうか?定義に戻ってみてみる

$x\in U_n $のとき、$B(x,\varepsilon_n)\subset U_n$であるような状況を考える。

このとき、$x\in \cup_{n=1}^{\infty} U_n$を考えたとき、ある$k\in\mathbb{N}$が存在して$x\in U_k$だが、このとき、$B(x,\varepsilon_k)\subset U_k\subset \cup_{n=1}^{\infty} U_n$のようになるため、和集合の場合は問題ないのである。

一方共通部分の場合だとどうなるだろうか。

$x\in U_1\cap U_2$であるとき、$B(x,\varepsilon)\subset U_1\cap U_2$であるような$\varepsilon$をどう取ればいいのかというと、$\varepsilon =\min\{\varepsilon_1,\varepsilon_2\}$である。任意の有限個の場合も同様で、$x\in U_1\cap \cdots \cap U_n$のときも$\varepsilon=\min\{\varepsilon_1,\ldots,\varepsilon_n\}$とすればOKである。

同じようなノリで無限個の集合の共通部分を考えるならば$x\in \cap_{n=1}^{\infty} U_n$ならば$\varepsilon=\inf\{\varepsilon_1,\ldots,\varepsilon_n,\ldots\}$みたいにするというような発想に落ち着くだろう。

で、これの何が問題なのかというと、開集合の定義を満たすためには$\varepsilon\gt 0$であることが要求されるのである。で、実際に有限個の集合の共通部分においては問題ないのだが、無限個の場合は$\varepsilon=0$となってしまう可能性が残されているのである。前述の$U_n=(-1/n,1/n)$においては$\varepsilon_n=\dfrac{1}{2n}$みたいな状況になっているので、実際にinfを取ってしまうと0と等しくなってしまうのである。

 

ところで、開集合なら

$\forall \lambda \in\Lambda $について$A_\lambda $が開集合なら$\cup_{\lambda \in\Lambda} A_\lambda$もまた開集合である

$A_1,\ldots,A_n$が開集合なら、$A_1\cap\cdots \cap A_n$もまた開集合である。

みたいなことが成り立つが、閉集合だと有限無限が逆転する。(ドモルガンの法則を考えればわかる)

つまり、

$\forall \lambda \in\Lambda $について$A_\lambda $が閉集合なら$\cap_{\lambda \in\Lambda} A_\lambda$もまた閉集合である

$A_1,\ldots,A_n$が閉集合なら、$A_1\cup\cdots \cup A_n$もまた閉集合である。

開集合の場合は無限個の共通部分を取るのがNGだったけど、閉集合の場合は無限個の和集合を取るのがNGとなる。

これも$V_n=[0,1-1/n]$について、$\cup_{n=1}^{\infty}V_n=[0,1)$が反例となる。

 

閉集合内での点列

$D$を閉集合とする。このとき、$\{a_n\}_{n=1}^{\infty}$を$D$上の点列とする。$\lim_{n\to\infty}a_n=\alpha$が存在するならば、$\alpha\in D$である。

 

これはけっこう使う

閉包と内部

開集合か閉集合かわからないような集合$A\subset \mathbb{R}^n$が与えられたとき、

$A$を含む最小の閉集合を$A$の閉包といい、$\overline{A}$と書く

$A$に含まれる最大の開集合を$A$の内部といい、$A^i$と書く

$A^i\subset A\subset \overline{A}$が一般に成り立つ。

$A$の境界は$\overline{A}\setminus A^i $で定義して$\partial A$と書く

 

例・性質

$A$が閉集合であることと$A=\overline{A}$は同値

$A$が開集合であることと$A=A^i$は同値

$(A^i)^i=A^i$

$\overline{\overline{A}}=\overline{A}$

$\overline{(a,b)}=[a,b]$

$\overline{[a,b)}=[a,b]$

$\overline{(a,b]}=[a,b]$

$\overline{[a,b]}=[a,b]$

$(a,b)^i=(a,b)$

$[a,b)^i=(a,b)$

$(a,b]^i=(a,b)$

$[a,b]^i=(a,b)$

$\overline{\mathbb{Q}}=\mathbb{R}$

 

$\{(x,y);x^2+y^2\leq 1\}^i=\{(x,y);x^2+y^2\lt 1\}$

$\overline{\{(x,y);x^2+y^2\lt 1\}}=\{(x,y);x^2+y^2\leq 1\}$

$\partial \{(x,y);x^2+y^2\lt 1\}=\{(x,y);x^2+y^2=1\}$

$\partial \emptyset=\emptyset$

$\partial \mathbb{R}^n=\emptyset$

 

集合位相での話

今までの話ではまずユークリッド空間があって、そこに距離を定めた結果なにが開集合で閉集合であるかを議論していた。

位相空間論では逆になる。つまり、最初になにが開集合でなにが閉集合になるのかを決めて、そこから議論を出発するのである。ユークリッド空間においては開集合が議論の出発点となっていたが、一般の位相空間論では開集合がスタート地点である。

 

位相空間とは$(X,\mathcal{O})$という組で与えられる。で、$X$は一般の集合であり、$\mathcal{O}$の元は$X$の部分集合である。つまり$\mathcal{O}\subset 2^X$である。

 

何が開集合であるかをある程度は好き勝手に決めることができる。ただしなんでも自由というわけではなく、以下の制約がある。

・$U_\lambda \in \mathcal{O},(\forall \lambda \in \Lambda)$ならば、$\cup_{\lambda\in\Lambda} U_\lambda \in \mathcal{O}$

・$U_i\in\mathcal{O}(i=1,\ldots,n)$ならば$\cap_{i=1}^{n} U_i\in\mathcal{O}$

・$\emptyset \in\mathcal{O},X\in\mathcal{O}$

 

つまり、前述で開集合の性質として挙げた「開集合の和集合は開集合」や「有限個の開集合の共通部分は開集合」といったものが、逆に開集合の定義となるのである。

 

そして前述で挙げた他の開集合の性質が定義となる。

 

たとえば、

$f:X\to Y$が連続写像、$U\subset Y$が開集合なら、$f^{-1}(U)\subset X$は開集合というのがあるけど、これは逆に連続写像の定義となる。

位相空間論では連続写像を以下のように定める。

$(X,\mathcal{O}_X),(Y,\mathcal{O}_Y)$を位相空間とする。$f:X\to Y$において、任意の$U\subset Y,U\in\mathcal{O}_Y$において、$f^{-1}(U)$も開集合ならば$f$は連続であるという

 

さらに、「開集合同士の直積は開集合」というのも、逆に「位相空間同士の直積」にどうやって位相構造を定めるかの定義となる。

$(X,\mathcal{O}_X),(Y,\mathcal{O}_Y)$を位相空間とする。このとき、$X\times Y$への位相は以下のように定めるのが一般的である。

$U_x\in\mathcal{O}_X,U_y\in\mathcal{O}_Y$は開集合とする。このとき、$U_x\times U_y\subset X\times Y$は開集合である。

ただし、$U_x\times U_y$で書けるような集合だけを開集合とするのは良くなくて、これらの「開集合と開集合の直積」の和集合や有限回の積集合で書けるようなものを直積空間の開集合と定める。そうしないと位相の要件を満たさなくなるのでそうしている。

このような位相の定め方を積位相という。

ちゃんとした言葉でいうと、$U_x\times U_y,U_x\in\mathcal{O}_X,U_y\in\mathcal{O}_Y$で生成されるような位相が積位相である。

 

また、ユークリッド空間では開集合かつ閉集合であるような集合は空集合と全体集合しか無いというのは、「ユークリッド空間は連結である」というように言い換えることができる。つまり、連結というのは「開集合かつ閉集合であるような集合が空集合と全体集合以外に存在しない」ような位相空間のことを言う。

ワイエルシュトラスの多項式近似定理

概要

$f:[0,1]\to\mathbb{R}$を連続関数とする。このとき、$\{f_n\}_{n=1}^{\infty}$という多項式の列が存在して、$f_n$は$f$に一様収束する。

 

証明

ここでは、具体的に$f_n$を構成することができる。

 

$$f_n(x)=\sum_{k=0}^{n}{}_{n}C_{k}f\left(\frac{k}{n}\right) x^k(1-x)^{n-k}$$

 

この$f_n$が$f$に一様収束することを示す。

 

$X_k$という確率変数を用意する。この確率変数は、確率$p$で1,確率$1-p$で0となるようなものである。

また、$X_1,X_2,\ldots,X_n$は独立同分布であるとする。

ここで、$S_n=X_1+\cdots+X_n$とする。

このとき、

$$P(S_n=k)={}_{n}C_{k}p^k(1-p)^k$$

である。よって、

$$f_n(p)=\sum_{k=0}^{n}f\left(\frac{k}{n}\right) P(S_n=k)=E\left[f\left(\frac{S_n}{n}\right)\right]$$

となる。

よって、

$$f_n(p)-f(p)=E\left[f\left(\frac{S_n}{n}\right)-f(p)\right]$$

となる。

ここで、三角不等式より

$$|f_n(p)-f(p)|\leq E\left|f\left(\frac{S_n}{n}\right)-f(p)\right|$$

ここで、$\varepsilon\gt 0$を任意に取る。$f$はコンパクト空間上の連続関数なので一様連続。つまりある$\delta\gt 0$が存在して、$|x-y|\lt \delta$なる任意の$x,y$について$|f(x)-f(y)|\lt \varepsilon$

 

ここで、

$$E\left|f\left(\frac{S_n}{n}\right)-f(p)\right|=E\left[\left|f\left(\frac{S_n}{n}\right)-f(p)\right|;\left|\frac{S_n}{n}-p\right|\geq\delta\right]+E\left[\left|f\left(\frac{S_n}{n}\right)-f(p)\right|;\left|\frac{S_n}{n}-p\right|\lt\delta\right]$$

$f$は$[0,1]$上連続なので、$M:=\sup_{x\in [0,1]}|f(x)|\lt \infty$である。よって、

$$\leq 2MP\left[\left|\frac{S_n}{n}-p\right|\geq \delta\right]+\varepsilon$$

チェビシェフの不等式より、

$$\leq 2M\frac{1}{\delta^2}E[(S_n/n-p)^2]+\varepsilon$$

ここで、

$$E\left[\left(\frac{S_n}{n}-p\right)^2\right]=E\left[\frac{S_n^2}{n^2}\right]-2pE\left[\frac{S_n}{n}\right]+p^2$$

$$=\frac{\sum_{i=1}^{n}E[X_i^2]+\sum_{i\neq j}E[X_iX_j]}{n^2}-2p^2+p^2$$

$$=\frac{n E[X_1^2]}{n^2}+\frac{n(n-1)E[X_1X_2]}{n^2}-p^2$$

$$=\frac{np}{n^2}+\frac{n(n-1)p^2}{n^2}-p^2$$

$$=\frac{p}{n}-\frac{p^2}{n}+p^2-p^2$$

$$=\dfrac{p(1-p)}{n}$$

よって、

 

$$2M\frac{1}{\delta^2}E[(S_n/n-p)^2]+\varepsilon=\frac{2Mp(1-p)}{\delta^2 n}+\varepsilon\leq \frac{M}{2n\delta^2}+\varepsilon$$

である。ここで、$M $は$f$によって定まる定数、$\varepsilon$は任意の正の定数、$\delta$は$f$と$\varepsilon$に対して定まる正の定数であることに注意。(つまり、この評価は$p$の値に依存していない。)

与えられた$\varepsilon$に対して$n$を$n\geq \dfrac{M}{2\delta^2\varepsilon}$となるように取れば、$|f_n(x)-f(x)|\leq 2\varepsilon$となる。よってこうして誤差を$x$に依らず一様に評価できたため、一様収束することが示された。

ダランベールの収束判定法

主張

$\{a_n\}_{n=1}^{\infty}$を実数の数列とする。このとき、

$$\lim_{n\to\infty}\left|\frac{a_{n+1}}{a_n}\right|\lt 1$$

ならば、

$$\sum_{n=1}^{\infty}a_n\lt \infty$$

となる。

逆に、

$$\lim_{n\to\infty}\left|\frac{a_{n+1}}{a_n}\right|\gt 1$$

ならば

$$\sum_{n=1}^{\infty}a_n= \infty$$

となる。

証明

収束性の証明

ε-N論法を使う。

$\lim_{n\to\infty}|a_{n+1}/a_n|=r\lt 1$としたとき、任意の$\varepsilon\gt 0$に対して、ある$N\in\mathbb{N}$が存在して、$n\geq N$のときに

$$r-\varepsilon\leq |a_{n+1}/a_{n}|\leq r+\varepsilon$$

となる。ここで、$\varepsilon\gt 0$は任意にとってもよいため、ここでは$\varepsilon=\frac{1-r}{2}$と定める。

すると、$n\geq N$においては、$|a_{n+1}/a_n|\leq \frac{1+r}{2}\lt 1$となる。

以降は表記を簡単にするため$(1+r)/2=s$と書く。

このとき、

$$\sum_{k=1}^{n}|a_k|=\sum_{k=1}^{N-1}|a_k|+\sum_{k=N}^{n}|a_k|$$

$$\leq \sum_{k=1}^{N-1}|a_k|+\sum_{k=N}^{n}|a_N|s^{k-N}$$

$$=\sum_{k=1}^{N-1}|a_k|+|a_N|(1+s+s^2+\cdots+s^{n-N})$$

$$=\sum_{k=1}^{N-1}|a_k|+|a_N|\frac{1-s^{n-N+1}}{1-s}$$

$$\leq \sum_{k=1}^{N-1}|a_k|+|a_N|\frac{1}{1-s}$$

 これは$n$には依存していない。

つまり、$\varepsilon,N$を固定したまま、$n$を無限大にまで飛ばしても、$\sum_{k=1}^{n}|a_k|$は$\sum_{k=1}^{N-1}|a_k|+\frac{|a_N|}{1-s}$($n$について定数!)より大きくならない。よって、有界である。

また、$\sum_{k=1}^{n}|a_k|$は$n$について単調増加である。よって有界で単調増加であるため、収束する。

絶対収束する数列は収束するため、$\sum_{k=1}^{n}a_k$も収束する

収束性に関する別証明

$\sum_{k=1}^{n}a_k$がコーシー列であることを示せばよい。

$\varepsilon\gt 0$を$0\lt \varepsilon\lt \frac{1-r}{2}$の範囲内で任意に取る。このとき、

ある自然数$N$が存在して、$n\geq N$ならば、$|a_{n+1}/a_n|\leq r+\varepsilon$となる。

このとき、$s=\frac{1+r}{2}$とする。

このとき、$n\leq m $を$N$以上の範囲内で自由に取ると、

$n\geq N$ならば$|a_n|\leq |a_N|s^{n-N}$なので、

$$|a_n+\cdots +a_m|\leq |a_n|+\cdots +|a_m|$$

$$\leq |a_N|(s^{n-N}+s^{n-N+1}+\cdots+s^{m-N})$$

$$=\frac{|a_N|}{s^N}s^n(1+s+\cdots +s^{m-n})$$

$$=\frac{|a_N|}{s^N}s^n\frac{1-s^{m-n+1}}{1-s}$$

$$=\frac{|a_N|}{s^N}s^n\frac{1}{1-s}$$

これは、$n\to\infty$で0に収束するためコーシー列であることが従う。

 

もう少し詳しく説明する。

$N_1$を、$$\frac{|a_N|}{s^N(1-s)}s^{N_1}\lt\varepsilon$$

となるようにとる。これは0に収束する性質から取れることが保証される。

すると、$n,m $を$N_1$より大きく取ると、

$|a_n+\cdots+a_m|\lt \varepsilon$となる。

よって、$\varepsilon$を任意に定めると、$N_1$という自然数が存在して、$n,m\geq N_1$ならば、$|a_n+\cdots+a_m|\lt \infty$となるため、$\sum_{k=1}^{n}a_k$はコーシー列となる。

発散性の証明

$\lim_{n\to\infty}|a_{n+1}/a_n|=r\gt 1$とする。このとき、$\varepsilon=\frac{r-1}{2}\gt 0$として、$s=\frac{1+r}{2}\gt 1$とおく。このとき、ある自然数$N$が存在して$n\geq N$のとき$|a_n|\geq s |a_{n+1}|$となる。

このとき、$n\geq N$のときに$|a_n|\geq |a_N|s^{n-N}$となる。これは$n\to\infty$で飛ばしたときに0に収束しない。よって、$\lim_{n\to\infty}a_n$が0とならないため、この級数は収束せず発散する。

使用例

例1

$$\sum_{n=1}^{\infty}\frac{n!}{n^n}$$

という級数について

$$\lim_{n\to\infty}\frac{(n+1)!}{(n+1)^{n+1}}\frac{n^n}{n!}=\lim_{n\to\infty}(1+1/n)^{-n}=1/e\lt 1$$

となるため、この級数は収束する。

 

例2

$a$を実数としたとき、

$$\sum_{n=0}^{\infty}\frac{a^n}{n!}$$

という級数は、

$$\lim_{n\to\infty}\frac{a^{n+1}}{(n+1)!}\cdot\frac{n!}{a^n}=\lim_{n\to\infty}\frac{a}{n+1}=0\lt 1$$であるため、収束する。

 

例3 

$$\sum_{n=1}^{\infty}\frac{1.000001^n}{n^{10000000}}$$

という級数は、

$$\lim_{n\to\infty}\frac{1.000001^{n+1}}{(n+1)^{10000000}}\frac{n^{10000000}}{1.000001^n}=\lim_{n\to\infty}1.000001\cdot (1+1/n)^{10000000}=1.000001\gt 1$$

であるため、発散する

 

例4

$$\sum_{n=1}^{\infty}\frac{1}{n^2}$$

という級数については、

$$\lim_{n\to\infty}\frac{1}{(n+1)^2}\frac{n^2}{1}=\lim_{n\to\infty}(1+1/n)^{-2}=1$$

であるため、ダランベールの判定法では、収束するか発散するかは分からない。

これについてはダランベールの判定法以外の方法を使うと収束することが示せる。

 

例5

$$\sum_{n=1}^{\infty}\frac{1}{n}$$

という級数については、

$$\lim_{n\to\infty}\frac{1}{(n+1)}\frac{n}{1}=\lim_{n\to\infty}(1+1/n)^{-1}=1$$

であるため、ダランベールの判定法では、収束するか発散するかは分からない。

これについてはダランベールの判定法以外の方法を使うと発散することが示せる。

 

例4,5より、極限が1ぴったりの場合だと、収束する場合も発散する場合もある。

 

関連記事

shakayami-math.hatenablog.com

 

コーシー積(級数の畳み込み)

問題

$\{a_n\}_{n=0}^{\infty},\{b_n\}_{n=0}^{\infty}$は複素数の列として、$$\sum_{n=0}^{\infty}|a_n|\lt \infty,\sum_{n=0}^{\infty}|b_n|\lt \infty$$

を満たすとする。このとき、

$$\sum_{n=0}^{\infty}\sum_{k=0}^{n}a_kb_{n-k}$$

を求めよ。

 考察

任意の$(i,j)\in\mathbb{N}_{\geq 0}^2$に対して、$a_ib_j$がちょうど1回だけ足されるため、お気持ちとしては

$$\left(\sum_{n=0}^{\infty}a_n\right)\left(\sum_{n=0}^{\infty}b_n\right)$$

としたくなる。(注:一般に、絶対収束する級数は収束するので上記のような無限和は必ず存在する。)しかしこのような議論ではさすがにガバガバすぎる。例えば、無限級数の足す順番を勝手に変えていいのかどうかといった懸念が発生するのである。

ここは、ε-N論法とやらを使って綺麗に示したいところだ。

解答

$$\left|\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n - \sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}\right|$$

 ここで、この絶対値の中身において、$0\leq i,j\leq N$のときの$a_ib_j$は打ち消されているため考慮する必要はない。残りは$i+j\leq 2N$かつ$i\gt N$または$j \gt N$を満たす場合である。よってこれは

$$\left|\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n - \sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}\right|$$

$$\leq \left|\sum_{i\geq N+1,i+j\leq 2N}a_ib_j\right|+\left|\sum_{j\geq N+1,i+j\leq 2N}a_ib_j\right|$$

$$\leq \sum_{i\geq N+1,i+j\leq 2N}|a_ib_j|+\sum_{j\geq N+1,i+j\leq 2N}|a_ib_j|$$

$$\leq \sum_{0\leq j\leq N\lt i\leq 2N}|a_ib_j|+\sum_{0\leq i\leq N\lt j\leq 2N}|a_ib_j|$$

$$\leq \sum_{j=0}^{N}|b_j|\sum_{i=N+1}^{2N}|a_i|+\sum_{i=0}^{N}|a_i|\sum_{j=N+1}^{2N}|b_j|$$

$$\leq \sum_{j=0}^{\infty}|b_j|\sum_{i=N+1}^{2N}|a_i|+\sum_{i=0}^{\infty}|a_i|\sum_{j=N+1}^{2N}|b_j|$$

 

ここで、任意の$\varepsilon\gt  0$に対して、ある自然数$N_1$が存在して、$N\geq N_1$ならば$$\sum_{i=N+1}^{2N}|a_i|\lt \varepsilon$$

とすることができる。これは$\sum_{k=0}^{n}a_k$という数列が収束、つまりコーシー列であることから従う。

同様に、ある自然数$N_2$が存在して、$N\geq N_2$ならば$$\sum_{j=N+1}^{2N}|b_j|\lt \varepsilon$$

とすることができる。

よって、$N_0\geq \max\{N_1,N_2\}$となるように自然数$N_0$を定めると、

$N\geq N_0$のときに

$$ \sum_{j=0}^{\infty}|b_j|\sum_{i=N+1}^{2N}|a_i|+\sum_{i=0}^{\infty}|a_i|\sum_{j=N+1}^{2N}|b_j|\lt \left(\sum_{n=0}^{\infty}|a_n|+\sum_{n=0}^{\infty}|b_n|\right)\varepsilon$$

となる。 

 ここで、括弧の中身は定数なので、誤差が高々定数倍のεで抑えられることが分かった。

 

つまりどうなるかというと、

①定数$C$が存在する。(注:$C=\sum_{n=0}^{\infty}|a_n|+\sum_{n=0}^{\infty}|b_n|$)

②$\varepsilon \gt 0$を任意に定める

③$N_0$という自然数が存在して、以下の条件を満たす

④$N\geq N_0$を任意に取ると、$$\left|\sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}-\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n\right|\lt C\varepsilon$$

と取れる。

⑤ ②~④の議論により、$$\lim_{N\to\infty} \sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}-\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n=0$$となる。

⑥ここで、$$\lim_{N\to\infty}\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n$$は収束して、

$$\sum_{n=0}^{\infty}a_n\cdot \sum_{n=0}^{\infty}b_n$$となる。(注:極限は積について保存することから従う)

⑦このとき、

$$\lim_{N\to\infty} \sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}=\lim_{N\to\infty} \left(\sum_{n=0}^{2N}\sum_{k=0}^{n}a_kb_{n-k}-\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n\right)+\lim_{N\to\infty}\sum_{n=0}^{N}a_n\cdot \sum_{n=0}^{N}b_n$$

$$=0+\sum_{n=0}^{\infty}a_n \cdot \sum_{n=0}^{\infty}b_n$$

となるため、

$$ \sum_{n=0}^{\infty}\sum_{k=0}^{n}a_kb_{n-k}=\sum_{n=0}^{\infty}a_n \cdot \sum_{n=0}^{\infty}b_n$$

となることが言える。

 

…というような論理展開をしている。これらは慣れると省略しがちになるが、この記事ではあえて丁寧に説明することにした。

 

使用例

$x,y$を複素数とする。ここで

$$a_n=\frac{x^n}{n!},b_n=\frac{y^n}{n!}$$

とする。

このとき、

$$\sum_{k=0}^{n}a_kb_{n-k}=\sum_{k=0}^{n}\frac{x^ky^{n-k}}{k!(n-k)!}$$

$$=\frac{1}{n!}\sum_{k=0}^{n}\frac{n!}{k!(n-k)!}x^ky^{n-k}$$

$$=\frac{1}{n!}(x+y)^n$$

となる。最後の等式には二項定理を用いた。

このとき、

$$\sum_{n=0}^{\infty}|a_n|=\sum_{n=0}^{\infty}\frac{|x|^n}{n!}$$

は収束するので(練習問題:方針としては、各項を指数オーダーで上から抑えるのが良さそう?)

前述の定理を使うことができる。

よって、

$$\left(\sum_{n=0}^{\infty}\frac{x^n}{n!}\right)\left(\sum_{n=0}^{\infty}\frac{y^n}{n!}\right)=\sum_{n=0}^{\infty}\frac{(x+y)^n}{n!}$$

となる。

ここで、

$$\exp{(x)}:=\sum_{n=0}^{\infty}\frac{x^n}{n!}$$

という感じにexp関数を定義すると、

$$\exp{(x+y)}=\exp{(x)}\exp{(y)}$$

という法則が成り立つことが分かる。

 

1+2+3+4+...=-1/12?

はじめに

このような式を見たことがあるだろうか?

$$1+2+3+4+\cdots=-\frac{1}{12}$$

これを見たとき、普通ならば頭がおかしいのではないか?といった感想を抱くはずである。それもそのはず、だってこの式は間違っているのだから。おかしいと思うのはとても普通のことである。

ただ、シンプルに間違っているだけだったらここまで話題になることはないので、そもそもこの式とは何なのかについて解説していこうと思う。

ゼータ関数

今回の主役はこのような関数である。

$$\zeta (s)=\sum_{n=1}^{\infty}\frac{1}{n^s}$$

これをゼータ関数という。

つまり$\zeta(-1)=-\frac{1}{12}$だな!と言いたいところだがまだ早い。関数には定義域というものがある。

ゼータ関数を右辺のような形で定義する場合、前提として右辺の級数が収束している必要がある。すると、とりあえず$\mathrm {Re}(s)\gt 1$の範囲では収束するため、この範囲をゼータ関数の定義域としたくなる。

一方、$\mathrm{Re}(s)\lt 1$の場合はこの級数は収束しないため上記の形では定義することができない。つまり$\zeta(-1)$というのは、定義域外の値を代入しているため、やってはいけない操作をしているのである。

ではなんで$\zeta(-1)$なんてものがあるのかというと、答えは単純で定義域を拡張しているからである。それが解析接続である。

解析接続

定義域を拡張すると言っても、フリーハンドでグラフを書くような拡張はしてはいけないのである。関数の定義域を拡張する際で重要なことは、「何かしらの重要な性質を引き継いでいること」である。ゼータ関数における重要な性質というのは正則性である。

正則とは何か

正則というのは、複素数の範囲で微分可能であるということである。つまり、

$$\lim_{\Delta z\to 0}\frac{f(z+\Delta z)-f(z)}{\Delta z}$$

 が存在するということである。一見すると普通の微分と大差ないように見えるが大きく違う点がある。それは$\Delta z$を$0$に近づける方法に依存しないということである。

つまり、$\Delta z=\Delta x+i\Delta y$とした場合、$\Delta x=c\Delta y(c\in\mathbb{R})$という近づけ方に対する極限は、$c$をどのようなものにしても一定である。それだけではなく、$\Delta x^2=\Delta y$や$\Delta x^3=\Delta y$といった近づけ方でも極限値は変わらないのである。

具体例を挙げる。$f(z)=\bar{z}$といった共役複素数を取るような関数について考えてみる。このとき、

$$\lim_{(\Delta x,\Delta y)\to (0,0)}\frac{f(x+\Delta x+iy+i\Delta y)-f(x+iy)}{\Delta x+i\Delta y}$$

$$=\lim_{(\Delta x,\Delta y)\to (0,0)}\frac{x+\Delta x-iy-i\Delta y-x+iy}{\Delta x+i\Delta y}$$

$$=\lim_{(\Delta x,\Delta y)\to (0,0)}\frac{\Delta x-i\Delta y}{\Delta x+i\Delta y}$$

 これは$(\Delta x,\Delta y)\to(0,0)$の近づけ方に依存してしまっている。例えば$\Delta y=c\Delta x$($c$は実数)とした場合、

$$=\lim_{\Delta x\to 0}\frac{\Delta x-ic\Delta x}{\Delta x+ic\Delta x}=\frac{1-ic}{1+ic}$$

となって、これは明らかに$c$に依存してしまっている。つまり、極限の近づけ方によって最終的な結果が変わってしまうため、この共役複素数を取る関数$f$は正則では無いのである。

一致の定理

ところで、正則という性質はとても強い性質である。リウヴィルの定理や一致の定理といった強い性質を持つ定理がたくさんあるのだが、ここで登場するのが一致の定理である。

これの主張の一部を述べると以下のようになる。(注:話を簡単にするために実際よりも弱い主張について言及している。実際はもっと強い主張をしている。)*1

$U\subset V$という空でない開集合があるとする。ここで、$f(z),g(z)$という、$V$上で定義された正則関数があるとする。このとき、$U$上で常に$f(z)=g(z)(z\in U)$ならば、$V$上でも常に$f(z)=g(z)$が成り立つ。

簡単に言うと、$U$で定義された関数を$V$に(正則性を保ったまま)拡張する方法は一通りしか無いということである。

ゼータ関数の解析接続

今までは$\zeta(s)$は複素平面上の$\mathrm{Re} s \gt 1$の部分だけで定義されていた。

そしてこの関数はこの範囲内で正則であることがわかっている。

実はある$\zeta'(s)$という正則関数の存在が知られている。この関数は、$\mathrm{Re}s\gt 1$の部分で$\zeta(s)$と一致しているのである。

すると、前述の一致の定理より、この関数を「正則性を保ったまま拡張する」ような方法は一通りしか無いのである。よって$\zeta(s)$の定義域を拡張すると$\zeta'(s)$であるというように定めよう!という発想に至るわけである。拡張の結果が一意であることは一致の定理により保証されている。

実は$\zeta'(-1)=-\frac{1}{12}$である。ここで、拡張前の$\zeta$と拡張後の$\zeta'$は同一視されているため、$\zeta(-1)=-\frac{1}{12}$といった表現をしているのである。

式の正誤について

つまり、$\zeta(-1)$という文脈で登場したとき、これは「解析接続によって定義域が拡張されたゼータ関数」であるため、元のゼータ関数とは別物なのである。

解析接続されたゼータ関数は$\zeta(s)=\sum_{n=1}^{\infty}\frac{1}{n^s}$みたいな定義をしていないため、これに$s=-1$を無理やり代入して等式でつなぐというのはとても強引なことをしているのである。

 この式は、人々の興味を惹くためにやや不正確な表現をしているというところだろう。

余談

解析接続されたゼータ関数の定義域は、複素平面全体から$s=1$という一点を除いた領域である。

 

解析接続されたゼータ関数$\zeta(s)$において、「$\zeta(s)=0$となるような複素数$s$は(負の偶数を除けば)すべて実部が1/2になる」というのはリーマン予想の主張そのものである。

*1:実際はどのように強い主張なのかと言うと、部分の開集合で一致している必要はなく、集積点で一致していればよい。集積点について説明するのがだるかったので開集合ということにした。とりあえず記事の内容には影響しないはず

五次方程式は解けない?

概要

数学のネタで、「五次方程式は解けない」というものがある。

しかし{x^5-1=0}みたいなのは{x=\exp(\frac{2ki\pi}{5})(k=0,\ldots,4)}という解を導き出すことができるため、「{x^5-1=0}という五次方程式は解くことができる」ということで正しくないのである。

なぜ「五次方程式は解けない」みたいなことが言われるのだろうか?そのことについては本質を正しく理解する必要がある。

 

詳しい人へ:ここでは有理数体上の代数方程式について議論しています。

格付け

理解度で格付けしてみると以下のようになるだろう。(個人の主観)

 

↑理解度が低い

・五次方程式に解は存在しない

・五次方程式は解けない

・一般的に五次方程式は解けない

・五次方程式に解の公式は存在しない

・五次方程式の解の公式は四則演算と冪根*1だけで表現することができない

・代数方程式の解が四則演算と冪根だけで表現できることの必要十分条件ガロア群が可解であることである。

↓理解度が高い

 

「五次方程式に解が存在しない」は完全に誤りである。一般的に{n}次の代数方程式は複素数の範囲内で重複度込みで{n}個の解が存在する。それは代数学の基本定理というものから導かれる。

参考記事:

shakayami-math.hatenablog.com

 

「五次方程式は解けない」については、前述の通り{x^5-1=0}のように解けるものがあるので正しくない。

 

「一般的に五次方程式は解けない」についても、「一般的」という言い方がかなり曖昧なので適切ではないだろう。

解の公式はない?

実は五次方程式には解の公式はある。楕円関数というものを使うと表現できるとのことである。詳細は「五次方程式 楕円関数」と検索すればよいだろう。

すると矛盾しているように見えるが、実際はおかしくない。

格付けの一段次を見ると「五次方程式の解の公式を四則演算と冪根だけで表現することはできない」というものがより適切な表現とのことである。

何が違うかというと、使える記号に制限を課しているのである。

一方楕円関数というものはいわば飛び道具みたいなものであり、「四則演算と冪根縛り」という制約を大幅に無視しているのだ。

「五次方程式の解の公式は四則演算と冪根以外の記号を使うと表現することができる」と表現すれば、2つの命題が矛盾せずに両立することがわかりやすいだろう。

ガロア理論について

「五次方程式の解の公式は四則演算と冪根だけで表現することはできない」というものは、正しい主張だが本質を正しく捉えていない。ガロア理論というものを構築する上で生み出された副次的な結果だと思えばいいだろう。「五次以上の方程式の解の公式は(以下略)」についても本質とは言えない。

 

まずは体の拡大について考える。

{f(x)}という{n}次の有理数係数代数方程式について、{\mathbb{C}}上に{n}個の解が存在する。その解を{\alpha_1,\ldots,\alpha_n}とする。ここで、以下のようなものを考える

{K}を「{1,\alpha_1,\ldots,\alpha_n}を使った四則演算だけで書くことのできる数の集合」とする。

これは{\mathbb{Q}}についてのベクトル空間となっている。和とスカラー倍について閉じていることは定義から見れば明らかである。

{K}{\mathbb{Q}-}ベクトル空間としての次元のことを拡大次数といって、{[K:\mathbb{Q}]}と書いたりする。

 また、{K}{f(x)}の最小分解体という。

 

このときに、「{\sigma:K\to K}という自己同型写像全体の集合」というものを考える。*2これは写像の合成という演算に対して群となっている。また、この群の位数(集合の濃度)は実は{[K:\mathbb{Q}]}と等しくなる。

このように定義した群のことをガロア群といい、{\mathrm{Gal}(K/\mathbb{Q})}と書く。

 

「五次方程式が~」の本質は、ガロア群の構造を知ることにある。

 

{f(x)}の解が四則演算と冪根で書けることの必要十分条件は、ガロア群が可解という性質を満たしていることである。これは五次に限らず、どのような代数方程式についても成り立つ一般論である。

 そして五次方程式のガロア群は{S_5}(5次対称群)となる場合があり、{S_5}は可解群ではないため、「五次方程式の解の公式が云々」という文が生まれるのである。

五次方程式のことを「副次的な結果」と言ったのは、ガロア理論の重要なことは「方程式と群を対応させる」ということであり、そのような理論を元にして五次方程式を考察することで上記の結果が導かれるからである。

6次以上の{n}多項式についてもガロア群が{S_n}という可解でない群になる場合があり、そのときには解を冪根で記述できなくなる。*3

 

冒頭で出てきた{x^5-1=0}については、この方程式のガロア群は{\mathbb{Z}/4\mathbb{Z}}という群になり、これは可解群であるから例外的に解けるのである。

ちなみに{\exp(\frac{2ki\pi}{5})}というものは実は四則演算と冪根だけを使って書くことができる。{x^4+x^3+x^2+x+1=0}に対して{t=x+\frac{1}{x}}を使って書くと{t}についての二次方程式になる。あとは求めた{t}に対して{x^2-tx+1=0}{x}についての二次方程式になるため解けるという感じである。*4

最後に

この記事ではかなりかいつまんだ説明をしている。この記事を読んだだけでガロア理論を理解できたと思ってはいけない。(戒め)

別にガロア理論は方程式が解けるかどうかのためだけのものではない。

例えば角の三等分の作図問題などもガロア理論を使って議論することができる。

また五次方程式などが話題になりがちだが、個人的には「ガロア群の部分群が中間体に一対一対応する」というガロア理論の基本定理がとても重要な結果であると考えている。これも体の性質を考えるときに、群の性質についての考察に帰着できるため便利なものである。

関連記事

 

shakayami-math.hatenablog.com

 群についての基礎知識

 

*1:n乗根のこと

*2:自己同型写像というのは、①和と積について保存②全単射 をみたすものである。このとき、有理数に制限した写像は恒等写像となる。

*3:ガロア群が{S_n}にならなくても可解でないならば解を冪根で記述することはできなくなる。

*4:これは相反多項式と呼ばれているものに使える手法である。

多変数関数の極値判定

注意

この記事では、分かりやすさのために一部厳密性を犠牲にしている部分があります。

厳密でない部分が来た場合には脚注等でなぜ厳密でないかを書きます。

定理

{f:\mathbb{R}^2\to\mathbb{R}}という{C^2}級関数がある。

これが{(a,b)\in\mathbb{R}^2}極値を持つ条件は

 

まず{\frac{\partial f}{\partial x}(a,b)=0,\frac{\partial f}{\partial y}(a,b)=0}であること

{D=\frac{\partial^2f}{\partial x^2}\frac{\partial^2f}{\partial y^2}-\left(\frac{\partial^2f}{\partial x\partial y}\right)^2}としたとき、

{D\lt 0}ならば極値ではない

{D\gt 0}ならば{\frac{\partial^2f}{\partial x^2}\gt 0}のときに極小値であり、{\frac{\partial^2f}{\partial x^2}\lt 0}のときに極大値である。

(注:{D\gt 0}ならば{\frac{\partial^2 f}{\partial x^2}}となるようなことはない。)

{D=0}の場合は個別に考える 

覚えにくい!

ところで、この定理を覚えにくいと感じる人は多いだろうと見ている。何故ならば条件も複雑な上に証明を見てもパッとしないからである。この記事を読んでいる人の多くは大学1年生だと思うが、定期試験の直前でこの定理の主張を暗記するという人も少なくないだろう。ここでは、この定理のイメージを説明することで覚えにくさを解消していきたいと思う。

記号の定義

$$H_f(x,y)=\begin{pmatrix}\frac{\partial^2 f}{\partial x^2}(x,y)&\frac{\partial^2 f}{\partial x\partial y}(x,y)\\\frac{\partial^2 f}{\partial y\partial x}(x,y)&\frac{\partial^2 f}{\partial y^2}(x,y)\end{pmatrix}$$

と定める。これをヘッセ行列という。

お行儀のいい関数の場合、ヘッセ行列は対称行列となる。この対称行列という性質は固有値の議論をする際に便利なので重要な性質である。*1

また、

$$\nabla f(x,y)=\left(\frac{\partial f}{\partial x}(x,y),\frac{\partial f}{\partial y}(x,y)\right)\in\mathbb{R}^2$$

この三角のやつをナブラといい、{\nabla f}{f}の勾配ベクトルという。また、{\nabla f}{\mathrm{grad} f}と書くこともある。gradとはgradientの略である。

この定理は、ヘッセ行列の固有値についての議論に落とし込むとシンプルになる。

ちなみに大学一年生ならば、微分積分学と並行してやっている線形代数学で固有値についてやるはずである。一見複雑に見えるこの定理も、線形代数学の言葉を使って表現することで分かりやすくなる。

また、以降では偏微分の略記をする。

$$\frac{\partial f}{\partial x}=f_x,\frac{\partial f}{\partial y}=f_y$$

$$H_f=\begin{pmatrix}f_{xx}&f_{xy}\\f_{yx}&f_{yy}\end{pmatrix}$$

定理(言い換え) 

{f:\mathbb{R}^2\to\mathbb{R}}という{C^2}級関数がある。

これが{(a,b)\in\mathbb{R}^2}極値を持つ条件は

・前提として {\mathrm{grad}f(a,b)=0}であること

{H_f(a,b)}固有値が全部正ならば{f}{(a,b)}で極小値

{H_f(a,b)}固有値が全部負ならば{f}{(a,b)}で極大値

{H_f(a,b)}固有値に正のものと負のものが混じっているならば{f}{(a,b)}極値ではない

{H_f(a,b)}固有値に0があるならば{f}{(a,b)}極値かどうかは分からない(個別に判定)

定理の同値性

固有値は固有方程式の解である。よって{H_f(a,b)}固有値{\lambda}は以下の方程式の解となる。

$$\det (H_f(a,b)-\lambda I_2)=0$$

ただし{I_2}は2×2の単位行列である。

$$\Leftrightarrow \det \begin{pmatrix}f_{xx}-\lambda&f_{xy}\\f_{yx}&f_{yy}-\lambda\end{pmatrix}(a,b)=0$$

$$\Leftrightarrow \lambda^2-\left(f_{xx}+f_{yy}\right)\lambda+f_{xx}f_{yy}-(f_{xy})^2=0$$

これは{\lambda}についての2次方程式となるが、判別式を考えると

$$D=\left(f_{xx}-f_{yy}\right)^2+\left(f_{xy}\right)^2\geq 0$$

となるため、固有値複素数になることを心配する必要はない。

 

結局どうやって言い換えているかというと解と係数の関係である。

{H_f(a,b)}固有値{\alpha,\beta}をおくとこの式は{\lambda^2-(\alpha+\beta)\lambda+\alpha\beta=\lambda^2-a\lambda+b=0}と書ける。

{\alpha,\beta \gt 0}{\alpha\beta\gt 0,\alpha+\beta\gt 0}と言い換えられるため、{b\gt 0,a\gt 0}となる。

よって{D\gt 0}であって{f_{xx}+f_{yy}\gt 0}となるが、これは{D\gt 0}かつ{f_{xx}\gt 0}と同値である。

何故ならば、{D\gt 0}から{f_{xx}f_{yy}\gt 0}となるため、{f_{xx}}{f_{yy}}は符号が同じとなるからである。

 極大値の場合も同じように言い換えれて{D\gt 0}かつ{f_{xx}\lt 0}となる。

また、{D\lt 0}ならば固有値の積が負になるため、固有値の符号が異なるのである。

定理の利点

 これは2変数関数に限らず、一般の{n}変数関数に拡張することができる。

拡張すると以下のようになる。

{x=(x_1,\ldots,x_n)\in\mathbb{R}^n}において、{C^2}級関数{f:\mathbb{R}^n\to\mathbb{R}}極値判定を考える。

ここで、

$$\nabla f=\left(\frac{\partial f}{\partial x_1},\ldots,\frac{\partial f}{\partial x_n}\right)=(f_{x_1},\ldots,f_{x_n})$$

であり、

$$H_f=\begin{pmatrix}\frac{\partial^2 f}{\partial x_1^2}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\\vdots&\ddots&\vdots\\\frac{\partial^2f}{\partial x_n\partial x_1}&\cdots&\frac{\partial^2f}{\partial x_n^2}\end{pmatrix}=\begin{pmatrix}f_{x_1x_1}&\cdots&f_{x_1x_n}\\\vdots&\ddots&\vdots\\f_{x_nx_1}&\cdots&f_{x_nx_n}\end{pmatrix}$$ 

 と定めたとき、

{\nabla f(a)=0}となるような{a\in\mathbb{R}^n}に対して、{H_f(a)}固有値を考えれば良い。

固有値が全て正ならば極小値であり、固有値が全て負ならば極大値であり、固有値に正と負が混じっていれば極値ではない。また固有値に0があればどうなるかは不明である。

また、ヘッセ行列は対称行列であるため*2固有値は実数となるため、複素数固有値を持つことを考える必要はない。

定理のイメージ

以下、カジュアルな証明を書いてみる。

 {f(x)}テイラー展開で2次まで近似してみる。ここで{x\in\mathbb{R}^n}は十分0と近いものとする。すると

$$f(a+x)\approx f(a)+x\cdot \nabla f(a)+\frac{1}{2}{x}^{\top}H_f(a)x$$

となる。

ここで、厳密にはテイラー展開で近似したときの誤差がどれくらいの大きさなのかを気にする必要がある。ここではあえて{\approx}という近似という意味を持つ値で書いているが、実質=と同じような使い方をしている。実際{x}を十分0に小さくなるように値を取ると誤差が他の項と比べて無視できるほど小さくなるため、{a}と十分近い近傍の範囲内での議論に影響が出ることはない。

ここで{\top}は転置であり、{\cdot}(ドット)は{\mathbb{R}^n}上の内積である。

ここで、{H_f(a)}対称行列であるため、直交対角化ができる。

{P}という直交行列と{\Lambda}という対角行列を用いて、

$$H_f(a)=P\Lambda P^{-1}=P\Lambda P^{\top}$$

と書ける。(ここで、直交行列は{P^{-1}=P^{\top}}という性質を満たしていることに注意)

ここで、{P^{\top}x=y}となるように{y\in\mathbb{R}^n}を定義する。{x=a}のときに{y=a}となることに注意。また、{P}が直交行列であることから、{||x||=||y||}が成立することに注意。

すると、

$$f(a+Py)\approx f(a)+(Py)\cdot \nabla f(a)+\frac{1}{2}{y}^{\top}\Lambda y$$

となる。

極値判定する際には、前提として{\nabla f(a)=0}となるような{a}についてだけ考える。このような前提を満たしている{a}について

$$f(a+Py)\approx f(a)+\frac{1}{2}{y}^{\top}\Lambda y$$ 

となる。ここで、

$$\Lambda=\begin{pmatrix}\lambda_1&\cdots&0\\\vdots&\ddots&\vdots\\0&\cdots&\lambda_n\end{pmatrix},y=\begin{pmatrix}y_1\\\vdots\\y_n\end{pmatrix}$$

とすると、

$$f(a+Py)\approx f(a)+\frac{1}{2}\sum_{k=1}^{n}\lambda_k y_k^2$$

となる。

 また、{\Lambda}の各成分は、{H_f(a)}固有値となっていることに注意する。

もし{\lambda_k\gt 0(k=1,\ldots,n)}ならば、

$$f(a+Py)\geq f(a)$$

となるため、{a}{f}は極小値となる。

逆に{\lambda_k\lt 0(k=1,\ldots,n)}ならば、

$$f(a+Py)\leq f(a)$$

となるため、{a}{f}は極大値となる。

 一方で{\lambda_i\gt 0}かつ{\lambda_j\lt 0}のような{i,j}があるならば、

{y=y_i e_i}{y=y_je_j}という基本ベクトルで書いた場合、({e_i}とは{i}番目の成分が1でそれ以外の成分は0となるような{\mathbb{R}^n}の元である。{e_j}についても同様)

$$f(a+P(y_i e_i))\approx f(a)+\frac{1}{2}\lambda_i y_i^2\gt f(a)$$

かつ

$$f(a+P(y_je_j))\approx f(a)+\frac{1}{2}\lambda_j y_j^2\lt f(a)$$

 となり、{e_i}方向だけで見れば極小となっていて、{e_j}方向だけで見れば極大となっている。このように方向によって極大か極小かが変わるため、このときでは{f}{a}においては極値ではない。ちなみに、このときの状況において{f}は点{a}鞍点(あんてん)であるという。

 最後に、固有値{\lambda_i=0}となるような{i}が混じっている場合、

$$f(a+P(y_i e_i))\approx f(a)+\frac{1}{2}\lambda_i y_i^2\approx f(a)$$

 となる。これだけではどうなっているかはわからない。具体的には、二次までの近似だけでは答えが出せないため、それ以上の近似をする必要がある。

関連記事

 

shakayami-math.hatenablog.com

 

固有値が全て正」は「正定値行列」と言い換えることができる。

固有値が全て負」は「負定値行列」と言い換えることができる。

*1:ここでは、{f}{C^2}級であることを仮定しているため、2回偏導関数が連続であり、偏微分の順序交換を適用することができる。

*2:C^2級であることから。前述の注釈と同じ