VOOZH about

URL: https://pl.wikipedia.org/wiki/Macierz_Hessego

⇱ Macierz Hessego – Wikipedia, wolna encyklopedia


Przejdź do zawartości
Z Wikipedii, wolnej encyklopedii

Hesjan, macierz Hessegomacierz (kwadratowa) drugich pochodnych cząstkowych obliczonych dla funkcji wielu zmiennych o wartościach rzeczywistych dwukrotnie różniczkowalnej w punkcie, w którym liczone są te pochodne. Macierz Hessego charakteryzuje własności krzywizny wykresu funkcji w otoczeniu tego punktu. Dlatego m. im. jest wyznaczana w punktach krytycznych przy wyszukiwaniu ekstremów i punktów przegięcia / punktów siodłowych funkcji wielu zmiennych.

Macierz Hessego jest macierzą formy kwadratowej, utworzonej z wyrazów drugiego rzędu rozwinięcia funkcji wielu zmiennych w pobliżu punktu krytycznego w szereg Taylora[1]. Dlatego badanie określoności macierzy Hessego jest równoważne badaniu określoności odpowiadającej jej formy kwadratowej.

Czasem pod pojęciem hesjanu rozumie się wyznacznik macierzy Hessego.

Nazwę hesjanu wprowadził James Joseph Sylvester dla upamiętnienia niemieckiego matematyka Ottona Hessego (1811–1874)[2].

Definicja

edytuj

Niech 👁 {\displaystyle D}
będzie niepustym, otwartym podzbiorem w 👁 {\displaystyle n}
-wymiarowej przestrzeni współrzędnych rzeczywistych 👁 {\displaystyle \mathbb {R} ^{n}}
oraz 👁 {\displaystyle f\colon D\to \mathbb {R} }
- funkcja dwukrotnie różniczkowalna w punkcie 👁 {\displaystyle \mathbf {x} \in D,}
choć niekoniecznie mająca ciągłe drugie pochodne; 👁 {\displaystyle \mathbf {x} =[x_{1},x_{2},\dots ,x_{n}]}
- punkt w 👁 {\displaystyle D}
.

Macierzą Hessego funkcji 👁 {\displaystyle f}
w punkcie 👁 {\displaystyle \mathbf {x} }
nazywamy macierz

👁 {\displaystyle H(\mathbf {x} ):={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}(\mathbf {x} )&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}(\mathbf {x} )&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}(\mathbf {x} )\\[1em]{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}(\mathbf {x} )&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}(\mathbf {x} )&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}(\mathbf {x} )\\[.5em]\vdots &\vdots &\ddots &\vdots \\[.5em]{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}(\mathbf {x} )&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}(\mathbf {x} )&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}(\mathbf {x} )\end{bmatrix}}}

gdzie 👁 {\displaystyle {\frac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}(\mathbf {x} ),\quad i,j=1,2,\dots ,n}
- pochodne cząstkowe drugiego rzędu obliczone w punkcie 👁 {\displaystyle \mathbf {x} .}

Uwaga: Oznaczenia

  1. Punkt w przestrzeni 👁 {\displaystyle n}
    -wymiarowej oznaczamy wytłuszczonym symbolem 👁 {\displaystyle \mathbf {x} }
    , zaś współrzędne tego punktu oznaczamy zwykłą czcionką 👁 {\displaystyle x_{i},i=1,2,\dots ,n}
    .
  2. Macierz Hessego oznacza się też symbolami 👁 {\displaystyle \nabla ^{2}}
    , 👁 {\displaystyle D^{2}}
    , 👁 {\displaystyle \nabla \nabla }
    lub 👁 {\displaystyle \nabla \otimes \nabla }
    .
  3. W przypadku funkcji dwóch zmiennych 👁 {\displaystyle f(x,y)}
    pochodne cząstkowe oznacza się też symbolami 👁 {\displaystyle f_{x},f_{y}}
    - pochodne cząstkowe 1-go rzędu, 👁 {\displaystyle f_{xx},f_{xy},f_{yx},f_{yy}}
    - pochodne cząstkowe 2-go rzędu. Analogicznie dla funkcji 3 zmiennych 👁 {\displaystyle f(x,y,z)}
    .

Właściwości

edytuj

1. Symetria macierzy Hessego

edytuj

Jeśli funkcja 👁 {\displaystyle f}
ma ciągłe drugie pochodne w punkcie 👁 {\displaystyle \mathbf {x} }
, to macierz Hessego obliczona w tym punkcie jest symetryczna, tzn.

👁 {\displaystyle {\frac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}={\frac {\partial ^{2}f}{\partial x_{j}\partial x_{i}}}}

Innymi słowy: Macierz Hessego 👁 {\displaystyle H(\mathbf {x} )}
jest symetryczna w punkcie 👁 {\displaystyle \mathbf {x} }
jeżeli funkcja jest klasy 👁 {\displaystyle C^{2}}
w tym punkcie.

2. Określoność macierzy Hessego a rodzaj punktu krytycznego

edytuj

Punkt krytyczny to punkt '👁 {\displaystyle \mathbf {x} }
', w którym gradient 👁 {\displaystyle \nabla f(\mathbf {x} )=\left[{\tfrac {\partial f(\mathbf {x} )}{\partial x_{1}}},{\tfrac {\partial f(\mathbf {x} )}{\partial x_{2}}},\dots ,{\tfrac {\partial f(\mathbf {x} )}{\partial x_{n}}}\right]}
jest równy zeru,

👁 {\displaystyle \nabla f(\mathbf {x} )=[0,0,\dots ,0]}

co jest równoważne warunkowi zerowania się wszystkich pochodnych cząstkowych w tym punkcie

👁 {\displaystyle {\frac {\partial f(\mathbf {x} )}{\partial x_{i}}}=0,\quad i=1,2,\dots n}

W punktach krytycznych funkcja może mieć ekstremum, punkt przegięcia, punkt siodłowy. Słuszne są następujące kryteria:

3. Wartości własne macierzy Hessego a rodzaj punktu krytycznego

edytuj

Jeżeli macierz Hessego jest symetryczna w punkcie krytycznym, to charakter tego punktu można określić na podstawie wartości własnych 👁 {\displaystyle \lambda _{1},\lambda _{2},\dots ,\lambda _{n}}
macierzy Hessego:

4. Kryterium Sylvestera w określaniu rodzaju punktów krytycznych

edytuj

Jeżeli macierz Hessego jest symetryczna w punkcie krytycznym, to do określania charakter tego punktu można użyć też kryterium Sylvestera:

(1) Minory główne wiodące macierzy Hessego wskazują na minimum lokalne, gdy wszystkie są dodatnie, zaś sekwencja znaków 👁 {\displaystyle -+-+\dots }
tych minorów, począwszy od minora 1-go stopnia do n-tego stopnia, wskazuje na lokalne maksimum.

(2) Minory główne 1-go stopnia (tj. elementy macierzy Hessego leżące na jej przekątnej) takie że co najmniej dwa z nich mają różne znaki, wskazują na punkt siodłowy (pozostałe minory mogą być zerami).

Ogólnie: macierz Hessego jest nieokreślona, gdy licząc minory główne stopnia 👁 {\displaystyle 1,2,\dots ,n}
znajdziemy przynajmniej dwa minory tego samego stopnia, które mają różne znaki - wtedy mamy punkt siodłowy w punkcie krytycznym.

(3) Gdy wszystkie minory główne stopnia 👁 {\displaystyle 1,2\dots ,n}
👁 {\displaystyle \geqslant 0}
oraz istnieje przynajmniej jeden element macierzy Hessego, który jest niezerowy, to macierz Hessego jest dodatnio półokreślona.

(4) Gdy minory główne są 👁 {\displaystyle \leqslant 0}
dla stopni nieparzystych i 👁 {\displaystyle \geqslant 0}
dla stopni parzystych, oraz istnieje przynajmniej jeden element macierzy Hessego niezerowy, to macierz Hessego jest ujemnie półokreślona.

(5) Gdy wszystkie elementy macierzy Hessego są równe zeru, to macierz Hessego jest zdegenerowana.

W przypadkach (3), (4) i (5) kryterium macierzy Hessego nie rozstrzyga co do rodzaju punktu krytycznego; trzeba badać wyższe pochodne lub stosować metodę analizy geometrycznej wykresu funkcji w bliskim otoczeniu punktu krytycznego.

Uwaga: Dla dużej wartości 👁 {\displaystyle n}
wymiaru macierzy Hessego bardziej praktyczne może być liczenie wartości własnych tej macierzy, gdyż w skrajnie niekorzystnym przypadku metoda Sylvestera wymagałaby liczenia wszystkich minorów głównych, których jest 👁 {\displaystyle 2^{n}-1}
, czyli wielokrotnie więcej niż minorów głównych wiodących.

5. Kryterium drugiej pochodnej dla funkcji dwóch zmiennych

edytuj

Kryterium to jest szczególnym przypadkiem kryterium Sylvestera.

(1) Jeżeli w punkcie 👁 {\displaystyle \mathbf {x} =(x,y)}
jest 👁 {\displaystyle {\text{det}}H(\mathbf {x} )>0}
, to funkcja 👁 {\displaystyle f(x,y)}
ma ekstremum w tym punkcie, przy czym:

- jeżeli 👁 {\displaystyle f_{xx}>0}
, to ma minimum lokalne

- jeżeli 👁 {\displaystyle f_{xx}<0}
, to ma maksimum lokalne

(2) Jeżeli jest 👁 {\displaystyle {\text{det}}H(\mathbf {x} )<0}
, to punkt 👁 {\displaystyle \mathbf {x} }
jest punktem siodłowym.

Uwaga 1: W przypadku punktu siodłowego 👁 {\displaystyle f_{xx}}
może mieć dowolną wartość, tj.👁 {\displaystyle f_{xx}>0,=0,<0}
.

Uwaga 2: Nie da się podać tak prostych warunków dla funkcji trzech i większej liczby zmiennych.

6. Zestawienie kryteriów w określaniu punktów krytycznych

edytuj

Poniżej w tabeli zebrano podsumowanie wyżej wymienionych kryteriów.

Określoność macierzy Hessego Rodzaj punktu krytycznego Wartości własne Minory główne wiodące i minory główne (kryterium Sylvestera)
Dodatnio określona Minimum lokalne Wszystkie 👁 {\displaystyle \lambda _{i}>0}
Wszystkie główne minory wiodące 👁 {\displaystyle \Delta _{i}>0}
Ujemnie określona Maksimum lokalne Wszystkie 👁 {\displaystyle \lambda _{i}<0}
Minory wiodące główne mają znaki naprzemienne 👁 {\displaystyle \Delta _{1}<0,\Delta _{2}>0,\Delta _{3}<0,\dots }
zaczynając od minora 👁 {\displaystyle \Delta _{1}}
o 1 elemencie
Nieokreślona Punkt siodłowy Część 👁 {\displaystyle \lambda _{i}>0}
część 👁 {\displaystyle \lambda _{i}<0}
Przynajmniej dwa minory główne (nie tylko wiodące) tego samego stopnia mają różne znaki
Półokreślona dodatnio Test nie rozstrzyga Wszystkie 👁 {\displaystyle \lambda _{i}\geqslant 0}
, co najmniej jedno 👁 {\displaystyle \lambda _{i}=0}
Wszystkie minory główne (nie tylko wiodące) stopnia od 1 do n są 👁 {\displaystyle \geqslant 0}
oraz przynajmniej jeden minor dowolnego stopnia jest dodatni
Półokreślona ujemnie Test nie rozstrzyga Wszystkie 👁 {\displaystyle \lambda _{i}\leqslant 0}
, co najmniej jedno 👁 {\displaystyle \lambda _{i}=0}
Wszystkie minory główne stopnia nieparzystego są 👁 {\displaystyle \leqslant 0}
, a stopnia parzystego są 👁 {\displaystyle \geqslant 0}
oraz przynajmniej jeden minor dowolnego stopnia jest niezerowy
Zdegenerowana Test nie rozstrzyga Wszystkie 👁 {\displaystyle \lambda _{i}=0}
Macierz Hessego jest zerowa

Uwaga: Dla funkcji jednej zmiennej 👁 {\displaystyle f(x)}
macierz Hessego ma postać macierzy 👁 {\displaystyle 1\times 1}
, tj. 👁 {\displaystyle H(x):={\begin{bmatrix}f_{xx}(x)\end{bmatrix}}}
. Jeżeli 👁 {\displaystyle f_{x}(x)=0}
(warunek, że punkt 👁 {\displaystyle x}
jest punktem krytycznym), to z powyższej tabeli wynika, że:

a). gdy 👁 {\displaystyle \Delta _{1}=f_{xx}(x)>0}
, to w 👁 {\displaystyle x}
jest minimum

b). gdy 👁 {\displaystyle \Delta _{1}=f_{xx}(x)<0}
, to w 👁 {\displaystyle x}
jest maksimum

Są to dobrze znane warunki na ekstrema funkcji jednej zmiennej w punkcie krytycznym.

Z tabeli widać też, że dla funkcji 1 zmiennej kryterium nie stosuje się do rozstrzygania nt. punktów siodłowych (bo brak dwóch wartości własnych; punkty siodłowe mogą mieć dopiero funkcje 2 i większej liczby zmiennych).

6. Niesymetryczna macierz Hessego a punkty krytyczne

edytuj

Jeżeli macierz Hessego nie jest symetryczna w punkcie krytycznym, to charakteru tego punktu nie da się określić za pomocą macierzy Hessego. Trzeba stosować inne metody - np. metody geometryczne (por. przykład dalej).

Przykłady

edytuj

1. Funkcja z symetryczną macierzą Hessego. Extremum funkcji

edytuj

Dla funkcji dwóch zmiennych:

👁 {\displaystyle f(x,y)=x^{2}+xy+y^{2}}

oblicz (a). macierz Hessego, (b). jej wartości własne, (c). ekstrema funkcji.

Rozwiązanie:

(a). Punkt krytyczny wyznaczamy z warunku: 👁 {\displaystyle \nabla f=(0,\;0)}
. Ponieważ 👁 {\displaystyle \nabla f=(f_{x},\;f_{y})=(2x+y,\;x+2y)}
, to otrzymujemy 👁 {\displaystyle x=0,\;y=0.}

(b). Obliczamy pochodne cząstkowe pierwszego rzędu: 👁 {\displaystyle f_{x}=2x+y,\quad f_{y}=x+2y}

oraz pochodne cząstkowe drugiego rzędu:👁 {\displaystyle f_{xx}=2,\;f_{yy}=2,\;f_{xy}=f_{yx}=1.}

Stąd mamy: 👁 {\displaystyle H(x,y)={\begin{bmatrix}2&1\\[4pt]1&2\end{bmatrix}}}

(c). Równanie charakterystyczne: 👁 {\displaystyle \det(H_{f}-\lambda I)=(2-\lambda )^{2}-1=0\Rightarrow 2-\lambda =\pm 1,}
stąd mamy wartości własne 👁 {\displaystyle \lambda _{1}=1,\;\lambda _{2}=3.}
Obie wartości własne są dodatnie, więc macierz 👁 {\displaystyle H_{f}}
jest dodatnio określona - funkcja ma więc minimum w punkcie krytycznym. Wartość funkcji w minimum wynosi 👁 {\displaystyle f(0,0)=0}
. Punkt 👁 {\displaystyle (0,0)}
jest jedynym i globalnym minimum funkcji, ponieważ macierz 👁 {\displaystyle H(\mathbf {x} )}
jest dodatnio określona w całej dziedzinie funkcji (funkcja jest więc ściśle wypukła).

2. Funkcja z niesymetryczną macierzą Hessego. Punkt siodłowy

edytuj
👁 Image
Funkcja z punktem siodłowym
👁 Image
Funkcja z punktem siodłowym – mapa poziomicowa. Punkt siodłowy oznaczono czarną kropką.
👁 Image
Krzywizna przekrojów kierunkowych wykresu funkcji 👁 {\displaystyle f(x,y)}
w otoczeniu punktu👁 {\displaystyle (0,0)}
zmienia osiem razy znak - punkt ten jest punktem siodłowym.

Pokaż, że dla funkcji

👁 {\displaystyle f(x,y)={\begin{cases}{\dfrac {xy(x^{2}-y^{2})}{x^{2}+y^{2}}},&(x,y)\neq (0,0)\\0,&(x,y)=(0,0)\end{cases}}}

gradient w punkcie 👁 {\displaystyle (0,0)}
zeruje się, ale pochodne mieszane w tym punkcie są różne, tj. 👁 {\displaystyle f_{xy}(0,0)\neq f_{yx}(0,0).}
Określ rodzaj punktu krytycznego funkcji.

(a). Pochodne pierwszego rzędu w punkcie 👁 {\displaystyle (0,0)}

Dla 👁 {\displaystyle y=0}
mamy 👁 {\displaystyle f(x,0)=0}
, więc

👁 {\displaystyle f_{x}(0,0)=\lim _{h\to 0}{\dfrac {f(h,0)-f(0,0)}{h}}=0.}

Analogicznie 👁 {\displaystyle f_{y}(0,0)=0}
. Wynika stąd, że gradient w punkcie 👁 {\displaystyle (0,0)}
zeruje się - punkt ten jest więc punktem krytycznym.

(b). Obliczenie pochodnej 👁 {\displaystyle f_{xy}(x,y)}
w punkcie 👁 {\displaystyle (0,0)}

Najpierw liczymy pochodną cząstkową względem 👁 {\displaystyle x}
wzdłuż osi 👁 {\displaystyle x=0}
dla 👁 {\displaystyle y\neq 0}

👁 {\displaystyle f_{x}(0,y)=\lim _{h\to 0}{\dfrac {f(h,y)-f(0,y)}{h}}=\lim _{h\to 0}{\dfrac {f(h,y)}{h}}}

Dla 👁 {\displaystyle h\neq 0}
, 👁 {\displaystyle y\neq 0}
mamy

👁 {\displaystyle {\dfrac {f(h,y)}{h}}=y{\dfrac {h^{2}-y^{2}}{h^{2}+y^{2}}}}

więc

👁 {\displaystyle f_{x}(0,y)=\lim _{h\to 0}y{\dfrac {h^{2}-y^{2}}{h^{2}+y^{2}}}=y{\dfrac {0-y^{2}}{0+y^{2}}}=-y}

Stąd

👁 {\displaystyle f_{xy}(0,0)=\lim _{y\to 0}{\dfrac {f_{x}(0,y)-f_{x}(0,0)}{y}}=\lim _{y\to 0}{\dfrac {-y-0}{y}}=-1}

(c). Obliczenie pochodnej 👁 {\displaystyle f_{yx}(0,0)}
w punkcie 👁 {\displaystyle (0,0)}

Najpierw liczymy pochodną względem 👁 {\displaystyle y}
wzdłuż osi 👁 {\displaystyle y=0}
dla 👁 {\displaystyle x\neq 0}

👁 {\displaystyle f_{y}(x,0)=\lim _{k\to 0}{\dfrac {f(x,k)-f(x,0)}{k}}=\lim _{k\to 0}{\dfrac {f(x,k)}{k}}.}

Dla 👁 {\displaystyle k\neq 0}
, 👁 {\displaystyle x\neq 0}
mamy

👁 {\displaystyle {\dfrac {f(x,k)}{k}}=x{\dfrac {x^{2}-k^{2}}{x^{2}+k^{2}}}}

więc

👁 {\displaystyle f_{y}(x,0)=\lim _{k\to 0}x{\dfrac {x^{2}-k^{2}}{x^{2}+k^{2}}}=x}

Stąd

👁 {\displaystyle f_{yx}(0,0)=\lim _{x\to 0}{\dfrac {f_{y}(x,0)-f_{y}(0,0)}{x}}=\lim _{x\to 0}{\dfrac {x-0}{x}}=1}

(d). Wniosek

Pochodne mieszane w punkcie 👁 {\displaystyle (0,0)}
są różne:

👁 {\displaystyle f_{xy}(0,0)=-1,\quad f_{yx}(0,0)=1,}

Oznacza to, że funkcja nie należy do klasy 👁 {\displaystyle C^{2}}
w punkcie 👁 {\displaystyle (0,0)}
, a hesjan nie jest symetryczny. Punkt 👁 {\displaystyle (0,0)}
jest jednak punktem krytycznym. Aby określić jego charakter, nie można posłużyć się kryterium z wartościami własnym hesjanu (są de facto liczbami zespolonymi). Aby to rozstrzygnąć, wystarczy zauważyć, że przekroje wykresu funkcji poprowadzone przez punkt krytyczny zmieniają osiem razy krzywiznę z ujemnej na dodatnią przy obrocie o 👁 {\displaystyle 360}
stopni wokół tego punktu - oznacza to, że funkcja wokół 👁 {\displaystyle (0,0)}
przyjmuje wartości zarówno większe jak i mniejsze niż w punkcie 👁 {\displaystyle (0,0)}
, więc w punkcie tym mamy siodło.

3. Macierz Hessego zdegenerowana. Ale funkcja ma extremum w punkcie krytycznym

edytuj

Dla funkcji 👁 {\displaystyle f(x,y)=x^{4}+y^{4}}
mamy

a). Punkt krytyczny:

👁 {\displaystyle \nabla f={\begin{pmatrix}4x^{3}\\4y^{3}\end{pmatrix}}=0\implies (x,y)=(0,0)}

b). Hesjan w punkcie krytycznym:

👁 {\displaystyle H(x,y)={\begin{pmatrix}12x^{2}&0\\0&12y^{2}\end{pmatrix}},\quad H(0,0)={\begin{pmatrix}0&0\\0&0\end{pmatrix}}}

Wszystkie minory 👁 {\displaystyle =0}
, wszystkie wartości własne też są zerowe - macierz Hessego jest zdegenerowana. Kryterium drugiej pochodnej jest więc niewystarczające. Jednak problem da się łatwo rozwiązać; wystarczy zauważyć , że w punkcie 👁 {\displaystyle (0,0)}
funkcja zeruje się, natomiast dla wszystkich innych punktów 👁 {\displaystyle (x,y)}
z dziedziny funkcji wartość funkcji jest większa od zera; z definicji ekstremów wynika, że punkt 👁 {\displaystyle (0,0)}
jest minimum globalnym.

Zobacz też

edytuj

Przypisy

edytuj

Linki zewnętrzne

edytuj

Teksty:

Filmy:

pojęcia
ogólne
pochodne
funkcji
pojęcia
definiowane
pochodnymi
typy funkcji
punkty
w dziedzinie
analiza
wielo-
-wymiarowa
(inne języki)
pochodne
przykłady operatorów
różniczkowych
inne pojęcia
równania
różniczkowe
twierdzenia
o funkcjach
według
liczby
zmiennych
jednej
dowolnej
liczby
wielu
badacze
według
daty
narodzin
I połowa
XVII wieku
II połowa
XVII wieku
XVIII wiek
I połowa
XIX wiek
II połowa
XIX wieku
inne wątki
historyczne