1 Úvod do optimalizace1.2 Základní pojmy z teorie optimalizace1.2.1 Prostor, bod, funkce, množinaEukleidovský n-rozměrný prostor Rn je množinou všech uspořádaných n-tic reálných čísel ,zvaných body nebo vektory, s eukleidovskou vzdáleností (metrikou)
kde , resp. jsou souřadnice bodu x1, resp. x2. Body ztotožňujeme tedy s vektory (obr. 1.1), které budeme zapisovat jako sloupcové, tj.
kde T je symbol transpozice.
Jsou-li x1a x2 dva nenulové vektory a φ je úhel, který svírají, pak jejich skalární součin je definován vztahem
Poznámka: Protože všechny vlastnosti, které platí v dvojrozměrném prostoru R2 , tj. euklidovské rovině, platí i v libovolném konečněrozměrném prostoru Rn proto pro názornou geometrickou interpretaci budeme používat R2 a R3. Množinu
nazýváme okolím bodu x1 (obr. 1.2).
Bod x je vnitřním bodem množiny , existuje-li takové okolí bodu x, že platí (obr. 1.3)
Bod x je hraničním bodem množiny , obsahuje-li libovolné okolí bodu x alespoň jeden bod z X a alespoň jeden bod nepatřící do X (obr. 1.4)
Množina všech hraničních bodů množiny X tvoří hranici množiny X (obr. 1.4) Hraniční bod množiny X nemusí přirozeně do množiny X patřit. Hraniční bod x množiny X, je krajním bodem množiny X, když pro libovolné dva navzájem různé body x1 a x1 z X tento bod nemůže být vyjádřen vztahem (viz např. body na obr. 1.9):
Množinase nazývá otevřená, má-li pouze vnitřní body (obr.1.3). Otevřenou množinou je tedy i okolí, viz obr. 1.2. Množinase nazývá uzavřená, obsahuje-li všechny své hraniční body (obr 1.4). Množina se nazývá ohraničená (omezená), je-li euklidovská vzdálenost mezi dvěma libovolnými body z X konečná (konečné číslo). Jinak množina je neohraničená (neomezená), viz obr. 1.5.
Uzavřená a ohraničená množina se nazývá kompaktní (obr. 1.6).
Množina se nazývá konvexní, platí-li pro dva libovolné navzájem různé body x1 a x2 z X
Tzn. konvexní množina obsahuje spolu se svými dvěma libovolnými body i úsečku, která tyto body spojuje (obr. 1.7)
Jsou-li množiny konvexní, pak množina
je také konvexní (obr. 1.8). Tzn. průnik konečného počtu konvexních množin je konvexní množinou.
Množina určená vztahem
je konvexní (obr. 1.9).
Tzn. konvexní kombinace bodů vytvoří konvexní množinu. Reálná funkce f(x) se nazývá konvexní na množině , když pro libovolné dva navzájem různé body x1 a x2 z X platí
Platí-li nerovnost (1.10) jako ostrá, pak funkce f(x) je na množině X ryze konvexní (obr. 1.10).
Jsou-li funkce konvexní na konvexní množině , pak funkce
je také konvexní na množině X. Tzn. lineární kombinace s nezápornými váhovými koeficienty konvexních funkcí tvoří rovněž konvexní funkci (obr. 1.11).
Funkce f(x) je konkávní, resp. ryze konkávní, když funkce -f(x) je konvexní, resp. ryze konvexní (obr. 1.12 a obr. 1.13).
Bude-li funkce g(x) konvexní, resp. konkávní, pak množina určená vztahem
resp.
bude také konvexní (obr. 1.14a, resp. obr. 1.14b).
1.2.2 Derivace funkceDerivace (první, prvního řádu) funkce jedné proměnné f(x) v bodě x0 je definována vztahem
za předpokladu, že tato limita existuje (obr. 1.15).
Funkce jedné proměnné f(x), která má spojitou derivaci na intervalu , se nazývá hladká na intervalu . Ze vztahu (1.14) dostaneme
kde df(x0) je diferenciál funkce f(x) v bodě x0 (přírůstek na tečně), dx je diferenciál nezávislé proměnné x. Diferenciál pro aproximuje v bodě x0 přírůstek funkce [obr. 1.15, viz též vztah (1.29)]
Má-li funkce jedné proměnné f(x) na intervalu diferenciál, pak se nazývá diferencovatelná na intervalu . U funkcí jedné proměnné tedy existence derivace je ekvivalentní diferencovatelnosti. Neexistuje-li v bodě x0 limita (1.14), ale existuje limita zleva , resp. limita zprava , pak funkce f(x) má v bodě x0 derivaci zleva , resp. zprava , viz obr. 1.16.
Protože derivaci f '(x) lze považovat za funkci proměnné x, proto lze určit v bodě x0 derivaci této derivace, tj.
Nazýváme ji derivací druhého řádu (druhou derivací) funkce f(x) v bodě x0. Podobně je možno určit i derivace vyšších řádů. 1.2.3 Parciální derivace funkce a totální diferenciálParciální derivace (první, prvního řádu) funkce n-proměnných f(x) v bodě x, podle proměnné xj je definovaná vztahem (za předpokladu, že tato limita existuje)
kde je n-rozměrný jednotkový vektor s jedničkou na j-té pozici. Parciální derivaci funkce f(x) podle proměnné xj, (j = 1, 2, ..., n) určíme obyčejným derivováním funkce f(x) podle proměnné xj, přičemž všechny ostatní proměnné pokládáme za konstanty (obr. 1.17).
Totální (úplný) diferenciál funkce n-proměnných f(x) v bodě x0 (přírůstek na tečné nadrovině) je dán vztahem (obr. 1.17)
kde jsou parciální diferenciály funkce f(x) v bodě x0, jsou diferenciály odpovídajících nezávisle proměnných . Funkce n-proměnných f(x), která má na nějaké otevřené množině totální diferenciál, se nazývá diferencovatelná na této množině. Protože existence totálního diferenciálu je spojena nejenom s existencí všech parciálních derivací , ale i s požadavkem jejich spojitosti, proto existence parciálních derivací u funkce n-proměnných není ekvivalentní diferencovatelnosti, jak je tomu u funkce jedné proměnné. Vztah (1.19) lze pomocí skalárního součinu zapsat ve tvaru
kde
je vektor parciálních derivací funkce f(x) v bodě x0, který se nazývá gradient a
je vektor diferenciálů nezávisle proměnných. Diferenciál df(x0) pro aproximuje v bodě x0 přírůstek funkce [obr. 1.17, viz též vztah (1.30)]
Limitu (pokud existuje)
kde s je jednotkový směrový vektor (tj. |s| = 1), nazýváme derivací funkce f(x) v bodě x0 ve směru s (obr. 1.18).
Funkce n-proměnných f(x), která je diferencovatelná v bodě x0, má v tomto bodě i derivaci v libovolném směru s a platí
Označíme-li si písmenem φ úhel, který svírá gradient se směrem s, pak vztah (1.25) shodně s (1.3) lze zapsat ve tvaru
z něhož vyplývá, že funkce f(x) má v bodě x0 největší derivaci ve směru určeném gradientem , protože v tomto směru má cos φ největší hodnotu (tj. cos φ = 1), tzn. gradient určuje směr největšího růstu funkce f(x) v bodě x0. Budou-li parciální derivace v bodě x0 diferencovatelné, pak je možno derivovat je ještě jednou a dostaneme parciální derivace druhého řádu (druhá parciální derivace)
Pro se tyto parciální derivace nazývají smíšené. Budou-li smíšené parciální derivace druhého řádu spojité, pak nezáleží na pořadí derivování, tj. nezáleží na pořadí proměnných, podle kterých derivujeme. Čtvercová matice otevřená s n2 parciálních derivací druhého řádu funkce f(x) v bodě x0, tj.
se nazývá Hessova matice (hessián). Má-li funkce jedné proměnné f(x) spojitou derivaci druhého řádu, pak ji lze v okolí bodu x0 rozložit podle Taylorova vzorce se zbytkem v Lagrangeově tvaru, tj.
kde je zbytek v Lagrangeově tvaru. Podobně, je-li funkce n-proměnných f(x) dvakrát spojitě diferencovatelná, pak ji lze v okolí bodu h = 0, a tedy i x0 rovněž rozložit podle Taylorova vzorce se zbytkem v Lagrangeově tvaru, tj.
kde je zbytek v Lagrangeově tvaru, (speciálně může být h = 1). 1.2.4 Extrémy funkceFunkce f(x) definovaná na množině má v tomto bodě lokální (relativní) minimum, platí-li pro všechny body nerovnost
Je-li nerovnost (1.31) splněna pro body jako ostrá, tj.
pak funkce f(x) má v bodě ostré (silné) lokální minimum. Platí-li neostrá nerovnost (1.31), resp. ostrá nerovnost (1.32) pro všechny body pak funkce f(x) má v bodě x* globální (absolutní), resp. ostré globální minimum. Ostré globální minimum je vždy jednoznačné. Je zřejmé, že každé globální minimum je zároveň lokálním minimem. Zaměníme-li ve vztazích (1.31) a (1.32) znaky nerovností na opačné, dostaneme vztahy definující odpovídající druh maxima (obr. 1.19).
Společný název pro minimum a maximum je extrém. Body , ve kterých funkce f(x) má extrém, tj. funkce f(x) nabývá extremální (minimální, nebo maximální) hodnoty, se nazývají extremální body funkce f(x) na množině X. Funkce f(x), která má na množině X pouze jeden extrém (daného druhu), se nazývá unimodální. V opačném případě je multimodální. Je-li extremální bod vnitřním bodem množiny X, tj. existuje takové okolí bodu x*, že platí
pak funkce f(x) má v bodě x* vnitřní (volný, nepodmíněný) extrém. V opačném případě, tj. když extremální bod x* je hraničním bodem množiny X, funkce f(x) má v bodě x* hraniční (vázaný, podmíněný) extrém. 1.2.5 Druhy podmínekPři určování extrémů funkce f(x) budeme používat tři druhy podmínek: a) Nutné podmínky (NP) existence extrému (E) Má-li funkce f(x) v bodě extrém, pak v tomto bodě musí být splněny nutné podmínky existence extrému. Nebudou-li v bodě splněny nutné podmínky existence extrému, pak v tomto bodě funkce f(x) nemá extrém. Tento kauzální vztah lze symbolicky vyjádřit zápisem
resp.
b) Postačující podmínky (PP) existence extrému (E) Budou-li v bodě splněny postačující podmínky existence extrému, pak funkce f(x) bude mít v tomto bodě extrém. Naproti tomu nemá-li funkce f(x) v bodě extrém, pak postačující podmínky existence extrému nemusí být splněny. Symbolicky tento kauzální vztah lze zapsat ve tvaru
resp.
c) Nutné a postačující podmínky (NPP) existence extrému (E) Budou-li v bodě splněny nutné a postačující podmínky existence extrému, pak funkce f(x) má v tomto bodě extrém. Lze rovněž říct – má-li funkce f(x) v bodě extrém, pak musí být rovněž splněny nutné a postačující podmínky existence extrému. Kauzální vztah zde platí v obou směrech, tj.
resp.
V uvedených podmínkách značí: – negace, – implikace, – ekvivalence 1.2.6 Minimalizace funkceMnožinu X budeme nazývat množinou přípustných řešení (bodů, vektorů) a funkci f(x) – účelovou funkcí nebo kritériem optimality. Nyní si můžeme formulovat obecný problém statické optimalizace ve tvaru úlohy minimalizace účelové funkce f(x) na množině přípustných řešení
resp.
kde
Úlohu maximalizace účelové funkce f(x) na množině přípustných řešení X lze rovněž zastoupit úlohou minimalizace (1.40), resp. (1.41), protože platí (obr. 1.20, viz také obr. 1.12)
resp.
Platí dokonce obecnější vztahy
resp.
kde a je libovolné číslo, b je libovolné kladné číslo. Proto se dále budeme zabývat především minimalizací. V úloze minimalizace (1.40), resp. (1.41) je třeba určit vždy globální minimum účelové funkce f(x) na množině přípustných řešení X. Protože všechny doposud známé metody řešení těchto úloh dovolují určit pouze lokální minima (extrémy), k vyznačení globálního minima je třeba disponovat dodatečnou informací o vlastnostech účelové funkce f(x) a množiny přípustných řešení X. 1.2.7 Věty o extrémechPro statickou optimalizaci má základní význam Weierstrassova věta: „Nechť neprázdná množina přípustných řešení X je kompaktní [tj. omezená (ohraničená) a uzavřená], pak spojitá účelová funkce f(x) definovaná na této množině nabývá na ní globálního minima i maxima“. Předpoklady o vlastnostech účelové funkce f(x) mohou být oslabeny a nahrazeny podmínkou: a) globální minimum – účelová funkce f(x) musí být zdola omezená na množině X; b) globální maximum – účelová funkce f(x) musí být shora omezená na množině X . Podmínky Weierstrassovy věty jsou postačující. Další důležitou větou statické optimalizace je věta vyjadřující postačující podmínky pro globální extrémy: „Nechť neprázdná množina přípustných řešení X je kompaktní a konvexní, účelová funkce f(x) je spojitá a konvexní (resp. konkávní) na X, pak platí: a) lokální minimum (resp. maximum) je globálním minimem (resp. maximem); b) množina bodů, na které účelová funkce f(x)dosahuje minima (resp. maxima) je konvexní; c) pro ryze konvexní (resp. konkávní) účelovou funkci f(x) lokální minimum (resp. maximum) je jednoznačným ostrým globálním minimem (resp. maximem)“. Dosud jsme uvažovali kritérium optimality ve tvaru účelové funkce, tj. reálné funkce reálných proměnných. V tomto případě optimalizace se nazývá statická a spočívá v minimalizaci (maximalizaci) funkce. Pro statickou optimalizaci se rovněž používá ekvivalentní pojem matematické programování. V některých případech kritérium optimality může mít tvar účelového funkcionálu, tj. reálného funkcionálu, u kterého nezávisle proměnné jsou reálné funkce reálné proměnné (nejčastěji času). Řešením těchto problémů se zabývá dynamická optimalizace a spočívá v minimalizaci (maximalizaci) daného funkcionálu. |