![]() | § 2. Задача безусловной оптимизации | ![]() |
Мы начнем не с предположений, а с исследования. Его объектом будут весьма известные, часто встречающиеся ... явления.
Зигмунд Фрейд. Введение в психоанализ
Здесь мы введем основные понятия и проведем теоретическое исследование задачи безусловной оптимизации. Отметим, что эта задача в теоретическом плане достаточно полно изучена в курсе математического анализа. Мы лишь повторим важнейшие факты, обращая внимание на "оптимизационную" специфику.
Итак, мы будем рассматривать задачу безусловной оптимизации
f(x) → min, | (1) |
где f: Rm → R. Точка
f(x*) ≤ f(x) | (2) |
при всех x ∈ Rm. Если неравенство (2) выполнено лишь для x, лежащих в некоторой окрестности |
Аналогичные понятия (максимумов) определяются для задачи
f(x) → max. |
З а д а ч а 2.1. Докажите, что точка x* является точкой глобального безусловного (соответственно, локального, строгого) максимума функции f в том и только том случае, когда она является точкой глобального безусловного (соответственно, локального, строгого) минимума функции f.
Поэтому всюду в дальнейшем мы будем заниматься только задачами о минимумах, все время помня, что задачи о максимумах к ним сводятся. Таким образом, слово "оптимизация" в нашем контексте будет всегда синонимом слова "минимизация".
2.2. О линейных операторах в Rm.
Напомним, что линейный оператор A в Rm называется самосопряженным или симметричным, если при всех
(Ax, y) = (x, Ay). |
Известно, что оператор A симметричен в том и только том случае, когда его матрица симметрична (
Оператор A называется невырожденным, если у него нулевое ядро
Оператор A называется положительно определенным (часто пишут
(Ax, x) > 0 |
при всех ненулевых x
(Ax, x) ≥ 0. |
Аналогично определяются понятия отрицательно и неположительно определенных операторов.
Если оператор A λI,
Из курса алгебры известно, что симметричный оператор A удовлетворяет неравенствам
λ ≤ A ≤ Λ, |
в том и только том случае, если все точки спектра σ(A) оператора A лежат на отрезке [λ, Λ]:
λ ≤ λi ≤ Λ. | (3) |
В частности, поскольку норму в Rm мы считаем евклидовой, для симметричных операторов A имеют место утверждения
| (4) |
2.3. О дифференцируемости функций на Rm.
Напомним ряд понятий и фактов из курса математического анализа, которые потребуются нам в дальнейшем.
Вектор a ∈ Rm такой, что
f(x + h) f(x) (a, h) = o(h) |
при всех
|
Функция f называется при этом дифференцируемой в точке x. Градиент обычно обозначается
|
Функция f: Rm → Rm дифференцируемая в каждой точке называется дифференцируемой.
Если дополнительно найдется линейный самосопряженный оператор
|
где запись o(h2) означает, что
|
то f называется дважды дифференцируемой в точке x, а оператор A называется второй производной функции f в точке x и обозначается
|
З а д а ч а 2.2*. Пусть A линейный самосопряженный оператор в Rm,
Если функция F: Rm → Rk, то линейный оператор
F(x + h) F(x) Ah = o(h) |
называется производной функции F в точке x и обозначается
Если функция F: Rm → R дифференцируема, то ее градиент можно рассматривать как функцию
из Rm в Rm: каждому x ∈ Rm ставится в соответствие точка из
З а д а ч а 2.3*. Докажите, что
Еще одно полезное понятие. Функция F: Rm→ Rk по определению удовлетворяет условию Липшица с константой Λ, если при всех
||F(x) F(y)|| ≤ Λ ||x y||. |
З а д а ч а 2.4*. Пусть F: Rm →Rk дифференцируема. Докажите, что F удовлетворяет условию Липшица с константой Λ, в том и только том случае,
если
Ниже нам потребуется следующее простое утверждение. Если
(f ′(x + th), th) (f ′(x), th) = (f ′′(x)th, th) + (o(th), th). |
Но тогда в силу условия Липшица для f ′
|
|
Устремляя t к 0, получим неравенство
(f ′′(x)h, h) ≤ Λ ||h||2, | (5) |
эквивалентное нужному неравенству f ′′(x) ≤ Λ.
З а д а ч а 2.5. Докажите обратное утверждение.
В заключение пункта еще одно обозначение. Мы будем писать
2.4. Необходимое условие локального экстремума.
Такое условие дает хорошо известная из курса математического анализа
Теорема Ферма. Если f дифференцируемая функция и x* ее локальный минимум, то
Напомним д о к а з а т е л ь с т в о теоремы. Допустим противное:
f(xt) = f(x*) + (f ′(x*), xt x*) + o(xt x*) = = f(x*) + (f ′(x*), tf ′(x*)) + o(tf ′(x*)) =
| (6) |
Поскольку ||f ′(x*)|| > 0, а
|
выражение в квадратных скобках в правой части (6) при всех достаточно малых t положительно и поэтому при всех достаточно малых положительных t
f(xt) < f(x*), |
что противоречит тому, что
Из доказательства следует, что, двигаясь из заданной точки в направлении, противоположном градиенту (говорят в направлении антиградиента), мы локально уменьшаем значение функции. Это замечание потребуется нам в дальнейшем.
Таким образом, минимум функции может достигаться только в тех точках, в которых ее производная обращается в нуль, и поэтому уравнение
f ′(x) = 0, | (7) |
или, что то же самое, система m (вообще говоря, нелинейных) уравнений с m неизвестными
|
определяет точки "подозрительные на минимум". Точки, удовлетворяющие уравнению (7), называются стационарными точками функции f.
Стационарная точка x* функции f может быть либо точкой локального минимума, либо точкой локального максимума, либо не быть ни той, ни другой (см. рис. 1).
f(x*, y) ≤ f(x*, y*) ≤ f(x, y*) |
(см. рис. 2). Если эти неравенства выполняется лишь для x достаточно близких к x* и y достаточно близких к y*, то, естественно, добавляется эпитет локальная.
2.5. Теорема о локальном минимуме (необходимые и достаточные условия второго порядка).
Пусть x* стационарная точка дважды дифференцируемой функции f. Для того, чтобы точка x* была точкой (локального) минимума функции f необходимо, чтобы оператор f ′′(x*) был неотрицательно определен и достаточно, чтобы он был положительно определен.
Д о к а з а т е л ь с т в о. Необходимость. Пусть
|
при всех достаточно малых t ∈ R.
Отсюда при всех
|
Переходя в полученном неравенстве к пределу при
(f ′′(x*)h, h) ≥ 0. |
Достаточность. Пусть
|
Если теперь обозначить
| (8) |
Поскольку ||gn|| = 1, а сфера в Rm компактна, последовательность {gn}, не ограничивая общности, можно считать сходящейся к некоторому лежащему на ней (и следовательно, отличному от нуля) вектору g0. Предельный при
(f ′′(x*)g0, g0) ≤ 0. |
Теорема доказана.
З а д а ч а 2.6. Исследуйте на экстремум функцию f: R2 → R, задаваемую формулой |
2.6. Замечания о существовании решений.
Из курса математического анализа известно, что задача о существовании минимума непрерывной функции на компактном множестве всегда имеет по крайней мере одно решение (теорема Вейерштрасса). В нашем
З а д а ч а 2.7. Приведите пример задачи (1) с непрерывной (или, даже, со сколь угодно гладкой) ограниченной снизу
В следующей теореме приводится одно из таких возможных дополнительных условий.
Теорема о разрешимости задачи безусловной оптимизации. Пусть функция f непрерывна и при некотором
Д о к а з а т е л ь с т в о. Множество Sα замкнуто.
З а д а ч а 2.8*. Докажите.
Поэтому Sα компактное подмножество Rm. В силу теоремы Вейерштрасса, очевидно, функция f достигает на Sα своего минимума: |
З а д а ч а 2.9. Приведите пример (непостоянной) функции f, для которой задача (1) разрешима, а условия теоремы 2.6 не выполнены.
2.7. Замечания о единственности решений.
Вопрос о единственности (как, впрочем, и о существовании) решений весьма
важен в теоретическом плане. Например, если
З а д а ч а 2.10. Докажите сформулированное утверждение (воспользуйтесь компактностью последовательности
Точка x* локального минимума дважды дифференцируемой функции f называется невырожденной, если оператор f ′′(x*) невырожден. Она называется локально единственной, если в некоторой ее окрестности
З а д а ч а 2.11. Приведите пример функции f, имеющей локально строгую, но не локально единственную точку минимума.
Теорема о локальной единственности решений. Невырожденная точка локального минимума локально единственна.
Д о к а з а т е л ь с т в о. Допустим противное: x* не является локально единственной точкой минимума,
f ′(xn) f ′(x*) = f ′′(x*)(xn x*) + o(xn x*). |
Поскольку xn и x* локальные минимумы и,
следовательно, стационарные точки,
|
(9) |
Далее рассуждения стандартны: {gn} лежит на единичной
сфере в Rm, поэтому ее можно считать сходящейся к
некоторому пределу
f ′′(x*)g0 = Θ, |
что противоречит невырожденности оператора f ′′(x*).
З а д а ч а 2.12. Восстановите детали доказательства.
Особенно легко вопросы существования и единственности решаются для выпуклых функций. Эти функции являются очень важным объектом в теории оптимизационных задач. Начнем с определений.
Функция f: Rm → R называется выпуклой, если при всех
f(λx + (1 λ)y) ≤ λf(x) + (1 λ)f(y). | (10) |
Если неравенство (10) строгое, то f называется
строго выпуклой. Геометрически выпуклость означает, что график функции на интервале
| (11) |
Геометрически это понятие можно интерпретировать так. Пусть точки
отрезка
Критерий выпуклости дифференцируемой функции. Для того, чтобы дифференцируемая функция f была выпуклой необходимо и достаточно выполнения при всех
f(x) f(y) ≥ (f ′(y), x y). | (12) |
Действительно, определим на отрезке [0, 1] функцию φ, положив
φ(λ) = f(λx + (1 λ)y). |
Очевидно функция φ выпукла одновременно с функцией f. Кроме того, легко показать, что
φ′(λ) = (f ′(λx + (1 λ)y), x y). |
Неравенство (12) в новых обозначениях переписывается в виде
φ(1) φ(0) ≥ φ′(0), |
или, если воспользоваться формулой Лагранжа,
φ′(τ) ≥ φ′(0), | (13) |
где τ некоторая точка интервала (0, 1). Из курса математического анализа известно, что для дифференцируемых функций выпуклость эквивалентна монотонности производной. Поэтому, если f выпукла, то φ′ монотонна. Следовательно, имеет место эквивалентное (12) неравенство (13).
З а д а ч а 2.13. Докажите обратное утверждение.
Геометрически доказанное утверждение означает, что значения функции f(x) "лежит выше" гиперплоскости
Строгая выпуклость дифференцируемой функции, как легко видеть, эквивалентна строгому при
f(x) f(y) ≥ (f ′(y), x y) + c||x y||2. | (14) |
З а д а ч а 2.14*. Докажите последнее утверждение.
З а д а ч а 2.15*. Докажите, что f ∈ C2 сильно выпукла с константой c в том и только том случае, если
2.9. Теорема о разрешимости для сильно выпуклой функции.
Задача (1) с дифференцируемой сильно выпуклой функцией разрешима.
Д о к а з а т е л ь с т в о. Неравенство (14) для
f(x) ≥ f(Θ) + (f ′(Θ), x) +c||x||2. | (15) |
Для α = f(Θ) множество
f(x) > α. |
Действительно, продолжая (15), при
f(x) ≥ f(Θ) + (f ′(Θ), x) + c||x||2 ≥ α |(f ′(Θ), x)| + c||x||2 ≥ ≥ α + c||x||2 ||f ′(Θ) |
Заключение теоремы теперь следует из теоремы 2.6 о разрешимости задачи безусловной оптимизации.
З а д а ч а 2.16. Покажите, что для выпуклой (и даже для строго выпуклой) функции утверждение теоремы в общем случае не верно.
2.10. Теорема единственности для строго выпуклой функции.
Задача (1) со строго выпуклой функцией не может иметь более одного решения.
Д о к а з а т е л ь с т в о. В предположении существования двух точек минимума x* и
|
File based on translation from
TEX by TTH,
version 3.05.
Created 4 Jun 2002, 22: 42.