§ 2. Задача безусловной оптимизации |
Мы начнем не с предположений, а с исследования. Его объектом будут весьма известные, часто встречающиеся ... явления.
Зигмунд Фрейд. Введение в психоанализ
Здесь мы введем основные понятия и проведем теоретическое исследование задачи безусловной оптимизации. Отметим, что эта задача в теоретическом плане достаточно полно изучена в курсе математического анализа. Мы лишь повторим важнейшие факты, обращая внимание на "оптимизационную" специфику.
Итак, мы будем рассматривать задачу безусловной оптимизации
f(x) ® min, | (1) |
где f: Rm ® R. Точка
f(x*) Ј f(x) | (2) |
при всех x О Rm. Если неравенство (2) выполнено лишь для x, лежащих в некоторой окрестности |
Аналогичные понятия (максимумов) определяются для задачи
f(x) ® max. |
З а д а ч а 2.1. Докажите, что точка x* является точкой глобального безусловного (соответственно, локального, строгого) максимума функции f в том и только том случае, когда она является точкой глобального безусловного (соответственно, локального, строгого) минимума функции -f.
Поэтому всюду в дальнейшем мы будем заниматься только задачами о минимумах, все время помня, что задачи о максимумах к ним сводятся. Таким образом, слово "оптимизация" в нашем контексте будет всегда синонимом слова "минимизация".
2.2. О линейных операторах в Rm.
Напомним, что линейный оператор A в Rm называется самосопряженным или симметричным, если при всех
(Ax, y) = (x, Ay). |
Известно, что оператор A симметричен в том и только том случае, когда его матрица симметрична (
Оператор A называется невырожденным, если у него нулевое ядро
Оператор A называется положительно определенным (часто пишут
(Ax, x) > 0 |
при всех ненулевых x
(Ax, x) і 0. |
Аналогично определяются понятия отрицательно и неположительно определенных операторов.
Если оператор A - lI,
Из курса алгебры известно, что симметричный оператор A удовлетворяет неравенствам
l Ј A Ј L, |
в том и только том случае, если все точки спектра s(A) оператора A лежат на отрезке [l, L]:
l Ј li Ј L. | (3) |
В частности, поскольку норму в Rm мы считаем евклидовой, для симметричных операторов A имеют место утверждения
| (4) |
2.3. О дифференцируемости функций на Rm.
Напомним ряд понятий и фактов из курса математического анализа, которые потребуются нам в дальнейшем.
Вектор a О Rm такой, что
f(x + h) - f(x) - (a, h) = o(h) |
при всех
|
Функция f называется при этом дифференцируемой в точке x. Градиент обычно обозначается
|
Функция f: Rm ® Rm дифференцируемая в каждой точке называется дифференцируемой.
Если дополнительно найдется линейный самосопряженный оператор
|
где запись o(h2) означает, что
|
то f называется дважды дифференцируемой в точке x, а оператор A называется второй производной функции f в точке x и обозначается
|
З а д а ч а 2.2*. Пусть A линейный самосопряженный оператор в Rm,
Если функция F: Rm ® Rk, то линейный оператор
F(x + h) - F(x) - Ah = o(h) |
называется производной функции F в точке x и обозначается
Если функция F: Rm ® R дифференцируема, то ее градиент можно рассматривать как функцию
из Rm в Rm: каждому x О Rm ставится в соответствие точка из
З а д а ч а 2.3*. Докажите, что
Еще одно полезное понятие. Функция F: Rm® Rk по определению удовлетворяет условию Липшица с константой L, если при всех
||F(x) - F(y)|| Ј L ||x - y||. |
З а д а ч а 2.4*. Пусть F: Rm ®Rk дифференцируема. Докажите, что F удовлетворяет условию Липшица с константой L, в том и только том случае,
если
Ниже нам потребуется следующее простое утверждение. Если
(f ў(x + th), th) - (f ў(x), th) = (f ўў(x)th, th) + (o(th), th). |
Но тогда в силу условия Липшица для f ў
|
|
Устремляя t к 0, получим неравенство
(f ўў(x)h, h) Ј L ||h||2, | (5) |
эквивалентное нужному неравенству f ўў(x) Ј L.
З а д а ч а 2.5. Докажите обратное утверждение.
В заключение пункта еще одно обозначение. Мы будем писать
2.4. Необходимое условие локального экстремума.
Такое условие дает хорошо известная из курса математического анализа
Теорема Ферма. Если f дифференцируемая функция и x* ее локальный минимум, то
Напомним д о к а з а т е л ь с т в о теоремы. Допустим противное:
f(xt) = f(x*) + (f ў(x*), xt - x*) + o(xt - x*) = = f(x*) + (f ў(x*), -tf ў(x*)) + o(-tf ў(x*)) =
| (6) |
Поскольку ||f ў(x*)|| > 0, а
|
выражение в квадратных скобках в правой части (6) при всех достаточно малых t положительно и поэтому при всех достаточно малых положительных t
f(xt) < f(x*), |
что противоречит тому, что
Из доказательства следует, что, двигаясь из заданной точки в направлении, противоположном градиенту (говорят в направлении антиградиента), мы локально уменьшаем значение функции. Это замечание потребуется нам в дальнейшем.
Таким образом, минимум функции может достигаться только в тех точках, в которых ее производная обращается в нуль, и поэтому уравнение
f ў(x) = 0, | (7) |
или, что то же самое, система m (вообще говоря, нелинейных) уравнений с m неизвестными
|
определяет точки "подозрительные на минимум". Точки, удовлетворяющие уравнению (7), называются стационарными точками функции f.
Стационарная точка x* функции f может быть либо точкой локального минимума, либо точкой локального максимума, либо не быть ни той, ни другой (см. рис. 1).
f(x*, y) Ј f(x*, y*) Ј f(x, y*) |
(см. рис. 2). Если эти неравенства выполняется лишь для x достаточно близких к x* и y достаточно близких к y*, то, естественно, добавляется эпитет локальная.
2.5. Теорема о локальном минимуме (необходимые и достаточные условия второго порядка).
Пусть x* стационарная точка дважды дифференцируемой функции f. Для того, чтобы точка x* была точкой (локального) минимума функции f необходимо, чтобы оператор f ўў(x*) был неотрицательно определен и достаточно, чтобы он был положительно определен.
Д о к а з а т е л ь с т в о. Необходимость. Пусть
|
при всех достаточно малых t О R.
Отсюда при всех
|
Переходя в полученном неравенстве к пределу при
(f ўў(x*)h, h) і 0. |
Достаточность. Пусть
|
Если теперь обозначить
| (8) |
Поскольку ||gn|| = 1, а сфера в Rm компактна, последовательность {gn}, не ограничивая общности, можно считать сходящейся к некоторому лежащему на ней (и следовательно, отличному от нуля) вектору g0. Предельный при
(f ўў(x*)g0, g0) Ј 0. |
Теорема доказана.
З а д а ч а 2.6. Исследуйте на экстремум функцию f: R2 ® R, задаваемую формулой |
2.6. Замечания о существовании решений.
Из курса математического анализа известно, что задача о существовании минимума непрерывной функции на компактном множестве всегда имеет по крайней мере одно решение (теорема Вейерштрасса). В нашем
З а д а ч а 2.7. Приведите пример задачи (1) с непрерывной (или, даже, со сколь угодно гладкой) ограниченной снизу
В следующей теореме приводится одно из таких возможных дополнительных условий.
Теорема о разрешимости задачи безусловной оптимизации. Пусть функция f непрерывна и при некотором
Д о к а з а т е л ь с т в о. Множество Sa замкнуто.
З а д а ч а 2.8*. Докажите.
Поэтому Sa компактное подмножество Rm. В силу теоремы Вейерштрасса, очевидно, функция f достигает на Sa своего минимума: |
З а д а ч а 2.9. Приведите пример (непостоянной) функции f, для которой задача (1) разрешима, а условия теоремы 2.6 не выполнены.
2.7. Замечания о единственности решений.
Вопрос о единственности (как, впрочем, и о существовании) решений весьма
важен в теоретическом плане. Например, если
З а д а ч а 2.10. Докажите сформулированное утверждение (воспользуйтесь компактностью последовательности
Точка x* локального минимума дважды дифференцируемой функции f называется невырожденной, если оператор f ўў(x*) невырожден. Она называется локально единственной, если в некоторой ее окрестности
З а д а ч а 2.11. Приведите пример функции f, имеющей локально строгую, но не локально единственную точку минимума.
Теорема о локальной единственности решений. Невырожденная точка локального минимума локально единственна.
Д о к а з а т е л ь с т в о. Допустим противное: x* не является локально единственной точкой минимума,
f ў(xn) - f ў(x*) = f ўў(x*)(xn -x*) + o(xn - x*). |
Поскольку xn и x* локальные минимумы и,
следовательно, стационарные точки,
|
(9) |
Далее рассуждения стандартны: {gn} лежит на единичной
сфере в Rm, поэтому ее можно считать сходящейся к
некоторому пределу
f ўў(x*)g0 = Q, |
что противоречит невырожденности оператора f ўў(x*).
З а д а ч а 2.12. Восстановите детали доказательства.
Особенно легко вопросы существования и единственности решаются для выпуклых функций. Эти функции являются очень важным объектом в теории оптимизационных задач. Начнем с определений.
Функция f: Rm ® R называется выпуклой, если при всех
f(lx + (1 - l)y) Ј lf(x) + (1 - l)f(y). | (10) |
Если неравенство (10) строгое, то f называется
строго выпуклой. Геометрически выпуклость означает, что график функции на интервале
| (11) |
Геометрически это понятие можно интерпретировать так. Пусть точки
отрезка
Критерий выпуклости дифференцируемой функции. Для того, чтобы дифференцируемая функция f была выпуклой необходимо и достаточно выполнения при всех
f(x) - f(y) і (f ў(y), x - y). | (12) |
Действительно, определим на отрезке [0, 1] функцию j, положив
j(l) = f(lx + (1 - l)y). |
Очевидно функция j выпукла одновременно с функцией f. Кроме того, легко показать, что
jў(l) = (f ў(lx + (1 -l)y), x - y). |
Неравенство (12) в новых обозначениях переписывается в виде
j(1) - j(0) і jў(0), |
или, если воспользоваться формулой Лагранжа,
jў(t) і jў(0), | (13) |
где t некоторая точка интервала (0, 1). Из курса математического анализа известно, что для дифференцируемых функций выпуклость эквивалентна монотонности производной. Поэтому, если f выпукла, то jў монотонна. Следовательно, имеет место эквивалентное (12) неравенство (13).
З а д а ч а 2.13. Докажите обратное утверждение.
Геометрически доказанное утверждение означает, что значения функции f(x) "лежит выше" гиперплоскости
Строгая выпуклость дифференцируемой функции, как легко видеть, эквивалентна строгому при
f(x) - f(y) і (f ў(y), x - y) + c||x - y||2. | (14) |
З а д а ч а 2.14*. Докажите последнее утверждение.
З а д а ч а 2.15*. Докажите, что f О C2 сильно выпукла с константой c в том и только том случае, если
2.9. Теорема о разрешимости для сильно выпуклой функции.
Задача (1) с дифференцируемой сильно выпуклой функцией разрешима.
Д о к а з а т е л ь с т в о. Неравенство (14) для
f(x) і f(Q) + (f ў(Q), x) +c||x||2. | (15) |
Для a = f(Q) множество
f(x) > a. |
Действительно, продолжая (15), при
f(x) і f(Q) + (f ў(Q), x) + c||x||2 і a - |(f ў(Q), x)| + c||x||2 і і a + c||x||2 - ||f ў(Q) |
Заключение теоремы теперь следует из теоремы 2.6 о разрешимости задачи безусловной оптимизации.
З а д а ч а 2.16. Покажите, что для выпуклой (и даже для строго выпуклой) функции утверждение теоремы в общем случае не верно.
2.10. Теорема единственности для строго выпуклой функции.
Задача (1) со строго выпуклой функцией не может иметь более одного решения.
Д о к а з а т е л ь с т в о. В предположении существования двух точек минимума x* и
|
File based on translation from
TEX by TTH,
version 3.05.
Created 4 Jun 2002, 22: 42.