Uploaded by Đặng Hồ Minh Huy

LTTU

advertisement
TRƯỜNG ĐẠI HỌC QUY NHƠN
KHOA TOÁN & THỐNG KÊ
Tài liệu môn học:
LÝ THUYẾT TỐI ƯU
(Dùng cho sinh viên ngành Toán)
Huỳnh Văn Ngãi, Nguyễn Văn Vũ
Bộ môn Toán ứng dụng - Thống kê
Bình Định, 2021
Mục lục
Mục lục
iii
Danh sách hình
v
Danh sách bảng
vii
1
2
3
Mở đầu
1.1 Bài toán quy hoạch toán học . . .
1.2 Cơ sở đại số tuyến tính . . . . . .
1.2.1 Không gian Rn . . . . . .
1.2.2 Không gian Rm×n . . . . .
1.2.3 Chuẩn và tích trong . . .
1.2.4 Giá trị riêng, vector riêng
1.3 Cơ sở giải tích . . . . . . . . . . .
1.3.1 Topo cơ bản . . . . . . . .
1.3.2 Phép tính vi tích phân . .
Tối ưu không ràng buộc
2.1 Khái niệm về cực trị . . . . . . .
2.2 Điều kiện tối ưu bậc nhất . . . .
2.3 Điều kiện tối ưu bậc hai . . . .
2.4 Điều kiện tối ưu toàn cục . . . .
2.5 Tối ưu hàm toàn phương . . . .
2.6 Bài toán bình phương tối thiểu
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Một số phương pháp tối ưu không ràng buộc
3.1 Các phương pháp hướng giảm . . . . . . . . .
3.2 Phương pháp gradient . . . . . . . . . . . . . .
3.2.1 Hướng giảm nhanh nhất . . . . . . . . .
3.2.2 Số điều kiện và diagonal scaling . . . .
3.2.3 Phương pháp Gauss-Newton . . . . . .
3.2.4 Phân tích hội tụ phương pháp gradient
3.3 Phương pháp Newton . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
2
3
4
6
7
7
8
.
.
.
.
.
.
11
11
13
14
17
18
19
.
.
.
.
.
.
.
21
21
24
24
26
28
28
30
Mục lục
iv
3.4
4
5
3.3.1 Hướng Newton . . . . . . . .
3.3.2 Phương pháp thuần Newton
3.3.3 Phương pháp Newton tắt dần
Phương pháp quasi-Newton . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Cơ sở giải tích lồi
4.1 Tập lồi . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Khái niệm . . . . . . . . . . . . . . . . . . . .
4.1.2 Phép toán trên tập lồi. Bao lồi và bao nón lồi
4.1.3 Topo trên tập lồi . . . . . . . . . . . . . . . .
4.1.4 Điểm cực biên . . . . . . . . . . . . . . . . . .
4.1.5 Dáng điệu tiệm cận . . . . . . . . . . . . . . .
4.2 Hàm lồi . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Hàm nhận giá trị thực mở rộng . . . . . . . .
4.2.2 Hàm lồi . . . . . . . . . . . . . . . . . . . . .
4.2.3 Đặc trưng đạo hàm . . . . . . . . . . . . . . .
4.2.4 Phép toán bảo toàn tính lồi . . . . . . . . . .
4.2.5 Dáng điệu địa phương và toàn cục . . . . . .
4.3 Bài toán quy hoạch lồi . . . . . . . . . . . . . . . . .
4.3.1 Khái niệm và ví dụ . . . . . . . . . . . . . . .
4.3.2 Điểm dừng trong bài toán lồi . . . . . . . . .
4.3.3 Phép chiếu trực giao . . . . . . . . . . . . . .
4.3.4 Ứng dụng phép chiếu: tách các tập lồi . . . .
4.3.5 Phương pháp chiếu gradient . . . . . . . . .
Lý thuyết tối ưu ràng buộc
5.1 Phát biểu bài toán . . . . . . . . . .
5.2 Điều kiện cần tối ưu cơ bản . . . .
5.3 Bài toán ràng buộc tuyến tính . . .
5.4 Điều kiện tối ưu KKT . . . . . . . .
5.5 Điều kiện tối ưu bậc hai . . . . . .
5.6 Đối ngẫu . . . . . . . . . . . . . . .
5.6.1 Mở đầu . . . . . . . . . . . .
5.6.2 Lý thuyết bài toán đối ngẫu
5.6.3 Đối ngẫu trong bài toán lồi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
31
33
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
40
41
44
46
47
48
48
48
49
51
52
52
52
54
55
57
58
.
.
.
.
.
.
.
.
.
59
59
60
61
62
64
65
65
66
67
Tài liệu tham khảo
73
Chỉ mục
77
Danh sách hình
v
vi
Danh sách hình
Danh sách bảng
vii
viii
Lời tựa
Lời tựa
Nothing happens in the universe
that does not have a sense of either
certain maximum or minimum.
L. Euler
Giống như nội dung lời trích dẫn ở trên, lĩnh vực toán học nghiên cứu về các bài
toán cực trị (một số thuật ngữ tương đương lý thuyết tối ưu, quy hoạch toán học) nảy
sinh từ nhu cầu thực tiễn, và đã là một nhánh có lịch sử lâu đời. Để minh họa chúng
tôi ghi lại đây nguyên văn một đoạn trích từ quyển chuyên khảo kinh điển Nocedal
and Wright, 2006:
“People optimize. Investors seek to create portfolios that avoid excessive risk while achieving a high rate of return. Manufacturers aim for
maximum efficiency in the design and operation of their production processes. Engineers adjust parameters to optimize the performance of their
designs.
Nature optimizes. Physical systems tend to a state of minimum energy.
The molecules in an isolated chemical system react with each other until
the total potential energy of their electrons is minimized. Rays of light
follow paths that minimize their travel time. ”.
Bản thảo này hướng đến mục tiêu giúp người đọc tiếp cận một số vấn đề căn bản
nhất về lý thuyết tối ưu trên không gian thực hữu hạn chiều. Đã có rất nhiều giáo
trình cũng như chuyên khảo dành riêng cho chủ đề này, phù hợp với nhiều mức độ
bạn đọc khác nhau, từ sinh viên đại học cho đến nghiên cứu viên chuyên sâu. Trong
khuôn khổ ở đây, chúng tôi chọn trình bày dựa theo Beck, 2014, chỉ trừ ra một số ít
nội dung rất chuyên biệt có tham khảo thêm từ các tài liệu Boyd and Vandenberghe,
2009 và Nocedal and Wright, 2006.
Nội dung của bản thảo này được biên soạn dành cho sinh viên học viên các
ngành/chuyên ngành Toán có liên quan hoặc có sử dụng công cụ từ tối ưu. Mặc dù
tập thể biên soạn đã rất nỗ lực, nó không tránh khỏi còn đôi chỗ thiếu sót. Rất mong
nhận được ý kiến đóng góp từ bạn đọc, cùng với quý thầy cô, đồng nghiệp và hy
vọng rằng bản thảo sẽ phần nào có ích cho những ai quan tâm.
ix
x
Lời tựa
Các tác giả
Chương 1
Mở đầu
1.1
Bài toán quy hoạch toán học
Nói chung, tối ưu là một công cụ quan trọng trong khoa học quyết định cũng như
trong việc phân tích các hệ vật lý. Quá trình tối ưu hóa (còn gọi là quy hoạch toán học)
có thể được phân chia thành hai giai đoạn chính. Bước thứ nhất là thiết lập mô hình.
Ở giai đoạn này, người ta sẽ xác định hàm mục tiêu (đại lượng đo đạc định lượng
cho đặc tính của hệ thống đang nghiên cứu), biến của bài toán (là đặc trưng nào đó
của hệ thống mà thông qua đó hàm mục tiêu được xác định), và các điều kiện ràng
buộc (tức là những hạn chế đặt lên các biến). Tiếp theo sau đó là quá trình giải tìm ra
phương án tối ưu. Bước này thường thường được thực hiện với sự trợ giúp của phần
mềm toán học, bằng cách vận dụng một thuật toán tối ưu nhất định nào đấy. Sau khi
thuật toán giải đã trả về một giá trị, trong rất nhiều tình huống, người ta sẽ dựa vào
phát biểu toán học thích hợp, gọi là điều kiện tối ưu để kiểm tra xem liệu rằng ta đã
đạt được nghiệm như mong muốn hay chưa. Nếu điều kiện tối ưu không được thỏa
mãn, thì chúng có thể cung cấp nhiều thông tin về việc sai số hiện tại của phương
án có thể được cải tiến như thế nào. Lúc này, người dùng có thể sẽ phải xem xét liệu
có cần thiết phải áp dụng một chiến lược khác hay không.
Một cách toán học, tối ưu hóa là cực tiểu hoặc cực đại một hàm mục tiêu thỏa mãn
ràng buộc trên các biến của nó. Trên cơ sở các ký hiệu trong Nocedal and Wright,
2006 ta ngầm hiểu khi không chú thích thêm:
• x là vector gồm các biến;
• f là hàm mục tiêu, một hàm vô hướng của biến x;
• c j là những hàm ràng buộc, chúng là hàm vô hướng của biến x định nghĩa các
đẳng thức cũng như bất đẳng thức mà x phải thỏa mãn.
Khi đó một bài toán tối ưu có thể viết dưới dạng
min / max f ( x ) với điều kiện c j ( x ) = 0, j ∈ E ,
c j ( x ) ⩾ 0, j ∈ I .
1
(MP)
Chương 1. Mở đầu
2
Trong phát biểu (MP), E và I tương ứng đại diện cho tập chỉ số của các ràng buộc
đẳng thức hay bất đẳng thức. Tập hợp (có thể rỗng)
)
(
c
(
x
)
=
0,
∀
j
∈
E
;
(1.1)
S f eas := x ∈ Rn j
c j ( x ) ⩾ 0, ∀ j ∈ I
gọi là tập các phương án chấp nhận được hay miền khả thi của bài toán (MP). Một
nghiệm (lời giải) cho bài toán (MP) là phương án chấp nhận được sao cho giá trị
hàm mục tiêu tại đó là nhỏ nhất (bài toán cực tiểu) hoặc lớn nhất (bài toán cực đại)
có thể.
1.2
Cơ sở đại số tuyến tính
Trong hầu hết nội dung ở đây chúng ta sẽ thường xuyên làm việc trên các phép toán
và công cụ từ đại số tuyến tính. Mặc định những khái niệm cơ bản của đại số tuyến
tính sẽ được xem như là quen thuộc, và ta sẽ biểu diễn các phép toán ma trận theo
ký hiệu từ Golub and Van Loan, 2013. Đồng thời, hầu như bất kỳ lúc nào có thể, các
quy tắc về cú pháp của phần mềm MATLAB sẽ được áp dụng. (Chú ý là điều tương
tự cũng được tìm thấy ở cả hai chuyên khảo Beck, 2014 và Golub and Van Loan,
2013.) Để phân biệt, chỉ số của mỗi một phần tử thuộc một họ ma trận/vector sẽ viết
dưới dạng chỉ số trên.
1.2.1
Không gian Rn
Không gian Euclid Rn là tập hợp gồm các bộ n số thực được viết dưới dạng vector
cột được trang bị phép toán cộng và nhân với vô hướng xác định theo từng thành
phần
    

  

x1
y1
x1 + y1
x1
λx1
. . 

  

..
 ..  +  ..  = 
 , λ  ...  =  ...  .
.
    

  

xn
yn
xn + yn
xn
λxn
Cơ sở chính tắc của Rn được tạo thành bởi các vector e1 , . . . , en , ở đó ei là vector cột
mà thành phần thứ i bằng 1, còn lại là 0. Vector không vẫn ký hiệu là 0, trong khi đó
e sẽ dùng để chỉ cho vector gồm toàn 1. Như vậy
e = e1 + · · · + e n .
(1.2)
Hệ vector v(1) , . . . , v(k) ∈ Rn gọi là độc lập tuyến tính nếu đẳng thức
λ 1 v (1) + · · · λ k v ( k ) = 0
(1.3)
chỉ xảy ra khi λ1 = · · · = λk = 0. Trong tình huống ngược lại, nghĩa là (1.3) xảy
ra với một λi ̸= 0 nào đó, hệ sẽ là phụ thuộc tuyến tính. Một hệ độc lập tuyến tính
có đúng n vector sẽ tạo thành một cơ sở của không gian Rn , điển hình ở đây là hệ
e1 , . . . , e n .
1.2 Cơ sở đại số tuyến tính
1.2.2
3
Không gian Rm×n
Một ma trận thực A cỡ m × n là bảng hình chữ nhật gồm các số thực được xếp thành
m hàng và n cột


a11 · · · a1n
 .
.. 
..
..
A=
(1.4)
.
. 

.
am1 · · · amn
Ta sẽ sử dụng hàm MATLAB size(·) để xác định cỡ ma trận với m = size( A, 1) và
n = size( A, 2). Phần tử aij nằm ở giao của hàng thứ i và cột thứ j đôi khi sẽ được
viết là A(i, j). Khi m = n người ta nói đây là ma trận vuông. Vector hàng thứ i của ma
trận A là một ma trận cỡ 1 × n
h
i
A(i, : ) = ai1 · · · ain ,
(1.5)
trong khi đó, vector cột thứ j của A, là ma trận cỡ m × 1
 
a1j
 . 
. 
A( : , j) = 
 . .
amj
Ma trận con của A trích ra từ các hàng I = [i1 · · · ik ] và cột J = [ j1 · · ·
trận cỡ k × l


A(i1 , j1 ) · · · A(i1 , jl )


..
..
..
.
A( I, J ) = 
.
.
.


A(ik , j1 ) · · · A(ik , jl )
(1.6)
jl ] là ma
(1.7)
Tập hợp ma trận thực cỡ m × n cùng với phép toán cộng ma trận và phép toán nhân
ma trận với vô hướng xác định theo từng phần tử một

 
 

a11 · · · a1n
b11 · · · b1n
a11 + b11 · · · a1n + b1n
 .



.. 
.. 
..
..
..
..
..
 ..
 +  ...
=
,
(1.8)
.
.
.
.
.
.
.
 
 


am1 · · · amn
bm1 · · · bmn
am1 + bm1 · · · amn + bmn

 

a11 · · · a1n
λa11 · · · λa1n
 .
  .
.
.. 
.
..



..
..
.
λ  ..
(1.9)
.
. 
= .
.
am1 · · · amn
λam1 · · · λamn
tạo thành không gian vector Rm×n .
Với một ma trận A ∈ Rm×n chuyển vị của nó là ma trận A T ∈ Rn×m sao cho
A T (i, j) = A( j, i ).
(1.10)
Ma trận A gọi là đối xứng nếu A T = A.
Một số (lớp) ma trận đặc biệt đã được mô tả chi tiết trong Golub and Van Loan,
2013.
Chương 1. Mở đầu
4
• Ma trận không: 0m×n (hay đơn giản không có chỉ số dưới 0) là ma trận mà mọi
phần tử đều bằng 0.
• Ma trận đơn vị In (hay đơn giản I) là ma trận vuông mà phần tử (i, j) bằng 1
khi i = j và 0 cho mọi trường hợp còn lại.
• Ma trận chéo diag(α1 , . . . , αk ) (hay diag(α1 · · · αk )) là ma trận cỡ k × k mà
phần tử ở vị trí (i, i ) đúng bằng αi , còn lại đều là 0.
• Ma trận tam giác trên là ma trận vuông mà các phần tử ở dưới đường chéo
chính đều bằng 01 . Ma trận tam giác dưới có chuyển vị là dạng tam giác trên.
Tích ma trận-vector và tích ma trận với ma trận sẽ là những phép toán quan trọng
xuyên suốt các tính toán ở đây. Tích của ma trận A ∈ Rm×n với một ma trận cột
V = [ v1 · · ·
T
vn ] là ma trận cỡ m × 1 xác định bởi tổ hợp tuyến tính
AV = v1 A( : , 1) + · · · + vn A( : , n).
Tương tự tích của ma trận U = [u1 · · ·
trận cỡ 1 × n cho bởi
(1.11)
um ] cỡ 1 × m với ma trận A ∈ Rm×n là ma
U A = u1 A(1, : ) + · · · + um A(m, : ).
(1.12)
Phép nhân hai ma trận A, B có nghĩa khi size( A, 2) = size( B, 1) và ma trận tích AB
thỏa mãn
( AB)( : , j) = A · B( : , j), ( AB)(i, : ) = A(i, : ) B.
(1.13)
1.2.3
Chuẩn và tích trong
Tích vô hướng
Định nghĩa 1.1 (inner product). Một tích vô hướng (inner product, scalar product)
trên Rn là hàm ⟨·, ·⟩ : Rn × Rn −→ R thỏa mãn các yêu cầu sau đây:
1. ⟨ x, y⟩ = ⟨y, x ⟩ cho mọi x, y ∈ Rn ;
2. ⟨ x, y + z⟩ = ⟨ x, y⟩ + ⟨ x, z⟩ cho mọi x, y, z ∈ Rn ;
3. ⟨λx, y⟩ = λ⟨ x, y⟩ cho mọi x, y ∈ Rn ;
4. bất đẳng thức ⟨ x, x ⟩ ⩾ 0 luôn xảy ra, và đẳng thức ⟨ x, x ⟩ = 0 kéo theo x = 0.
Một ví dụ điển hình được sử dụng rộng rãi là tích vô hướng Euclid cho bởi quy
tắc
⟨ x, y⟩ := x T y.
1 Đường
chéo chính là những phần tử có chỉ số hàng và cột như nhau
(1.14)
1.2 Cơ sở đại số tuyến tính
5
Tổng quát hơn, có thể xét tích vô hướng có trọng
n
⟨ x, y⟩w :=
∑ wi x i y i .
(1.15)
i =1
tương ứng với họ trọng số wi > 0. Trong phạm vi ở đây, nếu không có giải thích gì
thêm tích vô hướng Euclid sẽ được sử dụng như là mặc định.
Chuẩn vector
Định nghĩa 1.2 (norm). Một chuẩn vector trên Rn là hàm ∥·∥ : Rn −→ R thừa nhận
các tính chất:
1. ∥ x ∥ ⩾ 0 cho mọi x ∈ Rn và đẳng thức ∥ x ∥ = 0 chỉ xảy ra khi x = 0;
2. ∥λx ∥ = |λ|∥ x ∥ cho mọi x ∈ Rn ;
3. ∥ x + y∥ ⩽ ∥ x ∥ + ∥y∥ cho mọi x, y ∈ Rn .
Chuẩn vector hay gặp nhất là các chuẩn sau đây:
• Chuẩn ∥·∥∞
∥ x ∥∞ = max | x j |;
(1.16)
j=1,...,n
• Chuẩn l p (với p ⩾ 1)
∥x∥ p =
n
∑ |xj |
p
1/p
.
(1.17)
j =1
Trường hợp đặc biệt khi p = 2 ta có chuẩn Euclid, liên hệ với tích vô hướng (1.14)
bởi
q
∥x∥ =
⟨ x, y⟩.
Tương tự như tích vô hướng, chuẩn l2 luôn được sử dụng trừ khi có chú thích
khác.
Chuẩn ma trận
Định nghĩa 1.3. Một chuẩn trên Rm×n là hàm ∥·∥ : Rm×n −→ R có các tính chất
tương tự như chuẩn vector, nghĩa là
1. ∥ A∥ ⩾ 0 và ∥ A∥ = 0 chỉ khi A = 0;
2. ∥λA∥ = |λ|∥ A∥ ;
3. ∥ A + B∥ ⩽ ∥ A∥ + ∥ B∥ .
Chương 1. Mở đầu
6
Các chuẩn ma trận quan trọng và hay gặp nhất là chuẩn cảm sinh bởi phép toán
tuyến tính: cho trước A ∈ Rm×n thì
∥ A∥ := sup ∥ Ax ∥
(1.18)
∥ x ∥=1
tương ứng với các chuẩn vector ∥·∥ trên Rm và Rn . Một vài chuẩn ma trận thường
dùng:
• Chuẩn phổ
∥ A∥2 = giá trị kỳ dị cực đại của A =
q
λmax ( A T A),
(1.19)
ở đó λmax (·) là hàm lấy giá trị riêng cực đại (xem mục sau) của ma trận.
• Chuẩn ∥·∥1
m
∑ | A(i, j)|;
j=1,...,n
∥ A∥1 = max
(1.20)
i =1
• Chuẩn ∥·∥∞
n
∥ A∥∞ = max
∑ | A(i, j)|;
i =1,...,m j=1
(1.21)
• Chuẩn Frobenius
∥ A∥2F = trace A T A = ∑ A(i, j)2
(1.22)
i,j
với trace(·) là hàm tính vết ma trận.
1.2.4
Giá trị riêng, vector riêng
Xét một ma trận A ∈ Rm×n . Vector v ̸= 0 được gọi là một vector riêng của A nếu tồn
tại vô hướng λ ∈ C sao cho
Av = λv.
(1.23)
Vô hướng λ lúc đó sẽ gọi là một giá trị riêng của ma trận A. Các giá trị riêng của ma
trận A thỏa mãn phương trình đặc trưng
det( A − λI ) = 0,
(1.24)
ở đó det(·) là hàm trả về định thức của ma trận (vuông). Khi A là đối xứng, thì mọi
giá trị riêng của nó đều là số thực theo kết quả sau đây.
Định lý 1.4 (định lý phân tích phổ). Cho A ∈ Rn×n là ma trận đối xứng. Khi đó tồn tại
ma trận trực giao U ∈ Rn×n và ma trận chéo D ∈ Rn×n sao cho
A = U T DU.
(1.25)
Nhắc lại, ma trận vuông U gọi là trực giao (orthogonal) nếu U T U = UU T = I.
Trong phân tích phổ ở (1.25), các phần tử chéo của D chính là giá trị riêng của A.
1.3 Cơ sở giải tích
1.3
7
Cơ sở giải tích
Mục này nhắc lại một số khái niệm giải tích cơ bản trên không gian hữu hạn chiều.
Cũng giống như các phần trước, chúng tôi giả định chúng là quen thuộc, và dành
cho người đọc tham khảo, chẳng hạn Lục et al., 2002; Rudin, 1976.
1.3.1
Topo cơ bản
Ta sẽ thường xuyên sử dụng phép toán đại số trên các tập hợp. Với hai tập con S và
S′ cho trước trong Rn tổng (Minkowski) của chúng được định nghĩa là
S + S′ = { x + x ′ | x ∈ S, x ′ ∈ S′ }
(1.26)
với quy ước S + S′ = ∅ khi có ít nhất một tập hợp thành phần là trống. Nếu S = { x }
là một đơn tử, ký hiệu x + S′ sẽ được dùng thay cho S + S′ .
Với một vô hướng λ, tích của nó với tập hợp S ̸= ∅ được xác định là
λS = {λx | x ∈ S}
(1.27)
và λ∅ = ∅. Tổng quát hơn, nếu R ⊂ Rn thì tập RS là hợp của các tích λS với λ thay
đổi trong R.
Hình cầu và mặt cầu là những khái niệm chủ chốt để mô tả topo trên Rn . Hình
cầu đơn vị đóng B của Rn là tập hợp
B : = x ∈ Rn | ∥ x ∥ ⩽ 1 .
(1.28)
Biên (topo) của nó chính là mặt cầu đơn vị
S : = x ∈ Rn | ∥ x ∥ = 1 .
(1.29)
Mở rộng của (1.28), hình cầu đóng tâm x bán kính r > 0 là tập hợp
B( x, r ) := x + rB = y | ∥y − x ∥ ⩽ r .
(1.30)
Định nghĩa 1.5 (Điểm trong, điểm biên). Cho trước tập hợp (không trống) S ⊂ Rn .
• Một điểm x ∈ S được gọi là điểm trong của S nếu tồn tại bán kính r > 0 sao cho
B( x, r ) ⊂ S. Lúc đó người ta bảo rằng S là một lân cận của điểm x trong Rn .
• x ∈ Rn sẽ gọi là một điểm biên của S nếu mọi lân cận N của x trong Rn đều có
điểm chung với cả S lẫn Rn \ S.
Họ tất cả các điểm trong gọi là phần trong (topo) của tập S, ký hiệu int (S). Tương
tự, biên topo bd (S) của S là tập hợp tất cả những điểm biên. Bao đóng cl (S) của S là
tập hợp gồm các điểm thuộc bản thân S và những điểm biên của nó.
Chương 1. Mở đầu
8
Định nghĩa 1.6 (Tập mở, tập đóng). Ta nói một tập hợp S trong Rn là mở nếu mọi
điểm thuộc nó đều là điểm trong. Tập hợp S được gọi là đóng nếu nó chứa tất cả các
điểm biên.
Tập đóng còn được miêu tả thông qua ngôn ngữ giới hạn. Một dãy các điểm x (k)
được gọi là hội tụ về điểm x trong Rn , hay có giới hạn là x, nếu
lim x (k) − x = 0.
k→∞
Lúc đó người ta viết lim x (k) = x, hay tương đương x (k) → x. Khi đó, tập S là đóng
k→∞
nếu và chỉ nếu giới hạn của mọi dãy mà các phần tử lấy từ S vẫn còn thuộc S. Khi
một tập là đóng thì phần bù của nó sẽ là tập mở và ngược lại.
Định nghĩa 1.7 (Tập bị chặn, tập compact).
• Tập hợp S ⊂ Rn được gọi là bị chặn nếu nó được bao hàm trong một hình cầu,
nghĩa là tồn tại số r > 0 mà S ⊂ rB.
• Tập con S của Rn là compact nếu mọi dãy gồm các phần tử của nó đều chứa
một dãy con hội tụ.
Tính compact cho phép ta áp dụng các lập luận sử dụng giới hạn trên các dãy.
Một tính chất rất quan trọng thường được sử dụng là phát biểu sau đây: Nếu tập
hợp S ⊂ Rn bị chặn thì bao đóng của nó là compact.
1.3.2
Phép tính vi tích phân
Một hàm (vô hướng, vector) F xác định trên một tập con không trống Ω ⊂ Rn được
gọi là liên tục tại một điểm x ∈ Ω nếu
Ω
x (k) −
→ x =⇒ F ( x (k) ) → F ( x ),
(1.31)
Ω
ở đó, ký hiệu x (k) −
→ x được hiểu là dãy gồm các phần tử x (k) ∈ Ω hội tụ về phần tử
x (trong topo của Rn ). f được gọi là liên tục trên một tập Ω′ nào đó nếu nó liên tục
tại mọi x ∈ Ω′ .
Định nghĩa 1.8 (đạo hàm hướng). Cho f là hàm vô hướng định nghĩa trên một tập
Ω ⊂ Rn và điểm x ∈ int (Ω). Nếu giới hạn
lim
t →0+
f ( x + td) − f ( x )
t
(1.32)
tồn tại thì nó được gọi là đạo hàm hướng của f lấy theo hướng d tại x, ký hiệu f ′ ( x; d).
Khi d = e j là vector cơ sở chính tắc thứ j của Rn , thì f ′ ( x; d) được gọi là đạo hàm
riêng thứ j (hay theo biến thứ j) của f tại x
f ( x + te j ) − f ( x )
∂f
.
( x ) = lim+
∂x j
t
t →0
(1.33)
1.3 Cơ sở giải tích
9
Nếu tất cả các đạo hàm riêng
∂f
∂x j
( x ) đều tồn tại, người ta định nghĩa gradient của
f tại điểm khảo sát x là vector
∂f
∂x1

(x)
 . 
. 
∇ f (x) = 
 . .
∂f
∂xn ( x )

(1.34)
Định nghĩa 1.9 (hàm số khả vi). Ta nói hàm số f : Ω −→ R là khả vi (Frechét) tại
điểm x ∈ int (Ω) nếu gradient ∇ f ( x ) tồn tại và đồng thời
f ( x + d) − f ( x ) − ∇ f ( x )T d
= 0.
lim
∥d∥
∥d∥→0
(1.35)
Lúc đó, đạo hàm của f tại x, ký hiệu f ′ ( x ), được xác định là phiếm hàm tuyến tính
d 7−→ ∇ f ( x ) T d.
Một hàm vector m-thành phần F = ( F1 , . . . , Fm ) sẽ gọi là khả vi nếu mỗi hàm
vô hướng thành phần Fi khả vi. Đạo hàm của nó tại x lúc đó là ánh xạ tuyến tính
F ′ ( x ) : Rn −→ Rm


∇ F1 ( x )T v


..
.
F ′ ( x )(v) = 
(1.36)
.


∇ Fm ( x )T v
Ma trận cỡ m × n


∇ F1 ( x )T


..

JacF (·) = 
.


∇ Fm ( x )T
gọi là Jacobian của F tại x. Phần tử thứ (i, j) của nó chính là đạo hàm riêng
(1.37)
∂Fi
∂x j
( x ).
F′
Đạo hàm sẽ gọi là liên tục tại điểm x nếu ánh xạ Jacobian JacF (·) là liên tục tại
đó. Khi F ′ liên tục tại mọi x ∈ Ω người ta nói bản thân F là khả vi liên tục hay thuộc
lớp C1 trên Ω.
Mệnh đề 1.10 (chain rule). Cho hàm số f : X ⊂ Rn −→ R. Xét một hàm vector ϕ : Y ⊂
Rm −→ Rn sao cho hợp thành g = f ◦ ϕ được xác định trong một lân cận của điểm y ∈ Y.
Nếu ϕ khả vi tại y trong khi f khả vi tại x = ϕ(y) ∈ X thì hàm hợp thành g cũng khả vi tại
y và
∂f
∂ϕ
∂f
∂ϕn
∂g
(1.38)
(y) =
(ϕ(y)) · 1 (y) + · · · +
(ϕ(y)) ·
(y) .
∂yi
∂x1
∂yi
∂xn
∂yi
Dưới dạng ma trận, ta có
∇( f ◦ ϕ)(y)T = ∇ f (ϕ(y))T Jacϕ(y).
(1.39)
Chương 1. Mở đầu
10
Định nghĩa 1.11 (đạo hàm bậc hai). Giả sử hàm số f : Ω −→ R có đạo hàm trên
một tập mở Ω. f được gọi là khả vi bậc hai tại điểm x ∈ Ω nếu hàm vector F = ∇ f (·)
là khả vi tại x. Đạo hàm F ′ ( x ) bây giờ sẽ gọi là đạo hàm bậc hai của f tại x, ký hiệu
f ′′ ( x ).
Khi f ′′ xác định, Hessian của f tại x là ma trận ∇2 f ( x ) = Jac (∇ f )( x ) ∈ Rn×n .
Phần tử ở vị trí (i, j) của ∇2 f ( x ) là các đạo hàm riêng bậc hai
∂2 f
∂xi ∂x j
( x ).
Định lý 1.12 (khai triển Taylor). Cho hàm số f khả vi trong một lân cận N của điểm x.
Khi đó, nếu đạo hàm f ′ liên tục thì ta có
f ( x + d) = f ( x ) +
Z 1
0
∇ f ( x + td)T d dt
(1.40)
với mọi vector d sao cho x + [0, 1]d ⊂ N . Hơn nữa, nếu f là khả vi cấp hai và f ′′ liên tục
thì (1.40) có thể được thay bằng khai triển
T
f ( x + td) = f ( x ) + ∇ f ( x ) d +
Z 1
0
T
2
(1 − t)d ∇ f ( x + td)d
dt
(1.41)
Ở đây, tính liên tục của f ′′ được đồng nhất với tính liên tục của ánh xạ nhận giá
trị ma trận x 7−→ ∇2 f ( x ). Trường hợp f ′′ liên tục người ta nói f khả vi liên tục hai
lần hay thuộc lớp C2 .
Bài tập
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những
nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
Rudin, W. (1976). Principles of mathematical analysis (3rd ed.). McGrawHill.
Chương 2
Tối ưu không ràng buộc
text
source
Nội dung của chương này tập trung vào cơ sở lý thuyết bài toán tối ưu không
ràng buộc. Đầu tiên chúng tôi nêu lên một số khái niệm về điểm cực trị (mục 2.1).
Tiếp theo, mục 2.2 đưa ra các kết quả về điều kiện tối ưu sử dụng thông tin đến đạo
hàm bậc nhất. Điều kiện cần và đủ tối ưu bậc hai sẽ được xem xét ở mục 2.3. Phần
còn lại của chương là một số kết quả về điều kiện tối ưu toàn cục và khảo sát sơ bộ
lớp các bài toán cực trị hàm toàn phương và bài toán bình phương tối thiểu hay gặp
trong các ứng dụng thực tiễn.
2.1
Khái niệm về cực trị
Định nghĩa 2.1 (cực trị toàn cục). Cho trước hàm số f xác định trên một tập không
trống Ω của Rn . Rv
• Một điểm x ∗ ∈ Ω sẽ gọi là cực tiểu toàn cục của f (trên Ω) nếu bất đẳng thức
f ( x ) ⩾ f ( x ∗ ) xảy ra với mọi x ∈ Ω.
x ∗ ∈ Ω sẽ gọi là cực tiểu toàn cục ngặt của f nếu có bất đẳng thức f ( x ) > f ( x ∗ )
với mọi x ∈ Ω \ { x ∗ }.
• Điểm x ∗ ∈ Ω sẽ gọi là cực đại toàn cục (t.ư. cực đại toàn cục ngặt)của f trên (Ω)
nếu nó là cực tiểu toàn cục của hàm − f .
Các điểm cực đại và cực tiểu toàn cục gọi chung là điểm cực trị toàn cục. Thường
thì thuật ngữ toàn cục sẽ được bỏ qua khi bàn đến tính chất cực trị. Tập Ω ở trên đôi
khi gọi là miền khả thi, và x ∈ Ω là điểm chấp nhận được (phương án khả thi). Ta
quy ước gọi giá trị cực tiểu (t.ư. cực đại) của hàm f là
f min = min f ( x ) | x ∈ Ω = inf f ( x ) | x ∈ Ω
11
(2.1)
Chương 2. Tối ưu không ràng buộc
12
và
f max = max f ( x ) | x ∈ Ω = sup f ( x ) | x ∈ Ω .
(2.2)
Khi các giá trị này đạt được (nghĩa là tồn tại cực trị theo Định nghĩa 2.1) người ta
định nghĩa tập các cực tiểu (cực đại) của f lần lượt là
argminΩ f = x ∈ Ω | f ( x ) = f min
(2.3)
và
argmaxΩ f = x ∈ Ω | f ( x ) = f max .
(2.4)
Ví dụ 2.2 (Beck, 2014, Example 2.2). Xét tình huống mà Ω = B và hàm số f ( x ) =
x1 + x2 . Sử dụng bất đẳng thức Cauchy-Schwarz
√
| f ( x )| = |⟨ x, e⟩| ⩽ ∥ x ∥2 ∥e∥2 ⩽ 2.
√
√
√
T
Tại x̂ = [− 2/2 − 2/2] ∈ Ω ta có f ( x̂ ) = − 2 nên x̂ là cực tiểu toàn cục.
√
√
T
Tương tự, điểm x̃ = [ 2/2
2/2] là một cực đại toàn cục.
Bài toán 2.1. Cho Ω = R2 và
f (x) =
x1 + x2
.
+ x22 + 1
x12
(2.5)
f có đạt cực trị trên Ω không? Tìm một cực trị (nếu tồn tại) hoặc giải thích lí do
không tồn tại cực trị.
Định nghĩa 2.3 (cực trị địa phương).
• Điểm x ∗ ∈ Ω sẽ gọi là cực tiểu địa phương của f (trên Ω) nếu tồn tại một lân cận
N của x ∗ sao cho nó là cực tiểu toàn cục của f trên Ω ∩ N .
x ∗ ∈ Ω sẽ gọi là cực tiểu địa phương ngặt của f khi x ∗ là cực tiểu toàn cục ngặt
của f trên phần giao của Ω với một lân cận nào đó của x ∗ .
• Điểm x ∗ ∈ Ω sẽ gọi là cực đại địa phương (t.ư. cực đại địa phương ngặt) của f trên
(Ω) nếu nó là cực tiểu địa phương (t.ư. cực tiểu địa phương ngặt) của hàm − f .
Ví dụ 2.4 (Beck, 2014, Example 2.5). Xét trường hợp n = 1 và hàm f cho bởi


( x − 1)2 + 2,
−1 ⩽ x ⩽ 1,




2,

1 < x ⩽ 2,





2

2 < x ⩽ 2.5,

−( x − 2) + 2,
f ( x ) = ( x − 3)2 + 1.5,
2.5 < x ⩽ 4,




−( x − 5)2 + 3.5, 4 < x ⩽ 6,





−2x + 14.5,
6 < x ⩽ 6.5,




2x − 11.5,
6.5 < x ⩽ 8.
(2.6)
2.2 Điều kiện tối ưu bậc nhất
13
Ở đây Ω là đoạn [−1, 8]. Điểm x = 1 là một cực tiểu địa phương vì rõ ràng trên miền
x ⩽ 2 ta luôn có
f ( x ) ⩾ min{2, ( x − 1)2 + 2} ⩾ 2 = f (1).
Tuy nhiên, đây không thể là cực tiểu toàn cục, vì f (6.5) = 1.5 < f (1). Tương tự,
điểm x = 6.5 là một cực đại địa phương nhưng không là cực đại toàn cục.
Bài toán 2.2. Tìm tất cả các cực trị địa phương và cực trị toàn cục của hàm số có mặt
ở Ví dụ 2.4.
Định lý 2.5 (Weierstrass). Cho f là hàm số liên tục trên một tập compact K ⊂ Rn . Khi
đó, f đạt cực đại và cực tiểu toàn cục trên K.
Điểm mấu chốt trong định lý tồn tại cực trị ở trên là tính compact của tập nền.
Tuy nhiên, trong các ứng dụng thực tế tính compact nhiều khi rất khó đạt được. Một
trong những tiêu chuẩn làm nhẹ thay thế cho tính compact là dựa trên khái niệm
sau đây.
Định nghĩa 2.6 (coerciveness). Một hàm số f : Rn −→ R được gọi là thỏa mãn điều
kiện bức (coercive) nếu
lim = +∞.
∥ x ∥→∞
(2.7)
Có rất nhiều ví dụ về hàm số thỏa mãn coerciveness mà trường hợp dễ thấy nhất
là họ các hàm dạng ∥·∥r với r > 0 nào đó. Nói riêng, chuẩn là một hàm coercive.
Định lý 2.7 (định lý tồn tại với coerciveness). Giả sử f : Rn −→ R là hàm số liên tục
và thỏa mãn điều kiện bức. Khi đó hàm f đạt cực tiểu toàn cục trên mọi tập hợp đóng không
trống Ω ⊂ Rn .
Chứng minh. Tham khảo Beck, 2014, Theorem 2.32.
Bài toán 2.3. Chứng tỏ rằng với mỗi x và r > 0 cho trước hàm số ∥· − x ∥r là coercive.
Từ đây suy ra rằng nếu Ω là tập đóng không trống thì tồn tại x̄ ∈ Ω sao cho
∥ x − x̂ ∥ = inf{∥y − x ∥ | y ∈ Ω}.
(2.8)
Điểm x̂ như vậy gọi là một hình chiếu của x lên Ω.
2.2
Điều kiện tối ưu bậc nhất
Ta đã biết trong giải tích hàm một biến nguyên lý Fermat về cực trị: tiếp tuyến với
đồ thị tại các điểm cực trị địa phương có hệ số góc triệt tiêu. Đối với các hàm nhiều
biến, phiên bản mở rộng tương ứng là kết quả sau đây.
Chương 2. Tối ưu không ràng buộc
14
Định lý 2.8 (first-order necessary optimality condition). Giả thiết x ∗ ∈ int (Ω) là
một cực trị địa phương của hàm số f : Ω ⊂ Rn −→ R. Khi đó, nếu f khả vi tại x ∗ thì
∇ f ( x ∗ ) = 0.
Chứng minh. Tham khảo Beck, 2014, Theorem 2.6.
Định lý 2.8 mô tả đặc trưng của điểm cực trị dưới dạng điều kiện cần: tại cực trị
thuộc phần trong topo của miền khả thi, gradient của hàm lấy cực trị (thường gọi
là hàm mục tiêu hay objective) nhất thiết phải triệt tiêu. Điều ngược lại nói chung là
không đúng. Rất nhiều ví dụ về những hàm khả vi trên toàn bộ không gian không
có cực trị nhưng gradient vẫn triệt tiêu tại một số điểm nào đó. Một minh họa điển
hình đơn giản trong một chiều là hàm f ( x ) = x3 .
Bài toán 2.4. Chứng minh hàm f ( x ) = x3 đề cập ở trên không có cực trị. Phác thảo
đồ thị hàm này và tìm tất cả các điểm mà đạo hàm của nó triệt tiêu.
Định nghĩa 2.9 (stationary point). Giả sử hàm số f xác định và khả vi trên một tập
mở Ω. Khi đó x̂ ∈ Ω sẽ được gọi là một điểm dừng (hay điểm tới hạn) của f nếu nó
nghiệm đúng phương trình dừng
∇ f ( x ) = 0.
(2.9)
Sử dụng khái niệm mới này, điều kiện cần tối ưu có thể phát biểu lại ngắn gọn:
nếu hàm số khả vi đạt cực trị tại một điểm trong thì đó là điểm dừng. Ý nghĩa
của điều kiện cần là chuyển bài toán cực trị về việc tìm kiếm các điểm dừng bằng
cách giải phương trình (2.9). Trong rất nhiều trường hợp, số lượng các điểm dừng
là không quá nhiều, thậm chí là tương đối ít, do vậy làm giảm khối lượng tính toán
đi đáng kể so với việc chỉ tìm kiếm dựa trên định nghĩa cực trị. Hơn nữa, ở một vài
tình huống nhất định, điều kiện dừng này thực sự cho ta dấu hiệu đủ của cực trị
(điển hình là các bài toán lồi, xem ở phần sau). Trên thực tế, hầu hết các solver tối
ưu đều ít nhiều sử dụng dấu hiệu này như là tiêu chuẩn dừng của quá trình dò tìm
điểm tối ưu.
2.3
Điều kiện tối ưu bậc hai
Để trình bày các điều kiện tối ưu bậc hai, chúng tôi nhắc lại một số kết quả về phân
loại ma trận (xem Beck, 2014; Golub and Van Loan, 2013). Xét một ma trận thực A
cỡ n × n cho trước. Người ta nói đây là một ma trận nửa xác định dương nếu
x T Ax ⩾ 0, ∀ x ∈ Rn .
(2.10)
Để biểu thị tính nửa xác định dương ta sẽ dùng ký hiệu A ≽ 0. A được gọi là ma
trận xác định dương, viết gọn là A ≻ 0 nếu đẳng thức ở (2.10) chỉ xảy ra khi x = 0,
tức là
x T Ax > 0, ∀ x ̸= 0.
(2.11)
2.3 Điều kiện tối ưu bậc hai
15
Nếu − A là ma trận nửa xác định dương (t.ư. xác định dương) ta sẽ nói bản thân A
là nửa xác định âm (t.ư. xác định âm).
Ví dụ 2.10 (Beck, 2014, Example 2.10, 2.11). Ma trận vuông
"
#
2 −1
−1 1
là xác định dương trong khi đó
"
1 2
2 1
#
không là nửa xác định dương cũng không là nửa xác định âm.
Bài toán 2.5. Sử dụng khái niệm tính xác định dương/âm thực hiện kiểm tra tường
minh các khẳng định trong Ví dụ 2.10 ở trên.
Nói chung không dễ xác định bằng định nghĩa một ma trận cụ thể nào đó có là
xác định/nửa xác định dương (t.ư. âm) hay không. Tuy nhiên, đối với các ma trận
đối xứng, ta có thể sử dụng đặc trưng trên giá trị riêng để khẳng định hay bác bỏ
tính chất mong muốn. Kết quả sau đây cụ thể hóa phát biểu vừa nêu.
Mệnh đề 2.11 (eigenvalue characterization). Giả sử A ∈ Rn×n là ma trận đối xứng.
Khi đó các khẳng định sau là đúng.
1. Ma trận A là nửa xác định dương nếu và chỉ nếu các giá trị riêng của nó là không âm.
2. A là ma trận nửa xác định dương nếu và chỉ nếu nó có tất cả các giá trị riêng dương.
Như vậy, ma trận đối xứng là nửa xác định âm (xác định âm) khi và chỉ khi các
giá trị riêng của nó là không dương (âm). Một hệ quả ngay lập tức là, ma trận đối
xứng chứa 2 giá trị riêng trái dấu không là nửa xác định dương cũng không là nửa
xác định âm. Đối với tình huống như vậy, thỉnh thoảng ta sẽ nói ma trận đó là không
xác định.
Mệnh đề 2.12 (principal minors characterization). Giả sử A ∈ Rn×n là ma trận đối
xứng. Khi đó A là xác định dương khi và chỉ khi tất cả các định thức con chính (principal
minor) của nó đều dương.
Nhắc lại rằng, định thức con chính thứ k của ma trận A chính là định thức của
ma trận con tạo thành từ các phần từ thuộc k hàng và k cột đầu tiên.
Định lý 2.13 (second-order necessary optimality condition). Cho f là hàm khả vi bậc
hai trên tập mở Ω ⊂ Rn và x ∗ ∈ Ω là một điểm dừng của f sao cho f ′′ liên tục trên một
lân cận của nó. Khi đó:
1. Nếu x ∗ là một cực tiểu địa phương của f thì ∇2 f ( x ∗ ) là ma trận nửa xác định dương;
Chương 2. Tối ưu không ràng buộc
16
2. Nếu x ∗ là một cực đại địa phương của f thì ∇2 f ( x ∗ ) là ma trận nửa xác định âm.
Chứng minh. Beck, 2014, Theorem 2.26
Định lý 2.13 mới chỉ là điều kiện cần cho tính tối ưu. Sau đây là kết quả về điều
kiện đủ.
Định lý 2.14 (second-order sufficient optimality condition). Giả thiết f là hàm thuộc
lớp C2 trên tập mở Ω ⊂ Rn và x ∗ ∈ Ω là một điểm dừng của f . Khi đó
1. Nếu ∇2 f ( x ∗ ) ≻ 0 thì x ∗ là một cực tiểu địa phương ngặt của f ;
2. Nếu −∇2 f ( x ∗ ) ≻ 0 thì x ∗ là một cực đại địa phương ngặt của f .
Chứng minh. Beck, 2014, Theorem 2.27
Nhận xét 2.15. Đối chiếu điều kiện cần và điều kiện đủ ta nhận thấy có một sự khác
biệt nhỏ: điều kiện cần áp dụng cho điểm cực trị nói chung trong khi đó điều kiện
đủ chỉ có thể sử dụng kiểm tra tại cực trị ngặt. Ngoài ra, tính xác định dương (âm)
của Hessian trong Định lý 2.14 cũng chỉ là điều kiện đủ và không nhất thiết điều
kiện cần. Một phản ví dụ đơn giản là hàm số f ( x ) = x14 + x24 . Rõ ràng x ∗ = 0 là cực
tiểu ngặt, nhưng Hessian tương ứng không là xác định dương.
Định nghĩa 2.16 (saddle point). Giả sử f là hàm thuộc lớp C1 trên một tập mở Ω
trong Rn . Một điểm dừng x ∗ ∈ Ω sẽ gọi là điểm yên ngựa nếu nó không là cực tiểu
địa phương mà cũng không là cực đại địa phương.
Định lý 2.17 (sufficient condition for saddle point). Cho x ∗ là một điểm dừng của hàm
f thuộc lớp C2 trên một lân cận của x ∗ . Nếu ma trận ∇2 f ( x ∗ ) không xác định thì nó chính
là một điểm yên ngựa.
Nhận xét 2.18. Các điều kiện đủ ở trên quy việc phân loại điểm dừng về việc xét
tính xác định dương/âm hay là không xác định của Hessian tại điểm khảo sát. Vì
ma trận Hessian của hàm thuộc lớp C2 là đối xứng (xem Lục et al., 2002), nên theo
Mệnh đề 2.11 và 2.12, để phân loại điểm dừng ta cần xét dấu của các giá trị riêng
hoặc các định thức con chính ứng với ma trận Hessian.
Ví dụ 2.19 (Beck, 2014, Example 2.34). Xét hàm mục tiêu
f ( x ) = 2x13 + 3x22 + 3x12 x2 − 24x2 .
Gradient của f có biểu thức tường minh
"
6x12 + 6x1 x2
∇ f (x) =
6x2 + 3x12 − 24
#
(2.12)
2.4 Điều kiện tối ưu toàn cục
17
nên phương trình dừng có dạng

6x2 + 6x x
1 2
1
6x2 + 3x2 − 24
1
=0
= 0.
T
T
T
Các điểm dừng tương ứng là x (1) = [0 4] , x (2) = [4 −4] , x (3) = [−2 2] . Để
phân loại ta tính Hessian
#
"
12x
+
6x
6x
2
1
1
.
∇2 f ( x ) =
6x1
6
Tại x = x (1) , vì
"
24 0
∇ 2 f ( x (1) ) =
0 6
#
là ma trận xác định dương nên đây là cực tiểu địa phương ngặt. Tại x = x (2) Hessian
#
"
24
24
∇ 2 f ( x (2) ) =
24 6
có hai giá trị riêng trái dấu nên là điểm yên ngựa. Tương tự, x (3) cũng là điểm yên
ngựa vì
"
#
−
12
−
12
∇ 2 f ( x (3) ) =
−12 6
có cả giá trị riêng dương và âm.
Bài toán 2.6. Ứng với mỗi một hàm mục tiêu sau đây hãy tìm các điểm dừng và sau
đó phân loại chúng:
(1)
(2)
(3)
2.4
f ( x ) = ( x12 + x22 − 1)2 + ( x22 − 1)2 ;
x + x2
f (x) = 2 1 2
;
x1 + x2 + 1
f ( x ) = −2x12 + x1 x22 + 4x14 .
Điều kiện tối ưu toàn cục
Các điều kiện tối ưu ở mục trước mới chỉ cho phép ta kết luận về tính chất cực trị địa
phương. Nhìn chung hầu như rất khó để khẳng định được một cực trị địa phương
nào đó có là cực trị toàn cục hay không. Kết quả sau đây đưa ra một tiêu chuẩn thực
hiện điều đó dựa trên tính chất của hàm mục tiêu.
Định lý 2.20. Xét hàm mục tiêu f là khả vi liên tục hai lần. Giả thiết thêm Hessian ∇2 f ( x )
của f luôn là ma trận nửa xác định dương (t.ư. nửa xác định âm). Khi đó, mọi điểm dừng
của f đều là cực tiểu (t.ư. cực đại) toàn cục.
Chương 2. Tối ưu không ràng buộc
18
Chứng minh.
Ví dụ 2.21 (Beck, 2014, Example 2.39). Xét hàm mục tiêu ba biến
f ( x ) = x12 + x22 + x32 + x1 x2 + x1 x3 + x2 x3 + ( x12 + x22 + x32 )2 .
(2.13)
Gradient và Hessian của f có dạng
∇ f ( x ) = Ax + 4∥ x ∥2 x
∇2 f ( x ) = A + 4∥ x ∥2 I + 8xx T ,
ở đó
(2.14)


2 1 1


A = 1 2 1 .
1 1 2
Hai số hạng cuối của ∇2 f ( x ) luôn là ma trận nửa xác định dương. Tính toán trực tiếp
(chẳng hạn, dùng matlab) ta thấy mọi giá trị riêng của A không âm. Vậy ∇2 f ( x ) ≽ 0
với mọi x. Theo Định lý 2.20, mọi điểm dừng của f đều là cực tiểu toàn cục.
2.5
Tối ưu hàm toàn phương
Định nghĩa 2.22 (quadratic function). Một hàm toàn phương trên Rn là hàm số có
dạng
1
(QP)
f ( x ) = x T Ax + b T x + c
2
ở đó A ∈ Rn×n là ma trận đối xứng, b ∈ Rn và c ∈ R.
Đối với hàm toàn phương (QP), gradient và Hessian có biểu thức giải tích rất
đơn giản
∇ f ( x ) = Ax + b
(2.15)
∇2 f ( x ) = A.
Mệnh đề 2.23 (tính chất cực trị hàm toàn phương). Xét hàm toàn phương f với các dữ
kiện như trong Định nghĩa 2.22.
1. x là một điểm dừng nếu và chỉ nếu Ax = −b.
2. Khi A ≽ 0, x là cực tiểu (toàn cục) nếu và chỉ nếu Ax = −b.
3. Khi A ≻ 0, x = − A−1 b là cực tiểu ngặt (duy nhất) của f .
Chứng minh. Tham khảo phép chứng minh của Lemma 2.41 trong Beck, 2014.
Mệnh đề 2.24. Cho hàm toàn phương f định nghĩa như (QP). Khi đó f thỏa mãn điều kiện
bức nếu và chỉ nếu A là ma trận xác định dương.
2.6 Bài toán bình phương tối thiểu
19
Chứng minh. Tham khảo phép chứng minh của Lemma 2.42 trong Beck, 2014.
Mệnh đề 2.25 (Đặc trưng tính không âm hàm toàn phương). Đối với hàm toàn phương
định nghĩa ở (QP) các phát biểu sau là tương đương:
1. bất đẳng thức f ( x ) ⩾ 0 xảy ra cho mọi x ∈ Rn ;
2. ma trận hợp thành
"
A b
bT c
#
(2.16)
là nửa xác định dương.
Chứng minh. Tham khảo Beck, 2014, Theorem 2.43.
2.6
Bài toán bình phương tối thiểu
Bài tập
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những
nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội.
20
Chương 2. Tối ưu không ràng buộc
Chương 3
Một số phương pháp tối ưu không
ràng buộc
text
source
Toàn bộ chương hiện tại sẽ được dành cho việc khảo sát bài toán tối ưu không
ràng buộc phát biểu dưới dạng chung
min
f ( x ),
x ∈ Rn .
(3.1)
Nếu không có chú thích gì thêm, hàm mục tiêu f được giả thiết khả vi liên tục trên
Rn . Đối với các bài toán như vậy, điều kiện cần tối ưu bậc nhất đưa đến phương
trình dừng
∇ f (x) = 0
(3.2)
và do đó, về mặt nguyên lý, việc giải bài toán (3.1) có thể quy về dò tìm các điểm
dừng và chọn ra lời giải tối ưu từ những điểm như vậy. Trên thực tế, việc dò tìm
được tiến hành thông qua một quá trình lặp: bắt đầu với một diểm dự đoán nào đó,
người ta sinh ra các bước lặp xấp xỉ liên tiếp và kết thúc quá trình khi đạt đến tiêu
chuẩn dừng phù hợp. Chúng ta sẽ tiếp cận trong mục 3.1 tổng qua về một lớp các
phương pháp tối ưu có tên chung là hướng giảm. Tiếp theo, chúng ta sẽ khảo sát kĩ
hơn hai kiểu phương pháp hướng giảm phổ biến quan trọng là phương pháp gradient
(mục 3.2) và phương pháp Newton (mục 3.3). Phần cuối chương là một giới thiệu ban
đầu về các phương pháp quasi-Newton được sử dụng phổn biến trong nhiều solver tối
ưu thực tiễn.
3.1
Các phương pháp hướng giảm
Nói chung, dãy các bước lặp tối ưu x (k) thường xây dựng ở dạng truy hồi
x ( k +1) = x ( k ) + t k d ( k ) ,
21
k = 0, 1, 2 . . . ,
(3.3)
Chương 3. Một số phương pháp tối ưu không ràng buộc
22
ở đó d(k) là hướng xuất ở bước hiện tại vàtk là cỡ bước (stepsize hoặc steplength).
Hướng d(k) ở đây phải là một hướng giảm (descent direction) như trong định nghĩa
sau.
Định nghĩa 3.1 (descent direction). Xét hàm mục tiêu f khả vi liên tục. Một vector
d ̸= 0 sẽ được gọi là hướng giảm tại điểm hiện tại x nếu đạo hàm hướng f ′ ( x; ·)
thỏa mãn
f ′ ( x; d) = ∇ f ( x ) T d < 0.
(3.4)
Ý nghĩa của khái niệm này được miêu tả trong kết quả sau.
Bổ đề 3.2 (descent property of descent direction). Giả sử d là một hướng giảm của f
tại điểm x. Khi đó tồn tại một ε > 0 sao cho
f ( x + td) < f ( x )
(3.5)
xảy ra cho mọi 0 < t < ε.
Chứng minh. Lập luận trực tiếp dựa vào Định nghĩa 3.1, xem Beck, 2014, Lemma 4.2.
Như vậy, khi d là một hướng giảm thì dọc theo tia x + R+ d hàm f đạt cực đại địa
phương ngặt tại x. Algorithm 1 mô tả lược đồ chung của các phương pháp thuộc
kiểu hướng giảm.
Algorithm 1: Schematic Descent Direction Method
Input: x (0) ∈ Rn
Output: Exit result
foreach k = 0, 1, 2, . . . do
Pick a descent direction d(k) ;
// vòng lặp chính
Find stepsize tk : f x (k) + tk d(k) < f x (k) ;
Update x (k+1) ← x (k) + tk d(k) , k ← k + 1;
if termination criterion then
return x (k)
end
// dừng vòng lặp
end
Bởi vì đây mới chỉ là lược đồ chung, mỗi một bước của tiến trình mô tả trong
Algorithm 1 đòi hỏi cần được chi tiết hóa để có thể thực hiện trong các giải thuật
thực tiễn:
• cách chọn điểm xuất phát ban đầu;
• cách tìm hướng d(k) ;
• cách xác định giá trị của tk ;
• các tiêu chuẩn dừng vòng lặp.
3.1 Các phương pháp hướng giảm
23
Điểm khởi đầu x (0) . Nói chung, điểm xuất phát có thể chọn tùy ý, hoặc theo một
chiến lược nhất định nào đó. Những thuật toán mà khởi đầu ở dạng thứ nhất đôi
khi được xếp vào nhóm các giải thuật tối ưu toàn cục.
Tính toán hướng. Hướng d(k) luôn phải đảm bảo là một hướng giảm. Các phương
pháp tối ưu cụ thể phân biệt nhau ở kỹ thuật xác định hướng. Chẳng hạn, phương
pháp gradient chọn d(k) là hướng giảm nhanh nhất d(k) = −∇ f x (k) , trong khi đó
phương pháp Newton chọn d(k) là hướng xác định bởi hệ Newton tương ứng (xem
mục sau).
Tính toán cỡ bước. Tham số tk ở mỗi lần lặp được tính toán sao cho giá trị hàm
mục tiêu ở bước kế tiếp hay một vài bước kế tiếp giảm đủ tốt. Chiến lược như vậy
có tên là line-search. Nhìn chung có một vài kiểu cỡ bước chính sau đây
• cỡ bước hằng tk = t̄ tại mọi k;
• exact line-search: tk là cực tiểu toàn cục của bài toán tối ưu một biến
min
t >0
f ( x (k) + td(k) );
(3.6)
• inexact line-search: tk là một cực tiểu xấp xỉ của bài toán (3.6) sao cho hàm mục
tiêu giảm đi đủ tốt. Một phương pháp tương đối đơn giản điển hình là thủ tục
backtracking dựa trên cơ sở điều kiện Armijo
f ( x ( k ) ) ⩽ f x ( k ) + t k d ( k ) + c1 t k f ′ x ( k ) ; d ( k ) ,
(3.7)
với c1 < 1 là một tham số line-search. Trong một số tình huống, để tăng độ hiệu
quả của thuật toán, người ta còn áp dụng những điều kiện mạnh hơn cho tk .
Chi tiết hơn về các chiến lược line-search bạn đọc có thể tìm thấy trong Nocedal
and Wright, 2006.
Mệnh đề sau đây (xem Beck, 2014, Lemma 4.3) khẳng định hiệu lực của điều kiện
giảm đủ, và do đó, làm cơ sở cho thuật toán tính inexact stepsize tk .
Mệnh đề 3.3 (sufficient decrease condition). Cho d ̸= 0 là một hướng giảm tại điểm x
ứng với hàm mục tiêu khả vi liên tục f . Khi đó, với 0 < α < 1 cho trước, tồn tại một ε > 0
mà
f ( x ) ⩾ f ( x + td) − αt∇ f ( x ) T d
đúng với mọi 0 ⩽ t ⩽ ε.
(3.8)
Chương 3. Một số phương pháp tối ưu không ràng buộc
24
Dừng tiến trình lặp. Trong trường hợp "thành công", tiến trình dựa trên Algorithm 1 sẽ trả về một bước lặp xấp xỉ cực tiểu cần tìm chính xác đến một mức nào
đó mong muốn. Tiêu chuẩn dừng thường hay được sử dụng cho tình huống này là
điều kiện gradient đủ bé ∥∇ f ( x )∥ ⩽ δ, với x = x (k) là bước lặp hiện tại và δ > 0 là
ngưỡng sai số cho trước. Bên cạnh trường hợp nêu trên, hầu hết các giải thuật thực
tiễn còn áp dụng một số tiêu chuẩn bổ sung như, số lần lặp hoặc thời gian xử lí tính
toán vượt quá ngưỡng tối đa cho trước.
Ví dụ 3.4. Xét tình huống đặc biệt trong bài toán quy hoạch toàn phương f ( x ) =
1 T
T
(k) là một hướng giảm tại x = x (k) nào
2 x Ax + b x + c, ở đó A ≻ 0. Giả sử d = d
đó. Khi đó bài toán trung gian (3.6) có dạng tường minh
min
t >0
1 T 2
d Ad t + d T ( Ax + b)t + f ( x ).
2
(3.9)
d T ( Ax + b)
, d = d(k) , x = x (k) .
d T Ad
(3.10)
Từ đây ta tìm được
tk = −
3.2
Phương pháp gradient
3.2.1
Hướng giảm nhanh nhất
Trong phương pháp này hướng giảm tại mỗi bước là đối của gradient tức thời
d(k) = −∇ f x (k)
(3.11)
mỗi khi ∇ f x (k) ̸= 0. Việc kiểm tra d(k) thực sự là hướng giảm là đơn giản. Hơn
nữa, nó còn được gọi là hướng giảm nhanh nhất, theo nghĩa của kết quả sau đây.
Bổ đề 3.5. Giả sử x không là điểm dừng của hàm mục tiêu f thuộc lớp C1 . Khi đó bài toán
cực trị
min f ′ ( x; d) | ∥u∥ = 1
(3.12)
d ∈Rn
thừa nhận một lời giải là d∗ = − ∥∇ f1( x)∥ ∇ f ( x ).
Chứng minh. Xem Beck, 2014, Lemma 4.5.
Algorithm 2 mô tả phương pháp gradient sử dụng điều kiện dừng tiêu chuẩn
∥∇ f ( x )∥ ⩽ ε ứng với ngưỡng dung sai ε > 0.
3.2 Phương pháp gradient
25
Algorithm 2: Gradient Method
Input: Tolerance ε > 0
Output: Exit result
Initialization step: x (0) ∈ Rn ;
// điểm xuất phát
foreach k = 0, 1, 2, . . . do
// vòng lặp chính
(
k
)
(
k
)
Descent direction d = −∇ f x
;
// hướng giảm nhanh nhất
Find stepsize tk exact/inexact line-search procedure ;
Update x (k+1) ← x (k) + tk d(k) , k ← k + 1;
// điều kiện tối ưu
if ∥∇ f x (k) ∥ ⩽ ε then
Stop ;
return x (k)
end
end
Ví dụ 3.6 (hàm toàn phương). Xét bài toán tối ưu hàm toàn phương
f ( x ) = x12 + 2x22 .
(3.13)
#
" #
1 0
0
A=
,b =
, c = 0.
0 2
0
(3.14)
Ở đây các dữ kiện tương ứng
"
T
Dễ thấy nghiệm tối ưu duy nhất là x ∗ = [0 0] . Tại mỗi bước lặp hướng giảm d(k)
xác định theo biểu thức (3.11) trong khi đó stepsize tk tính theo thủ tục exact linesearch có dạng (3.10). Code MATLAB cùng với kết quả thực hiện Algorithm 2 với
T
tolerance ε = 10−5 và điểm khởi đầu x (0) = [2.0 1.0] đã được trình bày trong Beck,
2014, Example 4.6.
Phương pháp gradient có một đặc tính quan trọng là dáng điệu hội tụ (nếu điều
đó xảy ra) có dạng "zigzag". Điều đó được phát biểu chính xác trong mệnh đề sau.
Mệnh đề 3.7. Giả thiết x (k) là dãy gồm các bước lặp sinh bởi áp dụng phương pháp
gradient vào hàm mục tiêu f với exact line-search. Khi đó, ta luôn có
x (k+2) − x (k+1) , x (k+1) − x (k) = 0.
(3.15)
Nói cách khác, hai hướng cập nhật liên tiếp là trực giao d(k+1) ⊥ d(k) .
Chứng minh. Phép chứng minh dành cho sinh viên tham khảo Beck, 2014, Lemma 4.7.
Bài toán 3.1. Dựa trên mã nguồn MATLAB trong Beck, 2014 xây dựng chương trình
thực hiện Algorithm 2 với các hàm mục tiêu đã chỉ ra ở Example 4.8 (tk hằng) và
Example 4.9 (tk backtracking).
Chương 3. Một số phương pháp tối ưu không ràng buộc
26
3.2.2
Số điều kiện và diagonal scaling
Trong mục này chúng ta sẽ xem xét một trong những vấn đề quan trọng liên hệ với
tốc độ hội tụ trong phương pháp gradient, đó là khái niệm về số điều kiện. Ta bắt đầu
với bài toán cực tiểu hàm toàn phương dạng
min f ( x ) = 12 x T Ax, x ∈ Rn ;
(3.16)
ở đó ma trận A được giả thiết là đối xứng xác định dương. Cực tiểu toàn cục (duy
nhất) của bài toán là điểm gốc x ∗ = 0. Vì ∇ f ( x ) = Ax, phương pháp gradient chọn
hướng giảm d(k) = − Ax (k) . Giả sử stepsize tk được tính bằng exact line-search, thì
công thức cập nhật bây giờ có dạng x (k+1) = x (k) + tk d(k) , ở đó tk thỏa mãn phương
trình
tk Ad(k) , d(k) + Ax (k) , d(k) = 0.
(3.17)
Sau một số tính toán chi tiết, ta nhận được hệ thức
f x
( k +1)
=
⟨ d(k) , d(k) ⟩
1−
⟨ Ad(k) , d(k) ⟩⟨ A−1 d(k) , d(k) ⟩
!
f x (k) .
(3.18)
Để ước lượng độ giảm trên hàm mục tiêu ở mỗi một bước lặp ta cần thêm một kết
quả phụ sau đây.
Bổ đề 3.8 (Kantorovich’s inequality). Cho A ∈ Rn×n là ma trận xác định dương. Khi đó
bất đẳng thức
( x T x )2
λmax ( A)λmin ( A)
⩾4
(3.19)
(λmax ( A) + λmin ( A))2
x T Ax x T A−1 x
xảy ra cho mọi x ̸= 0 trong Rn .
Trở lại với bài toán đang xét, giả sử x (k) không là điểm dừng. Cho x = d(k)
trong (3.19), ta suy ra từ (3.18)
f x
với κ =
M
m
( k +1)
⩽
4Mm
1−
( M + m )2
f x
(k)
=
κ−1
κ+1
và M = λmax ( A), m = λmin ( A). Thừa số q =
2
κ −1
κ +1
f x (k) ,
2
(3.20)
phụ thuộc theo κ
đặc trưng độ giảm của hàm mục tiêu sau mỗi lần lặp gradient sử dụng exact linesearch. Số κ chỉ phụ thuộc vào ma trận A, tức là hàm mục tiêu f . Nó được gọi là số
điều kiện (condition number) của A.
Định nghĩa 3.9 (condition number). Số điều kiện của một ma trận vuông A là đại
lượng
cond( A) = ∥ A∥∥ A−1 ∥
(3.21)
khi A không suy biến và cond( A) = +∞ cho các trường hợp còn lại.
3.2 Phương pháp gradient
27
Nhận xét 3.10. Người ta thường gọi ma trận A là điều kiện xấu (ill-condition) nếu
cond( A) nhận giá trị lớn, ngược lại, ma trận sẽ nói là điều kiện tốt (well-condition).
Dựa theo đánh giá (3.20), hàm mục tiêu sẽ giảm nhanh hơn trên các bước lặp gradient sử dụng exact stepsize khi A là điều kiện tốt. Điều tương tự vẫn còn đúng
cho hàm mục tiêu khác hơn là toàn phương. Cụ thể, tốc độ hội tụ của các bước lặp
gradient về một điểm dừng x ∗ của f phụ thuộc vào số điều kiện cond(∇2 f ( x ∗ )).
Ví dụ 3.11 (Rosenbrock function). Hàm Rosenbrock
f ( x ) = 100( x2 − x12 )2 + (1 − x1 )2
(3.22)
là một ví dụ rất điển hình về ảnh hưởng của điều kiện xấu lên hiệu năng của giải
thuật tối ưu. Dễ thấy ngay x ∗ = [1 1] T là cực tiểu toàn cục duy nhất. Vì
"
#
−400x1 ( x2 − x1 )2 − 2(1 − x1 )
∇ f (x) =
,
200( x2 − x12 )
"
#
(3.23)
2 + 2 −400x
−
400x
+
1200x
2
1
2
1
∇ f (x) =
,
−400x1
200
tại điểm dừng x ∗ Hessian A = ∇2 f ( x ∗ ) là ma trận có điều kiện xấu cond( A) ≈
2.5 × 103 . Bởi điều kiện xấu mà các bước lặp của phương pháp gradient hội tụ rất
chậm về lời giải x ∗ như đã chỉ ra trong Beck, 2014, Example 4.13.
Ví dụ về hàm Rosenbrock ở trên gợi ý việc phát triển những biến thể thích hợp
của hướng gradient nhằm tăng độ hiệu quả của thuật toán tối ưu. Một trong những
kỹ thuật tiêu biểu là scaling như sẽ mô tả dưới đây.
Xét bài toán cực tiểu
(3.24)
min f ( x ), x ∈ Rn
với hàm mục tiêu f là C1 . Thực hiện thay biến mới x = Sy với S là ma trận không
suy biến nào đó. Bài toán đang xét có thể viết lại tương đương theo biến mới y như
sau
(3.25)
min g(y), y = S−1 x ∈ Rn
Áp dụng quy tắc đạo hàm của hợp thành ∇ g(y) = S T ∇ f (Sy), bước lặp theo phương
pháp gradient ứng với bài toán sau có dạng
y(k+1) = y(k) − tk S T ∇ f (Sy(k) ).
(3.26)
Trở lại biến cũ x = Sy ta có
x (k+1) = x (k) − tk SS T ∇ f (Sy).
(3.27)
Như vậy, hướng giảm mới là hướng hiệu chỉnh dˆ = Dd với D = SS T là một ma trận
đối xứng xác định dương. Dãy lặp thu được tương ứng gọi là phương pháp scaled
gradient
x ( k +1) = x ( k ) − t k D ∇ f ( x ( k ) ).
(3.28)
Chương 3. Một số phương pháp tối ưu không ràng buộc
28
Vì D là xác định dương, thay vì phép thay biến x = Sy người ta thường chọn x =
D1/2 y, với D1/2 là ma trận căn bậc hai của D (xem khái niệm trong Golub and Van
Loan, 2013). Lúc này, hàm mục tiêu mới g(y) = f ( D1/2 y) liên hệ với f bởi
∇ g(y) = D1/2 ∇ f ( x ),
∇2 g(y) = D1/2 ∇2 f ( x ) D1/2 .
(3.29)
Algorithm 3: Scaled Gradient Method
Input: Tolerance ε > 0
Output: Exit result
Initialization step: x (0) ∈ Rn ;
// điểm xuất phát
foreach k = 0, 1, 2, . . . do
// vòng lặp chính
Scaling matrix Dk ≻ 0 ;
Descent direction d(k) = − Dk ∇ f x (k) ;
// hướng giảm
Find stepsize tk exact/inexact line-search procedure ;
Update x (k+1) ← x (k) + tk d(k) , k ← k + 1;
if ∥∇ f x (k) ∥ ⩽ ε then
// điều kiện tối ưu
(
k
)
return x
end
end
3.2.3
Phương pháp Gauss-Newton
3.2.4
Phân tích hội tụ phương pháp gradient
Giả thiết trên hàm mục tiêu. Ta bắt đầu với khái niệm về ánh xạ Lipschitz. Người
ta nói một hàm vector F : Rn −→ Rm là liên tục Lipschitz trên một tập Ω nếu tồn tại
một số L > 0 (gọi là hằng số Lipschitz) sao cho bất đẳng thức
∥ F ( x ) − F (y)∥ ⩽ L∥ x − y∥
(3.30)
xảy ra với mọi x, y ∈ Ω. F sẽ gọi là liên tục Lipschitz địa phương, nếu tại mỗi điểm
x ∈ Ω nó là Lipschitz trên một lân cận N nào đó của x.
Trở lại với bài toán tối ưu hàm mục tiêu f thuộc lớp C1 . Hàm f sẽ được gọi là
thuộc lớp C1,1 trên tập Ω nếu gradient ∇ f (·) là hàm vector liên tục Lipschitz trên Ω.
1,1
Trường hợp ∇ f chỉ là Lipschitz địa phương, ta nói f thuộc lớp Cloc
. Các hàm tuyến
1,1
tính, hàm toàn phương đều là hàm thuộc lớp C . Điều này là hệ quả của mệnh đề
sau đây.
Mệnh đề 3.12. Cho F là hàm khả vi trên tập mở Ω. Khi đó, F là Lipschitz trên Ω nếu ánh
xạ Jacobian JacF (·) là bị chặn.
1,1
Nói riêng, mọi hàm thuộc lớp C2 đều là Cloc
.
Bài toán 3.2. Chứng minh Mệnh đề 3.12. Mệnh đề đảo lại có đúng không? Chứng
minh điều đó (nếu là đúng) hoặc chỉ ra một phản ví dụ bác bỏ nó.
3.2 Phương pháp gradient
29
Một số bổ đề.
Bổ đề 3.13 (descent lemma). Cho f là hàm thuộc lớp C1,1 trên Rn và gọi L là một hằng số
Lipschitz của ∇ f . Khi đó ta có
f (y) ⩽ f ( x ) + ∇ f ( x )T (y − x ) +
L
∥ x − y ∥2
2
(3.31)
với x, y tùy ý.
Chứng minh. Áp dụng khai triển Taylor cho hàm t 7−→ f ( x + td) (với d = y − x) và
sử dụng tính chất Lipschitz của ∇ f .
Bổ đề 3.14 (sufficient decrease lemma). Vẫn giả thiết giống như trong Bổ đề 3.13. Khi
đó đánh giá
Lt
f ( x ) ⩾ f x − t∇ f ( x ) + t 1 −
∥∇ f ( x )∥2
(3.32)
2
xảy ra với x ∈ Rn và t > 0 tùy ý.
Chứng minh. Áp dụng Bổ đề 3.30 tại y = x − t∇ f ( x ).
Bổ đề 3.15 (sufficient decrease gradient method). Giả sử x (k) là dãy được sinh ra khi
áp dụng phương pháp gradient vào hàm mục tiêu f thuộc lớp C1,1 . Thêm nữa, giả sử dãy
các stepsize tk được xác định bởi một trong số các chiến lược sau đây
• tk hằng tk = t̄ < L2 ;
• tk tính theo exact line-search;
• tk tính theo backtracking với bộ tham số s > 0, 0 < α < 1 và 0 < β < 1.
Khi đó ta có
f x ( k ) − f x ( k +1) ⩾ M ∇ f x ( k )
2
,
(3.33)
ở đó
 Lt̄

t̄
1
−
cỡ bước hằng


2 ,

1
M = 2L
,
cỡ bước theo exact line-search

n
o


2β
(
1
−
α
)
α min s,
, cỡ bước theo backtracking.
L
(3.34)
Nhắc lại kỹ thuật backtracking tính tk : chọn tk = sβik , ở đó ik là số mũ nhỏ nhất i
sao cho
T
f x (k) ⩾ f x (k) + sβi d(k) − αsβi ∇ f x (k) d(k) .
(3.35)
Chương 3. Một số phương pháp tối ưu không ràng buộc
30
Sự hội tụ của phương pháp gradient.
Định lý 3.16 (global convergence). Cho x (k) là dãy sinh bởi áp dụng phương pháp
gradient vào hàm mục tiêu f thuộc lớp C1,1 . Giả sử cỡ bước tk được xác định theo một trong
số cách sau đây:
• cỡ bước hằng tk = t̄ < 2/L, với L là hằng số Lipschitz của gradient ∇ f ;
• cỡ bước theo exact line-search;
• cỡ bước theo backtracking ứng với các tham số s > 0, 0 < α < 1 và 0 < β < 1.
Cuối cùng, giả sử thêm f bị chặn dưới. Khi đó các phát biểu sau đây là đúng.
(a). Dãy số f x (k) đơn điệu không tăng. Hơn nữa với một k bất kỳ có bất đẳng thức
ngặt f x (k+1) < f x (k) trừ ra ∇ f x (k) = 0.
(b). Ta có ∇ f x (k) → 0 khi k → ∞.
Theo thuật ngữ sử dụng trong Nocedal and Wright, 2006, một thuật toán tối ưu
thỏa mãn phát biểu dạng (b) là hội tụ toàn cục. Nói nôm na, dưới những điều kiện
trong giả thiết Định lý 3.16, phương pháp gradient là hội tụ toàn cục (về một điểm
dừng).
Định lý 3.17 (convergence of gradient norms). Giữ nguyên các điều kiện trong giả thiết
Định lý 3.16, và gọi f ∗ là giới hạn của dãy các giá trị f x (k) . Khi đó ta có đánh giá
s
f x (0) − f ∗
(k)
min ∥∇ f x
∥⩽
,
(3.36)
M ( n + 1)
k=0,1,...,n
ở đó M là hằng số xác định theo (3.34).
Bài toán 3.3. Quan sát Example 4.8 và Example 4.9 trong Beck, 2014 và thực hiện các
yêu cầu sau:
• tính toán giá trị L;
• xây dựng chương trình tính toán thực hiện phương pháp gradient với exact
line-search và backtracking line-search ứng với α = 0.1, s = 0.5 và β = 0.5.
• kiểm thử kết quả với điểm xuất phát x (0) khá nhau sinh ngẫu nhiên và ngưỡng
sai số ε = 10−6 .
3.3
Phương pháp Newton
Phương pháp gradient ở mục trước là một điển hình của chiến lược tối ưu bậc nhất:
ta chỉ cần sử dụng đến thông tin về đạo hàm bậc nhất để xây dựng dãy lặp và phân
tích hội tụ. Trong mục này chúng ta sẽ tìm hiểu một phương pháp tối ưu điển hình
cho lớp các giải thuật bậc hai, tức là đòi hỏi thông tin ít nhất là đến đạo hàm bậc hai.
3.3 Phương pháp Newton
3.3.1
31
Hướng Newton
Xét tình huống mà hàm mục tiêu f bây giờ được giả thiết khả vi bậc hai. Ý tưởng
chính của phương pháp Newton (và những dạng biến thể) là sử dụng mô hình toàn
phương phù hợp thay thế cho hàm mục tiêu thật sự f để cập nhật bước kế tiếp.
Chính xác hơn, giả sử bước lặp hiện tại x (k) đã biết, người ta chọn hướng giảm d(k)
là một lời giải cho bài toán quy hoạch toàn phương
min
d ∈Rn
mk ( d ) : = f ( x (k) ) + ∇ f x (k)
T
1
d + d T ∇2 f x (k) d.
2
(3.37)
Hàm mục tiêu mk ở (3.37) chính là xấp xỉ Taylor bậc hai của f tại tâm x (k) . Ta đã biết
ở chương trước hàm này có cực trị toàn cục khi và chỉ khi Hessian ∇2 f x (k) là nửa
xác định dương. Lúc này, mọi điểm dừng cho mk đều là lời giải của (3.38). Phương
trình dừng tương ứng
∇mk (d) = ∇ f x (k) + ∇2 f x (k) d = 0.
(3.38)
Hệ (3.38) có nghiệm duy nhất chỉ trong tình huống mà ∇2 f x (k) ≻ 0. Nếu điều này
xảy ra, hướng cập nhật d(k) có biểu thức tường minh
d(k) = −∇2 f x (k)
−1
∇ f x (k) .
(3.39)
Hướng xác định theo (3.38) gọi là hướng Newton.
Chú ý là trong trường hợp ∇2 f x (k) ≻ 0 hướng Newton (3.38) là một hướng
giảm, ngoại trừ ∇ f x (k) = 0. Do vậy, điểm khởi đầu cho lần lặp kế tiếp có dạng
x ( k +1) = x ( k ) − t k ∇ 2 f x ( k )
−1
∇ f x (k)
(3.40)
với cỡ tk > 0 nào đó.
3.3.2
Phương pháp thuần Newton
Phương pháp thuần Newton (pure’s Newton method) áp dụng cập nhật (3.40) với cỡ
bước hằng tk = 1
−1
x ( k +1) = x ( k ) − ∇ 2 f x ( k )
∇ f x (k) .
(3.41)
Khi các Hesian tức thời ∇2 f x (k) đều xác định dương, các bước Newton đều được
xác định tốt và đơn trị. Algorithm 4 mô tả lược đồ thuần Newton.
Chương 3. Một số phương pháp tối ưu không ràng buộc
32
Algorithm 4: Pure’s Newton Method
Input: Tolerance ε > 0
Output: Exit result
Initialization step: x (0) ∈ Rn ;
foreach k = 0, 1, 2, . . . do
Solve ∇2 f x (k) d(k) = −∇ f x (k) ;
Update x (k+1) ← x (k) + d(k) , k ← k + 1 ;
if ∥∇ f x (k) ∥ ⩽ ε then
Stop ;
return x (k)
end
// điểm xuất phát
// vòng lặp chính
// hướng Newton
// cỡ bước hằng tk = 1
// điều kiện tối ưu
end
Ví dụ 3.18.
Hơi khác hơn so với tính chất hội tụ toàn cục của phương pháp gradient, các giải
thuật dựa trên phương pháp thuần Newton thường rất khó đảm bảo hội tụ toàn cục,
tuy nhiên, dáng điệu hội tụ địa phương lại rất tốt (xem Nocedal and Wright, 2006;
Nesterov, 2018). Cụ thể hơn, dưới những giả thiết hợp lý người ta chứng minh được
rằng dãy lặp thuần Newton sẽ hội tụ một cách địa phương về một nghiệm với tốc độ
bậc hai (quadratic convergence). Ở đây, một dãy x (k) → x ∗ là hội tụ bậc hai nếu tồn
tại dãy số bị chặn qk sao cho ∥ x (k+1) − x ∗ ∥ ⩽ qk ∥ x (k) − x ∗ ∥2 .
Định lý 3.19 (locally quadratic convergence). Xét bài toán tối ưu không ràng buộc với
hàm mục tiêu f thuộc lớp C2 trên Rn . Giả thiết rằng:
(i). tồn tại hằng số η > 0 sao cho ma trận ∇2 f ( x ) − η I luôn nửa xác định dương;
(ii). ánh xạ nhận giá trị ma trận x 7−→ ∇2 f ( x ) là liên tục Lipschitz, tức là tồn tại tham
số L > 0 mà
∇2 f ( x ) − ∇2 f ( y ) ⩽ L ∥ x − y ∥;
∀ x, y ∈ Rn .
(3.42)
Khi đó f thừa nhận một cực tiểu toàn cục duy nhất trên Rn , và dãy lặp x (k) sinh ra bởi
Algorithm 4 tuân theo đánh giá
x ( k +1) − x ∗ ⩽
L (k)
x − x∗
2η
2
,
k = 0, 1, . . .
(3.43)
Thêm nữa, nếu giả sử ∥ x (0) − x ∗ ∥ ⩽ η/L, thì ta có ước lượng sai số
x (k) − x ∗
2η
⩽
L
2k
1
.
2
(3.44)
Chứng minh. Tham khảo phép chứng minh của Theorem 5.2 trong Beck, 2014.
3.3 Phương pháp Newton
33
Nhận xét 3.20. Định lý trên phần nào thể hiện rõ tính chất địa phương đặc trưng của
giải thuật thuần Newton. Thật vậy, mặc dù đánh giá (3.43) luôn xảy ra, nhưng nó
chưa đảm bảo cho tính chất hội tụ của bản thân dãy x (k) . Trên thực tế, sự hội tụ
được đảm bảo nhờ ước lượng (3.44) khi có mặt điều kiện phụ thêm ∥ x (0) − x ∗ ∥ ⩽
η/L. Điều này có nghĩa là, quá trình lặp theo Algorithm 4 chỉ chắc chắn sinh ra dãy
hội tụ nếu như có một bước nào đó đã đi vào một vùng lân cận đủ tốt bao quanh x ∗ .
Trong Định lý 3.19, giả thiết (i) là cực kỳ quan trọng và thường khó kiểm tra
trong thực tiễn. Nó thực sự tương đương với phát biểu rằng giá trị riêng của tất cả
Hessian được chặn dưới bởi một hằng số dương. Như sẽ thấy ở chương sau, hàm
mục tiêu f lúc đó phải lồi mạnh với hệ số lồi dương, ít nhất là trong một lân cận của
cực tiểu x ∗ .
Bài toán 3.4. Quan sát Example 5.3 và Example 5.4 trong Beck, 2014 và thực hiện các
yêu cầu sau:
• tính toán các giá trị η, L ứng với mỗi một hàm mục tiêu tương ứng;
• kết luận về miền hội tụ địa phương ứng với mỗi một trường hợp;
• dựa trên cơ sở mã nguồn MATLAB, hãy thực hiện Algorithm 4 và in ra các
bước lặp, các độ lệch ∥ x (k+1) − x (k) ∥, ∥ x (k) − x ∗ ∥ với điểm xuất phát khác nhau
(sử dụng các hàm sinh ngẫu nhiên như rand, randn, . . . ).
3.3.3
Phương pháp Newton tắt dần
Các bước đi thuần Newton có dáng điệu địa phương tốt, khi dữ kiện đầu vào của bài
toán là khá tốt. Điều này thể hiện trong định lý hội tụ ở trước. Những khảo sát sâu
hơn về vấn đề hội tụ của giải thuật dựa trên phương pháp như vậy đã được quan
tâm bởi nhiều nghiên cứu khác nhau, xem Boyd and Vandenberghe, 2009; Nesterov,
2018. Trong phần này, chúng ta xem xét một kiểu biến thể, gọi là phương pháp
Newton tắt dần (damped Newton method), ở đó, thay vì chấp nhận cỡ bước hằng
tk = 1 người ta áp dụng chiến lược line-search để tìm cỡ bước tk > 0 thực sự và tiến
hành cập nhật x (k+1) = x (k) + tk d(k) . Algorithm 5 mô tả lược đồ Newton tắt dần.
Chương 3. Một số phương pháp tối ưu không ràng buộc
34
Algorithm 5: Damped Newton Method with backtracking line-search
Input: Tolerance ε > 0, backtracking parameters α, β
Output: Exit result
Initialization step: x (0) ∈ Rn ;
// điểm xuất phát
foreach k = 0, 1, 2, . . . do
// vòng lặp chính
(
k
)
Compute Newton direction d ;
Compute backtracking stepsize tk > 0 ;
// giá trị đầu tk = 1
(
k
+
1
)
(
k
)
(
k
)
Update x
← x + tk d , k ← k + 1;
(
k
)
if ∥∇ f x
∥ ⩽ ε then
// điều kiện tối ưu
Stop ;
return x (k)
end
end
3.4
Phương pháp quasi-Newton
Các giải thuật kiểu Newton nói chung có dáng điệu địa phương tốt, và thường được
sử dụng ở các pha cuối khi cần tìm kiếm lời giải với độ chính xác cao. Tuy nhiên,
quá trình tính toán bước Newton đòi hỏi Hessian đầy đủ, và giải hệ tuyến tính (3.38).
Nhìn chung, với các bài toán cỡ lớn, việc tìm kiếm hướng Newton thường là có độ
phức tạp cao và hết sức tốn kém. Các giải thuật quasi-Newton ra đời nhằm mục tiêu
khắc phục những hạn chế đó của giải thuật kiểu Newton mà vẫn đảm bảo tốc độ
hội tụ (địa phương) đủ tốt (cỡ siêu tuyến tính). Mục này sẽ dành cho một giới thiệu
sơ lược về các phương pháp quasi-Newton, dựa theo chuyên khảo Nocedal and
Wright, 2006. Sau đây, để cho gọn, chúng ta sẽ sử dụng các ký hiệu f k := f ( x (k) ),
∇ f k := ∇ f ( x (k) ), ∇2 f k := ∇2 f ( x (k) ), sk := x (k+1) − x (k) và yk := ∇ f k+1 − ∇ f k giống
như Nocedal and Wright, 2006.
Ý tưởng chính của phương pháp quasi-Newton là, tại mỗi bước vẫn đưa vào một
hàm mô hình bậc hai
1
(3.45)
mk (d) := d T Bk d + ∇ f kT d + f k
2
ở đó ma trận đối xứng Bk ≻ 0 là một xấp xỉ hợp lý của Hessian đúng ∇2 f k . Rõ ràng,
đây thực chất là biến thể của mô hình (3.37) với Bk được sử dụng ở vị trí của ∇2 f k .
Lập luận tương tự như ở phần trước, hướng tìm kiếm lúc này là điểm dừng (duy
nhất) của hàm số (3.45)
Bk d(k) + ∇ f k = 0.
(3.46)
Để tránh phải giải hệ tuyến tính (3.46), và đồng thời giảm độ phức tạp tính toán, dãy
các ma trận Bk và nghịch đảo của nó Hk = Bk−1 đòi hỏi được cập nhật theo một chiến
lược hiệu quả bởi các phép toán ma trận. Hệ quả là, khi điều này xảy ra, hướng tìm
3.4 Phương pháp quasi-Newton
35
kiếm
d(k) = − Bk−1 ∇ f k = − Hk ∇ f k
(3.47)
hoàn toàn được tính toán trực tiếp thông qua phép toán ma trận mà không phải
thiết lập lại và giải hệ tuyến tính như trong giải thuật kiểu Newton.
Bây giờ, chúng tôi đi vào mô tả phương pháp xây dựng dãy các ma trận Bk và Hk
đảm bảo những yêu cầu nêu trên. Về nguyên lý, người ta đòi hỏi dãy các ma trận Bk
nên thỏa mãn phương trình dây cung1
Bk+1 sk = yk .
(3.48)
Để đảm bảo tính xác định dương của ma trận Bk+1 nghiệm đúng phương trình (3.48)
người ta đưa thêm vào ràng buộc điều kiện cong2 trên các dịch chuyển sk , yk như sau
⟨sk , yk ⟩ > 0.
(3.49)
Trên thực tế, (3.49) thường được xác nhận đồng thời với quá trình tính toán stepsize
tk (chẳng hạn, sử dụng điều kiện Wolfe trong line-search).
Trở lại với phương trình dây cung (3.48), người ta mong muốn hạn chế sao cho
nó xác định duy nhất một lời giải Bk+1 . Điều này đạt được bằng cách đưa vào bài
toán tối ưu ràng buộc
minB ∥ B − Bk ∥W
(3.50)
s.t. B = B T , Bsk = yk ;
ở đó, đối số cần tối ưu là ma trận B ∈ Rn×n , và ∥·∥W là chuẩn ma trận phù hợp.
Tương tự như vậy, với dữ kiện Hk , sk và yk nghịch đảo Hk+1 = Bk−+11 là lời giải bài
toán
min H ∈Rn×n ∥ H − Hk ∥W
(3.51)
s.t. H = H T , Hyk = sk .
Các chuẩn ∥·∥W khác nhau sẽ dẫn đến biểu thức tường minh khác nhau, và do đó,
phương pháp quasi-Newton với tên gọi khác nhau. Chúng tôi điểm qua một vài kiểu
quan trọng nhất đã trình bày trong Nocedal and Wright, 2006.
1. Phương pháp BFGS
1
1
Bk sk skT Bk +
yk ykT ,
⟨sk , Bk sk ⟩
⟨yk , sk ⟩
T
T
= I − ρk sk yk Hk I − ρk yk sk + ρk sk skT ,
Bk+1 = Bk −
(3.52a)
Hk+1
(3.52b)
với ρk := ⟨yk , sk ⟩−1 .
2. Phương pháp DFP
Bk+1 = I − ρk yk skT Bk I − ρk sk ykT + ρk yk ykT ,
1
1
Hk+1 = Hk −
Hk yk ykT Hk +
s sT .
⟨yk , Hk yk ⟩
⟨yk , sk ⟩ k k
1 Nocedal
2 Nocedal
and Wright, 2006, secant equation.
and Wright, 2006, curvature condition.
(3.53a)
(3.53b)
Chương 3. Một số phương pháp tối ưu không ràng buộc
36
3. Phương pháp SR1
Bk+1
(yk − Bk sk )(yk − Bk sk )T
= Bk +
,
sk T (yk − Bk sk )
(3.54a)
(sk − Hk yk )(sk − Hk yk )T
.
yk T (sk − Hk yk )
(3.54b)
y y T
Bk sk sk T Bk
+ k k + γk ⟨sk , Bk sk ⟩vk vk T ,
⟨sk , Bk sk ⟩
⟨yk , sk ⟩
(3.55)
Hk+1 = Hk +
4. Phương pháp Broyden
Bk+1 = Bk −
với 0 ⩽ γk ⩽ 1 là một tham số và
vk =
yk
Bk sk
−
.
⟨yk , sk ⟩ ⟨sk , Bk sk ⟩
(3.56)
Algorithm 6 dưới đây mô tả lược đồ chung của một giải thuật tối ưu kiểu quasiNewton.
Algorithm 6: Structural quasi-Newton method
Input: Tolerance ε > 0
Output: Exit result
Initialization step: x (0) ∈ Rn , H0 ≻ 0;
// dữ kiện xuất phát
while ∥∇ f k ∥ > ε do
//
(
k
)
Compute direction d = − Hk ∇ f k ;
Compute stepsize tk ;
// line-search
(
k
+
1
)
(
k
)
(
k
)
Update x
← x + tk d ;
//
Compute sk , yk ;
//
Compute Hk+1 ;
//
k ← k+1;
end
Lý thuyết về sự hội tụ của các phương pháp quasi-Newton đã được khảo sát tỉ
mỉ trong Nocedal and Wright, 2006 cũng như Dennis and Moré, 1977.
Bài tập
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University
Press.
3.4 Phương pháp quasi-Newton
37
Dennis, J. J. E., & Moré, J. J. (1977). Quasi-Newton methods, motivation and theory.
SIAM Review. https://doi.org/10.1137/1019005
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
Nesterov, Y. (2018). Lectures on convex optimization (2nd, Vols. 137). Springer International Publishing.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
38
Chương 3. Một số phương pháp tối ưu không ràng buộc
Chương 4
Cơ sở giải tích lồi
text
source
Nội dung của chương được dành cho việc trình bày cơ sở lý thuyết Giải tích lồi
trên không gian hữu hạn chiều. Trong phần thứ nhất (mục 4.1) chúng tôi giới thiệu
một số khái niệm và kết quả cơ bản về tập lồi trên Rn . Phần tiếp theo (mục 4.2) tập
trung giới thiệu một số tính chất của lớp các hàm lồi. Phần cuối của chương là một
khảo sát sơ bộ về bài toán quy hoạch lồi, một lớp quan trọng trong lý thuyết tối ưu
với nhiều ứng dụng rộng rãi. Giống như những phần trước, nội dung của chương
chủ yếu vẫn dựa theo Beck, 2014, ngoài ra để đảm bảo tính hệ thống, đôi chỗ chúng
tôi giới thiệu một vài kết quả từ các chuyên khảo Boyd and Vandenberghe, 2009;
Hiriart-Urruty and Lemaréchal, 2001.
4.1
Tập lồi
Nhắc lại một vài ký hiệu phép toán trên các tập hợp. Tổng của hai tập hợp C và C ′
trong Rn được xác định là
C + C ′ = x + x ′ | x ∈ C, x ′ ∈ C ′
(4.1)
với quy ước C + ∅ = ∅ + C ′ = ∅. Nếu một hai tập con thành phần C hoặc C ′ là đơn
tử, tổng của chúng đơn giản là kết quả phép tịnh tiến tập hợp còn lại
v+C = v+x | x ∈ C .
(4.2)
Tích của một vô hướng λ với tập hợp C ̸= ∅ là kết quả phép vị tự tương ứng
λC = λx | x ∈ C
(4.3)
ở đó λ∅ = ∅. Nếu R là tập hợp trong R thì tích RC là
RC =
[
λ∈ R
39
λC.
(4.4)
Chương 4. Cơ sở giải tích lồi
40
4.1.1
Khái niệm
Định nghĩa 4.1 (convex set). Một tập hợp C trong Rn được gọi là lồi nếu
λC + (1 − λ)C ⊂ C, ∀λ ∈ [0, 1].
(4.5)
Một cách hình học, một tập là lồi khi nó chứa trọn vẹn mọi đoạn thẳng nối hai điểm
tùy ý của nó.
Tập lồi C sẽ được gọi là lồi mở nếu nó đồng thời là tập mở. Tương tự, ta có khái
niệm tập lồi đóng. Hiển nhiên, bản thân Rn luôn là lồi mở và lồi đóng.
Ví dụ 4.2. Với một vector p ∈ Rn \ {0} và số thực α cho trước định nghĩa các tập
hợp
H p,α = x | p T x = α ,
⩽
H p,α
= x | pT x ⩽ α ,
<
H p,α
= x | pT x < α .
(4.6a)
(4.6b)
(4.6c)
⩽
< là một tập lồi mở. H ,
là những tập lồi đóng, trong khi đó H p,α
Khi đó H p,α và H p,α
p,α
⩽
<
H p,α và H p,α lần lượt có tên là siêu phẳng, nửa không gian đóng và nửa không gian
mở xác định bởi cặp ( p, α) ∈ Rn+1 .
Bổ đề 4.3. Các phát biểu sau là đúng:
i). hình cầu đóng bất kỳ là tập lồi đóng;
ii). đơn hình đơn vị
∆ n : = [ α1 · · ·
T
αn ] ∈ Rn | αi ⩾ 0, α1 + · · · + αn = 1
(4.7)
là một tập lồi đóng.
Bài toán 4.1. Chứng minh kết quả tương tự của i) trong Bổ đề 4.3: với một ma trận
xác định dương Q ∈ Rn×n và vector a ∈ Rn ellipsoid
x ∈ Rn | ( x − a ) T Q ( x − a ) ⩽ 1
là tập lồi đóng. Cho Q = rI ta nhận lại kết quả ở Bổ đề 4.3.
Định nghĩa 4.4 (convex cone). Tập hợp C trong Rn được gọi là một nón nếu
λC ⊂ C,
∀λ ⩾ 0.
(4.8)
C sẽ gọi là một nón lồi nếu nó vừa là nón đồng thời vừa là một tập lồi. Nếu thêm vào
đó C cũng là tập đóng (mở) ta nhận được một nón lồi đóng (mở).
4.1 Tập lồi
41
Một cách hình học, một tập là nón nếu như tia R+ x được chứa hoàn toàn trong
C mỗi khi x ∈ C. Ví dụ quan trọng nhất về các nón lồi là tập nghiệm của hệ bất
phương trình tuyến tính.
Ví dụ 4.5. Với ma trận thực A ∈ Rm×n tập hợp
C = x ∈ Rn | Ax ⩽ 0
(4.9)
là một nón lồi đóng.
Một ví dụ khác, xét nón Lorenz (hay ice cream cone xem Beck, 2014, Example 6.17)
định nghĩa bởi
(" #
)
x
n
n +1
n
L :=
∈R
| ∥ x ∥ ⩽ t, x ∈ R , t ∈ R .
(4.10)
t
Đây cũng là một nón lồi đóng.
Bài toán 4.2.
1. Chứng minh các khẳng định nêu trong Ví dụ 4.2.
2. Chứng minh tập hợp
n
o
K n := x ∈ Rn | x1 tn−1 + · · · + xn−1 t + xn ⩾ 0, ∀t ∈ R
(4.11)
là nón lồi. K n có là nón lồi đóng hay không? Phác thảo hình ảnh minh họa các
tập K1 và K2 .
4.1.2
Phép toán trên tập lồi. Bao lồi và bao nón lồi
Mệnh đề 4.6. Cho I là một tập chỉ số nào đó và Ci
đó giao của chúng C = ∩i∈ I Ci cũng là một tập lồi.
i∈ I
là một họ các tập lồi trong Rn . Khi
Chứng minh. Kiểm tra trực tiếp bằng định nghĩa tập lồi.
Ví dụ 4.7 (convex polytope). Cho trước ma trận A ∈ Rm×n và vector b ∈ Rm . Tập
nghiệm của P hệ tuyến tính
A(i, 1) x1 + · · · + A(i, n) xn ⩽ bi ; i = 1, . . . , m
(4.12)
là một tập lồi (sử dụng Mệnh đề 4.8). Một tập như vậy thường được gọi là lồi đa diện.
Mệnh đề 4.8 (sự bảo toàn tính lồi).
1. Cho C1 , . . . , Ck là những tập lồi trong Rn . Khi đó tích Cartesian của chúng C =
C1 × · · · × Ck cũng là một tập lồi.
Chương 4. Cơ sở giải tích lồi
42
2. Cho C ⊂ Rn là tập lồi và ϕ( x ) = Ax + b là một ánh xạ affine với A ∈ Rm×n và
b ∈ Rn đã biết. Khi đó ảnh của C qua ϕ
ϕ(C ) = Ax + b | x ∈ C
(4.13)
là một tập lồi.
3. Cho D ⊂ Rm là một tập lồi và ϕ : x ∈ Rn 7−→ Ax + b ∈ Rm là ánh xạ affine. Khi
đó nghịch ảnh của D bởi ϕ
C = x ∈ Rn | ϕ ( x ) ∈ D
(4.14)
cũng là một tập lồi.
4. Cho C1 , . . . , Ck là những tập lồi trong Rn và λ1 , . . . , λk ∈ R. Khi đó tập hợp
C = λ1 C1 + · · · + λk Ck
(4.15)
cũng là tập lồi.
Chứng minh. Phép chứng minh dành cho sinh viên.
Bài toán 4.3. Thực hiện chi tiết phép chứng minh Mệnh đề 4.8.
Để đi vào khái niệm về bao lồi, ta đưa vào một vài thuật ngữ. Với các vector
đã cho, một tổ hợp affine của chúng là một vector có dạng
x (1) , . . . , x ( k )
x = λ 1 x (1) + · · · + λ k x ( k )
(4.16)
với hệ số λi ∈ R thỏa mãn λ1 + · · · + λk = 1. Nếu thay cho λ1 + · · · + λk = 1 ta đưa
vào điều kiện tất cả tham số λi đều không không âm thì
x = λ 1 x (1) + · · · + λ k x ( k )
là một tổ hợp conic của x (1) , . . . , x (k) . Cuối cùng, một tổ hợp lồi của x (1) , . . . , x (k) là một
vector mà đồng thời là tổ hợp affine lẫn tổ hợp lồi. Nói cách khác, tổ hợp lồi là một
vector dạng (4.16) với bộ λ ∈ ∆k .
Mệnh đề 4.9. Một tập hợp C ⊂ Rn là lồi nếu và chỉ nếu nó chứa mọi tổ hợp lồi có thể có
của các phần tử chọn ra từ C.
Chứng minh. Kiểm tra dựa vào định nghĩa tổ hợp lồi.
Như vậy, nếu một tập không lồi thì có một vài điểm nào đó nằm ngoài tập mà
biểu diễn được dưới dạng tổ hợp lồi nào đó của các phần tử của tập hợp đó. Trong
những trường hợp như vậy, người ta mong muốn xây dựng tập lồi gần nhất với tập
ban đầu (theo một nghĩa nhất định) mà chứa mọi tổ hợp lồi có thể.
4.1 Tập lồi
43
Định nghĩa 4.10 (convex, closed convex hulls). Cho S là tập hợp không trống trong
Rn . Bao lồi của S là tập hợp
(
)
k
conv(S) :=
x = λ1 x (1) + · · · + λk x (k) | k ⩾ 1; x (i) ∈ S; λi ⩾ 0, ∑ λi = 1 . (4.17)
i =1
Bao đóng của conv(S) gọi là bao lồi đóng của S và ký hiệu bởi clconv(S) = cl (conv(S)).
Sử dụng đinh nghĩa có thể kiểm tra được (Bài tập) rằng bao lồi conv(S) luôn
là tập lồi chứa S, và hơn nữa S lồi khi nó trùng với conv(S). Một cách tương tự,
clconv(S) là tập lồi đóng chứa S.
Bài toán 4.4. Chứng minh conv(S) (t.ư. clconv(S)) là tập lồi (t.ư. lồi đóng) nhỏ nhất
(xét theo quan hệ bao hàm) chứa trọn vẹn S.
Trong biểu diễn (4.17), số lượng k các phần tử chọn từ tập nền S để tạo thành
một phần tử của conv(S) là thay đổi tùy ý. Một câu hỏi khá tự nhiên được đặt ra là
tồn tại hay không một giá trị k chung như vậy? Kết quả kinh điển sau đây cho ta câu
trả lời tương ứng.
Định lý 4.11 (Carathéodory). Cho trước tập hợp S ̸= ∅ trong Rn và một điểm x ∈
conv(S). Khi đó, tồn tại (n + 1)-điểm x (1) , . . . , x (n+1) ∈ S sao cho
x ∈ conv
x (1) , . . . , x ( n +1)
;
tức là ta có biểu diễn
x = λ 1 x (1) + · · · + λ n +1 x ( n +1)
(4.18)
ở đó λi ⩾ 0 và λ1 + · · · + λn+1 = 1.
Chứng minh. Quy nạp theo số chiều n.
Bài toán 4.5. Dựa theo chỉ dẫn trong Beck, 2014 hoàn thiện chi tiết phép chứng minh
Định lý 4.11.
Định nghĩa 4.12 (conic hull). Với một tập hợp S cho trước, bao nón lồi của S
cone(S) := x = λ1 x (1) + · · · + λk x (k) | k ⩾ 1; x (ii) ∈ S; λi ⩾ 0
(4.19)
là tập hợp gồm tất cả các tổ hợp conic của các phần tử chọn ra từ S.
Sử dụng định nghĩa có thể chứng minh được (Bài tập) cone(S) luôn là nón lồi,
bất kể S có phải hay là không.
Bài toán 4.6. Chứng minh với mọi tập S ⊂ Rn bao nón lồi cone(S) là nón lồi nhỏ
nhất chứa tập S (theo quan hệ bao hàm). Hơn nữa, bản thân S là một nón lồi nếu và
chỉ nếu S = cone(S).
Chương 4. Cơ sở giải tích lồi
44
Tương tự như định lý biểu diễn Carathéodory ở trên, ta cũng có kết quả biểu
diễn cho bao nón lồi như sau.
Định lý 4.13. Cho S là tập hợp không trống trong Rn và x là một điểm thuộc bao nón
lồi cone(S). Khi đó, tồn tại k ⩽ n vector độc lập tuyến tính x (1) , . . . , x (k) ∈ S sao cho
x ∈ cone x (1) , . . . , x (k) , tức là
x = λ 1 x (1) + · · · + λ k x ( k )
(4.20)
với các vô hướng λi ⩾ 0.
Chứng minh. Tham khảo phép chứng minh trong Beck, 2014, Theorem 6.23.
Nhận xét 4.14. Định lý biểu diễn 4.13 có một ứng dụng quan trọng vào các đa diện
lồi dạng
P = x ∈ Rn | Ax = b, x ⩾ 0 .
(4.21)
Đa diện (4.21) chính là miền khả thi của bài toán quy hoạch tuyến tính (QHTT) quy
chuẩn, được gọi là dạng tiêu chuẩn1 bởi một số tài liệu, trong khi đó, ở một vài tài
liệu khác, nó được gọi là dạng chính tắc.2 Để minh họa ứng dụng này, chúng tôi nhắc
lại từ Ferris et al., 2007 khái niệm phương án cơ bản. Giả thiết ma trận A trong (4.21)
là row full-rank rank( A) = size( A, 1). Một điểm x ∈ P sẽ gọi là phương án cơ bản
(basic solution) nếu hệ vector cột { A( : , j) | x j > 0} là độc lập tuyến tính. Định lý
cơ bản của QHTT phát biểu rằng nếu miền khả thi P là không trống thì nó sẽ chứa
phương án cơ bản. Phát biểu này có thể được chứng minh bằng cách áp dụng trực
tiếp Định lý 4.13 vào tập hữu hạn
S = A ( : , 1), . . . , A ( : , n ) .
(4.22)
Bài toán 4.7. Hoàn thiện phép chứng minh được nhắc đến trong Nhận xét 4.14 về sự
tồn tại phương án cơ bản tương ứng với đa diện P xác định theo (4.21).
4.1.3
Topo trên tập lồi
Ta bắt đầu bằng kết quả về sự bảo toàn tính lồi qua việc lấy bao đóng.
Định lý 4.15. Cho C là một tập lồi trong Rn . Khi đó bao đóng cl (C ) cũng là một tập lồi.
Chứng minh. Lập luận dựa vào đặc trưng giới hạn của bao đóng và tính lồi.
Bổ đề 4.16 (line segment principle). Cho C ⊂ Rn là tập lồi và x là một điểm trong của
C. Khi đó với mọi y ∈ cl (C ) và 0 ⩽ α < 1 điểm
xα := (1 − α) x + αy
cũng là điểm trong của C.
1 Beck,
2 Ferris
2014, standard form.
et al., 2007, canonical form.
(4.23)
4.1 Tập lồi
45
Sử dụng bổ đề trên người ta chứng minh được kết quả về sự bảo toàn tính lồi
qua việc lấy phần trong.
Định lý 4.17. Cho C là một tập lồi trong Rn . Khi đó phần trong int (C ) của nó cũng là một
tập lồi.
Mệnh đề 4.18 (bao đóng và phần trong tập lồi). Cho C là một tập lồi trong Rn với phần
trong không trống. Khi đó, các đẳng thức tập hợp sau đây là đúng:
(i ) cl (int (C )) = cl (C ) ,
(4.24)
(ii ) int (cl (C )) = int (C ) .
(4.25)
Chứng minh. Dành cho sinh viên như là một bài tập. Có thể dựa theo chỉ dẫn trong Beck,
2014, Lemma 6.30.
Nói chung, bao lồi của một tập đóng có thể không là tập đóng, nghĩa là phép
toán lấy bao đóng và lấy bao lồi không thể hoán đổi thứ tự cho nhau một cách tùy ý
được. Một phản ví dụ điển hình như vậy đã được trình bày trong Beck, 2014 với tập
nền
T [
{[0 0] }
x ∈ R2 | x1 x2 ⩾ 1, x1 ⩾ 0, x2 ⩾ 0 .
(4.26)
Tuy nhiên, bao lồi của một tập đóng bị chặn sẽ vẫn là một tập đóng theo kết quả
dưới đây.
Mệnh đề 4.19. Cho S là tập compac trong Rn . Khi đó bao lồi của nó là một tập lồi compact.
Chứng minh. Xét ánh xạ ϕ : Rn+1 × Rn × · · · × Rn −→ Rn xác định theo quy tắc
ϕ(λ, x (1) , . . . , x (n+1) ) = λ1 x (1) + · · · + λn+1 x (n+1) .
(4.27)
Khi đó theo định lý Carathéodory ta có
ϕ ∆n+1 × S × · · · × S = conv(S).
(4.28)
Vì tập ∆n+1 compact, kết luận cần chứng minh là hệ quả của tính compact của S.
Ta kết thúc mục này bằng một kết quả topo sau đây liên quan đến bao nón lồi
của tập hữu hạn.
Mệnh đề 4.20. Giả sử S = v(1) , . . . , v(k) là tập hữu hạn trong Rn . Khi đó bao nón lồi
cone(S) là một tập đóng.
Chương 4. Cơ sở giải tích lồi
46
4.1.4
Điểm cực biên
Định nghĩa 4.21 (extreme point). Cho C là tập lồi không trống. Một điểm x ∈ C sẽ
gọi là điểm cực biên của C nếu không thể tìm được trong C hai điểm y ̸= z và vô
hướng 0 < α < 1 sao cho x = αx + (1 − α)z. Tập hợp các điểm cực biên của tập lồi
C được viết là ext(C ).
Một cách hình học, điểm cực biên là những điểm x mà có tính chất: với một đoạn
thẳng thực sự nằm hoàn toàn trong C thì hoặc là không chứa x hoặc là nhận nó làm
một điểm đầu mút. Ví dụ thường gặp nhất là các đỉnh của hình đa giác lồi (tam giác,
tứ giác, . . . ) trong mặt phẳng. Có thể coi như điểm cực biên là sự mở rộng của khái
niệm đỉnh quen thuộc trong hình học sơ cấp.
Ví dụ 4.22.
• Nếu C = x + V, ở đó V là một không gian con số chiều k ⩾ 13 thì ext(C ) = ∅.
• Cho C là nón lồi đóng không chứa trọn vẹn một đường thẳng nào. Khi đó
ext(C ) = {0}.
• Xét trường hợp C = ∆3 là đơn hình đơn vị trong R3 . Lúc này ta có
n
o
T
T
T
ext(C ) = [1 0 0] , [0 1 0] , [0 0 1] .
Bài toán 4.8. Thực hiện kiểm tra chi tiết các khẳng định trong Ví dụ 4.22.
Các điểm cực biên đóng vai trò quan trọng trong các vấn đề liên quan đến cấu
trúc của tập lồi, đặc biệt là lý thuyết cực trị. Kết quả sau đây minh họa điều đó trong
trường hợp bài toán QHTT.
Định lý 4.23. Cho trước ma trận A ∈ Rm×n thỏa mãn rank( A) = m và vector b ∈ Rm .
Xét tập lồi đa diện
P = x ∈ Rn | Ax = b, x ⩾ 0 .
(4.29)
Khi đó, điểm cực biên của P cũng đồng thời là phương án cơ bản (theo nghĩa của QHTT,
xem Ferris et al., 2007) và ngược lại.
Cuối cùng, để kết thúc phần này chúng tôi giới thiệu một kết quả nổi tiếng về
biểu diễn tập lồi thông qua các điểm cực biên. Phép chứng minh đầy đủ của nó thể
tìm thấy trong Hiriart-Urruty and Lemaréchal, 2001.
Định lý 4.24 (Krein-Milman). Cho C ⊂ Rn là tập lồi compact không trống. Khi đó ta có
C = clconv(ext(C )).
Nói riêng, mọi tập lồi compact không trống luôn có ít nhất một điểm cực biên.
3 lúc
đó C gọi là một tập affine k-chiều
(4.30)
4.1 Tập lồi
4.1.5
47
Dáng điệu tiệm cận
Định nghĩa 4.25 (recession direction). Cho tập lồi C trong Rn và một điểm x ∈ C.
Vector d ∈ Rn gọi là một hướng lùi xa của C tại x nếu bao hàm thức
x + R+ d ⊂ C
(4.31)
xảy ra. Tập hợp tất cả các vector như vậy được ký hiệu rec (C, x ).
Người ta định nghĩa
rec (C ) :=
\
rec (C, x ) = d | x + R+ d ⊂ C, ∀ x ∈ C
(4.32)
x ∈C
là nón lùi xa (hay nón thoái hóa, nón tiệm cận) của tập lồi C.
Bổ đề 4.26 (Nón lùi xa của tập lồi đóng). Cho C ⊂ Rn là tập lồi đóng không trống. Khi
đó tập hợp rec (C, x ) là độc lập với điểm được chọn x, nghĩa là với x, y ∈ C tùy ý ta có
rec (C, x ) = rec (C, y). Hệ quả là
rec (C ) = rec (C, x )
(4.33)
với điểm tham chiếu x ∈ C bất kỳ.
Ví dụ 4.27.
1. Cho C là một đường thẳng bất kỳ đi qua hai điểm phân biệt x và
y. Khi đó tia x + R+ d chứa hoàn toàn trong C nếu và chỉ nếu d = λ( x − y), do
đó rec (C ) = R( x − y). Tổng quát hơn, nếu C là tập affine thì nón lùi xa tương
ứng trùng với không gian chỉ phương của nó.
2. Cho C là một nón đóng. Khi đó ta có rec (C ) = rec (C, 0) = C.
3. Xét x = [1 1] T là một phần tử của tập lồi C = { x ∈ R2 | x2 ⩾ x12 }. Ta có
rec (C, x ) = {0} × R+ .
Nón lùi xa có liên hệ mật thiết đến tính bị chặn của tập lồi. Mệnh đề sau đây làm
rõ hơn tính chất này.
Mệnh đề 4.28 (Hiriart-Urruty and Lemaréchal, 2001). Tập hợp lồi đóng C ⊂ Rn là
compact khi và chỉ khi rec (C ) = {0}.
Như đã biết trong topo đại cương, tổng của hai tập đóng không nhất thiết là tập
đóng, trừ khi có thêm một số điều kiện nào đó, chẳng hạn, tính compact. Mệnh đề
sau đây đưa ra một tiêu chuẩn mở rộng của tính compact trên cơ sở hiểu biết về các
hướng lùi xa.
Mệnh đề 4.29. Cho trước hai tập lồi đóng không rỗng C1 , C2 trong Rn . Khi đó tổng C :=
C1 + C2 cũng là tập lồi đóng nếu
− rec (C1 ) ∩ rec (C2 ) = {0}.
Chương 4. Cơ sở giải tích lồi
48
4.2
4.2.1
Hàm lồi
Hàm nhận giá trị thực mở rộng
Để thuận tiện cho nhiều mục đích khác nhau, người ta xem xét các hàm số cho phép
nhận giá trị vô hạn, gọi là hàm giá trị thực mở rộng (extended real-valued function).
Quy ước này dẫn đến nhiều tiện lợi khi làm việc với các hàm số. Chẳng hạn, một
hàm chỉ xác định trên một tập hợp nào đó có thể đồng nhất với hàm xác định trên
toàn bộ không gian sao cho bên ngoài tập xác định nó nhận giá trị +∞. Chúng ta sẽ
sử dụng một số quy tắc số học sau đây khi làm việc với các hàm số thực mở rộng
a + (+∞) = (+∞) + a = +∞, ∀ a ∈ R;
r · (+∞) = (+∞) · r = +∞,
∀r > 0.
(4.34)
Bây giờ, với một hàm f : Rn −→ R ∪ {+∞} người ta định nghĩa miền hữu hiệu,
đồ thị và trên đồ thị lần lượt là các tập hợp
dom( f ) := x ∈ Rn | f ( x ) ∈ R ,
Graph( f ) := ( x, f ( x )) ∈ Rn+1 | x ∈ dom( f ) ,
epi( f ) := ( x, α) ∈ Rn+1 | x ∈ dom( f ), f ( x ) ⩽ α .
(4.35a)
(4.35b)
(4.35c)
Trường hợp dom( f ) ̸= ∅ hàm f như vậy sẽ gọi là chính thường. Từ nay về sau, nếu
không có chú thích gì thêm, ta luôn giả thiết hàm vô hướng được khảo sát là chính
thường định nghĩa trên toàn bộ không gian.
Ví dụ điển hình nhất về những hàm giá trị thực mở rộng, được dùng phổ biến
trong tối ưu và giải tích không trơn, là hàm chỉ tiêu của một tập hợp, xác định bởi
quy tắc

0,
nếu x ∈ S
δS ( x ) =
(4.36)
+∞, ngoài ra.
Đối với hàm chỉ tiêu δS , ta có dom(δS ) = S, Graph(δS ) = S × {0} và epi(δS ) =
S × R+ .
4.2.2
Hàm lồi
Định nghĩa 4.30 (convex function). Cho trước hàm f : Rn −→ R ∪ {+∞}.
1. Hàm f được gọi là lồi nếu
f (tx + (1 − t)y) ⩽ t f ( x ) + (1 − t) f (y)
đúng với x, y ∈ Rn và 0 < t < 1.
2. f là hàm lồi ngặt nếu bất đẳng thức (4.37) là nghiêm ngặt cho mọi x ̸= y.
(4.37)
4.2 Hàm lồi
49
3. f là hàm lồi mạnh với hệ số lồi λ > 0 nếu hàm f (·) − 21 λ∥·∥2 là lồi.
Nhận xét 4.31. Rõ ràng mọi hàm lồi ngặt đều là lồi. Hơn nữa, nếu f là lồi mạnh với
hệ số λ > 0, thì bản thân f sẽ là lồi ngặt.
Mệnh đề sau đây cho ta mối liên hệ giữa hai khái niệm tập và hàm lồi.
Mệnh đề 4.32. Một hàm thực mở rộng f là lồi nếu và chỉ nếu trên đồ thị epi( f ) là một tập
lồi.
Chứng minh. Lập luận dựa vào định nghĩa.
Ví dụ 4.33.
1. Hàm chỉ tiêu δS là lồi khi và chỉ khi S là tập lồi.
2. Chuẩn ∥·∥ là một hàm lồi.
3. Hàm ∥·∥2 /2 là lồi mạnh với hệ số lồi 0 < λ ⩽ 1/2.
4. Như là một mở rộng, hàm toàn phương f ( x ) = 21 x T Qx với Q ≽ 0 là lồi. Khi
Q ≻ 0 thì f là lồi mạnh (với hệ số lồi 0 < λ ⩽ λmin ( Q)).
Bài toán 4.9. Làm rõ các khẳng định trong Ví dụ 4.33.
Định nghĩa 4.34. Cho C ⊂ Rn là tập lồi không trống. Một hàm f được gọi là lồi trên
C nếu đánh giá
f (tx + (1 − t)y) ⩽ t f ( x ) + (1 − t) f (y)
(4.38)
đúng cho mọi x, y ∈ C và 0 < t < 1. Tương tự, ta cũng có khái niệm hàm lồi ngặt
(t.ư. lồi mạnh) trên C.
Định lý 4.35 (Jensen’s inequality). Cho f là hàm lồi trên C. Khi đó với mọi cách chọn
điểm x (1) , . . . , x (k) ∈ C bất đẳng thức
f α 1 x (1) + · · · + α k x ( k ) ⩽ α 1 f x (1) + · · · + α k f x ( k )
(4.39)
đúng với bất kỳ [α1 · · ·
T
αk ] ∈ ∆k .
Chứng minh. Quy nạp theo k.
Bài toán 4.10. Hoàn thiện chi tiết phép chứng minh Định lý 4.35.
4.2.3
Đặc trưng đạo hàm
Định lý 4.36 (gradient inequality). Cho f là hàm khả vi liên tục trên một tập mở Ω chứa
tập lồi C ̸= ∅. Khi đó, các phát biểu sau đây là đúng.
1. Hàm f lồi trên C nếu và chỉ nếu
f ( x ) + ∇ f ( x )T (y − x ) ⩽ f (y)
đúng cho mọi x, y ∈ C.
(4.40)
Chương 4. Cơ sở giải tích lồi
50
2. f là hàm lồi ngặt trên C khi và chỉ khi bất đẳng thức ngặt
f ( x ) + ∇ f ( x )T (y − x ) < f (y)
(4.41)
xảy ra với mọi x ̸= y ∈ C.
Chứng minh.
Nhận xét 4.37. Về mặt hình học, bất đẳng thức (4.40) có thể phát biểu lại dưới dạng
sau đây: "nếu f là hàm lồi thì siêu phẳng tiếp xúc với đồ thị tại mỗi điểm khảo sát
đều phải "nằm dưới" đồ thị hàm số và ngược lại". Tương tự, một hàm lồi ngặt thì tại
mỗi điểm siêu phẳng tiếp xúc nằm dưới đồ thị và chỉ gặp đồ thị tại chính điểm đó.
Định lý 4.36 có một hệ quả ngay lập tức rất quan trọng: điểm dừng của hàm lồi
sẽ là cực tiểu toàn cục.
Định lý 4.38. Cho f là hàm lồi khả vi liên tục trên một tập lồi mở Ω. Khi đó nếu ∇ f ( x ∗ ) =
0 thì x ∗ cũng đồng thời là cực tiểu toàn cục của f trên Ω.
Chứng minh. Áp dụng bất đẳng thức (4.40) cho x = x ∗ .
Nhận xét 4.39. Định lý 4.38 cho thấy tính chất tốt của tính lồi trong bài toán cực trị
không ràng buộc. Cụ thể hơn, có thể nói rằng khi hàm mục tiêu lồi điều kiện cần tối
ưu cũng đồng thời là điều kiện đủ, và hơn nữa, cực trị địa phương và cực trị toàn
cục là như nhau.
Phần còn lại của mục này chúng tôi đưa ra một số đặc trưng quan trọng của tính
lồi thông qua tính chất của bản thân các đạo hàm. Người ta nói một hàm vector
F : Ω −→ Rm là monotone nếu
⟨ F ( x ) − F (y), x − y⟩ ⩾ 0; ∀ x, y ∈ Ω.
(4.42)
Khi đẳng thức trong (4.42) chỉ xảy ra trong trường hợp x = y hàm F sẽ được nói là
monotone ngặt.
Định lý 4.40 (monotonicity of gradient). Cho f là hàm số khả vi liên tục và C là tập lồi.
Khi đó
1. f lồi trên C nếu và chỉ nếu gradient của nó là monotone trên C;
2. f là hàm lồi ngặt trên C nếu và chỉ nếu ∇ f là hàm monotone ngặt trên C.
Chứng minh.
Định lý 4.41. Cho f là hàm số khả vi bậc hai và C là tập lồi. Khi đó
1. f lồi trên C nếu và chỉ nếu với mỗi x ∈ C Hessian ∇2 f ( x ) là ma trận nửa xác định
dương;
4.2 Hàm lồi
51
2. nếu ∇2 f ( x ) ≻ 0 với mọi x ∈ C thì f là lồi ngặt trên C;
3. f lồi mạnh với hệ số λ > 0 trên C nếu và chỉ nếu ∇2 f ( x ) − λI ≽ 0 với mọi x ∈ C.
Chứng minh.
Ví dụ 4.42 (log-sum-exp function). Hàm log-sum-exp được cho bởi quy tắc
f ( x ) = ln e x1 + · · · + e xn .
(4.43)
Khi đó Hessian của f có thể viết dưới dạng (xem Beck, 2014, Example 7.14)
∇2 f ( x ) = diag(w) − ww T , wi =
e xi
.
e x1 + · · · + e x n
(4.44)
Sử dụng tiêu chuẩn đạo hàm bậc hai (Định lý 4.41) ta kiểm tra được f là lồi ngặt.
4.2.4
Phép toán bảo toàn tính lồi
Mệnh đề 4.43 (preservation under summation and multiplication). Cho trước tập lồi
không trống C.
1. Nếu f là hàm lồi trên C và α > 0 thì hàm f α (·) = α f (·) cũng lồi trên C.
2. Nếu các hàm f 1 , . . . , f k đều là lồi trên C thì tổng của chúng f = f 1 + · · · + f k cũng
là hàm lồi trên C.
Chứng minh. Sử dụng định nghĩa hàm lồi.
Mệnh đề 4.44 (linear change of variables). Cho trước tập lồi không trống C ⊂ Rn . Xét
phép đổi biến affine x = Ay + b, với A ∈ Rn×m và b ∈ Rn . Khi đó nếu f là hàm lồi trên C
thì hàm hợp thành g(y) = f ( Ay + b) lồi trên tập
D := y | Ay + b ∈ C .
(4.45)
Chứng minh. Kiểm tra trực tiếp bằng định nghĩa tính lồi.
Ví dụ 4.45 (quadratic-over-linear). Có thể kiểm tra được (Beck, 2014, Example 7.18)
hàm
∥ x ∥2
f : ( x, t) ∈ Rn+1 7−→
(4.46)
t
là lồi trên tập C = Rn × (0, +∞). Áp dụng Mệnh đề 4.44, với các dữ kiện A ∈ Rn×m ,
b ∈ Rn , c ∈ Rm \ {0} và d ∈ R hàm
g : y ∈ Rm 7−→
lồi trên tập D = y ∈ Rm | c T y + d > 0 .
∥ Ay + b∥2
cT y + d
(4.47)
Chương 4. Cơ sở giải tích lồi
52
Bài toán 4.11. Làm rõ chi tiết các khẳng định trong Ví dụ 4.45.
Mệnh đề 4.46 (composition with convex function). Cho f là hàm lồi trên một tập lồi C
và g là hàm số một biến xác định một khoảng I ⊂ R sao cho hợp thành g ◦ f được xác định
trên C. Khi đó, nếu g là hàm lồi và đơn điệu không giảm thì hợp thành g ◦ f cũng là hàm lồi.
Chứng minh. Kiểm tra dựa vào định nghĩa hàm lồi và tính đơn điệu của g.
Mệnh đề 4.47 (pointwise maximum of convex functions). Cho f j
hàm lồi và
T
j∈ J
j∈ J
là một họ các
dom( f j ) ̸= ∅. Khi đó hàm lấy maximum từng điểm
(4.48)
f ( x ) := sup f j ( x )
j∈ J
cũng là một hàm lồi.
4.2.5
4.3
Dáng điệu địa phương và toàn cục
Bài toán quy hoạch lồi
4.3.1
Khái niệm và ví dụ
Một bài toán quy hoạch lồi (hay gọn hơn, bài toán lồi) nói chung có dạng tìm cực tiểu
của một hàm mục tiêu lồi trên một tập lồi đóng
min f ( x )
s.t. x ∈ C,
(4.49)
ở đó C ⊂ Rn là tập lồi đóng không trống và f là hàm lồi trên C. Thường thì miền tìm
kiếm C được cho tường minh dưới dạng một hệ ràng buộc. Do vậy, thay cho dạng
ẩn (4.49), ta sẽ làm việc với phát biểu tường minh của bài toán lồi như trong định
nghĩa sau.
Định nghĩa 4.48. Một bài toán lồi có thể được phát biểu dưới dạng toán học
min
f (x)
s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; h j ( x ) = 0; j = 1, . . . , p;
(4.50)
ở đó f , gi : Rn −→ R là những hàm lồi và h j : Rn −→ R là hàm affine.4 Tập hợp
(
Feas =
x ∈ Rn
gi ( x ) ⩽ 0; ∀i = 1, . . . , m;
h j ( x ) = 0; ∀ j = 1, . . . , p
được gọi là miền khả thi của bài toán (4.50).
4ở
đây ta hiểu một hàm số h là affine nếu cả h và −h đều là hàm lồi
)
(4.51)
4.3 Bài toán quy hoạch lồi
53
Trong bài toán lồi dạng (4.50), f là hàm mục tiêu, gi là các hàm ràng buộc bất
đẳng thức và h j là những hàm ràng buộc đẳng thức. Tương tự như trường hợp tối
ưu không ràng buộc ở Chương 2, ta cũng có các khái niệm về điểm cực trị (cực
đại, cực tiểu) địa phương/toàn cục, ở đó miền khảo sát Ω trùng với tập Feas cho
bởi (4.51).
Đối với bài toán tối ưu dạng tường minh (4.50), sự có mặt của tính lồi đưa đến một
đặc tính rất tốt: cực trị địa phương cũng đồng thời là toàn cục.
Định lý 4.49 (local vs global optimum). Cho f là hàm lồi trên một tập lồi C trong Rn .
Giả sử x ∗ ∈ C là một cực tiểu địa phương của f trên C. Khi đó, x ∗ cũng đồng thời là cực
tiểu toàn cục của f trên C.
Chứng minh.
Định lý 4.50. Giả thiết f là hàm lồi ngặt trên tập lồi C và x ∗ ∈ C là một cực tiểu địa
phương của f trên C. Khi đó, x ∗ cũng đồng thời là cực tiểu toàn cục ngặt của f trên C. Hơn
nữa, cực tiểu toàn cục (nếu có) là duy nhất.
Sau đây ta xét một số ví dụ về một số lớp bài toán lồi quan trọng thường gặp.
Quy hoạch tuyến tính. Đây là một lớp đặc biệt mà ở đó hàm mục tiêu lẫn ràng
buộc đều là affine. Dạng phát biểu tổng quát của nó là
min
s.t.
cT x
Ax ⩽ b,
Bx = g,
(LP)
ứng với các dữ kiện c ∈ Rn , b ∈ Rm , g ∈ R p và A ∈ Rm×n , B ∈ R p×n . Lúc này miền
khả thi là một tập lồi đa diện, và lời giải tối ưu, nếu có, sẽ đạt được tại một điểm cực
biên của nó (xem Ferris et al., 2007).
Quy hoạch toàn phương lồi
Đó là những bài toán tối ưu mà có thể phát biểu dưới dạng chung
min x T Qx + 2b T x
s.t.
Ax ⩽ c.
(4.52)
Trong mô hình (4.52), ma trận nửa xác định dương Q ∈ Rn×n , ma trận A ∈ Rm×n
cùng với vectơ b ∈ Rn và c ∈ Rm là những dữ kiện đã biết. Một ví dụ tiêu biểu
của nó được thấy xuất hiện trong việc giải bài toán phân loại tuyến tính (linear
classification, xem Beck, 2014).
Chương 4. Cơ sở giải tích lồi
54
Quy hoạch toàn phương ràng buộc toàn phương lồi
Bài toán toàn phương ràng buộc toàn phương hay QCQP là bài toán tối ưu có dạng
min
s.t.
x T A0 x + 2b0T x + c0
x T Ai x + 2biT x + ci ⩽ 0,
x T A j x + 2b Tj x + c j = 0,
i = 1, . . . , m,
j = m + 1, . . . , m + p.
(QCQP)
Khi mà mọi ràng buộc đẳng thức trở thành tầm thường, (A j = 0, b j = 0 và c j = 0)
và mọi Ai đều là nửa xác định dương, thì (QCQP) là một bài toán quy hoạch lồi.
4.3.2
Điểm dừng trong bài toán lồi
Khái niệm điểm dừng ở đây là một sự phát triển tự nhiên từ khái niệm điểm dừng
đã khảo sát ở Chương 2.1. Ta bắt đầu với một định nghĩa của nó lấy từ Beck, 2014.
Định nghĩa 4.51. Xét bài toán lồi (4.50) với hàm mục tiêu f được giả thiết là khả vi
liên tục. Khi đó một điểm x ∗ ∈ C = Feas sẽ được gọi là điểm dừng của bài toán đang
xét nếu
∇ f ( x∗ )T ( x − x∗ ) ⩾ 0
(4.53)
đúng với mọi x ∈ C.
Nhận xét 4.52. Giả sử x ∗ ∈ int (C ) là điểm dừng theo Định nghĩa 4.51. Khi đó, bằng
cách xét x = x ∗ + tei (i = 1, . . . , n) với |t| > 0 đủ nhỏ ta đi đến kết luận ∇ f ( x ∗ ) T ei =
0, nghĩa là ∇ f ( x ∗ ) = 0. Lúc này, x ∗ cũng đồng thời là một điểm dừng của f theo
nghĩa đã xét ở Chương 2.1.
Ta đã biết, đối với bài toán tối ưu không ràng buộc nói chung, điểm dừng mới
chỉ là điều kiện cần (bậc nhất) cho tính tối ưu, trừ khi hàm mục tiêu lúc đó là hàm
lồi. Đối với bài toán lồi dạng (4.53), tính dừng chính là điều kiện cần và đủ tối ưu
bậc nhất.
Định lý 4.53. Xét bài toán lồi (4.50) với hàm mục tiêu f được giả thiết là khả vi liên tục.
Khi đó x ∗ là một nghiệm tối ưu toàn cục của bài toán nếu và chỉ nếu nó là điểm dừng.
Chứng minh.
Sau đây ta xét một số ví dụ áp dụng tính chất này của bài toán lồi.
Ví dụ 4.54. Xét trường hợp tập khả thi C bây giờ là Rn+ . (Chẳng hạn lấy gi ( x ) = − xi
và h j = δRn+ ). Bài toán (4.50) có dạng tường minh rất đơn giản
min
f (x)
s.t. xi ⩾ 0; i = 1, . . . , n.
(4.54)
4.3 Bài toán quy hoạch lồi
55
Sử dụng điều kiện cần và đủ tối ưu trong Định lý 4.53 và bằng một số thao tác kỹ
thuật, ta viết lại điều kiện dừng dưới dạng
∇ f ( x ) ⩾ 0, x ⩾ 0, x T ∇ f ( x ) = 0.
(4.55)
Đây là một trường hợp riêng của lớp các bài toán bù (complementarity). Chúng ta sẽ
bắt gặp lại điều kiện dạng này khi xét đến hệ KKT của bài toán ràng buộc nói chung
ở chương sau.
Ví dụ 4.55. Xét tình huống g( x ) = ∥ x ∥2 − 1 và h( x ) = 0. Miền khả thi C bây giờ là
hình cầu đơn vị B. Điều kiện tối ưu tương ứng
∇ f ( x )T (y − x ) ⩾ 0, ∀∥y∥ ⩽ 1.
(4.56)
Có thể chứng minh được (xem Beck, 2014) lúc đó ∇ f ( x ) = 0 hoặc ∥ x ∥ = 1 và
−∇ f ( x ) ∈ R+ x.
4.3.3
Phép chiếu trực giao
Ta đã biết ở các phần trước với một tập đóng không trống S ⊂ Rn và điểm x ∈ Rn
bất kỳ bài toán
1
∥ x − y∥2 s.t. y ∈ S
(4.57)
min
2
luôn có nghiệm tối ưu. Một nghiệm tối ưu như vậy gọi là hình chiếu của x lên S.
Định lý 4.56 (projection). Xét trường hợp S = C là một tập lồi đóng. Khi đó bài toán (4.57)
có một nghiệm tối ưu duy nhất, và phép đặt tương ứng
PrC : x ∈ Rn 7−→ PrC ( x ) = nghiệm tối ưu bài toán (4.57).
(4.58)
là một ánh xạ đơn trị. Ánh xạ đó gọi là phép chiếu lên tập lồi đóng C.
Chứng minh. Sử dụng tính lồi ngặt của hàm chuẩn Euclid bình phương.
Định lý sau đây đưa ra đặc trưng cần và đủ cho hình chiếu của một điểm lên tập
lồi đóng.
Định lý 4.57 (characterization of projection). Cho C là tập lồi đóng không trống trong
Rn và một điểm x ∈ Rn . Khi đó, điểm y ∈ C là hình chiếu của x lên C nếu và chỉ nếu bất
đẳng thức
⟨ x − y, z − y⟩ = ( x − y)T (z − y) ⩽ 0
đúng cho mọi z ∈ C.
Chứng minh. Áp dụng điều kiện tối ưu trong Định lý 4.53.
(4.59)
Chương 4. Cơ sở giải tích lồi
56
Nhận xét 4.58. Về mặt hình học, điều kiện (4.59) tương đương với sự kiện: góc tạo
bởi hai vector x − y và z − y là không nhọn. Chú ý rằng tập hợp
u | u T (z − y) ⩽ 0, ∀z ∈ C .
(4.60)
có dạng là một nón lồi đóng, còn gọi là nón pháp tuyến (hay normal cone) của tập lồi
C tại điểm y ∈ C. Như vậy, y = PrC ( x ) chỉ khi x − y là một phần tử của nón biểu
diễn bởi (4.60).
Ví dụ 4.59 (nonnegative orthant). Xét tình huống đặc biệt C = Rn+ là một nón lồi
đóng. Hình chiếu PrC ( x ) là nghiệm bài toán lồi
min 12 ∑i ( xi − yi )2
s.t. y1 , . . . , yn ⩾ 0.
(4.61)
Sử dụng đặc trưng trong Định lý 4.57 có thể kiểm chứng được (xem Beck, 2014,
Example 8.9)
h
iT
PrC ( x ) = [ x1 ]+ · · · [ xn ]+ ,
(4.62)
ở đó ký hiệu [t]+ =
t+|t|
2
là phần không âm của số thực t.
Ví dụ 4.60 (unit ball). Cho C = B là hình cầu đơn vị đóng thì hình chiếu PrC ( x ) là
lời giải bài toán
min
s.t.
1
2
∑ i ( x i − y i )2
∑i y2i ⩽ 1.
(4.63)
Thực hiện theo chỉ dẫn trong Beck, 2014, Example 8.11 ta đi đến kết luận

 x,
nếu ∥ x ∥ ⩽ 1
PrC ( x ) =
 x/∥ x ∥, ngoài ra.
(4.64)
Để kết thúc mục này, chúng tôi trình bày một kết quả đáng chú ý sau đây, cho
phép biểu diễn điều kiện dừng trong bài toán lồi thông qua phép chiếu.
Định lý 4.61. Cho f là một hàm thuộc lớp C1 sao cho f là lồi trên một tập lồi đóng C ⊂ Rn .
Khi đó, x ∗ là một điểm dừng của bài toán cực trị ràng buộc
min f ( x )
s.t. x ∈ C
(4.65)
nếu và chỉ nếu đẳng thức
x ∗ = PrC x ∗ − s∇ f ( x ∗ )
nghiệm đúng với một vô hướng s > 0 nào đó.
(4.66)
4.3 Bài toán quy hoạch lồi
4.3.4
57
Ứng dụng phép chiếu: tách các tập lồi
Ta bắt đầu bằng một kết quả phân biệt một điểm và một tập lồi đóng từ HiriartUrruty and Lemaréchal, 2001. Phép chứng minh của nó dựa trên cơ sở đặc trưng
hình chiếu trong Định lý 4.57.
Bổ đề 4.62. Cho C ⊂ Rn là một tập lồi đóng không trống và x ̸∈ C. Khi đó, tồn tại vector
p ̸= 0 sao cho
p T x > sup p T y | y ∈ C .
(4.67)
Nói cách khác, tồn tại một siêu phẳng H = H p,α sao cho x và C nằm ở hai phía khác nhau
đối với H.
Chứng minh. Lấy p = x − PrC ( x ) và áp dụng Định lý 4.57.
Dưa vào bổ đề trên ta có thể chứng minh được kết quả tách hai tập lồi sau đây.
Mệnh đề 4.63. Cho C1 , C2 ⊂ Rn là hai tập lồi không có điểm chung với C1 compact và C2
là đóng. Khi đó, tồn tại vector p ̸= 0 sao cho
inf p T x | x ∈ C1 > sup p T y | y ∈ C2 .
(4.68)
Như vậy, tồn tại một siêu phẳng H sao cho C1 và C2 nằm ở hai phía khác nhau đối với H.
Chứng minh. Áp dụng Bổ đề 4.62 với x = 0 và C = C1 − C2 .
Nhận xét 4.64. Trên thực tế, người ta còn chứng minh được kết quả tách hai tập lồi
rời nhau bất kỳ trong Rn mà không cần đến giả thiết về tính đóng hay tính compact
của hai tập thành phần, xem Hiriart-Urruty and Lemaréchal, 2001.
Tính chất tách tập lồi cho phép thiết lập được kết quả quan trọng sau đây, còn
được gọi là định lý chọn, có ứng dụng trong nhiều lớp bài toán chứa ràng buộc
affine.
Định lý 4.65 (Farkas’s lemma). Cho trước các vector a(1) , . . . , a(k) , b ∈ Rn . Khi đó mọi
nghiệm của hệ
x T a(1) ⩽ 0, . . . , x T a(k) ⩽ 0
(4.69)
đều thỏa mãn x T b ⩽ 0 nếu và chỉ nếu hệ
b = y 1 a (1) + · · · + y k a ( k )
có nghiệm y ⩾ 0.
Chứng minh. Tham khảo Beck, 2014; Hiriart-Urruty and Lemaréchal, 2001.
(4.70)
Chương 4. Cơ sở giải tích lồi
58
4.3.5
Phương pháp chiếu gradient
Phương pháp này được thúc đẩy từ điều kiện dừng (4.66). Nói cách khá, đây có
thể xem như là một kỹ thuật lặp điểm bất động tìm kiếm một nghiệm của phương
trình (4.66).
Algorithm 7: Gradient Projection Method
Input: x (0) ∈ Rn
Output: Exit result
foreach k = 0, 1, 2, . . . do
// vòng lặp chính
Compute steepest descent direction d(k) = −∇ f ( x (k) );
Compute a stepsize tk by line-search ;
Update x (k+1) ← PrC ( x (k) + tk d(k) ), k ← k + 1;
if termination criterion then
// dừng vòng lặp
(
k
)
return x
end
end
Rõ ràng, khi C = Rn , Algorithm 7 quy về phương pháp gradient đã nghiên cứu
ở Chương 2. Lý thuyết về sự hội tụ của giải thuật dựa trên Algorithm 7 đã được
trình bày trong Beck, 2014, Chapter 9.
Bài tập
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University
Press.
Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with
matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society.
Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer
Berlin Heidelberg.
Chương 5
Lý thuyết tối ưu ràng buộc
text
source
Trong chương này chúng ta sẽ xem xét một số vấn đề về cơ sở lý thuyết bài toán tối
ưu ràng buộc. Bài toán quy hoạch lồi ở Chương 4 chính là một trường hợp riêng điển
hình. Ngoài ra, bài toán tối ưu không ràng buộc nghiên cứu ở Chương 2, 3 cũng có
thể xếp chung vào đây. Đầu tiên, trong mục 5.1, chúng tôi đưa ra phát biểu chung
và một số ví dụ đơn giản cho quy hoạch có ràng buộc. Điều kiện cần tối ưu bậc nhất
nói chung được trình bày trong mục 5.2. Tiếp theo, mục 5.3 khảo sát trường hợp bài
toán với ràng buộc tuyến tính. Điều kiện cần tối ưu bậc nhất (hệ KKT) sẽ được đề
cập ở mục 5.4, trong khi đó, các điều kiện tối ưu bậc hai là nội dung chính ở mục 5.5.
Phần cuối là một giới thiệu ngắn gọn về lý thuyết đối ngẫu Lagrange.
5.1
Phát biểu bài toán
Trong chương này, chúng ta sẽ làm việc với bài toán tối ưu có dạng tổng quát
min
f (x)
s.t. gi ( x ) ⩽ 0; i = 1, . . . , m;
h j ( x ) = 0; j = 1, . . . , p;
(5.1)
Trong mô hình trên, f là hàm mục tiêu; g1 , . . . , gm và h1 , . . . , h p là những hàm ràng
buộc. Ràng buộc gi ( x ) ⩽ 0 là ràng buộc bất đẳng thức, và h j ( x ) = 0 là những ràng
buộc đẳng thức. Để thuận tiện, nếu như không có giải thích gì thêm, chúng tôi mặc
định coi các hàm được đề cập là khả vi đến cấp cần thiết (thường là lớp C1 ), ít nhất
là trên một tập hợp mở nào đó đủ lớn.
Mô hình (5.1) rõ ràng là một sự tổng quát cho lớp bài toán lồi ở chương trước.
Ta vẫn thống nhất sử dụng ký hiệu Feas để chỉ miền khả thi (tập ràng buộc) của bài
59
Chương 5. Lý thuyết tối ưu ràng buộc
60
toán
(
Feas =
x ∈ Rn
gi ( x ) ⩽ 0; ∀i = 1, . . . , m;
h j ( x ) = 0; ∀ j = 1, . . . , p
)
.
(5.2)
Định nghĩa 5.1. Xét bài toán quy hoạch (5.1).
1. Vector x̂ ∈ Rn sẽ gọi là một nghiệm chấp nhận được hay phương án nếu nó thỏa
mãn mọi ràng buộc x̂ ∈ Feas.
2. Phương án x ∗ gọi là một nghiệm địa phương cho bài toán (5.1) nếu tồn tại một
lân cận N của x ∗ trong Rn sao cho
f (x) ⩾ f (x∗ )
(5.3)
với x ∈ Feas ∩ N bất kỳ.
3. x ∗ gọi là một nghiệm toàn cục nếu bất đẳng thức (5.3) xảy cho cho mọi x ∈ Feas.
Ví dụ 5.2.
Định nghĩa 5.3 (active inequality constraint). Cho x̂ là một phương án của bài toán
tối ưu dạng (5.1). Người ta nói ràng buộc bất đẳng thức gi ( x ) ⩽ 0 là active tại x̂ nếu
gi ( x̂ ) = 0.
5.2
Điều kiện cần tối ưu cơ bản
Định nghĩa 5.4 (tangent cone). Cho trước tập hợp Ω ⊂ Rn và một điểm x ∈ Ω. Một
vector v ∈ Rn sẽ gọi là tiếp xúc với Ω tại điểm x nếu tồn tại dãy vector v(k) và dãy vô
hướng tk > 0 sao cho
lim v(k) = v; lim tk = 0; x + tk v(k) ∈ Ω, ∀k.
k→∞
k→∞
(5.4)
Tập hợp các vector v như vậy gọi là nón tiếp xúc của Ω tại x, ký hiệu TΩ ( x ).
Nhận xét 5.5. Sử dụng định nghĩa có thể chứng minh được rằng TΩ ( x ) luôn là một
nón đóng. Khi x là một điểm trong của Ω thì TΩ ( x ) trùng với toàn bộ không gian
nền Rn . Trong trường hợp Ω là tập lồi thì
TΩ ( x ) = cl
λ(y − x ) | λ ⩾ 0, y ∈ Ω
(5.5)
như đã đề cập ở chuyên khảo Hiriart-Urruty and Lemaréchal, 2001.
Sử dụng khái niệm về nón tiếp xúc, ta có kết quả cơ bản về điều kiện cần tối ưu
bậc nhất như sau.
5.3 Bài toán ràng buộc tuyến tính
61
Định lý 5.6 (fundamental necessary optimality condition). Giả sử x ∗ ∈ Rn là một
nghiệm địa phương của bài toán tối ưu (5.1). Khi đó ta có
∇ f ( x ∗ )T v ⩽ 0,
∀v ∈ TFeas ( x ∗ ).
(5.6)
Nói cách khác, nói tiếp xúc TFeas ( x ∗ ) không chứa bất kỳ hướng giảm nào của f tại x.
Chứng minh. Tham khảo Nocedal and Wright, 2006, Theorem 12.3.
Định lý 5.6 cho ta một tiêu chuẩn cần để kiểm tra tính cực trị, dựa vào các vector
tiếp xúc. Để mô tả nón tiếp xúc của miền khả thi bài toán tối ưu (5.1) ta cần thêm
khái niệm về các hướng khả thi tuyến tính hóa.
Định nghĩa 5.7 (linearized feasible direction). Cho x là phương án của bài toán (5.1).
Một vector d ∈ Rn gọi là hướng khả thi tuyến tính hóa tại x nếu
∇ gi ( x )T d ⩽ 0, ∀ gi ( x ) = 0;
∇ h j ( x )T d = 0, ∀ j = 1, . . . , p.
(5.7)
Tập hợp những hướng như vậy ký hiệu là F ( x ).
Một cách nôm na, tập F ( x ) được sinh ra sau khi thay thế các ràng buộc active tại
x bởi xấp xỉ tuyến tính tương ứng tại x. Kết quả sau đây được trích từ Nocedal and
Wright, 2006.
Định lý 5.8. Tại mỗi một phương án x ta có
TFeas ( x ) ⊂ F ( x ).
(5.8)
[
(5.9)
Nếu thêm vào giả thiết hệ vector
∇ gi ( x ) | gi ( x ) = 0
∇ h j ( x ) | j = 1, . . . , p
là độc lập tuyến tính, thì bao hàm thức (5.8) xảy ra đẳng thức.
Nhưa vậy, khi hệ (5.9) là độc lập tuyến tính thì mỗi một vector tiếp xúc của miền
khả thi tại x đều được biểu thị thông qua gradient của các ràng buộc active. Điều
kiện độc lập tuyến tính này còn gọi là linearly independent constraint qualification hay
viết tắt LICQ.
5.3
Bài toán ràng buộc tuyến tính
Xuyên suốt mục này, ta giả sử bài toán đang xét chỉ chứa ràng buộc tuyến tính, nghĩa
là các hàm gi , h j affine. Lúc này, bao hàm thức (5.8) trở thành đẳng thức mà không
cần đến bất kỳ giả thiết thêm nào Nocedal and Wright, 2006, Lemma 12.7.
Chương 5. Lý thuyết tối ưu ràng buộc
62
Định lý 5.9 (optimality condition, linear constraints). Xét bài toán tối ưu ràng buộc
tuyến tính
min f ( x )
(5.10)
s.t. x T a(i) ⩽ bi , i = 1, . . . , m;
T
(
j
)
x c ⩽ d j , j = 1, . . . , p;
ở đó f là hàm C1 ; các vector a(i) , c( j) ∈ Rn cũng như vô hướng bi , d j ∈ R đã biết. Khi đó,
các phát biểu sau là đúng.
1. Nếu x ∗ là một nghiệm địa phương của bài toán thì tồn tại các nhân tử λ1∗ , . . . , λ∗m ⩾ 0
cũng với µ1∗ , . . . , µ∗p ∈ R sao cho hệ điều kiện
∇ f ( x ∗ ) + λ1∗ a(1) + · · · + λ∗m a(m) + µ1∗ c(1) + · · · + µ∗p c( p) = 0
λi∗ ( x ∗ ) T a(i) − bi = 0; i = 1, . . . , m
(5.11a)
(5.11b)
đồng thời xảy ra.
2. Giả thiết f là hàm mục tiêu lồi. Nếu tại phương án x ∗ hệ có nghiệm λ∗ ∈ Rm
+ và
∗
n
∗
µ ∈ R thì x là nghiệm (toàn cục) của bài toán (5.9).
Chứng minh.
Đối với bài toán (5.10) người ta đưa vào hàm Lagrange
L( x, λ, µ) := f ( x ) + ∑ λi x T a(i) − bi + ∑ µ j x T c( j) − d j
i
(5.12)
j
Khi đó, điều kiện (5.11a) trở thành
∇ x L( x ∗ , λ∗ , µ∗ ) = 0.
(5.13)
Một phương án nghiệm đúng hệ (5.11) trong Định lý 5.9 gọi là một điểm tới hạn của
bài toán (5.10).
Bài toán 5.1. Tìm các điểm tới hạn của bài toán
min x12 + 2x22 + 4x1 x2
s.t. x1 + x2 = 1
x1 , x2 ⩾ 0
(5.14)
sử dụng Định lý 5.9. Các điểm tìm được có là nghiệm địa phương/toàn cục hay
không?
5.4
Điều kiện tối ưu KKT
Kết quả chủ chốt của phần này là định lý sau đây.
5.4 Điều kiện tối ưu KKT
63
Định lý 5.10 (KKT). Xét bài toán tối ưu ràng buộc
min
f (x)
s.t. gi ( x ) ⩽ 0; i = 1, . . . , m;
h j ( x ) = 0; j = 1, . . . , p;
(5.15)
với hàm mục tiêu và các hàm ràng buộc đều là C1 . Giả thiết x ∗ ∈ Rn là một nghiệm địa
phương mà tại đó hệ vector
∇ gi ( x ∗ ) | gi ( x ∗ ) = 0
[
∇ h j ( x ∗ ) | j = 1, . . . , p
(5.16)
là độc lập tuyến tính. Khi đó, tồn tại các vô hướng λ1∗ , . . . , λ∗m ⩾ 0 cùng với µ1∗ , . . . , µ∗p ∈ R
sao cho hệ
p
∇ f ( x ) + ∑im=1 λi∗ ∇ gi ( x ) + ∑ j=1 µ∗j ∇ h j ( x ) = 0
(5.17)
λ1∗ g1 ( x ) = · · · = λ∗m gm ( x ) = 0
nghiệm đúng tại x = x ∗ .
Định nghĩa 5.11. Một phương án x̂ ∈ Rn được gọi là một điểm KKT của bài toán tối
ưu dạng (5.15) nếu nó thỏa mãn hệ (5.17).
Chú ý rằng điều kiện độc lập tuyến tính của hệ vector (5.16) không gì khác hơn
là LICQ đã đề cập trước đây. Như vậy, nghiệm tối ưu địa phương x ∗ mà tại đó LICQ
thỏa mãn nhất thiết phải là một điểm KKT.
Định nghĩa 5.12 (regularity). Ta nói phương án x̂ là chính quy nếu tại đó LICQ xảy
ra.
Bây giờ, bằng cách đưa vào hàm Lagrange
L( x, λ, µ) = f ( x ) + λ T g( x ) + µ T h( x ); x ∈ Rn , λ ∈ Rm , µ ∈ R p ;
(5.18)
điều kiện cần KKT có dạng đơn giản
∇ x L( x ∗ , λ∗ , µ∗ ) = 0, 0 ⩽ λ∗ ⊥ − gi ( x ∗ ) ⩾ 0.
(5.19)
Các biến λ, µ ở đây được gọi là nhân tử Lagrange ứng với bài toán đang xét. Hệ ràng
buộc (5.19) có nghĩa là: ứng với bộ nhân tử (λ∗ , µ∗ ), x ∗ là một điểm dừng của hàm
L(·, λ∗ , µ∗ ) thỏa mãn điều kiện bù 0 ⩽ λ∗ ⊥ − gi ( x ∗ ) ⩾ 0.
Bài toán 5.2. Xác định hệ KKT tương ứng với bài toán
min 2x1 + 3x2 − x3
s.t. x12 + x22 + x32 = 1
x12 + 2x22 + 3x32 = 2
và từ đây tìm các điểm KKT.
(5.20)
Chương 5. Lý thuyết tối ưu ràng buộc
64
Định lý 5.10 nhìn chung mới chỉ là điều kiện cần cho tính tối ưu. Tuy nhiên, đối
với các bài toán lồi hệ KKT cũng đồng thời là điều kiện đủ.
Định lý 5.13. Cho x ∗ là một phương án của bài toán quy hoạch ràng buộc (5.15) với
f , g1 , . . . , gm là những hàm lồi C1 và h j là affine. Giả sử hệ KKT (5.19) nghiệm đúng với x ∗
∗
p
∗
và λ∗ ∈ Rm
+ , µ ∈ R . Khi đó x là nghiệm tối ưu (toàn cục) của bài toán.
Chứng minh. Bởi tính affine của các h j , hàm L(·, λ∗ , µ∗ ) là lồi. Do
∇ x L( x ∗ , λ∗ , µ∗ ) = 0,
x ∗ là một điểm dừng của hàm lồi L(·, λ∗ , µ∗ ). Suy ra x ∗ là cực tiểu toàn cục của
L(·, λ∗ , µ∗ ). Khi đó, nếu x là một phương án thì ta có
m
f (x ) = f (x ) + ∑
∗
∗
p
λi∗ gi ( x ∗ ) +
i =1
∑ µ∗j h j (x∗ )
j =1
= L( x ∗ , λ∗ , µ∗ )
⩽ L( x, λ∗ , µ∗ )
⩽ f ( x ).
Vậy x ∗ thực sự là nghiệm tối ưu.
Nhận xét 5.14. Như vậy trong bài toán lồi, khi phương án là chính quy hệ KKT chính
là điều kiện cần và đủ cho tính tối ưu. Đối chiếu với điều kiện cần trong Định lý 5.10,
điều kiện đủ phát biểu ở Định lý 5.13 không đòi hỏi một điều kiện chính quy kiểu
LICQ. Đối với điều kiện cần, trong bài toán lồi, người ta còn xem xét một số kiểu
điều kiện chính quy khác nữa để đảm bảo hệ KKT xảy ra, chẳng hạn các điều kiện
Slater hay suy rộng (xem Beck, 2014).
5.5
Điều kiện tối ưu bậc hai
Để phát biểu các điều kiện tối ưu bậc hai cho bài toán dạng (5.1), ứng với mỗi
phương án chính quy x người ta định nghĩa tập
(
)
T
∇
g
(
x
)
d
=
0,
∀
g
(
x
)
=
0
i
i
Λ ( x ) = d ∈ Rn
(5.21)
∇ h j ( x )T d = 0, ∀ j = 1, . . . , p
Chú ý rằng đây là một nón lồi đóng, và còn được gọi là nón tới hạn của miền khả thi
tại điểm x.
Định lý 5.15 (second-order necessary condition). Giả thiết x ∗ là một nghiệm địa phương
chính quy của bài toán tối ưu (5.1). (Nhắc lại, tính chính quy nghĩa là LICQ được thỏa mãn.)
∗
p
Khi đó x ∗ là một điểm KKT ứng với bộ nhân tử λ∗ ∈ Rm
+ , µ ∈ R và hơn nữa ta có
d T ∇2xx L( x ∗ , λ∗ , µ∗ )d ⩾ 0,
∀ d ∈ Λ ( x ∗ ).
(5.22)
5.6 Đối ngẫu
65
Ở đây, L là hàm Lagrange (5.18) và ∇2xx L( x ∗ , λ∗ , µ∗ ) là Hessian của hàm L(·, λ∗ , µ∗ ) tại
x∗ .
Bài toán 5.3. Kiểm tra Định lý 5.15 với bài toán
min (2x1 − 1)2 + x22
s.t. −2x1 + x22 = 0.
(5.23)
Định lý mới chỉ là tiêu chuẩn cần có của tính tối ưu. Sau đây là điều kiện đủ tối
ưu bậc hai tương ứng trích từ Nocedal and Wright, 2006.
Định lý 5.16 (second-order sufficient condition). Giả sử x ∗ là một điểm KKT chính quy
và λ∗ ⩾ 0, µ∗ ∈ R p là các nhân tử tương ứng. Nếu
d T ∇2xx L( x ∗ , λ∗ , µ∗ )d > 0,
∀ d ∈ Λ ( x ∗ ) \ {0}
(5.24)
thì x ∗ là nghiệm địa phương ngặt của bài toán.
Nhận xét 5.17. Giả thiết mọi ràng buộc đẳng thức luôn đúng h j = 0 và x ∗ là một điểm
trong của miền khả thi Feas. Khi đó, có thể thấy rằng lúc này λ∗ = 0 (vì không có bất
kỳ ràng buộc bất đẳng thức nào là active). Hơn nữa, cũng từ đây suy ra Λ( x ∗ ) = Rn .
Khi đó các điều kiện cần và đủ trong hai định lý trên quy về các tiêu chuẩn tương
ứng trong bài toán không ràng buộc ở Chương 2.1.
5.6
5.6.1
Đối ngẫu
Mở đầu
Bài toán đối ngẫu (dual problem) có thể diễn giải như là một cách tiếp cận để tìm
kiếm các chặn cho giá trị của một bài toán tối ưu đã cho. Để minh họa, chúng tôi
dẫn ra đây một trường hợp riêng đã đề cập trong Beck, 2014.
Ví dụ 5.18. Xét bài toán quy hoạch ràng buộc
min x12 + x22 + 2x1
s.t. x1 + x2 = 0.
(P)
Để tìm các chặn dưới của giá trị mục tiêu tối ưu mà không phải giải trực tiếp (P),
người ta đưa vào tham số µ ∈ R và xét bài toán không ràng buộc
min x12 + x22 + 2x1 + µ( x1 + x2 )
(Pµ )
với biến tối ưu x1 , x2 . Rõ ràng, giá trị hàm mục tiêu tối ưu của (Pµ ) là một chặn dưới
của giá trị tương ứng trong bài toán (P). Bài toán không ràng buộc (Pµ ) có điểm
Chương 5. Lý thuyết tối ưu ràng buộc
66
dừng là x (µ) = [−1 − µ/2 −µ/2] T . Khi đó, ứng với mỗi µ, chặn dưới của giá trị
mục tiêu tối ưu của (P) là
q(µ) :=
−1−
µ 2 µ 2
µ
µ µ
+ −
+2 −1−
+µ −1− −
.
2
2
2
2
2
(5.25)
Chặn dưới tốt nhất có thể chính là giá trị
max q(µ), s.t. µ ∈ R.
(5.26)
(5.26) gọi là bài toán đối ngẫu của (P).
5.6.2
Lý thuyết bài toán đối ngẫu
Xét bài toán quy hoạch ràng buộc nói chung dạng
min f ( x )
s.t. gi ( x ) ⩽ 0; i = 1, . . . , m;
h j ( x ) = 0; j = 1, . . . , p;
x ∈ Ω;
(5.27)
ở đó hàm mục tiêu f cũng như ràng buộc gi , h j xác định trên miền không trống
Ω ⊂ Rn . Mô hình (5.27) sẽ gọi là bài toán gốc (primal). Hàm Lagrange liên kết với bài
toán (5.27) được xác định bởi
m
p
i =1
j =1
L( x, λ, µ) := f ( x ) + ∑ λi gi ( x ) + ∑ µ j h j ( x ) = f ( x ) + λ T g( x ) + µ T h( x ).
(5.28)
Ở đây, λi ∈ R+ là các nhân tử Lagrange tương ứng với ràng buộc bất đẳng thức
gi ( x ) ⩽ 0, và µ j ∈ R là nhân tử ứng với ràng buộc đẳng thức g j ( x ) = 0. Hàm mục
tiêu đối ngẫu của (5.27) là phiếm hàm
q(λ, µ) = inf L( x, λ, µ).
x ∈Ω
(5.29)
Miền hữu hiệu dom(q) bây giờ là tập hợp tất cả nhân tử λ, µ mà q(λ, µ) là hữu hạn
p
dom(q) = (λ, µ) ∈ Rm
+ × R | q ( λ, µ ) > − ∞ .
(5.30)
Bài toán đối ngẫu (dual) của (5.27) có dạng
max q(λ, µ)
s.t. (λ, µ) ∈ dom(q).
Định lý 5.19. Hàm mục tiêu đối ngẫu q trong (5.31) có các tính chất sau đây:
1. dom(q) là một tập lồi;
(5.31)
5.6 Đối ngẫu
67
2. q là hàm lõm (tức là −q lồi) trên dom(q).
Định lý 5.20 (weak duality theorem). Xét cặp bài toán primal-dual mô tả bởi (5.27)
và (5.31). Ký hiệu f ∗ và q∗ lần lượt là giá trị mục tiêu tối ưu của (5.27) và (5.31). Khi đó ta
có bất đẳng thức
q∗ ⩽ f ∗ .
(5.32)
Ví dụ 5.21.
5.6.3
Đối ngẫu trong bài toán lồi
Ta bắt đầu với một kết quả trung gian quan trọng sau đây.
Bổ đề 5.22 (nonlinear Farkas lemma). Cho Ω ⊂ Rn là một tập lồi và f , g1 , . . . , gm là
những hàm lồi trên Ω. Giả thiết tồn tại một x̂ ∈ Ω sao cho
g1 ( x̂ ) < 0, g2 ( x̂ ) < 0, . . . , gm ( x̂ ) < 0.
(5.33)
Cho số thực η tùy ý. Khi đó, hai phát biểu sau đây là tương đương.
1. Mọi nghiệm của hệ ràng buộc
x ∈ Ω, g1 ( x ) ⩽ 0, . . . , gm ( x ) ⩽ 0
(5.34)
đều thỏa mãn bất phương trình f ( x ) ⩾ η.
2. Tồn tại các vô hướng λ1 , . . . , λm ⩾ 0 sao cho
(
m
inf
x ∈Ω
f ( x ) + ∑ λ i gi ( x )
)
⩾ η.
(5.35)
i =1
Chứng minh. Tham khảo phép chứng minh của Theorem 12.7 trong Beck, 2014.
Bài toán 5.4. Suy ra Farkas lemma (Định lý 4.65) từ kết quả Bổ đề 5.22.
Bổ đề cho phép thiết lập kết quả sau đây, gọi là định lý đối ngẫu mạnh đối với bài
toán quy hoạch lồi.
Định lý 5.23 (strong duality). Xét bài toán quy hoạch ràng buộc
min f ( x )
s.t. gi ( x ) ⩽ 0; i = 1, . . . , m;
x ∈ Ω;
(5.36)
với gi là hàm lồi trên tập lồi đóng Ω ⊂ Rn . Giả sử tồn tại một x̂ ∈ Ω mà gi ( x̂ ) < 0 cho mọi
i = 1, . . . , m. Thêm vào đó, giải thiết rằng bài toán (5.36) có giá trị tối ưu hữu hạn f ∗ . Khi
đó bài toán đối ngẫu
max q(λ) := infx∈Ω L( x, λ)
(5.37)
s.t.
λ ∈ dom(q)
có lời giải tối ưu và giá trị tối ưu q∗ = f ∗ .
Sau đây, chúng ta áp dụng lý thuyết về đối ngẫu vào một số trường hợp riêng
quan trọng thường gặp của mô hình tối ưu lồi tổng quát.
Chương 5. Lý thuyết tối ưu ràng buộc
68
Quy hoạch tuyến tính.
thức
Xét bài toán quy hoạch tuyến tính với ràng buộc bất đẳng
min c T x
s.t. Ax ⩽ b,
(5.38)
với các dữ kiện ban đầu c ∈ Rm×n , c ∈ Rn và b ∈ Rm . Hàm Lagrange bây giờ có
dạng
L( x, λ) = c T x + λ T (Ax − b), λ ∈ Rm
+.
(5.39)
Hàm mục tiêu đối ngẫu
o
q(λ) = infn c T x + λ T (Ax − b) =
x ∈R

λ T b,
nếu A T λ − c = 0
−∞,
ngoài ra,
,
(5.40)
và vì thế bài toán đối ngẫu tương ứng là
max λ T b
s.t. A T λ − c = 0,
λ ⩾ 0.
(5.41)
Bài toán 5.5. Nghiệm lại các biểu diễn (5.40) và (5.41) ở trên. Sử dụng kết quả đó tìm
bài toán đối ngẫu của mỗi một bài toán QHTT dưới đây1
• bài toán dạng standard
min c T x
s.t. Ax ⩾ b,
x ⩾ 0;
• bài toán dạng canonical
min c T x
s.t. Ax = b,
x ⩾ 0.
Quy hoạch toàn phương lồi. Xét bài toán quy hoạch toàn phương
min 21 x T Qx + q T x + α
s.t. Ax ⩽ b,
(5.42)
ở đó Q ∈ Rn×n xác định dương, q ∈ Rn , A ∈ Rm×n , b ∈ Rm . Ham Lagrange ứng
với bài toán (5.42) có dạng
L( x, λ) =
1 các
1 T
x Qx + q T x + α + λ T (Ax − b).
2
thuật ngữ lấy theo Ferris et al., 2007
(5.43)
5.6 Đối ngẫu
69
L(·, λ) là hàm lồi ngặt nên cực tiểu toàn cục của nó là điểm dừng x ∗ , nghiệm đúng
phương trình
0 = ∇ x L( x, λ) = Qx + q + A T λ.
(5.44)
Vậy hàm mục tiêu đối ngẫu
1
1
T
q(λ) = L( x ∗ , λ) = − λ T (AQ−1 A T )λ − (AQ−1 q) λ − q T Q−1 q + α.
2
2
(5.45)
Bài toán đối ngẫu
T
max − 21 λ T (AQ−1 A T )λ − (AQ−1 q) λ − 12 q T Q−1 q + α
s.t. λ ⩾ 0.
(5.46)
Bài toán 5.6. Nghiệm lại các biểu diễn (5.45) và (5.46) ở trên. Vận dụng điều đó khảo
sát bài toán sau đây: tìm biểu thức hình chiếu PrC ( x ), ở đó C là đa diện
C = u | Au ⩽ b .
Bài tập
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with
matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society.
Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer
Berlin Heidelberg.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
70
Chương 5. Lý thuyết tối ưu ràng buộc
Tài liệu tham khảo
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University
Press.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
1
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những
nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
Rudin, W. (1976). Principles of mathematical analysis (3rd ed.). McGrawHill.
2
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
71
72
Tài liệu tham khảo
Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những
nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội.
3
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University
Press.
Dennis, J. J. E., & Moré, J. J. (1977). Quasi-Newton methods, motivation and theory.
SIAM Review. https://doi.org/10.1137/1019005
Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press.
Nesterov, Y. (2018). Lectures on convex optimization (2nd, Vols. 137). Springer International Publishing.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
4
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University
Press.
Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with
matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society.
Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer
Berlin Heidelberg.
5
Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical
Optimization Society.
Tài liệu tham khảo
73
Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with
matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society.
Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer
Berlin Heidelberg.
Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New
York, NY.
74
Tài liệu tham khảo
Chỉ mục
backtracking, 23
bao lồi, 42, 43
đóng, 43
bao nón lồi, 43
bao đóng, 7
biên, 7
bài toán
gốc, 66
quy hoạch lồi, 52
bài toán bù, 55
chuẩn
ma trận, 5
Frobenius, 6
phổ, 6
vector, 5
cơ sở, 2
chính tắc, 2
cỡ bước, 22
cực tiểu
toàn cục, 11
ngặt, 11
địa phương, 12
ngặt, 12
cực trị
toàn cục, 11
cực đại
toàn cục, 11
ngặt, 11
địa phương, 12
ngặt, 12
dãy, 8
giá trị
riêng, 6
giới hạn, 8
gradient, 9
Hessian, 10
hàm, 8
C1,1 , 28
C1,1 địa phương, 28
chính thường, 48
giá trị thực mở rộng, 48
monotone, 50
ngặt, 50
mục tiêu, 14
vector, 9
vô hướng, 8
hàm chỉ tiêu, 48
hàm log-sum-exp, 51
hàm lồi, 48
mạnh, 49
ngặt, 48
hàm mục tiêu, 1
đối ngẫu, 66
hình chiếu, 13, 55
hình cầu, 7
đơn vị
đóng, 7
hướng giảm, 21, 22
hướng lùi xa, 47
hướng Newton, 31
hội tụ
bậc hai, 32
75
Chỉ mục
76
Jacobian, 9
không gian Rn , 2
khả vi, 9
bậc hai, 10
liên tục, 9
hai lần, 10
LICQ, 61
line-search, 23
exact, 23
inexact, 23
liên tục
Lipschitz, 28
Lipschitz địa phương, 28
lân cận, 7
ma trận
chuyển vị, 3
chéo, 4
con, 3
không, 4
không xác định, 15
nửa xác định dương, 14
tam giác
dưới, 4
trên, 4
thực, 3
trực giao, 6
vuông, 3
xác định dương, 14
đơn vị, 4
đối xứng, 3
miền hữu hiệu, 48
miền khả thi, 2, 11, 52
mặt cầu, 7
đơn vị, 7
mục tiêu
lồi mạnh, 33
lớp C1,1 , 30
lớp C2 , 32
nhân tử, 62
nón, 40
lùi xa, 47
lồi, 40
lồi đóng, 40
nón Lorenz, 41
nón pháp tuyến, 56
nón tới hạn, 64
phép chiếu, 55
phương pháp
gradient, 21
Newton, 21
quasi-Newton, 21
thuần Newton, 31
phương trình
dây cung, 35
phương án
chính quy, 63
chấp nhận được, 2
tối ưu, 1
phần trong, 7
phụ thuộc tuyến tính, 2
quy hoạch
toán học, ix, 1
ràng buộc, 1
active, 60
thuật toán
hội tụ toàn cục, 30
tối ưu, 1, 30
tiêu chuẩn dừng, 21
trên đồ thị, 48
tích
ma trận-ma trận, 4
ma trận-vector, 4
vô hướng, 4
tập
bị chặn, 8
compact, 8
Chỉ mục
mở, 8
đóng, 8
tập lồi, 40
mở, 40
đa diện, 41
đóng, 40
tối ưu, ix
không ràng buộc, 21
ràng buộc, 59
tổ hợp
affine, 42
conic, 42
lồi, 42
tổng Minkowski, 7
vector
cột, 2
vector riêng, 6
vector tiếp xúc, 60
vết, 6
ánh xạ
affine, 42
điều kiện Armijo, 23
điều kiện bức, 13
điều kiện cong, 35
điều kiện tối ưu, 1
điểm
biên, 7
trong, 7
điểm cực biên, 46
điểm dừng, 14, 54
yên ngựa, 16
điểm KKT, 63
điểm tới hạn, 62
đoạn thẳng, 40
đạo hàm, 9
bậc hai, 10
hướng, 8
riêng, 8
đạo hàm riêng
77
bậc hai, 10
định thức con
chính, 15
đối ngẫu, 65
đồ thị, 48
độc lập tuyến tính, 2
Download