TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA TOÁN & THỐNG KÊ Tài liệu môn học: LÝ THUYẾT TỐI ƯU (Dùng cho sinh viên ngành Toán) Huỳnh Văn Ngãi, Nguyễn Văn Vũ Bộ môn Toán ứng dụng - Thống kê Bình Định, 2021 Mục lục Mục lục iii Danh sách hình v Danh sách bảng vii 1 2 3 Mở đầu 1.1 Bài toán quy hoạch toán học . . . 1.2 Cơ sở đại số tuyến tính . . . . . . 1.2.1 Không gian Rn . . . . . . 1.2.2 Không gian Rm×n . . . . . 1.2.3 Chuẩn và tích trong . . . 1.2.4 Giá trị riêng, vector riêng 1.3 Cơ sở giải tích . . . . . . . . . . . 1.3.1 Topo cơ bản . . . . . . . . 1.3.2 Phép tính vi tích phân . . Tối ưu không ràng buộc 2.1 Khái niệm về cực trị . . . . . . . 2.2 Điều kiện tối ưu bậc nhất . . . . 2.3 Điều kiện tối ưu bậc hai . . . . 2.4 Điều kiện tối ưu toàn cục . . . . 2.5 Tối ưu hàm toàn phương . . . . 2.6 Bài toán bình phương tối thiểu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Một số phương pháp tối ưu không ràng buộc 3.1 Các phương pháp hướng giảm . . . . . . . . . 3.2 Phương pháp gradient . . . . . . . . . . . . . . 3.2.1 Hướng giảm nhanh nhất . . . . . . . . . 3.2.2 Số điều kiện và diagonal scaling . . . . 3.2.3 Phương pháp Gauss-Newton . . . . . . 3.2.4 Phân tích hội tụ phương pháp gradient 3.3 Phương pháp Newton . . . . . . . . . . . . . . iiiục lục iv 3.4 4 5 3.3.1 Hướng Newton . . . . . . . . 3.3.2 Phương pháp thuần Newton 3.3.3 Phương pháp Newton tắt dần Phương pháp quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cơ sở giải tích lồi 4.1 Tập lồi . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Khái niệm . . . . . . . . . . . . . . . . . . . . 4.1.2 Phép toán trên tập lồi. Bao lồi và bao nón lồi 4.1.3 Topo trên tập lồi . . . . . . . . . . . . . . . . 4.1.4 Điểm cực biên . . . . . . . . . . . . . . . . . . 4.1.5 Dáng điệu tiệm cận . . . . . . . . . . . . . . . 4.2 Hàm lồi . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Hàm nhận giá trị thực mở rộng . . . . . . . . 4.2.2 Hàm lồi . . . . . . . . . . . . . . . . . . . . . 4.2.3 Đặc trưng đạo hàm . . . . . . . . . . . . . . . 4.2.4 Phép toán bảo toàn tính lồi . . . . . . . . . . 4.2.5 Dáng điệu địa phương và toàn cục . . . . . . 4.3 Bài toán quy hoạch lồi . . . . . . . . . . . . . . . . . 4.3.1 Khái niệm và ví dụ . . . . . . . . . . . . . . . 4.3.2 Điểm dừng trong bài toán lồi . . . . . . . . . 4.3.3 Phép chiếu trực giao . . . . . . . . . . . . . . 4.3.4 Ứng dụng phép chiếu: tách các tập lồi . . . . 4.3.5 Phương pháp chiếu gradient . . . . . . . . . Lý thuyết tối ưu ràng buộc 5.1 Phát biểu bài toán . . . . . . . . . . 5.2 Điều kiện cần tối ưu cơ bản . . . . 5.3 Bài toán ràng buộc tuyến tính . . . 5.4 Điều kiện tối ưu KKT . . . . . . . . 5.5 Điều kiện tối ưu bậc hai . . . . . . 5.6 Đối ngẫu . . . . . . . . . . . . . . . 5.6.1 Mở đầu . . . . . . . . . . . . 5.6.2 Lý thuyết bài toán đối ngẫu 5.6.3 Đối ngẫu trong bài toán lồiài liệu tham khảo 73 Chỉ mục 77 Danh sách hình v vi Danh sách hình Danh sách bảng vii viii Lời tựa Lời tựa Nothing happens in the universe that does not have a sense of either certain maximum or minimum. L. Euler Giống như nội dung lời trích dẫn ở trên, lĩnh vực toán học nghiên cứu về các bài toán cực trị (một số thuật ngữ tương đương lý thuyết tối ưu, quy hoạch toán học) nảy sinh từ nhu cầu thực tiễn, và đã là một nhánh có lịch sử lâu đời. Để minh họa chúng tôi ghi lại đây nguyên văn một đoạn trích từ quyển chuyên khảo kinh điển Nocedal and Wright, 2006: “People optimize. Investors seek to create portfolios that avoid excessive risk while achieving a high rate of return. Manufacturers aim for maximum efficiency in the design and operation of their production processes. Engineers adjust parameters to optimize the performance of their designs. Nature optimizes. Physical systems tend to a state of minimum energy. The molecules in an isolated chemical system react with each other until the total potential energy of their electrons is minimized. Rays of light follow paths that minimize their travel time. ”. Bản thảo này hướng đến mục tiêu giúp người đọc tiếp cận một số vấn đề căn bản nhất về lý thuyết tối ưu trên không gian thực hữu hạn chiều. Đã có rất nhiều giáo trình cũng như chuyên khảo dành riêng cho chủ đề này, phù hợp với nhiều mức độ bạn đọc khác nhau, từ sinh viên đại học cho đến nghiên cứu viên chuyên sâu. Trong khuôn khổ ở đây, chúng tôi chọn trình bày dựa theo Beck, 2014, chỉ trừ ra một số ít nội dung rất chuyên biệt có tham khảo thêm từ các tài liệu Boyd and Vandenberghe, 2009 và Nocedal and Wright, 2006. Nội dung của bản thảo này được biên soạn dành cho sinh viên học viên các ngành/chuyên ngành Toán có liên quan hoặc có sử dụng công cụ từ tối ưu. Mặc dù tập thể biên soạn đã rất nỗ lực, nó không tránh khỏi còn đôi chỗ thiếu sót. Rất mong nhận được ý kiến đóng góp từ bạn đọc, cùng với quý thầy cô, đồng nghiệp và hy vọng rằng bản thảo sẽ phần nào có ích cho những ai quan tâm. ix x Lời tựa Các tác giả Chương 1 Mở đầu 1.1 Bài toán quy hoạch toán học Nói chung, tối ưu là một công cụ quan trọng trong khoa học quyết định cũng như trong việc phân tích các hệ vật lý. Quá trình tối ưu hóa (còn gọi là quy hoạch toán học) có thể được phân chia thành hai giai đoạn chính. Bước thứ nhất là thiết lập mô hình. Ở giai đoạn này, người ta sẽ xác định hàm mục tiêu (đại lượng đo đạc định lượng cho đặc tính của hệ thống đang nghiên cứu), biến của bài toán (là đặc trưng nào đó của hệ thống mà thông qua đó hàm mục tiêu được xác định), và các điều kiện ràng buộc (tức là những hạn chế đặt lên các biến). Tiếp theo sau đó là quá trình giải tìm ra phương án tối ưu. Bước này thường thường được thực hiện với sự trợ giúp của phần mềm toán học, bằng cách vận dụng một thuật toán tối ưu nhất định nào đấy. Sau khi thuật toán giải đã trả về một giá trị, trong rất nhiều tình huống, người ta sẽ dựa vào phát biểu toán học thích hợp, gọi là điều kiện tối ưu để kiểm tra xem liệu rằng ta đã đạt được nghiệm như mong muốn hay chưa. Nếu điều kiện tối ưu không được thỏa mãn, thì chúng có thể cung cấp nhiều thông tin về việc sai số hiện tại của phương án có thể được cải tiến như thế nào. Lúc này, người dùng có thể sẽ phải xem xét liệu có cần thiết phải áp dụng một chiến lược khác hay không. Một cách toán học, tối ưu hóa là cực tiểu hoặc cực đại một hàm mục tiêu thỏa mãn ràng buộc trên các biến của nó. Trên cơ sở các ký hiệu trong Nocedal and Wright, 2006 ta ngầm hiểu khi không chú thích thêm: • x là vector gồm các biến; • f là hàm mục tiêu, một hàm vô hướng của biến x; • c j là những hàm ràng buộc, chúng là hàm vô hướng của biến x định nghĩa các đẳng thức cũng như bất đẳng thức mà x phải thỏa mãn. Khi đó một bài toán tối ưu có thể viết dưới dạng min / max f ( x ) với điều kiện c j ( x ) = 0, j ∈ E , c j ( x ) ⩾ 0, j ∈ I . 1 (MP) Chương 1. Mở đầu 2 Trong phát biểu (MP), E và I tương ứng đại diện cho tập chỉ số của các ràng buộc đẳng thức hay bất đẳng thức. Tập hợp (có thể rỗng) ) ( c ( x ) = 0, ∀ j ∈ E ; (1.1) S f eas := x ∈ Rn j c j ( x ) ⩾ 0, ∀ j ∈ I gọi là tập các phương án chấp nhận được hay miền khả thi của bài toán (MP). Một nghiệm (lời giải) cho bài toán (MP) là phương án chấp nhận được sao cho giá trị hàm mục tiêu tại đó là nhỏ nhất (bài toán cực tiểu) hoặc lớn nhất (bài toán cực đại) có thể. 1.2 Cơ sở đại số tuyến tính Trong hầu hết nội dung ở đây chúng ta sẽ thường xuyên làm việc trên các phép toán và công cụ từ đại số tuyến tính. Mặc định những khái niệm cơ bản của đại số tuyến tính sẽ được xem như là quen thuộc, và ta sẽ biểu diễn các phép toán ma trận theo ký hiệu từ Golub and Van Loan, 2013. Đồng thời, hầu như bất kỳ lúc nào có thể, các quy tắc về cú pháp của phần mềm MATLAB sẽ được áp dụng. (Chú ý là điều tương tự cũng được tìm thấy ở cả hai chuyên khảo Beck, 2014 và Golub and Van Loan, 2013.) Để phân biệt, chỉ số của mỗi một phần tử thuộc một họ ma trận/vector sẽ viết dưới dạng chỉ số trên. 1.2.1 Không gian Rn Không gian Euclid Rn là tập hợp gồm các bộ n số thực được viết dưới dạng vector cột được trang bị phép toán cộng và nhân với vô hướng xác định theo từng thành phần x1 y1 x1 + y1 x1 λx1 . . .. .. + .. = , λ ... = ... . . xn yn xn + yn xn λxn Cơ sở chính tắc của Rn được tạo thành bởi các vector e1 , . . . , en , ở đó ei là vector cột mà thành phần thứ i bằng 1, còn lại là 0. Vector không vẫn ký hiệu là 0, trong khi đó e sẽ dùng để chỉ cho vector gồm toàn 1. Như vậy e = e1 + · · · + e n . (1.2) Hệ vector v(1) , . . . , v(k) ∈ Rn gọi là độc lập tuyến tính nếu đẳng thức λ 1 v (1) + · · · λ k v ( k ) = 0 (1.3) chỉ xảy ra khi λ1 = · · · = λk = 0. Trong tình huống ngược lại, nghĩa là (1.3) xảy ra với một λi ̸= 0 nào đó, hệ sẽ là phụ thuộc tuyến tính. Một hệ độc lập tuyến tính có đúng n vector sẽ tạo thành một cơ sở của không gian Rn , điển hình ở đây là hệ e1 , . . . , e n . 1.2 Cơ sở đại số tuyến tính 1.2.2 3 Không gian Rm×n Một ma trận thực A cỡ m × n là bảng hình chữ nhật gồm các số thực được xếp thành m hàng và n cột a11 · · · a1n . .. .. .. A= (1.4) . . . am1 · · · amn Ta sẽ sử dụng hàm MATLAB size(·) để xác định cỡ ma trận với m = size( A, 1) và n = size( A, 2). Phần tử aij nằm ở giao của hàng thứ i và cột thứ j đôi khi sẽ được viết là A(i, j). Khi m = n người ta nói đây là ma trận vuông. Vector hàng thứ i của ma trận A là một ma trận cỡ 1 × n h i A(i, : ) = ai1 · · · ain , (1.5) trong khi đó, vector cột thứ j của A, là ma trận cỡ m × 1 a1j . . A( : , j) = . . amj Ma trận con của A trích ra từ các hàng I = [i1 · · · ik ] và cột J = [ j1 · · · trận cỡ k × l A(i1 , j1 ) · · · A(i1 , jl ) .. .. .. . A( I, J ) = . . . A(ik , j1 ) · · · A(ik , jl ) (1.6) jl ] là ma (1.7) Tập hợp ma trận thực cỡ m × n cùng với phép toán cộng ma trận và phép toán nhân ma trận với vô hướng xác định theo từng phần tử một a11 · · · a1n b11 · · · b1n a11 + b11 · · · a1n + b1n . .. .. .. .. .. .. .. .. + ... = , (1.8) . . . . . . . am1 · · · amn bm1 · · · bmn am1 + bm1 · · · amn + bmn a11 · · · a1n λa11 · · · λa1n . . . .. . .. .. .. . λ .. (1.9) . . = . . am1 · · · amn λam1 · · · λamn tạo thành không gian vector Rm×n . Với một ma trận A ∈ Rm×n chuyển vị của nó là ma trận A T ∈ Rn×m sao cho A T (i, j) = A( j, i ). (1.10) Ma trận A gọi là đối xứng nếu A T = A. Một số (lớp) ma trận đặc biệt đã được mô tả chi tiết trong Golub and Van Loan, 2013. Chương 1. Mở đầu 4 • Ma trận không: 0m×n (hay đơn giản không có chỉ số dưới 0) là ma trận mà mọi phần tử đều bằng 0. • Ma trận đơn vị In (hay đơn giản I) là ma trận vuông mà phần tử (i, j) bằng 1 khi i = j và 0 cho mọi trường hợp còn lại. • Ma trận chéo diag(α1 , . . . , αk ) (hay diag(α1 · · · αk )) là ma trận cỡ k × k mà phần tử ở vị trí (i, i ) đúng bằng αi , còn lại đều là 0. • Ma trận tam giác trên là ma trận vuông mà các phần tử ở dưới đường chéo chính đều bằng 01 . Ma trận tam giác dưới có chuyển vị là dạng tam giác trên. Tích ma trận-vector và tích ma trận với ma trận sẽ là những phép toán quan trọng xuyên suốt các tính toán ở đây. Tích của ma trận A ∈ Rm×n với một ma trận cột V = [ v1 · · · T vn ] là ma trận cỡ m × 1 xác định bởi tổ hợp tuyến tính AV = v1 A( : , 1) + · · · + vn A( : , n). Tương tự tích của ma trận U = [u1 · · · trận cỡ 1 × n cho bởi (1.11) um ] cỡ 1 × m với ma trận A ∈ Rm×n là ma U A = u1 A(1, : ) + · · · + um A(m, : ). (1.12) Phép nhân hai ma trận A, B có nghĩa khi size( A, 2) = size( B, 1) và ma trận tích AB thỏa mãn ( AB)( : , j) = A · B( : , j), ( AB)(i, : ) = A(i, : ) B. (1.13) 1.2.3 Chuẩn và tích trong Tích vô hướng Định nghĩa 1.1 (inner product). Một tích vô hướng (inner product, scalar product) trên Rn là hàm ⟨·, ·⟩ : Rn × Rn −→ R thỏa mãn các yêu cầu sau đây: 1. ⟨ x, y⟩ = ⟨y, x ⟩ cho mọi x, y ∈ Rn ; 2. ⟨ x, y + z⟩ = ⟨ x, y⟩ + ⟨ x, z⟩ cho mọi x, y, z ∈ Rn ; 3. ⟨λx, y⟩ = λ⟨ x, y⟩ cho mọi x, y ∈ Rn ; 4. bất đẳng thức ⟨ x, x ⟩ ⩾ 0 luôn xảy ra, và đẳng thức ⟨ x, x ⟩ = 0 kéo theo x = 0. Một ví dụ điển hình được sử dụng rộng rãi là tích vô hướng Euclid cho bởi quy tắc ⟨ x, y⟩ := x T y. 1 Đường chéo chính là những phần tử có chỉ số hàng và cột như nhau (1.14) 1.2 Cơ sở đại số tuyến tính 5 Tổng quát hơn, có thể xét tích vô hướng có trọng n ⟨ x, y⟩w := ∑ wi x i y i . (1.15) i =1 tương ứng với họ trọng số wi > 0. Trong phạm vi ở đây, nếu không có giải thích gì thêm tích vô hướng Euclid sẽ được sử dụng như là mặc định. Chuẩn vector Định nghĩa 1.2 (norm). Một chuẩn vector trên Rn là hàm ∥·∥ : Rn −→ R thừa nhận các tính chất: 1. ∥ x ∥ ⩾ 0 cho mọi x ∈ Rn và đẳng thức ∥ x ∥ = 0 chỉ xảy ra khi x = 0; 2. ∥λx ∥ = |λ|∥ x ∥ cho mọi x ∈ Rn ; 3. ∥ x + y∥ ⩽ ∥ x ∥ + ∥y∥ cho mọi x, y ∈ Rn . Chuẩn vector hay gặp nhất là các chuẩn sau đây: • Chuẩn ∥·∥∞ ∥ x ∥∞ = max | x j |; (1.16) j=1,...,n • Chuẩn l p (với p ⩾ 1) ∥x∥ p = n ∑ |xj | p 1/p . (1.17) j =1 Trường hợp đặc biệt khi p = 2 ta có chuẩn Euclid, liên hệ với tích vô hướng (1.14) bởi q ∥x∥ = ⟨ x, y⟩. Tương tự như tích vô hướng, chuẩn l2 luôn được sử dụng trừ khi có chú thích khác. Chuẩn ma trận Định nghĩa 1.3. Một chuẩn trên Rm×n là hàm ∥·∥ : Rm×n −→ R có các tính chất tương tự như chuẩn vector, nghĩa là 1. ∥ A∥ ⩾ 0 và ∥ A∥ = 0 chỉ khi A = 0; 2. ∥λA∥ = |λ|∥ A∥ ; 3. ∥ A + B∥ ⩽ ∥ A∥ + ∥ B∥ . Chương 1. Mở đầu 6 Các chuẩn ma trận quan trọng và hay gặp nhất là chuẩn cảm sinh bởi phép toán tuyến tính: cho trước A ∈ Rm×n thì ∥ A∥ := sup ∥ Ax ∥ (1.18) ∥ x ∥=1 tương ứng với các chuẩn vector ∥·∥ trên Rm và Rn . Một vài chuẩn ma trận thường dùng: • Chuẩn phổ ∥ A∥2 = giá trị kỳ dị cực đại của A = q λmax ( A T A), (1.19) ở đó λmax (·) là hàm lấy giá trị riêng cực đại (xem mục sau) của ma trận. • Chuẩn ∥·∥1 m ∑ | A(i, j)|; j=1,...,n ∥ A∥1 = max (1.20) i =1 • Chuẩn ∥·∥∞ n ∥ A∥∞ = max ∑ | A(i, j)|; i =1,...,m j=1 (1.21) • Chuẩn Frobenius ∥ A∥2F = trace A T A = ∑ A(i, j)2 (1.22) i,j với trace(·) là hàm tính vết ma trận. 1.2.4 Giá trị riêng, vector riêng Xét một ma trận A ∈ Rm×n . Vector v ̸= 0 được gọi là một vector riêng của A nếu tồn tại vô hướng λ ∈ C sao cho Av = λv. (1.23) Vô hướng λ lúc đó sẽ gọi là một giá trị riêng của ma trận A. Các giá trị riêng của ma trận A thỏa mãn phương trình đặc trưng det( A − λI ) = 0, (1.24) ở đó det(·) là hàm trả về định thức của ma trận (vuông). Khi A là đối xứng, thì mọi giá trị riêng của nó đều là số thực theo kết quả sau đây. Định lý 1.4 (định lý phân tích phổ). Cho A ∈ Rn×n là ma trận đối xứng. Khi đó tồn tại ma trận trực giao U ∈ Rn×n và ma trận chéo D ∈ Rn×n sao cho A = U T DU. (1.25) Nhắc lại, ma trận vuông U gọi là trực giao (orthogonal) nếu U T U = UU T = I. Trong phân tích phổ ở (1.25), các phần tử chéo của D chính là giá trị riêng của A. 1.3 Cơ sở giải tích 1.3 7 Cơ sở giải tích Mục này nhắc lại một số khái niệm giải tích cơ bản trên không gian hữu hạn chiều. Cũng giống như các phần trước, chúng tôi giả định chúng là quen thuộc, và dành cho người đọc tham khảo, chẳng hạn Lục et al., 2002; Rudin, 1976. 1.3.1 Topo cơ bản Ta sẽ thường xuyên sử dụng phép toán đại số trên các tập hợp. Với hai tập con S và S′ cho trước trong Rn tổng (Minkowski) của chúng được định nghĩa là S + S′ = { x + x ′ | x ∈ S, x ′ ∈ S′ } (1.26) với quy ước S + S′ = ∅ khi có ít nhất một tập hợp thành phần là trống. Nếu S = { x } là một đơn tử, ký hiệu x + S′ sẽ được dùng thay cho S + S′ . Với một vô hướng λ, tích của nó với tập hợp S ̸= ∅ được xác định là λS = {λx | x ∈ S} (1.27) và λ∅ = ∅. Tổng quát hơn, nếu R ⊂ Rn thì tập RS là hợp của các tích λS với λ thay đổi trong R. Hình cầu và mặt cầu là những khái niệm chủ chốt để mô tả topo trên Rn . Hình cầu đơn vị đóng B của Rn là tập hợp B : = x ∈ Rn | ∥ x ∥ ⩽ 1 . (1.28) Biên (topo) của nó chính là mặt cầu đơn vị S : = x ∈ Rn | ∥ x ∥ = 1 . (1.29) Mở rộng của (1.28), hình cầu đóng tâm x bán kính r > 0 là tập hợp B( x, r ) := x + rB = y | ∥y − x ∥ ⩽ r . (1.30) Định nghĩa 1.5 (Điểm trong, điểm biên). Cho trước tập hợp (không trống) S ⊂ Rn . • Một điểm x ∈ S được gọi là điểm trong của S nếu tồn tại bán kính r > 0 sao cho B( x, r ) ⊂ S. Lúc đó người ta bảo rằng S là một lân cận của điểm x trong Rn . • x ∈ Rn sẽ gọi là một điểm biên của S nếu mọi lân cận N của x trong Rn đều có điểm chung với cả S lẫn Rn \ S. Họ tất cả các điểm trong gọi là phần trong (topo) của tập S, ký hiệu int (S). Tương tự, biên topo bd (S) của S là tập hợp tất cả những điểm biên. Bao đóng cl (S) của S là tập hợp gồm các điểm thuộc bản thân S và những điểm biên của nó. Chương 1. Mở đầu 8 Định nghĩa 1.6 (Tập mở, tập đóng). Ta nói một tập hợp S trong Rn là mở nếu mọi điểm thuộc nó đều là điểm trong. Tập hợp S được gọi là đóng nếu nó chứa tất cả các điểm biên. Tập đóng còn được miêu tả thông qua ngôn ngữ giới hạn. Một dãy các điểm x (k) được gọi là hội tụ về điểm x trong Rn , hay có giới hạn là x, nếu lim x (k) − x = 0. k→∞ Lúc đó người ta viết lim x (k) = x, hay tương đương x (k) → x. Khi đó, tập S là đóng k→∞ nếu và chỉ nếu giới hạn của mọi dãy mà các phần tử lấy từ S vẫn còn thuộc S. Khi một tập là đóng thì phần bù của nó sẽ là tập mở và ngược lại. Định nghĩa 1.7 (Tập bị chặn, tập compact). • Tập hợp S ⊂ Rn được gọi là bị chặn nếu nó được bao hàm trong một hình cầu, nghĩa là tồn tại số r > 0 mà S ⊂ rB. • Tập con S của Rn là compact nếu mọi dãy gồm các phần tử của nó đều chứa một dãy con hội tụ. Tính compact cho phép ta áp dụng các lập luận sử dụng giới hạn trên các dãy. Một tính chất rất quan trọng thường được sử dụng là phát biểu sau đây: Nếu tập hợp S ⊂ Rn bị chặn thì bao đóng của nó là compact. 1.3.2 Phép tính vi tích phân Một hàm (vô hướng, vector) F xác định trên một tập con không trống Ω ⊂ Rn được gọi là liên tục tại một điểm x ∈ Ω nếu Ω x (k) − → x =⇒ F ( x (k) ) → F ( x ), (1.31) Ω ở đó, ký hiệu x (k) − → x được hiểu là dãy gồm các phần tử x (k) ∈ Ω hội tụ về phần tử x (trong topo của Rn ). f được gọi là liên tục trên một tập Ω′ nào đó nếu nó liên tục tại mọi x ∈ Ω′ . Định nghĩa 1.8 (đạo hàm hướng). Cho f là hàm vô hướng định nghĩa trên một tập Ω ⊂ Rn và điểm x ∈ int (Ω). Nếu giới hạn lim t →0+ f ( x + td) − f ( x ) t (1.32) tồn tại thì nó được gọi là đạo hàm hướng của f lấy theo hướng d tại x, ký hiệu f ′ ( x; d). Khi d = e j là vector cơ sở chính tắc thứ j của Rn , thì f ′ ( x; d) được gọi là đạo hàm riêng thứ j (hay theo biến thứ j) của f tại x f ( x + te j ) − f ( x ) ∂f . ( x ) = lim+ ∂x j t t →0 (1.33) 1.3 Cơ sở giải tích 9 Nếu tất cả các đạo hàm riêng ∂f ∂x j ( x ) đều tồn tại, người ta định nghĩa gradient của f tại điểm khảo sát x là vector ∂f ∂x1 (x) . . ∇ f (x) = . . ∂f ∂xn ( x ) (1.34) Định nghĩa 1.9 (hàm số khả vi). Ta nói hàm số f : Ω −→ R là khả vi (Frechét) tại điểm x ∈ int (Ω) nếu gradient ∇ f ( x ) tồn tại và đồng thời f ( x + d) − f ( x ) − ∇ f ( x )T d = 0. lim ∥d∥ ∥d∥→0 (1.35) Lúc đó, đạo hàm của f tại x, ký hiệu f ′ ( x ), được xác định là phiếm hàm tuyến tính d 7−→ ∇ f ( x ) T d. Một hàm vector m-thành phần F = ( F1 , . . . , Fm ) sẽ gọi là khả vi nếu mỗi hàm vô hướng thành phần Fi khả vi. Đạo hàm của nó tại x lúc đó là ánh xạ tuyến tính F ′ ( x ) : Rn −→ Rm ∇ F1 ( x )T v .. . F ′ ( x )(v) = (1.36) . ∇ Fm ( x )T v Ma trận cỡ m × n ∇ F1 ( x )T .. JacF (·) = . ∇ Fm ( x )T gọi là Jacobian của F tại x. Phần tử thứ (i, j) của nó chính là đạo hàm riêng (1.37) ∂Fi ∂x j ( x ). F′ Đạo hàm sẽ gọi là liên tục tại điểm x nếu ánh xạ Jacobian JacF (·) là liên tục tại đó. Khi F ′ liên tục tại mọi x ∈ Ω người ta nói bản thân F là khả vi liên tục hay thuộc lớp C1 trên Ω. Mệnh đề 1.10 (chain rule). Cho hàm số f : X ⊂ Rn −→ R. Xét một hàm vector ϕ : Y ⊂ Rm −→ Rn sao cho hợp thành g = f ◦ ϕ được xác định trong một lân cận của điểm y ∈ Y. Nếu ϕ khả vi tại y trong khi f khả vi tại x = ϕ(y) ∈ X thì hàm hợp thành g cũng khả vi tại y và ∂f ∂ϕ ∂f ∂ϕn ∂g (1.38) (y) = (ϕ(y)) · 1 (y) + · · · + (ϕ(y)) · (y) . ∂yi ∂x1 ∂yi ∂xn ∂yi Dưới dạng ma trận, ta có ∇( f ◦ ϕ)(y)T = ∇ f (ϕ(y))T Jacϕ(y). (1.39) Chương 1. Mở đầu 10 Định nghĩa 1.11 (đạo hàm bậc hai). Giả sử hàm số f : Ω −→ R có đạo hàm trên một tập mở Ω. f được gọi là khả vi bậc hai tại điểm x ∈ Ω nếu hàm vector F = ∇ f (·) là khả vi tại x. Đạo hàm F ′ ( x ) bây giờ sẽ gọi là đạo hàm bậc hai của f tại x, ký hiệu f ′′ ( x ). Khi f ′′ xác định, Hessian của f tại x là ma trận ∇2 f ( x ) = Jac (∇ f )( x ) ∈ Rn×n . Phần tử ở vị trí (i, j) của ∇2 f ( x ) là các đạo hàm riêng bậc hai ∂2 f ∂xi ∂x j ( x ). Định lý 1.12 (khai triển Taylor). Cho hàm số f khả vi trong một lân cận N của điểm x. Khi đó, nếu đạo hàm f ′ liên tục thì ta có f ( x + d) = f ( x ) + Z 1 0 ∇ f ( x + td)T d dt (1.40) với mọi vector d sao cho x + [0, 1]d ⊂ N . Hơn nữa, nếu f là khả vi cấp hai và f ′′ liên tục thì (1.40) có thể được thay bằng khai triển T f ( x + td) = f ( x ) + ∇ f ( x ) d + Z 1 0 T 2 (1 − t)d ∇ f ( x + td)d dt (1.41) Ở đây, tính liên tục của f ′′ được đồng nhất với tính liên tục của ánh xạ nhận giá trị ma trận x 7−→ ∇2 f ( x ). Trường hợp f ′′ liên tục người ta nói f khả vi liên tục hai lần hay thuộc lớp C2 . Bài tập Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. Rudin, W. (1976). Principles of mathematical analysis (3rd ed.). McGrawHill. Chương 2 Tối ưu không ràng buộc text source Nội dung của chương này tập trung vào cơ sở lý thuyết bài toán tối ưu không ràng buộc. Đầu tiên chúng tôi nêu lên một số khái niệm về điểm cực trị (mục 2.1). Tiếp theo, mục 2.2 đưa ra các kết quả về điều kiện tối ưu sử dụng thông tin đến đạo hàm bậc nhất. Điều kiện cần và đủ tối ưu bậc hai sẽ được xem xét ở mục 2.3. Phần còn lại của chương là một số kết quả về điều kiện tối ưu toàn cục và khảo sát sơ bộ lớp các bài toán cực trị hàm toàn phương và bài toán bình phương tối thiểu hay gặp trong các ứng dụng thực tiễn. 2.1 Khái niệm về cực trị Định nghĩa 2.1 (cực trị toàn cục). Cho trước hàm số f xác định trên một tập không trống Ω của Rn . Rv • Một điểm x ∗ ∈ Ω sẽ gọi là cực tiểu toàn cục của f (trên Ω) nếu bất đẳng thức f ( x ) ⩾ f ( x ∗ ) xảy ra với mọi x ∈ Ω. x ∗ ∈ Ω sẽ gọi là cực tiểu toàn cục ngặt của f nếu có bất đẳng thức f ( x ) > f ( x ∗ ) với mọi x ∈ Ω \ { x ∗ }. • Điểm x ∗ ∈ Ω sẽ gọi là cực đại toàn cục (t.ư. cực đại toàn cục ngặt)của f trên (Ω) nếu nó là cực tiểu toàn cục của hàm − f . Các điểm cực đại và cực tiểu toàn cục gọi chung là điểm cực trị toàn cục. Thường thì thuật ngữ toàn cục sẽ được bỏ qua khi bàn đến tính chất cực trị. Tập Ω ở trên đôi khi gọi là miền khả thi, và x ∈ Ω là điểm chấp nhận được (phương án khả thi). Ta quy ước gọi giá trị cực tiểu (t.ư. cực đại) của hàm f là f min = min f ( x ) | x ∈ Ω = inf f ( x ) | x ∈ Ω 11 (2.1) Chương 2. Tối ưu không ràng buộc 12 và f max = max f ( x ) | x ∈ Ω = sup f ( x ) | x ∈ Ω . (2.2) Khi các giá trị này đạt được (nghĩa là tồn tại cực trị theo Định nghĩa 2.1) người ta định nghĩa tập các cực tiểu (cực đại) của f lần lượt là argminΩ f = x ∈ Ω | f ( x ) = f min (2.3) và argmaxΩ f = x ∈ Ω | f ( x ) = f max . (2.4) Ví dụ 2.2 (Beck, 2014, Example 2.2). Xét tình huống mà Ω = B và hàm số f ( x ) = x1 + x2 . Sử dụng bất đẳng thức Cauchy-Schwarz √ | f ( x )| = |⟨ x, e⟩| ⩽ ∥ x ∥2 ∥e∥2 ⩽ 2. √ √ √ T Tại x̂ = [− 2/2 − 2/2] ∈ Ω ta có f ( x̂ ) = − 2 nên x̂ là cực tiểu toàn cục. √ √ T Tương tự, điểm x̃ = [ 2/2 2/2] là một cực đại toàn cục. Bài toán 2.1. Cho Ω = R2 và f (x) = x1 + x2 . + x22 + 1 x12 (2.5) f có đạt cực trị trên Ω không? Tìm một cực trị (nếu tồn tại) hoặc giải thích lí do không tồn tại cực trị. Định nghĩa 2.3 (cực trị địa phương). • Điểm x ∗ ∈ Ω sẽ gọi là cực tiểu địa phương của f (trên Ω) nếu tồn tại một lân cận N của x ∗ sao cho nó là cực tiểu toàn cục của f trên Ω ∩ N . x ∗ ∈ Ω sẽ gọi là cực tiểu địa phương ngặt của f khi x ∗ là cực tiểu toàn cục ngặt của f trên phần giao của Ω với một lân cận nào đó của x ∗ . • Điểm x ∗ ∈ Ω sẽ gọi là cực đại địa phương (t.ư. cực đại địa phương ngặt) của f trên (Ω) nếu nó là cực tiểu địa phương (t.ư. cực tiểu địa phương ngặt) của hàm − f . Ví dụ 2.4 (Beck, 2014, Example 2.5). Xét trường hợp n = 1 và hàm f cho bởi ( x − 1)2 + 2, −1 ⩽ x ⩽ 1, 2, 1 < x ⩽ 2, 2 2 < x ⩽ 2.5, −( x − 2) + 2, f ( x ) = ( x − 3)2 + 1.5, 2.5 < x ⩽ 4, −( x − 5)2 + 3.5, 4 < x ⩽ 6, −2x + 14.5, 6 < x ⩽ 6.5, 2x − 11.5, 6.5 < x ⩽ 8. (2.6) 2.2 Điều kiện tối ưu bậc nhất 13 Ở đây Ω là đoạn [−1, 8]. Điểm x = 1 là một cực tiểu địa phương vì rõ ràng trên miền x ⩽ 2 ta luôn có f ( x ) ⩾ min{2, ( x − 1)2 + 2} ⩾ 2 = f (1). Tuy nhiên, đây không thể là cực tiểu toàn cục, vì f (6.5) = 1.5 < f (1). Tương tự, điểm x = 6.5 là một cực đại địa phương nhưng không là cực đại toàn cục. Bài toán 2.2. Tìm tất cả các cực trị địa phương và cực trị toàn cục của hàm số có mặt ở Ví dụ 2.4. Định lý 2.5 (Weierstrass). Cho f là hàm số liên tục trên một tập compact K ⊂ Rn . Khi đó, f đạt cực đại và cực tiểu toàn cục trên K. Điểm mấu chốt trong định lý tồn tại cực trị ở trên là tính compact của tập nền. Tuy nhiên, trong các ứng dụng thực tế tính compact nhiều khi rất khó đạt được. Một trong những tiêu chuẩn làm nhẹ thay thế cho tính compact là dựa trên khái niệm sau đây. Định nghĩa 2.6 (coerciveness). Một hàm số f : Rn −→ R được gọi là thỏa mãn điều kiện bức (coercive) nếu lim = +∞. ∥ x ∥→∞ (2.7) Có rất nhiều ví dụ về hàm số thỏa mãn coerciveness mà trường hợp dễ thấy nhất là họ các hàm dạng ∥·∥r với r > 0 nào đó. Nói riêng, chuẩn là một hàm coercive. Định lý 2.7 (định lý tồn tại với coerciveness). Giả sử f : Rn −→ R là hàm số liên tục và thỏa mãn điều kiện bức. Khi đó hàm f đạt cực tiểu toàn cục trên mọi tập hợp đóng không trống Ω ⊂ Rn . Chứng minh. Tham khảo Beck, 2014, Theorem 2.32. Bài toán 2.3. Chứng tỏ rằng với mỗi x và r > 0 cho trước hàm số ∥· − x ∥r là coercive. Từ đây suy ra rằng nếu Ω là tập đóng không trống thì tồn tại x̄ ∈ Ω sao cho ∥ x − x̂ ∥ = inf{∥y − x ∥ | y ∈ Ω}. (2.8) Điểm x̂ như vậy gọi là một hình chiếu của x lên Ω. 2.2 Điều kiện tối ưu bậc nhất Ta đã biết trong giải tích hàm một biến nguyên lý Fermat về cực trị: tiếp tuyến với đồ thị tại các điểm cực trị địa phương có hệ số góc triệt tiêu. Đối với các hàm nhiều biến, phiên bản mở rộng tương ứng là kết quả sau đây. Chương 2. Tối ưu không ràng buộc 14 Định lý 2.8 (first-order necessary optimality condition). Giả thiết x ∗ ∈ int (Ω) là một cực trị địa phương của hàm số f : Ω ⊂ Rn −→ R. Khi đó, nếu f khả vi tại x ∗ thì ∇ f ( x ∗ ) = 0. Chứng minh. Tham khảo Beck, 2014, Theorem 2.6. Định lý 2.8 mô tả đặc trưng của điểm cực trị dưới dạng điều kiện cần: tại cực trị thuộc phần trong topo của miền khả thi, gradient của hàm lấy cực trị (thường gọi là hàm mục tiêu hay objective) nhất thiết phải triệt tiêu. Điều ngược lại nói chung là không đúng. Rất nhiều ví dụ về những hàm khả vi trên toàn bộ không gian không có cực trị nhưng gradient vẫn triệt tiêu tại một số điểm nào đó. Một minh họa điển hình đơn giản trong một chiều là hàm f ( x ) = x3 . Bài toán 2.4. Chứng minh hàm f ( x ) = x3 đề cập ở trên không có cực trị. Phác thảo đồ thị hàm này và tìm tất cả các điểm mà đạo hàm của nó triệt tiêu. Định nghĩa 2.9 (stationary point). Giả sử hàm số f xác định và khả vi trên một tập mở Ω. Khi đó x̂ ∈ Ω sẽ được gọi là một điểm dừng (hay điểm tới hạn) của f nếu nó nghiệm đúng phương trình dừng ∇ f ( x ) = 0. (2.9) Sử dụng khái niệm mới này, điều kiện cần tối ưu có thể phát biểu lại ngắn gọn: nếu hàm số khả vi đạt cực trị tại một điểm trong thì đó là điểm dừng. Ý nghĩa của điều kiện cần là chuyển bài toán cực trị về việc tìm kiếm các điểm dừng bằng cách giải phương trình (2.9). Trong rất nhiều trường hợp, số lượng các điểm dừng là không quá nhiều, thậm chí là tương đối ít, do vậy làm giảm khối lượng tính toán đi đáng kể so với việc chỉ tìm kiếm dựa trên định nghĩa cực trị. Hơn nữa, ở một vài tình huống nhất định, điều kiện dừng này thực sự cho ta dấu hiệu đủ của cực trị (điển hình là các bài toán lồi, xem ở phần sau). Trên thực tế, hầu hết các solver tối ưu đều ít nhiều sử dụng dấu hiệu này như là tiêu chuẩn dừng của quá trình dò tìm điểm tối ưu. 2.3 Điều kiện tối ưu bậc hai Để trình bày các điều kiện tối ưu bậc hai, chúng tôi nhắc lại một số kết quả về phân loại ma trận (xem Beck, 2014; Golub and Van Loan, 2013). Xét một ma trận thực A cỡ n × n cho trước. Người ta nói đây là một ma trận nửa xác định dương nếu x T Ax ⩾ 0, ∀ x ∈ Rn . (2.10) Để biểu thị tính nửa xác định dương ta sẽ dùng ký hiệu A ≽ 0. A được gọi là ma trận xác định dương, viết gọn là A ≻ 0 nếu đẳng thức ở (2.10) chỉ xảy ra khi x = 0, tức là x T Ax > 0, ∀ x ̸= 0. (2.11) 2.3 Điều kiện tối ưu bậc hai 15 Nếu − A là ma trận nửa xác định dương (t.ư. xác định dương) ta sẽ nói bản thân A là nửa xác định âm (t.ư. xác định âm). Ví dụ 2.10 (Beck, 2014, Example 2.10, 2.11). Ma trận vuông " # 2 −1 −1 1 là xác định dương trong khi đó " 1 2 2 1 # không là nửa xác định dương cũng không là nửa xác định âm. Bài toán 2.5. Sử dụng khái niệm tính xác định dương/âm thực hiện kiểm tra tường minh các khẳng định trong Ví dụ 2.10 ở trên. Nói chung không dễ xác định bằng định nghĩa một ma trận cụ thể nào đó có là xác định/nửa xác định dương (t.ư. âm) hay không. Tuy nhiên, đối với các ma trận đối xứng, ta có thể sử dụng đặc trưng trên giá trị riêng để khẳng định hay bác bỏ tính chất mong muốn. Kết quả sau đây cụ thể hóa phát biểu vừa nêu. Mệnh đề 2.11 (eigenvalue characterization). Giả sử A ∈ Rn×n là ma trận đối xứng. Khi đó các khẳng định sau là đúng. 1. Ma trận A là nửa xác định dương nếu và chỉ nếu các giá trị riêng của nó là không âm. 2. A là ma trận nửa xác định dương nếu và chỉ nếu nó có tất cả các giá trị riêng dương. Như vậy, ma trận đối xứng là nửa xác định âm (xác định âm) khi và chỉ khi các giá trị riêng của nó là không dương (âm). Một hệ quả ngay lập tức là, ma trận đối xứng chứa 2 giá trị riêng trái dấu không là nửa xác định dương cũng không là nửa xác định âm. Đối với tình huống như vậy, thỉnh thoảng ta sẽ nói ma trận đó là không xác định. Mệnh đề 2.12 (principal minors characterization). Giả sử A ∈ Rn×n là ma trận đối xứng. Khi đó A là xác định dương khi và chỉ khi tất cả các định thức con chính (principal minor) của nó đều dương. Nhắc lại rằng, định thức con chính thứ k của ma trận A chính là định thức của ma trận con tạo thành từ các phần từ thuộc k hàng và k cột đầu tiên. Định lý 2.13 (second-order necessary optimality condition). Cho f là hàm khả vi bậc hai trên tập mở Ω ⊂ Rn và x ∗ ∈ Ω là một điểm dừng của f sao cho f ′′ liên tục trên một lân cận của nó. Khi đó: 1. Nếu x ∗ là một cực tiểu địa phương của f thì ∇2 f ( x ∗ ) là ma trận nửa xác định dương; Chương 2. Tối ưu không ràng buộc 16 2. Nếu x ∗ là một cực đại địa phương của f thì ∇2 f ( x ∗ ) là ma trận nửa xác định âm. Chứng minh. Beck, 2014, Theorem 2.26 Định lý 2.13 mới chỉ là điều kiện cần cho tính tối ưu. Sau đây là kết quả về điều kiện đủ. Định lý 2.14 (second-order sufficient optimality condition). Giả thiết f là hàm thuộc lớp C2 trên tập mở Ω ⊂ Rn và x ∗ ∈ Ω là một điểm dừng của f . Khi đó 1. Nếu ∇2 f ( x ∗ ) ≻ 0 thì x ∗ là một cực tiểu địa phương ngặt của f ; 2. Nếu −∇2 f ( x ∗ ) ≻ 0 thì x ∗ là một cực đại địa phương ngặt của f . Chứng minh. Beck, 2014, Theorem 2.27 Nhận xét 2.15. Đối chiếu điều kiện cần và điều kiện đủ ta nhận thấy có một sự khác biệt nhỏ: điều kiện cần áp dụng cho điểm cực trị nói chung trong khi đó điều kiện đủ chỉ có thể sử dụng kiểm tra tại cực trị ngặt. Ngoài ra, tính xác định dương (âm) của Hessian trong Định lý 2.14 cũng chỉ là điều kiện đủ và không nhất thiết điều kiện cần. Một phản ví dụ đơn giản là hàm số f ( x ) = x14 + x24 . Rõ ràng x ∗ = 0 là cực tiểu ngặt, nhưng Hessian tương ứng không là xác định dương. Định nghĩa 2.16 (saddle point). Giả sử f là hàm thuộc lớp C1 trên một tập mở Ω trong Rn . Một điểm dừng x ∗ ∈ Ω sẽ gọi là điểm yên ngựa nếu nó không là cực tiểu địa phương mà cũng không là cực đại địa phương. Định lý 2.17 (sufficient condition for saddle point). Cho x ∗ là một điểm dừng của hàm f thuộc lớp C2 trên một lân cận của x ∗ . Nếu ma trận ∇2 f ( x ∗ ) không xác định thì nó chính là một điểm yên ngựa. Nhận xét 2.18. Các điều kiện đủ ở trên quy việc phân loại điểm dừng về việc xét tính xác định dương/âm hay là không xác định của Hessian tại điểm khảo sát. Vì ma trận Hessian của hàm thuộc lớp C2 là đối xứng (xem Lục et al., 2002), nên theo Mệnh đề 2.11 và 2.12, để phân loại điểm dừng ta cần xét dấu của các giá trị riêng hoặc các định thức con chính ứng với ma trận Hessian. Ví dụ 2.19 (Beck, 2014, Example 2.34). Xét hàm mục tiêu f ( x ) = 2x13 + 3x22 + 3x12 x2 − 24x2 . Gradient của f có biểu thức tường minh " 6x12 + 6x1 x2 ∇ f (x) = 6x2 + 3x12 − 24 # (2.12) 2.4 Điều kiện tối ưu toàn cục 17 nên phương trình dừng có dạng 6x2 + 6x x 1 2 1 6x2 + 3x2 − 24 1 =0 = 0. T T T Các điểm dừng tương ứng là x (1) = [0 4] , x (2) = [4 −4] , x (3) = [−2 2] . Để phân loại ta tính Hessian # " 12x + 6x 6x 2 1 1 . ∇2 f ( x ) = 6x1 6 Tại x = x (1) , vì " 24 0 ∇ 2 f ( x (1) ) = 0 6 # là ma trận xác định dương nên đây là cực tiểu địa phương ngặt. Tại x = x (2) Hessian # " 24 24 ∇ 2 f ( x (2) ) = 24 6 có hai giá trị riêng trái dấu nên là điểm yên ngựa. Tương tự, x (3) cũng là điểm yên ngựa vì " # − 12 − 12 ∇ 2 f ( x (3) ) = −12 6 có cả giá trị riêng dương và âm. Bài toán 2.6. Ứng với mỗi một hàm mục tiêu sau đây hãy tìm các điểm dừng và sau đó phân loại chúng: (1) (2) (3) 2.4 f ( x ) = ( x12 + x22 − 1)2 + ( x22 − 1)2 ; x + x2 f (x) = 2 1 2 ; x1 + x2 + 1 f ( x ) = −2x12 + x1 x22 + 4x14 . Điều kiện tối ưu toàn cục Các điều kiện tối ưu ở mục trước mới chỉ cho phép ta kết luận về tính chất cực trị địa phương. Nhìn chung hầu như rất khó để khẳng định được một cực trị địa phương nào đó có là cực trị toàn cục hay không. Kết quả sau đây đưa ra một tiêu chuẩn thực hiện điều đó dựa trên tính chất của hàm mục tiêu. Định lý 2.20. Xét hàm mục tiêu f là khả vi liên tục hai lần. Giả thiết thêm Hessian ∇2 f ( x ) của f luôn là ma trận nửa xác định dương (t.ư. nửa xác định âm). Khi đó, mọi điểm dừng của f đều là cực tiểu (t.ư. cực đại) toàn cục. Chương 2. Tối ưu không ràng buộc 18 Chứng minh. Ví dụ 2.21 (Beck, 2014, Example 2.39). Xét hàm mục tiêu ba biến f ( x ) = x12 + x22 + x32 + x1 x2 + x1 x3 + x2 x3 + ( x12 + x22 + x32 )2 . (2.13) Gradient và Hessian của f có dạng ∇ f ( x ) = Ax + 4∥ x ∥2 x ∇2 f ( x ) = A + 4∥ x ∥2 I + 8xx T , ở đó (2.14) 2 1 1 A = 1 2 1 . 1 1 2 Hai số hạng cuối của ∇2 f ( x ) luôn là ma trận nửa xác định dương. Tính toán trực tiếp (chẳng hạn, dùng matlab) ta thấy mọi giá trị riêng của A không âm. Vậy ∇2 f ( x ) ≽ 0 với mọi x. Theo Định lý 2.20, mọi điểm dừng của f đều là cực tiểu toàn cục. 2.5 Tối ưu hàm toàn phương Định nghĩa 2.22 (quadratic function). Một hàm toàn phương trên Rn là hàm số có dạng 1 (QP) f ( x ) = x T Ax + b T x + c 2 ở đó A ∈ Rn×n là ma trận đối xứng, b ∈ Rn và c ∈ R. Đối với hàm toàn phương (QP), gradient và Hessian có biểu thức giải tích rất đơn giản ∇ f ( x ) = Ax + b (2.15) ∇2 f ( x ) = A. Mệnh đề 2.23 (tính chất cực trị hàm toàn phương). Xét hàm toàn phương f với các dữ kiện như trong Định nghĩa 2.22. 1. x là một điểm dừng nếu và chỉ nếu Ax = −b. 2. Khi A ≽ 0, x là cực tiểu (toàn cục) nếu và chỉ nếu Ax = −b. 3. Khi A ≻ 0, x = − A−1 b là cực tiểu ngặt (duy nhất) của f . Chứng minh. Tham khảo phép chứng minh của Lemma 2.41 trong Beck, 2014. Mệnh đề 2.24. Cho hàm toàn phương f định nghĩa như (QP). Khi đó f thỏa mãn điều kiện bức nếu và chỉ nếu A là ma trận xác định dương. 2.6 Bài toán bình phương tối thiểu 19 Chứng minh. Tham khảo phép chứng minh của Lemma 2.42 trong Beck, 2014. Mệnh đề 2.25 (Đặc trưng tính không âm hàm toàn phương). Đối với hàm toàn phương định nghĩa ở (QP) các phát biểu sau là tương đương: 1. bất đẳng thức f ( x ) ⩾ 0 xảy ra cho mọi x ∈ Rn ; 2. ma trận hợp thành " A b bT c # (2.16) là nửa xác định dương. Chứng minh. Tham khảo Beck, 2014, Theorem 2.43. 2.6 Bài toán bình phương tối thiểu Bài tập Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội. 20 Chương 2. Tối ưu không ràng buộc Chương 3 Một số phương pháp tối ưu không ràng buộc text source Toàn bộ chương hiện tại sẽ được dành cho việc khảo sát bài toán tối ưu không ràng buộc phát biểu dưới dạng chung min f ( x ), x ∈ Rn . (3.1) Nếu không có chú thích gì thêm, hàm mục tiêu f được giả thiết khả vi liên tục trên Rn . Đối với các bài toán như vậy, điều kiện cần tối ưu bậc nhất đưa đến phương trình dừng ∇ f (x) = 0 (3.2) và do đó, về mặt nguyên lý, việc giải bài toán (3.1) có thể quy về dò tìm các điểm dừng và chọn ra lời giải tối ưu từ những điểm như vậy. Trên thực tế, việc dò tìm được tiến hành thông qua một quá trình lặp: bắt đầu với một diểm dự đoán nào đó, người ta sinh ra các bước lặp xấp xỉ liên tiếp và kết thúc quá trình khi đạt đến tiêu chuẩn dừng phù hợp. Chúng ta sẽ tiếp cận trong mục 3.1 tổng qua về một lớp các phương pháp tối ưu có tên chung là hướng giảm. Tiếp theo, chúng ta sẽ khảo sát kĩ hơn hai kiểu phương pháp hướng giảm phổ biến quan trọng là phương pháp gradient (mục 3.2) và phương pháp Newton (mục 3.3). Phần cuối chương là một giới thiệu ban đầu về các phương pháp quasi-Newton được sử dụng phổn biến trong nhiều solver tối ưu thực tiễn. 3.1 Các phương pháp hướng giảm Nói chung, dãy các bước lặp tối ưu x (k) thường xây dựng ở dạng truy hồi x ( k +1) = x ( k ) + t k d ( k ) , 21 k = 0, 1, 2 . . . , (3.3) Chương 3. Một số phương pháp tối ưu không ràng buộc 22 ở đó d(k) là hướng xuất ở bước hiện tại vàtk là cỡ bước (stepsize hoặc steplength). Hướng d(k) ở đây phải là một hướng giảm (descent direction) như trong định nghĩa sau. Định nghĩa 3.1 (descent direction). Xét hàm mục tiêu f khả vi liên tục. Một vector d ̸= 0 sẽ được gọi là hướng giảm tại điểm hiện tại x nếu đạo hàm hướng f ′ ( x; ·) thỏa mãn f ′ ( x; d) = ∇ f ( x ) T d < 0. (3.4) Ý nghĩa của khái niệm này được miêu tả trong kết quả sau. Bổ đề 3.2 (descent property of descent direction). Giả sử d là một hướng giảm của f tại điểm x. Khi đó tồn tại một ε > 0 sao cho f ( x + td) < f ( x ) (3.5) xảy ra cho mọi 0 < t < ε. Chứng minh. Lập luận trực tiếp dựa vào Định nghĩa 3.1, xem Beck, 2014, Lemma 4.2. Như vậy, khi d là một hướng giảm thì dọc theo tia x + R+ d hàm f đạt cực đại địa phương ngặt tại x. Algorithm 1 mô tả lược đồ chung của các phương pháp thuộc kiểu hướng giảm. Algorithm 1: Schematic Descent Direction Method Input: x (0) ∈ Rn Output: Exit result foreach k = 0, 1, 2, . . . do Pick a descent direction d(k) ; // vòng lặp chính Find stepsize tk : f x (k) + tk d(k) < f x (k) ; Update x (k+1) ← x (k) + tk d(k) , k ← k + 1; if termination criterion then return x (k) end // dừng vòng lặp end Bởi vì đây mới chỉ là lược đồ chung, mỗi một bước của tiến trình mô tả trong Algorithm 1 đòi hỏi cần được chi tiết hóa để có thể thực hiện trong các giải thuật thực tiễn: • cách chọn điểm xuất phát ban đầu; • cách tìm hướng d(k) ; • cách xác định giá trị của tk ; • các tiêu chuẩn dừng vòng lặp. 3.1 Các phương pháp hướng giảm 23 Điểm khởi đầu x (0) . Nói chung, điểm xuất phát có thể chọn tùy ý, hoặc theo một chiến lược nhất định nào đó. Những thuật toán mà khởi đầu ở dạng thứ nhất đôi khi được xếp vào nhóm các giải thuật tối ưu toàn cục. Tính toán hướng. Hướng d(k) luôn phải đảm bảo là một hướng giảm. Các phương pháp tối ưu cụ thể phân biệt nhau ở kỹ thuật xác định hướng. Chẳng hạn, phương pháp gradient chọn d(k) là hướng giảm nhanh nhất d(k) = −∇ f x (k) , trong khi đó phương pháp Newton chọn d(k) là hướng xác định bởi hệ Newton tương ứng (xem mục sau). Tính toán cỡ bước. Tham số tk ở mỗi lần lặp được tính toán sao cho giá trị hàm mục tiêu ở bước kế tiếp hay một vài bước kế tiếp giảm đủ tốt. Chiến lược như vậy có tên là line-search. Nhìn chung có một vài kiểu cỡ bước chính sau đây • cỡ bước hằng tk = t̄ tại mọi k; • exact line-search: tk là cực tiểu toàn cục của bài toán tối ưu một biến min t >0 f ( x (k) + td(k) ); (3.6) • inexact line-search: tk là một cực tiểu xấp xỉ của bài toán (3.6) sao cho hàm mục tiêu giảm đi đủ tốt. Một phương pháp tương đối đơn giản điển hình là thủ tục backtracking dựa trên cơ sở điều kiện Armijo f ( x ( k ) ) ⩽ f x ( k ) + t k d ( k ) + c1 t k f ′ x ( k ) ; d ( k ) , (3.7) với c1 < 1 là một tham số line-search. Trong một số tình huống, để tăng độ hiệu quả của thuật toán, người ta còn áp dụng những điều kiện mạnh hơn cho tk . Chi tiết hơn về các chiến lược line-search bạn đọc có thể tìm thấy trong Nocedal and Wright, 2006. Mệnh đề sau đây (xem Beck, 2014, Lemma 4.3) khẳng định hiệu lực của điều kiện giảm đủ, và do đó, làm cơ sở cho thuật toán tính inexact stepsize tk . Mệnh đề 3.3 (sufficient decrease condition). Cho d ̸= 0 là một hướng giảm tại điểm x ứng với hàm mục tiêu khả vi liên tục f . Khi đó, với 0 < α < 1 cho trước, tồn tại một ε > 0 mà f ( x ) ⩾ f ( x + td) − αt∇ f ( x ) T d đúng với mọi 0 ⩽ t ⩽ ε. (3.8) Chương 3. Một số phương pháp tối ưu không ràng buộc 24 Dừng tiến trình lặp. Trong trường hợp "thành công", tiến trình dựa trên Algorithm 1 sẽ trả về một bước lặp xấp xỉ cực tiểu cần tìm chính xác đến một mức nào đó mong muốn. Tiêu chuẩn dừng thường hay được sử dụng cho tình huống này là điều kiện gradient đủ bé ∥∇ f ( x )∥ ⩽ δ, với x = x (k) là bước lặp hiện tại và δ > 0 là ngưỡng sai số cho trước. Bên cạnh trường hợp nêu trên, hầu hết các giải thuật thực tiễn còn áp dụng một số tiêu chuẩn bổ sung như, số lần lặp hoặc thời gian xử lí tính toán vượt quá ngưỡng tối đa cho trước. Ví dụ 3.4. Xét tình huống đặc biệt trong bài toán quy hoạch toàn phương f ( x ) = 1 T T (k) là một hướng giảm tại x = x (k) nào 2 x Ax + b x + c, ở đó A ≻ 0. Giả sử d = d đó. Khi đó bài toán trung gian (3.6) có dạng tường minh min t >0 1 T 2 d Ad t + d T ( Ax + b)t + f ( x ). 2 (3.9) d T ( Ax + b) , d = d(k) , x = x (k) . d T Ad (3.10) Từ đây ta tìm được tk = − 3.2 Phương pháp gradient 3.2.1 Hướng giảm nhanh nhất Trong phương pháp này hướng giảm tại mỗi bước là đối của gradient tức thời d(k) = −∇ f x (k) (3.11) mỗi khi ∇ f x (k) ̸= 0. Việc kiểm tra d(k) thực sự là hướng giảm là đơn giản. Hơn nữa, nó còn được gọi là hướng giảm nhanh nhất, theo nghĩa của kết quả sau đây. Bổ đề 3.5. Giả sử x không là điểm dừng của hàm mục tiêu f thuộc lớp C1 . Khi đó bài toán cực trị min f ′ ( x; d) | ∥u∥ = 1 (3.12) d ∈Rn thừa nhận một lời giải là d∗ = − ∥∇ f1( x)∥ ∇ f ( x ). Chứng minh. Xem Beck, 2014, Lemma 4.5. Algorithm 2 mô tả phương pháp gradient sử dụng điều kiện dừng tiêu chuẩn ∥∇ f ( x )∥ ⩽ ε ứng với ngưỡng dung sai ε > 0. 3.2 Phương pháp gradient 25 Algorithm 2: Gradient Method Input: Tolerance ε > 0 Output: Exit result Initialization step: x (0) ∈ Rn ; // điểm xuất phát foreach k = 0, 1, 2, . . . do // vòng lặp chính ( k ) ( k ) Descent direction d = −∇ f x ; // hướng giảm nhanh nhất Find stepsize tk exact/inexact line-search procedure ; Update x (k+1) ← x (k) + tk d(k) , k ← k + 1; // điều kiện tối ưu if ∥∇ f x (k) ∥ ⩽ ε then Stop ; return x (k) end end Ví dụ 3.6 (hàm toàn phương). Xét bài toán tối ưu hàm toàn phương f ( x ) = x12 + 2x22 . (3.13) # " # 1 0 0 A= ,b = , c = 0. 0 2 0 (3.14) Ở đây các dữ kiện tương ứng " T Dễ thấy nghiệm tối ưu duy nhất là x ∗ = [0 0] . Tại mỗi bước lặp hướng giảm d(k) xác định theo biểu thức (3.11) trong khi đó stepsize tk tính theo thủ tục exact linesearch có dạng (3.10). Code MATLAB cùng với kết quả thực hiện Algorithm 2 với T tolerance ε = 10−5 và điểm khởi đầu x (0) = [2.0 1.0] đã được trình bày trong Beck, 2014, Example 4.6. Phương pháp gradient có một đặc tính quan trọng là dáng điệu hội tụ (nếu điều đó xảy ra) có dạng "zigzag". Điều đó được phát biểu chính xác trong mệnh đề sau. Mệnh đề 3.7. Giả thiết x (k) là dãy gồm các bước lặp sinh bởi áp dụng phương pháp gradient vào hàm mục tiêu f với exact line-search. Khi đó, ta luôn có x (k+2) − x (k+1) , x (k+1) − x (k) = 0. (3.15) Nói cách khác, hai hướng cập nhật liên tiếp là trực giao d(k+1) ⊥ d(k) . Chứng minh. Phép chứng minh dành cho sinh viên tham khảo Beck, 2014, Lemma 4.7. Bài toán 3.1. Dựa trên mã nguồn MATLAB trong Beck, 2014 xây dựng chương trình thực hiện Algorithm 2 với các hàm mục tiêu đã chỉ ra ở Example 4.8 (tk hằng) và Example 4.9 (tk backtracking). Chương 3. Một số phương pháp tối ưu không ràng buộc 26 3.2.2 Số điều kiện và diagonal scaling Trong mục này chúng ta sẽ xem xét một trong những vấn đề quan trọng liên hệ với tốc độ hội tụ trong phương pháp gradient, đó là khái niệm về số điều kiện. Ta bắt đầu với bài toán cực tiểu hàm toàn phương dạng min f ( x ) = 12 x T Ax, x ∈ Rn ; (3.16) ở đó ma trận A được giả thiết là đối xứng xác định dương. Cực tiểu toàn cục (duy nhất) của bài toán là điểm gốc x ∗ = 0. Vì ∇ f ( x ) = Ax, phương pháp gradient chọn hướng giảm d(k) = − Ax (k) . Giả sử stepsize tk được tính bằng exact line-search, thì công thức cập nhật bây giờ có dạng x (k+1) = x (k) + tk d(k) , ở đó tk thỏa mãn phương trình tk Ad(k) , d(k) + Ax (k) , d(k) = 0. (3.17) Sau một số tính toán chi tiết, ta nhận được hệ thức f x ( k +1) = ⟨ d(k) , d(k) ⟩ 1− ⟨ Ad(k) , d(k) ⟩⟨ A−1 d(k) , d(k) ⟩ ! f x (k) . (3.18) Để ước lượng độ giảm trên hàm mục tiêu ở mỗi một bước lặp ta cần thêm một kết quả phụ sau đây. Bổ đề 3.8 (Kantorovich’s inequality). Cho A ∈ Rn×n là ma trận xác định dương. Khi đó bất đẳng thức ( x T x )2 λmax ( A)λmin ( A) ⩾4 (3.19) (λmax ( A) + λmin ( A))2 x T Ax x T A−1 x xảy ra cho mọi x ̸= 0 trong Rn . Trở lại với bài toán đang xét, giả sử x (k) không là điểm dừng. Cho x = d(k) trong (3.19), ta suy ra từ (3.18) f x với κ = M m ( k +1) ⩽ 4Mm 1− ( M + m )2 f x (k) = κ−1 κ+1 và M = λmax ( A), m = λmin ( A). Thừa số q = 2 κ −1 κ +1 f x (k) , 2 (3.20) phụ thuộc theo κ đặc trưng độ giảm của hàm mục tiêu sau mỗi lần lặp gradient sử dụng exact linesearch. Số κ chỉ phụ thuộc vào ma trận A, tức là hàm mục tiêu f . Nó được gọi là số điều kiện (condition number) của A. Định nghĩa 3.9 (condition number). Số điều kiện của một ma trận vuông A là đại lượng cond( A) = ∥ A∥∥ A−1 ∥ (3.21) khi A không suy biến và cond( A) = +∞ cho các trường hợp còn lại. 3.2 Phương pháp gradient 27 Nhận xét 3.10. Người ta thường gọi ma trận A là điều kiện xấu (ill-condition) nếu cond( A) nhận giá trị lớn, ngược lại, ma trận sẽ nói là điều kiện tốt (well-condition). Dựa theo đánh giá (3.20), hàm mục tiêu sẽ giảm nhanh hơn trên các bước lặp gradient sử dụng exact stepsize khi A là điều kiện tốt. Điều tương tự vẫn còn đúng cho hàm mục tiêu khác hơn là toàn phương. Cụ thể, tốc độ hội tụ của các bước lặp gradient về một điểm dừng x ∗ của f phụ thuộc vào số điều kiện cond(∇2 f ( x ∗ )). Ví dụ 3.11 (Rosenbrock function). Hàm Rosenbrock f ( x ) = 100( x2 − x12 )2 + (1 − x1 )2 (3.22) là một ví dụ rất điển hình về ảnh hưởng của điều kiện xấu lên hiệu năng của giải thuật tối ưu. Dễ thấy ngay x ∗ = [1 1] T là cực tiểu toàn cục duy nhất. Vì " # −400x1 ( x2 − x1 )2 − 2(1 − x1 ) ∇ f (x) = , 200( x2 − x12 ) " # (3.23) 2 + 2 −400x − 400x + 1200x 2 1 2 1 ∇ f (x) = , −400x1 200 tại điểm dừng x ∗ Hessian A = ∇2 f ( x ∗ ) là ma trận có điều kiện xấu cond( A) ≈ 2.5 × 103 . Bởi điều kiện xấu mà các bước lặp của phương pháp gradient hội tụ rất chậm về lời giải x ∗ như đã chỉ ra trong Beck, 2014, Example 4.13. Ví dụ về hàm Rosenbrock ở trên gợi ý việc phát triển những biến thể thích hợp của hướng gradient nhằm tăng độ hiệu quả của thuật toán tối ưu. Một trong những kỹ thuật tiêu biểu là scaling như sẽ mô tả dưới đây. Xét bài toán cực tiểu (3.24) min f ( x ), x ∈ Rn với hàm mục tiêu f là C1 . Thực hiện thay biến mới x = Sy với S là ma trận không suy biến nào đó. Bài toán đang xét có thể viết lại tương đương theo biến mới y như sau (3.25) min g(y), y = S−1 x ∈ Rn Áp dụng quy tắc đạo hàm của hợp thành ∇ g(y) = S T ∇ f (Sy), bước lặp theo phương pháp gradient ứng với bài toán sau có dạng y(k+1) = y(k) − tk S T ∇ f (Sy(k) ). (3.26) Trở lại biến cũ x = Sy ta có x (k+1) = x (k) − tk SS T ∇ f (Sy). (3.27) Như vậy, hướng giảm mới là hướng hiệu chỉnh dˆ = Dd với D = SS T là một ma trận đối xứng xác định dương. Dãy lặp thu được tương ứng gọi là phương pháp scaled gradient x ( k +1) = x ( k ) − t k D ∇ f ( x ( k ) ). (3.28) Chương 3. Một số phương pháp tối ưu không ràng buộc 28 Vì D là xác định dương, thay vì phép thay biến x = Sy người ta thường chọn x = D1/2 y, với D1/2 là ma trận căn bậc hai của D (xem khái niệm trong Golub and Van Loan, 2013). Lúc này, hàm mục tiêu mới g(y) = f ( D1/2 y) liên hệ với f bởi ∇ g(y) = D1/2 ∇ f ( x ), ∇2 g(y) = D1/2 ∇2 f ( x ) D1/2 . (3.29) Algorithm 3: Scaled Gradient Method Input: Tolerance ε > 0 Output: Exit result Initialization step: x (0) ∈ Rn ; // điểm xuất phát foreach k = 0, 1, 2, . . . do // vòng lặp chính Scaling matrix Dk ≻ 0 ; Descent direction d(k) = − Dk ∇ f x (k) ; // hướng giảm Find stepsize tk exact/inexact line-search procedure ; Update x (k+1) ← x (k) + tk d(k) , k ← k + 1; if ∥∇ f x (k) ∥ ⩽ ε then // điều kiện tối ưu ( k ) return x end end 3.2.3 Phương pháp Gauss-Newton 3.2.4 Phân tích hội tụ phương pháp gradient Giả thiết trên hàm mục tiêu. Ta bắt đầu với khái niệm về ánh xạ Lipschitz. Người ta nói một hàm vector F : Rn −→ Rm là liên tục Lipschitz trên một tập Ω nếu tồn tại một số L > 0 (gọi là hằng số Lipschitz) sao cho bất đẳng thức ∥ F ( x ) − F (y)∥ ⩽ L∥ x − y∥ (3.30) xảy ra với mọi x, y ∈ Ω. F sẽ gọi là liên tục Lipschitz địa phương, nếu tại mỗi điểm x ∈ Ω nó là Lipschitz trên một lân cận N nào đó của x. Trở lại với bài toán tối ưu hàm mục tiêu f thuộc lớp C1 . Hàm f sẽ được gọi là thuộc lớp C1,1 trên tập Ω nếu gradient ∇ f (·) là hàm vector liên tục Lipschitz trên Ω. 1,1 Trường hợp ∇ f chỉ là Lipschitz địa phương, ta nói f thuộc lớp Cloc . Các hàm tuyến 1,1 tính, hàm toàn phương đều là hàm thuộc lớp C . Điều này là hệ quả của mệnh đề sau đây. Mệnh đề 3.12. Cho F là hàm khả vi trên tập mở Ω. Khi đó, F là Lipschitz trên Ω nếu ánh xạ Jacobian JacF (·) là bị chặn. 1,1 Nói riêng, mọi hàm thuộc lớp C2 đều là Cloc . Bài toán 3.2. Chứng minh Mệnh đề 3.12. Mệnh đề đảo lại có đúng không? Chứng minh điều đó (nếu là đúng) hoặc chỉ ra một phản ví dụ bác bỏ nó. 3.2 Phương pháp gradient 29 Một số bổ đề. Bổ đề 3.13 (descent lemma). Cho f là hàm thuộc lớp C1,1 trên Rn và gọi L là một hằng số Lipschitz của ∇ f . Khi đó ta có f (y) ⩽ f ( x ) + ∇ f ( x )T (y − x ) + L ∥ x − y ∥2 2 (3.31) với x, y tùy ý. Chứng minh. Áp dụng khai triển Taylor cho hàm t 7−→ f ( x + td) (với d = y − x) và sử dụng tính chất Lipschitz của ∇ f . Bổ đề 3.14 (sufficient decrease lemma). Vẫn giả thiết giống như trong Bổ đề 3.13. Khi đó đánh giá Lt f ( x ) ⩾ f x − t∇ f ( x ) + t 1 − ∥∇ f ( x )∥2 (3.32) 2 xảy ra với x ∈ Rn và t > 0 tùy ý. Chứng minh. Áp dụng Bổ đề 3.30 tại y = x − t∇ f ( x ). Bổ đề 3.15 (sufficient decrease gradient method). Giả sử x (k) là dãy được sinh ra khi áp dụng phương pháp gradient vào hàm mục tiêu f thuộc lớp C1,1 . Thêm nữa, giả sử dãy các stepsize tk được xác định bởi một trong số các chiến lược sau đây • tk hằng tk = t̄ < L2 ; • tk tính theo exact line-search; • tk tính theo backtracking với bộ tham số s > 0, 0 < α < 1 và 0 < β < 1. Khi đó ta có f x ( k ) − f x ( k +1) ⩾ M ∇ f x ( k ) 2 , (3.33) ở đó Lt̄ t̄ 1 − cỡ bước hằng 2 , 1 M = 2L , cỡ bước theo exact line-search n o 2β ( 1 − α ) α min s, , cỡ bước theo backtracking. L (3.34) Nhắc lại kỹ thuật backtracking tính tk : chọn tk = sβik , ở đó ik là số mũ nhỏ nhất i sao cho T f x (k) ⩾ f x (k) + sβi d(k) − αsβi ∇ f x (k) d(k) . (3.35) Chương 3. Một số phương pháp tối ưu không ràng buộc 30 Sự hội tụ của phương pháp gradient. Định lý 3.16 (global convergence). Cho x (k) là dãy sinh bởi áp dụng phương pháp gradient vào hàm mục tiêu f thuộc lớp C1,1 . Giả sử cỡ bước tk được xác định theo một trong số cách sau đây: • cỡ bước hằng tk = t̄ < 2/L, với L là hằng số Lipschitz của gradient ∇ f ; • cỡ bước theo exact line-search; • cỡ bước theo backtracking ứng với các tham số s > 0, 0 < α < 1 và 0 < β < 1. Cuối cùng, giả sử thêm f bị chặn dưới. Khi đó các phát biểu sau đây là đúng. (a). Dãy số f x (k) đơn điệu không tăng. Hơn nữa với một k bất kỳ có bất đẳng thức ngặt f x (k+1) < f x (k) trừ ra ∇ f x (k) = 0. (b). Ta có ∇ f x (k) → 0 khi k → ∞. Theo thuật ngữ sử dụng trong Nocedal and Wright, 2006, một thuật toán tối ưu thỏa mãn phát biểu dạng (b) là hội tụ toàn cục. Nói nôm na, dưới những điều kiện trong giả thiết Định lý 3.16, phương pháp gradient là hội tụ toàn cục (về một điểm dừng). Định lý 3.17 (convergence of gradient norms). Giữ nguyên các điều kiện trong giả thiết Định lý 3.16, và gọi f ∗ là giới hạn của dãy các giá trị f x (k) . Khi đó ta có đánh giá s f x (0) − f ∗ (k) min ∥∇ f x ∥⩽ , (3.36) M ( n + 1) k=0,1,...,n ở đó M là hằng số xác định theo (3.34). Bài toán 3.3. Quan sát Example 4.8 và Example 4.9 trong Beck, 2014 và thực hiện các yêu cầu sau: • tính toán giá trị L; • xây dựng chương trình tính toán thực hiện phương pháp gradient với exact line-search và backtracking line-search ứng với α = 0.1, s = 0.5 và β = 0.5. • kiểm thử kết quả với điểm xuất phát x (0) khá nhau sinh ngẫu nhiên và ngưỡng sai số ε = 10−6 . 3.3 Phương pháp Newton Phương pháp gradient ở mục trước là một điển hình của chiến lược tối ưu bậc nhất: ta chỉ cần sử dụng đến thông tin về đạo hàm bậc nhất để xây dựng dãy lặp và phân tích hội tụ. Trong mục này chúng ta sẽ tìm hiểu một phương pháp tối ưu điển hình cho lớp các giải thuật bậc hai, tức là đòi hỏi thông tin ít nhất là đến đạo hàm bậc hai. 3.3 Phương pháp Newton 3.3.1 31 Hướng Newton Xét tình huống mà hàm mục tiêu f bây giờ được giả thiết khả vi bậc hai. Ý tưởng chính của phương pháp Newton (và những dạng biến thể) là sử dụng mô hình toàn phương phù hợp thay thế cho hàm mục tiêu thật sự f để cập nhật bước kế tiếp. Chính xác hơn, giả sử bước lặp hiện tại x (k) đã biết, người ta chọn hướng giảm d(k) là một lời giải cho bài toán quy hoạch toàn phương min d ∈Rn mk ( d ) : = f ( x (k) ) + ∇ f x (k) T 1 d + d T ∇2 f x (k) d. 2 (3.37) Hàm mục tiêu mk ở (3.37) chính là xấp xỉ Taylor bậc hai của f tại tâm x (k) . Ta đã biết ở chương trước hàm này có cực trị toàn cục khi và chỉ khi Hessian ∇2 f x (k) là nửa xác định dương. Lúc này, mọi điểm dừng cho mk đều là lời giải của (3.38). Phương trình dừng tương ứng ∇mk (d) = ∇ f x (k) + ∇2 f x (k) d = 0. (3.38) Hệ (3.38) có nghiệm duy nhất chỉ trong tình huống mà ∇2 f x (k) ≻ 0. Nếu điều này xảy ra, hướng cập nhật d(k) có biểu thức tường minh d(k) = −∇2 f x (k) −1 ∇ f x (k) . (3.39) Hướng xác định theo (3.38) gọi là hướng Newton. Chú ý là trong trường hợp ∇2 f x (k) ≻ 0 hướng Newton (3.38) là một hướng giảm, ngoại trừ ∇ f x (k) = 0. Do vậy, điểm khởi đầu cho lần lặp kế tiếp có dạng x ( k +1) = x ( k ) − t k ∇ 2 f x ( k ) −1 ∇ f x (k) (3.40) với cỡ tk > 0 nào đó. 3.3.2 Phương pháp thuần Newton Phương pháp thuần Newton (pure’s Newton method) áp dụng cập nhật (3.40) với cỡ bước hằng tk = 1 −1 x ( k +1) = x ( k ) − ∇ 2 f x ( k ) ∇ f x (k) . (3.41) Khi các Hesian tức thời ∇2 f x (k) đều xác định dương, các bước Newton đều được xác định tốt và đơn trị. Algorithm 4 mô tả lược đồ thuần Newton. Chương 3. Một số phương pháp tối ưu không ràng buộc 32 Algorithm 4: Pure’s Newton Method Input: Tolerance ε > 0 Output: Exit result Initialization step: x (0) ∈ Rn ; foreach k = 0, 1, 2, . . . do Solve ∇2 f x (k) d(k) = −∇ f x (k) ; Update x (k+1) ← x (k) + d(k) , k ← k + 1 ; if ∥∇ f x (k) ∥ ⩽ ε then Stop ; return x (k) end // điểm xuất phát // vòng lặp chính // hướng Newton // cỡ bước hằng tk = 1 // điều kiện tối ưu end Ví dụ 3.18. Hơi khác hơn so với tính chất hội tụ toàn cục của phương pháp gradient, các giải thuật dựa trên phương pháp thuần Newton thường rất khó đảm bảo hội tụ toàn cục, tuy nhiên, dáng điệu hội tụ địa phương lại rất tốt (xem Nocedal and Wright, 2006; Nesterov, 2018). Cụ thể hơn, dưới những giả thiết hợp lý người ta chứng minh được rằng dãy lặp thuần Newton sẽ hội tụ một cách địa phương về một nghiệm với tốc độ bậc hai (quadratic convergence). Ở đây, một dãy x (k) → x ∗ là hội tụ bậc hai nếu tồn tại dãy số bị chặn qk sao cho ∥ x (k+1) − x ∗ ∥ ⩽ qk ∥ x (k) − x ∗ ∥2 . Định lý 3.19 (locally quadratic convergence). Xét bài toán tối ưu không ràng buộc với hàm mục tiêu f thuộc lớp C2 trên Rn . Giả thiết rằng: (i). tồn tại hằng số η > 0 sao cho ma trận ∇2 f ( x ) − η I luôn nửa xác định dương; (ii). ánh xạ nhận giá trị ma trận x 7−→ ∇2 f ( x ) là liên tục Lipschitz, tức là tồn tại tham số L > 0 mà ∇2 f ( x ) − ∇2 f ( y ) ⩽ L ∥ x − y ∥; ∀ x, y ∈ Rn . (3.42) Khi đó f thừa nhận một cực tiểu toàn cục duy nhất trên Rn , và dãy lặp x (k) sinh ra bởi Algorithm 4 tuân theo đánh giá x ( k +1) − x ∗ ⩽ L (k) x − x∗ 2η 2 , k = 0, 1, . . . (3.43) Thêm nữa, nếu giả sử ∥ x (0) − x ∗ ∥ ⩽ η/L, thì ta có ước lượng sai số x (k) − x ∗ 2η ⩽ L 2k 1 . 2 (3.44) Chứng minh. Tham khảo phép chứng minh của Theorem 5.2 trong Beck, 2014. 3.3 Phương pháp Newton 33 Nhận xét 3.20. Định lý trên phần nào thể hiện rõ tính chất địa phương đặc trưng của giải thuật thuần Newton. Thật vậy, mặc dù đánh giá (3.43) luôn xảy ra, nhưng nó chưa đảm bảo cho tính chất hội tụ của bản thân dãy x (k) . Trên thực tế, sự hội tụ được đảm bảo nhờ ước lượng (3.44) khi có mặt điều kiện phụ thêm ∥ x (0) − x ∗ ∥ ⩽ η/L. Điều này có nghĩa là, quá trình lặp theo Algorithm 4 chỉ chắc chắn sinh ra dãy hội tụ nếu như có một bước nào đó đã đi vào một vùng lân cận đủ tốt bao quanh x ∗ . Trong Định lý 3.19, giả thiết (i) là cực kỳ quan trọng và thường khó kiểm tra trong thực tiễn. Nó thực sự tương đương với phát biểu rằng giá trị riêng của tất cả Hessian được chặn dưới bởi một hằng số dương. Như sẽ thấy ở chương sau, hàm mục tiêu f lúc đó phải lồi mạnh với hệ số lồi dương, ít nhất là trong một lân cận của cực tiểu x ∗ . Bài toán 3.4. Quan sát Example 5.3 và Example 5.4 trong Beck, 2014 và thực hiện các yêu cầu sau: • tính toán các giá trị η, L ứng với mỗi một hàm mục tiêu tương ứng; • kết luận về miền hội tụ địa phương ứng với mỗi một trường hợp; • dựa trên cơ sở mã nguồn MATLAB, hãy thực hiện Algorithm 4 và in ra các bước lặp, các độ lệch ∥ x (k+1) − x (k) ∥, ∥ x (k) − x ∗ ∥ với điểm xuất phát khác nhau (sử dụng các hàm sinh ngẫu nhiên như rand, randn, . . . ). 3.3.3 Phương pháp Newton tắt dần Các bước đi thuần Newton có dáng điệu địa phương tốt, khi dữ kiện đầu vào của bài toán là khá tốt. Điều này thể hiện trong định lý hội tụ ở trước. Những khảo sát sâu hơn về vấn đề hội tụ của giải thuật dựa trên phương pháp như vậy đã được quan tâm bởi nhiều nghiên cứu khác nhau, xem Boyd and Vandenberghe, 2009; Nesterov, 2018. Trong phần này, chúng ta xem xét một kiểu biến thể, gọi là phương pháp Newton tắt dần (damped Newton method), ở đó, thay vì chấp nhận cỡ bước hằng tk = 1 người ta áp dụng chiến lược line-search để tìm cỡ bước tk > 0 thực sự và tiến hành cập nhật x (k+1) = x (k) + tk d(k) . Algorithm 5 mô tả lược đồ Newton tắt dần. Chương 3. Một số phương pháp tối ưu không ràng buộc 34 Algorithm 5: Damped Newton Method with backtracking line-search Input: Tolerance ε > 0, backtracking parameters α, β Output: Exit result Initialization step: x (0) ∈ Rn ; // điểm xuất phát foreach k = 0, 1, 2, . . . do // vòng lặp chính ( k ) Compute Newton direction d ; Compute backtracking stepsize tk > 0 ; // giá trị đầu tk = 1 ( k + 1 ) ( k ) ( k ) Update x ← x + tk d , k ← k + 1; ( k ) if ∥∇ f x ∥ ⩽ ε then // điều kiện tối ưu Stop ; return x (k) end end 3.4 Phương pháp quasi-Newton Các giải thuật kiểu Newton nói chung có dáng điệu địa phương tốt, và thường được sử dụng ở các pha cuối khi cần tìm kiếm lời giải với độ chính xác cao. Tuy nhiên, quá trình tính toán bước Newton đòi hỏi Hessian đầy đủ, và giải hệ tuyến tính (3.38). Nhìn chung, với các bài toán cỡ lớn, việc tìm kiếm hướng Newton thường là có độ phức tạp cao và hết sức tốn kém. Các giải thuật quasi-Newton ra đời nhằm mục tiêu khắc phục những hạn chế đó của giải thuật kiểu Newton mà vẫn đảm bảo tốc độ hội tụ (địa phương) đủ tốt (cỡ siêu tuyến tính). Mục này sẽ dành cho một giới thiệu sơ lược về các phương pháp quasi-Newton, dựa theo chuyên khảo Nocedal and Wright, 2006. Sau đây, để cho gọn, chúng ta sẽ sử dụng các ký hiệu f k := f ( x (k) ), ∇ f k := ∇ f ( x (k) ), ∇2 f k := ∇2 f ( x (k) ), sk := x (k+1) − x (k) và yk := ∇ f k+1 − ∇ f k giống như Nocedal and Wright, 2006. Ý tưởng chính của phương pháp quasi-Newton là, tại mỗi bước vẫn đưa vào một hàm mô hình bậc hai 1 (3.45) mk (d) := d T Bk d + ∇ f kT d + f k 2 ở đó ma trận đối xứng Bk ≻ 0 là một xấp xỉ hợp lý của Hessian đúng ∇2 f k . Rõ ràng, đây thực chất là biến thể của mô hình (3.37) với Bk được sử dụng ở vị trí của ∇2 f k . Lập luận tương tự như ở phần trước, hướng tìm kiếm lúc này là điểm dừng (duy nhất) của hàm số (3.45) Bk d(k) + ∇ f k = 0. (3.46) Để tránh phải giải hệ tuyến tính (3.46), và đồng thời giảm độ phức tạp tính toán, dãy các ma trận Bk và nghịch đảo của nó Hk = Bk−1 đòi hỏi được cập nhật theo một chiến lược hiệu quả bởi các phép toán ma trận. Hệ quả là, khi điều này xảy ra, hướng tìm 3.4 Phương pháp quasi-Newton 35 kiếm d(k) = − Bk−1 ∇ f k = − Hk ∇ f k (3.47) hoàn toàn được tính toán trực tiếp thông qua phép toán ma trận mà không phải thiết lập lại và giải hệ tuyến tính như trong giải thuật kiểu Newton. Bây giờ, chúng tôi đi vào mô tả phương pháp xây dựng dãy các ma trận Bk và Hk đảm bảo những yêu cầu nêu trên. Về nguyên lý, người ta đòi hỏi dãy các ma trận Bk nên thỏa mãn phương trình dây cung1 Bk+1 sk = yk . (3.48) Để đảm bảo tính xác định dương của ma trận Bk+1 nghiệm đúng phương trình (3.48) người ta đưa thêm vào ràng buộc điều kiện cong2 trên các dịch chuyển sk , yk như sau ⟨sk , yk ⟩ > 0. (3.49) Trên thực tế, (3.49) thường được xác nhận đồng thời với quá trình tính toán stepsize tk (chẳng hạn, sử dụng điều kiện Wolfe trong line-search). Trở lại với phương trình dây cung (3.48), người ta mong muốn hạn chế sao cho nó xác định duy nhất một lời giải Bk+1 . Điều này đạt được bằng cách đưa vào bài toán tối ưu ràng buộc minB ∥ B − Bk ∥W (3.50) s.t. B = B T , Bsk = yk ; ở đó, đối số cần tối ưu là ma trận B ∈ Rn×n , và ∥·∥W là chuẩn ma trận phù hợp. Tương tự như vậy, với dữ kiện Hk , sk và yk nghịch đảo Hk+1 = Bk−+11 là lời giải bài toán min H ∈Rn×n ∥ H − Hk ∥W (3.51) s.t. H = H T , Hyk = sk . Các chuẩn ∥·∥W khác nhau sẽ dẫn đến biểu thức tường minh khác nhau, và do đó, phương pháp quasi-Newton với tên gọi khác nhau. Chúng tôi điểm qua một vài kiểu quan trọng nhất đã trình bày trong Nocedal and Wright, 2006. 1. Phương pháp BFGS 1 1 Bk sk skT Bk + yk ykT , ⟨sk , Bk sk ⟩ ⟨yk , sk ⟩ T T = I − ρk sk yk Hk I − ρk yk sk + ρk sk skT , Bk+1 = Bk − (3.52a) Hk+1 (3.52b) với ρk := ⟨yk , sk ⟩−1 . 2. Phương pháp DFP Bk+1 = I − ρk yk skT Bk I − ρk sk ykT + ρk yk ykT , 1 1 Hk+1 = Hk − Hk yk ykT Hk + s sT . ⟨yk , Hk yk ⟩ ⟨yk , sk ⟩ k k 1 Nocedal 2 Nocedal and Wright, 2006, secant equation. and Wright, 2006, curvature condition. (3.53a) (3.53b) Chương 3. Một số phương pháp tối ưu không ràng buộc 36 3. Phương pháp SR1 Bk+1 (yk − Bk sk )(yk − Bk sk )T = Bk + , sk T (yk − Bk sk ) (3.54a) (sk − Hk yk )(sk − Hk yk )T . yk T (sk − Hk yk ) (3.54b) y y T Bk sk sk T Bk + k k + γk ⟨sk , Bk sk ⟩vk vk T , ⟨sk , Bk sk ⟩ ⟨yk , sk ⟩ (3.55) Hk+1 = Hk + 4. Phương pháp Broyden Bk+1 = Bk − với 0 ⩽ γk ⩽ 1 là một tham số và vk = yk Bk sk − . ⟨yk , sk ⟩ ⟨sk , Bk sk ⟩ (3.56) Algorithm 6 dưới đây mô tả lược đồ chung của một giải thuật tối ưu kiểu quasiNewton. Algorithm 6: Structural quasi-Newton method Input: Tolerance ε > 0 Output: Exit result Initialization step: x (0) ∈ Rn , H0 ≻ 0; // dữ kiện xuất phát while ∥∇ f k ∥ > ε do // ( k ) Compute direction d = − Hk ∇ f k ; Compute stepsize tk ; // line-search ( k + 1 ) ( k ) ( k ) Update x ← x + tk d ; // Compute sk , yk ; // Compute Hk+1 ; // k ← k+1; end Lý thuyết về sự hội tụ của các phương pháp quasi-Newton đã được khảo sát tỉ mỉ trong Nocedal and Wright, 2006 cũng như Dennis and Moré, 1977. Bài tập Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University Press. 3.4 Phương pháp quasi-Newton 37 Dennis, J. J. E., & Moré, J. J. (1977). Quasi-Newton methods, motivation and theory. SIAM Review. https://doi.org/10.1137/1019005 Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. Nesterov, Y. (2018). Lectures on convex optimization (2nd, Vols. 137). Springer International Publishing. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. 38 Chương 3. Một số phương pháp tối ưu không ràng buộc Chương 4 Cơ sở giải tích lồi text source Nội dung của chương được dành cho việc trình bày cơ sở lý thuyết Giải tích lồi trên không gian hữu hạn chiều. Trong phần thứ nhất (mục 4.1) chúng tôi giới thiệu một số khái niệm và kết quả cơ bản về tập lồi trên Rn . Phần tiếp theo (mục 4.2) tập trung giới thiệu một số tính chất của lớp các hàm lồi. Phần cuối của chương là một khảo sát sơ bộ về bài toán quy hoạch lồi, một lớp quan trọng trong lý thuyết tối ưu với nhiều ứng dụng rộng rãi. Giống như những phần trước, nội dung của chương chủ yếu vẫn dựa theo Beck, 2014, ngoài ra để đảm bảo tính hệ thống, đôi chỗ chúng tôi giới thiệu một vài kết quả từ các chuyên khảo Boyd and Vandenberghe, 2009; Hiriart-Urruty and Lemaréchal, 2001. 4.1 Tập lồi Nhắc lại một vài ký hiệu phép toán trên các tập hợp. Tổng của hai tập hợp C và C ′ trong Rn được xác định là C + C ′ = x + x ′ | x ∈ C, x ′ ∈ C ′ (4.1) với quy ước C + ∅ = ∅ + C ′ = ∅. Nếu một hai tập con thành phần C hoặc C ′ là đơn tử, tổng của chúng đơn giản là kết quả phép tịnh tiến tập hợp còn lại v+C = v+x | x ∈ C . (4.2) Tích của một vô hướng λ với tập hợp C ̸= ∅ là kết quả phép vị tự tương ứng λC = λx | x ∈ C (4.3) ở đó λ∅ = ∅. Nếu R là tập hợp trong R thì tích RC là RC = [ λ∈ R 39 λC. (4.4) Chương 4. Cơ sở giải tích lồi 40 4.1.1 Khái niệm Định nghĩa 4.1 (convex set). Một tập hợp C trong Rn được gọi là lồi nếu λC + (1 − λ)C ⊂ C, ∀λ ∈ [0, 1]. (4.5) Một cách hình học, một tập là lồi khi nó chứa trọn vẹn mọi đoạn thẳng nối hai điểm tùy ý của nó. Tập lồi C sẽ được gọi là lồi mở nếu nó đồng thời là tập mở. Tương tự, ta có khái niệm tập lồi đóng. Hiển nhiên, bản thân Rn luôn là lồi mở và lồi đóng. Ví dụ 4.2. Với một vector p ∈ Rn \ {0} và số thực α cho trước định nghĩa các tập hợp H p,α = x | p T x = α , ⩽ H p,α = x | pT x ⩽ α , < H p,α = x | pT x < α . (4.6a) (4.6b) (4.6c) ⩽ < là một tập lồi mở. H , là những tập lồi đóng, trong khi đó H p,α Khi đó H p,α và H p,α p,α ⩽ < H p,α và H p,α lần lượt có tên là siêu phẳng, nửa không gian đóng và nửa không gian mở xác định bởi cặp ( p, α) ∈ Rn+1 . Bổ đề 4.3. Các phát biểu sau là đúng: i). hình cầu đóng bất kỳ là tập lồi đóng; ii). đơn hình đơn vị ∆ n : = [ α1 · · · T αn ] ∈ Rn | αi ⩾ 0, α1 + · · · + αn = 1 (4.7) là một tập lồi đóng. Bài toán 4.1. Chứng minh kết quả tương tự của i) trong Bổ đề 4.3: với một ma trận xác định dương Q ∈ Rn×n và vector a ∈ Rn ellipsoid x ∈ Rn | ( x − a ) T Q ( x − a ) ⩽ 1 là tập lồi đóng. Cho Q = rI ta nhận lại kết quả ở Bổ đề 4.3. Định nghĩa 4.4 (convex cone). Tập hợp C trong Rn được gọi là một nón nếu λC ⊂ C, ∀λ ⩾ 0. (4.8) C sẽ gọi là một nón lồi nếu nó vừa là nón đồng thời vừa là một tập lồi. Nếu thêm vào đó C cũng là tập đóng (mở) ta nhận được một nón lồi đóng (mở). 4.1 Tập lồi 41 Một cách hình học, một tập là nón nếu như tia R+ x được chứa hoàn toàn trong C mỗi khi x ∈ C. Ví dụ quan trọng nhất về các nón lồi là tập nghiệm của hệ bất phương trình tuyến tính. Ví dụ 4.5. Với ma trận thực A ∈ Rm×n tập hợp C = x ∈ Rn | Ax ⩽ 0 (4.9) là một nón lồi đóng. Một ví dụ khác, xét nón Lorenz (hay ice cream cone xem Beck, 2014, Example 6.17) định nghĩa bởi (" # ) x n n +1 n L := ∈R | ∥ x ∥ ⩽ t, x ∈ R , t ∈ R . (4.10) t Đây cũng là một nón lồi đóng. Bài toán 4.2. 1. Chứng minh các khẳng định nêu trong Ví dụ 4.2. 2. Chứng minh tập hợp n o K n := x ∈ Rn | x1 tn−1 + · · · + xn−1 t + xn ⩾ 0, ∀t ∈ R (4.11) là nón lồi. K n có là nón lồi đóng hay không? Phác thảo hình ảnh minh họa các tập K1 và K2 . 4.1.2 Phép toán trên tập lồi. Bao lồi và bao nón lồi Mệnh đề 4.6. Cho I là một tập chỉ số nào đó và Ci đó giao của chúng C = ∩i∈ I Ci cũng là một tập lồi. i∈ I là một họ các tập lồi trong Rn . Khi Chứng minh. Kiểm tra trực tiếp bằng định nghĩa tập lồi. Ví dụ 4.7 (convex polytope). Cho trước ma trận A ∈ Rm×n và vector b ∈ Rm . Tập nghiệm của P hệ tuyến tính A(i, 1) x1 + · · · + A(i, n) xn ⩽ bi ; i = 1, . . . , m (4.12) là một tập lồi (sử dụng Mệnh đề 4.8). Một tập như vậy thường được gọi là lồi đa diện. Mệnh đề 4.8 (sự bảo toàn tính lồi). 1. Cho C1 , . . . , Ck là những tập lồi trong Rn . Khi đó tích Cartesian của chúng C = C1 × · · · × Ck cũng là một tập lồi. Chương 4. Cơ sở giải tích lồi 42 2. Cho C ⊂ Rn là tập lồi và ϕ( x ) = Ax + b là một ánh xạ affine với A ∈ Rm×n và b ∈ Rn đã biết. Khi đó ảnh của C qua ϕ ϕ(C ) = Ax + b | x ∈ C (4.13) là một tập lồi. 3. Cho D ⊂ Rm là một tập lồi và ϕ : x ∈ Rn 7−→ Ax + b ∈ Rm là ánh xạ affine. Khi đó nghịch ảnh của D bởi ϕ C = x ∈ Rn | ϕ ( x ) ∈ D (4.14) cũng là một tập lồi. 4. Cho C1 , . . . , Ck là những tập lồi trong Rn và λ1 , . . . , λk ∈ R. Khi đó tập hợp C = λ1 C1 + · · · + λk Ck (4.15) cũng là tập lồi. Chứng minh. Phép chứng minh dành cho sinh viên. Bài toán 4.3. Thực hiện chi tiết phép chứng minh Mệnh đề 4.8. Để đi vào khái niệm về bao lồi, ta đưa vào một vài thuật ngữ. Với các vector đã cho, một tổ hợp affine của chúng là một vector có dạng x (1) , . . . , x ( k ) x = λ 1 x (1) + · · · + λ k x ( k ) (4.16) với hệ số λi ∈ R thỏa mãn λ1 + · · · + λk = 1. Nếu thay cho λ1 + · · · + λk = 1 ta đưa vào điều kiện tất cả tham số λi đều không không âm thì x = λ 1 x (1) + · · · + λ k x ( k ) là một tổ hợp conic của x (1) , . . . , x (k) . Cuối cùng, một tổ hợp lồi của x (1) , . . . , x (k) là một vector mà đồng thời là tổ hợp affine lẫn tổ hợp lồi. Nói cách khác, tổ hợp lồi là một vector dạng (4.16) với bộ λ ∈ ∆k . Mệnh đề 4.9. Một tập hợp C ⊂ Rn là lồi nếu và chỉ nếu nó chứa mọi tổ hợp lồi có thể có của các phần tử chọn ra từ C. Chứng minh. Kiểm tra dựa vào định nghĩa tổ hợp lồi. Như vậy, nếu một tập không lồi thì có một vài điểm nào đó nằm ngoài tập mà biểu diễn được dưới dạng tổ hợp lồi nào đó của các phần tử của tập hợp đó. Trong những trường hợp như vậy, người ta mong muốn xây dựng tập lồi gần nhất với tập ban đầu (theo một nghĩa nhất định) mà chứa mọi tổ hợp lồi có thể. 4.1 Tập lồi 43 Định nghĩa 4.10 (convex, closed convex hulls). Cho S là tập hợp không trống trong Rn . Bao lồi của S là tập hợp ( ) k conv(S) := x = λ1 x (1) + · · · + λk x (k) | k ⩾ 1; x (i) ∈ S; λi ⩾ 0, ∑ λi = 1 . (4.17) i =1 Bao đóng của conv(S) gọi là bao lồi đóng của S và ký hiệu bởi clconv(S) = cl (conv(S)). Sử dụng đinh nghĩa có thể kiểm tra được (Bài tập) rằng bao lồi conv(S) luôn là tập lồi chứa S, và hơn nữa S lồi khi nó trùng với conv(S). Một cách tương tự, clconv(S) là tập lồi đóng chứa S. Bài toán 4.4. Chứng minh conv(S) (t.ư. clconv(S)) là tập lồi (t.ư. lồi đóng) nhỏ nhất (xét theo quan hệ bao hàm) chứa trọn vẹn S. Trong biểu diễn (4.17), số lượng k các phần tử chọn từ tập nền S để tạo thành một phần tử của conv(S) là thay đổi tùy ý. Một câu hỏi khá tự nhiên được đặt ra là tồn tại hay không một giá trị k chung như vậy? Kết quả kinh điển sau đây cho ta câu trả lời tương ứng. Định lý 4.11 (Carathéodory). Cho trước tập hợp S ̸= ∅ trong Rn và một điểm x ∈ conv(S). Khi đó, tồn tại (n + 1)-điểm x (1) , . . . , x (n+1) ∈ S sao cho x ∈ conv x (1) , . . . , x ( n +1) ; tức là ta có biểu diễn x = λ 1 x (1) + · · · + λ n +1 x ( n +1) (4.18) ở đó λi ⩾ 0 và λ1 + · · · + λn+1 = 1. Chứng minh. Quy nạp theo số chiều n. Bài toán 4.5. Dựa theo chỉ dẫn trong Beck, 2014 hoàn thiện chi tiết phép chứng minh Định lý 4.11. Định nghĩa 4.12 (conic hull). Với một tập hợp S cho trước, bao nón lồi của S cone(S) := x = λ1 x (1) + · · · + λk x (k) | k ⩾ 1; x (ii) ∈ S; λi ⩾ 0 (4.19) là tập hợp gồm tất cả các tổ hợp conic của các phần tử chọn ra từ S. Sử dụng định nghĩa có thể chứng minh được (Bài tập) cone(S) luôn là nón lồi, bất kể S có phải hay là không. Bài toán 4.6. Chứng minh với mọi tập S ⊂ Rn bao nón lồi cone(S) là nón lồi nhỏ nhất chứa tập S (theo quan hệ bao hàm). Hơn nữa, bản thân S là một nón lồi nếu và chỉ nếu S = cone(S). Chương 4. Cơ sở giải tích lồi 44 Tương tự như định lý biểu diễn Carathéodory ở trên, ta cũng có kết quả biểu diễn cho bao nón lồi như sau. Định lý 4.13. Cho S là tập hợp không trống trong Rn và x là một điểm thuộc bao nón lồi cone(S). Khi đó, tồn tại k ⩽ n vector độc lập tuyến tính x (1) , . . . , x (k) ∈ S sao cho x ∈ cone x (1) , . . . , x (k) , tức là x = λ 1 x (1) + · · · + λ k x ( k ) (4.20) với các vô hướng λi ⩾ 0. Chứng minh. Tham khảo phép chứng minh trong Beck, 2014, Theorem 6.23. Nhận xét 4.14. Định lý biểu diễn 4.13 có một ứng dụng quan trọng vào các đa diện lồi dạng P = x ∈ Rn | Ax = b, x ⩾ 0 . (4.21) Đa diện (4.21) chính là miền khả thi của bài toán quy hoạch tuyến tính (QHTT) quy chuẩn, được gọi là dạng tiêu chuẩn1 bởi một số tài liệu, trong khi đó, ở một vài tài liệu khác, nó được gọi là dạng chính tắc.2 Để minh họa ứng dụng này, chúng tôi nhắc lại từ Ferris et al., 2007 khái niệm phương án cơ bản. Giả thiết ma trận A trong (4.21) là row full-rank rank( A) = size( A, 1). Một điểm x ∈ P sẽ gọi là phương án cơ bản (basic solution) nếu hệ vector cột { A( : , j) | x j > 0} là độc lập tuyến tính. Định lý cơ bản của QHTT phát biểu rằng nếu miền khả thi P là không trống thì nó sẽ chứa phương án cơ bản. Phát biểu này có thể được chứng minh bằng cách áp dụng trực tiếp Định lý 4.13 vào tập hữu hạn S = A ( : , 1), . . . , A ( : , n ) . (4.22) Bài toán 4.7. Hoàn thiện phép chứng minh được nhắc đến trong Nhận xét 4.14 về sự tồn tại phương án cơ bản tương ứng với đa diện P xác định theo (4.21). 4.1.3 Topo trên tập lồi Ta bắt đầu bằng kết quả về sự bảo toàn tính lồi qua việc lấy bao đóng. Định lý 4.15. Cho C là một tập lồi trong Rn . Khi đó bao đóng cl (C ) cũng là một tập lồi. Chứng minh. Lập luận dựa vào đặc trưng giới hạn của bao đóng và tính lồi. Bổ đề 4.16 (line segment principle). Cho C ⊂ Rn là tập lồi và x là một điểm trong của C. Khi đó với mọi y ∈ cl (C ) và 0 ⩽ α < 1 điểm xα := (1 − α) x + αy cũng là điểm trong của C. 1 Beck, 2 Ferris 2014, standard form. et al., 2007, canonical form. (4.23) 4.1 Tập lồi 45 Sử dụng bổ đề trên người ta chứng minh được kết quả về sự bảo toàn tính lồi qua việc lấy phần trong. Định lý 4.17. Cho C là một tập lồi trong Rn . Khi đó phần trong int (C ) của nó cũng là một tập lồi. Mệnh đề 4.18 (bao đóng và phần trong tập lồi). Cho C là một tập lồi trong Rn với phần trong không trống. Khi đó, các đẳng thức tập hợp sau đây là đúng: (i ) cl (int (C )) = cl (C ) , (4.24) (ii ) int (cl (C )) = int (C ) . (4.25) Chứng minh. Dành cho sinh viên như là một bài tập. Có thể dựa theo chỉ dẫn trong Beck, 2014, Lemma 6.30. Nói chung, bao lồi của một tập đóng có thể không là tập đóng, nghĩa là phép toán lấy bao đóng và lấy bao lồi không thể hoán đổi thứ tự cho nhau một cách tùy ý được. Một phản ví dụ điển hình như vậy đã được trình bày trong Beck, 2014 với tập nền T [ {[0 0] } x ∈ R2 | x1 x2 ⩾ 1, x1 ⩾ 0, x2 ⩾ 0 . (4.26) Tuy nhiên, bao lồi của một tập đóng bị chặn sẽ vẫn là một tập đóng theo kết quả dưới đây. Mệnh đề 4.19. Cho S là tập compac trong Rn . Khi đó bao lồi của nó là một tập lồi compact. Chứng minh. Xét ánh xạ ϕ : Rn+1 × Rn × · · · × Rn −→ Rn xác định theo quy tắc ϕ(λ, x (1) , . . . , x (n+1) ) = λ1 x (1) + · · · + λn+1 x (n+1) . (4.27) Khi đó theo định lý Carathéodory ta có ϕ ∆n+1 × S × · · · × S = conv(S). (4.28) Vì tập ∆n+1 compact, kết luận cần chứng minh là hệ quả của tính compact của S. Ta kết thúc mục này bằng một kết quả topo sau đây liên quan đến bao nón lồi của tập hữu hạn. Mệnh đề 4.20. Giả sử S = v(1) , . . . , v(k) là tập hữu hạn trong Rn . Khi đó bao nón lồi cone(S) là một tập đóng. Chương 4. Cơ sở giải tích lồi 46 4.1.4 Điểm cực biên Định nghĩa 4.21 (extreme point). Cho C là tập lồi không trống. Một điểm x ∈ C sẽ gọi là điểm cực biên của C nếu không thể tìm được trong C hai điểm y ̸= z và vô hướng 0 < α < 1 sao cho x = αx + (1 − α)z. Tập hợp các điểm cực biên của tập lồi C được viết là ext(C ). Một cách hình học, điểm cực biên là những điểm x mà có tính chất: với một đoạn thẳng thực sự nằm hoàn toàn trong C thì hoặc là không chứa x hoặc là nhận nó làm một điểm đầu mút. Ví dụ thường gặp nhất là các đỉnh của hình đa giác lồi (tam giác, tứ giác, . . . ) trong mặt phẳng. Có thể coi như điểm cực biên là sự mở rộng của khái niệm đỉnh quen thuộc trong hình học sơ cấp. Ví dụ 4.22. • Nếu C = x + V, ở đó V là một không gian con số chiều k ⩾ 13 thì ext(C ) = ∅. • Cho C là nón lồi đóng không chứa trọn vẹn một đường thẳng nào. Khi đó ext(C ) = {0}. • Xét trường hợp C = ∆3 là đơn hình đơn vị trong R3 . Lúc này ta có n o T T T ext(C ) = [1 0 0] , [0 1 0] , [0 0 1] . Bài toán 4.8. Thực hiện kiểm tra chi tiết các khẳng định trong Ví dụ 4.22. Các điểm cực biên đóng vai trò quan trọng trong các vấn đề liên quan đến cấu trúc của tập lồi, đặc biệt là lý thuyết cực trị. Kết quả sau đây minh họa điều đó trong trường hợp bài toán QHTT. Định lý 4.23. Cho trước ma trận A ∈ Rm×n thỏa mãn rank( A) = m và vector b ∈ Rm . Xét tập lồi đa diện P = x ∈ Rn | Ax = b, x ⩾ 0 . (4.29) Khi đó, điểm cực biên của P cũng đồng thời là phương án cơ bản (theo nghĩa của QHTT, xem Ferris et al., 2007) và ngược lại. Cuối cùng, để kết thúc phần này chúng tôi giới thiệu một kết quả nổi tiếng về biểu diễn tập lồi thông qua các điểm cực biên. Phép chứng minh đầy đủ của nó thể tìm thấy trong Hiriart-Urruty and Lemaréchal, 2001. Định lý 4.24 (Krein-Milman). Cho C ⊂ Rn là tập lồi compact không trống. Khi đó ta có C = clconv(ext(C )). Nói riêng, mọi tập lồi compact không trống luôn có ít nhất một điểm cực biên. 3 lúc đó C gọi là một tập affine k-chiều (4.30) 4.1 Tập lồi 4.1.5 47 Dáng điệu tiệm cận Định nghĩa 4.25 (recession direction). Cho tập lồi C trong Rn và một điểm x ∈ C. Vector d ∈ Rn gọi là một hướng lùi xa của C tại x nếu bao hàm thức x + R+ d ⊂ C (4.31) xảy ra. Tập hợp tất cả các vector như vậy được ký hiệu rec (C, x ). Người ta định nghĩa rec (C ) := \ rec (C, x ) = d | x + R+ d ⊂ C, ∀ x ∈ C (4.32) x ∈C là nón lùi xa (hay nón thoái hóa, nón tiệm cận) của tập lồi C. Bổ đề 4.26 (Nón lùi xa của tập lồi đóng). Cho C ⊂ Rn là tập lồi đóng không trống. Khi đó tập hợp rec (C, x ) là độc lập với điểm được chọn x, nghĩa là với x, y ∈ C tùy ý ta có rec (C, x ) = rec (C, y). Hệ quả là rec (C ) = rec (C, x ) (4.33) với điểm tham chiếu x ∈ C bất kỳ. Ví dụ 4.27. 1. Cho C là một đường thẳng bất kỳ đi qua hai điểm phân biệt x và y. Khi đó tia x + R+ d chứa hoàn toàn trong C nếu và chỉ nếu d = λ( x − y), do đó rec (C ) = R( x − y). Tổng quát hơn, nếu C là tập affine thì nón lùi xa tương ứng trùng với không gian chỉ phương của nó. 2. Cho C là một nón đóng. Khi đó ta có rec (C ) = rec (C, 0) = C. 3. Xét x = [1 1] T là một phần tử của tập lồi C = { x ∈ R2 | x2 ⩾ x12 }. Ta có rec (C, x ) = {0} × R+ . Nón lùi xa có liên hệ mật thiết đến tính bị chặn của tập lồi. Mệnh đề sau đây làm rõ hơn tính chất này. Mệnh đề 4.28 (Hiriart-Urruty and Lemaréchal, 2001). Tập hợp lồi đóng C ⊂ Rn là compact khi và chỉ khi rec (C ) = {0}. Như đã biết trong topo đại cương, tổng của hai tập đóng không nhất thiết là tập đóng, trừ khi có thêm một số điều kiện nào đó, chẳng hạn, tính compact. Mệnh đề sau đây đưa ra một tiêu chuẩn mở rộng của tính compact trên cơ sở hiểu biết về các hướng lùi xa. Mệnh đề 4.29. Cho trước hai tập lồi đóng không rỗng C1 , C2 trong Rn . Khi đó tổng C := C1 + C2 cũng là tập lồi đóng nếu − rec (C1 ) ∩ rec (C2 ) = {0}. Chương 4. Cơ sở giải tích lồi 48 4.2 4.2.1 Hàm lồi Hàm nhận giá trị thực mở rộng Để thuận tiện cho nhiều mục đích khác nhau, người ta xem xét các hàm số cho phép nhận giá trị vô hạn, gọi là hàm giá trị thực mở rộng (extended real-valued function). Quy ước này dẫn đến nhiều tiện lợi khi làm việc với các hàm số. Chẳng hạn, một hàm chỉ xác định trên một tập hợp nào đó có thể đồng nhất với hàm xác định trên toàn bộ không gian sao cho bên ngoài tập xác định nó nhận giá trị +∞. Chúng ta sẽ sử dụng một số quy tắc số học sau đây khi làm việc với các hàm số thực mở rộng a + (+∞) = (+∞) + a = +∞, ∀ a ∈ R; r · (+∞) = (+∞) · r = +∞, ∀r > 0. (4.34) Bây giờ, với một hàm f : Rn −→ R ∪ {+∞} người ta định nghĩa miền hữu hiệu, đồ thị và trên đồ thị lần lượt là các tập hợp dom( f ) := x ∈ Rn | f ( x ) ∈ R , Graph( f ) := ( x, f ( x )) ∈ Rn+1 | x ∈ dom( f ) , epi( f ) := ( x, α) ∈ Rn+1 | x ∈ dom( f ), f ( x ) ⩽ α . (4.35a) (4.35b) (4.35c) Trường hợp dom( f ) ̸= ∅ hàm f như vậy sẽ gọi là chính thường. Từ nay về sau, nếu không có chú thích gì thêm, ta luôn giả thiết hàm vô hướng được khảo sát là chính thường định nghĩa trên toàn bộ không gian. Ví dụ điển hình nhất về những hàm giá trị thực mở rộng, được dùng phổ biến trong tối ưu và giải tích không trơn, là hàm chỉ tiêu của một tập hợp, xác định bởi quy tắc 0, nếu x ∈ S δS ( x ) = (4.36) +∞, ngoài ra. Đối với hàm chỉ tiêu δS , ta có dom(δS ) = S, Graph(δS ) = S × {0} và epi(δS ) = S × R+ . 4.2.2 Hàm lồi Định nghĩa 4.30 (convex function). Cho trước hàm f : Rn −→ R ∪ {+∞}. 1. Hàm f được gọi là lồi nếu f (tx + (1 − t)y) ⩽ t f ( x ) + (1 − t) f (y) đúng với x, y ∈ Rn và 0 < t < 1. 2. f là hàm lồi ngặt nếu bất đẳng thức (4.37) là nghiêm ngặt cho mọi x ̸= y. (4.37) 4.2 Hàm lồi 49 3. f là hàm lồi mạnh với hệ số lồi λ > 0 nếu hàm f (·) − 21 λ∥·∥2 là lồi. Nhận xét 4.31. Rõ ràng mọi hàm lồi ngặt đều là lồi. Hơn nữa, nếu f là lồi mạnh với hệ số λ > 0, thì bản thân f sẽ là lồi ngặt. Mệnh đề sau đây cho ta mối liên hệ giữa hai khái niệm tập và hàm lồi. Mệnh đề 4.32. Một hàm thực mở rộng f là lồi nếu và chỉ nếu trên đồ thị epi( f ) là một tập lồi. Chứng minh. Lập luận dựa vào định nghĩa. Ví dụ 4.33. 1. Hàm chỉ tiêu δS là lồi khi và chỉ khi S là tập lồi. 2. Chuẩn ∥·∥ là một hàm lồi. 3. Hàm ∥·∥2 /2 là lồi mạnh với hệ số lồi 0 < λ ⩽ 1/2. 4. Như là một mở rộng, hàm toàn phương f ( x ) = 21 x T Qx với Q ≽ 0 là lồi. Khi Q ≻ 0 thì f là lồi mạnh (với hệ số lồi 0 < λ ⩽ λmin ( Q)). Bài toán 4.9. Làm rõ các khẳng định trong Ví dụ 4.33. Định nghĩa 4.34. Cho C ⊂ Rn là tập lồi không trống. Một hàm f được gọi là lồi trên C nếu đánh giá f (tx + (1 − t)y) ⩽ t f ( x ) + (1 − t) f (y) (4.38) đúng cho mọi x, y ∈ C và 0 < t < 1. Tương tự, ta cũng có khái niệm hàm lồi ngặt (t.ư. lồi mạnh) trên C. Định lý 4.35 (Jensen’s inequality). Cho f là hàm lồi trên C. Khi đó với mọi cách chọn điểm x (1) , . . . , x (k) ∈ C bất đẳng thức f α 1 x (1) + · · · + α k x ( k ) ⩽ α 1 f x (1) + · · · + α k f x ( k ) (4.39) đúng với bất kỳ [α1 · · · T αk ] ∈ ∆k . Chứng minh. Quy nạp theo k. Bài toán 4.10. Hoàn thiện chi tiết phép chứng minh Định lý 4.35. 4.2.3 Đặc trưng đạo hàm Định lý 4.36 (gradient inequality). Cho f là hàm khả vi liên tục trên một tập mở Ω chứa tập lồi C ̸= ∅. Khi đó, các phát biểu sau đây là đúng. 1. Hàm f lồi trên C nếu và chỉ nếu f ( x ) + ∇ f ( x )T (y − x ) ⩽ f (y) đúng cho mọi x, y ∈ C. (4.40) Chương 4. Cơ sở giải tích lồi 50 2. f là hàm lồi ngặt trên C khi và chỉ khi bất đẳng thức ngặt f ( x ) + ∇ f ( x )T (y − x ) < f (y) (4.41) xảy ra với mọi x ̸= y ∈ C. Chứng minh. Nhận xét 4.37. Về mặt hình học, bất đẳng thức (4.40) có thể phát biểu lại dưới dạng sau đây: "nếu f là hàm lồi thì siêu phẳng tiếp xúc với đồ thị tại mỗi điểm khảo sát đều phải "nằm dưới" đồ thị hàm số và ngược lại". Tương tự, một hàm lồi ngặt thì tại mỗi điểm siêu phẳng tiếp xúc nằm dưới đồ thị và chỉ gặp đồ thị tại chính điểm đó. Định lý 4.36 có một hệ quả ngay lập tức rất quan trọng: điểm dừng của hàm lồi sẽ là cực tiểu toàn cục. Định lý 4.38. Cho f là hàm lồi khả vi liên tục trên một tập lồi mở Ω. Khi đó nếu ∇ f ( x ∗ ) = 0 thì x ∗ cũng đồng thời là cực tiểu toàn cục của f trên Ω. Chứng minh. Áp dụng bất đẳng thức (4.40) cho x = x ∗ . Nhận xét 4.39. Định lý 4.38 cho thấy tính chất tốt của tính lồi trong bài toán cực trị không ràng buộc. Cụ thể hơn, có thể nói rằng khi hàm mục tiêu lồi điều kiện cần tối ưu cũng đồng thời là điều kiện đủ, và hơn nữa, cực trị địa phương và cực trị toàn cục là như nhau. Phần còn lại của mục này chúng tôi đưa ra một số đặc trưng quan trọng của tính lồi thông qua tính chất của bản thân các đạo hàm. Người ta nói một hàm vector F : Ω −→ Rm là monotone nếu ⟨ F ( x ) − F (y), x − y⟩ ⩾ 0; ∀ x, y ∈ Ω. (4.42) Khi đẳng thức trong (4.42) chỉ xảy ra trong trường hợp x = y hàm F sẽ được nói là monotone ngặt. Định lý 4.40 (monotonicity of gradient). Cho f là hàm số khả vi liên tục và C là tập lồi. Khi đó 1. f lồi trên C nếu và chỉ nếu gradient của nó là monotone trên C; 2. f là hàm lồi ngặt trên C nếu và chỉ nếu ∇ f là hàm monotone ngặt trên C. Chứng minh. Định lý 4.41. Cho f là hàm số khả vi bậc hai và C là tập lồi. Khi đó 1. f lồi trên C nếu và chỉ nếu với mỗi x ∈ C Hessian ∇2 f ( x ) là ma trận nửa xác định dương; 4.2 Hàm lồi 51 2. nếu ∇2 f ( x ) ≻ 0 với mọi x ∈ C thì f là lồi ngặt trên C; 3. f lồi mạnh với hệ số λ > 0 trên C nếu và chỉ nếu ∇2 f ( x ) − λI ≽ 0 với mọi x ∈ C. Chứng minh. Ví dụ 4.42 (log-sum-exp function). Hàm log-sum-exp được cho bởi quy tắc f ( x ) = ln e x1 + · · · + e xn . (4.43) Khi đó Hessian của f có thể viết dưới dạng (xem Beck, 2014, Example 7.14) ∇2 f ( x ) = diag(w) − ww T , wi = e xi . e x1 + · · · + e x n (4.44) Sử dụng tiêu chuẩn đạo hàm bậc hai (Định lý 4.41) ta kiểm tra được f là lồi ngặt. 4.2.4 Phép toán bảo toàn tính lồi Mệnh đề 4.43 (preservation under summation and multiplication). Cho trước tập lồi không trống C. 1. Nếu f là hàm lồi trên C và α > 0 thì hàm f α (·) = α f (·) cũng lồi trên C. 2. Nếu các hàm f 1 , . . . , f k đều là lồi trên C thì tổng của chúng f = f 1 + · · · + f k cũng là hàm lồi trên C. Chứng minh. Sử dụng định nghĩa hàm lồi. Mệnh đề 4.44 (linear change of variables). Cho trước tập lồi không trống C ⊂ Rn . Xét phép đổi biến affine x = Ay + b, với A ∈ Rn×m và b ∈ Rn . Khi đó nếu f là hàm lồi trên C thì hàm hợp thành g(y) = f ( Ay + b) lồi trên tập D := y | Ay + b ∈ C . (4.45) Chứng minh. Kiểm tra trực tiếp bằng định nghĩa tính lồi. Ví dụ 4.45 (quadratic-over-linear). Có thể kiểm tra được (Beck, 2014, Example 7.18) hàm ∥ x ∥2 f : ( x, t) ∈ Rn+1 7−→ (4.46) t là lồi trên tập C = Rn × (0, +∞). Áp dụng Mệnh đề 4.44, với các dữ kiện A ∈ Rn×m , b ∈ Rn , c ∈ Rm \ {0} và d ∈ R hàm g : y ∈ Rm 7−→ lồi trên tập D = y ∈ Rm | c T y + d > 0 . ∥ Ay + b∥2 cT y + d (4.47) Chương 4. Cơ sở giải tích lồi 52 Bài toán 4.11. Làm rõ chi tiết các khẳng định trong Ví dụ 4.45. Mệnh đề 4.46 (composition with convex function). Cho f là hàm lồi trên một tập lồi C và g là hàm số một biến xác định một khoảng I ⊂ R sao cho hợp thành g ◦ f được xác định trên C. Khi đó, nếu g là hàm lồi và đơn điệu không giảm thì hợp thành g ◦ f cũng là hàm lồi. Chứng minh. Kiểm tra dựa vào định nghĩa hàm lồi và tính đơn điệu của g. Mệnh đề 4.47 (pointwise maximum of convex functions). Cho f j hàm lồi và T j∈ J j∈ J là một họ các dom( f j ) ̸= ∅. Khi đó hàm lấy maximum từng điểm (4.48) f ( x ) := sup f j ( x ) j∈ J cũng là một hàm lồi. 4.2.5 4.3 Dáng điệu địa phương và toàn cục Bài toán quy hoạch lồi 4.3.1 Khái niệm và ví dụ Một bài toán quy hoạch lồi (hay gọn hơn, bài toán lồi) nói chung có dạng tìm cực tiểu của một hàm mục tiêu lồi trên một tập lồi đóng min f ( x ) s.t. x ∈ C, (4.49) ở đó C ⊂ Rn là tập lồi đóng không trống và f là hàm lồi trên C. Thường thì miền tìm kiếm C được cho tường minh dưới dạng một hệ ràng buộc. Do vậy, thay cho dạng ẩn (4.49), ta sẽ làm việc với phát biểu tường minh của bài toán lồi như trong định nghĩa sau. Định nghĩa 4.48. Một bài toán lồi có thể được phát biểu dưới dạng toán học min f (x) s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; h j ( x ) = 0; j = 1, . . . , p; (4.50) ở đó f , gi : Rn −→ R là những hàm lồi và h j : Rn −→ R là hàm affine.4 Tập hợp ( Feas = x ∈ Rn gi ( x ) ⩽ 0; ∀i = 1, . . . , m; h j ( x ) = 0; ∀ j = 1, . . . , p được gọi là miền khả thi của bài toán (4.50). 4ở đây ta hiểu một hàm số h là affine nếu cả h và −h đều là hàm lồi ) (4.51) 4.3 Bài toán quy hoạch lồi 53 Trong bài toán lồi dạng (4.50), f là hàm mục tiêu, gi là các hàm ràng buộc bất đẳng thức và h j là những hàm ràng buộc đẳng thức. Tương tự như trường hợp tối ưu không ràng buộc ở Chương 2, ta cũng có các khái niệm về điểm cực trị (cực đại, cực tiểu) địa phương/toàn cục, ở đó miền khảo sát Ω trùng với tập Feas cho bởi (4.51). Đối với bài toán tối ưu dạng tường minh (4.50), sự có mặt của tính lồi đưa đến một đặc tính rất tốt: cực trị địa phương cũng đồng thời là toàn cục. Định lý 4.49 (local vs global optimum). Cho f là hàm lồi trên một tập lồi C trong Rn . Giả sử x ∗ ∈ C là một cực tiểu địa phương của f trên C. Khi đó, x ∗ cũng đồng thời là cực tiểu toàn cục của f trên C. Chứng minh. Định lý 4.50. Giả thiết f là hàm lồi ngặt trên tập lồi C và x ∗ ∈ C là một cực tiểu địa phương của f trên C. Khi đó, x ∗ cũng đồng thời là cực tiểu toàn cục ngặt của f trên C. Hơn nữa, cực tiểu toàn cục (nếu có) là duy nhất. Sau đây ta xét một số ví dụ về một số lớp bài toán lồi quan trọng thường gặp. Quy hoạch tuyến tính. Đây là một lớp đặc biệt mà ở đó hàm mục tiêu lẫn ràng buộc đều là affine. Dạng phát biểu tổng quát của nó là min s.t. cT x Ax ⩽ b, Bx = g, (LP) ứng với các dữ kiện c ∈ Rn , b ∈ Rm , g ∈ R p và A ∈ Rm×n , B ∈ R p×n . Lúc này miền khả thi là một tập lồi đa diện, và lời giải tối ưu, nếu có, sẽ đạt được tại một điểm cực biên của nó (xem Ferris et al., 2007). Quy hoạch toàn phương lồi Đó là những bài toán tối ưu mà có thể phát biểu dưới dạng chung min x T Qx + 2b T x s.t. Ax ⩽ c. (4.52) Trong mô hình (4.52), ma trận nửa xác định dương Q ∈ Rn×n , ma trận A ∈ Rm×n cùng với vectơ b ∈ Rn và c ∈ Rm là những dữ kiện đã biết. Một ví dụ tiêu biểu của nó được thấy xuất hiện trong việc giải bài toán phân loại tuyến tính (linear classification, xem Beck, 2014). Chương 4. Cơ sở giải tích lồi 54 Quy hoạch toàn phương ràng buộc toàn phương lồi Bài toán toàn phương ràng buộc toàn phương hay QCQP là bài toán tối ưu có dạng min s.t. x T A0 x + 2b0T x + c0 x T Ai x + 2biT x + ci ⩽ 0, x T A j x + 2b Tj x + c j = 0, i = 1, . . . , m, j = m + 1, . . . , m + p. (QCQP) Khi mà mọi ràng buộc đẳng thức trở thành tầm thường, (A j = 0, b j = 0 và c j = 0) và mọi Ai đều là nửa xác định dương, thì (QCQP) là một bài toán quy hoạch lồi. 4.3.2 Điểm dừng trong bài toán lồi Khái niệm điểm dừng ở đây là một sự phát triển tự nhiên từ khái niệm điểm dừng đã khảo sát ở Chương 2.1. Ta bắt đầu với một định nghĩa của nó lấy từ Beck, 2014. Định nghĩa 4.51. Xét bài toán lồi (4.50) với hàm mục tiêu f được giả thiết là khả vi liên tục. Khi đó một điểm x ∗ ∈ C = Feas sẽ được gọi là điểm dừng của bài toán đang xét nếu ∇ f ( x∗ )T ( x − x∗ ) ⩾ 0 (4.53) đúng với mọi x ∈ C. Nhận xét 4.52. Giả sử x ∗ ∈ int (C ) là điểm dừng theo Định nghĩa 4.51. Khi đó, bằng cách xét x = x ∗ + tei (i = 1, . . . , n) với |t| > 0 đủ nhỏ ta đi đến kết luận ∇ f ( x ∗ ) T ei = 0, nghĩa là ∇ f ( x ∗ ) = 0. Lúc này, x ∗ cũng đồng thời là một điểm dừng của f theo nghĩa đã xét ở Chương 2.1. Ta đã biết, đối với bài toán tối ưu không ràng buộc nói chung, điểm dừng mới chỉ là điều kiện cần (bậc nhất) cho tính tối ưu, trừ khi hàm mục tiêu lúc đó là hàm lồi. Đối với bài toán lồi dạng (4.53), tính dừng chính là điều kiện cần và đủ tối ưu bậc nhất. Định lý 4.53. Xét bài toán lồi (4.50) với hàm mục tiêu f được giả thiết là khả vi liên tục. Khi đó x ∗ là một nghiệm tối ưu toàn cục của bài toán nếu và chỉ nếu nó là điểm dừng. Chứng minh. Sau đây ta xét một số ví dụ áp dụng tính chất này của bài toán lồi. Ví dụ 4.54. Xét trường hợp tập khả thi C bây giờ là Rn+ . (Chẳng hạn lấy gi ( x ) = − xi và h j = δRn+ ). Bài toán (4.50) có dạng tường minh rất đơn giản min f (x) s.t. xi ⩾ 0; i = 1, . . . , n. (4.54) 4.3 Bài toán quy hoạch lồi 55 Sử dụng điều kiện cần và đủ tối ưu trong Định lý 4.53 và bằng một số thao tác kỹ thuật, ta viết lại điều kiện dừng dưới dạng ∇ f ( x ) ⩾ 0, x ⩾ 0, x T ∇ f ( x ) = 0. (4.55) Đây là một trường hợp riêng của lớp các bài toán bù (complementarity). Chúng ta sẽ bắt gặp lại điều kiện dạng này khi xét đến hệ KKT của bài toán ràng buộc nói chung ở chương sau. Ví dụ 4.55. Xét tình huống g( x ) = ∥ x ∥2 − 1 và h( x ) = 0. Miền khả thi C bây giờ là hình cầu đơn vị B. Điều kiện tối ưu tương ứng ∇ f ( x )T (y − x ) ⩾ 0, ∀∥y∥ ⩽ 1. (4.56) Có thể chứng minh được (xem Beck, 2014) lúc đó ∇ f ( x ) = 0 hoặc ∥ x ∥ = 1 và −∇ f ( x ) ∈ R+ x. 4.3.3 Phép chiếu trực giao Ta đã biết ở các phần trước với một tập đóng không trống S ⊂ Rn và điểm x ∈ Rn bất kỳ bài toán 1 ∥ x − y∥2 s.t. y ∈ S (4.57) min 2 luôn có nghiệm tối ưu. Một nghiệm tối ưu như vậy gọi là hình chiếu của x lên S. Định lý 4.56 (projection). Xét trường hợp S = C là một tập lồi đóng. Khi đó bài toán (4.57) có một nghiệm tối ưu duy nhất, và phép đặt tương ứng PrC : x ∈ Rn 7−→ PrC ( x ) = nghiệm tối ưu bài toán (4.57). (4.58) là một ánh xạ đơn trị. Ánh xạ đó gọi là phép chiếu lên tập lồi đóng C. Chứng minh. Sử dụng tính lồi ngặt của hàm chuẩn Euclid bình phương. Định lý sau đây đưa ra đặc trưng cần và đủ cho hình chiếu của một điểm lên tập lồi đóng. Định lý 4.57 (characterization of projection). Cho C là tập lồi đóng không trống trong Rn và một điểm x ∈ Rn . Khi đó, điểm y ∈ C là hình chiếu của x lên C nếu và chỉ nếu bất đẳng thức ⟨ x − y, z − y⟩ = ( x − y)T (z − y) ⩽ 0 đúng cho mọi z ∈ C. Chứng minh. Áp dụng điều kiện tối ưu trong Định lý 4.53. (4.59) Chương 4. Cơ sở giải tích lồi 56 Nhận xét 4.58. Về mặt hình học, điều kiện (4.59) tương đương với sự kiện: góc tạo bởi hai vector x − y và z − y là không nhọn. Chú ý rằng tập hợp u | u T (z − y) ⩽ 0, ∀z ∈ C . (4.60) có dạng là một nón lồi đóng, còn gọi là nón pháp tuyến (hay normal cone) của tập lồi C tại điểm y ∈ C. Như vậy, y = PrC ( x ) chỉ khi x − y là một phần tử của nón biểu diễn bởi (4.60). Ví dụ 4.59 (nonnegative orthant). Xét tình huống đặc biệt C = Rn+ là một nón lồi đóng. Hình chiếu PrC ( x ) là nghiệm bài toán lồi min 12 ∑i ( xi − yi )2 s.t. y1 , . . . , yn ⩾ 0. (4.61) Sử dụng đặc trưng trong Định lý 4.57 có thể kiểm chứng được (xem Beck, 2014, Example 8.9) h iT PrC ( x ) = [ x1 ]+ · · · [ xn ]+ , (4.62) ở đó ký hiệu [t]+ = t+|t| 2 là phần không âm của số thực t. Ví dụ 4.60 (unit ball). Cho C = B là hình cầu đơn vị đóng thì hình chiếu PrC ( x ) là lời giải bài toán min s.t. 1 2 ∑ i ( x i − y i )2 ∑i y2i ⩽ 1. (4.63) Thực hiện theo chỉ dẫn trong Beck, 2014, Example 8.11 ta đi đến kết luận x, nếu ∥ x ∥ ⩽ 1 PrC ( x ) = x/∥ x ∥, ngoài ra. (4.64) Để kết thúc mục này, chúng tôi trình bày một kết quả đáng chú ý sau đây, cho phép biểu diễn điều kiện dừng trong bài toán lồi thông qua phép chiếu. Định lý 4.61. Cho f là một hàm thuộc lớp C1 sao cho f là lồi trên một tập lồi đóng C ⊂ Rn . Khi đó, x ∗ là một điểm dừng của bài toán cực trị ràng buộc min f ( x ) s.t. x ∈ C (4.65) nếu và chỉ nếu đẳng thức x ∗ = PrC x ∗ − s∇ f ( x ∗ ) nghiệm đúng với một vô hướng s > 0 nào đó. (4.66) 4.3 Bài toán quy hoạch lồi 4.3.4 57 Ứng dụng phép chiếu: tách các tập lồi Ta bắt đầu bằng một kết quả phân biệt một điểm và một tập lồi đóng từ HiriartUrruty and Lemaréchal, 2001. Phép chứng minh của nó dựa trên cơ sở đặc trưng hình chiếu trong Định lý 4.57. Bổ đề 4.62. Cho C ⊂ Rn là một tập lồi đóng không trống và x ̸∈ C. Khi đó, tồn tại vector p ̸= 0 sao cho p T x > sup p T y | y ∈ C . (4.67) Nói cách khác, tồn tại một siêu phẳng H = H p,α sao cho x và C nằm ở hai phía khác nhau đối với H. Chứng minh. Lấy p = x − PrC ( x ) và áp dụng Định lý 4.57. Dưa vào bổ đề trên ta có thể chứng minh được kết quả tách hai tập lồi sau đây. Mệnh đề 4.63. Cho C1 , C2 ⊂ Rn là hai tập lồi không có điểm chung với C1 compact và C2 là đóng. Khi đó, tồn tại vector p ̸= 0 sao cho inf p T x | x ∈ C1 > sup p T y | y ∈ C2 . (4.68) Như vậy, tồn tại một siêu phẳng H sao cho C1 và C2 nằm ở hai phía khác nhau đối với H. Chứng minh. Áp dụng Bổ đề 4.62 với x = 0 và C = C1 − C2 . Nhận xét 4.64. Trên thực tế, người ta còn chứng minh được kết quả tách hai tập lồi rời nhau bất kỳ trong Rn mà không cần đến giả thiết về tính đóng hay tính compact của hai tập thành phần, xem Hiriart-Urruty and Lemaréchal, 2001. Tính chất tách tập lồi cho phép thiết lập được kết quả quan trọng sau đây, còn được gọi là định lý chọn, có ứng dụng trong nhiều lớp bài toán chứa ràng buộc affine. Định lý 4.65 (Farkas’s lemma). Cho trước các vector a(1) , . . . , a(k) , b ∈ Rn . Khi đó mọi nghiệm của hệ x T a(1) ⩽ 0, . . . , x T a(k) ⩽ 0 (4.69) đều thỏa mãn x T b ⩽ 0 nếu và chỉ nếu hệ b = y 1 a (1) + · · · + y k a ( k ) có nghiệm y ⩾ 0. Chứng minh. Tham khảo Beck, 2014; Hiriart-Urruty and Lemaréchal, 2001. (4.70) Chương 4. Cơ sở giải tích lồi 58 4.3.5 Phương pháp chiếu gradient Phương pháp này được thúc đẩy từ điều kiện dừng (4.66). Nói cách khá, đây có thể xem như là một kỹ thuật lặp điểm bất động tìm kiếm một nghiệm của phương trình (4.66). Algorithm 7: Gradient Projection Method Input: x (0) ∈ Rn Output: Exit result foreach k = 0, 1, 2, . . . do // vòng lặp chính Compute steepest descent direction d(k) = −∇ f ( x (k) ); Compute a stepsize tk by line-search ; Update x (k+1) ← PrC ( x (k) + tk d(k) ), k ← k + 1; if termination criterion then // dừng vòng lặp ( k ) return x end end Rõ ràng, khi C = Rn , Algorithm 7 quy về phương pháp gradient đã nghiên cứu ở Chương 2. Lý thuyết về sự hội tụ của giải thuật dựa trên Algorithm 7 đã được trình bày trong Beck, 2014, Chapter 9. Bài tập Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University Press. Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society. Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer Berlin Heidelberg. Chương 5 Lý thuyết tối ưu ràng buộc text source Trong chương này chúng ta sẽ xem xét một số vấn đề về cơ sở lý thuyết bài toán tối ưu ràng buộc. Bài toán quy hoạch lồi ở Chương 4 chính là một trường hợp riêng điển hình. Ngoài ra, bài toán tối ưu không ràng buộc nghiên cứu ở Chương 2, 3 cũng có thể xếp chung vào đây. Đầu tiên, trong mục 5.1, chúng tôi đưa ra phát biểu chung và một số ví dụ đơn giản cho quy hoạch có ràng buộc. Điều kiện cần tối ưu bậc nhất nói chung được trình bày trong mục 5.2. Tiếp theo, mục 5.3 khảo sát trường hợp bài toán với ràng buộc tuyến tính. Điều kiện cần tối ưu bậc nhất (hệ KKT) sẽ được đề cập ở mục 5.4, trong khi đó, các điều kiện tối ưu bậc hai là nội dung chính ở mục 5.5. Phần cuối là một giới thiệu ngắn gọn về lý thuyết đối ngẫu Lagrange. 5.1 Phát biểu bài toán Trong chương này, chúng ta sẽ làm việc với bài toán tối ưu có dạng tổng quát min f (x) s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; h j ( x ) = 0; j = 1, . . . , p; (5.1) Trong mô hình trên, f là hàm mục tiêu; g1 , . . . , gm và h1 , . . . , h p là những hàm ràng buộc. Ràng buộc gi ( x ) ⩽ 0 là ràng buộc bất đẳng thức, và h j ( x ) = 0 là những ràng buộc đẳng thức. Để thuận tiện, nếu như không có giải thích gì thêm, chúng tôi mặc định coi các hàm được đề cập là khả vi đến cấp cần thiết (thường là lớp C1 ), ít nhất là trên một tập hợp mở nào đó đủ lớn. Mô hình (5.1) rõ ràng là một sự tổng quát cho lớp bài toán lồi ở chương trước. Ta vẫn thống nhất sử dụng ký hiệu Feas để chỉ miền khả thi (tập ràng buộc) của bài 59 Chương 5. Lý thuyết tối ưu ràng buộc 60 toán ( Feas = x ∈ Rn gi ( x ) ⩽ 0; ∀i = 1, . . . , m; h j ( x ) = 0; ∀ j = 1, . . . , p ) . (5.2) Định nghĩa 5.1. Xét bài toán quy hoạch (5.1). 1. Vector x̂ ∈ Rn sẽ gọi là một nghiệm chấp nhận được hay phương án nếu nó thỏa mãn mọi ràng buộc x̂ ∈ Feas. 2. Phương án x ∗ gọi là một nghiệm địa phương cho bài toán (5.1) nếu tồn tại một lân cận N của x ∗ trong Rn sao cho f (x) ⩾ f (x∗ ) (5.3) với x ∈ Feas ∩ N bất kỳ. 3. x ∗ gọi là một nghiệm toàn cục nếu bất đẳng thức (5.3) xảy cho cho mọi x ∈ Feas. Ví dụ 5.2. Định nghĩa 5.3 (active inequality constraint). Cho x̂ là một phương án của bài toán tối ưu dạng (5.1). Người ta nói ràng buộc bất đẳng thức gi ( x ) ⩽ 0 là active tại x̂ nếu gi ( x̂ ) = 0. 5.2 Điều kiện cần tối ưu cơ bản Định nghĩa 5.4 (tangent cone). Cho trước tập hợp Ω ⊂ Rn và một điểm x ∈ Ω. Một vector v ∈ Rn sẽ gọi là tiếp xúc với Ω tại điểm x nếu tồn tại dãy vector v(k) và dãy vô hướng tk > 0 sao cho lim v(k) = v; lim tk = 0; x + tk v(k) ∈ Ω, ∀k. k→∞ k→∞ (5.4) Tập hợp các vector v như vậy gọi là nón tiếp xúc của Ω tại x, ký hiệu TΩ ( x ). Nhận xét 5.5. Sử dụng định nghĩa có thể chứng minh được rằng TΩ ( x ) luôn là một nón đóng. Khi x là một điểm trong của Ω thì TΩ ( x ) trùng với toàn bộ không gian nền Rn . Trong trường hợp Ω là tập lồi thì TΩ ( x ) = cl λ(y − x ) | λ ⩾ 0, y ∈ Ω (5.5) như đã đề cập ở chuyên khảo Hiriart-Urruty and Lemaréchal, 2001. Sử dụng khái niệm về nón tiếp xúc, ta có kết quả cơ bản về điều kiện cần tối ưu bậc nhất như sau. 5.3 Bài toán ràng buộc tuyến tính 61 Định lý 5.6 (fundamental necessary optimality condition). Giả sử x ∗ ∈ Rn là một nghiệm địa phương của bài toán tối ưu (5.1). Khi đó ta có ∇ f ( x ∗ )T v ⩽ 0, ∀v ∈ TFeas ( x ∗ ). (5.6) Nói cách khác, nói tiếp xúc TFeas ( x ∗ ) không chứa bất kỳ hướng giảm nào của f tại x. Chứng minh. Tham khảo Nocedal and Wright, 2006, Theorem 12.3. Định lý 5.6 cho ta một tiêu chuẩn cần để kiểm tra tính cực trị, dựa vào các vector tiếp xúc. Để mô tả nón tiếp xúc của miền khả thi bài toán tối ưu (5.1) ta cần thêm khái niệm về các hướng khả thi tuyến tính hóa. Định nghĩa 5.7 (linearized feasible direction). Cho x là phương án của bài toán (5.1). Một vector d ∈ Rn gọi là hướng khả thi tuyến tính hóa tại x nếu ∇ gi ( x )T d ⩽ 0, ∀ gi ( x ) = 0; ∇ h j ( x )T d = 0, ∀ j = 1, . . . , p. (5.7) Tập hợp những hướng như vậy ký hiệu là F ( x ). Một cách nôm na, tập F ( x ) được sinh ra sau khi thay thế các ràng buộc active tại x bởi xấp xỉ tuyến tính tương ứng tại x. Kết quả sau đây được trích từ Nocedal and Wright, 2006. Định lý 5.8. Tại mỗi một phương án x ta có TFeas ( x ) ⊂ F ( x ). (5.8) [ (5.9) Nếu thêm vào giả thiết hệ vector ∇ gi ( x ) | gi ( x ) = 0 ∇ h j ( x ) | j = 1, . . . , p là độc lập tuyến tính, thì bao hàm thức (5.8) xảy ra đẳng thức. Nhưa vậy, khi hệ (5.9) là độc lập tuyến tính thì mỗi một vector tiếp xúc của miền khả thi tại x đều được biểu thị thông qua gradient của các ràng buộc active. Điều kiện độc lập tuyến tính này còn gọi là linearly independent constraint qualification hay viết tắt LICQ. 5.3 Bài toán ràng buộc tuyến tính Xuyên suốt mục này, ta giả sử bài toán đang xét chỉ chứa ràng buộc tuyến tính, nghĩa là các hàm gi , h j affine. Lúc này, bao hàm thức (5.8) trở thành đẳng thức mà không cần đến bất kỳ giả thiết thêm nào Nocedal and Wright, 2006, Lemma 12.7. Chương 5. Lý thuyết tối ưu ràng buộc 62 Định lý 5.9 (optimality condition, linear constraints). Xét bài toán tối ưu ràng buộc tuyến tính min f ( x ) (5.10) s.t. x T a(i) ⩽ bi , i = 1, . . . , m; T ( j ) x c ⩽ d j , j = 1, . . . , p; ở đó f là hàm C1 ; các vector a(i) , c( j) ∈ Rn cũng như vô hướng bi , d j ∈ R đã biết. Khi đó, các phát biểu sau là đúng. 1. Nếu x ∗ là một nghiệm địa phương của bài toán thì tồn tại các nhân tử λ1∗ , . . . , λ∗m ⩾ 0 cũng với µ1∗ , . . . , µ∗p ∈ R sao cho hệ điều kiện ∇ f ( x ∗ ) + λ1∗ a(1) + · · · + λ∗m a(m) + µ1∗ c(1) + · · · + µ∗p c( p) = 0 λi∗ ( x ∗ ) T a(i) − bi = 0; i = 1, . . . , m (5.11a) (5.11b) đồng thời xảy ra. 2. Giả thiết f là hàm mục tiêu lồi. Nếu tại phương án x ∗ hệ có nghiệm λ∗ ∈ Rm + và ∗ n ∗ µ ∈ R thì x là nghiệm (toàn cục) của bài toán (5.9). Chứng minh. Đối với bài toán (5.10) người ta đưa vào hàm Lagrange L( x, λ, µ) := f ( x ) + ∑ λi x T a(i) − bi + ∑ µ j x T c( j) − d j i (5.12) j Khi đó, điều kiện (5.11a) trở thành ∇ x L( x ∗ , λ∗ , µ∗ ) = 0. (5.13) Một phương án nghiệm đúng hệ (5.11) trong Định lý 5.9 gọi là một điểm tới hạn của bài toán (5.10). Bài toán 5.1. Tìm các điểm tới hạn của bài toán min x12 + 2x22 + 4x1 x2 s.t. x1 + x2 = 1 x1 , x2 ⩾ 0 (5.14) sử dụng Định lý 5.9. Các điểm tìm được có là nghiệm địa phương/toàn cục hay không? 5.4 Điều kiện tối ưu KKT Kết quả chủ chốt của phần này là định lý sau đây. 5.4 Điều kiện tối ưu KKT 63 Định lý 5.10 (KKT). Xét bài toán tối ưu ràng buộc min f (x) s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; h j ( x ) = 0; j = 1, . . . , p; (5.15) với hàm mục tiêu và các hàm ràng buộc đều là C1 . Giả thiết x ∗ ∈ Rn là một nghiệm địa phương mà tại đó hệ vector ∇ gi ( x ∗ ) | gi ( x ∗ ) = 0 [ ∇ h j ( x ∗ ) | j = 1, . . . , p (5.16) là độc lập tuyến tính. Khi đó, tồn tại các vô hướng λ1∗ , . . . , λ∗m ⩾ 0 cùng với µ1∗ , . . . , µ∗p ∈ R sao cho hệ p ∇ f ( x ) + ∑im=1 λi∗ ∇ gi ( x ) + ∑ j=1 µ∗j ∇ h j ( x ) = 0 (5.17) λ1∗ g1 ( x ) = · · · = λ∗m gm ( x ) = 0 nghiệm đúng tại x = x ∗ . Định nghĩa 5.11. Một phương án x̂ ∈ Rn được gọi là một điểm KKT của bài toán tối ưu dạng (5.15) nếu nó thỏa mãn hệ (5.17). Chú ý rằng điều kiện độc lập tuyến tính của hệ vector (5.16) không gì khác hơn là LICQ đã đề cập trước đây. Như vậy, nghiệm tối ưu địa phương x ∗ mà tại đó LICQ thỏa mãn nhất thiết phải là một điểm KKT. Định nghĩa 5.12 (regularity). Ta nói phương án x̂ là chính quy nếu tại đó LICQ xảy ra. Bây giờ, bằng cách đưa vào hàm Lagrange L( x, λ, µ) = f ( x ) + λ T g( x ) + µ T h( x ); x ∈ Rn , λ ∈ Rm , µ ∈ R p ; (5.18) điều kiện cần KKT có dạng đơn giản ∇ x L( x ∗ , λ∗ , µ∗ ) = 0, 0 ⩽ λ∗ ⊥ − gi ( x ∗ ) ⩾ 0. (5.19) Các biến λ, µ ở đây được gọi là nhân tử Lagrange ứng với bài toán đang xét. Hệ ràng buộc (5.19) có nghĩa là: ứng với bộ nhân tử (λ∗ , µ∗ ), x ∗ là một điểm dừng của hàm L(·, λ∗ , µ∗ ) thỏa mãn điều kiện bù 0 ⩽ λ∗ ⊥ − gi ( x ∗ ) ⩾ 0. Bài toán 5.2. Xác định hệ KKT tương ứng với bài toán min 2x1 + 3x2 − x3 s.t. x12 + x22 + x32 = 1 x12 + 2x22 + 3x32 = 2 và từ đây tìm các điểm KKT. (5.20) Chương 5. Lý thuyết tối ưu ràng buộc 64 Định lý 5.10 nhìn chung mới chỉ là điều kiện cần cho tính tối ưu. Tuy nhiên, đối với các bài toán lồi hệ KKT cũng đồng thời là điều kiện đủ. Định lý 5.13. Cho x ∗ là một phương án của bài toán quy hoạch ràng buộc (5.15) với f , g1 , . . . , gm là những hàm lồi C1 và h j là affine. Giả sử hệ KKT (5.19) nghiệm đúng với x ∗ ∗ p ∗ và λ∗ ∈ Rm + , µ ∈ R . Khi đó x là nghiệm tối ưu (toàn cục) của bài toán. Chứng minh. Bởi tính affine của các h j , hàm L(·, λ∗ , µ∗ ) là lồi. Do ∇ x L( x ∗ , λ∗ , µ∗ ) = 0, x ∗ là một điểm dừng của hàm lồi L(·, λ∗ , µ∗ ). Suy ra x ∗ là cực tiểu toàn cục của L(·, λ∗ , µ∗ ). Khi đó, nếu x là một phương án thì ta có m f (x ) = f (x ) + ∑ ∗ ∗ p λi∗ gi ( x ∗ ) + i =1 ∑ µ∗j h j (x∗ ) j =1 = L( x ∗ , λ∗ , µ∗ ) ⩽ L( x, λ∗ , µ∗ ) ⩽ f ( x ). Vậy x ∗ thực sự là nghiệm tối ưu. Nhận xét 5.14. Như vậy trong bài toán lồi, khi phương án là chính quy hệ KKT chính là điều kiện cần và đủ cho tính tối ưu. Đối chiếu với điều kiện cần trong Định lý 5.10, điều kiện đủ phát biểu ở Định lý 5.13 không đòi hỏi một điều kiện chính quy kiểu LICQ. Đối với điều kiện cần, trong bài toán lồi, người ta còn xem xét một số kiểu điều kiện chính quy khác nữa để đảm bảo hệ KKT xảy ra, chẳng hạn các điều kiện Slater hay suy rộng (xem Beck, 2014). 5.5 Điều kiện tối ưu bậc hai Để phát biểu các điều kiện tối ưu bậc hai cho bài toán dạng (5.1), ứng với mỗi phương án chính quy x người ta định nghĩa tập ( ) T ∇ g ( x ) d = 0, ∀ g ( x ) = 0 i i Λ ( x ) = d ∈ Rn (5.21) ∇ h j ( x )T d = 0, ∀ j = 1, . . . , p Chú ý rằng đây là một nón lồi đóng, và còn được gọi là nón tới hạn của miền khả thi tại điểm x. Định lý 5.15 (second-order necessary condition). Giả thiết x ∗ là một nghiệm địa phương chính quy của bài toán tối ưu (5.1). (Nhắc lại, tính chính quy nghĩa là LICQ được thỏa mãn.) ∗ p Khi đó x ∗ là một điểm KKT ứng với bộ nhân tử λ∗ ∈ Rm + , µ ∈ R và hơn nữa ta có d T ∇2xx L( x ∗ , λ∗ , µ∗ )d ⩾ 0, ∀ d ∈ Λ ( x ∗ ). (5.22) 5.6 Đối ngẫu 65 Ở đây, L là hàm Lagrange (5.18) và ∇2xx L( x ∗ , λ∗ , µ∗ ) là Hessian của hàm L(·, λ∗ , µ∗ ) tại x∗ . Bài toán 5.3. Kiểm tra Định lý 5.15 với bài toán min (2x1 − 1)2 + x22 s.t. −2x1 + x22 = 0. (5.23) Định lý mới chỉ là tiêu chuẩn cần có của tính tối ưu. Sau đây là điều kiện đủ tối ưu bậc hai tương ứng trích từ Nocedal and Wright, 2006. Định lý 5.16 (second-order sufficient condition). Giả sử x ∗ là một điểm KKT chính quy và λ∗ ⩾ 0, µ∗ ∈ R p là các nhân tử tương ứng. Nếu d T ∇2xx L( x ∗ , λ∗ , µ∗ )d > 0, ∀ d ∈ Λ ( x ∗ ) \ {0} (5.24) thì x ∗ là nghiệm địa phương ngặt của bài toán. Nhận xét 5.17. Giả thiết mọi ràng buộc đẳng thức luôn đúng h j = 0 và x ∗ là một điểm trong của miền khả thi Feas. Khi đó, có thể thấy rằng lúc này λ∗ = 0 (vì không có bất kỳ ràng buộc bất đẳng thức nào là active). Hơn nữa, cũng từ đây suy ra Λ( x ∗ ) = Rn . Khi đó các điều kiện cần và đủ trong hai định lý trên quy về các tiêu chuẩn tương ứng trong bài toán không ràng buộc ở Chương 2.1. 5.6 5.6.1 Đối ngẫu Mở đầu Bài toán đối ngẫu (dual problem) có thể diễn giải như là một cách tiếp cận để tìm kiếm các chặn cho giá trị của một bài toán tối ưu đã cho. Để minh họa, chúng tôi dẫn ra đây một trường hợp riêng đã đề cập trong Beck, 2014. Ví dụ 5.18. Xét bài toán quy hoạch ràng buộc min x12 + x22 + 2x1 s.t. x1 + x2 = 0. (P) Để tìm các chặn dưới của giá trị mục tiêu tối ưu mà không phải giải trực tiếp (P), người ta đưa vào tham số µ ∈ R và xét bài toán không ràng buộc min x12 + x22 + 2x1 + µ( x1 + x2 ) (Pµ ) với biến tối ưu x1 , x2 . Rõ ràng, giá trị hàm mục tiêu tối ưu của (Pµ ) là một chặn dưới của giá trị tương ứng trong bài toán (P). Bài toán không ràng buộc (Pµ ) có điểm Chương 5. Lý thuyết tối ưu ràng buộc 66 dừng là x (µ) = [−1 − µ/2 −µ/2] T . Khi đó, ứng với mỗi µ, chặn dưới của giá trị mục tiêu tối ưu của (P) là q(µ) := −1− µ 2 µ 2 µ µ µ + − +2 −1− +µ −1− − . 2 2 2 2 2 (5.25) Chặn dưới tốt nhất có thể chính là giá trị max q(µ), s.t. µ ∈ R. (5.26) (5.26) gọi là bài toán đối ngẫu của (P). 5.6.2 Lý thuyết bài toán đối ngẫu Xét bài toán quy hoạch ràng buộc nói chung dạng min f ( x ) s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; h j ( x ) = 0; j = 1, . . . , p; x ∈ Ω; (5.27) ở đó hàm mục tiêu f cũng như ràng buộc gi , h j xác định trên miền không trống Ω ⊂ Rn . Mô hình (5.27) sẽ gọi là bài toán gốc (primal). Hàm Lagrange liên kết với bài toán (5.27) được xác định bởi m p i =1 j =1 L( x, λ, µ) := f ( x ) + ∑ λi gi ( x ) + ∑ µ j h j ( x ) = f ( x ) + λ T g( x ) + µ T h( x ). (5.28) Ở đây, λi ∈ R+ là các nhân tử Lagrange tương ứng với ràng buộc bất đẳng thức gi ( x ) ⩽ 0, và µ j ∈ R là nhân tử ứng với ràng buộc đẳng thức g j ( x ) = 0. Hàm mục tiêu đối ngẫu của (5.27) là phiếm hàm q(λ, µ) = inf L( x, λ, µ). x ∈Ω (5.29) Miền hữu hiệu dom(q) bây giờ là tập hợp tất cả nhân tử λ, µ mà q(λ, µ) là hữu hạn p dom(q) = (λ, µ) ∈ Rm + × R | q ( λ, µ ) > − ∞ . (5.30) Bài toán đối ngẫu (dual) của (5.27) có dạng max q(λ, µ) s.t. (λ, µ) ∈ dom(q). Định lý 5.19. Hàm mục tiêu đối ngẫu q trong (5.31) có các tính chất sau đây: 1. dom(q) là một tập lồi; (5.31) 5.6 Đối ngẫu 67 2. q là hàm lõm (tức là −q lồi) trên dom(q). Định lý 5.20 (weak duality theorem). Xét cặp bài toán primal-dual mô tả bởi (5.27) và (5.31). Ký hiệu f ∗ và q∗ lần lượt là giá trị mục tiêu tối ưu của (5.27) và (5.31). Khi đó ta có bất đẳng thức q∗ ⩽ f ∗ . (5.32) Ví dụ 5.21. 5.6.3 Đối ngẫu trong bài toán lồi Ta bắt đầu với một kết quả trung gian quan trọng sau đây. Bổ đề 5.22 (nonlinear Farkas lemma). Cho Ω ⊂ Rn là một tập lồi và f , g1 , . . . , gm là những hàm lồi trên Ω. Giả thiết tồn tại một x̂ ∈ Ω sao cho g1 ( x̂ ) < 0, g2 ( x̂ ) < 0, . . . , gm ( x̂ ) < 0. (5.33) Cho số thực η tùy ý. Khi đó, hai phát biểu sau đây là tương đương. 1. Mọi nghiệm của hệ ràng buộc x ∈ Ω, g1 ( x ) ⩽ 0, . . . , gm ( x ) ⩽ 0 (5.34) đều thỏa mãn bất phương trình f ( x ) ⩾ η. 2. Tồn tại các vô hướng λ1 , . . . , λm ⩾ 0 sao cho ( m inf x ∈Ω f ( x ) + ∑ λ i gi ( x ) ) ⩾ η. (5.35) i =1 Chứng minh. Tham khảo phép chứng minh của Theorem 12.7 trong Beck, 2014. Bài toán 5.4. Suy ra Farkas lemma (Định lý 4.65) từ kết quả Bổ đề 5.22. Bổ đề cho phép thiết lập kết quả sau đây, gọi là định lý đối ngẫu mạnh đối với bài toán quy hoạch lồi. Định lý 5.23 (strong duality). Xét bài toán quy hoạch ràng buộc min f ( x ) s.t. gi ( x ) ⩽ 0; i = 1, . . . , m; x ∈ Ω; (5.36) với gi là hàm lồi trên tập lồi đóng Ω ⊂ Rn . Giả sử tồn tại một x̂ ∈ Ω mà gi ( x̂ ) < 0 cho mọi i = 1, . . . , m. Thêm vào đó, giải thiết rằng bài toán (5.36) có giá trị tối ưu hữu hạn f ∗ . Khi đó bài toán đối ngẫu max q(λ) := infx∈Ω L( x, λ) (5.37) s.t. λ ∈ dom(q) có lời giải tối ưu và giá trị tối ưu q∗ = f ∗ . Sau đây, chúng ta áp dụng lý thuyết về đối ngẫu vào một số trường hợp riêng quan trọng thường gặp của mô hình tối ưu lồi tổng quát. Chương 5. Lý thuyết tối ưu ràng buộc 68 Quy hoạch tuyến tính. thức Xét bài toán quy hoạch tuyến tính với ràng buộc bất đẳng min c T x s.t. Ax ⩽ b, (5.38) với các dữ kiện ban đầu c ∈ Rm×n , c ∈ Rn và b ∈ Rm . Hàm Lagrange bây giờ có dạng L( x, λ) = c T x + λ T (Ax − b), λ ∈ Rm +. (5.39) Hàm mục tiêu đối ngẫu o q(λ) = infn c T x + λ T (Ax − b) = x ∈R λ T b, nếu A T λ − c = 0 −∞, ngoài ra, , (5.40) và vì thế bài toán đối ngẫu tương ứng là max λ T b s.t. A T λ − c = 0, λ ⩾ 0. (5.41) Bài toán 5.5. Nghiệm lại các biểu diễn (5.40) và (5.41) ở trên. Sử dụng kết quả đó tìm bài toán đối ngẫu của mỗi một bài toán QHTT dưới đây1 • bài toán dạng standard min c T x s.t. Ax ⩾ b, x ⩾ 0; • bài toán dạng canonical min c T x s.t. Ax = b, x ⩾ 0. Quy hoạch toàn phương lồi. Xét bài toán quy hoạch toàn phương min 21 x T Qx + q T x + α s.t. Ax ⩽ b, (5.42) ở đó Q ∈ Rn×n xác định dương, q ∈ Rn , A ∈ Rm×n , b ∈ Rm . Ham Lagrange ứng với bài toán (5.42) có dạng L( x, λ) = 1 các 1 T x Qx + q T x + α + λ T (Ax − b). 2 thuật ngữ lấy theo Ferris et al., 2007 (5.43) 5.6 Đối ngẫu 69 L(·, λ) là hàm lồi ngặt nên cực tiểu toàn cục của nó là điểm dừng x ∗ , nghiệm đúng phương trình 0 = ∇ x L( x, λ) = Qx + q + A T λ. (5.44) Vậy hàm mục tiêu đối ngẫu 1 1 T q(λ) = L( x ∗ , λ) = − λ T (AQ−1 A T )λ − (AQ−1 q) λ − q T Q−1 q + α. 2 2 (5.45) Bài toán đối ngẫu T max − 21 λ T (AQ−1 A T )λ − (AQ−1 q) λ − 12 q T Q−1 q + α s.t. λ ⩾ 0. (5.46) Bài toán 5.6. Nghiệm lại các biểu diễn (5.45) và (5.46) ở trên. Vận dụng điều đó khảo sát bài toán sau đây: tìm biểu thức hình chiếu PrC ( x ), ở đó C là đa diện C = u | Au ⩽ b . Bài tập Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society. Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer Berlin Heidelberg. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. 70 Chương 5. Lý thuyết tối ưu ràng buộc Tài liệu tham khảo Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University Press. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. 1 Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. Rudin, W. (1976). Principles of mathematical analysis (3rd ed.). McGrawHill. 2 Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. 71 72 Tài liệu tham khảo Lục, Đ. T., Điển, P. H., & Phượng, T. D. (2002). Giải tích các hàm nhiều biến: Những nguyên lý cơ bản và tính toán thực hành. NXB Đại học Quốc gia Hà Nội. 3 Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University Press. Dennis, J. J. E., & Moré, J. J. (1977). Quasi-Newton methods, motivation and theory. SIAM Review. https://doi.org/10.1137/1019005 Golub, G. H., & Van Loan, C. F. (2013). Matrix computations (4th ed.). The Johns Hopkins University Press. Nesterov, Y. (2018). Lectures on convex optimization (2nd, Vols. 137). Springer International Publishing. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. 4 Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Boyd, S., & Vandenberghe, L. (2009). Convex optimization (7th). Cambridge University Press. Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society. Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer Berlin Heidelberg. 5 Beck, A. (2014). Introduction to nonlinear optimization: Theory, algorithms, and applications with matlab. Society for Industrial; Applied Mathematics; Mathematical Optimization Society. Tài liệu tham khảo 73 Ferris, M. C., Mangansarian, O. L., & Wright, S. J. (2007). Linear programming with matlab. Society for Industrial and Applied Mathematics; Mathematical Optimization Society. Hiriart-Urruty, J.-B., & Lemaréchal, C. (2001). Fundamentals of convex analysis. Springer Berlin Heidelberg. Nocedal, J., & Wright, S. J. (2006). Numerical optimization (2nd ed.). Springer, New York, NY. 74 Tài liệu tham khảo Chỉ mục backtracking, 23 bao lồi, 42, 43 đóng, 43 bao nón lồi, 43 bao đóng, 7 biên, 7 bài toán gốc, 66 quy hoạch lồi, 52 bài toán bù, 55 chuẩn ma trận, 5 Frobenius, 6 phổ, 6 vector, 5 cơ sở, 2 chính tắc, 2 cỡ bước, 22 cực tiểu toàn cục, 11 ngặt, 11 địa phương, 12 ngặt, 12 cực trị toàn cục, 11 cực đại toàn cục, 11 ngặt, 11 địa phương, 12 ngặt, 12 dãy, 8 giá trị riêng, 6 giới hạn, 8 gradient, 9 Hessian, 10 hàm, 8 C1,1 , 28 C1,1 địa phương, 28 chính thường, 48 giá trị thực mở rộng, 48 monotone, 50 ngặt, 50 mục tiêu, 14 vector, 9 vô hướng, 8 hàm chỉ tiêu, 48 hàm log-sum-exp, 51 hàm lồi, 48 mạnh, 49 ngặt, 48 hàm mục tiêu, 1 đối ngẫu, 66 hình chiếu, 13, 55 hình cầu, 7 đơn vị đóng, 7 hướng giảm, 21, 22 hướng lùi xa, 47 hướng Newton, 31 hội tụ bậc hai, 32 75 Chỉ mục 76 Jacobian, 9 không gian Rn , 2 khả vi, 9 bậc hai, 10 liên tục, 9 hai lần, 10 LICQ, 61 line-search, 23 exact, 23 inexact, 23 liên tục Lipschitz, 28 Lipschitz địa phương, 28 lân cận, 7 ma trận chuyển vị, 3 chéo, 4 con, 3 không, 4 không xác định, 15 nửa xác định dương, 14 tam giác dưới, 4 trên, 4 thực, 3 trực giao, 6 vuông, 3 xác định dương, 14 đơn vị, 4 đối xứng, 3 miền hữu hiệu, 48 miền khả thi, 2, 11, 52 mặt cầu, 7 đơn vị, 7 mục tiêu lồi mạnh, 33 lớp C1,1 , 30 lớp C2 , 32 nhân tử, 62 nón, 40 lùi xa, 47 lồi, 40 lồi đóng, 40 nón Lorenz, 41 nón pháp tuyến, 56 nón tới hạn, 64 phép chiếu, 55 phương pháp gradient, 21 Newton, 21 quasi-Newton, 21 thuần Newton, 31 phương trình dây cung, 35 phương án chính quy, 63 chấp nhận được, 2 tối ưu, 1 phần trong, 7 phụ thuộc tuyến tính, 2 quy hoạch toán học, ix, 1 ràng buộc, 1 active, 60 thuật toán hội tụ toàn cục, 30 tối ưu, 1, 30 tiêu chuẩn dừng, 21 trên đồ thị, 48 tích ma trận-ma trận, 4 ma trận-vector, 4 vô hướng, 4 tập bị chặn, 8 compact, 8 Chỉ mục mở, 8 đóng, 8 tập lồi, 40 mở, 40 đa diện, 41 đóng, 40 tối ưu, ix không ràng buộc, 21 ràng buộc, 59 tổ hợp affine, 42 conic, 42 lồi, 42 tổng Minkowski, 7 vector cột, 2 vector riêng, 6 vector tiếp xúc, 60 vết, 6 ánh xạ affine, 42 điều kiện Armijo, 23 điều kiện bức, 13 điều kiện cong, 35 điều kiện tối ưu, 1 điểm biên, 7 trong, 7 điểm cực biên, 46 điểm dừng, 14, 54 yên ngựa, 16 điểm KKT, 63 điểm tới hạn, 62 đoạn thẳng, 40 đạo hàm, 9 bậc hai, 10 hướng, 8 riêng, 8 đạo hàm riêng 77 bậc hai, 10 định thức con chính, 15 đối ngẫu, 65 đồ thị, 48 độc lập tuyến tính, 2