TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN ************ BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CỦA SINH VIÊN THAM GIA XÉT GIẢI THƯỞNG “ SINH VIÊN NGHIÊN CỨU KHOA HỌC” NĂM 2025 ỨNG DỤNG MÔ HÌNH HỌC MÁY TRONG NGHIÊN CỨU SỰ ĐÓI NGHÈO VỀ NĂNG LƯỢNG TẠI VIỆT NAM Lĩnh vực: Khoa học xã hội Chuyên ngành: Kinh tế và kinh doanh Hà Nội, 2025 MỤC LỤC LỜI CAM ĐOAN Nhóm tác giả khẳng định đề tài: “Ứng dụng mô hình học máy trong nghiên cứu sự đói nghèo về năng lượng tại Việt Nam” là công trình nghiên cứu khoa học độc lập của chúng tôi dưới sự hướng dẫn và giám sát của giảng viên hướng dẫn. Các dữ liệu và kết quả xuất hiện trong bài nghiên cứu này phục vụ cho việc phân tích đánh giá mang tính chính xác và khách quan. Nhóm tác giả cam đoan bài nghiên cứu không sao chép các bài nghiên cứu trước đó dưới bất kì hình thức nào. Các tài liệu tham khảo được sử dụng có nguồn gốc rõ ràng và được trích dẫn đúng theo quy định. Nhóm nghiên cứu xin đảm bảo và chịu toàn bộ trách nhiệm về lời cam đoan này. Hà Nội, ngày 23 tháng 03 năm 2025 Tác giả Nhóm nghiên cứu LỜI CẢM ƠN Lời đầu tiên, nhóm nghiên cứu xin gửi lời cảm ơn đến trường Đại học Kinh tế Quốc dân đã tổ chức cuộc thi “Sinh viên nghiên cứu khoa học”, tạo cơ hội cho nhóm nghiên cứu nói riêng và các bạn sinh viên nói chung được đào sâu học hỏi và áp dụng kiến thức vào thực tiễn. Nhóm nghiên cứu xin được cảm ơn đến các quý thầy cô trong khoa vì đã luôn tạo điều kiện và hỗ trợ rất tận tình trong quá trình nghiên cứu của nhóm. Đặc biệt, nhóm nghiên cứu xin được gửi lời cảm ơn sâu sắc nhất đến giảng viên hướng dẫn. Gần nửa năm vừa qua, cô đã luôn đồng hành, tận tâm chỉ bảo, cùng nhóm vượt qua những khó khăn khi thực hiện nghiên cứu. Chúng em học hỏi từ cô không chỉ những kinh nghiệm mà còn là tinh thần của một nhà khoa học. Do giới hạn về khả năng nghiên cứu, kiến thức và thời gian, chắc hẳn đề tài vẫn còn nhiều thiếu sót. Nhóm nghiên cứu rất mong nhận được những góp ý của thầy cô để có thể hoàn thiện tốt hơn. Một lần nữa, nhóm nghiên cứu xin chân thành cảm ơn! DANH MỤC BẢNG DANH MỤC HÌNH DANH MỤC TỪ VIẾT TẮT STT 1 2M 2 AHP 3 AFCP 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Ý nghĩa Ký hiệu Nghĩa tiếng Anh Median ×2 Indicator Analytic Hierarchy Process After Fuel Cost Poverty Nghĩa tiếng Việt Chỉ số gấp đôi trung vị quốc gia Quy trình Phân tích Thứ bậc Chỉ số nghèo sau chi phí nhiên liệu Trí tuệ nhân tạo Artificial Intelligence Department for Business, Bộ Kinh doanh, Năng lượng và Energy & Industrial BEIS Chiến lược Công nghiệp Strategy Bidirectional Long Mạng trí nhớ ngắn hạn định Bi-LSTM Short-Term Memory hướng dài hạn hai chiều Brazil, Russia, India, Nhóm các nền kinh tế mới nổi BRICS China, South Africa European Commission Ủy ban châu Âu EC Energy Poverty Nghèo đói năng lượng EP European Union Liên minh Châu Âu EU European Union Chỉ số thống kê EU-SILC về EU-SILC Statistics on Income and thu nhập và điều kiện sống Living Conditions Vietnam Electricity Tập đoàn Điện lực Việt Nam EVN Food and Agriculture Tổ chức Lương thực và Nông FAO Organization nghiệp Liên Hợp Quốc Tổng sản phẩm nội địa GDP Gross Domestic Product Gross Regional Domestic Tổng sản phẩm địa phương GRDP Product General Statistics Office Tổng cục Thống kê Việt Nam GSO of Vietnam Gigawatt Giga-oát GW Human Development Chỉ số phát triển con người HDI Index International Energy Cơ quan năng lượng quốc tế IEA Agency International Renewable Cơ quan năng lượng tái tạo IRENA Energy Agency quốc tế Kilowatt Kilô-oát kW Chi phí cao thu nhập thấp LIHC Low Income High Cost AI 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Long Short-Term Mạng trí nhớ ngắn hạn định Memory hướng dài hạn Multidimensional Energy Chỉ số nghèo đói năng lượng đa MEPI Poverty Index chiều Machine Learning Máy học ML Minimum Income Chỉ số thu nhập tối thiểu MIS Standard Mean Squared Error Sai số bình phương trung bình MSE Megawatt Megawatt MW Năng lượng tái tạo NLTT Organisation for Tổ chức Hợp tác và Phát triển OECD Economic Co-operation Kinh tế and Development Bình phương nhỏ nhất thông Ordinary Least Squares OLS thường Principal Component Phân tích thành phần chính PCA Analysis Sức mua tương đương PPP Purchasing Power Parity Vietnam Oil and Gas Tập đoàn Dầu khí Việt Nam PVN Group Root Mean Squared Căn bậc hai của sai số bình RMSE Error phương trung bình Recurrent Neural Mạng Nơ-ron truy hồi RNN Network United Nations Chương trình Phát triển Liên UNDP Development Programme Hợp Quốc Vietnam Household Khảo sát mức sống hộ gia đình VHLSS Living Standards Survey Việt Nam World Bank Ngân hàng Thế giới WB LSTM PHẦN MỞ ĐẦU 1. Tổng quan nghiên cứu 1.1. Tổng quan các yếu tố tác động đến sự nghèo đói năng lượng Tiêu thụ năng lượng toàn cầu đang trải qua giai đoạn tăng trưởng đáng kể, phản ánh sự phát triển kinh tế và dân số toàn cầu. Theo Enerdata, vào năm 2023, tiêu thụ năng lượng toàn cầu tăng 2,2%, nhanh hơn mức trung bình 1,5%/năm trong giai đoạn 2010-2019. Các quốc gia BRICS, bao gồm Brazil, Nga, Ấn Độ, Trung Quốc và Nam Phi, chiếm 42% tiêu thụ năng lượng toàn cầu, với mức tăng trưởng 5,1% vào năm 2023. Đặc biệt, Trung Quốc tăng 6,6%, gấp đôi mức trung bình lịch sử, trong khi Ấn Độ tăng 5,1%. Ngược lại, Tổ chức Hợp tác và Phát triển Kinh tế (OECD) chứng kiến mức giảm 1,5% vào năm 2023, với Liên minh Châu Âu giảm 4,2% và Đức giảm 9,3%. Theo dự báo của cơ quan năng lượng quốc tế (IEA) cho năm 2025, nhu cầu sử dụng điện toàn cầu sẽ tiếp tục tăng mạnh, với sự gia tăng từ các trung tâm dữ liệu, điện khí hóa giao thông và nhu cầu điều hòa không khí, đặc biệt ở các nước đang phát triển. Bên cạnh đó, báo cáo của Certrec (2025) cũng dự đoán nguồn năng lượng tái tạo sẽ chiếm 35% sản lượng điện toàn cầu vào năm 2025, tăng từ 30% kể từ năm 2023, cho thấy xu hướng chuyển đổi sang năng lượng bền vững. Tuy nhiên, McKinsey (2024) cũng cảnh báo rằng lượng phát thải CO2 từ năng lượng có thể tiếp tục tăng đến năm 2025-2035, do vai trò vẫn còn lớn của nhiên liệu hóa thạch. Nghèo đói năng lượng, được định nghĩa là thiếu hụt quyền tiếp cận năng lượng hiện đại, đáng tin cậy và giá cả phải chăng, là một vấn đề toàn cầu, ảnh hưởng đến hàng triệu người, đặc biệt là ở các quốc gia đang phát triển. Vấn đề này không chỉ đơn giản là thiếu khả năng tiếp cận năng lượng mà còn phản ánh sự thiếu thốn trong các điều kiện sống cơ bản như nước sạch, dịch vụ chăm sóc sức khỏe và giáo dục. Tính đến năm 2024, nghiên cứu của Cơ quan Năng lượng Quốc tế (IEA) cho thấy 760 triệu người vẫn không có điện và 2,3 tỷ người phụ thuộc vào các nhiên liệu nấu ăn gây hại như củi và than, gây ra 3,7 triệu ca tử vong sớm mỗi năm do ô nhiễm không khí trong nhà. Những con số này nhấn mạnh mức độ nghiêm 1 trọng của vấn đề, đặc biệt ở các khu vực như châu Phi cận Sahara, nơi hơn 80% dân số toàn cầu không có điện sống. Các yếu tố ảnh hưởng đến nghèo đói năng lượng có thể được phân loại thành năm nhóm chính, như được trình bày trong bảng dưới đây: Bảng 1: Tổng hợp các yếu tố ảnh hưởng đến nghèo đói năng lượng Nhóm yếu Nội dung tố chính Thu nhập Tài liệu tham khảo Thu nhập thấp là một trong những yếu tố chính, với Carley & Graff của hộ gia các hộ gia đình có thu nhập thấp thường phải cắt (2019); Ủy ban đình giảm tiêu thụ năng lượng, dẫn đến các vấn đề sức Châu Âu (2024) khỏe và giáo dục. Nghiên cứu của Carley và Graff (2019) cho thấy năng lượng không an toàn liên quan chặt chẽ đến thu nhập và tài sản, với các hộ nghèo dễ bị ảnh hưởng hơn. Giá năng lượng cao, đặc biệt trong các cuộc khủng hoảng toàn cầu như đại dịch COVID-19 và xung đột Nga-Ukraine, đã làm gia tăng gánh nặng tài chính, với người tiêu dùng chi gần 10 nghìn tỷ USD cho năng lượng vào năm 2022, tăng 20% so với trung bình 5 năm trước (IEA, 2024). Cơ sở hạ Tiếp cận cơ sở hạ tầng năng lượng là yếu tố quan IEA (2024); tầng và khả trọng, đặc biệt ở các khu vực nông thôn và vùng xa UNDP (2024) năng tiếp xôi. Theo IEA, sự thiếu hụt cơ sở hạ tầng khiến cận năng nhiều khu vực, đặc biệt ở châu Phi cận Sahara, lượng không có điện, với hơn 1 tỷ người không có tiếp cận nấu ăn sạch. Điều thú vị là ở châu Phi cận Sahara, sự khác biệt trong mật độ dân số, độ xa xôi và đặc điểm địa hình đất đai ảnh hưởng nhiều đến nghèo đói năng lượng hơn là sự giàu có của quốc gia, cho thấy có cơ hội địa phương để cải thiện mà không cần 2 dự án hạ tầng lớn (Chương trình Phát triển của Liên Hợp Quốc (UNDP), 2024). Hiệu quả Các tòa nhà không hiệu quả về năng lượng, chẳng Ủy ban Châu Âu sử dụng hạn như thiếu cách nhiệt hoặc hệ thống sưởi/làm (2024) năng lượng mát kém, làm tăng nhu cầu năng lượng và chi phí, đặc biệt cho các hộ thu nhập thấp. Ủy ban Châu Âu nhấn mạnh rằng hiệu quả năng lượng của tòa nhà là yếu tố quyết định quan trọng, với các hộ gia đình ở các tòa nhà kém hiệu quả thường phải chi tiêu nhiều hơn cho năng lượng. Đặc điểm Các nghiên cứu tại Pakistan, Ấn Độ và Banglades Awan và cộng sự xã hội và (Awan và cộng sự, 2022; Li và cộng sự, 2024; (2022); Li và cộng nhân khẩu Barnes và cộng sự, 2011) cho thấy các hộ có người sự (2024); Barnes học phụ nữ là trụ cột chính trong gia đình, có giáo dục và cộng sự (2011) thấp, và sống ở nông thôn có nguy cơ cao hơn bị nghèo đói năng lượng. Điều này phản ánh sự bất bình đẳng xã hội, với phụ nữ thường phải dành nhiều thời gian thu thập chất đốt để nấu ăn, ảnh hưởng đến cơ hội giáo dục và việc làm. Chính sách Thiếu các chính sách hỗ trợ và đầu tư vào tiếp cận IEA (2024); và quản lý năng lượng là một rào cản lớn đối với việc giảm đói Recommendations nghèo về năng lượng. IEA ước tính rằng cần 8 tỷ of the Global USD mỗi năm để đạt được nấu ăn sạch toàn cầu vào Commission năm 2030, nhưng hiện tại đầu tư vẫn chưa đủ, đặc (2021) biệt ở châu Phi, nơi cần 4 tỷ USD mỗi năm để đạt mục tiêu này. Các chương trình như "An Affordable and Sustainable Energy System for Sub-Saharan Africa" (2019-2024, do EU tài trợ) đang hỗ trợ các quốc gia như Benin, DRC, Ethiopia, nhưng vẫn cần nhiều nỗ lực hơn. Nguồn: Tổng hợp của nhóm nghiên cứu 3 Có thể thấy rằng, các yếu tố trên không chỉ có tác động đơn lẻ, mà còn tương tác qua lại với nhau. Ví dụ, thu nhập thấp có thể dẫn đến việc sống trong các tòa nhà không hiệu quả về năng lượng, làm tăng chi phí năng lượng, từ đó làm trầm trọng thêm nghèo đói năng lượng. Tương tự, thiếu cơ sở hạ tầng ở nông thôn thường đi kèm với thu nhập thấp và giáo dục hạn chế, tạo ra một vòng luẩn quẩn khó thoát. Nghiên cứu của Carley và Graff (2019) nhấn mạnh rằng các yếu tố kinh tế, xã hội và môi trường cần được xem xét đồng thời với nhau để có thể hiểu được bức tranh tổng thể về sự nghèo đói về năng lượng. Như vậy, nghèo đói năng lượng là một vấn đề đa chiều, đòi hỏi sự phối hợp giữa các bên liên quan để giải quyết. Các yếu tố như thu nhập, giá năng lượng, cơ sở hạ tầng, hiệu quả sử dụng năng lượng, và chính sách chính phủ không chỉ ảnh hưởng riêng lẻ mà còn tương tác với nhau để gây ra hoặc giảm thiểu tình trạng này. Việc nghiên cứu sâu hơn và áp dụng các giải pháp dựa trên bằng chứng thực nghiệm sẽ là chìa khóa để đảm bảo mọi hộ gia đình có thể tiếp cận năng lượng đủ và giá cả phải chăng, góp phần vào phát triển bền vững và công bằng xã hội. 1.2. Ứng dụng mô hình học máy trong phân tích sự nghèo đói về năng lượng a) Tổng quan về học máy và các phương pháp học máy phổ biến Trí tuệ nhân tạo (AI) được coi là một trong những đột phá sáng tạo quan trọng nhất trong công nghệ hiện đại (López-Vargas và cộng sự, 2022). Học máy (Machine Learning - ML) là một lĩnh vực con của AI, cho phép máy tính học hỏi và thực hiện các tác vụ mà không cần lập trình cụ thể (Samuel, 1959). Các thuật toán học máy có thể được xây dựng và huấn luyện dựa trên dữ liệu mẫu, sau đó được áp dụng để đưa ra dự đoán. Những thuật toán này đã thể hiện khả năng dự đoán chính xác, xử lý các mối quan hệ phi tuyến phức tạp giữa các biến (Hong và Park, 2021), cũng như phát hiện các mối liên hệ phức tạp trong các tập dữ liệu lớn, điều mà nếu sử dụng các phương pháp thống kê truyền thống sẽ đòi hỏi rất nhiều thời gian và công sức để thực hiện thủ công (van Hove và cộng sự, 2022). Mặc dù còn tồn tại hạn chế là hoạt động theo cơ chế “hộp đen” (black box), tức là thiếu minh bạch trong cách thức hình thành các quy tắc quyết định, các mô hình học máy vẫn được ứng dụng rộng rãi trong các tác vụ phức tạp như nhận dạng hình ảnh, phát hiện gian lận và chẩn đoán y tế (Bộ Kinh doanh, Năng lượng và Chiến lược 4 Công nghiệp Vương quốc Anh (BEIS), 2017). Theo cách tiếp cận phân tích dữ liệu bằng học máy, học giám sát và học không giám sát là hai phương pháp cơ bản nhưng lại có vai trò quan trọng trong việc giải quyết các bài toán phân tích dữ liệu. Học giám sát (Supervised Learning) là phương pháp học máy trong đó mô hình được huấn luyện bằng cách sử dụng một bộ dữ liệu đã được gán nhãn (labeled data). Mỗi dữ liệu trong bộ dữ liệu huấn luyện sẽ có một đầu ra (label) xác định trước, và mục tiêu của mô hình là học được mối quan hệ giữa các đặc trưng (features) và đầu ra đó. Các thuật toán học giám sát bao gồm hồi quy (regression), phân loại (classification), và các mô hình như cây quyết định (decision trees), SVM (Support Vector Machines), và mạng nơ-ron (neural networks). Ứng dụng của học giám sát trong ngành kinh tế có thể kể đến là dự đoán giá trị chứng khoán, phân tích xu hướng tiêu dùng, hay dự báo doanh thu của công ty. Học không giám sát (Unsupervised Learning) là phương pháp học máy không yêu cầu dữ liệu đầu vào có nhãn. Thay vì dự đoán đầu ra cụ thể, học không giám sát giúp mô hình phát hiện các mẫu hoặc cấu trúc ẩn trong dữ liệu. Điều này đặc biệt hữu ích khi không có thông tin nhãn cho các dữ liệu. Các thuật toán học không giám sát bao gồm phân cụm (clustering), giảm chiều (dimensionality reduction), và học đặc trưng (feature learning). Trong ngành kinh tế, học không giám sát có thể được sử dụng để phân nhóm khách hàng, phân tích thị trường, hay phát hiện các mô hình tiêu dùng ẩn trong dữ liệu khách hàng. b) Các nghiên cứu điển hình ứng dụng mô hình học máy trong phân tích sự nghèo đói về năng lượng Số lượng nghiên cứu sử dụng kỹ thuật AI và học máy để hướng tới giảm nghèo đói năng lượng vẫn còn hạn chế (López-Vargas và cộng sự, 2022), nhưng xu hướng nghiên cứu về chủ đề này đang ngày càng gia tăng. Hầu hết các nghiên cứu hiện tại tập trung vào việc xác định các yếu tố dự báo quan trọng nhất của nghèo đói năng lượng ở một hoặc nhiều quốc gia. Một ví dụ gần đây tại các nước phát triển là nghiên cứu của Dalla Longa và cộng sự (2021) về các yếu tố dự báo nghèo đói năng lượng tại Hà Lan. Các tác giả đã sử dụng học máy để phân loại hộ gia đình ở Hà Lan thành bốn mức rủi ro nghèo đói năng lượng, qua đó nhận diện 5 các yếu tố quan trọng như thu nhập, quy mô hộ gia đình, tuổi, giá trị và quyền sở hữu nhà ở. Van Hove và cộng sự (2022) mở rộng phạm vi nghiên cứu trên 11 quốc gia châu Âu, kết luận rằng thu nhập, quy mô hộ gia đình và diện tích nhà ở là các yếu tố phổ quát, trong khi tuổi nhà phụ thuộc nhiều vào đặc thù địa phương. Tại Vương quốc Anh, Bộ Kinh doanh, Năng lượng và Chiến lược Công nghiệp (2017) đã sử dụng học máy để dự báo tình trạng nghèo đói năng lượng của các hộ gia đình Anh. Hong và Park (2021) sử dụng nhiều thuật toán học máy khác nhau để dự đoán nghèo đói năng lượng ở Hàn Quốc, chỉ ra rằng thu nhập, diện tích nhà ở, chi phí thực phẩm, tuổi và trình độ học vấn của chủ hộ là các yếu tố dự báo quan trọng. Ở các nước đang phát triển, Wang và cộng sự (2021) phát hiện rằng kết hợp học máy với dữ liệu viễn thám về địa lý và môi trường cho kết quả dự đoán nghèo đói năng lượng chính xác hơn các phương pháp chỉ dựa vào dữ liệu kinh tế - xã hội. Gần đây, Abbas và cộng sự (2022) sử dụng chỉ số nghèo đói năng lượng đa chiều (MEPI) để khảo sát nghèo đói năng lượng cực đoan tại 59 quốc gia đang phát triển ở châu Á và châu Phi, xác định các quốc gia dễ tổn thương nhất và các yếu tố kinh tế - xã hội ảnh hưởng mạnh nhất đến nghèo đói năng lượng, bao gồm tài sản hộ gia đình, tình trạng hôn nhân, quy mô, quyền sở hữu và vị trí nhà ở. Bên cạnh các nghiên cứu chuyên biệt về lĩnh vực đói nghèo đói năng lượng, còn có rất nhiều ứng dụng học máy tập trung vào các khía cạnh liên quan như thu nhập, tiêu thụ năng lượng của các tòa nhà, giá năng lượng, bất thường hóa đơn năng lượng và tiện nghi nhiệt. López-Vargas và cộng sự (2022) đã tổng hợp nhiều nghiên cứu về các khía cạnh này như dự đoán mức thu nhập tại Mỹ (Chakrabarty và Biswas, 2018), nghiên cứu sự đô thị hóa tại Anh (Reades và cộng sự, 2019), dự đoán nguy cơ bị loại trừ xã hội tại Tây Ban Nha (Serrano và cộng sự, 2018), dự đoán các chỉ số kinh tế - xã hội tại Đức (Feldmeyer và cộng sự, 2020), theo dõi giá thuê nhà tại Trung Quốc (Hu và cộng sự, 2019), và phát hiện tình trạng thất nghiệp tại Ireland (Curbelo Montañez và Hurst, 2020). Các ứng dụng khác liên quan tới hiệu suất năng lượng tòa nhà, dự đoán giá điện, nhận diện tổn thất phi kỹ thuật và dự đoán tiện nghi nhiệt cũng đã được nghiên cứu rộng rãi. Phần lớn các nghiên cứu này đều diễn ra trong vòng 5 năm gần đây, cho thấy ứng dụng học máy trong lĩnh vực nghèo đói năng lượng là hướng nghiên cứu 6 rất kịp thời và đang thu hút sự quan tâm ngày càng lớn trên phạm vi quốc tế. c) Tiềm năng ứng dụng mô hình học máy trong nghiên cứu nghèo đói năng lượng tại Việt Nam Học máy – bộ não của trí tuệ nhân tạo, như đã phân tích ở trên, là công cụ mạnh mẽ để phân tích các tập dữ liệu lớn với độ chính xác cao, giúp các nhà nghiên cứu không chỉ hiểu thêm về bức tranh tổng thể về tình trạng nghèo đói năng lượng nói riêng và tình trạng nghèo đa chiều ở Việt Nam nói chung. Cụ thể: Các mô hình học máy có thể ứng dụng để phân tích dữ liệu từ các cuộc khảo sát hộ gia đình với số lượng mẫu lớn, như Khảo sát mức sống dân cư của Việt Nam (VHLSS), để dự báo các hộ gia đình có nguy cơ nghèo đói năng lượng. Bằng cách phân tích các yếu tố như thu nhập, vị trí địa lý, kích thước hộ gia đình, trình độ giáo dục và loại nguồn năng lượng sử dụng, các mô hình này có thể xác định các mẫu và dự báo nghèo đói năng lượng với độ chính xác cao. Chẳng hạn các kỹ thuật học máy như Lasso, Random forest, và Gradient boosting, có thể xác định tầm quan trọng tương đối của các yếu tố khác nhau trong việc góp phần vào nghèo đói năng lượng. Điều này có thể giúp các nhà hoạch định chính sách hiểu được các khía cạnh nào, như mức thu nhập, vị trí địa lý hoặc giáo dục, có tác động lớn nhất đến nghèo đói năng lượng, từ đó hướng dẫn việc đề ra các can thiệp nhằm mục tiêu (Hanjie Wang và cộng sự, 2021). Học máy cũng có thể được sử dụng để mô phỏng các tác động của các chính sách hoặc can thiệp khác nhau nhằm giảm nghèo đói năng lượng. Ví dụ, các mô hình có thể dự báo cách các thay đổi về giá năng lượng, trợ cấp hoặc phát triển cơ sở hạ tầng năng lượng có thể ảnh hưởng đến các mẫu tiêu thụ năng lượng của các nhóm hộ gia đình khác nhau, như trong nghiên cứu của Spandagos và cộng sự (2023) nghiên cứu tại các nước thuộc Liên minh châu Âu (EU). Điều này đặc biệt hữu ích với Việt Nam, vì nếu chi phí năng lượng bị đẩy lên quá cao sẽ làm tăng gánh nặng tài chính cho các hộ gia đình dễ bị tổn thương. Một ứng dụng khác của học máy đó là phân tích không gian. Bằng cách đưa vào mô hình huấn luyện dữ liệu không gian, các kĩ thuật trong học máy có thể vẽ và phân tích bản đồ phân bố của nghèo đói năng lượng trên khắp các vùng khác nhau tại Việt Nam. Từ đó có thể hỗ trợ trong việc xác định các khu vực cần được 7 ưu tiên chú ý và lên kế hoạch phân bổ nguồn lực cho phát triển cơ sở hạ tầng năng lượng. Ví dụ, nghiên cứu của Hye-Yeong và cộng sự (2020) sử dụng mạng thần kinh nhân tạo (Artificial Neural Network-Based) để dự báo tiêu thụ năng lượng dựa trên các yếu tố phát triển đô thị, như ánh sáng ban đêm và dân số, cho thấy sự mở rộng tiêu thụ năng lượng ở các thành phố lớn như Hà Nội và TP. Hồ Chí Minh, đồng thời nhấn mạnh tầm quan trọng của việc phân tích các yếu tố không gian đối với các vấn đề về kinh tế-xã hội tại Việt Nam. Như vậy, học máy có tiềm năng đáng kể để nâng cao hiểu biết của chúng ta về nghèo đói năng lượng tại Việt Nam và xây dựng, phát triển các chiến lược, chính sách hiệu quả nhằm giải quyết vấn đề này. Bằng cách khai thác các kỹ thuật học máy, các nhà nghiên cứu và nhà hoạch định chính sách có thể có được các hiểu biết sâu sắc hơn về các yếu tố ảnh hưởng tới nghèo đói năng lượng, dự báo mức độ phổ biến của nó và đánh giá tác động của các can thiệp khác nhau, cuối cùng đóng góp cho mục tiêu đạt được tiếp cận phổ biến với năng lượng giá cả phải chăng và sạch. Mặt khác, học máy không chỉ hỗ trợ dự báo mà còn mở ra hướng nghiên cứu mới, ví dụ như phân tích mối liên hệ giữa nghèo đói năng lượng với chi phí khám chữa bệnh, như được trình bày trong nghiên cứu của Hang và Hai (2024). 2. Lý do chọn đề tài Xuất phát từ nhu cầu thực tiễn Thứ nhất, Việt Nam được xem là một trường hợp điển hình để nghiên cứu các vấn đề liên quan đến chuyển đổi năng lượng, nghèo đói năng lượng và bất bình đẳng năng lượng (Nguyen và cộng sự, 2019). Với vị thế là một trong những nền kinh tế phát triển nhanh nhất thế giới, thể hiện qua tỷ lệ tăng trưởng GDP hàng năm đạt khoảng 7% trong giai đoạn từ năm 2004 đến 2024 (GSO, 2025) cùng lượng đầu tư trực tiếp nước ngoài tăng mạnh (Le và Tran-Nam, 2018), Việt Nam đã đạt được những thành tựu kinh tế ấn tượng. Tuy nhiên, đi cùng với những thành quả đó là tình trạng phân hóa giàu nghèo ngày càng gia tăng, đặc biệt giữa các khu vực đô thị và nông thôn. Quá trình đô thị hóa nhanh đã thúc đẩy di cư từ nông thôn ra thành thị, làm nổi bật sự khác biệt về khả năng tiếp cận các dịch vụ công cộng thiết yếu (Nguyễn và cộng sự, 2017). Mặt khác, Việt Nam có 54 nhóm dân tộc chính thức được công nhận, trong đó dân tộc Kinh chiếm khoảng 85% dân số; các dân 8 tộc thiểu số còn lại chủ yếu sinh sống tại các khu vực xa xôi, miền núi và đang gặp nhiều trở ngại trong việc tiếp cận các dịch vụ cơ bản. Theo số liệu mới nhất từ World Bank, vào năm 2023, tỷ lệ nghèo tổng thể tại Việt Nam dưới 4% dựa trên đường nghèo của ngân hàng dành cho các quốc gia thu nhập trung bình thấp (3,65 USD/ngày, PPP 2017). Mặc dù tỷ lệ nghèo thu nhập đã giảm đáng kể, từ mức 58% vào năm 1993 xuống chỉ còn 9,8% vào năm 2016, giúp khoảng 28 triệu người thoát nghèo trong giai đoạn 1993–2013 (Benjamin và cộng sự, 2017; Do và cộng sự, 2019a) nhưng sự nghèo đói năng lượng vẫn tồn tại, đặc biệt ở khu vực nông thôn và các nhóm dân tộc thiểu số. Báo cáo từ IEA cho thấy, mặc dù Việt Nam đã đạt được tiến bộ trong việc mở rộng tiếp cận điện, như chương trình điện khí hóa nông thôn giúp 95% hộ dân nông thôn tiếp cận điện vào năm 2008 (Khandker và cộng sự, 2013), nhưng một số hộ gia đình, đặc biệt ở vùng núi phía Bắc, vẫn gặp khó khăn trong việc chi trả năng lượng, với khoảng 25% hộ gia đình không đủ điện để đáp ứng nhu cầu vào năm 2020. Nguyên nhân là do hiện tại Việt Nam vẫn chưa có chính sách cụ thể nào tập trung vào giải quyết vấn đề nghèo đói năng lượng một cách toàn diện. Vì vậy, những nghiên cứu về nghèo đói năng lượng nói riêng và nghèo đa chiều nói chung sẽ hỗ trợ đáng kể Chính phủ và các nhà hoạch định chính sách trong chiến lược về xóa đói giảm nghèo và tăng trưởng bền vững. Thứ hai, Việt Nam là một quốc gia sở hữu nguồn tài nguyên năng lượng sơ cấp đa dạng và phong phú bao gồm than đá, dầu mỏ, khí đốt, và các nhiên liệu sinh khối. Cùng với tăng trưởng kinh tế, mức tiêu thụ năng lượng của nước ta cũng đã gia tăng mạnh mẽ, cụ thể nguồn cung năng lượng sơ cấp thương mại đã tăng trưởng trung bình 9,5% mỗi năm trong giai đoạn 2001–2015, và mức tiêu thụ điện tăng khoảng 11% mỗi năm trong giai đoạn 1999–2003. Đáng chú ý, nỗ lực của chính phủ trong việc mở rộng tiếp cận điện năng đã đạt được những kết quả tích cực, khi tỷ lệ hộ gia đình chưa tiếp cận được điện giảm từ mức 50% năm 1995 xuống chỉ còn 2% năm 2014 (Ngân hàng Thế giới (WB), 2016). Tuy nhiên, ngành năng lượng hiện vẫn chủ yếu do các doanh nghiệp nhà nước điều hành, trong đó đáng kể nhất là Tập đoàn Điện lực Việt Nam (EVN) quản lý hệ thống điện, Petro Vietnam (PVN) phụ trách về khí đốt và các sản phẩm dầu mỏ, còn Vinacomin chịu trách nhiệm về sản xuất than đá. Một trong những rào cản lớn nhất khiến ngành năng lượng chưa 9 phát triển mạnh mẽ hơn là do thiếu cơ chế giá cả thị trường phù hợp. Ví dụ cụ thể là mức giá điện bán lẻ trung bình vào năm 2024 chỉ ở mức 1.864 VND/kWh, tương đương khoảng 73% chi phí biên dài hạn (IEA, 2024). Mặc dù chính phủ Việt Nam đã kêu gọi đầu tư tư nhân để đa dạng hóa nguồn cung và thúc đẩy sự phát triển bền vững của ngành năng lượng, song thực tế, thị trường này vẫn chưa đủ hấp dẫn các nhà đầu tư ngoài nhà nước. Do vậy, việc xây dựng các chính sách cụ thể về năng lượng, đặc biệt là đối với nhóm đối tượng dễ bị tổn thương là hết sức cần thiết nhằm đảm bảo an ninh năng lượng và giảm bớt tình trạng nghèo đói năng lượng tại Việt Nam. Thứ ba, bên cạnh những bước tiến đáng kể trong việc mở rộng tiếp cận điện năng tại Việt Nam, việc đáp ứng đủ nhu cầu năng lượng cho các hộ gia đình còn phụ thuộc vào nhiều yếu tố cần được xem xét. Theo đó, nhu cầu sử dụng năng lượng trong sinh hoạt chủ yếu bao gồm việc làm mát và sưởi ấm, ngoài ra còn bao gồm các hoạt động thiết yếu khác như nấu ăn, thắp sáng và sử dụng các thiết bị gia dụng hiện đại như tủ lạnh, tivi. Thực tế cho thấy, nhu cầu năng lượng của Việt Nam đã tăng nhanh chóng trong những thập kỷ gần đây, tương ứng với hiệu suất kinh tế vĩ mô mạnh mẽ và thu nhập hộ gia đình liên tục được cải thiện. Kể từ khi thực hiện chính sách Đổi Mới vào năm 1986, Việt Nam đã đạt được những tiến bộ lớn trong việc đáp ứng các nhu cầu năng lượng cho dân số. Việc sản xuất điện tăng trưởng đáng kể, trong khi tỷ lệ các hộ gia đình được kết nối với lưới điện quốc gia hiện nay gần như đã đạt mức 98-99% dân số (Ha-Duong và Nguyen, 2017; EVN, 2018). Đó là kết quả từ những đầu tư lớn trong chương trình điện khí hóa nông thôn từ phía chính phủ Việt Nam và các tổ chức viện trợ quốc tế đã giúp tỷ lệ dân số được tiếp cận điện tăng vọt từ chỉ 14% vào năm 1990 lên tới 97% vào năm 2010 (World Bank, 2011). Theo Scott và Greenhill (2014), sản lượng điện đã tăng gấp mười lần trong cùng khoảng thời gian này. Các nghiên cứu như Tang và cộng sự (2016) cũng chỉ ra rằng, tiêu thụ năng lượng là một yếu tố quan trọng quyết định sự tăng trưởng kinh tế của Việt Nam. Để bảo đảm khả năng chi trả cho năng lượng của các hộ gia đình, chính phủ Việt Nam đã thực hiện các chính sách kiểm soát giá điện; trong giai đoạn từ năm 1998 đến 2009, giá trần điện đã được áp dụng đối với các hộ nông thôn, và kể từ năm 2009, biểu giá điện đã được điều chỉnh nhằm mục đích các hộ 10 có thu nhập cao hơn, tiêu thụ nhiều điện hơn sẽ hỗ trợ chi phí điện cho các hộ có thu nhập thấp hơn (Scott và Greenhill, 2014). Mặc dù vậy, cho đến nay vẫn còn khoảng một triệu người chưa được tiếp cận với điện, chủ yếu là cư dân ở các vùng núi phía Bắc, như đã được đề cập ở trên. Nghiên cứu của Nguyễn và cộng sự (2019), dựa trên bộ dữ liệu của VHLSS từ năm 2004 đến 2016, đã chỉ ra rằng mặc dù các hộ gia đình Việt Nam đang chuyển đổi sang sử dụng các dạng năng lượng hiện đại, nhưng nhóm người nghèo và các dân tộc thiểu số vẫn phụ thuộc nhiều vào các dạng năng lượng truyền thống như than đá và sinh khối. Thêm vào đó, việc tiếp cận với lưới điện quốc gia không đồng nghĩa rằng các hộ gia đình có đủ khả năng chi trả cho mức tiêu thụ cần thiết. Ví dụ, vào năm 2010, một phần tư số hộ gia đình ở Việt Nam báo cáo rằng lượng điện họ tiêu thụ không đủ đáp ứng nhu cầu thiết yếu (Ha-Duong và Nguyen, 2017). Scott và Greenhill (2014) nhấn mạnh rằng, các hộ nông thôn cần tiêu thụ nhiều hơn mức điện được trợ cấp (30 kWh mỗi tháng) để điện năng thực sự có tác động đáng kể tới việc giảm nghèo. Hơn nữa, như đã đề cập, vấn đề nghèo đói năng lượng không chỉ dừng lại ở khả năng tiếp cận điện mà còn phụ thuộc rất nhiều vào loại hình năng lượng mà các hộ gia đình sử dụng. Cho đến nay, chưa tới hai phần ba dân số Việt Nam chủ yếu sử dụng các loại nhiên liệu và công nghệ sạch (WHO, 2020). Những nhận định này càng khẳng định rõ hơn tính cần thiết và cấp bách của việc nghiên cứu sâu hơn về nghèo đói năng lượng Việt Nam. Xuất phát từ khoảng trống nghiên cứu Thứ nhất, trên thế giới, các phương pháp dự báo hiện tại, đặc biệt là các mô hình kinh tế lượng, chủ yếu tập trung vào việc phân tích các yếu tố ảnh hưởng và phân loại các hộ gia đình nghèo đói về năng lượng, thay vì dự báo các xu hướng tương lai của nghèo đói năng lượng. Điều này là một trong những khoảng trống lớn trong nghiên cứu hiện tại, khi các mô hình tuyến tính hiện tại không thể dự báo được sự thay đổi của các yếu tố gây nghèo đói năng lượng, mà chỉ phản ánh tình trạng nghèo tại một thời điểm nhất định. Thêm vào đó, như đã phân tích ở phần tổng quan nghiên cứu, nhiều nghiên cứu hiện tại chỉ sử dụng các chỉ số ở mức độ hộ gia đình như thu nhập, chi tiêu và đặc điểm nhà ở mà bỏ qua những yếu tố vĩ mô quan trọng như điều kiện khí hậu, đặc điểm dân số, và giá cả các mặt hàng năng 11 lượng. Đây là một vấn đề quan trọng vì nghèo đói năng lượng không chỉ là vấn đề của các hộ gia đình mà còn liên quan đến nhiều yếu tố mang tính vĩ mô hơn. Các phương pháp học máy có thể giải quyết các khoảng trống này, với khả năng xử lý lượng dữ liệu lớn và nhận diện các mô hình phức tạp, bao gồm các yếu tố không tuyến tính. Những đặc điểm này giúp học máy vượt trội hơn so với các phương pháp dự báo truyền thống, khi nghèo đói năng lượng có thể biểu hiện không theo xu hướng tuyến tính mà thay đổi theo thời gian và bị ảnh hưởng bởi các yếu tố như giá năng lượng hay nhiều yếu tố vĩ mô khác. Học máy cũng có khả năng kết hợp nhiều chỉ số khác nhau, từ yếu tố xã hội kinh tế như thu nhập và hành vi tiêu dùng, cho đến các yếu tố môi trường như khí hậu, giúp tạo ra các dự báo chính xác hơn và phù hợp với thực tế tại các khu vực có nguy cơ nghèo đói năng lượng cao. Như đã đề cập ở trên, một số mô hình học máy, có thể học được từ các dữ liệu lớn và tạo ra các dự báo cá nhân hóa về việc sử dụng năng lượng, từ đó giúp cải thiện việc phân phối năng lượng và giảm nghèo đói năng lượng. Vì vậy, khoảng trống nghiên cứu hiện tại nằm ở việc phát triển các mô hình học máy có thể kết hợp tất cả các yếu tố tác động đến nghèo đói năng lượng, từ yếu tố vi mô như đặc điểm của hộ gia đình, đến các yếu tố vĩ mô như giá cả năng lượng, từ đó tạo ra một hệ thống dự báo năng lượng toàn diện và chính xác hơn. Thứ hai, tại Việt Nam, có rất ít nghiên cứu sâu sắc về nghèo đói năng lượng. Đặc biệt là chưa có nghiên cứu tiền nhiệm nào tại Việt Nam ứng dụng các phương pháp phân tích dữ liệu tiên tiến như học máy để dự báo và phân tích về nghèo đói năng lượng. Nghiên cứu của Nguyen và cộng sự (2019) đã tiên phong trong việc nghiên cứu chuyển đổi năng lượng, nghèo đói năng lượng và bất bình đẳng năng lượng tại Việt Nam. Nhóm tác giả đã chỉ ra rằng mặc dù có sự chuyển đổi từ năng lượng truyền thống sang năng lượng hiện đại, nhưng quá trình chuyển đổi này còn chậm và không đồng đều giữa các khu vực, các nhóm dân tộc và giữa khu vực nông thôn và thành thị. Bên cạnh đó, nhóm nghiên cứu nhận thấy rằng nghèo đói năng lượng không chỉ là vấn đề về việc thiếu điện mà còn là vấn đề về chi phí năng lượng. Mặt khác, tình trạng nghèo đói năng lượng ở Việt Nam chủ yếu vẫn là vấn đề của các hộ nghèo và dân tộc thiểu số, khi họ vẫn phải dựa vào các nguồn năng lượng truyền thống như than đá và sinh khối. Mặc dù nghiên cứu đã có những nỗ 12 lực nhằm xây dựng chính sách để giảm nghèo đói năng lượng, nhưng vẫn chưa xây dựng một hệ thống dự báo đầy đủ và chi tiết về nghèo đói năng lượng tại Việt Nam. Một nghiên cứu khác của Feeny và cộng sự (2021) lại tập trung vào tác động của các cú sốc nhiệt độ đến nghèo đói năng lượng, cho thấy rằng các cú sốc nhiệt độ ảnh hưởng trực tiếp đến nghèo đói năng lượng, đặc biệt là ở các khu vực miền Bắc và miền Trung, cũng như tại các vùng nông thôn. Tuy nhiên, nghiên cứu này chủ yếu tập trung vào tác động của các yếu tố bên ngoài, về các yếu tố đặc điểm dân cư – xã hội của các hộ gia đình, mặc dù được đưa vào nghiên cứu như là các biến kiểm soát nhưng lại có tác động không đáng kể. Gần đây, nghiên cứu của Nguyen-Phung và Lê (2024) đã khám phá tác động của nghèo đói năng lượng đối với chi tiêu cho sức khỏe của các hộ gia đình, cho thấy mối quan hệ tiêu cực giữa nghèo đói năng lượng và chi tiêu cho sức khỏe, đặc biệt là đối với các dịch vụ y tế thiết yếu. Bên cạnh đó, tuy nhóm tác giả chưa sử dụng các phương pháp phân tích dữ liệu tiên tiến bằng học máy, nhưng đã sử dụng mô hình bán tham số để giải quyết về mối quan hệ phi tuyến tính với các biến mục tiêu. Đồng thời gợi ý rằng các nghiên tương lai nên áp dụng phương pháp học máy tiên tiến để phân tích sâu hơn về nghèo đói năng lượng, và mối quan hệ của nó đối với sức khỏe, môi trường và xã hội. Điều này cho thấy rõ ràng rằng các phương pháp phân tích dữ liệu tuyến tính truyền thống, dù có giá trị trong việc nắm bắt tình hình hiện tại, nhưng lại thiếu đi khả năng dự báo chính xác và phân tích đa chiều về nghèo đói năng lượng. Như vậy, có thể thấy rằng tại Việt Nam, dù đã có một số nghiên cứu về nghèo đói năng lượng, nhưng việc áp dụng các phương pháp học máy để dự báo và tối ưu hóa việc phân phối năng lượng vẫn còn là một khoảng trống lớn trong nghiên cứu hiện tại. Việc ứng dụng học máy vào việc dự báo nghèo đói năng lượng không chỉ mở ra một hướng tiếp cận mới, chính xác và hiệu quả hơn, mà còn hỗ trợ các nhà hoạch định chính sách trong việc xây dựng các chiến lược giảm nghèo đói năng lượng nói riêng và nghèo đa chiều nói chung một cách toàn diện hơn. Qua phân tích từ những nhu cầu thực tiễn và khoảng trống trong nghiên cứu hiện tại, có thể thấy rằng việc áp dụng học máy vào nghiên cứu nghèo đói năng lượng tại Việt Nam không chỉ là hướng nghiên cứu hợp lý mà còn là một yêu cầu 13 cấp thiết trong bối cảnh Việt Nam đang đối mặt với nhiều thách thức trong việc giảm phụ thuộc vào năng lượng hóa thạch, thực hiện cam kết giảm phát thải khí nhà kính và đáp ứng mục tiêu phát triển kinh tế - xã hội một cách bền vững. Các phương pháp học máy, với khả năng xử lý dữ liệu lớn và phân tích các mô hình phức tạp phi tuyến tính, có thể giúp chúng ta hiểu rõ hơn về các yếu tố tác động đến nghèo đói năng lượng, từ đó đưa ra các dự báo chính xác hơn về các xu hướng và thách thức trong tương lai. Bên cạnh đó, Chính phủ và các cơ quan chức năng có thể sử dụng các kết quả dự báo từ mô hình học máy để xây dựng các chiến lược giảm nghèo đói năng lượng hiệu quả hơn, đồng thời giảm thiểu tác động tiêu cực của nghèo đói năng lượng đối với các nhóm dân cư dễ bị tổn thương. Do đó, đề tài " Ứng dụng mô hình học máy trong nghiên cứu sự đói nghèo về năng lượng tại Việt Nam" không chỉ đáp ứng được nhu cầu cấp thiết trong việc nghiên cứu và giải quyết vấn đề nghèo đói năng lượng mà còn đóng góp vào việc phát triển các chính sách năng lượng, xóa đói giảm nghèo bền vững và hiệu quả. Đề tài này kỳ vọng sẽ mở ra hướng nghiên cứu mới với các công cụ và phương pháp phân tích dữ liệu mới, ứng dụng học máy vào việc xác định các yếu tố chính tác động đến nghèo đói năng lượng của các hộ gia đình, từ đó hỗ trợ các nhà hoạch định chính sách xây dựng các giải pháp phù hợp cho các nhóm dân cư yếu thế, đặc biệt là dân tộc thiểu số và các vùng nông thôn. Đây là một bước tiến quan trọng trong việc thực hiện cam kết của Việt Nam đối với các mục tiêu phát triển bền vững, góp phần vào việc nâng cao chất lượng cuộc sống cho người dân và thúc đẩy sự phát triển kinh tế - xã hội công bằng và bền vững. 3. Mục tiêu và câu hỏi nghiên cứu 3.1. Mục tiêu nghiên cứu Mục tiêu tổng quát: Nghiên cứu này nhằm ứng dụng các phương pháp học máy (học không giám sát, học giám sát và học sâu) để phân tích, nhận diện và dự báo tình trạng nghèo đói năng lượng của các hộ gia đình Việt Nam dự trên bộ dữ liệu Khảo sát mức sống dân cư Việt Nam – VHLSS (2004 – 2020). Qua đó, nghiên cứu đưa ra các đề xuất chính sách hỗ trợ nhóm hộ gia đình nghèo năng lượng, góp phần nâng cao hiệu quả chương trình xóa đói giảm nghèo và thúc đẩy phát triển bền vững tại Việt Nam. 14 Mục tiêu cụ thể: Thứ nhất, hệ thống hóa cơ sở lý thuyết về sự nghèo đói về năng lượng, các lý thuyết về học máy và phương pháp học máy được ứng dụng để phân loại và dự báo sự nghèo đói về năng lượng tại Việt Nam. Thứ hai, xây dựng mô hình nghiên cứu để phân loại các nhóm hộ gia đình dựa trên các đặc điểm về nhân khẩu học, đặc điểm về kinh tế xã hội được khảo sát từ bộ dữ liệu VHLSS (2004-2020) tại Việt Nam bằng các thuật toán phân cụm của phương pháp học không giám sát. Thứ ba, dựa vào kết quả phân cụm của mô hình học không giám sát, xây dựng mô hình để dự đoán các đặc điểm về nhân khẩu học, kinh tế - xã hội của các hộ gia đình nghèo đói năng lượng điển hình tại Việt Nam bằng các thuật toán phân loại của phương pháp học giám sát. Thứ tư, trên cơ sở kết quả phân cụm của mô hình học không giám sát, xác định tỷ lệ nhóm hộ gia đình nghèo đói về năng lượng, từ đó xây dựng mô hình dự đoán chi tiêu cho năng lượng và chi tiêu cho tiền điện của nhóm hộ gia đình này bằng các thuật toán của học giám sát và học sâu. Cuối cùng, trên cơ sở kết quả nghiên cứu, nhóm nghiên cứu đề xuất một số khuyến nghị nhằm nâng cao hiệu quả của chương trình xóa đói giảm nghèo tại Việt Nam. 3.2. Câu hỏi nghiên cứu Để đạt được những mục tiêu đã đề ra ở trên, nhóm nghiên cứu tập trung trả lời những câu hỏi nghiên cứu sau: Câu hỏi 1: Các lý thuyết và mô hình nào đã được áp dụng để nghiên cứu nghèo đói năng lượng ở các quốc gia trên thế giới, và làm thế nào các phương pháp học máy có thể được ứng dụng để phân tích tình trạng nghèo đói năng lượng tại Việt Nam? Câu hỏi 2: Các đặc điểm nhân khẩu học và kinh tế - xã hội nào là yếu tố quan trọng nhất để dự đoán tình trạng nghèo đói năng lượng của các hộ gia đình tại Việt Nam? Câu hỏi 3: Những khuyến nghị nào có thể được đưa ra để cải thiện hiệu quả của chương trình xóa đói giảm nghèo và nâng cao khả năng tiếp cận năng lượng 15 của các hộ nghèo tại Việt Nam? 4. Đối tượng và phạm vi nghiên cứu 4.1. Đối tượng nghiên cứu Đề tài tập trung nghiên cứu tình trạng nghèo đói năng lượng của các hộ gia đình tại Việt Nam thông qua việc ứng dụng các phương pháp học máy. Đối tượng nghiên cứu là các đặc điểm về nhân khẩu học, kinh tế - xã hội và hành vi tiêu dùng năng lượng của các hộ gia đình tại Việt Nam trong giai đoạn 2004–2020. 4.2. Phạm vi nghiên cứu Thứ nhất, về phạm vi nội dung: Nghiên cứu tập trung vào việc hệ thống hóa cơ sở lý thuyết liên quan đến nghèo đói năng lượng và các phương pháp học máy; xây dựng mô hình phân cụm để phân loại nhóm hộ gia đình dựa trên đặc điểm kinh tế - xã hội; dự đoán đặc điểm của nhóm hộ nghèo năng lượng; và xây dựng mô hình dự đoán chi tiêu năng lượng bằng các thuật toán học máy. Trên cơ sở kết quả phân tích, nghiên cứu cũng đưa ra các khuyến nghị chính sách nhằm hỗ trợ nhóm hộ nghèo năng lượng và góp phần nâng cao hiệu quả các chương trình xóa đói giảm nghèo tại Việt Nam. Thứ hai, về phạm vi không gian và thời gian: Nghiên cứu được thực hiện trên phạm vi toàn quốc, sử dụng dữ liệu từ Khảo sát mức sống dân cư Việt Nam (VHLSS) do Tổng cục Thống kê Việt Nam thu thập định kỳ hai năm một lần. Dữ liệu được sử dụng trong nghiên cứu bao gồm các kỳ khảo sát từ năm 2004 đến năm 2020. Đây là chuỗi dữ liệu dọc theo thời gian, cho phép nhóm nghiên cứu phân tích xu hướng và đánh giá tác động của các yếu tố kinh tế - xã hội đến tình trạng nghèo đói năng lượng của hộ gia đình Việt Nam trong dài hạn. 5. Dữ liệu nghiên cứu Trong nghiên cứu này, nhóm tác giả lựa chọn sử dụng bộ dữ liệu từ Khảo sát mức sống dân cư Việt Nam (VHLSS) từ năm 2004 tới năm 2020, do Tổng cục Thống kê Việt Nam (GSO) thực hiện với sự hỗ trợ kỹ thuật từ Ngân hàng Thế giới và Chương trình Phát triển Liên hợp quốc. Bộ dữ liệu này được thiết kế theo các tiêu chuẩn quốc tế, đảm bảo tính đại diện thống kê cao ở cấp quốc gia, cấp vùng, cũng như phân biệt rõ giữa khu vực thành thị và nông thôn. Dữ liệu VHLSS không chỉ phản ánh đầy đủ điều kiện kinh tế - xã hội của các hộ gia đình mà còn cung cấp 16 nguồn thông tin quan trọng cho các nghiên cứu về tiêu dùng năng lượng. Bộ dữ liệu VHLSS được nhóm nghiên cứu lựa chọn vì tính đáng tin cậy và khả năng đại diện tốt cho toàn bộ dân số Việt Nam. Dữ liệu này được thu thập từ hàng chục nghìn hộ gia đình trên toàn quốc, bao phủ đầy đủ các vùng miền và các điều kiện kinh tế - xã hội khác nhau. Điều này giúp nghiên cứu có được cái nhìn khách quan và toàn diện về hành vi tiêu dùng năng lượng của các hộ gia đình Việt Nam. Ngoài ra, bộ dữ liệu VHLSS chứa đựng rất nhiều thông tin phong phú và đa dạng, bao gồm nhiều khía cạnh như thu nhập, chi tiêu, việc làm, giáo dục, đặc biệt là mức độ tiêu dùng năng lượng. Nhờ đó, nghiên cứu có thể xác định được các yếu tố ảnh hưởng đến xu hướng tiêu dùng năng lượng theo thời gian một cách rõ ràng. Việc sử dụng dữ liệu thứ cấp như VHLSS cũng giúp tiết kiệm đáng kể thời gian, chi phí và đảm bảo tính khách quan cũng như độ chính xác trong phân tích. Hơn nữa, do dữ liệu VHLSS được thu thập định kỳ hai năm một lần, điều này tạo ra một chuỗi dữ liệu dài hạn, rất hữu ích cho việc phân tích các xu hướng và đánh giá tác động của các chính sách liên quan đến năng lượng. Đây là lợi thế quan trọng giúp nghiên cứu đánh giá rõ hơn sự chuyển đổi trong việc sử dụng các nguồn năng lượng truyền thống sang các nguồn năng lượng hiện đại tại Việt Nam, từ đó đưa ra những khuyến nghị chính sách phù hợp. Mặt khác, phương pháp chọn mẫu nghiêm ngặt và tuân thủ các tiêu chuẩn quốc tế của khảo sát VHLSS đảm bảo tính đại diện cao của dữ liệu. Điều này rất quan trọng khi phân tích xu hướng tiêu dùng năng lượng của hộ gia đình Việt Nam trong một khoảng thời gian dài. Việc nghiên cứu các biến đổi trong sử dụng năng lượng giúp nhóm nghiên cứu nhận diện rõ hơn hiệu quả của các chính sách năng lượng, từ đó đưa ra những đề xuất nhằm tối ưu hóa việc sử dụng năng lượng trong các hộ gia đình tại Việt Nam. Nhờ tính toàn diện và chất lượng dữ liệu cao, VHLSS trở thành công cụ hữu ích trong nghiên cứu kinh tế - xã hội nói chung và nghiên cứu về nghèo đói năng lượng nói riêng. Về phương pháp nghiên cứu và mô hình nghiên cứu sẽ được nhóm trình bày cụ thể trong Chương 2. 17 CHƯƠNG 1: CƠ SỞ LÝ LUẬN 1.1 Lý thuyết về sự nghèo đói năng lượng 1.1.1. Năng lượng và sự phát triển kinh tế Từ lâu, vấn đề về tiêu thụ năng lượng và phát triển kinh tế đã có mối liên hệ chặt chẽ với nhau. Theo Ngân hàng thế giới (World Bank), các chỉ số kinh tế vĩ mô cơ bản của một quốc gia thường bao gồm mức tiêu thụ năng lượng và điện, số lượng phương tiện giao thông, và gần đây là lượng phát thải CO2 bình quân đầu người. Bảng 1 trình bày các chỉ số liên quan đến phát triển và năng lượng của chín quốc gia đại diện. Bảng 1.1: Chỉ số về năng lượng và phát triển kinh tế (2020) Quốc gia HDI Tuổi thọ trung bình (Năm) Tổng sản phẩm quốc nội ($, PPC) Tiêu thụ điện bình quân đầu người (kWh) Tiêu thụ năng lượng bình quân đầu người (toe) CO2 bình quân đầu người (Tấn) Hoa Kỳ Đức Ả-rập-xê-út Nga Brazil Trung Quốc Ấn Độ Nigeria Ethiopia 0.92 0.92 0.78 0.78 0.73 0.69 0.55 0.47 0.39 78.2 80 73.9 68.8 73.1 73.3 65.1 51.4 58.7 46.612 37.652 22.747 19.940 11.180 7.553 3.366 2.367 1.033 13.394 7.215 7.967 6.452 2.384 2.944 616 137 54 7.1 4.0 6.1 4.9 1.3 1.8 0.5 0.7 0.4 19.7 9.8 16.5 11.3 1.9 4.4 1.2 0.7 0.1 Nguồn: Dữ liệu của Ngân hàng thế giới (World Bank) Quan sát cho thấy chỉ số phát triển con người (HDI), tuổi thọ trung bình khi sinh, và tổng sản phẩm quốc nội (GDP) bình quân đầu người đều có mối quan hệ chặt chẽ với mức tiêu thụ năng lượng. Chẳng hạn, Đức và Hoa Kỳ, với điểm HDI rất tương đồng (0,92) và tuổi thọ trung bình lần lượt là 80 và 78 năm, đồng thời có mức tiêu thụ năng lượng bình quân đầu người cao - vượt quá 4 tấn dầu tương đương (toe) mỗi người mỗi năm. Ngược lại, Ấn Độ, Nigeria và Ethiopia, với điểm HDI lần lượt là 0,55, 0,47 và 0,39 cùng tuổi thọ trung bình dưới 65 năm, có mức tiêu thụ năng lượng thấp hơn đáng kể (dưới 0,7 toe). Khi các quốc gia đạt được sự tiến bộ, mức tiêu thụ năng lượng của họ cũng tăng lên. 18 Hình 1: Tiêu thụ năng lượng của các quốc gia 1970-2014 (kWh/người) Nguồn: Dữ liệu của Ngân hàng thế giới (World Bank) Hình 1 minh họa xu hướng tiêu thụ điện từ năm 1970 đến 2014 tại một số quốc gia. Một trong những mức tăng ấn tượng nhất là của Trung Quốc, nơi tiêu thụ điện bình quân đầu người tăng từ 150 kW h vào năm 1970 lên 3000 kW h vào năm 2014, tương đương mức tăng gấp 20 lần. Tuy nhiên, tại một số quốc gia châu Phi, nơi tiến bộ kinh tế hạn chế hoặc không đáng kể, mức tiêu thụ năng lượng hầu như không thay đổi. Ví dụ, ở Ethiopia, tiêu thụ điện tăng từ 18 kW h mỗi người vào năm 1970 lên 58 kW h vào năm 2014. Hiện nay, mức tiêu thụ điện bình quân đầu người tại Ethiopia thấp hơn 250 lần so với Hoa Kỳ. Sự bất bình đẳng kinh tế trên toàn cầu cũng được phản ánh qua sự chênh lệch tương tự trong tiêu thụ năng lượng. Đáng chú ý, mối liên hệ giữa tiêu thụ năng lượng và phát triển kinh tế không chỉ theo một chiều: tiêu thụ năng lượng có xu hướng giảm trong các giai đoạn suy thoái kinh tế. Điều này được thể hiện rõ trong Hình 1 qua trường hợp của Nga trong quá trình chuyển đổi sang nền kinh tế thị trường, khi GDP giảm gần 30% và tiêu thụ năng lượng giảm tương ứng. 19 Hình 2: Mối quan hệ giữa chỉ số phát triển con người và tiêu thụ năng lượng (1995 – 2008) Nguồn: Arto và cộng sự (2014) Nghiên cứu của Arto và cộng sự (2014) đã cung cấp bằng chứng thống kê về mối quan hệ giữa phát triển và năng lượng (Hình 2), trong đó mỗi điểm đại diện cho HDI và mức tiêu thụ năng lượng của một quốc gia, với kích thước điểm thể hiện quy mô dân số tương đối. Nhìn chung, hầu hết các quốc gia có HDI cao hoặc rất cao đều ghi nhận mức tiêu thụ năng lượng lớn. Tuy nhiên, cũng tồn tại sự đa dạng đáng kể: một số quốc gia đạt HDI cao nhưng có mức tiêu thụ năng lượng khác nhau, như được thể hiện qua sự phân bố ngang rộng trong dữ liệu. Hơn nữa, khi vượt quá một ngưỡng tiêu thụ nhất định, mối quan hệ này dường như cong lại, cho thấy tồn tại một mức mà tại đó HDI và tiêu thụ năng lượng không còn tỷ lệ thuận. Mặc dù mối quan hệ giữa tiêu thụ năng lượng và phát triển kinh tế đã được chứng minh ở trên, nhưng có hai yếu tố quan trọng cần được xem xét. Thứ nhất, tại các quốc gia xuất khẩu năng lượng, mối quan hệ này có thể bị bóp méo nghiêm trọng do mức trợ cấp cao cho năng lượng, đặc biệt là từ nhiên liệu hóa thạch. Chẳng hạn, ở Ả Rập Saudi và Nga, tiêu thụ điện bình quân đầu người vượt trội hơn so với Đức, mặc dù mức sống thấp hơn (xem Bảng 1). Thứ hai, chính sách của chính phủ 20 đóng vai trò quan trọng trong việc định hình mức tiêu thụ năng lượng. Ví dụ, tại Hoa Kỳ, tiêu thụ năng lượng và điện bình quân đầu người cao gần gấp đôi so với Đức. Sự khác biệt này không thể giải thích hoàn toàn bằng cấu trúc kinh tế, yếu tố địa lý hay khí hậu, mà chủ yếu xuất phát từ các chính sách năng lượng và đô thị được triển khai (Newman và Kenworthy, 1989). Tóm lại, tiêu thụ năng lượng là điều kiện cần, nhưng không phải là điều kiện đủ để thúc đẩy phát triển kinh tế. Đến một mức phát triển nhất định, các chính sách được chính phủ áp dụng, trở thành yếu tố quyết định liệu tiêu chuẩn về phúc lợi xã hội có thể được nâng cao hoặc duy trì hay không, mà không cần gia tăng tiêu thụ năng lượng. Dù trong trường hợp nào, cách rõ ràng nhất để hiểu tầm quan trọng của tiêu thụ năng lượng là phân tích những hệ quả của tình trạng nghèo đói năng lượng (González-Eguinon, 2015). 1.1.2. Khái niệm về sự nghèo đói năng lượng Hiện nay có rất nhiều định nghĩa và cách tiếp cận khác nhau về khái niệm nghèo đói năng lượng, nhưng nhìn chung đều hướng đến tình trạng mức tiêu thụ năng lượng không đủ đáp ứng những nhu cầu cơ bản của con người. Theo Reddy (2000), nghèo đói năng lượng có thể được định nghĩa là "tình trạng thiếu khả năng lựa chọn đầy đủ trong việc tiếp cận các dịch vụ năng lượng thích hợp, chi phí hợp lý, đáng tin cậy, chất lượng cao, an toàn và thân thiện với môi trường nhằm hỗ trợ phát triển kinh tế và con người". Định nghĩa này bao hàm nhiều yếu tố quan trọng và các sắc thái tinh tế và thường được sử dụng trong các nghiên cứu về nghèo đói năng lượng (Benes và cộng sự, 2012). Thứ nhất, định nghĩa nhấn mạnh vào khía cạnh thiếu khả năng lựa chọn. Theo Sen (1999), phát triển không đơn thuần là đạt được một mức thu nhập nhất định (hoặc lượng năng lượng tiêu thụ trên đầu người trong trường hợp này), mà trước hết là việc không bị loại trừ khỏi những lựa chọn giúp cá nhân đạt được phúc lợi theo nghĩa rộng nhất. Việc không được tiếp cận đầy đủ năng lượng không chỉ có nghĩa là thiếu đi các dịch vụ cơ bản như nấu ăn hay sưởi ấm, mà còn là việc bị tước đoạt những yếu tố quan trọng khác phục vụ sự phát triển cá nhân và cộng đồng như giáo dục, y tế, tiếp cận thông tin và khả năng tham gia chính trị. Rõ ràng, thiếu khả năng lựa chọn hay năng lực này sẽ ảnh hưởng trực tiếp đến khả năng 21 tham gia và kiểm soát các thể chế xã hội, và khi các thể chế không phục vụ lợi ích chung, sự phát triển thực sự khó lòng đạt được (Acemeoglu và Robinson, 2012). Thứ hai, định nghĩa này chú trọng đến việc đáp ứng nhu cầu về "dịch vụ năng lượng". Dù có vẻ hiển nhiên, điều quan trọng cần nhắc lại rằng mục tiêu không phải là tiêu thụ năng lượng đơn thuần, mà là cung cấp các dịch vụ năng lượng từ những nguồn năng lượng đa dạng. Các nguồn năng lượng sơ cấp (than đá, dầu mỏ, khí tự nhiên, sinh khối, v.v.) sẽ được xử lý, lưu trữ và phân phối qua những phương tiện năng lượng khác nhau (như nhiệt, điện, nhiên liệu thể rắn, lỏng hoặc khí) nhằm phục vụ những nhu cầu thiết yếu như nấu nướng, sưởi ấm, làm mát, chiếu sáng, vận chuyển, lao động sản xuất, tiếp cận thông tin và công nghệ truyền thông (“kết nối”). Sự lựa chọn nguồn năng lượng sơ cấp và các phương tiện phân phối có thể rất khác nhau tùy theo điều kiện địa lý và chính sách năng lượng của từng quốc gia, nhưng các dịch vụ năng lượng cần thiết là tương đối giống nhau trên toàn thế giới. Thông thường, các quốc gia giàu có thường sở hữu nhiều lựa chọn năng lượng hơn, trong khi tại các nước nghèo (đặc biệt là vùng nông thôn) lại có rất ít hoặc thậm chí không có lựa chọn nào. Chẳng hạn, nghiên cứu của Bailis (2012) đã chỉ ra rằng tại Burkina Faso và Cộng hòa Trung Phi, lựa chọn duy nhất của các hộ gia đình ở đây là củi hoặc than gỗ. Trong khi đó, ở Kenya và Nam Phi, khí đốt và điện năng được phổ biến hơn. Rõ ràng, người nghèo (thuộc nhóm thu nhập thấp nhất), chủ yếu sống ở nông thôn, có ít lựa chọn hơn so với những người giàu hơn, thường cư trú tại các đô thị. Thứ ba, định nghĩa nêu rõ một số đặc tính của các công nghệ phục vụ tiếp cận dịch vụ năng lượng. Các công nghệ này cần phải “thích hợp”, tức là phù hợp với điều kiện địa lý, tri thức bản địa và văn hóa từng khu vực. Thực tế cho thấy, nhiều dự án hỗ trợ phát triển đã thất bại vì chỉ đơn thuần sao chép các công nghệ từ nơi này sang nơi khác mà bỏ qua các đặc điểm riêng biệt của từng khu vực hoặc cộng đồng. Bên cạnh đó, công nghệ được áp dụng còn cần phải “hợp túi tiền”, tức là chi phí hợp lý nhất so với các lựa chọn khác có sẵn. Nói chung, khi thu nhập hộ gia đình tăng lên, người ta thường chuyển đổi từ nhiên liệu sinh khối sang các loại nhiên liệu như dầu hỏa, dầu mỏ và cuối cùng là điện năng – phương tiện năng lượng sạch và linh hoạt nhất. Đây chính là lý thuyết "bậc thang năng lượng" (Kroon và 22 cộng sự, 2013), cho rằng các nhiên liệu chất lượng thấp dần được thay thế bởi các nhiên liệu chất lượng cao hơn khi thu nhập tăng lên. Tuy nhiên, một lưu ý quan trọng của lý thuyết này là nhiên liệu chất lượng thấp không phải lúc nào cũng rẻ nhất, đôi khi chúng là lựa chọn duy nhất có sẵn. Một nghiên cứu tại Guatemala (Froster và cộng sự, 2013) cho thấy đôi lúc, đặc biệt khi tính toán chi phí trên mỗi đơn vị dịch vụ năng lượng và chi phí cơ hội để thu thập củi, thì nhiên liệu truyền thống có thể trở nên đắt đỏ hơn. Như vậy, thiếu sự lựa chọn khiến người nghèo sử dụng những nguồn năng lượng không chỉ kém chất lượng mà còn đắt đỏ. Cuối cùng, các công nghệ cần đảm bảo tính “đáng tin cậy”, tức không bị gián đoạn thường xuyên (ở nhiều quốc gia, cúp điện hàng giờ là chuyện thường gặp) và “an toàn”, nghĩa là không gây nguy hiểm cho sức khỏe người sử dụng. Định nghĩa cũng nhấn mạnh yếu tố “thân thiện với môi trường”, tức không gây tổn hại tới các thế hệ tương lai. Vì thế, các giải pháp công nghệ nhằm giảm nghèo đói năng lượng phải cân nhắc tác động lên biến đổi khí hậu và môi trường, nhằm đảm bảo sự phát triển bền vững lâu dài. Như vậy, mục đích cuối cùng của việc sử dụng năng lượng là hỗ trợ phát triển kinh tế và con người, nên sự tồn tại đơn thuần của nguồn năng lượng và hoạt động kinh tế liên quan không nhất thiết đảm bảo rằng sẽ có phát triển nói chung hay phát triển năng lượng nói riêng. 1.1.3. Đo lường chỉ số nghèo đói năng lượng Trong nghiên cứu về nghèo đói năng lượng (EP), các nhà khoa học áp dụng nhiều phương pháp và chỉ số khác nhau để đánh giá hiện tượng này. Một số nhà khoa học chỉ sử dụng các chỉ số đơn lẻ để đo lường EP đã được công nhận rộng rãi, trong khi một số khác cố gắng xây dựng các chỉ số mới mà họ cho rằng phản ánh chính xác hơn vấn đề đang nghiên cứu. Bên cạnh đó, cũng có những nghiên cứu được thực hiện thông qua các cuộc khảo sát thực tế. Chẳng hạn, Lenz và các cộng sự (2017) đã khảo sát tại Nam Phi để tìm hiểu những yếu tố chịu ảnh hưởng từ quá trình điện khí hóa. Mặc dù không sử dụng chỉ số cụ thể nào, nghiên cứu này tập trung vào việc tìm mối liên hệ với các biến số liên quan trực tiếp đến nghèo đói năng lượng, như khả năng tiếp cận các nguồn năng lượng và thiết bị hiện đại, giảm sử dụng pin hay dầu hỏa, cải thiện tiếp cận thông tin, ảnh hưởng đến sức khỏe, và giảm ô nhiễm môi trường. Một hướng tiếp cận khác là phân tích hồi quy, ví dụ như 23 nghiên cứu của Aglina, Agbejule và Nyamuame (2016), sử dụng bốn nhóm chỉ số – sức khỏe, giáo dục, thu nhập và môi trường – để xem xét mối quan hệ giữa tiếp cận năng lượng và phát triển kinh tế. a) Chỉ số đơn lẻ Các chỉ số đơn lẻ phổ biến nhất trong nghiên cứu EP bao gồm: 1. Chỉ số 10%: Do Boardman (1991) đề xuất, xác định một hộ gia đình nghèo đói năng lượng nếu họ chi hơn 10% thu nhập cho năng lượng. Chỉ số này đơn giản và dễ tính toán. 2. Chỉ số Gấp đôi trung vị quốc gia (2M): Bao gồm bốn biến thể (gấp đôi trung vị, gấp đôi trung bình, v.v.), phân loại hộ gia đình nghèo đói năng lượng nếu chi tiêu năng lượng vượt quá mức gấp đôi trung vị hoặc trung bình của dân số (Castano-Rosa và cộng sự, 2019). 3. Chỉ số Thu nhập tối thiểu (MIS): Xác định hộ gia đình nghèo đói năng lượng nếu thu nhập sau chi phí năng lượng thấp hơn mức tối thiểu cần thiết (Moore, 2012). 4. Chỉ số Chi phí cao thu nhập thấp (LIHC): Do Hills (2012) giới thiệu, áp dụng khi thu nhập sau chi phí năng lượng dưới ngưỡng nghèo và chi phí năng lượng cao hơn mức trung vị dân số. 5. Chỉ số Nghèo sau chi phí nhiên liệu (AFCP): Đánh giá hộ gia đình nghèo đói năng lượng khi họ không đủ thu nhập cho năng lượng thiết yếu sau khi chi trả nhà ở và nhu cầu cơ bản (Hills, 2011). 6. Chỉ số EU-SILC: Từ thống kê của Liên minh Châu Âu, dựa trên tự báo cáo, như không giữ được nhà đủ ấm/mát, nhà dột, ẩm ướt, hay nợ hóa đơn tiện ích. Về bản chất, các chỉ số khách quan thường dựa trên ba yếu tố: thu nhập, giá năng lượng, và hiệu quả năng lượng. Tùy vào việc nghiên cứu các quốc gia phát triển hay đang phát triển, cách tiếp cận sẽ khác nhau. Ở các nước đang phát triển, trọng tâm thường là khả năng tiếp cận năng lượng, và các nghiên cứu ít đề cập đến khía cạnh rộng hơn của EP. Dù vậy, những nghiên cứu này rất quan trọng vì chúng đặt nền tảng cho việc hiểu EP, đặc biệt trong bối cảnh đặc thù của các quốc gia này. Về ưu điểm và nhược điểm của từng loại chỉ số đơn lẻ, nhóm nghiên cứu tổng 24 hợp thành bảng sau: Bảng 2: Ưu điểm và nhược điểm của từng loại chỉ số đơn lẻ Chỉ số 10% Chỉ số LHC Chỉ số MIS Chỉ số 2M Chỉ số AFCP X X X X X Các nhu cầu cơ bản khác được cân nhắc X X Đánh giá được hiệu suất năng lượng của hộ gia đình hoặc công nghệ sử dụng X Chỉ số Có thể đáp ứng với tiêu chuẩn quốc gia Ưu điểm Nhược điểm Chỉ số EUSILC X X Đánh giá được hệ thống sưởi ấm trong nhà ở X Đánh giá được đặc điểm của nhà ở X Dễ tính toán X Dễ giải thích X Có tính khách quan X Nhạy cảm với giá năng lượng X Ngưỡng đặt không hợp lý X X X X Khó khăn trong việc xác định thu nhập tối thiểu một cách khách quan X X X Không đủ để đo lường đầy đủ EP X X X X X X X X Chỉ số hiếm khi được cập nhật X Mang tính chủ quan X Nguồn: Tổng hợp bởi nhóm nghiên cứu Ưu điểm lớn nhất của các chỉ số đơn lẻ là dễ tính toán, áp dụng, giải thích và so sánh. Tuy nhiên, nhược điểm lớn là chúng chỉ cung cấp thông tin hạn chế, không phản ánh toàn diện vấn đề. Ví dụ, chỉ số 10% bị phê bình vì phụ thuộc quá nhiều vào giá năng lượng và thiếu cơ sở thực nghiệm (Legendre & Ricci, 2015), trong khi LIHC không theo kịp biến động giá cả và phức tạp hóa việc đánh giá chính sách (Heindl & Schuessler, 2015). Chỉ số 2M khó xác định mức thu nhập tối thiểu một cách khách quan, trong khi đó chỉ số EU-SILC bị đánh giá là mang chủ quan và phụ thuộc vào văn hóa hay khí hậu (Bouzarovski, 2014). Vì vậy, để phân tích sâu hơn, các nhà nghiên cứu phát triển các chỉ số tổng hợp, kết hợp nhiều khía cạnh của EP, từ phổ quát đến chuyên sâu. b) Chỉ số tổng hợp và bộ chỉ số 25 Đối với chỉ số đang được sử dụng ở các quốc gia đang phát triển, một trong những chỉ số tổng hợp nổi bật là Chỉ số Nghèo đói năng lượng Đa chiều (MEPI), được Nussbaumer và các cộng sự đề xuất vào năm 2012. MEPI dựa trên cách tiếp cận đo lường nghèo đa chiều từ Sáng kiến Nghèo và Phát triển Con người Oxford, tập trung vào sáu khía cạnh chính liên quan đến khả năng tiếp cận các dịch vụ năng lượng hiện đại như điện và viễn thông. Chỉ số này đã được áp dụng rộng rãi ở nhiều quốc gia như Ghana, Kenya, Ecuador và bảy quốc gia Mỹ Latinh để đánh giá EP, chẳng hạn như phân tích tác động của các dự án nông nghiệp lên tình trạng nghèo đói năng lượng của hộ gia đình hay xác định các hộ không có điện để đề xuất chính sách cải thiện. Tuy nhiên, MEPI có hạn chế là chủ yếu đo lường khả năng tiếp cận năng lượng mà không bao quát đầy đủ các khía cạnh khác của EP như khả năng chi trả hay chất lượng dịch vụ. Một cách tiếp cận khác là Khung Đa Bậc (Multi-Tier Framework), do Bhatia và Angelou phát triển vào năm 2015. Khung tiếp cận này rất chi tiết, kết hợp các chỉ số về năng lượng ở hộ gia đình, hoạt động sản xuất và địa điểm công cộng, đồng thời bao quát các khía cạnh bền vững của EP. Dù vậy, nó lại đòi hỏi dữ liệu rất lớn, gây khó khăn khi áp dụng ở những nơi thiếu thông tin đáng tin cậy. Culver (2017) đã chỉ ra một số nhược điểm của khung này: thứ nhất, nó phụ thuộc vào thang đo thứ tự (sáu cấp bậc), thiếu đi sự phân biệt giữa các nhóm đối tượng và dựa dẫm quá nhiều các đánh giá mang tính chủ quan; thứ hai, việc tính trung bình hoá các chỉ số ngụ ý rằng mọi yếu tố đều quan trọng như nhau, trong khi chi phí để cải thiện từng chỉ số có thể rất khác biệt; thứ ba, một số chỉ số mang tính định tính (như cảm nhận về nguy cơ điện giật), nên rất khó thu thập dữ liệu. Ngoài ra, còn có các chỉ số khác được đề xuất cho các quốc gia đang phát triển. Chẳng hạn, Seuret-Jimenez và các cộng sự (2020) sử dụng hàm hồi quy logistic để xây dựng Chỉ số Tiếp cận Năng lượng Tổng thể ở Mexico, dựa trên ba biến: chi tiêu cho vận chuyển, điện và nhiên liệu nấu ăn. Nghiên cứu khác của Tait (2017) phát triển Chỉ số Tiếp cận Năng lượng Hộ gia đình với bốn yếu tố chính: sử dụng nhiên liệu, khả năng chi trả, an toàn và độ tin cậy. Khanna và các cộng sự (2019) tạo ra Chỉ số Nghèo đói năng lượng Toàn diện, tập trung vào tiếp cận điện, nhiên liệu sạch, công nghệ nấu ăn và tiêu thụ năng lượng, nhưng vẫn nghiêng về 26 đo lường khả năng tiếp cận hơn là bản chất đa chiều của EP. Ayodele và các cộng sự (2018) phân tích EP ở các doanh nghiệp siêu nhỏ ở Nigeria bằng Chỉ số Nghèo đói năng lượng Điện Tổng hợp, dựa trên các yếu tố kinh tế như thu nhập và chi tiêu. Malla (2013) giới thiệu Chỉ số Phát triển Năng lượng ở Nepal, tính toán dựa trên bốn chỉ số như tiêu thụ điện và tỷ lệ dân số tiếp cận điện. Ở các quốc gia phát triển, các nhà nghiên cứu đã xây dựng nhiều chỉ số tổng hợp để đo lường tình trạng nghèo đói năng lượng (energy poverty - EP), nhằm phản ánh đầy đủ các khía cạnh kinh tế, xã hội và đôi khi cả kỹ thuật của vấn đề này. Tôi sẽ giải thích một cách dễ hiểu để các bạn sinh viên hoặc nhà nghiên cứu mới có thể nắm rõ cách tiếp cận này. Trước hết, một số chỉ số tổng hợp được phát triển bằng cách kết hợp các chỉ số đơn lẻ phổ biến. Chẳng hạn, Sokolowski và các cộng sự (2020) giới thiệu Chỉ số Nghèo đói năng lượng Đa chiều, kết hợp năm chỉ số: hai chỉ số khách quan là "thu nhập thấp, chi phí cao" và "chi phí thực tế cao", cùng ba chỉ số chủ quan là "nhà không đủ ấm", "nhà bị dột nát", và "khó khăn trong thanh toán hóa đơn". Chỉ số này được áp dụng tại Ba Lan, với tiêu chí rằng một hộ gia đình được coi là nghèo đói năng lượng nếu gặp vấn đề ở ít nhất hai trong số năm khía cạnh trên. Tương tự, Aguilar và các cộng sự (2019) đề xuất Chỉ số Nghèo đói năng lượng hỗn hợp tại Quần đảo Canary và Tây Ban Nha, sử dụng ba chỉ số: "10% thu nhập chi cho năng lượng", "LIHC (Thu nhập thấp, Chi phí cao)", và "AFCP (Sau chi phí nhiên liệu)". Hộ gia đình được xem là nghèo đói năng lượng nếu đáp ứng cả ba điều kiện này. Nhiều nghiên cứu tập trung vào khía cạnh kinh tế. Ví dụ, Pysar và các cộng sự (2018) phát triển Chỉ số Nghèo Nhiên liệu, dựa trên hai yếu tố: nghèo về kinh tế và hiệu quả năng lượng kém, đồng thời nhấn mạnh mối liên hệ giữa an ninh năng lượng và nghèo đói năng lượng. Trong khi đó, Charlier và Legendre (2019) cũng sử dụng Chỉ số Nghèo Nhiên liệu, nhưng mở rộng với ba khía cạnh: mức sống, hiệu quả năng lượng của nhà ở, và nhiệt độ trong nhà. Họ so sánh chỉ số này với các chỉ số phổ biến như 10%, AFCP, và LIHC, cho rằng chỉ số của họ cung cấp một thang đo linh hoạt theo thời gian, dù vẫn còn thách thức trong việc xác định ngưỡng "nghèo đói năng lượng". Một số chỉ số khác lại chú trọng đến khía cạnh xã hội. Castano-Rosa và các 27 cộng sự (2019, 2020) đề xuất Chỉ số Đánh giá Tính Dễ bị Tổn thương bởi Nghèo đói năng lượng, bao gồm bốn yếu tố: nghèo tiền tệ, năng lượng, tiện nghi, và chi phí chất lượng cuộc sống liên quan đến sức khỏe. Chỉ số này mở rộng phạm vi từ kinh tế sang xã hội. Tương tự, Gouveia và các cộng sự (2019) giới thiệu Chỉ số Dễ bị Tổn thương bởi Nghèo đói năng lượng, tập trung vào đặc điểm kinh tế-xã hội của dân số và hiệu suất năng lượng của nhà ở, nhưng lại thiếu khía cạnh môi trường – một hạn chế đáng kể trong bối cảnh phát triển bền vững. Có những phương pháp phức tạp hơn. Chẳng hạn, Llera-Sastresa và các cộng sự (2017) phát triển Chỉ số Tổng hợp về Tính Dễ bị Tổn thương Năng lượng cho nhà ở xã hội, sử dụng 20 chỉ số được chia thành bốn nhóm: đặc điểm nhà ở, hiệu quả thiết bị, chi phí và thói quen sử dụng năng lượng, và đặc điểm hộ gia đình. Họ áp dụng Quy trình Phân tích Thứ bậc (AHP) để đánh giá các yếu tố ảnh hưởng đến EP. Trong khi đó, Pino-Mejías và các cộng sự (2018) đề xuất Chỉ số Rủi ro Tiềm ẩn Nghèo Nhiên liệu, sử dụng hồi quy tuyến tính và mạng nơ-ron để dự đoán rủi ro EP tại Chile. Tuy nhiên, phương pháp này đòi hỏi kiến thức chuyên sâu, nên khó áp dụng rộng rãi. Một số nghiên cứu còn phân tích sâu hơn về phân phối thu nhập. Schlor và các cộng sự (2016) sử dụng Chỉ số Atkinson để đánh giá tác động của thu nhập, tiêu dùng, và chi phí năng lượng, cho thấy các hộ gia đình thu nhập thấp phải chi nhiều hơn tỷ lệ thu nhập cho năng lượng, dẫn đến nguy cơ EP cao hơn. Cuối cùng, Spiliotis và các cộng sự (2020) đề xuất Khung Đa Nguồn, dựa trên chỉ số 10%, kết hợp yếu tố thời tiết và kinh tế, nhưng bỏ qua khía cạnh xã hội và môi trường. Nhìn chung, các chỉ số tổng hợp này rất hữu ích để đo lường EP ở các quốc gia phát triển, nhưng chúng thường tập trung vào khía cạnh kinh tế và xã hội, mà ít đề cập đến yếu tố môi trường. Điều thú vị là khái niệm "nghèo đói năng lượng" khác nhau giữa hai nhóm quốc gia. Ở các quốc gia đang phát triển, EP thường gắn với việc thiếu tiếp cận dịch vụ năng lượng hiện đại, trong khi ở các quốc gia phát triển, nó liên quan nhiều hơn đến thu nhập thấp và giá năng lượng cao. Vì vậy, khi thiết kế và áp dụng các chỉ số đo lường EP, chúng ta cần xem xét bối cảnh cụ thể của từng quốc gia để đảm bảo tính chính xác và hỗ trợ xây dựng chính sách hiệu quả. 28 1.1.4. Hậu quả của nghèo đói năng lượng a) Tác động đến sức khỏe Tại nhiều quốc gia đang phát triển, các hộ gia đình chủ yếu sử dụng sinh khối (như gỗ, than đá, phân gia súc, và chất thải) để nấu ăn và sưởi ấm. Những loại nhiên liệu này thường được đốt trực tiếp trong nhà bằng các bếp làm từ đất sét, gạch hoặc kim loại. Nhu cầu chiếu sáng chủ yếu được đáp ứng bằng nến hoặc đèn dầu. Cách sử dụng năng lượng này gây ra ô nhiễm không khí trong nhà rất cao do đốt cháy kém hiệu quả và thiếu hệ thống thông gió phù hợp. Ô nhiễm này bao gồm các hợp chất độc hại như carbon monoxide, các hợp chất thơm và các hạt bụi nhỏ (bụi mịn). Các hạt bụi này, đặc biệt là bụi PM10 (đường kính nhỏ hơn 10 micromet) và PM2.5 (đường kính nhỏ hơn 2,5 micromet), khi hít vào sẽ đi sâu vào hệ hô hấp, gây ra nhiều tác động tiêu cực nghiêm trọng đến sức khỏe. Tổ chức Y tế Thế giới (WHO, 2006) chỉ ra rằng mức độ bụi PM10 trong nhà tại những khu vực này thường dao động từ 300 đến 3000 μg/m³, có lúc lên đến 10.000 μg/m³, vượt xa ngưỡng giới hạn cho phép của ô nhiễm không khí ngoài trời (ví dụ, Liên minh châu Âu quy định giới hạn trung bình hàng năm là 40 μg/m³). Những người chịu ảnh hưởng nhiều nhất là phụ nữ, trẻ em, người già và người khuyết tật vì họ thường dành phần lớn thời gian trong nhà. Các nghiên cứu trong lĩnh vực y học cho thấy việc tiếp xúc lâu dài với ô nhiễm không khí trong nhà làm tăng đáng kể nguy cơ mắc các bệnh về đường hô hấp, tim mạch và ung thư phổi. WHO (2009) cho biết, trẻ em dưới 5 tuổi tiếp xúc với ô nhiễm trong nhà có nguy cơ mắc viêm phổi và các bệnh nhiễm trùng đường hô hấp cao gấp đôi. Phụ nữ có nguy cơ mắc bệnh phổi tắc nghẽn mãn tính (như viêm phế quản mãn tính, khí phế thũng) cao gấp ba lần và nguy cơ mắc ung thư phổi cao gấp đôi so với nam giới. Theo báo cáo Rủi ro Sức khỏe Toàn cầu mới nhất (WHO, 2024), ô nhiễm không khí trong nhà ở các quốc gia nghèo gây ra khoảng 1,3 triệu ca tử vong mỗi năm, trở thành yếu tố nguy cơ lớn thứ sáu. Trên phạm vi toàn cầu, con số này là 2 triệu ca tử vong mỗi năm. Ngoài ra, ô nhiễm trong nhà còn gây mất 33 triệu năm sống có điều chỉnh theo mức độ khuyết tật (DALYs), cao hơn cả tình trạng thiếu vitamin A và thiếu kẽm, vốn chủ yếu tác động đến sự phát triển ban đầu của trẻ 29 nhỏ. Một nghiên cứu khác của WHO (2012) so sánh các nguyên nhân tử vong cho thấy ô nhiễm không khí trong nhà gây tử vong nhiều hơn cả sốt rét và lao, chỉ đứng sau HIV/AIDS. OECD (2010) dự báo rằng nếu không có các biện pháp cải thiện cụ thể, số ca tử vong do ô nhiễm trong nhà có thể sẽ tiếp tục tăng trong tương lai do sự gia tăng dân số vượt xa tốc độ cải thiện về thu nhập và tiếp cận dịch vụ năng lượng hiện đại. b) Tác động đến kinh tế - xã hội Nghèo đói năng lượng có thể ảnh hưởng đến tất cả các lĩnh vực sản xuất và hạn chế tiềm năng phát triển kinh tế của các quốc gia. Chẳng hạn, trong lĩnh vực nông nghiệp, một ngành cực kỳ quan trọng, đầu vào về năng lượng ở các quốc gia đang phát triển là rất thấp và chủ yếu đến từ sự lao động của con người. Ngược lại, ở các quốc gia giàu có, mức độ đầu vào năng lượng trực tiếp (máy móc và nhiên liệu) cũng như đầu vào gián tiếp (hoá chất và phân bón) đều cao. Ví dụ, tại Hoa Kỳ, phân bón gốc nitơ chiếm 45% tổng lượng năng lượng đầu vào trong quá trình sản xuất ngô, trong khi lao động thuần túy chỉ chiếm 3% (FAO, 2013). Theo Tổ chức Lương thực và Nông nghiệp Liên Hợp Quốc (FAO), việc sử dụng phân bón ở mức độ thấp là một trong những lý do khiến năng suất cây trồng thấp, điều này có nghĩa là các quốc gia nghèo gặp khó khăn trong việc tiến triển trên con đường phát triển kinh tế này. Nghèo đói năng lượng gây ra ảnh hưởng sâu sắc đến toàn bộ các lĩnh vực sản xuất và hạn chế khả năng phát triển kinh tế của các quốc gia. Ví dụ, trong lĩnh vực nông nghiệp - ngành trụ đỡ đối với nhiều nước đang phát triển—mức sử dụng năng lượng rất thấp và chủ yếu dựa vào sức lao động của con người. Trong khi đó, ở các nước phát triển, việc sử dụng năng lượng trực tiếp (máy móc, nhiên liệu) và gián tiếp (phân bón, hóa chất) đều cao hơn đáng kể. Một nghiên cứu của FAO (2013) cho thấy tại Hoa Kỳ, phân bón nitơ chiếm tới 45% năng lượng sử dụng trong sản xuất ngô, trong khi lao động con người chỉ chiếm 3%. FAO cũng nhấn mạnh rằng việc sử dụng ít phân bón là nguyên nhân khiến năng suất cây trồng thấp, qua đó gây khó khăn cho sự phát triển kinh tế ở các quốc gia nghèo. Mặt khác, ngay cả những cải thiện nhỏ trong việc tiếp cận và sử dụng năng lượng cũng có thể mang lại những hiệu quả lớn. Chẳng hạn, trong lĩnh vực giáo 30 dục, nghiên cứu của Khandker và cộng sự (2014) cho thấy những khu vực có điều kiện tiếp cận điện tốt và chiếu sáng đầy đủ thường có tỷ lệ biết chữ cao hơn, tỷ lệ bỏ học thấp hơn, và học sinh dành nhiều thời gian hơn cho việc học tập. Trong lĩnh vực y tế, sự sẵn có phương tiện giao thông quyết định khả năng cung cấp dịch vụ y tế nhanh chóng và hiệu quả. Ngoài ra, mặc dù nghe có vẻ lý tưởng với các nước nghèo, việc tiếp cận công nghệ thông tin và truyền thông có thể hỗ trợ thành lập các doanh nghiệp nhỏ, tạo điều kiện cho người dân tham gia các khóa học trực tuyến miễn phí chất lượng cao và thúc đẩy quyền tự chủ trong xã hội. Dù khó đo lường trực tiếp tác động của hạ tầng năng lượng đến phát triển kinh tế - xã hội, rõ ràng rằng thiếu vắng cơ sở hạ tầng năng lượng sẽ làm mất đi cơ hội tận dụng lợi ích từ năng lượng và công nghệ mới. Cuối cùng, cần phân biệt rõ ràng giữa việc sở hữu nguồn tài nguyên năng lượng dồi dào và khả năng khai thác xuất khẩu mạnh mẽ với việc giảm nghèo và giảm nghèo đói năng lượng. Trên thực tế, có nhiều quốc gia giàu tài nguyên thiên nhiên lại có mức tăng trưởng kinh tế thấp, hiện tượng này được gọi là "lời nguyền tài nguyên" (Sachs và Warner, 1999; Papyrakis và Gerlagh, 2007). Trong giai đoạn từ 1970 đến 1993, các nước không giàu tài nguyên lại có tốc độ tăng trưởng trung bình cao gấp bốn lần các quốc gia giàu tài nguyên, dù nguồn thu công cộng của các nước giàu tài nguyên cao hơn. Ở một số quốc gia như Iran và Venezuela, nguồn thu từ dầu mỏ được dùng để trợ cấp tiêu dùng năng lượng, nhưng chưa rõ liệu những trợ cấp này có thực sự đến được với những nhóm nghèo nhất và có bền vững hay không. Tình hình tại các nước xuất khẩu dầu ở châu Phi hạ Sahara còn tệ hơn: thu nhập cao từ xuất khẩu dầu khí thường đi kèm với tình trạng nghèo đói và thiếu hụt năng lượng nghiêm trọng. Ví dụ, Angola khai thác dầu mỏ từ những năm 1970, với thu nhập từ dầu mỏ đóng góp lớn vào GDP, nhưng tới năm 2020, vẫn có tới 91% dân số phụ thuộc vào sinh khối và chỉ 9% dân số ở vùng nông thôn được tiếp cận điện theo số liệu từ Ngân hàng Thế giới. Thậm chí ở những nước như Gabon, nơi GDP bình quân đầu người và Chỉ số phát triển con người (HDI) thuộc nhóm cao nhất châu Phi, mức độ tiếp cận năng lượng hiện đại vẫn còn thấp hơn rất nhiều so với các quốc gia phát triển. c) Tác động đến môi trường 31 Nghèo đói năng lượng và môi trường có sự liên kết chủ yếu thông qua sự thay đổi sử dụng đất. Như đã đề cập ở trên, sinh khối truyền thống cung cấp nguồn năng lượng chính cho những người nghèo nhất, và việc khai thác quá mức nguồn năng lượng này làm gia tăng nạn phá rừng, sa mạc hóa và thoái hóa đất đai. Tuy nhiên, các nghiên cứu chi tiết ở nhiều khu vực trên thế giới đã chỉ ra rằng nguyên nhân chính gây phá rừng không phải là việc tiêu thụ sinh khối truyền thống, như đôi khi người ta vẫn giả định, mà là sự mở rộng diện tích đất nông nghiệp cho cây trồng và chăn nuôi, cũng như việc khai thác gỗ bất hợp pháp. Theo một đánh giá gần đây, việc thu thập sinh khối truyền thống hay củi chỉ chiếm khoảng 6% tổng diện tích rừng bị tàn phá trên toàn cầu (Sovacool, 2012). Do đó, mặc dù nghèo đói năng lượng có thể tác động tiêu cực đến môi trường, nhưng thực tế, mối quan hệ nhân quả lại nghiêng theo hướng ngược lại; việc thiếu các chính sách bảo vệ rừng có thể cũng làm nguy hiểm đến nguồn năng lượng duy nhất mà người nghèo có thể tiếp cận, qua đó làm trầm trọng thêm tình trạng nghèo đói năng lượng hiện tại của họ (Diamond, 2005). Nghèo đói năng lượng ảnh hưởng tới môi trường chủ yếu thông qua sự thay đổi trong sử dụng đất. Năng lượng sinh khối là nguồn năng lượng chính cho người dân nghèo, và đã được nhóm đối tượng này sử dụng truyền thống từ bao đời nay. Việc khai thác quá mức nguồn sinh khối có thể gây ra các vấn đề như phá rừng, sa mạc hóa và thoái hóa đất đai. Tuy nhiên, nhiều nghiên cứu trên thế giới đã chỉ ra rằng nguyên nhân chính gây phá rừng thường không phải là dùng để tiêu thụ sinh khối, mà là do mở rộng diện tích đất phục vụ nông nghiệp và chăn nuôi, cũng như khai thác gỗ bất hợp pháp. Một nghiên cứu của Sovacool (2012) cho biết việc thu thập củi và sinh khối truyền thống chỉ chiếm khoảng 6% tổng diện tích rừng bị phá hủy trên toàn cầu. Do đó, thực tế mối quan hệ nhân quả thường theo hướng ngược lại: thiếu chính sách bảo vệ rừng sẽ làm suy giảm nguồn năng lượng duy nhất mà người nghèo có thể tiếp cận, làm trầm trọng thêm tình trạng nghèo đói năng lượng (Diamond, 2005). Bên cạnh đó, việc mất rừng còn gây tác động nghiêm trọng đối với các cộng đồng địa phương. Ngoài việc mất nguồn củi, các dịch vụ sinh thái thiết yếu như nguồn thực phẩm và nước sạch cũng bị ảnh hưởng, buộc các cộng đồng phải di cư. 32 Tương tự, mất rừng còn làm giảm khả năng hấp thụ khí CO2, góp phần gia tăng biến đổi khí hậu toàn cầu. Tuy nhiên, những tác động tiêu cực từ biến đổi khí hậu này sẽ ảnh hưởng mạnh mẽ nhất tới các quốc gia nghèo, vốn là những quốc gia ít đóng góp nhất vào vấn đề này trong lịch sử (González-Eguino, 2015). 1.2. Lý thuyết về mô hình bậc thang năng lượng và chồng chất năng lượng Trong lĩnh vực kinh tế năng lượng, có hai cách tiếp cận thường được sử dụng để hiểu cách hộ gia đình chọn và sử dụng năng lượng đó là Mô hình Bậc thang năng lượng (Energy Ladder Model) và Chồng chất năng lượng (Energy Stacking Model). Cả hai mô hình này thường được dung để giải thích sự thay đổi trong việc tiêu thụ nhiên liệu khi thu nhập và điều kiện kinh tế thay đổi. Hình 1.1: Minh hoạ mô hình bậc thang năng lượng và chồng chất năng lượng Nguồn: Nhóm nghiên cứu tổng hợp Mô hình thang năng lượng dựa trên lý thuyết tiêu dùng, cho rằng khi thu nhập của hộ gia đình tăng hoặc giảm, họ không chỉ tiêu thụ nhiều hơn hoặc ít hơn các loại hàng hóa hiện có, mà còn chuyển sang sử dụng các hàng hóa có chất lượng cao hơn hoặc thấp hơn (Hosier và Dowd, 1987). Trong bối cảnh này, các nhiên liệu truyền thống như củi và rơm được xem là hàng hóa thứ cấp (inferior goods) đối với 33 các hộ gia đình có thu nhập tương đối cao, nhưng lại là hàng hóa thông thường (normal goods) đối với các hộ thu nhập thấp. Mô hình này giả định rằng các hộ gia đình có một thứ tự ưu tiên rõ ràng đối với các nguồn năng lượng khác nhau, dựa trên các tiêu chí như sạch sẽ, tiện lợi, đa dụng và hiệu quả. Do đó, khi thu nhập tăng, các hộ gia đình sẽ chuyển từ các nguồn năng lượng truyền thống như sinh khối (biomass) sang các nguồn năng lượng hiện đại như điện. Tuy nhiên, mô hình này có hai hạn chế lớn. Thứ nhất, quá trình chuyển đổi năng lượng được mô tả là một chiều và tuyến tính, nghĩa là một nguồn năng lượng hoàn toàn thay thế nguồn khác. Thứ hai, Giả định rằng chỉ một nguồn năng lượng cụ thể được sử dụng cho một mục đích nhất định, bỏ qua thực tế rằng nhiều nguồn năng lượng thường được sử dụng đồng thời cho cùng một mục đích (Hình 1.1). Để khắc phục những hạn chế của mô hình thang năng lượng, mô hình chồng chất năng lượng đưa ra quan điểm rằng các hộ gia đình, bất kể mức thu nhập, thường sử dụng chung nhiều loại nhiên liệu cùng lúc, thay vì thay thế hoàn toàn. Hành vi này được ảnh hưởng bởi nhiều yếu tố như chi phí, sự sẵn có, sở thích văn hóa, và nhu cầu năng lượng cụ thể (ví dụ, dùng gỗ để nấu ăn và gas để sưởi ấm). Điều này có nghĩa là ngay cả khi thu nhập tăng, họ vẫn có thể tiếp tục sử dụng một số nhiên liệu truyền thống bên cạnh nhiên liệu hiện đại. Vì vậy, việc "leo lên thang năng lượng" không đồng nghĩa với việc từ bỏ hoàn toàn bất kỳ nguồn năng lượng nào (Han và cộng sự, 2018), và quá trình chuyển đổi năng lượng không nhất thiết là sự di chuyển từng bước từ nguồn này sang nguồn khác (Mensah và Adu, 2015). Thay vào đó, chuyển đổi năng lượng được thể hiện qua sự thay đổi trong cách sử dụng các nguồn năng lượng và tỷ trọng của chúng trong tổng năng lượng, chịu ảnh hưởng từ các yếu tố đại diện cho tình trạng kinh tế - xã hội. Bảng 1.1: So sánh giữa hai mô hình Tiêu chí Khái niệm cơ bản Các bước Mô hình Bậc thang năng Mô hình Chồng chất năng lượng lượng Chuyển đổi hoàn toàn từ nhiên liệu cũ sang mới khi thu nhập tăng Sử dụng nhiều loại nhiên liệu cùng lúc, không chuyển đổi hoàn toàn Sinh khối → Dầu hỏa → LPG Kết hợp sinh khối, gas, điện tùy 34 điển hình → Điện theo nhu cầu Yếu tố ảnh Thu nhập chính là yếu tố quyết Chi phí, sẵn có, sở thích văn hóa, hưởng Ưu điểm định nhu cầu cụ thể Đơn giản, dễ hiểu, phù hợp với lý thuyết kinh tế Không phản ánh thực tế, bỏ Hạn chế qua hành vi sử dụng đa nhiên liệu Phản ánh thực tế, linh hoạt hơn Phức tạp hơn, khó dự đoán và phân tích Nguồn: Tổng hợp bởi nhóm nghiên cứu Trên thực tế, Mô hình Chồng chất năng lượng được coi là phù hợp hơn với bối cảnh kinh tế hiện nay, đặc biệt ở các khu vực nông thôn, của các quốc gia đang phát triển nơi chi phí và sự sẵn có của nhiên liệu hiện đại có thể hạn chế. Ví dụ, nghiên cứu của Yadav và cộng sự (2021) cho thấy 76% hộ gia đình ở khu vực nông thôn Pakistan vẫn sử dụng nhiên liệu bẩn để nấu ăn, ngay cả khi có thể tiếp cận nhiên liệu sạch. 35 CHƯƠNG 2: MÔ HÌNH VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1. Dữ liệu nghiên cứu Khảo sát mức sống dân cư Việt Nam (VHLSS) là một cuộc khảo sát quy mô toàn quốc do Tổng cục Thống kê Việt Nam (GSO) thực hiện với sự hỗ trợ kỹ thuật của Ngân hàng Thế giới và Chương trình Phát triển Liên hợp quốc. Chương trình khảo sát này được thiết kế theo tiêu chuẩn quốc tế, đảm bảo tính đại diện thống kê ở nhiều cấp độ, từ quốc gia, vùng, thành thị đến khu vực nông thôn. Dữ liệu thu thập từ VHLSS không chỉ phản ánh điều kiện kinh tế - xã hội của hộ gia đình mà còn là nguồn dữ liệu quan trọng trong các nghiên cứu về lĩnh vực khoa học xã hội ở nước ta nói chung. Quy trình lấy mẫu của VHLSS được thực hiện theo ba giai đoạn chính để đảm bảo độ tin cậy và tính đại diện của dữ liệu: Giai đoạn 1: Lựa chọn xã/phường Khoảng 3.000 xã/phường trên toàn quốc được lựa chọn thông qua phương pháp chọn mẫu ngẫu nhiên phân tầng. Việc phân tầng dựa trên tỉnh thành và khu vực thành thị hoặc nông thôn nhằm phản ánh đầy đủ các đặc điểm địa lý và kinh tế - xã hội của cả nước. Giai đoạn 2: Lựa chọn các địa bàn điều tra trong xã/phường Mỗi xã/phường được chia thành các khu vực điều tra nhỏ hơn (EA Enumeration Area), dựa trên dữ liệu từ các cuộc tổng điều tra dân số năm 1999 và 2009. Đối với các khảo sát từ năm 2012 trở về sau, dữ liệu Tổng điều tra dân số năm 2009 được sử dụng làm cơ sở để phân chia địa bàn. Trong mỗi xã/phường, ba địa bàn được chọn ngẫu nhiên để khảo sát. Giai đoạn 3: Lựa chọn hộ gia đình trong địa bàn điều tra Trong từng địa bàn, các hộ gia đình được chọn ngẫu nhiên để tham gia khảo sát. Thông thường, mỗi địa bàn sẽ có từ 3 đến 5 hộ gia đình tham gia. Các hộ gia đình này được khảo sát đầy đủ về thu nhập, chi tiêu và các yếu tố liên quan đến điều kiện sống. Phương pháp chọn mẫu ngẫu nhiên phân tầng qua hai giai đoạn này đảm bảo dữ liệu có tính đại diện cao và giảm thiểu sai lệch, cung cấp cơ sở vững chắc cho việc phân tích và đánh giá mức sống hộ gia đình tại Việt Nam. Trong nghiên cứu này, nhóm nghiên cứu tập trung vào dữ liệu về năng lượng hộ gia đình, do đó chỉ sử dụng thông tin từ các hộ gia đình tham gia đầy đủ vào cả hai phần khảo sát. 36 Các năm khảo sát được chọn bao gồm 2004, 2006, 2008, 2010, 2012, 2014, 2016, 2018 và 2020. 2.2. Mô hình nghiên cứu Sau khi tham khảo các nghiên cứu tiền nhiệm, dựa vào lý thuyết gốc là Lý thuyết mô hình chồng chất năng lượng, nhóm tác giả quyết định đưa ra mô hình nghiên cứu như sau: Hình 2.1: Mô hình nghiên cứu đề xuất Nguồn: Xây dựng bởi nhóm tác giả Theo đó, dữ liệu đầu vào, ở đây là bộ dữ liệu Khảo sát mức sống dân cư – VHLSS sẽ được máy tính xử lý thông qua cơ chế hộp đen (black box), máy tính sẽ học hỏi và tiến hành giữ lại các features quan trọng thông qua thuật toán giảm chiều dữ liệu PCA. Sau đó, máy tính tiếp tục đánh giá và sắp xếp các hộ gia đình vào từng cụm, và cho biết đặc điểm của từng cụm. Dựa vào đặc điểm của từng cụm, nhóm nghiên cứu sau đó tiến hành đánh giá và gán nhãn dữ liệu thông qua các chỉ số đo lường nghèo về năng lượng. Tiếp theo, dựa trên bộ dữ liệu đã được gán nhãn, máy tính sẽ tiến hành đánh giá và dự báo những đặc điểm điển hình của một hộ nghèo về năng lượng ở Việt Nam thông qua các thuật toán học giám sát. Song song với đó, dựa trên kết quả phân cụm ở trên, nhóm nghiên cứu sẽ tính toán tỷ lệ số hộ nghèo về năng lượng trên tổng số hộ. Sau đó, nhóm nghiên cứu sẽ tiến hành mô phỏng dữ liệu về dạng chuỗi thời gian theo các kịch bản, để máy tính có thể xử lý. Từ bộ dữ liệu đã được chuyển đổi thành chuỗi thời gian 37 thông qua phương pháp mô phỏng (Reshape), kết hợp với giá điện, xăng, gas; máy tính sau đó sẽ đưa ra dự đoán mức chi tiêu cho năng lượng của các hộ gia đình nghèo thông qua mạng Bi-LSTM. 2.3. Quy trình nghiên cứu : Với các mục tiêu nghiên cứu đã đề ra, nhóm tác giả xây dựng quy trình nghiên cứu như sau: Bước 1: Xác định vấn đề, mục tiêu nghiên cứu Nhận thấy sự nghèo đói về năng lượng là một thách thức lớn đối với sự phát triển kinh tế - xã hội tại Việt Nam, ảnh hưởng trực tiếp đến chất lượng cuộc sống và khả năng tiếp cận các dịch vụ thiết yếu của các hộ gia đình. Mặc dù đây là một vấn đề quan trọng, nhưng các nghiên cứu định lượng ứng dụng các phương pháp hiện đại như học máy để phân tích và dự báo tình trạng nghèo đói về năng lượng tại Việt Nam vẫn còn hạn chế. Nhận thấy tiềm năng của việc khai thác dữ liệu lớn và các kỹ thuật học máy tiên tiến, nghiên cứu này được thực hiện nhằm cung cấp một cách tiếp cận mới, toàn diện để hiểu và giải quyết vấn đề này, dựa trên bộ dữ liệu Khảo sát mức sống dân cư Việt Nam (VHLSS) giai đoạn 2004-2020. Mục tiêu nghiên cứu được xây dựng nhằm ứng dụng các phương pháp học máy để phân tích tình trạng nghèo đói về năng lượng tại Việt Nam. Từ đó, nhóm tác giả xây dựng mô hình dự đoán các đặc điểm nhân khẩu học và kinh tế - xã hội của các hộ gia đình nghèo đói năng lượng điển hình tại Việt Nam và dự đoán chi tiêu năng lượng cũng như chi tiêu tiền điện của nhóm hộ gia đình này. Dựa trên các kết quả nghiên cứu, nhóm tác giả đề xuất một số khuyến nghị nhằm nâng cao hiệu quả của các chương trình xóa đói giảm nghèo tại Việt Nam, đặc biệt tập trung vào việc giảm thiểu tình trạng nghèo đói về năng lượng. Bước 2: Hệ thống hóa cơ sở lý thuyết và tổng quan nghiên cứu Nhóm tác giả thu thập và tổng hợp tài liệu khoa học liên quan đến sự nghèo đói về năng lượng, bao gồm định nghĩa, các chỉ số đo lường và các yếu tố ảnh hưởng. Đồng thời, nghiên cứu các lý thuyết về học máy và tổng quan các nghiên cứu trong và ngoài nước về ứng dụng của học máy trong nghiên cứu về nghèo đói năng lượng. Từ đó phát hiện và giải quyết những khoảng trống trong những nghiên cứu trước đây. Bước 3: Đề xuất mô hình và phương pháp nghiên cứu Từ tổng quan nghiên cứu, nhóm tác giả xác định các phương pháp học máy phù hợp để phân loại và dự báo sự nghèo đói về năng lượng dựa trên dữ liệu VHLSS, đảm bảo tính khả thi trong bối cảnh Việt Nam. 38 Bước 4: Xây dựng mô hình phân cụm với học không giám sát Nhóm tác giả phân loại các nhóm hộ gia đình dựa trên các đặc điểm nhân khẩu học và kinh tế - xã hội từ bộ dữ liệu Khảo sát mức sống dân cư Việt Nam (VHLSS) giai đoạn 2004-2020. Quy trình thực hiện bắt đầu với việc chuẩn bị dữ liệu, bao gồm làm sạch dữ liệu như xử lý các giá trị thiếu, loại bỏ dữ liệu nhiễu và chuẩn hóa các biến số quan trọng như thu nhập, chi tiêu, số thành viên trong gia đình. Sau đó, nghiên cứu tiến hành chọn lọc các đặc điểm liên quan mật thiết đến tình trạng nghèo đói năng lượng như thu nhập hộ gia đình, chi tiêu cho năng lượng, khu vực cư trú (thành thị hoặc nông thôn) và trình độ học vấn. Sau khi dữ liệu đã được chuẩn bị đầy đủ, nghiên cứu áp dụng các thuật toán phân cụm không giám sát K-means và phương pháp giảm chiều dữ liệu PCA để nhóm các hộ gia đình thành các cụm riêng biệt dựa trên các đặc điểm đã xác định. Tiếp theo, các cụm được đánh giá bằng các chỉ số hiệu quả như Silhouette Score để xác định mô hình phân cụm tốt nhất. Kết quả phân cụm sau đó được phân tích chi tiết để mô tả đặc điểm của từng cụm, đặc biệt là các cụm thể hiện rõ dấu hiệu nghèo đói năng lượng như chi tiêu năng lượng thấp hoặc tỷ lệ chi tiêu năng lượng cao so với thu nhập. Bước 5: Xây dựng mô hình dự đoán với học giám sát Mục tiêu chính của bước này là dự đoán các đặc điểm nhân khẩu học và kinh tế - xã hội của các hộ gia đình thuộc nhóm nghèo đói năng lượng dựa trên kết quả phân cụm trước đó. Đầu tiên, nghiên cứu gán nhãn cho dữ liệu dựa trên kết quả phân cụm, xác định rõ hộ gia đình nào thuộc nhóm "nghèo đói năng lượng" hoặc "không nghèo đói năng lượng". Dữ liệu sau đó được phân chia thành tập huấn luyện và tập kiểm tra với tỷ lệ thông thường là 80:20. Tiếp theo, các thuật toán phân loại như Decision Tree, Random Forest và XGBoost được áp dụng để xây dựng các mô hình dự đoán. Các mô hình này sẽ được đánh giá dựa trên các chỉ số như Accuracy, Precision, Recall và F1-Score để lựa chọn mô hình phù hợp nhất. Bên cạnh đó, nghiên cứu cũng tiến hành phân tích sâu hơn để xác định những yếu tố quan trọng nhất ảnh hưởng đến tình trạng nghèo đói năng lượng như thu nhập thấp và sinh sống tại khu vực nông thôn. Bước 6: Dự đoán chi tiêu năng lượng và chi tiêu điện Nhóm tác giả xác định rõ tỷ lệ các hộ gia đình thuộc nhóm nghèo đói năng lượng và xây dựng các mô hình dự đoán chi tiêu năng lượng và tiền điện của nhóm này. Dựa trên kết quả phân cụm ban đầu, nghiên cứu tính toán chính xác tỷ lệ các hộ nghèo năng lượng. Tiếp đó, dữ liệu về các chỉ số vĩ mô như giá xăng, giá dầu, giá gas, giá điện, được nhóm nghiên cứu lấy từ bộ dữ liệu của 2 công ty là Tập 39 đoàn Xăng dầu Việt Nam (Petrolimex) và Tập đoàn Điện lực Việt Nam (EVN) từ năm 2004 - 2020. Nhóm sử dụng mô hình Bidirectional LSTM hay Bi-LSTM (Mạng trí nhớ ngắn hạn định hướng dài hạn hai chiều) để xây dựng mô hình dự đoán chi tiêu dựa trên các đặc điểm hộ gia đình như thu nhập, chi tiêu và kết hợp với các yếu tố vĩ mô bao gồm giá điện và giá các mặt hàng năng lượng khác. Các mô hình này được đánh giá thông qua các chỉ số Mean Squared Error (MSE), Root Mean Squared Error (RMSE) và R-squared để xác định độ chính xác và hiệu quả của dự đoán. Kết quả thu được từ các mô hình sẽ được phân tích kỹ lưỡng nhằm hiểu rõ hơn hành vi chi tiêu năng lượng của nhóm nghèo, cung cấp cơ sở khoa học cho các khuyến nghị chính sách. Bước 7: Luận bàn kết quả và đề xuất khuyến nghị Trên cơ sở tổng hợp các kết quả thu được từ việc phân cụm, phân loại và dự đoán, nghiên cứu tiến hành phân tích sâu hơn các yếu tố chính gây ra tình trạng nghèo đói năng lượng, bao gồm thu nhập thấp và hạn chế trong việc tiếp cận các nguồn năng lượng hiện đại. Dựa trên những phân tích này, nghiên cứu đề xuất một số giải pháp chính sách cụ thể nhằm giảm nghèo đói năng lượng tại Việt Nam. Các khuyến nghị bao gồm việc hỗ trợ tài chính cho các hộ gia đình nghèo để tiếp cận các nguồn năng lượng sạch và hiện đại, nâng cao nhận thức và giáo dục về sử dụng năng lượng hiệu quả, và đầu tư phát triển cơ sở hạ tầng năng lượng, đặc biệt là tại các khu vực nông thôn. 2.4. Đo lường các biến Bộ dữ liệu VHLSS bao gồm nhiều biến quan trọng phản ánh các đặc điểm kinh tế - xã hội của hộ gia đình Việt Nam. Các biến này có thể được phân loại thành các nhóm chính như sau: - Biến nhân khẩu học: Bao gồm các thông tin về số lượng thành viên trong hộ, độ tuổi, giới tính, trình độ học vấn và tình trạng hôn nhân. - Biến thu nhập và chi tiêu: Thông tin về các nguồn thu nhập (tiền lương, trợ cấp, thu nhập từ kinh doanh và nông nghiệp) và các khoản chi tiêu cho thực phẩm, nhà ở, giáo dục, y tế và năng lượng. - Biến việc làm: Dữ liệu liên quan đến tình trạng việc làm, nghề nghiệp, hình thức lao động (chính thức hoặc phi chính thức), số giờ làm việc và mức lương. - Biến điều kiện sống: Bao gồm chất lượng nhà ở, nguồn nước sinh hoạt, hệ thống vệ sinh và khả năng tiếp cận các dịch vụ cơ bản như điện và viễn thông. 40 - Biến tiêu dùng năng lượng: Ghi nhận các loại năng lượng mà hộ gia đình sử dụng như điện, than, gas, dầu hỏa, củi, trấu và các nguồn năng lượng tái tạo khác. Do các hộ gia đình thường sử dụng nhiều loại năng lượng khác nhau, nghiên cứu này phân loại các dạng năng lượng chủ yếu thành bốn nhóm chính: (i) xăng, (ii) dầu, (iii) gas propane, và (iv) các nguồn năng lượng khác. Theo Nguyen và cộng sự (2019), một hộ gia đình ở Việt Nam có thể sử dụng đồng thời nhiều loại năng lượng khác nhau phụ thuộc vào vị trí địa lý và khả năng tiếp cận năng lượng của họ. Điều này, có thể được phản ánh thông qua cách một hộ gia đình chi tiêu và sử dụng các nguồn năng lượng. Do đó, nhóm nghiên cứu theo dõi những thay đổi trong cách hộ gia đình sử dụng và chi tiêu cho các nguồn năng lượng từ năm 2004 đến năm 2020. Trên cơ sở tham khảo các nghiên cứu tiền nhiệm nghiên cứu về vấn đề nghèo đói năng lượng tại Việt Nam (Nguyen và cộng sự, 2019; Feeny và cộng sự, 2021; Hang và Ha, 2024) và những nghiên cứu ứng dụng mô hình học máy trong lĩnh vực này trên thế giới (Wang, 2021; Spandagos và cộng sự, 2023; Li, 2024). Nhóm nghiên cứu sử dụng các nhóm chỉ số sau đây để xác định những nhóm hộ gia đình nghèo đói về năng lượng tại Việt Nam: (i) thu nhập hộ gia đình, (ii) tổng chi tiêu hộ gia đình, (iii) chi tiêu bình quân cho các loại năng lượng, (iv) chi phí tiền điện, (v) diện tích nơi ở, (vi) chất lượng nhà ở, và (vii) khả năng tiếp cận với điện lưới quốc gia. Vì mạng lưới điện ở Việt Nam có chất lượng đồng nhất, nên nhóm nghiên cứu sử dụng dữ liệu về cả số lượng (Kwh) và chi tiêu để đánh giá. Tuy nhiên, với các loại năng lượng khác, nghiên cứu chỉ có thể sử dụng dữ liệu về chi tiêu. Tất cả giá trị tiền tệ trong nghiên cứu đều được quy đổi sang đơn vị đô la Mỹ năm 2005 theo phương pháp sức mua tương đương (PPP), giúp đảm bảo sự nhất quán và độ tin cậy trong các phân tích theo thời gian. Trong nghiên cứu về học máy, người ta thường sử dụng định nghĩa biến mục tiêu (target variable) thay cho biến phụ thuộc nhưng chúng có cùng bản chất. Bên cạnh đó, trong mô hình học máy cũng thường sử dụng định nghĩa biến đầu vào hoặc đặc trưng (feature) để thay cho biến độc lập. Vì vậy để thống nhất tên gọi, nhóm nghiên cứu sẽ sử dụng cụm từ biến mục tiêu và feature để thay thế cho các định nghĩa về biến phụ thuộc và biến độc lập. 2.5. Phương pháp nghiên cứu 2.5.1 Phương pháp nghiên cứu tại bàn Trong nghiên cứu này, nhóm tác giả sử dụng phương pháp nghiên cứu tại 41 bàn (desk research) để xây dựng nền tảng lý thuyết, bối cảnh thực tiễn cũng như xác định phương pháp tiếp cận phù hợp. Trước hết, nhóm tập trung thu thập và phân tích các tài liệu khoa học, bao gồm các công trình nghiên cứu trong và ngoài nước về nghèo đói năng lượng, đồng thời rà soát các mô hình học máy (học không giám sát, học giám sát, học sâu) đã được áp dụng thành công. Tiếp đến, chúng tôi tập hợp toàn bộ dữ liệu thứ cấp từ bộ Khảo sát mức sống dân cư Việt Nam (VHLSS) giai đoạn 2004–2020, kiểm tra chất lượng và tính nhất quán của dữ liệu, sau đó tiến hành tiền xử lý để loại bỏ những giá trị nhiễu hoặc thiếu sót. Dựa trên những hiểu biết tích lũy được, nhóm phát triển khung phân tích tổng hợp, trong đó xác định các biến số về đặc điểm nhân khẩu học, kinh tế – xã hội, mức chi tiêu cho năng lượng, cùng các kỹ thuật phân cụm và phân loại phù hợp nhằm nhận diện và dự báo tình trạng nghèo đói năng lượng. Song song với đó, chúng tôi xây dựng kế hoạch phân tích rõ ràng cho từng giai đoạn, bao gồm thiết kế mô hình, thực nghiệm, đánh giá hiệu năng và điều chỉnh tham số. Cuối cùng, những kết quả thu nhận được sẽ được so sánh với các công trình điển hình trên thế giới và đối chiếu với bối cảnh Việt Nam để rút ra các đề xuất chính sách thực tiễn, qua đó tạo ra nền tảng khoa học vững chắc cho việc phân loại, dự báo, cũng như hỗ trợ xóa đói giảm nghèo và thúc đẩy phát triển bền vững trong lĩnh vực năng lượng. 2.5.2 Phương pháp thu thập dữ liệu thứ cấp Như đã trình bày ở phần dữ liệu nghiên cứu, nhóm tác giả kết hợp nhiều nguồn khác nhau nhằm đảm bảo tính toàn diện và độ tin cậy cao cho bộ dữ liệu nghiên cứu. Trước hết, nhóm tác giả thu thập bộ dữ liệu Khảo sát mức sống dân cư Việt Nam (VHLSS) giai đoạn 2004–2020 từ Tổng cục Thống kê Việt Nam (GSO), với sự hỗ trợ kỹ thuật từ Ngân hàng Thế giới và Chương trình Phát triển Liên hợp quốc. Bộ dữ liệu VHLSS, được thiết kế theo các tiêu chuẩn quốc tế, cho phép phân tích chuyên sâu về điều kiện kinh tế – xã hội và hành vi tiêu dùng năng lượng của hàng chục nghìn hộ gia đình trên toàn quốc. Bên cạnh đó, nhóm nghiên cứu thu thập thông tin về giá xăng, dầu, gas từ Tập đoàn Dầu khí Việt Nam (Petrolimex) và giá điện bán lẻ bình quân từ Tập đoàn Điện lực Việt Nam (EVN) trong khoảng thời gian 2004–2022. Các số liệu về giá nhiên liệu và giá điện được được thu thập cùng với dữ 42 liệu VHLSS nhằm theo dõi sát sao xu hướng biến động chi phí năng lượng của hộ gia đình, qua đó cung cấp bức tranh toàn diện hơn về tình trạng nghèo đói năng lượng tại Việt Nam. Sự kết hợp giữa nguồn dữ liệu vi mô (VHLSS) và thông tin vĩ mô (giá năng lượng) giúp nghiên cứu không chỉ nắm bắt được đặc điểm chi tiêu năng lượng của từng hộ gia đình mà còn đánh giá được tác động của các biến động giá năng lượng trong giai đoạn dài. Đây là cơ sở vững chắc để nhóm tác giả tiến hành phân tích định lượng, nhận diện hộ nghèo năng lượng và đề xuất các chính sách phù hợp. 2.5.3 Phương pháp định lượng Khác với các nghiên cứu khác trong lĩnh vực kinh tế - xã hội áp dụng mô hình kinh tế lượng để xử lí dữ liệu bằng các phần mềm STATA, R,… Phương pháp định lượng trong nghiên cứu của chúng tôi được triển khai dựa trên việc xử lý và phân tích toàn bộ dữ liệu bằng ngôn ngữ lập trình Python, sử dụng các thư viện phổ biến như Pandas, NumPy, scikit-learn và TensorFlow/PyTorch (tùy theo mô hình học máy được lựa chọn). Trước hết, nhóm nghiên cứu tiến hành tiền xử lý dữ liệu (data preprocessing), bao gồm làm sạch dữ liệu (data cleaning) để xử lý giá trị thiếu, loại bỏ dữ liệu nhiễu, cũng như chuẩn hóa và biến đổi các biến số phù hợp với yêu cầu của mô hình. Tiếp đó, nhóm áp dụng các kỹ thuật thống kê mô tả, xác định phân phối và các đặc trưng quan trọng (như trung bình, phương sai, mức độ phân tán) nhằm nắm bắt đặc điểm chung của bộ dữ liệu. Trong giai đoạn xây dựng mô hình, các thuật toán học máy không giám sát (như K-means, PCA), học giám sát (Decision Tree, Random Forest, XGBoost) và học sâu (mô hình Bi-LSTM, CNN…) được triển khai và so sánh dựa trên các chỉ số đánh giá độ chính xác, độ nhạy, F1-Score hoặc các chỉ số sai số (MSE, RMSE) để tìm ra phương pháp tối ưu. Bên cạnh đó, nhóm nghiên cứu còn tận dụng draw.io để trực quan hóa kết quả và quy trình xử lý (bao gồm sơ đồ luồng dữ liệu, cấu trúc mô hình học máy, hay biểu đồ minh họa tương quan giữa các biến số). Điều này không chỉ giúp trình bày dữ liệu một cách sinh động, dễ hiểu, mà còn hỗ trợ quá trình phân tích, thảo luận kết quả và phát hiện các xu hướng hoặc bất thường tiềm ẩn. Về các thuật toán và mô hình được áp dụng, nhóm nghiên cứu sẽ trình bày chi tiết ở các mục sau. 43 2.6. Phương pháp học không giám sát Học không giám sát (Unsupervised Learning) là phương pháp học máy không yêu cầu dữ liệu đầu vào có nhãn. Thay vì dự đoán đầu ra cụ thể, học không giám sát giúp mô hình phát hiện các mẫu hoặc cấu trúc ẩn trong dữ liệu. Điều này đặc biệt hữu ích khi không có thông tin nhãn cho các dữ liệu. Các thuật toán học không giám sát bao gồm phân cụm (clustering), giảm chiều (dimensionality reduction), và học đặc trưng (feature learning). Trong ngành kinh tế, học không giám sát có thể được sử dụng để phân nhóm khách hàng, phân tích thị trường, hay phát hiện các mô hình tiêu dùng ẩn trong dữ liệu khách hàng. 2.6.1. Thuật toán phân cụm K-means Clustering Một trong những thuật toán học không giám sát phổ biến là K-means clustering, giúp phân nhóm dữ liệu theo các đặc điểm tương đồng, và có thể ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm cả ngành kinh tế. Ví dụ, trong nghiên cứu về mức thu nhập, chi tiêu và chi tiêu cho năng lượng của các hộ gia đình tại Việt Nam, một trong những bộ dữ liệu quan trọng là VHLSS (Vietnam Household Living Standards Survey). Nhóm nghiên cứu muốn phân tích đặc trưng của những hộ gia đình theo mức thu nhập, chi tiêu và chi tiêu cho năng lượng, và phân nhóm các hộ gia đình này để tìm ra những nhóm với các đặc điểm tương đồng. Vì bộ dữ liệu này rất phong phú với nhiều thông tin về thu nhập, chi tiêu cho các mặt hàng khác nhau, cũng như các yếu tố như vị trí địa lý, dân tộc, và trình độ học vấn của chủ hộ gia đình. Tuy nhiên, vì số lượng hộ gia đình rất lớn và dữ liệu rất phức tạp, việc phân loại và hiểu các mối quan hệ giữa các yếu tố này bằng các phương pháp kinh tế lượng thông thường là một trở ngại không nhỏ. Nếu áp dụng phương pháp học không giám sát, cụ thể là K-means clustering, nhóm nghiên cứu có thể dễ dàng phân nhóm các hộ gia đình thành các cụm khác nhau dựa trên các đặc trưng tương tự. Sau khi phân nhóm xong, chúng tôi có thể dễ dàng phân tích và đưa ra những chiến lược chính sách phù hợp cho từng nhóm hộ gia đình, chẳng hạn như chính sách hỗ trợ chi tiêu năng lượng cho các hộ gia đình có thu nhập thấp hoặc các hộ gia đình ở vùng sâu, vùng xa. Phương pháp này giúp giảm bớt khối lượng công việc phân tích dữ liệu và giúp việc ra quyết định trở nên chính xác và hiệu quả hơn. 44 Ý tưởng đơn giản nhất về cluster (cụm) là tập hợp các điểm ở gần nhau trong một không gian nào đó (không gian này có thể có rất nhiều chiều trong trường hợp thông tin về một điểm dữ liệu là rất lớn). Hình bên dưới là một ví dụ về 3 cụm dữ liệu (hoặc là cluster). Ví dụ, trong trường hợp của hộ gia đình, các đặc trưng như thu nhập, chi tiêu, chi tiêu cho năng lượng, và các yếu tố xã hội khác có thể được xem như các chiều trong không gian này. Khi các điểm dữ liệu được phân nhóm vào các cụm, mỗi cụm sẽ chứa những hộ gia đình có đặc điểm tương đồng. Hình 2.2: Minh họa cụm dữ liệu Nguồn: Nhóm tác giả Để thực hiện phân nhóm này một cách hiệu quả, nhóm nghiên cứu sử dụng thuật toán K-means clustering kết hợp với phương pháp giảm chiều dữ liệu PCA (nhóm nghiên cứu sẽ trình bày sau). Thuật toán K-means clustering hoạt động như sau: 45 Bảng 1: Dữ liệu đầu vào – đầu ra của thuật toán Dữ liệu đầu vào Dữ liệu đầu ra Dữ liệu X (một tập hợp các Các trung tâm (center) cụm M điểm dữ liệu). (trung bình các điểm dữ liệu Số lượng cụm cần tìm K trong mỗi cụm). Vectors nhãn Y cho từng điểm dữ liệu (mỗi điểm dữ liệu được gán vào một cụm). Nguồn: Nhóm nghiên cứu 1. Chọn K điểm làm các trung tâm cụm ban đầu: Các điểm này sẽ là các điểm trung tâm (centroids) đầu tiên. 2. Phân nhóm các điểm dữ liệu: Mỗi điểm dữ liệu sẽ được gán vào một cụm, cụ thể là điểm dữ liệu sẽ được phân vào cụm có trung tâm gần nó nhất. Khoảng cách thường sử dụng là khoảng cách Euclidean giữa điểm dữ liệu và các trung tâm. 3. Kiểm tra sự thay đổi của phân nhóm: Nếu sự phân nhóm của các điểm dữ liệu không thay đổi so với vòng lặp trước, thuật toán sẽ dừng lại. Điều này có nghĩa là thuật toán đã hội tụ và không cần tiếp tục. 4. Cập nhật các trung tâm cụm: Sau khi gán tất cả các điểm dữ liệu vào các cụm, cập nhật lại trung tâm của từng cụm. Trung tâm mới sẽ là trung bình cộng của tất cả các điểm dữ liệu đã được phân vào cụm đó trong bước 2. 5. Lặp lại bước 2 và 3: Quay lại bước 2, phân nhóm lại các điểm dữ liệu dựa trên trung tâm mới. Sau đó kiểm tra lại sự thay đổi của phân nhóm và tiếp tục cho đến khi không còn sự thay đổi. 2.6.2. Thuật toán giảm chiều dữ liệu PCA Phân tích thành phần chính (PCA – Principal Component Analysis) là một trong những kỹ thuật giảm chiều dữ liệu phổ biến và quan trọng nhất trong thống kê và học máy. Mục tiêu của PCA là chuyển đổi một tập dữ liệu có nhiều đặc trưng 46 (hay còn gọi là chiều) thành một dạng biểu diễn có ít chiều hơn nhưng vẫn giữ được phần lớn thông tin ban đầu. Về mặt lý thuyết, PCA bắt đầu bằng việc chuẩn hóa dữ liệu – thường là trừ đi trung bình và chia cho độ lệch chuẩn của từng đặc trưng. Đây là bước quan trọng nhằm loại bỏ tác động của sự khác biệt về đơn vị đo lường hay tầm vóc của các đặc trưng. Tiếp theo, ta tính ma trận hiệp phương sai, trong đó mỗi phần tử thể hiện mức độ liên hệ tuyến tính giữa hai đặc trưng khác nhau. Dựa trên ma trận hiệp phương sai này, PCA tiến hành tìm các giá trị riêng (eigenvalues) và vector riêng (eigenvectors). Mỗi giá trị riêng tương ứng với độ lớn phương sai mà vector riêng mang lại trong dữ liệu. Khi sắp xếp các giá trị riêng theo thứ tự giảm dần, vector riêng đi kèm với giá trị riêng lớn nhất sẽ là hướng mà dữ liệu “biến thiên” nhiều nhất. Số lượng các vector riêng mà ta chọn (gọi là k) chính là số chiều mới muốn giữ lại. Một tiêu chí phổ biến để chọn k là tổng tỷ lệ phương sai được giữ lại: nếu tổng các giá trị riêng của k thành phần chính đầu tiên chiếm khoảng 90% hoặc 95% tổng phương sai, ta coi đó là ngưỡng tốt để cắt bớt chiều dữ liệu. Cuối cùng, việc chiếu dữ liệu gốc lên các vector riêng tương ứng (các thành phần chính) sẽ cho chúng ta một biểu diễn mới có số chiều thấp hơn. Trong không gian này, dữ liệu được sắp xếp theo các trục “chính” – tức là những chiều mà dữ liệu có mức biến thiên cao nhất. Nhờ đó, ta giảm được chi phí tính toán, giảm hiện tượng đa cộng tuyến (multicollinearity) giữa các đặc trưng, đồng thời có thể loại bớt nhiễu hoặc thông tin dư thừa. Khi số chiều được giảm xuống còn 2 hoặc 3, PCA cũng giúp việc trực quan hóa dữ liệu trở nên dễ dàng hơn. Thuật toán PCA hoặt động như sau: 1. Chuẩn bị và chuẩn hóa dữ liệu: Trong đó thực hiện lần lượt bước nhỏ đó là tính vector trung bình và chuẩn hóa phương sai của của toàn bộ dữ liệu theo công thức: 𝑁 1 𝑥 = ∑ 𝑥𝑛 𝑁 𝑛=1 2. Tính ma trận hiệp phương sai (Covariance Matrix): Sau khi dữ liệu đã được chuẩn hóa, tính ma trận hiệp phương sai của dữ liệu. Ma trận này có kích 47 thước d×d, với d là số đặc trưng. Mỗi phần tử trong ma trận thể hiện mức độ liên hệ (hiệp phương sai) giữa hai đặc trưng. Công thức tính như sau: 1 ̂𝑇 𝑋̂ 𝑋 𝑁 3. Tìm trị riêng (Eigenvalues) và vector riêng (Eigenvectors): Tiến hành 𝑆= phân rã (decompose) ma trận hiệp phương sai để tìm các trị riêng và vector riêng tương ứng. Mỗi trị riêng phản ánh lượng phương sai của dữ liệu theo hướng vector riêng đó. Đồng thời, sắp xếp chúng theo thứ tự giảm dần của trị riêng. 4. Sắp xếp và lựa chọn các thành phần chính: Chọn K vector riêng ứng với K giá trị riêng lớn nhất để xây dựng ma trận UK có các cột tạo thành một hệ trực giao. K vectors này, còn được gọi là các thành phần chính, tạo thành một không gian con gần với phân bố của dữ liệu ban đầu đã chuẩn hoá. 5. Chiếu dữ liệu lên các thành phần chính: Tạo ma trận 𝑊 gồm 𝑘 vector riêng (mỗi vector riêng là một cột). Sau đó, nhân dữ liệu chuẩn hóa với 𝑊 để thu được dữ liệu mới trong không gian k chiều. Kết thúc quá trình này, ta thu được dữ liệu đã giảm chiều, trong đó mỗi chiều mới (thành phần chính) mang nhiều thông tin biến thiên nhất có thể so với dữ liệu gốc. Dữ liệu ban đầu có thể tính được xấp xỉ theo dữ liệu mới như sau: 𝑥 ≈ 𝑈𝐾 𝑍 + 𝑥 2.7. Phương pháp học giám sát (Supervised learning) Học Giám Sát (Supervised Learning) là một phương pháp quan trọng trong học máy, trong đó mô hình được huấn luyện trên một tập dữ liệu có nhãn. Điều này có nghĩa là mỗi ví dụ trong tập huấn luyện đều đi kèm với một nhãn đúng, giúp mô hình học cách dự đoán nhãn cho các dữ liệu mới dựa trên các đặc trưng của chúng. Học Giám Sát thường được chia thành hai loại chính: phân loại (classification), nơi nhãn là các hạng mục rời rạc (ví dụ: phân biệt email rác và email thường), và hồi quy (regression), nơi nhãn là các giá trị liên tục (ví dụ: dự đoán hành vi của một cá nhân dựa trên những việc mà người đó làm). Đây là một phương pháp phổ biến và hiệu quả trong việc giải quyết nhiều bài toán thực tế nhờ khả năng tận dụng thông tin nhãn để định hướng quá trình học hỏi của máy tính. 2.7.1. Thuật toán Cây quyết định và Rừng ngẫu nhiên 48 a) Thuật toán Cây quyết định Thuật toán Cây quyết định (Decision Tree) là một trong những phương pháp học giám sát đơn giản và trực quan nhất, thường được ứng dụng cho các bài toán phân loại (classification) và hồi quy (regression). Cấu trúc của mô hình này được tổ chức dưới dạng một cây, trong đó mỗi nút (node) biểu thị cho một thuộc tính (feature) dùng để phân chia dữ liệu, và các nhánh (branch) đại diện cho giá trị của thuộc tính tương ứng. Đến cuối quá trình phân nhánh, chúng ta có các nút lá (leaf node), nơi lưu trữ nhãn lớp dự đoán (trong bài toán phân loại) hoặc giá trị dự đoán (trong bài toán hồi quy). Nhờ tính chất phân cấp theo dạng “nếu - thì” (if-then), Cây Quyết Định rất dễ giải thích cũng như trực quan trong việc theo dõi cách thức mô hình đưa ra dự đoán. Để xây dựng một Cây quyết định, ta bắt đầu từ tập dữ liệu ban đầu và lựa chọn thuộc tính tối ưu để phân tách dữ liệu thành các nhóm con tinh khiết (pure) hơn. Việc “tối ưu” ở đây thường được đo lường bằng những đại lượng như Entropy và Information Gain (đối với phân loại), hoặc giảm phương sai (variance reduction) và giảm sai số trung bình (MSE) (đối với hồi quy). Khi một thuộc tính được chọn tại nút, dữ liệu sẽ được chia theo các giá trị của thuộc tính đó, sau đó quá trình lặp lại đệ quy ở các nhánh con cho đến khi đạt điều kiện dừng, chẳng hạn khi độ thuần của nhánh đã đủ cao, hay khi không còn thuộc tính nào khả dụng. Kết quả là chúng ta thu được một cây có độ sâu nhất định, phản ánh quá trình “phân loại” nhiều bước từ tập dữ liệu gốc. Hình dưới đây mô tả ứng dụng của của Cây quyết định trong lĩnh vực kinh tế và kinh doanh. “Theo đó, khi áp dụng Cây quyết định, dựa trên những lợi ích có thể đạt được và những rủi ro, một chủ cửa hàng có thể đưa ra quyết định là nên mở cửa hàng để bán hay không trong thời kì Covid19. Dựa vào kinh nghiệm của mình, anh ta ước tính được nếu kinh doanh phát đạt sẽ lãi 40 triệu đồng, còn nếu kinh doanh suy thoái sẽ lỗ 30 triệu đồng, còn nếu không bán thì anh ta sẽ không có lãi. Xem xét thêm bối cảnh thị trường đang thời kỳ đại dịch, nhu cầu mua đồ tích trữ của người dân sẽ tăng cao, trong khi cửa hàng tạp hóa không phải đối tượng bắt buộc đóng cửa, ngừng kinh doanh để hạn chế tiếp xúc. Vì thế nguy cơ kinh doanh suy thoái có thể sẽ thấp hơn tiềm năng kinh doanh bùng nổ. Nhờ áp dụng mô hình cây quyết định, người bán có thể đưa ra 49 quyết định là nên mở cửa hàng. Như vậy, Decision tree đã phát huy ý nghĩa là công cụ hỗ trợ con người đưa ra quyết định nhờ dự đoán trước được kết quả.” (Nguyễn Thị Ngọc Vân, 2022) Hình 2.3: Ứng dụng của mô hình Cây quyết định trong lĩnh vực kinh tế Nguồn: Nguyễn Thị Ngọc Vân (2022) Trong khuôn khổ nghiên cứu này, nhóm tác giả áp dụng mô hình Cây Quyết Định (Decision Tree) vào bộ dữ liệu VHLSS để xác định xem một hộ gia đình có thuộc diện “nghèo đói năng lượng” hay không. Về cơ bản, chúng tôi đang tìm cách xây dựng một chuỗi quyết định dựa trên các biến kinh tế - xã hội và điều kiện sống đã được mã hóa. Trước hết, nhóm nghiên cứu xác định biến mục tiêu là tình trạng nghèo năng lượng (có/không), đồng thời đưa vào mô hình các thuộc tính chủ chốt, chẳng hạn như thu nhập hộ gia đình, tổng chi tiêu, chi tiêu bình quân cho các loại năng lượng, chi phí tiền điện, diện tích nơi ở, chất lượng nhà ở, và khả năng tiếp cận điện lưới quốc gia. Ý nghĩa của các biến này xuất phát từ khả năng chúng phản ánh trực tiếp hay gián tiếp mức độ tiếp cận và khả năng chi trả năng lượng của một hộ gia đình. Về chi tiết các biến được đưa vào mô hình, nhóm nghiên cứu sẽ trình bày ở phần kết quả nghiên cứu của mô hình này. Trong quá trình huấn luyện mô hình, Cây Quyết Định sẽ tự động đánh giá, 50 dựa trên các chỉ số như Information Gain hoặc Gini Index, thuộc tính này cho phép phân chia dữ liệu thành các nhóm “nghèo năng lượng” và “không nghèo năng lượng” một cách rõ ràng nhất. Hai chỉ số này được tính toán như sau: 1. Information Gain (dựa trên Entropy): 𝑰𝑮(𝑻, 𝑿) = 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑻) − ∑ 𝒗∈𝑽𝒂𝒍𝒖𝒆𝒔(𝑿) |𝑻𝒗 | 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑻𝒗 ) |𝑻| Ở đây, 𝑻 là tập dữ liệu, 𝑿 là thuộc tính đang xét, 𝑻𝒗 là tập con của 𝑻 với giá trị thuộc tính 𝑋 = 𝑣. Mục tiêu là chọn thuộc tính có Information Gain cao nhất. 2. Gini Index: 𝒎 𝑮𝒊𝒏𝒊(𝑻) = 𝟏 − ∑(𝒑𝒊 )𝟐 𝒊=𝟏 Trong 𝒑𝒊 đó là xác suất mẫu rơi vào lớp 𝑖 trong tập dữ liệu 𝑇. Thuộc tính nào giảm chỉ số Gini nhiều nhất sau khi phân chia là thuộc tính tốt. Ví dụ, trong bước đầu (nút gốc), mô hình có thể phát hiện ra rằng thu nhập là yếu tố quan trọng nhất, bởi thu nhập thấp thường đi kèm với khả năng chi trả năng lượng hạn chế. Mô hình từ đó xác định một ngưỡng (ví dụ 25 triệu đồng /hộ gia đình/năm) và chia dữ liệu thành hai nhóm: hộ có thu nhập dưới ngưỡng và hộ có thu nhập trên ngưỡng. Nhóm thu nhập dưới ngưỡng, về mặt thống kê, có nhiều khả năng nghèo năng lượng hơn, nên để phân loại chính xác hơn, mô hình xem xét tiếp một biến khác, chẳng hạn chi tiêu tiền điện. Nếu một hộ gia đình hầu như không chi trả nổi tiền điện (ví dụ dưới 600 nghìn đồng/năm), thì khả năng họ nằm trong diện nghèo năng lượng là rất cao. Ngược lại, nếu cùng mức thu nhập thấp nhưng hộ vẫn dành một khoản đáng kể cho điện, chúng ta cần tiếp tục xem xét thêm yếu tố như số tiền trợ cấp xã hội hoặc khả năng tiếp cận điện lưới để đưa ra quyết định cuối cùng. Trong khi đó, đối với nhóm hộ có thu nhập cao hơn ngưỡng 25 triệu đồng/ năm, mô hình có thể chuyển sang kiểm tra các biến bổ sung như chất lượng nhà ở hoặc diện tích nơi ở. Hộ nào sở hữu chất lượng nhà ở kém, nhưng vẫn có điện lưới quốc gia, có thể chưa bị xem là nghèo năng lượng; tuy nhiên, nếu chất lượng nhà ở kém và lại hoàn toàn không tiếp cận được điện, mô hình có cơ sở kết luận hộ này thuộc nhóm rủi ro cao. Cứ như vậy, cây tiếp tục “phân nhánh” dựa trên các ngưỡng 51 giá trị hoặc thuộc tính khác nhau, cho đến khi mỗi nhánh lá đại diện cho một quyết định dự đoán tương đối “thuần” (tức hầu hết các hộ trong nhánh là nghèo năng lượng hay không). Ở giai đoạn cuối, kỹ thuật cắt tỉa (pruning) có thể được triển khai để loại bớt những nhánh quá cụ thể, giảm thiểu hiện tượng “quá khớp” (overfitting). Với cách làm này, Cây Quyết Định vừa đảm bảo khả năng dự đoán chính xác, vừa duy trì được tính trực quan, giúp chúng ta dễ giải thích vì sao một hộ gia đình được xếp vào diện nghèo năng lượng hay không, trên cơ sở phân tích tầng bậc các đặc điểm kinh tế - xã hội trong dữ liệu VHLSS. Tuy nhiên, việc xây dựng cây một cách hoàn toàn “tự do” rất dễ dẫn đến hiện tượng quá khớp (overfitting), khi mô hình học thuộc lòng những nhiễu (noise) trong dữ liệu huấn luyện, làm giảm khả năng tổng quát hoá đối với dữ liệu mới. Để giải quyết vấn đề này, người ta thường sử dụng các kỹ thuật cắt tỉa (pruning), chẳng hạn như pre-pruning (dừng việc mở rộng cây sớm) hoặc post-pruning (loại bỏ bớt các nhánh ít đóng góp sau khi cây đã xây dựng xong). Nhờ pruning, mô hình có thể duy trì được mức độ phức tạp vừa phải và tránh tình trạng “bỏ học” (drop out) dữ liệu huấn luyện. Ngoài ra, Cây Quyết Định cũng có đặc điểm dễ “nhạy cảm” với sự thay đổi nhỏ trong tập dữ liệu: chỉ cần một vài điểm dữ liệu bị thay đổi, cấu trúc của cây có thể thay đổi đáng kể. Chính vì vậy, trong nghiên cứu này – một bài toán phức tạp, một cây đơn lẻ thường không đủ mạnh để mang lại kết quả tối ưu, và nhóm nghiên cứu chuyển sang sử dụng các mô hình tổ hợp (ensemble), là Random Forest hoặc XGBoost để tăng độ chính xác và khả năng khái quát. Dù vậy, nhờ ưu điểm trực quan, dễ triển khai và không đòi hỏi nhiều bước xử lý dữ liệu, Cây Quyết Định vẫn giữ vị trí quan trọng như một mô hình cơ bản, được áp dụng rộng rãi và thường là lựa chọn ban đầu khi tiếp cận một bài toán học máy. b) Thuật toán Rừng ngẫu nhiên Thuật toán Rừng Ngẫu Nhiên (Random Forest) là phương pháp học máy dựa trên mô hình tổ hợp (ensemble learning), có thể xem phương pháp này là một bản nâng cấp, hoàn thiện hơn thuật toán Cây Quyết Định ở trên. Ý tưởng cốt lõi của Random Forest là kết hợp (bagging) nhiều Cây Quyết Định (Decision Trees) lại với nhau để giảm thiểu độ sai số và nâng cao khả năng khái quát hóa. Thay vì 52 chỉ dựa vào một Cây Quyết Định duy nhất, Random Forest tiến hành “bỏ phiếu” (voting) hoặc “lấy trung bình” (averaging) từ hàng loạt cây riêng lẻ, qua đó làm giảm hiện tượng “quá khớp” (overfitting) thường gặp ở Cây Quyết Định đơn lẻ. Quy trình xây dựng một rừng ngẫu nhiên thông thường được thực hiện thông qua hai bước chính. Bước thứ nhất là Bootstrap Sampling, tức là mỗi cây trong rừng sẽ được huấn luyện trên một “tập con” của dữ liệu gốc, nhưng điểm khác biệt quan trọng là tập con này được chọn ngẫu nhiên “có lặp” (tức cùng một mẫu dữ liệu có thể xuất hiện nhiều lần). Mục đích của việc lấy mẫu có lặp là để tăng tính đa dạng cho các cây, giúp chúng không hoàn toàn “giống nhau” về dữ liệu huấn luyện. Bước thứ hai là Random Feature Selection, nghĩa là tại mỗi nút của Cây Quyết Định, chỉ một tập con các thuộc tính (features) được chọn ngẫu nhiên để tìm ra thuộc tính tốt nhất. Cách làm này tiếp tục làm tăng sự đa dạng giữa các cây, bởi mỗi cây có khả năng “chú ý” vào các thuộc tính khác nhau. Sau khi đã huấn luyện đầy đủ tất cả các cây, Random Forest sẽ đưa ra dự đoán dựa trên kết quả của từng cây con. Cụ thể, trong trường hợp phân loại, mô hình lấy kết quả biểu quyết đa số (majority vote): nếu có nhiều cây dự đoán mẫu đó thuộc lớp A hơn lớp B, thì kết quả cuối cùng là lớp A. Cách kết hợp này có tác dụng “làm mượt” những tiên đoán cực đoan của từng cây riêng lẻ và giúp mô hình tổng thể ổn định hơn. Một trong những ưu điểm nổi bật của Random Forest là tính mạnh mẽ trước dữ liệu nhiễu và biến động. Bởi các cây con được huấn luyện trên những tập dữ liệu khác nhau với các thuộc tính được chọn ngẫu nhiên, mô hình ít bị ảnh hưởng bởi việc thay đổi nhỏ trong dữ liệu. Random Forest cũng có khả năng tự đánh giá “độ quan trọng” của các thuộc tính thông qua mức độ giảm lỗi hoặc giảm độ hỗn độn (như Gini) trung bình. Tuy nhiên, hạn chế lớn nhất của Random Forest là yêu cầu về phần cứng cao hơn khi số lượng cây tăng, đồng thời mô hình trở nên khó giải thích hơn so với một cây quyết định đơn lẻ. 2.7.2. Thuật toán XGBoost XGBoost (viết tắt của eXtreme Gradient Boosting) là một thuật toán học máy sử dụng kỹ thuật “boosting”, được giới thiệu bởi Chen và Guestrin (2016). Về cơ bản, thuật toán này tạo ra một chuỗi Cây Quyết Định nhỏ (weak learners), 53 trong đó mỗi cây liên tục hiệu chỉnh sai số còn lại từ mô hình trước. Điểm nổi bật của XGBoost là tốc độ huấn luyện nhanh, khả năng tối ưu hóa bộ nhớ và khai thác hiệu quả tài nguyên phần cứng (như CPU, GPU). Song song với đó, XGBoost còn có nhiều cơ chế chống quá khớp (overfitting), ví dụ như shrinkage (giảm hệ số đóng góp của từng cây), subsampling (lấy mẫu ngẫu nhiên dữ liệu hoặc thuộc tính), và các tham số kiểm soát độ sâu cây. Nhờ những ưu điểm trên, XGBoost tỏ ra hiệu quả trong nhiều bài toán thực tiễn, từ phân loại đến hồi quy và xử lý ngôn ngữ tự nhiên. Thuật toán này cũng tích hợp các giải pháp tối ưu về cấu trúc dữ liệu, như chia khối (block structure) và cơ chế thực thi song song, giúp giảm đáng kể thời gian huấn luyện trên dữ liệu quy mô lớn. Chính vì vậy, XGBoost được xem như một công cụ gần như “chuẩn mực” cho các nhà nghiên cứu muốn khai thác tối đa tiềm năng của các mô hình cây nâng cao. Trong khi, mô hình Random Forest xây dựng nhiều cây độc lập rồi lấy trung bình kết quả, còn XGBoost sử dụng boosting, liên tục khắc phục sai số của cây trước. Nhờ vậy, XGBoost thường đạt độ chính xác cao hơn khi được tinh chỉnh tham số đầy đủ, nhất là với dữ liệu lớn. Thuật toán này cũng huấn luyện nhanh nhờ tối ưu hệ thống và xử lý song song. Tuy nhiên, với bộ dữ liệu vừa phải như VHLSS, thuật toán Random Forest hoạt động ổn định hơn vì ưu tiên tốc độ và độ chính xác tương đối. Trong nghiên cứu về nghèo đói năng lượng, các nghiên cứu tiền nhiệm thường sử dụng Random Forest vì tính đơn giản và khả năng xử lý tốt dữ liệu nhiễu (Spandagos và cộng sự, 2023; Wang và cộng sự, 2021). Thuật toán này cho phép đánh giá mức độ quan trọng của từng biến, giúp xác định yếu tố kinh tế – xã hội hay điều kiện sống nào ảnh hưởng mạnh nhất. Đồng thời, Random Forest hoạt động hiệu quả với dữ liệu vừa phải, không đòi hỏi tinh chỉnh tham số phức tạp. Điều này tiết kiệm thời gian, tài nguyên và vẫn đảm bảo khả năng phân loại chính xác đối tượng nghèo năng lượng. Mặc dù vậy, để đảm bảo tính khách quan, nhóm nghiên cứu sẽ chạy đồng thời cả ba mô hình Decision Tree, Random Forest và XGBoost, kết chi tiết sẽ được nhóm nghiên cứu trình bày ở phần kết quả nghiên cứu. 54 2.8. Phương pháp học sâu (Deep learning) Học sâu (Deep Learning) là một lĩnh vực con của học máy tập trung vào việc xây dựng và huấn luyện các mô hình mạng thần kinh nhân tạo có nhiều tầng (layers). Ý tưởng cốt lõi của Học sâu là mô phỏng cấu trúc và cơ chế hoạt động của não bộ con người, trong đó các nơ-ron (neurons) được kết nối với nhau qua nhiều layers, giúp mô hình có khả năng học và trích xuất đặc trưng phức tạp từ dữ liệu thô. Nhờ sự phát triển của phần cứng (đặc biệt là GPU) cùng với những cải tiến trong thuật toán tối ưu, Học sâu đã trở thành một trong những hướng nghiên cứu và ứng dụng nổi bật nhất trong lĩnh vực Trí tuệ nhân tạo (Yann LeCun và cộng sự, 2015). Theo nghiên cứu của Shinde và Shah (2018) một trong những ưu điểm nổi bật của Học sâu so với các phương pháp Học máy truyền thống là khả năng tự động trích xuất đặc trưng (feature extraction). Trong các mô hình kinh tế lượng hay mô hình Học máy cổ điển (như Linear Regression, Decision Tree, Random Forest,…), các nhà nghiên cứu thường phải trải qua quá trình chọn lọc biến (feature selection) và tạo biến (feature engineering) thủ công, đòi hỏi rất nhiều thời gian, kiến thức chuyên môn và sự tinh chỉnh tỉ mỉ. Ngược lại, Học sâu có thể “học” trực tiếp từ dữ liệu thô nhờ cấu trúc nhiều lớp của mạng. Mỗi lớp sẽ dần trích xuất và biểu diễn dữ liệu ở mức độ trừu tượng cao hơn. Điều này đặc biệt hữu ích trong các bài toán xử lý ngôn ngữ tự nhiên (Natural Language Processing), xử lý ảnh (Computer Vision) hay phân tích chuỗi thời gian (Time Series Analysis), nơi mà việc xác định features “tốt” không hề đơn giản. Thêm vào đó, các mạng thần kinh sâu (Deep Neural Networks) có khả năng “mô hình hóa” những mối quan hệ phi tuyến phức tạp hơn so với các mô hình kinh tế lượng truyền thống (chẳng hạn như mô hình hồi quy tuyến tính). Với cùng một nguồn dữ liệu, Học sâu có thể tìm ra những quy luật ẩn sâu và khó phát hiện bằng các phương pháp thống kê thông thường. Khi quy mô dữ liệu ngày càng lớn, Học sâu càng trở nên hiệu quả. Chẳng hạn, ở Việt Nam, bộ dữ liệu Khảo sát mức sống dân cư (VHLSS) được xem là một trong những nguồn thông tin toàn diện và chi tiết nhất về nhân khẩu học, thu nhập, chi tiêu cùng nhiều chỉ số kinh tế - xã hội khác của các hộ gia đình. Nhờ vào đặc tính đa dạng và quy mô lớn của VHLSS, 55 các mô hình Học sâu có thể khai thác những mối liên hệ phức tạp giữa các biến số như nhân khẩu học, thu nhập, mức chi tiêu, đồng thời kết hợp với các yếu tố vĩ mô như giá điện hay giá các mặt hàng năng lượng. Trong nghiên cứu này, nhóm đã áp dụng mạng Bidirectional LSTM (BiLSTM) – một dạng LSTM hai chiều – nhằm tận dụng thông tin theo cả hướng quá khứ và tương lai trong các dãy quan sát, qua đó giúp dự báo chi tiêu hộ gia đình chính xác hơn so với các mô hình kinh tế lượng truyền thống. Bằng cách “học hỏi” dữ liệu theo cả hai chiều, Bi-LSTM có thể nắm bắt thêm nhiều tín hiệu quan trọng thường bị bỏ sót, đặc biệt khi chuỗi dữ liệu có đặc điểm mùa vụ hoặc chịu tác động từ biến động giá năng lượng theo thời gian. Các mục tiếp theo trong phần này sẽ đi sâu vào giải thích lý thuyết về mạng Bi-LSTM mà nhóm nghiên cứu sử dụng trong bài. 2.8.1. Mạng Neural hồi tiếp - Recurrent Neural Network (RNN) Mạng Nơ-ron hồi tiếp hay mạng Nơ-ron truy hồi (Recurrent Neural Network – RNN) là một loại mạng nơ-ron nhân tạo được thiết kế đặc biệt để xử lý dữ liệu có cấu trúc tuần tự, chẳng hạn như chuỗi thời gian, văn bản, hay dữ liệu tín hiệu. Khác với các mạng nơ-ron truyền thẳng (feedforward neural networks) chỉ xử lý dữ liệu theo chiều từ đầu vào đến đầu ra, RNN có kiến trúc cho phép thông tin được “truyền ngược” qua các bước thời gian nhờ vào các kết nối vòng lặp. Nhờ vậy, mô hình có khả năng ghi nhớ thông tin từ các bước trước đó và sử dụng chúng để đưa ra dự đoán cho bước hiện tại, giúp khai thác hiệu quả mối quan hệ phụ thuộc theo thời gian giữa các dữ liệu. Những ý tưởng ban đầu về việc sử dụng các cấu trúc hồi tiếp trong mạng nơ-ron đã được đề xuất từ thập niên 1980. Một trong những công trình nghiên cứu quan trọng trong lĩnh vực này đó là của Rumelhart và cộng sự (1986). Nhóm tác giả đã giới thiệu phương pháp “lan truyền ngược lỗi” (backpropagation) để huấn luyện các mạng có kiến trúc phức tạp, trong đó có các thành phần hồi tiếp. Sau đó, nghiên cứu của Elman (1990) đã làm rõ hơn về khả năng “nhận diện cấu trúc ẩn” trong dữ liệu tuần tự, mở đường cho việc áp dụng RNN trong nhiều bài toán xử lý ngôn ngữ tự nhiên và dự báo chuỗi thời gian. 56 Hình dưới đây là biểu diễn kiến trúc của một mạng Nơ-ron truy hồi. Trong kiến trúc này, mạng sử dụng đầu vào là một vecto Xt và trả về ở đầu ra là một giá trị ẩn Ht . Đầu vào được đấu với một thân mạng neural A có tính chất truy hồi và đấu tới đầu ra Ht . Hình 2.4: Minh hoạ một mạng Nơ-ron truy hồi Nguồn: Phạm Đình Khánh (2019) Hình 2.5: Minh họa sự khác nhau giữa mạng hồi tiếp so với mạng truyền thẳng Nguồn : Niklas Donges (2024) Vòng lặp A ở thân mạng Nơ-ron là điểm mấu chốt trong nguyên lý hoạt động của mạng nơ ron truy hồi. Đây là chuỗi sao chép nhiều lần của cùng một kiến trúc nhằm cho phép các thành phần có thể kết nối liền mạch với nhau theo mô hình chuỗi. Đầu ra của vòng lặp trước chính là đầu vào của vòng lặp sau. Nếu trải phẳng thân mạng nơ ron A ta sẽ thu được một mô hình dạng: 57 Hình 2.6: Minh họa chuỗi sao chép nhiều lần của cùng một kiến trúc Nơ-ron Nguồn: Phạm Đình Khánh (2019) Cụ thể, tại mỗi bước thời gian t, đầu ra của đơn vị ẩn Ht được tính dựa trên cả đầu vào hiện tại Xt và trạng thái ẩn từ bước trước Ht-1: Ht = 𝜙 ( Wxh ∙ Xt + Whh ∙ Ht-1 + bh ) Trong đó: - Wxh là ma trận trọng số giữa đầu vào và trạng thái ẩn. - Whh là ma trận trọng số của kết nối giữa các trạng thái ẩn qua các bước thời gian. - bh là vecto bias. - 𝜙 là hàm kích hoạt. Cấu trúc vòng lặp này cho phép RNN “nhớ” thông tin từ quá khứ và áp dụng nó cho các bước tính toán sau, tuy nhiên cũng dẫn đến những khó khăn khi huấn luyện mô hình trên chuỗi dữ liệu dài. Việc huấn luyện RNN thường dựa trên thuật toán lan truyền ngược qua thời gian (Backpropagation Through Time – BPTT). Trong quá trình này, các lỗi được tính toán và lan truyền ngược qua các bước thời gian để điều chỉnh trọng số của mô hình. Tuy nhiên, do kiến trúc lặp lại, BPTT dễ gặp phải vấn đề “gradient vanishing” (độ dốc giảm dần) hoặc “gradient exploding” (độ dốc tăng đột biến). Cụ thể: - Gradient vanishing: Khi gradient trở nên rất nhỏ qua các bước thời gian dài, làm cho việc cập nhật trọng số trở nên kém hiệu quả, dẫn đến khả năng ghi nhớ thông tin lâu dài của mô hình bị suy giảm. - Gradient exploding: Khi gradient tăng quá lớn, gây ra sự không ổn định trong quá trình huấn luyện và có thể làm cho trọng số bị cập nhật quá mức. 58 Những vấn đề này đã thúc đẩy các nghiên cứu tiếp theo nhằm cải tiến kiến trúc của RNN, từ đó đưa ra các biến thể như LSTM và GRU nhằm khắc phục hạn chế của mô hình gốc . 2.8.2. Mạng Long Short Term Memory (LSTM) Mạng LSTM được giới thiệu lần đầu bởi Hochreiter và Schmidhuber (1997) nhằm khắc phục những hạn chế của các mô hình RNN truyền thống, đặc biệt là vấn đề "vanishing gradient" – hiện tượng mà gradient trở nên rất nhỏ qua các bước thời gian dài, dẫn đến khả năng ghi nhớ thông tin của mô hình bị suy giảm. LSTM đã mở ra hướng tiếp cận mới cho các bài toán xử lý dữ liệu tuần tự, giúp mô hình có thể lưu giữ thông tin quan trọng trong khoảng thời gian dài và cho kết quả dự báo chính xác hơn. Để có cái nhìn trực quan hơn về sự cải tiến của LSTM so với RNN, hình ảnh sau minh họa sự khác biệt giữa vòng lặp kiến trúc Module giữa 2 mạng. Hình 2.7: Sự lặp lại kiến trúc module trong mạng RNN chứa 1 tầng ẩn Nguồn: Phạm Đình Khanh (2019) Hình 2.8: Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn Nguồn: Phạm Đình Khanh (2019) 59 LSTM cải tiến kiến trúc của RNN bằng cách giới thiệu một "ô nhớ" (cell state) cùng với ba cơ chế điều khiển thông qua các cổng (gates), bao gồm: - Tầng cổng quên : Quyết định phần nào của thông tin trong ô nhớ Ct-1 cần bị loại bỏ tại bước thời gian t. Điều này cho phép mô hình loại bỏ những thông tin không cần thiết, giữ lại những dữ liệu quan trọng cho bước tiếp theo. Tầng cổng quên học theo công thức như sau: Hình 2.9: Tầng cổng quên (forget gate layer) Nguồn: Phạm Đình Khanh (2019) ft = 𝜎 ( Wf ∙ [ Ht-1 , Xt ] + bf ) Trong đó: - Ht-1 là đầu ra (trạng thái ẩn) từ bước thời gian trước đó. - Xt là đầu vào tại thời điểm hiện tại. - Wf là ma trận trọng số tương ứng với cửa quên. - bf là vector bias của cửa quên. - σ là hàm sigmoid, có đầu ra nằm trong khoảng [0,1] cho phép điều chỉnh mức độ “quên” thông tin. Giá trị ft thu được từ hàm sigmoid biểu diễn mức độ “giữ lại” của từng phần thông tin trong ô nhớ. Nếu ft gần bằng 1, thông tin tương ứng sẽ được giữ lại hoàn toàn; nếu gần bằng 0, thông tin đó sẽ bị loại bỏ. Điều này giúp giảm thiểu việc lưu giữ thông tin không cần thiết và hỗ trợ mô hình trong việc xử lý chuỗi dài. 60 - Tầng cổng vào: Kiểm soát lượng thông tin mới sẽ được thêm vào ô nhớ, giúp cập nhật trạng thái hiện tại dựa trên dữ liệu mới từ đầu vào Xt Ở cổng này, có 2 thành phần chính: - Xác định thông tin cần thêm vào: it = 𝜎 (Wi ∙ [ h t-1 ,Xt ] + bi) Wi là ma trận trọng số của cửa vào. bi là vector bias. - Tạo thông tin ứng viên để cập nhật Hình 2.10: Tầng cổng vào (input gate layer Nguồn: Phạm Đình Khanh (2019) WC là ma trận trọng số cho việc tạo ra thông tin ứng viên. bC là vecto bias tương ứng. Hàm tanh chuẩn hóa giá trị ứng viên vào khoảng [−1,1], giúp cân bằng các giá trị tín hiệu được đưa vào ô nhớ. Hai thành phần của cửa vào hoạt động kết hợp để quyết định thông tin mới nào sẽ được đưa vào ô nhớ. - Tầng cổng ra: Cửa ra quyết định phần thông tin nào từ ô nhớ Ct sẽ được truyền ra dưới dạng đầu ra ht cho bước thời gian hiện tại, đồng thời cung cấp thông tin cho các bước tiếp theo. Đầu tiên, xác định cửa ra với công thức: ot=σ(Wo ⋅ [ht−1 , Xt]+bo) Wo là ma trận trọng số của cửa ra. bo là vector bias của cửa ra. Tiếp theo, trạng thái ô Ct được chuyển đổi qua hàm tanh để chuẩn hóa các giá trị. Sau đó, đầu ra ht được tính bằng cách Hình 2.11: Tầng cổng ra (output gate nhân giá trị của tanh(Ct) với ot (theo layer) phép nhân từng phần), giúp lựa chọn Nguồn: Phạm Đình Khanh (2019) thông tin phù hợp để truyền đi. Cuối cùng là tính đầu ra : ht = ot ∗ tanh(Ct) 61 Cửa ra giúp “lọc” thông tin trong ô nhớ, chỉ cho phép những phần thông tin có giá trị được chuyển thành đầu ra. Việc sử dụng hàm sigmoid trong ot đảm bảo rằng các giá trị đầu ra được điều chỉnh trong khoảng từ 0 đến 1, còn hàm tanh giúp giữ cho các giá trị ổn định, tránh tình trạng quá lớn hoặc quá nhỏ. Nhờ vậy, thông tin được truyền đi một cách hiệu quả, hỗ trợ quá trình học và dự báo của mạng. 2.8.3. Mạng Bidirectional Long Short Term Memory (BiLSTM) Dữ liệu chuỗi thời gian, vốn có đặc trưng phụ thuộc theo trật tự thời gian, đặt ra yêu cầu cao đối với các mô hình học sâu (Deep learning) trong việc ghi nhớ và phân tích thông tin ngữ cảnh. Mô hình LSTM truyền thống, dù hiệu quả trong việc xử lý các chuỗi dài nhờ cơ chế cổng (gating mechanism), vẫn bị giới hạn bởi cách tiếp cận đơn chiều—chỉ xem xét dữ liệu từ quá khứ đến hiện tại. Hạn chế này khiến mô hình bỏ sót các thông tin quan trọng từ các phần tử “tương lai” trong chuỗi. Để giải quyết vấn đề này, mô hình BiLSTM được phát triển, cho phép xử lý chuỗi dữ liệu theo cả hai hướng thông qua hai mô-đun LSTM: một mô-đun tiến (forward) và một mô-đun lùi (backward). Sự kết hợp này tạo ra một biểu diễn ngữ cảnh toàn diện, nâng cao hiệu quả của mô hình trong các tác vụ phân tích và dự đoán. Cấu trúc của mô hình BiLSTM bao gồm hai thành phần cơ bản: mô-đun LSTM tiến (forward LSTM) và mô-đun LSTM lùi (backward LSTM). Mô-đun LSTM tiến thực hiện quá trình xử lý dữ liệu theo thứ tự từ đầu chuỗi đến cuối chuỗi, từ đó ghi nhận các đặc trưng liên quan đến quá khứ. Ngược lại, mô-đun LSTM lùi xử lý dữ liệu theo chiều ngược lại, từ cuối chuỗi về đầu chuỗi, nhằm khai thác các thông tin “tương lai” đối với mỗi bước thời gian. Sau khi thu thập được các đặc trưng riêng biệt từ hai hướng, đầu ra của chúng được kết hợp (thường thông qua phương pháp nối vector hoặc tính trung bình) để tạo ra một biểu diễn ngữ cảnh tổng hợp cho từng bước thời gian. Việc kết hợp này cho phép mô hình hiểu được mối quan hệ giữa các phần tử dữ liệu một cách toàn diện, giúp dự đoán chính xác hơn trong các bài toán phức tạp. Công thức biểu diễn như sau: ⃗⃗⃗𝑡 ; ⃖⃗⃗⃗ ℎ𝑡 = [ℎ ℎ𝑡 ] Trong đó ⃗⃗⃗ ℎ𝑡 là đầu ra của mô-đun tiến và ⃖⃗⃗⃗ ℎ𝑡 đầu ra của mô-đun lùi. Quá trình này cho phép BiLSTM cung cấp một biểu diễn phong phú và toàn diện về chuỗi dữ liệu. 62 Hình 2.12: Cấu trúc của mô hình BiLSTM Nguồn: Viện Công nghệ Massachusetts (MIT) Trong hình trên, có thể quan sát rõ ràng rằng có hai lớp LSTM hoạt động trên luồng tuần tự của dữ liệu đầu vào và các lớp này truyền thông tin theo các hướng ngược nhau. Một câu hỏi thường được đặt ra là: “Làm thế nào chúng ta có thể truy cập thông tin từ ‘tương lai’ khi dữ liệu tương lai thực tế chưa xảy ra?” Để làm rõ, trong ngữ cảnh của BiLSTM, khái niệm “tương lai” không ám chỉ dữ liệu chưa biết, mà là các phần tử phía sau trong chuỗi dữ liệu đã có sẵn tại thời điểm huấn luyện hoặc suy luận. Nói cách khác, khi xử lý một chuỗi hoàn chỉnh, mô hình có thể nhìn cả về phía trước và phía sau một điểm cụ thể, mang lại cái nhìn toàn cảnh về ngữ cảnh. Để minh họa rõ hơn, hãy xem xét một ví dụ trong xử lý ngôn ngữ tự nhiên. Khi phân tích ý nghĩa của một từ trong câu, không chỉ các từ đứng trước mà cả các từ đứng sau đều có thể ảnh hưởng đến ngữ nghĩa của nó. Với LSTM đơn chiều, mô hình chỉ dựa vào thông tin từ quá khứ, dẫn đến khả năng bỏ sót các yếu tố ngữ cảnh quan trọng. Ngược lại, BiLSTM tận dụng cả hai hướng, cho phép hiểu sâu hơn về mối quan hệ giữa các phần tử dữ liệu. Điều này đặc biệt hữu ích trong các tác vụ như phân loại văn bản, dịch máy, hay nhận dạng thực thể có tên (NER), nơi ngữ cảnh toàn cục đóng vai trò then chốt. Ngày nay, BiLSTM đã trở thành một công cụ phổ biến trong nghiên cứu và ứng dụng thực tiễn nhờ những ưu điểm nổi bật của nó. Thứ nhất, mô hình cung cấp các kỹ thuật mạnh mẽ để xử lý dữ liệu chuỗi trong một khung thời gian ngắn 63 hơn, đồng thời giảm bớt độ phức tạp tổng thể của hệ thống học máy. Thứ hai, bằng cách tích hợp thông tin từ cả hai hướng, BiLSTM cho phép các nhà nghiên cứu và kỹ sư xây dựng các giải pháp hiệu quả hơn trong các lĩnh vực như tóm tắt văn bản, phân tích cảm xúc, và thậm chí là xử lý tín hiệu âm thanh (Sourasish Nath, 2023). Chẳng hạn, trong nhận dạng giọng nói, BiLSTM có thể phân tích toàn bộ câu nói để hiểu ngữ cảnh, thay vì chỉ dựa vào các đoạn âm thanh trước đó. Tương tự, trong dự báo chuỗi thời gian—như dự đoán giá cổ phiếu hay thời tiết—mô hình này tận dụng cả dữ liệu lịch sử và các xu hướng tiềm ẩn trong tương lai của chuỗi để đưa ra kết quả đáng tin cậy hơn. Hơn nữa, trong các bài toán dự báo chuỗi thời gian, BiLSTM tỏ ra vượt trội nhờ khả năng học các biểu diễn phong phú hơn từ dữ liệu. Trong khi LSTM truyền thống chỉ xem xét xu hướng quá khứ, BiLSTM có thể phát hiện các mẫu phụ thuộc vào cả quá khứ và các điểm dữ liệu phía sau, từ đó đưa ra dự đoán chính xác hơn. Như vậy, BiLSTM đại diện cho một bước tiến quan trọng trong việc xử lý dữ liệu chuỗi thời gian, mở rộng khả năng của LSTM truyền thống bằng cách khai thác thông tin từ cả hai hướng của chuỗi. Cấu trúc song song của nó không chỉ nâng cao độ chính xác mà còn mở ra nhiều cơ hội ứng dụng trong nghiên cứu và công nghiệp. Với sự kết hợp giữa hiệu suất vượt trội và tính linh hoạt, BiLSTM đã trở thành một công cụ thường xuyên được sử dụng trong lĩnh vực khoa học dữ liệu. Trong nghiên cứu này, nhóm tác giả thực hiện mô phỏng dữ liệu thành định dạng chuỗi thời gian cho một nhóm đối tượng. Cụ thể, dựa vào kết quả phân cụm đã trình bày, nhóm 1200 hộ gia đình có mức chi tiêu thấp nhất dành cho năng lượng sẽ được sử dụng để mô phỏng. Mục tiêu là chuyển đổi các giá trị tổng hàng năm của các biến mục tiêu mà có khả năng có thể thu thập theo thời gian nhất như chi tiêu cho năng lượng, thu nhập, chi tiêu, chi tiền điện thành dữ liệu hàng ngày trong năm, phản ánh sự biến động theo mùa và ngẫu nhiên. Để phản ánh sự biến động theo mùa, nhóm nghiên cứu sử dụng các hệ số hàng tháng được định nghĩa trước cho từng tham số. Các hệ số này được thiết kế dựa trên giả định về xu hướng tiêu dùng thực tế, ví dụ như chi tiêu năng lượng và điện tăng trong các tháng hè, hoặc thu nhập cuối năm sẽ tăng nhẹ do tăng khối lượng công việc, lương thưởng,…Các hệ số này được áp dụng để phân phối giá trị 64 tổng hàng năm thành các giá trị hàng tháng, đảm bảo tính mùa vụ được phản ánh trong dữ liệu. Giá trị tổng hàng năm của mỗi biến được chia thành 12 giá trị hàng tháng dựa trên hệ số mùa vụ tương ứng. Công thức tính giá trị hàng tháng cho tháng m là: month_total𝑚 = ( total_annual × coef𝑚 ) ∑12 𝑖=1 coef𝑖 Trong đó : - Total_annual : Giá trị tổng hàng năm của biến - coef𝑚 : Hệ số mùa vụ cho tháng m - ∑12 𝑖=1 coef𝑖 : Tổng các hệ số mùa trong năm Số ngày trong mỗi tháng cũng được xác định để đảm bảo yếu tố về năm nhuận. Giá trị hàng tháng được phân phối thành các giá trị hàng ngày dựa trên phân phối chuẩn (Normal distribution) . Các bước cụ thể bao gồm: Bước 1: Tính giá trị trung bình hàng ngày : daily_mean = month_total𝑚 days_in_month𝑚 . Bước 2: Sinh giá trị ngẫu nhiên theo phân phối chuẩn với trung bình daily_mean và độ lệch chuẩn std = daily_mean * daily_std_ratio . Tỷ lệ độ lệch chuẩn (daily_std_ratio) được cài đặt khác nhau cho từng biến : - Thu nhâp : 0.05 - Chi tiêu: 0.08 - Chi cho năng lượng : 0.1 - Chi tiền điện : 0.15 Bước 3: Loại bỏ các giá trị âm và điều chỉnh tổng các giá trị hàng ngày để khớp với month_total𝑚 bằng cách nhân với tỷ lệ 𝑚𝑜𝑛𝑡ℎ_𝑡𝑜𝑡𝑎𝑙𝑚 / raw_sum Kết quả của quá trình mô phỏng là một tập dữ liệu chuỗi thời gian hàng ngày hoàn chỉnh, phản ánh đặc điểm tiêu dùng và thu nhập của nhóm chi tiêu thấp nhất cho năng lượng. Tập dữ liệu sẽ là tiền đề cho mô hình dự báo mức chi tiêu dành cho năng lượng của nhóm người chi tiêu thấp. Phương pháp mô phỏng này kết hợp tính ngẫu nhiên (thông qua phân phối chuẩn) và tính mùa vụ (thông qua hệ số hàng tháng), đảm bảo dữ liệu vừa thực tế vừa linh hoạt, phù hợp để thử nghiệm các mô hình Học Máy – Học Sâu. Bên cạnh đó, các dữ liệu về giá xăng, giá dầu, giá ga, giá điện cũng được bổ sung để bổ sung thuộc tính học cho mô hình nhằm tăng tính tổng quát. Hình dưới đây mô tả toàn bộ các biến mà chúng tôi đưa vào mô hình Bi-LSTM theo dữ liệu chuỗi thời gian. 65 Hình 2.13: Minh họa dữ liệu nghiên cứu Nguồn: Nhóm tác giả 66 CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU THEO MÔ HÌNH HỌC KHÔNG GIÁM SÁT 3.1. Kết quả sơ bộ 3.1.1. Đánh giá số lượng cụm tối ưu từ năm 2004-2020 Để xác định số cụm (k) tối ưu khi áp dụng thuật toán K-means cho dữ liệu khảo sát từ năm 2004 đến 2018, nhóm nghiên cứu đã tiến hành đồng thời hai phương pháp phổ biến là Elbow và chỉ số Silhouette Score. Trong khi Elbow tập trung đánh giá sự suy giảm của hàm tổng bình phương sai số (SSE) khi tăng số cụm, thì chỉ số Silhouette Score lại thể hiện rõ hơn chất lượng phân cụm dựa trên mức độ khác biệt giữa các cụm. Sự kết hợp của hai phương pháp này giúp nhóm tác giả tìm được số lượng cụm phù hợp nhất, bảo đảm cả tiêu chí về độ “tập trung” của từng cụm lẫn khả năng phân tách cụm tốt. Kết quả chi tiết cùng phần phân tích sẽ được trình bày trong nội dung dưới đây: Biểu đồ 3.1: Kết quả đánh giá số lượng cụm k bằng phương pháp Elbow Nguồn: Nhóm nghiên cứu Trước tiên, với phương pháp Elbow (Biểu đồ 3.1), nhóm nghiên cứu tiến hành quan sát hàm WCSS (Within-Cluster Sum of Squares) để tìm “điểm gãy” 67 trên đường cong, qua đó xác định k hợp lý. Kết quả cho thấy tại k=3, độ giảm của WCSS từ k=2 xuống k=3 là đáng kể, trong khi từ k=3 lên k=4 không còn giảm nhiều. Điều này cho thấy khi tăng số cụm vượt quá 3, mức cải thiện về độ cô đọng của dữ liệu không đủ lớn để bù đắp cho tính phức tạp gia tăng của mô hình. Mặc dù có thể thử nghiệm k=4 hoặc k=5, nhưng hiệu quả gia tăng không rõ rệt, đồng thời việc “chia nhỏ” cụm hơn nữa lại khiến quá trình phân tích trở nên phức tạp, khó diễn giải. Biểu đồ 3.2: Kết quả chỉ số Silhouette Score Nguồn: Nhóm nghiên cứu Tiếp theo, nhóm nghiên cứu đánh giá chất lượng phân cụm thông qua Silhouette Score – chỉ số đo độ tách biệt giữa các cụm. Kết quả cho thấy Silhouette Score tăng dần từ k=2 đến k=6 và đạt đỉnh ở mức ~0.89 khi k=6, sau đó giảm mạnh ở các giá trị k lớn hơn. Mặc dù k=6 cho chỉ số phân cụm cao nhất, nhóm tác giả vẫn cân nhắc yếu tố thực tiễn và nhận thấy rằng k=3 cũng cho chỉ số Silhouette Score khá tốt (~0.78). Con số này đủ cao để phản ánh các cụm được hình thành rõ ràng, tách biệt, đồng thời giữ cho mô hình đơn giản, dễ triển khai và phân tích. Trong bối cảnh nghiên cứu về hành vi chi tiêu năng lượng của các hộ gia đình, việc chọn k=3 mang lại ưu thế trong việc xác định và diễn giải đặc điểm từng nhóm một cách mạch lạc. Nhờ vậy, nhóm nghiên cứu có thể dễ dàng liên kết các kết quả 68 phân cụm với các chỉ tiêu nhân khẩu học, kinh tế – xã hội, cũng như xây dựng mô hình dự đoán và chính sách hỗ trợ hiệu quả hơn. Trên cơ sở tổng hợp hai phương pháp, k=3 được coi là điểm cân bằng tốt giữa việc đảm bảo khả năng phân loại rõ ràng, hiệu suất phân cụm cao, và tính đơn giản thuận tiện cho việc ứng dụng trong thực tiễn. Tuy nhiên đến năm 2020, mặc dù cả phương pháp Elbow và chỉ số Silhouette Score với k=3 đều cho kết quả rất tốt. Tuy nhiên khi tiến hành đánh giá phân cụm với k = 3, xuất hiện một cụm chỉ chứa 47 hộ gia đình trên tổng số hơn 9300 hộ tham gia khảo sát. Do đó, số lượng mẫu trong cụm là quá ít để đánh giá. Mặt khác, cũng trong năm này, chỉ số Silhouette Score đạt kết quả lớn nhất tại k = 4 (Biểu đồ 3.3), sau đó đột ngột giảm mạnh, vì vậy nhóm nghiên cứu quyết định lựa chọn số cụm k = 4 tại năm 2020. Tuy nhiên, điều này sẽ khiến kết quả các đặc điểm về nhân khẩu học, kinh tế - xã hội bị thay đổi, vì vậy nhóm nghiên cứu sẽ chia nhỏ từng giai đoạn để phân tích để phù hợp hơn với tình hình thực tế của kinh tế Việt Nam qua các thời kì dựa trên kết quả phân tích của từng năm. Biểu đồ 3.3: Kết quả chỉ số Silhouette Score năm 2020 Nguồn: Nhóm nghiên cứu 69 3.2. Kết quả phân cụm các năm giai đoạn 2004-2020 3.2.1 Về số lượng hộ gia đình trong từng cụm Về kết quả số lượng hộ gia đình trong từng cụm được nhóm tác giả tổng hợp trong hình dưới đây (Chi tiết về từng biểu đồ xem thêm tại phụ lục 1): Hình 3.2.1: Tổng hợp số lượng hộ trong từng cụm (2004-2020) Nguồn: Nhóm nghiên cứu Trong giai đoạn từ năm 2004 đến năm 2008, dữ liệu phân cụm hộ gia đình cho thấy cấu trúc ổn định với ba nhóm được hình thành rõ ràng. Trong ba năm liên tiếp 2004, 2006 và 2008, cụm 0 luôn là cụm có số lượng hộ gia đình cao nhất, lần lượt là 5.665, 5.575 và 5.536 hộ. Cụm 1 giữ mức dao động nhẹ từ 2.163 đến 2.246 hộ, trong khi cụm 2 dao động từ 1.277 đến 1.442 hộ. Sự chênh lệch giữa các cụm duy trì nhất quán trong cả ba năm, cho thấy cấu trúc phân cụm không có biến động lớn trong giai đoạn này. Tỷ lệ phân bổ giữa các cụm tương đối ổn định và không ghi nhận thay đổi rõ rệt về trật tự phân bố số lượng hộ giữa các nhóm. Bước sang giai đoạn từ năm 2010 đến năm 2014, dữ liệu vẫn duy trì cấu trúc ba cụm như các năm trước, tuy nhiên số lượng hộ trong cụm 2 bắt đầu ghi nhận xu hướng giảm theo thời gian. Năm 2010, cụm 0 có 6.431 hộ, tiếp tục là cụm lớn nhất, trong khi cụm 1 có 2.644 hộ và cụm 2 có 324 hộ. Đến năm 2012, cụm 0 70 giảm nhẹ còn 6.397 hộ, cụm 1 có 2.693 hộ và cụm 2 giảm còn 302 hộ. Năm 2014, cụm 0 tăng nhẹ trở lại lên 6.428 hộ, cụm 1 duy trì mức 2.624 hộ và cụm 2 tiếp tục giảm còn 214 hộ. Trong cả ba năm, cụm 0 vẫn là cụm chiếm ưu thế về số lượng, trong khi cụm 2 có xu hướng thu hẹp dần về quy mô hộ gia đình, giảm gần 34% chỉ trong vòng bốn năm. Giai đoạn 2016 đến 2018 chứng kiến sự thay đổi rõ rệt về phân bố số lượng hộ giữa các cụm. Năm 2016, cụm 1 trở thành cụm có số lượng hộ cao nhất với 4.993 hộ, vượt qua cụm 0 vốn chỉ còn 2.563 hộ. Cụm 2 có 1.633 hộ, duy trì ở mức trung bình so với hai cụm còn lại. Sang năm 2018, số hộ trong cụm 1 tiếp tục tăng mạnh lên 6.312 hộ, trong khi cụm 0 tăng nhẹ lên 2.747 hộ và cụm 2 giảm xuống chỉ còn 104 hộ. Như vậy, so với năm 2014, cụm 1 tăng thêm gần 3.700 hộ, còn cụm 2 giảm gần như tuyệt đối. Đây là giai đoạn có sự đảo chiều rõ ràng về trật tự số lượng hộ giữa các cụm, với cụm 1 thay thế cụm 0 trong vai trò cụm chiếm đa số. Năm 2020 đánh dấu sự thay đổi về số lượng cụm khi dữ liệu được chia thành bốn cụm thay vì ba cụm như các năm trước. Trong năm này, cụm 1 có số hộ nhiều nhất với 4.981 hộ, tiếp theo là cụm 2 với 2.853 hộ, cụm 0 với 1.325 hộ và một cụm mới – cụm 3 – với 227 hộ. Đây là lần đầu tiên trong chuỗi dữ liệu từ 2004 đến 2020 xuất hiện cụm thứ tư trong phân tích, đồng thời cụm 1 tiếp tục giữ vị trí là cụm có quy mô hộ gia đình lớn nhất. Việc phân chia thành bốn cụm thể hiện sự khác biệt so với toàn bộ giai đoạn trước đó, đồng thời kéo theo sự phân bố lại về số lượng hộ giữa các nhóm. Như vậy, nếu không xét năm 2020, thì cụm 2 có xu hướng giảm dần theo thời gian. Còn đối với cụm 0, ban đầu là cụm có số lượng lớn nhất, và có xu hướng tăng đến năm 2014. Nhưng trong gian đoạn 2016-2018, số lượng giữa cụm 0 và cụm 1 có sự đổi chỗ cho nhau, sau đó, số lượng cụm 0 tiếp tục giảm trong khi số lượng cụm 1 tiếp tục tăng mạnh. 3.2.2 Về thu nhập và chi tiêu của các hộ gia đình trong từng cụm 71 Hình 3.2.2: Tổng hợp mức thu nhập và chi tiêu của các hộ trong từng cụm (2004-2020) Nguồn: Tổng hợp kết quả từ nhóm nghiêm cứu *Chú thích Trong giai đoạn 2004–2008, dữ liệu về thu nhập và chi tiêu của hộ gia đình theo từng cụm thể hiện sự gia tăng đều qua các năm. Cụ thể, năm 2004, thu nhập bình quân ở cụm cao nhất (cụm 1) là khoảng 10,142 triệu đồng/hộ.năm, trong khi thu nhập trung bình thấp nhất ở cụm 2 chỉ khoảng 3,265 triệu đồng/hộ/năm. Tổng chi tiêu cũng phản ánh tương tự với cụm 1 luôn có mức chi tiêu cao nhất và cụm 2 có mức thấp nhất. Đến năm 2006 và 2008, các cụm đều có xu hướng tăng cả về thu nhập và chi tiêu trung bình, đặc biệt cụm 1 năm 2008 đạt mức thu nhập bình quân trên 20,334 triệu đồng/hộ/năm và chi tiêu bình quân khoảng 15,183 triệu đồng/hộ/năm, cao hơn đáng kể so với năm 2004. Trong giai đoạn này, sự chênh lệch rõ rệt giữa các cụm vẫn duy trì, với cụm 1 luôn có thu nhập và chi tiêu cao nhất, cụm 0 giữ vị trí trung bình, còn cụm 2 là cụm có điều kiện kinh tế thấp nhất. 72 Từ năm 2010 đến năm 2014, xu hướng tăng nhanh của thu nhập và chi tiêu giữa các cụm trở nên rõ ràng hơn. Năm 2010, cụm 1 có thu nhập bình quân cao nhất (28,768 triệu đồng/hộ/năm) và chi tiêu bình quân cao nhất (22,400 triệu đồng/hộ/năm). Đến năm 2012, mức thu nhập và chi tiêu tiếp tục tăng mạnh, cụ thể thu nhập bình quân cụm 1 đạt 36,678 triệu đồng/hộ/năm và chi tiêu trung bình lên đến 27,161 triệu đồng/hộ/năm. Năm 2014 chứng kiến sự tăng trưởng đột biến khi thu nhập bình quân cụm 1 vượt lên mức gần 97,671 triệu đồng/hộ/năm, đồng thời chi tiêu bình quân cũng tăng mạnh lên khoảng 22,006 triệu đồng/hộ/năm. Cụm 0 và cụm 2 cũng ghi nhận tăng trưởng về thu nhập và chi tiêu nhưng với mức độ thấp hơn, đặc biệt cụm 2 vẫn là cụm thấp nhất. Điều này dẫn đến sự chênh lệch giữa các cụm được nới rộng rất rõ rệt trong giai đoạn này. Giai đoạn từ năm 2016 đến năm 2018 tiếp tục ghi nhận sự gia tăng mạnh mẽ trong thu nhập và chi tiêu, nhưng cũng có sự thay đổi trong cấu trúc phân bố giữa các cụm. Năm 2016, cụm 0 có thu nhập bình quân cao nhất (50,218 triệu đồng/hộ/năm), tiếp theo là cụm 1 với khoảng 32.658 triệu đồng/hộ/năm, còn cụm 2 ở mức thấp nhất với khoảng 19,549 triệu đồng/hộ/năm. Đến năm 2018, mức thu nhập và chi tiêu tăng mạnh chưa từng thấy, đặc biệt cụm 0 đạt thu nhập bình quân lên đến 139,373 triệu đồng/hộ/năm và chi tiêu khoảng 12,908 triệu đồng/hộ/năm. Cụm 1 cũng tăng lên đáng kể, với thu nhập bình quân là 74,857 triệu đồng/hộ/năm và chi tiêu khoảng 8,318 triệu đồng/hộ/năm. Cụm 2 vẫn duy trì mức thu nhập và chi tiêu thấp nhất. Xu hướng này thể hiện rõ sự gia tăng nhanh chóng về điều kiện kinh tế nhưng đồng thời cũng cho thấy khoảng cách thu nhập và chi tiêu giữa các cụm ngày càng được nới rộng, cụ thể giữa cụm cao nhất và thấp nhất đã chênh lệch rất lớn. Năm 2020 là năm đặc biệt khi dữ liệu được phân chia thành bốn cụm thay vì ba cụm như các năm trước. Sự phân cụm mới này đi kèm với sự chênh lệch lớn về thu nhập và chi tiêu giữa các cụm. Cụ thể, cụm 2 đạt thu nhập bình quân cao nhất (107,869 triệu đồng/hộ/năm) và chi tiêu bình quân là 12,379 triệu đồng/hộ/năm. Cụm 3 là cụm mới xuất hiện với thu nhập bình quân ở mức khá cao (66,029 triệu đồng/hộ/năm) và chi tiêu bình quân khoảng 9,472 triệu đồng/hộ/năm. Hai cụm còn lại (cụm 0 và cụm 1) có mức thu nhập và chi tiêu thấp hơn. Sự xuất 73 hiện cụm thứ tư và sự thay đổi đáng kể về giá trị thu nhập, chi tiêu cho thấy năm 2020 là năm ghi nhận sự biến động lớn về cấu trúc dữ liệu. Xét tổng thể toàn bộ giai đoạn 2004–2020, dữ liệu về thu nhập và chi tiêu trung bình của các hộ gia đình có xu hướng tăng mạnh liên tục. Sự gia tăng này diễn ra mạnh nhất từ giai đoạn sau năm 2010, đặc biệt là các năm từ 2014 trở đi với mức tăng đột biến ở các cụm cao. Khoảng cách giữa các cụm về thu nhập và chi tiêu ngày càng được mở rộng qua các năm, đặc biệt rõ nét trong giai đoạn 2014–2018. Năm 2020 đánh dấu một sự thay đổi cấu trúc dữ liệu đáng kể với sự xuất hiện của cụm thứ tư, đồng thời phản ánh một sự thay đổi mạnh trong phân bố thu nhập và chi tiêu giữa các cụm. Xu hướng chung cho thấy rõ thu nhập tăng nhanh hơn chi tiêu, và sự chênh lệch giữa các cụm ngày càng lớn, đặc biệt là cụm có thu nhập và chi tiêu cao nhất so với cụm thấp nhất. 3.2.3 Về mức chi tiêu năng lượng của các hộ gia đình trong từng cụm Hình 3.2.3: Tổng hợp mức chi tiêu cho năng lượng của các hộ trong từng cụm (2004-2020) Nguồn: Tổng hợp kết quả từ nhóm nghiêm cứu *Chú thích 74 Chi tiêu năng lượng qua các giai đoạn Trong giai đoạn 2004 đến 2008, mức chi tiêu năng lượng chung của các hộ gia đình theo từng cụm có xu hướng tăng rõ rệt. Năm 2004, cụm 1 có mức chi tiêu năng lượng bình quân cao nhất là khoảng 824 nghìn đồng/hộ/năm, cụm 2 thấp nhất với 273 nghìn đồng/hộ/năm. Năm 2006 và 2008, xu hướng này tiếp tục duy trì khi chi tiêu năng lượng bình quân cụm 1 tăng lên đáng kể, lần lượt là 1,224 triệu đồng/hộ/năm và 1,749 triệu đồng/hộ/năm. Các cụm khác cũng ghi nhận sự gia tăng nhẹ, nhưng cụm 2 vẫn duy trì ở mức thấp nhất. Từ 2010 đến 2014, chi tiêu năng lượng bình quân của hộ gia đình tăng mạnh mẽ hơn ở tất cả các cụm. Năm 2010, cụm 1 có chi tiêu năng lượng bình quân là 3,919 triệu đồng/hộ/năm, cụm 0 là 2,238 triệu đồng/hộ/năm, trong khi cụm 2 duy trì mức thấp nhất là 1,772 triệu đồng/hộ/năm. Đến năm 2014, mức chi tiêu năng lượng bình quân ở cụm 1 đạt cao nhất với 2,234 triệu đồng/hộ/năm, cụm 0 khoảng 1,323 triệu đồng/hộ/năm và cụm 2 ở mức khoảng 734 nghìn đồng/hộ/năm. Sự phân bố này vẫn cho thấy cụm 1 có chi tiêu năng lượng cao nhất qua các năm. Giai đoạn 2016 đến 2018 tiếp tục thể hiện sự gia tăng trong chi tiêu năng lượng, đặc biệt năm 2018 cụm 0 đạt mức cao nhất với khoảng 1,963 triệu đồng/hộ/năm, cụm 1 đạt 1,141 triệu đồng/hộ/năm, trong khi cụm 2 thấp nhất với khoảng 251 nghìn đồng/hộ/năm. Điều này cho thấy mức chi tiêu năng lượng đã tăng đáng kể theo thời gian, đặc biệt ở cụm 0 và cụm 1, trong khi cụm 2 vẫn giữ mức chi tiêu thấp nhất. Riêng năm 2020, dữ liệu chia thành bốn cụm thay vì ba cụm như trước, ghi nhận mức chi tiêu năng lượng bình quân của cụm 2 là cao nhất với khoảng 3,590 triệu đồng/hộ/năm, cụm 3 (cụm mới xuất hiện) đạt khoảng 2,479 triệu đồng/hộ/năm, trong khi cụm 0 và cụm 1 thấp hơn đáng kể. Sự thay đổi cấu trúc cụm này thể hiện rõ nét trong mức chi tiêu năng lượng bình quân. Chi tiêu tiền điện qua các giai đoạn 75 Giai đoạn 2004–2008, chi tiêu điện của các cụm cũng tăng nhẹ nhưng với tốc độ chậm hơn chi tiêu năng lượng chung. Năm 2004, chi tiêu điện bình quân cụm 1 là 255 nghìn đồng/hộ/năm, cụm 0 là 96 nghìn đồng/hộ/năm, trong khi cụm 2 thấp nhất chỉ 34 nghìn đồng/hộ/năm. Năm 2008, chi tiêu điện bình quân cụm 1 tăng lên 425 nghìn đồng/hộ/năm, cụm 0 là 175 nghìn đồng/hộ/năm và cụm 2 vẫn thấp nhất với khoảng 87 nghìn đồng/hộ/năm. Từ 2010–2014, mức chi tiêu điện có xu hướng tăng rõ rệt, cụ thể năm 2012 cụm 1 có chi tiêu điện bình quân cao nhất khoảng 862 nghìn đồng/hộ/năm, cụm 0 là 440 nghìn đồng/hộ/năm và cụm 2 thấp nhất với 167 nghìn đồng/hộ/năm. Đến năm 2014, cụm 1 vẫn giữ chi tiêu điện cao nhất với khoảng 1,041 triệu đồng/hộ/năm, cụm 0 khoảng 528 nghìn đồng/hộ/năm, cụm 2 vẫn là thấp nhất ở mức khoảng 47 nghìn đồng/hộ/năm. Giai đoạn từ 2016 đến 2018, cụm 0 trở thành nhóm có chi tiêu điện bình quân cao nhất. Năm 2016, cụm 0 đạt 1,360 triệu đồng/hộ/năm, vượt qua cụm 1 là nghìn đồng/hộ/năm và cụm 2 chỉ 385 nghìn đồng/hộ/năm. Đến năm 2018, cụm 0 tiếp tục chi tiêu điện cao nhất (1,531 triệu đồng/hộ/năm), cụm 1 có 874 nghìn đồng/hộ/năm và cụm 2 giảm xuống mức thấp nhất là 94 nghìn đồng/hộ/năm. Năm 2020, với việc xuất hiện cụm thứ tư, chi tiêu điện bình quân của cụm 2 tăng lên mức rất cao (1,870 triệu đồng/hộ/năm), cụm 3 cũng có mức khá cao (1,183 triệu đồng/hộ/năm), cụm 1 đạt khoảng 1.243 triệu đồng/hộ/năm và cụm 0 thấp nhất khoảng 562 nghìn đồng/hộ/năm. Sự phân bố này cho thấy sự biến đổi đáng kể so với các năm trước. Xu hướng chung về chi tiêu năng lượng và chi tiêu điện năng từ 2004–2020 Nhìn chung, trong giai đoạn 2004–2020, cả chi tiêu năng lượng và chi tiêu điện năng của các hộ gia đình đều có xu hướng tăng liên tục qua các năm. Đáng chú ý là mức tăng về chi tiêu năng lượng chung thường cao hơn đáng kể so với mức tăng về chi tiêu điện năng. Các cụm có sự biến đổi về vị trí theo từng giai đoạn; cụ thể, giai đoạn đầu cụm 1 thường có chi tiêu cao nhất, nhưng từ 2016 cụm 0 lại nổi bật với chi tiêu điện năng cao nhất. Năm 2020 đặc biệt có sự thay đổi lớn với việc xuất hiện cụm thứ tư và sự phân bố chi tiêu năng lượng, chi tiêu điện năng khác biệt rõ nét so với tất cả các năm trước đó. Xu hướng chung cho thấy chi tiêu 76 năng lượng và điện năng ngày càng tăng, nhưng đồng thời cũng thể hiện rõ sự phân hóa mạnh về mức độ chi tiêu giữa các nhóm hộ gia đình trong từng giai đoạn. Hình 3.2.4: Tỷ lệ tiếp cận tới lưới điện quốc gia của các hộ trong từng cụm (2004-2020) Nguồn: Tổng hợp kết quả từ nhóm nghiêm cứu Giai đoạn từ năm 2004 đến năm 2008, tỷ lệ tiếp cận điện lưới của các hộ gia đình nhìn chung có xu hướng tăng dần. Cụ thể, năm 2004, cụm 1 đạt tỷ lệ gần như tuyệt đối ở mức 99,15%, cụm 0 cũng ghi nhận tỷ lệ khá cao 94,25%, riêng cụm 2 thấp nhất với 71,03%. Sang năm 2006, các cụm đều tăng đáng kể, cụm 0 đạt tỷ lệ 96,44%, cụm 1 tiếp tục duy trì mức cao với 96,39%, trong khi cụm 2 cải thiện rõ rệt, đạt mức 85,78%. Đến năm 2008, xu hướng này tiếp tục được củng cố khi cụm 0 đạt tới 98,22%, cụm 1 đạt tỷ lệ gần tuyệt đối với 99,55%, và cụm 2 cũng tăng lên mức 85,45%. Trong giai đoạn từ năm 2010 đến năm 2014, tỷ lệ hộ tiếp cận điện lưới có sự biến đổi rõ rệt giữa các cụm. Từ năm 2010 trở đi, cụm 0 và cụm 1 đạt tỷ lệ tiếp cận điện lưới gần như tuyệt đối (100%), trong khi cụm 2 ghi nhận tỷ lệ là 0%, cho thấy sự phân hóa rất rõ ràng giữa các cụm hộ gia đình trong giai đoạn này. Xu 77 hướng này tiếp tục kéo dài đến năm 2014 khi tỷ lệ cụm 0 và cụm 1 đều ổn định ở mức 100% và gần 100%, còn cụm 2 vẫn không có sự thay đổi nào, tiếp tục duy trì ở mức 0%. Trong giai đoạn tiếp theo, từ năm 2016 đến năm 2018, tỷ lệ hộ gia đình tiếp cận điện lưới của cụm 0 và cụm 1 vẫn duy trì ổn định ở mức gần như tuyệt đối (trên 99%). Tuy nhiên, cụm 2 trong giai đoạn này lại có sự biến đổi lớn. Năm 2016, tỷ lệ tiếp cận điện lưới của cụm 2 đã tăng mạnh, đạt mức khá cao 92,59%, nhưng đến năm 2018, cụm này quay trở lại mức thấp nhất với tỷ lệ 0%, tương tự như giai đoạn 2010–2014 trước đó. Riêng năm 2020, do bộ dữ liệu bị phân tách thành 4 cụm, kết quả phân tích cho thấy cả bốn cụm đều có tỷ lệ tiếp cận điện lưới rất cao, cụ thể cụm 0 là 96,37%, cụm 1 đạt 99,74%, cụm 2 gần tuyệt đối với 99,89%, và cụm 3 đạt tuyệt đối 100%. Như vậy, năm 2020 thể hiện sự đồng đều hơn đáng kể về tỷ lệ tiếp cận điện lưới giữa các nhóm hộ gia đình, khác biệt rõ ràng so với những giai đoạn trước đó. Nhìn chung, tỷ lệ hộ tiếp cận điện lưới có xu hướng tăng đều và đạt gần như tuyệt đối ở các cụm 0 và 1 trong hầu hết các năm. Tuy nhiên, cụm 2 lại thể hiện rõ sự biến động lớn, đặc biệt là từ năm 2010 trở đi, với những giai đoạn tiếp cận rất thấp xen lẫn những thời điểm tiếp cận cao. Năm 2020 cho thấy xu hướng rõ ràng hơn khi tỷ lệ tiếp cận điện lưới được cải thiện đáng kể trên tất cả các cụm, phản ánh một sự đồng đều hơn trong việc tiếp cận điện của các hộ gia đình. 3.2.4. Về tỷ lệ các hộ gia đình sống ở nông thôn và thuộc nhóm dân tộc thiểu số trong từng cụm 78 Hình 3.2.5: Tỷ lệ các hộ dân tộc thiểu số và tỷ lệ hộ sống ở nông thôn trong từng cụm (2004-2020) Nguồn: Tổng hợp kết quả từ nhóm nghiêm cứu *Chú thích : Tỷ lệ hộ dân tộc thiểu số : Tỷ lệ hộ nông thôn Giai đoạn 2004–2008 các cụm thể hiện rõ ràng đặc điểm phân hóa về dân tộc và khu vực sinh sống. Năm 2004, cụm số 2 hoàn toàn là hộ dân tộc thiểu số (100%) và gần như hoàn toàn là hộ nông thôn (99,7%), trong khi cụm 0 không có hộ dân tộc thiểu số nhưng cũng hoàn toàn là hộ nông thôn (100%). Đến năm 2006 và 2008, xu hướng này tiếp tục duy trì ổn định với cụm 2 duy trì tỷ lệ dân tộc thiểu số và hộ nông thôn rất cao, trong khi cụm 0 vẫn là cụm thuần sống ở nông thôn nhưng không có hộ dân tộc thiểu số. Cụm 1 đặc biệt nổi bật là cụm đô thị, không có hộ dân tộc thiểu số và tỷ lệ hộ nông thôn là 0%. Giai đoạn 2010–2014, trong giai đoạn này, sự phân hóa đặc điểm của các cụm rõ ràng và ổn định hơn. Các cụm dân cư tiếp tục thể hiện tính đồng nhất cao về dân tộc và khu vực cư trú, khi cụm 0 vẫn duy trì là cụm thuần sống ở nông thôn 79 (tỷ lệ hộ nông thôn gần 100%), còn cụm 1 vẫn giữ nguyên đặc điểm đô thị (không có hộ dân tộc thiểu số, không có hộ sống ở nông thôn). Đáng lưu ý, trong giai đoạn này, tỷ lệ hộ dân tộc thiểu số giảm dần xuống gần bằng 0 ở tất cả các cụm. Với giai đoạn 2016–2018, giai đoạn này chứng kiến một số biến động nhẹ trong tỷ lệ hộ dân tộc thiểu số và nông thôn. Năm 2016, cụm 2 vẫn duy trì tỷ lệ 100% dân tộc thiểu số, nhưng tỷ lệ hộ nông thôn giảm nhẹ xuống khoảng 88,8%. Cụm 1, trước đây luôn là đô thị, lần đầu tiên có tỷ lệ hộ nông thôn đạt 100%. Tuy nhiên, đến năm 2018, tình trạng phân hóa rõ rệt hơn với cụm 1 trở lại hoàn toàn đô thị (0% hộ nông thôn), trong khi cụm 2 hoàn toàn là nông thôn nhưng không còn hộ dân tộc thiểu số nào được ghi nhận. Riêng năm 2020, do dữ liệu năm 2020 xuất hiện nhiễu dẫn đến số cụm tăng từ 3 lên 4 cụm, sự phân hóa trở nên phức tạp hơn. Tuy nhiên, có thể nhận thấy rõ rệt cụm số 1 và 2 lúc này đều là dân tộc thiểu số 100%, đồng thời đều là các cụm nông thôn. Ngược lại, cụm 0 và 3 hoàn toàn không có hộ dân tộc thiểu số và cũng đều thuộc về khu vực nông thôn với tỷ lệ 100%. Nhìn chung từ 2004–2020, đặc điểm chung nổi bật là các cụm có tỷ lệ hộ dân tộc thiểu số cao luôn đi kèm với tỷ lệ hộ nông thôn rất cao, thường xấp xỉ hoặc bằng 100%. Trong khi đó, các cụm không có hộ dân tộc thiểu số thường thể hiện sự đa dạng về khu vực sống hơn, nhưng xu hướng ổn định nhất là các cụm này có thể thuộc hoàn toàn đô thị hoặc hoàn toàn nông thôn. Xu hướng chung cho thấy mức độ tương đồng mạnh mẽ giữa dân tộc thiểu số và điều kiện cư trú ở nông thôn, ngoại trừ một số biến động nhỏ giai đoạn 2016–2018. Xu hướng này giữ vững khá ổn định trong toàn bộ giai đoạn nghiên cứu từ 2004 đến 2020. 3.2.5. Về số người trong hộ và diện tích chỗ ở của các hộ gia đình trong từng cụm 80 Hình 3.2.6: Số người trong hộ và diện tích chỗ ở trung bình của các hộ trong từng cụm (2004-2020) Nguồn: Tổng hợp kết quả từ nhóm nghiêm cứu *Chú thích Giai đoạn 2004-2008, số người trong hộ trung bình dao động từ 4-5 người, cụm 2 luôn có số người cao nhất (trên 5 người). Diện tích chỗ ở có sự chênh lệch nhẹ, cụm 1 thường có diện tích lớn nhất, tiếp đến là cụm 2. Mối quan hệ giữa số người và diện tích chỗ ở trong giai đoạn này có xu hướng thuận chiều (số người càng đông thì diện tích ở càng lớn). Từ 2010-2014, số người trung bình trong hộ bắt đầu giảm nhẹ ở tất cả cụm (khoảng 3.8-4.6 người/hộ), diện tích nhà ở tiếp tục tăng đáng kể. Cụm 1 có diện tích nhà ở lớn nhất (trên 80 m²), ngược lại cụm 2 có diện tích thấp nhất. Giai đoạn này bắt đầu xuất hiện rõ xu hướng nghịch chiều, các cụm có ít người lại có diện tích nhà ở lớn hơn. Giai đoạn 2016-2020 tiếp tục thể hiện rõ xu hướng giảm về số người trong hộ (dao động từ 3.6-4.6 người/hộ), trong khi diện tích chỗ ở tiếp tục tăng, đặc biệt 81 cao tại cụm 0 và cụm 1 (trên 80-100 m²). Đến năm 2020 xuất hiện thêm một cụm thứ tư do dữ liệu bị nhiễu, nhưng xu hướng nghịch chiều giữa số người và diện tích chỗ ở vẫn rõ nét, các hộ ít người có diện tích ở cao hơn nhiều so với các hộ đông người hơn. 3.3. Thảo luận kết quả nghiên cứu 3.3.1. Đánh giá xu hướng nghèo năng lượng tại Việt Nam (2004-2018) a) Về kinh tế Theo kết quả nghiên cứu của nhóm tác giả, cụm 2, với đặc điểm chính bao gồm: Thu nhập thấp, chi tiêu thấp, chi tiêu cho năng lượng thấp, khả năng tiếp cận đến lưới điện quốc gia và chi tiêu cho tiền điện thấp, có tỷ lệ hộ dân sống ở nông thôn và thuộc nhóm dân tộc thiểu số cao. Bên cạnh đó còn có diện tích chỗ ở thấp và số thành viên trong gia đình cao. Đây chính là đặc điểm về nhóm nghèo đói năng lượng mà nhóm nghiên cứu muốn hướng đến. Về thu nhập và chi tiêu, mặc dù cả thu nhập và chi tiêu bình quân đầu người của các hộ gia đình trong cụm này đều gần 8 lần, từ 3,265 triệu đồng/hộ/năm vào năm 2004, tăng lên 23,946 triệu đồng/hộ/năm vào năm 2018. Nhưng con số này quá thấp so với mức tăng trung bình chung của các hộ gia đình trên cả nước. Nếu tính trung bình mức thu nhập của một người trên một tháng theo kết quả của bộ dữ liệu VHLSS năm 2018 thì con số này đã là 3,873 triệu đồng/tháng, mặt khác trung bình các hộ gia đình có khoảng 3,7 người, nếu tính thêm 1 người không có thu nhập (bị phụ thuộc) thì trung bình một hộ gia đình Việt Nam vào năm 2018 sẽ có thu nhập khoảng 125,48 triệu đồng/hộ/năm – con số này xấp xỉ trung bình thu nhập của hộ gia đình trong cụm 1 và cụm 0 như đã phân tích. Mặt khác về chi tiêu cho năng lượng, nhóm các hộ gia đình trong cụm 2 bị bỏ xa so với 2 cụm còn lại. Kết quả từ nhóm nghiên cứu cho thấy, năm 2004 trung bình một hộ gia đình ở cụm 2 chi khoảng 273 nghìn đồng/hộ/năm, có thời điểm cao nhất (năm 2010) chi tới 1,772 triệu đồng/hộ/năm. Nhưng tới năm 2018, chỉ giảm còn 251 nghìn đồng/hộ/năm. Trong khi đó, chi tiêu tiền điện của cụm này tăng từ 34 nghìn đồng/hộ/năm, lên khoảng 97 nghìn đồng/hộ/năm. Mức tăng này chỉ tăng khoảng 2,9 lần, so sánh với các cụm giàu hơn, thì mức tăng trung bình của cụm 0 vào khoảng 15 lần (từ 97 nghìn đồng/hộ/năm vào năm 2004 tăng lên 1,531 triệu đồng/hộ/năm vào năm 2018). Điều này khá dễ hiểu, khi nhóm các hộ gia đình thuộc cụm nghèo về năng lượng đa số là những hộ gia đình chưa được tiếp cận đến lưới điện quốc gia, hoặc chưa tiếp cận đầy đủ. 82 Một tín hiệu đáng mừng là mặc dù cả thu nhập, chi tiêu, chi cho năng lượng của cụm 2 đều thấp và tăng trưởng rất chậm qua năm nhưng số lượng hộ trong cụm này đều có xu hướng giảm mạnh qua các năm (Từ khoảng 1.277 hộ/9300 hộ năm 2004 giảm xuống chỉ còn 107 hộ/9300 năm 2018). Đây là một con số đáng kể, phản ánh sự thành công trong nỗ lực xóa đói giảm nghèo ở nước ta. Mặt khác, một trong những thành tựu nổi bật khác cần phải kể đến là sự cải thiện đáng kể về khả năng tiếp cận điện lưới. Nếu như khả năng tiếp cận điện lưới của các cụm vào năm 2004 thì có xu hướng tương đối thấp ở cụm 0 và cụm 2 (khoảng 94% ở cụm 0; 98,9% ở cụm 1 và 67% ở cụm 2) nhưng đến năm 2018, tỷ lệ tiếp cận điện lưới ở các cụm 0 và 1 đã đạt tới con số gần như tuyệt đối (99,89%), trong khi đó mặc dù tỷ lệ tiếp cận điện lưới của các hộ gia đình ở cụm 2 là 0%, nhưng do cụm 2 chỉ chiếm tỷ trọng rất nhỏ như đã trình bày ở trên, nên xét về tổng thể, tỷ lệ bao phủ lưới điện ở nước ta là rất lớn. So sánh với nghiên cứu khác, vào năm 1990, chỉ khoảng 14% dân số có điện, nhưng đến năm 2010, con số này đã tăng vọt lên 97% nhờ các khoản đầu tư của chính phủ và sự hỗ trợ quốc tế. Đến năm 2018, chỉ còn khoảng 1 triệu người, chủ yếu ở các khu vực miền núi phía Bắc, chưa có điện (Feeny và cộng sự, 2021). Có thể nói, nhờ chương trình Điện khí hóa nông thôn mà nước ta đã đạt được thành tựu mang điện đến mọi vùng miền của tổ quốc, giúp mọi người dân có thể tiếp cận nguồn điện lưới quốc gia. Tuy nhiên, như đã trình bày ở trên, các hộ nghèo đói về năng lượng thường không thể tiếp cận với năng lượng, vì vậy vấn đề cấp thiết phải đặt ra đó là làm sao để toàn bộ người dân có thể tiếp cận tới nguồn lưới điện. Mặc dù có tiến bộ về điện, truy cập vào nhiên liệu sạch cho nấu nướng vẫn là một vấn đề lớn. Theo nghiên cứu từ Nguyen và cộng sự (2019), từ 2004 đến 2016, tỷ lệ sử dụng than và sinh khối giảm 36%, trong khi tỷ lệ sử dụng khí gas, dầu và điện tăng lần lượt 47%, 8% và 7%. Tuy nhiên, vào năm 2016, chỉ dưới hai phần ba hộ gia đình sử dụng nhiên liệu sạch và công nghệ tiên tiến, nghĩa là hơn một phần ba vẫn phụ thuộc vào các nguồn năng lượng truyền thống như than và sinh khối (WHO, 2020). Dữ liệu từ IEA về tiêu thụ năng lượng cuối cùng cho thấy sự giảm mạnh trong việc sử dụng nhiên liệu sinh khối và chất thải, từ 13.954 KTOE năm 2005 xuống 8.083 KTOE năm 2018, trong khi tiêu thụ điện tăng từ 4.051 KTOE lên 16.284 KTOE (Energy in Vietnam – IEA, 2023). Điều này phản ánh sự chuyển dịch từ năng lượng truyền thống sang hiện đại, nhưng tốc độ này chậm hơn so với điện, đặc biệt ở các hộ gia đình nghèo và dân tộc thiểu số. b) Về xã hội 83 Bên cạnh các đặc điểm về kinh tế, nhóm các hộ gia đình nghèo đói về năng lượng ở Việt Nam còn mang đặc điểm về xã hội rõ rệt. Thứ nhất, nhóm này thường là các hộ gia đình sinh sống ở vùng nông thôn và đa số đều thuộc nhóm dân tộc thiểu số. Tuy nhiên vào năm 2020, xuất hiện nhóm đối tượng mới, nhóm này không thuộc dân tộc thiểu số, sống ở thành thị nhưng lại có thu nhập và mức chi tiêu năng lượng đều thấp. Theo kết quả nghiên cứu, trong năm 2004, tỷ lệ số hộ gia đình trong cụm 2 (cụm nghèo nhất) sống ở nông thôn và thuộc nhóm dân tộc thiểu số là 100%, con số này vẫn duy trì đến năm 2018, nhưng có sự suy giảm về số lượng. Tuy nhiên đến năm 2020, do nhóm đổi lại số lượng cụm, nên xuất hiện thêm một nhóm đối tượng mới (cụm 3 và cụm 0). Hai cụm này có các đặc điểm về kinh tế tương đối giống nhau, ngoại trừ việc tỷ lệ tiếp cận lưới điện của cụm 3 gần như tuyệt đối, trong khi cụm 1 chỉ khoảng 97%. Khi xét về các đặc điểm về xã hội, cụm 0 có tỷ lệ các hộ gia đình sống ở nông thôn và thuộc nhóm dân tộc thiểu số gần như tuyệt đối, trong khi cụm 3 có đa số các hộ sống ở thành thị và không thuộc nhóm dân tộc thiểu số. Mặt khác, số lượng hộ gia đình trong các cụm này tương đối đông và có sự phân bổ không đồng đều về mức chi tiêu cho năng lượng (Hình 3.3.1). Hình 3.3.1: Phân bổ chi tiêu năng lượng theo các cụm Nguồn: Nhóm nghiên cứu Mặc dù nhìn chung giá trị trung bình về mức chi năng lượng của cụm 3 lớn hơn cụm 0. Nhưng nếu so sánh với hai cụm còn lại thì mức chi tiêu năng lượng ở 84 cụm 3 thấp hơn khoảng 20%. Kết quả này càng củng cố cho giả thuyết của Nguyen và cộng sự (2019) cho rằng quá trình đô thị hóa ở Việt Nam không chỉ gây ra sự bất bình đẳng về năng lượng tại thành thị và nông thôn, mà còn gây ra sự bất bình đẳng về năng lượng tại các thành thị nói chung. 3.3.2. Ảnh hưởng của dịch bệnh Covid-19 đến nghiên cứu về nghèo đói năng lượng tại Việt Nam năm 2020 Năm 2020, Khảo sát mức sống dân cư VHLSS được thực hiện trong bối cảnh đại dịch COVID-19, với ca bệnh đầu tiên được ghi nhận vào tháng 1/2020 và các biện pháp phong tỏa, hạn chế di chuyển được áp dụng, ảnh hưởng sâu rộng đến nền kinh tế. Theo báo cáo từ Quỹ Tiền tệ Quốc tế, dù Việt Nam vẫn duy trì tăng trưởng GDP ở mức 2,9% trong năm 2020, đây là mức tăng trưởng thấp nhất trong thập kỷ, phản ánh tác động nghiêm trọng của đại dịch (IMF, 2021). Nghiên cứu từ PEP cho thấy các ngành như thương mại, du lịch và dịch vụ bị ảnh hưởng nặng nề, dẫn đến nhiều hộ gia đình mất nguồn thu nhập quan trọng, bao gồm cả kiều hối (PEP, 2022). Một nghiên cứu khác của Nguyen và cộng sự (2021) sử dụng dữ liệu VHLSS năm 2020 ước tính thêm 1,7 triệu người rơi vào tình trạng nghèo do đại dịch, nhấn mạnh mức độ nghiêm trọng của khủng hoảng kinh tế. Do đó, bộ dữ liệu Khảo sát mức sống dân cư VHLSS năm 2020 được nhiều nhà kinh tế tại Việt Nam nhận định là có sự biến động mạnh, gây khó khăn cho các nhà kinh tế khi phân tích vì những lý do sau đây: Thứ nhất, Covid-19 gây ảnh hưởng nghiêm trọng đến thu nhập hộ gia đình. Nghiên cứu của Tran Xuan Bach và cộng sự (2021) cho thấy 66,9% hộ gia đình tham gia khảo sát báo cáo mất thu nhập do đại dịch, với các biện pháp phong tỏa và hạn chế di chuyển làm gián đoạn hoạt động kinh tế. Điều này dẫn đến sự thay đổi đáng kể trong các chỉ số thu nhập và chi tiêu, tạo ra sự biến động trong dữ liệu. Thứ hai, Covid-19 còn gây ảnh hưởng tới tiêu dùng năng lượng tại Việt Nam. Báo cáo từ Asian Power chỉ ra rằng tiêu thụ điện ở Việt Nam có thể bị ảnh hưởng, với dự báo giảm 6,2% do gián đoạn chuỗi cung ứng và hoạt động sản xuất trong nửa đầu năm 2020. Tuy nhiên, tiêu thụ điện gia đình có thể tăng do nhiều người ở nhà hơn, tạo ra sự không đồng nhất trong dữ liệu năng lượng. Thứ ba, các hộ gia đình nghèo, đặc biệt là ở nông thôn và các nhóm dân tộc thiểu số, chịu tác động nặng nề hơn bởi đại dịch. Nghiên cứu của Hang và Ha (2024) cho thấy họ phụ thuộc nhiều vào năng lượng truyền thống như than và sinh 85 khối. Khi Covid-19 xảy ra, chi tiêu cho y tế tăng mạnh, khiến cho chi tiêu cho năng lượng giảm, làm gia tăng nghèo đói năng lượng. Như vậy, bộ dữ liệu VHLSS năm 2020 bị biến động mạnh do tác động kinh tế của đại dịch COVID-19, bao gồm suy giảm thu nhập, thay đổi tiêu thụ năng lượng và tăng nghèo đói. Những yếu tố này đã ảnh hưởng đến nghiên cứu về nghèo đói năng lượng, có thể dẫn đến kết quả cho thấy mức độ nghèo đói năng lượng cao hơn, đặc biệt đối với các nhóm dễ bị tổn thương. Do đó, trong nghiên cứu của chúng tôi, mặc dù có đề cập đến, nhưng do các yếu tố bên ngoài tác động vào quá lớn, khiến cho việc học hỏi dữ liệu của máy tính bằng phương pháp học không giám sát trở nên hạn chế hơn khi dữ liệu có nhiều biến động. 86 CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU THEO MÔ HÌNH HỌC GIÁM SÁT VÀ HỌC SÂU 4.1. Kết quả nghiên cứu sơ bộ 4.1.1. Mô tả các biến sử dụng Bảng 4.1 mô tả toàn bộ các biến sử dụng trong cả 2 mô hình học giám sát (Decision Tree, Random Forest, XGBoost) và mô hình học sâu (Bi-LSTM). Theo đó với mô hình học giám sát, nghiên cứu sẽ đánh giá và phân loại xem một hộ gia đình nghèo đói về năng lượng (EP) sẽ có những đặc điểm về nhân khẩu học và kinh tế xã hội nào theo các Features. Cần lưu ý rằng, Chi tiêu năng lượng của hộ gia đình là biến mục tiêu của mô hình học sâu Bi-LSTM của nhóm nghiên cứu, nhưng đối với mô hình học giám sát, biến này cũng có thể đóng vai trò là features để đánh giá. 87 Biến Nguồn A. Biến mục tiêu (biến phụ thuộc) Biến nhị phân: ‘1’ nếu như nghèo đói về năng lượng ‘0’ nếu như không nghèo đói về năng lượng Nghèo đói về năng lượng (Energy poverty – EP) Chi tiêu cho năng lượng của hộ gia đình B. Features (biến độc lập) B1) Cấp độ hộ gia đình Bảng 4.1. Mô tả các biến Mã hóa Sử dụng trong mô hình Decision Tree, Random Forest, XGBoost Bi-LSTM (với vai trò là biến mục tiêu) Decision Tree, Random Forest, XGBoost (với vai trò là features) VHLSS Biến liên tục, nghìn VND/hộ/năm Năm VHLSS Năm khảo sát Thành thị nông thôn VHLSS Dân tộc VHLSS Biến nhị phân: 1 = Thành Thị, 0 = Nông thôn Biến nhị phân: 1 = Người dân tộc Kinh hoặc Hoa, 0 = Người thuộc nhóm dân tộc thiểu số còn lại Số người trong gia đình VHLSS Biến rời rạc: số người trong hộ gia đình Tổng thu nhập hộ gia đình VHLSS Biến liên tục, nghìn VND/hộ/năm Tổng chi tiêu hộ gia đình VHLSS Biến liên tục, nghìn VND/hộ/năm 1 Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost, BiLSTM Decision Tree, Random Forest, XGBoost, BiLSTM Chi tiêu cho năng lượng bình quân đầu người Chi tiền điện của hộ gia đình Chi tiền điện bình quân đầu người VHLSS Biến liên tục, nghìn VND/người/năm VHLSS Biến liên tục, nghìn VND/hộ/năm VHLSS Biến liên tục, nghìn VND/người/năm Diện tích chô ở (m²) VHLSS Tiếp cận điện lưới VHLSS Biến liên tục, đơn vị đo là mét vuông Biến nhị phân: '1' nếu được tiếp cận với lưới điện quốc gia, '0' nếu không được tiếp cận với lưới điện quốc gia Biến nhị phân: 0' nếu Không có nhà ở, hoặc ở nhà tạm khác, hoặc nhà bán kiên cố, '1' nếu ở Nhà ở kiên cố hoặc chất lượng cao hơn Chất lượng nhà ở Thu nhập bình quân của trụ cột chính trong gia đình Số tiền được trợ cấp hàng năm của hộ gia đình B2) Dữ liệu ở cấp độ vĩ mô Giá Gas Bu-tan nhập khẩu VHLSS Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest, XGBoost Decision Tree, Random Forest Decision Tree, Random Forest Decision Tree, Random Forest Decision Tree, Random Forest, XGBoost, BiLSTM Decision Tree, Random Forest, XGBoost VHLSS Biến liên tục, nghìn VND/người/năm VHLSS Biến liên tục, nghìn VND/hộ/năm Petrolimex Biến liên tục, USD/Gallon Bi-LSTM Giá Gas Propane nhập khẩu Petrolimex Biến liên tục, USD/Gallon Giá Xăng trung bình trong Petrolimex Biến liên tục, USD/Gallon nước Giá điện trung bình trong nước EVN Biến liên tục, UScent/kWh Tổng số quan sát (Count hoặc Observations): 1 674 000 Bi-LSTM Bi-LSTM Bi-LSTM Nguồn: Nhóm nghiên cứu 2 3 4.1.2. Ma trận hệ số tương quan Ma trận hệ số tương quan được nhóm trình bày thành một bảng vuông hiển thị mối quan hệ giữa các biến, với các ô được mã hóa màu để thể hiện sức mạnh và hướng của mối tương quan. Màu sắc thay đổi từ tím đậm (tương quan âm gần 1.0) đến vàng sáng (tương quan dương gần 1.0). Hình 4.1: Ma trận tương quan giữa các biến quan trọng ở cấp độ hộ gia đình với các biến vĩ mô về giá Nguồn: Nhóm nghiên cứu Theo đó, các biến chi tiêu cho năng lượng, chi tiêu tiền điện, thu nhập, và chi tiêu của hộ gia đình có tương quan dương mạnh với nhau (màu vàng sáng, khoảng 0.6-0.8). Điều này cho thấy khi thu nhập tăng, chi tiêu và tiêu thụ năng lượng/điện cũng tăng, và ngược lại. Các biến chi tiêu cho năng lượng và thu nhập có tương quan âm với các biến giá cả như Giá xăng, Giá Dầu, Giá Gas Propane, và Giá điện (màu tím đậm đến xanh nhạt, khoảng -0.2 đến -0.4). Ví dụ như Chi tiêu cho năng lượng của hộ gia đình với giá xăng dao động trong khoảng từ (-0.2 đến -0.4), hay thu nhập với Giá 1 điện (-0.2 đến -0.4). Kết quả này cho thấy khi giá năng lượng tăng, chi tiêu cho năng lượng và thu nhập của các hộ gia đình Việt Nam có xu hướng giảm. Ngoài ra, giá cả các mặt hàng năng lượng của Việt Nam cũng tương quan chặt với nhau theo chiều dương, và tương quan với giá điện. Điều này cho thấy các giá cả năng lượng có xu hướng biến động cùng chiều, có thể do sự phụ thuộc lẫn nhau trong thị trường năng lượng. 4.2. Kết quả mô hình học giám sát 4.2.1. Kết quả đánh giá tầm quan trọng của các biến trong mô hình Hình ảnh dưới đây mô tả tầm quan trọng của các features từ mô hình XGBoost liệt kê mức độ ảnh hưởng của các biến đến biến mục tiêu. Các biến được sắp xếp theo thứ tự giảm dần về tầm quan trọng như sau: Hình 4.2: Mô tả đánh giá các biến quan trọng trong mô hình Nguồn: nhóm nghiên cứu Theo đó, biến chi năng lượng bình quân đầu người được máy tính đánh giá là quan trọng nhất khi dự đoán về một hộ gia đình có được xem là nghèo đói về năng lượng hay không (thanh dài nhất, chỉ số importance >0,5). Sau đó đến tổng số người, chất lượng nhà ở, chi tiêu và thu nhập,… Kết quả này sẽ đưa ra một cái nhìn tổng thể về tầm quan trọng của các nhân tố ảnh hưởng đến sự nghèo đói năng lượng của một hộ gia đình tại Việt Nam. Bên cạnh đó, khác với các nghiên cứu tiền nhiệm, cho rằng sự nghèo đói về 2 năng lượng có thể đến từ các yếu tố về dân tộc, thành thị nông thôn hay khả năng tiếp cận về điện lưới. Qua phân tích dữ liệu, máy tính cho rằng mức chi năng lượng bình quân đầu người của hộ gia đình, với tổng số thành viên trong hộ và chất lượng nhà ở mới là yếu tố tiên quyết. Điều này sẽ được nhóm nghiên cứu luận bàn sâu hơn ở các phần tiếp theo. 4.2.2. Kết quả lựa chọn mô hình học giám sát Nhóm nghiên cứu luôn ưu tiên độ chính xác đạt được trong việc phân lớp nghèo đói năng lượng trong bộ dữ liệu năm 2018-2020, bởi mục tiêu của nhóm nghiên cứu là huấn luyện một mô hình để hướng tới mục tiêu bổ sung cho chiến lược xóa đói giảm nghèo bền vững của Việt Nam trên khía cạnh năng lượng dựa trên dữ liệu mới nhất hiện có. Đồng thời, nhóm tác giả sử dụng mô hình này để đưa ra các dự đoán chính xác tương đương khi sử dụng bộ dữ liệu trước năm 20182020. Điều này giúp tăng niềm tin cho các mô hình nghiên cứu ứng dụng học máy vào nghiên cứu các khía cạnh kinh tế xã hội của Việt Nam sau này. Mô hình học máy luôn là một giải pháp thiết thực, luôn hoạt động tốt với các dữ liệu của tương lai – thứ mà máy tính không hề được nhìn thấy mà không cần phải huấn luyện lại từ đầu. Bảng 4.2 tóm tắt hiệu suất của các mô hình Rừng Ngẫu nhiên (Random Forest) với các mô hình khác trong việc tạo ra dự đoán chính xác trên hai bộ dữ liệu. Các phần trăm hiển thị trong Bảng 4.2 được lấy từ ma trận nhầm lẫn tương ứng của từng mô hình. Ngoài độ chính xác, Bảng 2 còn cung cấp chỉ số F1 của mỗi mô hình (Jiao và Du, 2016), được biểu thị dưới dạng phần trăm, như một thước đo bổ sung về hiệu suất tổng thể. Điểm F1 là trung bình điều hòa của độ chính xác (precision) và độ nhạy (recall); trong đó độ nhạy (bằng TPR) là số lượng dương tính thật chia cho tổng của dương tính thật và âm tính sai, còn độ chính xác là số lượng dương tính thật chia cho tổng của dương tính thật và dương tính sai. Hai tham số chính cần cấu hình trong mô hình Rừng Ngẫu nhiên là số lượng bộ ước lượng (cây) trong rừng và độ sâu tối đa của mỗi bộ ước lượng - Estimators (tức là số lượng lớp tối đa). Bảng 4.2 cho thấy việc tăng độ sâu tối đa từ 3 lên 9 thường cải thiện độ chính xác và điểm F1 của các mô hình. Tương tự, khi tăng số Estimators từ 1 lên 50 cũng mang lại hiệu quả tương tự. Tuy nhiên, việc sử dụng ít Estimators hơn và độ sâu thấp hơn lại đem lại lợi ích về độ phức tạp thấp hơn và tốc độ thực thi tính toán nhanh hơn cho các hàm cần thiết. Xét đến sự đánh đổi giữa độ chính xác/điểm F1 và độ phức tạp, một cấu hình Rừng Ngẫu nhiên với 10 bộ ước lượng và 6 lớp đã được chọn một cách thực nghiệm là tối ưu cho phần lớn 3 phân tích trong nghiên cứu này. Mặt khác Bảng 4.2 cũng chỉ ra rằng, việc tăng từ 1 lên 10 Estimators có tác động rõ rệt hơn trong việc cải thiện độ chính xác và điểm F1, trong khi tăng từ 10 lên 50 bộ ước lượng không mang lại cải thiện đáng kể. Mô hình Rừng Ngẫu nhiên này đã tạo ra dự đoán cho biến mục tiêu của nghiên cứu – tức là nghèo đói năng lượng (EP) của dữ liệu năm 2018-2020 – với độ chính xác khoảng 77%. Hơn nữa, mô hình đạt độ chính xác dự đoán trung bình (giữa cả hai lớp dữ liệu) là 71,9%, một trong những mức độ chính xác cao nhất trên tất cả các lớp và bộ dữ liệu được xem xét. Các nghiên cứu trước đây trong bối cảnh tương tự đã chứng minh độ tin cậy của các mô hình học máy với độ chính xác dự đoán trong khoảng này (ví dụ, Andini và cộng sự (2018) và Wang và cộng sự (2021)). Tiếp theo, hiệu suất của các mô hình Rừng Ngẫu nhiên được so sánh với ba thuật toán học máy phổ biến khác, bao gồm Cây Quyết định (Decision Tree), XGBoost (Nobre và Neves, 2019). Bảng 4.2 cũng cho thấy với bộ dữ liệu của nghiên cứu này, Rừng Ngẫu nhiên thường vượt trội hơn Cây Quyết định, vốn dự đoán hộ gia đình nghèo đói năng lượng của dữ liệu năm 2018-2020 khá kém. Rừng Ngẫu nhiên tránh được quá khớp nhờ vào việc dựa trên nhiều bộ ước lượng (Breiman, 2001). Điều này rất quan trọng khi mục tiêu là tạo ra dự đoán chính xác trên dữ liệu mới và chưa từng thấy, như trong nghiên cứu hiện tại. Ngược lại, hiệu suất của các mô hình XGBoost có thể so sánh với các mô hình Rừng Ngẫu nhiên có cấu hình tương đương. Do đó, XGBoost có thể được xem là một lựa chọn thay thế đáng tin cậy cho các nghiên cứu tương lai với bộ dữ liệu tương tự. Tuy nhiên, trong nghiên cứu này, mô hình Rừng Ngẫu nhiên được chọn vẫn tạo ra dự đoán chính xác hơn (khoảng 10%) cho lớp nghèo đói năng lượng của dữ liệu năm 2020 so với mô hình XGBoost có cùng số lượng bộ ước lượng và độ sâu tối đa. Hơn nữa, trong số tất cả các mô hình được xem xét, mô hình Rừng Ngẫu nhiên được chọn vì khả năng dễ minh họa bộ dữ liệu của nó trên nhánh cây. Có nghĩa là từ kết quả mô hình này, nhóm nghiên cứu có thể triển khai thành hình ảnh minh họa để các nhà hoạch định chính sách có thể lấy đó làm căn cứ trong việc hoạch định chính sách về người nghèo trong tương lai. 4 Bảng 4.2: Bảng kết quả huấn luyện mô hình học không giám sát Tên mô hình Thứ tự mô hình % Dự đoán chính xác (dữ liệu huấn luyện từ 2004–2016) EP Non-EP Độ chính xác % Dự đoán chính xác (dữ liệu huấn luyện từ 2018-2020) Chỉ số F1 EP Non-EP Độ chính xác Chỉ số F1 Random Forest Max depth = 3 … … Estimators = 1 Estimators = 10 Estimators = 50 1 2 3 64.9 76.3 79.4 69.3 61.4 59.6 67.1 68.9 69.5 66 71 72 65.8 81.9 85.3 69.5 53.7 52 67.7 67.8 68.7 65 69 70 Max depth = 6 … … Estimators = 1 Estimators = 10 Estimators = 50 4 5 6 73.4 80.6 78.3 67.7 63.3 66.8 70.5 71.9 72.2 71 74 74 76.7 77 81.6 63.9 65.3 62.2 70.3 71.2 71.9 70 71 72 Max depth = 9 … … Estimators = 1 Estimators = 10 Estimators = 50 7 8 9 74.7 78.2 77.7 63.6 70 70.8 69.1 74.3 74.3 71 75 75 74.2 72.9 74.1 65.4 73.1 70.6 69.8 73 72.3 69 71 71 Mô hình Rừng Ngẫu Nhiên được lựa chọn bởi nhóm tác giả: 80.6 Max depth = 6 Estimators = 10 10 63.3 71.9 74 77 65.3 71.2 71 Decision Tree Max depth = 3 Max depth = 6 Max depth = 9 XGBoost Max depth = 6 … … Estimators = 1 Estimators = 10 Estimators = 50 11 12 13 64.5 77.9 76.5 71.7 65.1 71.2 68.1 71.5 72.5 64 73 70 62.2 74.5 70.6 73.7 67.7 74.4 67.9 71.1 72.5 64 70 70 17 18 19 77.9 78.6 77.8 65.1 74.1 73 71.5 74.1 73.6 73 75 74 74.5 72.3 68.3 75.3 75 75.4 71.7 73.6 71.9 67 72 71 Nguồn: Nhóm nghiên cứu 1 4.2.3. Kết quả mô hình Rừng Ngẫu Nhiên 1 Hình 4.3: Kết quả minh họa Rừng ngẫu nhiên mà nhóm lựa chọn (Max depth = 6, Estimators = 10) Chú thích: EP – Nghèo đói năng lượng/ Non-EP – không nghèo đói về năng lượng, I là thu nhập của hộ gia đình trong 1 năm (Nghìn VND/hộ/Năm), C là trợ cấp từ mọi nguồn dành cho gia đình đó (Nghìn VND/hộ/năm), TT – là biến thành thị/nông thôn, E là dân tộc, NC là số thành viên trong gia đình, S là chi tiêu cho năng lượng, G là chất lượng nhà ở, SW là diện tích nhà ở (Xem thêm tại phần mô tả biến nghiên cứu ở mục 4.1) 1 1 CHƯƠNG 5: KẾT LUẬN VÀ KHUYẾN NGHỊ 5.1. Những đóng góp của nghiên cứu Bài nghiên cứu đã đóng góp kiến thức về tác động của phát triển điện gió tới nền kinh tế địa phương tại Việt Nam trên các khía cạnh tổng thể nền kinh tế, ngành nông nghiệp, công nghiệp, dịch vụvà thu ngân sách địa phương tại 15 tỉnh, thành phố trực thuộc trung ương có nhà máy điện gió được công nhận vận hành thương mại (COD) trong giai đoạn (2017-2021). Đầu tiên, nhóm nghiên cứu đã đánh giá thực trạng phát triển điện gió, tiềm năng phát triển điện gió và thị trường điện gió tại Việt Nam. Bên cạnh đó, đề tài đánh giá tác động của phát triển điện gió tới nền kinh tế địa phương tại Việt Nam. Qua ước lượng và kiểm định, nhóm nghiên cứu đưa ra kết quả rằng việc phát triển điện gió có đóng góp đáng kể và tích cực tới tổng sản phẩm trên địa bàn (GRDP) tại các địa phương trong mẫu. Kết quả này của nhóm tác giả tương tự với các nghiên cứu tiền nhiệm tại các quốc gia khác trên thế giới. Thứ hai, nhóm nghiên cứu đã sử dụng mô hình ước lượng Hausman-Taylor để tìm ra tác động của phát triển điện gió tới nền kinh tế địa phương tại Việt Nam. Mô hình Hausman-Taylor giúp khắc phục các khuyết tật của ba mô hình OLS (Mô hình hồi quy bình phương tối thiểu), FEM (mô hình ảnh hưởng cố định), REM (mô hình ảnh hưởng ngẫu nhiên), từ đó góp phần đánh giá chính xác hơn về tác động của phát triển điện gió tới nền kinh tế địa phương. Thứ ba, khi xem xét tác động của phát triển điện gió tới ba ngành kinh tế địa phương, nhóm nghiên cứu nhận thấy có tác động bất cân xứng tới các ngành kinh tế khác nhau. Theo kết quả nghiên cứu của nhóm, điện gió có tác động mạnh mẽ và tích cực tới khu vực công nghiệp và xây dựng nhưng lại có đóng góp không đáng kể tới khu vực dịch vụ. Kết quả này của nhóm nghiên cứu tương tự với các nghiên cứu của Xia & Song (2017) về trường hợp của Trung Quốc; Brown & cộng sự (2012), De Silva & cộng sự (2016) về Hoa Kỳ. Mặc dù điện gió có đóng góp nhỏ tới sự phát triển của khu vực nông nghiệp, nhưng do chưa có đủ những bằng chứng thuyết phục chứng minh cho điều này, vì vậy lợi ích kinh tế của phát triển điện gió đối với ngành nông nghiệp địa phương tại Việt Nam là không rõ ràng. Thứ tư, nhóm nghiên cứu đã tiến hành so sánh kết quả nghiên cứu của mình với trường hợp của các quốc gia khác trên thế giới. Kết quả cho thấy có sự khác biệt đáng kể khi so sánh tác động của phát triển điện gió tới nền kinh tế địa phương tại Việt Nam với các quốc gia trên thế giới. Trong khi Hoa Kỳ ghi nhận lợi ích 2 kinh tế đáng kể từ việc thu thuế tài sản và thu nhập từ hoạt động của các trang trại gió, Việt Nam lại ghi nhận sự đóng góp tích của phát triển điện gió thông qua hoạt động sản xuất và phân phối điện, thu thuế từ nhập khẩu các máy móc, thiết bị từ các nhà máy điện gió, nhưng vẫn còn phải đối mặt với những hạn chế về chính sách, pháp lý, cơ sở hạ tầng, cũng như vấn đề tỷ lệ cắt giảm công suất phát điện tương tự như tại Trung Quốc. 5.2. Các chính sách hiện nay về về xóa đói giảm nghèo tại Việt Nam 5.2. Một số khuyến nghị 5.2.1. Một số khuyến nghị đối với Chính phủ và địa phương Khuyến nghị nhằm nâng cao cơ sở hạ tầng cho năng lượng Khuyến nghị nhằm nâng cao trợ cấp cho về điện, về năng lượng cho người nghèo Khuyến nghị nhằm điều chỉnh chính sách giá điện phù hợp hơn với người nghèo Khuyến nghị nhằm phân bổ nguồn ngân sách hợp lí Khuyến nghị nhằm thúc đẩy hợp tác quốc tế về nghiên cứu về năng lượng sạch cho người nghèo Khuyến nghị nhằm tăng cường hợp tác giữa địa phương và tuyên truyền giáo dục cộng đồng 4.2.2. Một số khuyến nghị đối với các doanh nghiệp 4.3. Hạn chế của đề tài và hướng nghiên cứu tiếp theo Sử dụng Tư liệu kinh tế - xã hội 63 tỉnh, thành phố trực thuộc trung ương từ năm 2017 tới năm 2021 của Tổng cục thống kê, kết hợp với dữ liệu về các nhà máy điện gió được công nhận vận hành thương mại (COD) đến hết năm 2021 của Tập đoàn Điện lực Việt Nam (EVN), nghiên cứu đã đánh giá tác động của phát triển điện gió tới nền kinh tế địa phương Việt Nam. Trên cơ sở tính toán và ước lượng mô hình, so sánh với trường hợp tại Hoa Kỳ và Trung Quốc, nhóm đã đề xuất một số khuyến nghị đối với Chính phủ, doanh nghiệp trong việc thiết kế các chương trình và chính sách phát triển hiệu quả điện gió tại Việt Nam. Tuy nhiên, nghiên cứu vẫn còn những mặt hạn chế. Cụ thể: Thứ nhất, về phạm vi dữ liệu: nghiên cứu chủ yếu dựa trên dữ liệu thứ cấp từ các báo cáo và tài liệu có sẵn, chưa thể tiếp cận trực tiếp dữ liệu từ các dự án 3 điện gió tại các địa phương cụ thể, dẫn đến việc thiếu sót những thông tin chi tiết và sâu sắc về tác động kinh tế cụ thể tại mỗi địa phương. Vì vậy, trong tương lai, nếu được hợp tác với các công ty và tổ chức liên quan để tiếp cận dữ liệu sâu hơn từ các dự án điện gió cụ thể, các nghiên cứu tiếp theo có thể cung cấp những kết quả rõ nét hơn về ảnh hưởng của phát triển điện gió tới địa bàn cụ thể, từ đó xây dựng được chính sách phù hợp hơn với từng địa phương để phát triển hiệu quả điện gió nói riêng và năng lượng tái tạo nói chung. Thứ hai, về mô hình nghiên cứu, nhóm tác giả mới chỉ đưa ra được những yếu tố cơ bản tác động tới tăng trưởng của nền kinh tế địa phương như vốn, đất đai, lao động, còn những yếu tố quan trọng khác như năng suất các nhân tố tổng hợp (TFP) để đánh giá tiến bộ khoa học công nghệ của địa phương, năng lực quản lý của chính quyền, hay cơ sở hạ tầng chưa được đưa vào mô hình nghiên cứu. Điều này có thể dẫn tới các kết quả kinh tế chưa thể đo lường được đầy đủ và khách quan. Do đó, trong tương lai, những nghiên cứu tiếp theo có thể đưa thêm các nhân tố này vào để mô hình nghiên cứu được hoàn thiện hơn. Thứ ba, nghiên cứu mới chỉ tập trung vào tác động kinh tế, chưa đề cập đầy đủ tới các tác động môi trường của điện gió, bao gồm cả lợi ích và thách thức liên quan đến bảo vệ môi trường và đa dạng sinh học. Bên cạnh đó, nghiên cứu chưa thể đánh giá sâu sắc ảnh hưởng của phát triển điện gió đối với các cộng đồng địa phương, như việc chuyển dịch lao động, tác động đến đời sống cộng đồng, và sự chấp nhận của người dân đối với các dự án điện gió. Vì vậy, các nghiên cứu trong tương lai có thể đánh giá các tác động khác có thể có của việc xây dựng và vận hành điện gió tới cảnh quan thiên nhiên, môi trường và các yếu tố khác liên quan tới con người như bất bình đẳng thu nhập, lao động và việc làm,… tại các địa phương ở Việt Nam. Thứ tư, nhóm nghiên cứu chưa tiến phân tích, so sánh giữa các địa phương có phát triển điện gió và không phát triển điện gió, để xác định rõ ràng hơn tác động kinh tế cụ thể và bức tranh toàn cảnh về hiệu quả phát triển điện gió tại các địa phương Việt Nam. Do đó, trong các nghiên cứu tương lai, có thể so sánh tác động của phát triển điện gió tại các địa phương có xây dựng và vận hành các nhà máy điện gió với các địa phương còn lại, để đưa ra những đánh giá khách quan nhất về lợi ích cũng như chí phí của việc phát triển điện gió. Bên cạnh đó, trong tương lai, khi các trang trại điện gió và điện mặt trời được vận hành ổn định, những nghiên cứu tiếp theo có thể so sánh lợi ích cũng như là chi phí phát triển điện gió với những nguồn năng lượng tái tạo khác và với các nguồn năng lượng truyền thống trước đây, qua đó không chỉ cung cấp cái nhìn khách quan hơn về những chi 4 phí và lợi ích của việc phát triển điện gió, mà còn hỗ trợ các nhà hoạch định chính sách, các cơ quan nhà nước trong việc phân bổ và sử dụng hợp lý nguồn năng lượng của quốc gia trong tương lai. 5 KẾT LUẬN Với việc tham gia vào thỏa thuận Paris nhằm giải quyết biến đổi khí hậu toàn cầu, nhiều quốc gia đã và đang nỗ lực cắt giảm khí thải CO2 và tăng cường sử dụng năng lượng sạch. Năng lượng gió được xem là năng lượng sạch, với khả năng lưu trữ cao, không gây ô nhiễm và sử dụng công nghệ tiên tiến. Với những lợi thế trên, nhiều quốc gia đang tìm cách tận dụng năng lượng gió và coi nó là nguồn năng lượng đầy hứa hẹn, giải pháp tiềm năng cho sự thiếu hụt năng lượng toàn cầu. Hội đồng năng lượng gió toàn cầu dự báo điện gió có thể cung cấp 2000 MW đến 2030, cung cấp đến 19% tổng năng lượng toàn cầu. Các nước đi đầu trong phát triển điện gió bao gồm Trung Quốc, Mỹ và các quốc gia châu Âu. Việt Nam cũng đang trong quá trình phát triển điện gió. Việt Nam là nước có tiềm năng về điện gió do sở hữu nguồn năng lượng gió dồi dào cả ngoài khơi và trong bờ. Quỹ đất rộng, có thể được quy hoạch tại các vùng phát triển điện gió cũng là một ưu thế lớn.Đặc biệt trong thời gian gần đây, Việt Nam đang dần chú trọng hơn đến việc bảo vệ môi trường và giảm thiểu sự phụ thuộc vào nhiệt điện cũng như sự thiếu hụt điện đang ở mức báo động trong mùa nắng nóng gay gắt. Năng lượng gió tại Việt Nam được các chuyên gia trong và ngoài nước đánh giá sẽ còn tiếp tục tăng trưởng. Điện gió không chỉ thân thiện với môi trường mà còn đem lại lợi ích kinh tế đáng kể. Một câu hỏi quan trọng là việc phát triển năng lượng gió có thể đóng góp như thế nào cho nền kinh tế địa phương. Trong khi có nhiều phân tích dành cho các nước phát triển như Mỹ, Trung Quốc thì đáng ngạc nhiên là lại có rất ít nghiên cứu tập trung vào các nước đang phát triển. Ảnh hưởng của điện gió tác động đến nền kinh tế được nhiều học giả nghiên cứu, trong đó chủ yếu là nghiên cứu của các quốc gia có điện gió phát triển như Mỹ, Trung Quốc... Đi đầu trong nghiên cứu giá trị kinh tế mà điện gió mang lại, DanMar & cộng sự (1996) đã sử dụng phương pháp đầu vào-đầu ra để chỉ ra tác động điện gió tới lao động địa phương. Đến năm 2012, Brown & cộng sự nghiên cứu tác động điện gió sâu hơn vào thu nhập các nhân, tỷ lệ việc làm gia tăng theo MW điện gió tạo ra. Xia & Song (2017) đã nghiên cứu tác động điện gió không chỉ với ngân sách địa phương, việc làm mà còn chỉ ra tác động cụ thể của điện gió tới các ngành công nghiệp, ngông nghiệp và dịch vụ. Nhìn vào các nghiên cứu trên, sự khác biệt của tác động điện gió tới mỗi vùng cho thấy rằng tác động điện gió tới mỗi khu vực đa dạng dựa vào các yếu tố như nhân khẩu học, quỹ đất, nền kinh tế mỗi địa phương. 6 Việt Nam đã có lịch sử phát triển điện gió khoảng 10 năm nhờ sự thúc đẩy của các chính sách năng lượng sạch. Tuy nhiên, chưa có nghiên cứu nào cụ thể nhằm xác định lợi ích kinh tế mà điện gió mang lại cho nền kinh tế quốc dân cũng như kinh tế các địa phương của Việt Nam. Việc đánh giá sự ảnh hưởng của điện gió tới kinh tế có vai trò quan trọng trong phát triển các chính sách năng lượng tại Việt Nam cũng như định hình sự phát triển điện gió nước ta. Mục đích của nghiên cứu này là ước tính thực nghiệm tác động kinh tế của việc phát triển điện gió ở Việt Nam, quốc gia đang phát triển điện gió và đang có sự tăng trưởng mạnh mẽ trong việc sử dụng tài nguyên gió. Nhóm nghiên cứu đã tiến hành đánh giá tác động của công suất điện gió được lắp đặt đối với tăng trưởng kinh tế và thu ngân sách địa phương từ năm 2017 đến năm 2021 bằng cách sử dụng bộ dữ liệu cấp quốc gia. Nhóm nghiên cứu thấy rằng công suất điện gió được lắp đặt có tác động tích cực đáng kể và có ý nghĩa thống kê đến GRDP và thu ngân sách địa phương. Bên cạnh đó, sự phân bổ lợi ích có sự khác biệt theo cơ cấu ngành kinh tế như nhóm nghiên cứu dự đoán. Cụ thể, phát triển điện gió có tác động mạnh mẽ đến sự phát triển của ngành công nghiệp nhưng lại không có tác động rõ ràng tới ngành nông nghiệp và dịch vụ. Kết quả nghiên cứu là một trong những căn cứ quan trọng góp phần giúp Chính phủ, các tổ chức doanh nghiệp và các nhà đầu tư có định hướng phù hợp trong bối cảnh kinh tế phát triển như hiện nay. Bên cạnh đó, nhóm nghiên cứu đề xuất các kiến nghị, chính sách được rút ra qua quá trình tìm hiểu sự phát triển của điện gió các nước đi trước. Từ các bài học kinh nghiệm và tiềm năng phát triển điện gió của Việt Nam, việc thực hiện thành công các đề xuất đưa ra có thể đưa Việt Nam trở thành quốc gia dẫn đầu về năng lượng tái tạo ở Đông Nam Á, tạo tiền lệ cho sự phát triển bền vững và khả năng phục hồi kinh tế. 7 TÀI LIỆU THAM KHẢO I. Tài liệu là sách 1. Baltagi, B. H. (2021). Econometric analysis of panel data (6th ed.). Springer Nature. 2. Cobb, C. W., & Douglas, P. H. (1928). A theory of production. 3. Easterly, W. (1997). The ghost of financing gap: how the Harrod-Domar growth model still haunts development economics (No. 1807). World Bank Publications. 4. Leite, M. C., & Weidmann, J. (1999). Does mother nature corrupt? Natural resources, corruption, and economic growth. International Monetary Fund. 5. Letcher, T. (2022). Comprehensive renewable energy. 6. Mankiw, N. G. (2021). Principles of economics. Cengage Learning. 7. Pearce, D. W., & Turner, R. K. (1989). Economics of natural resources and the environment. Johns Hopkins University Press. 8. Solow, R. M. (1957). Technical change and the aggregate production function. The Review of Economics and Statistics, 39(3), 312. https://doi.org/10.2307/1926047 9. Vũ Kim Dung và Nguyễn Văn Công (2022), Giáo trình Kinh tế học tập 2. II. Tài liệu là công trình nghiên cứu, luận văn, tạp chí, bài báo - Tài liệu quốc tế: 1. Auty, R. M. (2000). How natural resources affect economic development. Fes.de. https://library.fes.de/libalt/journals/swetsfulltext/9404729.pdf 2. Baltagi, B. H., Bresson, G., & Pirotte, A. (2003). Fixed effects, random effects or Hausman–Taylor? Economics Letters, 79(3), 361–369. https://doi.org/10.1016/s0165-1765(03)00007-7 3. Blanco, M. I. (2009). The economics of wind energy. Renewable and Sustainable Energy Reviews, 13(6–7), 1372–1382. https://doi.org/10.1016/j.rser.2008.09.004 4. Broekel, T., & Alfken, C. (2015). Gone with the wind? The impact of wind turbines on tourism demand. Energy Policy, 86, 506–519. https://doi.org/10.1016/j.enpol.2015.08.005 5. Brown, J. P., Pender, J., Wiser, R., Lantz, E., & Hoen, B. (2012). Ex post analysis of economic impacts from wind power development in U.S. 8 counties. Energy Economics, 34(6), 1743–1754. https://doi.org/10.1016/j.eneco.2012.07.010 6. Brunner, E. J., & Schwegman, D. J. (2022). Commercial wind energy installations and local economic development: Evidence from U.S. counties. Energy Policy, 165(112993), 112993. https://doi.org/10.1016/j.enpol.2022.112993 7. Bulavskaya, T., & Reynès, F. (2018). Job creation and economic impact of renewable energy in the Netherlands. Renewable Energy, 119, 528–538. https://doi.org/10.1016/j.renene.2017.09.039 8. Castles, S. (2011). Migration, crisis, and the global labour market. Globalizations, 8(3), 311–324. https://doi.org/10.1080/14747731.2011.576847 9. Choi, Y., & Song, J. (2017). Review of photovoltaic and wind power systems utilized in the mining industry. Renewable and Sustainable Energy Reviews, 75, 1386–1391. https://doi.org/10.1016/j.rser.2016.11.127 10. Connolly, K. (2020). The regional economic impacts of offshore wind energy developments in Scotland. Renewable Energy, 160, 148–159. https://doi.org/10.1016/j.renene.2020.06.065 11. De Silva, D. G., McComb, R. P., & Schiller, A. R. (2016). What blows in with the wind?: What blows in with the wind? Southern Economic Journal, 82(3), 826–858. https://doi.org/10.1002/soej.12110 12. Deller, S. C., Tsai, T.-H. (sue), Marcouiller, D. W., & English, D. B. K. (2001). The role of amenities and quality of life in rural economic growth. American Journal of Agricultural Economics, 83(2), 352–365. https://doi.org/10.1111/0002-9092.00161 13. Doran, J. W., Fraser, D. G., Culik, M. N., & Liebhardt, W. C. (1987). Influence of alternative and conventional agricultural management on soil microbial processes and nitrogen availability. American Journal of Alternative Agriculture, 2(3), 99–106. https://doi.org/10.1017/s0889189300001739 14. Frantál, B., & Kunc, J. (2011). Wind turbines in tourism landscapes. Annals of Tourism Research, 38(2), 499–519. https://doi.org/10.1016/j.annals.2010.10.007 15. Gebremariam, G. H., Gebremedhin, T. G., & Schaeffer, P. V. (2011). Employment, income, and migration in Appalachia: A spatial 9 simultaneous equations approach. Journal of Regional Science, 51(1), 102–120. https://doi.org/10.1111/j.1467-9787.2010.00681.x 16. Glasgow Caledonian University, & Scotland, U. K. (2023, August 31). The economic impact of windfarms on Scottish tourism. Glasgow Caledonian University | Scotland, UK. https://www.gcu.ac.uk/research/researchcentres/moffatcentre/what-wedo/previous-projects/economic-impact-of-windfarms-on-scottish-tourism 17. Gonçalves, S., Rodrigues, T. P., & Chagas, A. L. S. (2020). The impact of wind power on the Brazilian labor market. Renewable and Sustainable Energy Reviews, 128(109887), 109887. https://doi.org/10.1016/j.rser.2020.109887 18. Hanada, K., Litifu, Z., & Nagasaka, K. (2005). Application of wind power generation for an agriculture region with weak wind speed. IEEE Power Engineering Society General Meeting, 2005. 19. Hausman, J. A., & Taylor, W. E. (1981). Panel Data and Unobservable Individual Effects. Econometrica: Journal of the Econometric Society, 49(6), 1377. https://doi.org/10.2307/1911406 20. Hendrickson, S. R. A. (8/2011). Economic Development Impact of 1,000 MW of Wind Energy in Texas. Nrel.gov. https://www.nrel.gov/docs/fy11osti/50400.pdf 21. Isserman, A., & Rephann, T. (1995). The economic effects of the Appalachian regional commission: An empirical assessment of 26 years of regional development planning. Journal of the American Planning Association. American Planning Association, 61(3), 345–364. https://doi.org/10.1080/01944369508975647 22. Javed, A., Ashraf, J., & Khan, T. (2020). The Impact of Renewable Energy on GDP. Int. J. Manag. Sustain, 9, 239-250. International Journal of Management and Sustainability, 9, 239–250. 23. Jenniches, S., & Worrell, E. (2019). Regional economic and environmental impacts of renewable energy developments: Solar PV in the Aachen Region. Energy for Sustainable Development: The Journal of the International Energy Initiative, 48, 11–24. https://doi.org/10.1016/j.esd.2018.10.004 24. Jenniches, S., Worrell, E., & Fumagalli, E. (2019). Regional economic and environmental impacts of wind power developments: A case study of a German region. Energy Policy, 132, 499–514. 10 https://doi.org/10.1016/j.enpol.2019.05.046 25. Keeble, B. R. (1988). The Brundtland report: ‘Our common future.’ Medicine and War, 4(1), 17–25. https://doi.org/10.1080/07488008808408783 26. Landry, C. E., Allen, T., Cherry, T., & Whitehead, J. C. (2012). Wind turbines and coastal recreation demand. Resource and Energy Economics, 34(1), 93–111. https://doi.org/10.1016/j.reseneeco.2011.10.001 27. Landry, M. A., Leclerc, A., & Gagnon, Y. (2013). A methodology for the evaluation of the economic impacts of wind energy projects. Energy & Environment, 24(5), 735–748. https://doi.org/10.1260/0958-305x.24.5.735 28. Lehr, U., & Ulrich, P. (2017). Economic impacts of renewable energy increase in Germany. In Springer Proceedings in Energy (pp. 263–272). Springer International Publishing. 29. Liu, Y., & Kokko, A. (2010). Wind power in China: Policy and development challenges. Energy Policy, 38(10), 5520–5529. https://doi.org/10.1016/j.enpol.2010.04.050 30. Liu, Z., Zhang, W., Zhao, C., & Yuan, J. (2015). The economics of wind power in China and policy implications. Energies, 8(2), 1529–1546. https://doi.org/10.3390/en8021529 31. Loveridge, S. (2004). A typology and assessment of multi-sector regional economic impact models. Regional Studies, 38(3), 305–317. https://doi.org/10.1080/003434042000211051 32. Meng, S., & Kozybay, Z. (2024). A spatial–temporal analysis of income inequality and wind energy development in the U.S. World Development Sustainability, 4(100129), 100129. https://doi.org/10.1016/j.wds.2024.100129 33. Meyer, N. I. (2007). Learning from wind energy policy in the EU: lessons from Denmark, Sweden and Spain. European Environment, 17(5), 347– 362. https://doi.org/10.1002/eet.463 34. Mills, S. B. (2015). Preserving agriculture through wind energy development: A study of the social, economic, and land use effects of windfarms on rural landowners and their communities. 35. Munday, M., Bristow, G., & Cowell, R. (2011). Wind farms in rural areas: How far do community benefits from wind farms represent a local economic development opportunity? Journal of Rural Studies, 27(1), 1– 12. https://doi.org/10.1016/j.jrurstud.2010.08.003 11 36. Myrna, O., Odening, M., & Ritter, M. (2019). The influence of wind energy and biogas on farmland prices. Land, 8(1), 19. https://doi.org/10.3390/land8010019 37. Noori, M., Kucukvar, M., & Tatari, O. (2015). Economic input–output based sustainability analysis of onshore and offshore wind energy systems. International Journal of Green Energy, 12(9), 939–948. https://doi.org/10.1080/15435075.2014.890103 38. Okkonen, L., & Lehtonen, O. (2016). Socio-economic impacts of community wind power projects in Northern Scotland. Renewable Energy, 85, 826–833. https://doi.org/10.1016/j.renene.2015.07.047 39. Omer, A. M. (2008). Energy, environment and sustainable development. Renewable and Sustainable Energy Reviews, 12(9), 2265–2300. https://doi.org/10.1016/j.rser.2007.05.001 40. Otto, D., Monchuk, D., Jintanakul, K., & Kling, C. (n.d.). The economic value of Iowa’s natural resources. 41. Papyrakis, E., & Gerlagh, R. (2007). Resource abundance and economic growth in the United States. European Economic Review, 51(4), 1011– 1039. https://doi.org/10.1016/j.euroecorev.2006.04.001 42. Parker, W. N. (1963). American and British technology in the nineteenth century. By H. j. habakkuk. Cambridge, England, Cambridge university press, 1962. Pp. 222. $6.00. Business History Review, 37(1–2), 121–122. https://doi.org/10.2307/3112109 43. Partridge, M. D., & Rickman, D. S. (2003). The waxing and waning of regional economies: the chicken–egg question of jobs versus people. Journal of Urban Economics, 53(1), 76–97. https://doi.org/10.1016/s0094-1190(02)00501-6 44. Paul Denholm, Maureen Hand, Maddalena Jackson, and Sean Ong. (2009). Land-Use Requirements of Modern Wind Power Plants in the United States. Nrel.gov. https://www.nrel.gov/docs/fy09osti/45834.pdf 45. Pender, J., Marré, A., & Reeder, R. (2012). Rural wealth creation: Concepts, measures, and strategies. American Journal of Agricultural Economics, 94(2), 535–541. http://www.jstor.org/stable/41331287 46. Rupasingha, A., Goetz, S. J., & Freshwater, D. (2002). Social and institutional factors as determinants of economic growth: Evidence from the United States counties. Papers in Regional Science: The Journal of the Regional Science Association International, 81(2), 139–155. 12 https://doi.org/10.1111/j.1435-5597.2002.tb01227.x 47. Sachs, J. D., & Warner, A. M. (1997). Sources of slow growth in African economies. Journal of African Economies, 6(3), 335–376. https://doi.org/10.1093/oxfordjournals.jae.a020932 48. Sachs, J., & Warner, A. (1995). Natural resource abundance and economic growth. National Bureau of Economic Research. 49. Sachs, Jeffrey D., & Warner, A. M. (1999). The big push, natural resource booms and growth. Journal of Development Economics, 59(1), 43–76. https://doi.org/10.1016/s0304-3878(99)00005-x 50. Sachs, Jeffrey D., & Warner, A. M. (2001). The curse of natural resources. European Economic Review, 45(4–6), 827–838. https://doi.org/10.1016/s0014-2921(01)00125-8 51. Sampson, G. S., Perry, E. D., & Taylor, M. R. (2020). The on-farm and near-farm effects of wind turbines on agricultural land values. Journal of Agricultural and Resource Economics, 45(3), 410–427. https://www.jstor.org/stable/27154076 52. Schmidt, J., Lehecka, G., Gass, V., & Schmid, E. (2013). Where the wind blows: Assessing the effect of fixed and premium based feed-in tariffs on the spatial diversification of wind turbines. Energy Economics, 40, 269– 276. https://doi.org/10.1016/j.eneco.2013.07.004 53. Shoeib, E. A. H., Hamin Infield, E., & Renski, H. C. (2021). Measuring the impacts of wind energy projects on U.S. rural counties’ community services and cost of living. Energy Policy, 153(112279), 112279. https://doi.org/10.1016/j.enpol.2021.112279 54. Slattery, M. C., Lantz, E., & Johnson, B. L. (2011). State and local economic impacts from wind energy projects: Texas case study. Energy Policy, 39(12), 7930–7940. https://doi.org/10.1016/j.enpol.2011.09.047 55. Smythe, T., Bidwell, D., Moore, A., Smith, H., & McCann, J. (2020). Beyond the beach: Tradeoffs in tourism and recreation at the first offshore wind farm in the United States. Energy Research & Social Science, 70(101726), 101726. https://doi.org/10.1016/j.erss.2020.101726 56. Solow, R. M. (1957). Technical change and the aggregate production function. The Review of Economics and Statistics, 39(3), 312. https://doi.org/10.2307/1926047 57. Tegen, E. L. A. (2008, June 4). Variables Affecting Economic Development of Wind Energy. Nrel.gov. 13 https://www.nrel.gov/docs/fy08osti/43506.pdf 58. Trandafir, S., Gaur, V., Behanan, P., Uchida, E., Lang, C., & Miao, H. (2020). How are tourists affected by offshore wind turbines? A case study of the first U.s. offshore wind farm. Journal of Ocean and Coastal Economics, 7(1). https://doi.org/10.15351/2373-8456.1127 59. Turner, R. K., & Pearce, D. W. (1993). Sustainable economic development: economic and ethical principles. In Economics and Ecology (pp. 177–194). Springer Netherlands. 60. Varela-Vázquez, P., & Sánchez-Carreira, M. del C. (2015). Socioeconomic impact of wind energy on peripheral regions. Renewable and Sustainable Energy Reviews, 50, 982–990. https://doi.org/10.1016/j.rser.2015.05.045 61. Vasconcellos, H. A. S., & Caiado Couto, L. (2021). Estimation of socioeconomic impacts of wind power projects in Brazil’s Northeast region using Interregional Input-Output Analysis. Renewable and Sustainable Energy Reviews, 149(111376), 111376. https://doi.org/10.1016/j.rser.2021.111376 62. View of wind energy versus sustainable agriculture: An Ontario perspective. (n.d.). Brandonu. Ca. Retrieved April 8, 2024, from https://journals.brandonu.ca/jrcd/article/view/1337/307 63. Voltaire, L., Loureiro, M. L., Knudsen, C., & Nunes, P. A. L. D. (2017). The impact of offshore wind farms on beach recreation demand: Policy intake from an economic study on the Catalan coast. Marine Policy, 81, 116–123. https://doi.org/10.1016/j.marpol.2017.03.019 64. Williams, S. K., Acker, T., Goldberg, M., & Greve, M. (2008). Estimating the economic benefits of wind energy projects using Monte Carlo simulation with economic input/output analysis. Wind Energy, 11(4), 397– 414. https://doi.org/10.1002/we.273 65. Wind energy industry impacts in Oklahoma. (n.d.). Yumpu.com. Retrieved April 8, 2024, from https://www.yumpu.com/en/document/view/54548087/wind-energyindustry-impacts-in-oklahoma 66. Wu, J., & Gopinath, M. (2008). What causes spatial variations in economic development in the United States? American Journal of Agricultural Economics, 90(2), 392–408. https://doi.org/10.1111/j.14678276.2007.01126.x 14 67. Xia, F., & Song, F. (2017a). Evaluating the economic impact of wind power development on local economies in China. Energy Policy, 110, 263–270. https://doi.org/10.1016/j.enpol.2017.08.030 68. Xia, F., & Song, F. (2017b). The uneven development of wind power in China: Determinants and the role of supporting policies. Energy Economics, 67, 278–286. https://doi.org/10.1016/j.eneco.2017.08.008 69. Zhao, X., Li, S., Zhang, S., Yang, R., & Liu, S. (2016). The effectiveness of China’s wind power policy: An empirical analysis. Energy Policy, 95, 269–279. https://doi.org/10.1016/j.enpol.2016.04.050 70. Schuster, M., & Paliwal, K. K. (1997). Bidirectional Recurrent Neural Networks. IEEE Transactions on Signal Processing, 45(11), 2673–2681. 71. Graves, A., & Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18(5-6), 602–610. 72. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. 73. Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14(2), 179–211. 74. Hochreiter, S. & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780. 75. Gers, F. A., Schmidhuber, J., & Cummins, F. (2000). Learning to forget: Continual prediction with LSTM. Neural Computation, 12(10), 24512471. 76. Graves, A., & Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18(5-6), 602–610. - Tài liệu trong nước: 1. 84 nhà máy điện gió được công nhận vận hành thương mại từ 31/10/2021. (2021). Evn.com.Vn. https://www.evn.com.vn/d6/news/84-nha-may-diengio-da-duoc-cong-nhan-van-hanh-thuong-mai-den-het-ngay-31102021-612-29425.aspx 2. Anh, T. (2022). Việt Nam-Đan Mạch: Đẩy mạnh hợp tác phát triển điện gió ngoài khơi. Tạp Chí Tài Nguyên và Môi Trường. https://elib.hcmussh.edu.vn/handle/HCMUSSH/136058 3. Bến Tre: Thu ngân sách đạt, vượt chỉ tiêu năm 2021. (2021, December 14). Dangcongsan.Vn. https://dangcongsan.vn/kinh-te/ben-tre-thu-ngan15 sach-dat-vuot-chi-tieu-nam-2021-599597.html 4. Các dự án điện gió đóng góp gì cho kinh tế Đắk Nông? (n.d.). Com.vn. Retrieved April 9, 2024, from https://baodongnai.com.vn/kinhte/202312/cac-du-an-dien-gio-dong-gop-gi-cho-kinh-te-dak-nong7543327/ 5. Cổng thông tin điện tử Bộ Công Thương. (2021). 84 dự án điện gió kịp vận hành thương mại với tổng công suất hơn 3.980 MW. https://moit.gov.vn/tin-tuc/phat-trien-nang-luong/84-du-an-dien-gio-kipvan-hanh-thuong-mai-voi-tong-cong-suat-hon-3.980-mw.html 6. Do, T. N., Burke, P. J., Hughes, L., & Thi, T. D. (2022). Policy options for offshore wind power in Vietnam. Marine Policy, 141(105080), 105080. https://doi.org/10.1016/j.marpol.2022.105080 7. Duc Luong, N. (2015). A critical review on potential and current status of wind energy in Vietnam. Renewable and Sustainable Energy Reviews, 43, 440–448. https://doi.org/10.1016/j.rser.2014.11.060 8. Dung C. N.-P. (2021, March 25). Điện gió có thể bị cắt giảm công suất ở mức cao vì nguy cơ thừa điện. Báo Lao Động. https://laodong.vn/kinhdoanh/dien-gio-co-the-bi-cat-giam-cong-suat-o-muc-cao-vi-nguy-co-thuadien-892583.ldo 9. In, B. Q. I.-B. (2022, September 16). Ổn định chính sách cho năng lượng tái tạo Bài 2-Nghịch lý và lãng phí. Báo Quân Đội Nhân Dân. https://www.qdnd.vn/kinh-te/cac-van-de/on-dinh-chinh-sach-cho-nangluong-tai-tao-bai-2-nghich-ly-va-lang-phi-705542 10. Nguyen, K. Q. (2007). Wind energy in Vietnam: Resource assessment, development status and future implications. Energy Policy, 35(2), 1405– 1413. https://doi.org/10.1016/j.enpol.2006.04.011 11. Nguyên, T. S. Đ. V., Nguyễn Xuân Hòa, T., & Nguyễn Thị Thu Hương, T. (n.d.). Cơ hội và thách thức trong phát triển điện gió ở Việt Nam. Vjst.Vn. Retrieved April 9, 2024, from https://vjst.vn/Images/Tapchi/2019/6A/19-6A-2019.pdf 12. Nguyễn, Thị Hoàng Liên, and Mạnh Cường Phạm. (2014). Các vấn đề trong phát triển điện gió ở Việt Nam-Nghiên cứu từ trường hợp Nhà máy điện gió Bình Thuận. VNU Journal of Science: Natural Sciences and Technology, no. 2, 30. https://js.vnu.edu.vn/NST/article/view/957 13. Nguyễn Thị Thu Hà, N. T. N. (2022). Phát triển điện gió ven bờ, ngoài khơi ở liên minh châu Âu và gợi mở cho Việt Nam. Viện Nghiên Cứu 16 Châu Âu.Viện Hàn Lâm Khoa Học Xã Hội Việt Nam. http://thuvienlamdong.org.vn:81/bitstream/DL_134679/62179/1/CVv181S 72022079.pdf 14. Nguyễn X. P., Lê V. H., Trần T. D., Vũ B. D., Phạm Q. N., & Hoàng T. P. (2023). Đánh giá tiềm năng và cơ hội phát triển điện gió ngoài khơi của Việt Nam và đề xuất với Tập đoàn Dầu khí Việt Nam. Petrovietnam Journal, 1, 70–80. https://doi.org/10.47800/pvsi.2023.01-09 15. Nhiên, N. T. T., & Nguyên, Đ. V. (n.d.). vì sao nên phát triển điện gió ngoài khơi ở việt nam? Org.vn:81. Retrieved April 9, 2024, from http://thuvienlamdong.org.vn:81/bitstream/DL_134679/22140/1/CVv8S11 2020020.pdf 16. Thắng, T. S. Đ. N. (n.d.). Chính sách cần thiết để phát triển điện gió ngoài khơi ở Việt Nam. Org.vn:81. Retrieved April 9, 2024, from http://thuvienlamdong.org.vn:81/bitstream/DL_134679/58703/1/CVv359S 62022038.pdf 17. Trần, Q. H. (2018). Nghiên cứu tổng quan về điện gió và đánh giá tiềm năng phát triển điện gió ở tỉnh Quảng Bình. http://lrc.quangbinhuni.edu.vn:8181/dspace/handle/DHQB_123456789/26 57 18. HTCTTK cấp Tỉnh – Tổng sản phẩm trên địa bàn (GRDP). (n.d.). General Statistics Office of Vietnam. Retrieved April 9, 2024, from https://www.gso.gov.vn/du-lieu-dac-ta/2019/12/htcttk-cap-tinh-tong-sanpham-tren-dia-ban-grdp/ 19. TOÀN VĂN: Quy hoạch điện VIII. (2023, May 18). xaydungchinhsach.chinhphu.vn. https://xaydungchinhsach.chinhphu.vn/toan-van-quy-hoach-phat-triendien-luc-quoc-gia-11923051616315244.htm III. Tài liệu là văn bản pháp luật, báo cáo của tổ chức 1. Alex (2023) Global wind report 2023, Global Wind Energy Council. Available at: https://gwec.net/globalwindreport2023/ (Accessed: February 24, 2024) 2. Wiser, R., & Bolinger, M. (2011). 2010 wind technologies market report (No. NREL/TP-5000-51783; DOE/GO-102011-3322). National Renewable Energy Lab.(NREL), Golden, CO (United States). 3. U.S. energy Information Administration - EIA - independent statistics and 17 analysis (no date) Eia.gov. Available at: https://www.eia.gov/state/?sid=TX (Accessed: February 25, 2024). 4. Wind energy policies and incentives (no date) Energy.gov. Available at: https://windexchange.energy.gov/policies-incentives (Accessed: February 25, 2024). 5. Renewable energy statistics 2023 (2023) Irena.org. Available at: https://www.irena.org/Publications/2023/Jul/Renewable-energy-statistics2023 (Accessed: February 25, 2024). 6. Renewable power generation costs in 2022 (2023) Irena.org. Available at: https://www.irena.org/Publications/2023/Aug/Renewable-PowerGeneration-Costs-in-2022 (Accessed: February 25, 2024). 7. AR6 Synthesis Report: Climate Change 2023. (n.d.). Ipcc.Ch. Retrieved April 9, 2024, from https://www.ipcc.ch/report/sixth-assessment-reportcycle/ 8. Energy Technology Perspectives 2015. (n.d.). IEA. Retrieved April 9, 2024, from https://www.iea.org/reports/energy-technology-perspectives2015 9. Vietnam Ministry of Industry and Trade (2010), Wind resource ATLAS of Vietnam. 10. Chính phủ (2018), Quyết định số 37/2011/QĐ-TTg ngày 29/6/2011, được sửa đổi, bổ sung theo Quyết định số 39/2018/QĐ-TTg ngày 10/9/2018 của Thủ tướng Chính phủ về cơ chế hỗ trợ phát triển các dự án điện gió tại Việt Nam. 11. Chính phủ (2019), Quyết định số 11/2017/QĐ-TTg ngày 11/4/2017, được sửa đổi, bổ sung theo Quyết định số 02/2019/QĐ-TTg ngày 08/01/2019 của Thủ tướng Chính phủ về cơ chế khuyến khích phát triển các dự án điện mặt trời tại Việt Nam. 12. Chính phủ (2020), Quyết định số 13/2020/QĐ-TTg ngày 6/4/2020 về cơ chế khuyến khích phát triển điện mặt trời tại Việt Nam. 13. Chính phủ (2020), Quyết định số 24/2014/QĐ-TTg ngày 24/3/2014, được sửa đổi, bổ sung theo Quyết định số 08/2020/QĐ-TTg ngày 05/3/2020 của Thủ tướng Chính phủ về cơ chế hỗ trợ phát triển các dự án điện sinh khối tại Việt Nam. 14. Chính phủ (2019), Thông tư số 16/2017/TT-BCT ngày 12/9/2017, được sửa đổi, bổ sung theo Thông tư số 05/2019/TT-BCT ngày 11/3/2019 của Bộ trưởng Bộ Công Thương quy định về phát triển dự án và Hợp đồng mua bán 18 điện mẫu áp dụng cho các dự án điện mặt trời. 15. Chính phủ (2022), Thông tư số 15/2022/TT- BCT quy định phương pháp xây dựng khung giá phát điện nhà máy điện mặt trời, điện gió chuyển tiếp và đến ngày 7/1/2023. 19 PHỤ LỤC 20
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )