Obchodná Analytika: Metódy, Modely a Rozhodnutia

Machine Translated by Google Machine Translated by Google Phân tích kinh doanh Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Phân tích kinh doanh Phương pháp, Mô hình và Quyết định James R. Evans Đại học Cincinnati PHIÊN BẢN THỨ HAI Boston Columbus Indianapolis New York San Francisco Amsterdam Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Thành phố Mexico São Paulo Sydney Hồng Kông Seoul Singapore Đài Bắc Tokyo Machine Translated by Google Giám đốc biên tập: Chris Hoag Trợ lý tiếp thị: Emma Sarconi Tổng biên tập: Deirdre Lynch Hỗ trợ tác giả cấp cao/Chuyên gia công nghệ: Joe Vetere Biên tập viên mua lại: Patrick Barbera Quyền và Quyền Giám đốc dự án: Diahanne Lucas Dowridge Trợ lý biên tập: Justin Billing Chuyên gia mua sắm: Carole Melville Quản lý chương trình: Tatiana Anacki Phó Giám đốc Thiết kế: Andrea Nix Quản lý dự án: Kerri Consalvo Trưởng nhóm thiết kế chương trình: Beth Paquin Trưởng nhóm quản lý dự án: Christina Lepre Thiết kế văn bản: 12/10 TimesLTStd Trưởng nhóm quản lý chương trình: Marianne Stepanian Thành phần: Lumina Datamatics Ltd. Nhà sản xuất truyền thông: Nicholas Sweeney Thiết kế bìa: Studio Montage MathXL Nhà phát triển nội dung: Kristina Evans Ảnh bìa: Hình ảnh Aleksandarvelasevic/Getty Giám đốc tiếp thị: Erin Kelly Bản quyền © 2016, 2013 của Pearson Education, Inc. Bảo lưu mọi quyền. In tại Hoa Kỳ. Ấn phẩm này được bảo vệ bởi bản quyền và phải được nhà xuất bản cho phép trước khi thực hiện bất kỳ hành vi sao chép, lưu trữ nào bị cấm trong hệ thống truy xuất hoặc truyền tải dưới bất kỳ hình thức nào hoặc bằng bất kỳ phương tiện nào, điện tử, cơ khí, sao chụp, ghi âm hoặc cách khác. Để biết thông tin về quyền, biểu mẫu yêu cầu và liên hệ thích hợp trong bộ phận Quyền & Quyền Toàn cầu của Pearson Education, vui lòng truy cập www.pearsoned.com/permissions/. Xác nhận nội dung của bên thứ ba xuất hiện trên trang xvii, cấu thành phần mở rộng của trang bản quyền này. PEARSON, ALWAYS LEARNING là nhãn hiệu độc quyền tại Hoa Kỳ và/hoặc các quốc gia khác thuộc sở hữu của Pearson Education, Inc. hoặc các chi nhánh của Pearson. Trừ khi có quy định khác ở đây, mọi nhãn hiệu của bên thứ ba có thể xuất hiện trong tác phẩm này đều là tài sản của chủ sở hữu tương ứng và mọi tham chiếu đến nhãn hiệu, logo hoặc hình thức thương mại khác của bên thứ ba chỉ nhằm mục đích minh họa hoặc mô tả. Những tham chiếu như vậy không nhằm mục đích ngụ ý bất kỳ sự tài trợ, chứng thực, ủy quyền hoặc quảng cáo nào cho các sản phẩm của Pearson bởi chủ sở hữu các nhãn hiệu đó hoặc bất kỳ mối quan hệ nào giữa chủ sở hữu và Pearson Education, Inc. hoặc các chi nhánh, tác giả, người được cấp phép hoặc nhà phân phối của nó. [Đối với phiên bản dành cho người hướng dẫn: Công việc này chỉ dành cho người hướng dẫn và quản trị viên sử dụng cho mục đích giảng dạy các khóa học và đánh giá quá trình học tập của sinh viên. Việc phổ biến, xuất bản hoặc bán trái phép tác phẩm, toàn bộ hoặc một phần (kể cả đăng trên internet) sẽ phá hủy tính toàn vẹn của tác phẩm và bị nghiêm cấm.] Dữ liệu Biên mục của Thư viện Quốc hội Evans, James R. (James Robert), 1950– Phân tích kinh doanh: phương pháp, mô hình và quyết định / James R. Evans, Đại học Cincinnati.—Ấn bản 2. trang cm Bao gồm tài liệu tham khảo và chỉ mục. ISBN 978-0-321-99782-1 (alk. giấy) 1. Lập kế hoạch kinh doanh. 2. Hoạch định chiến lược. 3. Quản lý công nghiệp—Phương pháp thống kê. I. Tiêu đề. HD30.28.E824 2016 658.4'01—dc23 2014017342 1 2 3 4 5 6 7 8 9 10—XXX—18 17 16 15 14 ISBN 10: 0-321-99782-4 ISBN 13: 978-0-321-99782-1 Machine Translated by Google Nội dung tóm tắt Lời nói đầu xviii Về tác giả xxiii tín dụng xxv Phần 1 Nền tảng của Phân tích Kinh doanh Chương 1 Giới thiệu về Business Analytics 1 Chương 2 Phân tích trên bảng tính 37 Phần 2 Phân tích mô tả Chương 3 Trực quan hóa và khám phá dữ liệu 53 Chương 4 Các biện pháp thống kê mô tả 95 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 131 Chương 6 Lấy mẫu và ước lượng 181 Chương 7 Suy luận thống kê 205 Phần 3 Phân tích Dự đoán Chương 8 Phân tích đường xu hướng và hồi quy 233 Chương 9 Kỹ Thuật Dự Báo 273 Chương 10 Giới thiệu về khai phá dữ liệu 301 Chương 11 Mô hình hóa và phân tích bảng tính 341 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 377 Phần 4 Phân tích theo quy định Chương 13 Tối ưu tuyến tính 415 Chương 14 Ứng dụng của Tối ưu tuyến tính 457 Chương 15 Tối ưu số nguyên 513 Chương 16 Phân tích quyết định 553 Chương bổ sung A (trực tuyến) Tối ưu hóa phi tuyến tính và không trơn tru Chương bổ sung B (trực tuyến) Các mô hình tối ưu hóa với sự không chắc chắn Phụ lục A 585 Thuật ngữ 609 Chỉ mục 617 vv Machine Translated by Google Trang này cố ý để trống Machine Translated by Google nội dung Lời nói đầu xviii Về tác giả xxiii tín dụng xxv Phần 1: Nền tảng của phân tích kinh doanh Chương 1: Giới thiệu về Business Analytics 1 Mục tiêu học tập 1 Phân tích kinh doanh là gì? 4 Sự phát triển của phân tích kinh doanh 5 Tác động và Thách thức 8 Phạm vi Phân tích Kinh doanh 9 Hỗ trợ phần mềm 12 Dữ liệu cho Business Analytics 13 Tập dữ liệu và cơ sở dữ liệu 14 Dữ liệu lớn 15 Số liệu và dữ liệu Phân loại 16 Độ tin cậy và giá trị của dữ liệu 18 Các mô hình trong Phân tích kinh doanh 18 Các mô hình quyết định 21 Các giả định của mô hình 24 Sự không chắc chắn và rủi ro 26 Mô hình quyết định theo quy định 26 Giải quyết vấn đề với Analytics 27 Nhận ra vấn đề 28 Bài toán 28 a Quyết định 29 Xác định vấn đề 28 Phân Tích Bài Toán 29 cấu trúc các Giải thích kết quả và làm Thực hiện giải pháp 29 Thuật ngữ chính 30 Thú vị với Analytics 31 Vấn đề và bài tập 31 Trường hợp: Dự án nghiên cứu quảng cáo Drout 33 Trường hợp: Bãi cỏ biểu diễn Thiết bị 34 Chương 2: Phân tích trên bảng tính 37 Mục tiêu học tập 37 Kỹ năng Excel cơ bản 39 Công thức Excel 40 Sao chép công thức 40 Thủ thuật Excel hữu ích khác 41 Hàm Excel 42 Các hàm Excel cơ bản 42 Các hàm cho các ứng dụng cụ thể 43 Hàm Chèn 44 Hàm Logic 45 Sử dụng Hàm Tra cứu Excel cho Truy vấn Cơ sở dữ liệu 47 Phần bổ trợ bảng tính cho Business Analytics 50 Thuật ngữ chính 50 Vấn đề và bài tập 50 Tình huống: Sân cỏ biểu diễn Thiết bị 52 vii Machine Translated by Google viii nội dung Phần 2: Phân tích mô tả Chương 3: Trực quan hóa và khám phá dữ liệu 53 Mục tiêu học tập 53 Trực quan hóa dữ liệu 54 Bảng điều khiển 55 Công cụ và phần mềm để trực quan hóa dữ liệu 55 Tạo biểu đồ trong Microsoft Excel 56 Biểu đồ cột và thanh 57 Biểu đồ nhãn dữ liệu và bảng dữ liệu Biểu đồ hình tròn 59 Biểu đồ vùng 60 Tùy chọn 59 Biểu đồ đường 59 Biểu đồ tán xạ 60 Biểu đồ bong bóng 62 Khác Biểu đồ Excel 63 Dữ liệu địa lý 63 Các công cụ trực quan hóa dữ liệu Excel khác 64 Thanh dữ liệu, thang màu và bộ biểu tượng 64 Sparklines 65 Excel Camera Công cụ 66 Truy vấn dữ liệu: Bảng, Sắp xếp và Lọc 67 Sắp xếp dữ liệu trong Excel 68 Phân tích Pareto 68 Lọc dữ liệu 70 Phương pháp thống kê để tổng hợp dữ liệu 72 Phân phối tần suất cho dữ liệu phân loại 73 Tần suất tương đối Phân phối 74 Phân phối tần số cho dữ liệu số 75 Công cụ biểu đồ Excel 75 Tần suất tương đối tích lũy Phân phối 79 Phần trăm và phần tư 80 Bảng chéo 82 Khám phá dữ liệu bằng cách sử dụng PivotTable 84 PivotCharts 86 Slicers và PivotTable Dashboards 87 Thuật ngữ chính 90 Vấn đề và Bài tập 91 Tình huống: Nghiên cứu Quảng cáo Drout Trường hợp dự án 93: Thiết bị làm cỏ hiệu suất 94 Chương 4: Các biện pháp thống kê mô tả 95 Mục tiêu học tập 95 Quần thể và mẫu 96 Hiểu ký hiệu thống kê 96 Biện pháp Vị trí 97 Trung bình số học 97 Trung bình 98 Chế độ 99 Trung bình 99 Sử dụng thước đo vị trí trong các quyết định kinh doanh 100 Các biện pháp phân tán 101 Phạm vi 101 Khoảng tứ phân vị 101 Phương sai 102 Tiêu chuẩn Độ lệch 103 Định lý Ch Quashev và Quy tắc Thực nghiệm 104 Giá trị chuẩn hóa 107 Hệ số biến đổi 108 Số đo hình dạng 109 Công cụ thống kê mô tả Excel 110 Thống kê mô tả cho dữ liệu được nhóm 112 Thống kê mô tả cho dữ liệu phân loại: Tỷ lệ 114 Thống kê trong PivotTable 114 Machine Translated by Google nội dung Các biện pháp của hiệp hội 115 Hiệp phương sai 116 Tương quan 117 Công cụ Tương quan Excel 119 Ngoại lệ 120 Tư Duy Thống Kê Trong Các Quyết Định Kinh Doanh 122 Sự thay đổi trong các mẫu 123 Thuật ngữ chính 125 Vấn đề và Bài tập 126 Tình huống: Nghiên cứu Quảng cáo Drout Trường hợp dự án 129: Thiết bị cắt cỏ hiệu suất 129 Chương 5: Phân phối xác suất và mô hình hóa dữ liệu 131 Mục tiêu học tập 131 Các khái niệm cơ bản về xác suất 132 Quy tắc và công thức xác suất 134 Xác suất chung và xác suất cận biên 135 Xác suất có điều kiện 137 Biến ngẫu nhiên và phân phối xác suất 140 Phân phối xác suất rời rạc 142 Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc 143 Sử dụng giá trị kỳ vọng trong việc đưa ra quyết định 144 Phương sai của một biến ngẫu nhiên rời rạc 146 Phân phối Bernoulli 147 Phân phối nhị thức 147 Phân phối Poisson 149 Phân phối xác suất liên tục 150 Các thuộc tính của hàm mật độ xác suất 151 Phân phối đồng nhất 152 Phân phối chuẩn 154 Hàm NORM.INV 156 Phân phối chuẩn chuẩn 156 Sử dụng bảng phân phối chuẩn chuẩn 158 Phân phối lũy thừa 158 Các phân phối hữu ích khác 160 Phân phối liên tục 160 Lấy mẫu ngẫu nhiên từ phân phối xác suất 161 Lấy Mẫu Từ Phân Phối Xác Suất Rời Rạc 162 Lấy Mẫu Từ Phổ Biến Phân phối xác suất 163 Hàm phân phối xác suất trong Bộ giải tích sân ga 166 Mô hình hóa và phân phối dữ liệu phù hợp 168 Goodness of Fit 170 Phân phối Khớp với Nền tảng Bộ giải Phân tích 170 Thuật ngữ chính 172 Vấn đề và bài tập 173 Tình huống: Bãi cỏ biểu diễn Thiết bị 179 Chương 6: Lấy mẫu và ước lượng 181 Mục tiêu học tập 181 Lấy mẫu thống kê 182 Phương pháp lấy mẫu 182 Ước tính các tham số dân số 185 Công cụ Ước tính Không chệch 186 Lỗi trong Ước tính Điểm 186 Lỗi lấy mẫu 187 Hiểu lỗi lấy mẫu 187 ix Machine Translated by Google x nội dung Phân phối lấy mẫu 189 Phân phối lấy mẫu của giá trị trung bình 189 của Áp dụng phân phối lấy mẫu giá trị trung bình 190 Khoảng ước lượng 190 Khoảng tin cậy 191 Khoảng tin cậy cho giá trị trung bình với tiêu chuẩn dân số đã biết Độ lệch 192 Phân phối t 193 Khoảng tin cậy cho Giá trị trung bình với độ lệch chuẩn dân số chưa biết 194 Khoảng tin cậy cho một tỷ lệ 194 Các loại khoảng tin cậy bổ sung 196 Sử dụng khoảng tin cậy để ra quyết định 196 Khoảng dự đoán 197 Khoảng tin cậy và cỡ mẫu 198 Thuật ngữ chính 200 Vấn đề và Bài tập 200 Tình huống: Quảng cáo Drout Dự án nghiên cứu 202 Trường hợp: Thiết bị làm cỏ hiệu suất 203 Chương 7: Suy luận thống kê 205 Mục tiêu học tập 205 Kiểm Định Giả Thuyết 206 Thủ tục kiểm định giả thuyết 207 Thử nghiệm giả thuyết một mẫu 207 Hiểu các Lỗi Tiềm ẩn trong Kiểm tra Giả thuyết 208 Chọn bài kiểm tra Thống kê 209 Rút ra kết luận 210 Kiểm tra giả thuyết về giá trị trung bình hai phía 212 Giá trị p 212 Kiểm định một mẫu cho các tỷ lệ 213 Khoảng tin cậy và kiểm định giả thuyết 214 Kiểm Định Giả Thuyết Hai Mẫu 215 Thử nghiệm hai mẫu để tìm sự khác biệt về phương tiện 215 Thử nghiệm hai mẫu để tìm phương tiện với Các mẫu được ghép đôi 218 Kiểm tra sự bằng nhau của phương sai 219 Phân Tích Phương Sai (ANOVA) 221 Giả định của ANOVA 223 Chi-Square Test cho Độc lập 224 Thận trọng khi sử dụng Chi-Square Test 226 Thuật ngữ chính 227 Vấn đề và bài tập 228 Tình huống: Nghiên cứu quảng cáo Drout Trường hợp dự án 231: Thiết bị cắt cỏ hiệu suất 231 Phần 3: Phân tích dự đoán Chương 8: Đường xu hướng và Phân tích hồi quy 233 Mục tiêu học tập 233 Mô hình hóa các mối quan hệ và xu hướng trong dữ liệu 234 Hồi quy tuyến tính đơn giản 238 Tìm Đường hồi quy phù hợp nhất 239 Hồi quy bình phương nhỏ nhất 241 Hồi quy tuyến tính đơn giản với hồi quy Excel 243 dưới dạng phân tích Phương sai 245 Kiểm định giả thuyết cho các hệ số hồi quy 245 Khoảng tin cậy cho các hệ số hồi quy 246 Machine Translated by Google nội dung xi Giả định phân tích và hồi quy phần dư 246 Kiểm tra giả định 248 Hồi quy tuyến tính bội 249 Xây Dựng Các Mô Hình Hồi Quy Tốt 254 Tương Quan và Đa Cộng Tuyến 256 Các Vấn Đề Thực Tế về Đường Xu Hướng và Hồi Quy người mẫu 257 Hồi quy với các biến độc lập phân loại 258 Các biến phân loại có nhiều hơn hai cấp 261 Mô hình hồi quy với số hạng phi tuyến 263 Các kỹ thuật nâng cao để lập mô hình hồi quy bằng XLMiner 265 Thuật ngữ chính 268 Vấn đề và bài tập 268 Tình huống: Bãi cỏ biểu diễn Thiết bị 272 Chương 9: Kỹ thuật dự báo 273 Mục tiêu học tập 273 Dự báo định tính và phán đoán 274 Tương tự lịch sử 274 Phương pháp Delphi 275 Các chỉ báo và chỉ số 275 Mô hình dự báo thống kê 276 Các mô hình dự báo cho chuỗi thời gian tĩnh 278 Các mô hình trung bình động 278 Số liệu lỗi và độ chính xác dự báo 282 Các mô hình làm mịn hàm mũ 284 Các mô hình dự báo cho chuỗi thời gian với xu hướng tuyến tính 286 Làm mịn hàm mũ kép 287 Dự báo dựa trên hồi quy cho chuỗi thời gian với xu hướng tuyến tính 288 Chuỗi thời gian dự báo với tính thời vụ 290 Các mô hình dự báo theo mùa dựa trên hồi quy 290 Holt-Winters Dự báo cho Chuỗi thời gian theo mùa 292 Mô hình Holt-Winters để dự báo chuỗi thời gian với Tính thời vụ và xu hướng 292 Lựa chọn các mô hình dự báo dựa trên chuỗi thời gian phù hợp 294 Dự báo hồi quy với các biến nhân quả 295 Thực Hành Dự Báo 296 Thuật ngữ chính 298 Vấn đề và bài tập 298 Tình huống: Sân cỏ biểu diễn Thiết bị 300 Chương 10: Giới thiệu về Khai thác dữ liệu 301 Mục tiêu học tập 301 Phạm vi khai thác dữ liệu 303 Khai thác và thu nhỏ dữ liệu 304 Lấy mẫu 304 Trực quan hóa dữ liệu 306 Dữ liệu bẩn 308 cụm Phân tích 310 Phân loại 315 Giải thích trực quan về Phân loại 316 Phân loại Đo lường Hiệu suất 316 Sử dụng dữ liệu đào tạo và xác thực 318 Dữ liệu mới 320 phân loại Machine Translated by Google xii nội dung Kỹ Thuật Phân Loại 320 k-Hàng xóm gần nhất (k-NN) 321 Phân tích phân biệt 324 Logistic Hồi quy 327 Khai phá luật kết hợp 331 Mô Hình Nhân Quả 334 Các thuật ngữ chính 338 Vấn đề và bài tập 338 Tình huống: Sân cỏ biểu diễn Thiết bị 340 Chương 11: Mô hình hóa và phân tích bảng tính 341 Mục tiêu học tập 341 Chiến lược cho mô hình quyết định dự đoán 342 Xây dựng Mô hình Sử dụng Toán học Đơn giản 342 Xây dựng Mô hình Sử dụng Ảnh hưởng sơ đồ 343 Triển khai Mô hình trên Bảng tính 344 Thiết kế bảng tính 344 Chất lượng bảng tính 346 Ứng dụng bảng tính trong Business Analytics 349 Mô hình liên quan đến nhiều khoảng thời gian 351 Mua một khoảng thời gian Quyết định 353 Overbooking Quyết định 354 Các giả định về mô hình, tính phức tạp và tính hiện thực 356 Dữ liệu và Mô hình 356 Phát triển ứng dụng Excel thân thiện với người dùng 359 Xác thực dữ liệu 359 Tên phạm vi 359 Điều khiển biểu mẫu 360 Phân tích sự không chắc chắn và giả định mô hình 362 Phân tích What-If 362 Bảng dữ liệu 364 Trình quản lý kịch bản 366 Mục Tiêu Đi Tìm 367 Phân tích mô hình bằng cách sử dụng Nền tảng bộ giải phân tích 368 Phân tích độ nhạy tham số 368 Biểu đồ lốc xoáy 370 Các thuật ngữ chính 371 Vấn đề và bài tập 371 Tình huống: Sân cỏ biểu diễn Thiết bị 376 Chương 12: Mô phỏng Monte Carlo và Phân tích Rủi ro 377 Mục tiêu học tập 377 Mô hình bảng tính với các biến ngẫu nhiên 379 Mô phỏng Monte Carlo 379 Mô phỏng Monte Carlo Sử dụng Nền tảng Bộ giải Phân tích 381 Xác định các đầu vào mô hình không chắc chắn 381 Xác định các ô đầu ra 384 Chạy mô phỏng 384 Xem và phân tích kết quả 386 Mô hình phát triển sản phẩm mới 388 Khoảng tin cậy cho giá trị trung bình 391 Biểu đồ độ nhạy 392 Lớp phủ Biểu đồ 392 Biểu đồ xu hướng 394 Biểu đồ hình hộp 394 Báo cáo mô phỏng 395 Người bán báo Model 395 Lỗ hổng của Trung bình 395 Mô phỏng Monte Carlo Sử dụng Lịch sử Dữ liệu 396 Mô phỏng Monte Carlo bằng phân phối được trang bị 397 Đặt trước vượt mức Mẫu 398 Phân phối tùy chỉnh trong Nền tảng bộ giải phân tích 399 Machine Translated by Google nội dung xiii Mô hình ngân sách tiền mặt 400 Các biến không chắc chắn tương quan 403 Các thuật ngữ chính 407 Vấn đề và bài tập 407 Case: Performance Lawn Thiết Bị 414 Phần 4: Phân tích theo quy định Chương 13: Tối ưu tuyến tính 415 Mục tiêu học tập 415 Xây dựng mô hình tối ưu hóa tuyến tính 416 Xác định các yếu tố cho mô hình tối ưu hóa 416 Mô hình dịch thuật Thông tin vào biểu thức toán học 417 Tìm hiểu thêm về ràng buộc 419 Đặc điểm của mô hình tối ưu hóa tuyến tính 420 Triển khai các Mô hình Tối ưu hóa Tuyến tính trên Bảng tính 420 Các hàm Excel cần tránh trong Tối ưu hóa tuyến tính 422 Giải các mô hình tối ưu tuyến tính 422 Sử dụng Bộ giải Tiêu chuẩn 423 Sử dụng Bộ giải Cao cấp 425 Bộ giải Báo cáo trả lời 426 Giải thích đồ họa của Tối ưu hóa tuyến tính 428 Cách thức hoạt động của bộ giải 433 Cách bộ giải tạo tên trong báo cáo 435 Kết quả bộ giải và thông báo giải pháp 435 Giải pháp tối ưu duy nhất 436 Phương án thay thế (Nhiều) Tối ưu Giải pháp 436 Không giới hạn Giải pháp 437 Không khả thi 438 Sử dụng các Mô hình Tối ưu hóa để Dự đoán và Hiểu biết sâu sắc 439 Báo cáo độ nhạy của bộ giải 441 Sử dụng Báo cáo độ nhạy 444 Phân tích tham số trong Nền tảng bộ giải phân tích 446 Các thuật ngữ chính 450 Vấn đề và bài tập 450 Tình huống: Sân cỏ biểu diễn Thiết bị 455 Chương 14: Ứng dụng của Tối ưu tuyến tính 457 Mục tiêu học tập 457 Các loại ràng buộc trong mô hình tối ưu hóa 459 Mô hình lựa chọn quy trình 460 Thiết kế bảng tính và báo cáo bộ giải 461 Đầu ra bộ giải và trực quan hóa dữ liệu 463 Pha trộn các mô hình 467 Đối phó với sự không khả thi 468 Các mô hình đầu tư danh mục đầu tư 471 Đánh giá Rủi ro so với Phần thưởng 473 Các vấn đề Mở rộng Quy mô khi Sử dụng Bộ giải 474 Mô hình vận tải 476 Định dạng Báo cáo Độ nhạy 478 Suy biến 480 Mô hình lập kế hoạch sản xuất nhiều giai đoạn 480 Xây dựng các mô hình thay thế 482 Mô hình lập kế hoạch tài chính đa kỳ 485 Machine Translated by Google xiv nội dung Các mô hình có biến giới hạn 489 Các biến phụ trợ cho ràng buộc ràng buộc 493 Mô hình phân bổ sản xuất/tiếp thị 495 Sử Dụng Thông Tin Độ Nhạy Đúng Cách 497 Thuật ngữ chính 499 Vấn đề và bài tập 499 Tình huống: Sân cỏ biểu diễn Thiết Bị 511 Chương 15: Tối ưu số nguyên 513 Mục tiêu học tập 513 Giải mô hình với các biến số nguyên tổng quát 514 Mô hình Lập kế hoạch Lực lượng lao động 518 Giải pháp thay thế tối ưu 519 Các mô hình tối ưu hóa số nguyên với các biến nhị phân 523 Project-Selection Models 524 Sử dụng các biến nhị phân để mô hình logic Ràng buộc 526 Mô hình Vị trí 527 Phân tích Tham số 529 Mô hình chuyển nhượng khách hàng để tối ưu hóa chuỗi cung ứng 530 Mô hình tối ưu hóa số nguyên hỗn hợp 533 Vị trí nhà máy và mô hình phân phối 533 Biến nhị phân, Hàm IF và Tính phi tuyến tính trong xây dựng mô hình 534 Mô hình chi phí cố định 536 Các thuật ngữ chính 538 Vấn đề và bài tập 538 Tình huống: Bãi cỏ biểu diễn Thiết bị 547 Chương 16: Phân tích quyết định 553 Mục tiêu học tập 553 Xây dựng quyết định vấn đề 555 Các chiến lược quyết định không có xác suất kết quả 556 Các Chiến lược Quyết định cho Mục tiêu Tối thiểu hóa 556 Các Chiến lược Quyết định cho một Tối đa hóa mục tiêu 557 Các quyết định có mâu thuẫn với các mục tiêu 558 Chiến lược Quyết định với Xác suất Kết quả 560 Chiến lược hoàn trả trung bình 560 Chiến lược giá trị kỳ vọng 560 Đánh giá rủi ro 561 Cây quyết định 562 Cây quyết định và Mô phỏng Monte Carlo 566 Cây quyết định và Rủi ro 566 Phân tích độ nhạy trong cây quyết định 568 Giá trị của thông tin 569 Quyết định với thông tin mẫu 570 Quy tắc Bayes 570 Tiện ích và ra quyết định 572 Xây Dựng Hàm Tiện Ích 573 Hàm Tiện Ích Hàm Mũ 576 Thuật ngữ chính 578 Vấn đề và bài tập 578 Tình huống: Bãi cỏ biểu diễn Thiết bị 582 Machine Translated by Google nội dung Chương bổ sung A (trực tuyến) Tối ưu hóa phi tuyến tính và không trơn tru Chương bổ sung B (trực tuyến) Các mô hình tối ưu hóa với sự không chắc chắn Các chương trực tuyến có sẵn để tải xuống tại www.pearsonhighered.com/evans. Phụ lục A 585 Thuật ngữ 609 Chỉ mục 617 xv Machine Translated by Google Trang này cố ý để trống Machine Translated by Google lời nói đầu Năm 2007, Thomas H. Davenport và Jeanne G. Harris đã viết một cuốn sách mang tính đột phá, Cạnh tranh dựa trên phân tích: Khoa học mới về chiến thắng (Boston: Nhà xuất bản Trường Kinh doanh Harvard). Họ đã mô tả có bao nhiêu tổ chức đang sử dụng phân tích một cách chiến lược để đưa ra quyết định tốt hơn và cải thiện giá trị của khách hàng và cổ đông. Trong vài năm qua, chúng tôi đã chứng kiến sự tăng trưởng đáng kể về số liệu phân tích trong tất cả các loại hình tổ chức. Viện Nghiên cứu Hoạt động và Khoa học Quản lý (INFORMS) lưu ý rằng phần mềm phân tích với tư cách là một dịch vụ được dự đoán sẽ tăng trưởng gấp ba lần tốc độ của các phân khúc kinh doanh khác trong những năm tới.1 Ngoài ra, MIT Sloan Management Review hợp tác với Viện Giá trị Kinh doanh của IBM đã khảo sát một mẫu toàn cầu gồm gần 3.000 giám đốc điều hành, nhà quản lý và nhà phân tích.2 Nghiên cứu này kết luận rằng các tổ chức hoạt động hiệu quả nhất sử dụng số liệu phân tích nhiều hơn năm lần so với các tổ chức hoạt động kém hiệu quả hơn, rằng việc cải thiện thông tin và hoạt động phân tích là ưu tiên hàng đầu trong các tổ chức này và rằng nhiều tổ chức cảm thấy họ phải chịu áp lực đáng kể trong việc áp dụng các phương pháp phân tích và thông tin nâng cao. Kể từ khi các báo cáo này được xuất bản, sự quan tâm và việc sử dụng phân tích đã tăng lên đáng kể. Trên thực tế, phân tích kinh doanh đã tồn tại hơn nửa thế kỷ. Các trường kinh doanh từ lâu đã giảng dạy nhiều chủ đề cốt lõi trong phân tích kinh doanh—thống kê, phân tích dữ liệu, hệ thống hỗ trợ quyết định và thông tin cũng như khoa học quản lý. Tuy nhiên, những chủ đề này theo truyền thống đã được trình bày trong các khóa học riêng biệt và độc lập và được hỗ trợ bởi sách giáo khoa với rất ít sự tích hợp theo chủ đề. Cuốn sách này được thiết kế độc đáo để trình bày nguyên tắc phân tích kinh doanh mới nổi theo một cách thống nhất nhất quán với định nghĩa hiện đại về lĩnh vực này. Về cuốn sách Cuốn sách này cung cấp cho sinh viên kinh doanh đại học và sinh viên mới tốt nghiệp các khái niệm và công cụ cơ bản cần thiết để hiểu vai trò mới nổi của phân tích kinh doanh trong các tổ chức, để áp dụng các công cụ phân tích kinh doanh cơ bản trong môi trường bảng tính và giao tiếp với các chuyên gia phân tích để sử dụng và diễn giải các mô hình và kết quả phân tích để đưa ra các quyết định kinh doanh tốt hơn. Chúng tôi thực hiện một cách tiếp cận cân bằng, toàn diện trong việc xem xét các phân tích kinh doanh từ các quan điểm mô tả, dự đoán và quy định mà ngày nay xác định nguyên tắc. 1Anne Robinson, Jack Levis và Gary Bennett, INFORMS News: INFORMS chính thức tham gia Phong trào Analyt ics. http:// www.informs.org/ORMS-Today/Public-Articles/Oct-Volume-37-Number-5/ THÔNG TIN-Tin tức-THÔNG TIN-để-Chính thức-Tham gia-Chuyển động Phân tích. 2 “Phân tích: Con đường mới dẫn đến giá trị,” Báo cáo nghiên cứu đánh giá quản lý MIT Sloan, mùa thu năm 2010. xvii Machine Translated by Google xviii lời nói đầu Cuốn sách này được tổ chức trong năm phần. 1. Nền tảng của phân tích kinh doanh Hai chương đầu tiên cung cấp nền tảng cơ bản cần thiết để hiểu phân tích kinh doanh và thao tác dữ liệu bằng Microsoft Excel. 2. Phân tích mô tả Chương 3 đến Chương 7 tập trung vào các công cụ cơ bản và phương pháp phân tích dữ liệu và thống kê, tập trung vào trực quan hóa dữ liệu, phép đo thống kê mô tả, phân phối xác suất và mô hình hóa dữ liệu, lấy mẫu và ước tính cũng như suy luận thống kê. Chúng tôi tán thành các khuyến nghị của Hiệp hội Thống kê Hoa Kỳ về việc giảng dạy thống kê nhập môn, trong đó bao gồm nhấn mạnh kiến thức thống kê và phát triển tư duy thống kê, nhấn mạnh sự hiểu biết về khái niệm hơn là kiến thức đơn thuần về quy trình và sử dụng công nghệ để phát triển hiểu biết về khái niệm và phân tích dữ liệu. Chúng tôi tin rằng những mục tiêu này có thể đạt được mà không cần giới thiệu mọi kỹ thuật có thể tưởng tượng được vào một cuốn sách 800–1.000 trang như nhiều cuốn sách chính thống hiện nay. Trên thực tế, chúng tôi đề cập đến tất cả nội dung thiết yếu mà bang Ohio đã quy định đối với số liệu thống kê kinh doanh dành cho sinh viên đại học trên tất cả các trường cao đẳng và đại học công lập. 3. Phân tích dự đoán Trong phần này, các Chương 8 đến 12 phát triển các phương pháp áp dụng các kỹ thuật hồi quy, dự báo và khai thác dữ liệu, xây dựng và phân tích các mô hình dự đoán trên bảng tính, cũng như mô phỏng và phân tích rủi ro. 4. Phân tích theo quy định Các chương từ 13 đến 15, cùng với hai chương bổ sung trực tuyến, khám phá các mô hình và ứng dụng tối ưu hóa tuyến tính, số nguyên và phi tuyến tính, bao gồm tối ưu hóa với độ không đảm bảo. 5. Đưa ra quyết định Chương 16 tập trung vào các triết lý, công cụ và kỹ thuật phân tích quyết định. Phiên bản thứ hai đã được sửa đổi cẩn thận để cải thiện cả nội dung và tổ chức sư phạm của tài liệu. Cụ thể, ấn bản này nhấn mạnh hơn nhiều vào trực quan hóa dữ liệu, kết hợp việc sử dụng các công cụ Excel bổ sung, các tính năng mới của Nền tảng bộ giải phân tích dành cho giáo dục cũng như nhiều bộ dữ liệu và bài toán mới. Các chương từ 8 đến 12 đã được sắp xếp lại từ ấn bản đầu tiên để cải thiện luồng logic của các chủ đề và cung cấp sự chuyển đổi tốt hơn sang các ứng dụng và mô hình bảng tính. Các tính năng của cuốn sách Các ví dụ được đánh số—nhiều ví dụ ngắn, xuyên suốt tất cả các chương minh họa các khái niệm và kỹ thuật, đồng thời giúp học sinh học cách áp dụng các kỹ thuật và hiểu kết quả. “Phân tích trong thực hành”—ít nhất một chương trong mỗi chương, tính năng này mô tả các ứng dụng thực tế trong kinh doanh. Mục tiêu học tập—liệt kê các mục tiêu mà học sinh có thể đạt được sau khi học chương này. Machine Translated by Google xix lời nói đầu Các thuật ngữ chính—được in đậm trong văn bản và được liệt kê ở cuối mỗi chương, những từ này sẽ hỗ trợ học sinh khi các em ôn tập chương này và ôn tập cho các kỳ thi. Các thuật ngữ chính và định nghĩa của chúng có trong bảng thuật ngữ ở cuối sách. Các vấn đề và bài tập cuối chương—giúp củng cố kiến thức đã học qua chương này. Các trường hợp tích hợp—cho phép học sinh suy nghĩ độc lập và áp dụng các công cụ liên quan ở cấp độ học tập cao hơn. Tập dữ liệu và Mô hình Excel—được sử dụng trong các ví dụ và vấn đề và có sẵn cho sinh viên tại www.pearsonhighered.com/evans. Hỗ trợ phần mềm Mặc dù nhiều loại gói phần mềm khác nhau được sử dụng trong các ứng dụng phân tích kinh doanh trong ngành, nhưng cuốn sách này sử dụng phần bổ trợ Excel mạnh mẽ của Microsoft Excel và Frontline Systems, Nền tảng bộ giải phân tích dành cho giáo dục, cùng nhau cung cấp các khả năng mở rộng cho phân tích kinh doanh. Nhiều gói phần mềm thống kê có sẵn và cung cấp các khả năng rất mạnh mẽ; tuy nhiên, họ thường yêu cầu giấy phép đặc biệt (và tốn kém) và các yêu cầu học tập bổ sung. Các gói này chắc chắn phù hợp với các chuyên gia phân tích và sinh viên trong các chương trình thạc sĩ chuyên đào tạo các chuyên gia như vậy. Tuy nhiên, đối với sinh viên kinh doanh nói chung, chúng tôi tin rằng Microsoft Ex cel với các phần bổ trợ phù hợp sẽ phù hợp hơn. Mặc dù Microsoft Excel có thể có một số thiếu sót trong khả năng thống kê, nhưng thực tế là mọi sinh viên kinh doanh sẽ sử dụng Excel trong suốt sự nghiệp của họ. Excel hỗ trợ tốt cho việc trực quan hóa dữ liệu, phân tích thống kê cơ bản, phân tích điều gì xảy ra nếu và nhiều khía cạnh quan trọng khác của phân tích kinh doanh. Trên thực tế, khi sử dụng cuốn sách này, sinh viên sẽ đạt được mức độ thành thạo cao với nhiều tính năng của Excel sẽ phục vụ tốt cho sự nghiệp tương lai của họ. Ngoài ra, phần bổ trợ Excel của Nền tảng bộ giải phân tích dành cho giáo dục của Frontline Systems được tích hợp xuyên suốt cuốn sách. Phần bổ trợ này, được sử dụng trong số các tổ chức kinh doanh hàng đầu trên thế giới, cung cấp thông tin toàn diện về nhiều chủ đề phân tích kinh doanh khác trong một nền tảng chung. Phần bổ trợ này cung cấp hỗ trợ cho mô hình hóa dữ liệu, dự báo, mô phỏng Monte Carlo và phân tích rủi ro, khai thác dữ liệu, tối ưu hóa và phân tích quyết định. Cùng với Excel, nó cung cấp cơ sở toàn diện để tìm hiểu phân tích kinh doanh một cách hiệu quả. Gửi các em học sinh Để tận dụng tối đa cuốn sách này, bạn cần phải làm nhiều hơn là chỉ đọc nó! Nhiều ví dụ mô tả chi tiết cách sử dụng và áp dụng các công cụ hoặc phần bổ trợ Excel khác nhau. Chúng tôi thực sự khuyên bạn nên làm việc thông qua các ví dụ này trên máy tính của mình để sao chép các kết quả và kết quả được hiển thị trong văn bản. Bạn cũng nên so sánh các công thức toán học với các công thức bảng tính và thực hiện các phép tính số cơ bản bằng tay. Chỉ theo cách này, bạn mới học cách sử dụng các công cụ và kỹ thuật một cách hiệu quả, hiểu rõ hơn về các khái niệm cơ bản của phân tích kinh doanh và nâng cao trình độ sử dụng Microsoft Excel, thứ sẽ phục vụ tốt cho bạn trong sự nghiệp tương lai. Truy cập trang web của Companion (www.pearsonhighered.com/evans) để truy cập vào các thông tin sau: Tệp Trực tuyến: Tập dữ liệu và Mô hình Excel—các tệp được sử dụng với các ví dụ được đánh số và các vấn đề ở cuối chương (Để dễ tham khảo, các tên tệp liên quan được in nghiêng và nêu rõ khi sử dụng trong các ví dụ.) Machine Translated by Google xx lời nói đầu Hướng dẫn tải xuống phần mềm: Truy cập vào Nền tảng bộ giải phân tích dành cho giáo dục —giấy phép miễn phí, kéo dài một học kỳ của phiên bản đặc biệt này của phần mềm Nền tảng bộ giải phân tích của Frontline Systems dành cho Microsoft Excel. Được tích hợp xuyên suốt cuốn sách, phần mềm bổ sung Excel Nền tảng bộ giải phân tích dành cho giáo dục của Frontline Systems cung cấp cơ sở toàn diện để tìm hiểu phân tích kinh doanh một cách hiệu quả, bao gồm: Risk Solver Pro—Chương trình này là một công cụ để phân tích rủi ro, mô phỏng và tối ưu hóa trong Excel. Có một liên kết nơi bạn sẽ tìm hiểu thêm về phần mềm này tại www.solver.com. XLMiner—Chương trình này là một bổ trợ khai thác dữ liệu cho Excel. Có một liên kết nơi bạn sẽ tìm hiểu thêm về phần mềm này tại www.solver.com/xlminer. Nền tảng Bộ giải Cao cấp, một siêu bộ lớn của Bộ giải Cao cấp và cho đến nay là trình tối ưu hóa bảng tính mạnh mẽ nhất, với trình thông dịch PSI để phân tích mô hình và năm Công cụ Bộ giải được tích hợp sẵn cho tuyến tính, bậc hai, SOCP, số nguyên hỗn hợp, phi tuyến tính, không trơn và tối ưu hóa toàn cầu. Khả năng giải quyết các mô hình tối ưu hóa với các quyết định truy đòi và không chắc chắn, sử dụng tối ưu hóa mô phỏng, lập trình ngẫu nhiên, tối ưu hóa mạnh mẽ và phân tách ngẫu nhiên. Khả năng phân tích độ nhạy và cây quyết định tích hợp mới, được phát triển với sự hợp tác của Giáo sư Chris Albright (SolverTable), Giáo sư. Stephen Powell và Ken Baker (Bộ công cụ nhạy cảm) và Giáo sư Mike Middleton (TreePlan). Một phiên bản đặc biệt của Gurobi Solver—trình tối ưu hóa số nguyên hỗn hợp tuyến tính hiệu suất cực cao được tạo bởi các nhà khoa học máy tính đáng kính tại Gurobi Optimization. Để đăng ký và tải phần mềm thành công, bạn cần có Mã Texbook và Mã khóa học. Mã sách giáo khoa là EBA2 và người hướng dẫn của bạn sẽ cung cấp Mã khóa học. Bản tải xuống này bao gồm giấy phép 140 ngày để sử dụng phần mềm. Truy cập www.pearsonhighed.com/evans để biết hướng dẫn tải xuống đầy đủ. Kính gửi quý thầy cô Trung tâm tài nguyên của người hướng dẫn—Truy cập qua liên kết tại www.pearsonhighered.com/ evans, Trung tâm tài nguyên của người hướng dẫn chứa các tệp điện tử dành cho Hướng dẫn giải pháp hoàn chỉnh của người hướng dẫn, bản trình bày bài giảng PowerPoint và Tệp mục kiểm tra. Đăng ký, mua lại, đăng nhập tại www.pearsonhighered.com/irc, người hướng dẫn có thể truy cập nhiều tài nguyên in ấn, phương tiện và trình chiếu có sẵn với cuốn sách này ở định dạng kỹ thuật số có thể tải xuống. Tài nguyên cũng có sẵn cho các nền tảng quản lý khóa học như Blackboard, WebCT và CourseCompass. Cần giúp đỡ? Nhóm hỗ trợ kỹ thuật chuyên dụng của Pearson Education sẵn sàng làm trợ giảng cho các câu hỏi về các phương tiện bổ sung đi kèm với văn bản này. Truy cập http:// 247pearsoned.com để biết câu trả lời cho các câu hỏi thường gặp và số điện thoại hỗ trợ người dùng miễn phí. Các bổ sung có sẵn để thông qua người hướng dẫn. Mô tả chi tiết được cung cấp tại Trung tâm tài nguyên của người hướng dẫn. Hướng dẫn Giải pháp dành cho Người hướng dẫn—Sổ tay Giải pháp dành cho Người hướng dẫn, được tác giả cập nhật và sửa đổi cho lần xuất bản thứ hai, bao gồm các giải pháp dựa trên Excel cho tất cả các vấn đề, bài tập và trường hợp ở cuối chương. của người hướng dẫn Machine Translated by Google lời nói đầu xxi Hướng dẫn giải pháp có sẵn để tải xuống bằng cách truy cập www.pearsonhighered. com/evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn. Bản trình bày PowerPoint—Các bản trình bày PowerPoint, đã được tác giả sửa đổi và cập nhật, có sẵn để tải xuống bằng cách truy cập www.pearsonhighered.com/ evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn. Các trang chiếu PowerPoint cung cấp cho người hướng dẫn các đề cương bài giảng riêng lẻ để đi kèm với văn bản. Các slide bao gồm gần như tất cả các hình, bảng và ví dụ từ văn bản. Giáo viên hướng dẫn có thể sử dụng nguyên trạng các ghi chú bài giảng này hoặc có thể dễ dàng sửa đổi các ghi chú để phản ánh các nhu cầu trình bày cụ thể. Ngân hàng đề thi—Ngân hàng đề thi do Paolo Catasti từ Đại học Virginia Common rich biên soạn, có sẵn để tải xuống bằng cách truy cập www.pearsonhighered. com/evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn. Nền tảng bộ giải phân tích dành cho giáo dục (ASPE)—Đây là phiên bản đặc biệt của phần mềm Nền tảng bộ giải phân tích của Frontline Systems dành cho Microsoft Excel. Để biết thêm thông tin về Nền tảng bộ giải phân tích dành cho giáo dục, hãy liên hệ với Hệ thống tiền tuyến theo số (888) 831–0333 (Hoa Kỳ và Canada), 775-831-0300 hoặc ac ademia@solver.com. Họ sẽ vui lòng cung cấp giấy phép đánh giá miễn phí cho các giảng viên đang cân nhắc áp dụng phần mềm và tạo Mã khóa học duy nhất cho khóa học của bạn mà sinh viên của bạn sẽ cần để tải xuống phần mềm. Họ có thể giúp bạn chuyển đổi các mô hình mô phỏng mà bạn có thể đã tạo bằng phần mềm khác để hoạt động với Nền tảng bộ giải phân tích (rất đơn giản). Sự nhìn nhận Tôi muốn cảm ơn các nhân viên tại Pearson Education vì tính chuyên nghiệp và sự tận tâm của họ để biến cuốn sách này thành hiện thực. Đặc biệt, tôi muốn cảm ơn Kerri Consalvo, Tatiana Anacki, Erin Kelly, Nicholas Sweeney và Patrick Barbera; Jen Carley tại Lumina Datamatics Ltd.; người kiểm tra độ chính xác Annie Puciloski; và người kiểm tra giải pháp Regina Krahenbuhl vì những đóng góp nổi bật của họ trong việc xuất bản cuốn sách này. Tôi cũng muốn cảm ơn Daniel Fylstra và nhân viên của anh ấy tại Frontline Systems đã hợp tác chặt chẽ với tôi để cho phép cuốn sách này trở thành cuốn sách đầu tiên bao gồm XLMiner với Nền tảng bộ giải phân tích. Nếu bạn có bất kỳ đề xuất hoặc chỉnh sửa nào, vui lòng liên hệ với tác giả qua email tại james.evans@uc.edu. James R. Evans Phòng Điều hành, Phân tích Kinh doanh và Hệ thống Thông tin Đại học Cincinnati Cincinnati, Ohio Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Giới thiệu về tác giả James R. Evans Giáo sư, Đại học Kinh doanh Cincinnati James R. Evans là giáo sư tại Khoa Điều hành, Phân tích Kinh doanh và Hệ thống Thông tin tại Trường Cao đẳng Kinh doanh tại Đại học Cincinnati. Ông có bằng BSIE và MSIE của Đại học Purdue và bằng Tiến sĩ Kỹ thuật Hệ thống và Công nghiệp của Đại học Georgia Tech. Tiến sĩ Evans đã xuất bản nhiều sách giáo khoa trong nhiều lĩnh vực kinh doanh khác nhau, bao gồm thống kê, mô hình quyết định và phân tích, mô phỏng và phân tích rủi ro, tối ưu hóa mạng, quản lý hoạt động, quản lý chất lượng và tư duy sáng tạo. Ông đã xuất bản hơn 90 bài báo trên các tạp chí như Khoa học Quản lý, Giao dịch IIE, Khoa học Quyết định, Giao diện, Tạp chí Quản lý Hoạt động, Tạp chí Quản lý Chất lượng, và nhiều tạp chí khác, đồng thời viết một loạt bài trong Giao diện về sự sáng tạo trong quản lý nghiên cứu khoa học và hoạt động trong những năm 1990. Ông cũng đã phục vụ trong nhiều ban biên tập tạp chí và là cựu chủ tịch và là thành viên của Viện Khoa học Quyết định. Năm 1996, anh là Người lọt vào Chung kết Giải thưởng Edelman của INFORMS như một phần của dự án tối ưu hóa chuỗi cung ứng với Procter & Gamble, được ghi nhận là đã giúp P&G tiết kiệm hơn 250.000.000 đô la hàng năm trong chuỗi cung ứng ở Bắc Mỹ của họ và tư vấn về mô hình phân tích rủi ro cho Cincinnati 2012's Đề xuất đấu thầu Thế vận hội Olympic. Là một chuyên gia quốc tế được công nhận về quản lý chất lượng, ông đã phục vụ trong Hội đồng Giám khảo và Hội đồng Giám khảo cho Giải thưởng Chất lượng Quốc gia Malcolm Baldrige. Phần lớn các nghiên cứu hiện tại của ông tập trung vào hiệu quả hoạt động xuất sắc của tổ chức và các biện pháp đảm bảo đo lường. xxiii Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Tín dụng Tín dụng văn bản Chương 1 Trang 2–3 “Sở thú & Vườn bách thảo Cincinnati” từ Sở thú Cincinnati Chuyển đổi Trải nghiệm của Khách hàng và Tăng Lợi nhuận, Bản quyền © 2012. Được sử dụng dưới sự cho phép của Tập đoàn IBM. Trang 4–5 “Các loại quyết định phổ biến có thể được cải thiện bằng cách sử dụng phân tích” của Thomas H. Davenport từ Cách các tổ chức đưa ra quyết định tốt hơn. Được xuất bản bởi SAS Institute, Inc. Trang 10–11 Phân tích trong ngành cho vay thế chấp và cho vay mua nhà của Craig Zielazny. Được sử dụng dưới sự cho phép của Craig Zielazny. Trang 26 Đoạn trích của Thomas Olavson, Chris Fry từ Công cụ hỗ trợ ra quyết định trên bảng tính: Bài học kinh nghiệm tại Hewlett-Packard. Xuất bản bởi Giao diện. Trang 29–30 Phân tích trong thực tế: Phát triển các công cụ phân tích hiệu quả tại Hewlett-Packard: Thomas Olvason; Chris Fry; Giao diện Trang 33 Dự án Nghiên cứu Quảng cáo Drout của Jamie Drout. Được sử dụng dưới sự cho phép của Jamie Drout. Chương 5 Trang 151 Đoạn trích từ Định giá trên Priceline của Chris K. Anderson. Xuất bản bởi Giao diện. Chương 7 Trang 227 Dự án Cải thiện Dịch vụ Bộ phận Trợ giúp của Francisco Endara M từ Bộ phận Trợ giúp Cải thiện Dịch vụ và Tiết kiệm Tiền với Six Sigma. Được sử dụng dưới sự cho phép của Hiệp hội Chất lượng Hoa Kỳ. Chương 12 Trang 410–411 Thực hiện các mô hình bảng tính Monte Carlo quy mô lớn của Yusuf Jafry từ Hypo International Tăng cường quản lý rủi ro bằng Khung quản lý bảng tính an toàn, quy mô lớn. Xuất bản bởi Giao diện, © 2008. Chương 13 Trang 452–453 Đoạn trích của Srinivas Bollapragada từ Hệ thống Tối ưu hóa của NBC Tăng Doanh thu và Năng suất. Bản quyền © 2002. Được sử dụng dưới sự cho phép của Giao diện. Chương 15 Trang 536–537 Tối ưu hóa chuỗi cung ứng tại Procter & Gamble của Jeffrey D. Camm from Blending OR/MS, Judgement và GIS: Tái cấu trúc Chuỗi cung ứng của P&G. Xuất bản bởi Giao diện, © 1997. Chương 16 Trang 580–581 Đoạn trích từ Cách Bayer đưa ra quyết định phát triển thuốc mới của Jeffrey S Stonebraker. Xuất bản bởi Giao diện. Tín ảnh Chương 1 Trang 1 Phân tích Phân tích Kinh doanh: Mindscanner/Fotolia Trang 30 Máy tính, máy tính và bảng tính: Hans12/Fotolia Chương 2 Trang 37 Máy tính với Bảng tính: Gunnar Pippel/Shutterstock xxv Machine Translated by Google xxvi Tín dụng Chương 3 Trang 53 Bảng tính với kính lúp: Poles/Fotolia Trang 72 Dữ liệu Phân tích: 2jenn/Shutterstock Chương 4 Trang 95 Mẫu số đầy màu sắc: JonnyDrake/Shutterstock Trang 125 Màn hình máy tính với dữ liệu tài chính: NAN728/Shutterstock Chương 5 Trang 131 Bảng tính mờ dần: Fantasista/Fotolia Trang 151 Biểu đồ xác suất và chi phí bằng bút chì: Fantasista/Fotolia Trang 172 Khái niệm kinh doanh: Victor Correia/ màn trập Chương 6 Trang 181 Loạt biểu đồ thanh: Kalabukhava Iryna/Shutterstock Trang 185 Xe chở bia: Stephen Finn/Shutterstock Chương 7 Trang 205 Doanh nhân giải bài toán bằng đồ thị minh họa: Serg Nvns/Fotolia Page 227 Những người làm việc tại bộ phận trợ giúp: StockLite/Shutterstock Chương 8 Trang 233 Đồ thị 3D Đường xu hướng: Sheelamohanachandran/Fotolia Trang 253 Máy tính và Rủi ro: Gunnar Pippel/Shutterstock Trang 254C 4 thanh trượt nút điều hướng hình vuông trống trên web 2.0: Claudio Divizia/Shutterstock Trang 254L Biểu đồ đồ thị minh họa về tăng trưởng và suy thoái: Vector Minh họa/Shutterstock Trang 254R Máy đo âm thanh: Shutterstock Chương 9 Trang 273 Biển chỉ đường trong quá khứ và tương lai: Karen Roach/Fotolia Trang 298 NBC Hãng phim: Sean Pavone/Dreamstine Chương 10 Trang 301 Khái niệm chiến lược công nghệ khai thác dữ liệu: Kentoh/Shutterstock Trang 337 Doanh nhân vẽ sơ đồ tiếp thị: Helder Almeida/Shutterstock Chương 11 Trang 341 Bảng tính 3D: Dmitry/Fotolia Trang 349 Tòa nhà: ZUMA Báo chí/Newscom Trang 355 Phòng khám sức khỏe: Poprostskiy Alexey/Shutterstock Chương 12 Trang 377 Phân tích Rủi ro trong Kinh doanh: iQoncept/Shutterstock Trang 406 Tòa nhà văn phòng: Verdeskerde/Shutterstock Chương 13 Trang 415 Bảng tính 3D, biểu đồ, bút: Archerix/Shutterstock Trang 449 Ký hiệu diễn xuất trên truyền hình: Bizoo_n/Fotolia Chương 14 Trang 457 Những người làm việc trên bảng tính: Pressmaster/Shutterstock Page Biểu đồ thị trường chứng khoán màu 489: 2jenn/Shutterstock Chương 15 Trang 513 Động não Khái niệm: Dusit/Shutterstock Trang 523 Xe buýt Qantas Air A380: Gordon Tipene/Dreamstine Trang 533 Khái niệm chuỗi cung ứng: Kheng Guan Toh/ màn trập Chương 16 Trang 553 Người ở ngã tư đường: Michael D Brown/Shutterstock Trang 578 Ảnh ghép một số hình ảnh từ một cửa hàng thuốc: Sokolov/Shutterstock Phần bổ sung Chương A (trực tuyến) Trang 1 Các thẻ và nhãn giảm giá khác nhau: ít Whale/Shutterstock Page 9 Cơ sở Chữ Thập Đỏ: Littleny/Dreamstine Chương bổ sung B (trực tuyến) Trang 1 Người đàn ông bối rối suy nghĩ về quyết định đúng đắn: StockThings/Shutterstock Trang 7 Buồng lái Lockheed Constellation: Brad Whitsitt/ màn trập Machine Translated by Google Giới thiệu về Phân tích kinh doanh CHƯƠNG Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Xác định phân tích kinh doanh. Mô tả bốn nhóm phân loại dữ liệu, phân loại, thứ tự, Giải thích tại sao phân tích lại quan trọng trong môi trường kinh khoảng và tỷ lệ, đồng thời cung cấp ví dụ về từng nhóm. doanh ngày nay. Nêu một số ví dụ điển hình về các ứng dụng kinh doanh trong đó Giải thích khái niệm về một mô hình và các cách khác nhau để phân tích sẽ có lợi. mô tả một mô hình. Tóm tắt sự phát triển của phân tích kinh doanh và giải Xác định và liệt kê các yếu tố của một mô hình quyết định. thích các khái niệm về kinh doanh thông minh, nghiên cứu Xác định và cung cấp một ví dụ về sơ đồ ảnh hưởng. hoạt động và khoa học quản lý cũng như các hệ thống hỗ trợ ra quyết định. Sử dụng sơ đồ ảnh hưởng để xây dựng các mô hình toán học đơn Giải thích và cung cấp các ví dụ về phân tích mô tả, giản. dự đoán và quy định. Sử dụng các mô hình dự đoán để tính toán kết quả đầu ra của mô hình. Nêu các ví dụ về cách dữ liệu được sử dụng trong kinh doanh. Giải thích sự khác biệt giữa sự không chắc chắn và rủi ro. Giải thích sự khác biệt giữa tập dữ liệu và cơ sở dữ liệu. Định nghĩa các thuật ngữ tối ưu hóa, hàm mục tiêu và giải pháp tối ưu. Xác định một số liệu và giải thích các khái niệm về Giải thích sự khác biệt giữa mô hình quyết định tất định và đo lường và các biện pháp. ngẫu nhiên. Giải thích sự khác biệt giữa chỉ số rời rạc và chỉ số liên tục, Liệt kê và giải thích các bước giải quyết vấn đề đồng thời cung cấp ví dụ về từng loại. quá trình. 1 Machine Translated by Google 2 Chương 1 Giới thiệu về Phân tích Kinh doanh Hầu hết các bạn có thể đã từng đến sở thú, nhìn thấy các loài động vật, ăn gì đó và mua một số quà lưu niệm. Bạn có thể sẽ không nghĩ rằng việc quản lý vườn thú là rất khó khăn; xét cho cùng, đó chỉ là việc cho các con vật ăn và chăm sóc, phải không? Sở thú có thể là nơi cuối cùng mà bạn mong muốn tìm thấy các phân tích kinh doanh đang được sử dụng, nhưng giờ thì không còn nữa. Sở thú & Vườn bách thảo Cincinnati là “người áp dụng sớm” và là một trong những tổ chức đầu tiên thuộc loại này khai thác phân tích kinh doanh.1 Mặc dù tạo ra hơn hai phần ba ngân sách thông qua các nỗ lực gây quỹ của riêng mình, vườn thú muốn giảm sự phụ thuộc vào trợ cấp thuế địa phương hơn nữa bằng cách tăng lượng khách tham quan và doanh thu từ các nguồn thứ cấp như thành viên, thực phẩm và cửa hàng bán lẻ. Người quản lý cấp cao của sở thú phỏng đoán rằng cách tốt nhất để nhận ra nhiều giá trị hơn từ mỗi lần ghé thăm là mang đến cho du khách trải nghiệm khách hàng thực sự thay đổi. Bằng cách sử dụng phân tích kinh doanh để hiểu rõ hơn về hành vi của du khách và điều chỉnh các hoạt động theo sở thích của họ, sở thú dự kiến sẽ tăng lượng người tham dự, thúc đẩy số lượng thành viên và tối đa hóa doanh số bán hàng. Nhóm dự án—bao gồm các chuyên gia tư vấn từ IBM và BrightStar Partners, cũng như các giám đốc điều hành cấp cao từ sở thú—bắt đầu biến các mục tiêu của tổ chức thành các giải pháp kỹ thuật. Vườn thú đã làm việc để tạo ra một nền tảng phân tích kinh doanh có khả năng mang lại các mục tiêu mong muốn bằng cách kết hợp dữ liệu từ hệ thống bán vé và điểm bán hàng trong toàn bộ vườn thú với thông tin thành viên và dữ liệu địa lý được thu thập từ mã ZIP của tất cả khách tham quan. Điều này cho phép tạo báo cáo và bảng điều khiển cung cấp cho mọi người từ quản lý cấp cao đến nhân viên sở thú quyền truy cập thông tin theo thời gian thực giúp họ tối ưu hóa quản lý vận hành và chuyển đổi trải nghiệm của khách hàng. Bằng cách tích hợp dữ liệu dự báo thời tiết, sở thú có thể so sánh các dự báo hiện tại với dữ liệu bán hàng và tham dự lịch sử, hỗ trợ việc ra quyết định tốt hơn cho việc lập kế hoạch lao động và lập kế hoạch kiểm kê. Một lĩnh vực khác mà giải pháp mang lại cái nhìn sâu sắc mới là dịch vụ ăn uống. Bằng cách mở các cửa hàng ăn uống vào những thời điểm cụ thể trong ngày khi nhu cầu cao nhất (ví dụ: để các quầy bán kem mở cửa trong giờ cuối cùng trước khi sở thú đóng cửa), sở thú đã có thể tăng doanh thu đáng kể. Sở thú đã có thể tăng đáng kể lượng người tham dự và doanh thu, dẫn đến ROI hàng năm là 411%. Kinh doanh 1Nguồn: IBM Software Business Analtyics, “Cincinnati Zoo thay đổi trải nghiệm của khách hàng và tăng lợi nhuận,” © Tập đoàn IBM 2012. Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 3 sáng kiến phân tích đã tự trả tiền trong vòng ba tháng và mang lại lợi ích trung bình là 738.212 đô la mỗi năm. Đặc biệt, Sở thú đã chứng kiến doanh số bán vé tăng 4,2% bằng cách nhắm mục tiêu đến những du khách tiềm năng sống ở các mã ZIP cụ thể. Doanh thu thực phẩm tăng 25% nhờ tối ưu hóa sự kết hợp của các sản phẩm được bán và điều chỉnh các phương thức bán hàng để phù hợp với thời gian mua hàng cao điểm. Loại bỏ các sản phẩm bán chậm và nhắm mục tiêu khách truy cập bằng các chương trình khuyến mãi cụ thể đã giúp tăng 18% doanh số bán hàng hóa. Cắt giảm chi phí tiếp thị, tiết kiệm 40.000 đô la trong năm đầu tiên và giảm 43% chi phí quảng cáo bằng cách loại bỏ các chiến dịch không hiệu quả và phân khúc khách hàng để tiếp thị có mục tiêu hơn. Vì sự thành công của sở thú, các tổ chức khác như Point Defiance Zoo & Aquarium, ở bang Washington, và History Colorado, một bảo tàng ở Denver, đã bắt tay vào các sáng kiến tương tự. Trong những năm gần đây, phân tích ngày càng trở nên quan trọng trong thế giới kinh doanh, đặc biệt khi các tổ chức có quyền truy cập ngày càng nhiều dữ liệu. Các nhà quản lý ngày nay không còn đưa ra quyết định dựa trên phán đoán và kinh nghiệm thuần túy; họ dựa vào dữ liệu thực tế và khả năng thao tác và phân tích dữ liệu để hỗ trợ các quyết định của họ. Do đó, nhiều công ty gần đây đã thành lập bộ phận phân tích; chẳng hạn, IBM đã tổ chức lại hoạt động kinh doanh tư vấn của mình và thành lập một tổ chức mới gồm 4.000 người tập trung vào phân tích.2 Các công ty đang ngày càng tìm kiếm những sinh viên tốt nghiệp kinh doanh có khả năng hiểu và sử dụng phân tích. Trên thực tế, vào năm 2011, Cục Thống kê Lao động Hoa Kỳ dự đoán nhu cầu đối với các chuyên gia có chuyên môn phân tích sẽ tăng 24%. Bất kể sự tập trung kinh doanh học thuật của bạn là gì, bạn sẽ nhất có thể là người dùng phân tích trong tương lai ở một mức độ nào đó và làm việc với các chuyên gia phân tích. Mục đích của cuốn sách này là cung cấp cho bạn phần giới thiệu cơ bản về các khái niệm, phương pháp và mô hình được sử dụng trong phân tích kinh doanh để bạn không chỉ phát triển sự đánh giá cao về khả năng hỗ trợ và nâng cao các quyết định kinh doanh mà còn cả khả năng sử dụng phân tích kinh doanh ở cấp độ cơ bản trong công việc của bạn. Trong chương này, chúng tôi giới thiệu cho bạn lĩnh vực phân tích kinh doanh và đặt nền tảng cho nhiều khái niệm và kỹ thuật mà bạn sẽ học. 2Matthew J. Liberatore và Wenhong Luo, “The Analytics Movement: Implications for Operations Research,” Interfaces, 40, 4 (Tháng 7–Tháng 8 năm 2010): 313–324. Machine Translated by Google 4 Chương 1 Giới thiệu về Phân tích Kinh doanh Phân tích kinh doanh là gì? Mọi người đều đưa ra quyết định. Các cá nhân phải đối mặt với các quyết định cá nhân chẳng hạn như chọn chương trình đại học hoặc sau đại học, mua sản phẩm, chọn công cụ thế chấp và đầu tư để nghỉ hưu. Các nhà quản lý trong các tổ chức kinh doanh đưa ra nhiều quyết định mỗi ngày. Một số quyết định này bao gồm sản xuất sản phẩm nào và định giá như thế nào, đặt cơ sở ở đâu, thuê bao nhiêu người, phân bổ ngân sách quảng cáo ở đâu, có hay không thuê ngoài chức năng kinh doanh hoặc đầu tư vốn và cách lên lịch trình. sản xuất. Nhiều quyết định trong số này có những hậu quả kinh tế đáng kể; hơn nữa, chúng rất khó thực hiện vì dữ liệu không chắc chắn và thông tin không hoàn hảo về tương lai. Vì vậy, các nhà quản lý cần thông tin tốt và sự hỗ trợ để đưa ra những quyết định quan trọng không chỉ ảnh hưởng đến công ty mà còn cả sự nghiệp của họ. Điều làm cho các quyết định kinh doanh trở nên phức tạp ngày nay là lượng dữ liệu và thông tin sẵn có quá lớn. Dữ liệu để hỗ trợ các quyết định kinh doanh — bao gồm cả những dữ liệu được thu thập cụ thể bởi các công ty cũng như thông qua Internet và phương tiện truyền thông xã hội như Facebook — đang phát triển theo cấp số nhân và ngày càng trở nên khó hiểu và khó sử dụng. Đây là một trong những lý do tại sao phân tích lại quan trọng trong môi trường kinh doanh ngày nay. Phân tích kinh doanh, hay đơn giản là phân tích, là việc sử dụng dữ liệu, công nghệ thông tin, phân tích thống kê, phương pháp định lượng và các mô hình toán học hoặc dựa trên máy tính để giúp các nhà quản lý hiểu rõ hơn về hoạt động kinh doanh của họ và đưa ra các quyết định dựa trên thực tế tốt hơn. Phân tích kinh doanh là “một quá trình chuyển đổi dữ liệu thành hành động thông qua phân tích và hiểu biết sâu sắc trong bối cảnh ra quyết định của tổ chức và giải quyết vấn đề.”3 Phân tích kinh doanh được hỗ trợ bởi nhiều công cụ như Microsoft Excel và nhiều phần bổ trợ Excel khác nhau, phần mềm thống kê thương mại các gói như SAS hoặc Minitab và các bộ kinh doanh thông minh phức tạp hơn tích hợp dữ liệu với phần mềm phân tích. Các công cụ và kỹ thuật phân tích kinh doanh được sử dụng trên nhiều lĩnh vực trong nhiều tổ chức khác nhau để cải thiện việc quản lý các mối quan hệ khách hàng, hoạt động tài chính và tiếp thị, nguồn nhân lực, chuỗi cung ứng và nhiều lĩnh vực khác. Các ngân hàng hàng đầu sử dụng phân tích để dự đoán và ngăn chặn gian lận tín dụng. Các nhà sản xuất sử dụng phân tích để lập kế hoạch sản xuất, mua hàng và quản lý hàng tồn kho. Các nhà bán lẻ sử dụng phân tích để giới thiệu sản phẩm cho khách hàng và tối ưu hóa các chương trình khuyến mãi tiếp thị. Các công ty dược phẩm sử dụng nó để đưa các loại thuốc cứu người ra thị trường nhanh hơn. Ngành giải trí và nghỉ dưỡng cố gắng sử dụng phân tích để phân tích dữ liệu bán hàng lịch sử, hiểu hành vi của khách hàng, cải thiện thiết kế trang Web và tối ưu hóa lịch trình và đặt chỗ. Các hãng hàng không và khách sạn sử dụng số liệu phân tích để tự động đặt giá theo thời gian nhằm tối đa hóa doanh thu. Ngay cả các đội thể thao cũng đang sử dụng phân tích kinh doanh để xác định cả chiến lược trận đấu và giá vé tối ưu.4 Trong số nhiều tổ chức sử dụng phân tích để đưa ra quyết định chiến lược và quản lý hoạt động hàng ngày có Harrah's Entertainment, đội bóng chày Oakland Athletics và New England Các đội bóng yêu nước, Amazon.com, Procter & Gamble, United Parcel Service (UPS) và ngân hàng Capital One. Có báo cáo rằng gần như tất cả các công ty có doanh thu hơn 100 triệu đô la đều đang sử dụng một số hình thức phân tích kinh doanh. Một số loại quyết định phổ biến có thể được tăng cường bằng cách sử dụng phân tích bao gồm định giá (ví dụ: định giá cho hàng tiêu dùng và hàng công nghiệp, hợp đồng chính phủ và hợp đồng bảo trì), phân khúc khách hàng (ví dụ: xác định và nhắm mục tiêu các nhóm khách hàng chính trong ngành bán lẻ, bảo hiểm và thẻ tín dụng), 3Liberatore và Luo, “Phong trào phân tích.” 4 Jim Davis, “8 yếu tố cần thiết của phân tích kinh doanh,” trong “Brain Trust—Kích hoạt doanh nghiệp tự tin với phân tích kinh doanh” (Cary, NC: SAS Institute, Inc., 2010): 27–29. www.sas.com/bareport Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 5 bán hàng (ví dụ: xác định nhãn hiệu để mua, số lượng và phân bổ), vị trí (ví dụ: tìm vị trí tốt nhất cho các chi nhánh ngân hàng và máy ATM hoặc nơi bảo dưỡng thiết bị công nghiệp), và nhiều lĩnh vực khác trong hoạt động và chuỗi cung ứng, tài chính, tiếp thị và nguồn nhân lực—trên thực tế, trong mọi lĩnh vực kinh doanh.5 Các nghiên cứu khác nhau đã phát hiện ra mối quan hệ chặt chẽ giữa hiệu quả hoạt động của một công ty về lợi nhuận, doanh thu và lợi nhuận của cổ đông và việc sử dụng các phương pháp phân tích của công ty. Các tổ chức hoạt động hiệu quả nhất (những tổ chức vượt trội so với đối thủ cạnh tranh của họ) có khả năng sử dụng phân tích phức tạp hơn gấp ba lần so với những tổ chức hoạt động kém hơn và có nhiều khả năng tuyên bố rằng việc sử dụng phân tích của họ khiến họ khác biệt với các đối thủ cạnh tranh.6 Tuy nhiên, tìm kiếm lại cũng có gợi ý rằng các tổ chức bị choáng ngợp bởi dữ liệu và đấu tranh để hiểu cách sử dụng dữ liệu để đạt được kết quả kinh doanh và hầu hết các tổ chức chỉ đơn giản là không hiểu cách sử dụng phân tích để cải thiện doanh nghiệp của họ. Do đó, hiểu được khả năng và kỹ thuật phân tích là rất quan trọng để quản lý trong môi trường kinh doanh ngày nay. Một trong những ứng dụng mới nổi của phân tích là giúp các doanh nghiệp học hỏi từ truyền thông xã hội và khai thác dữ liệu truyền thông xã hội để tạo lợi thế chiến lược.7 Sử dụng phân tích, các công ty có thể tích hợp dữ liệu truyền thông xã hội với các nguồn dữ liệu truyền thống như khảo sát khách hàng, nhóm tiêu điểm và dữ liệu bán hàng; hiểu xu hướng và nhận thức của khách hàng về sản phẩm của họ; và tạo các báo cáo thông tin để hỗ trợ các nhà quản lý tiếp thị và nhà thiết kế sản phẩm. Sự phát triển của phân tích kinh doanh Các phương pháp phân tích, dưới hình thức này hay hình thức khác, đã được sử dụng trong kinh doanh hơn một thế kỷ. Tuy nhiên, sự phát triển hiện đại của phân tích bắt đầu với sự ra đời của máy tính vào cuối những năm 1940 và sự phát triển của chúng trong suốt những năm 1960 và hơn thế nữa. Những chiếc máy tính ban đầu cung cấp khả năng lưu trữ và phân tích dữ liệu theo những cách rất khó hoặc không thể thực hiện thủ công. Điều này tạo thuận lợi cho việc thu thập, quản lý, phân tích và báo cáo dữ liệu, thường được gọi là nghiệp vụ thông minh (BI), một thuật ngữ được đặt ra vào năm 1958 bởi một nhà nghiên cứu của IBM, Hans Peter Luhn.8 Phần mềm nghiệp vụ thông minh có thể trả lời những câu hỏi cơ bản như vậy như "Chúng tôi đã bán được bao nhiêu đơn vị trong tháng trước?" “Khách hàng đã mua những sản phẩm nào và họ đã chi bao nhiêu tiền?” “Có bao nhiêu giao dịch thẻ tín dụng đã được hoàn thành ngày hôm qua?” Sử dụng BI, chúng ta có thể tạo các quy tắc đơn giản để tự động gắn cờ các trường hợp ngoại lệ, ví dụ: một ngân hàng có thể dễ dàng xác định các giao dịch lớn hơn 10.000 đô la để báo cáo cho Sở Thuế vụ.9 BI đã phát triển thành nguyên tắc hiện đại mà chúng ta gọi là hệ thống thông tin (IS) . 5Thomas H. Davenport, “Làm thế nào các tổ chức đưa ra các quyết định tốt hơn,” đã chỉnh sửa đoạn trích của một bài báo do Viện Phân tích Quốc tế phân phối được xuất bản trong “Brain Trust—Kích hoạt Doanh nghiệp Tự tin với Phân tích Kinh doanh” (Cary, NC: SAS Institute, Inc. , 2010): 8–11. www.sas.com/bareport 6Thomas H. Davenport và Jeanne G. Harris, Cạnh tranh về phân tích (Boston: Nhà xuất bản Trường Kinh doanh Harvard, 2007): 46; Michael S. Hopkins, Steve LaValle, Fred Balboni, Nina Kruschwitz và Rebecca Shockley, “10 Data Points: Information and Analytics at Work,” MIT Sloan Management Review, 52, 1 (Mùa thu 2010): 27–31. 7 Jim Davis, “Hội tụ—Đưa phương tiện truyền thông xã hội từ thảo luận sang hành động,” SASCOM (Quý 1 năm 2011): 17. 8 GIỜ. P. Luhn, “Một hệ thống kinh doanh thông minh.” Tạp chí IBM (tháng 10 năm 1958). 9 Jim Davis, “Phân tích kinh doanh: Giúp bạn tiến lên phía trước với đầy đủ thông tin,” trong “Niềm tin của bộ não — Tạo điều kiện cho doanh nghiệp tự tin với phân tích kinh doanh,” (Cary, NC: SAS Institute, Inc., 2010): 4–7. www.sas .com/bareport Machine Translated by Google 6 Chương 1 Giới thiệu về Phân tích Kinh doanh Thống kê có một lịch sử lâu dài và phong phú, nhưng chỉ gần đây nó mới được công nhận là một yếu tố quan trọng của kinh doanh, phần lớn được thúc đẩy bởi sự phát triển ồ ạt của dữ liệu trong thế giới ngày nay. Nhà kinh tế trưởng của Google tuyên bố rằng các nhà thống kê chắc chắn có “công việc thực sự hấp dẫn” trong thập kỷ tới.10 Các phương pháp thống kê cho phép chúng ta hiểu rõ hơn về dữ liệu vượt ra ngoài báo cáo kinh doanh thông minh bằng cách không chỉ tổng hợp dữ liệu ngắn gọn mà còn tìm ra những điều chưa biết và thú vị mối quan hệ giữa các dữ liệu. Các phương pháp thống kê bao gồm các công cụ cơ bản về mô tả, khám phá, ước tính và suy luận, cũng như các kỹ thuật nâng cao hơn như hồi quy, dự báo và khai thác dữ liệu. Phần lớn phân tích kinh doanh hiện đại bắt nguồn từ việc phân tích và giải quyết các vấn đề quyết định phức tạp bằng cách sử dụng các mô hình toán học hoặc dựa trên máy tính—một chuyên ngành được gọi là nghiên cứu hoạt động hoặc khoa học quản lý. Nghiên cứu hoạt động (OR) ra đời từ nỗ lực cải thiện các hoạt động quân sự trước và trong Thế chiến II. Sau chiến tranh, các nhà khoa học nhận ra rằng các công cụ và kỹ thuật toán học được phát triển cho các ứng dụng quân sự có thể được áp dụng thành công cho các vấn đề trong kinh doanh và công nghiệp. Một số lượng đáng kể các nghiên cứu đã được tiến hành trong các viện nghiên cứu công và tư nhân vào cuối những năm 1940 và cho đến những năm 1950. Khi tập trung vào các ứng dụng kinh doanh được mở rộng, thuật ngữ khoa học quản lý (MS) trở nên phổ biến hơn. Nhiều người sử dụng thuật ngữ nghiên cứu hoạt động và khoa học quản lý thay thế cho nhau, và lĩnh vực này được gọi là Khoa học quản lý/Nghiên cứu hoạt động (OR/MS). Nhiều ứng dụng OR/MS sử dụng mô hình hóa và tối ưu hóa—các kỹ thuật để dịch các vấn đề thực tế thành toán học, bảng tính hoặc các ngôn ngữ máy tính khác và sử dụng chúng để tìm ra các giải pháp và quyết định (“tối ưu”) tốt nhất. INFORMS, Viện Nghiên cứu Hoạt động và Khoa học Quản lý, là tổ chức chuyên nghiệp hàng đầu dành cho OR/MS và phân tích, đồng thời xuất bản tạp chí hai tháng một lần có tên là Analytics (http://analytics-magazine.com/). Đăng ký kỹ thuật số có thể được lấy miễn phí tại trang Web. Các hệ thống hỗ trợ quyết định (DSS) bắt đầu phát triển vào những năm 1960 bằng cách kết hợp các khái niệm kinh doanh thông minh với các mô hình OR/MS để tạo ra các hệ thống máy tính dựa trên phân tích nhằm hỗ trợ việc ra quyết định. DSS bao gồm ba thành phần: 1. Quản lý dữ liệu. Thành phần quản lý dữ liệu bao gồm cơ sở dữ liệu để lưu trữ dữ liệu và cho phép người dùng nhập, truy xuất, cập nhật và thao tác dữ liệu. 2. Quản lý mô hình. Thành phần quản lý mô hình bao gồm nhiều công cụ thống kê và mô hình khoa học quản lý và cho phép người dùng dễ dàng xây dựng, thao tác, phân tích và giải quyết các mô hình. 3. Hệ thống thông tin liên lạc. Thành phần hệ thống truyền thông cung cấp giao diện cần thiết để người dùng tương tác với các thành phần quản lý dữ liệu và mô hình.11 DSS đã được sử dụng cho nhiều ứng dụng, bao gồm quản lý quỹ hưu trí, quản lý danh mục đầu tư, lập kế hoạch ca làm việc, sản xuất toàn cầu và vị trí cơ sở, phân bổ ngân sách quảng cáo, lập kế hoạch truyền thông, lập kế hoạch phân phối, lập kế hoạch hoạt động hàng không, kiểm soát hàng tồn kho, quản lý thư viện, phân công lớp học , lập kế hoạch y tá, phân phối máu, kiểm soát ô nhiễm nước, thiết kế khu trượt tuyết, thiết kế đánh bại cảnh sát và lập kế hoạch năng lượng.12 10James J. Swain, “Phần mềm thống kê trong thời đại đam mê công nghệ,” Analytics-magazine.org, tháng 3/tháng 4 năm 2013, trang 48–55. www.informs.org 11William E. Leigh và Michael E. Doherty, Hệ thống Chuyên gia và Hỗ trợ Quyết định (Cincinnati, OH: South-Western Publishing Co., 1986). 12H. B. Eom và SM Lee, “Khảo sát về các ứng dụng của hệ thống hỗ trợ ra quyết định (1971–tháng 4 năm 1988),” Giao diện, 20, 3 (Tháng 5–Tháng 6 năm 1990): 65–79. Machine Translated by Google 7 Chương 1 Giới thiệu về Phân tích Kinh doanh Hình 1.1 Việc kinh doanh Một góc nhìn trực quan của Phân tích kinh doanh Sự thông minh/ Thông tin Số liệu thống kê hệ thống Mô hình hóa và Tối ưu hóa Phân tích kinh doanh hiện đại có thể được xem như là sự tích hợp của BI/IS, số liệu thống kê, mô hình hóa và tối ưu hóa như được minh họa trong Hình 1.1. Mặc dù các chủ đề cốt lõi là truyền thống và đã được sử dụng trong nhiều thập kỷ, nhưng điểm độc đáo nằm ở các giao điểm của chúng. Ví dụ, khai thác dữ liệu tập trung vào việc hiểu rõ hơn các đặc điểm và mẫu giữa các biến trong cơ sở dữ liệu lớn bằng nhiều công cụ thống kê và phân tích. Nhiều công cụ thống kê tiêu chuẩn cũng như những công cụ tiên tiến hơn được sử dụng rộng rãi trong khai thác dữ liệu. Mô phỏng và phân tích rủi ro dựa trên các mô hình bảng tính và phân tích thống kê để kiểm tra tác động của sự không chắc chắn trong các ước tính và khả năng tương tác của chúng với nhau đối với biến đầu ra quan tâm. Bảng tính và các mô hình chính thức cho phép một người thao tác dữ liệu để thực hiện phân tích what-if— sự kết hợp cụ thể của các yếu tố đầu vào phản ánh các giả định chính sẽ ảnh hưởng đến kết quả đầu ra của mô hình. Phân tích điều gì xảy ra nếu cũng được sử dụng để đánh giá mức độ nhạy cảm của các mô hình tối ưu hóa đối với những thay đổi trong dữ liệu đầu vào và cung cấp thông tin chi tiết tốt hơn để đưa ra quyết định đúng đắn. Có lẽ thành phần hữu ích nhất của phân tích kinh doanh, làm cho nó thực sự độc đáo, là trung tâm của Hình 1.1—sự trực quan hóa. Trực quan hóa dữ liệu và kết quả phân tích cung cấp một cách dễ dàng truyền đạt dữ liệu ở tất cả các cấp của doanh nghiệp và có thể tiết lộ các mẫu và mối quan hệ đáng ngạc nhiên. Phần mềm như hệ thống Cognos của IBM khai thác trực quan hóa dữ liệu để truy vấn và báo cáo, phân tích dữ liệu, trình bày bảng điều khiển và thẻ điểm liên kết chiến lược với các hoạt động. Ví dụ: Sở thú Cincinnati đã sử dụng tính năng này trên iPad để hiển thị các báo cáo hàng giờ, hàng ngày và hàng tháng về số lượng người tham dự, doanh thu và doanh thu bán lẻ và thực phẩm cũng như các số liệu khác cho các chiến lược dự đoán và tiếp thị. UPS sử dụng viễn thông để thu thập dữ liệu về phương tiện và hiển thị chúng để giúp đưa ra quyết định nhằm cải thiện hiệu quả và hiệu suất. Bạn có thể đã thấy một đám mây thẻ (xem đồ họa ở đầu chương này), đây là hình ảnh trực quan hóa văn bản hiển thị các từ xuất hiện thường xuyên hơn bằng cách sử dụng phông chữ lớn hơn. Những phát triển có ảnh hưởng nhất thúc đẩy việc sử dụng phân tích kinh doanh là máy tính cá nhân và công nghệ bảng tính. Máy tính cá nhân và bảng tính cung cấp một cách thuận tiện để quản lý đồng thời dữ liệu, tính toán và đồ họa trực quan, sử dụng các biểu diễn trực quan thay vì ký hiệu toán học trừu tượng. Mặc dù sớm Machine Translated by Google số 8 Chương 1 Giới thiệu về Phân tích Kinh doanh Phân tích trong thực tế: Harrah's Entertainment13 Một trong những ví dụ được trích dẫn nhiều nhất về việc sử giảm giá phòng và các đặc quyền khác cho khách hàng dựa dụng phân tích trong kinh doanh là Harrah's Entertainment. trên số tiền và thời gian họ chi tiêu tại Harrah's. Dữ Harrah's sở hữu nhiều khách sạn và sòng bạc và sử dụng liệu thu thập được sử dụng để phân chia khách hàng thành phân tích để hỗ trợ các hoạt động quản lý doanh thu, liên hơn 20 nhóm dựa trên các hoạt động chơi trò chơi dự kiến quan đến việc bán đúng tài nguyên cho đúng khách hàng với của họ. Đối với từng phân khúc khách hàng, phân tích dự mức giá phù hợp để tối đa hóa doanh thu và lợi nhuận. báo nhu cầu về phòng khách sạn theo ngày đến và thời gian Ngành công nghiệp cờ bạc coi phòng khách sạn là động cơ lưu trú. Sau đó, Harrah's sử dụng mô hình quy định để hoặc phần thưởng để hỗ trợ các hoạt động và doanh thu đặt giá và phân bổ phòng cho các phân khúc khách hàng của sòng bạc chứ không phải là tài sản tối đa hóa doanh thu. này. Ví dụ: hệ thống có thể cung cấp phòng miễn phí cho Do đó, mục tiêu của Harrah là đặt giá phòng và chấp nhận những khách hàng dự kiến sẽ tạo ra lợi nhuận từ trò chơi đặt phòng để tối đa hóa lợi nhuận từ trò chơi dự kiến từ ít nhất là 400 đô la nhưng tính phí 325 đô la cho một khách hàng. Họ bắt đầu bằng việc thu thập và theo dõi các phòng nếu lợi nhuận dự kiến chỉ là 100 đô la. Tiếp thị có hoạt động chơi trò chơi của khách hàng (chơi máy đánh thể sử dụng thông tin để gửi khuyến mại đến các phân khúc bạc và trò chơi đánh bạc) bằng chương trình thẻ “Total khách hàng mục tiêu nếu nó xác định tỷ lệ lấp đầy thấp cho Rewards” của Harrah, một chương trình khách hàng thân các ngày cụ thể. thiết cung cấp các phần thưởng như bữa ăn, các ứng dụng của bảng tính chủ yếu là trong kế toán và tài chính, các bảng tính đã phát triển thành các công cụ quản lý có mục đích chung mạnh mẽ để áp dụng các kỹ thuật phân tích kinh doanh. Sức mạnh của phân tích trong môi trường máy tính cá nhân đã được các chuyên gia tư vấn kinh doanh Michael Hammer và James Champy ghi nhận cách đây khoảng 20 năm, họ cho biết: “Khi dữ liệu có thể truy cập được kết hợp với các công cụ mô hình và phân tích dễ sử dụng, nhân viên tuyến đầu—khi được đào tạo đúng cách —đột nhiên có khả năng ra quyết định phức tạp.”14 Mặc dù có nhiều gói phần mềm phân tích tốt dành cho các chuyên gia, nhưng chúng tôi sử dụng Microsoft Excel và một phần bổ trợ mạnh mẽ có tên là Nền tảng bộ giải phân tích xuyên suốt cuốn sách này. Tác động và Thách thức Tác động của việc áp dụng phân tích kinh doanh có thể là đáng kể. Các công ty báo cáo chi phí giảm, quản lý rủi ro tốt hơn, quyết định nhanh hơn, năng suất tốt hơn và nâng cao hiệu suất cuối cùng như lợi nhuận và sự hài lòng của khách hàng. Ví dụ: 1-800-flowers.com sử dụng phần mềm phân tích để nhắm mục tiêu các quảng cáo in và trực tuyến với độ chính xác cao hơn; thay đổi giá cả và dịch vụ trên trang Web của mình (đôi khi hàng giờ); và tối ưu hóa các hoạt động tiếp thị, vận chuyển, phân phối và sản xuất, giúp tiết kiệm 50 triệu đô la chi phí trong một năm.15 Phân tích kinh doanh đang thay đổi cách các nhà quản lý đưa ra quyết định.16 Để phát triển mạnh trong thế giới kinh doanh ngày nay, các tổ chức phải liên tục đổi mới để tạo sự khác biệt so với các đối thủ cạnh tranh, tìm cách tăng doanh thu và thị phần, giảm chi phí, giữ chân khách hàng hiện có và thu hút khách hàng mới, đồng thời trở thành nhanh hơn và gọn gàng hơn. IBM gợi ý rằng 13Dựa trên Liberatore và Luo, “Phong trào phân tích”; và Richard Metters et al., “The 'Killer Application' of Revenue Management: Harrah's Cherokee Casino & Hotel,” Interfaces, 38, 3 (Tháng 5–Tháng 6 năm 2008): 161–175. 14Michael Hammer và James Champy, Tái cấu trúc Tổng công ty (New York: HarperBusiness, 1993): 96. 15Jim Goodnight, “Tác động của phân tích kinh doanh đối với hiệu suất và khả năng sinh lời,” trong “Brain Trust— Kích hoạt Doanh nghiệp Tự tin với Phân tích Kinh doanh” (Cary, NC: SAS Institute, Inc., 2010): 4–7. www.sas.com/ bareport 16Analytics: The New Path to Value, một bài đánh giá chung của MIT Sloan Management Review và nghiên cứu về giá trị kinh doanh của Viện IBM. Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 9 các phương pháp quản lý truyền thống đang phát triển trong môi trường dựa trên phân tích ngày nay để bao gồm nhiều quyết định dựa trên thực tế hơn là phán đoán và trực giác, nhiều dự đoán hơn là các quyết định phản ứng và việc mọi người sử dụng phân tích tại thời điểm đưa ra quyết định thay vì dựa vào về các chuyên gia lành nghề trong một nhóm tư vấn.17 Tuy nhiên, các tổ chức phải đối mặt với nhiều thách thức trong việc phát triển khả năng phân tích, bao gồm thiếu hiểu biết về cách sử dụng phân tích, cạnh tranh ưu tiên kinh doanh, thiếu kỹ năng phân tích, khó khăn trong việc lấy dữ liệu tốt và chia sẻ thông tin cũng như không hiểu lợi ích so với chi phí nhận thức của nghiên cứu phân tích. Ứng dụng phân tích thành công đòi hỏi nhiều hơn là chỉ biết các công cụ; nó đòi hỏi sự hiểu biết ở mức độ cao về cách phân tích hỗ trợ chiến lược cạnh tranh của tổ chức và thực thi hiệu quả qua nhiều lĩnh vực và cấp quản lý. Một cuộc khảo sát năm 2011 của Bloomberg Businessweek Research Services và SAS đã kết luận rằng phân tích kinh doanh vẫn đang ở “giai đoạn mới nổi” và chỉ được sử dụng trong phạm vi hẹp của các đơn vị kinh doanh chứ không phải trên toàn bộ tổ chức. Nghiên cứu cũng lưu ý rằng nhiều tổ chức thiếu tài năng phân tích và những tổ chức có tài năng phân tích thường không biết cách áp dụng kết quả đúng cách. Mặc dù phân tích được sử dụng như một phần của quy trình ra quyết định trong nhiều tổ chức, nhưng hầu hết các quyết định kinh doanh vẫn dựa trên trực giác.18 Do đó, trong khi có nhiều thách thức rõ ràng, vẫn có nhiều cơ hội hơn. Những cơ hội này được phản ánh trong thị trường việc làm dành cho các chuyên gia phân tích hoặc “nhà khoa học dữ liệu”, như một số người gọi họ. Harvard Business Review đã gọi nhà khoa học dữ liệu là “công việc hấp dẫn nhất của thế kỷ 21,” và McKinsey & Company dự đoán sự thiếu hụt từ 50 đến 60% số lượng các nhà khoa học dữ liệu ở Hoa Kỳ vào năm 2018.19 Phạm vi phân tích kinh doanh Phân tích kinh doanh bắt đầu với việc thu thập, tổ chức và thao tác dữ liệu và được hỗ trợ bởi ba thành phần chính:20 1. Phân tích mô tả. Hầu hết các doanh nghiệp bắt đầu với phân tích mô tả—việc sử dụng dữ liệu để hiểu hiệu suất kinh doanh trong quá khứ và hiện tại và đưa ra các quyết định đã hình thành. Phân tích mô tả là loại phân tích được sử dụng phổ biến nhất và được hiểu rõ nhất. Những kỹ thuật này phân loại, mô tả đặc điểm, hợp nhất và phân loại dữ liệu để chuyển đổi dữ liệu thành thông tin hữu ích cho mục đích hiểu và phân tích hiệu quả kinh doanh. Phân tích mô tả tóm tắt dữ liệu thành các biểu đồ và báo cáo có ý nghĩa, chẳng hạn như về ngân sách, bán hàng, doanh thu hoặc chi phí. Quá trình này cho phép các nhà quản lý nhận được các báo cáo tiêu chuẩn và tùy chỉnh, sau đó đi sâu vào dữ liệu và đưa ra các truy vấn để hiểu tác động của một chiến dịch quảng cáo, ví dụ: xem xét hiệu suất kinh doanh để tìm ra các vấn đề hoặc các lĩnh vực có cơ hội cũng như xác định các mẫu và xu hướng trong dữ liệu . Các câu hỏi điển hình mà phân tích mô tả giúp trả lời là “Chúng tôi đã bán được bao nhiêu ở mỗi khu vực?” “Doanh thu và lợi nhuận của chúng ta trong quý trước là bao nhiêu?” “Có bao nhiêu và loại khiếu nại nào chúng tôi đã 17“Phân tích và tối ưu hóa kinh doanh cho doanh nghiệp thông minh” (tháng 4 năm 2009). www.ibm.com /qbs/ intelligent-enterprise 18Bloomberg Businessweek Research Services và SAS, “Hiện trạng phân tích kinh doanh: Chúng ta bắt đầu từ đây?” (2011). 19Andrew Jennings, “Điều gì tạo nên một nhà khoa học dữ liệu giỏi?” Tạp chí Analytics (tháng 7–tháng 8 năm 2013): 8–13. www.analytics-magazine.org 20Các phần của phần này được điều chỉnh từ Irv Lustig, Brenda Dietric, Christer Johnson và Christopher Dziekan, “The Analytics Journey,” Analytics (tháng 11/tháng 12 năm 2010). www.analytics-magazine.org Machine Translated by Google 10 Chương 1 Giới thiệu về Phân tích Kinh doanh giải quyết?" “Nhà máy nào có năng suất thấp nhất?” Phân tích mô tả cũng giúp các công ty phân loại khách hàng thành các phân khúc khác nhau, cho phép họ phát triển các chiến dịch tiếp thị và chiến lược quảng cáo cụ thể. 2. Phân tích dự đoán. Phân tích dự đoán tìm cách dự đoán tương lai bằng khai thác dữ liệu lịch sử, phát hiện các mẫu hoặc mối quan hệ trong những dữ liệu này, sau đó ngoại suy các mối quan hệ này theo thời gian. Ví dụ: một nhà tiếp thị có thể muốn dự đoán phản ứng của các phân khúc khách hàng khác nhau đối với một chiến dịch quảng cáo, một nhà kinh doanh hàng hóa có thể muốn dự đoán các biến động ngắn hạn của giá cả hàng hóa hoặc một nhà sản xuất đồ trượt tuyết có thể muốn dự đoán nhu cầu đồ trượt tuyết của mùa tới là bao nhiêu. một màu sắc và kích thước cụ thể. Phân tích dự đoán có thể dự đoán rủi ro và tìm ra các mối quan hệ trong dữ liệu không dễ dàng nhận thấy bằng các phân tích truyền thống. Bằng cách sử dụng các kỹ thuật tiên tiến, phân tích dự đoán có thể giúp phát hiện các mẫu ẩn trong số lượng lớn dữ liệu để phân đoạn và nhóm dữ liệu thành các tập hợp chặt chẽ nhằm dự đoán hành vi và phát hiện xu hướng. Ví dụ, người quản lý ngân hàng có thể muốn xác định những khách hàng có lợi nhất hoặc dự đoán khả năng người xin vay sẽ vỡ nợ hoặc cảnh báo khách hàng sử dụng thẻ tín dụng về một khoản phí gian lận tiềm ẩn. Phân tích dự đoán giúp trả lời các câu hỏi như “Điều gì sẽ xảy ra nếu nhu cầu giảm 10% hoặc nếu giá nhà cung cấp tăng 5%?” “Chúng ta dự kiến sẽ trả bao nhiêu cho nhiên liệu trong vài tháng tới?” “Rủi ro mất tiền trong một dự án kinh doanh mới là gì?” 3. Phân tích theo quy định. Ví dụ, nhiều vấn đề, chẳng hạn như lập kế hoạch máy bay hoặc nhân viên và thiết kế chuỗi cung ứng, chỉ đơn giản là liên quan đến quá nhiều lựa chọn hoặc phương án thay thế để người ra quyết định là con người có thể xem xét một cách hiệu quả. Phân tích đề xuất sử dụng tối ưu hóa để xác định các lựa chọn thay thế tốt nhất nhằm giảm thiểu hoặc tối đa hóa một số mục tiêu. Phân tích theo quy định được sử dụng trong nhiều lĩnh vực kinh doanh, bao gồm hoạt động, tiếp thị và tài chính. Ví dụ: chúng tôi có thể xác định chiến lược định giá và quảng cáo tốt nhất để tối đa hóa doanh thu, lượng tiền mặt tối ưu để lưu trữ trong máy ATM hoặc kết hợp tốt nhất các khoản đầu tư vào danh mục hưu trí để quản lý rủi ro. Các kỹ thuật toán học và thống kê của phân tích dự đoán cũng có thể được kết hợp với tối ưu hóa để đưa ra các quyết định có tính đến sự không chắc chắn trong dữ liệu. Phân tích đề xuất giải quyết các câu hỏi như “Chúng ta nên sản xuất bao nhiêu để tối đa hóa lợi nhuận?” “Cách tốt nhất để vận chuyển hàng hóa từ các nhà máy của chúng tôi để giảm thiểu chi phí là gì?” “Chúng ta có nên thay đổi kế hoạch nếu thiên tai khiến nhà máy của nhà cung cấp phải đóng cửa không: nếu có thì thay đổi bao nhiêu?” Phân tích trong thực tế: Phân tích trong cho vay mua nhà và thế chấp Công nghiệp21 Đôi khi trong cuộc đời của họ, hầu hết người Mỹ sẽ nhận tài sản, xác minh việc làm, và đánh giá tài sản trong số được một khoản vay thế chấp cho một ngôi nhà hoặc căn hộ những người khác. Kết quả của chức năng xử lý là một hồ chung cư. Quá trình bắt đầu với một ứng dụng. Ứng dụng sơ cho vay hoàn chỉnh có chứa tất cả thông tin và tài liệu chứa tất cả thông tin thích hợp về người đi vay mà người cần thiết để bảo lãnh khoản vay, đây là bước tiếp theo cho vay sẽ cần. Sau đó, ngân hàng hoặc công ty thế chấp sẽ trong quy trình. Bảo lãnh phát hành là nơi đơn xin vay bắt đầu một quy trình dẫn đến quyết định cho vay. Tại đây, được đánh giá về rủi ro của nó. thông tin chính về người vay được cung cấp bởi các nhà Người bảo lãnh đánh giá liệu người đi vay có thể thanh cung cấp bên thứ ba. Thông tin này bao gồm báo cáo tín toán đúng hạn hay không, có đủ khả năng trả lại khoản vay dụng, xác minh thu nhập, xác minh và có đủ tài sản thế chấp để đảm bảo cho khoản vay hay không. (còn tiếp) 21Đóng góp bởi Craig Zielazny, BlueNote Analytics, LLC. Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh khoản vay. Trong trường hợp người đi vay không trả được nợ, Có bao nhiêu ứng dụng cho vay đã được thực hiện mỗi 12 người cho vay có thể bán tài sản để thu hồi số tiền cho vay. Tuy tháng qua? nhiên, nếu số tiền cho vay lớn hơn giá trị của tài sản, thì Tổng thời gian chu kỳ từ khi đóng ứng dụng là bao nhiêu? người cho vay không thể thu hồi tiền của họ. Nếu quy trình bảo Sự phân bổ lợi nhuận cho vay theo điểm tín dụng và tỷ lệ lãnh chỉ ra rằng người vay có uy tín về tín dụng, có khả năng cho vay trên giá trị (LTV), là số tiền thế chấp chia cho hoàn trả khoản vay và giá trị của tài sản được đề cập lớn hơn số giá trị thẩm định của tài sản. tiền vay, thì khoản vay được chấp thuận và sẽ chuyển sang giai đoạn đóng. Đóng là bước mà người vay ký vào tất cả các giấy tờ thích hợp đồng ý với các điều khoản của khoản vay. Phân tích dự đoán—Mô hình dự đoán sử dụng các mô hình toán học, bảng tính và thống kê, đồng thời giải quyết các câu hỏi như: Trên thực tế, người cho vay có rất nhiều việc khác phải Một chương trình tiếp thị nhất định sẽ có tác động gì làm. Đầu tiên, họ phải thực hiện đánh giá kiểm soát chất lượng đến khối lượng cho vay? đối với một mẫu hồ sơ cho vay bao gồm việc kiểm tra thủ công tất Có bao nhiêu bộ xử lý hoặc người bảo lãnh cần thiết cho một cả các tài liệu và thông tin thu thập được. Quá trình này được khối lượng cho vay nhất định? thiết kế để xác định bất kỳ lỗi nào có thể đã được thực hiện Một thay đổi quy trình nhất định sẽ làm giảm thời gian chu kỳ? hoặc thông tin bị thiếu trong hồ sơ cho vay. Vì người cho vay không có số tiền vô hạn để cho người đi vay vay nên họ thường bán khoản vay cho bên thứ ba để có vốn mới cho người khác vay. Điều này xảy ra trong những gì được gọi là thị trường thứ cấp. Phân tích theo đề xuất—Điều này liên quan đến việc sử dụng mô phỏng hoặc tối ưu hóa để đưa ra quyết định. Các câu hỏi điển hình bao gồm: Freddie Mac và Fannie Mae là hai người mua lớn nhất các khoản thế chấp trên thị trường thứ cấp. Bước cuối cùng trong quy Nhân viên tối ưu để đạt được lợi nhuận nhất định bị trình là phục vụ. Phục vụ bao gồm tất cả các hoạt động liên quan hạn chế bởi thời gian chu kỳ cố định là gì? đến việc cung cấp dịch vụ khách hàng cho khoản vay như xử lý Sự kết hợp sản phẩm tối ưu để tối đa hóa lợi nhuận bị hạn các khoản thanh toán, quản lý thuế tài sản được giữ trong tài chế bởi nhân viên cố định là gì? khoản ký quỹ và trả lời các câu hỏi về khoản vay. Thị trường thế chấp đã trở nên năng động hơn nhiều trong những năm gần đây do giá trị nhà tăng, lãi suất giảm, các sản phẩm cho vay mới và mong muốn ngày càng tăng của chủ sở hữu nhà Ngoài ra, tổ chức thu thập nhiều dữ liệu hoạt động khác nhau về quy trình để theo dõi hiệu suất và hiệu quả của nó, bao sử dụng vốn chủ sở hữu trong nhà của họ như một nguồn tài chính. Điều này đã làm tăng tính phức tạp và khả năng thay đổi của quy gồm số lượng đơn đăng ký, loại và số tiền cho vay, thời gian trình thế chấp và tạo cơ hội cho người cho vay chủ động sử dụng chu kỳ (thời gian kết thúc khoản vay), tắc nghẽn trong quy dữ liệu có sẵn cho họ như một công cụ để quản lý hoạt động kinh trình, v.v. Nhiều loại phân tích khác nhau được sử dụng: doanh của họ. Để đảm bảo rằng quy trình hoạt động hiệu quả, hiệu quả và được thực hiện với chất lượng, dữ liệu và phân tích được sử dụng hàng ngày để theo dõi những gì đã được thực hiện, ai Phân tích mô tả—Điều này tập trung vào báo cáo lịch sử, giải đang thực hiện và mất bao lâu. quyết các câu hỏi như: Một loạt các công cụ được sử dụng để hỗ trợ phân tích kinh doanh. Bao gồm các: Truy vấn và phân tích cơ sở dữ liệu "Bảng điều khiển" để báo cáo các biện pháp hiệu suất chính Trực quan hóa dữ liệu phương pháp thống kê Bảng tính và mô hình dự báo Kịch bản và phân tích “điều gì xảy ra nếu” mô phỏng 11 Machine Translated by Google 12 Chương 1 Giới thiệu về Phân tích Kinh doanh Dự báo Khai thác dữ liệu và văn bản Tối ưu hóa Phương tiện truyền thông xã hội, Web và phân tích văn bản Mặc dù các công cụ được sử dụng trong phân tích mô tả, dự đoán và quy định là khác nhau, nhưng nhiều ứng dụng liên quan đến cả ba. Dưới đây là một ví dụ điển hình trong hoạt động bán lẻ. VÍ DỤ 1.1 Quyết định hạ giá bán lẻ22 Như bạn có thể biết từ kinh nghiệm mua sắm của mình, hầu hết các cửa chuỗi có thể chứa hàng nghìn sản phẩm, điều này có thể dễ dàng dẫn hàng bách hóa và nhà bán lẻ thời trang đều giải phóng hàng tồn kho đến hàng triệu quyết định mà người quản lý cửa hàng phải đưa ra. theo mùa của họ bằng cách giảm giá. Câu hỏi quan trọng mà họ phải Phân tích mô tả có thể được sử dụng để kiểm tra dữ liệu lịch sử cho đối mặt là họ nên đặt mức giá nào—và khi nào nên đặt mức giá đó—để các sản phẩm tương tự, chẳng hạn như số lượng đơn vị đã bán, giá tại đáp ứng các mục tiêu về hàng tồn kho và tối đa hóa doanh thu? Ví dụ: mỗi điểm bán, hàng tồn kho bắt đầu và kết thúc cũng như các chương giả sử một cửa hàng có 100 bộ đồ tắm thuộc một kiểu dáng nhất định trình khuyến mãi đặc biệt, báo trên mỗi quảng cáo, quảng cáo tiếp sẽ được giảm giá từ ngày 1 tháng 4 và muốn bán hết chúng vào cuối thị trực tiếp, v.v. hiểu kết quả của những quyết định trong quá khứ tháng 6. đạt được những gì. Phân tích dự đoán có thể được sử dụng để dự đoán Trong mỗi tuần của mùa bán hàng kéo dài 12 tuần, họ có thể đưa ra doanh số bán hàng dựa trên các quyết định về giá. Cuối cùng, phân quyết định giảm giá. Họ phải đối mặt với hai quyết định: Giảm giá khi tích theo quy định có thể được áp dụng để tìm ra tập hợp các quyết nào và giảm bao nhiêu? định về giá tốt nhất nhằm tối đa hóa tổng doanh thu. Điều này dẫn đến 24 quyết định cần thực hiện. Đối với một quốc gia lớn Hỗ trợ phần mềm Nhiều công ty, chẳng hạn như IBM, SAS và Tableau đã phát triển nhiều giải pháp phần cứng và phần mềm khác nhau để hỗ trợ phân tích kinh doanh. Ví dụ: Cognos Express của IBM, một giải pháp lập kế hoạch và thông minh kinh doanh tích hợp được thiết kế để đáp ứng nhu cầu của các công ty cỡ trung bình, cung cấp khả năng báo cáo, phân tích, bảng điều khiển, thẻ điểm, lập kế hoạch, lập ngân sách và dự báo. Nó bao gồm một số mô-đun, bao gồm Cognos Express Reporter, để báo cáo tự phục vụ và truy vấn đặc biệt; Cognos Express Advisor, để phân tích và trực quan hóa; và Cognos Express Xcelerator, để lập kế hoạch dựa trên Excel và phân tích kinh doanh. Thông tin được trình bày cho người dùng doanh nghiệp trong bối cảnh kinh doanh dễ hiểu, với giao diện dễ sử dụng, họ có thể nhanh chóng có được thông tin chi tiết cần thiết từ dữ liệu của mình để đưa ra quyết định đúng đắn và sau đó thực hiện hành động để tối ưu hóa kinh doanh hiệu quả và hiệu quả và kết quả. SAS cung cấp nhiều loại phần mềm tích hợp quản lý dữ liệu, kinh doanh thông minh và các công cụ phân tích. SAS Analytics bao gồm nhiều khả năng, bao gồm lập mô hình dự đoán và khai thác dữ liệu, trực quan hóa, dự báo, tối ưu hóa và quản lý mô hình, phân tích thống kê, phân tích văn bản, v.v. Phần mềm Tableau cung cấp các công cụ kéo và thả đơn giản để trực quan hóa dữ liệu từ bảng tính và cơ sở dữ liệu khác. Chúng tôi khuyến khích bạn khám phá nhiều sản phẩm trong số này khi bạn tìm hiểu các nguyên tắc cơ bản của phân tích kinh doanh trong cuốn sách này. 22Lấy cảm hứng từ bài thuyết trình của Radhika Kulkarni, Viện SAS, “Quyết định dựa trên dữ liệu: Vai trò của nghiên cứu hoạt động trong phân tích kinh doanh,” Hội nghị INFORMS về nghiên cứu hoạt động và phân tích kinh doanh, ngày 10–12 tháng 4 năm 2011. Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 13 Dữ liệu cho phân tích kinh doanh Kể từ buổi bình minh của thời đại điện tử và Internet, cả cá nhân và tổ chức đều có quyền truy cập vào vô số dữ liệu và thông tin. Dữ liệu là các sự kiện và số liệu bằng số được thu thập thông qua một số loại quy trình đo lường. Thông tin đến từ việc phân tích dữ liệu—tức là, rút ra ý nghĩa từ dữ liệu để hỗ trợ đánh giá và ra quyết định. Dữ liệu được sử dụng trong hầu hết mọi chức năng chính trong một doanh nghiệp. Các tổ chức hiện đại— không chỉ bao gồm các doanh nghiệp vì lợi nhuận mà còn cả các tổ chức phi lợi nhuận—cần dữ liệu tốt để hỗ trợ nhiều mục đích khác nhau của công ty, chẳng hạn như lập kế hoạch, xem xét hiệu quả hoạt động của công ty, cải thiện hoạt động và so sánh hiệu quả hoạt động của công ty với các đối thủ cạnh tranh hoặc tiêu chuẩn thực hành tốt nhất. Một số ví dụ về cách dữ liệu được sử dụng trong kinh doanh bao gồm: Các báo cáo hàng năm tóm tắt dữ liệu về khả năng sinh lời và thị phần của các công ty ở dạng số cũng như ở dạng biểu đồ và đồ thị để trao đổi với các cổ đông. Kế toán tiến hành kiểm toán để xác định xem các số liệu được báo cáo trên bảng cân đối kế toán của công ty có phản ánh đúng dữ liệu thực tế hay không bằng cách kiểm tra các mẫu (nghĩa là tập hợp con) của dữ liệu kế toán, chẳng hạn như các khoản phải thu. Các nhà phân tích tài chính thu thập và phân tích nhiều loại dữ liệu để hiểu được sự đóng góp mà một doanh nghiệp mang lại cho các cổ đông của mình. Chúng thường bao gồm lợi nhuận, tăng trưởng doanh thu, lợi tức đầu tư, sử dụng tài sản, lợi nhuận hoạt động, thu nhập trên mỗi cổ phiếu, giá trị kinh tế gia tăng (EVA), giá trị cổ đông và các biện pháp liên quan khác. Các nhà kinh tế sử dụng dữ liệu để giúp các công ty hiểu và dự đoán xu hướng dân số, lãi suất, hiệu quả hoạt động của ngành, chi tiêu của người tiêu dùng và thương mại quốc tế. Những dữ liệu như vậy thường được lấy từ các nguồn bên ngoài như bộ dữ liệu Standard & Poor's Compustat, hiệp hội thương mại ngành hoặc cơ sở dữ liệu của chính phủ. Các nhà nghiên cứu tiếp thị thu thập và phân tích dữ liệu khách hàng rộng lớn. Những dữ liệu này thường bao gồm nhân khẩu học, sở thích và ý kiến, lịch sử giao dịch và thanh toán, hành vi mua sắm, v.v. Dữ liệu như vậy có thể được thu thập bằng các cuộc khảo sát, phỏng vấn cá nhân, nhóm tập trung hoặc từ thẻ khách hàng thân thiết. Các nhà quản lý hoạt động sử dụng dữ liệu về hiệu suất sản xuất, chất lượng sản xuất, thời gian giao hàng, độ chính xác của đơn hàng, hiệu suất của nhà cung cấp, năng suất, chi phí và tuân thủ môi trường để quản lý hoạt động của họ. Các nhà quản lý nguồn nhân lực đo lường sự hài lòng của nhân viên, chi phí đào tạo, doanh thu, đổi mới thị trường, hiệu quả đào tạo và phát triển kỹ năng. Dữ liệu đó có thể được thu thập từ các nguồn chính như hồ sơ nội bộ công ty và giao dịch kinh doanh, thiết bị thu thập dữ liệu tự động hoặc khảo sát thị trường khách hàng và từ các nguồn thứ cấp như nguồn dữ liệu thương mại và chính phủ, nhà cung cấp nghiên cứu tùy chỉnh và nghiên cứu trực tuyến. Có lẽ nguồn dữ liệu quan trọng nhất hiện nay là dữ liệu thu được từ Web. Với công nghệ ngày nay, các nhà tiếp thị thu thập thông tin mở rộng về các hành vi trên Web, chẳng hạn như số lượt xem trang, quốc gia của khách truy cập, thời gian xem, khoảng thời gian, nguồn gốc và đường dẫn đến, sản phẩm họ đã tìm kiếm và xem, sản phẩm đã mua, họ đánh giá gì đọc, và nhiều người khác. Sử dụng phân tích, các nhà tiếp thị có thể tìm hiểu nội dung nào đang được xem thường xuyên nhất, quảng cáo nào được nhấp vào, ai là khách truy cập thường xuyên nhất và loại khách truy cập nào duyệt nhưng không mua. Các nhà tiếp thị không chỉ có thể hiểu những gì khách hàng đã làm mà còn có thể dự đoán tốt hơn những gì họ định làm trong tương lai. Ví dụ, Machine Translated by Google 14 Chương 1 Giới thiệu về Phân tích Kinh doanh nếu một ngân hàng biết rằng một khách hàng đã duyệt lãi suất thế chấp và bảo hiểm chủ nhà, thì họ có thể nhắm mục tiêu khách hàng đó bằng các khoản vay mua nhà thay vì thẻ tín dụng hoặc các khoản vay mua ô tô. Dữ liệu Web truyền thống hiện đang được tăng cường với dữ liệu truyền thông xã hội từ Facebook, điện thoại di động và thậm chí cả các thiết bị chơi game có kết nối Internet. Lấy một ví dụ, một nhà bán lẻ đồ nội thất gia đình muốn tăng tỷ lệ bán hàng cho những khách hàng duyệt qua trang web của họ. Họ đã phát triển một bộ dữ liệu lớn bao gồm hơn 7.000 thuộc tính hành vi nhân khẩu học, Web, danh mục và bán lẻ cho mỗi khách hàng. Họ đã sử dụng các phân tích dự báo để xác định mức độ phản hồi của khách hàng đối với các đề nghị tiếp thị qua e-mail khác nhau và các chương trình khuyến mãi tùy chỉnh cho các khách hàng cá nhân. Điều này không chỉ giúp họ xác định nơi sử dụng tài nguyên tiếp thị hiệu quả nhất mà còn tăng gấp đôi tỷ lệ phản hồi so với các chiến dịch tiếp thị trước đó, với mức tăng doanh thu hàng triệu đô la dự kiến.23 Tập dữ liệu và cơ sở dữ liệu Một bộ dữ liệu chỉ đơn giản là một tập hợp dữ liệu. Các câu trả lời khảo sát tiếp thị, bảng giá cổ phiếu trong lịch sử và tập hợp các phép đo kích thước của một mặt hàng được sản xuất là những ví dụ về tập dữ liệu. Cơ sở dữ liệu là một tập hợp các tệp có liên quan chứa các bản ghi về người, địa điểm hoặc sự vật. Những người, địa điểm hoặc những thứ mà chúng tôi lưu trữ và duy trì thông tin được gọi là các thực thể.24 Ví dụ: cơ sở dữ liệu cho một nhà bán lẻ trực tuyến bán sách và DVD hướng dẫn thể dục có thể bao gồm một tệp cho ba thực thể: nhà xuất bản mà hàng hóa được lấy từ đó. đã mua, giao dịch bán hàng của khách hàng và hàng tồn kho sản phẩm. Tệp cơ sở dữ liệu thường được tổ chức trong một bảng hai chiều, trong đó các cột tương ứng với từng phần tử dữ liệu riêng lẻ (được gọi là trường hoặc thuộc tính) và các hàng biểu thị các bản ghi của các phần tử dữ liệu liên quan. Một tính năng chính của cơ sở dữ liệu trên máy vi tính là khả năng nhanh chóng liên kết một tập hợp các tệp với nhau. Cơ sở dữ liệu rất quan trọng trong phân tích kinh doanh để truy cập dữ liệu, thực hiện truy vấn và các hoạt động quản lý thông tin và dữ liệu khác. Phần mềm như Microsoft Access cung cấp khả năng cơ sở dữ liệu phân tích mạnh mẽ. Tuy nhiên, trong cuốn sách này, chúng ta sẽ không đào sâu vào cơ sở dữ liệu hoặc hệ quản trị cơ sở dữ liệu mà sẽ làm việc với các tệp cơ sở dữ liệu riêng lẻ hoặc các tập dữ liệu đơn giản. Vì bảng tính là công cụ thuận tiện để lưu trữ và thao tác với các tập dữ liệu và tệp cơ sở dữ liệu nên chúng tôi sẽ sử dụng chúng cho tất cả các ví dụ và bài toán. VÍ DỤ 1.2 Tệp cơ sở dữ liệu giao dịch bán hàng25 Hình 1.2 cho thấy một phần giao dịch bán hàng trên trang tính ID khách hàng, khu vực, loại thanh toán, mã giao dịch, nguồn Excel trong một ngày cụ thể đối với người bán sách và DVD bán hàng, số lượng, sản phẩm đã mua và thời gian trong ngày. hướng dẫn thể dục trực tuyến. Các trường được hiển thị trong Mỗi bản ghi (bắt đầu từ hàng 4) có một giá trị cho từng trường hàng 3 của bảng tính và bao gồm này. 23Dựa trên bài trình bày của Bill Franks của Teradata, “Tối ưu hóa phân tích khách hàng: Dữ liệu web cấp độ khách hàng có thể trợ giúp như thế nào,” Hội nghị INFORMS về nghiên cứu hoạt động và phân tích kinh doanh, ngày 10–12 tháng 4 năm 2011. 24Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản lần thứ 9. (Sông Thượng Saddle, NJ: Prentice Hall, 2011): 159. 25Phỏng theo và sửa đổi từ Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems. Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 15 Hình 1.2 Một phần doanh số bán tệp Excel Cơ sở dữ liệu giao dịch Dữ liệu lớn Ngày nay, gần như tất cả dữ liệu đều được ghi lại bằng kỹ thuật số. Do đó, dữ liệu đã tăng lên với tốc độ chóng mặt, được đo bằng terabyte (1012 byte), petabyte (1015 byte), exa byte (1018 byte) và thậm chí bằng các thuật ngữ có chiều cao hơn. Chỉ cần nghĩ đến lượng dữ liệu được lưu trữ trên máy chủ Facebook, Twitter hoặc Amazon hoặc lượng dữ liệu thu được hàng ngày từ việc quét các mặt hàng tại chuỗi cửa hàng tạp hóa quốc gia như Kroger và các chi nhánh của nó. Ví dụ, Walmart có hơn một triệu giao dịch mỗi giờ, mang lại hơn 2,5 petabyte dữ liệu. Các chuyên gia phân tích đã đặt ra thuật ngữ dữ liệu lớn để chỉ lượng dữ liệu kinh doanh khổng lồ từ nhiều nguồn khác nhau, phần lớn trong số đó có sẵn trong thời gian thực và phần lớn trong số đó là không chắc chắn hoặc không thể đoán trước. IBM gọi những đặc điểm này là khối lượng, sự đa dạng, tốc độ và tính xác thực. Thông thường, dữ liệu lớn xoay quanh hành vi của khách hàng và trải nghiệm của khách hàng. Dữ liệu lớn tạo cơ hội cho các tổ chức đạt được lợi thế cạnh tranh— nếu dữ liệu có thể được hiểu và phân tích hiệu quả để đưa ra các quyết định kinh doanh tốt hơn. Khối lượng dữ liệu tiếp tục tăng; những gì được coi là “lớn” hôm nay sẽ còn lớn hơn vào ngày mai. Trong một nghiên cứu về các chuyên gia công nghệ thông tin (CNTT) vào năm 2010, gần một nửa số người tham gia khảo sát đã xếp hạng tăng trưởng dữ liệu trong số ba thách thức hàng đầu của họ. Dữ liệu lớn đến từ nhiều nguồn và có thể là dữ liệu số, văn bản và thậm chí cả âm thanh và video. Dữ liệu lớn được thu thập bằng các cảm biến (ví dụ: máy quét siêu thị), nhấp vào luồng từ Web, giao dịch của khách hàng, e-mail, tweet và phương tiện truyền thông xã hội và các cách khác. Các tập dữ liệu lớn không có cấu trúc và lộn xộn, đòi hỏi các phân tích phức tạp để tích hợp và xử lý dữ liệu cũng như hiểu thông tin chứa trong đó. Dữ liệu lớn không chỉ được thu thập trong thời gian thực mà còn phải được đưa vào các quyết định kinh doanh với tốc độ nhanh hơn. Các quy trình như phát hiện gian lận phải được phân tích nhanh chóng để có giá trị. IBM đã thêm một khía cạnh thứ tư: tính xác thực—mức độ tin cậy liên quan đến dữ liệu. Có dữ liệu chất lượng cao và hiểu được tính không chắc chắn của dữ liệu là điều cần thiết để đưa ra quyết định đúng đắn. Tính xác thực của dữ liệu là một vai trò quan trọng đối với các phương pháp thống kê. Dữ liệu lớn có thể giúp các tổ chức hiểu rõ hơn và dự đoán hành vi của khách hàng cũng như cải thiện dịch vụ khách hàng. Một nghiên cứu của Viện Toàn cầu McKinsey lưu ý rằng “Việc sử dụng hiệu quả dữ liệu lớn có khả năng chuyển đổi nền kinh tế, mang lại một làn sóng tăng trưởng năng suất mới và thặng dư tiêu dùng. Việc sử dụng dữ liệu lớn sẽ trở thành cơ sở cạnh tranh chính cho các công ty hiện tại và sẽ tạo ra những đối thủ cạnh tranh mới có khả năng thu hút những nhân viên có kỹ năng quan trọng cho thế giới dữ liệu lớn.”26 Tuy nhiên, hiểu biết về dữ liệu lớn 26James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh và Angela Hung Byers, “Dữ liệu lớn: Biên giới tiếp theo của Đổi mới, Cạnh tranh và Năng suất,” McKinsey & Company tháng 5 năm 2011. Machine Translated by Google 16 Chương 1 Giới thiệu về Phân tích Kinh doanh dữ liệu yêu cầu các công cụ phân tích nâng cao như khai thác dữ liệu và phân tích văn bản cũng như các công nghệ mới như điện toán đám mây, bộ xử lý đa lõi nhanh hơn, không gian bộ nhớ lớn và ổ đĩa trạng thái rắn. Số liệu và phân loại dữ liệu Số liệu là một đơn vị đo lường cung cấp cách định lượng hiệu suất một cách khách quan. Ví dụ: các nhà quản lý cấp cao có thể đánh giá hiệu quả kinh doanh tổng thể bằng cách sử dụng các số liệu như lợi nhuận ròng, lợi tức đầu tư, thị phần và sự hài lòng của khách hàng. Người quản lý nhà máy có thể theo dõi các số liệu như tỷ lệ các bộ phận bị lỗi được sản xuất hoặc số lượng hàng tồn kho luân chuyển mỗi tháng. Đối với một nhà bán lẻ dựa trên Web, một số chỉ số đo lường hữu ích là tỷ lệ phần trăm đơn đặt hàng được thực hiện chính xác và thời gian cần thiết để thực hiện đơn đặt hàng của khách hàng. Đo lường là hành động thu thập dữ liệu liên quan đến một số liệu. Các biện pháp là các giá trị số được liên kết với một số liệu. Các số liệu có thể rời rạc hoặc liên tục. Một số liệu rời rạc là một số liệu bắt nguồn từ việc đếm một cái gì đó. Ví dụ, việc giao hàng có đúng hạn hay không; một đơn đặt hàng đã hoàn thành hoặc chưa hoàn thành; hoặc một hóa đơn có thể có một, hai, ba hoặc bất kỳ lỗi nào. Một số chỉ số rời rạc liên quan đến các ví dụ này sẽ là tỷ lệ giao hàng đúng hạn; số lượng đơn đặt hàng không đầy đủ mỗi ngày và số lượng lỗi trên mỗi hóa đơn. Các phép đo liên tục dựa trên thang đo liên tục. Ví dụ: bất kỳ số liệu nào liên quan đến đô la, độ dài, thời gian, khối lượng hoặc trọng lượng đều liên tục. Một cách phân loại dữ liệu khác là theo loại thang đo. Dữ liệu có thể được phân loại thành bốn nhóm: 1. Dữ liệu phân loại (danh nghĩa), được sắp xếp thành các loại theo các đặc điểm xác định. Ví dụ, khách hàng của một công ty có thể được phân loại theo khu vực địa lý của họ (Bắc Mỹ, Nam Mỹ, Châu Âu và Thái Bình Dương); nhân viên có thể được phân loại là người quản lý, người giám sát và cộng sự. Các danh mục không có mối quan hệ định lượng với nhau, nhưng chúng tôi thường gán một số tùy ý cho từng danh mục để dễ dàng quản lý dữ liệu và thống kê tính toán. Dữ liệu phân loại thường được tính hoặc biểu thị dưới dạng tỷ lệ hoặc phần trăm. 2. Dữ liệu thứ tự, có thể được sắp xếp hoặc xếp hạng theo một số mối quan hệ với nhau. Bảng xếp hạng bóng đá hoặc bóng rổ của trường đại học là thứ tự; thứ hạng cao hơn biểu thị một đội mạnh hơn nhưng không chỉ định bất kỳ thước đo sức mạnh bằng số nào. Dữ liệu thông thường có ý nghĩa hơn dữ liệu phân loại vì dữ liệu có thể được so sánh với nhau. Một ví dụ phổ biến trong kinh doanh là dữ liệu từ quy mô khảo sát—ví dụ: xếp hạng một dịch vụ là kém, trung bình, tốt, rất tốt hoặc xuất sắc. Dữ liệu như vậy là phân loại nhưng cũng có thứ tự tự nhiên (xuất sắc tốt hơn rất tốt) và do đó, có thứ tự. Tuy nhiên, dữ liệu thứ tự không có đơn vị đo lường cố định, vì vậy chúng tôi không thể đưa ra các tuyên bố bằng số có ý nghĩa về sự khác biệt giữa các danh mục. Vì vậy, chúng ta không thể nói rằng sự khác biệt giữa xuất sắc và rất tốt cũng giống như giữa tốt và trung bình chẳng hạn. Tương tự, một đội xếp thứ nhất có thể vượt trội hơn nhiều so với đội xếp thứ hai, trong khi có thể có rất ít sự khác biệt giữa các đội xếp thứ 9 và thứ 10. 3. Dữ liệu khoảng, là dữ liệu có thứ tự nhưng có sự khác biệt không đổi giữa các quan sát và có các điểm 0 tùy ý. Các ví dụ phổ biến là thời gian và nhiệt độ. Thời gian liên quan đến vị trí toàn cầu và lịch có ngày bắt đầu tùy ý (ví dụ: so sánh lịch Gregorian tiêu chuẩn với lịch Trung Quốc Machine Translated by Google 17 Chương 1 Giới thiệu về Phân tích Kinh doanh lịch). Cả thang đo độ F và độ C đều biểu thị một thước đo xác định về khoảng cách —độ—nhưng có các điểm 0 tùy ý. Vì vậy, chúng tôi không thể lấy tỷ lệ có ý nghĩa; chẳng hạn, chúng ta không thể nói rằng 50 độ nóng gấp đôi 25 độ. Tuy nhiên, chúng ta có thể so sánh sự khác biệt. Một ví dụ khác là điểm SAT hoặc GMAT. Điểm số có thể được sử dụng để xếp hạng học sinh, nhưng chỉ có sự khác biệt giữa các điểm số mới cung cấp thông tin về mức độ học sinh này học tốt hơn học sinh khác; tỷ lệ có rất ít ý nghĩa. Trái ngược với dữ liệu thứ tự, dữ liệu khoảng cho phép so sánh có ý nghĩa các phạm vi, giá trị trung bình và các số liệu thống kê khác. Trong kinh doanh, dữ liệu từ thang đo khảo sát, mặc dù theo thứ tự kỹ thuật, thường được coi là dữ liệu khoảng khi thang đo số được liên kết với các loại mèo (ví dụ: 1 kém, 2 trung bình, 3 tốt, 4 rất tốt, 5 xuất sắc). Nói một cách chính xác, điều này không chính xác vì “khoảng cách” giữa các loại có thể không được coi là giống nhau (ví dụ: người được hỏi có thể nhận thấy khoảng cách lớn hơn giữa người nghèo và người trung bình so với người giỏi và người rất tốt). Tuy nhiên, nhiều người sử dụng dữ liệu khảo sát coi chúng là khoảng thời gian khi phân tích dữ liệu, đặc biệt khi chỉ sử dụng thang số mà không có nhãn mô tả. 4. Dữ liệu tỷ lệ liên tục và có số 0 tự nhiên. Hầu hết dữ liệu kinh doanh và kinh tế, chẳng hạn như đô la và thời gian, đều thuộc loại này. Ví dụ, đơn vị đo lường đô la có số không tuyệt đối. Tỷ lệ của con số đô la có ý nghĩa đầy đủ. Ví dụ: biết rằng khu vực Seattle đã bán được 12 triệu đô la trong tháng 3 trong khi khu vực Tampa bán được 6 triệu đô la có nghĩa là Seattle đã bán được gấp đôi so với Tampa. Sự phân loại này có thứ bậc ở chỗ mỗi cấp bao gồm tất cả nội dung thông tin của cấp trước nó. Ví dụ: dữ liệu thứ tự cũng được phân loại và tỷ lệ trong quá trình hình thành có thể được chuyển đổi thành bất kỳ loại dữ liệu nào khác. Thông tin khoảng có thể được chuyển đổi thành dữ liệu thứ tự hoặc phân loại nhưng không thể chuyển đổi thành dữ liệu tỷ lệ mà không biết điểm không tuyệt đối. Do đó, thang đo tỷ lệ là hình thức đo lường mạnh nhất. VÍ DỤ 1.3 Phân loại các yếu tố dữ liệu trong cơ sở dữ liệu mua hàng27 Hình 1.3 cho thấy một phần của tập dữ liệu chứa tất cả các mặt hàng Mục Mô tả—phân loại mà một công ty sản xuất linh kiện máy bay đã mua trong 3 tháng Hạng mục Chi phí—tỷ lệ qua. Dữ liệu cung cấp cho nhà cung cấp; số thứ tự; số mục, mô tả Số lượng—tỷ lệ và chi phí; số lượng đặt hàng; chi phí cho mỗi đơn đặt hàng, các Chi phí trên mỗi đơn đặt hàng—tỷ lệ điều khoản về tài khoản phải trả (A/P) của nhà cung cấp; và thứ tự Điều khoản A/P—tỷ lệ và ngày đến. Chúng tôi có thể phân loại từng loại dữ liệu này như Ngày đặt hàng—khoảng thời gian sau: Ngày đến—khoảng thời gian Chúng tôi có thể sử dụng những dữ liệu này để đánh giá tốc độ Nhà cung cấp—phân loại giao hàng trung bình và xếp hạng các nhà cung cấp (do đó tạo ra dữ Số thứ tự—thứ tự liệu thứ tự) theo số liệu này. (Chúng ta xem cách thực hiện điều này Số mục—phân loại trong chương tiếp theo). 27Dựa trên Laudon và Laudon, Yếu tố cần thiết của Hệ thống Thông tin Quản lý. Machine Translated by Google 18 Chương 1 Giới thiệu về Phân tích Kinh doanh Hình 1.3 Độ tin cậy và hiệu lực của dữ liệu Một phần của tệp Excel Dữ liệu đơn đặt hàng Dữ liệu kém có thể dẫn đến các quyết định kém. Trong một tình huống, một mô hình thiết kế hệ thống phân phối dựa trên dữ liệu thu được từ bộ phận tài chính doanh nghiệp. Chi phí vận chuyển được xác định bằng cách sử dụng công thức dựa trên vĩ độ và kinh độ của các địa điểm của nhà máy và khách hàng. Nhưng khi giải pháp được trình bày trên chương trình lập bản đồ hệ thống thông tin địa lý (GIS), một trong những khách hàng ở Đại Tây Dương. Do đó, dữ liệu được sử dụng trong các quyết định kinh doanh cần phải đáng tin cậy và hợp lệ. Độ tin cậy có nghĩa là dữ liệu chính xác và nhất quán. Giá trị có nghĩa là dữ liệu đo lường chính xác những gì chúng phải đo lường. Ví dụ: đồng hồ đo áp suất lốp liên tục đọc vài pound áp suất dưới giá trị thực là không đáng tin cậy, mặc dù nó có giá trị vì nó đo áp suất lốp. Số cuộc gọi đến bàn dịch vụ khách hàng có thể được tính chính xác mỗi ngày (và do đó là thước đo đáng tin cậy), nhưng không hợp lệ nếu nó được sử dụng để đánh giá sự không hài lòng của khách hàng, vì nhiều cuộc gọi có thể chỉ là những câu hỏi đơn giản. Cuối cùng, một câu hỏi khảo sát yêu cầu khách hàng đánh giá chất lượng thực phẩm trong nhà hàng có thể không đáng tin cậy (vì các khách hàng khác nhau có thể có những nhận thức trái ngược nhau) cũng không có giá trị (nếu mục đích là đo lường sự hài lòng của khách hàng, vì sự hài lòng thường bao gồm các yếu tố khác). yếu tố dịch vụ bên cạnh thực phẩm). Các mô hình trong phân tích kinh doanh Để đưa ra quyết định, chúng ta phải có khả năng chỉ rõ các phương án quyết định đại diện cho các lựa chọn có thể đưa ra và các tiêu chí để đánh giá các phương án. Chỉ định các phương án quyết định có thể rất đơn giản; ví dụ: bạn có thể cần chọn một trong ba tùy chọn chương trình sức khỏe của công ty. Các tình huống khác có thể phức tạp hơn; ví dụ, khi định vị một trung tâm phân phối mới, có thể không liệt kê được chỉ một số lượng nhỏ các lựa chọn thay thế. Tập hợp các vị trí tiềm năng có thể ở bất kỳ đâu tại Hoa Kỳ hoặc thậm chí trong một khu vực địa lý rộng lớn như Châu Á. Các tiêu chí quyết định có thể là tối đa hóa lợi nhuận ròng chiết khấu, sự hài lòng của khách hàng hoặc lợi ích xã hội hoặc để giảm thiểu chi phí, tác động môi trường hoặc một số biện pháp tổn thất. Nhiều vấn đề quyết định có thể được hình thức hóa bằng cách sử dụng một mô hình. Một mô hình là một sự trừu tượng hóa hoặc biểu diễn của một hệ thống, ý tưởng hoặc đối tượng thực. Các mô hình nắm bắt các đặc điểm quan trọng nhất của một vấn đề và trình bày chúng dưới dạng dễ diễn giải. Một mô hình có thể đơn giản như một mô tả bằng văn bản hoặc bằng lời nói về một số hiện tượng, một biểu diễn trực quan như đồ thị hoặc lưu đồ, hoặc biểu diễn toán học hoặc bảng tính (xem Ví dụ 1.4). Các mô hình có thể mang tính mô tả, dự đoán hoặc quy định và do đó được sử dụng trong nhiều ứng dụng phân tích kinh doanh. Trong ví dụ 1.4, lưu ý rằng hai cái đầu tiên Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 19 VÍ DỤ 1.4 Ba dạng của một mô hình Việc bán một sản phẩm mới, chẳng hạn như iPad thế hệ đầu tiên, điện thoại Android hoặc tivi 3D, thường tuân theo một khuôn mẫu chung. Chúng ta có thể biểu diễn điều này theo một trong ba cách sau: 3. Cuối cùng, các nhà phân tích có thể xác định một mô hình toán học đặc trưng cho đường cong này. Một số hàm toán học khác nhau thực hiện điều này; một được gọi là đường cong Gompertz và có công thức: S = aebec , trong đó S = doanh 1. Một mô tả bằng lời nói đơn giản về doanh số bán hàng có thể là: Tỷ lệ doanh số bán hàng bắt đầu nhỏ khi những người dùng sớm bắt đầu đánh giá một sản phẩm mới và sau đó bắt đầu tăng với tốc độ ngày càng tăng theo thời gian khi phản hồi tích cực của khách hàng lan rộng. Cuối cùng, thị trường bắt đầu trở nên bão hòa và tốc độ bán hàng bắt đầu giảm. số, = thời gian, e là cơ số của logarit tự nhiên và a, b và c là các hằng số. Tất nhiên, bạn sẽ không biết điều này; đó là những gì các chuyên gia phân tích làm. Một mô hình toán học như vậy cung cấp khả năng dự đoán doanh số bán hàng một cách định lượng và phân tích các quyết định tiềm năng bằng cách đặt câu hỏi “điều gì sẽ xảy ra nếu?” câu hỏi. 2. Bản phác thảo doanh số bán hàng dưới dạng đường cong hình chữ S theo thời gian, như trong Hình 1.4, là một mô hình trực quan thể hiện hiện tượng này. các hình thức của mô hình hoàn toàn là mô tả; họ chỉ đơn giản là giải thích hiện tượng. Mặc dù mô hình toán học cũng mô tả hiện tượng này, nhưng nó có thể được sử dụng để dự đoán doanh số bán hàng trong tương lai. Các mô hình thường được phát triển từ lý thuyết hoặc quan sát và thiết lập mối quan hệ giữa các hành động mà người ra quyết định có thể thực hiện và kết quả mà họ có thể mong đợi, do đó cho phép người ra quyết định dự đoán điều gì có thể xảy ra dựa trên mô hình. Các mô hình bổ sung cho trực giác của những người ra quyết định và thường cung cấp những hiểu biết sâu sắc mà trực giác không thể. Ví dụ, một ứng dụng ban đầu của phân tích trong tiếp thị liên quan đến nghiên cứu về hoạt động bán hàng. Các đại diện bán hàng phải phân chia thời gian giữa các khách hàng lớn và nhỏ, giữa việc thu hút khách hàng mới và giữ chân khách hàng cũ. Vấn đề là xác định xem những người đại diện nên phân bổ thời gian như thế nào là tốt nhất. Trực giác gợi ý rằng họ nên tập trung vào những khách hàng lớn và việc có được một khách hàng mới khó hơn nhiều so với việc giữ một khách hàng cũ. Tuy nhiên, trực giác không thể cho biết liệu họ nên tập trung vào 100 khách hàng lớn nhất hay 1.000 khách hàng lớn nhất hay nên dành bao nhiêu nỗ lực để có được khách hàng mới. Các mô hình về hiệu quả của lực lượng bán hàng và mô hình phản hồi của khách hàng đã cung cấp cái nhìn sâu sắc để đưa ra những quyết định này. Tuy nhiên, điều quan trọng là phải hiểu rằng tất cả các mô hình chỉ là đại diện của thế giới thực và do đó, không thể nắm bắt được mọi sắc thái mà những người ra quyết định phải đối mặt trong thực tế. Người ra quyết định phải thường xuyên Hình 1.4 Bán sản phẩm mới Tăng ca Machine Translated by Google 20 Chương 1 Giới thiệu về Phân tích Kinh doanh sửa đổi các chính sách mà các mô hình đề xuất để tính đến các yếu tố vô hình mà chúng có thể không thể kết hợp vào mô hình. Một mô hình mô tả đơn giản là một biểu diễn trực quan được gọi là biểu đồ ảnh hưởng bởi vì nó mô tả các yếu tố khác nhau của mô hình ảnh hưởng hoặc liên quan đến những yếu tố khác như thế nào. Sơ đồ ảnh hưởng là một cách tiếp cận hữu ích để khái niệm hóa cấu trúc của một mô hình và có thể hỗ trợ xây dựng một mô hình toán học hoặc bảng tính. Các phần tử của mô hình được biểu diễn bằng các ký hiệu hình tròn gọi là các nút. Các mũi tên được gọi là nhánh kết nối các nút và chỉ ra yếu tố nào ảnh hưởng đến yếu tố khác. Biểu đồ ảnh hưởng khá hữu ích trong giai đoạn đầu xây dựng mô hình khi chúng ta cần hiểu và mô tả các mối quan hệ chính. Ví dụ 1.5 chỉ ra cách xây dựng các biểu đồ ảnh hưởng đơn giản và Ví dụ 1.6 chỉ ra cách xây dựng một mô hình toán học dựa trên biểu đồ ảnh hưởng. VÍ DỤ 1.5 Biểu đồ ảnh hưởng đối với tổng chi phí Từ các nguyên tắc kinh doanh cơ bản, chúng ta biết rằng tổng không có nhánh nào trỏ vào chúng là đầu vào cho mô hình. chi phí để sản xuất một lượng sản phẩm cố định bao gồm chi Chúng ta có thể thấy biến phí đơn vị và định phí là dữ liệu phí cố định và chi phí biến đổi. Do đó, một biểu đồ ảnh hưởng đầu vào trong mô hình. Tuy nhiên, số lượng được sản xuất là đơn giản thể hiện các mối quan hệ này được đưa ra trong Hình một biến quyết định bởi vì nó có thể được kiểm soát bởi người 1.5. quản lý hoạt động. Tổng chi phí là đầu ra (lưu ý rằng nó không Chúng ta có thể phát triển một mô hình chi tiết hơn bằng có nhánh nào hướng ra ngoài) mà chúng ta muốn tính toán. Nút cách lưu ý rằng chi phí biến đổi phụ thuộc vào chi phí biến chi phí biến đổi liên kết một số đầu vào với đầu ra và có thể đổi đơn vị cũng như số lượng sản xuất. Mô hình mở rộng được được coi là “khối xây dựng” của mô hình cho tổng chi phí. thể hiện trong Hình 1.6. Trong hình này, tất cả các nút có Hình 1.5 Tổng chi phí Sơ đồ ảnh hưởng Liên quan tổng chi phí đến nó Thành phần chính Chi phí cố định Hình 1.6 Chi phí biến đổi Tổng chi phí Ảnh hưởng mở rộng Sơ đồ cho Tổng chi phí Chi phí biến đổi Chi phí cố định biến đơn vị Trị giá Số lượng sản xuất Machine Translated by Google 21 Chương 1 Giới thiệu về Phân tích Kinh doanh VÍ DỤ 1.6 Xây dựng Mô hình Toán học từ Biểu đồ Ảnh hưởng Chúng ta có thể phát triển một mô hình toán học từ biểu đồ ảnh hưởng trong Hình 1.6. Đầu tiên, chúng ta cần xác định bản chất chính xác của Sử dụng các mối quan hệ này, chúng ta có thể phát triển một biểu diễn toán học bằng cách xác định các ký hiệu cho từng đại lượng sau: các mối quan hệ giữa các đại lượng khác nhau. Ví dụ, chúng ta có thể dễ dàng nói rằng TC = tổng chi phí (1.1) Tổng chi phí = Chi phí cố định + Chi phí biến đổi Logic cũng gợi ý rằng chi phí biến đổi là chi phí biến đổi đơn vị nhân với số lượng được sản xuất. Như vậy, V = chi phí biến đổi đơn vị F = chi phí cố định Q = số lượng sản xuất Điều này dẫn đến mô hình Chi phí biến đổi = Chi phí biến đổi đơn vị x Số lượng sản xuất (1.4) TC = F + VQ (1.2) Bằng cách thay điều này vào phương trình (1.1), chúng ta có Tổng chi phí = Chi phí cố định + Chi phí biến đổi = Chi phí cố định + Chi phí biến đổi đơn vị x Số lượng sản xuất (1.3) Mô hình quyết định Mô hình quyết định là một biểu diễn logic hoặc toán học của một vấn đề hoặc tình huống kinh doanh có thể được sử dụng để hiểu, phân tích hoặc tạo thuận lợi cho việc đưa ra quyết định. Hầu hết các mô hình quyết định có ba loại đầu vào: 1. Dữ liệu, được giả định là không đổi cho các mục đích của mô hình. Một số ví dụ sẽ là chi phí, công suất máy móc và khoảng cách giữa các thành phố. 2. Biến số không kiểm soát được là những đại lượng có thể thay đổi nhưng người ra quyết định không thể kiểm soát trực tiếp. Một số ví dụ sẽ là nhu cầu của khách hàng, tỷ lệ lạm phát và lợi tức đầu tư. Thông thường, các biến này là không chắc chắn. 3. Các biến số quyết định, có thể kiểm soát được và có thể được lựa chọn theo quyết định của người ra quyết định. Một số ví dụ sẽ là số lượng sản xuất (xem Ví dụ 1.5), mức nhân sự và phân bổ đầu tư. Các mô hình quyết định mô tả các mối quan hệ giữa dữ liệu, các biến không thể kiểm soát và các biến quyết định cũng như các kết quả đầu ra mà người ra quyết định quan tâm (xem Hình 1.7). Các mô hình quyết định có thể được biểu diễn theo nhiều cách khác nhau, điển hình nhất là với các hàm toán học và bảng tính. Bảng tính là phương tiện lý tưởng để triển khai các mô hình quyết định vì tính linh hoạt của chúng trong việc quản lý dữ liệu, đánh giá các tình huống khác nhau và trình bày kết quả theo cách có ý nghĩa. Hình 1.7 đầu vào đầu ra Bản chất của các mô hình quyết định Các biện pháp của Dữ liệu, Không thể kiểm soát Các biến và Các biến quyết định Phán quyết Người mẫu Hiệu suất hoặc Hành vi Machine Translated by Google 22 Chương 1 Giới thiệu về Phân tích Kinh doanh Chúng ta có thể sử dụng mô hình trong Ví dụ 1.6 như thế nào để giúp đưa ra quyết định? Giả sử rằng một nhà sản xuất có tùy chọn tự sản xuất một bộ phận hoặc thuê ngoài từ một nhà cung cấp (các biến quyết định). Công ty nên sản xuất một phần hoặc thuê ngoài nó? Quyết định phụ thuộc vào khối lượng nhu cầu dự đoán (một biến không thể kiểm soát); đối với số lượng lớn, chi phí sản xuất nội bộ sẽ thấp hơn so với thuê ngoài, bởi vì chi phí cố định có thể được phân bổ cho một số lượng lớn các đơn vị. Đối với khối lượng nhỏ, sẽ tiết kiệm hơn nếu thuê ngoài. Biết được tổng chi phí của cả hai phương án (dựa trên dữ liệu về chi phí sản xuất cố định và biến đổi cũng như chi phí mua hàng) và điểm hòa vốn sẽ tạo thuận lợi cho quyết định. Một ví dụ số được cung cấp trong Ví dụ 1.7. VÍ DỤ 1.7 Mô hình quyết định hòa vốn Giả sử rằng một nhà sản xuất có thể sản xuất một bộ phận với Do đó, nếu khối lượng sản xuất dự kiến lớn hơn 1.000, giá 125 đô la/đơn vị với chi phí cố định là 50.000 đô la. Giải thì việc sản xuất bộ phận đó sẽ tiết kiệm hơn; nếu dưới 1.000 pháp thay thế là thuê ngoài sản xuất cho một nhà cung cấp với thì nên thuê ngoài. chi phí đơn vị là $175. Tổng chi phí sản xuất được thể hiện Điều này được thể hiện bằng đồ thị trong Hình 1.8. Chúng tôi cũng có thể phát triển một công thức chung bằng phương trình (1.5): TC (sản xuất) = $50.000 + $125 × Q và tổng chi phí gia công phần mềm có thể được viết là TC (thuê ngoài) = $175 × Q Các mô hình toán học dễ thao tác; ví dụ, có thể dễ dàng tìm thấy khối lượng hòa vốn bằng cách đặt cho điểm hòa vốn bằng cách đặt C là chi phí đơn vị thuê ngoài một phần và đặt TC (sản xuất) = TC (thuê ngoài) bằng cách sử dụng các công thức: F + VQ = CQ Q = F C - V (1.5) TC (sản xuất) = TC (gia công) và giải Q: $50.000 + $125 × Q = $175 × Q 50.000 USD = 50 × Q Q = 1.000 Nhiều mô hình được phát triển bằng cách phân tích dữ liệu lịch sử. Ví dụ 1.8 cho thấy dữ liệu lịch sử có thể được sử dụng như thế nào để phát triển một mô hình quyết định có thể được sử dụng để dự đoán tác động của các chiến lược định giá và quảng cáo trong ngành tạp hóa. Hình 1.8 Minh họa đồ họa của Phân tích hòa vốn Machine Translated by Google 23 Chương 1 Giới thiệu về Phân tích Kinh doanh VÍ DỤ 1.8 Mô hình quyết định xúc tiến bán hàng Trong ngành hàng tạp hóa, các nhà quản lý thường cần biết cách sử dụng để phát triển một mô hình dự đoán doanh số bán hàng như là một chức năng giá cả, phiếu giảm giá và chiến lược quảng cáo tốt nhất để tác động đến của các chiến lược quyết định này. doanh số bán hàng. Các cửa hàng tạp hóa thường nghiên cứu mối quan hệ giữa doanh số bán hàng với các chiến lược này bằng cách tiến hành các Ví dụ: giả sử rằng một người bán tạp hóa điều hành ba cửa hàng ở một thành phố nhỏ đã thay đổi giá, phiếu giảm giá (có = 1, không = 0) thử nghiệm có kiểm soát để xác định mối quan hệ giữa họ và doanh số bán và chi phí quảng cáo trên một tờ báo địa phương trong khoảng thời gian hàng.28 Nghĩa là, họ triển khai các kết hợp khác nhau giữa giá cả, phiếu 16 tuần và quan sát thấy doanh thu như sau: giảm giá và quảng cáo, quan sát doanh số bán hàng dẫn đến, và sử dụng phân tích cửa hàng 1 Giá tuần ($) Phiếu giảm giá (0,1) Quảng cáo ($) 0 1 6,99 2 6,99 0 3 6,99 1 4 6,99 1 0 150 0 150 5 6,49 0 6 6,49 0 7 6,49 1 6,49 1 7,59 0 0 số 8 9 0 cửa hàng 3 cửa hàng 2 Bán hàng (Đơn vị) Bán hàng (Đơn vị) Bán hàng (Đơn vị) 501 510 481 772 748 775 554 528 506 838 785 834 521 519 500 150 723 790 723 0 510 556 520 818 773 800 479 491 486 150 10 7,59 0 150 825 822 757 11 7,59 1 0 533 513 540 12 7,59 1 839 791 832 13 5,49 0 14 5,49 0 15 5,49 1 16 5,49 1 150 0 150 0 150 Để hiểu rõ hơn về mối quan hệ giữa giá cả, phiếu giảm giá và quảng 484 480 508 686 683 708 543 531 530 767 743 779 đầu ra của mô hình là các đơn vị bán hàng của sản phẩm. Ví dụ: nếu giá cáo, người bán tạp hóa có thể đã phát triển mô hình sau bằng cách sử là 6,99 đô la, không có phiếu giảm giá nào được cung cấp và không có dụng các công cụ phân tích kinh doanh: quảng cáo nào được thực hiện (thử nghiệm tương ứng với tuần 1), thì mô doanh số = 500 0,05 × giá + 30 × phiếu giảm giá + 0,08 × quảng cáo + 0,25 × giá × quảng cáo hình ước tính doanh số bán hàng là doanh thu = 500 0,05 × 6,99 USD + 30 × 0 + 0,08 × 0 + 0,25 × 6,99 USD × 0 = 500 đơn vị Trong mô hình này, các biến quyết định là giá cả, phiếu giảm giá và quảng cáo. Các giá trị 500, 0,05, 30, 0,08 và 0,25 là ảnh hưởng của dữ liệu đầu vào đến mô hình được ước tính từ dữ liệu thu được từ thử nghiệm. Chúng tôi thấy rằng doanh số bán hàng thực tế trong tuần 1 thay đổi từ 481 đến 510 trong ba cửa hàng. Do đó, mô hình này dự đoán một ước tính tốt cho doanh số bán hàng; tuy nhiên, nó không cho chúng ta biết bất Chúng phản ánh tác động đến doanh số của việc thay đổi các biến quyết cứ điều gì về khả năng thay đổi tiềm năng hoặc lỗi dự đoán. Tuy nhiên, định. Ví dụ: tăng giá 1 đô la dẫn đến doanh số hàng tuần giảm 0,05 đơn người quản lý có thể sử dụng mô hình này để đánh giá các chiến lược định vị; sử dụng phiếu giảm giá dẫn đến doanh số hàng tuần tăng 30 đơn vị. giá, khuyến mãi và quảng cáo khác nhau, đồng thời giúp chọn chiến lược Trong ví dụ này, không có biến đầu vào không kiểm soát được. Các tốt nhất để tối đa hóa doanh thu hoặc lợi nhuận. 28Roger J. Calantone, Cornelia Droge, David S. Litvack, và C. Anthony di Benedetto. “Flanking in a Price War,” Interfaces, 19, 2 (1989): 1–12. Machine Translated by Google 24 Chương 1 Giới thiệu về Phân tích Kinh doanh Giả định mô hình Tất cả các mô hình đều dựa trên các giả định phản ánh quan điểm của người lập mô hình về “thế giới thực”. Một số giả định được đưa ra để đơn giản hóa mô hình và làm cho nó dễ xử lý hơn; nghĩa là, có thể dễ dàng phân tích hoặc giải quyết. Các giả định khác có thể được thực hiện để mô tả dữ liệu lịch sử hoặc các quan sát trong quá khứ tốt hơn. Nhiệm vụ của người lập mô hình là lựa chọn hoặc xây dựng một mô hình thích hợp thể hiện tốt nhất hành vi của tình huống thực tế. Ví dụ, lý thuyết kinh tế cho chúng ta biết rằng nhu cầu đối với một sản phẩm có quan hệ tỷ lệ nghịch với giá của nó. Do đó, khi giá tăng, nhu cầu giảm và ngược lại (một hiện tượng mà bạn có thể nhận ra là độ co giãn của giá—tỷ lệ phần trăm thay đổi của nhu cầu so với phần trăm thay đổi của giá). Các mô hình toán học khác nhau có thể mô tả hiện tượng này. Trong các ví dụ sau đây, chúng tôi minh họa hai trong số chúng. (Bạn có thể tìm thấy cả hai ví dụ này trong tệp Excel Mô hình dự đoán nhu cầu. Chúng tôi sẽ giới thiệu việc sử dụng bảng tính trong phân tích trong chương tiếp theo.) VÍ DỤ 1.9 Mô hình dự báo nhu cầu tuyến tính Một mô hình đơn giản để dự đoán nhu cầu như một hàm của giá là mô hình tuyến tính Nếu giá tăng lên 90 đô la, mô hình dự đoán nhu cầu là D = 20.000 D = a bP (1.6) trong đó D là tỷ lệ cầu, P là đơn giá, a là hằng số ước tính lượng cầu khi giá bằng 0 và b là độ dốc của hàm cầu. Mô hình này được áp dụng nhiều nhất khi chúng ta muốn dự đoán tác động của những 101902 = 19.100 đơn vị Nếu giá là $100, nhu cầu sẽ là D = 20.000 1011002 = 19.000 đơn vị và như thế. Biểu đồ nhu cầu như là một chức năng của giá được hiển thay đổi nhỏ xung quanh mức giá hiện tại. Ví dụ: giả sử chúng ta thị trong Hình 1.9 khi giá dao động trong khoảng từ 80 đô la đến biết rằng khi giá là 100 đô la, nhu cầu là 19.000 đơn vị và nhu 120 đô la. Chúng tôi thấy rằng nhu cầu giảm liên tục đối với mỗi cầu đó giảm 10 đô la cho mỗi đô la tăng giá. Sử dụng đại số đơn lần tăng giá 10 đô la, một đặc điểm của mô hình tuyến tính. giản, chúng ta có thể xác định rằng a = 20.000 và b = 10. Do đó, nếu giá là 80 đô la, thì nhu cầu dự đoán là D = 20.000 101802 = 19.200 đơn vị Hình 1.9 Đồ thị nhu cầu tuyến tính Mô hình D = a bP Machine Translated by Google 25 Chương 1 Giới thiệu về Phân tích Kinh doanh VÍ DỤ 1.10 Một mô hình dự báo nhu cầu phi tuyến tính Một mô hình thay thế giả định rằng độ co giãn của giá là không Nếu giá là 90, lượng cầu sẽ là đổi. Trong trường hợp này, mô hình thích hợp là D = cP d 0,0111382 D = 20.0001902 = 19022. (1.7) Nếu giá là 100, lượng cầu là Trong đó, c là cầu khi giá bằng 0 và d + 0 là độ co giãn của D = 20,00011002 giá. Để phù hợp với Ví dụ 1.9, chúng ta giả định rằng khi giá 0,0111382 = 19.000. bằng 0, lượng cầu là 20.000. Do đó, c = 20.000. Chúng ta cũng Một đồ thị của nhu cầu như là một chức năng của giá cả được sẽ, như trong Ví dụ 1.9, giả định rằng khi giá là 100 đô thể hiện trong hình 1.10. Nhu cầu dự đoán giảm theo kiểu phi la, D = 19.000. tuyến tính nhẹ khi giá tăng. Ví dụ: nhu cầu giảm 25 đơn vị Sử dụng các giá trị này trong phương trình (1.7), chúng ta có thể xác khi giá tăng từ 80 đô la lên 90 đô la, nhưng chỉ giảm 22 đơn định giá trị cho d (chúng ta có thể thực hiện điều này về mặt toán vị khi giá tăng từ 90 đô la lên 100 đô la. Nếu giá tăng lên học bằng cách sử dụng log arithms, nhưng chúng ta sẽ xem cách thực 100 đô la, bạn sẽ thấy nhu cầu giảm ít hơn. Do đó, ta thấy hiện điều này rất dễ dàng bằng Excel trong Chương 11); đây là d = quan hệ phi tuyến ngược với Ví dụ 1.9. 0,0111382. Do đó, nếu giá là 80 đô la, thì nhu cầu dự đoán là Đ = 20.0001802 0,0111382 = 19,047. Cả hai mô hình trong Ví dụ 1.9 và 1.10 đưa ra những dự đoán khác nhau về nhu cầu đối với các mức giá khác nhau (ngoài $90). Mô hình nào là tốt nhất? Câu trả lời có thể là không. Trước hết, việc phát triển các mô hình thực tế đòi hỏi nhiều thay đổi về mức giá trong một thử nghiệm được thiết kế cẩn thận. Thứ hai, nó cũng nên bao gồm dữ liệu về cạnh tranh và thu nhập khả dụng của khách hàng, cả hai đều khó xác định. Tuy nhiên, có thể phát triển các mô hình co giãn giá với phạm vi giá hạn chế và phân khúc khách hàng hẹp. Điểm khởi đầu tốt là tạo cơ sở dữ liệu lịch sử với thông tin chi tiết về tất cả các hành động định giá trong quá khứ. Thật không may, các học viên đã quan sát thấy rằng các mô hình như vậy không được sử dụng rộng rãi trong tiếp thị bán lẻ, cho thấy rất nhiều cơ hội để áp dụng phân tích kinh doanh.29 Hình 1.10 Đồ thị nhu cầu phi tuyến tính Mô hình D = cP d 29Ming Zhang, Clay Duan, và Arun Muthupalaniappan, “Analytics Applications in Consumer Credit and Retail Marketing,” analytics-magazine.org, tháng 11/12/2011, trang 27–33. Machine Translated by Google 26 Chương 1 Giới thiệu về Phân tích Kinh doanh Sự không chắc chắn và rủi ro Như chúng ta đã biết, tương lai luôn không chắc chắn. Do đó, nhiều mô hình dự đoán kết hợp tính không chắc chắn và giúp những người ra quyết định phân tích những rủi ro liên quan đến các quyết định của họ. Sự không chắc chắn là kiến thức không hoàn hảo về những gì sẽ xảy ra; rủi ro có liên quan đến hậu quả và khả năng xảy ra của những gì có thể xảy ra. Ví dụ: sự thay đổi giá cổ phiếu của Apple vào ngày giao dịch tiếp theo là không chắc chắn. Tuy nhiên, nếu bạn sở hữu cổ phiếu Apple, bạn sẽ phải đối mặt với rủi ro mất tiền nếu giá cổ phiếu giảm. Nếu bạn không sở hữu bất kỳ cổ phiếu nào, giá vẫn không chắc chắn mặc dù bạn sẽ không gặp bất kỳ rủi ro nào. Rủi ro được đánh giá bằng mức độ nghiêm trọng của hậu quả và khả năng chúng sẽ xảy ra. Ví dụ: giá cổ phiếu giảm 10% sẽ có rủi ro cao hơn nếu bạn sở hữu 1 triệu đô la so với khi bạn chỉ sở hữu 1.000 đô la. Tương tự, nếu cơ hội giảm 10% là 1 trên 5, rủi ro sẽ cao hơn nếu cơ hội chỉ là 1 trên 100. Tầm quan trọng của rủi ro trong kinh doanh đã được công nhận từ lâu. Nhà văn nổi tiếng về quản lý, Peter Drucker, đã nhận xét vào năm 1974: Cố gắng loại bỏ rủi ro trong doanh nghiệp kinh doanh là vô ích. Rủi ro vốn có trong cam kết của các nguồn lực hiện tại với những kỳ vọng trong tương lai. Thật vậy, tiến bộ kinh tế có thể được định nghĩa là khả năng chấp nhận rủi ro lớn hơn. Nỗ lực loại bỏ rủi ro, thậm chí cả nỗ lực giảm thiểu chúng, chỉ có thể khiến chúng trở nên phi lý và không thể chịu đựng nổi. Nó chỉ có thể dẫn đến rủi ro lớn nhất trong tất cả: sự cứng nhắc.30 Xem xét rủi ro là một yếu tố sống còn của việc ra quyết định. Chẳng hạn, bạn có thể sẽ không chọn một khoản đầu tư chỉ dựa trên cơ sở lợi nhuận mà bạn có thể mong đợi bởi vì thông thường, lợi nhuận cao hơn có liên quan đến rủi ro cao hơn. Do đó, bạn phải đánh đổi giữa lợi ích của phần thưởng lớn hơn và rủi ro thua lỗ tiềm ẩn. Các mô hình phân tích có thể giúp đánh giá điều này. Chúng tôi sẽ giải quyết vấn đề này trong các chương sau. Mô hình quyết định theo quy định Một mô hình quyết định theo quy tắc giúp những người ra quyết định xác định giải pháp tốt nhất cho một vấn đề quyết định. Tối ưu hóa là quá trình tìm kiếm một tập hợp các giá trị cho các biến quyết định giúp tối thiểu hóa hoặc tối đa hóa một số lượng quan tâm—lợi nhuận, doanh thu, chi phí, thời gian, v.v.—được gọi là hàm mục tiêu. Bất kỳ tập hợp các biến quyết định nào tối ưu hóa hàm mục tiêu được gọi là một giải pháp tối ưu. Trong một thế giới cạnh tranh cao, nơi một điểm phần trăm có thể có nghĩa là sự khác biệt hàng trăm nghìn đô la trở lên, việc biết giải pháp tốt nhất có thể có nghĩa là sự khác biệt giữa thành công và thất bại. VÍ DỤ 1.11 Một mô hình định giá cho việc định giá Để minh họa một ví dụ về mô hình quy định, giả sử rằng một công ty Bởi vì doanh thu bằng giá × doanh số, một mô hình cho tổng doanh muốn xác định mức giá tốt nhất cho một trong các sản phẩm của mình thu là để tối đa hóa doanh thu trong năm tới. Một nghiên cứu thị trường đã thu thập dữ liệu ước tính doanh số tổng doanh thu = giá × doanh số hàng năm dự kiến cho các mức giá khác nhau. = giá × 1 Các nhà phân tích xác định rằng doanh số bán hàng có thể được thể giá2 + 3240,9 × giá hiện bằng mô hình sau: doanh số = 2,9485 × giá + 3240,92 = 22,9485 × Công ty muốn xác định mức giá tối đa hóa tổng doanh thu. Một cách 2,9485 × giá + 3.240,9 để làm điều này là thử các mức giá khác nhau và tìm kiếm mức giá mang lại tổng doanh thu cao nhất. Điều này sẽ khá tẻ nhạt nếu làm bằng tay hoặc thậm chí với máy tính. Chúng ta sẽ xem cách thực hiện điều này một cách dễ dàng trên bảng tính trong Chương 11. 30P. F. Drucker, The Manager and the Management Sciences in Management: Tasks, Responsibilities, Practices (London: Harper and Row, 1974). Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 27 Mặc dù mô hình định giá thì không, nhưng hầu hết các mô hình tối ưu hóa đều có những ràng buộc— giới hạn, yêu cầu hoặc các hạn chế khác được áp dụng cho bất kỳ giải pháp nào, chẳng hạn như “không vượt quá ngân sách cho phép” hoặc “đảm bảo rằng tất cả nhu cầu đều được đáp ứng”. Ví dụ, một nhà quản lý công ty sản phẩm tiêu dùng có thể muốn đảm bảo đạt được mức độ dịch vụ khách hàng cụ thể khi thiết kế lại hệ thống phân phối. Sự hiện diện của các ràng buộc làm cho việc mô hình hóa và giải quyết các vấn đề tối ưu hóa trở nên khó khăn hơn; chúng ta giải quyết các vấn đề tối ưu hóa có ràng buộc ở phần sau của cuốn sách này, bắt đầu từ Chương 13. Đối với một số mô hình quy tắc, các giải pháp phân tích — biểu thức toán học dạng đóng hoặc công thức đơn giản — có thể thu được bằng cách sử dụng các kỹ thuật như phép tính hoặc các loại phân tích toán học khác. Tuy nhiên, trong hầu hết các trường hợp, một số loại quy trình dựa trên máy tính là cần thiết để tìm ra giải pháp tối ưu. Một thuật toán là một thủ tục có hệ thống nhằm tìm ra giải pháp cho một vấn đề. Các nhà nghiên cứu đã phát triển các thuật toán hiệu quả để giải quyết nhiều loại vấn đề tối ưu hóa. Ví dụ: Microsoft Excel có một phần bổ trợ tích hợp sẵn có tên là Bộ giải cho phép bạn tìm các giải pháp tối ưu cho các vấn đề tối ưu hóa được định dạng dưới dạng mô hình bảng tính. Chúng tôi sử dụng Bộ giải trong các chương sau. Tuy nhiên, chúng ta sẽ không quan tâm đến cơ chế chi tiết của các thuật toán này; trọng tâm của chúng tôi sẽ là việc sử dụng các thuật toán để giải quyết và phân tích các mô hình mà chúng tôi phát triển. Nếu có thể, chúng tôi muốn đảm bảo rằng thuật toán chẳng hạn như thuật toán mà Bộ giải sử dụng sẽ tìm ra giải pháp tốt nhất. Tuy nhiên, một số mô hình phức tạp đến mức không thể giải quyết chúng một cách tối ưu trong một khoảng thời gian hợp lý trên máy tính do số lượng tính toán cực kỳ lớn có thể được yêu cầu hoặc do chúng quá phức tạp nên không thể đảm bảo tìm ra giải pháp tốt nhất. Trong những trường hợp này, các nhà phân tích sử dụng các thuật toán tìm kiếm—các thủ tục giải pháp thường tìm ra các giải pháp tốt mà không đảm bảo tìm ra giải pháp tốt nhất. Các thuật toán tìm kiếm mạnh mẽ tồn tại để có được các giải pháp tốt cho các vấn đề tối ưu hóa cực kỳ khó khăn. Những điều này được thảo luận trong phần trực tuyến bổ sung Chương A. Các mô hình quyết định theo quy định có thể là tất định hoặc ngẫu nhiên. Một mô hình xác định là một mô hình trong đó tất cả thông tin đầu vào của mô hình đều đã biết hoặc được giả định là đã biết một cách chắc chắn. Mô hình ngẫu nhiên là mô hình trong đó một số thông tin đầu vào của mô hình là không chắc chắn. Chẳng hạn, giả sử rằng nhu cầu của khách hàng là một yếu tố quan trọng của một số mô hình. Chúng ta có thể giả định rằng nhu cầu được biết một cách chắc chắn; nói, 5.000 đơn vị mỗi tháng. Trong trường hợp này, chúng ta sẽ xử lý một mô hình tất định. Mặt khác, giả sử chúng ta có bằng chứng cho thấy nhu cầu không chắc chắn, với giá trị trung bình là 5.000 đơn vị mỗi tháng, nhưng thường dao động trong khoảng 3.200 đến 6.800 đơn vị. Nếu chúng ta đưa ra giả định này, chúng ta sẽ xử lý một mô hình ngẫu nhiên. Những tình huống này được thảo luận trong phần trực tuyến bổ sung Chương B. Giải quyết vấn đề với Analytics Mục đích cơ bản của phân tích là giúp các nhà quản lý giải quyết vấn đề và đưa ra quyết định. Các kỹ thuật phân tích chỉ đại diện cho một phần của quá trình ra quyết định và giải quyết vấn đề tổng thể. Giải quyết vấn đề là hoạt động liên quan đến việc xác định, phân tích và giải quyết một vấn đề và lựa chọn một giải pháp thích hợp để giải quyết vấn đề đó. Giải quyết vấn đề bao gồm một số giai đoạn: 1. nhận ra vấn đề 2. xác định vấn đề 3. cấu trúc vấn đề 4. phân tích vấn đề 5. giải thích kết quả và đưa ra quyết định 6. thực hiện giải pháp Machine Translated by Google 28 Chương 1 Giới thiệu về Phân tích Kinh doanh Nhận ra một vấn đề Các nhà quản lý ở các cấp tổ chức khác nhau phải đối mặt với các loại vấn đề khác nhau. Ví dụ, trong một công ty sản xuất, các nhà quản lý cấp cao phải đối mặt với các quyết định phân bổ nguồn tài chính, xây dựng hoặc mở rộng cơ sở vật chất, xác định hỗn hợp sản phẩm và tìm nguồn cung ứng sản xuất một cách chiến lược. Các nhà quản lý cấp trung trong các hoạt động xây dựng kế hoạch phân phối, kế hoạch sản xuất và hàng tồn kho, và kế hoạch nhân sự. Các nhà quản lý tài chính phân tích rủi ro, xác định chiến lược đầu tư và đưa ra quyết định về giá. Các nhà quản lý tiếp thị phát triển các kế hoạch quảng cáo và đưa ra các quyết định phân bổ lực lượng bán hàng. Trong các hoạt động sản xuất, các vấn đề liên quan đến quy mô hoạt động sản xuất hàng ngày, lịch trình của từng máy và phân công công nhân. Dù vấn đề là gì, bước đầu tiên là nhận ra rằng nó tồn tại. Các vấn đề được nhận ra như thế nào? Các vấn đề tồn tại khi có khoảng cách giữa những gì đang xảy ra và những gì chúng ta nghĩ nên xảy ra. Ví dụ: người quản lý sản phẩm tiêu dùng có thể cảm thấy rằng chi phí phân phối quá cao. Sự công nhận này có thể là kết quả của việc so sánh hiệu suất với đối thủ cạnh tranh, quan sát xu hướng ngày càng tăng so với những năm trước. Xác định vấn đề Bước thứ hai trong quá trình giải quyết vấn đề là xác định rõ vấn đề. Tìm ra vấn đề thực sự và phân biệt nó với các triệu chứng quan sát được là một bước quan trọng. Ví dụ: chi phí phân phối cao có thể xuất phát từ việc định tuyến xe tải không hiệu quả, vị trí kém của các trung tâm phân phối hoặc các yếu tố bên ngoài như tăng chi phí nhiên liệu. Vấn đề có thể được định nghĩa là cải thiện quy trình định tuyến, thiết kế lại toàn bộ hệ thống phân phối hoặc phòng ngừa rủi ro mua nhiên liệu một cách tối ưu. Xác định vấn đề không phải là một nhiệm vụ tầm thường. Sự phức tạp của một vấn đề tăng lên khi những điều sau đây xảy ra: Số lượng các khóa học tiềm năng của hành động là lớn. Vấn đề thuộc về một nhóm hơn là một cá nhân. Người giải quyết vấn đề có một số mục tiêu cạnh tranh. Các nhóm hoặc cá nhân bên ngoài bị ảnh hưởng bởi vấn đề. Người giải quyết vấn đề và chủ nhân thực sự của vấn đề—người trải nghiệm vấn đề và chịu trách nhiệm giải quyết vấn đề—không giống nhau. Giới hạn thời gian là quan trọng. Những yếu tố này gây khó khăn cho việc phát triển các mục tiêu có ý nghĩa và đặc trưng cho phạm vi các quyết định tiềm năng. Khi xác định vấn đề, điều quan trọng là phải thu hút sự tham gia của tất cả những người đưa ra quyết định hoặc những người có thể bị ảnh hưởng bởi quyết định đó. Cấu trúc vấn đề Điều này thường liên quan đến việc nêu rõ các mục tiêu và mục tiêu, mô tả đặc điểm của các quyết định khả thi và xác định bất kỳ ràng buộc hoặc hạn chế nào. Ví dụ: nếu vấn đề là thiết kế lại hệ thống phân phối, các quyết định có thể liên quan đến địa điểm mới cho nhà máy sản xuất và nhà kho (ở đâu?), phân bổ sản phẩm mới cho nhà máy (nhà máy nào?) kho cho khách hàng (bao nhiêu?). Mục tiêu giảm chi phí có thể được đo bằng tổng chi phí giao sản phẩm. Người quản lý có thể muốn đảm bảo rằng một mức dịch vụ khách hàng cụ thể— chẳng hạn, có thể giao các đơn đặt hàng trong vòng 48 giờ—có được nhờ thiết kế lại. Đây là một ví dụ về một hạn chế. Cấu trúc một vấn đề thường liên quan đến việc phát triển một mô hình chính thức. Machine Translated by Google 29 Chương 1 Giới thiệu về Phân tích Kinh doanh Phân tích vấn đề Đây là nơi phân tích đóng một vai trò quan trọng. Phân tích liên quan đến một số loại quy trình thử nghiệm hoặc giải pháp, chẳng hạn như đánh giá các kịch bản khác nhau, phân tích rủi ro liên quan đến các lựa chọn thay thế quyết định khác nhau, tìm giải pháp đáp ứng các mục tiêu nhất định hoặc xác định giải pháp tối ưu. Các chuyên gia phân tích đã dành nhiều thập kỷ để phát triển và tinh chỉnh nhiều phương pháp khác nhau để giải quyết các loại vấn đề khác nhau. Phần lớn nội dung của cuốn sách này được dành để giúp bạn hiểu những kỹ thuật này và đạt được nền tảng cơ bản trong việc sử dụng chúng. Giải thích kết quả và đưa ra quyết định Diễn giải kết quả từ giai đoạn phân tích là rất quan trọng trong việc đưa ra quyết định tốt. Các mô hình không thể nắm bắt mọi chi tiết của vấn đề thực tế và các nhà quản lý phải hiểu những hạn chế của các mô hình và các giả định cơ bản của chúng và thường kết hợp phán đoán vào việc đưa ra quyết định. Ví dụ: khi định vị một cơ sở, chúng tôi có thể sử dụng quy trình phân tích để tìm vị trí “trung tâm”; tuy nhiên, nhiều cân nhắc khác phải được đưa vào quyết định, chẳng hạn như khả năng tiếp cận đường cao tốc, nguồn cung lao động và chi phí cơ sở vật chất. Do đó, vị trí được chỉ định bởi một giải pháp phân tích có thể không phải là vị trí chính xác mà công ty thực sự chọn. Thực hiện giải pháp Điều này đơn giản có nghĩa là làm cho nó hoạt động trong tổ chức hoặc dịch kết quả của một mô hình trở lại thế giới thực. Điều này thường đòi hỏi phải cung cấp đầy đủ nguồn lực, động viên nhân viên, loại bỏ khả năng chống lại sự thay đổi, sửa đổi chính sách của tổ chức và phát triển lòng tin. Các vấn đề và giải pháp của chúng ảnh hưởng đến mọi người: khách hàng, nhà cung cấp và nhân viên. Tất cả phải là một phần quan trọng của quá trình giải quyết vấn đề. Nhạy cảm với các vấn đề chính trị và tổ chức là một kỹ năng quan trọng mà các nhà quản lý cũng như các chuyên gia phân tích phải có khi giải quyết vấn đề. Trong mỗi bước này, giao tiếp tốt là rất quan trọng. Các chuyên gia phân tích cần có khả năng giao tiếp với người quản lý và khách hàng để hiểu bối cảnh kinh doanh của vấn đề và có thể giải thích kết quả một cách rõ ràng và hiệu quả. Những kỹ năng như xây dựng biểu đồ trực quan và bảng tính dễ hiểu là rất quan trọng đối với người dùng phân tích. Chúng tôi nhấn mạnh những kỹ năng này trong suốt cuốn sách này. Phân tích trong thực tế: Phát triển các công cụ phân tích hiệu quả tại Hewlett-Packard31 Hewlett-Packard (HP) sử dụng phân tích rộng rãi. có vẻ như là một vấn đề phân tích có thể thực sự bắt nguồn từ Nhiều ứng dụng được sử dụng bởi các nhà quản lý có ít kiến thức về các vấn đề về động cơ không phù hợp, quyền sở hữu và trách phân tích. Những điều này đòi hỏi các công cụ phân tích phải dễ nhiệm giải trình không rõ ràng, hoặc chiến lược kinh doanh. hiểu. Dựa trên nhiều năm kinh nghiệm, các nhà phân tích của HP đã biên soạn một số bài học quan trọng. Trước khi tạo một công cụ quyết định phân tích, HP đặt ra ba câu hỏi: 2. Chúng ta có thể tận dụng một giải pháp hiện có không? Trước “phát minh lại bánh xe”, các giải pháp hiện tại có thể giải quyết vấn đề không? Chi phí và lợi ích là gì? 1. Phân tích có giải quyết được vấn đề không? công cụ sẽ en 3. Mô hình quyết định có thực sự cần thiết? có thể đơn giản có thể một giải pháp tốt hơn? Có nên sử dụng các giải pháp phi hướng dẫn quyết định được sử dụng thay vì một công cụ quyết phân tích khác không? Có tổ chức hoặc các vấn đề khác phải định chính thức? được giải quyết? Thường thì cái gì (còn tiếp) 31Dựa trên Thomas Olavson và Chris Fry, “Các công cụ hỗ trợ ra quyết định trên bảng tính: Bài học kinh nghiệm tại Hewlett-Packard,” Interfaces, 38, 4, Tháng 7–Tháng 8 năm 2008: 300–310. Machine Translated by Google 30 Chương 1 Giới thiệu về Phân tích Kinh doanh Sau khi quyết định phát triển một công cụ phân tích được đưa ra, họ sử dụng một số hướng dẫn để tăng cơ hội triển khai thành công: Sử dụng nguyên mẫu–một phiên bản hoạt động nhanh của công cụ được thiết kế để kiểm tra các tính năng của nó và thu thập phản hồi; Xây dựng cái nhìn sâu sắc, không phải hộp đen. Công cụ “hộp đen” là công cụ tạo ra câu trả lời nhưng có thể không mang lại sự tin cậy cho người dùng. Các công cụ tương tác tạo ra hiểu biết sâu sắc để hỗ trợ quyết định cung cấp thông tin tốt hơn. Loại bỏ sự phức tạp không cần thiết. Đơn giản hơn là tốt hơn. Một công cụ tốt có thể được sử dụng mà không cần sự hỗ trợ của chuyên gia. Hợp tác với người dùng cuối trong khám phá và thiết kế. Những người ra quyết định, những người sẽ thực sự sử dụng công cụ này nên tham gia vào quá trình phát triển của nó. Phát triển một nhà vô địch phân tích. Một người nào đó (lý tưởng nhất là người ra quyết định thực sự) am hiểu về giải pháp và gần với giải pháp đó phải ủng hộ quy trình. Điều khoản quan trọng thuật toán Hàm mục tiêu Dữ liệu lớn Nghiên cứu/Quản lý hoạt động Phân tích kinh doanh (phân tích) Khoa học (HOẶC/MS) Kinh doanh thông minh (BI) Giải pháp tối ưu Dữ liệu phân loại (danh nghĩa) Tối ưu hóa Hạn chế dữ liệu thông thường số liệu liên tục phân tích dự đoán Khai thác dữ liệu phân tích theo quy định tập dữ liệu co giãn giá cơ sở dữ liệu Giải quyết vấn đề Mô hình quyết định dữ liệu tỷ lệ Hệ thống hỗ trợ ra quyết định (DSS) độ tin cậy phân tích mô tả Rủi ro mô hình tất định Thuật toán tìm kiếm Số liệu rời rạc Mô phỏng và phân tích rủi ro sơ đồ ảnh hưởng Số liệu thống kê Hệ thống thông tin (IS) mô hình ngẫu nhiên dữ liệu khoảng thẻ đám mây Đo lường Tính không chắc chắn Đo đạc hiệu lực Hệ mét Hình dung Người mẫu Những gì nếu phân tích Mô hình hóa và tối ưu hóa Machine Translated by Google 31 Chương 1 Giới thiệu về Phân tích Kinh doanh Vui vẻ với Analytics Ông John Toczek, giám đốc phân tích tại Tập đoàn ARAMARK, duy trì một trang Web có tên là PuzzlOR (HOẶC là “Nghiên cứu Hoạt động”) tại www.puzzlor.com. Mỗi tháng anh ấy đăng một câu đố mới. Nhiều trong số này có thể được giải bằng các kỹ thuật trong cuốn sách này; tuy nhiên, ngay cả khi bạn không thể phát triển một mô hình chính thức, các câu đố có thể là những thử thách thú vị và mang tính cạnh tranh cho học sinh. Chúng tôi khuyến khích bạn khám phá những điều này, bên cạnh các bài toán, bài tập và tình huống chính thức trong cuốn sách này. Một cái hay để bắt đầu là “SurvivOR” từ tháng 6 năm 2010. Chúc các bạn vui vẻ! vấn đề và bài tập 1. Thảo luận về cách bạn có thể sử dụng phân tích kinh doanh trong 8. Một cuộc khảo sát được trao cho các cá nhân tại một trung tâm cuộc sống cá nhân của mình, chẳng hạn như quản lý hoạt động mua mua sắm lớn ở một thành phố nhỏ của Florida vào tháng 7 đã hỏi hàng tạp hóa, bảo dưỡng ô tô, lập ngân sách, thể thao, v.v. Hãy những điều sau: sáng tạo trong việc xác định các cơ hội! 2. Một siêu thị đã phải xếp hàng dài trong giờ cao điểm trong ngày. Vấn đề trở nên tồi tệ hơn rõ rệt vào một số ngày nhất định trong tuần và các khoảng thời gian cao điểm đôi khi khác nhau tùy theo ngày trong tuần. Thường có đủ công nhân trong công việc để mở tất cả các máy tính tiền. Vấn đề mà các siêu thị phải đối mặt là biết khi nào nên gọi một số công nhân đang chất hàng lên kệ phía trước để làm việc tại quầy thanh toán. Làm thế nào phân giới tính tuổi dân tộc thời gian cư trú hài lòng chung với các dịch vụ của thành phố (sử dụng thang điểm từ 1–5, đi từ kém đến xuất sắc) chất lượng trường học (sử dụng thang điểm từ 1–5, đi từ kém đến xuất sắc) tích kinh doanh có thể giúp siêu thị? Những dữ liệu nào sẽ cần Mỗi mục khảo sát sẽ đại diện cho loại dữ liệu nào (phân loại, thiết để tạo điều kiện cho các quyết định tốt? thứ tự, khoảng hoặc tỷ lệ) và tại sao? 9. Một ngân hàng đã phát triển một mô hình để dự đoán số dư tài 3. Đề xuất một số chỉ số mà khách sạn có thể muốn thu thập về khách khoản tiết kiệm và séc ở độ tuổi trung bình dưới dạng số dư của họ. Làm thế nào những số liệu này có thể được sử dụng với -17.732 + 367 * tuổi + 1.300 * số năm học vấn + 0,116 * tài sản phân tích kinh doanh để hỗ trợ các quyết định tại khách sạn? hộ gia đình. Một. Giải thích làm thế nào để giải thích các con số trong này 4. Đề xuất một số chỉ số mà người quản lý của một nhà hàng thức ăn nhanh, chẳng hạn như McDonald's hoặc Chipotle, có thể muốn thu người mẫu. b. Giả sử rằng một khách hàng 32 tuổi, tốt nghiệp đại học (do thập. Mô tả cách người quản lý có thể sử dụng dữ liệu để tạo đó học 16 năm) và có tài sản hộ gia đình là 150.000 đô la. điều kiện cho các quyết định tốt hơn. Số dư ngân hàng dự đoán là gì? 5. Phân loại từng thành phần dữ liệu trong cơ sở dữ liệu Giao dịch bán hàng (Hình 1.1) thành dữ liệu phân loại, thứ tự, khoảng hoặc tỷ lệ và giải thích lý do. 6. Xác định từng biến trong tệp Excel Quyết định phê duyệt tín dụng dưới dạng phân loại, thứ tự, khoảng hoặc tỷ lệ và giải thích lý 10. Bốn biến quyết định tiếp thị chính là giá (P), quảng cáo (A), vận chuyển (T) và chất lượng sản phẩm (Q). Nhu cầu của người tiêu dùng (D) bị ảnh hưởng bởi các biến này. Mô hình đơn giản nhất để mô tả nhu cầu theo các biến này là do tại sao. 7. Phân loại từng biến trong tệp Excel Weddings thành phân loại, thứ tự, khoảng hoặc tỷ lệ và giải thích lý do tại sao. D k - pP + aA + tT + qQ Machine Translated by Google 32 Chương 1 Giới thiệu về Phân tích Kinh doanh trong đó k, p, a, t và q là các hằng số dương. Một. Làm thế nào để một sự thay đổi trong mỗi biến ảnh hưởng đến nhu cầu? b. Làm thế nào để các biến ảnh hưởng lẫn nhau? 14. Ô tô có mức tiết kiệm nhiên liệu (mpg) khác nhau và những người đi làm phải lái những quãng đường khác nhau để đến cơ quan hoặc trường học. Giả sử rằng Bộ Giao thông Vận tải (DOT) của tiểu bang quan tâm đến việc đo lường mức tiêu thụ nhiên liệu trung bình c. Mô hình này có thể có những hạn chế nào? Bạn có thể hàng tháng của hành khách trong một thành phố nhất định. nghĩ làm thế nào mô hình này có thể được thực hiện DOT có thể lấy mẫu một nhóm hành khách và thu thập thông thực tế hơn? tin về số dặm lái xe mỗi ngày, số ngày lái xe mỗi tháng và 11. Giả sử rằng một nhà sản xuất có thể sản xuất một bộ phận mức tiết kiệm nhiên liệu của ô tô của họ. Xây dựng một mô với giá 10 đô la với chi phí cố định là 5.000 đô la. Nhà hình dự đoán để tính toán lượng xăng tiêu thụ, sử dụng các sản xuất có thể ký hợp đồng với một nhà cung cấp ở Châu Á ký hiệu sau cho dữ liệu. để mua bộ phận này với chi phí là $12,00, bao gồm cả vận chuyển. Một. Nếu khối lượng sản xuất dự kiến là 1.200 đơn vị, hãy tính tổng chi phí sản xuất và tổng chi phí thuê ngoài. Quyết định tốt nhất là gì? G gallon nhiên liệu tiêu thụ mỗi tháng m dặm lái xe mỗi ngày đến và đi từ nơi làm việc hoặc trường học d số ngày lái xe mỗi tháng f tiết kiệm nhiên liệu tính bằng dặm trên gallon b. Tìm khối lượng hòa vốn và mô tả phạm vi khối lượng mà việc sản xuất hoặc thuê bên ngoài sẽ kinh tế hơn. Giả sử rằng một người đi làm lái xe khứ hồi 30 dặm để đi làm 20 ngày mỗi tháng và đạt được mức tiết kiệm nhiên liệu là 34 mpg. Có bao nhiêu gallon xăng được sử dụng? 12. Lợi tức đầu tư (ROI) được tính theo cách sau: ROI bằng doanh thu nhân với thu nhập dưới dạng phần trăm doanh thu. 15. Một nhà sản xuất máy nghe nhạc mp3 đang chuẩn bị định giá Doanh thu là doanh thu chia cho tổng vốn đầu tư. Tổng đầu cho một mẫu mã mới. Nhu cầu được cho là phụ thuộc vào giá tư là tài sản lưu động (hàng tồn kho, khoản phải thu và cả và được đại diện bởi mô hình tiền mặt) cộng với tài sản cố định. Thu nhập bằng doanh số D 2.500 - 3P trừ đi chi phí bán hàng. Chi phí bán hàng bao gồm chi phí sản xuất biến đổi, chi phí bán hàng, chi phí vận chuyển Bộ phận kế toán ước tính rằng tổng chi phí có thể được đại và giao hàng, và chi phí hành chính. diện bởi Một. Xây dựng một biểu đồ ảnh hưởng liên quan đến các biến này. C5.000 + 5D Phát triển một mô hình cho tổng lợi nhuận theo giá, P. b. Xác định các ký hiệu và phát triển một mô hình toán học. 13. Tổng nỗ lực tiếp thị là thuật ngữ dùng để mô tả các yếu tố quyết định quan trọng ảnh hưởng đến nhu cầu: giá cả, quảng 16. Nhu cầu đi máy bay khá nhạy cảm với giá cả. Thông thường, có một mối quan hệ nghịch đảo giữa nhu cầu cáo, phân phối và chất lượng sản phẩm. Đặt biến x đại diện và giá cả; khi giá giảm thì cầu tăng và ngược lại. Một cho tổng nỗ lực tiếp thị. Một mô hình điển hình được sử hãng hàng không lớn đã phát hiện ra rằng khi giá (P) cho dụng để dự đoán nhu cầu như là một chức năng của nỗ lực chuyến khứ hồi giữa Chicago và Los Angeles là 600 đô la, tiếp thị tổng thể là nhu cầu (D) là 500 hành khách mỗi ngày. Khi giá giảm xuống Rìu D b Giả sử rằng a là một số dương. Các dạng mô hình khác nhau là kết quả của việc thay đổi hằng số b. Phác thảo các đồ thị của mô hình này cho b 1, 0 6 b0,6 b1, b 6 0, và b 7 1. Mỗi mô hình cho bạn biết điều gì về mối quan hệ giữa nhu cầu và nỗ lực tiếp thị? Những giả định nào được ngụ ý? Họ có hợp lý không? Làm thế nào bạn sẽ đi về việc lựa chọn các mô hình thích hợp? còn 400 đô la, nhu cầu là 1.200 hành khách mỗi ngày. Một. Vẽ các điểm này trên một hệ tọa độ và phát triển một mô hình tuyến tính liên quan đến nhu cầu với giá cả. b. Phát triển một mô hình quy định sẽ xác định mức giá sẽ tính để tối đa hóa tổng doanh thu. c. Bằng cách thử và sai, bạn có thể tìm ra giải pháp tối ưu để tối đa hóa tổng doanh thu không? Machine Translated by Google Chương 1 Giới thiệu về Phân tích Kinh doanh 33 Trường hợp: Dự án Nghiên cứu Quảng cáo Drout32 Jamie Drout quan tâm đến nhận thức về các loại khuôn mẫu giới tính 50.000 đô la đến 6 đô la 60.000 đô la trong quảng cáo sản phẩm làm đẹp, bao gồm xà phòng, chất khử mùi, 60.000 đô la đến 6 đô la 70.000 đô la dầu gội đầu, dầu xả, kem dưỡng da, nước hoa, nước hoa, đồ trang 70.000 đô la đến 6 đô la 80.000 đô la điểm, thuốc nhuộm tóc hóa học, dao cạo râu, chăm sóc da, chăm sóc 80.000 đô la đến 6 đô la 90.000 đô la phụ nữ và các dịch vụ thẩm mỹ viện; cũng như những lợi ích nhận thức 90.000 đô la đến 6 đô la 110.000 đô la được của quảng cáo trao quyền. Định kiến giới đặc biệt sử dụng nhận 110.000 đô la đến 6 đô la 130.000 đô la thức văn hóa về những gì tạo nên một người đàn ông hoặc phụ nữ hấp 130.000 đô la đến 6 đô la 150.000 đô la dẫn, chấp nhận được và đáng mơ ước, thường xuyên khai thác các vai 150.000 USD trở lên trò giới cụ thể và thường được sử dụng trong các quảng cáo cho các sản phẩm làm đẹp. Phụ nữ được thể hiện là nữ tính một cách tinh tế, xinh đẹp nổi bật và hoàn hảo về thể chất, chiếm một lượng nhỏ không gian vật lý và thường khai thác khả năng tình dục của họ; những người đàn ông mạnh mẽ và nam tính với cơ thể rắn chắc, chiếm một lượng lớn không gian vật lý để duy trì sự nam tính và quyền lực của họ. Ngược lại, chiến lược quảng cáo trao quyền có nghĩa là phủ nhận các định kiến về giới và truyền đạt một cách trực quan sự khác biệt duy nhất ở mỗi cá nhân. Trong quảng cáo trao quyền, đàn ông và phụ 5. Trung bình, bạn trả bao nhiêu tiền cho các sản phẩm hoặc dịch vụ làm đẹp và vệ sinh mỗi năm? Bao gồm các tham chiếu đến các sản phẩm sau: xà phòng, chất khử mùi, dầu gội đầu, dầu xả, kem dưỡng da, nước hoa, nước hoa, đồ trang điểm, thuốc nhuộm tóc hóa học, dao cạo râu, chăm sóc da, chăm sóc phụ nữ chín tuổi và dịch vụ thẩm mỹ viện. 6. Trung bình, có bao nhiêu quảng cáo làm đẹp và vệ sinh, nếu có, bạn nghĩ bạn xem hoặc nghe mỗi ngày? Bao gồm các tham nữ phải đại diện cho sự đa dạng về vẻ đẹp, kiểu cơ thể và mức độ cảm chiếu đến các quảng cáo sau: truyền hình, biển quảng cáo, nhận về nữ tính và nam tính. Dự án của cô ấy tập trung vào việc tìm Internet, đài phát thanh, báo chí, tạp chí và thư trực tiếp. hiểu nhận thức của người tiêu dùng về các chiến lược quảng cáo này. 7. Trung bình, có bao nhiêu trong số những quảng cáo đó, nếu có, Jamie đã tiến hành một cuộc khảo sát bằng bảng câu hỏi sau: 1. Giới tính của bạn là gì? Nam giới Nữ giới 2. Bạn bao nhiêu tuổi? 3. Trình độ học vấn cao nhất mà bạn đã hoàn thành là gì? đặc biệt ủng hộ vai trò và định kiến giới? 8. Ở thang đo sau, những quảng cáo này có vai trò gì, nếu có, trong việc củng cố định kiến giới cụ thể? Quyết liệt có ảnh hưởng Giới hạn Không đáng kể Một Số Lớp Trung Học Bằng tốt nghiệp trung học phổ thông Không có 9. Ở mức độ nào bạn đồng ý rằng quảng cáo trao quyền, truyền Một số khóa học đại học đạt rõ ràng sự khác biệt duy nhất ở mỗi cá nhân, sẽ giúp thay Bằng liên kết đổi định kiến giới trong văn hóa? Bằng cử nhân Bằng thạc sĩ Hoàn toàn đồng ý JD Đồng ý MD Đồng ý ở một mức nào đó bằng tiến sĩ Trung lập 4. Thu nhập hàng năm của bạn là bao nhiêu? $0 đến $6 $10,000 10.000 đô la đến 6 đô la 20.000 đô la 20.000 đô la đến 6 đô la 30.000 đô la 30.000 đô la đến 6 đô la 40.000 đô la Co gi đo không hai long Không đồng ý Mạnh mẽ phủ quyết 10. Trung bình, bao nhiêu phần trăm quảng cáo mà bạn xem hoặc nghe mỗi ngày hiện đang sử dụng quảng cáo trao quyền? 40.000 đô la đến 6 đô la 50.000 đô la 32Tôi đánh giá cao Jamie Drout vì đã cung cấp tài liệu gốc này từ dự án lớp của cô ấy để làm cơ sở cho trường hợp này. Machine Translated by Google 34 Chương 1 Giới thiệu về Phân tích Kinh doanh Nhiệm vụ: Jamie đã nhận được 105 phản hồi, được đưa ra trong tệp Excel Khảo sát quảng cáo Drout. Xem lại bảng câu hỏi và phân Một khía cạnh quan trọng của phân tích kinh doanh là giao tiếp tốt. Viết câu trả lời của bạn cho trường hợp này một cách chính loại dữ liệu được thu thập từ mỗi câu hỏi dưới dạng phân loại, thứ thức trong một báo cáo được viết tốt như thể bạn là một nhà tư vấn cho Ms. tự, khoảng hoặc tỷ lệ. Drout. Trường hợp này sẽ tiếp tục trong Chương 3, 4, 6 và 7, và bạn Tiếp theo, hãy giải thích cách dữ liệu và phân tích tiếp theo sử sẽ được yêu cầu sử dụng nhiều công cụ phân tích mô tả để phân tích dụng phân tích kinh doanh có thể giúp hiểu rõ hơn về quảng cáo rập dữ liệu và diễn giải kết quả. Khi bạn làm điều này, hãy thêm thông khuôn so với quảng cáo trao quyền. Cụ thể, nêu một số hiểu biết chính tin chi tiết của bạn vào báo cáo, hoàn thành báo cáo dự án hoàn chỉnh mà bạn hy vọng sẽ trả lời được bằng cách phân tích dữ liệu. phân tích đầy đủ dữ liệu và đưa ra kết luận phù hợp. Trường hợp: Hiệu suất Lawn Thiết bị Trong mỗi chương của cuốn sách này, chúng tôi sử dụng cơ sở dữ liệu Cả người dùng cuối và đại lý đều đã được coi là những khách hàng cho một công ty hư cấu, Performance Lawn Equipment (PLE), trong một quan trọng đối với PLE. Việc thu thập và phân tích dữ liệu của người bài tập tình huống để áp dụng các công cụ và kỹ thuật được giới dùng cuối cho thấy sự hài lòng với sản phẩm phụ thuộc vào chất lượng thiệu trong chương.33 Để đưa cơ sở dữ liệu vào quan điểm, trước tiên cao, dễ gắn/tháo dỡ dụng cụ, chi phí bảo trì thấp, giá cả phải chúng tôi cung cấp một số thông tin cơ bản về công ty để việc áp dụng chăng và dịch vụ. Đối với các đại lý, các yêu cầu chính là chất lượng các công cụ phân tích kinh doanh sẽ có ý nghĩa hơn. cao, các bộ phận và tính năng sẵn có, bổ sung hàng nhanh chóng, giảm giá và hỗ trợ kịp thời. PLE, có trụ sở chính tại St. Louis, Missouri, là một nhà thiết kế và sản xuất máy cắt cỏ truyền thống thuộc sở hữu tư nhân được các chủ nhà sử dụng. Trong 10 năm qua, PLE đã bổ sung thêm một sản phẩm PLE có một số nhà cung cấp chính: Mitsitsiu, Inc., nguồn duy nhất của tất cả các động cơ diesel; LANTO Axles, Inc., cung cấp trục chủ chốt khác, máy kéo cắt cỏ chạy bằng động cơ diesel cỡ trung với máy kéo; Schorst Fabrication, nơi cung cấp các cụm lắp ráp phụ; bộ ngắt điện phía trước và phía sau, móc ba điểm Loại I, hệ dẫn động Cuberillo, Inc, nhà cung cấp đường truyền; và Specialty Machining, bốn bánh, hệ thống lái trợ lực và hệ thống thủy lực hoàn toàn. Thiết Inc., nhà cung cấp các bộ phận máy móc chính xác. bị này được chế tạo chủ yếu cho thị trường ngách bao gồm các khu đất lớn, bao gồm câu lạc bộ gôn và đồng quê, khu nghỉ dưỡng, khu đất tư nhân, công viên thành phố, khu phức hợp thương mại lớn, nhà cung cấp Để giúp quản lý công ty, các nhà quản lý của PLE đã phát triển một “thẻ điểm cân bằng” gồm các thước đo. Những dữ liệu này, được dịch vụ chăm sóc cỏ, chủ nhà tư nhân có diện tích từ năm mẫu Anh trở tóm tắt ngắn gọn, được lưu trữ dưới dạng sổ làm việc Microsoft Excel lên và cơ quan chính phủ ( liên bang, tiểu bang và địa phương), (Thiết bị cắt cỏ hiệu suất) đi kèm với cuốn sách này. Cơ sở dữ liệu công viên, khu phức hợp xây dựng và căn cứ quân sự. PLE cung cấp hầu chứa các biện pháp khác nhau được thu thập hàng tháng hoặc hàng quý hết các sản phẩm cho các đại lý, từ đó bán trực tiếp cho người dùng và được các nhà quản lý khác nhau sử dụng để đánh giá hiệu quả kinh cuối. PLE sử dụng 1.660 người trên toàn thế giới. Khoảng một nửa lực doanh. Dữ liệu cho từng biện pháp chính được lưu trữ trong một trang lượng lao động có trụ sở tại St. Louis; phần còn lại được chia cho tính riêng. Một bản tóm tắt của các bảng này được đưa ra tiếp theo: các nhà máy sản xuất của họ. Tại Hoa Kỳ, trọng tâm bán hàng là ở bờ biển phía đông, California, Đông Nam và các bang miền trung nam, nơi tập trung nhiều khách hàng nhất. Bên ngoài Hoa Kỳ, doanh số bán hàng của PLE bao gồm thị trường châu Âu, thị trường Nam Mỹ đang phát triển và các thị trường đang phát triển ở Vành đai Thái Bình Dương và Trung Quốc. Thị trường có tính chu kỳ, nhưng các sản phẩm và khu vực khác nhau cân • Mức độ hài lòng của Đại lý, được đo theo thang điểm từ 1–5 (1 kém, 2 kém trung bình, 3 trung bình, 4 trên trung bình và 5 xuất sắc). Mỗi năm, các đại lý ở mỗi khu vực được khảo sát về mức độ hài lòng chung của họ với PLE. Bảng công việc chứa dữ liệu tóm tắt từ các cuộc điều tra trong 5 năm qua. bằng một số yếu tố này, với chỉ dưới 30% tổng doanh số bán hàng vào mùa xuân và mùa hè (ở Hoa Kỳ), khoảng 25% vào mùa thu và khoảng 20% vào mùa thu. mùa đông. Doanh thu hàng năm xấp xỉ 180 triệu USD. • Mức độ hài lòng của người dùng cuối, được đo lường trên cùng thang đo với đại lý. Mỗi năm, 100 người dùng từ mỗi khu vực được khảo sát. Bảng tính chứa dữ liệu tóm tắt trong 5 năm qua. 33Tình huống tình huống dựa trên Nghiên cứu điển hình về Công ty Gateway Estate Lawn Equipment, được sử dụng cho khóa đào tạo Giám khảo Giải thưởng Chất lượng Quốc gia Malcolm Baldrige năm 1997. Tài liệu này thuộc phạm vi công cộng. Cơ sở dữ liệu, tuy nhiên, được phát triển bởi tác giả. Machine Translated by Google 35 Chương 1 Giới thiệu về Phân tích Kinh doanh • Khảo sát khách hàng năm 2014, kết quả từ cuộc khảo sát xếp hạng của khách hàng về các thuộc tính cụ thể của máy kéo PLE: chất lượng, dễ sử dụng, giá cả và dịch vụ trên cùng thang điểm từ 1–5. Bảng này chứa 200 quan sát về xếp Ngoài các biện pháp kinh doanh này, cơ sở dữ liệu PLE chứa các bảng tính với dữ liệu từ các nghiên cứu đặc biệt: • Động cơ, liệt kê 50 mẫu thời gian cần thiết để sản xuất lưỡi máy cắt cỏ bằng công nghệ mới. hạng của khách hàng. • Đơn khiếu nại, hiển thị số lượng đơn khiếu nại được đăng ký bởi tất cả khách hàng mỗi tháng ở mỗi khu vực trong số năm khu vực của PLE (Bắc Mỹ, Nam Mỹ, Châu Âu, Thái Bình Dương và Trung Quốc). • Bán đơn vị máy cắt và Bán đơn vị máy kéo, cung cấp doanh số bán hàng theo sản phẩm theo khu vực hàng tháng. Đơn • Chi phí Truyền tải, cung cấp kết quả của 30 mẫu cho mỗi quy trình hiện tại được sử dụng để sản xuất hộp số máy kéo và hai quy trình mới được đề xuất. • Trọng lượng lưỡi cắt, cung cấp các mẫu trọng lượng lưỡi máy cắt để đánh giá tính nhất quán của quy trình sản xuất. vị bán hàng cho từng khu vực được tổng hợp để có được số liệu bán hàng thế giới. • Tổng doanh số máy cắt công nghiệp và Tổng doanh số máy kéo công nghiệp, liệt kê số lượng đơn vị được bán bởi tất cả các nhà sản xuất theo khu vực. • Chi phí Sản xuất Đơn vị, cung cấp các ước tính kế toán hàng tháng về chi phí biến đổi trên mỗi đơn vị sản xuất máy kéo và máy cắt cỏ trong 5 năm qua. • Kiểm tra máy cắt, liệt kê các kết quả kiểm tra hiệu suất chức năng của máy cắt sau khi lắp ráp cho 30 mẫu, mỗi mẫu 100 chiếc. • Giữ chân nhân viên, dữ liệu từ một nghiên cứu về họ thời gian làm việc (thời gian thuê) với PLE. 40 đối tượng được xác định bằng cách xem xét những người được tuyển dụng từ 10 năm trước và xác định những người có liên quan đến các vị trí quản lý (được thuê vào vị trí • Chi phí hoạt động và lãi vay, cung cấp chi phí hành chính, khấu hao và lãi suất hàng tháng ở cấp độ công ty. quản lý hoặc được thăng chức thành quản lý) vào một thời điểm nào đó trong khoảng thời gian 10 năm này. • Chi phí vận chuyển, cung cấp chi phí vận chuyển đơn vị cho • Giao hàng Đúng hạn, cung cấp số lượng giao hàng được thực hiện mỗi tháng từ mỗi nhà cung cấp chính của PLE, số lượng giao hàng đúng hạn và phần trăm giao hàng đúng hạn. máy cắt cỏ và máy kéo từ các nhà máy hiện có và được đề xuất cho một nghiên cứu thiết kế chuỗi cung ứng. • Chi phí cố định, liệt kê chi phí cố định để mở rộng các nhà máy hiện có hoặc xây dựng cơ sở mới, cũng là một phần • Lỗi sau khi giao hàng, cho thấy số lượng lỗi trong vật liệu do nhà cung cấp cung cấp được tìm thấy trong tất cả các lô hàng nhận được từ nhà cung cấp. • Thời gian thanh toán cho nhà cung cấp, cung cấp các phép của nghiên cứu thiết kế chuỗi cung ứng. • Khảo sát mua hàng, cung cấp dữ liệu thu được từ cuộc khảo sát của bên thứ ba đối với các nhà quản lý mua hàng của khách hàng của Performance Lawn Care. đo tính bằng ngày kể từ khi nhận được hóa đơn cho đến khi thanh toán được gửi đi. • Thời gian phản hồi, đưa ra các ví dụ về thời gian nhân viên dịch vụ khách hàng của PLE thực hiện để phản hồi các cuộc gọi dịch vụ theo quý trong 2 năm qua. Elizabeth Burke gần đây đã tham gia nhóm quản lý PLE để giám sát các hoạt động sản xuất. Cô ấy đã xem lại các loại dữ liệu mà công ty thu thập và đã giao cho bạn trách nhiệm trở thành nhà phân tích chính của cô ấy trong những tuần tới. Để chuẩn bị cho nhiệm vụ này, bạn đã quyết định xem xét từng trang tính và xác định xem • Sự hài lòng của nhân viên, cung cấp dữ liệu cho các cuộc khảo sát nội bộ của nhân viên trong 4 năm qua để xác định mức độ hài lòng chung của họ đối với công việc, sử dụng cùng một thang đo được sử dụng cho khách hàng. Nhân viên được khảo sát hàng quý và kết quả được phân tầng theo danh mục nhân viên: thiết kế và sản xuất, quản lý và hỗ trợ bán hàng/hành chính. dữ liệu được thu thập từ nguồn nội bộ, nguồn bên ngoài hay được tạo ra từ các nghiên cứu đặc biệt. Ngoài ra, bạn cần biết liệu các biện pháp là phân loại, hay dinal, khoảng hoặc tỷ lệ. Chuẩn bị một báo cáo tóm tắt các đặc điểm của các số liệu được sử dụng trong mỗi trang tính. Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Phân tích trên bảng tính CHƯƠNG S. Dashkevych/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Tìm các nút và menu trong dải băng Excel 2013. Sử dụng các tính năng của Excel như chia đôi màn hình, dán đặc biệt, Viết các công thức chính xác trong một trang tính Excel. hiển thị công thức cũng như hiển thị đường lưới và tiêu đề trong ứng Áp dụng địa chỉ tương đối và tuyệt đối trong công thức dụng của bạn. Excel. Sử dụng các hàm Excel cơ bản và nâng cao. Sao chép công thức từ ô này sang ô khác hoặc sang một Sử dụng các hàm Excel cho các truy vấn kinh doanh thông minh dải ô. trong cơ sở dữ liệu. 37 Machine Translated by Google 38 Chương 2 Phân tích trên bảng tính Nhiều gói phần mềm thương mại có sẵn để tạo thuận lợi cho việc áp dụng phân tích kinh doanh. Mặc dù chúng thường có các tính năng và khả năng độc đáo, nhưng chúng có thể đắt tiền, thường yêu cầu đào tạo nâng cao để hiểu và áp dụng cũng như chỉ có thể hoạt động trên các nền tảng máy tính cụ thể. Mặt khác, phần mềm bảng tính được sử dụng rộng rãi trong tất cả các lĩnh vực kinh doanh và là tiêu chuẩn trên hầu hết mọi máy tính của nhân viên. Bảng tính là một nền tảng hiệu quả để thao tác dữ liệu, phát triển và giải quyết các mô hình; chúng hỗ trợ các phần bổ trợ thương mại mạnh mẽ và tạo điều kiện thuận lợi cho việc truyền đạt kết quả. Bảng tính cung cấp một môi trường lập mô hình linh hoạt và đặc biệt hữu ích khi người dùng cuối không phải là người thiết kế mô hình. Các nhóm có thể dễ dàng sử dụng bảng tính và hiểu logic mà chúng được xây dựng. Thông tin trong bảng tính có thể dễ dàng được sao chép từ Excel sang các tài liệu và bản trình bày khác. Một cuộc khảo sát gần đây đã xác định hơn 180 sản phẩm bảng tính thương mại hỗ trợ các nỗ lực phân tích, bao gồm quản lý và báo cáo dữ liệu, kỹ thuật phân tích dựa trên dữ liệu và mô hình cũng như triển khai.1 Nhiều tổ chức đã sử dụng bảng tính cực kỳ hiệu quả để hỗ trợ việc ra quyết định trong tiếp thị, tài chính, và hoạt động. Một số ứng dụng minh họa bao gồm:2 Phân tích chuỗi cung ứng (Hewlett-Packard) Xác định mức tồn kho tối ưu để đáp ứng mục tiêu dịch vụ khách hàng (Procter & Đánh bạc) Lựa chọn các dự án nội bộ (Công ty Lockheed Martin Space Systems) Lập kế hoạch cho các phòng khám khẩn cấp để đối phó với dịch bệnh hoặc cuộc tấn công khủng bố sinh học bất ngờ (Trung tâm kiểm soát dịch bệnh) Phân tích rủi ro vỡ nợ của danh mục cho vay bất động sản (Hypo quốc tế) Chỉ định các bác sĩ nội trú luân phiên trực và khẩn cấp (Đại học Y khoa Vermont) Đo lường và đánh giá hiệu suất (Hội chữ thập đỏ Hoa Kỳ) Mục đích của chương này là cung cấp một đánh giá về các tính năng cơ bản của Microsoft Excel mà bạn cần biết để sử dụng bảng tính để phân tích và 1Thomas A. Grossman, “Tài nguyên dành cho nhà phân tích bảng tính,” Analytics (tháng 5/tháng 6 năm 2010): 8. tạp chí phân tích.com 2Larry J. LeBlanc và Thomas A. Grossman, “Giới thiệu: Sử dụng Phần mềm Bảng tính trong Ứng dụng Khoa học Quản lý và Nghiên cứu Hoạt động,” Giao diện, 38, 4 (Tháng 7–Tháng 8 năm 2008): 225–227. Machine Translated by Google Chương 2 Phân tích trên bảng tính 39 giải quyết vấn đề với các kỹ thuật phân tích kinh doanh. Trong văn bản này, chúng tôi sử dụng Microsoft Excel 2013 dành cho Windows để thực hiện các tính toán bảng tính và phân tích. Các tệp Excel cho tất cả các ví dụ văn bản và dữ liệu được sử dụng trong các vấn đề và bài tập được cung cấp cùng với cuốn sách này (xem Lời nói đầu). Đánh giá này không nhằm mục đích trở thành một hướng dẫn hoàn chỉnh; bạn có thể tìm thấy nhiều hướng dẫn tốt về Excel trực tuyến và chúng tôi cũng khuyến khích bạn sử dụng khả năng trợ giúp của Excel (bằng cách nhấp vào nút dấu chấm hỏi ở trên cùng bên phải của màn hình). Ngoài ra, đối với bất kỳ độc giả nào có thể là người dùng Mac, chúng tôi lưu ý bạn rằng các phiên bản Excel dành cho Mac không có đầy đủ chức năng như các phiên bản Windows có, đặc biệt là các tính năng thống kê, mặc dù hầu hết các khả năng cơ bản đều giống nhau. Đặc biệt, phần bổ trợ Excel mà chúng tôi sử dụng trong các chương sau, Nền tảng bộ giải phân tích, chỉ chạy trên Windows. Vì vậy, nếu bạn sử dụng máy Mac, bạn nên chạy Bootcamp với Windows hoặc sử dụng sản phẩm phần mềm của bên thứ ba như Parallels hoặc VMWare. Kỹ năng Excel cơ bản Để có thể áp dụng các quy trình và kỹ thuật mà bạn sẽ học trong cuốn sách này, bạn cần phải sử dụng Excel tương đối thành thạo. Chúng tôi cho rằng bạn đã quen thuộc với các khái niệm và quy trình bảng tính cơ bản nhất, chẳng hạn như mở, lưu và in tệp; sử dụng sổ làm việc và bảng tính; di chuyển xung quanh một bảng tính; chọn ô và phạm vi; chèn/xóa hàng, cột; nhập và chỉnh sửa văn bản, dữ liệu số và công thức trong ô; định dạng dữ liệu (số, tiền tệ, chữ số thập phân, v.v.); làm việc với chuỗi văn bản; định dạng dữ liệu và văn bản; Và sửa đổi giao diện của bảng tính bằng cách sử dụng đường viền, bóng, v.v. Các menu và lệnh trong Excel 2013 nằm trong “dải băng” được minh họa trong Hình 2.1. Các menu và lệnh được sắp xếp theo nhóm hợp lý trong các tab khác nhau (Tệp, Trang chủ, Chèn, v.v.); các hình tam giác nhỏ hướng xuống dưới cho biết menu của các lựa chọn bổ sung. Chúng tôi thường đề cập đến các lệnh hoặc tùy chọn nhất định và nơi chúng có thể được tìm thấy trong dải băng. Hình 2.1 Dải băng Excel 2013 Machine Translated by Google 40 Chương 2 Phân tích trên bảng tính Công thức Excel Các công thức trong Excel sử dụng các toán tử phổ biến: cộng (+) trừ (-) nhân (*) phân công (/) Luỹ thừa sử dụng ký hiệu ^; ví dụ, 2 5 được viết là 2^5 trong một công thức Excel. Tham chiếu ô trong công thức có thể được viết bằng địa chỉ tương đối hoặc địa chỉ tuyệt đối. Địa chỉ tương đối chỉ sử dụng nhãn hàng và cột trong tham chiếu ô (ví dụ: A4 hoặc C21); một địa chỉ tuyệt đối sử dụng ký hiệu đô la ($ sign) trước nhãn hàng hoặc nhãn cột hoặc cả hai (ví dụ: $A2, C$21 hoặc $B$15). Cái nào chúng tôi chọn sẽ tạo ra sự khác biệt quan trọng nếu bạn sao chép công thức ô. Nếu chỉ sử dụng địa chỉ tương đối, thì việc sao chép công thức sang ô khác sẽ thay đổi tham chiếu ô theo số hàng hoặc cột theo hướng mà công thức được sao chép. Vì vậy, chẳng hạn, nếu chúng ta sử dụng một công thức trong ô B8, B4-B5*A8 và sao chép nó vào ô C9 (một cột ở bên phải và một hàng ở dưới), tất cả các tham chiếu ô được tăng lên một và công thức sẽ được đổi thành C5-C6*B9. Sử dụng ký hiệu $ trước nhãn hàng (ví dụ: B$4) giữ tham chiếu cố định ở hàng 4 nhưng cho phép tham chiếu cột thay đổi nếu công thức được sao chép sang một ô khác. Tương tự, sử dụng ký hiệu $ trước nhãn cột (ví dụ: $B4) sẽ giữ cố định tham chiếu đến cột B nhưng cho phép tham chiếu hàng thay đổi. Cuối cùng, việc sử dụng ký hiệu $ trước cả nhãn hàng và nhãn cột (ví dụ: $B$4) sẽ giữ cố định tham chiếu đến ô B4 bất kể công thức được sao chép ở đâu. Bạn nên rất cẩn thận khi sử dụng địa chỉ tương đối và tuyệt đối một cách thích hợp trong các mô hình của mình, đặc biệt là khi sao chép công thức. VÍ DỤ 2.1 Triển khai Mô hình Giá-Cầu trong Excel Trong Chương 1, chúng ta đã mô tả hai mô hình dự đoán nhu cầu tính toán nhu cầu trong ô B8 cho mô hình tuyến tính, chúng tôi theo hàm giá: sử dụng công thức D = a bP Và = $B$4$B$5*A8 Để tính nhu cầu trong ô E8 cho mô hình phi tuyến tính, chúng D = cP d Hình 2.2 cho thấy một bảng tính (Mô hình Dự đoán Nhu cầu ta sử dụng công thức = $E$4*D8^$E$5 trong tệp Excel) để tính toán nhu cầu đối với các mức giá Lưu ý cách các địa chỉ tuyệt đối được sử dụng để khi các công khác nhau bằng cách sử dụng từng mô hình này. Ví dụ, để thức này được sao chép xuống, nhu cầu được tính toán chính xác. Sao chép công thức Excel cung cấp một số cách sao chép công thức vào các ô khác nhau. Điều này cực kỳ hữu ích trong việc xây dựng các mô hình quyết định, bởi vì nhiều mô hình yêu cầu sao chép các công thức trong các khoảng thời gian khác nhau, các sản phẩm tương tự, v.v. Một cách là chọn ô có công thức cần sao chép, nhấp vào nút Sao chép từ nhóm Bảng tạm bên dưới tab Trang chủ (hoặc chỉ cần nhấn Ctrl-C trên bàn phím của bạn), nhấp vào ô bạn muốn sao chép vào, sau đó nhấp vào nút Dán (hoặc nhấn Ctrl-V). Bạn cũng có thể nhập công thức trực tiếp vào một dải ô mà không cần sao chép và dán bằng cách chọn dải ô, nhập công thức và nhấn Ctrl-Enter. Machine Translated by Google Chương 2 Phân tích trên bảng tính 41 Hình 2.2 Mô hình Excel cho nhu cầu Sự dự đoán Để sao chép công thức từ một ô hoặc dải ô xuống một cột hoặc trên một hàng, trước tiên hãy chọn ô hoặc dải ô đó, bấm và giữ chuột trên ô vuông nhỏ ở góc dưới bên phải của ô (biểu tượng “điền handle”), và kéo công thức vào các ô “đích” mà bạn muốn sao chép. Mẹo Excel hữu ích khác Màn hình chia nhỏ. Bạn có thể chia trang tính theo chiều ngang và/hoặc chiều dọc để xem các phần khác nhau của trang tính cùng một lúc. Thanh chia dọc nằm ngay bên phải của thanh cuộn dưới cùng và thanh chia ngang nằm ngay phía trên thanh cuộn bên phải. Định vị con trỏ của bạn trên một trong số này cho đến khi nó thay đổi hình dạng, nhấp và kéo thanh bộ chia sang trái hoặc xuống dưới. Dán Đặc Biệt. Khi bạn thường sao chép (một hoặc nhiều) ô và dán chúng vào một trang tính, Excel sẽ đặt một bản sao chính xác của các công thức hoặc dữ liệu trong các ô (ngoại trừ địa chỉ tương đối). Thường thì bạn chỉ muốn kết quả của công thức, vì vậy dữ liệu sẽ không đổi ngay cả khi các tham số khác được sử dụng trong công thức thay đổi. Để thực hiện việc này, hãy sử dụng tùy chọn Dán Đặc biệt có trong menu Dán trong nhóm Bảng tạm bên dưới tab Trang chủ thay vì lệnh Dán. Chọn Dán Giá trị sẽ dán kết quả của các công thức dùng để tính toán dữ liệu. Độ rộng cột và hàng. Nhiều khi một ô chứa một số quá lớn để hiển thị chính xác vì chiều rộng của cột quá nhỏ. Bạn có thể thay đổi chiều rộng cột để vừa với giá trị lớn nhất hoặc chuỗi văn bản ở bất kỳ đâu trong cột bằng cách định vị con trỏ ở bên phải nhãn cột sao cho nhãn thay đổi thành hình chữ thập có mũi tên nằm ngang, rồi bấm đúp. Bạn cũng có thể di chuyển mũi tên sang trái hoặc phải để thay đổi độ rộng cột theo cách thủ công. Bạn có thể thay đổi chiều cao hàng theo cách tương tự bằng cách di chuyển con trỏ bên dưới nhãn số hàng. Điều này có thể đặc biệt hữu ích nếu bạn có một công thức rất dài để hiển thị. Để ngắt một công thức trong một ô, đặt con trỏ tại điểm ngắt trong thanh công thức và nhấn Alt-Enter. Hiển thị công thức trong trang tính. Chọn Hiển thị Công thức trong nhóm Kiểm tra Công thức dưới tab Công thức. Bạn thường cần thay đổi độ rộng của cột để hiển thị đúng các công thức. Hiển thị Đường lưới và Tiêu đề Hàng và Cột để In. Chọn hộp In cho đường lưới và tiêu đề trong nhóm Tùy chọn Trang tính bên dưới Trang Machine Translated by Google 42 Chương 2 Phân tích trên bảng tính tab bố cục. Lưu ý rằng lệnh Print có thể được tìm thấy bằng cách nhấp vào Office cái nút. Điền vào một dãy với một dãy số. Giả sử bạn muốn xây dựng một trang tính để nhập 100 giá trị dữ liệu. Sẽ rất tẻ nhạt khi phải nhập các số từ 1 đến 100 cùng một lúc. Chỉ cần điền vào một vài giá trị đầu tiên trong chuỗi và đánh dấu chúng. Sau đó nhấp và kéo hình vuông nhỏ (điền điều khiển) ở góc dưới bên phải xuống (Excel sẽ hiển thị một cửa sổ bật lên nhỏ cho bạn biết giá trị cuối cùng trong phạm vi) cho đến khi bạn điền vào cột tới 100; sau đó nhả chuột. Hàm Excel Các hàm được sử dụng để thực hiện các phép tính đặc biệt trong các ô và được sử dụng rộng rãi trong các ứng dụng phân tích kinh doanh. Tất cả các hàm Excel yêu cầu một dấu bằng và một tên hàm theo sau dấu ngoặc đơn, trong đó bạn chỉ định các đối số cho hàm. Hàm excel cơ bản Một số chức năng phổ biến hơn mà chúng tôi sẽ sử dụng trong các ứng dụng bao gồm: MIN(phạm vi)—tìm giá trị nhỏ nhất trong một phạm vi ô MAX(phạm vi)—tìm giá trị lớn nhất trong một phạm vi ô SUM(phạm vi)—tìm tổng các giá trị trong một phạm vi ô AVERAGE(phạm vi)—tìm giá trị trung bình của các giá trị trong một phạm vi ô COUNT(range)—tìm số ô trong một phạm vi có chứa số COUNTIF(phạm vi, tiêu chí)—tìm số ô trong một phạm vi đáp ứng tiêu chí quy định. Hàm COUNTIF đếm số ô trong phạm vi đáp ứng tiêu chí mà bạn chỉ định. Ví dụ: bạn có thể đếm tất cả các ô bắt đầu bằng một chữ cái nhất định hoặc bạn có thể đếm tất cả các ô chứa một số lớn hơn hoặc nhỏ hơn một số mà bạn chỉ định. Ví dụ về tiêu chí là 100, “>100”, tham chiếu ô chẳng hạn như A4, chuỗi văn bản chẳng hạn như “Facebook”. Lưu ý rằng văn bản và công thức logic phải được đặt trong dấu ngoặc kép. Xem Trợ giúp Excel để biết các ví dụ khác. Excel có các hàm loại COUNT hữu ích khác: COUNTA đếm số ô không trống trong một phạm vi và COUNTBLANK đếm số ô trống trong một phạm vi. Ngoài ra, COUNTIFS(range1, criteria1, range2, criteria2,… range_n, criteria_n) tìm số ô trong nhiều phạm vi đáp ứng các tiêu chí cụ thể cho từng phạm vi. Chúng tôi minh họa các chức năng này bằng cách sử dụng bộ dữ liệu Đơn đặt hàng trong Ví dụ 2.2. VÍ DỤ 2.2 Sử dụng các hàm Excel cơ bản Trong tập dữ liệu Đơn đặt hàng, chúng ta sẽ tìm thấy những điều sau: số lượng nhỏ nhất và lớn nhất của bất kỳ mặt hàng nào được đặt hàng số lượng đơn đặt hàng cho vòng chữ O số lượng đơn đặt hàng có thời hạn A/P ngắn hơn 30 tháng tổng chi phí đặt hàng số tháng trung bình cho mỗi đơn đặt hàng cho các khoản số lượng đơn đặt hàng vòng chữ O từ Không thời gian phải trả công nghệ số lượng đơn đặt hàng đã đặt Machine Translated by Google Chương 2 Phân tích trên bảng tính 43 Kết quả được thể hiện trong Hình 2.3. Trong hình này, chúng tôi đã vì vậy chúng tôi không thể sử dụng nó trong các cột A, B hoặc D; sử dụng tính năng chia đôi màn hình trong Excel để giảm số lượng tuy nhiên, bất kỳ cột nào khác sẽ được chấp nhận. Sử dụng số mục hàng được hiển thị trong bảng tính. Để tìm số lượng nhỏ nhất và trong cột C, công thức trong ô B103 là =COUNT(C4:C97). lớn nhất của bất kỳ mặt hàng nào được đặt hàng, chúng tôi sử dụng Để tìm số lượng đơn hàng đã đặt cho O-ring, chúng ta sử dụng hàm hàm MIN và MAX cho dữ liệu trong cột F. Do đó, công thức trong ô COUNTIF. Đối với ví dụ này, công thức được sử dụng trong ô B104 là B99 là =MIN(F4:F97) và công thức trong ô B100 là =MAX (F4:F97). =COUNTIF(D4:D97, “O-Ring”). Chúng ta cũng có thể sử dụng tham chiếu Để tìm tổng chi phí đặt hàng, chúng tôi tính tổng dữ liệu trong ô cho bất kỳ ô nào chứa văn bản Vòng chữ O, chẳng hạn như = cột G bằng cách sử dụng hàm SUM: =SUM(G4:G97); đây là công thức COUNTIF(D4:D97,D12). Để tìm số lượng đơn đặt hàng có thời hạn A/P trong ô B101. Để tìm số A/P trung bình tháng, chúng ta sử dụng hàm dưới 30 tháng, hãy sử dụng công thức = COUNTIF(H4:H97,”<30”) trong AVERAGE cho dữ liệu trong cột H. Công thức trong ô B102 là ô B105. =AVERAGE(H4:H97). Cuối cùng, để đếm số lượng đơn đặt hàng Vòng chữ O cho Công nghệ Để tìm số lượng đơn đặt hàng đã đặt, hãy sử dụng hàm COUNT. Lưu ý thời gian không gian, chúng tôi sử dụng =COUNTIFS(D4:D97,”O-Ring”, rằng hàm COUNT chỉ đếm số lượng ô trong một phạm vi có chứa số, A4:A97,“Công nghệ thời gian không gian”). Các hàm loại IF cũng có sẵn cho các tính toán khác. Ví dụ: các hàm SUMIF, AVERAGEIF, SUMIFS và AVERAGEIFS có thể được sử dụng để nhúng logic IF vào trong các hàm toán học. Chẳng hạn, cú pháp của SUMIF là SUMIF(phạm vi, tiêu chí, [phạm vi tổng]). “Dải tổng” là một đối số tùy chọn cho phép bạn cộng các ô trong một dải khác. Do đó, trong cơ sở dữ liệu Đơn đặt hàng, để tìm tổng chi phí của tất cả các dây buộc khung máy bay, chúng tôi sẽ sử dụng SUMIF(D4:D97, “Các chốt khung máy bay”, G4:G97) Hàm này tìm các chốt khung Máy bay trong phạm vi D4:D97, nhưng sau đó tính tổng các giá trị được liên kết trong cột G (chi phí mỗi đơn hàng). Chức năng cho các ứng dụng cụ thể Excel có rất nhiều hàm khác dành cho các ứng dụng thống kê, tài chính và các ứng dụng khác, nhiều hàm trong số đó được chúng tôi giới thiệu và sử dụng xuyên suốt bài viết. Ví dụ: một số mô hình Hình 2.3 Ứng Dụng Các Hàm Excel Vào Dữ Liệu Đơn Đặt Hàng tài chính mà chúng tôi phát triển yêu cầu tính toán giá trị hiện tại ròng (NPV). Giá trị hiện tại ròng (còn gọi là dòng tiền chiết khấu) đo lường giá trị của một dòng tiền, có tính đến Machine Translated by Google 44 Chương 2 Phân tích trên bảng tính hạch toán giá trị thời gian của tiền. Nghĩa là, một dòng tiền F đô la trong khoảng thời gian t trong tương lai t có giá trị F>11 + i2 đô la ngày nay, với i là lãi suất chiết khấu. Lãi suất chiết khấu phản ánh chi phí cơ hội của việc tiêu tiền ngay bây giờ so với việc đạt được lợi nhuận thông qua một khoản đầu tư khác, cũng như những rủi ro liên quan đến việc không nhận được tiền lãi cho đến một thời điểm sau đó. Tổng giá trị hiện tại của tất cả các dòng tiền trong một khoảng thời gian xác định là giá trị hiện tại ròng: N NPV một t0 t Ft 11 + i2 (2.1) dòng tiền Ft trong thời kỳ t. NPV dương có nghĩa là khoản đầu tư sẽ mang lại giá trị gia tăng vì lợi nhuận dự kiến vượt quá tỷ lệ chiết khấu. Hàm Excel NPV(rate, value1, value2,…) tính toán giá trị hiện tại ròng của một khoản đầu tư bằng cách sử dụng tỷ lệ chiết khấu và một loạt các khoản thanh toán trong tương lai (giá trị âm) và thu nhập (giá trị dương). Tỷ lệ là giá trị của tỷ lệ chiết khấu i trong khoảng thời gian của một khoảng thời gian và value1, value2, … là các đối số từ 1 đến 29 đại diện cho các khoản thanh toán và thu nhập cho mỗi khoảng thời gian. Các giá trị phải cách đều nhau về thời gian và được giả định là xảy ra vào cuối mỗi khoảng thời gian. Đầu tư NPV bắt đầu một khoảng thời gian trước ngày của dòng tiền giá trị1 và kết thúc với dòng tiền cuối cùng trong danh sách. Việc tính toán NPV dựa trên dòng tiền trong tương lai. Nếu dòng tiền đầu tiên (chẳng hạn như khoản đầu tư ban đầu hoặc chi phí cố định) xảy ra vào đầu kỳ đầu tiên, thì dòng tiền này phải được cộng vào kết quả NPV và không được đưa vào các đối số của hàm. VÍ DỤ 2.3 Sử dụng Hàm NPV Một công ty đang giới thiệu một sản phẩm mới. Chi phí cố định trong ô B8 tính giá trị hiện tại ròng của các dòng tiền này cho tiếp thị và phân phối là 25.000 đô la và phát sinh ngay là =NPV(B6,C4:H4) trước khi ra mắt. Doanh thu thuần bán hàng dự kiến trong 6 là dòng tiền trong tương lai và không được bao gồm trong các tháng đầu năm được thể hiện trong Hình 2.4. công thức đối số của hàm NPV. B5. Lưu ý rằng chi phí cố định không phải Chèn chức năng Cách dễ nhất để định vị một hàm cụ thể là chọn một ô và nhấp vào nút Chèn hàm 3 f 4 , có thể tìm thấy nút này dưới dải băng bên cạnh thanh công thức và cả trong nhóm Thư viện Hàm trong tab Công thức. Bạn có thể nhập mô tả vào trường tìm kiếm, chẳng hạn như “giá trị hiện tại ròng” hoặc chọn một danh mục, chẳng hạn như “Tài chính” từ hộp thả xuống. Tính năng này đặc biệt hữu ích nếu bạn biết nên sử dụng hàm nào nhưng không chắc chắn nên nhập đối số nào vì nó sẽ hướng dẫn bạn nhập dữ liệu thích hợp cho các đối số của hàm. Hình 2.5 hiển thị hộp thoại mà từ đó bạn có thể chọn chức năng bạn muốn Hình 2.4 Tính toán giá trị hiện tại ròng Machine Translated by Google Chương 2 Phân tích trên bảng tính 45 Hình 2.5 Chèn hộp thoại chức năng để sử dụng. Ví dụ, nếu chúng ta chọn hàm COUNTIF, hộp thoại trong Hình 2.6 sẽ xuất hiện. Khi bạn bấm vào một ô nhập liệu, mô tả của đối số sẽ được hiển thị. Vì vậy, nếu bạn không chắc chắn nên nhập gì cho phạm vi, phần giải thích trong Hình 2.6 sẽ giúp bạn. Để biết thêm thông tin, bạn có thể nhấp vào nút Trợ giúp ở góc dưới bên trái. Hàm logic Các hàm logic chỉ trả về một trong hai giá trị: TRUE hoặc FALSE. Ba chức năng logic hữu ích trong các ứng dụng phân tích kinh doanh là IF(điều kiện, giá trị nếu đúng, giá trị nếu sai)—một hàm logic trả về một giá trị nếu điều kiện là đúng và khác nếu điều kiện là sai, AND(điều kiện 1, điều kiện 2…)—một hàm logic trả về TRUE nếu tất cả điều kiện là đúng và FALSE nếu không, OR(điều kiện 1, điều kiện 2…)—một hàm logic trả về TRUE nếu bất kỳ điều kiện nào là đúng và FALSE nếu không. Hàm IF, IF(điều kiện, giá trị nếu đúng, giá trị nếu sai), cho phép bạn chọn một trong hai giá trị để nhập vào một ô. Nếu điều kiện đã chỉ định là đúng, giá trị nếu đúng sẽ được đưa vào Hình 2.6 Hộp thoại đối số chức năng cho COUNTIF Machine Translated by Google 46 Chương 2 Phân tích trên bảng tính tế bào. Nếu điều kiện là sai, giá trị nếu sai sẽ được nhập vào. Giá trị nếu đúng và giá trị nếu sai có thể là một số hoặc một chuỗi văn bản đặt trong dấu ngoặc kép. Lưu ý rằng nếu một khoảng trống được sử dụng giữa các dấu ngoặc kép, “ ”, thì kết quả sẽ chỉ là một ô trống. Điều này thường hữu ích để tạo một bảng tính rõ ràng. Ví dụ: nếu ô C2 chứa hàm IF(A8 2,7,12), nó cho biết nếu giá trị trong ô A8 là 2, thì số 7 sẽ được gán cho ô C2; nếu giá trị trong ô A8 không phải là 2, số 12 sẽ được gán cho ô C2. Các điều kiện có thể bao gồm những điều sau đây: tương đương với 7 lớn hơn 6 nhỏ hơn 7 lớn hơn hoặc bằng 6 nhỏ hơn hoặc bằng 6 7 không bằng Bạn có thể “lồng” tối đa bảy hàm IF bằng cách thay thế giá trị-nếu-đúng hoặc giá trị-nếu-sai trong một hàm IF với một hàm IF khác: NẾU(A8 2,(NẾU(B3 5,;CÓ<,;<)),15) Điều này nói rằng nếu ô A8 bằng 2, thì hãy kiểm tra nội dung của ô B3. Nếu ô B3 là 5, thì giá trị của hàm là chuỗi văn bản CÓ; nếu không, đó là một khoảng trống (được biểu thị bằng dấu ngoặc kép không có gì ở giữa). Tuy nhiên, nếu ô A8 không phải là 2, thì giá trị của hàm là 15 cho dù ô B3 là gì. Các hàm AND và OR chỉ trả về các giá trị đúng hoặc sai nếu tất cả hoặc ít nhất một trong nhiều điều kiện được đáp ứng tương ứng. Bạn có thể sử dụng các hàm AND và OR làm VÍ DỤ 2.4 Sử dụng Hàm IF Giả sử rằng nhà sản xuất linh kiện máy bay coi bất kỳ đơn đặt hàng trả về giá trị Nhỏ. Hơn nữa, giả sử rằng các đơn đặt hàng lớn với nào từ 10.000 đơn vị trở lên là lớn, trong khi bất kỳ quy mô đơn tổng chi phí ít nhất là 25.000 đô la được coi là quan trọng. hàng nào khác được coi là nhỏ. Chúng ta có thể đánh dấu các đơn đặt hàng này là quan trọng bằng cách sử dụng Chúng ta có thể sử dụng hàm IF để phân loại các đơn đặt hàng. Đầu hàm trong ô L4: tiên, tạo một cột mới trong bảng tính cho kích thước đơn đặt hàng, chẳng hạn như cột K. Trong ô K4, hãy sử dụng công thức =IF(F4+=10000,;Lớn<,;Nhỏ<) =IF(AND(K4=“Lớn”, G4+=25000),“Nghiêm trọng”,“ ”) Sau khi sao chép các công thức này xuống các cột, Hình 2.7 cho thấy một phần kết quả. Hàm này sẽ trả về giá trị Lớn trong ô K4 nếu quy mô đơn hàng trong ô F4 là 10.000 trở lên; nếu không, nó Hình 2.7 Phân loại kích thước đơn hàng bằng hàm IF Machine Translated by Google 47 Chương 2 Phân tích trên bảng tính điều kiện trong hàm IF; ví dụ: NẾU(VÀ(B1 3,C1 5),12,22). Ở đây, nếu ô B1 3 và ô C1 5 thì giá trị của hàm là 12; ngược lại là 22. Sử dụng hàm tra cứu Excel cho truy vấn cơ sở dữ liệu Trong Chương 1, chúng tôi đã lưu ý rằng trí tuệ kinh doanh là công cụ trong sự phát triển của phân tích kinh doanh. Các tổ chức thường cần trích xuất thông tin chính từ cơ sở dữ liệu để hỗ trợ các đại diện dịch vụ khách hàng, hỗ trợ kỹ thuật, sản xuất và các nhu cầu khác. Excel cung cấp một số chức năng hữu ích để tìm dữ liệu cụ thể trong bảng tính. Đó là: VLOOKUP(lookup_value, table_array, col_index_num, [range lookup]) tra cứu giá trị ở cột ngoài cùng bên trái của bảng (được chỉ định bởi table_array) và trả về giá trị trong cùng một hàng từ cột bạn chỉ định (col_index_num). Hàm HLOOKUP(giá trị_tra cứu, bảng_mảng, hàng_chỉ_số_số, [tra cứu phạm vi]) tra cứu giá trị ở hàng trên cùng của bảng và trả về giá trị trong cùng một cột từ hàng bạn chỉ định. INDEX(array, row_num, col_num) trả về một giá trị hoặc tham chiếu của ô tại giao điểm của một hàng và cột cụ thể trong một phạm vi nhất định. MATCH(lookup_value, lookup_array, match_type) trả về vị trí tương đối của một mục trong một mảng khớp với một giá trị đã chỉ định theo một thứ tự đã chỉ định. Trong các hàm VLOOKUP và HLOOKUP, tra cứu phạm vi là tùy chọn. Nếu điều này bị bỏ qua hoặc được đặt là True, thì cột đầu tiên của bảng phải được sắp xếp theo thứ tự số tăng dần. Nếu kết quả khớp chính xác cho giá trị tra cứu được tìm thấy trong cột đầu tiên, thì Excel sẽ trả về giá trị col_index_num của hàng đó. Nếu không tìm thấy kết quả khớp chính xác, Excel sẽ chọn hàng có giá trị lớn nhất trong cột đầu tiên nhỏ hơn giá trị tra cứu. Nếu tra cứu phạm vi là sai, thì Excel sẽ tìm kiếm kết quả khớp chính xác trong cột đầu tiên của phạm vi bảng. Nếu không tìm thấy kết quả khớp chính xác, Excel sẽ trả về #N/A (không khả dụng). Chúng tôi khuyên bạn nên chỉ định tra cứu phạm vi để tránh lỗi. VÍ DỤ 2.5 Sử dụng Hàm VLOOKUP Trong Chương 1, chúng tôi đã giới thiệu cơ sở dữ liệu về các thứ tự số, vì vậy chúng tôi có thể bỏ qua tra cứu phạm vi giao dịch bán hàng cho một công ty bán sách và DVD hướng dẫn đối số hoặc đặt nó là đúng. Do đó, nếu chúng ta nhập công thể dục (Giao dịch bán hàng tệp Excel). Cơ sở dữ liệu được thức bên dưới vào bất kỳ ô trống nào của bảng tính: sắp xếp theo ID khách hàng, và một phần của nó được thể hiện trong Hình 2.8. Giả sử rằng một khách hàng gọi cho một đại =VLOOKUP(10007,$A$4:$H$475,3) diện về vấn đề thanh toán. Người đại diện tìm ID khách hàng— trả về loại thanh toán, C chỉnh sửa. Nếu chúng ta sử dụng ví dụ: 10007—và cần tra cứu loại thanh toán và mã giao dịch. công thức sau: Chúng ta có thể sử dụng hàm VLOOKUP để làm việc này. Trong hàm VLOOKUP(lookup_value, table_array, col_ index_num), lookup_value đại diện cho ID khách hàng. table_array là phạm vi dữ liệu trong bảng tính; trong trường =VLOOKUP(10007,$A$4:$H$475,4) hàm trả về mã giao dịch, 80103311. Bây giờ, giả sử cơ sở dữ liệu được sắp xếp theo mã giao dịch sao cho cột ID khách hàng không còn theo thứ tự số tăng hợp này, đó là phạm vi A4:H475. Giá trị cho col_index_num đại dần như trong Hình 2.9. Nếu chúng ta sử dụng hàm diện cho cột trong phạm vi bảng mà chúng tôi muốn truy xuất. =VLOOKUP(10007,$A$4:$H$475,4, True), Excel sẽ trả về #N/A. Tuy Đối với loại thanh toán, đây là cột 3; đối với mã giao dịch, nhiên, nếu chúng ta thay đổi đối số tra cứu phạm vi thành đây là cột 4. Sai, thì hàm sẽ trả về giá trị chính xác của mã giao dịch. Lưu ý rằng cột đầu tiên đã được sắp xếp tăng dần Machine Translated by Google 48 Chương 2 Phân tích trên bảng tính Hình 2.8 Phần giao dịch bán hàng Dữ liệu được sắp xếp theo ID khách hàng Hình 2.9 Phần bán hàng Dữ liệu giao dịch được sắp xếp theo mã giao dịch Hàm HLOOKUP hoạt động theo cách tương tự. Đối với hầu hết các cơ sở dữ liệu bảng tính, thông thường chúng ta sẽ cần sử dụng hàm VLOOKUP. Tuy nhiên, trong một số tình huống lập mô hình, hàm HLOOKUP có thể hữu ích nếu dữ liệu được sắp xếp theo từng cột thay vì theo từng hàng. Hàm INDEX hoạt động như một thủ tục tra cứu bằng cách trả về giá trị trong một hàng và cột cụ thể của một mảng. Ví dụ: trong cơ sở dữ liệu Giao dịch bán hàng, INDEX(+A+4:+H+475, 7, 4) sẽ truy xuất mã giao dịch, 80103311 ở hàng thứ 7 và cột thứ 4 của mảng dữ liệu (xem Hình 2.8) , như hàm VLOOKUP đã làm trong Ví dụ 2.5. Sự khác biệt là nó dựa vào số hàng chứ không phải giá trị thực của ID khách hàng. Trong hàm MATCH, lookup_value là giá trị mà bạn muốn so khớp trong mảng lookup_, là phạm vi ô đang được tìm kiếm. Match_type là -1, 0 hoặc 1. Giá trị mặc định là 1. Nếu match_type là 1, thì hàm sẽ tìm giá trị lớn nhất nhỏ hơn hoặc bằng lookup_value. Các giá trị trong lookup_array phải được đặt theo thứ tự tăng dần. Nếu match_type 0, MATCH sẽ tìm giá trị đầu tiên chính xác bằng lookup_value. Các giá trị trong lookup_array có thể theo thứ tự bất kỳ. Nếu match_type -1, thì hàm tìm giá trị nhỏ nhất lớn hơn hoặc bằng lookup_value. Các giá trị trong lookup_array phải được đặt theo thứ tự giảm dần. Ví dụ 2.6 cho thấy cách sử dụng các hàm INDEX và MATCH. Hàm VLOOKUP sẽ không hoạt động nếu bạn muốn tra cứu thứ gì đó ở bên trái của một phạm vi đã chỉ định (vì hàm này sử dụng cột đầu tiên của phạm vi để tìm giá trị tra cứu). Tuy nhiên, chúng ta có thể dễ dàng sử dụng hàm INDEX và MATCH để làm điều này, như Ví dụ 2.7 cho thấy. Machine Translated by Google 49 Chương 2 Phân tích trên bảng tính VÍ DỤ 2.6 Sử dụng hàm INDEX và MATCH cho truy vấn cơ sở dữ liệu Hình 2.10 hiển thị dữ liệu trong tệp Excel Truy vấn Doanh số Trong trường hợp này, hàm MATCH được sử dụng để xác định cột Sản phẩm Hàng tháng. Giả sử chúng ta muốn thiết kế một ứng trong bảng tương ứng với tên sản phẩm trong ô I6. Lưu ý việc dụng truy vấn đơn giản để nhập tháng và tên sản phẩm, đồng sử dụng “+1” để chuyển số cột tương đối của sản phẩm sang số thời truy xuất doanh số bán hàng tương ứng. Ba trang tính bổ cột chính xác trong bảng tra cứu. sung trong sổ làm việc chỉ ra cách thực hiện việc này theo ba cách khác nhau. Trang tính Query1 (xem Hình 2.11) sử dụng hàm Cuối cùng, trang tính Query3 (cũng không được hiển thị ở VLOOKUP với các câu lệnh IF được nhúng. Các công thức trong ô đây) chỉ sử dụng các hàm INDEX và MATCH trong ô I8. for mula I8 là: trong ô I8 là: =VLOOKUP(I5,A4:F15,IF(I6=“A”,2,IF(I6=“B”,3, IF(I6=“C”,4,IF(I6=“D”,5,IF(I6=“E”,6))))),SAI) Các hàm IF được sử dụng để xác định cột trong bảng tra cứu sẽ =INDEX(A4:F15,MATCH(I5,A4:A15,0), MATCH(I6,A3:F3,0)) Hàm MATCH được sử dụng làm đối số trong hàm INDEX để xác định số hàng và cột trong bảng dựa trên tháng và tên sản phẩm. Hàm sử dụng và như bạn có thể thấy, hơi phức tạp, đặc biệt nếu INDEX sau đó truy xuất giá trị trong hàng và cột tương ứng. bảng lớn hơn nhiều. Đây có lẽ là công thức sạch nhất trong ba. Trang tính Query2 (không được hiển thị ở đây; hãy xem sổ làm việc Excel) sử dụng các hàm VLOOKUP và MATCH trong ô I8. Bằng cách nghiên cứu kỹ các ví dụ này, bạn sẽ hiểu rõ hơn Công thức trong ô I8 là: cách sử dụng các chức năng này trong các ứng dụng khác. =VLOOKUP(I5,A4:F15,MATCH(I6,B3:F3,0)+1,FALSE) Hình 2.10 Doanh số sản phẩm hàng tháng sổ làm việc truy vấn Hình 2.11 Query1 Worksheet trong Doanh số sản phẩm hàng tháng sổ làm việc truy vấn Machine Translated by Google 50 Chương 2 Phân tích trên bảng tính VÍ DỤ 2.7 Sử dụng INDEX và MATCH để tra cứu bảng bên trái Giả sử rằng, trong cơ sở dữ liệu Giao dịch bán hàng, chúng tôi muốn tìm ID khách hàng được liên kết với một mã giao dịch cụ thể. Tham khảo lại Hình 2.8 hoặc sổ làm việc Excel. Giả sử rằng chúng ta nhập mã giao dịch vào ô K2 và muốn hiển thị ID khách hàng vào ô K4. =INDEX(A4:A475,MATCH(K2,D4:D475,0),1) Ở đây, hàm MATCH được sử dụng để xác định số hàng trong phạm vi bảng khớp chính xác với mã giao dịch và hàm INDEX sử dụng số hàng này và cột 1 để xác định ID khách hàng được liên kết. Sử dụng công thức trong ô K4: Phần bổ trợ bảng tính cho Business Analytics Microsoft Excel sẽ cung cấp hầu hết các hỗ trợ tính toán cần thiết cho tài liệu trong cuốn sách này. Excel (chỉ dành cho Windows) cung cấp một phần bổ trợ có tên là Analysis Toolpak, trong đó có nhiều công cụ để tính toán thống kê và Bộ giải, được sử dụng để tối ưu hóa. Các phần bổ trợ này không được bao gồm trong bản cài đặt Excel tiêu chuẩn. Để cài đặt chúng, nhấp vào tab Tệp và sau đó nhấp vào Tùy chọn ở cột bên trái. Chọn Add-Ins từ cột bên trái. Ở cuối hộp thoại, hãy đảm bảo rằng phần bổ trợ Excel được chọn trong phần Quản lý: hộp và bấm Đi. Trong hộp thoại Add-Ins, nếu Analysis Toolpak, Analysis Toolpak VBA, và Phần bổ trợ bộ giải không được chọn, chỉ cần chọn các hộp và bấm OK. Bạn sẽ không phải lặp lại quy trình này mỗi khi chạy Excel trong tương lai. Ngoài ra, nhiều phần bổ trợ của bên thứ ba sẵn có để hỗ trợ các quy trình phân tích trong Excel. Một phần bổ trợ, Nền tảng bộ giải phân tích của Frontline Systems, cung cấp nhiều khả năng khác cho cả phân tích dự đoán và phân tích theo quy định. Xem Lời nói đầu để biết hướng dẫn về cách tải xuống và cài đặt phần mềm này. Chúng tôi sẽ sử dụng cả phần bổ trợ Excel và Nền tảng bộ giải phân tích đi kèm trong suốt cuốn sách này, vì vậy chúng tôi khuyến khích bạn tải xuống và thiết lập các phần bổ trợ này trên máy tính của mình vào lúc này. Điều khoản quan trọng địa chỉ tuyệt đối Giá trị hiện tại ròng (dòng tiền chiết khấu) tỷ lệ chiết khấu địa chỉ tương đối vấn đề và bài tập 1. Tệp Excel Công việc Khoa học và Kỹ thuật cho thấy số lượng 2. Cơ sở dữ liệu cửa hàng và doanh số khu vực tệp Excel công việc tính bằng nghìn trong năm 2000 và dự báo cho năm cung cấp dữ liệu bán hàng cho máy tính và các thiết bị ngoại 2010 từ một nghiên cứu của chính phủ. Sử dụng tệp Excel để vi hiển thị số nhận dạng cửa hàng, khu vực bán hàng, số mặt tính toán mức tăng dự kiến từ đường cơ sở năm 2000 và cả mức hàng, mô tả mặt hàng, đơn giá, đơn vị đã bán và tháng bán tăng phần trăm cho từng danh mục nghề nghiệp. hàng được thực hiện trong quý IV năm ngoái.3 Sửa đổi 3Dựa trên Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản lần thứ 9. (Sông Thượng Saddle, NJ: Prentice Hall, 2011). Machine Translated by Google 51 Chương 2 Phân tích trên bảng tính bảng tính để tính tổng doanh thu bán hàng cho từng cửa hàng trong số tám cửa hàng cũng như từng khu vực trong số ba khu vực bán hàng. 3. File excel President's Inn Guest Database pro hiển thị danh sách khách hàng, phòng họ ở, đối thủ cạnh tranh và ngày khởi hành, số người ở, và giá hàng ngày cho một nhà trọ nhỏ phục vụ bữa sáng trong một tháng.4 Giá phòng là như nhau cho một hoặc hai khách ; tuy nhiên, khách bổ sung phải trả thêm $20 mỗi người mỗi ngày cho các bữa ăn. Khách lưu trú từ bảy ngày trở lên được giảm giá 10%. Năm Lợi nhuận ròng 1 $(300.000.000) 2 $(145.000.000) 3 $50,000,000 4 $125,000,000 5 $530,000,000 Sử dụng bảng tính để tìm giá trị hiện tại ròng của các dòng tiền này với tỷ lệ chiết khấu là 3%. 7. Ví dụ 1.4 trong Chương 1 đã mô tả một tình huống bán sản Sửa bảng tính để tính số ngày mỗi bên lưu trú tại nhà trọ phẩm mới có thể được mô tả bằng một công thức gọi là đường và tổng doanh thu cho thời gian lưu trú. cong Gompertz: S aebect. Phát triển một bảng tính để tính toán doanh thu bằng cách sử dụng công thức này cho t 0 đến 4. Bảng tính Dữ liệu Cơ sở trong tệp Excel Dữ liệu Rủi ro Tín 160 với gia số là 10 khi a 15000, b -8 và c -0,05. dụng cung cấp thông tin về 425 khách hàng ngân hàng đã đăng ký vay vốn. Dữ liệu bao gồm mục đích của khoản vay, 8. Ví dụ 1.8 trong Chương 1 đã cung cấp dữ liệu từ một người cũ số dư tài khoản séc và tiết kiệm, số tháng là khách hàng cơ hội để xác định mối quan hệ giữa bán hàng và giá cả, của ngân hàng, số tháng làm việc, giới tính, tình trạng phiếu giảm giá và chiến lược quảng cáo. Nhập dữ liệu vào hôn nhân, tuổi tác, tình trạng nhà ở và số năm ở hiện tại, bảng tính và triển khai mô hình trong ví dụ trong bảng loại công việc, và phân loại rủi ro tín dụng của ngân hàng.5 tính của bạn để ước tính doanh số cho từng thử nghiệm hàng tuần. Tính toán doanh số bán hàng trung bình của ba cửa hàng và tìm sự khác biệt giữa mức trung bình và ước tính Một. Sử dụng hàm COUNTIF để xác định (1) có bao nhiêu mô hình cho mỗi tuần. khách hàng đăng ký vay mua ô tô mới, ô tô cũ, kinh doanh, giáo dục, thiết bị nhỏ và đồ đạc và (2) số lượng khách hàng có số dư tài khoản séc dưới 500 đô la. 9. Các bài tập sau sử dụng Đơn đặt hàng cơ sở dữ liệu. Sử dụng các hàm MATCH và/hoặc INDEX để tìm các mục sau: b. Sửa đổi bảng tính bằng cách sử dụng các hàm IF để bao gồm các cột mới, phân loại số dư tài khoản séc và tài khoản tiết kiệm ở mức thấp nếu số dư dưới 250 đô la, trung bình nếu từ 250 đô la đến dưới 2000 đô la và cao nếu ngược lại. Một. Số hàng tương ứng với phiên bản đầu tiên và cuối cùng của mục số 1369 trong cột C (đảm bảo cột C được sắp xếp theo số thứ tự). b. Chi phí đặt hàng liên quan đến trường hợp đầu tiên của mục 1369 mà bạn đã xác định trong phần (a). 5. Nhà quản lý cần xác định một số thông tin từ tệp Excel Đơn đặt hàng nhưng chỉ có số đơn đặt hàng. Sửa đổi tệp Excel để sử dụng hàm VLOOKUP để tìm mô tả mặt hàng và chi phí mỗi đơn đặt hàng cho các số đơn đặt hàng sau: Aug11008, Sep11023 và Oct11020. c. Tổng chi phí của tất cả các đơn đặt hàng cho mặt hàng 1369. Sử dụng câu trả lời cho phần (a) và (b) cùng với hàm SUM để thực hiện việc này. Nói cách khác, bạn nên sử dụng các hàm INDEX và MATCH thích hợp trong hàm SUM để tìm câu trả lời. Xác thực kết quả của bạn bằng cách áp dụng hàm SUM 6. Một nhà sản xuất dược phẩm đã dự kiến lợi nhuận ròng cho trực tiếp cho dữ liệu trong cột G. một loại thuốc mới sẽ được tung ra thị trường trong 5 năm tới: 4Dựa trên Kenneth C. Laudon và Jane P. Laudon, Yếu tố cần thiết của Hệ thống Thông tin Quản lý. 5Dựa trên Efraim Turban, Ranesh Sharda, Dursun Delen và David King, Business Intelligence: A Managerial Approach, tái bản lần 2. (Upper Saddle River NJ: Prentice Hall, 2011). Machine Translated by Google 52 Chương 2 Phân tích trên bảng tính 10. Sử dụng hàm INDEX và MATCH để điền vào bảng trích xuất số 11. Giả sử một công ty đưa ra chiết khấu theo số lượng. lượng vận chuyển giữa mỗi cặp thành phố trong tệp Excel Nếu mua tối đa 1000 đơn vị, đơn giá là 10 đô la; nếu mua hơn General Appliance Corporation. Bảng của bạn sẽ hiển thị như 1000 và tối đa 5000 đơn vị, đơn giá là 9 đô la; và nếu hơn sau và công thức cho số tiền phải tham chiếu tên trong cột 5000 đơn vị được mua, đơn giá là $7,50. Từ và Đến: Xây dựng bảng tính bằng cách sử dụng chức năng VLOOKUP để tìm đơn giá liên quan đến bất kỳ hoặc số lượng đặt hàng nào Từ ĐẾN Marietta Cleveland Số lượng và tính toán tổng chi phí của đơn đặt hàng. 0 350 Marietta Baltimore Marietta Chicago Marietta Phượng Hoàng 850 Minneapolis Cleveland 150 Minneapolis Baltimore 0 0 Minneapolis Chicago 500 Minneapolis Phượng Hoàng 150 Trường hợp: Hiệu suất Lawn Thiết bị Elizabeth Burke đã yêu cầu bạn thực hiện một số phân tích sơ bộ về dữ liệu trong Thiết bị cắt cỏ hiệu suất Tạo một trang tính mới trong cơ sở dữ liệu để tính toán tổng doanh thu theo tháng và khu vực, cũng như tổng doanh thu trên cơ sở dữ liệu. Đầu tiên, cô ấy muốn bạn chỉnh sửa bảng tính Sự hài toàn thế giới, cho từng sản phẩm bằng cách sử dụng dữ liệu trong lòng của đại lý và Sự hài lòng của người dùng cuối để hiển thị Doanh số bán đơn vị máy cắt và Doanh số bán đơn vị máy kéo. Cuối tổng số câu trả lời cho từng cấp độ của thang đo khảo sát trên cùng, cô ấy muốn biết thị phần của từng sản phẩm và khu vực dựa tất cả các khu vực trong mỗi năm. Thứ hai, cô ấy muốn đếm số lần trên PLE và dữ liệu bán hàng của ngành trong cơ sở dữ liệu. Tạo thất bại trong bài kiểm tra máy cắt bảng tính. Tiếp theo, Elizabeth và lưu các tính toán này trong một trang tính mới. Tóm tắt tất cả cung cấp cho bạn giá các sản phẩm PLE trong 5 năm qua: những phát hiện của bạn trong một báo cáo cho cô Burke. Năm Giá máy cắt ($) Giá máy kéo ($) 2010 150 3.250 2011 175 3.400 2012 180 3.600 2013 185 3.700 2014 190 3.800 Machine Translated by Google hình dung và khám phá dữ liệu CHƯƠNG Người lao động / Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Tạo biểu đồ Microsoft Excel. Xây dựng phân bố tần số tương đối và biểu đồ. Xác định biểu đồ thích hợp để trực quan hóa các loại dữ liệu khác nhau. Tính toán tần số tương đối tích lũy. Sắp xếp tập dữ liệu trong bảng tính Excel. Tìm phần trăm và phần tư cho một tập dữ liệu. Áp dụng Nguyên tắc Pareto để phân tích dữ liệu. Lập bảng chéo (bảng dự phòng). Sử dụng Bộ lọc tự động của Excel để xác định các bản ghi Sử dụng PivotTable để khám phá và tóm tắt dữ liệu. trong cơ sở dữ liệu đáp ứng các đặc điểm nhất định. Sử dụng PivotTable để tạo bảng chéo. Giải thích khoa học về thống kê và định nghĩa thuật Hiển thị kết quả của PivotTable bằng PivotCharts. ngữ thống kê. Xây dựng phân phối tần số cho cả dữ liệu rời rạc và liên tục. 53 Machine Translated by Google 54 Chương 3 Trực quan hóa và khám phá dữ liệu Chuyển đổi dữ liệu thành thông tin để hiểu hiệu suất trong quá khứ và hiện tại là cốt lõi của phân tích mô tả và rất quan trọng để đưa ra các quyết định kinh doanh đúng đắn. Các kỹ thuật để thực hiện điều này bao gồm vẽ dữ liệu trên biểu đồ, trích xuất dữ liệu từ cơ sở dữ liệu, thao tác và tóm tắt dữ liệu. Trong chương này, chúng tôi giới thiệu nhiều kỹ thuật hữu ích cho phân tích mô tả. Trực quan hóa dữ liệu Câu ngạn ngữ cổ “Một bức tranh đáng giá 1000 từ” có lẽ đúng hơn bao giờ hết trong môi trường giàu thông tin ngày nay. Trong Chương 1, chúng tôi đã nói rằng trực quan hóa dữ liệu là cốt lõi của phân tích kinh doanh hiện đại. Trực quan hóa dữ liệu là quá trình hiển thị dữ liệu (thường với số lượng lớn) theo cách có ý nghĩa để cung cấp thông tin chuyên sâu hỗ trợ các quyết định tốt hơn. Hiểu được số lượng lớn dữ liệu khác nhau là cần thiết không chỉ để đạt được lợi thế cạnh tranh trong môi trường kinh doanh ngày nay mà còn để tồn tại trong đó. Các nhà nghiên cứu đã quan sát thấy rằng trực quan hóa dữ liệu cải thiện quá trình ra quyết định, cung cấp cho các nhà quản lý khả năng phân tích tốt hơn giúp giảm sự phụ thuộc vào các chuyên gia CNTT, đồng thời cải thiện sự hợp tác và chia sẻ thông tin. Dữ liệu thô rất quan trọng, đặc biệt khi cần xác định các giá trị chính xác hoặc so sánh các số riêng lẻ. Tuy nhiên, khá khó để xác định xu hướng và mẫu, tìm ngoại lệ hoặc so sánh các nhóm dữ liệu ở dạng bảng. Bộ não con người thực hiện công việc xử lý thông tin hình ảnh tốt một cách đáng kinh ngạc—nếu được trình bày một cách hiệu quả. Trực quan hóa dữ liệu cung cấp một cách truyền đạt dữ liệu ở tất cả các cấp của doanh nghiệp và có thể tiết lộ các mẫu và mối quan hệ đáng ngạc nhiên. Để biết nhiều ví dụ độc đáo và hấp dẫn về trực quan hóa dữ liệu, hãy truy cập Phòng trưng bày trực quan hóa dữ liệu tại trang web của Cục điều tra dân số Hoa Kỳ, www.census.gov/dataviz/. VÍ DỤ 3.1 Phân tích dữ liệu dạng bảng so với trực quan Hình 3.1 hiển thị dữ liệu trong tệp Excel Doanh số sản phẩm Hình 3.2 hiển thị biểu đồ doanh số hàng tháng cho từng sản hàng tháng. Chúng tôi có thể sử dụng dữ liệu để xác định chính phẩm. Chúng ta có thể dễ dàng so sánh tổng doanh số bán hàng xác có bao nhiêu đơn vị sản phẩm nhất định đã được bán trong của các sản phẩm khác nhau (ví dụ: Sản phẩm C bán ít nhất) và một tháng cụ thể hoặc để so sánh tháng này với tháng khác. xác định xu hướng (doanh số bán Sản phẩm D đang tăng), các Ví dụ: chúng ta thấy rằng doanh số của sản phẩm A đã giảm mẫu khác (doanh số bán Sản phẩm C tương đối ổn định trong khi trong tháng 2, cụ thể là 6,7% (được tính theo công thức Excel doanh số bán Sản phẩm B dao động nhiều hơn theo thời gian) và = 1 các trường hợp ngoại lệ (Doanh số của Sản phẩm E đã giảm đáng B3/B2). Tuy nhiên, ngoài những tính toán như vậy, rất kể trong tháng 9). khó để đưa ra kết luận toàn cảnh. Trực quan hóa dữ liệu cũng rất quan trọng đối với việc xây dựng các mô hình quyết định và để giải thích kết quả của chúng. Ví dụ, nhớ lại các mô hình dự đoán nhu cầu trong Chương 1 ( Ví dụ 1.9 và 1.10). Để xác định mô hình phù hợp để sử dụng, thông thường chúng ta sẽ phải thu thập và phân tích dữ liệu về nhu cầu bán hàng và giá cả để xác định loại mối quan hệ (ví dụ: tuyến tính hoặc phi tuyến tính) và ước tính giá trị của các tham số trong mô hình. Trực quan hóa dữ liệu sẽ giúp xác định mối quan hệ thích hợp và sử dụng công cụ phân tích dữ liệu thích hợp. Hơn nữa, các mô hình phân tích phức tạp thường mang lại kết quả phức tạp. Trực quan hóa các kết quả thường giúp hiểu và có được cái nhìn sâu sắc về đầu ra của mô hình và các giải pháp. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 55 Hình 3.1 Dữ liệu bán sản phẩm hàng tháng Hình 3.2 Trực quan hóa hàng tháng Dữ liệu bán sản phẩm bảng điều khiển Làm cho dữ liệu hiển thị và có thể truy cập được đối với nhân viên ở tất cả các cấp là dấu hiệu của các tổ chức hiện đại hiệu quả. Bảng điều khiển là một đại diện trực quan của một tập hợp các biện pháp kinh doanh chính. Nó bắt nguồn từ sự tương tự của bảng điều khiển ô tô, hiển thị tốc độ, mức xăng, nhiệt độ, v.v. Trang tổng quan cung cấp các bản tóm tắt quan trọng về thông tin kinh doanh chính để giúp quản lý quy trình hoặc chức năng kinh doanh. Bảng điều khiển có thể bao gồm dữ liệu dạng bảng cũng như trực quan để cho phép người quản lý nhanh chóng định vị dữ liệu chính. Hình 3.3 hiển thị một bảng điều khiển đơn giản cho dữ liệu doanh số sản phẩm trong Hình 3.1 hiển thị doanh số hàng tháng cho từng sản phẩm riêng lẻ, doanh số của tất cả các sản phẩm cộng lại, tổng doanh số hàng năm theo sản phẩm, so sánh hai tháng trước và phần trăm thay đổi hàng tháng theo sản phẩm. Công cụ và phần mềm để trực quan hóa dữ liệu Trực quan hóa dữ liệu bao gồm từ các biểu đồ Excel đơn giản đến các công cụ và phần mềm tương tác tiên tiến hơn cho phép người dùng dễ dàng xem và thao tác dữ liệu chỉ bằng một vài cú nhấp chuột, không chỉ trên máy tính mà còn trên iPad và các thiết bị khác. Trong chương này, chúng ta thảo luận về các công cụ cơ bản có sẵn trong Excel. Trong Chương 10, chúng ta sẽ thấy một số công cụ khác được sử dụng trong các ứng dụng khai thác dữ liệu có sẵn với phần bổ trợ Excel, XLMiner, được sử dụng trong cuốn sách này. Machine Translated by Google 56 Hình 3.3 Chương 3 Trực quan hóa và khám phá dữ liệu Mặc dù chúng tôi sẽ chỉ tập trung vào các công cụ dựa trên Excel trong cuốn sách này, nhưng bạn nên biết về các tùy chọn và gói thương mại khác có sẵn. Cụ thể, chúng tôi khuyên bạn nên xem các Bảng điều khiển cho sản phẩm Việc bán hàng khả năng của Tableau (www.tableausoftware.com) và phần mềm Cognos của IBM (www.cognos10.com). Tableau rất dễ sử dụng và cung cấp bản dùng thử miễn phí. Tạo biểu đồ trong Microsoft Excel Microsoft Excel cung cấp khả năng vẽ biểu đồ toàn diện với nhiều tính năng. Với một chút thử nghiệm, bạn có thể tạo các biểu đồ rất chuyên nghiệp để phân tích và thuyết trình kinh doanh. Chúng bao gồm biểu đồ thanh dọc và ngang, biểu đồ đường, biểu đồ hình tròn, biểu đồ vùng, biểu đồ phân tán và nhiều loại biểu đồ đặc biệt khác. Chúng tôi thường không hướng dẫn bạn qua mọi ứng dụng nhưng cung cấp một số hướng dẫn cho các thủ tục mới khi thích hợp. Một số biểu đồ nhất định hoạt động tốt hơn đối với một số loại dữ liệu nhất định và việc sử dụng sai biểu đồ có thể khiến người dùng khó diễn giải và hiểu. Mặc dù Excel cung cấp nhiều cách để làm cho biểu đồ trở nên độc đáo và lạ mắt, nhưng người dùng ngây thơ thường tập trung nhiều hơn vào việc thu hút sự chú ý dưới dạng các biểu đồ hơn là hiệu quả hiển thị thông tin của chúng. Vì vậy, chúng tôi khuyên bạn nên giữ cho các biểu đồ đơn giản và tránh những thứ linh tinh như thanh 3D, hình trụ, hình nón, v.v. Chúng tôi đánh giá cao các cuốn sách do Stephen Few viết, chẳng hạn như Show Me the Numbers (Oakland, CA: Analytics Press, 2004) để có thêm hướng dẫn trong việc phát triển trực quan hóa dữ liệu hiệu quả. Để tạo biểu đồ trong Excel, trước tiên, tốt nhất bạn nên đánh dấu phạm vi dữ liệu bạn muốn lập biểu đồ. Các tệp Trợ giúp Excel cung cấp hướng dẫn về định dạng dữ liệu của bạn cho một loại biểu đồ cụ thể. Nhấp vào tab Chèn trong dải băng Excel (Hình 3.4). Từ nhóm Biểu đồ, hãy bấm vào loại biểu đồ, rồi bấm vào một loại phụ của biểu đồ mà bạn muốn sử dụng. Khi một biểu đồ cơ bản được tạo, bạn có thể sử dụng các tùy chọn trong tab Thiết kế và Định dạng trong Công cụ Biểu đồ tab để tùy chỉnh biểu đồ của bạn (Hình 3.5). Trong tab Thiết kế, bạn có thể thay đổi loại biểu đồ, dữ liệu có trong biểu đồ, bố cục biểu đồ và kiểu. Tab Định dạng cung cấp các tùy chọn định dạng khác nhau. Bạn cũng có thể dễ dàng tùy chỉnh các biểu đồ bằng cách nhấp chuột phải vào các thành phần của biểu đồ hoặc bằng cách sử dụng các tùy chọn Bố cục Nhanh trong nhóm Bố cục Biểu đồ trong tab Thiết kế Công cụ Biểu đồ. Bạn nên nhận ra rằng có tới 10% dân số nam bị ảnh hưởng bởi chứng mù màu, gây khó khăn cho việc phân biệt giữa các biến thể màu khác nhau. Mặc dù chúng ta thường hiển thị các biểu đồ bằng cách sử dụng các màu mặc định của Excel, rất tiếc là thường sử dụng màu đỏ, nhưng các chuyên gia khuyên bạn nên sử dụng các bảng màu xanh da cam. Chúng tôi khuyên bạn nên biết điều này đối với các ứng dụng chuyên nghiệp và thương mại. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 57 Hình 3.4 Tab Chèn Excel Hình 3.5 Công cụ biểu đồ Excel Biểu đồ cột và thanh Excel phân biệt giữa biểu đồ thanh dọc và ngang, gọi biểu đồ cột trước và biểu đồ thanh sau. Biểu đồ cột nhóm so sánh các giá trị trên các loại mèo bằng hình chữ nhật dọc; biểu đồ cột xếp chồng lên nhau hiển thị phần đóng góp của từng giá trị vào tổng số bằng cách xếp chồng các hình chữ nhật; và biểu đồ cột xếp chồng 100% so sánh tỷ lệ phần trăm mà mỗi giá trị đóng góp vào tổng số. Biểu đồ cột và thanh rất hữu ích để so sánh dữ liệu phân loại hoặc thứ tự, để minh họa sự khác biệt giữa các bộ giá trị và để hiển thị tỷ lệ hoặc tỷ lệ phần trăm của tổng thể. VÍ DỤ 3.2 Tạo biểu đồ cột Tệp Excel Báo cáo việc làm EEO cung cấp dữ liệu về số lượng Alabama.” Tên của chuỗi dữ liệu có thể được thay đổi bằng cách nhân viên trong các danh mục khác nhau được chia nhỏ theo nhóm nhấp vào nút Chọn Dữ liệu trong nhóm Dữ liệu của tab Thiết chủng tộc/dân tộc và giới tính (Hình 3.6). Chúng tôi sẽ xây kế. Trong hộp thoại Select Data Source (xem Hình 3.7), nhấp dựng một biểu đồ cột đơn giản cho các danh mục việc làm vào “Series1” và sau đó nhấp vào nút Chỉnh sửa. khác nhau cho tất cả nhân viên. Đầu tiên, đánh dấu phạm vi Nhập tên của chuỗi dữ liệu, trong trường hợp này là “Tất cả C3:K6, bao gồm các tiêu đề và dữ liệu cho từng danh mục. nhân viên”. Thay đổi tên của chuỗi dữ liệu khác thành “Nam” Nhấp vào nút Biểu đồ cột và sau đó nhấp vào loại biểu đồ đầu và “Nữ” theo cách tương tự. Bạn cũng có thể thay đổi thứ tự tiên trong danh sách (biểu đồ cột được nhóm lại). Để thêm tiêu hiển thị chuỗi dữ liệu trên biểu đồ bằng các nút lên và xuống. đề, nhấp vào Thêm thành phần biểu đồ Biểu đồ cuối cùng được thể hiện trong Hình 3.8. trong dải băng tab Thiết kế. Nhấp vào “Tiêu đề biểu đồ” trong biểu đồ và thay đổi nó thành “Báo cáo việc làm EEO— Hãy thận trọng khi thay đổi tỷ lệ của trục số. Chiều cao hoặc chiều dài của các thanh chỉ phản ánh chính xác các giá trị dữ liệu nếu trục bắt đầu từ 0. Nếu không, các kích thước tương đối có thể vẽ nên một bức tranh sai lệch về các giá trị tương đối của dữ liệu. Machine Translated by Google 58 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.6 Một phần dữ liệu báo cáo việc làm của EEO Hình 3.7 Hộp thoại Chọn nguồn dữ liệu Hình 3.8 Biểu đồ cột cho Alabama Dữ liệu việc làm Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 59 Hình 3.9 Định dạng biểu đồ cột thay thế Nhãn dữ liệu và bảng dữ liệu Tùy chọn biểu đồ Excel cung cấp các tùy chọn để bao gồm dữ liệu số dựa trên biểu đồ nào trong biểu đồ. Chẳng hạn, nhãn dữ liệu có thể được thêm vào các thành phần biểu đồ để hiển thị giá trị thực của các thanh. Bảng dữ liệu cũng có thể được thêm vào; những thứ này thường tốt hơn nhãn dữ liệu, có thể trở nên khá lộn xộn. Có thể thêm cả hai từ nút Thêm thành phần biểu đồ trong tab Thiết kế công cụ biểu đồ hoặc cũng từ nút Bố cục nhanh, nút này cung cấp các tùy chọn thiết kế tiêu chuẩn. Hình 3.9 cho thấy một bảng dữ liệu được thêm vào biểu đồ Việc làm Alabama. Bạn có thể thấy rằng bảng dữ liệu cung cấp thông tin bổ sung hữu ích để cải thiện khả năng hiển thị. Biểu đồ đường Biểu đồ đường cung cấp một phương tiện hữu ích để hiển thị dữ liệu theo thời gian, như minh họa trong Ví dụ 3.3. Bạn có thể vẽ nhiều chuỗi dữ liệu trong biểu đồ đường; tuy nhiên, chúng có thể khó giải thích nếu độ lớn của các giá trị dữ liệu khác nhau rất nhiều. Trong trường hợp đó, nên tạo các biểu đồ riêng cho từng chuỗi dữ liệu. VÍ DỤ 3.3 Biểu đồ đường cho dữ liệu xuất khẩu của Trung Quốc Hình 3.10 cho thấy một biểu đồ đường thể hiện số lượng hàng tỷ tăng xuất khẩu bắt đầu từ năm 2000, bắt đầu chững lại vào đô la Mỹ xuất khẩu sang Trung Quốc từ tệp Excel Dữ liệu Thương khoảng năm 2008. mại Trung Quốc. Biểu đồ cho thấy rõ ràng một sự thay đổi đáng kể Biểu đồ hình tròn Đối với nhiều loại dữ liệu, chúng tôi quan tâm đến việc hiểu tỷ lệ tương đối của từng nguồn dữ liệu so với tổng số. Biểu đồ hình tròn hiển thị điều này bằng cách chia một vòng tròn thành các khu vực hình tròn thể hiện tỷ lệ tương đối. Ví dụ 3.4 cung cấp một ứng dụng. Machine Translated by Google 60 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.10 Biểu đồ có nhãn dữ liệu và bảng dữ liệu VÍ DỤ 3.4 Biểu đồ hình tròn cho dữ liệu điều tra dân số Xem xét tình trạng hôn nhân của các cá nhân trong dân số Hoa Kỳ trong hình 3.12. Biểu đồ này sử dụng tùy chọn bố cục hiển thị các trong tệp Excel Dữ liệu Điều tra Dân số Giáo dục, một phần trong số nhãn được liên kết với dữ liệu cũng như tỷ lệ thực dưới dạng phần đó được thể hiện trong Hình 3.11. Để hiển thị phần pro tương đối trăm. Cũng có thể chọn một bố cục khác hiển thị cả giá trị và/hoặc tỷ trong mỗi danh mục, chúng ta có thể sử dụng biểu đồ hình tròn, như được hiểnlệ. thị Các chuyên gia trực quan hóa dữ liệu không khuyến nghị sử dụng biểu đồ hình tròn. Ví dụ, đối chiếu biểu đồ hình tròn trong Hình 3.12 với biểu đồ cột trong Hình 3.13 cho cùng một dữ liệu. Trong biểu đồ hình tròn, rất khó để so sánh kích thước tương đối của các khu vực; tuy nhiên, có thể dễ dàng so sánh các thanh trong biểu đồ cột để xác định tỷ lệ tương đối của dữ liệu. Nếu bạn sử dụng biểu đồ hình tròn, hãy giới hạn chúng ở một số lượng nhỏ danh mục, luôn đảm bảo rằng các con số cộng lại bằng 100% và sử dụng nhãn để hiển thị tên nhóm và tỷ lệ phần trăm thực tế. Tránh các biểu đồ hình tròn ba chiều (3-D)—đặc biệt là những biểu đồ được xoay—và giữ cho chúng đơn giản. Biểu đồ khu vực Biểu đồ vùng kết hợp các tính năng của biểu đồ hình tròn với các tính năng của biểu đồ đường. Biểu đồ vùng trình bày nhiều thông tin hơn biểu đồ hình tròn hoặc đường thẳng nhưng có thể làm rối trí người quan sát với quá nhiều chi tiết nếu sử dụng quá nhiều chuỗi dữ liệu; do đó, chúng nên được sử dụng cẩn thận. VÍ DỤ 3.5 Biểu đồ diện tích tiêu thụ năng lượng Hình 3.14 hiển thị tổng mức tiêu thụ năng lượng (tỷ Btu) và mức tiêu Kể từ năm 1949, tỷ lệ tiêu thụ nhiên liệu hóa thạch tương đối nhìn thụ nhiên liệu hóa thạch từ tệp Excel Sản xuất & Tiêu thụ Năng lượng. chung vẫn ổn định ở khoảng một nửa tổng số, cho thấy rằng các nguồn Biểu đồ này cho thấy mặc dù tổng mức tiêu thụ năng lượng đã tăng kể năng lượng thay thế đã không thay thế một phần đáng kể mức tiêu thụ từ nhiên liệu hóa thạch. Biểu đồ phân tán Biểu đồ phân tán cho thấy mối quan hệ giữa hai biến. Để xây dựng biểu đồ phân tán, chúng ta cần các quan sát bao gồm các cặp biến. Ví dụ, học sinh trong một lớp có thể có điểm cho cả bài kiểm tra giữa kỳ và cuối kỳ. Một biểu đồ phân tán sẽ cho biết liệu điểm cao hay thấp trong kỳ thi giữa kỳ có tương ứng mạnh mẽ với điểm cao hay thấp trong kỳ thi cuối kỳ hoặc liệu mối quan hệ này có yếu hay không tồn tại. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.11 Phần điều tra dân số Thông tin giáo dục Hình 3.12 Biểu đồ hình tròn cho tình trạng hôn nhân Hình 3.13 Biểu đồ cột thay thế cho tình trạng hôn nhân: Không cao học tốt nghiệp 61 Machine Translated by Google 62 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.14 Biểu đồ diện tích cho năng lượng Sự tiêu thụ VÍ DỤ 3.6 Biểu đồ phân tán cho dữ liệu bất động sản Hình 3.15 hiển thị biểu đồ phân tán kích thước nhà (tính bằng Giá trị thị trường nhà. Dữ liệu cho thấy rõ ràng rằng giá trị feet vuông) so với giá trị thị trường nhà từ tệp Excel thị trường cao hơn có liên quan đến những ngôi nhà lớn hơn. Biểu đồ bong bóng Biểu đồ bong bóng là một loại biểu đồ tán xạ trong đó kích thước của điểm đánh dấu dữ liệu tương ứng với giá trị của biến thứ ba; do đó, đó là một cách để vẽ ba biến theo hai chiều. VÍ DỤ 3.7 Biểu đồ bong bóng để so sánh các đặc điểm của cổ phiếu Hình 3.16 hiển thị biểu đồ bong bóng để hiển thị tỷ lệ giá, P/E tập tin So sánh cổ phiếu. Vị trí trên biểu đồ hiển thị giá và P/ (giá/thu nhập) và vốn hóa thị trường cho năm cổ phiếu khác nhau E; kích thước của bong bóng đại diện cho vốn hóa thị trường tính vào một ngày cụ thể trong Excel bằng hàng tỷ đô la. Hình 3.15 Biểu đồ phân tán Quy mô Nhà so với Giá trị Thị trường Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 63 Hình 3.16 Biểu đồ bong bóng cho chứng khoán so sánh Biểu đồ Excel khác Excel cung cấp một số biểu đồ bổ sung cho các ứng dụng đặc biệt. Có thể chọn và tạo các loại biểu đồ bổ sung này (bao gồm cả biểu đồ bong bóng) từ nút Biểu đồ khác trong dải băng Excel. Chúng bao gồm những điều sau đây: Biểu đồ chứng khoán cho phép bạn vẽ biểu đồ giá cổ phiếu, chẳng hạn như mức cao nhất, thấp nhất và đóng cửa hàng ngày. Nó cũng có thể được sử dụng cho dữ liệu khoa học như thay đổi nhiệt độ. Biểu đồ bề mặt hiển thị dữ liệu 3-D. Biểu đồ vành khuyên tương tự như biểu đồ hình tròn nhưng có thể chứa nhiều hơn một chuỗi dữ liệu. Biểu đồ radar cho phép bạn vẽ biểu đồ nhiều chiều của một số chuỗi dữ liệu. Dữ liệu địa lý Nhiều ứng dụng phân tích kinh doanh liên quan đến dữ liệu địa lý. Ví dụ, các vấn đề như tìm vị trí tốt nhất cho các cơ sở sản xuất và phân phối, phân tích hoạt động bán hàng theo khu vực, vận chuyển nguyên liệu thô và thành phẩm, và định tuyến các phương tiện như xe tải giao hàng liên quan đến dữ liệu địa lý. Trong những vấn đề như vậy, ánh xạ dữ liệu có thể giúp theo nhiều cách khác nhau. Trực quan hóa dữ liệu địa lý có thể làm nổi bật các tàu quan hệ dữ liệu chính, xác định xu hướng và khám phá các cơ hội kinh doanh. Ngoài ra, nó thường có thể giúp phát hiện các lỗi dữ liệu và giúp người dùng cuối hiểu các giải pháp, do đó làm tăng khả năng chấp nhận các mô hình quyết định. Các công ty như Nike sử dụng dữ liệu địa lý và hệ thống thông tin để hình dung sản phẩm đang được phân phối ở đâu và điều đó liên quan như thế nào đến thông tin nhân khẩu học và bán hàng. Thông tin này rất quan trọng đối với các chiến lược tiếp thị. Việc sử dụng các mô hình phân tích quy tắc kết hợp với lập bản đồ dữ liệu là công cụ mang lại thành công cho nghiên cứu Chuỗi cung ứng Bắc Mỹ của Công ty Procter & Gamble, giúp tiết kiệm cho công ty hơn 200 triệu đô la mỗi năm.1 Chúng ta sẽ thảo luận về ứng dụng này trong Chương 15 . 1 J. Camm và cộng sự, “Kết hợp OR/MS, Phán quyết và GIS: Tái cấu trúc Chuỗi cung ứng của P&G,” Giao diện, 27, 1 (1997): 128–142. Machine Translated by Google 64 Chương 3 Trực quan hóa và khám phá dữ liệu Khả năng lập bản đồ địa lý đã được giới thiệu trong Excel 2000 nhưng không khả dụng trong Excel 2002 và các phiên bản mới hơn. Những khả năng này hiện có sẵn thông qua Microsoft MapPoint 2010, phải được mua riêng. MapPoint là công cụ lập bản đồ dữ liệu địa lý cho phép bạn trực quan hóa dữ liệu được nhập từ Excel và các nguồn cơ sở dữ liệu khác, đồng thời tích hợp chúng vào các ứng dụng Microsoft Office khác. Để biết thêm thông tin, hãy xem http://www.microsoft.com/mappoint/ en-us/home.aspx. Các công cụ trực quan hóa dữ liệu Excel khác Microsoft Excel cung cấp nhiều công cụ khác để giúp trực quan hóa dữ liệu. Chúng bao gồm các thanh dữ liệu, thang màu và bộ biểu tượng; biểu đồ thu nhỏ và công cụ máy ảnh. Chúng tôi sẽ mô tả từng trong số này trong các phần sau. Thanh dữ liệu, thang màu và bộ biểu tượng Các tùy chọn này là một phần của quy tắc Định dạng có điều kiện của Excel, cho phép bạn trực quan hóa các giá trị số khác nhau thông qua việc sử dụng màu sắc và ký hiệu. Excel có nhiều mẫu tiêu chuẩn để sử dụng, nhưng bạn cũng có thể tùy chỉnh các quy tắc để đáp ứng các điều kiện và phong cách của riêng mình. Chúng tôi khuyến khích bạn thử nghiệm với những công cụ này. VÍ DỤ 3.8 Trực quan hóa dữ liệu thông qua định dạng có điều kiện Thanh dữ liệu hiển thị các thanh màu được chia tỷ lệ theo độ lớn của các ô chứa giá trị lớn có màu xanh lục, giá trị nhỏ có màu đỏ và giá các giá trị dữ liệu (tương tự như biểu đồ thanh) nhưng được đặt trực trị ở giữa có màu vàng. Màu xanh càng đậm thì giá trị càng lớn; màu tiếp trong các ô của một phạm vi. Hình 3.17 hiển thị các thanh dữ đỏ càng đậm thì giá trị càng nhỏ. liệu được áp dụng cho dữ liệu trong trang tính Doanh số sản phẩm hàng Đối với các giá trị trung gian, bạn có thể thấy rằng các màu hòa trộn tháng. Đánh dấu dữ liệu trong mỗi cột, nhấp vào nút Định dạng có điều với nhau. Điều này cung cấp một cách nhanh chóng để xác định các kiện trong nhóm Kiểu trong tab Trang chủ, chọn Thanh dữ liệu và chọn giá trị bán hàng trong tháng của sản phẩm lớn nhất và nhỏ nhất. Mã tùy chọn tô và màu. màu của dữ liệu định lượng thường được gọi là bản đồ nhiệt. Chúng ta sẽ thấy một ứng dụng khác của bản đồ nhiệt trong Chương 14. Thang màu tô bóng các ô dựa trên giá trị số của chúng bằng cách Cuối cùng, Bộ biểu tượng cung cấp thông tin tương tự bằng cách sử dụng bảng màu. Đây là một tùy chọn khác trong menu Định dạng có sử dụng các biểu tượng khác nhau như mũi tên hoặc màu đèn giao thông. điều kiện. Ví dụ, trong Hình 3.18, chúng tôi sử dụng thang màu lục- Hình 3.19 cho thấy một ví dụ. vàng-đỏ, làm nổi bật Hình 3.17 Ví dụ về thanh dữ liệu Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 65 Hình 3.18 Ví dụ về thang màu Hình 3.19 Ví dụ về Bộ biểu tượng đường lấp lánh Biểu đồ thu nhỏ là đồ họa tóm tắt một hàng hoặc cột dữ liệu trong một ô. Spar klines được giới thiệu bởi Edward Tufte, một chuyên gia nổi tiếng về trình bày dữ liệu trực quan. Anh ấy mô tả các biểu đồ thu nhỏ là “đồ họa có kích thước bằng chữ, cường độ cao về dữ liệu, thiết kế đơn giản”. Excel có ba loại biểu đồ thu nhỏ: dòng, cột và thắng/thua. Biểu đồ thu nhỏ dòng rõ ràng hữu ích cho dữ liệu chuỗi thời gian, trong khi biểu đồ thu nhỏ cột phù hợp hơn cho dữ liệu phân loại. Sparklines thắng-thua rất hữu ích cho dữ liệu di chuyển lên hoặc xuống theo thời gian. Chúng được tìm thấy trong nhóm Sparklines trong menu Chèn trên dải băng. VÍ DỤ 3.9 Ví dụ về Sparklines Chúng tôi sẽ lại sử dụng dữ liệu Bán sản phẩm hàng tháng. Hình Hình 3.21 cho thấy một trang tính đã sửa đổi, trong đó chúng 3.20 hiển thị biểu đồ thu nhỏ trong hàng 14 cho mỗi sản phẩm. tôi tính toán phần trăm thay đổi từ tháng này sang tháng khác Trong cột G, chúng tôi hiển thị biểu đồ thu nhỏ cột, về cơ bản cho sản phẩm A và B. Biểu đồ thu được-thua ở hàng 14 cho thấy là biểu đồ cột nhỏ. Nói chung, bạn cần mở rộng độ rộng của hàng các mẫu doanh số bán hàng tăng và giảm, cho thấy rằng sản phẩm A hoặc cột để hiển thị chúng một cách hiệu quả. Tuy nhiên, hãy có một mẫu theo chu kỳ trong khi sản phẩm B thay đổi theo kiểu lưu ý rằng độ dài của các thanh không được chia tỷ lệ phù hợp ngẫu nhiên hơn. Nếu bạn bấm vào bất kỳ ô nào có chứa biểu đồ thu với dữ liệu; ví dụ: trong trường hợp đầu tiên, sản phẩm D và E nhỏ, tab Thiết kế Công cụ biểu đồ thu nhỏ sẽ xuất hiện, cho phép có giá trị bằng khoảng một phần ba Sản phẩm E nhưng các thanh bạn tùy chỉnh màu sắc và các tùy chọn khác. không được chia tỷ lệ chính xác. Vì vậy, hãy cẩn thận khi sử dụng chúng. Machine Translated by Google 66 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.20 Biểu đồ thu nhỏ Dòng và Cột Hình 3.21 Sparklines thắng-thua Công cụ máy ảnh Excel Một tính năng ít được biết đến của Excel là công cụ máy ảnh. Điều này cho phép bạn tạo các ảnh trực tiếp thuộc nhiều phạm vi khác nhau từ các trang tính khác nhau mà bạn có thể đặt trên một trang, định cỡ và sắp xếp chúng dễ dàng. Chúng chỉ đơn giản là các hình ảnh được liên kết của các phạm vi ban đầu và ưu điểm là khi bất kỳ dữ liệu nào được thay đổi hoặc cập nhật, ảnh chụp từ máy ảnh cũng vậy. Điều này đặc biệt có giá trị để in tóm tắt khi bạn cần trích xuất dữ liệu từ nhiều trang tính, hợp nhất PivotTable (được giới thiệu ở phần sau của chương này) trên một trang hoặc để tạo bảng điều khiển khi các bảng và biểu đồ nằm rải rác trên nhiều trang tính. Để sử dụng cả camera, trước tiên hãy thêm camera đó vào Thanh công cụ truy cập nhanh (tập hợp các nút phía trên ruy-băng). Từ menu Tệp, chọn Tùy chọn rồi chọn Thanh công cụ Truy nhập Nhanh. Chọn Lệnh, rồi chọn Lệnh Không có trong Dải băng. Chọn Máy ảnh và thêm nó. Sau đó nó sẽ hiện ra như hình 3.22. Để sử dụng nó, chỉ cần bôi đen một dãy ô Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 67 Hình 3.22 Nút Công cụ Máy ảnh Excel (nếu bạn muốn chụp một biểu đồ, hãy đánh dấu một dãy ô bao quanh nó), nhấp vào nút công cụ máy ảnh rồi nhấp vào vị trí bạn muốn đặt ảnh. Bạn có thể định cỡ ảnh giống như bất kỳ đối tượng Microsoft Excel nào khác. Chúng tôi sẽ minh họa công cụ này ở phần sau của chương khi thảo luận về PivotTable. Truy vấn dữ liệu: Bảng, Sắp xếp và Lọc Người quản lý thực hiện nhiều truy vấn về dữ liệu. Ví dụ: trong cơ sở dữ liệu Đơn đặt hàng (Hình 1.3), họ có thể quan tâm đến việc tìm kiếm tất cả các đơn đặt hàng từ một nhà cung cấp nhất định, tất cả các đơn đặt hàng cho một mặt hàng cụ thể hoặc theo dõi đơn đặt hàng theo dữ liệu đơn đặt hàng. Để giải quyết các truy vấn này, chúng ta cần sắp xếp dữ liệu theo một cách nào đó. Trong các trường hợp khác, các nhà quản lý có thể quan tâm đến việc trích xuất một bộ hồ sơ có các đặc điểm nhất định. Điều này được gọi là lọc dữ liệu. Ví dụ: trong cơ sở dữ liệu Đơn đặt hàng, người quản lý có thể quan tâm đến việc trích xuất tất cả các bản ghi tương ứng với một mặt hàng nhất định. Excel cung cấp một cách thuận tiện để định dạng cơ sở dữ liệu để hỗ trợ phân tích, được gọi là Bảng. VÍ DỤ 3.10 Tạo một bảng Excel Chúng tôi sẽ sử dụng tệp Dữ liệu rủi ro tín dụng để minh họa để bạn xác minh.) Phạm vi bảng bây giờ sẽ được định dạng ted một bảng Excel. Đầu tiên, chọn phạm vi dữ liệu, bao gồm tiêu và sẽ tự động tiếp tục khi dữ liệu mới được nhập vào. Hình đề (một lối tắt hữu ích là chọn ô đầu tiên ở góc trên bên 3.23 cho thấy một phần của kết quả. Lưu ý rằng các hàng được trái, sau đó bấm Ctrl+Shift+mũi tên xuống, rồi bấm tô bóng và mỗi tiêu đề cột có một mũi tên thả xuống để lọc dữ Ctrl+Shift+mũi tên phải). Tiếp theo, nhấp vào Bảng từ Bảng liệu (chúng ta sẽ thảo luận vấn đề này ngay sau đây). Nếu bạn nhóm trên tab Chèn và đảm bảo rằng hộp cho Bảng của tôi có bấm vào trong một bảng, tab Thiết kế Công cụ Bảng sẽ xuất tiêu đề được chọn. (Bạn cũng có thể chỉ cần chọn một ô trong hiện trong dải băng, cho phép bạn thực hiện nhiều việc khác bảng rồi nhấp vào Bảng nhau, chẳng hạn như thay đổi bảng phối màu, di chuyển lại từ menu Chèn. Excel sẽ chọn phạm vi bảng các bản sao, thay đổi định dạng, v.v. Hình 3.23 Phần dữ liệu rủi ro tín dụng được định dạng dưới dạng bảng Excel Machine Translated by Google 68 Chương 3 Trực quan hóa và khám phá dữ liệu Bảng Excel cho phép bạn sử dụng các tham chiếu bảng để thực hiện các phép tính cơ bản, như minh họa trong ví dụ tiếp theo. VÍ DỤ 3.11 Tính toán dựa trên bảng Giả sử rằng trong bảng Dữ liệu Rủi ro Tín dụng, chúng ta muốn của tiêu đề trong cột C. Một trong những ưu điểm của việc tính tổng số tiền tiết kiệm được trong cột C. Tất nhiên, làm này là nếu chúng ta thêm các bản ghi mới vào bảng, phép chúng ta có thể chỉ cần sử dụng hàm SUM(C4:C428). tính sẽ được cập nhật tự động và chúng ta không phải thay đổi Tuy nhiên, với một bảng, chúng ta có thể sử dụng công thức = phạm vi trong công thức hoặc tính sai kết quả nếu chúng ta SUM(Table1[Savings]). Tên bảng, Table1, có thể được tìm thấy quên. Một ví dụ khác, chúng ta có thể tìm số lượng chủ sở hữu (và thay đổi) trong nhóm Thuộc tính của tab Thiết kế Công cụ nhà bằng cách sử dụng hàm =COUNTIF(Table1[Housing], “Own”). Bảng. Lưu ý rằng Tiết kiệm là tên Nếu bạn thêm các bản ghi bổ sung vào cuối bảng, chúng sẽ tự động được đưa vào và định dạng, đồng thời nếu bạn tạo biểu đồ dựa trên dữ liệu, biểu đồ sẽ tự động được cập nhật nếu bạn thêm các bản ghi mới. Sắp xếp dữ liệu trong Excel Excel cung cấp nhiều cách để sắp xếp danh sách theo hàng hoặc cột hoặc theo thứ tự tăng dần hoặc giảm dần và sử dụng lược đồ sắp xếp tùy chỉnh. Có thể tìm thấy các nút sắp xếp trong Excel dưới tab Dữ liệu trong nhóm Sắp xếp & Lọc (xem Hình 3.24). Chọn một ô duy nhất trong cột mà bạn muốn sắp xếp và nhấp vào nút “AZ mũi tên xuống” để sắp xếp từ nhỏ nhất đến lớn nhất hoặc nút “AZ mũi tên lên” để sắp xếp từ lớn nhất đến nhỏ nhất. Bạn cũng có thể nhấp vào nút Sắp xếp để chỉ định tiêu chí cho các khả năng sắp xếp nâng cao hơn. VÍ DỤ 3.12 Sắp xếp dữ liệu trong cơ sở dữ liệu đơn đặt hàng Trong Chương 1 (Hình 1.3), chúng tôi đã giới thiệu bộ dữ liệu tab dữ liệu. Excel sẽ chọn toàn bộ phạm vi dữ liệu và sắp cho các đơn đặt hàng của một nhà sản xuất linh kiện máy bay. xếp theo tên của nhà cung cấp trong cột A, một phần trong đó Giả sử chúng ta muốn sắp xếp dữ liệu theo nhà cung cấp. được thể hiện trong Hình 3.25. Điều này cho phép bạn dễ dàng Nhấp vào bất kỳ ô nào trong cột A của dữ liệu (nhưng không xác định các bản ghi tương ứng với tất cả các đơn đặt hàng phải ô tiêu đề A3) và sau đó nhấp vào nút “AZ down” trong từ một nhà cung cấp cụ thể. Phân tích Pareto Phân tích Pareto là một thuật ngữ được đặt theo tên của một nhà kinh tế người Ý, Vilfredo Pareto, người vào năm 1906 đã quan sát thấy rằng một tỷ lệ lớn của cải ở Ý thuộc sở hữu của một tỷ lệ tương đối nhỏ người dân. Nguyên tắc Pareto thường thấy trong nhiều tình huống kinh doanh. Ví dụ: một tỷ lệ lớn doanh số thường đến từ một tỷ lệ nhỏ khách hàng, một tỷ lệ lớn lỗi chất lượng chỉ bắt nguồn từ một vài nguồn hoặc một tỷ lệ lớn giá trị hàng tồn kho tương ứng với một tỷ lệ nhỏ Hình 3.24 Tab dữ liệu ruy-băng Excel mặt hàng. Do đó, nguyên tắc Pareto còn thường được gọi là “quy tắc 80–20”, đề cập đến tình huống chung Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.25 Phần đơn đặt hàng 69 trong đó 80% của một số đầu ra đến từ 20% của một số đầu vào. Phân tích Pareto dựa trên việc sắp xếp dữ liệu và tính toán tỷ lệ phần trăm tích lũy của đặc tính quan tâm. Cơ sở dữ liệu được sắp xếp theo nhà cung cấp Tên VÍ DỤ 3.13 Áp dụng Nguyên tắc Pareto Tệp Excel Xe đạp hàng tồn kho liệt kê hàng tồn kho của các mẫu xe đạp giá trị hàng tồn kho và tính tỷ lệ phần trăm của tổng giá trị hàng tồn kho trong một cửa hàng bán đồ thể thao (xem các cột từ A đến F trong Hình cho từng sản phẩm và tỷ lệ phần trăm tích lũy. Xem các cột từ G đến I 3.26).2 Để tiến hành phân tích Pareto, trước tiên chúng tôi tính giá trị trong Hình 3.26. Chúng tôi thấy rằng khoảng 75% giá trị hàng tồn kho được hàng tồn kho của từng sản phẩm bằng cách nhân số lượng hiện có bằng chi chiếm dưới 40% (9 trên 24) mặt hàng. Nếu những hàng tồn kho có giá trị cao phí mua hàng; đây là số tiền đầu tư vào các mặt hàng hiện đang có trong này không bán chạy, người quản lý cửa hàng có thể muốn giữ ít hàng hơn kho. Sau đó, chúng tôi sắp xếp dữ liệu theo thứ tự giảm dần trong trong kho. Hình 3.26 Phân tích Pareto của xe đạp 2Dựa trên Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản Hàng tồn kho lần thứ 9. (Sông Thượng Saddle, NJ: Prentice Hall, 2011). Machine Translated by Google 70 Chương 3 Trực quan hóa và khám phá dữ liệu Lọc dữ liệu Đối với các tệp dữ liệu lớn, việc tìm kiếm một tập hợp con cụ thể các bản ghi đáp ứng các đặc điểm nhất định bằng cách sắp xếp có thể rất tẻ nhạt. Excel cung cấp hai công cụ lọc: AutoFilter cho các tiêu chí đơn giản và Advanced Filter cho các tiêu chí phức tạp hơn. Những công cụ này được hiểu rõ nhất bằng cách làm việc thông qua một số ví dụ. VÍ DỤ 3.14 Lọc Bản ghi theo Mô tả Mục Trong cơ sở dữ liệu Đơn đặt hàng, giả sử chúng ta quan tâm vào gói Bolt-nut, như trong Hình 3.27. đến việc trích xuất tất cả các bản ghi tương ứng với gói Nhấp vào nút OK, và công cụ Lọc sẽ chỉ hiển thị những đơn đặt Bolt-nut item. Đầu tiên, chọn bất kỳ ô nào trong cơ sở dữ hàng cho mục này (Hình 3.28). Trên thực tế, công cụ lọc không liệu. Sau đó, từ tab Dữ liệu Excel, nhấp vào Bộ lọc trong giải nén các bản ghi; nó chỉ ẩn các bản ghi không phù hợp với nhóm Sắp xếp & Lọc. Sau đó, một mũi tên thả xuống sẽ được tiêu chí. Tuy nhiên, bạn có thể sao chép và dán dữ liệu vào hiển thị ở phía bên phải của mỗi cột tiêu đề. Nhấp vào một một trang tính Excel khác, tài liệu Microsoft Word hoặc bản trong số này sẽ hiển thị hộp thả xuống. Đây là các tùy chọn trình bày PowerPoint chẳng hạn. Để khôi phục tệp dữ liệu để lọc trên cột dữ liệu đó. Nhấp vào cái bên cạnh tiêu đề Mô gốc, hãy nhấp lại vào mũi tên thả xuống rồi nhấp vào Xóa bộ tả Mục. Bỏ chọn hộp Chọn tất cả rồi chọn hộp tương ứng lọc khỏi “Mô tả vật phẩm”. Hình 3.27 Chọn bản ghi cho Gói Bolt-Nut Hình 3.28 Lọc Kết quả cho Gói Bolt-Nut Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 71 VÍ DỤ 3.15 Lọc Bản ghi theo Chi phí Hạng mục Trong ví dụ này, giả sử chúng ta muốn xác định tất cả các bản hiển thị hộp thoại Bộ lọc tự động tùy chỉnh (Hình 3.30) cho phép ghi trong cơ sở dữ liệu Đơn đặt hàng có chi phí mặt hàng ít nhất bạn chỉ định tối đa hai tiêu chí cụ thể bằng cách sử dụng logic là $200. Đầu tiên, nhấp vào mũi tên thả xuống trong cột Chi “và” và “hoặc”. Nhập 200 vào ô như hình rồi nhấn OK. Công cụ này phí Vật phẩm và đặt con trỏ lên Bộ lọc Số. sẽ hiển thị tất cả các bản ghi có một mặt hàng có giá từ 200 đô Điều này sẽ hiển thị một danh sách các tùy chọn, như thể hiện trong Hình 3.29. la trở lên. Chọn lớn hơn Hoặc Tương đương với . . . từ danh sách. Cái này AutoFilter tạo tiêu chí lọc dựa trên loại dữ liệu được lọc. Đối với trường hợp, trong Hình 3.29, chúng ta thấy rằng danh sách menu Bộ lọc Số bao gồm các tiêu chí số như “bằng nhau”, “không bằng nhau”, v.v. Nếu bạn chọn lọc theo Ngày đặt hàng hoặc Ngày đến, các công cụ Bộ lọc tự động sẽ hiển thị một danh sách menu Bộ lọc ngày khác để lọc bao gồm “ngày mai”, “tuần tới”, “từ đầu năm đến nay”, v.v. AutoFilter có thể được sử dụng tuần tự để “đi sâu” vào dữ liệu. Ví dụ: sau khi lọc kết quả theo gói Bolt-nut trong Hình 3.28, chúng ta có thể lọc theo ngày đặt hàng và chọn tất cả các đơn đặt hàng được xử lý trong tháng 9. Hình 3.29 Chọn bản ghi cho Lọc chi phí mặt hàng Hình 3.30 Hộp thoại Bộ lọc Tự động Tùy chỉnh Machine Translated by Google 72 Chương 3 Trực quan hóa và khám phá dữ liệu Phân tích trong thực tế: Khám phá giá trị của phân tích dữ liệu tại Allders International3 Allders International chuyên về các hoạt động miễn thuế với 82 cửa hàng bán lẻ miễn thuế trên khắp châu Âu, bao gồm các cửa hàng ở sân bay, cảng biển và trên các chuyến phà xuyên kênh. Giống như hầu hết các cửa hàng bán lẻ, Allders International phải theo dõi hàng loạt dữ liệu về điểm bán hàng để hỗ trợ các quyết định về kết hợp sản phẩm và hàng tồn kho. Những mặt hàng dự trữ tại mỗi cửa hàng của nó có thể có tác động đáng kể đến lợi nhuận của công ty. Để hỗ trợ họ, họ đã triển khai kho dữ liệu dựa trên máy tính để duy trì dữ liệu. Trước khi làm điều này, họ phải phân tích một lượng lớn dữ liệu trên giấy. Quy Ermek/ Shutterstock.com trình thủ công như vậy quá tải và tốn thời gian nên các phân tích thường quá muộn để cung cấp thông tin hữu ích cho các quyết định của họ. Kho dữ liệu cho phép công ty thực hiện các truy vấn đơn giản, chẳng hạn như tìm hiệu suất của một mặt hàng cụ (nhóm các mặt hàng tương tự) nhận thấy rằng khoảng 20% dòng thể trên tất cả các cửa hàng bán lẻ hoặc hiệu quả tài sản phẩm đang tạo ra 80% lợi nhuận của nó. Điều này cho chính của một cửa hàng cụ thể, một cách nhanh chóng và dễ phép họ loại bỏ có chọn lọc một số mặt hàng khỏi 80% dòng dàng. Điều này cho phép họ xác định mặt hàng nào trong sản phẩm khác, giúp giải phóng không gian trên kệ cho các kho hoặc cửa hàng đang hoạt động kém hiệu quả. mặt hàng sinh lời nhiều hơn, đồng thời giảm chi phí tồn kho Chẳng hạn, phân tích Pareto về các dòng sản phẩm của nó và nhà cung cấp. Phương pháp thống kê để tóm tắt dữ liệu Thống kê, theo định nghĩa của David Hand, cựu chủ tịch Hiệp hội Thống kê Hoàng gia ở Anh, vừa là khoa học về sự không chắc chắn vừa là công nghệ trích xuất thông tin từ dữ liệu.4 Thống kê liên quan đến việc thu thập, tổ chức, phân tích, giải thích và trình bày dữ liệu. Một thống kê là một phép đo tóm tắt dữ liệu. Chắc chắn bạn đã quen thuộc với khái niệm thống kê trong cuộc sống hàng ngày được đưa tin trên báo chí và phương tiện truyền thông: tỷ lệ trung bình đánh bóng chày, hiệu suất đến đúng giờ của hãng hàng không và thống kê kinh tế như Chỉ số giá tiêu dùng chỉ là một vài ví dụ. Các phương pháp thống kê rất cần thiết cho phân tích kinh doanh và được sử dụng xuyên suốt cuốn sách này. Microsoft Excel hỗ trợ phân tích thống kê theo hai cách: 1. Với các hàm thống kê được nhập trực tiếp vào các ô của bảng tính hoặc em giường trong công thức 2. Với phần bổ trợ Excel Analysis Toolpak để thực hiện các tính toán thống kê phức tạp hơn. Chúng tôi muốn chỉ ra rằng Excel cho Mac không hỗ trợ Bộ công cụ phân tích. Một số thủ tục này có sẵn miễn phí 3Dựa trên Stephen Pass, “Discovering Value in a Mountain of Data,” OR/MS Today, 24, 5, (Tháng 12 năm 1997): 24–28. (OR/MS Today là tiền thân của tạp chí Analytics.) 4David Hand, “Statistics: An Overview,” trong Miodrag Lovric, Ed., International Encyclopedia of Statistical Science, Springer Major Reference; http://www.springer.com/statistics/book/978-3-642-04897-5, tr. 1504. Machine Translated by Google 73 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.31 ấn bản của StatPlus:mac LE (www.analystsoft.com). Bạn cũng có thể mua phiên bản hoàn Phần đơn đặt hàng cơ sở dữ liệu chỉnh hơn, StatPlus:mac Pro. Tuy nhiên, một số khác biệt đáng kể tồn tại trong các công cụ giữa các phiên bản Excel và Mac. Chúng tôi sử dụng cả chức năng thống kê và Toolpak phân tích trong nhiều ví dụ. Thống kê mô tả đề cập đến các phương pháp mô tả và tóm tắt dữ liệu bằng các kỹ thuật dạng bảng, trực quan và định lượng. Trong phần còn lại của chương này, chúng tôi tập trung vào một số phương pháp dạng bảng và trực quan để phân tích dữ liệu phân loại và số; trong chương tiếp theo, chúng tôi thảo luận về các biện pháp định lượng. Phân phối tần suất cho dữ liệu phân loại Phân phối tần suất là một bảng hiển thị số lượng quan sát trong mỗi nhóm trong số các nhóm không chồng lấp. Các biến phân loại tự nhiên xác định các nhóm trong phân bố tần số. Ví dụ, trong cơ sở dữ liệu Đơn đặt hàng (xem Hình 3.31), hoặc các đơn đặt hàng đã được đặt cho các mặt hàng sau: Chốt khung máy bay van gia công Gói bu lông-đai ốc Vòng chữ O Bảng điều khiển Decal dán tường Decal dán cửa Máy đo áp suất Đầu nối điện Cáp được bảo vệ / ft. miếng đệm bảng điều khiển bên đề can nở Để xây dựng phân bố tần suất, chúng ta chỉ cần đếm số lượng quan sát xuất hiện trong mỗi danh mục. Điều này có thể được thực hiện bằng hàm Excel COUNTIF. VÍ DỤ 3.16 Xây dựng phân phối tần số cho các mặt hàng trong cơ sở dữ liệu đơn đặt hàng Đầu tiên, liệt kê các tên mục trong một cột trên bảng tính. phân phối quency cho các mặt hàng được thể hiện trong Hình 3.33. Chúng tôi đã sử dụng cột A, bắt đầu từ ô A100, thấp hơn mảng Do đó, công ty đã đặt 14 đơn đặt hàng cho Bộ phận buộc khung dữ liệu hiện có. Điều quan trọng là sử dụng tên chính xác như máy bay và 11 đơn đặt hàng cho gói Bolt-nut. Chúng ta cũng có được sử dụng trong tệp dữ liệu. Để đếm số lượng đơn hàng đã đặt thể xây dựng biểu đồ cột để trực quan hóa các tần số này, như cho mỗi mặt hàng, hãy sử dụng hàm = COUNTIF($D$4:$D$97, trong Hình 3.34. Chúng ta có thể muốn sắp xếp những thứ này cell_reference), trong đó tham chiếu ô_là ô chứa tên mặt hàng, ô A101 của chúng ta. Điều này được thể hiện trong Hình 3.32. kết quả miễn phí bằng cách sử dụng phân tích Pareto để hiểu rõ hơn về tần suất đặt hàng. Machine Translated by Google 74 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.32 Sử dụng hàm COUNTIF để tạo tần số Phân bổ Hình 3.33 Phân phối tần số cho Mặt hàng đã mua Hình 3.34 Biểu đồ cột cho tần suất Phân phối vật phẩm đã mua Phân phối tần số tương đối Chúng tôi có thể biểu thị các tần số dưới dạng phân số hoặc tỷ lệ của tổng số; đây được gọi là tần số tương đối. Nếu một tập dữ liệu có n quan sát, tần suất tương đối của loại i được tính là tần suất tương đối của loại i tần suất của loại i N (3.1) Chúng ta thường nhân các tần số tương đối với 100 để biểu thị chúng dưới dạng phần trăm. Phân phối tần suất tương đối là một bản tóm tắt dạng bảng về tần suất tương đối của tất cả các danh mục. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 75 Hình 3.35 Tần số tương đối Phân phối cho các mặt hàng đã mua VÍ DỤ 3.17 Xây dựng phân bố tần suất tương đối cho các mặt hàng trong cơ sở dữ liệu đơn đặt hàng Các tính toán cho tần số tương đối là đơn giản. Đầu tiên, tính Sau đó, bạn sao chép công thức này xuống cột để tính các tần tổng các tần suất để tìm tổng số (lưu ý rằng tổng các tần số số tương đối khác. Lưu ý rằng tổng các tần số tương đối phải phải bằng tổng số quan sát, n). Sau đó chia tần suất của từng bằng 1.0. Một biểu đồ hình tròn về tần số đôi khi được sử dụng loại cho giá trị này. Hình 3.35 cho thấy phân phối tần suất để hiển thị các tỷ lệ này một cách trực quan, mặc dù nó hấp tương đối cho các mặt hàng trong đơn đặt hàng. dẫn hơn đối với một số lượng nhỏ các danh mục. Đối với một số lượng lớn các danh mục, biểu đồ cột hoặc thanh sẽ hoạt động Ví dụ, công thức trong ô C101 là =B101/$B$114 . tốt hơn. Phân phối tần số cho dữ liệu số Đối với dữ liệu số bao gồm một số lượng nhỏ các giá trị rời rạc, chúng ta có thể xây dựng phân bố tần suất tương tự như cách chúng ta đã làm đối với dữ liệu phân loại; nghĩa là, chúng ta chỉ cần sử dụng COUNTIF để đếm tần số của từng giá trị rời rạc. VÍ DỤ 3.18 Tần suất và Phân bố tần số tương đối cho các thuật ngữ A/P Trong dữ liệu Đơn đặt hàng, các thuật ngữ A/P đều là các số Biểu đồ thanh thể hiện tỷ lệ, hoặc tần suất tương đối, nguyên 15, 25, 30 và 45. Tần suất và phân bố tần số tương đối trong Hình 3.37, cho thấy rõ ràng rằng phần lớn các đơn đặt cho những dữ liệu này được thể hiện trong Hình 3.36. hàng có kỳ hạn thanh toán là 30 tháng. Công cụ Biểu đồ Excel Một mô tả đồ họa về phân phối tần số cho dữ liệu số ở dạng biểu đồ cột được gọi là biểu đồ. Phân phối tần suất và biểu đồ có thể được tạo bằng Công cụ phân tích trong Excel. Để thực hiện việc này, hãy nhấp vào nút Công cụ phân tích dữ liệu trong Hình 3.36 Tần số và tương đối Phân phối tần số cho Điều khoản A/P Machine Translated by Google 76 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.37 Biểu đồ thanh tương đối Tần suất của Điều khoản A/P nhóm Phân tích trong tab Dữ liệu trong thanh menu Excel và chọn Biểu đồ từ danh sách. Trong hộp thoại (xem Hình 3.38), chỉ định Phạm vi đầu vào tương ứng với dữ liệu. Nếu bạn bao gồm tiêu đề cột, hãy chọn hộp Nhãn để Excel biết rằng phạm vi chứa nhãn. Phạm vi Thùng xác định các nhóm (Excel gọi các “thùng” này) được sử dụng để phân phối tần suất. Nếu bạn không chỉ định Phạm vi Bin, Excel sẽ tự động xác định các giá trị bin cho phân bố tần suất và biểu đồ, điều này thường dẫn đến một lựa chọn khá kém. Nếu bạn có các giá trị rời rạc, hãy thiết lập một cột chứa các giá trị này trong bảng tính của bạn cho phạm vi bin và chỉ định phạm vi này trong trường Phạm vi Bin. Chúng tôi mô tả ngắn gọn cách xử lý dữ liệu liên tục. Chọn hộp Kết xuất biểu đồ để hiển thị biểu đồ bên cạnh phân phối tần số. Bạn cũng có thể sắp xếp các giá trị dưới dạng biểu đồ Pareto và hiển thị tần số tích lũy bằng cách chọn các hộp bổ sung. VÍ DỤ 3.19 Sử dụng Công cụ Biểu đồ Chúng tôi sẽ tạo phân phối tần suất và biểu đồ cho biến Điều Nếu bạn chọn hộp Nhãn, điều quan trọng là cả Phạm vi Đầu khoản A/P trong cơ sở dữ liệu Đơn đặt hàng. vào và Phạm vi Thùng rác đều có nhãn được bao gồm trong hàng Hình 3.39 hiển thị hộp thoại biểu đồ đã hoàn thành. Phạm vi đầu tiên. Hình 3.40 cho thấy kết quả từ công cụ này. đầu vào bao gồm tiêu đề cột cũng như dữ liệu trong cột H. Chúng tôi đã xác định phạm vi bin bên dưới dữ liệu trong các ô H99:H103 như sau: Tháng 15 25 30 45 Đối với dữ liệu số có nhiều giá trị rời rạc khác nhau ít lặp lại hoặc liên tục, phân phối tần số yêu cầu chúng tôi xác định bằng cách chỉ định 1. số nhóm, 2. chiều rộng của mỗi nhóm, và 3. giới hạn trên và dưới của mỗi nhóm. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 77 Hình 3.38 Hộp thoại Công cụ Biểu đồ Hình 3.39 Hộp thoại biểu đồ cho A/P điều khoản dữ liệu Hình 3.40 Phân phối tần số Excel và Biểu đồ cho A/P Điều kiện Điều quan trọng cần nhớ là các nhóm không được chồng lên nhau để mỗi giá trị được tính vào chính xác một nhóm. Bạn nên xác định các nhóm sau khi kiểm tra phạm vi dữ liệu. Nói chung, bạn nên chọn từ 5 đến 15 nhóm và phạm vi của mỗi nhóm phải bằng nhau. Bạn càng có nhiều dữ liệu, bạn càng nên sử dụng nhiều nhóm hơn. Lưu ý rằng với ít nhóm hơn, chiều rộng của nhóm sẽ rộng hơn. Độ rộng nhóm rộng hơn cung cấp biểu đồ "thô". Đôi khi bạn cần thử nghiệm để tìm số lượng nhóm tốt nhất nhằm cung cấp hình ảnh trực quan hữu ích về dữ liệu. Chọn giới hạn dưới của nhóm đầu tiên (LL) dưới dạng số nguyên nhỏ hơn giá trị dữ liệu tối thiểu và giới hạn trên của nhóm cuối cùng (UL) dưới dạng số nguyên Machine Translated by Google 78 Chương 3 Trực quan hóa và khám phá dữ liệu lớn hơn giá trị dữ liệu tối đa. Nói chung, bạn nên chọn các số nguyên đẹp, tròn trịa. Sau đó, bạn có thể tính chiều rộng nhóm là UL - LL chiều rộng nhóm số nhóm (3.2) VÍ DỤ 3.20 Xây dựng biểu đồ và phân phối tần suất cho chi phí trên mỗi đơn hàng Trong ví dụ này, chúng tôi áp dụng công cụ Biểu đồ Excel cho Điều này có nghĩa là nhóm đầu tiên bao gồm tất cả các giá trị dữ liệu Chi phí trên mỗi đơn hàng trong cột G của cơ sở dữ nhỏ hơn hoặc bằng $0; nhóm thứ hai bao gồm tất cả các giá trị liệu Đơn đặt hàng. Phạm vi dữ liệu từ mức tối thiểu là 68,75 lớn hơn $0 nhưng nhỏ hơn hoặc bằng $26.000, v.v. Lưu ý rằng USD đến mức tối đa là 127.500 USD. Bạn có thể tìm thấy điều các nhóm không trùng nhau vì giới hạn dưới của một nhóm hoàn này bằng cách sử dụng các hàm MIN và MAX hoặc đơn giản bằng toàn lớn hơn giới hạn trên của nhóm trước đó. Chúng tôi khuyên cách sắp xếp dữ liệu. Để đảm bảo rằng tất cả dữ liệu sẽ được bạn nên sử dụng tiêu đề “Giới hạn nhóm trên” cho phạm vi bao gồm trong một số nhóm, nên đặt giới hạn dưới của nhóm đầu thùng rác để làm rõ điều này. Trong bảng tính, phạm vi thùng tiên thành 0 đô la và giới hạn trên của nhóm cuối cùng là rác này được nhập vào các ô G99:G105. 130.000 đô la. Như vậy, nếu chúng ta chọn 5 nhóm, sử dụng phương trình (3.2) chiều rộng của mỗi nhóm là 1$130,000 Phạm vi đầu vào trong hộp thoại Biểu đồ là G4:G97. Hình 3.41 02 cho thấy kết quả. Những kết quả này cho thấy rằng phần lớn 5 = $26,000; nếu chúng ta chọn 10 nhóm, chiều rộng là các đơn đặt hàng có giá từ 26.000 đô la trở xuống và nhanh 1$130.000 chóng giảm xuống ngoài giá trị này. Việc chọn nhiều nhóm hơn 02 10 = $13.000. Chúng tôi chọn 5 nhóm. Làm như vậy, phạm vi bin được chỉ định là Giới hạn nhóm trên 0,00 đô la $26,000.00 $52,000.00 $78,000.00 $104.000,00 $130.000,00 Hình 3.41 Phân phối tần số và Biểu đồ cho Chi phí trên mỗi Đặt hàng (5 nhóm) có thể giúp hiểu rõ hơn về bản chất của dữ liệu. Hình 3.42 cho thấy kết quả sử dụng 10 nhóm. Điều này cho thấy tỷ lệ đơn đặt hàng có giá từ 13.000 đô la trở xuống cao hơn so với các đơn đặt hàng từ 13.000 đến 26.000 đô la. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 79 Hình 3.42 Phân phối tần số và Biểu đồ cho Chi phí trên mỗi đơn hàng (10 nhóm) Một hạn chế của công cụ Excel Histogram là phân phối tần suất và biểu đồ của anh ta không được liên kết với dữ liệu; do đó, nếu bạn thay đổi bất kỳ dữ liệu nào, bạn phải lặp lại toàn bộ quy trình để xây dựng biểu đồ và phân bố tần số mới. Phân phối tần số tương đối tích lũy Đối với dữ liệu số, chúng tôi cũng có thể tính toán tần suất quan sát tương đối trong mỗi nhóm. Bằng cách tính tổng tất cả các tần số tương đối bằng hoặc thấp hơn mỗi giới hạn trên, chúng ta thu được tần số tương đối tích lũy. Tần suất tương đối tích lũy biểu thị tỷ lệ của tổng số quan sát rơi vào hoặc thấp hơn giới hạn trên của mỗi nhóm. Bảng tóm tắt các tần suất tương đối tích lũy được gọi là phân bố tần suất tương đối tích lũy. VÍ DỤ 3.21 Tính toán tần số tương đối tích lũy Hình 3.43 cho thấy tần suất tương đối và phân bố tần suất Ví dụ: tần suất tương đối tích lũy trong ô D3 được tính là tương đối tích lũy cho dữ liệu Chi phí trên mỗi đơn hàng sử =D2+C3 = 0,000+0,447 = 0,447; tần số tương đối tích lũy trong dụng 10 nhóm. Các tần suất tương đối được tính bằng cách sử ô D4 được tính là =D3+C4 = 0,447+0,277 = 0,723, v.v. (Các giá dụng cùng một phương pháp như trong Ví dụ 3.17—cụ thể là bằng trị hiển thị được làm tròn đến ba chữ số thập phân.) Vì tần cách chia tần suất cho tổng số quan sát (94). Trong cột D, số tương đối phải nằm trong khoảng từ 0 đến 1 và phải cộng chúng tôi đặt tần số tương đối cộng dồn của nhóm đầu tiên lại bằng 1 nên tần số tích lũy cho nhóm cuối cùng phải bằng 1. bằng với tần số tương đối của nó. Sau đó, chúng tôi thêm tần suất tương đối của nhóm tiếp theo vào tần suất tương đối tích lũy. Hình 3.44 cho thấy một biểu đồ về tần suất tương đối tích lũy, được gọi là một ogive. Từ biểu đồ này, bạn có thể dễ dàng ước tính tỷ lệ quan sát giảm xuống thấp ở một giá trị nhất định. Ví dụ: bạn có thể thấy rằng hơn 70% dữ liệu nằm ở mức 26.000 đô la trở xuống, khoảng 90% dữ liệu nằm ở mức 78.000 đô la trở xuống, v.v. Machine Translated by Google 80 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.43 tương đối tích lũy Phân phối tần số cho Dữ liệu chi phí trên mỗi đơn đặt hàng Hình 3.44 Ogive cho chi phí mỗi đơn hàng Phần trăm và phần tư Dữ liệu thường được thể hiện dưới dạng phần trăm và phần tư. Bạn chắc chắn đã quen thuộc với phần trăm từ các bài kiểm tra tiêu chuẩn được sử dụng cho các kỳ thi tuyển sinh đại học hoặc sau đại học (SAT, ACT, GMAT, GRE, v.v.). Phần trăm xác định tỷ lệ phần trăm của những người dự thi khác đã đạt điểm bằng hoặc thấp hơn điểm của một cá nhân cụ thể. Nói chung, phân vị thứ k là một giá trị bằng hoặc thấp hơn ít nhất k phần trăm của các quan sát. Tuy nhiên, cách tính phần trăm không được chuẩn hóa. Cách phổ biến nhất để tính phân vị thứ k là sắp xếp thứ tự các giá trị dữ liệu từ nhỏ nhất đến lớn nhất và tính thứ hạng của phân vị thứ k bằng cách sử dụng công thức nk 100 + 0,5 (3.3) trong đó n là số lượng quan sát. Làm tròn số này thành số nguyên gần nhất và lấy giá trị tương ứng với thứ hạng này làm phân vị thứ k. VÍ DỤ 3.22 Tính toán phần trăm Trong dữ liệu Đơn đặt hàng, chúng tôi có n = 94 quan sát. hoặc, được làm tròn, 85. Giá trị theo thứ tự thứ 85 là Thứ hạng của phần trăm thứ 90 (k = 90) cho dữ liệu Chi phí $74.375 và là phân vị thứ 90. Điều này có nghĩa là 90% chi trên mỗi đơn hàng được tính là 94(90) 100 + 0,5 = 85,1, phí cho mỗi đơn đặt hàng nhỏ hơn hoặc bằng 74.375 đô la và 10% cao hơn. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 81 Phần mềm thống kê sử dụng các phương pháp khác nhau thường liên quan đến nội suy giữa các cấp thay vì làm tròn, do đó tạo ra các kết quả khác nhau. Hàm Excel PERCENTILE.INC(mảng, k) tính toán phân vị thứ k của dữ liệu trong phạm vi được chỉ định trong trường mảng, trong đó k nằm trong phạm vi từ 0 đến 1, bao gồm cả. VÍ DỤ 3.23 Tính toán phần trăm trong Excel Để tìm phân vị thứ 90 cho dữ liệu Chi phí trên mỗi đơn hàng phần trăm là $73.737,50, khác với việc sử dụng công thức (3.3). trong dữ liệu Đơn đặt hàng, hãy sử dụng hàm PERCENTILE của Excel. INC(G4:G97,0,9). Cái này tính thứ 90 Excel cũng có một công cụ để sắp xếp dữ liệu từ cao đến thấp và tính toán phần trăm được liên kết với từng giá trị. Chọn Xếp hạng và Phần trăm từ menu Phân tích Dữ liệu và chỉ định phạm vi dữ liệu trong hộp thoại. Đảm bảo chọn hộp Nhãn trong Hàng đầu tiên nếu phạm vi của bạn bao gồm tiêu đề trong bảng tính. VÍ DỤ 3.24 Công cụ Xếp hạng và Phân vị trong Excel Một phần kết quả từ công cụ Xếp hạng và Phần trăm cho dữ liệu chúng tôi đã tính toán trong Ví dụ 3.22 là $74,375 là giá trị Chi phí trên mỗi đơn hàng được hiển thị trong Hình 3.45. Bạn phân vị thứ 90,3. có thể thấy rằng giá trị Excel của phân vị thứ 90 Các phần tư chia dữ liệu thành bốn phần. Phần trăm thứ 25 được gọi là phần tư thứ nhất, Q1 ; phần trăm thứ 50 được gọi là phần tư thứ hai, Q2 ; phần trăm thứ 75 được gọi là phần tư thứ ba, Q3 ; và phần trăm thứ 100 là phần tư thứ tư, Q4 . Một phần tư dữ liệu nằm dưới phần tư thứ nhất, một nửa nằm dưới phần tư thứ hai và ba phần tư nằm dưới phần tư thứ ba. Chúng ta có thể tính toán các phần tư bằng cách sử dụng hàm QUARTILE.INC(mảng, phần tư) của Excel, trong đó mảng chỉ định phạm vi dữ liệu và phần tư là một số nguyên trong khoảng từ 1 đến 4, chỉ định phần tư mong muốn. Hình 3.45 Phần xếp hạng và Kết quả công cụ phần trăm Machine Translated by Google 82 Chương 3 Trực quan hóa và khám phá dữ liệu VÍ DỤ 3.25 Tính toán tứ phân vị trong Excel Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng trong cơ sở dữ liệu Đơn đặt hàng, chúng tôi có thể sử dụng hàm Excel =QUARTILE.INC Chúng ta có thể kết luận rằng 25% chi phí đặt hàng rơi vào hoặc dưới $6.757,81; 50% giảm xuống bằng hoặc dưới 15.656,25 đô la; 75% (G4:G97,k), trong đó k nằm trong khoảng từ 1 đến 4, để tính toán giảm xuống bằng hoặc thấp hơn 27.593,75 đô la và 100% giảm xuống bằng hoặc các phần tư. Kết quả như sau: thấp hơn giá trị tối đa là 127.500 đô la. k = 1 tứ phân vị đầu tiên k = 2 Phần tư thứ hai $15,656.25 k = 3 Phần tư thứ ba $27.593,75 k = 4 tứ phân vị thứ tư $6.757,81 $127.500,00 Chúng ta có thể mở rộng những ý tưởng này sang các phần khác của dữ liệu. Ví dụ: deciles chia dữ liệu thành 10 bộ: phân vị thứ 10, phân vị thứ 20, v.v. Tất cả các loại biện pháp này được gọi là hồ sơ dữ liệu hoặc phân mảnh. Bảng chéo Một trong những công cụ thống kê cơ bản nhất được sử dụng để tóm tắt dữ liệu phân loại và kiểm tra mối quan hệ giữa hai biến phân loại là lập bảng chéo. Lập bảng chéo là một phương pháp dạng bảng hiển thị số lượng quan sát trong một tập dữ liệu cho các danh mục mèo con khác nhau của hai biến phân loại. Bảng chéo thường được gọi là bảng dự phòng. Các danh mục con của các biến phải loại trừ lẫn nhau và đầy đủ, nghĩa là mỗi quan sát chỉ có thể được phân loại thành một danh mục con và, được đưa vào tất cả các danh mục con, chúng phải tạo thành bộ dữ liệu hoàn chỉnh. Bảng chéo thường được sử dụng trong nghiên cứu tiếp thị để cung cấp cái nhìn sâu sắc về đặc điểm của các phân khúc thị trường khác nhau bằng cách sử dụng các biến phân loại như giới tính, trình độ học vấn, tình trạng hôn nhân, v.v. VÍ DỤ 3.26 Lập bảng chéo Chúng ta hãy xem xét cơ sở dữ liệu Giao dịch bán hàng, một phần Biểu thị kết quả dưới dạng tỷ lệ phần trăm của một hàng của cơ sở dữ liệu này được thể hiện trong Hình 3.46. Giả sử hoặc cột giúp dễ dàng diễn giải sự khác biệt giữa các khu vực chúng ta muốn xác định số lượng sách và đĩa DVD được sắp xếp hoặc sản phẩm, đặc biệt là khi tổng số cho mỗi danh mục khác theo vùng. Một bảng chéo sẽ có các hàng tương ứng với các vùng nhau. Bảng 3.2 cho biết tỷ lệ phần trăm doanh số bán sách và khác nhau và các cột tương ứng với các sản phẩm. Trong bảng, DVD trong mỗi khu vực; điều này được tính bằng cách chia số đếm chúng tôi liệt kê số lượng trong mỗi cặp danh mục. Một bảng chéo cho tổng số hàng và nhân với 100 (trong Excel, chỉ cần chia số của những dữ liệu này được thể hiện trong Bảng 3.1. Trực quan hóa đếm cho tổng số và đối chiếu kết quả dưới dạng phần trăm bằng dữ liệu dưới dạng biểu đồ là một cách tốt để truyền đạt kết quả. cách bấm vào nút % trong nhóm Số trong tab Trang chủ trong dải băng ). Hình 3.47 cho thấy sự khác biệt giữa doanh số sản phẩm và khu Ví dụ: chúng tôi thấy rằng mặc dù sách và DVD được bán ở khu vực vực. Hơi khó đếm trực tiếp số lượng quan sát một cách dễ dàng phía Tây nhiều hơn ở phía Bắc, nhưng tỷ lệ phần trăm tương đối trong tệp dữ liệu Excel; tuy nhiên, một công cụ Excel có tên là của từng sản phẩm là tương tự nhau, đặc biệt khi so sánh với khu PivotTable giúp việc này trở nên dễ dàng. PivotTable được giới vực phía Đông và phía Nam. thiệu trong phần tiếp theo. Machine Translated by Google 83 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.46 Phần bán hàng Cơ sở dữ liệu giao dịch Bảng 3.1 Lập bảng chéo doanh số bán hàng Dữ liệu giao dịch Bảng 3.2 Vùng đất Sản phẩm trong từng khu vực Hình 3.47 Biểu đồ doanh số khu vực theo sản phẩm đĩa DVD Tổng cộng Phía đông 56 42 Phi 43 42 85 62 37 99 hướng Tây 100 90 190 Tổng cộng 261 211 472 a bă c Phía nam Vùng đất Phía đông Tỷ lệ phần trăm bán hàng của Sách Sách đĩa DVD 98 Tổng cộng 57,1% 42,9% 100,0% 50,6% 49,4% 100,0% Phía nam 62,6% 37,4% 100,0% hướng Tây 52,6% 47,4% 100,0% Phi a bă c Machine Translated by Google 84 Chương 3 Trực quan hóa và khám phá dữ liệu Khám phá dữ liệu bằng cách sử dụng PivotTable Excel cung cấp một công cụ mạnh mẽ để chắt lọc một tập hợp dữ liệu phức tạp thành thông tin có ý nghĩa: PivotTable (vâng, đó là một từ!). PivotTable cho phép bạn tạo các bản tóm tắt và biểu đồ tùy chỉnh về thông tin chính trong dữ liệu. Có thể sử dụng PivotTable để nhanh chóng tạo các bảng chéo và đi sâu vào một tập hợp dữ liệu lớn theo nhiều cách. Để áp dụng PivotTable, bạn cần một tập dữ liệu có nhãn cột ở hàng đầu tiên, tương tự như các tệp dữ liệu mà chúng ta đang sử dụng. Chọn bất kỳ ô nào trong tập dữ liệu và chọn PivotTable từ nhóm Bảng trong tab Chèn và làm theo các bước của trình hướng dẫn. Trước tiên, Excel yêu cầu bạn chọn một bảng hoặc dải dữ liệu; nếu bạn bấm vào bất kỳ ô nào trong ma trận dữ liệu trước khi chèn PivotTable, Excel sẽ mặc định hiển thị toàn bộ phạm vi dữ liệu của bạn. Bạn có thể đặt PivotTable vào một trang tính mới hoặc trong một phạm vi trống của trang tính hiện có. Sau đó, Excel sẽ tạo một PivotTable trống, như thể hiện trong Hình 3.48. Trong Danh sách Trường PivotTable ở phía bên phải của Hình 3.48 là danh sách các trường tương ứng với các tiêu đề trong tệp dữ liệu. Bạn chọn những cái bạn muốn bao gồm, dưới dạng nhãn hàng, nhãn cột, giá trị hoặc cái được gọi là Bộ lọc Báo cáo. Trước tiên, bạn nên quyết định loại bảng nào bạn muốn tạo—nghĩa là bạn muốn trường nào cho các hàng, cột và giá trị dữ liệu. VÍ DỤ 3.27 Tạo PivotTable Hãy để chúng tôi tạo một bảng chéo về doanh số bán hàng theo phương pháp tóm tắt trong PivotTable trong hộp thoại Cài đặt khu vực theo sản phẩm, như chúng tôi đã làm trong phần trước. Trường Giá trị được hiển thị trong Hình 3.50. Chọn ing Count Nếu bạn kéo trường Vùng từ Danh sách Trường PivotTable trong kết quả trong PivotTable được hiển thị trong Hình 3.51, đây là Hình 3.48 vào vùng Nhãn Hàng, trường Sản phẩm vào vùng Nhãn bảng chéo mà chúng tôi đã trình bày trong Bảng 3.1. Cột và bất kỳ trường nào khác, chẳng hạn như ID khách hàng, Các tùy chọn Cài đặt Trường Giá trị trong Hình 3.50 bao gồm vào vùng Giá trị, bạn sẽ tạo PivotTable thể hiện trong Hình các tùy chọn khác, chẳng hạn như Trung bình, Tối đa, Tối thiểu 3.49. Tuy nhiên, tổng giá trị ID khách hàng (mặc định) là vô và các biện pháp thống kê khác mà chúng tôi giới thiệu trong nghĩa; chúng tôi chỉ muốn đếm số lượng bản ghi trong mỗi danh chương tiếp theo. Nó cũng cho phép bạn định dạng dữ liệu đúng mục. cách (ví dụ: tiền tệ hoặc để hiển thị một số thập phân cố Bấm vào tab Phân tích, sau đó trong nhóm Trường Hoạt động và định) bằng cách nhấp vào nút Định dạng Số. chọn Cài đặt Trường. Bạn sẽ có thể thay đổi Hình 3.48 Bảng tổng hợp trống Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 85 Hình 3.49 PivotTable mặc định cho Doanh số khu vực theo sản phẩm Hình 3.50 Hộp thoại Cài đặt Trường Giá trị Hình 3.51 PivotTable cho Đếm Doanh số khu vực theo sản phẩm Cái hay của PivotTable là nếu bạn muốn thay đổi phân tích, bạn chỉ cần bỏ chọn các hộp trong Danh sách trường PivotTable hoặc kéo tên trường đến các khu vực khác nhau. Bạn có thể dễ dàng thêm nhiều biến trong các trường để tạo các dạng xem dữ liệu khác nhau. Ví dụ: nếu bạn kéo trường Nguồn vào vùng Nhãn hàng, bạn sẽ tạo Machine Translated by Google 86 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.52 PivotTable để bán hàng theo Khu vực, Sản phẩm và Đơn hàng Nguồn PivotTable thể hiện trong Hình 3.52. Điều này cho thấy số lượng bán hàng theo khu vực và sản phẩm cũng được chia nhỏ theo cách đặt hàng - qua e-mail hoặc trên Web. Kéo một trường vào khu vực Bộ lọc Báo cáo trong danh sách Trường PivotTable cho phép bạn thêm thứ nguyên thứ ba vào phân tích của mình. Ví dụ 3.28 minh họa điều này. Bạn có thể tạo các PivotTable khác mà không cần lặp lại tất cả các bước trong Trình hướng dẫn. Chỉ cần sao chép và dán bảng đầu tiên. Cách tốt nhất để tìm hiểu về PivotTable chỉ đơn giản là thử nghiệm với chúng. VÍ DỤ 3.28 Sử dụng Bộ lọc Báo cáo PivotTable Quay lại PivotTable lập bảng chéo của doanh số khu vực theo Nhấp vào mũi tên thả xuống ở hàng 1 và bạn có thể chọn hiển sản phẩm, hãy kéo trường Thanh toán vào khu vực Bộ lọc Báo thị bảng chéo cho một trong các loại thanh toán khác nhau, cáo. Điều này đặt thanh toán ở hàng 1 của PivotTable và cho Tín dụng hoặc Paypal. Hình 3.54 cho thấy kết quả thanh toán phép bạn chia nhỏ bảng chéo theo loại thanh toán, như thể bằng thẻ tín dụng, chiếm 299 trên tổng số giao dịch. hiện trong Hình 3.53. Biểu đồ Pivot Microsoft Excel cung cấp cách tạo PivotChart đơn giản bằng một cú nhấp chuột để trực quan hóa dữ liệu trong PivotTable. Để hiển thị PivotChart cho PivotTable, trước tiên hãy chọn PivotTable. Từ tab Phân tích, bấm vào PivotChart. Excel sẽ hiển thị hộp thoại Chèn Biểu đồ cho phép bạn chọn loại biểu đồ mà bạn muốn hiển thị. Machine Translated by Google Chương 3 Trực quan hóa và khám phá dữ liệu 87 Hình 3.53 PivotTable được lọc bởi Hình thức thanh toán Hình 3.54 PivotTable lập bảng chéo cho giao dịch thẻ tín dụng VÍ DỤ 3.29 Một PivotChart cho dữ liệu bán hàng Đối với PivotTable thể hiện trong Hình 3.52, chúng tôi chọn bấm vào biểu đồ và chọn tab Thiết kế Công cụ PivotChart, bạn hiển thị biểu đồ cột từ hộp thoại Chèn Biểu đồ. có thể chuyển các hàng và cột để hiển thị dạng xem thay thế Hình 3.55 hiển thị biểu đồ do Excel tạo ra. Bằng cách nhấp của biểu đồ hoặc thay đổi hoàn toàn loại biểu đồ. vào các nút thả xuống, bạn có thể dễ dàng thay đổi dữ liệu được hiển thị bằng cách lọc dữ liệu. Cũng bởi Slicers và Bảng điều khiển PivotTable Excel 2010 đã giới thiệu slicer—một công cụ để đi sâu vào "cắt" PivotTable và hiển thị một tập hợp con dữ liệu. Để tạo một bộ cắt cho bất kỳ cột nào trong cơ sở dữ liệu, hãy bấm vào PivotTable và chọn Chèn Bộ cắt từ tab Phân tích trong dải băng Công cụ PivotTable. Machine Translated by Google 88 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.55 PivotChart để bán hàng theo Khu vực, Sản phẩm và Đơn hàng Nguồn VÍ DỤ 3.30 Sử dụng Slicers Đối với PivotTable, chúng ta đã tạo trong Hình 3.51 để đếm doanh số bán một trong các nút nguồn, Email hoặc Web, PivotTable chỉ phản ánh những hàng theo khu vực theo sản phẩm, hãy chèn một slicer cho nguồn giao dịch bản ghi tương ứng với nguồn đó. như trong Hình 3.56. Trong Hình 3.57, bây giờ chúng ta có một bảng chéo chỉ dành cho các đơn Trong trường hợp này, chúng tôi chọn Nguồn làm slicer. Điều này dẫn đến đặt hàng qua email. cửa sổ slicer như trong Hình 3.57. Nếu bạn bấm vào Hình 3.56 Chèn cửa sổ Slicers Hình 3.57 Cross-Tabulation Sliced bởi E-mail Machine Translated by Google 89 Chương 3 Trực quan hóa và khám phá dữ liệu Hình 3.58 Bảng điều khiển dựa trên máy ảnh Cuối cùng, chúng tôi đã giới thiệu công cụ máy ảnh Excel trước đó trong chương này. Đây là một công cụ hữu ích để tạo bảng thông tin dựa trên PivotTable. Nếu bạn tạo nhiều PivotTable và biểu đồ khác nhau, bạn có thể dễ dàng sử dụng công cụ máy ảnh để chụp ảnh chúng và hợp nhất chúng vào một trang tính. Theo cách này, bạn vẫn có thể thực hiện các thay đổi đối với PivotTable và chúng sẽ tự động được phản ánh trong ảnh chụp của máy ảnh. Hình 3.58 hiển thị một bảng điều khiển đơn giản được tạo bằng công cụ camera cho cơ sở dữ liệu Giao dịch bán hàng. Phân tích trong thực tế: Thúc đẩy quá trình chuyển đổi kinh doanh với IBM Business Phân tích5 Được thành lập vào những năm 1930 và có trụ sở tại Ballinger, cần thiết để truyền đạt chiến lược bán lẻ của mình để tuyển Texas, Mueller là nhà bán lẻ và sản xuất hàng đầu các sản dụng nhân viên trong toàn tổ chức. phẩm nhà kim loại tiền chế và tấm lợp kim loại. Ngày nay, Như Mark Lack, Giám đốc Phân tích Chiến lược và công ty bán trực tiếp các sản phẩm của mình cho người tiêu Business Intelligence tại Mueller, giải thích: “Quá trình dùng trên khắp vùng Tây Nam Hoa Kỳ từ 35 địa điểm trên khắp chuyển đổi từ sản xuất thuần túy sang sản xuất do người bán Texas, New Mexico, Louisiana và Oklahoma. lẻ dẫn đầu đòi hỏi một cách tiếp cận bán hàng tập trung vào khách hàng cuối hơn. Chúng tôi muốn có một cách để theo dõi Về mặt lịch sử, Mueller trước hết coi mình là một nhà mức độ thành công mà các nhóm bán hàng của chúng tôi trên sản xuất; các khía cạnh bán lẻ của doanh nghiệp là trọng tâm toàn quốc đã thích ứng với chiến lược mới này và xác định thứ yếu. Tuy nhiên, vào đầu những năm 2000, công ty đã quyết nơi có thể thực hiện các cải tiến.” định chuyển trọng tâm chiến lược của mình và tập trung vào bán lẻ hơn nhiều—tiếp cận gần hơn với khách hàng sử dụng cuối Để theo dõi hiệu suất bán hàng, Mueller đã làm việc với IBM để triển khai IBM Cognos Business Intelligence. Nhóm IBM và thúc đẩy hoạt động kinh doanh mới nhờ hiểu rõ hơn về nhu đã giúp Mueller áp dụng khoa học công nghệ vào quy trình thẻ cầu của họ. điểm cân bằng để quản lý chiến lược trong Cognos Metric Studio. Để đạt được mục tiêu chuyển đổi của mình, công ty (còn tiếp) 5 “Mueller xây dựng một doanh nghiệp tập trung vào khách hàng,” IBM Software, Business Analytics, © IBM Corporation, 2013. Machine Translated by Google 90 Chương 3 Trực quan hóa và khám phá dữ liệu Bằng cách sử dụng một bộ KPI chung, Mueller có thể dễ dàng xác định điểm mạnh và điểm yếu của tất cả các nhóm bán hàng của mình doanh nghiệp và cho phép họ đi sâu vào dữ liệu thô nếu họ cần. Đó là một cách sử dụng thông tin trực quan và hấp dẫn hơn nhiều.” thông qua phân tích hiệu suất bán hàng. Mark Lack cho biết: “Sử dụng Metric Studio trong Cognos Business Intelligence, chúng tôi có Giờ đây, Mueller sử dụng Cognos để điều tra lý do tại sao một được bức tranh rõ ràng về hiệu suất chiến lược của từng nhóm. “Bằng số sản phẩm bán chạy hơn ở một số khu vực nhất định, sản phẩm nào cách sử dụng thông tin chi tiết về hiệu suất bán hàng từ thẻ điểm của công ty có tỷ lệ chấp nhận cao nhất và sản phẩm nào có tỷ suất Cognos, chúng tôi có thể xác định các nhóm đang đạt được mục tiêu lợi nhuận lớn nhất. Sử dụng những hiểu biết sâu sắc này, công ty có và xác định lý do thành công của họ. Sau đó, chúng tôi có thể chia thể điều chỉnh chiến lược của mình để đảm bảo rằng công ty tiếp thị sẻ kiến thức này với các nhóm hoạt động kém hiệu quả và chứng minh đúng sản phẩm cho đúng khách hàng—tăng doanh số bán hàng. cách họ có thể thay đổi cách làm việc để đạt được mục tiêu của mình. Bằng cách sử dụng IBM SPSS Modeler để khai thác khối lượng dữ “Thay vì chỉ cố gắng áp đặt hoặc thực thi các cách làm việc liệu giao dịch khổng lồ, công ty nhằm mục đích tiết lộ các mẫu và mới, chúng tôi có thể chỉ ra cho các nhóm bán hàng thấy chính xác xu hướng sẽ giúp dự đoán các rủi ro và cơ hội trong tương lai, cũng cách họ đang đóng góp cho doanh nghiệp và giải thích những gì họ cần như phát hiện ra các vấn đề và sự bất thường chưa từng thấy trong làm để cải thiện các chỉ số của mình. các hoạt động hiện tại của công ty. Một dự án ban đầu với IBM Đó là một cách hiệu quả hơn nhiều để thúc đẩy những thay đổi trong SPSS Modeler nhằm mục đích giúp Mueller tìm cách giảm chi phí nhiên hành vi vốn rất quan trọng đối với quá trình chuyển đổi kinh doanh.” liệu. Gần đây, Dịch vụ phần mềm phân tích kinh doanh của IBM đã Sử dụng SPSS Modeler, công ty đang xây dựng một mô hình thống kê giúp Mueller nâng cấp lên IBM Cognos 10. giả tạo sẽ tự động hóa quá trình phân tích các giao dịch nhiên liệu Với phiên bản mới, Mueller đã bắt đầu sử dụng một tính năng mới có cho hàng trăm phương tiện, tài xế và tuyến đường. tên Business Insight để trao quyền cho các nhà quản lý bán hàng khu vực theo dõi và cải thiện hiệu suất của nhóm bán hàng bằng cách tạo bảng điều khiển được cá nhân hóa của riêng họ. Mark Lack cho biết: “Với SPSS Modeler, chúng tôi sẽ có thể xác định mức tiêu thụ nhiên liệu trung bình của mỗi phương tiện trên mỗi tuyến đường trong suốt một tuần. “SPSS sẽ tự động gắn cờ “Báo cáo tĩnh là một điểm khởi đầu tốt, nhưng mọi người không bất kỳ sai lệch nào so với mức tiêu thụ trung bình và sau đó chúng thích đọc qua các trang dữ liệu để tìm thông tin họ cần,” Mark Lack tôi sẽ đi sâu vào để tìm ra nguyên nhân gốc rễ. Giải pháp của IBM nhận xét. giúp chúng tôi xác định xem các giao dịch nhiên liệu cao hơn bình “Phiên bản mới của Cognos cung cấp cho chúng tôi khả năng tạo các thường có hợp pháp hay không—ví dụ: tài xế đi thêm dặm— bảng điều khiển tương tác được tùy chỉnh để cung cấp cho mỗi người dùng cái nhìn sâu sắc ngay lập tức về lĩnh vực cụ thể của riêng họ. hoặc kết quả của một số yếu tố khác, chẳng hạn như gian lận.” Điều khoản quan trọng Biểu đồ vùng biểu đồ đường Biểu đồ cột ogive Biểu đồ bong bóng phân tích Pareto Biểu đồ cột Biểu đồ tròn Bảng dữ liệu thống kê Biểu đồ Pivot Bảng chéo PivotTable Tần suất tương đối tích lũy phần tư Phân phối tần số tương đối tích lũy biểu đồ ra đa Tần số tương đối bảng điều khiển Phân phối tần số tương đối Hồ sơ dữ liệu (dễ gãy) biểu đồ phân tán Trực quan hóa dữ liệu máy thái Thống kê mô tả đường lấp lánh biểu đồ bánh rán thống kê Phân phối tần số Số liệu thống kê Biểu đồ biểu đồ chứng khoán phân vị thứ k biểu đồ bề mặt Machine Translated by Google 91 Chương 3 Trực quan hóa và khám phá dữ liệu vấn đề và bài tập 1. Tạo biểu đồ đường cho giá đóng cửa trong tất cả các năm và biểu dưới 10.000 đô la và phương tiện nằm ở khoảng giữa. đồ chứng khoán cho giá cao/thấp/đóng cửa cho tháng 8 năm 2013 trong tệp Excel S&P 500. 2. Tạo biểu đồ hình tròn hiển thị bảng phân tích nghề nghiệp cho 10. Áp dụng ba màu khác nhau của thanh dữ liệu cho doanh số bán hàng ăn trưa, ăn tối và giao hàng trong tệp Excel Doanh số bán từng năm trong tệp Excel Công việc Khoa học và Kỹ thuật và đối hàng tại nhà hàng để trực quan hóa số lượng bán hàng tương chiếu những biểu đồ này với các biểu đồ cột đơn giản. đối. Sau đó, sắp xếp dữ liệu (gợi ý: sử dụng sắp xếp tùy chỉnh) theo ngày trong tuần bắt đầu từ Chủ Nhật. So sánh dữ liệu chưa 3. Khảo sát Facebook tệp Excel cung cấp dữ liệu được thu thập từ một mẫu sinh viên đại học. Tạo biểu đồ phân tán thể hiện mối quan hệ giữa Số giờ trực tuyến/tuần và Bạn bè. sắp xếp với dữ liệu đã sắp xếp về nội dung thông tin của các trực quan hóa. 11. Đối với cơ sở dữ liệu Cửa hàng và Bán hàng theo khu vực, hãy áp dụng bộ biểu tượng bốn đèn giao thông để trực quan hóa việc 4. Một công ty xây dựng nhà ở quốc gia xây dựng những ngôi nhà dành cho một gia đình và nhà phố kiểu chung cư. Tệp Excel Bán nhà cung cấp thông tin về giá bán, chi phí lô đất, loại nhà và khu vực của quốc gia (Trung Tây, Nam) để đóng cửa trong 1 tháng. Xây dựng biểu đồ phân tán thể hiện mối quan hệ giữa giá bán và chi phí lô hàng. phân phối số lượng đơn vị đã bán cho mỗi cửa hàng, trong đó màu xanh lá cây tương ứng với ít nhất 30 đơn vị đã bán, màu vàng tương ứng với ít nhất 20 đơn vị nhưng ít hơn hơn 30, màu đỏ đến ít nhất 10 nhưng ít hơn 20 và màu đen đến dưới 10. 12. Đối với file Excel Giá Đóng Chứng Khoán, a. Áp dụng cả biểu đồ thu nhỏ dạng cột và dòng để trực quan hóa xu hướng giá của từng cổ phiếu trong số bốn cổ phiếu trong tệp. 5. Tạo biểu đồ bong bóng cho năm trường đại học đầu tiên trong tệp Excel Cao đẳng và Đại học mà trục x là 10% HS hàng đầu, trục y b. Tính toán sự thay đổi hàng ngày trong chỉ số Dow Jones và là Tỷ lệ chấp nhận và bong bóng biểu thị Chi phí cho mỗi sinh áp dụng biểu đồ thu nhỏ thắng/thua để trực quan hóa chuyển viên. động tăng hoặc giảm hàng ngày của chỉ số. 6. Xây dựng biểu đồ cột cho dữ liệu trong tệp Excel Tỷ lệ thất nghiệp của bang để cho phép so sánh tỷ lệ tháng 6 với mức cao và thấp trong lịch sử. Có biểu đồ nào khác tốt hơn để truyền tải thông tin này một cách trực quan không? Tại sao hay tại sao không? 7. Tệp Excel Sử dụng Internet cung cấp dữ liệu về chúng tôi 13. Chuyển đổi cơ sở dữ liệu Bán hàng tại Cửa hàng và Khu vực thành bảng Excel. Sử dụng các kỹ thuật được mô tả trong Ví dụ 3.11 để tìm: Một. tổng số đơn vị đã bán b. tổng số căn bán được tại khu vực phía Nam c. tổng số đơn vị đã bán trong tháng mười hai er của Internet. Xây dựng các biểu đồ thanh xếp chồng lên nhau sẽ cho phép bạn so sánh bất kỳ sự khác biệt nào do tuổi tác hoặc trình độ học vấn và rút ra bất kỳ kết luận nào mà bạn có 14. Chuyển đổi cơ sở dữ liệu Đơn đặt hàng sang bảng Excel. Sử dụng các kỹ thuật được mô tả trong Ví dụ 3.11 để tìm: thể. Một loại biểu đồ khác sẽ phù hợp hơn? Một. tổng chi phí của tất cả các 8. Xây dựng một biểu đồ thích hợp để thể hiện tỷ lệ vốn trong mỗi hạng mục đầu tư trong tệp Excel Retirement Portfolio. đơn đặt hàng b. tổng số lượng ốc vít khung máy bay đã mua c. tổng chi phí của tất cả các đơn đặt hàng với Manley Van. 9. Trong file Excel Banking Data, áp dụng các công cụ trực quan hóa dữ liệu sau: Một. Sử dụng các thanh dữ liệu để trực quan hóa các giá trị tương đối của Giá trị nhà trung bình. b. Sử dụng thang màu để trực quan hóa các giá trị tương đối của Tài sản hộ gia đình trung bình. c. Sử dụng bộ biểu tượng để hiển thị số dư ngân hàng cao, trung bình và thấp, trong đó cao trên 30.000 đô la, thấp 15. Tệp Excel Thăm dò ý kiến kinh tế cung cấp một số dữ liệu minh họa và ý kiến về việc liệu nền kinh tế có đang đi đúng hướng hay không. Chuyển đổi dữ liệu này thành bảng Excel và lọc những người trả lời là chủ nhà và nhận thấy rằng nền kinh tế đang không đi đúng hướng. Sự phân bổ các đảng phái chính trị của họ là gì? Machine Translated by Google 92 Chương 3 Trực quan hóa và khám phá dữ liệu 16. Mở tệp Excel cơ sở dữ liệu Cửa hàng và Doanh số khu vực. Một. Sắp xếp dữ liệu theo đơn vị đã bán, từ cao đến thấp b. Sắp xếp các đơn vị đã bán bằng bộ biểu tượng, trong đó màu xanh lá cây tương ứng với mức doanh số cao, màu vàng tương ứng với doanh số trung bình và màu đỏ tương ứng với doanh số thấp. Việc sắp xếp sẽ hiển thị đ. Sử dụng khả năng lọc của Excel để trích xuất tất cả các bản ghi cho những cá nhân được tuyển dụng dưới 12 tháng. Bạn có thể rút ra bất kỳ kết luận nào về rủi ro tín dụng liên quan đến những cá nhân này không? 22. Sử dụng hàm COUNTIF để xây dựng phân bố tần suất của các loại tất cả các biểu tượng màu xanh lá cây trước tiên, tiếp theo là màu cho vay trong file Excel Dữ liệu rủi ro tín dụng và xây dựng vàng thấp và sau đó là màu đỏ. biểu đồ cột để thể hiện kết quả một cách trực quan. 17. Sắp xếp dữ liệu trong file Excel Chất lượng ô tô từ số lượng vấn đề cao nhất đến thấp nhất trên 100 phương tiện bằng cách sử dụng khả năng sắp xếp trong Excel. 23. Sử dụng công cụ Biểu đồ để xây dựng phân bổ tần suất của số tiền bán bữa trưa trong cơ sở dữ liệu Doanh số nhà hàng. 18. Trong cơ sở dữ liệu Đơn đặt hàng, hãy tiến hành phân tích Pareto về dữ liệu Chi phí cho mỗi đơn hàng. Bạn có thể rút ra kết luận gì? 24. Một cuộc khảo sát về tình trạng sức khỏe cộng đồng đã thu được thông tin nhân khẩu học sau đây từ những người được hỏi: 19. Sử dụng khả năng lọc của Excel để (1) trích xuất tất cả hoặc đơn đặt hàng cho bảng điều khiển, (2) tất cả đơn đặt hàng với số lượng dưới 500 đơn vị và (3) tất cả đơn đặt hàng cho bảng điều khiển với số lượng dưới 500 đơn vị trong Mua hàng Cơ sở dữ liệu đơn đặt hàng. 20. Trong cơ sở dữ liệu Giao dịch bán hàng, hãy sử dụng khả năng lọc của Excel để trích xuất tất cả các đơn đặt hàng đã sử dụng PayPal, tất Tuổi Tính thường xuyên 18 đến 29 297 30 đến 45 743 46 đến 64 602 65 + 369 cả các đơn đặt hàng dưới 100 đô la và tất cả các đơn đặt hàng trên Tính tần số tương đối và tần số tương đối tích lũy của các 100 đô la và đã sử dụng thẻ tín dụng. nhóm tuổi. 21. File Excel Dữ liệu rủi ro tín dụng cung cấp thông tin về các 25. Xây dựng phân bố tần suất và biểu đồ tần số cho dữ liệu dạng khách hàng của ngân hàng đã đăng ký vay vốn.6 số trong file Excel Cell Phone Survey. Ngoài ra, tính tần số Dữ liệu bao gồm mục đích của khoản vay, số dư tài khoản tiết tương đối và tần số tương đối tích lũy. kiệm và séc, số tháng là khách hàng của ngân hàng, số tháng làm việc, giới tính, tình trạng hôn nhân, tuổi tác, tình trạng nhà ở và số năm ở nơi cư trú hiện tại, loại công việc và tín dụng - Phân loại rủi ro của ngân hàng. 26. Sử dụng công cụ Biểu đồ để phát triển phân bổ tần suất và biểu đồ với sáu ngăn cho tuổi của các cá nhân trong tệp Excel Dữ liệu Rủi ro Tín dụng. Tính toán các tần suất tương đối và tích lũy tương đối và sử dụng biểu đồ đường để xây dựng Một. Tính tổng số dư tài khoản séc và tài khoản tiết kiệm cho một ogive. từng bản ghi trong cơ sở dữ liệu. Sau đó sắp xếp hồ sơ theo số tháng là khách hàng của ngân hàng. Từ việc kiểm tra dữ liệu, có vẻ như các khách hàng 27. Sử dụng công cụ Histogram để xây dựng phân bổ tần suất và biểu đồ cho số tháng là khách hàng của ngân hàng trong file gắn bó lâu hơn với ngân hàng có nhiều tập hợp hơn không? Excel Dữ liệu rủi ro tín dụng. Sử dụng phán đoán của bạn để Xây dựng một biểu đồ phân tán để xác nhận kết luận của xác định số lượng thùng sẽ sử dụng. Tính tần suất tương đối bạn. và tần số tương đối tích lũy, đồng thời sử dụng biểu đồ đường để xây dựng một ogive. b. Áp dụng phân tích Pareto để rút ra kết luận về tổng số tiền trong tài khoản séc và tài khoản tiết kiệm. 28. Xây dựng phân phối tần suất và biểu đồ bằng cách sử dụng công cụ Biểu đồ Excel cho dữ liệu Tổng doanh thu và Tổng lợi nhuận c. Sử dụng khả năng lọc của Excel để trích xuất tất cả các bản ghi cho các khoản vay mua ô tô mới. Xây dựng biểu đồ hình tròn thể trong dữ liệu Bán hàng của tệp Excel. Đầu tiên hãy để Excel tự động xác định số lượng thùng hiện tình trạng hôn nhân liên quan đến các khoản vay này. 6Dựa trên Efraim Turban, Ramesh Sharda, Dursun Delen và David King, Business Intelligence: A Managerial Approach, xuất bản lần 2. (Sông Thượng Saddle, NJ: Prentice Hall, 2011). Machine Translated by Google 93 Chương 3 Trực quan hóa và khám phá dữ liệu và phạm vi bin. Sau đó, xác định một tập hợp các ngăn thích hợp theo khu vực và tổng doanh thu theo khu vực và sản phẩm trong hơn và chạy lại công cụ Biểu đồ. cơ sở dữ liệu Giao dịch bán hàng. 29. Tìm phân vị thứ 10 và 90 cũng như phần tư thứ 1 và thứ 3 cho 38. Tạo PivotTable cho dữ liệu trong tệp Excel Đám cưới để phân tích chênh lệch thời gian giữa thời gian đến theo lịch trình và thời chi phí đám cưới theo loại người chi trả và xếp hạng giá trị. gian đến thực tế trong tệp Excel Dữ liệu Hàng không Atlanta. Bạn đạt được kết luận gì? 39. File Excel Rin's Gym cung cấp dữ liệu mẫu về đặc điểm cơ thể 30. Tìm phân vị thứ 20 và 80 của giá nhà ở thành viên và hoạt động trong phòng tập. Tạo PivotTables để tìm: tệp Excel Giá trị thị trường tại nhà. 31. Tìm phân vị thứ 10 và 90 cũng như phần tư thứ 1, 2 và 3 cho tổng số tiền của tài khoản séc và tài khoản tiết kiệm trong tệp Excel Dữ liệu Rủi ro Tín dụng. Một. một bảng chéo về giới tính và loại cơ thể so với phân loại BMI b. thời gian chạy trung bình, khoảng cách chạy, số ngày nâng tạ, thời gian tập nâng và thời gian tập gym theo giới tính. 32. Xây dựng các bảng chéo về Giới tính so với Nhà cung cấp dịch vụ và Loại so với Cách sử dụng trong Khảo sát điện thoại di động tệp Excel. Bạn có thể kết luận gì từ phân tích này? Tóm tắt kết luận của bạn. 40. Tạo bảng điều khiển hữu ích cho từng cơ sở dữ liệu sau. Sử dụng các biểu đồ và bố cục phù hợp (ví dụ: Giải thích lý do bạn chọn 33. Sử dụng PivotTable để xây dựng bảng chéo cho mục đích rủi ro khoản vay và tín dụng trong tệp Excel Dữ liệu Rủi ro Tín dụng. Minh họa kết quả trên PivotChart. các thành phần của trang tổng quan và cách người quản lý có thể sử dụng chúng. Một. Nhà trọ của Tổng thống b. Bán hàng nhà hàng 34. Sử dụng PivotTable để tạo bảng chéo cho tình trạng hôn nhân và loại nhà ở trong tệp Excel Dữ liệu Rủi ro Tín dụng. Minh họa kết c. Bán hàng tại cửa hàng và khu vực đ. Ngân hàng lựa chọn nhân dân quả trên PivotChart. 41. Một nhà nghiên cứu tiếp thị đã khảo sát 92 cá nhân, hỏi họ xem họ có thích ý tưởng sản phẩm mới hay không. 35. Tạo PivotTable để tìm số tiền chi phí đi lại trung bình cho mỗi Các kết quả được hiển thị dưới đây: đại diện bán hàng trong tệp Excel Chi phí đi lại. Minh họa kết quả của bạn bằng PivotChart. Nam giới 36. Sử dụng PivotTable để tìm số khoản vay theo các mục đích khác Nữ giới Đúng KHÔNG 30 50 6 6 nhau, tình trạng hôn nhân và rủi ro tín dụng trong tệp Excel Dữ liệu Rủi ro Tín dụng. Minh họa kết quả trên PivotChart. Chuyển đổi dữ liệu thành tỷ lệ phần trăm. Sau đó xây dựng biểu đồ về số lượng và biểu đồ về tỷ lệ phần trăm. Thảo luận về 37. Sử dụng PivotTable để tìm số lượng giao dịch bán hàng theo sản phẩm và khu vực, tổng doanh thu những gì mỗi biểu đồ truyền đạt một cách trực quan và cách các biểu đồ khác nhau có thể dẫn đến các cách diễn giải dữ liệu khác nhau. Trường hợp: Dự án nghiên cứu quảng cáo Drout Cơ sở cho trường hợp này đã được giới thiệu trong Chương 1. Đối với bảng chéo và các ứng dụng thích hợp khác của PivotTable để chia nhỏ dữ phần này của trường hợp, hãy sử dụng các biểu đồ thích hợp để trực quan liệu và phát triển hữu ích trong tầm nhìn. Thêm những phát hiện của hóa dữ liệu. Tóm tắt dữ liệu bằng cách sử dụng phân phối tần suất và bạn vào báo cáo mà bạn đã bắt đầu cho trường hợp ở Chương 1. biểu đồ cho các biến số, Machine Translated by Google 94 Chương 3 Trực quan hóa và khám phá dữ liệu Trường hợp: Hiệu suất Lawn Thiết bị Phần 1: Ban đầu PLE sản xuất máy cắt cỏ, nhưng phần lớn doanh số bán Phần 2: Như đã lưu ý trong trường hợp ở Chương 1, bảng tính chuỗi hàng trong những năm gần đây đến từ thị trường máy kéo nhỏ đang phát cung ứng cung cấp dữ liệu chi phí liên quan đến hậu cần giữa các triển. Như chúng tôi đã lưu ý trong trường hợp ở Chương 1, PLE bán nhà máy hiện tại và khách hàng cũng như các nhà máy mới được đề xuất. sản phẩm của họ trên toàn thế giới, với các khu vực bán hàng bao gồm Bà Burke muốn bạn trích xuất các bản ghi liên quan đến chi phí vận Bắc Mỹ, Nam Mỹ, Châu Âu và Vành đai Thái Bình Dương. Ba năm trước, chuyển đơn vị của các địa điểm nhà máy được đề xuất và so sánh chi một khu vực mới đã được mở ra để phục vụ Trung Quốc, nơi một thị phí của các địa điểm hiện tại với chi phí của các địa điểm được đề trường máy kéo nhỏ đang bùng nổ đã được thiết lập. PLE luôn nhấn mạnh xuất bằng cách sử dụng các phần tư. đến chất lượng có quy mô và coi chất lượng mà công ty tích hợp vào các sản phẩm của mình là điểm bán hàng chính của mình. Trong 2 năm qua, PLE cũng đã nhấn mạnh vào tính dễ sử dụng của các sản phẩm của họ. Trước khi đi sâu vào chi tiết hoạt động, Elizabeth Burke muốn có được cái nhìn tổng quan về hiệu quả kinh doanh tổng thể và vị thế thị trường của PLE bằng cách kiểm tra thông tin được cung cấp trong Phần 3: Bà Burke cũng muốn có một bản tổng hợp định lượng về các phản hồi trung bình cho từng khách hàng tại các buổi tri ân trong bảng tính Khảo sát khách hàng năm 2014 cho từng khu vực thị trường dưới dạng bảng chéo (sử dụng PivotTable thích hợp), cùng với tần suất phân phối, biểu đồ và phần tư của những dữ liệu này. cơ sở dữ liệu. Cụ thể, cô ấy đang yêu cầu bạn xây dựng các biểu đồ thích hợp cho dữ liệu trong các bảng tính sau đây và tóm tắt các kết Phần 4: Đề xuất bảng điều khiển hàng tháng về thông tin kinh doanh luận của bạn từ việc phân tích các biểu đồ này. quan trọng nhất mà bà Burke có thể sử dụng thường xuyên khi dữ liệu được cập nhật. Tạo một cái bằng cách sử dụng dữ liệu gần đây nhất. Một. Sự hài lòng của đại lý b. Sự hài lòng của người dùng cuối Trang tổng quan của bạn không nên bao gồm nhiều hơn 6–8 biểu đồ, các biểu đồ này phải vừa vặn trên một màn hình. c. Khiếu nại đ. Đơn vị bán máy cắt đ. Đơn vị bán máy kéo f. Chuyển hàng đúng giờ g. Lỗi sau khi giao hàng h. Thời gian đáp ứng Viết một báo cáo chính thức tóm tắt kết quả của bạn cho tất cả bốn phần của trường hợp này. Machine Translated by Google Thống kê mô tả Đo CHƯƠNG Jonny Drake / Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích sự khác nhau giữa quần thể và mẫu. Giải thích các hệ số của skewness và kurtosis. Sử dụng công cụ Thống kê mô tả Excel để tóm tắt dữ Hiểu ký hiệu thống kê. liệu. Liệt kê các biện pháp khác nhau của vị trí. Tính giá trị trung bình, phương sai và độ lệch chuẩn cho dữ liệu Tính giá trị trung bình, trung bình, chế độ và tầm trung được nhóm. của một tập dữ liệu. Tính toán một tỷ lệ. Sử dụng các thước đo vị trí để đưa ra các quyết định kinh doanh Sử dụng PivotTable để tính giá trị trung bình, phương sai và thực tế. độ lệch chuẩn của dữ liệu tóm tắt. Liệt kê các biện pháp phân tán khác nhau. Giải thích tầm quan trọng của việc hiểu mối quan hệ giữa hai biến. Tính toán phạm vi, phạm vi liên vùng, phương sai và độ lệch Giải thích sự khác biệt giữa hiệp phương sai và tương quan. chuẩn của một tập hợp dữ liệu. Giải thích định lý Chebyshev. Phát biểu các Quy tắc Thực nghiệm và áp dụng chúng vào dữ liệu thực tế. Tính giá trị tiêu chuẩn hóa ( -score) cho các quan sát trong một tập dữ liệu. Tính toán các biện pháp của hiệp phương sai và tương quan. Sử dụng công cụ Tương quan Excel. Xác định các ngoại lệ trong dữ liệu. Nêu các nguyên tắc của tư duy thống kê. Giải thích sự thay đổi trong dữ liệu từ góc độ logic và thực tế. Định nghĩa và tính hệ số biến thiên. Giải thích bản chất của độ lệch và độ nhọn trong một phân phối. Giải thích bản chất của sự thay đổi trong dữ liệu mẫu. 95 Machine Translated by Google 96 Chương 4 Các biện pháp thống kê mô tả Như chúng ta đã lưu ý trong Chương 3, phân phối tần suất, biểu đồ và bảng chéo là các công cụ dạng bảng và trực quan của thống kê mô tả. Trong chương này, chúng tôi giới thiệu các biện pháp số cung cấp một cách hiệu quả và hiệu quả để thu được thông tin có ý nghĩa từ dữ liệu. Tuy nhiên, trước khi thảo luận về các biện pháp chắc chắn này, chúng ta cần hiểu sự khác biệt giữa quần thể và mẫu. Quần thể và mẫu Tổng thể bao gồm tất cả các mục được quan tâm đối với một quyết định hoặc cuộc điều tra cụ thể—ví dụ: tất cả các cá nhân ở Hoa Kỳ không sở hữu điện thoại di động, tất cả những người đăng ký Netflix hoặc tất cả các cổ đông của Google. Một công ty như Netflix lưu giữ nhiều hồ sơ về khách hàng của mình, giúp dễ dàng truy xuất dữ liệu về toàn bộ khách hàng. Tuy nhiên, có lẽ không thể xác định được tất cả những người không sở hữu điện thoại di động. Một mẫu là một tập hợp con của dân số. Ví dụ: danh sách những cá nhân đã thuê một bộ phim hài từ Netflix trong năm qua sẽ là một mẫu từ tập hợp của tất cả các khách hàng. Liệu mẫu này có đại diện cho tập hợp khách hàng hay không—điều này phụ thuộc vào cách sử dụng dữ liệu mẫu—có thể gây tranh cãi; tuy nhiên, nó là một mẫu. Hầu hết các quần thể, ngay cả khi chúng là hữu hạn, nói chung là quá lớn để giải quyết một cách hiệu quả hoặc thực tế. Ví dụ, sẽ là không thực tế cũng như quá tốn kém để khảo sát toàn bộ người xem truyền hình ở Hoa Kỳ. Việc lấy mẫu rõ ràng cũng cần thiết khi dữ liệu phải được lấy từ thử nghiệm phá hủy hoặc từ quá trình sản xuất liên tục. Do đó, mục đích của việc lấy mẫu là thu thập đầy đủ thông tin để rút ra kết luận hợp lệ về tổng thể. Ví dụ, các nhà nghiên cứu thị trường sử dụng mẫu để đánh giá nhận thức của người tiêu dùng về hàng hóa và dịch vụ mới hoặc hiện có; kiểm toán viên sử dụng phương pháp lấy mẫu để xác minh tính chính xác của báo cáo tài chính; và các nhà phân tích kiểm soát chất lượng lấy mẫu đầu ra của sản xuất để xác minh mức chất lượng và xác định các cơ hội cải tiến. Hầu hết dữ liệu mà các doanh nghiệp xử lý đều là mẫu. Ví dụ, Đơn đặt hàng và cơ sở dữ liệu Giao dịch bán hàng mà chúng tôi đã sử dụng trong các chương trước đại diện cho các mẫu vì dữ liệu đơn đặt hàng chỉ bao gồm các đơn đặt hàng được đặt trong khoảng thời gian ba tháng và các giao dịch bán hàng đại diện cho các đơn đặt hàng chỉ trong một ngày, ngày 14 tháng 7. Do đó, trừ khi được chú ý nếu không, chúng tôi sẽ cho rằng bất kỳ tập dữ liệu nào cũng là một mẫu. Hiểu ký hiệu thống kê Chúng tôi thường gắn nhãn các phần tử của tập dữ liệu bằng cách sử dụng các biến được chỉ định, x1 , x2 , … , v.v. Nói chung, xi đại diện cho quan sát thứ i. Thông lệ phổ biến trong thống kê là sử dụng các chữ cái Hy Lạp, chẳng hạn như m (mu), (sigma) và (pi), để biểu thị các thước đo dân số và các chữ cái in nghiêng như x (x-bar), s và p đến đại diện cho số liệu thống kê mẫu. Chúng ta sẽ sử dụng N để biểu thị số lượng phần tử trong tổng thể và n để biểu thị số lượng quan sát trong một mẫu. Các công thức thống kê thường chứa một toán tử tổng, Σ (sigma vốn của Hy Lạp), có nghĩa là các số hạng N theo nó được thêm vào với nhau. Như vậy, một xi x1 + x2 + g+ xn . hiểu biết tôi 1 những quy ước và ký hiệu toán học này sẽ giúp bạn giải thích và áp dụng các công thức thống kê. Machine Translated by Google 97 Chương 4 Các biện pháp thống kê mô tả Biện pháp Vị trí Các phép đo vị trí cung cấp các ước tính về một giá trị duy nhất mà theo một cách nào đó đại diện cho "căn giữa" của một tập hợp dữ liệu. Phổ biến nhất là trung bình. Tất cả chúng ta đều sử dụng mức trung bình thường xuyên trong cuộc sống của mình, chẳng hạn như để đo lường thành tích của học sinh ở trường đại học (ví dụ: điểm trung bình), để đo lường hiệu suất của các đội thể thao (ví dụ: trung bình đánh bóng) và để đo lường hiệu suất trong kinh doanh (ví dụ: trung bình thời gian giao hàng). trung bình số học Giá trị trung bình chính thức được gọi là trung bình số học (hoặc đơn giản là giá trị trung bình), là tổng của các quan sát chia cho số lượng quan sát. Về mặt toán học, giá trị trung bình của một tổng thể được biểu thị bằng chữ cái Hy Lạp m và giá trị trung bình của một mẫu được ký hiệu là x. Nếu một tổng thể bao gồm N quan sát x1 , x2 , c, xN, thì trung bình tổng thể, m, được tính như sau N Một xi tôi 1 tôi N (4.1) Giá trị trung bình của một mẫu gồm n quan sát, x1 , x2 , c, xn , ký hiệu là x, được tính như sau N Một xi x tôi 1 N (4.2) Lưu ý rằng các phép tính cho giá trị trung bình là giống nhau cho dù chúng ta đang xử lý một quần thể hay một mẫu; chỉ có ký hiệu khác nhau. Chúng tôi cũng có thể tính giá trị trung bình trong Excel bằng hàm AVERAGE(phạm vi dữ liệu). Một thuộc tính của giá trị trung bình là tổng độ lệch của mỗi quan sát so với giá trị trung bình bằng 0: Một 1xi - x2 0 (4.3) Tôi Điều này đơn giản có nghĩa là tổng các độ lệch trên giá trị trung bình bằng với tổng các độ lệch dưới giá trị trung bình; về cơ bản, giá trị trung bình “cân bằng” các giá trị ở hai bên của nó. Tuy nhiên, điều đó không có nghĩa là một nửa dữ liệu nằm trên hoặc dưới giá trị trung bình—một quan niệm sai lầm phổ biến ở những người không hiểu về thống kê. Ngoài ra, giá trị trung bình là duy nhất cho mọi tập hợp dữ liệu và có ý nghĩa đối với cả dữ liệu giữa giá trị và tỷ lệ. Tuy nhiên, nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ—các quan sát hoàn toàn khác với phần còn lại—điều này kéo giá trị trung bình về phía các giá trị này. Chúng ta sẽ thảo luận thêm về các ngoại lệ ở phần sau của chương này. VÍ DỤ 4.1 Tính Chi phí Trung bình cho mỗi Đơn hàng Trong cơ sở dữ liệu Đơn đặt hàng, giả sử rằng chúng tôi quan tâm đến việc tìm chi phí trung bình cho mỗi đơn đặt hàng. Hình chi phí trung bình cho mỗi đơn đặt hàng là $2.471.760>94 = $26.295,32. Chúng tôi hiển thị các phép tính này trong một trang tính riêng, Mean 4.1 cho thấy một phần của tệp dữ liệu. Chúng tôi tính toán chi trong sổ làm việc Đơn đặt hàng Excel. Một phần của trang tính phí trung bình cho mỗi đơn đặt hàng bằng cách tính tổng các này ở chế độ chia đôi màn hình được hiển thị trong Hình 4.2. giá trị trong cột G rồi chia cho số lượng quan sát. Sử dụng Ngoài ra, chúng tôi đã sử dụng hàm Excel =AVERAGE rằng 1 công thức (4.2), lưu ý = $2.700, = $19.250, v.v. và n = 94. (B2:B95) trong bảng tính này để đạt được cùng một giá trị. Chúng 2 Tổng các chi phí đặt hàng này là $2,471,760. Do đó, các tôi khuyến khích bạn nghiên cứu các tính toán và công thức được sử dụng. Machine Translated by Google 98 Chương 4 Các biện pháp thống kê mô tả Hình 4.1 Phần cơ sở dữ liệu đơn đặt hàng Hình 4.2 Tính toán giá trị trung bình trong Excel Chi phí cho mỗi đơn đặt hàng Trung bình Số đo vị trí chỉ định giá trị ở giữa khi dữ liệu được sắp xếp từ nhỏ nhất đến lớn nhất là trung vị. Một nửa dữ liệu nằm dưới mức trung bình và một nửa dữ liệu nằm trên nó. Đối với một số lượng quan sát lẻ, trung vị là giữa các số được sắp xếp. Đối với một số lượng quan sát chẵn, trung vị là giá trị trung bình của hai số ở giữa. Chúng ta có thể sử dụng tùy chọn Sắp xếp trong Excel để sắp xếp thứ tự dữ liệu và sau đó xác định giá trị trung bình. Hàm Excel MEDIAN(phạm vi dữ liệu) cũng có thể được sử dụng. Trung vị có ý nghĩa đối với dữ liệu tỷ lệ, khoảng thời gian và thứ tự. Trái ngược với giá trị trung bình, trung vị không phải là bị ảnh hưởng bởi ngoại lệ. VÍ DỤ 4.2 Tìm Chi phí Trung bình cho mỗi Đơn hàng Trong cơ sở dữ liệu Đơn đặt hàng, hãy sắp xếp dữ liệu trong có thể kết luận rằng tổng chi phí của một nửa số đơn đặt hàng Cột G từ nhỏ nhất đến lớn nhất. Vì chúng ta có 94 quan sát nên ít hơn $15.656,25 và một nửa cao hơn số tiền này. trung vị là giá trị trung bình của quan sát thứ 47 và 48. Bạn Trong trường hợp này, giá trị trung bình không gần với giá trị nên xác minh rằng quan sát được sắp xếp thứ 47 là $15.562,50 và trung bình. Các phép tính này được hiển thị trong trang tính quan sát thứ 48 là $15.750. Lấy giá trị trung bình của hai Trung bình trong sổ làm việc Đơn đặt hàng mua Excel, như thể giá trị này dẫn đến giá trị trung bình là ($15.562,5 + $15.750) hiện trong Hình 4.3. 2 = $15.656,25. Vì vậy, chúng tôi Machine Translated by Google Chương 4 Các biện pháp thống kê mô tả 99 Hình 4.3 Tính toán Excel cho Chi phí trung bình cho mỗi đơn đặt hàng Cách thức Một biện pháp thứ ba của vị trí là chế độ. Chế độ là quan sát xảy ra thường xuyên nhất. Chế độ này hữu ích nhất cho các tập dữ liệu chứa một số lượng tương đối nhỏ các giá trị duy nhất. Đối với các tập dữ liệu có ít giá trị lặp lại, chế độ không mang lại nhiều giá trị thực tế. Bạn có thể dễ dàng xác định chế độ từ phân phối tần số bằng cách xác định giá trị có tần số lớn nhất hoặc từ biểu đồ bằng cách xác định thanh cao nhất. Bạn cũng có thể sử dụng hàm MODE.SNGL(phạm vi dữ liệu) của Excel. Đối với phân phối tần suất và biểu đồ của dữ liệu được nhóm, chế độ là nhóm có tần suất lớn nhất. VÍ DỤ 4.3 Tìm Chế độ Trong cơ sở dữ liệu Đơn đặt hàng, phân phối tần suất và biểu đồ cho Do đó, chế độ là 30 tháng. Đối với phân phối tần suất được nhóm và Điều khoản A/P trong Hình 3.40 ở Chương 3, chúng ta thấy rằng tần suất biểu đồ của biến Chi phí cho mỗi đơn hàng trong Hình 3.42, chúng ta lớn nhất tương ứng với giá trị 30 tháng; đây cũng là thanh cao nhất thấy rằng chế độ tương ứng với nhóm từ 0 đô la đến 13.000 đô la. trong biểu đồ. Một số bộ dữ liệu có nhiều chế độ; để xác định những điều này, bạn có thể sử dụng hàm MODE.MULT(phạm vi dữ liệu) của Excel, trả về một mảng các giá trị phương thức. tầm trung Thước đo vị trí thứ tư thỉnh thoảng được sử dụng là tầm trung. Đây chỉ đơn giản là giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu. VÍ DỤ 4.4 Tính toán dải trung Chúng tôi có thể xác định các giá trị tối thiểu và tối đa bằng cách sử giá trị là $68,78 và giá trị tối đa là $127.500. Do đó, mức trung bình dụng các hàm Excel MIN và MAX hoặc sắp xếp dữ liệu và tìm thấy chúng dễ là ($127.500 + $68,78) 2 = $63.784,39. dàng. Đối với dữ liệu Chi phí trên mỗi đơn đặt hàng, giá trị tối thiểu Machine Translated by Google 100 Chương 4 Các biện pháp thống kê mô tả Cần phải thận trọng khi sử dụng dải trung bình vì các giá trị cực đoan dễ làm sai lệch kết quả, như minh họa trong ví dụ này. Điều này là do dải trung chỉ sử dụng hai phần dữ liệu, trong khi mức trung bình sử dụng tất cả dữ liệu; do đó, nó thường là một ước tính thô hơn nhiều so với giá trị trung bình và thường chỉ được sử dụng cho các cỡ mẫu nhỏ. Sử dụng thước đo vị trí trong các quyết định kinh doanh Bởi vì mọi người đã quá quen thuộc với khái niệm trung bình trong cuộc sống hàng ngày, các nhà quản lý thường sử dụng giá trị trung bình một cách không thích hợp trong kinh doanh khi các thông tin thống kê khác cần được xem xét. Ví dụ giả định sau đây, dựa trên một tình huống thực tế, minh họa điều này. VÍ DỤ 4.5 Báo giá thời gian sửa chữa máy tính Tệp Excel Thời gian sửa chữa máy tính cung cấp một ví dụ về tab biểu đồ trong tệp Excel). Chúng tôi thấy rằng thời gian sửa thời gian sửa chữa và trả lại 250 máy tính cho khách hàng đã sử chữa lâu nhất mất gần 6 tuần. Vì vậy, công ty có nên cung cấp dụng dịch vụ sửa chữa của một nhà bán lẻ điện tử quốc gia. cho khách hàng thời gian sửa chữa được đảm bảo trong 6 tuần không? Máy tính được vận chuyển đến cơ sở trung tâm, nơi chúng được Họ có thể sẽ không có nhiều khách hàng vì ít người muốn đợi lâu sửa chữa và sau đó được vận chuyển trở lại cửa hàng để khách như vậy. Thay vào đó, phân phối tần số và biểu đồ cung cấp cái hàng đến lấy. Giá trị trung bình, trung vị và chế độ đều rất nhìn sâu sắc để đưa ra quyết định hợp lý hơn. Bạn có thể xác gần nhau và cho thấy thời gian sửa chữa điển hình là khoảng 2 minh rằng 90% thời gian, việc sửa chữa được hoàn thành trong tuần (xem Hình 4.4). Vì vậy, bạn có thể nghĩ rằng nếu một khách vòng 21 ngày; trong những trường hợp hiếm hoi mất nhiều thời hàng mang máy tính đến để sửa chữa, thì việc báo giá thời gian hơn, điều đó thường có nghĩa là các kỹ thuật viên phải đặt gian sửa chữa là 2 tuần là hợp lý. Điều gì sẽ xảy ra nếu các hàng và đợi một bộ phận. Vì vậy, sẽ hợp lý nếu nói với khách cửa hàng trích dẫn tất cả khách hàng trong thời gian 2 tuần? hàng rằng họ có thể mong đợi máy tính của mình hoạt động trở Rõ ràng là khoảng một nửa số khách hàng sẽ khó chịu vì máy tính lại trong vòng 2 đến 3 tuần và thông báo với họ rằng có thể mất của họ không được hoàn thành vào thời điểm này. nhiều thời gian hơn nếu cần một bộ phận đặc biệt. Hình 4.5 cho thấy một phần phân phối tần số và biểu đồ cho những lần sửa chữa này (xem Từ ví dụ này, chúng tôi thấy rằng việc sử dụng phân phối tần suất, biểu đồ và phần trăm ô có thể cung cấp nhiều thông tin hữu ích hơn so với các phép đo vị trí đơn giản. Điều này khiến chúng tôi giới thiệu các cách định lượng tính biến thiên của dữ liệu, mà chúng tôi gọi là các biện pháp phân tán. Hình 4.4 Biện pháp Vị trí cho Thời Gian Sửa Chữa Máy Tính Machine Translated by Google Chương 4 Các biện pháp thống kê mô tả 101 Hình 4.5 Phân phối tần số và biểu đồ cho thời gian sửa chữa máy tính Các biện pháp phân tán Độ phân tán đề cập đến mức độ thay đổi trong dữ liệu, nghĩa là độ phân tán số (hoặc độ nén) của dữ liệu. Một số biện pháp thống kê đặc trưng cho sự phân tán: phạm vi, phương sai và độ lệch chuẩn. Phạm vi Phạm vi là đơn giản nhất và là sự khác biệt giữa giá trị tối đa và giá trị tối thiểu trong tập dữ liệu. Mặc dù Excel không cung cấp hàm cho phạm vi, nhưng nó có thể được tính dễ dàng bằng công thức MAX(dải dữ liệu) - MIN(dải dữ liệu). Giống như tầm trung, phạm vi bị ảnh hưởng bởi các ngoại lệ và do đó, thường chỉ được sử dụng cho các tập dữ liệu rất nhỏ. VÍ DỤ 4.6 Tính Phạm vi Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng trong cơ sở dữ giá trị tối đa là $127,500. Do đó, phạm vi là $127.500 liệu Đơn đặt hàng, giá trị tối thiểu là $68,78 và $68,78 = $127.431,22. Phạm vi liên vùng Sự khác biệt giữa phần tư thứ nhất và phần tư thứ ba, Q3 - Q1 , thường được gọi là phạm vi giữa các phần tư (IQR) hoặc khoảng cách giữa. Điều này chỉ bao gồm 50% dữ liệu ở giữa và do đó, không bị ảnh hưởng bởi các giá trị cực trị. Do đó, đôi khi nó được sử dụng như một biện pháp phân tán thay thế. Machine Translated by Google 102 Chương 4 Các biện pháp thống kê mô tả VÍ DỤ 4.7 Tính Khoảng tứ phân vị Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng, chúng tôi đã xác tập trung trong một phạm vi tương đối nhỏ là $20.835,94. định phần tư thứ nhất và thứ ba là Q1 = $6.757,81 và Q3 = $27.593,75 Lưu ý rằng 25% trên của dữ liệu nằm trong phạm vi từ 27.593,75 trong Ví dụ 3.25. Do đó, IQR = $27.593,75 $6.757,81 = $20.835,94. Do đó, 50% dữ liệu ở giữa là USD đến 127.500 USD, cho thấy rằng chi phí cao cho mỗi đơn đặt hàng trải rộng trên một phạm vi lớn là 99.906,25 USD. phương sai Một phép đo độ phân tán được sử dụng phổ biến hơn là phương sai, tính toán của nó phụ thuộc vào tất cả dữ liệu. Phương sai càng lớn, dữ liệu càng được trải ra từ giá trị trung bình và người ta có thể mong đợi nhiều biến thiên hơn trong các quan sát. Công thức được sử dụng để tính phương sai là khác nhau đối với quần thể và mẫu. Công thức tính phương sai của quần thể là N 2 Một 1xi - m22 tôi 1 N (4.4) trong đó xi là giá trị của mục thứ i, N là số lượng mục trong tổng thể và m là giá trị trung bình của tổng thể. Về cơ bản, phương sai là giá trị trung bình của bình phương độ lệch của các quan sát so với giá trị trung bình. Có sự khác biệt đáng kể giữa các công thức tính toán phương sai của tổng thể và của mẫu. Phương sai của một mẫu được tính theo công thức N Một 1xi - x22 s2 tôi 1 n - 1 (4.5) trong đó n là số mục trong mẫu và x là giá trị trung bình của mẫu. Việc sử dụng một mẫu số khác để lấy “trung bình” bình phương độ lệch so với giá trị trung bình đối với tổng thể và mẫu có vẻ hơi lạ, nhưng các nhà thống kê đã chỉ ra rằng công thức cho phương sai mẫu cung cấp một biểu diễn chính xác hơn về phương sai thực của tổng thể. Chúng ta sẽ thảo luận vấn đề này một cách chính thức hơn trong Chương 6. Hiện tại, chỉ cần hiểu rằng các tính toán thích hợp về tổng thể và phương sai mẫu sử dụng các mẫu số khác nhau dựa trên số lượng quan sát trong dữ liệu. Hàm Excel VAR.S(phạm vi dữ liệu) có thể được sử dụng để tính toán phương sai mẫu, s2 , trong khi hàm Excel VAR.P(phạm vi dữ liệu) được sử dụng để tính toán phương sai 2 của tổng thể, . VÍ DỤ 4.8 Tính Phương sai Hình 4.6 cho thấy một phần của trang tính Excel Variance trong bình phương những khác biệt này, như thể hiện trong cột D. Cuối sổ làm việc Đơn đặt hàng. Để tìm phương sai của chi phí trên mỗi cùng, cộng các bình phương độ lệch này (ô D96) và chia cho n đơn đặt hàng bằng công thức (4.5), trước tiên chúng ta cần tính = 93. Điều này dẫn đến phương sai 890.594.573,82. giá trị trung bình, như được thực hiện trong Ví dụ 4.1. Sau đó, Ngoài ra, hàm Excel =VAR.S(B2:B95) cũng cho kết quả tương tự. đối với mỗi quan sát, tính toán sự khác biệt giữa quan sát và giá trị trung bình, như thể hiện trong cột C. Tiếp theo, 1 Machine Translated by Google 103 Chương 4 Các biện pháp thống kê mô tả Hình 4.6 Tính toán Excel cho Phương sai của chi phí trên mỗi Đặt hàng Lưu ý rằng thứ nguyên của phương sai là bình phương của thứ nguyên của các quan sát. Vì vậy, ví dụ, phương sai của chi phí cho mỗi đơn đặt hàng không được biểu thị bằng đô la, mà bằng đô la bình phương. Điều này gây khó khăn cho việc sử dụng phương sai trong các ứng dụng thực tế. Tuy nhiên, một biện pháp liên quan chặt chẽ đến phương sai có thể được sử dụng trong các ứng dụng thực tế là độ lệch chuẩn. Độ lệch chuẩn Độ lệch chuẩn là căn bậc hai của phương sai. Đối với một dân số, độ lệch chuẩn được tính là N Một 1xi - m22 tôi 1 N (4.6) và đối với các mẫu, nó là N 1xi - x22 tôi 1 s H một n - 1 (4.7) Hàm Excel STDEV.P(phạm vi dữ liệu) tính toán độ lệch chuẩn cho cửa sổ bật lên phỏng 1 2; hàm STDEV.S(phạm vi dữ liệu) tính toán nó cho (các) mẫu. VÍ DỤ 4.9 Tính Độ Lệch Chuẩn Chúng ta có thể sử dụng các tính toán trang tính tương tự như trong Ví dụ 4.8. Tất cả những gì chúng ta cần làm là lấy căn là 2890.594.573,82 = 29.842,8312 USD. Ngoài ra, chúng ta có thể sử dụng hàm Excel =STDEV.S(B2:B95) để tìm giá trị tương tự. bậc hai của phương sai đã tính để tìm độ lệch chuẩn. Do đó, độ lệch chuẩn của chi phí trên mỗi đơn hàng Độ lệch chuẩn thường dễ diễn giải hơn phương sai vì đơn vị đo của nó giống với đơn vị của dữ liệu. Do đó, nó có thể dễ dàng liên quan đến giá trị trung bình hoặc các số liệu thống kê khác được đo bằng cùng một đơn vị. Độ lệch chuẩn là một thước đo rủi ro phổ biến, đặc biệt là trong phân tích tài chính, bởi vì nhiều người liên kết rủi ro với sự biến động của giá cổ phiếu. độ lệch chuẩn Machine Translated by Google 104 Chương 4 Các biện pháp thống kê mô tả Hình 4.7 Đóng tệp Excel Giá cổ phiếu đo lường xu hướng lợi nhuận hàng tháng của một quỹ thay đổi so với mức trung bình dài hạn của quỹ (như Fortune đã nêu trong một số báo của mình, “... độ lệch chuẩn cho bạn biết điều gì sẽ xảy ra trong cách giảm và tăng. Nó cho bạn biết mức độ sợ hãi bạn sẽ như vậy.”).1 Ví dụ: lợi nhuận của một quỹ tương hỗ có thể đạt trung bình 11% với độ lệch chuẩn là 10%. Do đó, khoảng hai phần ba thời gian lợi tức hàng tháng hàng năm nằm trong khoảng từ 1% đến 21%. Ngược lại, lợi nhuận trung bình của một quỹ khác có thể là 14% nhưng có độ lệch chuẩn là 20%. Lợi nhuận của nó sẽ giảm trong khoảng từ -6% đến 34% và do đó, rủi ro hơn. Nhiều trang web tài chính, chẳng hạn như IFA.com và Morningstar.com, cung cấp những sai lệch tiêu chuẩn cho các chỉ số thị trường và quỹ tương hỗ. Ví dụ: tệp Excel Giá Đóng cửa Cổ phiếu (xem Hình 4.7) liệt kê giá đóng cửa hàng ngày của bốn cổ phiếu và chỉ số Trung bình Công nghiệp Dow Jones trong khoảng thời gian 1 tháng. Giá đóng cửa trung bình của Intel (INTC) và General Electric (GE) khá giống nhau, lần lượt là 18,81 đô la và 16,19 đô la. Tuy nhiên, độ lệch chuẩn của giá Intel trong khung thời gian này là 0,5 đô la, trong khi của GE là 0,35 đô la. GE có ít biến động hơn và do đó, ít rủi ro hơn. Độ lệch chuẩn lớn hơn ngụ ý rằng trong khi tiềm năng lớn hơn về lợi nhuận cao hơn tồn tại, thì cũng có nhiều rủi ro hơn khi nhận được lợi nhuận thấp hơn. Nhiều ấn phẩm đầu tư và các trang web cung cấp độ lệch chuẩn của cổ phiếu và quỹ tương hỗ để giúp các nhà đầu tư đánh giá rủi ro theo cách này. Chúng ta tìm hiểu thêm về rủi ro trong các chương khác. Định lý Chebyshev và các Quy tắc Thực nghiệm Một trong những kết quả quan trọng hơn trong thống kê là định lý Chebyshev, phát biểu rằng đối với bất kỳ tập hợp dữ liệu nào, tỷ lệ các giá trị nằm trong k độ lệch chuẩn 1k 7 12 của nghĩa là ít nhất 1 - 1>k2 . Do đó, đối với k 2, ít nhất 3/4, hay 75%, dữ liệu nằm trong hai độ lệch chuẩn của giá trị trung bình; đối với k 3, ít nhất 8/9 hoặc 89% dữ liệu nằm trong ba độ lệch chuẩn của giá trị trung bình. Chúng ta có thể sử dụng các giá trị này để cung cấp hiểu biết cơ bản về biến thể trong một tập hợp dữ liệu chỉ bằng cách sử dụng giá trị trung bình được tính toán và độ lệch chuẩn. 1Fortune magazine 1999 Investor's Guide (số ra ngày 21 tháng 12 năm 1998). Machine Translated by Google 105 Chương 4 Các biện pháp thống kê mô tả VÍ DỤ 4.10 Áp dụng Định lý Ch Quashev Đối với dữ liệu Chi phí trên mỗi đơn đặt hàng trong cơ sở dữ Khoảng ba độ lệch chuẩn là [ - $63.233,17, $115.823,81] và liệu Đơn đặt hàng, khoảng hai độ lệch chuẩn xung quanh giá trị chúng tôi thấy rằng 92 trên 94, hay 97,9%, nằm trong khoảng trung bình là [$33.390,34, $85.980,98]. Nếu chúng ta đếm số này. Cả hai đều trên ít nhất 75% và ít nhất 89% Định lý quan sát trong khoảng này, chúng ta sẽ thấy rằng 89 trên 94, Chebyshev. hay 94,68%, nằm trong hai độ lệch chuẩn của giá trị trung bình. Đối với nhiều bộ dữ liệu gặp phải trong thực tế, chẳng hạn như dữ liệu Chi phí trên mỗi đơn hàng, tỷ lệ phần trăm thường cao hơn nhiều so với định lý của Chebyshev chỉ định. Những điều này được phản ánh trong cái được gọi là các quy tắc thực nghiệm: 1. Khoảng 68% các quan sát sẽ nằm trong một độ lệch chuẩn của giá trị trung bình, hoặc giữa x - s và x + s. 2. Khoảng 95% các quan sát sẽ nằm trong khoảng hai độ lệch chuẩn của giá trị trung bình hoặc trong khoảng x { 2s. 3. Khoảng 99,7% các quan sát sẽ nằm trong ba tiêu chuẩn độ lệch của giá trị trung bình, hoặc trong x { 3s. Chúng tôi thấy rằng dữ liệu Chi phí trên mỗi đơn hàng phản ánh khá chặt chẽ các quy tắc thực nghiệm này. Tùy thuộc vào dữ liệu và hình dạng phân bố tần suất, tỷ lệ phần trăm thực tế có thể cao hơn hoặc thấp hơn. Hai hoặc ba độ lệch chuẩn xung quanh giá trị trung bình thường được sử dụng để mô tả tính biến thiên của hầu hết các bộ dữ liệu thực tế. Ví dụ: giả sử một nhà bán lẻ biết rằng trung bình một đơn đặt hàng được vận chuyển bằng đường bộ tiêu chuẩn trong 8 ngày với độ lệch chuẩn là 1 ngày. Do đó, sử dụng quy tắc thực nghiệm thứ hai, nhà bán lẻ có thể tự tin nói với khách hàng rằng gói hàng của họ sẽ đến trong vòng 6 đến 10 ngày. Một ví dụ khác, điều quan trọng là phải đảm bảo rằng đầu ra từ quy trình sản xuất đáp ứng các thông số kỹ thuật mà các kỹ sư và nhà thiết kế yêu cầu. Kích thước cho một bộ phận được sản xuất điển hình thường được chỉ định bởi giá trị mục tiêu hoặc lý tưởng cũng như dung sai hoặc "yếu tố sai lệch", thừa nhận rằng sự thay đổi sẽ tồn tại trong hầu hết các quy trình sản xuất do các yếu tố như vật liệu, máy móc, phương pháp làm việc, hiệu suất của con người, điều kiện môi trường, v.v. Ví dụ: kích thước một bộ phận có thể được chỉ định là 5,00 { 0,2 cm. Điều này đơn giản có nghĩa là một bộ phận có kích thước từ 4,80 đến 5,20 cm sẽ được chấp nhận; bất cứ điều gì bên ngoài phạm vi này sẽ được phân loại là khiếm khuyết. Để đo lường mức độ hiệu quả của một quy trình sản xuất có thể đạt được các thông số kỹ thuật, chúng tôi thường lấy một mẫu đầu ra, đo kích thước, tính toán tổng biến thiên bằng cách sử dụng quy tắc thực nghiệm thứ ba (nghĩa là ước tính tổng biến thiên theo sáu độ lệch chuẩn), sau đó so sánh dẫn đến các thông số kỹ thuật bằng cách chia phạm vi thông số kỹ thuật cho tổng biến thể. Kết quả được gọi là chỉ số khả năng xử lý, ký hiệu là Cp: CP thông số kỹ thuật trên - thông số kỹ thuật thấp hơn tổng số biến thể (4.8) Các nhà sản xuất sử dụng chỉ số này để đánh giá chất lượng sản phẩm của họ và xác định khi nào họ cần cải thiện quy trình của mình. Machine Translated by Google 106 Chương 4 Các biện pháp thống kê mô tả VÍ DỤ 4.11 Sử dụng Quy tắc Thực nghiệm để Đo lường Khả năng của Quy trình Sản xuất Hình 4.8 cho thấy một phần dữ liệu được thu thập từ quy trình Hình 4.9 cho thấy sự phân bố tần suất và biểu đồ của sản xuất cho một bộ phận có kích thước được chỉ định là 5,00 những dữ liệu này (biểu đồ biểu đồ trong sổ làm việc Phép đo ± 0,2 cm. Chúng được cung cấp trong Sổ làm việc Excel Phép đo sản xuất). Lưu ý rằng các giá trị bin đại diện cho các giới Sản xuất. hạn trên của các nhóm trong gam lịch sử; do đó, 3 quan sát Giá trị trung bình và độ lệch chuẩn trước tiên được tính toán giảm xuống bằng hoặc thấp hơn 4,8, giới hạn thông số kỹ thuật trong các ô J3 và J4 bằng cách sử dụng các hàm AVERAGE và thấp hơn. Ngoài ra, 5 quan sát vượt quá giới hạn thông số kỹ STDEV.S của Excel (các hàm này hoạt động chính xác cho dù dữ thuật trên là 5.2. Do đó, 8 trong số 200 quan sát, hay 4%, liệu được sắp xếp trong một cột hay ở dạng ma trận). thực sự bị lỗi và 96% có thể chấp nhận được. Mặc dù điều này Sau đó, tổng biến thể được tính bằng giá trị trung bình cộng không đáp ứng chính xác quy tắc thực nghiệm, nhưng bạn phải hoặc trừ ba độ lệch chuẩn. Trong ô J14, Cp được tính bằng nhớ rằng chúng ta đang xử lý dữ liệu mẫu. Các mẫu khác từ cùng công thức (4.8). Giá trị Cp nhỏ hơn 1,0 là không tốt; điều đó một quy trình sẽ có các đặc điểm khác nhau, nhưng nhìn chung, có nghĩa là sự thay đổi trong quy trình rộng hơn giới hạn quy tắc thực nghiệm cung cấp ước tính tốt về tổng biến thể thông số kỹ thuật, cho thấy rằng một số bộ phận sẽ không đáp trong dữ liệu mà chúng ta có thể mong đợi từ bất kỳ mẫu nào. ứng các thông số kỹ thuật. Trong thực tế, nhiều nhà sản xuất muốn có giá trị Cp ít nhất là 1,5. Hình 4.8 Cách tính chỉ số Cp Hình 4.9 Phân phối tần số và Biểu đồ sản xuất Đo Machine Translated by Google 107 Chương 4 Các biện pháp thống kê mô tả Giá trị chuẩn hóa Một giá trị tiêu chuẩn hóa, thường được gọi là -score, cung cấp thước đo tương đối về khoảng cách mà một quan sát so với giá trị trung bình, không phụ thuộc vào các đơn vị đo lường. Điểm số z cho lần quan sát thứ i trong tập dữ liệu được tính như sau: tử xi - x S (4.9) Chúng tôi trừ đi giá trị trung bình của mẫu từ lần quan sát thứ i, xi và chia kết quả cho độ lệch chuẩn của mẫu. Trong công thức (4.9), tử số là khoảng cách mà xi là từ trung bình mẫu; giá trị âm cho biết xi nằm bên trái giá trị trung bình và giá trị dương cho biết xi nằm bên phải giá trị trung bình. Bằng cách chia cho độ lệch chuẩn, s, chúng ta chia tỷ lệ khoảng cách từ giá trị trung bình để biểu thị nó theo đơn vị độ lệch chuẩn. Do đó, điểm số z là 1,0 có nghĩa là quan sát là một độ lệch chuẩn ở bên phải của giá trị trung bình; z-score -1,5 có nghĩa là quan sát lệch chuẩn 1,5 lần so với giá trị trung bình. Do đó, mặc dù hai bộ dữ liệu có thể có các phương tiện và độ lệch chuẩn khác nhau, nhưng cùng một điểm số z có nghĩa là các quan sát có cùng khoảng cách tương đối so với các phương tiện tương ứng của chúng. Điểm Z có thể được tính toán dễ dàng trên bảng tính; tuy nhiên, Excel có một hàm tính toán trực tiếp, STANDARDIZE(x, mean, standard_dev). VÍ DỤ 4.12 Điện toán -Điểm Hình 4.10 cho thấy các phép tính -scores cho một phần của dữ được tính là =STANDARDIZE(B2,$B$97,$B$98). liệu Chi phí trên mỗi đơn hàng. Trang tính này có thể được tìm Do đó, quan sát đầu tiên $2.700 là 0,79 độ lệch chuẩn dưới thấy trong sổ làm việc Đơn đặt hàng dưới dạng điểm z. Trong mức trung bình, trong khi quan sát 92 là 1,61 độ lệch chuẩn các ô B97 và B98, chúng tôi tính toán giá trị trung bình và độ trên mức trung bình. Chỉ có hai quan sát (x19 và x8) lớn hơn lệch chuẩn bằng cách sử dụng hàm AVERAGE và STDEV.S của 3 độ lệch chuẩn so với giá trị trung bình. Chúng ta đã thấy Excel. Trong cột C, chúng ta có thể sử dụng công thức (4.9) điều này trong Ví dụ 4.10 khi chúng ta áp dụng định lý hoặc hàm STANDARDIZE của Excel. Ví dụ: hàm for trong ô C2 là Chebyshev cho dữ liệu. =(B2$B$97) $B$98, nhưng nó cũng có thể Hình 4.10 Máy tính -Điểm số cho dữ liệu chi phí trên mỗi đơn hàng Machine Translated by Google 108 Chương 4 Các biện pháp thống kê mô tả Hình 4.11 tính toán hệ số của Biến thể để đóng Giá cổ phiếu Hệ số biến thiên Hệ số biến thiên (CV) cung cấp thước đo tương đối về độ phân tán trong dữ liệu so với giá trị trung bình và được định nghĩa là độ lệch chuẩn sơ yếu lý lịch (4.10) nghĩa là Đôi khi hệ số biến thiên được nhân với 100 để biểu thị nó dưới dạng phần trăm. Thống kê này hữu ích khi so sánh tính biến thiên của hai hoặc nhiều tập dữ liệu khi thang đo của chúng khác nhau. Hệ số biến thiên cung cấp thước đo tương đối về rủi ro hoàn trả. Hệ số biến thiên càng nhỏ thì rủi ro tương đối đối với lợi tức được cung cấp càng nhỏ. Nghịch đảo của hệ số biến thiên, được gọi là tỷ suất sinh lợi trên rủi ro, thường được sử dụng vì nó dễ diễn giải hơn. Nghĩa là, nếu mục tiêu là tối đa hóa lợi nhuận, tỷ lệ lợi nhuận trên rủi ro cao hơn thường được coi là tốt hơn. Một thước đo liên quan trong lĩnh vực tài chính là tỷ lệ Sharpe, là tỷ lệ giữa lợi nhuận vượt mức của quỹ (tổng lợi nhuận hàng năm trừ lợi nhuận tín phiếu kho bạc) so với độ lệch chuẩn của nó. Nếu một số cơ hội đầu tư có cùng giá trị trung bình nhưng phương sai khác nhau, thì một nhà đầu tư hợp lý (không thích rủi ro) sẽ chọn cơ hội có phương sai nhỏ nhất.2 Cách tiếp cận này để chính thức hóa rủi ro là cơ sở cho lý thuyết danh mục đầu tư hiện đại, tìm cách xây dựng danh mục đầu tư phương sai tối thiểu. Như tạp chí Fortune đã từng nhận xét: “Không phải rủi ro lúc nào cũng xấu. . . . Chỉ là khi bạn mạo hiểm với số tiền của mình, bạn muốn được trả tiền cho nó.” 3 Một ứng dụng thực tế của hệ số biến thiên là so sánh giá cổ phiếu. VÍ DỤ 4.13 Áp dụng hệ số biến thiên Ví dụ: bằng cách chỉ kiểm tra độ lệch chuẩn trong bảng tính Giá các biến này. Đối với IBM, CV là 0,025; đối với Intel là 0,027; cổ phiếu đóng cửa, chúng ta có thể kết luận rằng IBM rủi ro hơn đối với Cisco là 0,024; đối với GE là 0,022; và đối với DJIA, 0,016. các cổ phiếu khác. Tuy nhiên, giá cổ phiếu trung bình của IBM Ta thấy hệ số biến thiên của các cổ phiếu chênh lệch nhau không lớn hơn nhiều so với các cổ phiếu khác. Vì vậy, so sánh độ lệch lớn; trên thực tế, Intel chỉ rủi ro hơn IBM một chút so với mức chuẩn trực tiếp cung cấp ít thông tin. Hệ số biến thiên cung cấp giá trung bình của nó. Tuy nhiên, một quỹ chỉ số dựa trên Dow một thước đo có thể so sánh hơn. Hình 4.11 cho thấy các tính Industrials sẽ ít rủi ro hơn bất kỳ cổ phiếu riêng lẻ nào. toán của các hệ số biến thiên cho 2David G. Luenberger, Khoa học Đầu tư (New York: Oxford University Press, 1998). Tạp chí 3Fortune 1999 Investor's Guide (số ra ngày 21 tháng 12 năm 1998). Machine Translated by Google 109 Chương 4 Các biện pháp thống kê mô tả Số đo hình dạng Biểu đồ của dữ liệu mẫu có thể có nhiều hình dạng khác nhau. Hình 4.12 hiển thị biểu đồ cho Chi phí trên mỗi đơn hàng và Điều khoản A/P mà chúng ta đã tạo trong Chương 3 cho dữ liệu Đơn đặt hàng. Biểu đồ cho Điều khoản A/P tương đối đối xứng, có giá trị phương thức ở giữa và giảm dần khỏi trung tâm theo cùng một kiểu ở hai bên. Tuy nhiên, biểu đồ Chi phí cho mỗi đơn đặt hàng không đối xứng hoặc bị lệch; nghĩa là, phần lớn khối lượng được tập trung vào một bên và sự phân bổ các giá trị “đuổi đuôi” sang bên kia. Những cái đuôi lệch về bên phải, như ví dụ này, được gọi là lệch dương; những cái đuôi lệch về bên trái được cho là bị lệch âm. Skewness mô tả sự thiếu đối xứng của dữ liệu. Hệ số lệch (CS) đo lường mức độ bất đối xứng của các quan sát xung quanh giá trị trung bình. Hệ số xiên được tính như 1 CS N Một 1xi - m23 tôi 1 3 (4.11) Đối với dữ liệu mẫu, hãy thay thế giá trị trung bình tổng thể và độ lệch chuẩn bằng thống kê mẫu tương ứng. Mặc dù CS có thể được tính toán trên bảng tính, nhưng có thể dễ dàng tìm thấy nó bằng cách sử dụng hàm SKEW(phạm vi dữ liệu) của Excel. Nếu CS dương, thì sự phân bố của các giá trị bị lệch dương; nếu âm, nó bị lệch âm. CS càng gần 0 thì mức độ lệch càng ít. Hệ số độ lệch lớn hơn 1 hoặc nhỏ hơn -1 cho thấy mức độ lệch cao. Giá trị nằm trong khoảng từ 0,5 đến 1 hoặc từ -0,5 đến -1 thể hiện độ lệch vừa phải. Các hệ số từ 0,5 đến -0,5 biểu thị tính đối xứng tương đối. VÍ DỤ 4.14 Đo độ nghiêng Sử dụng hàm Excel trong cơ sở dữ liệu Đơn đặt hàng Điều này cho chúng tôi biết rằng dữ liệu Chi phí trên mỗi đơn hàng rất cao SKEW, các hệ số về độ lệch cho dữ liệu Chi phí trên mỗi đơn lệch dương, trong khi dữ liệu Điều khoản A/P có độ lệch dương hàng và Điều khoản A/P được tính như sau nhỏ. Đây là điều hiển nhiên từ histo gram trong Hình 4.12. CS (giá mỗi đơn hàng) = 1,66 CS (thuật ngữ AP) = 0,60 Hình 4.12 Biểu đồ chi phí trên mỗi đơn đặt hàng và Điều khoản A/P Machine Translated by Google 110 Chương 4 Các biện pháp thống kê mô tả Hình 4.13 Đặc điểm của Xiên phân phối Nghĩa là Trung bình Cách thức Cách thức Trung bình Nghĩa là Biểu đồ chỉ có một "đỉnh" được gọi là đơn thức. (Nếu một biểu đồ có chính xác hai đỉnh, chúng tôi gọi nó là lưỡng cực. Điều này thường biểu thị một hỗn hợp các mẫu từ các quần thể khác nhau.) Đối với các biểu đồ đơn mô thức tương đối đối xứng, chế độ là một ước tính khá tốt về giá trị trung bình. Ví dụ: chế độ cho dữ liệu Điều khoản A/P rõ ràng là 30 tháng; trung bình là 30,638 tháng. Mặt khác, đối với dữ liệu Chi phí cho mỗi đơn hàng, chế độ xảy ra trong nhóm (0, 13.000). Điểm giữa của nhóm, 6.500 đô la, có thể được sử dụng làm ước tính bằng số của chế độ, hoàn toàn không gần với giá trị trung bình thực sự là 26.295,32 đô la. Mức độ lệch cao kéo giá trị trung bình ra khỏi chế độ. So sánh các biện pháp về vị trí đôi khi có thể tiết lộ thông tin về hình dạng của sự phân bố các quan sát. Ví dụ: nếu phân phối hoàn toàn đối xứng và không theo phương thức, thì giá trị trung bình, trung vị và chế độ sẽ giống nhau. Nếu nó bị lệch âm, nhìn chung chúng ta sẽ thấy giá trị trung bình < trung vị < chế độ, trong khi độ lệch dương sẽ gợi ý rằng chế độ < trung vị < trung bình (xem Hình 4.13). Độ nhọn đề cập đến độ nhọn (nghĩa là cao, hẹp) hoặc độ phẳng (tức là ngắn, đỉnh bằng phẳng) của biểu đồ. Hệ số nhọn (CK) đo lường mức độ nhọn của một tổng thể và có thể được tính toán bằng cách sử dụng hàm Excel KURT(phạm vi dữ liệu). Hệ số nhọn được tính như 1 CK N Một 1xi - m24 tôi 1 4 (4.12) (Một lần nữa, đối với dữ liệu mẫu, hãy sử dụng số liệu thống kê mẫu thay vì các thước đo dân số.) Các phân phối có giá trị CK nhỏ hơn 3 phẳng hơn với mức độ phân tán rộng; những loại có giá trị CK lớn hơn 3 có nhiều đỉnh hơn với độ phân tán ít hơn. Độ lệch và độ nhọn có thể giúp cung cấp nhiều thông tin hơn để đánh giá rủi ro hơn là chỉ sử dụng độ lệch chuẩn. Ví dụ, cả phân phối lệch âm và lệch dương có thể có cùng độ lệch chuẩn, nhưng rõ ràng nếu mục tiêu là đạt được lợi nhuận cao, thì phân phối lệch chuẩn sẽ có xác suất cao hơn để thu được lợi nhuận lớn hơn. Độ nhọn càng cao, biểu đồ càng có nhiều diện tích ở đuôi hơn là ở giữa. Điều này có thể cho thấy tiềm năng lớn hơn dẫn đến các kết quả cực đoan và có thể là thảm họa. Công cụ thống kê mô tả Excel Excel cung cấp một công cụ hữu ích để phân tích dữ liệu cơ bản, Thống kê mô tả, cung cấp tóm tắt các biện pháp thống kê số mô tả vị trí, độ phân tán và hình dạng cho dữ liệu mẫu (không phải tổng thể). Bấm vào Phân tích dữ liệu trong nhóm Phân tích dưới tab Dữ liệu trong thanh menu Excel. Chọn Thống kê mô tả từ danh sách công cụ. Hộp thoại Thống kê mô tả như trong Hình 4.14 sẽ xuất hiện. Bạn chỉ cần nhập phạm vi dữ liệu, phải nằm trong một hàng hoặc một cột. Nếu dữ liệu nằm trong nhiều cột, thì công cụ sẽ coi mỗi hàng hoặc cột là một tập dữ liệu riêng biệt, tùy thuộc vào việc bạn chỉ định. Điều này có nghĩa là nếu bạn có một tập dữ liệu duy nhất được sắp xếp theo ma trận Machine Translated by Google Chương 4 Các biện pháp thống kê mô tả 111 Hình 4.14 Hộp thoại thống kê mô tả định dạng, bạn sẽ phải xếp dữ liệu vào một cột trước khi áp dụng công cụ Thống kê mô tả. Chọn hộp Nhãn trong Hàng đầu tiên nếu nhãn được bao gồm trong phạm vi đầu vào. Bạn có thể chọn lưu kết quả trong trang tính hiện tại hoặc trong trang tính mới. Đối với thống kê tóm tắt cơ bản, hãy chọn hộp Thống kê tóm tắt; bạn không cần phải kiểm tra bất kỳ người nào khác. VÍ DỤ 4.15 Sử dụng Công cụ Thống kê Mô tả Chúng tôi sẽ áp dụng công cụ Thống kê mô tả cho dữ liệu Chi phí sổ làm việc Đơn đặt hàng và được hiển thị trong Hình 4.15. Công trên mỗi đơn hàng và Điều khoản A/P trong các cột G và H của cơ cụ này cung cấp tất cả các phép đo mà chúng ta đã thảo luận cũng sở dữ liệu Đơn đặt hàng. Các kết quả được cung cấp trong trang như sai số chuẩn mà chúng ta đã thảo luận trong Chương 6, cùng tính Thống kê mô tả trong Mua hàng với giá trị nhỏ nhất, giá trị lớn nhất, tổng và số đếm. Một điểm quan trọng cần lưu ý về việc sử dụng các công cụ trong các hàm Analysis Toolpak ver sus Excel là trong khi các hàm Excel tự động thay đổi khi dữ liệu trong bảng tính được thay đổi, kết quả của các công cụ Analysis Toolpak thì không. Ví dụ: nếu bạn tính trực tiếp giá trị trung bình của một dãy số bằng cách sử dụng hàm AVERAGE(dải ô), thì việc thay đổi dữ liệu trong dãy số sẽ tự động cập nhật kết quả. Tuy nhiên, bạn sẽ phải chạy lại công cụ Thống kê mô tả sau khi thay đổi dữ liệu. Hình 4.15 Dữ liệu đơn đặt hàng Thống kê mô tả Bản tóm tắt Machine Translated by Google 112 Chương 4 Các biện pháp thống kê mô tả Thống kê mô tả cho dữ liệu được nhóm Trong một số trường hợp, dữ liệu có thể đã được nhóm theo phân phối tần suất và chúng tôi có thể không có quyền truy cập vào dữ liệu thô. Trường hợp này thường xảy ra khi trích xuất thông tin từ cơ sở dữ liệu của chính phủ như Cục điều tra dân số hoặc Cục thống kê lao động. Trong những tình huống này, chúng tôi không thể tính giá trị trung bình hoặc phương sai bằng các công thức tiêu chuẩn. Khi dữ liệu mẫu được tóm tắt trong một phân phối tần suất, giá trị trung bình của dân số tion có thể được tính bằng cách sử dụng công thức N Mộtcố tôi định tôi 1 (4.13) N Đối với các mẫu, công thức tương tự: N Mộtcố x ở đâu Tôi định tôi 1 N (4.14) là tần suất quan sát i. Về cơ bản, chúng tôi nhân tần suất với giá trị của quan sát i, cộng chúng lại và chia cho số lượng quan sát. Chúng tôi có thể sử dụng các công thức tương tự để tính toán phương sai dân số cho dữ liệu được nhóm, N Mộtfi1xi - m22 2 tôi 1 N (4.15) và phương sai mẫu, N Mộtfi1xi - x22 s2 tôi 1 n - 1 (4.16) Để tìm độ lệch chuẩn, hãy lấy căn bậc hai của phương sai, như chúng ta đã làm trước đó. Lưu ý sự giống nhau giữa các công thức này với công thức (4.13) và (4.14). Khi nhân các giá trị theo tần suất, về cơ bản, chúng ta đang cộng các giá trị giống nhau nhiều lần. Vì vậy, chúng thực sự là những công thức giống nhau, chỉ được thể hiện khác nhau. VÍ DỤ 4.16 Tính toán các biện pháp thống kê từ phân phối tần số Trang tính Tính toán Thống kê trong sổ làm việc Thời gian Sửa trong công thức (4.14)] rồi chia cho n, tổng các tần số trong chữa Máy tính hiển thị các tính toán về giá trị trung bình và cột B, để tìm giá trị trung bình trong ô C49. phương sai bằng cách sử dụng các công thức (4.14) và (4.16) Các cột D, E và F cung cấp các tính toán cần thiết để tìm cho phân bố tần suất thời gian sửa chữa. Một phần của điều này phương sai. Chúng tôi chia tổng dữ liệu trong cột F cho n - 1 được thể hiện trong Hình 4.16. Trong cột C, chúng tôi nhân = 249 để tìm phương sai trong ô F49. tần suất với giá trị của các quan sát [tử số Machine Translated by Google Chương 4 Các biện pháp thống kê mô tả 113 Hình 4.16 Tính toán trung bình và phương sai sử dụng phân phối tần số Nếu dữ liệu được nhóm thành k ô trong một phân phối tần suất, chúng ta có thể sử dụng các phiên bản đã sửa đổi của các công thức này để ước tính giá trị trung bình và phương sai bằng cách thay thế xi bằng một giá trị đại diện (chẳng hạn như điểm giữa) cho tất cả các quan sát trong mỗi ô. VÍ DỤ 4.17 Tính toán thống kê mô tả cho phân phối tần số được nhóm Hình 4.17 cho thấy dữ liệu thu được từ Cục điều tra dân số Hoa nhóm này, chúng tôi không có thông tin để xác định giá trị tốt Kỳ cho thấy số lượng hộ gia đình chi tiền thuê nhà theo các tỷ nhất có thể là bao nhiêu. Có thể không hợp lý khi giả định điểm lệ phần trăm thu nhập khác nhau. Giả sử chúng ta muốn tính tỷ giữa giữa 50% và 100%, hoặc 75%; một giá trị hợp lý hơn có thể lệ phần trăm trung bình và độ lệch chuẩn. Vì chúng tôi không là 58% hoặc 60%. Khi xử lý thông tin không chắc chắn hoặc mơ có dữ liệu thô nên chúng tôi chỉ có thể ước tính các số liệu hồ trong các ứng dụng phân tích kinh doanh, chúng ta thường thống kê này bằng cách giả định một số giá trị đại diện cho phải đưa ra giả định tốt nhất có thể. Trong trường hợp này, mỗi nhóm. Đối với các nhóm được xác định bởi giá trị trên và chúng tôi chọn 60%. Các phép tính, được minh họa trong Hình dưới, điều này rất dễ thực hiện; chúng ta có thể sử dụng các 4.18 (bảng tính Phép tính trong sổ làm việc Dữ liệu Điều tra điểm giữa—ví dụ: 5% cho nhóm thứ nhất và 12% cho nhóm thứ hai. giá thuê nhà), cho thấy giá trị trung bình gần 30% và độ lệch Tuy nhiên, không rõ phải làm gì đối với nhóm 50% trở lên. Vì chuẩn là 17,61%. Hình 4.17 Dữ liệu thuê của Cục điều tra dân số Machine Translated by Google 114 Chương 4 Các biện pháp thống kê mô tả Hình 4.18 Dữ liệu thuê điều tra dân số phép tính Điều quan trọng là phải hiểu rằng vì chúng tôi chưa sử dụng tất cả dữ liệu gốc để tính toán các số liệu thống kê này nên chúng chỉ là ước tính của các giá trị thực. Thống kê mô tả cho dữ liệu phân loại: Tỷ lệ Các thống kê như phương tiện và phương sai không phù hợp với dữ liệu phân loại. Thay vào đó, chúng tôi thường quan tâm đến phần dữ liệu có một đặc điểm nhất định. Thước đo thống kê chính thức được gọi là tỷ lệ, thường được ký hiệu là p. Tỷ lệ là số liệu thống kê mô tả chính cho dữ liệu phân loại, chẳng hạn như khiếm khuyết hoặc sai sót trong các ứng dụng kiểm soát chất lượng hoặc sở thích của người tiêu dùng trong nghiên cứu thị trường. VÍ DỤ 4.18 Tính tỷ lệ Trong cơ sở dữ liệu Đơn đặt hàng, cột A liệt kê tên của nhà với Công nghệ thời không, chúng tôi đã sử dụng hàm cung cấp cho mỗi đơn đặt hàng. Chúng ta có thể sử dụng hàm =COUNTIF(A4:A97, “Công nghệ thời không”). Giá trị này chuyển Excel =COUNTIF(phạm vi dữ liệu, tiêu chí) để đếm số quan sát thành giá trị là 12. Vì 94 đơn hàng đã được đặt nên tỷ lệ đơn đáp ứng các đặc điểm được chỉ định. Chẳng hạn, để tìm số lượng hàng được đặt với Công nghệ Không thời gian là p = 12 94 = đơn hàng đã đặt 0,128. Điều quan trọng là phải nhận ra rằng tỷ lệ là các số từ 0 đến 1. Mặc dù chúng tôi thường chuyển đổi chúng thành tỷ lệ phần trăm—ví dụ: 12,8% đơn đặt hàng được đặt với Công nghệ Không thời gian trong ví dụ trước—chúng tôi phải cẩn thận khi sử dụng biểu thức thập phân của một tỷ lệ khi các công thức thống kê yêu cầu nó. Thống kê trong PivotTable Chúng tôi đã giới thiệu PivotTable trong Chương 3 và áp dụng chúng để tìm số đếm đơn giản và tạo các bảng chéo. PivotTable cũng có chức năng tính toán nhiều biện pháp thống kê cơ bản từ tóm tắt dữ liệu. Nếu bạn nhìn vào hộp thoại Cài đặt Trường Giá trị được hiển thị trong Hình 4.19, bạn có thể thấy rằng bạn có thể tính giá trị trung bình, độ lệch chuẩn và phương sai của một trường giá trị. Machine Translated by Google Chương 4 Các biện pháp thống kê mô tả 115 Hình 4.19 Hộp thoại Cài đặt Trường Giá trị Hình 4.20 PivotTable cho Trung bình Kiểm tra và Tiết kiệm Số dư tài khoản theo công việc VÍ DỤ 4.19 Các biện pháp thống kê trong PivotTable Trong tệp Excel Dữ liệu Rủi ro Tín dụng, giả sử rằng chúng ta và “Số tiền tiết kiệm” ở mức trung bình. Kết quả được thể hiện muốn tìm số tiền trung bình trong các tài khoản séc và tiết trong Hình 4.20; chúng tôi cũng đã định dạng các giá trị dưới kiệm theo phân loại công việc. Tạo PivotTable và trong Danh dạng đơn vị tiền tệ bằng cách sử dụng nút Định dạng Số trong sách Trường PivotTable, di chuyển Công việc sang trường Hàng La hộp thoại. Theo cách tương tự, bạn có thể tìm thấy độ lệch chuẩn bels và Kiểm tra và Tiết kiệm sang trường Giá trị. hoặc phương sai của từng nhóm bằng cách chọn cài đặt trường Sau đó, thay đổi cài đặt trường từ “Tổng kiểm tra” thích hợp. Các biện pháp của Hiệp hội Hai biến có mối quan hệ thống kê chặt chẽ với nhau nếu chúng dường như di chuyển cùng nhau. Chúng tôi thấy nhiều ví dụ hàng ngày; chẳng hạn, việc tham dự các trận đấu bóng chày thường liên quan chặt chẽ đến tỷ lệ thắng của đội và doanh số bán kem có thể có mối quan hệ chặt chẽ với nhiệt độ hàng ngày. Chúng ta có thể kiểm tra mối quan hệ giữa hai biến một cách trực quan bằng cách sử dụng biểu đồ tán xạ mà chúng ta đã giới thiệu trong Chương 3. Khi hai biến dường như có liên quan với nhau, bạn có thể nghi ngờ về mối quan hệ nhân quả. Tuy nhiên, đôi khi, các mối quan hệ thống kê vẫn tồn tại mặc dù sự thay đổi của một biến không phải do sự thay đổi của biến kia gây ra. Ví dụ, tờ New York Times đưa tin về mối quan hệ thống kê mạnh mẽ giữa khả năng chơi gôn của các CEO công ty và hiệu quả hoạt động trên thị trường chứng khoán của công ty họ trong hơn 3 năm. CEO từng là người chơi golf giỏi hơn mức trung bình Machine Translated by Google 116 Chương 4 Các biện pháp thống kê mô tả Hình 4.21 Một Phần File Excel Cao Đẳng Và Đại Học có khả năng mang lại lợi nhuận trên mức trung bình cho các cổ đông.4 Rõ ràng, khả năng chơi gôn sẽ không mang lại hiệu quả kinh doanh tốt hơn. Do đó, bạn phải thận trọng khi rút ra những suy luận về mối quan hệ nhân quả chỉ dựa trên các mối quan hệ thống kê. (Mặt khác, bạn có thể muốn dành nhiều thời gian hơn cho phạm vi luyện tập!) Hiểu được mối quan hệ giữa các biến là cực kỳ quan trọng trong việc đưa ra các quyết định kinh doanh đúng đắn, đặc biệt là khi các mối quan hệ nhân quả có thể được chứng minh. Khi một công ty hiểu các yếu tố bên trong như chất lượng sản phẩm, đào tạo nhân viên và các yếu tố định giá ảnh hưởng như thế nào đến các biện pháp bên ngoài như lợi nhuận và sự hài lòng của khách hàng, thì công ty có thể đưa ra các quyết định tốt hơn. Vì vậy, thật hữu ích khi có các công cụ thống kê để đo lường các mối quan hệ này. Tệp Excel Cao đẳng và Đại học, một phần của tệp được hiển thị trong Hình 4.21, chứa dữ liệu từ 49 trường đại học nghiên cứu và nghệ thuật tự do hàng đầu trên khắp Hoa Kỳ. Một số câu hỏi có thể được đặt ra về mối quan hệ thống kê giữa các biến này. Chẳng hạn, tỷ lệ học sinh trong top 10% cao nhất của lớp trung học có cho thấy tỷ lệ tốt nghiệp cao hơn không? Là tỷ lệ chấp nhận liên quan đến số tiền chi tiêu cho mỗi sinh viên? Các trường có tỷ lệ chấp nhận thấp hơn có xu hướng chấp nhận học sinh có điểm SAT cao hơn không? Những câu hỏi như thế này có thể được giải quyết bằng cách tính toán các phép đo thống kê về mối liên hệ giữa các biến. hiệp phương sai Hiệp phương sai là thước đo mối liên hệ tuyến tính giữa hai biến X và Y. Giống như phương sai, các công thức khác nhau được sử dụng cho tổng thể và mẫu. Về mặt tính toán, hiệp phương sai của tổng thể là giá trị trung bình của tích các độ lệch của từng quan sát so với giá trị trung bình tương ứng của nó: N Một 1xi - mx 21yi - my 2 cov (X, Y) tôi 1 N (4.17) Để hiểu rõ hơn về hiệp phương sai, chúng ta hãy xem xét công thức (4.17). Hiệp phương sai giữa X và Y là giá trị trung bình của tích các độ lệch của từng cặp quan sát so với giá trị trung bình tương ứng của chúng. Giả sử rằng các giá trị lớn (nhỏ) của X thường được liên kết với các giá trị lớn (nhỏ) của Y. Khi đó, trong hầu hết các trường hợp, cả xi và yi đều ở trên hoặc ở dưới trung bình tương ứng của chúng. Nếu vậy, tích của độ lệch so với trung bình sẽ là một số dương và khi cộng lại với nhau và tính trung bình sẽ cho hiệp phương sai giá trị dương. Mặt khác, nếu giá trị nhỏ (lớn) của X được liên kết với giá trị lớn (nhỏ) của 4Adam Bryant, “CEOs' Golf Games Linked to Companies' Performance,” Cincinnati Enquirer, 7/6/1998, El. Machine Translated by Google 117 Chương 4 Các biện pháp thống kê mô tả Y, thì một trong các độ lệch so với giá trị trung bình thường sẽ âm trong khi độ lệch kia dương. Khi được nhân với nhau, kết quả là giá trị âm và giá trị của hiệp phương sai sẽ âm. Như vậy, giá trị tuyệt đối của hiệp phương sai càng lớn thì mức độ liên kết tuyến tính giữa hai biến càng cao. Dấu hiệu của hiệp phương sai cho chúng ta biết liệu có mối quan hệ trực tiếp (tức là một biến tăng khi biến kia tăng) hay mối quan hệ nghịch đảo (tức là một biến tăng trong khi biến kia giảm hoặc ngược lại). Nói chung, chúng ta có thể xác định cường độ của bất kỳ mối liên hệ tuyến tính nào giữa hai biến số và dấu của hiệp phương sai bằng cách xây dựng biểu đồ phân tán. Hàm Excel COVARIANCE.P(array1, array2) tính toán hiệp phương sai của một tổng thể. Hiệp phương sai mẫu được tính như N Một 1xi - x21yi - y2 cov (X, Y) tôi 1 n - 1 (4.18) Tương tự với phương sai mẫu, lưu ý việc sử dụng n - 1 ở mẫu số. Hàm Excel COVARIANCE.S(array1, array2) tính toán hiệp phương sai của một mẫu. VÍ DỤ 4.20 Tính hiệp phương sai Hình 4.22 cho thấy biểu đồ phân tán tỷ lệ tốt nghiệp (biến Y) hiệp phương sai. Hình 4.23 thể hiện các tính toán sử dụng for so với điểm SAT trung bình (biến X) đối với dữ liệu của các mula (4.18); những thứ này được cung cấp trong bảng tính Cova trường Cao đẳng và Đại học. Có vẻ như khi điểm SAT trung bình riance trong sổ làm việc Excel của trường Cao đẳng và Đại học. tăng lên, tỷ lệ tốt nghiệp cũng tăng lên; do đó, chúng tôi hy Hàm Excel =COVARIANCE.S(B2:B50,C2:C50) trong ô F55 xác minh vọng sẽ thấy một kết quả tích cực các phép tính. tương quan Giá trị số của hiệp phương sai nói chung rất khó giải thích vì nó phụ thuộc vào đơn vị đo lường của các biến. Ví dụ: nếu chúng ta biểu thị tỷ lệ tốt nghiệp dưới dạng tỷ lệ thực chứ không phải theo tỷ lệ phần trăm trong ví dụ trước, thì giá trị bằng số của hiệp phương sai sẽ nhỏ hơn, mặc dù mối liên hệ tuyến tính giữa các biến sẽ giống nhau. Tương quan là thước đo mối quan hệ tuyến tính giữa hai biến X và Y, không phụ thuộc vào đơn vị đo lường. Mối tương quan được đo bằng Hình 4.22 Biểu đồ phân tán tốt nghiệp Tỷ lệ so với SAT trung bình Machine Translated by Google 118 Chương 4 Các biện pháp thống kê mô tả Hình 4.23 Tính toán hiệp phương sai cho tỷ lệ tốt nghiệp và SAT trung bình hệ số tương quan, còn được gọi là hệ số tương quan thời điểm sản phẩm Pearson. Hệ số tương quan cho một quần thể được tính như xy cov(X, Y) (4.19) xy Bằng cách chia hiệp phương sai cho tích của các độ lệch chuẩn, về cơ bản, chúng ta đang chia tỷ lệ giá trị bằng số của hiệp phương sai thành một số trong khoảng từ -1 đến 1. Theo cách tương tự, hệ số tương quan mẫu được tính là rxy cov(X,Y) (4.20) sx sy Hàm CORREL của Excel tính toán hệ số tương quan của hai mảng dữ liệu. Tương quan bằng 0 chỉ ra rằng hai biến không có mối quan hệ tuyến tính với nhau. Do đó, nếu một thay đổi, chúng ta không thể dự đoán một cách hợp lý biến kia có thể làm gì. Hệ số tương quan dương biểu thị mối quan hệ tuyến tính trong đó một biến tăng khi biến kia cũng tăng. Hệ số tương quan âm biểu thị mối quan hệ tuyến tính đối với một biến tăng trong khi biến kia giảm. Trong kinh tế học, theo lập trường, một sản phẩm co giãn theo giá có mối tương quan nghịch giữa giá và doanh số; khi giá tăng thì doanh số giảm và ngược lại. Các mối quan hệ này được minh họa trong Hình 4.24. Lưu ý rằng mặc dù Hình 4.24(d) có mối quan hệ rõ ràng giữa các biến, nhưng mối quan hệ này không phải là tuyến tính và hệ số tương quan bằng không. Hình 4.24 215 210 25 0 5 10 15 Y Y X X (a) Tương quan dương (b) Tương quan âm Y Y Ví dụ về tương quan X X (c) Không tương quan (d) Mối quan hệ phi tuyến tính không có tương quan tuyến tính Machine Translated by Google 119 Chương 4 Các biện pháp thống kê mô tả Hình 4.25 Tính toán tương quan cho tỷ lệ tốt nghiệp và SAT trung bình VÍ DỤ 4.21 Tính hệ số tương quan Hình 4.25 trình bày các phép tính để tính toán hệ số tương quan trong các ô B52 và C52, sau đó chia hiệp phương sai cho tích mẫu cho tỷ lệ tốt nghiệp và các biến SAT trung bình ở các trường của các độ lệch chuẩn này trong ô F54. Ô F56 hiển thị kết quả Cao đẳng và Đại học tương tự khi sử dụng hàm Excel =CORREL(B2:B50,C2:C50). tập tin dữ liệu. Đầu tiên chúng ta tính độ lệch chuẩn của mỗi Khi sử dụng hàm CORREL, việc dữ liệu đại diện cho các mẫu hoặc quần thể. Nói cách khác, CORREL(mảng1, mảng2) COVARIANCE.P1array1, array22 STDEV.P1array12 * STDEV.P1array22 Và CORREL(mảng1, mảng2) COVARIANCE.S1array1, array22 STDEV.S1array12 * STDEV.S1array22 Chẳng hạn, trong Ví dụ 4.21, nếu chúng ta giả sử rằng dữ liệu là tổng thể, chúng ta thấy rằng độ lệch chuẩn tổng thể của X là 7,372 và độ lệch chuẩn tổng thể của Y là 62.034 (dùng hàm STDEV.P). Bằng cách chia hiệp phương sai tổng thể, 257,995 (sử dụng hàm COVARIANCE.P), cho tích của các độ lệch chuẩn này, chúng tôi thấy rằng hệ số tương quan vẫn là 0,564 như được tính toán bởi hàm CORREL. Công cụ tương quan Excel Công cụ Tương quan Phân tích Dữ liệu tính toán các hệ số tương quan cho nhiều hơn hai tia ar. Chọn Tương quan từ danh sách công cụ Phân tích dữ liệu. Hộp thoại được hiển thị trong Hình 4.26. Bạn chỉ cần nhập phạm vi dữ liệu (phải nằm trong các cột liền kề; nếu không, bạn phải di chuyển chúng trong trang tính của mình), chỉ định xem dữ liệu được nhóm theo hàng hay cột (hầu hết các ứng dụng sẽ được nhóm theo cột), và cho biết hàng đầu tiên có chứa nhãn dữ liệu hay không. Đầu ra của công cụ này là một ma trận đưa ra mối tương quan giữa từng cặp biến. Công cụ này cung cấp đầu ra giống như hàm CORREL cho từng cặp biến. Machine Translated by Google 120 Chương 4 Các biện pháp thống kê mô tả Hình 4.26 Công cụ tương quan Excel hộp thoại Hình 4.27 Kết quả tương quan cho Cao đẳng và đại học Dữ liệu VÍ DỤ 4.22 Sử dụng Công cụ Tương quan Ma trận tương quan giữa tất cả các biến trong tệp dữ liệu Đại tỷ lệ chấp nhận có tỷ lệ tốt nghiệp cao hơn. Chúng tôi cũng học và Đại học được thể hiện trong Hình 4.27. thấy rằng tỷ lệ chấp nhận cũng có tương quan nghịch với SAT Không có mối tương quan nào là rất mạnh. Mối tương quan thuận trung bình và 10% HS hàng đầu, cho thấy rằng các trường có tỷ vừa phải giữa tỷ lệ tốt nghiệp và điểm SAT cho thấy các trường lệ chấp nhận thấp hơn có hồ sơ học sinh cao hơn. Mối tương quan có điểm SAT trung bình cao hơn có tỷ lệ tốt nghiệp cao hơn. với Chi tiêu/Học sinh cũng gợi ý rằng các trường có hồ sơ học Chúng tôi thấy có mối tương quan nghịch vừa phải giữa tỷ lệ sinh cao hơn sẽ chi nhiều tiền hơn cho mỗi học sinh. chấp nhận và tỷ lệ tốt nghiệp, cho thấy rằng các trường có điểm thấp hơn ngoại lệ Trước đó, chúng tôi đã lưu ý rằng giá trị trung bình và phạm vi rất nhạy cảm với các giá trị ngoại lệ—các giá trị lớn hoặc nhỏ bất thường trong dữ liệu. Các ngoại lệ có thể tạo ra sự khác biệt đáng kể trong kết quả mà chúng tôi thu được từ các phân tích thống kê. Một câu hỏi thống kê quan trọng là làm thế nào để xác định chúng. Điều đầu tiên cần làm từ góc độ thực tế là kiểm tra dữ liệu để tìm các lỗi có thể xảy ra, chẳng hạn như dấu thập phân bị đặt sai vị trí hoặc phiên âm không chính xác sang tệp máy tính. Biểu đồ có thể giúp xác định các ngoại lệ có thể có một cách trực quan. Chúng ta có thể sử dụng quy tắc thực nghiệm và điểm số z để xác định một giá trị ngoại lệ là giá trị sai lệch nhiều hơn ba tiêu chuẩn so với giá trị trung bình. Chúng tôi cũng có thể xác định các ngoại lệ dựa trên phạm vi liên vùng. Các giá trị ngoại lệ “nhẹ” thường được định nghĩa là nằm trong khoảng từ 1,5*IQR đến 3*IQR ở bên trái của Q1 hoặc ở bên phải của Q3 và các giá trị ngoại lệ “cực đoan”, tức là cách các phần tư này hơn 3*IQR. Về cơ bản, không có định nghĩa tiêu chuẩn nào về những gì tạo nên một ngoại lệ ngoài một quan sát bất thường so với phần còn lại. Tuy nhiên, điều quan trọng là cố gắng xác định các ngoại lệ và xác định tầm quan trọng của chúng khi tiến hành các nghiên cứu phân tích kinh doanh. Machine Translated by Google 121 Chương 4 Các biện pháp thống kê mô tả Hình 4.28 Một phần thị trường gia đình Giá trị Hình 4.29 Máy tính -Điểm cho Kiểm tra ngoại lệ VÍ DỤ 4.23 Điều tra các ngoại lệ Tệp dữ liệu Excel Giá trị thị trường tại nhà cung cấp một mẫu dữ kích thước ngôi nhà (1.581 feet vuông). Điểm trên biểu đồ phân liệu cho các ngôi nhà trong một vùng lân cận (Hình 4.28). Hình tán dường như không trùng khớp với phần còn lại của dữ liệu. 4.29 cho thấy các phép tính -score cho các biến số foot vuông và Câu hỏi đặt ra là phải làm gì với các ngoại lệ có thể xảy giá trị thị trường. Không có -scores nào cho một trong hai biến ra. Không nên loại bỏ chúng một cách mù quáng trừ khi có lý do này vượt quá 3 (có thể tìm thấy các tính toán này trong bảng tính chính đáng để làm như vậy – chẳng hạn, nếu ngôi nhà cuối cùng Giá trị ngoại lệ trong Giá trị thị trường gia đình của Excel trong ví dụ về Giá trị thị trường gia đình có một bể bơi ngoài sách bài tập). Tuy nhiên, trong khi các biến riêng lẻ có thể trời khiến nó khác biệt đáng kể so với phần còn lại của khu vực không thể hiện các ngoại lệ, thì sự kết hợp của chúng lại có lân cận. Các nhà thống kê thường gợi ý rằng các phân tích nên thể. Chúng ta thấy điều này trong biểu đồ phân tán ở Hình 4.30. được thực hiện có và không có các ngoại lệ để có thể so sánh và Quan sát cuối cùng có giá trị thị trường cao ($120,700) nhưng tương đối kiểmnhỏ tra các kết quả một cách nghiêm túc. Hình 4.30 Biểu đồ phân tán của ngôi nhà Quy mô so với giá trị thị trường Machine Translated by Google 122 Chương 4 Các biện pháp thống kê mô tả Tư duy thống kê trong các quyết định kinh doanh Tầm quan trọng của việc áp dụng các khái niệm thống kê để đưa ra các quyết định kinh doanh tốt và cải thiện hiệu suất không thể được nhấn mạnh quá mức. Tư duy thống kê là một triết lý học tập và hành động để cải thiện dựa trên các nguyên tắc tất cả các công việc xảy ra trong một hệ thống các quy trình được kết nối với nhau, biến thể tồn tại trong tất cả các quá trình, và kết quả hoạt động tốt hơn từ sự hiểu biết và giảm biến thể.5 Công việc được thực hiện trong bất kỳ tổ chức nào thông qua các quy trình—những cách thức có hệ thống để thực hiện mọi việc nhằm đạt được kết quả mong muốn. Việc hiểu các quy trình kinh doanh cung cấp bối cảnh để xác định tác động của sự thay đổi và loại hành động thích hợp được thực hiện. Bất kỳ quy trình nào cũng chứa nhiều nguồn biến đổi. Ví dụ, trong sản xuất, các lô vật liệu khác nhau sẽ khác nhau về độ bền, độ dày hoặc độ ẩm. Trong quá trình sản xuất, các công cụ bị mài mòn, rung động gây ra những thay đổi trong cài đặt máy và dao động điện gây ra sự thay đổi về công suất. Công nhân có thể không định vị các bộ phận trên đồ đạc một cách nhất quán và căng thẳng về thể chất và tinh thần có thể ảnh hưởng đến tính nhất quán của công nhân. Ngoài ra, các thiết bị đo lường và khả năng kiểm tra của con người không đồng đều dẫn đến sai số đo lường. Các hiện tượng tương tự xảy ra trong quy trình dịch vụ do sự thay đổi trong hành vi của nhân viên và khách hàng, ứng dụng công nghệ, v.v. Giảm biến thể dẫn đến tính nhất quán hơn trong quy trình sản xuất và dịch vụ, ít lỗi hơn, khách hàng hài lòng hơn và độ chính xác cao hơn của những thứ như báo giá thời gian giao hàng. Mặc dù sự khác biệt tồn tại ở khắp mọi nơi, nhiều nhà quản lý thường không nhận ra nó hoặc xem xét nó trong các quyết định của họ. Tần suất các nhà quản lý đưa ra quyết định dựa trên một hoặc hai điểm dữ liệu mà không xem xét mô hình biến đổi, xem các xu hướng trong dữ liệu không hợp lý hoặc cố gắng thao túng các biện pháp mà họ không thể thực sự kiểm soát? Thật không may, câu trả lời là khá thường xuyên. Ví dụ, nếu doanh số bán hàng ở một số khu vực giảm so với quý trước, người quản lý khu vực có thể nhanh chóng đổ lỗi cho nhân viên bán hàng của mình vì đã không làm việc chăm chỉ, mặc dù việc giảm doanh số bán hàng có thể chỉ đơn giản là kết quả của sự thay đổi không kiểm soát được. Thông thường, nó chỉ đơn giản là vấn đề thiếu hiểu biết về cách đối phó với sự thay đổi của dữ liệu. Đây là nơi phân tích kinh doanh có thể đóng một vai trò quan trọng. Phân tích thống kê có thể cung cấp cái nhìn sâu sắc hơn về các sự kiện và bản chất của các mối quan hệ giữa nhiều yếu tố có thể đã góp phần tạo nên một sự kiện và cho phép các nhà quản lý đưa ra các quyết định tốt hơn. VÍ DỤ 4.24 Áp dụng tư duy thống kê Hình 4.31 cho thấy một phần dữ liệu trong tệp Excel Nhiễm kết luận rằng một xu hướng tồn tại. Sẽ thích hợp hơn nếu xem trùng Phẫu thuật ghi lại số ca nhiễm trùng xảy ra sau các ca xét một mẫu dữ liệu lớn hơn và nghiên cứu mô hình biến thể. phẫu thuật trong hơn 36 tháng tại một bệnh viện, cùng với biểu Trong 36 tháng, dữ liệu chỉ ra rõ ràng rằng có sự khác đồ đường về số ca nhiễm trùng. (Chúng tôi sẽ giả định rằng số biệt trong tỷ lệ lây nhiễm hàng tháng. Số ca nhiễm dường như ca phẫu thuật được thực hiện mỗi tháng là như nhau.) Số ca dao động trong khoảng từ 0 đến 3, ngoại trừ tháng 12. Tuy nhiễm trùng tăng gấp ba lần trong tháng 2 và 3 so với tháng nhiên, một phân tích trực quan về biểu đồ không nhất thiết dẫn đầu tiên. Đây có phải là dấu hiệu của xu hướng gây ra bởi sự đến một kết luận hợp lệ. Vì vậy, hãy áp dụng một số tư duy thất bại của một số quy trình chăm sóc sức khỏe hay chỉ đơn thống kê. Số ca nhiễm trung bình là 1.583 và độ lệch chuẩn là giản là sự thay đổi ngẫu nhiên? Có nên thực hiện hành động 1.180. Nếu chúng ta áp dụng quy tắc thực nghiệm rằng hầu hết để xác định nguyên nhân? Từ góc độ thống kê, ba điểm là không các quan sát phải nằm trong khoảng ba độ lệch chuẩn của giá đủ để trị trung bình, thì chúng ta sẽ đạt được phạm vi (còn tiếp) 5Galen Britz, Don Emerling, Lynne Hare, Roger Hoerl, và Janice Shade, “Làm thế nào để dạy người khác áp dụng tư duy thống kê,” Quality Progress (tháng 6 năm 1997): 67–79. Machine Translated by Google 123 Chương 4 Các biện pháp thống kê mô tả of - 1,957 (rõ ràng số ca nhiễm không thể âm, vì vậy hãy đặt giá quản lý bệnh viện nên tìm cách điều tra những gì có thể đã xảy ra trị này thành 0) và 5,12. Điều này có nghĩa là, từ góc độ thống kê, trong tháng đó và cố gắng ngăn chặn những sự cố tương tự. chúng ta có thể mong đợi hầu hết tất cả các quan sát đều nằm trong các giới hạn này. Hình 4.32 cho thấy biểu đồ hiển thị các phạm vi này. Số ca nhiễm trong tháng 12 rõ ràng vượt quá giá trị phạm vi Các phân tích tương tự được sử dụng thường xuyên trong kiểm soát chất lượng và các ứng dụng kinh doanh khác để theo dõi hiệu trên và cho thấy rằng số ca nhiễm trong tháng này khác biệt về mặt suất một cách thống kê. Các tính toán phân tích thích hợp phụ thuộc thống kê so với các tháng còn lại. Các vào loại phép đo và các yếu tố khác và được giải thích đầy đủ trong sách dành riêng cho kiểm soát chất lượng và quản lý chất lượng. Sự thay đổi trong các mẫu Bởi vì chúng tôi thường xử lý dữ liệu mẫu trong các ứng dụng phân tích kinh doanh, điều cực kỳ quan trọng là phải hiểu rằng các mẫu khác nhau từ bất kỳ tập hợp nào sẽ khác nhau; nghĩa là, chúng sẽ có các phương tiện khác nhau, độ lệch chuẩn và các biện pháp thống kê khác và sẽ có sự khác biệt về hình dạng của biểu đồ. Đặc biệt, các mẫu cực kỳ nhạy cảm với cỡ mẫu—số lượng quan sát có trong các mẫu. Hình 4.31 Nhiễm trùng phẫu thuật Hình 4.32 Nhiễm trùng theo kinh nghiệm Phạm vi quy tắc Machine Translated by Google 124 Chương 4 Các biện pháp thống kê mô tả VÍ DỤ 4.25 Sự thay đổi trong dữ liệu mẫu Trong ví dụ 4.5, chúng tôi đã minh họa một phân bố tần suất cho 250 trung bình và phương sai của toàn bộ mẫu được thể hiện trong Hình 4.5. lần sửa chữa máy tính. Thời gian sửa chữa trung bình là 14,9 ngày và Ngoài ra, biểu đồ hiển thị một cấu hình hơi khác. phương sai của thời gian sửa chữa là 35,50. Trong Hình 4.34, chúng tôi hiển thị kết quả cho hai mẫu nhỏ hơn có Giả sử chúng tôi đã chọn một số mẫu nhỏ hơn từ những dữ liệu này. kích thước 25. Ở đây, chúng tôi thực sự thấy nhiều thay đổi hơn trong Hình 4.33 thể hiện hai mẫu cỡ 50 được chọn ngẫu nhiên từ 250 lần sửa cả các biện pháp thống kê và biểu đồ so với toàn bộ tập dữ liệu. chữa. Quan sát rằng các phương tiện và phương sai khác nhau cũng như từ Hình 4.33 Hai Mẫu Size 50 Của Sửa Máy Tính Hình 4.34 Hai Mẫu Size 25 Của Sửa Máy Tính Lần Machine Translated by Google 125 Chương 4 Các biện pháp thống kê mô tả Ví dụ này chứng minh rằng điều quan trọng là phải hiểu tính biến thiên của dữ liệu mẫu và thông tin thống kê được rút ra từ một mẫu có thể không đại diện chính xác cho tập hợp mẫu. Đây là một trong những khái niệm quan trọng nhất trong việc áp dụng phân tích kinh doanh. Chúng ta khám phá chủ đề này nhiều hơn trong Chương 6. Phân tích trong thực tế: Áp dụng tư duy thống kê để phát hiện Vấn đề tài chính6 Trong thập kỷ qua, đã có rất nhiều vụ phát hiện gian lận trung bình. Sử dụng các biện pháp này, các nhà nghiên cứu trong quản lý dẫn đến sự sụp đổ của một số công ty nổi đã áp dụng kỹ thuật này cho 25 nghiên cứu điển hình. Những tiếng. Các công ty này đã rất hiệu quả trong việc che giấu điều này bao gồm một số công ty nổi tiếng đã bị SEC buộc tội những khó khăn tài chính của họ, và các nhà đầu tư cũng như gian lận báo cáo tài chính hoặc đã thừa nhận sai sót kế chủ nợ hiện đang tìm cách xác định các vấn đề tài chính toán, dẫn đến việc trình bày lại báo cáo tài chính của họ. trước khi các vụ bê bối xảy ra. Ngay cả với việc thông qua Phương pháp này có thể xác định những điểm bất thường đối Đạo luật Sar banes-Oxley vào tháng 7 năm 2002, giúp cải với các chỉ số quan trọng được các chuyên gia coi là dấu thiện chất lượng của dữ liệu được tiết lộ cho công chúng, hiệu cảnh báo gian lận báo cáo tài chính. Những dấu hiệu vẫn có thể đánh giá sai sức mạnh tài chính của một tổ chức cảnh báo này nhất quán khi so sánh với bình luận sau khi nếu không có đánh giá phân tích. khám nghiệm tử thi của chuyên gia về các trường hợp gian lận nổi tiếng. Quan trọng hơn, chúng báo hiệu hành vi bất Có một số dấu hiệu cảnh báo, nhưng không có cách thức thường ít nhất sáu quý trước khi SEC thông báo điều tra với khách quan và có hệ thống nào để xác định liệu một số liệu ít hơn 5% âm tính giả và 40% dương tính giả. tài chính nhất định, chẳng hạn như mô hình xóa nợ hoặc giao dịch nội gián, là cao hay bất thường. Các nhà nghiên cứu đã đề xuất sử dụng thống kê tư duy để phát hiện dị thường. Họ đề xuất một “điểm phát hiện bất thường”, là sự khác biệt giữa thước đo tài chính mục tiêu và hiệu suất trước đây của chính công ty hoặc hiệu suất hiện tại của đối thủ cạnh tranh bằng cách sử dụng độ lệch chuẩn. Kỹ thuật này là một biến thể của -score tiêu chuẩn hóa. Cụ thể, cách tiếp cận của họ liên quan đến việc so sánh hiệu suất với hiệu suất trong quá khứ (trong phạm vi phân tích) và so sánh hiệu suất với hiệu suất của các công ty cùng ngành trong cùng thời kỳ (giữa các lần phân tích). Họ đã tạo ra hai loại điểm bất thường đặc biệt: -between (Zb) để giải quyết sự khác biệt giữa các công ty và -within (Z ) để giải quyết sự khác biệt trong công ty. NAN728/ Shutterstock.com Các biện pháp này định lượng số lượng độ lệch chuẩn mà thước đo tài chính của công ty lệch khỏi Điều khoản quan trọng Trung bình số học (trung bình) Hệ số nhọn (CK) lưỡng kim Hệ số lệch (CS) Định lý Chebyshev Hệ số biến thiên (CV) 6Dựa trên Deniz Senturk, Christina LaComb, Radu Neagu, và Murat Doganaksoy, “Phát hiện các vấn đề tài chính với Six Sigma,” Tiến độ chất lượng (tháng 4 năm 2006): 41–47. Machine Translated by Google 126 Chương 4 Các biện pháp thống kê mô tả tương quan Dân số Hệ số tương quan (Hệ số tương quan Chỉ số năng lực quá trình Tỷ lệ thời điểm sản phẩm Pearson) Phạm vi hiệp phương sai Quay trở lại rủi ro phân tán Vật mẫu quy tắc thực nghiệm Hệ số tương quan mẫu Phạm vi liên vùng (IRQ hoặc midspread) độ lệch gai nhọn Độ lệch chuẩn Trung bình Giá trị chuẩn hóa (z-score) tầm trung tư duy thống kê Cách thức đơn thức ngoại lệ phương sai vấn đề và bài tập 1. Dữ liệu thu được từ kiểm toán viên quận trong tệp Excel Giá trị thị trường tại nhà cung cấp thông tin về tuổi, Một. Xem xét những dữ liệu này như một mẫu chủ nhà trên con phố này, hãy tính giá trị trung bình, phương sai diện tích vuông và giá trị thị trường hiện tại của những và độ lệch chuẩn cho từng biến số này bằng cách sử ngôi nhà dọc theo một con phố trong một phân khu cụ thể. dụng các công thức (4.2), (4.5) và (4.7). Xác minh Xem xét những dữ liệu này dưới dạng dân số chủ nhà trên con phố này, hãy tính giá trị trung bình, phương sai và độ lệch chuẩn cho từng biến số này bằng bảng tính và các tính toán của bạn bằng hàm Excel thích hợp. b. Tính hệ số biến thiên cho từng biến. Cái nào có độ phân tán tương đối nhỏ nhất và lớn nhất? công thức (4.1), (4.4) và (4.6). Xác minh các tính toán của bạn bằng hàm Excel thích hợp. 6. Tìm giá cổ phiếu trong 30 ngày của ba công ty trong các 2. Trong Khảo sát Facebook tệp Excel, tìm số giờ trung bình và trung bình trực tuyến/tuần và số lượng bạn bè trong mẫu bằng cách sử dụng các hàm Excel thích hợp. Tính toán tầm trung và so sánh tất cả các biện pháp của vị trí. 3. Đối với tệp Excel Bán máy tính bảng, hãy tìm số trung bình, độ lệch chuẩn và phạm vi giữa các đơn vị bán được mỗi tuần. Chứng minh rằng định lý Chebyshev đúng với dữ ngành khác nhau. Giá cổ phiếu trung bình nên có một loạt các giá trị. Sử dụng dữ liệu, tính toán và diễn giải hệ số biến thiên. 7. Tính toán thống kê mô tả cho các trường đại học nghệ thuật tự do và các trường đại học nghiên cứu trong tệp Excel Col leges and Universities. So sánh hai loại trường đại học. Bạn có thể kết luận điều gì? 8. Sử dụng công cụ Thống kê mô tả để tóm tắt tỷ lệ phần trăm liệu và xác định mức độ chính xác của các quy tắc thực lợi nhuận gộp, doanh thu gộp và lợi nhuận gộp trong Dữ nghiệm. liệu bán hàng tệp Excel. 4. Tệp Excel Dữ liệu hãng hàng không Atlanta cung cấp số 9. Bảng tính Dữ liệu trong tệp Excel Thời gian phục vụ sân liệu thống kê về thời gian đến và đón taxi trong một bay liệt kê một mẫu lớn thời gian tính bằng giây để xử ngày tại sân bay quốc tế Atlanta Hartsfield. Tìm độ lệch lý khách hàng tại quầy bán vé. Bảng tính thứ hai hiển chuẩn và trung bình của chênh lệch giữa thời gian đến thị phân phối tần suất và biểu đồ của dữ liệu. theo lịch trình và thực tế và thời gian taxi đến cổng. Tính toán điểm số z cho mỗi biến này. Một. Tóm tắt dữ liệu bằng công cụ Descriptive Statis tics. Bạn có thể nói gì về hình thức phân phối thời 5. Dữ liệu thu được từ kiểm toán viên quận trong tệp Excel Giá trị thị trường tại nhà cung cấp thông tin về tuổi, diện tích vuông và giá trị thị trường hiện tại của những ngôi nhà dọc theo một con phố trong một phân khu cụ thể. gian? b. Tìm phân vị thứ 90. c. Hãng hàng không có thể sử dụng những kết quả này như thế nào để quản lý hoạt động quầy bán vé của mình? Machine Translated by Google 127 Chương 4 Các biện pháp thống kê mô tả 10. Dữ liệu trong tệp Excel Đóng góp của Giáo hội đã được báo cáo về căn cứ. Ngoài ra, hãy tìm doanh số bán hàng trung bình theo nguồn việc đóng góp hàng năm cho một nhà thờ. Ước tính giá trị trung (Web hoặc e-mail). Bạn có nghĩ rằng thông tin này có thể hữu ích bình và độ lệch chuẩn của các khoản đóng góp hàng năm của tất trong quảng cáo? Giải thích như thế nào và tại sao hoặc tại sao không. cả giáo dân bằng cách thực hiện các công thức (4.13) và (4.15) trên một bảng tính, giả sử những dữ liệu này đại diện cho toàn 19. Đối với tệp Excel Chi phí đi lại, hãy sử dụng PivotTable để tìm độ lệch trung bình và độ lệch chuẩn của các khoản chi cho bộ giáo dân. mỗi đại diện bán hàng. Thứ hai, ước tính mức đóng góp trung bình của các gia đình có con học tại trường giáo xứ. Làm thế nào để điều này so sánh với 20. Sử dụng PivotTable, tính giá trị trung bình và độ lệch chuẩn tất cả giáo dân? cho mỗi số liệu theo năm trong tệp Excel Freshman College Data. Có bất kỳ sự khác biệt nào rõ ràng từ năm này sang năm khác 11. Một nghiên cứu tiếp thị trên 800 người trưởng thành trong độ không? tuổi 18–34 đã báo cáo các thông tin sau: chi ít hơn $100 nhưng hơn $0 cho quần áo trẻ em mỗi năm: 21. Tệp Excel Freshman College Data hiển thị dữ liệu trong 4 năm tại một trường đại học lớn ở đô thị. Sử dụng PivotTable để kiểm tra 50 phản hồi sự khác biệt về thành tích học tập của học sinh trung học và chi $100–$499,99 cho quần áo trẻ em mỗi năm: 275 phản hồi khả năng duy trì năm thứ nhất giữa các trường cao đẳng khác nhau tại trường đại học này. Bạn đạt được kết luận gì? chi $500–$999,99 cho quần áo trẻ em mỗi năm: 175 phản hồi 22. Khảo sát điện thoại di động tệp Excel báo cáo ý kiến của một không chi tiêu gì: phần còn lại mẫu người tiêu dùng về cường độ tín hiệu, giá trị đồng đô la và dịch vụ khách hàng cho các nhà cung cấp dịch vụ điện thoại Xây dựng bảng tính ước lượng trung bình mẫu và độ lệch chuẩn di động của họ. Sử dụng PivotTable để tìm các nội dung sau: mẫu của chi tiêu mua quần áo trẻ em cho nhóm tuổi này bằng công thức (4.14) và (4.16). Một. cường độ tín hiệu trung bình theo loại sóng mang b. giá trị trung bình của đồng đô la theo loại nhà cung cấp dịch vụ 12. Báo cáo Việc làm EEO trong tệp Excel cho biết số lượng người và mức độ sử dụng được tuyển dụng trong các ngành nghề khác nhau cho các nhóm c. phương sai nhận thức về dịch vụ khách hàng theo nhà cung chủng tộc và dân tộc khác nhau. Tìm tỉ lệ nam và nữ của mỗi cấp dịch vụ và giới tính dân tộc trong tổng số việc làm và trong mỗi ngành nghề. Những kết luận nào bạn có thể đạt được từ thông tin này? 13. Trong tệp Excel Motorcycle Inventory, hãy tìm tỷ lệ các mẫu xe đạp được bán với giá dưới 200 đô la. 23. Các trung tâm cuộc gọi có tỷ lệ nghỉ việc cao vì môi trường căng thẳng. Trung bình toàn quốc là khoảng 50%. Giám đốc nhân sự 14. Trong cơ sở dữ liệu Giao dịch bán hàng, hãy tìm tỷ lệ khách hàng của một ngân hàng lớn đã tổng hợp dữ liệu về 70 nhân viên cũ đã sử dụng PayPal và tỷ lệ khách hàng đã sử dụng thẻ tín dụng. tại một trong các trung tâm cuộc gọi của ngân hàng (xem Dữ liệu Ngoài ra, hãy tìm tỷ lệ đã mua một cuốn sách và tỷ lệ theo Trung tâm cuộc gọi trong tệp Excel). Sử dụng PivotTable để tìm đuổi một đĩa DVD. những thống kê này: Một. thời gian làm việc trung bình của nam và nữ trong mẫu 15. Trong file Excel Economic Poll, hãy tìm tỷ lệ của từng biến phân loại. b. thời gian phục vụ trung bình cho những người có và không có bằng đại học 16. Trong Khảo sát Facebook trên tệp Excel, sử dụng PivotTable để tìm độ lệch chuẩn và trung bình của số giờ trực tuyến/tuần và c. thời gian phục vụ trung bình đối với nam và nữ có và không số lượng bạn bè của nam và nữ trong mẫu. 17. Trong tệp Excel Khảo sát điện thoại di động, hãy sử dụng có kinh nghiệm về tổng đài trước đó 24. Trong file Excel Weddings, hãy xác định mối tương quan giữa chi PivotTable để tìm giá trị trung bình cho từng biến số đối với phí đám cưới và số người tham dự. các nhà mạng điện thoại di động khác nhau và giới tính của người trả lời. 25. Đối với dữ liệu trong tệp Excel Rin's Gym, hãy tìm hiệp phương 18. Sử dụng PivotTable, tìm độ lệch trung bình và độ lệch chuẩn của doanh số bán hàng trong dữ liệu Giao dịch bán hàng sai và tương quan giữa các phép tính chiều cao, cân nặng và chỉ số BMI. Machine Translated by Google 128 Chương 4 Các biện pháp thống kê mô tả 26. Đối với tệp Cơ sở dữ liệu khách của President's Inn, hãy tìm thời gian lưu trú trung bình và số lượng khách. mẫu 20 thẻ (bắt đầu với một bộ bài đầy đủ mỗi lần); tính toán giá trị trung bình và phương sai và xây dựng Có mối tương quan nào giữa quy mô bữa tiệc và thời gian một biểu đồ. Dữ liệu mẫu khác với dữ liệu dân số như lưu trú không? thế nào? Lặp lại thí nghiệm này cho các mẫu gồm 5 thẻ 27. Tệp Excel Bán hàng Đồ uống liệt kê một ví dụ về doanh số bán hàng trong tuần tại một cửa hàng tiện lợi, cùng và tóm tắt kết luận của bạn. 35. Kiểm tra các điểm số z mà bạn đã tính toán trong Vấn đề 4 cho Dữ với nhiệt độ cao hàng ngày. Tính toán hiệp phương sai liệu Hãng hàng không Atlanta. Họ có đề xuất bất kỳ ngoại lệ nào và tương quan giữa nhiệt độ và doanh số bán hàng. trong dữ liệu không? 28. Đối với Dữ liệu Rủi ro Tín dụng ở tệp Excel, hãy tính 36. Trong tệp Excel Weddings, hãy tìm chi phí đám cưới trung toán mối quan hệ tương quan giữa tuổi và số tháng làm bình và trung vị cũng như độ lệch chuẩn mẫu. Bạn sẽ việc, tuổi và số dư tài khoản tiết kiệm và séc kết hợp, nói gì với một cặp đôi mới đính hôn về chi phí mong số tháng là khách hàng và số tiền trong ngân hàng. Giải đợi? Xem xét tác động của các ngoại lệ có thể có trong thích kết quả của bạn. dữ liệu. 29. Trong dữ liệu Call Center trong tệp Excel, thời gian phục vụ tương quan chặt chẽ như thế nào với tuổi bắt đầu? 30. Một công ty xây dựng quốc gia xây dựng những ngôi nhà dành cho một gia đình và nhà phố kiểu chung cư. Tệp Excel Doanh số bán nhà cung cấp thông tin về giá bán, chi phí lô đất, loại nhà và khu vực của quốc gia 1 triệu Trung Tây, Nam Mỹ2 để đóng cửa trong 1 tháng. Sử 37. Một nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy tính cho ngành hàng không vũ trụ nhận được nhiều yêu cầu hỗ trợ kỹ thuật. Phần mềm theo dõi được sử dụng để theo dõi thời gian phản hồi và giải quyết. Ngoài ra công ty còn khảo sát khách hàng yêu cầu hỗ trợ chúng tôi theo thang điểm sau: 0—không vượt quá mong đợi dụng PivotTable để tìm giá bán trung bình và giá lô cho 1—đáp ứng được kỳ vọng từng loại nhà ở từng khu vực của thị trường. Những kết 2—đáp ứng kỳ vọng luận nào bạn có thể đạt được từ thông tin này? 3—vượt quá mong đợi 4—vượt quá mong đợi 31. Tệp Excel Auto Survey chứa một mẫu dữ liệu về các phương tiện được sở hữu, cho dù chúng được mua mới hay đã qua sử dụng và các loại dữ liệu khác. Sử dụng công cụ Thống kê mô tả để tóm tắt dữ liệu số, tìm mối tương quan giữa từng biến số và xây dựng PivotTable để tìm số dặm/ Các câu hỏi như sau: Q1: Đại diện bộ phận hỗ trợ có giải thích quy trình giải quyết vấn đề của bạn không? Câu hỏi 2: Đại diện bộ phận hỗ trợ có thông báo cho bạn về tình trạng tiến triển trong việc giải gallon trung bình cho từng loại phương tiện, cũng như số dặm trung bình/gallon và độ tuổi trung bình cho từng loại xe mới và cũ. Tóm tắt các quan sát mà bạn có thể thực hiện từ những kết quả này. quyết vấn đề của bạn không? Q3: Đại diện hỗ trợ có lịch sự và chuyên nghiệp không? Q4: Vấn đề của bạn đã được giải quyết chưa? Q5: Vấn đề của bạn có được giải quyết trong khoảng thời gian 32. Tính điểm số z cho dữ liệu trong tệp Excel Thời gian phục vụ cảng hàng không. Có bao nhiêu quan sát rơi xa hơn chấp nhận được không? Q6: Nhìn chung, bạn thấy dịch vụ do bộ phận hỗ trợ kỹ thuật của chúng tôi cung cấp như thế nào? ba độ lệch chuẩn so với giá trị trung bình? Bạn có coi đây là những ngoại lệ không? Tại sao hay tại sao không? 33. Sử dụng dữ liệu Đo lường Sản xuất để đưa ra mức trung bình của mẫu, giả sử rằng mỗi hàng trong tệp dữ liệu đại diện cho một mẫu từ quy trình sản xuất. Vẽ các giá trị trung bình của mẫu trên biểu đồ đường, thêm các giới hạn kiểm soát và diễn giải kết quả của bạn. 34. Tìm giá trị trung bình và phương sai của một bộ bài gồm 52 quân bài, trong đó quân Át được tính là 11 và quân bài hình là 10. Hãy xây dựng phân bố tần số và biểu đồ của các giá trị quân bài. Xào bộ bài và chia bài hai Câu hỏi cuối cùng yêu cầu khách hàng đánh giá chất lượng tổng thể của sản phẩm bằng thang đo này: 0—rất kém 1—nghèo 2—tốt 3—rất tốt 4—xuất sắc Một mẫu phản hồi khảo sát và dữ liệu phản hồi và độ phân giải liên quan được cung cấp trong Excel Machine Translated by Google 129 Chương 4 Các biện pháp thống kê mô tả nộp Khảo sát hỗ trợ khách hàng. Sử dụng bất kỳ biểu đồ Excel do đó, kích hoạt một phần hoặc toàn bộ ống tiêm. và số liệu thống kê mô tả nào mà bạn cho là phù hợp để Những ống tiêm như vậy sau đó phải được loại bỏ. Nếu nắp được truyền đạt thông tin trong các dữ liệu mẫu này và viết báo đóng ở độ dài dài hơn mong muốn (4,980 inch hoặc dài hơn), cáo cho người quản lý giải thích những phát hiện và kết luận thì việc đóng nắp không đầy đủ hoặc không đầy đủ, điều này của bạn. có thể dẫn đến mất nắp và khả năng mất hộp mực trong quá 38. Một công ty dược phẩm ở Trung Tây sản xuất các ống tiêm riêng lẻ chứa một liều duy nhất thuốc tiêm.7 Trong quy trình sản xuất, thuốc dạng lỏng vô trùng được rót vào các ống tiêm thủy tinh và đậy kín bằng nút cao su. Giai đoạn chính còn lại liên quan đến việc lắp hộp mực vào ống tiêm nhựa và “đóng” nắp ngăn bằng điện ở độ dài được xác định chính xác của ống tiêm. Nắp được đóng ở chiều dài ngắn hơn mong muốn (dưới 4,920 inch) dẫn đến áp lực lên nút chặn hộp mực và, trình vận chuyển và xử lý. Những ống tiêm như vậy có thể được làm lại bằng tay để gắn nắp ở vị trí thấp hơn. Tuy nhiên, quy trình này yêu cầu kiểm tra 100% các ống tiêm đã được đóng gói và dẫn đến tăng chi phí cho các mặt hàng. Bước sản xuất cuối cùng này dường như tạo ra ngày càng nhiều ống tiêm phế liệu và làm lại trong những tuần liên tiếp. Tệp Excel Mẫu ống tiêm cung cấp các mẫu được lấy sau mỗi 15 phút từ quy trình sản xuất. Xây dựng các giới hạn kiểm soát bằng cách sử dụng dữ liệu và sử dụng các ý tưởng tư duy thống kê để đưa ra kết luận. Trường hợp: Dự án nghiên cứu quảng cáo Drout Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1. Đây PivotTable thích hợp để so sánh các giá trị trung bình. là phần tiếp theo của trường hợp trong Chương 3. Viết những phát hiện của bạn trong một tài liệu chính thức, hoặc thêm những Đối với phần này của trường hợp, hãy tóm tắt dữ liệu số bằng cách phát hiện của bạn vào báo cáo mà bạn đã hoàn thành cho trường hợp trong sử dụng các biện pháp thống kê mô tả, tìm tỷ lệ cho các biến phân Chương 3 theo quyết định của người hướng dẫn của bạn. loại, kiểm tra mối tương quan và sử dụng Trường hợp: Hiệu suất Lawn Thiết bị Elizabeth Burke muốn một số thông tin thống kê chi tiết về phần lớn dữ liệu trong cơ sở dữ liệu PLE. đ. các lỗi sau khi giao hàng (bảng tính Các lỗi sau khi giao hàng) đã thay đổi như thế nào trong 5 năm này Cụ thể, cô ấy muốn biết những điều sau đây: Một. xếp hạng mức độ hài lòng trung bình và độ lệch chuẩn theo năm và khu vực trong bảng tính Mức độ hài lòng của đại lý và Mức độ hài lòng của người dùng cuối b. một bản tóm tắt thống kê mô tả cho năm 2012 đ. doanh số bán máy cắt cỏ và máy kéo so với tổng doanh số của ngành như thế nào và doanh số bán sản phẩm hàng tháng có mối tương quan mạnh mẽ như thế nào với doanh số của ngành Thực hiện những phân tích này và tóm tắt kết quả của bạn trong một báo cáo bằng văn bản cho cô Burke. dữ liệu khảo sát khách hàng c. thời gian phản hồi khác nhau như thế nào trong mỗi phần tư của trang tính 7Dựa trên LeRoy A. Franklin và Samar N. Mukherjee, “An SPC Case Study on Stabilizing Syringe Lengths,” Quality Engineering 12, 1 (1999–2000): 65–71. Machine Translated by Google Trang này cố ý để trống Machine Translated by Google xác suất CHƯƠNG phân phối và Mô hình hóa dữ liệu ROMA/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích khái niệm về xác suất và cung cấp các ví Tính giá trị kỳ vọng và phương sai của một biến ngẫu nhiên rời dụ về ba quan điểm định nghĩa về xác suất. rạc. Sử dụng các quy tắc và công thức xác suất để thực doanh đơn giản. hiện các phép tính xác suất. Tính toán xác suất cho các phân phối Bernoulli, nhị thức Giải thích xác suất có điều kiện và cách nó có thể được và Poisson, sử dụng hàm khối lượng xác suất và các hàm Excel. Sử dụng các giá trị mong đợi để hỗ trợ các quyết định kinh áp dụng trong bối cảnh kinh doanh. Tính toán xác suất có điều kiện từ dữ liệu lập bảng Giải thích hàm mật độ xác suất khác với hàm khối lượng xác chéo. suất như thế nào. Xác định xem hai sự kiện có độc lập hay không bằng cách Liệt kê các thuộc tính chính của hàm mật độ xác suất. sử dụng các đối số xác suất. Sử dụng mật độ xác suất và các hàm phân phối tích lũy để tính Áp dụng định luật nhân xác suất. xác suất cho một phân phối đồng đều. Giải thích sự khác nhau giữa biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục. Mô tả các phân phối chuẩn và chuẩn Định nghĩa một phân phối xác suất. và sử dụng các hàm Excel để tính xác suất. Kiểm chứng các tính chất của hàm khối lượng xác suất. Sử dụng bảng phân phối chuẩn chuẩn và -values Sử dụng hàm phân phối tích lũy để tính toán xác suất trong để tính xác suất thông thường. các khoảng thời gian. 131 Machine Translated by Google 132 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Mô tả các tính chất của phân phối mũ và tính xác suất. Sử dụng công cụ Tạo số ngẫu nhiên của Excel. Tạo các biến ngẫu nhiên bằng cách sử dụng các chức năng Nền Cho ví dụ về các loại phân phối khác được sử dụng trong các ứng tảng bộ giải phân tích. dụng kinh doanh. Điều chỉnh các bản phân phối bằng cách sử dụng Nền tảng bộ giải phân tích. Lấy mẫu từ các bản phân phối rời rạc trong bảng tính bằng VLOOKUP. Hầu hết các quyết định kinh doanh liên quan đến một số yếu tố không chắc chắn và ngẫu nhiên. Ví dụ, thời gian sửa chữa máy tính trong tệp Excel Thời gian sửa chữa máy tính mà chúng tôi đã thảo luận trong Chương 4 cho thấy khá nhiều điều không chắc chắn mà chúng tôi cần hiểu để cung cấp thông tin cho khách hàng về việc sửa chữa máy tính của họ. Chúng tôi cũng thấy rằng các mẫu thời gian sửa chữa khác nhau dẫn đến các phương tiện, phương sai và phân phối tần suất khác nhau. Do đó, sẽ rất hữu ích nếu có thể xác định một số đặc điểm chung về thời gian sửa chữa sẽ áp dụng cho toàn bộ dân số—kể cả những công việc sửa chữa chưa diễn ra. Trong các tình huống khác, chúng tôi có thể không có bất kỳ dữ liệu nào để phân tích và chỉ cần đưa ra một số giả định mang tính phán đoán về những điều không chắc chắn trong tương lai. Ví dụ: để phát triển một mô hình dự đoán khả năng sinh lời của một sản phẩm mới và sáng tạo, chúng ta cần đưa ra các giả định đáng tin cậy về doanh số bán hàng và hành vi của người tiêu dùng mà không có bất kỳ dữ liệu nào trước đó để làm cơ sở. Đặc trưng cho bản chất của phân phối dữ liệu và xác định các giả định không chắc chắn trong các mô hình quyết định dựa trên kiến thức cơ bản về các khái niệm xác suất và phân phối xác suất - chủ đề của chương này. Các khái niệm cơ bản về xác suất Khái niệm xác suất được sử dụng ở mọi nơi, cả trong kinh doanh và cuộc sống hàng ngày của chúng ta; từ nghiên cứu thị trường và dự đoán thị trường chứng khoán đến World Series of Poker và dự báo thời tiết. Trong kinh doanh, các nhà quản lý cần biết những điều như khả năng một sản phẩm mới sẽ mang lại lợi nhuận hoặc khả năng một dự án sẽ hoàn thành đúng thời hạn. Xác suất định lượng sự không chắc chắn mà chúng ta gặp phải xung quanh mình và là một khối xây dựng quan trọng cho các ứng dụng phân tích kinh doanh. Xác suất là khả năng xảy ra một kết quả—chẳng hạn như liệu một sản phẩm mới có sinh lãi hay không hoặc liệu một dự án có hoàn thành trong vòng 15 tuần hay không. Xác suất được thể hiện dưới dạng các giá trị từ 0 đến 1, mặc dù nhiều người chuyển đổi chúng thành tỷ lệ phần trăm. Tuyên bố rằng có 10% khả năng giá dầu sẽ tăng trong quý tới là một cách khác để nói rằng khả năng giá dầu tăng là 0,1. Xác suất càng gần 1 thì khả năng xảy ra kết quả càng cao. Để chính thức thảo luận về xác suất, chúng ta cần một số thuật ngữ mới. một thí nghiệm là một quá trình dẫn đến một kết quả. Một thử nghiệm có thể đơn giản như tung hai con xúc xắc, quan sát và ghi lại điều kiện thời tiết, tiến hành nghiên cứu thị trường hoặc theo dõi thị trường chứng khoán. Kết quả của thí nghiệm là kết quả Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 133 chúng tôi quan sát; nó có thể là tổng của hai con xúc xắc, một mô tả về thời tiết, tỷ lệ người tiêu dùng ưa chuộng một sản phẩm mới hoặc sự thay đổi của Chỉ số Công nghiệp Trung bình Dow Jones (DJIA) vào cuối tuần. Tập hợp tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu. Chẳng hạn, nếu chúng ta tung hai con xúc xắc công bằng, kết quả có thể xảy ra là các số từ 2 đến 12; nếu chúng ta quan sát thời tiết, kết quả có thể rõ ràng, nhiều mây hoặc nhiều mây; kết quả phản ứng của khách hàng đối với một sản phẩm mới trong nghiên cứu thị trường sẽ thuận lợi hoặc không thuận lợi và thay đổi hàng tuần trong DJIA về mặt lý thuyết có thể là bất kỳ số thực dương hoặc âm nào. Lưu ý rằng một không gian mẫu có thể bao gồm một số lượng nhỏ các kết quả rời rạc hoặc vô số kết quả. Xác suất có thể được xác định từ một trong ba quan điểm. Đầu tiên, nếu quá trình đó tạo ra các kết quả đã biết, xác suất có thể được suy ra từ các lập luận lý thuyết; đây là định nghĩa cổ điển của xác suất. VÍ DỤ 5.1 Định nghĩa xác suất cổ điển Giả sử chúng ta tung hai con xúc xắc. Nếu chúng ta kiểm tra tất cả các kết 2 là 1 36, xác suất lăn được 3 là 2 36 = 1 18, quả có thể xảy ra, chúng ta có thể dễ dàng xác định rằng có 36: tung một và xác suất lăn được số 7 là 6 36 = 1 6. Tương tự, nếu hai người tiêu dùng trong sáu số trên mặt xúc xắc đầu tiên và tung một trong sáu số trên mặt được hỏi liệu họ có thích một sản phẩm mới hay không, có thể có 4 kết quả xúc xắc thứ hai, ví dụ: (1,1), ( 1,2), (1,3), . . . , (6,4), (6,5), (6,6). có thể xảy ra: Trong số 36 kết quả có thể xảy ra này, 1 kết quả sẽ là số 2, 2 kết quả sẽ là số 3 (bạn có thể gieo 1 trên con súc sắc đầu tiên và 2 trên con xúc xắc thứ hai và ngược lại), 6 kết quả sẽ là số 7, v.v. Do đó, khả năng xác suất của việc tung một số bất kỳ là tỷ lệ giữa số cách tung số đó với tổng số kết quả có thể xảy ra. Ví dụ, xác suất lăn một 1. (thích, thích) 2. (thích, không thích) 3. (không thích, thích) 4. (không thích, không thích) Nếu những điều này được giả định là có khả năng như nhau, xác suất mà ít nhất một người tiêu dùng sẽ phản ứng không thuận lợi là 3 4. Cách tiếp cận xác suất thứ hai, được gọi là định nghĩa tần suất tương đối, dựa trên dữ liệu thực nghiệm. Xác suất mà một kết quả sẽ xảy ra chỉ đơn giản là tần suất tương đối liên quan đến kết quả đó. VÍ DỤ 5.2 Định nghĩa tần số tương đối của xác suất Sử dụng mẫu thời gian sửa chữa máy tính trong tệp Excel Thời gian sửa chữa xác suất nó sẽ được sửa chữa trong đúng 10 ngày là 0,076, v.v. Khi sử dụng máy tính, chúng tôi đã phát triển phân bố tần suất tương đối trong Chương định nghĩa tần suất tương đối, điều quan trọng là phải hiểu rằng khi có 4, được hiển thị lại trong Hình 5.1. Chúng ta có thể nói rằng xác suất một nhiều dữ liệu hơn, thì sự phân bổ kết quả và do đó, xác suất có thể thay máy tính sẽ được sửa chữa trong ít nhất 4 ngày là 0, đổi. Cuối cùng, định nghĩa chủ quan về xác suất dựa trên phán đoán và kinh nghiệm, như các nhà phân tích tài chính có thể sử dụng để dự đoán 75% khả năng DJIA sẽ tăng 10% trong năm tới, hoặc như các chuyên gia thể thao có thể dự đoán, vào đầu năm mùa bóng đá, cơ hội 1 ăn 5 (xác suất 0,20) để một đội nào đó lọt vào giải Super Bowl. Việc sử dụng định nghĩa nào tùy thuộc vào ứng dụng cụ thể và thông tin chúng tôi có sẵn. Chúng ta sẽ xem các ví dụ khác nhau dựa trên từng quan điểm này. Machine Translated by Google 134 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.1 Quy tắc và công thức xác suất Phân phối máy tính Giả sử chúng ta gắn nhãn n kết quả trong không gian mẫu là O1 , O2 , c, On , trong đó Oi đại Thời gian sửa chữa diện gửi kết quả thứ i trong không gian mẫu. Đặt P1Oi2 là xác suất liên quan đến kết quả Oi . Hai sự kiện cơ bản chi phối xác suất: Xác suất liên quan đến bất kỳ kết quả nào phải nằm trong khoảng từ 0 đến 1 hoặc (5.1) 0 … P1Oi2 … 1 cho mỗi kết quả Oi Tổng xác suất trên tất cả các kết quả có thể xảy ra phải bằng 1, hoặc 1 P1O1 2 + P1O2 2 + g+ P1On 2 (5.2) Biến cố là tập hợp của một hoặc nhiều kết quả từ một không gian mẫu. Ví dụ về một sự kiện sẽ tung một con số 7 hoặc 11 bằng hai viên xúc xắc, hoàn thành sửa chữa máy tính trong khoảng từ 7 đến 14 ngày hoặc nhận được thay đổi tích cực hàng tuần trong DJIA. Điều này dẫn đến quy tắc sau: Quy tắc 1. Xác suất của bất kỳ sự kiện nào là tổng xác suất của các kết quả bao gồm sự kiện đó. VÍ DỤ 5.3 Tính toán xác suất của một sự kiện Xét trường hợp tung mặt 7 hoặc 11 trên hai con xúc xắc. Khả O1 năng lăn được số 7 là và 6 36 và xác suất lăn được 11 . 6 2 + 36 ; do đó, xác suất lăn được 7 hoặc 11 là 36 2 = 36 số 8 36 Tương tự, xác suất sửa chữa máy tính trong 7 ngày hoặc ít hơn = 0, O2 O8 = 1, O3 = 2, O4 = 7 ngày, hay P(O6 = 3, O5 = 4, O6 ) + P(O7 ) + P (O8 = 5, O7 = 6, ) = 0,004 + 0,008 + 0,020 = 0,032 (lưu ý rằng xác suất P(O1 ) = P(O2 ) = P(O3 ) = P(O4 ) = P(O5 ) = 0; xem Hình 5.1). là tổng xác suất của các kết quả c Nếu A là biến cố bất kì thì phần bù của A, kí hiệu là A , bao gồm tất cả các kết quả trong không gian mẫu không thuộc A. Quy tắc 2. Xác suất phần bù của bất kỳ sự kiện A nào là P1A c 2 1 - P1A2. Machine Translated by Google 135 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.4 Tính toán xác suất của sự bổ sung của một sự kiện c Nếu A = 7,11 trong phương án kiểm tra m pl e, t he n A = MỘTc c) = 1 36 số 8 = 28 36 , 42 và P(A c ) = 1 0,032 = 0,968. Đây là xác suất hoàn thành việc sửa chữa trong hơn một tuần. 2, 3, 4, 5, 6, 8, 9, 10, 12 . Do đó, xác suất để lăn bất kỳ thứ gì khác ngoài 7 hoặc 11 là P(A = 8, 9, . Nếu A = 0, 1, 2, 3, 4, 5, 6, 7 trong ví dụ sửa máy tính, Hợp của hai sự kiện chứa tất cả các kết quả thuộc về một trong hai sự kiện. Để minh họa điều này với việc tung hai con xúc xắc, hãy gọi A là biến cố {7, 11} và B là biến cố {2, 3, 12}. Hợp của A và B là biến cố {2, 3, 7, 11, 12}. Nếu A và B là hai sự kiện, thì xác suất xảy ra một số kết quả trong A hoặc B (nghĩa là sự kết hợp của A và B) được ký hiệu là P(A hoặc B). Việc tìm ra xác suất này phụ thuộc vào việc các sự kiện có loại trừ lẫn nhau hay không. Hai biến cố xung khắc nếu chúng không có kết cục chung. Các sự kiện A và B trong ví dụ xúc xắc là loại trừ lẫn nhau. Khi các sự kiện loại trừ lẫn nhau, quy tắc sau sẽ được áp dụng: Quy tắc 3. Nếu biến cố A và B xung khắc thì P1A hoặc B2 P 1A2 + P1B2. VÍ DỤ 5.5 Tính toán xác suất của các sự kiện loại trừ lẫn nhau Đối với ví dụ xúc xắc, xác suất của sự kiện A = rằng sự kiện A hoặc B xảy ra, nghĩa là tung xúc xắc 12 7, 11 là P1A2 = là 2, 3, 7, 11 hoặc 12, là 8 36 36 , và xác suất của biến cố số 8 B = 2, 3, 12 là P1B2 = 4 36 . + 4 36 = 36 . Do đó, xác suất Nếu hai sự kiện không loại trừ lẫn nhau, thì việc cộng xác suất của chúng sẽ dẫn đến việc tính hai lần một số kết quả, vì vậy cần phải điều chỉnh. Điều này dẫn đến quy tắc hạ thấp sau: Quy tắc 4. Nếu hai biến cố A và B không xung khắc thì P1 A hoặc B2 P1A2 + P1B2 - P1A và B2. Ở đây, (A và B) đại diện cho giao điểm của các sự kiện A và B—tức là, tất cả các kết quả đều mong muốn cho cả A và B. VÍ DỤ 5.6 Tính toán xác suất của các sự kiện không loại trừ lẫn nhau Trong ví dụ về xúc xắc, chúng ta hãy xác định các biến cố các số 2 và 12 chung. Như vậy, giao điểm 1A và B2 = 2, A = 2, 3, 12 và B = số chẵn . Khi đó A và B không xung khắc 12 . Do đó, P(A hoặc B) = P{2, 3, 12} + vì cả hai biến cố đều có P(số chẵn) P(A và B) = 4 36 + 18 36 - 2 36 = 20 36 . Xác suất chung và cận biên Trong nhiều ứng dụng, nhiều sự kiện xảy ra đồng thời hoặc theo thuật ngữ thống kê là cùng nhau. Chúng tôi sẽ chỉ thảo luận về trường hợp đơn giản của hai sự kiện. Chẳng hạn, giả sử rằng một mẫu gồm 100 cá nhân được yêu cầu đánh giá sở thích của họ đối với ba sản phẩm mới. Machine Translated by Google 136 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu nước tăng lực được đề xuất trong một cuộc thử nghiệm vị giác mù quáng. Không gian mẫu bao gồm hai loại kết quả tương ứng với mỗi cá nhân: giới tính (F nữ hoặc M nam) và sở thích thương hiệu (B1 , B2 hoặc B3 ). Chúng ta có thể định nghĩa một không gian mẫu mới bao gồm các kết quả phản ánh sự kết hợp khác nhau của các kết quả từ hai không gian mẫu này. Do đó, đối với bất kỳ người trả lời nào trong bài kiểm tra vị giác mù quáng, chúng tôi có sáu kết hợp có thể xảy ra (loại trừ lẫn nhau): 1. O1 đáp viên là nữ thích nhãn hiệu 1 2. O2 đáp viên là nữ thích nhãn hiệu 2 3. O3 đáp viên là nữ thích nhãn hiệu 3 4. O4 đáp viên là nam thích nhãn hiệu 1 5. O5 đáp viên là nam và thích nhãn hiệu 2 6. O6 người trả lời là nam và thích nhãn hiệu 3 Ở đây, xác suất của mỗi sự kiện này là giao điểm của sự kiện giới tính và sở thích nhãn hiệu. Ví dụ: P1O1 2 P1F và B1 2, P1O2 2 P1F và B2 2, v.v. Xác suất giao nhau của hai biến cố được gọi là xác suất chung. Xác suất của một sự kiện, bất kể kết quả của sự kiện chung khác, được gọi là xác suất cận biên. Do đó, P1F2, P1M2, P1B1 2, P1B2 2 và P1B3 2 sẽ là các xác suất cận biên. VÍ DỤ 5.7 Áp dụng quy tắc xác suất cho các biến cố chung Hình 5.2 cho thấy một phần của tệp dữ liệu Khảo sát về Nước hoặc nữ và thích chính xác một trong ba nhãn hiệu. tăng lực, cùng với bảng chéo được tạo từ PivotTable. Xác suất Chúng ta có thể sử dụng Quy tắc 3 để tìm, ví dụ: P1B1 hoặc chung của giới tính và sở thích thương hiệu được tính toán dễ B2 2 = 0,34 + 0,23 = 0,57. Tuy nhiên, các sự kiện F và B1 dàng bằng cách chia số người trả lời tương ứng với từng kết không loại trừ lẫn nhau vì một người trả lời có thể là cả nữ quả trong số sáu kết quả được liệt kê ở trên cho tổng số và thích nhãn hiệu 1. Do đó, sử dụng Quy tắc 4, chúng ta có người trả lời, 100. Do đó, P1F và B1 2 = P1O1 2 = 9 100 = P1F hoặc B1 2 = P1F2 + P1B12 0,09, P1F và B22 = P1O2 2 = 6 100 = 0,06, v.v. Lưu ý rằng 0,09 = 0,62. P1F và B1 2 = 0,37 + 0,34 Như chúng ta đã thấy, có thể dễ dàng tính toán các xác tổng xác suất của tất cả các kết quả này là 1,0. suất chung bằng cách chia các giá trị trong bảng chéo cho tổng, 100. Bên dưới PivotTable trong Hình 5.2 là một bảng xác Chúng ta thấy rằng sự kiện F, (người trả lời là nữ) bao suất chung, tóm tắt các xác suất chung này. gồm các kết quả O1 , O2 và O3 , và do đó P1F2 = P1O12 + P1O22 Các xác suất biên được đưa ra trong các biên của bảng xác + P1O32 = 0,37 khi sử dụng Quy tắc 1. Phần bù của biến cố này là M; tức là người trả lời là nam. Lưu ý rằng P1M2 = 0,63 = 1 P1F2 , như được phản ánh trong Quy tắc 2. Sự kiện B1 bao gồm các kết quả và O4 , do đó, P1B1 O1 suất chung bằng cách tính tổng các hàng và cột. Ví dụ: lưu ý rằng P1F2 = P1F và B1 2 + P1F và B22 + P1F và B32 = 0,09 + 0,06 + 0,22 = 0,37. 2 = P1O1 2 + P1O4 2 = 0,34. Tương tự, chúng ta thấy rằng Tương tự, P1B12 = P1F và B12 + P1 M và B12 = 0,09 + 0,25 = P1B22 = 0,23 và P1B3 2 = 0,43. 0,34. Các sự kiện F và M là loại trừ lẫn nhau, cũng như các sự kiện B1 , B2 và B3 vì người trả lời có thể chỉ là nam Cuộc thảo luận về xác suất chung này dẫn đến quy tắc xác suất sau: Quy tắc 5. Nếu biến cố A gồm các kết quả {A1 , A2 , g, An } và biến cố B là kết quả của các kết quả {B1 , B2 , g, Bn } thì P1Ai2 P1Ai và B1 2 + P1Ai và B2 2 + g+ P1Ai và Bn 2 Machine Translated by Google 137 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.2 xác suất có điều kiện Một phần năng lượng tệp Excel Xác suất có điều kiện là xác suất xảy ra một sự kiện A, với điều kiện là một sự Khảo sát đồ uống kiện B khác được biết là đúng hoặc đã xảy ra. VÍ DỤ 5.8 Tính toán Xác suất có Điều kiện trong Bảng chéo Chúng tôi sẽ sử dụng thông tin được hiển thị trong ví dụ khảo và trong số này, 25 người thích nhãn hiệu 1. Do đó, xác suất sát về nước tăng lực ở Hình 5.2 để minh họa cách tính xác mà một người trả lời nam thích nhãn hiệu suất có điều kiện từ bảng chéo hoặc bảng xác suất chung. 1 thu được kết quả tương tự từ bảng xác suất chung bằng cách 25 63 . Chúng ta có thể có chia xác suất chung 0,25 (xác suất mà người trả lời là nam và Giả sử rằng chúng ta biết rằng một người trả lời là nam. Xác suất mà anh ấy thích nhãn hiệu 1 là gì? Từ PivotTable, thích nhãn hiệu 1) cho xác suất cận biên 0,63 (xác suất người trả lời là nam). lưu ý rằng chỉ có 63 nam trong nhóm Xác suất có điều kiện rất hữu ích trong việc phân tích dữ liệu trong các bảng chéo, cũng như trong các loại ứng dụng khác. Nhiều công ty lưu lịch sử mua hàng của khách hàng để dự đoán doanh số bán hàng trong tương lai. Xác suất có điều kiện có thể giúp dự đoán các giao dịch mua trong tương lai dựa trên các giao dịch mua trong quá khứ. VÍ DỤ 5.9 Xác suất có điều kiện trong Tiếp thị Tệp Excel Lịch sử mua hàng của Apple trình bày lịch sử giả iPad với điều kiện khách hàng mua iMac lần đầu là = 0,15. định về các lần mua sản phẩm của Apple của người tiêu dùng, Tương tự, 13 74 khách hàng đã mua MacBook trong lần mua đầu tiên; cho thấy lần mua đầu tiên và lần thứ hai cho một mẫu gồm 200 xác suất có điều kiện mua iPhone nếu khách hàng mua MacBook khách hàng đã thực hiện các lần mua lặp lại (xem Hình 5.3). lần đầu là = 0,35. Bằng cách hiểu những sản phẩm nào có nhiều PivotTable trong Hình 5.4 hiển thị số lượng loại mua hàng thứ khả năng được mua bởi những khách hàng đã sở hữu các sản phẩm 74 2 26 hai với điều kiện là mỗi sản phẩm được mua trước. Ví dụ: 13 khác, các công ty có thể nhắm mục tiêu chiến lược quảng cáo khách hàng đã mua iMac là sản phẩm Apple đầu tiên của họ. Khi tốt hơn. đó xác suất mua có điều kiện Machine Translated by Google 138 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.3 Một phần của tệp Excel Apple Lịch sử mua hàng Hình 5.4 PivotTable mua hàng Hành vi Nói chung, xác suất có điều kiện của một sự kiện A nếu biết rằng sự kiện B đã xảy ra là P1AB2 P1A và B2 (5.3) P1B2 Chúng tôi đọc ký hiệu P1AB2 là “xác suất của A cho trước B.” VÍ DỤ 5.10 Sử dụng Công thức Xác suất có Điều kiện Sử dụng dữ liệu từ ví dụ khảo sát nước tăng lực, thay B1 cho A và M cho B trong công thức (5.3). Điều này dẫn đến xác suất có điều kiện của B1 cho trước M: P1B1 M2 = P1B1 và M2 = P1M2 0,25 0,63 P(Thương hiệu | Giới tính) Thương hiệu 1 Thương hiệu 2 Thương hiệu 3 Nam giới 0,397 0,270 0,333 Nữ giới 0,243 0,162 0,595 = 0,397. Những thông tin như vậy có thể quan trọng trong các nỗ lực Tương tự, xác suất thích nhãn hiệu 1 nếu người trả lời là tiếp thị. Biết rằng có sự khác biệt về sở thích theo giới tính có thể giúp tập trung quảng cáo. Ví dụ: chúng tôi thấy rằng khoảng nữ là P1B1 F2 = P1B1 và F2 P1F2 = 0,09 0,37 40% nam giới thích nhãn hiệu 1, trong khi chỉ có khoảng 24% nữ giới thích nhãn hiệu này và tỷ lệ nam giới thích nhãn hiệu 3 cao = 0,243. hơn. Điều này cho thấy rằng sẽ hợp lý hơn nếu tập trung vào quảng Bảng sau đây tóm tắt các khả năng xác suất có điều kiện của sở thích thương hiệu theo giới tính: cáo nhãn hiệu 1 hơn trên phương tiện truyền thông hướng đến nam giới và thương hiệu thứ 3 trên phương tiện truyền thông hướng đến nữ giới. Công thức xác suất có điều kiện có thể được sử dụng theo những cách khác. Ví dụ, nhân cả hai vế của công thức (5.3) với P1B2, ta thu được P1A và B2 P1AB2 P1B2. Lưu ý rằng chúng tôi có thể chuyển đổi vai trò của A và B và viết P1B và A2 P1BA2 P1A2. Nhưng P(B và A) cũng giống như P(A và B); do đó chúng ta có thể biểu diễn P(A và B) theo hai cách: P1A và B2 P1A B2 P1B2 P1BA2 P1A2 Điều này thường được gọi là quy luật nhân xác suất. (5.4) Machine Translated by Google 139 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Chúng ta có thể sử dụng khái niệm này để biểu thị xác suất của một sự kiện trong một xác suất chung bảng theo một cách khác. Sử dụng lại khảo sát về nước tăng lực trong Hình 5.2, lưu ý rằng P1F2 P1F và Nhãn hiệu 12 + P1F và Nhãn hiệu 22 + P1F và Nhãn hiệu 32 Sử dụng công thức (5.4), chúng ta có thể biểu diễn các xác suất chung P(A và B) theo P(AB) P(B). Vì thế, P1F2 Thương hiệu P1F 12 Thương hiệu P1 12 + Thương hiệu P1F 22 Thương hiệu P1F 22 + Thương hiệu P1F 32 P1Brand 32 10,265210,342 + 10,261210,232 + 10,512210,432 0,37 1với độ chính xác làm tròn2. Chúng ta có thể biểu diễn phép tính này bằng cách sử dụng phần mở rộng sau đây của định luật nhân xác suất. Giả sử B1 , B2 , . . . , Bn là các sự kiện loại trừ lẫn nhau mà hợp của chúng bao gồm toàn bộ không gian mẫu. Sau đó (5.5) P1A2 P1A B1 2P1B1 2 + P1A B2 2P1B2 2 + g+ P1A Bn 2P1Bn 2 VÍ DỤ 5.11 Sử dụng Luật nhân xác suất Texas Hold 'Em đã trở thành một trò chơi phổ biến vì sự thẻ2. Vì xác suất của quân Át trên quân bài đầu tiên công khai xung quanh World Series of Poker. Khi bắt đầu là 4/52 và xác suất quân Át trên quân bài thứ hai trò chơi, mỗi người chơi sẽ nhận được hai lá bài úp nếu cô ấy đã rút quân Át là 3/51, nên ta có (chúng ta sẽ không lo lắng về phần còn lại của trò chơi sẽ diễn ra như thế nào). Giả sử rằng một người chơi P1 Át trên thẻ đầu tiên và Át trên thẻ thứ hai2 = Át1 ở quân bài thứ hai nhận được quân Át trên lá bài đầu tiên của mình. Xác Át ở quân bài thứ nhất × P1ace trên thẻ đầu tiên2 suất mà cô ấy sẽ kết thúc với “quân át” (hai quân át trong tay) là P1 Át trên quân linh sam và Át trên quân thứ hai = P1 Át trên thẻ thứ hai = một513 b×a 4 Át trên thẻ linh2 × P1 Át trên thẻ linh sam 52 b = 0,004525 Trong ví dụ 5.10, chúng ta thấy rằng xác suất ưa thích một thương hiệu phụ thuộc vào giới tính. Chúng tôi có thể nói rằng sở thích thương hiệu và giới tính không độc lập. Chúng ta có thể chính thức hóa khái niệm này bằng cách định nghĩa khái niệm biến cố độc lập: Hai biến cố A và B độc lập nếu P1A B2 P1A2. VÍ DỤ 5.12 Xác định xem hai sự kiện có độc lập không Chúng tôi sử dụng định nghĩa này trong ví dụ khảo sát về nước tăng lực. Chúng ta thấy rằng trong khi P1B1 Hãy nhớ lại rằng xác suất có điều kiện của sở thích thương hiệu được chỉ ra là 0,34 trong Ví dụ 5.7; do đó, hai sự kiện do giới tính cho trước là này không độc lập. M2 = 0,397, P1B1 2 P(Thương hiệu | Giới tính) Thương hiệu 1 Thương hiệu 2 Thương hiệu 3 Nam giới 0,397 0,270 0,333 Nữ giới 0,243 0,162 0,595 Cuối cùng, chúng ta thấy rằng nếu hai sự kiện là độc lập, thì chúng ta có thể đơn giản hóa phép nhân định luật xác suất trong phương trình (5.4) bằng cách thay thế P(A) cho P1AB2: P1A và B2 P1B2 P1A2 P1A2P1B2 (5.6) Machine Translated by Google 140 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.13 Sử dụng Luật nhân cho các biến cố độc lập Giả sử A là sự kiện lần đầu tiên tung được mặt 6 trên một cặp xúc xắc và B là biến cố tung được mặt 2, 3 hoặc 12 ở lần tung tiếp theo. xúc xắc không phụ thuộc vào lần tung trước đó. Sau đó, chúng ta có 5 20 4 = thể tính P1A và B2 = P1A2P1B2 = 36 36 1296 . Những sự kiện này là độc lập bởi vì cuộn của một cặp Biến ngẫu nhiên và phân phối xác suất Một số thí nghiệm đương nhiên có kết quả bằng số, chẳng hạn như tung xúc xắc, thời gian cần thiết để sửa chữa máy tính hoặc thay đổi hàng tuần trong chỉ số thị trường chứng khoán. Đối với các thử nghiệm khác, chẳng hạn như thu thập phản ứng của người tiêu dùng đối với một sản phẩm mới, không gian mẫu là cat egorical. Để có một cơ sở toán học nhất quán để xử lý xác suất, chúng ta muốn kết quả của tất cả các thí nghiệm là số. Một biến ngẫu nhiên là một mô tả bằng số về kết quả của một thí nghiệm. Về mặt hình thức, một biến ngẫu nhiên là một hàm gán một số thực cho mỗi phần tử của một không gian mẫu. Nếu chúng ta có đầu ra phân loại, chúng ta có thể liên kết một giá trị số tùy ý với chúng. Ví dụ: nếu người tiêu dùng thích một sản phẩm trong nghiên cứu thị trường, chúng tôi có thể gán cho kết quả này giá trị là 1; nếu người tiêu dùng không thích sản phẩm, chúng tôi có thể gán cho kết quả này giá trị bằng 0. Các biến ngẫu nhiên thường được biểu thị bằng các chữ cái in hoa, chẳng hạn như X hoặc Y. Biến ngẫu nhiên có thể rời rạc hoặc liên tục. Biến ngẫu nhiên rời rạc là biến có thể đếm được số lượng kết quả có thể xảy ra. Một biến ngẫu nhiên liên tục có kết quả trên một hoặc nhiều khoảng liên tục của các số thực. VÍ DỤ 5.14 Biến ngẫu nhiên rời rạc và liên tục Kết quả của việc tung hai con xúc xắc (các số từ 2 đến 12) và phản con số; tuy nhiên, số lượng truy cập có thể được tính. ứng của khách hàng đối với một sản phẩm (thích hoặc không thích) Ví dụ về các biến ngẫu nhiên liên tục là sự thay đổi hàng tuần là các biến ngẫu nhiên rời rạc. Số lượng kết quả có thể là hữu hạn trong DJIA, có thể nhận bất kỳ giá trị dương hoặc âm nào, nhiệt hoặc vô hạn về mặt lý thuyết, chẳng hạn như số lần truy cập vào độ hàng ngày, thời gian hoàn thành nhiệm vụ, thời gian giữa các một liên kết trang Web trong một khoảng thời gian nào đó—chúng tôi lần hỏng hóc của máy và lợi tức đầu tư. không thể đặt giới hạn trên được đảm bảo cho điều này Phân phối xác suất là đặc tính của các giá trị có thể có mà một biến ngẫu nhiên có thể giả định cùng với xác suất giả định các giá trị này. Một phân phối xác suất có thể rời rạc hoặc liên tục, tùy thuộc vào bản chất của biến ngẫu nhiên mà nó mô hình hóa. Các bản phân phối riêng biệt dễ hiểu và dễ làm việc hơn, và chúng tôi xử lý chúng trước. Chúng ta có thể phát triển một phân bố xác suất bằng cách sử dụng bất kỳ một trong ba khía cạnh của xác suất. Đầu tiên, nếu chúng ta có thể định lượng xác suất liên quan đến các giá trị của một biến ngẫu nhiên từ các lập luận lý thuyết; sau đó chúng ta có thể dễ dàng xác định phân phối xác suất. VÍ DỤ 5.15 Phân phối xác suất của các cuộn xúc xắc Xác suất của các kết quả khi tung hai con xúc xắc được tính bằng Những thứ này, cùng với biểu đồ cột Excel mô tả phân bố xác suất, cách đếm số cách tung mỗi con số chia cho tổng số kết quả có thể được hiển thị từ tệp Excel Dice Rolls trong Hình 5.5. xảy ra. Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 141 Hình 5.5 Phân phối xác suất của cuộn hai con xúc xắc Thứ hai, chúng ta có thể tính tần suất tương đối từ một mẫu dữ liệu thực nghiệm để phát triển phân bố xác suất. Như vậy, sự phân bố tần suất tương đối của thời gian sửa chữa máy tính (Hình 5.1) là một ví dụ. Bởi vì điều này dựa trên dữ liệu mẫu, chúng tôi thường gọi đây là phân phối xác suất theo kinh nghiệm. Phân phối xác suất theo kinh nghiệm là một phép tính gần đúng của phân phối xác suất của biến ngẫu nhiên liên quan, trong khi phân phối xác suất của một biến ngẫu nhiên, chẳng hạn như phân phối xác suất xuất phát từ các đối số đếm, là một mô hình lý thuyết của biến ngẫu nhiên. Cuối cùng, chúng ta có thể chỉ định một phân phối xác suất bằng cách sử dụng các giá trị chủ quan và đánh giá của chuyên gia. Điều này thường được thực hiện trong việc tạo ra các mô hình quyết định cho các hiện tượng mà chúng ta không có dữ liệu lịch sử. VÍ DỤ 5.16 Phân phối xác suất chủ quan Hình 5.6 cho thấy một ví dụ giả thuyết về sự phân bổ đánh giá của một nhưng chúng tôi hy vọng nó sẽ được hỗ trợ bởi một số phân tích sâu rộng chuyên gia về cách DJIA có thể thay đổi trong năm tới. Điều này có thể về dữ liệu trong quá khứ và hiện tại bằng cách sử dụng các công cụ phân đã được tạo ra hoàn toàn bằng trực giác và đánh giá của chuyên gia, tích kinh doanh. Các nhà nghiên cứu đã xác định nhiều loại phân phối xác suất phổ biến hữu ích trong nhiều ứng dụng phân tích kinh doanh. Kiến thức làm việc về các họ phổ biến của phân phối xác suất là quan trọng vì nhiều lý do. Đầu tiên, nó có thể giúp bạn hiểu quy trình cơ bản tạo ra dữ liệu mẫu. Chúng tôi điều tra mối quan hệ giữa phân phối và mẫu sau này. Thứ hai, nhiều hiện tượng trong kinh doanh và tự nhiên tuân theo một số phân phối lý thuyết và do đó, rất hữu ích trong việc xây dựng các mô hình quyết định. Cuối cùng, làm việc với các bản phân phối là điều cần thiết trong việc tính toán xác suất xảy ra các kết quả để đánh giá rủi ro và đưa ra quyết định. Machine Translated by Google 142 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.6 xác suất chủ quan Phân phối Thay đổi DJIA Phân phối xác suất rời rạc Đối với một biến ngẫu nhiên rời rạc X, phân bố xác suất của các kết quả rời rạc được gọi là hàm khối lượng xác suất và được biểu thị bằng một hàm toán học, f1x2. Kí hiệu xi là giá trị thứ i của biến ngẫu nhiên X và f1xi2 là xác suất. VÍ DỤ 5.17 Hàm khối lượng xác suất để tung hai con xúc xắc 5 Chẳng hạn, trong Hình 5.5 cho ví dụ về con xúc xắc, các giá f1 5 2 = trị của biến ngẫu nhiên X, đại diện cho tổng số lần tung của hai con xúc xắc, là 1 = 2, = 3 3 = 4 2 = 5, = 56, = 9, =6 12. = 7,Hàm7 khối = 8, lượng số 8 3 = 10 f1 6 2 = 10 4, = 11,11 xác suất của 6 36 5 X là f1 7 2 = f1 1 2 = 1 36 2 f1 2 2 = f1 3 2 = f1 42 = 36 36 3 36 4 36 = 0,0278 f1 = 0,0556 số 8 2 = f1 9 2 = = 0,0833 f1 102 = = 0,1111 f1 11 2 = 36 4 36 3 36 2 36 1 36 = 0,1389 = 0,1667 = 0,1389 = 0,1111 = 0,0833 = 0,0556 = 0,0278 Hàm khối lượng xác suất có các thuộc tính (1) xác suất của mỗi lần xuất hiện đến phải nằm trong khoảng từ 0 đến 1 và (2) tổng của tất cả các xác suất phải bằng 1; đó là, 0 … f1xi2 … 1 với mọi i Mộtf1xi2 1 Tôi Bạn có thể dễ dàng xác minh rằng điều này đúng trong mỗi ví dụ mà chúng tôi đã mô tả. (5.7) (5.8) Machine Translated by Google 143 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hàm phân phối tích lũy, F1x2, xác định xác suất mà biến dom ran X giả định một giá trị nhỏ hơn hoặc bằng một giá trị xác định, x. Điều này cũng được ký hiệu là P1X … x2 và được đọc là “xác suất để biến ngẫu nhiên X nhỏ hơn hoặc bằng x.” VÍ DỤ 5.18 Sử dụng hàm phân phối tích lũy Hàm phân phối tích lũy để tung hai con xúc xắc được hiển thị sử dụng hàm phân phối tích lũy để tìm các mối quan hệ xác suất trong Hình 5.7, cùng với biểu đồ đường Excel mô tả nó một cách trong các khoảng thời gian. Ví dụ: để tìm xác suất lăn một số trực quan từ trang tính CumDist trong tệp Dice Rolls Excel. Để từ 4 đến 8, P14 " X " 82, chúng ta có thể tìm P1X " 82 và trừ sử dụng điều này, giả sử chúng ta muốn biết xác suất lăn được P1X " 32; đó là, 6 hoặc ít hơn. Chúng tôi chỉ cần tra cứu xác suất tích lũy cho 6, là 0,5833. P14 " X " 82 = P1X " 82 P1X " 32 = 0,7222 0,0833 = 0,6389. Ngoài ra, chúng ta có thể xác định điểm cho = 6 trong biểu đồ và ước tính xác suất từ biểu đồ. Cũng lưu ý rằng vì xác suất Một lời cảnh báo. Hãy cẩn thận với các điểm cuối khi tính để tung ra con số 6 trở xuống là 0,5833, nên xác suất của sự toán xác suất trong các khoảng thời gian cho các bản phân phối kiện bổ sung (cuộn con số 7 trở lên) là 1 chúng ta cũng có thể 0,5833 = 0,4167. rời rạc; vì 4 được bao gồm trong khoảng mà chúng tôi muốn tính toán, nên chúng tôi cần trừ P1X " 32, không phải P1X " 42. Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc Giá trị kỳ vọng của một biến ngẫu nhiên tương ứng với khái niệm về giá trị trung bình hoặc trung bình của một mẫu. Đối với biến ngẫu nhiên rời rạc X, giá trị kỳ vọng, ký hiệu là E[X], là trung bình trọng số của tất cả các kết quả có thể xảy ra, trong đó các trọng số là xác suất: ∞ E3X4 một xi f 1xi2 tôi 1 Hình 5.7 Phân phối tích lũy Chức năng cán hai xúc xắc (5.9) Machine Translated by Google 144 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Lưu ý sự giống nhau khi tính trung bình dân số sử dụng công thức (4.13) trong Chương 4: N Mộtcố tôi định tôi 1 N Nếu chúng ta viết cái này dưới dạng tổng của xi nhân với 1fi>N2, thì chúng ta có thể coi fi>N là xác suất của xi . Sau đó, biểu thức cho giá trị trung bình này có dạng cơ bản giống như công thức giá trị kỳ vọng. VÍ DỤ 5.19 Tính giá trị kỳ vọng Ta có thể áp dụng công thức (5.9) cho phân phối xác suất của việc Hình 5.8 cho thấy những tính toán này trong một bảng tính Excel tung hai con xúc xắc. Chúng ta nhân kết quả 2 với xác suất 1/36 của (bảng tính Giá trị kỳ vọng trong Trò chơi tung xúc xắc nó, cộng kết quả này với tích của kết quả 3 và xác suất của nó, v.v. tập tin Excel). Đúng như dự đoán (không có ý định chơi chữ), giá trị Tiếp tục theo cách này, giá trị kỳ vọng là trung bình của hai lần tung xúc xắc là 7. E[X] = 210,02782 + 310,05562 + 410,08332 + 510,011112 + 610.13892 + 710.16672 + 810.13892 + 910.11112 + 1010.08332 + 1110.05562 + 1210.02782 = 7 Sử dụng giá trị kỳ vọng trong việc ra quyết định Giá trị kỳ vọng có thể hữu ích trong việc đưa ra nhiều quyết định khác nhau, ngay cả những quyết định chúng ta thấy trong cuộc sống hàng ngày. VÍ DỤ 5.20 Giá trị kỳ vọng trên truyền hình Một trong những ví dụ yêu thích của tác giả bắt nguồn từ một nhiệm vụ mở ra, nhân viên ngân hàng cung cấp cho thí sinh một số tiền để thoát trong phần 1 của chương trình truyền hình Donald Trump, The Apprentice. khỏi trò chơi, thí sinh có thể chọn hoặc từ chối. Đầu trò chơi, đề Các đội được yêu cầu chọn một nghệ sĩ và bán tác phẩm của họ với tổng nghị của chủ ngân hàng thường thấp hơn giá trị dự kiến của các trường số tiền cao nhất. hợp còn lại, tạo động lực để tiếp tục. Tuy nhiên, khi số lượng các Một nhóm đã chọn một nghệ sĩ chính thống chuyên về nghệ thuật trừu trường hợp còn lại trở nên nhỏ, đề nghị của chủ ngân hàng sẽ tiếp cận tượng được bán với giá từ 1.000 đến 2.000 đô la; đội thứ hai chọn một hoặc thậm chí có thể vượt quá mức trung bình của các trường hợp còn nghệ sĩ tiên phong có nghệ thuật siêu thực và khá gây tranh cãi được lại. Hầu hết mọi người tiếp tục cho đến khi kết thúc cay đắng và thường định giá cao hơn nhiều. bỏ đi với số tiền ít hơn họ có thể có nếu họ có thể ước tính giá trị Đoán xem ai đã thắng? Nhóm đầu tiên đã làm như vậy, bởi vì xác suất kỳ vọng của các trường hợp còn lại và đưa ra quyết định hợp lý hơn. bán được một tác phẩm nghệ thuật chính thống cao hơn nhiều so với khả năng bán được tác phẩm nghệ thuật kỳ lạ của nghệ sĩ tiên phong (chính các thành viên trong nhóm cũng không thích nó!) có xác suất bán được Trong một trường hợp, một thí sinh còn lại năm chiếc cặp với 100 đô rất thấp. Một phép tính giá trị kỳ vọng phía sau phong bì sẽ dễ dàng la, 400 đô la, 1.000 đô la, 50.000 đô la và 300.000 đô la. Bởi vì lựa dự đoán người chiến thắng. chọn của mỗi trường hợp đều có khả năng xảy ra như nhau nên giá trị kỳ Một game show nổi tiếng đã làm mưa làm gió khán giả truyền hình vọng là 0,21$100 + $400 + $1000 + $50.000 + $300.0002 = vài năm trước có tên là Deal or No Deal. Trò chơi liên quan đến một 70.300 đô la và chủ ngân hàng đề nghị 80.000 đô la để từ bỏ. Thay vào tập hợp các chiếc cặp được đánh số chứa số tiền từ 1 xu đến 1.000.000 đó, cô ấy nói “Không có thỏa thuận” và tiếp tục mở chiếc vali trị giá đô la. Các cuộc tranh luận bắt đầu chọn các trường hợp sẽ được mở và 300.000 đô la, loại bỏ nó khỏi trò chơi và nhận lời đề nghị của chủ loại bỏ, đồng thời số lượng của chúng được hiển thị. Sau mỗi tập hợp ngân hàng tiếp theo là 21.000 đô la, lớn hơn 60% so với giá trị dự các trường hợp là kiến của những chiếc hộp còn lại.1 1 “Thỏa thuận hoặc Không thỏa thuận: Thỏa thuận thống kê.” www.pearsonified.com/2006/03/deal_or_no_deal_the_real_deal.php Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 145 Hình 5.8 Tính toán giá trị kỳ vọng cho việc tung hai viên xúc xắc Điều quan trọng là phải hiểu rằng giá trị kỳ vọng là "trung bình dài hạn" và phù hợp với các quyết định xảy ra trên cơ sở lặp đi lặp lại. Tuy nhiên, đối với các quyết định một lần, bạn cần xem xét rủi ro giảm giá và tiềm năng tăng giá của quyết định. Ví dụ sau đây minh họa điều này. VÍ DỤ 5.21 Giá trị kỳ vọng của Xổ số từ thiện Giả sử bạn có cơ hội mua một trong 1.000 vé xổ số từ thiện nhiều lần trong thời gian dài, bạn sẽ mất trung bình 25,00 được bán với giá 50 đô la, với giải thưởng là 25.000 đô la. đô la mỗi lần chơi. Tất nhiên, đối với bất kỳ ai Rõ ràng, xác suất thắng là hoặc 0,001, trong khi xác suất trò chơi, bạn sẽ mất 50 đô la hoặc thắng 24.950 đô la. Vì thua là 1 1.000, vậy, câu hỏi trở thành, Rủi ro mất 50 đô la có xứng đáng với 1 0,001 0,999. Biến ngẫu nhiên X là tiền thắng ròng của bạn và phân phối xác suất của nó là khả năng giành được 24.950 đô la không? Mặc dù giá trị kỳ vọng là âm, nhưng bạn có thể nắm lấy cơ hội vì tiềm năng tăng giá là lớn so với những gì bạn có thể mất, và xét cho cùng, đó là để làm từ thiện. Tuy nhiên, nếu khoản lỗ tiềm năng của bạn f( ) lớn, bạn có thể không nắm lấy cơ hội, ngay cả khi giá trị kỳ $50 0,999 $24,950 0,001 vọng là dương. Giá trị kỳ vọng, E[X ], là $50(0,999) + $24,950(0,001) = $25,00. Điều này có nghĩa là nếu bạn chơi trò chơi này Các quyết định dựa trên giá trị kỳ vọng là phổ biến trong các dự án phát triển bất động sản, giao dịch trong ngày và nghiên cứu dược phẩm. Phát triển thuốc là một ví dụ điển hình. Chi phí cho các dự án nghiên cứu và phát triển trong ngành dược phẩm thường lên tới hàng trăm triệu đô la và thường lên tới 1 tỷ đô la. Nhiều dự án không bao giờ được thử nghiệm lâm sàng hoặc có thể không được Cục Quản lý Thực phẩm và Dược phẩm phê duyệt. Thống kê chỉ ra rằng 7 trong số 10 sản phẩm không trả lại chi phí vốn của công ty. Tuy nhiên, các công ty lớn có thể hấp thụ những khoản lỗ như vậy vì lợi nhuận từ một hoặc hai loại thuốc bom tấn có thể dễ dàng bù đắp những khoản lỗ này. Trên cơ sở trung bình, các công ty dược phẩm kiếm được lợi nhuận ròng từ những quyết định này. Machine Translated by Google 146 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.22 Quản lý doanh thu hàng không Chúng ta hãy xem xét một phiên bản đơn giản hóa của quy trình quản lý nếu giảm giá thì số ghế còn lại sẽ được bán với giá đó. Giá trị kỳ vọng doanh thu điển hình mà các hãng hàng không sử dụng. Vào bất kỳ thời của việc không chiết khấu giá là 0,25 (0) + 0,75($560) = $420. Vì đây điểm nào trước chuyến bay theo lịch trình, các hãng hàng không phải đưa là mức giá cao hơn giá đã chiết khấu nên hãng không nên tính chiết khấu ra quyết định xem có giảm giá vé để kích cầu cho những chỗ trống hay không. vào thời điểm này. Trên thực tế, các hãng hàng không liên tục cập Nếu hãng không giảm giá vé, ghế trống có thể không được bán và hãng sẽ nhật xác suất p dựa trên thông tin họ thu thập và phân tích trong cơ bị thất thu. Nếu hãng hàng không tính số ghế còn lại quá sớm (và có sở dữ liệu. Khi giá trị của p giảm xuống dưới điểm hòa vốn: $400 = thể bán chúng với giá vé cao hơn), họ sẽ mất lợi nhuận. Quyết định phụ p($560), op = 0,714 thì chiết khấu có lợi. Nó cũng có thể hoạt động thuộc vào xác suất p bán vé nguyên giá nếu họ chọn không giảm giá. Bởi ngược lại; nếu nhu cầu cao đến mức xác suất bán được vé cao hơn, thì vì một hãng hàng không đưa ra hàng trăm hoặc hàng nghìn quyết định như giá có thể được điều chỉnh tăng lên. Đây là lý do tại sao giá vé được vậy mỗi ngày nên cách tiếp cận giá trị kỳ vọng là phù hợp. công bố liên tục thay đổi và tại sao bạn có thể nhận được ưu đãi giảm giá vào phút cuối hoặc có thể trả giá cao hơn nếu bạn đợi quá lâu để đặt chỗ. Các ngành công nghiệp khác như khách sạn và tàu du lịch sử Giả sử rằng chỉ có hai giá vé: đầy đủ và giảm giá. Giả sử rằng dụng các chiến lược quyết định tương tự. một vé giá đầy đủ là 560 đô la, giá vé giảm giá là 400 đô la và p = 0,75. Để đơn giản hóa, giả sử rằng Phương sai của một biến ngẫu nhiên rời rạc Chúng ta có thể tính toán phương sai, Var[X], của biến ngẫu nhiên rời rạc X dưới dạng trung bình có trọng số của bình phương độ lệch so với giá trị dự kiến: ∞ Biến [X] a 1xj - E[X]22 f1xj2 (5.10) j 1 VÍ DỤ 5.23 Tính toán phương sai của một biến ngẫu nhiên Ta có thể áp dụng công thức (5.10) để tính phương sai của phân bố xác hiển thị các tính toán này trong bảng tính Excel (bảng tính Phương suất khi tung hai con súc sắc. Hình 5.9 sai trong tệp Excel tính toán biến ngẫu nhiên). Tương tự như phần thảo luận của chúng ta trong Chương 4, phương sai đo lường độ bất định của biến ran dom; phương sai càng cao, độ không chắc chắn của kết quả càng cao. Mặc dù phương sai dễ xử lý hơn về mặt toán học, nhưng chúng ta thường đo độ biến thiên của một biến ngẫu nhiên bằng độ lệch chuẩn của nó, đơn giản là căn bậc hai của phương sai. Hình 5.9 Tính toán phương sai cho Lăn hai con xúc xắc Machine Translated by Google 147 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Phân phối Bernoulli Phân phối Bernoulli đặc trưng cho một biến ngẫu nhiên có hai lần xuất hiện có thể xảy ra, mỗi lần có xác suất xuất hiện không đổi. Thông thường, những kết quả này đại diện cho “thành công” 1x 12 có xác suất p và “thất bại” 1x 02, có xác suất 1 - p. Thành công có thể là bất kỳ kết quả nào bạn xác định. Ví dụ: khi cố gắng khởi động một máy tính mới ngay bên ngoài dây chuyền lắp ráp, chúng ta có thể định nghĩa thành công là “không khởi động được” khi xác định một biến ngẫu nhiên Bernoulli để mô tả phân bố xác suất của một sản phẩm bị lỗi. Vì vậy, thành công không nhất thiết phải là một kết quả thuận lợi theo nghĩa truyền thống. Hàm khối lượng xác suất của phân phối Bernoulli là P f1x2 nếu x 1 (5.11) 1 - p nếu x 0 trong đó p đại diện cho xác suất thành công. Giá trị kỳ vọng là p và phương sai là p11 - p2. VÍ DỤ 5.24 Sử dụng Phân phối Bernoulli Phân phối Bernoulli có thể được sử dụng để lập mô hình liệu một cá p = 0,2. Hãy nghĩ về thí nghiệm sau đây. Giả sử bạn có một nhân có phản ứng tích cực hay không (== 0) 1) hoặc âm ( hộp có 100 viên bi, 20 viên bi đỏ và 80 viên bi trắng. Đối cho một chương trình khuyến mãi tiếp thị qua điện thoại. Ví với mỗi khách hàng, chọn ngẫu nhiên một viên bi (rồi đặt dụ: nếu bạn ước tính rằng 20% khách hàng được liên hệ sẽ mua lại). Kết quả sẽ có phân phối Bernoulli. Nếu một viên bi màu hàng, phân phối xác suất mô tả việc một cá nhân cụ thể có mua đỏ được chọn, thì khách hàng đó sẽ đuổi theo; nếu nó có màu hàng hay không là Bernoulli với trắng, khách hàng không mua hàng. phân phối nhị thức Các mô hình phân phối nhị thức n lần sao chép độc lập của một thí nghiệm Bernoulli, mỗi lần có xác suất thành công p. Biến ngẫu nhiên X đại diện cho số lần thành công trong n thí nghiệm này. Trong ví dụ tiếp thị qua điện thoại, giả sử rằng chúng ta gọi n 10 khách hàng, mỗi người trong số họ có xác suất mua hàng p 0,2. Sau đó, phân phối khả năng xác suất của số phản hồi tích cực thu được từ 10 khách hàng là nhị thức. Sử dụng phân phối nhị thức, chúng ta có thể tính xác suất để chính xác x khách hàng trong số 10 khách hàng sẽ mua hàng với bất kỳ giá trị nào của x trong khoảng từ 0 đến 10. Phân phối nhị thức cũng có thể được sử dụng để lập mô hình kết quả kiểm tra lấy mẫu trong một hoạt động sản xuất hoặc tác dụng của nghiên cứu thuốc trên một mẫu bệnh nhân. Hàm khối lượng xác suất cho phân phối nhị thức là f1x2 an x bp x 11 - p2n-x , 0, cho x 0, 1, 2, c, N (5.12) nếu không thì Ký hiệu xb biểu thị số cách chọn x mục riêng biệt từ một nhóm của n mục và được tính là N! một xb x! 1n - x2! ở đâu! (n giai thừa) n1n - 121n - 22 g122112, và 0! được định nghĩa là 1. (5.13) Machine Translated by Google 148 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.25 Tính toán xác suất nhị thức Chúng ta có thể sử dụng công thức (5.12) để tính xác suất Do đó, để tìm xác suất để 3 người sẽ mua hàng trong số 10 nhị thức. Ví dụ: nếu xác suất mà bất kỳ cá nhân nào sẽ mua cuộc gọi, chúng ta tính hàng từ chào mời tiếp thị qua điện thoại là 0,2, thì phân phối xác suất mà các cá nhân trong số 10 cuộc gọi sẽ mua hàng f(3) = a10 3 b(0,2)3 (0,8)10 là c, f 1 2 = a10b 10.22 10.8210 0, , với = 0, 1, 2, 3 = (10!/3!7!)(0,008)(0,2097152) N = 120(0,008)(0,2097152) = 0,20133 nếu không thì Công thức cho hàm khối lượng xác suất cho phân phối nhị thức khá phức tạp và xác suất nhị thức rất tẻ nhạt khi tính toán bằng tay; tuy nhiên, chúng có thể dễ dàng được tính toán trong Excel bằng hàm BINOM.DIST1số_s, phép thử, xác suất_s, tích lũy2 Trong chức năng này, number_s đóng vai trò của x và xác suất_s giống như p. Nếu tích lũy được đặt thành TRUE, thì hàm này sẽ cung cấp xác suất tích lũy; mặt khác, giá trị mặc định là FALSE và nó cung cấp các giá trị của hàm khối lượng xác suất, f1x2. VÍ DỤ 5.26 Sử dụng hàm phân phối nhị thức của Excel Hình 5.10 cho thấy kết quả của việc sử dụng hàm này để Xác suất để 3 cá nhân trở xuống mua hàng là tính phân phối cho ví dụ trước (Tệp Excel Xác suất nhị BINOM.DIST(A10,$B$3,$B$4,TRUE) = 0,87913 = F132. Tương thức). Chẳng hạn, xác suất để chính xác 3 cá nhân sẽ ứng, xác suất để hơn 3 trong số 10 cá nhân sẽ mua hàng mua hàng là BINOM.DIST(A10,$B$3,$B$4,FALSE) = 0,20133 là 1 = f132. Hình 5.10 Máy tính nhị thức Xác suất trong Excel F132 = 1 0,87913 = 0,12087. Machine Translated by Google 149 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.11 Ví dụ về phân phối nhị thức với p = 0,8 Giá trị kỳ vọng của phân phối nhị thức là np và phương sai là np11 - p2. Phân phối nhị thức có thể có các hình dạng và mức độ lệch khác nhau, tùy thuộc vào các tham số. Hình 5.11 cho thấy một ví dụ khi p 0,8. Đối với các giá trị lớn hơn của p, phân phối nhị thức bị lệch âm; đối với các giá trị nhỏ hơn, nó bị lệch dương. Khi p 0,5, phân phối là đối xứng. Phân phối Poisson Phân phối Poisson là một phân phối rời rạc được sử dụng để lập mô hình số lần xảy ra trong một số đơn vị đo lường—ví dụ: số lượng khách hàng đến cửa hàng Subway trong giờ ăn trưa các ngày trong tuần, số lần hỏng hóc của máy trong một tháng, số lượt truy cập vào một trang Web trong 1 phút hoặc số lỗi trên mỗi dòng mã phần mềm. Phân phối Poisson giả định không có giới hạn về số lần xuất hiện (có nghĩa là biến ngẫu nhiên X có thể nhận bất kỳ giá trị số nguyên không âm nào), rằng các lần xuất hiện là độc lập và số lần xuất hiện trung bình trên mỗi đơn vị là một hằng số, l (chữ thường lambda trong tiếng Hy Lạp). Giá trị kỳ vọng của phân phối Poisson là l và phương sai cũng bằng l. Hàm khối lượng xác suất cho phân phối Poisson là: tôi _x , x! cho x 0, 1, 2, c (5.14) f1x2 0, nếu không thì VÍ DỤ 5.27 Tính xác suất Poisson Giả sử rằng, trung bình, số lượng khách hàng đến Subway trong giờ ăn trưa là 12 khách hàng mỗi giờ. Xác suất để chính xác khách hàng sẽ đến trong giờ đó được cho bởi phân phối Poisson với giá trị trung bình là 12. Xác suất để chính xác khách hàng sẽ đến e f( 12 12 ! ) = 0, , cho = 0, 1, 2, nếu không thì trong giờ đó sẽ được tính bằng công thức (5.14): Thay = 5 vào công thức này, xác suất có đúng 5 khách hàng sẽ đến là f(5) = 0,1274. Giống như nhị thức, xác suất Poisson rất cồng kềnh khi tính toán bằng tay. Mối quan hệ xác suất có thể dễ dàng được tính toán trong Excel bằng cách sử dụng hàm POISSON.DIST(x, nghĩa là, tích lũy). Machine Translated by Google 150 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.28 Sử dụng hàm phân phối Poisson của Excel Hình 5.12 cho thấy kết quả của việc sử dụng chức năng này để = POISSON.DIST(A10,$B$3,TRUE) = 0,00760 = F(4), v.v. Bởi vì ghi lại các chỉnh sửa trên f hoặc Ex am - các giá trị có thể có của một biến dom chạy Poisson là vô hạn, Ví dụ 5.26 với L = 12 (xem tệp Excel Xác suất Poisson). Như nên chúng tôi chưa chỉ ra phân phối đầy đủ. Khi trở nên lớn, vậy, xác suất để có đúng một người đến trong giờ ăn trưa được xác suất trở nên khá nhỏ. Giống như nhị thức, dạng cụ thể của tính bằng hàm Excel =POISSON.DIST(A7, $B$3,FALSE) = 0,00007 = phân phối phụ thuộc vào giá trị của tham số L; phân phối bị f (1); lệch nhiều hơn cho các giá trị nhỏ hơn. xác suất của 4 lượt đến hoặc ít hơn được tính bằng Phân phối xác suất liên tục Như chúng ta đã lưu ý trước đó, một biến ngẫu nhiên liên tục được xác định trên một hoặc nhiều khoảng các số thực và do đó, có vô số kết quả có thể xảy ra. Giả sử rằng chuyên gia đã dự đoán các xác suất liên quan đến sự thay đổi của DJIA trong năm tới trong Hình 5.6 tiếp tục tinh chỉnh các ước tính trên phạm vi giá trị ngày càng lớn hơn. Hình 5.13 Hình 5.12 Máy tính Poisson Xác suất trong Excel Hình 5.13 xác suất tinh chế Phân phối Thay đổi DJIA Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 151 Phân tích trong thực tế: Sử dụng phân phối Poisson để lập mô hình Giá thầu trên Priceline2 Priceline nổi tiếng với việc cho phép khách hàng đặt giá của chính họ (chứ không phải nhà cung cấp dịch vụ) khi đấu thầu các dịch vụ như chuyến bay hoặc khách sạn. Một số khách sạn tận dụng chiến lược của Priceline để lấp đầy phòng trống cho khách du lịch nghỉ dưỡng mà không làm loãng thị trường kinh doanh bằng cách đưa ra mức chiết khấu qua các kênh truyền thống. Trong một nghiên cứu sử dụng phân tích kinh doanh để phát triển mô hình tối ưu hóa chiến lược định giá cho Kimpton Hotels, công ty phát triển, sở hữu hoặc quản lý hơn 40 khách sạn phong cách boutique độc lập ở Hoa Kỳ và Canada, sự phân bổ số lượng giá thầu cho một số ngày nhất định trước khi đến được mô hình hóa dưới dạng phân phối Poisson vì nó tương ứng tốt với dữ liệu được quan sát. Ví dụ: số lượng giá thầu trung bình được đặt mỗi ngày 3 ngày trước khi đến vào cuối tuần (biến ngẫu nhiên X) là 6,3. Do đó, phân phối được sử dụng trong mô hình là f( ) = e 6,3 6,3 !, trong đó là số lượng giá thầu đã đặt. Mô hình phân tích đã giúp Ảnh Lucas Shutterstock.com / xác định giá để đăng trên Priceline và phân bổ hàng tồn kho cho từng mức giá. Sau khi sử dụng mô hình, các phòng được bán qua Priceline đã tăng 11% trong 1 năm và giá trung bình cho các phòng này tăng 3,7%. cho biết phân phối xác suất như vậy có thể trông như thế nào khi sử dụng gia số 2,5% thay vì 5%. Lưu ý rằng phân phối có hình dạng tương tự như trong Hình 5.6 nhưng đơn giản là có nhiều kết quả hơn. Nếu quá trình sàng lọc này tiếp tục, thì phân phối sẽ tiến gần đến hình dạng của một đường cong mượt mà, như thể hiện trong hình. Một đường cong đặc trưng cho các kết quả của một biến ngẫu nhiên liên tục được gọi là hàm mật độ xác suất và được mô tả bởi một hàm toán học f1x2. Tính chất của hàm mật độ xác suất Hàm mật độ xác suất có các tính chất sau: 1. f1x2 Ú 0 với mọi giá trị của x. Điều này có nghĩa là đồ thị của hàm mật độ phải nằm ở hoặc trên trục x. 2. Tổng diện tích dưới hàm mật độ phía trên trục x là 1,0. Đây là hậu quả của tính chất mà tổng tất cả các xác suất của một biến ngẫu nhiên rời rạc phải cộng lại bằng 1.0. 3. P1X x2 0. Đối với các biến ngẫu nhiên liên tục, việc cố gắng xác định xác suất cho một giá trị cụ thể của x là vô nghĩa về mặt toán học vì có vô số giá trị. 2Dựa trên Chris K. Anderson, “Setting Prices on Priceline,” Interfaces, 39, 4 (Tháng 7–Tháng 8 năm 2009): 307–315. Machine Translated by Google 152 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 4. Xác suất của biến ngẫu nhiên liên tục chỉ được xác định trên các khoảng. Do đó, chúng ta có thể tính toán xác suất giữa hai số a và b, P1a … X … b2, hoặc bên trái hoặc bên phải của một số c—ví dụ: P1X 6 c2 và P1X 7 c2. 5. P1a … X … b2 là diện tích dưới hàm mật độ giữa a và b. Hàm phân phối tích lũy cho một biến ngẫu nhiên liên tục được biểu thị giống như đối với các biến ngẫu nhiên rời rạc, F1x2, và biểu thị xác suất để biến ngẫu nhiên chạy X nhỏ hơn hoặc bằng x, P1X … x2. Theo trực giác, F1x2 đại diện cho khu vực bên dưới hàm mật độ ở bên trái của x. F1x2 thường có thể được suy ra bằng toán học từ f1x2. Việc biết F(x) giúp dễ dàng tính toán xác suất trong các khoảng thời gian phân phối liên tục. Xác suất để X nằm giữa a và b bằng hiệu của hàm phân phối tích lũy được đánh giá tại hai điểm này; đó là, P1a … X … b2 P1X … b2 - P1X … a2 F1b2 - F1a2 (5.15) Đối với các bản phân phối liên tục, chúng ta không cần quan tâm đến các điểm cuối, như chúng ta đã làm với các bản phân phối rời rạc, bởi vì P1a … X … b2 giống như P1a 6 X 6 b2. Các định nghĩa chính thức về giá trị kỳ vọng và phương sai cho một biến ngẫu nhiên liên tục có thể tương tự như định nghĩa cho một biến ngẫu nhiên rời rạc; tuy nhiên, để hiểu chúng, chúng ta phải dựa trên các khái niệm về giải tích nên chúng tôi không bàn đến chúng trong cuốn sách này. Chúng tôi chỉ nêu chúng khi thích hợp. Phân bố đồng đều Phân phối đồng đều đặc trưng cho một biến ngẫu nhiên liên tục mà tất cả các kết quả giữa một số giá trị tối thiểu và tối đa đều có khả năng xảy ra như nhau. Phân phối đồng đều thường được giả định trong các ứng dụng phân tích kinh doanh khi người ta biết rất ít về một biến ngẫu nhiên ngoài các ước tính hợp lý cho các giá trị tối thiểu và tối đa. Các tham số a và b được chọn một cách thận trọng để phản ánh phỏng đoán tốt nhất của người lập mô hình về phạm vi của biến ngẫu nhiên. Đối với phân phối đồng đều với giá trị nhỏ nhất a và giá trị lớn nhất b, hàm mật độ là 1 f1x2 cho a…x…b , ba (5.16) 0, nếu không thì và hàm phân phối tích lũy là 0, x - một F1x2 ba 1, nếu x < một , nếu a…x…b (5.17) nếu b < x Mặc dù Excel không cung cấp chức năng để tính toán các xác suất đồng nhất, nhưng các công thức for đủ đơn giản để kết hợp vào một bảng tính. Các xác suất cũng dễ dàng tính toán cho phân bố đều do dạng hình học đơn giản của hàm mật độ, như minh họa trong Ví dụ 5.29. Machine Translated by Google 153 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.29 Tính toán xác suất đồng nhất Giả sử rằng doanh thu bán hàng, X, cho một sản phẩm thay đổi Hàm mật độ là f1 2 = 1 12000 Bây giờ, giả sử chúng ta muốn tìm xác suất doanh thu sẽ nằm trong khoảng từ 1.500 đô la đến 1.700 đô la. Một lần đơn dạng mỗi tuần giữa a = $1000 và b = $2000. 10002 = 1 1000 và được thể hiện trong Hình 5.14. Lưu ý rằng diện tích dưới hàm mật độ nữa, sử dụng các đối số hình học (xem Hình 5.16), diện tích của hình chữ nhật giữa $1,500 và $1,700 là 1 1 1,000 2 1 200 2 = là 1,0, mà bạn có thể dễ dàng xác minh bằng cách nhân chiều 0,2. Chúng ta cũng có thể sử dụng công thức (5.15) và tính toán cao với chiều rộng của hình chữ nhật. nó như sau: Giả sử chúng ta muốn tìm xác suất doanh thu bán hàng sẽ thấp hơn = $1.300. Chúng ta có thể làm điều này theo hai P(1,500 " X " 1,700) = P( X " 1,700) = F(1,700) cách. Đầu tiên, tính diện tích dưới hàm mật độ bằng cách sử dụng hình học, như trong Hình 5.15. Diện tích là 1 1 = 1.000 2 1 300 2 = 0,30. Ngoài ra, chúng ta có thể sử dụng 12.000 for mula (5.17) để tính F1 1,300 2 : F11,3002 = 11,300 1,0002 12,000 11,700 = 0,7 1,0002 1.0002 P( X " 1,500) F(1,500) - (1.500 1.000) (2.000 1.000) 0,5 = 0,2 1,0002 = 0,30 Trong cả hai trường hợp, xác suất là 0,30. Giá trị kỳ vọng và phương sai của biến ngẫu nhiên đồng nhất X được tính như sau: một + b BÁN TẠI] Biến[X] (5.18) 2 1b - a22 (5.19) 12 Một biến thể của phân phối đồng đều là một biến thể mà biến ngẫu nhiên được giới hạn ở các giá trị nguyên giữa a và b (cũng là số nguyên); đây được gọi là một đồng phục rời rạc Hình 5.14 1/1.000 Mật độ xác suất thống nhất $1,000 Chức năng 1/1.000 Hình 5.15 Xác suất mà X * $1,300 1/1.000 Hình 5.16 P(1.500 đô la * X * 1.700 đô la) 2.000 đô la Machine Translated by Google 154 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu phân bổ. Một ví dụ về phân bố đều rời rạc là tung một con xúc xắc. Mỗi số từ 1 đến 6 có một 1 6 xác suất xảy ra. Phân phối bình thường Phân phối chuẩn là một phân phối liên tục được mô tả bởi đường cong hình chuông quen thuộc và có lẽ là phân phối quan trọng nhất được sử dụng trong thống kê. Phân phối bình thường được quan sát thấy trong nhiều hiện tượng tự nhiên. Các điểm kiểm tra như SAT, sai lệch so với thông số kỹ thuật của các hạng mục được gia công, chiều cao và cân nặng của con người và nhiều phép đo khác thường có phân phối chuẩn. Phân phối chuẩn được đặc trưng bởi hai tham số: giá trị trung bình, m và độ lệch chuẩn, . Do đó, khi m thay đổi, vị trí của phân phối trên trục x cũng thay đổi và khi giảm hoặc tăng, phân phối sẽ trở nên hẹp hơn hoặc rộng hơn tương ứng. Hình 5.17 cho thấy một số ví dụ. Phân phối chuẩn có các tính chất sau: 1. Phân phối là đối xứng, vì vậy số đo độ lệch của nó bằng không. 2. Giá trị trung bình, trung vị và mốt đều bằng nhau. Do đó, một nửa diện tích nằm trên trung bình và một nửa rơi xuống dưới nó. 3. Dãy của X không bị chặn, nghĩa là các đuôi của phân phối kéo dài đến âm và dương vô cùng. 4. Các quy tắc thực nghiệm áp dụng chính xác cho phân phối chuẩn; diện tích dưới Hình 5.17 hàm mật độ trong {1 độ lệch chuẩn là 68,3%, diện tích dưới hàm mật độ trong {2 độ lệch chuẩn là 95,4% và diện tích dưới hàm mật độ trong {3 độ lệch chuẩn là Ví dụ về Bình thường phân phối 99,7%. Machine Translated by Google 155 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Xác suất bình thường không thể được tính toán bằng công thức toán học. Thay vào đó, chúng ta có thể sử dụng hàm Excel NORM.DIST(x, mean, standard_deviation, integration). NORM.DIST(x, mean, standard_deviation, TRUE) tính xác suất tích lũy F1x2 P1X … x2 cho một giá trị trung bình và độ lệch chuẩn xác định. (Nếu tích lũy được đặt thành FALSE, thì hàm này chỉ tính toán giá trị của hàm mật độ f 1x2, hàm này có rất ít ứng dụng thực tế ngoài việc lập bảng các giá trị của hàm mật độ. Hàm này được sử dụng để vẽ các phân bố trong Hình 5.17.) VÍ DỤ 5.30 Sử dụng hàm NORM.DIST để tính xác suất thông thường Giả sử rằng một công ty đã xác định rằng việc phân phối nhu Đây chỉ đơn giản là xác suất tích lũy cho = 900, cầu của khách hàng (X) là bình thường với mức trung bình là 750 có thể được tính bằng hàm Excel =NORM.DIST(900,750,100,TRUE) = đơn vị/tháng và độ lệch chuẩn là 100 đơn vị/tháng. 0,9332. tháng. Hình 5.18 cho thấy một số xác suất tích lũy được tính Câu hỏi 2. Hình 5.19(b) cho thấy xác suất mà nhu cầu sẽ vượt bằng hàm NORM.DIST (xem tệp Excel Xác suất bình thường). Công quá 700 đơn vị, P(X + 700). Sử dụng các nguyên tắc chúng ta đã ty muốn biết như sau: thảo luận trước đây, điều này có thể được tìm thấy bằng cách trừ P(X * 700) từ 1: 1. Xác suất nhu cầu tối đa là 900 đơn vị là bao nhiêu? P(X + 700) = 1 P(X * 700) = 1 F(700) = 1 2. Xác suất nhu cầu sẽ vượt quá 700 là bao nhiêu các đơn vị? 3. Xác suất mà nhu cầu sẽ nằm trong khoảng từ 700 đến 900 đơn vị là bao nhiêu? 0,3085 = 0,6915 Điều này có thể được tính toán trong Excel bằng cách sử dụng công thức =1 NORM.DIST (700,750,100,TRUE). Câu hỏi 3. Xác suất mà nhu cầu sẽ nằm trong khoảng từ 700 đến 900, P (700 * X * 900), được minh họa trong Hình 5.19(c). Để trả lời các câu hỏi, trước tiên hãy vẽ một bức tranh. Điều Điều này được tính bằng này giúp đảm bảo rằng bạn biết khu vực bạn đang cố gắng tính toán và cách sử dụng các công thức để làm việc với phân phối tích lũy một cách chính xác. P(700 * X * 900) = P (X * 900) = F(900) F (700) = 0,9332 P(X * 700) 0,3085 = 0,6247 Câu hỏi 1. Hình 5.19(a) cho thấy xác suất mà nhu cầu sẽ nhiều Trong Excel, chúng tôi sẽ sử dụng công thức =NORM.DIST nhất là 900 đơn vị, hay P(X * 900). (900,750,100,TRUE) Hình 5.18 xác suất bình thường Tính toán trong Excel NORM.DIST(700,750,100,TRUE). Machine Translated by Google 156 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu P(Nhu cầu < 900) Hình 5.19 100 100 P(X > 700) máy tính bình thường xác suất 750 900 700 750 (b) (Một) 100 Khu vực 1 0,10 P(700 X 900) 100 Diện tích 0,10 700 750 900 750 (c) ? (d) Hàm NORM.INV Với hàm NORM.DIST, chúng ta được cung cấp một giá trị của biến ngẫu nhiên X và có thể tìm xác suất tích lũy bên trái của x. Bây giờ chúng ta hãy đảo ngược vấn đề. Giả sử rằng chúng ta biết xác suất tích lũy nhưng không biết giá trị của x. Làm thế nào chúng ta có thể tìm thấy nó? Chúng tôi thường phải đối mặt với một câu hỏi như vậy trong nhiều ứng dụng. Có thể sử dụng hàm Excel NORM.INV(probability, mean, standard_dev) để thực hiện việc này. Trong hàm này, xác suất là giá trị xác suất tích lũy tương ứng với giá trị của x chúng tôi tìm kiếm "INV" là viết tắt của nghịch đảo. VÍ DỤ 5.31 Sử dụng Hàm NORM.INV Trong ví dụ trước, mức nhu cầu nào sẽ bị vượt quá tối đa 10% chúng ta có thể thấy rằng giá trị đúng phải nằm trong khoảng thời gian? Ở đây, ta cần tìm giá trị của sao cho P(X + ) = từ 850 đến 900 vì F(850) = 0,8413 và F(900) = 0,9332. Chúng 0,10. Điều này được minh họa trong Hình 5.19(d). Vì diện tích ta có thể tìm giá trị chính xác bằng hàm Excel = ở đuôi trên của phân phối chuẩn là 0,10 nên xác suất tích lũy NORM.INV(0.90,750,100)=878.155, phải là 1 Do đó, nhu cầu khoảng 878 sẽ đáp ứng tiêu chí. 0,10 = 0,90. Từ Hình 5.18, Phân phối chuẩn chuẩn Hình 5.20 cung cấp một phác thảo về trường hợp đặc biệt của phân phối chuẩn được gọi là phân phối chuẩn chuẩn—phân phối chuẩn với m 0 và 1. Phân phối này rất quan trọng trong việc thực hiện nhiều phép tính xác suất. Một biến ngẫu nhiên chuẩn chuẩn thường được ký hiệu là Z, và hàm mật độ của nó là f 1z2. Thang đo dọc theo trục z biểu thị số độ lệch chuẩn so với giá trị trung bình bằng 0. Hàm Excel NORM.S.DIST(z) tìm xác suất cho phân phối chuẩn chuẩn. Machine Translated by Google 157 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu VÍ DỤ 5.32 Tính toán Xác suất với Phân phối Chuẩn Chuẩn Trước đây chúng ta đã lưu ý rằng các quy tắc thực nghiệm áp xác suất, F(b) dụng cho bất kỳ phân phối chuẩn nào. Chúng ta hãy tìm các khu của giá trị trung bình được tìm thấy bằng cách tính P( vực nằm dưới phân phối chuẩn chuẩn trong các độ lệch chuẩn * 1) = F(1) 1, 2 và 3 của giá trị trung bình. Chúng có thể được tìm thấy bằng cách sử dụng hàm NORM.S.DIST( ). Hình 5.21 cho thấy một F(a). Ví dụ, khu vực trong 1 độ lệch chuẩn F( NORM.S.DIST( 1 * Z 1) = NORM.S.DIST( 1) 1) = 0,84134 0,15866 = 0,6827 (chênh lệch do làm tròn số thập phân). Như các quy tắc thực nghiệm đã bảng xác suất tích lũy trong phạm vi từ -3 đến +3 và các phép nêu, khoảng 68% diện tích nằm trong 1 độ lệch chuẩn; 95%, nằm tính diện tích nằm trong độ lệch chuẩn 1, 2 và 3 của giá trị trong 2 độ lệch chuẩn; và hơn 99%, nằm trong 3 độ lệch chuẩn trung bình. Ta áp dụng công thức (5.15) để tìm hiệu giữa tích của giá trị trung bình. Hình 5.20 Phân phối chuẩn chuẩn Hình 5.21 Máy tính tiêu chuẩn xác suất bình thường Machine Translated by Google 158 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Sử dụng bảng phân phối chuẩn chuẩn Mặc dù việc sử dụng Excel để tính toán các xác suất thông thường khá dễ dàng, các bảng phân phối chuẩn chuẩn thường được tìm thấy trong sách giáo khoa và các tài liệu tham khảo chuyên nghiệp khi không có máy tính. Một bảng như vậy được cung cấp trong Bảng A.1 của Phụ lục A ở cuối cuốn sách này. Bảng này cho phép bạn tra cứu xác suất tích lũy cho bất kỳ giá trị nào của z trong khoảng từ -3,00 đến +3,00. Một trong những ưu điểm của phân phối chuẩn tắc chuẩn là chúng ta có thể tính toán xác suất cho bất kỳ biến ngẫu nhiên chuẩn X nào có trung bình m và độ lệch chuẩn bằng cách chuyển đổi nó thành biến ngẫu nhiên chuẩn chuẩn Z. Chúng ta đã giới thiệu khái niệm giá trị chuẩn hóa (z-scores ) cho dữ liệu mẫu trong Chương 4. Ở đây, chúng ta sử dụng một phép tính tương tự cho mula để chuyển đổi một giá trị x từ một phân phối chuẩn tùy ý thành một giá trị chuẩn chuẩn tương đương, z: z 1x - m2 (5.20) VÍ DỤ 5.33 Tính toán xác suất với các bảng chuẩn thông thường Chúng ta sẽ trả lời câu hỏi đầu tiên được đặt ra trong Ví dụ 5.30: Xác suất để nhu cầu tối đa = 900 đơn vị là bao nhiêu nếu phân phối nhu cầu của khách hàng (X) là bình thường với Lưu ý rằng 900 cao hơn 150 đơn vị so với giá trị trung bình của 750; vì độ lệch chuẩn là 100, điều này đơn giản có nghĩa là 900 là 1,5 độ lệch chuẩn trên giá trị trung bình, là trung bình là 750 đơn vị/tháng và độ lệch chuẩn là 100 đơn vị / giá trị của . Sử dụng Bảng A.1 trong Phụ lục A, chúng tôi thấy tháng? Sử dụng công thức (5.19), chuyển đổi thành một giá trị rằng xác suất tích lũy cho = 1,5 là 0,9332, đây cũng là câu bình thường tiêu chuẩn: trả lời tương tự mà chúng tôi tìm thấy cho Ví dụ 5.30. = 900 750 100 = 1,5 Phân phối theo cấp số nhân Phân phối hàm mũ là một phân phối liên tục mô hình hóa thời gian giữa các sự kiện xảy ra ngẫu nhiên. Do đó, nó thường được sử dụng trong các ứng dụng như lập mô hình thời gian giữa các lần khách hàng đến hệ thống dịch vụ hoặc thời gian đến hoặc giữa các lần hỏng hóc của máy móc, bóng đèn, ổ cứng và các bộ phận cơ hoặc điện khác. Tương tự như phân phối Poisson, phân phối mũ có một tham số, l. Trên thực tế, phân phối hàm mũ có liên quan chặt chẽ với Poisson; nếu số lượng sự kiện xảy ra trong một khoảng thời gian có phân phối Poisson, thì thời gian giữa các sự kiện được phân phối theo cấp số nhân. Chẳng hạn, nếu số lượng khách đến ngân hàng được phân phối Poisson, giả sử với trung bình l 12> giờ thì thời gian giữa các lần đến là cấp số nhân, với trung bình m 1>12 giờ hoặc 5 phút. Phân phối mũ có hàm mật độ f 1x2 le-lx , cho x Ú 0 (5.21) và hàm phân phối tích lũy của nó là F1x2 1 - e-lx , cho x Ú 0 (5.22) Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 159 Đôi khi, phân phối hàm mũ được thể hiện dưới dạng giá trị trung bình m chứ không phải tỷ lệ l. Để làm điều này, chỉ cần thay thế 1>m cho l trong các công thức trước đó. Giá trị mong đợi của phân phối mũ là 1>l và phương sai là 11>l22 . Hình 5.22 cung cấp một bản phác thảo về phân bố hàm mũ. Phân bố hàm mũ có các thuộc tính mà nó bị giới hạn dưới 0, nó có mật độ lớn nhất tại 0 và mật độ giảm khi x tăng. Hàm Excel EXPON.DIST (x, lambda, tích lũy) có thể được sử dụng để tính xác suất hàm mũ. Như với các hàm phân phối xác suất Excel khác, tích lũy là TRUE hoặc FALSE, với TRUE cung cấp hàm phân phối tích lũy. VÍ DỤ 5.34 Sử dụng Phân phối Hàm mũ Giả sử rằng thời gian trung bình để hỏng một bộ phận quan một phần của hàm phân phối tích lũy, có thể tìm thấy trong trọng của động cơ là m = 8.000 giờ. Do đó, l = 1 m = 1 8.000 tệp Excel Xác suất hàm mũ. lần hỏng hóc/giờ. Xác suất mà bộ phận này sẽ hỏng trước vài Ví dụ: xác suất hỏng hóc trước 5.000 giờ là F(5000) = 0,4647. giờ được đưa ra bởi hàm phân phối lũy tích F 1 2 . Hình 5.23 cho thấy Hình 5.22 Ví dụ về Phân phối Hàm mũ 1l = 12 Machine Translated by Google 160 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.23 Tính xác suất lũy thừa trong Excel Phân phối hữu ích khác Nhiều phân phối xác suất khác, đặc biệt là những phân phối có nhiều hình dạng khác nhau, tìm thấy ứng dụng trong các mô hình quyết định để mô tả nhiều loại hiện tượng. Các phân phối như vậy cung cấp mức độ linh hoạt cao trong việc biểu diễn cả dữ liệu thực nghiệm hoặc khi cần đánh giá để xác định một phân phối thích hợp. Chúng tôi cung cấp một mô tả ngắn gọn về các bản phân phối này; tuy nhiên, bạn không cần biết các chi tiết toán học về chúng để sử dụng chúng trong các ứng dụng. Phân phối liên tục Phân phối tam giác. Phân phối tam giác được xác định bởi ba tham số: mức tối thiểu, a; cực đại, b; và rất có thể, c. Các kết quả gần giá trị có khả năng nhất có cơ hội xảy ra cao hơn so với các kết quả ở các thái cực. Bằng cách thay đổi giá trị có khả năng nhất, phân bố tam giác có thể đối xứng hoặc lệch theo một trong hai hướng, như trong Hình 5.24. Phân phối tam giác thường được sử dụng khi không có sẵn dữ liệu để mô tả một biến không chắc chắn và phân phối phải được ước tính một cách thận trọng. Phân phối lognormal. Nếu logarit tự nhiên của biến ngẫu nhiên X là chuẩn tắc thì X có phân phối lôgic chuẩn. Do phân phối logic chuẩn bị lệch dương và bị giới hạn dưới 0, nên nó tìm thấy các ứng dụng trong mô hình hóa các hiện tượng có xác suất thấp của các giá trị lớn và không thể có các giá trị âm, chẳng hạn như thời gian để hoàn thành một nhiệm vụ. Các ví dụ phổ biến khác bao gồm giá cổ phiếu và giá bất động sản. Phân phối logic chuẩn cũng thường được sử dụng cho thời gian dịch vụ "tăng đột biến", nghĩa là khi xác suất về 0 rất thấp, nhưng giá trị có khả năng nhất chỉ lớn hơn 0. Phân phối Beta. Một trong những phân phối linh hoạt nhất để lập mô hình biến thể trong một khoảng thời gian cố định từ 0 đến giá trị dương là phiên bản beta. Phân phối beta là một hàm của hai tham số a và b, cả hai đều phải dương. Nếu a và b bằng nhau thì phân phối đối xứng. Nếu một trong hai tham số là 1,0 và tham số kia lớn hơn 1,0 thì phân phối có dạng chữ J. Nếu a là Machine Translated by Google 161 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu ( ) Hình 5.24 Ví dụ về hình tam giác (đối xứng) phân phối Một b c ( ) (độ lệch dương) Một b c ( ) (độ lệch âm) Một cb nhỏ hơn b, phân phối bị lệch dương; nếu không, nó bị lệch âm. Các thuộc tính này có thể giúp bạn chọn các giá trị thích hợp cho các tham số hình dạng. Lấy mẫu ngẫu nhiên từ phân phối xác suất Nhiều ứng dụng trong phân tích kinh doanh yêu cầu các mẫu ngẫu nhiên từ các phân phối xác suất cụ thể. Ví dụ, trong một mô hình tài chính, chúng ta có thể quan tâm đến việc phân phối dòng tiền chiết khấu tích lũy trong vài năm khi doanh thu, tốc độ tăng trưởng doanh thu, chi phí hoạt động và các yếu tố lạm phát đều không chắc chắn và được mô tả bằng phân phối xác suất. Các biến kết quả của các mô hình quyết định như vậy là các hàm phức tạp của các biến đầu vào ngẫu nhiên. Việc hiểu phân bố xác suất của các biến như vậy chỉ có thể được thực hiện bằng các quy trình lấy mẫu được gọi là mô phỏng Monte Carlo, mà chúng ta sẽ đề cập trong Chương 12. Cơ sở để tạo ra các mẫu ngẫu nhiên từ các phân phối xác suất là khái niệm về một số ngẫu nhiên. Số ngẫu nhiên là số được phân phối đồng đều từ 0 đến 1. Về mặt kỹ thuật, máy tính không thể tạo ra các số thực sự ngẫu nhiên vì chúng phải sử dụng thuật toán có thể dự đoán được. Tuy nhiên, các thuật toán được thiết kế để tạo ra một dãy số có vẻ như là ngẫu nhiên. Trong Excel, chúng ta có thể tạo một số ngẫu nhiên trong bất kỳ ô nào bằng cách sử dụng hàm RAND(). Hàm này không có đối số; do đó, không nên đặt gì trong dấu ngoặc đơn (nhưng dấu ngoặc đơn là bắt buộc). Hình 5.25 cho thấy một bảng gồm 10 số ngẫu nhiên được tạo trong Excel. Bạn nên lưu ý rằng trừ khi tính năng tính toán lại tự động bị chặn, bất cứ khi nào bất kỳ ô nào trong bảng tính bị sửa đổi, giá trị trong bất kỳ ô nào chứa hàm RAND( ) sẽ thay đổi. Tính toán lại tự động có thể được thay đổi thành thủ công bằng cách chọn Tùy chọn tính toán trong nhóm Tính toán trong tab Công thức. Trong chế độ tính toán lại thủ công, bảng tính chỉ được tính toán lại khi nhấn phím F9. Machine Translated by Google 162 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.25 Một mẫu ngẫu nhiên số Lấy mẫu từ phân phối xác suất rời rạc Việc lấy mẫu từ các phân bố xác suất rời rạc sử dụng các số ngẫu nhiên khá dễ dàng. Chúng tôi sẽ minh họa quá trình này bằng cách sử dụng phân phối xác suất để tung hai con xúc xắc. VÍ DỤ 5.35 Lấy mẫu từ phân phối kết quả súc sắc Hàm khối lượng xác suất và phân phối tích lũy ở dạng thập bao gồm 0,0833 có xác suất là 0,0556 và tương ứng với kết quả phân như sau: = 3; và như thế. Điều này được tổng hợp như sau: f 1 2 F1 2 2 0,0278 0,0278 3 0,0556 0,0833 4 0,0833 0,1667 5 0,1111 0,2778 6 0,1389 0,4167 7 0,1667 0,5833 0,1389 0,7222 9 0,1111 0,8333 10 0,0833 0,9167 11 0,0556 0,9722 số 8 12 0,0278 1.0000 Lưu ý rằng các giá trị của F( ) chia khoảng từ 0 đến 1 thành các khoảng nhỏ hơn tương ứng với xác suất của các kết quả. Ví dụ: khoảng từ (nhưng không bao gồm) 0 trở lên và bao gồm 0,0278 có khả năng xảy ra là 0,028 và tương ứng với kết quả = 2; khoảng từ (nhưng không bao gồm) 0,0278 trở lên và khoảng thời gian 0 đến 0,0278 kết quả 2 0,0278 đến 0,0833 3 0,0833 đến 0,1667 4 0,1667 đến 0,2778 5 0,2778 đến 0,4167 6 0,4167 đến 0,5833 7 0,5833 đến 0,7222 số 8 0,7222 đến 0,8323 9 0,8323 đến 0,9167 10 0,9167 đến 0,9722 11 0,9722 đến 1,0000 12 Khi đó, bất kỳ số ngẫu nhiên nào cũng phải nằm trong một trong các khoảng này. Do đó, để tạo ra kết quả từ phân phối này, tất cả những gì chúng ta cần làm là chọn một số ngẫu nhiên và xác định khoảng mà nó rơi vào. Giả sử chúng ta sử dụng dữ liệu trong Hình 5.25. ngẫu nhiên đầu tiên Machine Translated by Google 163 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu số là 0,326510048. Giá trị này nằm trong khoảng tương ứng máy đánh bóng. Nếu điều này được thực hiện lặp đi lặp lại, với kết quả mẫu là 6. Số dom chạy thứ hai là 0,743390121. Con thì tần suất xuất hiện của mỗi kết quả sẽ tỷ lệ thuận với số này nằm trong khoảng tương ứng với kết quả là 9. Về cơ kích thước của phạm vi số ngẫu nhiên (tức là xác suất liên bản, chúng tôi đã phát triển một kỹ thuật tung xúc xắc trên quan đến kết quả) vì các số ngẫu nhiên được phân phối đồng com đều. Chúng ta có thể dễ dàng sử dụng phương pháp này để tạo kết quả từ bất kỳ phân phối riêng biệt nào; chức năng VLOOKUP trong Excel có thể được sử dụng để thực hiện điều này trên bảng tính. VÍ DỤ 5.36 Sử dụng hàm VLOOKUP để lấy mẫu ngẫu nhiên Giả sử rằng chúng ta muốn lấy mẫu từ phân phối khả năng xác ô J2 là =VLOOKUP(I2,$E$2:$G$10,3), được sao chép xuống cột suất của sự thay đổi được dự đoán trong chỉ số Trung bình đó. Hàm này lấy giá trị của số ngẫu nhiên trong ô I2, tìm số Công nghiệp Dow Jones được thể hiện trong Hình 5.6. Đầu tiên cuối cùng trong cột đầu tiên của phạm vi bảng nhỏ hơn số ngẫu chúng tôi xây dựng phân phối tích lũy F 1 2 . Sau đó gán các nhiên và trả về giá trị trong cột thứ ba của phạm vi bảng. khoảng thời gian cho các kết quả dựa trên các giá trị của phân Trong trường hợp này, 0,49 là số cuối cùng trong cột E nhỏ phối tích lũy, như trong Hình 5.26. Điều này chỉ định phạm hơn 0,530612386, do đó, hàm trả về kết quả là 5%. vi bảng cho hàm VLOOKUP, cụ thể là $E$2:$G$10. Liệt kê các số ngẫu nhiên trong một cột bằng hàm RAND(). Công thức trong Lấy mẫu từ phân phối xác suất chung Cách tiếp cận tạo số ngẫu nhiên này và biến chúng thành kết quả từ phân phối xác suất có thể được sử dụng để lấy mẫu từ hầu hết mọi phân phối. Một giá trị chạy domly tạo ra từ một phân phối xác suất được chỉ định được gọi là một biến ngẫu nhiên. Ví dụ, khá dễ dàng để chuyển đổi một số ngẫu nhiên thành một biến ngẫu nhiên từ phân phối dạng đơn vị giữa a và b. Xét công thức: U a + 1b - a2*RAND( ) Lưu ý rằng khi RAND( ) (5.23) 0, U a, và khi RAND( ) tiến đến 1, U tiến đến b. Đối với bất kỳ giá trị nào khác của RAND( ) giữa 0 và 1, 1b - a2*RAND() đại diện cho cùng một tỷ lệ của khoảng 1a, b2 như RAND( ) của khoảng 10, 12. Do đó, tất cả Hình 5.26 Sử dụng VLOOKUP Chức năng lấy mẫu từ một Phân phối rời rạc Machine Translated by Google 164 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.27 Số ngẫu nhiên Excel Hộp thoại thế hệ các số thực giữa a và b có thể xảy ra. Vì RAND( ) được phân phối đều nên U cũng vậy. Mặc dù điều này khá dễ dàng, nhưng chắc chắn không rõ ràng về cách tạo các biến ngẫu nhiên từ các phân phối khác, chẳng hạn như bình thường hoặc theo cấp số nhân. Chúng tôi không mô tả các chi tiết kỹ thuật về cách thực hiện điều này mà chỉ mô tả các khả năng sẵn có trong Excel. Excel cho phép bạn tạo các biến ngẫu nhiên từ các bản phân phối rời rạc và một số bản khác bằng cách sử dụng tùy chọn Tạo số ngẫu nhiên trong gói Công cụ phân tích. Từ tab Dữ liệu trong dải băng, chọn Phân tích Dữ liệu trong nhóm Phân tích rồi chọn Tạo số ngẫu nhiên. Hộp thoại Tạo số ngẫu nhiên, như trong Hình 5.27, sẽ xuất hiện. Từ hộp thoại Tạo số ngẫu nhiên, bạn có thể chọn từ bảy phân phối: thống nhất, bình thường, Bernoulli, nhị thức, Poisson và theo khuôn mẫu cũng như rời rạc. (Phân phối theo khuôn mẫu được đặc trưng bởi giới hạn dưới và giới hạn trên, một bước, tốc độ lặp lại cho các giá trị và tốc độ lặp lại cho chuỗi.) Nếu bạn chọn tùy chọn Phạm vi đầu ra, bạn sẽ được yêu cầu chỉ định tham chiếu ô phía trên bên trái của bảng đầu ra sẽ lưu trữ kết quả, số lượng biến (cột giá trị bạn muốn tạo), số lượng số ngẫu nhiên (số lượng điểm dữ liệu bạn muốn tạo cho mỗi biến) và loại phân phối. Phân phối mặc định là phân phối rời rạc. VÍ DỤ 5.37 Sử dụng Công cụ tạo số ngẫu nhiên của Excel Chúng ta sẽ tạo ra 100 kết quả từ phân phối Poisson với giá thay đổi và nhắc bạn về giá trị của Lambda, giá trị trung trị trung bình là 12. Trong hộp thoại Tạo số ngẫu nhiên, đặt bình của phân phối Poisson; nhập 12 vào ô và nhấp vào OK. Công Số lượng biến thành 1 và Số lượng số ngẫu nhiên thành 100 và cụ sẽ hiển thị các số ngẫu nhiên trong một cột. Hình 5.28 chọn Poisson từ hộp Phân phối thả xuống. Hộp thoại sẽ cho thấy biểu đồ kết quả. Hộp thoại trong Hình 5.27 cũng cho phép bạn tùy chọn chỉ định hạt giống số ngẫu nhiên. Một hạt giống số ngẫu nhiên là một giá trị mà từ đó một dòng số ngẫu nhiên Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 165 Hình 5.28 Biểu đồ của các mẫu từ một Phân phối Poisson được tạo ra. Bằng cách chỉ định cùng một hạt giống, bạn có thể tạo cùng một số ngẫu nhiên sau đó. Điều này là mong muốn khi chúng ta muốn tái tạo một chuỗi các sự kiện “ngẫu nhiên” giống hệt nhau trong một mô phỏng để kiểm tra tác động của các chính sách hoặc biến quyết định khác nhau trong cùng hoàn cảnh. Tuy nhiên, một nhược điểm khi sử dụng công cụ Tạo số ngẫu nhiên là bạn phải lặp lại quy trình để tạo một tập giá trị mẫu mới; nhấn phím tính toán lại (F9) sẽ không thay đổi các giá trị. Điều này có thể gây khó khăn khi sử dụng công cụ này để phân tích các mô hình quyết định. Excel cũng có một số hàm nghịch đảo của phân phối xác suất có thể được sử dụng để tạo ra các biến ngẫu nhiên. Đối với phân phối bình thường, sử dụng NORM.INV(probability, mean, standard_deviation)—phân phối chuẩn với giá trị trung bình và độ lệch chuẩn xác định, NORM.S.INV(xác suất)—phân phối chuẩn chuẩn. Đối với một số bản phân phối nâng cao, bạn có thể thấy LOGNORM.INV(probability, mean, standard_deviation)—phân phối chuẩn logarit, trong đó ln(X) có giá trị trung bình và độ lệch chuẩn xác định, BETA.INV(xác suất, alpha, beta, A, B)—phân phối beta. Để sử dụng các hàm này, chỉ cần nhập RAND( ) thay cho xác suất trong hàm. Ví dụ: NORM.INV(RAND( ), 5, 2) sẽ tạo ra các biến ngẫu nhiên từ phân phối bình thường với giá trị trung bình 5 và độ lệch chuẩn 2. Mỗi khi bảng tính được tính toán lại, một số ngẫu nhiên mới và do đó, một số ngẫu nhiên mới khác nhau, được tạo ra. Các hàm này có thể được nhúng trong công thức ô và sẽ tạo ra các giá trị mới bất cứ khi nào bảng tính được tính toán lại. Machine Translated by Google 166 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Ví dụ sau đây cho thấy cách lấy mẫu từ các phân phối xác suất có thể cung cấp thông tin chi tiết về các quyết định kinh doanh khó phân tích bằng toán học. VÍ DỤ 5.38 Thử nghiệm lấy mẫu để đánh giá các dự án lập ngân sách vốn Trong tài chính, một cách để đánh giá các dự án lập ngân sách chúng ta sẽ thấy, đây không phải là trường hợp. Chúng ta có thể vốn là tính toán chỉ số lợi nhuận (PI), được định nghĩa là tỷ sử dụng thí nghiệm lấy mẫu để xác định phân phối xác suất của lệ giữa giá trị hiện tại của dòng tiền trong tương lai (PV) với PI cho các giả định này. khoản đầu tư ban đầu (I): Hình 5.29 cho thấy một mô hình đơn giản từ Thử nghiệm chỉ số khả năng sinh lời của tệp Excel. Đối với mỗi thử nghiệm, các PI = PV Tôi (5.24) giá trị của PV và I được lấy mẫu từ phân phối chuẩn giả định của chúng bằng cách sử dụng hàm NORM.INV. PI được tính toán trong Bởi vì dòng tiền và đầu tư ban đầu có thể được yêu cầu cho cột D và giá trị trung bình cho 1.000 thử nghiệm được hiển thị một dự án cụ thể thường không chắc chắn nên chỉ số lợi nhuận trong ô E8. Ta thấy rõ đây không phải là 4 như nghi ngờ trước cũng không chắc chắn. Nếu chúng ta có thể mô tả PV và I bằng đây. Đồ thị his trong hình 5.30 cũng chứng tỏ phân phối của PI một số phân phối xác suất, thì chúng ta muốn biết phân phối xác không bình thường mà bị lệch về bên phải. suất của PI. Ví dụ: giả sử rằng PV được ước tính là phân phối chuẩn với giá trị trung bình là 12 triệu đô la và độ lệch chuẩn Thí nghiệm này khẳng định rằng tỷ lệ của hai phân phối chuẩn là 2,5 triệu đô la, và khoản đầu tư ban đầu cũng được ước tính không phải là phân phối chuẩn. Chúng tôi khuyến khích bạn tạo là bình thường với giá trị trung bình là 3,0 triệu đô la và độ bảng tính này và sao chép thử nghiệm này (lưu ý rằng kết quả lệch chuẩn là 0,8 triệu đô la . Theo trực giác, chúng ta có thể của bạn sẽ không hoàn toàn giống với kết quả này vì bạn đang tin rằng chỉ số khả năng sinh lợi cũng được phân phối chuẩn với tạo các giá trị ngẫu nhiên!) giá trị trung bình là 12 triệu đô la 3 triệu đô la = 4 triệu đô la; tuy nhiên, như Hàm phân phối xác suất trong Nền tảng bộ giải phân tích Nền tảng bộ giải phân tích (xem phần Phần bổ trợ bảng tính trong Chương 2) cung cấp các hàm Excel tùy chỉnh giúp tạo các mẫu ngẫu nhiên từ các phân phối xác suất được chỉ định. Bảng 5.1 hiển thị danh sách các bản phân phối này mà chúng ta đã thảo luận. Các hàm này trả về các giá trị ngẫu nhiên từ các phân phối đã chỉ định trong các ô của trang tính. Các chức năng này sẽ rất hữu ích trong các ứng dụng phân tích kinh doanh ở các chương sau, đặc biệt là Chương 12 về mô phỏng và phân tích rủi ro. Hình 5.29 Thử nghiệm lấy mẫu cho Chỉ số lợi nhuận Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 167 Hình 5.30 Phân phối tần số và Biểu đồ chỉ số khả năng sinh lời Bảng 5.1 Nền tảng bộ giải phân tích Phân phối xác suất Chức năng Phân bổ Chức năng nền tảng bộ giải phân tích Bernoulli PsiBernoulli(xác suất) nhị thức PsiBinomial(thử nghiệm, xác suất) Poisson PsiPoisson(trung bình) Đồng phục PsiUniform (dưới, trên) Bình thường PsiNormal(trung bình, độ lệch chuẩn) số mũ Psi Hàm mũ (trung bình) Đồng phục rời rạc PsiDisUniform(giá trị) hình học PsiGeometric(xác suất) nhị thức âm PsiNegBinomial(thành công, xác suất) siêu hình học PsiHyperGeo(thử nghiệm, thành công, quy mô dân số) hình tam giác PsiTriangular(tối thiểu, rất có thể, tối đa) logic bình thường PsiLognormal(trung bình, độ lệch chuẩn) bản thử nghiệm PsiBeta (alpha, beta) VÍ DỤ 5.39 Sử dụng Hàm phân phối Nền tảng Bộ giải Giải tích Một công ty năng lượng đang xem xét cung cấp một sản phẩm mới phân bổ. Hình 5.31 (Tỷ lệ tăng trưởng quyền sở hữu PC trong và cần ước tính mức tăng trưởng về số lượng người sở hữu PC. tệp Excel) hiển thị một phần trong số 500 mẫu được tạo bằng Sử dụng dữ liệu và thông tin tốt nhất hiện có, họ xác định hàm PsiTriangular(5%, 7,7%, 10%). rằng tỷ lệ tăng trưởng tối thiểu là 5,0%, giá trị có khả năng Lưu ý rằng biểu đồ thể hiện một hình tam giác rõ ràng. nhất là 7,7% và giá trị tối đa là 10,0%. Các tham số này đặc trưng cho một hình tam giác Machine Translated by Google 168 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.31 Các mẫu từ một hình tam giác Phân bổ Mô hình hóa và phân phối dữ liệu Trong nhiều ứng dụng phân tích kinh doanh, chúng ta cần thu thập dữ liệu mẫu của các biến quan trọng như nhu cầu của khách hàng, hành vi mua hàng, thời gian hỏng máy và thời gian hoạt động của dịch vụ, v.v., để hiểu được sự phân bố của các biến này. Bằng cách sử dụng các công cụ đã nghiên cứu, chúng tôi có thể xây dựng phân phối tần suất và biểu đồ cũng như tính toán các biện pháp thống kê mô tả cơ bản để hiểu rõ hơn về bản chất của dữ liệu. Tuy nhiên, dữ liệu mẫu chỉ có vậy—các mẫu. Việc sử dụng dữ liệu mẫu có thể hạn chế khả năng dự đoán các sự kiện không chắc chắn có thể xảy ra của chúng tôi do không bao gồm các giá trị tiềm năng nằm ngoài phạm vi của dữ liệu mẫu. Một cách tiếp cận tốt hơn là xác định phân phối xác suất cơ bản mà từ đó dữ liệu mẫu đến bằng cách “phù hợp” với một phân phối lý thuyết cho dữ liệu và xác minh mức độ phù hợp về mặt thống kê. Để chọn một phân phối lý thuyết thích hợp phù hợp với dữ liệu mẫu, chúng ta có thể bắt đầu bằng cách kiểm tra biểu đồ dữ liệu để tìm kiếm các hình dạng đặc biệt của các phân phối cụ thể. Ví dụ: dữ liệu bình thường là đối xứng, với một đỉnh ở giữa. Dữ liệu triển lãm có độ lệch rất tích cực, không có giá trị âm. Dữ liệu logic chuẩn cũng bị sai lệch rất tích cực, nhưng mật độ giảm xuống 0 tại 0. Các dạng phân phối gamma, Weibull hoặc beta khác nhau có thể được sử dụng cho các bản phân phối dường như không phù hợp với một trong các dạng phổ biến khác. Tất nhiên, cách tiếp cận này không phải lúc nào cũng chính xác hoặc hợp lệ và đôi khi có thể khó áp dụng, đặc biệt nếu cỡ mẫu nhỏ. Tuy nhiên, nó có thể thu hẹp tìm kiếm xuống một vài bản phân phối tiềm năng. Thống kê tóm tắt cũng có thể cung cấp manh mối về bản chất của phân phối. Giá trị trung bình, trung vị, độ lệch chuẩn và hệ số biến thiên thường cung cấp thông tin về bản chất của phân phối. Chẳng hạn, dữ liệu được phân phối thông thường có xu hướng có hệ số biến thiên khá thấp (tuy nhiên, điều này có thể không đúng nếu giá trị trung bình nhỏ). Đối với dữ liệu được phân phối bình thường, chúng tôi cũng mong muốn trung vị và trung bình gần như giống nhau. Tuy nhiên, đối với dữ liệu được phân phối theo cấp số nhân, giá trị trung bình sẽ nhỏ hơn giá trị trung bình. Ngoài ra, chúng ta mong đợi giá trị trung bình sẽ gần bằng với độ lệch chuẩn, hoặc tương đương, hệ số biến thiên sẽ gần bằng 1. Chúng ta cũng có thể xem xét chỉ số độ lệch. Dữ liệu bình thường không bị sai lệch, trong khi dữ liệu logic và hàm mũ bị sai lệch tích cực. Các ví dụ sau đây minh họa một số ý tưởng này. Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 169 VÍ DỤ 5.40 Phân tích dữ liệu hành khách của hãng hàng không Một hãng hàng không khai thác một tuyến hàng ngày giữa hai có một số mức độ sai lệch tích cực. Từ cuộc thảo luận của thành phố cỡ trung bình bằng máy bay phản lực khu vực 70 chỗ chúng ta trong Chương 4 về tính biến đổi của các mẫu, điều ngồi. Chuyến bay ít khi hết chỗ mà thường dành cho khách quan trọng là phải nhận ra rằng đây là một mẫu tương đối nhỏ doanh nhân đặt vào phút chót với giá cao. Hình 5.32 thể hiện có thể thể hiện nhiều biến đổi so với dân số mà nó được rút số lượng hành khách của một mẫu gồm 25 chuyến bay (file Excel ra. Vì vậy, dựa trên những đặc điểm này, sẽ không phải là Airline Passengers). Biểu đồ cho thấy một phân phối tương đối không hợp lý khi giả định một phân phối chuẩn cho mục đích đối xứng. phát triển một mô hình phân tích dự đoán hoặc mô tả. Giá trị trung bình, trung vị và chế độ đều giống nhau, mặc dù VÍ DỤ 5.41 Phân tích thời gian phục vụ sân bay Hình 5.33 thể hiện một phần dữ liệu và phân tích thống kê của Từ thống kê mô tả, chúng ta có thể thấy rằng giá trị trung 812 mẫu thời gian phục vụ tại quầy bán vé của một sân bay bình không gần với độ lệch chuẩn, cho thấy dữ liệu có thể (file Excel Airport Service Times). Không rõ phân phối có thể không theo cấp số nhân. Dữ liệu bị sai lệch dương, gợi ý rằng là gì. Có vẻ như nó không phải là cấp số nhân, nhưng nó có phân phối logic chuẩn có thể phù hợp. Tuy nhiên, rất khó để thể là phân phối logic hoặc thậm chí là một phân phối khác mà đưa ra một kết luận chắc chắn. bạn có thể không quen thuộc. Việc kiểm tra biểu đồ và thống kê tóm tắt có thể cung cấp một số ý tưởng về phân phối thích hợp; tuy nhiên, một cách tiếp cận tốt hơn là phân tích dữ liệu phù hợp với loại phân phối xác suất tốt nhất. Hình 5.32 Dữ liệu và thống kê về nhu cầu của hành khách Machine Translated by Google 170 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.33 Thống kê thời gian dịch vụ sân bay Sự phù hợp Cơ sở để điều chỉnh dữ liệu phù hợp với phân phối xác suất là một quy trình thống kê được gọi là mức độ phù hợp tốt. Sự phù hợp tốt đẹp cố gắng rút ra kết luận về bản chất của sự phân phối. Chẳng hạn, trong Ví dụ 5.40, chúng tôi đề xuất rằng có thể hợp lý khi giả định rằng sự phân bổ nhu cầu của hành khách là bình thường. Mức độ phù hợp sẽ cung cấp hỗ trợ phân tích, khách quan cho giả định này. Để hiểu chi tiết về quy trình này, cần có các khái niệm mà chúng ta sẽ học trong Chương 7. Tuy nhiên, có một phần mềm (mà chúng tôi sẽ minh họa ngay sau đây) chạy các quy trình thống kê để xác định mức độ phù hợp của một phân phối lý thuyết với một tập hợp dữ liệu, đồng thời tìm ra phân phối tốt nhất. phân phối phù hợp. Việc xác định mức độ phù hợp của dữ liệu mẫu với phân phối thường được đo bằng một trong ba loại thống kê, được gọi là thống kê chi-square, Kolmogorov-Smirnov và Anderson Darling. Về cơ bản, các số liệu thống kê này cung cấp thước đo mức độ tốt của biểu đồ tần số của dữ liệu mẫu so với phân bố xác suất lý thuyết cụ thể. Cách tiếp cận chi bình phương chia phân phối lý thuyết thành các khu vực có xác suất bằng nhau và so sánh các điểm dữ liệu trong mỗi khu vực với số dự kiến cho phân phối đó. Quy trình Kolmogorov-Smirnov so sánh phân phối tích lũy của dữ liệu với phân phối lý thuyết và đưa ra kết luận dựa trên khoảng cách dọc lớn nhất giữa chúng. Phương pháp Anderson-Darling cũng tương tự nhưng đặt nặng hơn vào sự khác biệt giữa các đuôi của bản phân phối. Cách tiếp cận này rất hữu ích khi bạn cần một sự phù hợp tốt hơn ở các phần cuối cùng của phân phối. Nếu bạn sử dụng chi-square, bạn phải có ít nhất 50 điểm dữ liệu; đối với các mẫu nhỏ, thử nghiệm Kolmogorov-Smirnov thường hoạt động tốt hơn. Lắp ráp phân phối với Nền tảng bộ giải phân tích Nền tảng bộ giải phân tích có khả năng “điều chỉnh” phân phối xác suất cho dữ liệu bằng cách sử dụng một trong ba quy trình phù hợp. Điều này thường được thực hiện để phân tích và xác định đầu vào cho các mô hình mô phỏng mà chúng ta sẽ thảo luận trong Chương 12. Tuy nhiên, bạn không cần phải hiểu mô phỏng giá đỡ tại thời điểm này để sử dụng khả năng này. Chúng tôi minh họa quy trình này bằng cách sử dụng dữ liệu thời gian phục vụ tại sân bay. Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 171 VÍ DỤ 5.42 Lắp đặt Phân bổ cho Thời gian Phục vụ Sân bay Bước 1: Đánh dấu phạm vi dữ liệu trong bảng tính Thời gian để so sánh kết quả với một bản phân phối khác, chỉ cần chọn phục vụ sân bay. Bấm vào nút Công cụ trong dải băng Nền hộp ở bên trái. Bạn không cần phải biết các chi tiết toán học tảng Bộ giải Phân tích, rồi bấm vào Khớp. Thao tác này để sử dụng phân phối trong ứng dụng bảng tính vì công thức sẽ hiển thị hộp thoại Fit Options như trong Hình 5.34. cho hàm Psi tương ứng với phân phối này được hiển thị trong Bước 2: Trong hộp thoại Fit Options, chọn khớp dữ liệu với bảng điều khiển ở phía bên phải của đầu ra. Khi bạn thoát khỏi phân phối liên tục hay rời rạc. Trong ví dụ này, chúng hộp thoại, bạn có tùy chọn chấp nhận kết quả; nếu vậy, nó sẽ tôi chọn Liên tục. Bạn cũng có thể chọn quy trình thống yêu cầu bạn chọn một ô để đặt hàm Psi cho phân phối, trong kê được sử dụng để đánh giá kết quả, chi-square, trường hợp này là hàm: Kolmogorov-Smirnov hoặc Anderson-Darling. Chúng tôi chọn tùy chọn mặc định, Kolmogorov-Smirnov. Nhấp vào nút Phù hợp. Nền tảng bộ giải phân tích hiển thị một cửa sổ với kết =PsiErlang(1.46504838280818,80.0576462180289, Dịch chuyển Psi 8,99) Chúng ta có thể sử dụng hàm này để tạo các mẫu từ bản phân quả như trong Hình 5.35. Trong trường hợp này, phân phối phù phối này, tương tự như cách chúng ta đã sử dụng hàm NORM.INV hợp nhất được gọi là phân phối Erlang. Nếu bạn muốn trong Ví dụ 5.38. Hình 5.34 Hộp thoại Fit Options Hình 5.35 Nền tảng bộ giải phân tích Kết quả lắp phân phối Machine Translated by Google 172 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Phân tích trong thực tế: Giá trị của việc lập mô hình dữ liệu tốt trong quảng cáo Để minh họa tầm quan trọng của việc xác định phân phối chính xác trong mô hình quyết định, chúng tôi thảo luận về một ví dụ trong quảng cáo.3 Số tiền mà các công ty chi tiêu cho thành phần sáng tạo của quảng cáo (tức là tạo quảng cáo tốt hơn) theo truyền thống là khá nhỏ so với ngân sách truyền thông tổng thể . Một chuyên gia lưu ý rằng chi tiêu cho phát triển sáng tạo bằng khoảng 5% chi tiêu cho chiến dịch truyền thông. Bất cứ khoản tiền nào được chi cho phát triển sáng tạo Victor Correira/ Shutterstock.com thường được chuyển trực tiếp thông qua một công ty quảng cáo duy nhất. Tuy nhiên, một lý thuyết đã được đề xuất là nên chi nhiều hơn cho việc phát triển quảng cáo sáng tạo và các khoản chi đó nên được phân bổ cho một số hãng quảng cáo cạnh tranh. Trong các nghiên cứu tìm kiếm lại về lý thuyết này, sự phân bổ hiệu quả quảng cáo được giả định là bình thường. Trên thực tế, dữ liệu được thu thập về phản hồi đối với quảng cáo sản phẩm tiêu dùng cho thấy rằng phân phối này thực sự khá sai lệch và do đó, không được phân phối bình thường. Vì dữ liệu quan sát được về hiệu quả của quảng cáo là sai lệch rõ ràng, các nhà nghiên cứu khác đã kiểm tra tính hiệu quả của quảng cáo bằng cách nghiên cứu dữ liệu tiêu chuẩn Sử dụng giả định sai trong bất kỳ mô hình hoặc ứng dụng nào cũng có thể tạo ra kết quả sai. Trong tình huống này, độ lệch thực sự mang lại lợi thế cho các nhà quảng cáo, khiến việc lấy ý tưởng từ nhiều công ty quảng cáo trở nên hiệu quả hơn. của ngành về khả năng nhớ lại quảng cáo mà không yêu cầu giả định về các hiệu ứng được phân phối bình thường. Phân tích này cho thấy rằng quảng cáo tốt nhất trong số nhiều quảng cáo hiệu quả hơn bất kỳ quảng cáo đơn lẻ nào. Phân tích sâu hơn cho thấy số lượng quảng cáo tối ưu cho hoa hồng có thể thay đổi đáng Một mô hình toán học (được gọi là mô hình của Gross) liên quan đến sự đóng góp tương đối của tiền quảng cáo và tiền truyền thông vào tổng hiệu quả quảng cáo và thường được sử dụng để xác định số lượng quảng cáo dự thảo tốt nhất để theo đuổi. Mô hình này bao gồm các yếu tố về chi phí phát triển quảng cáo, tổng ngân sách chi tiêu truyền thông, phân phối hiệu quả giữa các quảng cáo (được cho là bình thường) và độ tin cậy của việc xác định quảng cáo hiệu quả nhất từ một tập hợp các lựa chọn kể, tùy thuộc vào hình thức phân phối hiệu quả cho một quảng cáo. Các nhà nghiên cứu đã phát triển một giải pháp thay thế cho mô hình của Gross. Từ những phân tích của mình, họ nhận thấy rằng khi số lượng quảng cáo nháp tăng lên, hiệu quả của quảng cáo tốt nhất cũng tăng lên. Cả số lượng quảng cáo dự thảo tối ưu và lợi nhuận thu được từ việc tạo nhiều bản nháp độc lập khi sử dụng phân phối chính xác đều cao hơn so với kết quả được báo cáo trong nghiên cứu ban đầu của Gross. thay thế được tạo độc lập. Mô hình của Gross kết luận rằng có thể thu được lợi nhuận lớn nếu nhiều quảng cáo được lấy từ các nguồn độc lập và quảng cáo tốt nhất được chọn. Điều khoản quan trọng phân bố Bernoulli Biến ngẫu nhiên liên tục phân phối nhị thức Chức năng phân phối tích lũy Bổ sung Biến ngẫu nhiên rời rạc xác suất có điều kiện Phân phối đồng đều rời rạc 3Dựa trên GC O'Connor, TR Willemain và J. MacLachlan, “Giá trị của sự cạnh tranh giữa các đại lý trong việc phát triển các chiến dịch quảng cáo: Xem lại mô hình của Gross,” Tạp chí Quảng cáo, 25, 1 (1996): 51–62. Machine Translated by Google 173 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Phân phối xác suất thực nghiệm kết quả Sự kiện phân phối độc tố Gia tri đươ c ki vo ng xác suất Cuộc thí nghiệm Hàm mật độ xác suất phân phối theo cấp số nhân Phân phối xác suất Sự phù hợp tốt Chức năng có thể xảy ra tập trung sự kiện độc lập số ngẫu nhiên Ngã tư Hạt giống số ngẫu nhiên xác suất chung biến ngẫu nhiên Bảng xác suất chung biến ngẫu nhiên Xác suất biên Không gian mẫu luật nhân xác suất phân phối bình thường tiêu chuẩn loại trừ lẫn nhau Phân bố đồng đều Phân phối bình thường liên hiệp vấn đề và bài tập 1. Lauren uống nhiều loại nước giải khát. Trong tháng qua, cô ấy đã uống 15 lon coca ăn kiêng, 4 lon nước chanh và 6 lon bia gốc không theo thứ tự hay khuôn mẫu cụ thể nào. Một. Kết quả của thí nghiệm này đối với một người trả lời là gì? b. Xác suất mà một người trả lời sẽ xếp hạng Red Bull đầu tiên là gì? Một. Với lịch sử này, xác suất thức uống tiếp theo của cô ấy sẽ là cola dành cho người ăn kiêng là bao nhiêu? Nước chanh? Bia gốc? b. Bạn đã sử dụng định nghĩa xác suất nào để trả lời câu hỏi này? 2. Xem xét thí nghiệm rút hai quân bài không đổi từ một bộ bài chỉ gồm quân át đến quân 10 của một bộ (ví dụ: chỉ quân cơ). Một. Mô tả kết quả của thí nghiệm này. Liệt kê các phần tử của không gian mẫu. b. Định nghĩa sự kiện Ai là tập hợp các kết quả mà tổng giá trị của các quân bài là i (với quân Át 1). Liệt kê các kết quả liên quan đến Ai cho i 3 đến 19. c. Xác suất mà hai người trả lời sẽ cả hai đều xếp hạng Red Bull đầu tiên? 5. Tham khảo kịch bản thẻ được mô tả trong Vấn đề 2. Một. Gọi A là biến cố “tổng giá trị lá bài là số lẻ”. c Tìm P(A) và P(A)). b. Xác suất mà tổng của hai thẻ sẽ nhiều hơn 14? 6. Tham khảo kịch bản đồng xu được mô tả trong Vấn đề 3. Một. Gọi A là biến cố “có đúng 2 mặt ngửa”. Tìm P(A). b. Gọi B là biến cố “có nhiều nhất 1 mặt ngửa”. Tìm P(B). c. Gọi C là biến cố có ít nhất 2 mặt ngửa. Tìm P(C). đ. Biến cố A và B có loại trừ lẫn nhau không? Tìm P(A c. Xác suất để có tổng hai quân bài bằng nhau từ 3 đến 19 là bao nhiêu? hoặc B). đ. Các sự kiện A và C có loại trừ lẫn nhau không? Tìm P(A hoặc C). 3. Ba đồng xu được thả trên bàn. Một. Liệt kê tất cả các kết quả có thể xảy ra trong không gian mẫu. b. Tìm xác suất liên quan đến mỗi kết quả. 7. Roulette được chơi tại một bàn tương tự như trong Hình 5.36. Một bánh xe có các số từ 1 đến 36 (phân bố đều với các màu đỏ và đen) và hai số 0 và 00 màu xanh lá cây quay trong một cái bát cạn có thành cong. Một quả bóng 4. Một công ty nghiên cứu thị trường đã khảo sát người tiêu nhỏ được quay ở mặt trong của bức tường và rơi vào một dùng để xác định mức độ ưa thích của họ đối với nước cái túi tương ứng với một trong các con số. Người chơi tăng lực giữa các thương hiệu Monster, Red Bull và có thể thực hiện 11 loại cược khác nhau bằng cách đặt Rockstar. chip vào các khu vực khác nhau của Machine Translated by Google 174 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.36 Bố cục của một điển hình Bàn Roulette cái bàn. Chúng bao gồm đặt cược vào một số, hai số liền b. Những kết quả này có loại trừ lẫn nhau không? kề, một hàng ba số, một khối bốn số, hai hàng sáu số c. Xác suất để một chuyến bay đến sớm hoặc đúng giờ là liền kề và năm tổ hợp số 0, 00, 1, 2 và 3; cược vào các bao nhiêu? số 1–18 hoặc 19–36; nhóm 12 số thứ nhất, thứ hai, thứ ba; cột 12 số; chẵn hoặc lẻ; và đỏ hoặc đen. Tiền chi trả 10. Một cuộc khảo sát 200 sinh viên tốt nghiệp đại học đã đi khác nhau tùy theo đặt cược. Chẳng hạn, đặt cược một làm ít nhất 3 năm cho thấy 90 người chỉ sở hữu quỹ tương số trả 35 ăn 1 nếu thắng; đặt cược ba số trả 11 ăn 1; hỗ, 20 người chỉ sở hữu cổ phiếu và 70 người sở hữu cả hai. cược cột trả 2 ăn 1; và cược màu trả tiền chẵn. Một. Xác suất mà một cá nhân sở hữu một cổ phiếu là gì? Một quỹ tương hỗ? b. Xác suất mà một cá nhân không sở hữu cổ phiếu hay quỹ Xác định các sự kiện sau: C1 cột 1 số, C2 cột 2 số, C3 cột 3 số, O số lẻ, E số chẵn, G số xanh, F12 12 số đầu tiên, S12 thứ hai 12 số và T12 thứ ba 12 số. Một. Tìm xác suất của mỗi sự kiện này. b. Tìm P(G hoặc O), P(O hoặc F12), P(C1 hoặc C3), P(E và F12), P(E hoặc F12), P(S12 và T12), P(O hoặc C2). 8. Học viên lớp mới MBA tại trường đại học công lập có hồ sơ chuyên môn như sau: tương hỗ là gì? c. Xác suất mà một cá nhân sở hữu cổ phiếu hoặc quỹ tương hỗ là gì? 11. Hàng 26 của tệp Excel Dữ liệu điều tra dân số giáo dục đưa ra số lượng người có việc làm có trình độ học vấn cụ thể. Một. Tìm xác suất mà một người có việc làm đã đạt được từng trình độ học vấn được liệt kê trong dữ liệu. b. Giả sử A là biến cố “có ít nhất bằng cấp xã hội” và B là biến cố “ít nhất là học sinh tốt nghiệp trung Tài chính—67 học phổ thông”. Tìm xác suất của những sự kiện này. Tiếp thị—45 Chúng có loại trừ lẫn nhau không? Tại sao hay tại Quản lý hoạt động và chuỗi cung ứng—51 sao không? Tìm xác suất P(A hoặc B). Hệ thống thông tin—18 Tìm xác suất để sinh viên đó học chuyên ngành tài chính hoặc marketing. Chuyên môn hóa tài chính và chuyên môn hóa tiếp thị của các sự kiện có loại trừ lẫn nhau không? Nếu vậy, những gì giả định phải được thực hiện? 9. Một hãng hàng không theo dõi dữ liệu về các chuyến bay đến của mình. Trong 6 tháng qua, trên một đường bay có 50 chuyến về sớm, 150 chuyến về đúng giờ, 25 chuyến về muộn và 45 chuyến hủy. Một. Xác suất mà một chuyến bay là sớm là gì? Kịp thời? Muộn? Đã hủy? 12. Khảo sát về thói quen mua sắm cho thấy tỷ lệ người được hỏi sử dụng công nghệ để mua sắm như trong Hình 5.37. Ví dụ, 17,39% chỉ sử dụng phiếu giảm giá trực tuyến; 21,74% sử dụng phiếu giảm giá trực tuyến và kiểm tra giá trực tuyến trước khi mua sắm, v.v. Một. Xác suất mà một người mua sắm sẽ kiểm tra giá trực tuyến trước khi mua sắm là gì? b. Xác suất mà một người mua sắm sẽ sử dụng một điện thoại thông minh để tiết kiệm tiền? c. Xác suất mà một người mua sắm sẽ sử dụng phiếu giảm giá trực tuyến? Machine Translated by Google 175 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu Hình 5.37 4,35% Kiểm tra giá trực tuyến trước khi mua sắm 21,74% 17,39% 17,39% 4,35% Sử dụng trực tuyến phiếu giảm giá 4,35% 4,35% Sử dụng điện thoại thông minh để tiết kiệm tiền đ. Xác suất mà một người mua sắm sẽ không sử dụng là gì Một. Tìm xác suất cận biên mà việc bán hàng bắt nguồn từ mỗi khu vực trong số bốn khu vực và xác suất cận biên bất kỳ công nghệ nào trong số này? đ. Xác suất mà một người mua sắm sẽ kiểm tra giá trực tuyến và sử dụng phiếu giảm giá trực tuyến nhưng không sử dụng điện của từng loại bán hàng (sách hoặc DVD). b. Tìm xác suất có điều kiện để bán một cuốn sách biết rằng khách hàng cư trú ở mỗi khu vực. thoại thông minh là gì? f. Nếu một người mua sắm kiểm tra giá trực tuyến, xác suất mà người đó sẽ sử dụng điện thoại thông minh là bao nhiêu? g. Xác suất mà một người mua sắm sẽ kiểm tra là gì liệu Điều tra Dân số Giáo dục để tìm những thông tin sau: giá trực tuyến nhưng không sử dụng phiếu giảm giá trực tuyến hoặc điện thoại thông minh? trú của lớp sắp nhập học như sau: học” có độc lập với nhau không? 16. Sử dụng dữ liệu trong tệp Excel Khảo sát về Giao thông vận Giới tính Canada Hoa Kỳ Châu Âu Châu Á Khác 86 Nữ giới 24 số 8 c. P (không phải học sinh trung học thất nghiệp) đ. Các sự kiện “thất nghiệp” và “ít nhất là tốt nghiệp trung cư trú Nam giới Một. P (thất nghiệp và bằng cấp cao) b. P (bằng cấp cao thất nghiệp) 13. Một trường kinh doanh ở Canada đã tóm tắt giới tính và nơi cư 123 15. Sử dụng dữ liệu Lực lượng Lao động Dân sự trong tệp Excel Dữ 17 10 tải của Người tiêu dùng, xây dựng bảng dự phòng cho Giới 52 số 8 73 4 tính và Phương tiện điều khiển; sau đó chuyển đổi bảng này thành xác suất. Một. Lập bảng xác suất chung. Một. Xác suất mà người trả lời là nữ là gì? b. Tính các xác suất cận biên. b. Xác suất mà một người được hỏi lái một chiếc SUV là bao c. Xác suất mà một sinh viên nữ đến từ bên ngoài Canada hoặc c. Xác suất mà một người được hỏi là nam và lái một chiếc xe Hoa Kỳ là gì? 14. Trong một ví dụ ở Chương 3, chúng tôi đã phát triển bảng chéo Sách đĩa DVD Tổng cộng 56 42 98 c 43 42 85 Phía nam 62 37 99 Phía đông Phi a bă tải nhỏ là bao nhiêu? đ. Xác suất để một phụ nữ lái xe tải hoặc SUV là bao nhiêu? dữ liệu giao dịch bán hàng dưới đây: Vùng đất nhiêu? hướng Tây 100 90 190 Tổng cộng 261 211 472 đ. Nếu biết rằng một người lái ô tô, xác suất người đó là nữ là bao nhiêu? f. Nếu biết một người là nam giới, xác suất anh ta lái một chiếc SUV là bao nhiêu? g. Xác định xem các biến ngẫu nhiên “giới tính” và sự kiện “điều khiển phương tiện” có phụ thuộc về mặt thống kê hay không. Điều này có ý nghĩa gì đối với các nhà quảng cáo? Machine Translated by Google 176 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 17. Que thử thai tại nhà không phải lúc nào cũng chính xác. Sup đặt ra xác suất là 0,015 để xét nghiệm chỉ ra rằng một phụ nữ đang mang thai trong khi thực tế thì cô ấy không mang thai và xác suất là 0,025 để xét nghiệm chỉ ra rằng một phụ nữ không mang thai khi thực tế là cô ấy mang thai. Giả sử rằng xác suất để một phụ nữ làm bài kiểm tra thực sự có thai là 0,7. Xác suất mà một phụ nữ mang thai là bao nhiêu nếu xét nghiệm cho kết quả không mang thai? 18. Trong tình huống ở Bài toán 2, xác suất để rút được quân Át đầu tiên theo sau là quân 2 là bao nhiêu? Điều này khác nhau như thế nào nếu thẻ đầu tiên được thay thế trong bộ bài? Giải thích rõ ràng những công thức bạn sử dụng và tại sao. 19. Trong ví dụ về roulette được mô tả ở Vấn đề 7, xác suất để kết quả có màu xanh hai lần liên tiếp là bao nhiêu? Xác suất để lần xuất hiện có màu đen hai lần liên tiếp là bao Tìm giá trị kỳ vọng, phương sai và độ lệch chuẩn của nhu cầu hàng tuần. 23. Xây dựng phân phối xác suất cho giá trị của một ván bài 2 quân được chia từ một bộ bài tiêu chuẩn gồm 52 quân bài (tất cả các quân bài ngửa đều có giá trị là 10 và quân Át có giá trị là 11). Một. Xác suất để được xử lý 21 là gì? b. Xác suất để được xử lý 16 là gì? c. Xây dựng biểu đồ cho hàm phân phối tích lũy. Xác suất để được xử lý 16 hoặc ít hơn là gì? Từ 12 đến 16? Từ 17 đến 20? đ. Tìm giá trị kỳ vọng và độ lệch chuẩn của một ván bài 2 lá. 24. Dựa trên dữ liệu trong tệp Excel Khảo sát giao thông tiêu dùng, hãy xây dựng hàm khối lượng xác suất và hàm phân phối nhiêu? 20. Một công ty sản phẩm tiêu dùng phát hiện ra rằng 48% sản phẩm thành công cũng nhận được kết quả thuận lợi từ nghiên cứu thị trường thử nghiệm, trong khi 12% có kết quả không thuận lợi nhưng vẫn thành công. Họ cũng phát hiện ra rằng 28% sản phẩm không thành công có kết quả nghiên cứu không thuận lợi, trong khi 12% trong số đó có kết quả nghiên cứu thuận lợi. Nghĩa là, P(sản phẩm thành công và thị trường tích lũy (cả dạng bảng và dạng biểu đồ) cho biến ngẫu nhiên Số trẻ em. Xác suất để một cá nhân trong cuộc khảo sát này có ít hơn ba người con là bao nhiêu? Ít nhất một đứa trẻ? Năm con trở lên? 25. Một ứng dụng chính của phân tích trong tiếp thị là xác định mức độ tiêu hao của khách hàng. Giả sử rằng xác suất khách thử nghiệm thuận lợi) 0,48, P(sản phẩm thành công và thị hàng của một hãng vận tải đường dài chuyển sang một hãng trường thử nghiệm không thuận lợi) 0,12, P(sản phẩm không vận tải khác từ tháng này sang tháng khác là 0,12. Mô hình thành công và thị trường thử nghiệm thuận lợi) 0,12, và phân phối nào giữ chân một khách hàng cá nhân? Giá trị kỳ P(sản phẩm không thành công và thị trường thử nghiệm không vọng và độ lệch tiêu chuẩn là gì? thuận lợi) 0,28. Tìm xác suất của các sản phẩm thành công và không thành công với các kết quả thị trường thử nghiệm đã biết. 26. Tệp Excel Dữ liệu Trung tâm cuộc gọi cho thấy rằng trong một mẫu gồm 70 cá nhân, 27 người đã có kinh nghiệm về trung 21. Một nhà đầu tư ước tính rằng có 1/10 cơ hội mua cổ phiếu sẽ mất 20% giá trị, 2/10 cơ hội hòa vốn, 4/10 cơ hội lãi 15% và 3 trong 10 khả năng nó sẽ đạt được 30%. Lợi nhuận kỳ tâm cuộc gọi trước đó. Nếu chúng ta giả định rằng xác suất mà bất kỳ người được tuyển dụng tiềm năng nào cũng sẽ có kinh nghiệm với xác suất là 27/70, xác suất mà trong số 10 người được tuyển dụng tiềm năng, hơn một nửa trong số họ sẽ vọng dựa trên những ước tính này là gì? có kinh nghiệm là bao nhiêu? Xác định (các) tham số cho phân phối này dựa trên dữ liệu. 22. Nhu cầu hàng tuần của một sản phẩm luân chuyển chậm có hàm khối lượng xác suất sau: Yêu cầu, tiếp thị qua điện thoại để tạo khách hàng mới và xác suất có được khách hàng mới thành công là 0,07, thì xác suất Xác suất, f( ) 0 0,2 1 0,4 2 0,3 3 0,1 4 hoặc nhiều hơn 27. Nếu một công ty điện thoại di động tiến hành chiến dịch 0 liên hệ với 50 khách hàng tiềm năng sẽ dẫn đến ít nhất 5 khách hàng mới là bao nhiêu? 28. Trong 1 năm, một quỹ tương hỗ cụ thể đã hình thành tốt hơn chỉ số S&P 500 33 trong 52 tuần. Tìm xác suất để hiệu suất này hoặc tốt hơn sẽ xảy ra lần nữa. 29. Một khách sạn nghỉ dưỡng nổi tiếng có 300 phòng và thường được đặt kín chỗ. Khoảng 6% thời gian đặt phòng bị hủy trước thời hạn 6:00 chiều với Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu không bị phạt. Xác suất để ít nhất 280 phòng có 177 c. P16 6 x 6 102 người ở là bao nhiêu? Sử dụng phân phối nhị thức đ. P18 6 x 6 112 để tìm giá trị chính xác. 30. Một tổng đài điện thoại nơi mọi người thực hiện các cuộc gọi tiếp thị tới khách hàng có xác suất thành công là 0,08. Người quản lý rất khắc nghiệt với những người không nhận đủ số lượng cuộc gọi thành công. Tìm số cuộc gọi cần thiết để đảm bảo rằng xác suất nhận được 5 cuộc gọi thành công trở lên là 0,90. 31. Một chuyên gia tư vấn tài chính có trung bình 7 khách hàng mà anh ta tư vấn mỗi ngày, những khách hàng này được giả định là phân phối Poisson. Chi phí chung của chuyên gia tư vấn yêu cầu anh ta phải tư vấn cho ít nhất 5 khách hàng để phí đó trang trải chi phí. Tìm xác suất của 0–10 khách hàng trong một ngày nhất định. Xác suất mà ít nhất 5 khách hàng sẽ đặt lịch dịch vụ của anh ta là 34. gì? Thời gian cần thiết để chơi một trò chơi Battleship™ 32. Số lượng và tần suất của các cơn bão Đại Tây Dương hàng năm từ năm 1940 đến năm 2012 được hiển thị ở đây. được phân bổ đồng đều trong khoảng từ 15 đến 60 phút. Một. Tìm giá trị kỳ vọng và phương sai của thời gian để hoàn thành trò chơi. Con số Tính thường xuyên b. Xác suất hoàn thành trong vòng 30 phút là bao 0 5 1 16 2 19 3 14 35. Một nhà thầu đã ước tính rằng số lượng tối thiểu 4 3 số ngày để sửa sang lại phòng tắm cho khách hàng 5 5 6 4 7 3 số 8 2 10 1 12 1 nhiêu? c. Xác suất để trận đấu kéo dài hơn 40 phút là bao nhiêu? là 10 ngày. Ông cũng ước tính rằng 80% công việc tương tự được hoàn thành trong vòng 18 ngày. Nếu thời gian tu sửa được phân phối đều, tham số của phân phối đều là bao nhiêu? 36. Khi xác định xếp hạng số dặm ô tô, người ta thấy rằng mpg (X) cho một kiểu xe nhất định không được phân phối chuẩn, với giá trị trung bình là 33 mpg và độ lệch chuẩn là 1,7 mpg. Tìm theo dưới đây: Một. Tìm xác suất của 0–12 cơn bão mỗi mùa bằng cách sử dụng các dữ liệu này. b. Giả sử phân phối Poisson và sử dụng số cơn bão Một. P1X 6 302 b. P128 6 X 6 322 trung bình mỗi mùa từ dữ liệu thực nghiệm, tính c. P1X 7 352 xác suất trải qua 0–12 cơn bão trong một mùa. đ. P1X 7 312 So sánh những điều này với câu trả lời của bạn đ. Xếp hạng quãng đường mà 5% ô tô trên đạt được. cho phần (a). Làm thế nào tốt làm một mô hình phân phối Poisson hiện tượng này? Xây dựng một biểu đồ để trực quan hóa những kết quả này. 33. Xác minh rằng hàm tương ứng với hình dưới đây là hàm mật độ xác suất hợp lệ. Sau đó tìm các xác suất sau: Một. P1x 6 82 b. P1x 7 72 37. Phân phối điểm SAT môn toán của một sinh viên kinh doanh sắp vào lớp có trung bình là 590 và độ lệch chuẩn là 22. Giả sử rằng điểm số được phân phối chuẩn. Một. Tìm xác suất để điểm SAT của một cá nhân thấp hơn 550. b. Tìm xác suất để điểm SAT của một cá nhân nằm trong khoảng từ 550 đến 600. Machine Translated by Google 178 Chương 5 Phân phối xác suất và mô hình hóa dữ liệu c. Tìm xác suất để điểm SAT của một cá nhân điểm lớn hơn 620. đ. Bao nhiêu phần trăm học sinh sẽ đạt điểm cao hơn 700? quy trình của bạn trên bảng tính và sử dụng hàm VLOOKUP để lấy mẫu 10 kết quả từ phân phối. 44. Xây dựng quy trình lấy mẫu từ phân phối xác suất của bài toán 2. Thực hiện quy trình của bạn trên bảng tính và sử đ. Tìm các giá trị tiêu chuẩn cho học sinh đạt điểm 550, dụng hàm VLOOKUP để lấy mẫu 20 kết quả từ phân phối. 600, 650 và 700 trong bài kiểm tra. 38. Một loại nước giải khát phổ biến được bán trong chai 2 45. Sử dụng công thức (5.23) để lấy mẫu gồm 25 kết quả cho lít (2.000 ml). Do sự thay đổi trong quy trình chiết rót, trò chơi Battleship™ như được mô tả trong Bài toán 34. các chai có thể tích trung bình là 2.000 ml và độ lệch Tìm trung bình và độ lệch chuẩn cho 25 kết quả này. chuẩn là 20, có phân phối chuẩn. Một. Nếu quá trình làm đầy chai hơn 50 ml, tràn sẽ gây ra sự cố cho máy. xác suất của điều này xảy ra là gì? 46. Sử dụng công cụ Tạo số ngẫu nhiên của Excel để tạo ra 100 mẫu số lượng khách hàng mà nhà tư vấn tài chính trong Bài toán 31 sẽ có hàng ngày. Bao nhiêu phần trăm sẽ đạt được mục tiêu ít nhất là 5? b. Xác suất làm đầy các chai là bao nhiêu ít nhất 30 ml? 39. Hợp đồng với nhà cung cấp yêu cầu kích thước chính của một bộ phận nằm trong khoảng từ 1,96 đến 2,04 cm. Nhà cung 47. Một công thức trong phân tích tài chính là: Tỷ suất lợi nhuận ròng trên vốn chủ sở hữu * vòng quay tổng tài sản * hệ số nhân vốn chủ sở hữu. Giả sử rằng hệ số vốn chủ sở hữu cố định ở mức 4,0, nhưng tỷ suất lợi nhuận cấp đã xác định rằng độ lệch chuẩn của quy trình của họ, ròng được phân phối bình thường với trung bình là 3,8% có phân phối chuẩn, là 0,04 cm. và độ lệch chuẩn là 0,4%, và vòng quay tổng tài sản được Một. Nếu giá trị trung bình thực tế của quy trình là 1,98, thì phần phân phối chuẩn với trung bình là 1,5 và độ lệch chuẩn nào của các bộ phận sẽ đáp ứng các thông số kỹ thuật? b. Nếu giá trị trung bình được điều chỉnh thành 2,00, phần nào của các bộ phận sẽ đáp ứng thông số kỹ thuật? c. Độ lệch chuẩn phải nhỏ đến mức nào để đảm bảo rằng không quá 2% các bộ phận không hình thành, giả sử giá trị trung bình là 2,00? 40. Dữ liệu lịch sử cho thấy những khách hàng tải nhạc từ một dịch vụ Web phổ biến chi tiêu xấp xỉ 26 đô la mỗi tháng, với độ lệch chuẩn là 4 đô la. Tìm xác suất mà một khách hàng sẽ chi tiêu ít nhất $20 mỗi tháng. 10 phần trăm khách hàng hàng đầu chi bao nhiêu (hoặc nhiều hơn)? 41. Một bóng đèn được bảo hành trong 5.000 giờ. Nếu thời gian dẫn đến hỏng hóc được phân phối theo cấp số nhân với giá trị trung bình thực là 4.750 giờ, xác suất để nó kéo dài ít nhất 5.000 giờ là bao nhiêu? 42. Thời gian giao hàng thực tế từ Giodanni's Pizza được phân phối theo cấp số nhân với trung bình là 20 phút. Một. Xác suất mà thời gian giao hàng sẽ vượt quá 30 phút 0,2. Thiết lập và tiến hành một thử nghiệm lấy mẫu để tìm ra sự phân phối của lợi nhuận trên vốn chủ sở hữu. Hiển thị kết quả của bạn dưới dạng biểu đồ để giúp làm rõ phân tích và kết luận của bạn. Sử dụng các quy tắc thực nghiệm để dự đoán tỷ suất sinh lợi trên vốn chủ sở hữu. 48. Một cơ quan chính phủ đang đưa ra một dự án lớn với giá thầu thấp. Giá thầu dự kiến từ 10 nhà thầu khác nhau và sẽ có phân phối bình thường với giá trị trung bình là 3,5 triệu đô la và độ lệch chuẩn là 0,25 triệu đô la. Xây dựng và thực hiện một thử nghiệm lấy mẫu để ước tính phân bổ của giá thầu tối thiểu mẹ và giá trị dự kiến của giá thầu tối thiểu. 49. Sử dụng Nền tảng Bộ giải Phân tích để điều chỉnh dữ liệu cơn bão trong Bài toán 32 thành một bản phân phối rời rạc? Phân phối Poisson có phù hợp nhất không? 50. Sử dụng Nền tảng bộ giải phân tích để điều chỉnh phân phối cho dữ liệu trong tệp Excel Thời gian sửa chữa máy tính. Hãy thử ba biện pháp thống kê khác nhau để đánh giá mức độ phù hợp và xem liệu chúng có dẫn đến các phân phối phù hợp nhất khác nhau hay không. là gì? b. Tỷ lệ giao hàng sẽ được hoàn thành trong vòng 20 phút là bao nhiêu? 43. Xây dựng quy trình lấy mẫu từ phân phối xác suất của các lựa chọn nước giải khát trong Bài toán 1. Thực hiện 51. Tệp Excel Báo cáo đầu tư cung cấp dữ liệu mẫu về lợi nhuận hàng năm của S&P 500 và lợi nhuận hàng tháng của danh mục đầu tư chứng khoán và danh mục đầu tư trái phiếu. Xây dựng biểu đồ cấu trúc cho từng tập dữ liệu và sử dụng Nền tảng bộ giải phân tích để tìm phân phối phù hợp nhất. Machine Translated by Google Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 179 Trường hợp: Hiệu suất Lawn Thiết bị PLE thu thập nhiều loại dữ liệu từ các nghiên cứu đặc biệt, nhiều 5. Giả sử rằng dữ liệu là bình thường, khả năng trọng lượng dữ liệu trong số đó có liên quan đến chất lượng sản phẩm của công lưỡi cắt từ quy trình này sẽ vượt quá 5,20 là bao nhiêu? ty. Công ty thu thập dữ liệu về hoạt động kiểm tra chức năng của máy cắt sau khi lắp ráp; kết quả của 30 ngày qua được đưa ra trong bảng tính Mower Test. Ngoài ra, nhiều phép đo trong quy trình được 6. Xác suất để trọng số nhỏ hơn 4,80 là bao nhiêu? thực hiện để đảm bảo rằng các quy trình sản xuất vẫn nằm trong tầm kiểm soát và có thể sản xuất theo thông số kỹ thuật thiết kế. Bảng tính Trọng lượng lưỡi dao hiển thị 350 phép đo trọng lượng lưỡi cắt được lấy từ quy trình sản xuất tạo ra các lưỡi cắt trong ca làm việc gần đây nhất. Elizabeth Burke đã yêu cầu bạn nghiên cứu những dữ liệu này từ góc độ phân tích. Dựa trên kinh nghiệm của bạn, bạn đã phát triển một số câu hỏi. 7. Tỷ lệ phần trăm thực tế của các trọng số vượt quá 5,20 hoặc nhỏ hơn 4,80 so với dữ liệu trong trang tính là bao nhiêu? 8. Quá trình làm cho cánh quạt có bền theo thời gian không? Đó là, có bất kỳ thay đổi rõ ràng nào trong mô hình trọng lượng của lưỡi kiếm không? 9. Có bất kỳ trọng lượng lưỡi nào được coi là ngoại lệ không, 1. Đối với dữ liệu thử nghiệm máy cắt, phân phối nào có thể phù hợp để mô hình hóa lỗi của từng máy cắt? 2. Phần nào máy cắt không đạt yêu cầu kiểm tra hiệu suất chức năng khi sử dụng tất cả dữ liệu kiểm tra máy cắt? 3. Xác suất xảy ra lỗi x trong 100 máy cắt tiếp theo được thử nghiệm, với x từ 0 đến 20 là bao nhiêu? 4. Trọng lượng lưỡi dao trung bình là bao nhiêu và mức độ biến thiên xảy ra khi đo trọng lượng lưỡi dao là bao nhiêu? điều này có thể cho thấy có vấn đề với quy trình sản xuất hoặc vật liệu? 10. Có phải giả định rằng trọng lượng cánh quạt được phân phối chuẩn không? Phân phối khả năng xác suất phù hợp nhất cho dữ liệu là gì? Tóm tắt tất cả những phát hiện của bạn cho những câu hỏi này trong một báo cáo bằng văn bản. Machine Translated by Google Trang này cố ý để trống Machine Translated by Google lấy mẫu và Ước lượng CHƯƠNG KALABUKHAVA IRYNA/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Mô tả các yếu tố của kế hoạch lấy mẫu. Sử dụng lỗi tiêu chuẩn trong tính toán xác suất. Giải thích sự khác biệt giữa lấy mẫu chủ quan và xác Giải thích ước lượng khoảng khác với ước lượng điểm như thế nào. suất. Nêu hai loại lấy mẫu chủ quan. Định nghĩa và cho ví dụ về khoảng tin cậy. Giải thích cách tiến hành lấy mẫu ngẫu nhiên đơn giản và sử Tính khoảng tin cậy cho trung bình và tỷ lệ dân số bằng cách sử dụng Excel để tìm mẫu ngẫu nhiên đơn giản từ cơ sở dữ liệu Excel. dụng các công thức trong chương này và các hàm Excel thích hợp. Giải thích việc lấy mẫu theo hệ thống, phân tầng và theo cụm cũng Giải thích khoảng tin cậy thay đổi như thế nào khi mức độ tin cậy như lấy mẫu từ một quy trình liên tục. tăng hoặc giảm. Giải thích tầm quan trọng của ước lượng không chệch. Mô tả sự khác biệt giữa -distribution Mô tả sự khác biệt giữa lỗi lấy mẫu và lỗi không lấy mẫu. và phân phối chuẩn. Sử dụng khoảng tin cậy để rút ra kết luận về Giải thích giá trị trung bình, độ lệch chuẩn và phân phối trung thông số dân số. bình của các mẫu thay đổi như thế nào khi cỡ mẫu tăng lên. Tính khoảng dự đoán và giải thích nó khác với khoảng tin cậy như thế nào. Xác định phân phối lấy mẫu của giá trị trung bình. Tính toán kích thước mẫu cần thiết để đảm bảo khoảng tin cậy cho phương Tính sai số chuẩn của giá trị trung bình. tiện và tỷ lệ với biên độ sai số được chỉ định. Giải thích tầm quan trọng thực tế của định lý giới hạn trung tâm. 181 Machine Translated by Google 182 Chương 6 Lấy mẫu và ước lượng Chúng ta đã thảo luận về sự khác biệt giữa dân số và mẫu trong Chương 4. Lấy mẫu là nền tảng của phân tích thống kê. Chúng tôi sử dụng dữ liệu mẫu trong các ứng dụng phân tích kinh doanh cho nhiều mục đích. Ví dụ: chúng ta có thể muốn ước tính giá trị trung bình, phương sai hoặc tỷ lệ của một tổng thể rất lớn hoặc chưa biết; cung cấp các giá trị cho đầu vào trong các mô hình quyết định; hiểu sự hài lòng của khách hàng; đưa ra kết luận về chiến lược bán hàng nào hiệu quả hơn; hoặc hiểu nếu một thay đổi trong một quy trình dẫn đến một sự cải tiến. Trong chương này, chúng ta thảo luận về các phương pháp lấy mẫu, cách chúng được sử dụng để ước tính các tham số tổng thể và cách chúng ta có thể đánh giá sai số vốn có trong việc lấy mẫu. Lấy mẫu thống kê Bước đầu tiên trong lấy mẫu là thiết kế một kế hoạch lấy mẫu hiệu quả để thu được các mẫu đại diện cho tổng thể đang nghiên cứu. Kế hoạch lấy mẫu là một mô tả về phương pháp được sử dụng để lấy mẫu từ tổng thể trước bất kỳ hoạt động thu thập dữ liệu nào. Kế hoạch lấy mẫu nêu rõ mục tiêu của hoạt động lấy mẫu, dân số mục tiêu, khung dân số (danh sách mà mẫu được chọn), phương pháp lấy mẫu, các thủ tục hoạt động để thu thập dữ liệu, và các công cụ thống kê sẽ được sử dụng để phân tích dữ liệu. VÍ DỤ 6.1 Kế hoạch lấy mẫu cho nghiên cứu thị trường Giả sử một công ty muốn tìm hiểu xem những người chơi gôn có đã mua thiết bị từ các công ty sản xuất đồ thể thao hoặc gôn thể phản ứng thế nào với chương trình thành viên cung cấp các quốc gia thông qua đó thẻ giảm giá sẽ được bán. Các quy trình khoản giảm giá tại các sân gôn ở địa phương của những người hoạt động để thu thập dữ liệu có thể là liên kết e-mail đến chơi gôn cũng như trên toàn quốc. Mục tiêu của một nghiên cứu địa điểm khảo sát hoặc bảng câu hỏi gửi trực tiếp qua thư. Dữ lấy mẫu có thể là ước tính tỷ lệ người chơi gôn có khả năng liệu có thể được lưu trữ trong cơ sở dữ liệu Excel; các công sẽ đăng ký chương trình này. Đối tượng mục tiêu có thể là tất cụ thống kê như PivotTable và thống kê mô tả đơn giản sẽ được cả những người chơi gôn trên 25 tuổi. Tuy nhiên, việc xác định sử dụng để phân chia những người phản hồi thành các nhóm nhân tất cả các tay golf ở Mỹ có thể là điều không thể. khẩu học khác nhau và ước tính khả năng phản hồi tích cực của Khung dân số thực tế có thể là danh sách những người chơi gôn họ. Phương pháp xét nghiệm Nhiều loại phương pháp lấy mẫu tồn tại. Phương pháp lấy mẫu có thể chủ quan hoặc xác suất. Các phương pháp chủ quan bao gồm lấy mẫu phán đoán, trong đó phán đoán của chuyên gia được sử dụng để chọn mẫu (khảo sát những khách hàng “tốt nhất”) và lấy mẫu thuận tiện, trong đó các mẫu được chọn dựa trên mức độ dễ dàng mà dữ liệu có thể được thu thập (khảo sát tất cả các khách hàng tình cờ đến thăm trong tháng này). Lấy mẫu xác suất liên quan đến việc lựa chọn các Machine Translated by Google 183 Chương 6 Lấy mẫu và ước lượng Hình 6.1 Hộp thoại Công cụ lấy mẫu Excel các mục trong mẫu bằng cách sử dụng một số thủ tục ngẫu nhiên. Lấy mẫu xác suất là cần thiết để rút ra kết luận thống kê hợp lệ. Phương pháp lấy mẫu xác suất phổ biến nhất là lấy mẫu ngẫu nhiên đơn giản. Lấy mẫu ngẫu nhiên đơn giản liên quan đến việc chọn các mục từ tổng thể sao cho mọi tập hợp con của một kích thước nhất định đều có cơ hội được chọn như nhau. Nếu dữ liệu về dân số được lưu trữ trong một cơ sở dữ liệu, nhìn chung có thể dễ dàng lấy được các mẫu ngẫu nhiên đơn giản. VÍ DỤ 6.2 Lấy mẫu ngẫu nhiên đơn giản bằng Excel Giả sử rằng chúng tôi muốn lấy mẫu từ cơ sở dữ liệu Excel Giao quan sát từ đầu của tập dữ liệu. dịch bán hàng. Excel cung cấp một công cụ để tạo một tập hợp Chẳng hạn, nếu sử dụng khoảng thời gian 5, các quan sát giá trị ngẫu nhiên từ một kích thước dân số nhất định. Bấm vào 5, 10, 15, v.v. sẽ được chọn làm mẫu. Phân tích dữ liệu trong nhóm Phân tích của tab Dữ liệu và chọn Lấy mẫu. Thao tác này sẽ mở hộp thoại như trong Hình 6.1. Trong 2. Việc lấy mẫu cũng có thể là ngẫu nhiên và chúng tôi sẽ được nhắc về Số lượng mẫu. Sau đó, Excel sẽ chọn ngẫu hộp Phạm vi đầu vào, chúng tôi chỉ định phạm vi dữ liệu mà nhiên số lượng mẫu này từ tập dữ liệu đã chỉ định. Tuy mẫu sẽ được lấy. Công cụ này yêu cầu dữ liệu được lấy mẫu phải nhiên, công cụ này tạo ra các mẫu ngẫu nhiên có thay ở dạng số, vì vậy, trong ví dụ này, chúng tôi lấy mẫu từ cột thế, vì vậy chúng ta phải cẩn thận kiểm tra các quan đầu tiên của tập dữ liệu, tương ứng với số ID khách hàng. Có sát trùng lặp trong mẫu được tạo. hai lựa chọn để lấy mẫu: Hình 6.2 cho thấy 20 mẫu do công cụ tạo ra. Chúng tôi đã sắp xếp chúng theo thứ tự tăng dần để dễ dàng xác định 1. Việc lấy mẫu có thể định kỳ và chúng tôi sẽ được nhắc về Khoảng thời gian, là khoảng thời gian giữa các lần lấy mẫu các mục trùng lặp. Như bạn có thể thấy, hai trong số các khách hàng đã được sao chép bởi công cụ này. Các phương pháp lấy mẫu khác bao gồm: Lấy mẫu có hệ thống (định kỳ). Lấy mẫu có hệ thống hoặc định kỳ là một kế hoạch lấy mẫu (một trong các tùy chọn trong công cụ Lấy mẫu của Excel) chọn mọi mục thứ n từ tổng thể. Ví dụ: để lấy mẫu 250 tên từ danh sách 400.000, tên đầu tiên có thể được chọn ngẫu nhiên từ 1.600 tên đầu tiên, sau đó có thể chọn mọi tên thứ 1.600. Phương pháp này có thể được sử dụng để lấy mẫu điện thoại khi được hỗ trợ bởi một trình quay số tự động được lập trình để quay số một cách có hệ thống. Tuy nhiên, lấy mẫu hệ thống không giống nhau Machine Translated by Google 184 Chương 6 Lấy mẫu và ước tính Hình 6.2 Các mẫu được tạo bằng Công cụ lấy mẫu Excel là lấy mẫu ngẫu nhiên đơn giản bởi vì đối với bất kỳ mẫu nào, mọi mẫu có thể có của một kích thước nhất định trong dân số không có cơ hội được chọn như nhau. Trong một số tình huống, cách tiếp cận này có thể gây ra sai lệch đáng kể nếu dân số có một số mẫu cơ bản. Chẳng hạn, các đơn đặt hàng lấy mẫu nhận được 7 ngày một lần có thể không mang lại mẫu đại diện nếu khách hàng có xu hướng gửi đơn đặt hàng vào một số ngày nhất định mỗi tuần. Lấy mẫu phân tầng. Lấy mẫu phân tầng áp dụng cho các quần thể được chia thành các tập hợp con tự nhiên (được gọi là tầng) và phân bổ tỷ lệ mẫu thích hợp cho từng tầng. Ví dụ, một thành phố lớn có thể được chia thành các quận chính trị được gọi là phường. Mỗi phường có số lượng công dân khác nhau. Một mẫu phân tầng sẽ chọn một mẫu gồm các cá nhân trong mỗi phường tương ứng với quy mô của nó. Cách tiếp cận này đảm bảo rằng mỗi tầng được tính trọng số theo quy mô của nó so với tổng thể và có thể mang lại kết quả tốt hơn so với lấy mẫu ngẫu nhiên đơn giản nếu các mục trong mỗi tầng không đồng nhất. Tuy nhiên, các vấn đề về chi phí hoặc tầm quan trọng của các tầng nhất định có thể làm cho một mẫu không cân xứng trở nên hữu ích hơn. Ví dụ, sự pha trộn dân tộc hoặc chủng tộc của mỗi phường có thể khác nhau đáng kể, gây khó khăn cho một mẫu phân tầng để có được thông tin mong muốn. Lấy mẫu cụm. Lấy mẫu theo cụm dựa trên việc chia dân số thành các nhóm nhỏ (cụm), lấy mẫu một tập hợp các cụm và (thường) tiến hành điều tra dân số hoàn chỉnh trong các cụm được lấy mẫu. Chẳng hạn, một công ty có thể phân khúc khách hàng của mình thành các khu vực địa lý nhỏ. Một mẫu cụm sẽ bao gồm một mẫu ngẫu nhiên của các khu vực địa lý và tất cả khách hàng trong các khu vực này sẽ được khảo sát (điều này có thể dễ dàng hơn vì danh sách khu vực có thể dễ dàng tạo và gửi thư hơn). Lấy mẫu từ một quá trình liên tục. Chọn một mẫu từ quá trình sản xuất liên tục của con người có thể được thực hiện theo hai cách chính. Đầu tiên, chọn một thời điểm ngẫu nhiên; sau đó chọn n mặt hàng tiếp theo được sản xuất sau thời gian đó. Thứ hai, chọn ngẫu nhiên n lần; sau đó chọn mục tiếp theo được sản xuất sau mỗi khoảng thời gian này. Cách tiếp cận đầu tiên thường đảm bảo rằng các quan sát sẽ đến từ một quần thể đồng loại; tuy nhiên, cách tiếp cận thứ hai có thể bao gồm các mục từ các quần thể khác nhau nếu các đặc điểm của quy trình sẽ thay đổi theo thời gian, vì vậy cần thận trọng khi sử dụng. Machine Translated by Google 185 Chương 6 Lấy mẫu và ước tính Phân tích trong thực tế: Sử dụng kỹ thuật lấy mẫu để cải thiện phân phối1 Các nhà máy bia của Hoa Kỳ dựa vào hệ thống phân phối ba cấp để phân phối sản phẩm đến các cửa hàng bán lẻ, chẳng hạn như siêu thị và cửa hàng tiện lợi, cũng như các đại lý tại chỗ, chẳng hạn như quán bar và nhà hàng. Ba tầng là nhà sản xuất, nhà bán buôn (nhà phân phối) và nhà bán lẻ. Một mạng lưới phân phối phải hiệu quả và tiết kiệm chi phí nhất có thể để cung cấp cho thị trường một sản phẩm mới không bị hư hỏng và được giao đúng nơi, đúng thời điểm. Để hiểu hiệu suất của nhà phân phối liên quan đến hiệu quả tổng thể, nhà máy bia MillerCoors đã xác định bảy thuộc tính của việc phân phối phù hợp và thu thập dữ liệu từ 500 nhà phân phối của mình. Chuyên gia chất lượng hiện trường (FQS) kiểm tra các nhà phân phối trong một khu vực được chỉ định của quốc gia và thu thập dữ liệu về các thuộc tính này. FQS sử dụng một thiết bị cầm tay để quét Stephen Finn/ Shutterstock.com mã sản phẩm chung trên mỗi gói hàng để xác định loại và số lượng sản phẩm. Khi quá trình kiểm tra hoàn tất, dữ liệu được tổng hợp và tải lên từ thiết bị cầm tay vào cơ sở dữ liệu chính. Việc kiểm tra nhà phân phối này sử dụng lấy mẫu ngẫu nhiên phân tầng với sự phân bổ mẫu theo tỷ lệ dựa trên thị phần của nhà phân phối. Ngoài việc cung cấp mẫu đại diện Việc ngẫu nhiên hóa các tài khoản bán lẻ đạt được thông qua một chương trình được thiết kế đặc biệt dựa trên hơn và kiểm soát hậu cần tốt hơn đối với lấy mẫu, lấy mẫu vị trí GPS của nhà phân phối và các tài khoản bán lẻ được ngẫu nhiên phân tầng nâng cao độ chính xác thống kê khi phục vụ. Cuối cùng, chiến lược lấy mẫu đề cập đến hiệu dữ liệu được tổng hợp theo khu vực thị trường mà nhà phân suất của một nhà phân phối cụ thể liên quan đến sản phẩm phối phục vụ. không đúng mã, sản phẩm bị hư hỏng và sản phẩm không còn Độ chính xác nâng cao này là kết quả của các khu vực thị luân chuyển ở cấp độ bán lẻ. Nói chung, hơn 6.000 tài khoản trường nhỏ hơn và thường đồng nhất, có thể cung cấp các bán lẻ quốc gia của nhà máy bia được kiểm toán trong một ước tính thực tế về tính biến thiên, đặc biệt là khi so năm lấy mẫu. Dữ liệu do các FQS thu thập trong năm được sử sánh với một khu vực thị trường khác biệt rõ rệt. dụng để xây dựng bảng xếp hạng hiệu suất của các nhà phân phối và xác định các cơ hội để cải thiện. Ước tính các tham số dân số Dữ liệu mẫu cung cấp cơ sở cho nhiều phân tích hữu ích để hỗ trợ việc ra quyết định. Ước tính liên quan đến việc đánh giá giá trị của một tham số dân số chưa biết—chẳng hạn như trung bình dân số, tỷ lệ dân số hoặc phương sai dân số—sử dụng dữ liệu mẫu. Công cụ ước tính là các biện pháp được sử dụng để ước tính các tham số dân số; ví dụ: chúng tôi sử dụng giá trị trung bình mẫu x để ước tính giá trị trung bình tổng thể m. Phương sai 2, mẫu s2 ước tính phương sai tổng thể và tỷ lệ mẫu p ước tính tỷ lệ dân số . Ước tính điểm là một số duy nhất được lấy từ dữ liệu mẫu được sử dụng để ước tính giá trị của tham số tổng thể. 1Dựa trên Tony Gojanovic và Ernie Jimenez, “Sự thức tỉnh của nhà sản xuất bia: Nhà sản xuất bia sử dụng các phương pháp thống kê để cải thiện cách phân phối sản phẩm của mình,” Tiến độ chất lượng (tháng 4 năm 2010). Machine Translated by Google 186 Chương 6 Lấy mẫu và ước tính Công cụ ước tính không thiên vị Có vẻ khá trực quan rằng giá trị trung bình của mẫu sẽ cung cấp một ước tính điểm tốt cho giá trị trung bình của tổng thể. Tuy nhiên, có thể không rõ tại sao công thức phương sai mẫu mà chúng tôi giới thiệu trong Chương 4 lại có mẫu số n - 1, đặc biệt là vì nó khác với công thức phương sai tổng thể (xem công thức (4.4) và (4.5). ) trong Chương 4). Trong các công thức này, phương sai dân số được tính bằng N 2 Một 1xi - m22 tôi 1 N trong khi phương sai mẫu được tính theo công thức N Một 1xi - x22 s2 tôi 1 n - 1 Tại sao cái này rất? Các nhà thống kê phát triển nhiều loại công cụ ước tính, và từ góc độ lý thuyết cũng như góc độ thực tế, điều quan trọng là họ phải “ước tính thực sự” các thông số dân số mà họ phải ước tính. Giả sử rằng chúng ta thực hiện một thử nghiệm trong đó chúng ta lấy mẫu lặp đi lặp lại từ một tổng thể và tính toán ước tính điểm cho một tham số tổng thể. Mỗi ước tính điểm riêng lẻ sẽ khác với tham số dân số; tuy nhiên, chúng tôi hy vọng rằng giá trị trung bình dài hạn (giá trị kỳ vọng) của tất cả các ước tính điểm khả thi sẽ bằng tham số dân số. Nếu giá trị kỳ vọng của một công cụ ước tính bằng với tham số dân số mà nó dự định ước tính, thì công cụ ước tính đó được gọi là không chệch. Nếu điều này không đúng, công cụ ước tính được gọi là sai lệch và sẽ không cung cấp kết quả chính xác. May mắn thay, tất cả các công cụ ước tính mà chúng tôi đã giới thiệu đều không chệch và do đó, có ý nghĩa đối với việc đưa ra các quyết định liên quan đến tham số tổng thể. Đặc biệt, các nhà thống kê đã chỉ ra rằng mẫu số n - 1 được sử dụng trong tính toán s2 là cần thiết để 2 cung cấp một ước lượng không chệch của . Nếu chúng ta chỉ chia cho số lượng quan sát, công cụ ước tính sẽ có xu hướng đánh giá thấp phương sai thực sự. Lỗi trong ước tính điểm Một trong những nhược điểm của việc sử dụng ước lượng điểm là chúng không cung cấp bất kỳ dấu hiệu nào về độ lớn của lỗi tiềm ẩn trong ước lượng. Một tờ báo lớn của thành phố đưa tin rằng, dựa trên cuộc khảo sát của Cục Thống kê Lao động, các giáo sư đại học là những người được trả lương cao nhất trong khu vực, với mức lương trung bình là 150.004 USD. Độ tuổi trung bình thực tế của hai trường đại học địa phương là dưới 70.000 đô la. Chuyện gì đã xảy ra thế? Như đã báo cáo trong một câu chuyện tiếp theo, cỡ mẫu rất nhỏ và bao gồm một số lượng lớn các giảng viên trường y được trả lương cao; kết quả là, có một lỗi đáng kể trong ước tính điểm đã được sử dụng. Khi chúng tôi lấy mẫu, các công cụ ước tính mà chúng tôi sử dụng—chẳng hạn như trung bình mẫu, tỷ lệ mẫu hoặc phương sai mẫu—thực ra là các biến ngẫu nhiên được đặc trưng bởi một số phân phối. Bằng cách biết phân phối này là gì, chúng ta có thể sử dụng lý thuyết xác suất để định lượng độ không chắc chắn liên quan đến công cụ ước tính. Để hiểu điều này, trước tiên chúng ta cần thảo luận về lỗi lấy mẫu và phân phối lấy mẫu. Machine Translated by Google 187 Chương 6 Lấy mẫu và ước tính Lỗi lấy mẫu Trong Chương 4, chúng ta đã quan sát thấy rằng các mẫu khác nhau từ cùng một tổng thể có các đặc điểm khác nhau—ví dụ, sự thay đổi về giá trị trung bình, độ lệch chuẩn, phân bố tần suất, v.v. Lỗi lấy mẫu (thống kê) xảy ra do các mẫu chỉ là một tập hợp con của tổng dân số. Lỗi lấy mẫu là cố hữu trong bất kỳ quy trình lấy mẫu nào và mặc dù có thể giảm thiểu nhưng không thể tránh hoàn toàn. Một loại lỗi khác, được gọi là lỗi không lấy mẫu, xảy ra khi mẫu không đại diện đầy đủ cho dân số mục tiêu. Đây thường là kết quả của việc thiết kế mẫu kém, chẳng hạn như sử dụng mẫu thuận tiện khi mẫu ngẫu nhiên đơn giản sẽ phù hợp hơn hoặc chọn sai khung dân số. Nó cũng có thể là kết quả của độ tin cậy của dữ liệu không tương đương, mà chúng ta đã thảo luận trong Chương 1. Để rút ra kết luận tốt từ các mẫu, các nhà phân tích cần loại bỏ lỗi không lấy mẫu và hiểu bản chất của lỗi lấy mẫu. Sai số lấy mẫu phụ thuộc vào kích thước của mẫu so với tổng thể. Do đó, việc xác định số lượng mẫu cần lấy thực chất là một vấn đề thống kê dựa trên độ chính xác của các ước tính cần thiết để rút ra kết luận hữu ích. Chúng ta sẽ thảo luận điều này sau trong chương này. Tuy nhiên, từ quan điểm thực tế, người ta cũng phải xem xét chi phí lấy mẫu và đôi khi đánh đổi giữa chi phí và thông tin thu được. Hiểu lỗi lấy mẫu Giả sử rằng chúng ta ước tính giá trị trung bình của tổng thể bằng cách sử dụng giá trị trung bình mẫu. Làm thế nào chúng ta có thể xác định mức độ chính xác của chúng ta? Nói cách khác, chúng ta có thể đưa ra một tuyên bố có căn cứ về việc trung bình mẫu có thể cách trung bình dân số thực bao xa không? Chúng ta có thể hiểu rõ hơn về câu hỏi này bằng cách thực hiện một thử nghiệm lấy mẫu. VÍ DỤ 6.3 Thí nghiệm lấy mẫu Chúng ta hãy chọn một tổng thể có phân bố đồng đều giữa a = 0 và b = và AB13). Lưu ý rằng giá trị trung bình của tất cả các phương tiện 10. Công thức (5.17) và (5.18) cho biết giá trị kỳ vọng là 10 + 102 mẫu khá gần với giá trị trung bình thực của tổng thể là 5,0. 2 = 5 và phương sai là (10 0)2 12 = 8,333. Chúng tôi sử dụng công cụ Tạo số ngẫu nhiên của Excel được mô tả trong Chương 5 để tạo 25 Bây giờ chúng ta hãy lặp lại thí nghiệm này với cỡ mẫu lớn hơn. Bảng 6.1 cho thấy một số kết quả. Lưu ý rằng khi cỡ mẫu lớn hơn, giá mẫu, mỗi mẫu có kích thước 10 từ tập hợp này. Hình 6.3 cho thấy một trị trung bình của 25 phương tiện mẫu vẫn gần với giá trị dự kiến là phần của bảng tính cho thí nghiệm này, cùng với biểu đồ dữ liệu (ở 5; tuy nhiên, độ lệch chuẩn của 25 nghĩa là mẫu trở nên nhỏ hơn khi phía bên trái) cho thấy 250 quan sát được phân bố gần như đồng đều. tăng kích thước mẫu, nghĩa là trung bình của các mẫu được nhóm lại (Điều này có sẵn trong Thử nghiệm lấy mẫu tệp Excel.) gần nhau hơn xung quanh giá trị thực mong đợi. Hình 6.4 cho thấy biểu đồ so sánh của phương tiện mẫu cho mỗi trường hợp này. Ở hàng 12, chúng tôi tính giá trị trung bình của từng mẫu. Các Những điều này minh họa cho kết luận mà chúng ta vừa đưa ra và, có số liệu thống kê này thay đổi rất nhiều so với các giá trị dân số do lẽ còn đáng ngạc nhiên hơn, phân phối của các phương tiện mẫu dường lỗi lấy mẫu. Biểu đồ bên phải cho thấy sự phân bố của 25 trung bình như mang hình dạng của một phân phối bình thường đối với các cỡ mẫu mẫu, thay đổi từ ít hơn 4 đến lớn hơn 6. Bây giờ, hãy tính độ lệch lớn hơn. Trong thử nghiệm của chúng tôi, chúng tôi chỉ sử dụng 25 trung bình và chuẩn của trung bình mẫu trong hàng 12 (các ô AB12 phương tiện mẫu. Nếu chúng tôi đã sử dụng một số lượng lớn hơn nhiều, các bản phân phối sẽ được xác định rõ hơn. Machine Translated by Google 188 Chương 6 Lấy mẫu và ước tính Hình 6.3 Phần Bảng tính cho Thử nghiệm Lấy mẫu Bảng 6.1 Kết quả lấy mẫu Cuộc thí nghiệm Hình 6.4 Biểu đồ của Phương tiện mẫu cho tăng mẫu kích cỡ Trung bình của 25 mẫu Cỡ mẫu Có nghĩa Độ lệch chuẩn của 25 phương tiện mẫu 10 5.0108 0,816673 25 5.0779 0,451351 100 4.9173 0.301941 500 4,9754 0,078993 Machine Translated by Google 189 Chương 6 Lấy mẫu và ước lượng Nếu chúng ta áp dụng các quy tắc thực nghiệm cho những kết quả này, chúng ta có thể ước tính sai số lấy mẫu được liên kết với một trong các cỡ mẫu mà chúng tôi đã chọn. VÍ DỤ 6.4 Ước tính Sai số Lấy mẫu Sử dụng Quy tắc Thực nghiệm Sử dụng các kết quả trong Bảng 6.1 và quy tắc thực nghiệm cho ba độ chỉ sử dụng mẫu có 10 người. Đối với mẫu có cỡ 25, chúng tôi cho lệch chuẩn xung quanh giá trị trung bình, chẳng hạn, chúng ta có thể rằng trung bình mẫu sẽ nằm trong khoảng 5,0 phát biểu rằng khi sử dụng cỡ mẫu là 10, phân phối của giá trị đến 5,0 + 3(0,451351) = 6,35. trung bình mẫu sẽ rơi vào khoảng từ 5,0 Lưu ý rằng khi kích thước mẫu tăng lên, sai số giảm xuống. Đối với 3(0,816673) = 2,55 đến 5,0 + 3(0,816673) = 7,45. 3(0,451351) = 3,65 cỡ mẫu là 100 và 500, các khoảng là [4,09, 5,91] và [4,76, 5,24]. Do đó, có sai số đáng kể trong việc ước lượng giá trị trung bình Phân phối lấy mẫu Chúng ta có thể định lượng lỗi lấy mẫu khi ước tính giá trị trung bình cho bất kỳ tổng thể chưa biết nào. Để làm điều này, chúng ta cần mô tả đặc điểm phân phối lấy mẫu của giá trị trung bình. Phân phối lấy mẫu của giá trị trung bình Giá trị trung bình của tất cả các mẫu có thể có kích thước cố định n từ một số tổng thể sẽ tạo thành một phân phối mà chúng ta gọi là phân phối lấy mẫu của giá trị trung bình. Các biểu đồ trong Hình 6.4 là các phép tính gần đúng với các phân phối lấy mẫu của giá trị trung bình dựa trên 25 mẫu. Các nhà thống kê đã chỉ ra hai kết quả chính về phân phối lấy mẫu của giá trị trung bình. Đầu tiên, độ lệch chuẩn của phân phối lấy mẫu của giá trị trung bình, được gọi là sai số chuẩn của giá trị trung bình, được tính như sau Lỗi tiêu chuẩn của giá trị trung bình (6.1) > 1n ở đâu là độ lệch chuẩn của dân số mà từ đó các quan sát riêng lẻ được rút ra và n là cỡ mẫu. Từ công thức này, chúng ta thấy rằng khi n tăng, sai số chuẩn giảm, giống như thí nghiệm của chúng ta đã chứng minh. Điều này cho thấy rằng các ước tính về giá trị trung bình mà chúng tôi thu được từ các cỡ mẫu lớn hơn mang lại độ chính xác cao hơn trong việc ước tính giá trị trung bình thực của tổng thể. Nói cách khác, kích thước mẫu lớn hơn có lỗi lấy mẫu ít hơn. VÍ DỤ 6.5 Tính Sai số Chuẩn của Giá trị Trung bình Đối với thử nghiệm của chúng tôi, chúng tôi biết rằng phương sai Đối với các dữ liệu còn lại trong Bảng 6.1, chúng tôi có như sau: của dân số là 8,33 (vì các giá trị được phân phối đồng đều). Do đó, độ lệch chuẩn của tổng thể là S = 2,89. Chúng ta có thể tính Kích thước mẫu, n Lỗi tiêu chuẩn của giá trị trung bình sai số chuẩn của giá trị trung bình cho từng cỡ mẫu trong thử 10 0,914 nghiệm của mình bằng cách sử dụng công thức (6.1). Ví dụ, với n = 25 0,577 10, chúng ta có 100 0,289 Sai số chuẩn của trung bình = S n = 2,89 10 = 0,914 500 0,129 Độ lệch chuẩn thể hiện trong Bảng 6.1 chỉ đơn giản là ước tính sai số chuẩn của giá trị trung bình dựa trên số lượng giới hạn 25 mẫu. Nếu chúng ta so sánh những ước tính này với các giá trị lý thuyết trong ví dụ trước, chúng ta sẽ thấy rằng chúng gần giống nhau nhưng không hoàn toàn giống nhau. Điều này là do lỗi tiêu chuẩn thực dựa trên tất cả các phương tiện mẫu có thể có trong quá trình lấy mẫu Machine Translated by Google 190 Chương 6 Lấy mẫu và ước lượng phân phối, trong khi chúng tôi chỉ sử dụng 25. Nếu bạn lặp lại thử nghiệm với số lượng mẫu lớn hơn, các giá trị quan sát được của sai số chuẩn sẽ gần với các giá trị lý thuyết này hơn. Trong thực tế, chúng ta sẽ không bao giờ biết được độ lệch chuẩn tổng thể thực sự và thường chỉ lấy một mẫu giới hạn gồm n quan sát. Tuy nhiên, chúng ta có thể ước tính sai số chuẩn của giá trị trung bình bằng cách sử dụng dữ liệu mẫu bằng cách chia độ lệch chuẩn mẫu cho căn bậc hai của n. Kết quả thứ hai mà các nhà thống kê đã chỉ ra được gọi là định lý giới hạn trung tâm, một trong những kết quả thực tế quan trọng nhất trong thống kê giúp cho việc suy luận có hệ thống trở nên khả thi. Định lý giới hạn trung tâm phát biểu rằng nếu cỡ mẫu đủ lớn, phân phối lấy mẫu của giá trị trung bình xấp xỉ phân phối chuẩn, bất kể phân phối của tổng thể như thế nào và giá trị trung bình của phân phối lấy mẫu sẽ bằng với giá trị trung bình của tổng thể. Đây chính xác là những gì chúng tôi quan sát được trong thí nghiệm của mình. Phân bố của tổng thể là đồng nhất, tuy nhiên phân phối lấy mẫu của giá trị trung bình hội tụ thành hình dạng của phân phối chuẩn khi cỡ mẫu tăng lên. Định lý giới hạn trung tâm cũng phát biểu rằng nếu tổng thể có phân phối chuẩn thì phân phối lấy mẫu của giá trị trung bình cũng sẽ chuẩn đối với bất kỳ cỡ mẫu nào. Giới hạn trung tâm theo rem cho phép chúng ta sử dụng lý thuyết đã học về cách tính xác suất cho phân phối chuẩn để đưa ra kết luận về trung bình mẫu. Áp dụng phân phối lấy mẫu của giá trị trung bình Chìa khóa để áp dụng phân phối lấy mẫu của giá trị trung bình một cách chính xác là hiểu liệu xác suất mà bạn muốn tính toán có liên quan đến một quan sát riêng lẻ hay giá trị trung bình của một mẫu hay không. Nếu nó liên quan đến giá trị trung bình của một mẫu, thì bạn phải sử dụng phương pháp lấy mẫu phân phối của giá trị trung bình, có độ lệch chuẩn là sai số chuẩn, > 1n. VÍ DỤ 6.6 Sử dụng Sai số Chuẩn trong Tính toán Xác suất Giả sử rằng quy mô đơn đặt hàng của khách hàng cá nhân (tính của giá trị trung bình sẽ có giá trị trung bình là $36 nhưng sai bằng đô la), X, từ một trang web của nhà xuất bản sách giảm giá số chuẩn là $8 16 = $2. Khi đó, xác suất mà số tiền mua trung lớn có phân phối chuẩn với giá trị trung bình là 36 đô la và độ bình vượt quá 40 đô la đối với cỡ mẫu n = 16 là lệch chuẩn là 8 đô la. Xác suất mà cá nhân tiếp theo đặt hàng tại trang web sẽ mua hàng hơn 40 đô la có thể được tìm thấy bằng cách tính toán 1 NORM.DIST(40,36,8,TRUE) = 1 1 NORM.DIST(40,36,2,TRUE) = 1 0,9772 = 0,0228 Mặc dù khoảng 30% cá nhân sẽ thực hiện các giao dịch mua 0,6915 = 0,3085 Bây giờ, giả sử rằng một mẫu gồm 16 khách hàng được chọn. Xác suất mua hàng trung bình cho 16 khách hàng này sẽ vượt quá vượt quá 40 đô la, nhưng khả năng 16 khách hàng sẽ thu về trung bình hơn 40 đô la là nhỏ hơn nhiều. Rất khó có khả năng tất cả 16 khách hàng mua hàng với số lượng lớn, bởi vì một số giao dịch mua riêng lẻ có thể sẽ ít hơn 36 đô la trở lên, khiến khả $40 là gì? Để tìm ra điều này, chúng ta phải nhận ra rằng chúng năng thay đổi của số tiền mua trung bình đối với mẫu của 16 ta phải sử dụng phân phối lấy mẫu của giá trị trung bình để thực khách hàng nhỏ hơn nhiều so với đối với các cá nhân. hiện các phép tính thích hợp. phân phối lấy mẫu Ước tính khoảng thời gian Ước tính khoảng cung cấp một phạm vi cho một đặc điểm dân số dựa trên một mẫu. Khoảng thời gian khá hữu ích trong thống kê vì chúng cung cấp nhiều thông tin hơn ước tính điểm. Các khoảng xác định một loạt các giá trị hợp lý cho đặc tính quan tâm và cách đánh giá “mức độ hợp lý” của chúng. Nói chung, khoảng xác suất 10011 - a2% là khoảng bất kỳ [A, B] sao cho xác suất rơi vào giữa A và B là 1 - a. Khoảng xác suất thường tập trung vào giá trị trung bình hoặc trung bình. Ví dụ, Machine Translated by Google 191 Chương 6 Lấy mẫu và ước lượng trong phân phối chuẩn, giá trị trung bình cộng hoặc trừ 1 độ lệch chuẩn mô tả khoảng xác suất xấp xỉ 68% xung quanh giá trị trung bình. Một ví dụ khác, phân vị thứ 5 và 95 trong tập dữ liệu tạo thành khoảng xác suất 90%. VÍ DỤ 6.7 Ước tính khoảng thời gian trong tin tức Chúng tôi luôn thấy các ước tính khoảng thời gian trong tin tức ứng cử viên có nhiều khả năng nằm trong khoảng từ 53% đến 59%. khi cố gắng ước tính giá trị trung bình hoặc tỷ lệ dân số. Do đó, chúng tôi sẽ rất tự tin khi dự đoán rằng ứng cử viên sẽ Ước tính khoảng thường được xây dựng bằng cách lấy ước tính điểm giành chiến thắng trong cuộc bầu cử sắp tới. và cộng và trừ biên độ sai số dựa trên kích thước mẫu. Ví dụ: Tuy nhiên, nếu cuộc thăm dò cho thấy mức ủng hộ là 52% với sai một cuộc thăm dò của Gallup có thể báo cáo rằng 56% cử tri ủng số ±4%, thì chúng tôi có thể không tự tin vào việc dự đoán chiến hộ một ứng cử viên nhất định với sai số ±3%. Chúng tôi sẽ kết thắng vì tỷ lệ cử tri ủng hộ thực sự có thể nằm trong khoảng luận rằng tỷ lệ cử tri thực sự ủng hộ từ 48% đến 56%. Câu hỏi mà bạn có thể đặt ra vào thời điểm này là làm thế nào để tính toán sai số liên quan đến ước tính điểm. Trong các cuộc khảo sát quốc gia và các cuộc thăm dò ý kiến chính trị, những mức sai số như vậy thường được nêu ra, nhưng chúng không bao giờ được giải thích chính xác. Để hiểu chúng, chúng ta cần giới thiệu khái niệm về khoảng tin cậy. khoảng tin cậy Ước tính khoảng tin cậy cung cấp một cách đánh giá độ chính xác của ước tính điểm. Khoảng tin cậy là một phạm vi các giá trị trong đó giá trị của tham số tổng thể được cho là, cùng với xác suất mà khoảng đó ước tính chính xác tham số tổng thể thực (chưa biết). Xác suất này được gọi là mức độ tin cậy, được biểu thị bằng 1 - a, trong đó a là một số từ 0 đến 1. Mức độ tin cậy thường được biểu thị bằng phần trăm; các giá trị phổ biến là 90%, 95% hoặc 99%. (Lưu ý rằng nếu mức độ tin cậy là 90% thì là 0,1.) Biên độ sai số phụ thuộc vào mức độ tin cậy và cỡ mẫu. Ví dụ: giả sử rằng biên sai số đối với một số cỡ mẫu và mức độ tin cậy 95% được tính là 2,0. Một mẫu có thể mang lại ước tính điểm là 10. Sau đó, khoảng tin cậy 95% sẽ là [8, 12]. Tuy nhiên, khoảng thời gian này có thể bao gồm hoặc không bao gồm trung bình dân số thực sự. Nếu chúng ta lấy một mẫu khác, rất có thể chúng ta sẽ có một ước tính điểm khác, chẳng hạn như 10,4, với cùng một mức sai số, sẽ mang lại ước tính khoảng [8,4, 12,4]. Một lần nữa, điều này có thể bao gồm hoặc không bao gồm ý nghĩa dân số thực sự. Nếu chúng tôi chọn 100 mẫu khác nhau, dẫn đến 100 ước tính khoảng khác nhau, thì chúng tôi hy vọng rằng 95% trong số đó—mức độ tin cậy—sẽ chứa trung bình tổng thể thực. Chúng tôi có thể nói rằng chúng tôi “tự tin 95%” rằng khoảng thời gian mà chúng tôi thu được từ dữ liệu mẫu chứa giá trị trung bình thực của tổng thể. Mức độ tin cậy càng cao, chúng ta càng có nhiều đảm bảo rằng khoảng chứa tham số tổng thể thực. Khi mức độ tin cậy tăng lên, khoảng tin cậy sẽ rộng hơn để cung cấp mức độ đảm bảo cao hơn. Bạn có thể xem a là nguy cơ kết luận sai rằng khoảng tin cậy chứa giá trị trung bình thực. Khi các cuộc khảo sát quốc gia hoặc các cuộc thăm dò chính trị báo cáo ước tính khoảng thời gian, chúng thực sự là khoảng tin cậy. Tuy nhiên, mức độ tin cậy thường không được công bố vì người bình thường có thể sẽ không hiểu khái niệm hoặc thuật ngữ này. Mặc dù không được nêu rõ, nhưng bạn có thể cho rằng mức độ tin cậy là 95%, vì đây là giá trị phổ biến nhất được sử dụng trong thực tế (tuy nhiên, Cục Thống kê Lao động có xu hướng sử dụng 90% khá thường xuyên). Machine Translated by Google 192 Chương 6 Lấy mẫu và ước lượng Nhiều loại khoảng tin cậy khác nhau có thể được phát triển. Các công thức được sử dụng phụ thuộc vào tham số dân số mà chúng tôi đang cố gắng ước tính và có thể là các đặc điểm hoặc giả định khác về dân số. Chúng tôi minh họa một số loại khoảng tin cậy. Khoảng tin cậy cho giá trị trung bình đã biết Độ lệch tiêu chuẩn dân số Loại khoảng tin cậy đơn giản nhất là dành cho giá trị trung bình của tổng thể trong đó độ lệch chuẩn được cho là đã biết. Tuy nhiên, bạn nên nhận ra rằng trong hầu hết các ứng dụng lấy mẫu thực tế, độ lệch chuẩn tổng thể sẽ không được biết đến. Tuy nhiên, trong một số ứng dụng, chẳng hạn như phép đo các bộ phận từ máy tự động, quy trình có thể có phương sai rất ổn định đã được thiết lập trong một lịch sử lâu dài và có thể giả định một cách hợp lý rằng độ lệch chuẩn đã biết. Khoảng tin cậy 10011 - a2% cho trung bình tổng thể m dựa trên một mẫu có kích thước n với trung bình mẫu x và độ lệch chuẩn tổng thể đã biết được cho bởi (6.2) x { za/2 1 > 1n2 Lưu ý rằng công thức này chỉ đơn giản là giá trị trung bình của mẫu (ước tính điểm) cộng hoặc trừ một biên sai số. Biên độ sai số là một số za>2 nhân với sai số chuẩn của phân phối lấy mẫu của giá trị trung bình, > 1n. Giá trị za>2 biểu thị giá trị của một biến ngẫu nhiên chuẩn thông thường có xác suất đuôi trên a>2 hoặc tương đương, xác suất tích lũy là 1 a>2. Nó có thể được tìm thấy từ bảng thông thường tiêu chuẩn (xem Bảng A.1 trong Phụ lục A ở cuối sách) hoặc có thể được tính toán trong Excel bằng cách sử dụng giá trị của hàm NORM.S.INV11 - a>22. Ví dụ: nếu 0,05 (với độ tin cậy 95% khoảng), sau đó là NORM.S.INV10.9752 1.96; nếu là 0,10 (đối với khoảng tin cậy 90%), thì NORM.S.INV10.952 1.645, v.v. Mặc dù có thể dễ dàng triển khai công thức (6.2) trong bảng tính, nhưng hàm Excel CONFIDENCE.NORM(alpha, standard_deviation, size) có thể được sử dụng để tính toán lề của thuật ngữ lỗi, za>2 > 1n; do đó, khoảng tin cậy là trung bình mẫu { CONFIDENCE.NORM(alpha, độ_lệch_chuẩn, kích thước). VÍ DỤ 6.8 Tính toán khoảng tin cậy với độ lệch chuẩn đã biết ± Trong quy trình sản xuất để đổ đầy chai chất tẩy rửa dạng lỏng, dữ liệu lịch sử đã chỉ ra rằng phương sai về thể tích là không đổi; tuy nhiên, tắc nghẽn trong máy chiết rót thường A/2 (S !n) = 796 ± 1,96(15 25) = 796 ± 5,88 hoặc [790,12, 801,88] ảnh hưởng đến khối lượng bình. Độ lệch chuẩn lịch sử là 15 ml. Khi đổ đầy chai 800 ml, một mẫu gồm 25 mẫu cho thấy thể tích Trang tính Giá trị trung bình dân số Sigma đã biết trong sổ làm việc Excel Khoảng tin cậy tính toán khoảng giá trị này trung bình là 796 ml. Sử dụng công thức (6.2), khoảng tin cậy 95% cho trung bình bằng cách sử dụng hàm CONFIDENCE.NORM để tính biên độ sai số tổng thể là trong ô B9, như thể hiện trong Hình 6.5. Khi mức độ tự tin, 1 - a, giảm, za>2 giảm, và sự tự tin trong terval trở nên hẹp hơn. Ví dụ: khoảng tin cậy 90% sẽ hẹp hơn khoảng tin cậy 95%. Tương tự, khoảng tin cậy 99% sẽ rộng hơn khoảng tin cậy 95%. Về cơ bản, bạn phải đánh đổi mức độ chính xác cao hơn với rủi ro là khoảng tin cậy không chứa giá trị trung bình thực. Rủi ro nhỏ hơn sẽ dẫn đến một Machine Translated by Google 193 Chương 6 Lấy mẫu và ước lượng Hình 6.5 Khoảng tin cậy cho Có nghĩa là chất tẩy lỏng Đu âm lươ ng khoảng tin cậy rộng hơn. Tuy nhiên, bạn cũng có thể thấy rằng khi kích thước mẫu tăng lên, sai số chuẩn sẽ giảm, làm cho khoảng tin cậy hẹp hơn và mang lại ước tính khoảng chính xác hơn cho cùng một mức độ rủi ro. Vì vậy, nếu bạn muốn giảm rủi ro, bạn nên xem xét việc tăng cỡ mẫu. phân phối t Trong hầu hết các ứng dụng thực tế, độ lệch chuẩn của tổng thể là không xác định và chúng ta cần tính khoảng tin cậy theo cách khác. Trước khi chúng ta có thể thảo luận về cách tính toán loại khoảng tin cậy này, chúng ta cần giới thiệu một phân phối xác suất mới được gọi là phân phối t. Phân phối t thực chất là một họ các phân phối xác suất có hình dạng tương tự như phân phối chuẩn thông thường. Các phân phối t khác nhau được phân biệt bởi một tham số bổ sung, bậc tự do (df). Phân phối t có phương sai lớn hơn so với chuẩn thông thường, do đó làm cho khoảng tin cậy rộng hơn so với khoảng tin cậy thu được từ phân phối chuẩn chuẩn, về bản chất là điều chỉnh độ không đảm bảo về độ lệch chuẩn thực, chưa biết. Khi số bậc tự do tăng lên, phân phối t hội tụ về phân phối chuẩn chuẩn (Hình 6.6). Khi kích thước mẫu lớn tới 120, các bản phân phối hầu như giống hệt nhau; ngay cả đối với các cỡ mẫu thấp từ 30 đến 35, việc phân biệt giữa hai loại này trở nên khó khăn. Do đó, đối với cỡ mẫu lớn, nhiều người sử dụng giá trị z để thiết lập khoảng tin cậy ngay cả khi chưa biết độ lệch chuẩn. Tuy nhiên, chúng ta phải chỉ ra rằng đối với bất kỳ cỡ mẫu nào, phân phối lấy mẫu thực của giá trị trung bình là phân phối t, vì vậy khi nghi ngờ, hãy sử dụng t. Khái niệm về bậc tự do có thể khó hiểu. Nó tốt nhất có thể được giải thích bằng kỳ thi ining công thức cho phương sai mẫu: N Một 1xi - x22 s2 tôi 1 n - 1 Lưu ý rằng để tính s2 , trước tiên chúng ta cần tính giá trị trung bình của mẫu, x. Nếu chúng ta biết giá trị trung bình, thì chúng ta chỉ cần biết n - 1 quan sát riêng biệt; thứ n được xác định hoàn toàn. (Ví dụ: nếu giá trị trung bình của ba giá trị là 4 và bạn biết rằng hai trong số các giá trị là 2 và 4, thì bạn có thể dễ dàng xác định rằng số thứ ba phải là 6.) Số lượng giá trị mẫu được tự do thay đổi sẽ xác định số bậc tự do; nói chung, df bằng số lượng giá trị mẫu trừ đi số lượng tham số ước tính. Bởi vì phương sai mẫu sử dụng một tham số ước tính, giá trị trung bình, nên phân phối t được sử dụng trong tính toán khoảng tin cậy có n - 1 bậc tự do. Bởi vì phân phối t giải thích rõ ràng tác động của cỡ mẫu trong việc ước tính phương sai dân số, nên đây là phân phối thích hợp để sử dụng cho bất kỳ cỡ mẫu nào. Tuy nhiên, đối với các mẫu lớn, sự khác biệt giữa giá trị t và z là rất nhỏ, như chúng tôi đã lưu ý trước đó. Machine Translated by Google 194 Chương 6 Lấy mẫu và ước lượng Hình 6.6 So sánh của -Phân phối cho Phân phối chuẩn chuẩn Khoảng tin cậy cho giá trị trung bình với ẩn số Độ lệch tiêu chuẩn dân số Công thức cho khoảng tin cậy 10011 - a2% cho giá trị trung bình m khi chưa biết độ lệch chuẩn tổng thể là x { ta>2,n-1 1s> (6.3) 1n2 trong đó ta>2,n-1 là giá trị từ phân phối t với n - 1 bậc tự do, mang lại xác suất đuôi trên là a>2. Chúng ta có thể tìm thấy các giá trị t trong Bảng A.2 trong Phụ lục A ở cuối sách hoặc bằng cách sử dụng hàm Excel T.INV11 - a>2, n - 12 hoặc hàm T.INV.2T1a, n - 12. Hàm Excel CONFIDENCE.T(alpha, standard_deviation, size) có thể được sử dụng để tính biên của hạn lỗi, ta>2,n-1 (s>1n); do đó, confi khoảng dence là giá trị trung bình mẫu {CONFIDENCE.T. VÍ DỤ 6.9 Tính toán khoảng tin cậy với độ lệch chuẩn chưa biết Trong tệp Excel Quyết định phê duyệt tín dụng, một ngân hàng lỗi n = $1037,96. -distribution có 26 bậc tự do; do đó, lớn có dữ liệu mẫu được sử dụng để đưa ra quyết định phê .025,26 = 2,056. Sử dụng công thức (6.3), khoảng tin cậy là duyệt tín dụng (xem Hình 6.7). Giả sử rằng chúng tôi muốn tìm $12.630,37 ± 2,056($1037,96) hoặc [$10.496, $14.764]. Trang khoảng tin cậy 95% cho số dư quay vòng trung bình cho dân số tính People Mean Sigma Unknown trong sổ làm việc Excel Khoảng những người nộp đơn sở hữu một ngôi nhà. Đầu tiên, sắp xếp dữ tin cậy tính khoảng này bằng cách sử dụng hàm CONFIDENCE.T để liệu theo chủ nhà và tính toán giá trị trung bình và độ lệch tính biên độ sai số trong ô B10, như thể hiện trong Hình 6.8. chuẩn của số dư quay vòng cho mẫu chủ nhà. Điều này dẫn đến = $12.630,37 và = $5393,38. Cỡ mẫu là n = 27 nên tiêu chuẩn Khoảng tin cậy cho một tỷ lệ Đối với các biến phân loại như giới tính (nam hay nữ), trình độ học vấn (trung học, đại học, sau đại học), v.v., chúng ta thường quan tâm đến tỷ lệ các quan sát trong một mẫu có một đặc điểm nhất định. Một ước tính không thiên vị của dân số tỷ lệ (đây không phải là số pi 3.14159 . . . . ) là thống kê pˆ x>n (tương đương theo tỷ lệ), trong đó x là số trong mẫu có đặc tính mong muốn và n là cỡ mẫu. Machine Translated by Google 195 Chương 6 Lấy mẫu và ước tính Hình 6.7 Một phần Quyết định phê duyệt tín dụng File Excel Hình 6.8 Khoảng tin cậy cho Số dư quay vòng trung bình của chủ sở hữu nhà Khoảng tin cậy 10011 - a2% cho tỷ lệ này là (6.4) pn { za/2A pn11 N pn2 Lưu ý rằng như với giá trị trung bình, khoảng tin cậy là ước tính điểm cộng hoặc trừ đi một số sai sót. Trong trường hợp này, 2pn11 - pn2>n là lỗi tiêu chuẩn của sam pling phân phối của tỷ lệ. Excel không có chức năng tính biên độ lỗi, nhưng nó có thể dễ dàng thực hiện trên bảng tính. VÍ DỤ 6.10 Tính toán khoảng tin cậy cho một tỷ lệ Cột cuối cùng trong tệp Excel Khảo sát bảo hiểm (xem Hình 6.9) mô tả liệu một mẫu nhân viên có sẵn sàng trả phí bảo hiểm thấp 0,25 ± 1,96A 0,25(0,75) 24 = 0,25 ± 0,173 hoặc [0,077, 0,423] hơn để nhận được khoản khấu trừ cao hơn cho bảo hiểm y tế của họ hay không. Giả sử chúng ta quan tâm đến tỷ lệ cá nhân trả lời có. Bảng tính People Mean Sigma Unknown trong bảng tính Excel Khoảng tin cậy tính khoảng này, như thể hiện trong Hình 6.10. Chúng tôi có thể dễ dàng xác nhận rằng 6 trong số 24 nhân Lưu ý rằng đây là một khoảng tin cậy khá rộng, cho thấy rằng viên, hay 25%, đã trả lời là có. Do đó, ước tính điểm chúng ta có khá nhiều điều không chắc chắn về giá trị thực của cho phần theo tỷ lệ trả lời có là pn = 0,25. Sử dụng công tỷ lệ dân số. Điều này là do cỡ mẫu tương đối nhỏ. thức (6.4), chúng tôi thấy rằng khoảng tin cậy 95% cho tỷ lệ nhân viên trả lời có là Machine Translated by Google 196 Chương 6 Lấy mẫu và ước tính Hình 6.9 Một phần Khảo sát bảo hiểm tệp Excel Hình 6.10 Khoảng tin cậy cho Tỷ lệ Các loại khoảng tin cậy bổ sung Khoảng tin cậy có thể được tính toán cho các tham số dân số khác như phương sai hoặc độ lệch chuẩn và cũng cho sự khác biệt về phương tiện hoặc tỷ lệ của hai dân số. Các khái niệm tương tự như các loại khoảng tin cậy mà chúng ta đã thảo luận, nhưng nhiều công thức khá phức tạp và khó thực hiện hơn trên bảng tính. Một số gói phần mềm nâng cao và phần bổ trợ bảng tính cung cấp hỗ trợ bổ sung. Do đó, chúng tôi không thảo luận về chúng trong cuốn sách này, nhưng chúng tôi khuyên bạn nên tham khảo các sách và tài liệu tham khảo thống kê khác nếu bạn cần sử dụng chúng, bây giờ bạn đã hiểu các khái niệm cơ bản bên dưới chúng. Sử dụng khoảng tin cậy để ra quyết định Khoảng tin cậy có thể được sử dụng theo nhiều cách để hỗ trợ các quyết định kinh doanh. VÍ DỤ 6.11 Rút ra kết luận về trung bình dân số sử dụng khoảng tin cậy Khi đóng gói một sản phẩm hàng hóa như bột giặt, nhà sản xuất 796 ml. Điều này cho thấy một vấn đề nghiêm trọng? Không cần phải đảm bảo rằng các gói chứa lượng đã nêu để đáp ứng các quy thiết. Khoảng tin cậy 95% cho giá trị trung bình mà chúng tôi định của chính phủ. tính toán trong Hình 6.5 là [790,12, 801,88]. Mặc dù giá trị Trong Ví dụ 6.8, chúng ta đã thấy một ví dụ trong đó thể tích trung bình của mẫu nhỏ hơn 800 nhưng mẫu không cung cấp đủ bằng yêu cầu là 800 mililit, tuy nhiên giá trị trung bình của mẫu chỉ là chứng để đưa ra kết luận rằng Machine Translated by Google 197 Chương 6 Lấy mẫu và ước tính trung bình dân số nhỏ hơn 800 vì 800 nằm trong khoảng tin cậy. chúng tôi thấy rằng khoảng tin cậy cho giá trị trung bình sẽ là Trên thực tế, điều hợp lý là trung bình dân số là 801. Chúng [786,12, 797,88]. Trong trường hợp này, chúng tôi sẽ kết luận tôi không thể nói chắc chắn vì lỗi lấy mẫu. Tuy nhiên, giả sử rằng rất khó có khả năng trung bình dân số là 800 ml vì khoảng rằng trung bình mẫu là 792. Sử dụng trang tính Excel People tin cậy hoàn toàn giảm xuống dưới 800; nhà sản xuất nên kiểm tra Mean Sigma known trong sổ làm việc Khoảng tin cậy, và điều chỉnh thiết bị để đáp ứng tiêu chuẩn. Ví dụ tiếp theo cho thấy cách diễn giải khoảng tin cậy cho một tỷ lệ. VÍ DỤ 6.12 Sử dụng khoảng tin cậy để dự đoán kết quả bầu cử Giả sử rằng một cuộc thăm dò ý kiến của 1.300 cử tri cho thấy giả sử rằng chỉ có 670 trong số 1.300 cử tri bỏ phiếu cho ứng 692 người đã bỏ phiếu cho một ứng cử viên cụ thể trong cuộc đua cử viên, tỷ lệ mẫu là 0,515. Khoảng tin cậy cho tỷ lệ dân số là hai người. Điều này đại diện cho một tỷ lệ 53,23% của mẫu. [0,488, 0,543]. Chúng ta có thể kết luận rằng ứng cử viên đó sẽ có khả năng Mặc dù tỷ lệ mẫu lớn hơn 50%, sai số lấy mẫu lớn và khoảng tin thắng cử không? Khoảng tin cậy 95% cho tỷ lệ này là [0,505, 0,559].cậy cho thấy có khả năng hợp lý là tỷ lệ dân số thực có thể Điều này cho thấy tỷ lệ cử tri ủng hộ ứng cử viên này có khả nhỏ hơn 50%, vì vậy sẽ không khôn ngoan khi dự đoán người chiến năng cao sẽ vượt quá 50%, vì vậy có thể an toàn để dự đoán thắng dựa trên thông tin này. người chiến thắng. Mặt khác, Khoảng thời gian dự đoán Một loại khoảng thời gian khác được sử dụng trong ước tính là khoảng thời gian dự đoán. Khoảng thời gian dự đoán là một trong đó cung cấp một phạm vi để dự đoán giá trị của một quan sát mới từ cùng một dân số. Điều này khác với khoảng tin cậy, cung cấp ước lượng khoảng của tham số dân số, chẳng hạn như giá trị trung bình hoặc tỷ lệ. Khoảng tin cậy được liên kết với phân phối lấy mẫu của một thống kê, nhưng khoảng dự đoán được liên kết với phân phối của chính biến ngẫu nhiên. Khi độ lệch chuẩn tổng thể không xác định, dự đoán 10011 - a2% trong khoảng cho một quan sát mới là 1 x { ta>2,n-1 asA 1 + nb (6.5) Lưu ý rằng khoảng này rộng hơn khoảng tin cậy trong công thức (6.3) nhờ giá trị bổ sung của 1 dưới căn bậc hai. Điều này là do, bên cạnh việc ước tính giá trị trung bình của tổng thể, chúng ta cũng phải tính đến sự thay đổi của quan sát mới xung quanh giá trị trung bình. Một điều quan trọng cũng cần nhận ra là trong công thức (6.3) đối với khoảng tin cậy, khi n trở nên lớn, số hạng sai số có xu hướng bằng 0 nên khoảng tin cậy hội tụ về giá trị trung bình. Tuy nhiên, trong công thức khoảng dự đoán (6.5), khi n càng lớn, số hạng sai số hội tụ đến ta>2, n-1 1s2, đơn giản là khoảng xác suất 10011 - a2%. Bởi vì chúng tôi đang cố gắng để dự đoán một quan sát mới từ dân số, sẽ luôn có sự không chắc chắn. Machine Translated by Google 198 Chương 6 Lấy mẫu và ước tính VÍ DỤ 6.13 Tính toán khoảng thời gian dự đoán Khi ước tính số dư quay vòng trong tệp Excel Quyết định phê duyệt tín dụng trong Ví dụ 6.9, chúng ta có thể sử dụng for Lưu ý rằng so với Ví dụ 6.9, kích thước của khoảng dự đoán lớn hơn đáng kể so với khoảng tin cậy. mula (6.5) để tính khoảng dự đoán 95% cho số dư quay vòng của chủ nhà mới như 1 $12.630,37 ± 2,056 ($5.393,38) A1 + hoặc 27, [$338,10, $23.922,64] Khoảng tin cậy và cỡ mẫu Một câu hỏi quan trọng trong việc lấy mẫu là kích thước của mẫu cần lấy. Lưu ý rằng trong tất cả các công thức cho khoảng tin cậy, cỡ mẫu đóng một vai trò quan trọng trong việc xác định độ rộng của khoảng tin cậy. Khi kích thước mẫu tăng lên, độ rộng của khoảng tin cậy giảm xuống, mang lại ước tính chính xác hơn về tham số dân số thực. Trong nhiều ứng dụng, chúng tôi muốn kiểm soát biên độ sai số trong một khoảng tin cậy. Ví dụ: khi báo cáo sở thích của cử tri, chúng tôi có thể muốn đảm bảo rằng tỷ lệ sai sót là {2%. May mắn thay, việc xác định kích thước mẫu phù hợp cần thiết để ước tính tham số dân số trong một mức độ chính xác cụ thể là tương đối dễ dàng. Các công thức xác định cỡ mẫu để đạt được biên độ sai số nhất định dựa trên nửa độ rộng của khoảng tin cậy. Ví dụ: hãy xem xét khoảng tin cậy cho giá trị trung bình với độ lệch chuẩn tổng thể đã biết mà chúng tôi đã giới thiệu trong công thức (6.2): x { za>2 a 2n b Giả sử chúng ta muốn độ rộng của khoảng tin cậy ở hai bên của giá trị trung bình (nghĩa là biên sai số) tối đa là E. Nói cách khác, E Ú za>2 a 2n b Giải n, ta tìm được: 2 n Ú 1za>2 22e 2 (6.6) Theo cách tương tự, chúng ta có thể tính cỡ mẫu cần thiết để đạt được nửa độ rộng khoảng tin cậy mong muốn cho một tỷ lệ bằng cách giải phương trình sau (dựa trên công thức (6.4) sử dụng tỷ lệ tổng thể trong giới hạn sai số) cho n: E Ú za>22 11 - 2>n Điều này mang lại n Ú 1za>2 22 11 - 2 2 e (6.7) Trong thực tế, giá trị của sẽ không được biết đến. Bạn có thể sử dụng tỷ lệ mẫu từ một mẫu sơ bộ làm ước tính để lập kế hoạch cỡ mẫu, nhưng điều này có thể yêu cầu một số lần lặp lại và các mẫu bổ sung để tìm ra cỡ mẫu mang lại độ chính xác cần thiết. Khi không có thông tin, ước tính thận trọng nhất là 0,5. Điều này tối đa hóa đại lượng 11 - 2 trong công thức, dẫn đến kích thước tập hợp giống nhau sẽ đảm bảo độ chính xác cần thiết bất kể tỷ lệ thực là bao nhiêu. Machine Translated by Google 199 Chương 6 Lấy mẫu và ước tính Hình 6.11 Khoảng tin cậy cho giá trị trung bình bằng cách sử dụng một Kích thước mẫu = 97 VÍ DỤ 6.14 Xác định cỡ mẫu cho giá trị trung bình Trong ví dụ về chất tẩy lỏng (Ví dụ 6.8), khoảng tin cậy mà Làm tròn lên, chúng tôi thấy rằng sẽ cần 97 mẫu. Để xác chúng tôi tính toán trong Hình 6.5 là [790,12, 801,88]. Độ minh điều này, Hình 6.11 cho thấy rằng nếu một mẫu 97 được sử rộng của khoảng tin cậy là ± 5,88 mililit, đại diện cho sai dụng cùng với cùng một giá trị trung bình mẫu và độ lệch tiêu số lấy mẫu. Giả sử nhà sản xuất muốn sai số lấy mẫu nhiều nhất chuẩn, thì khoảng tin cậy thực sự có sai số lấy mẫu nhỏ hơn 3 là 3 mililit. Sử dụng công thức (6.6), chúng ta có thể tính cỡ mililit. mẫu cần thiết như sau: 2 (S n # 1 A>2 2 2 ) 2 E (152 ) = 11,9622 = 96,04 2 3 Tất nhiên, chúng ta thường không biết độ lệch chuẩn của tổng thể trước khi tìm cỡ mẫu. Một cách tiếp cận hợp lý sẽ là lấy một mẫu ban đầu để ước tính độ lệch chuẩn tổng thể bằng cách sử dụng độ lệch chuẩn mẫu s và xác định cỡ mẫu cần thiết, thu thập dữ liệu bổ sung nếu cần. Nếu nửa chiều rộng của khoảng tin cậy thu được nằm trong biên độ sai số bắt buộc, thì rõ ràng chúng ta đã đạt được mục tiêu của mình. Nếu không, chúng ta có thể sử dụng độ lệch chuẩn mẫu mới s để xác định cỡ mẫu mới và thu thập dữ liệu bổ sung nếu cần. Lưu ý rằng nếu s thay đổi đáng kể, chúng tôi vẫn có thể không đạt được độ chính xác mong muốn và có thể phải lặp lại quy trình. Thông thường, tuy nhiên, điều này sẽ là không cần thiết. VÍ DỤ 6.15 Xác định cỡ mẫu theo tỷ lệ Đối với ví dụ bỏ phiếu mà chúng ta đã thảo luận, giả sử rằng cử tri chọn một ứng cử viên cụ thể với độ chính xác từ ± 0,02 chúng ta muốn xác định số lượng cử tri sẽ bỏ phiếu để đảm bảo trở xuống là sai số lấy mẫu nhiều nhất là ± 2%. Như chúng tôi đã nói, khi không có thông tin, cách tiếp cận thận trọng nhất là sử dụng n # 1 A/2 2 0,5 để ước tính tỷ lệ thực. Sử dụng công thức (6.7) với P = 0,5, số cử tri được thăm dò để đạt khoảng tin cậy 95% về tỷ lệ = 1 1,962 2 P(1 P) 2 E 2 (0,5) (1 0,022 0,5) = 2,401 Machine Translated by Google 200 Chương 6 Lấy mẫu và ước tính Điều khoản quan trọng Định lý giới hạn trung tâm khung dân số lấy mẫu cụm Khoảng thời gian dự đoán Khoảng tin cậy khoảng xác suất lấy mẫu thuận tiện Tỷ lệ mẫu Bậc tự do (df) Lỗi lấy mẫu (thống kê) Ước lượng Phân phối lấy mẫu của giá trị trung bình công cụ ước tính kế hoạch lấy mẫu ước tính khoảng thời gian Phương pháp lấy mẫu ngẫu nhiên đơn giản lấy mẫu phán quyết Lỗi tiêu chuẩn của giá trị trung bình Mức độ tự tin lấy mẫu phân tầng lỗi không lấy mẫu Lấy mẫu có hệ thống (hoặc định kỳ) ước tính điểm phân phối t vấn đề và bài tập 1. Trường cao đẳng hoặc đại học của bạn mong muốn có được thông tin đáng tin cậy về nhận thức của sinh viên về giao tiếp hành chính. Mô tả cách thiết kế một kế hoạch lấy mẫu cho tình huống này dựa trên kiến thức của bạn về cấu trúc và tổ chức của trường cao đẳng hoặc đại học của bạn. Bạn sẽ triển khai lấy mẫu ngẫu nhiên đơn giản, lấy mẫu phân tầng và lấy mẫu cụm cho nghiên cứu này như thế nào? Những ưu và nhược điểm của việc sử dụng từng phương pháp này là gì? phân tích sai số lấy mẫu. Đối với mỗi mẫu, cũng tìm sai số chuẩn của giá trị trung bình bằng cách sử dụng công thức (6.1). 6. Khi xác định xếp hạng quãng đường đi được của ô tô, người ta thấy rằng mpg trong thành phố đối với một kiểu xe nhất định có phân phối chuẩn, với giá trị trung bình là 30 mpg và độ lệch chuẩn là 1,0 mpg. Giả sử rằng nhà sản xuất ô tô lấy mẫu 5 chiếc ô tô từ dây chuyền lắp ráp của mình và kiểm tra chúng để xếp hạng quãng đường đi được. Một. Phân phối của mpg trung bình cho mẫu là gì? 2. Đánh số thứ tự các hàng trong file Excel Dữ liệu rủi ro tín dụng để xác định từng bản ghi. Ngân hàng muốn lấy mẫu từ cơ sở dữ liệu này để tiến hành kiểm toán chi tiết hơn. Sử dụng công cụ Lấy mẫu Excel để tìm một mẫu ngẫu nhiên đơn giản gồm 20 bản ghi duy nhất. b. Xác suất mà giá trị trung bình của mẫu sẽ lớn hơn 31 mpg là bao nhiêu? c. Xác suất mà giá trị trung bình của mẫu sẽ nhỏ hơn 29,5 mpg là bao nhiêu? 3. Mô tả cách áp dụng lấy mẫu phân tầng để lấy mẫu từ tệp Dữ liệu rủi ro tín dụng dựa trên các loại khoản vay khác 7. Một loại nước giải khát phổ biến được bán trong chai 2 lít nhau. Thực hiện quy trình của bạn trong Excel để chọn một (2.000 ml). Do sự thay đổi trong quy trình chiết rót, các mẫu ngẫu nhiên bao gồm 10% hồ sơ cho từng loại khoản vay. chai có thể tích trung bình là 2.000 ml và độ lệch chuẩn là 18, phân phối chuẩn. 4. Tìm 30 cổ phiếu hiện có trong chỉ số Dow Trung bình công nghiệp Jones. Thiết lập một bảng tính Excel Một. Nếu nhà sản xuất lấy mẫu 100 chai, xác suất mà giá trị trung bình nhỏ hơn 1,995 ml là bao nhiêu? cho tên của họ, giá trị vốn hóa thị trường và một hoặc hai số liệu thống kê tài chính quan trọng khác (tìm kiếm trên Yahoo! Finance hoặc một nguồn Web tương tự). Sử dụng Lấy mẫu Excel cụ, lấy một mẫu ngẫu nhiên gồm 5 cổ phiếu, tính toán các ước tính điểm cho giá trị trung bình và độ lệch chuẩn, rồi so sánh chúng với các tham số tổng thể. 5. Lặp lại thí nghiệm lấy mẫu trong Ví dụ 6.3 với cỡ mẫu 50, b. Điều gì có nghĩa là việc đổ đầy hoặc nhiều hơn sẽ chỉ xảy ra trong 10% thời gian đối với mẫu gồm 100 chai? 8. Một mẫu gồm 33 hành khách đi máy bay cho thấy thời gian làm thủ tục trung bình là 2,167. Dựa trên dữ liệu dài hạn, độ lệch chuẩn dân số được biết là 0,48. Tìm khoảng tin cậy 95% cho thời gian nhận phòng trung bình. Sử dụng công thức 100, 250 và 500. So sánh kết quả của bạn với ví dụ và sử thích hợp và xác minh kết quả của bạn bằng sổ làm việc dụng các quy tắc thực nghiệm để Khoảng tin cậy. Machine Translated by Google 201 Chương 6 Lấy mẫu và ước lượng 9. Một mẫu gồm 20 sinh viên quốc tế đang theo học tại một trường đại học ở thành phố Hoa Kỳ cho thấy số tiền trung Khoảng tin cậy 90%, 95% và 99% cho tổng tài sản do người xin vay nắm giữ trong ngân hàng sử dụng công bình được lập ngân sách cho các chi phí mỗi tháng là thức (6.2) và bất kỳ hàm Excel thích hợp nào. Giải $1612,50 với độ lệch chuẩn là $1179,64. Tìm khoảng tin thích sự khác biệt khi mức độ tự tin tăng lên. cậy 95% cho ngân sách chi tiêu trung bình hàng tháng của nhóm sinh viên quốc tế. Sử dụng công thức thích hợp và xác minh kết quả của bạn bằng sổ làm việc Khoảng tin cậy. b. Khoảng tin cậy của bạn khác nhau như thế nào nếu bạn cho rằng độ lệch chuẩn tổng thể không được biết nhưng được ước tính bằng dữ liệu mẫu của bạn? 10. Một mẫu gồm 25 cá nhân tại một trung tâm mua sắm cho thấy số lượt ghé thăm nhà hàng trung bình mỗi tuần là 2,88 với độ lệch chuẩn là 1,59. Tìm khoảng tin cậy 99% cho số lần ghé thăm nhà hàng trung bình. Sử dụng công thức thích hợp và xác minh kết quả của bạn bằng Khoảng tin cậy sách bài tập. 16. Tệp Excel Doanh số nhà hàng cung cấp thông tin mẫu về doanh số bán bữa trưa, bữa tối và giao hàng tận nơi cho một nhà hàng Ý địa phương. Phát triển khoảng tin cậy 95% cho giá trị trung bình của từng biến này, cũng như tổng doanh số cho các ngày trong tuần và cuối tuần. Bạn có thể rút ra kết luận gì? 11. Một ngân hàng lấy mẫu khách hàng của mình để xác định tỷ lệ khách hàng sử dụng thẻ ghi nợ ít nhất một lần mỗi tháng. Một mẫu gồm 50 khách hàng cho thấy chỉ có 12 người sử dụng thẻ ghi nợ của họ hàng tháng. Tìm khoảng tin cậy 95% và 99% cho tỷ lệ khách hàng sử dụng thẻ ghi nợ hàng tháng. 17. Sử dụng dữ liệu trong bảng tính Khảo sát về Giao thông vận tải của người tiêu dùng, xây dựng khoảng tin cậy 95% cho những điều sau: Một. tỷ lệ cá nhân hài lòng với phương tiện của họ Sử dụng công thức thích hợp và xác minh kết quả của bạn bằng sổ làm việc Khoảng tin cậy. 12. Nếu, dựa trên cỡ mẫu là 850, một ứng cử viên chính trị thấy rằng 458 người sẽ bỏ phiếu cho anh ta trong cuộc đua hai người, thì khoảng tin cậy 95% cho tỷ lệ phiếu bầu dự kiến của anh ta là bao nhiêu? Liệu anh ấy có tự tin chiến thắng dựa trên cuộc bình chọn này? Sử dụng công thức thích hợp và xác minh kết quả của bạn bằng sổ làm việc Khoảng tin cậy. b. tỷ lệ người có ít nhất một con 18. Một nhà sản xuất đã tiến hành một cuộc khảo sát trong số 500 người chạy các hộ gia đình thị trường mục tiêu được lựa chọn chủ yếu trong thị trường thử nghiệm cho tã giấy dùng một lần mới của mình. Mục tiêu của cuộc khảo sát là để xác định thị phần cho thương hiệu mới của mình. Nếu ước tính điểm mẫu cho thị phần là 16%, hãy phát triển khoảng tin cậy 95%. Công ty có thể kết luận một cách hợp lý rằng họ có 20% thị phần không? Làm thế nào về một thị phần 18%? 13. Nếu, dựa trên cỡ mẫu là 200, một ứng cử viên chính trị phát hiện ra rằng 125 người sẽ bỏ phiếu cho cô ấy trong cuộc đua hai người, thì khoảng tin cậy 99% cho tỷ lệ phiếu bầu dự kiến của cô ấy là bao nhiêu? Cô ấy sẽ tự tin chiến thắng dựa trên cuộc thăm dò này? 14. Sử dụng dữ liệu trong tệp Excel Giáo sư kế toán, tìm và diễn giải khoảng tin cậy 95% cho các trường hợp sau: 19. Sử dụng dữ liệu trong tệp Excel Colleges and Universities, tìm khoảng tin cậy 95% cho điểm SAT trung bình của mỗi nhóm trong số hai nhóm, trường cao đẳng nghệ thuật tự do và trường đại học nghiên cứu. Dựa trên các khoảng tin cậy này, liệu có sự khác biệt về điểm SAT trung bình giữa hai nhóm không? 20. Tệp Excel Số người tham dự môn bóng chày cho thấy xu hướng Một. số năm phục vụ trung bình hàng nghìn người tham dự các trận bóng chày của San b. tỷ lệ nhân viên có bằng tốt nghiệp Francisco Giants trong 10 năm trước khi Oakland A's chuyển bằng cấp đến Bay Area vào năm 1968, cũng như số người tham dự kết hợp của cả hai đội trong 11 năm tiếp theo . Xây dựng khoảng 15. Tìm độ lệch chuẩn của tổng tài sản do ngân hàng nắm giữ tin cậy 95% cho số người đi học trung bình của mỗi nhóm trong tệp Excel Dữ liệu rủi ro tín dụng. trong hai nhóm. Dựa trên các khoảng tin cậy này, bạn có Một. Xử lý các bản ghi trong cơ sở dữ liệu dưới dạng dân kết luận rằng việc tham dự đã thay đổi sau khi di chuyển số, sử dụng mẫu của bạn trong Bài toán 2 và tính toán không? Machine Translated by Google 202 Chương 6 Lấy mẫu và ước lượng 21. Một nghiên cứu tiếp thị cho thấy chi tiêu trung bình cho 15 loại mặt hàng tiêu dùng của 297 người trả lời trong độ 24. Tệp Excel Doanh số bán hàng tại nhà hàng cung cấp mẫu về doanh số bán hàng bữa trưa, bữa tối và giao hàng tận nơi tuổi 18–34 là 91,86 đô la với độ lệch chuẩn là 50,90 đô cho một nhà hàng Ý địa phương. Phát triển các khoảng dự la. Đối với 536 người trả lời ở độ tuổi trên 35, giá trị đoán 95% cho doanh số đô la hàng ngày của từng biến trong trung bình và độ lệch chuẩn lần lượt là $81,53 và $45,29. số này và cả cho tổng doanh số bán hàng vào một ngày cuối tuần. Phát triển độ tin cậy 95% trong các khoảng thời gian cho số tiền chi tiêu trung bình cho từng nhóm tuổi. Bạn có thể rút ra kết luận gì? 25. Đối với Quyết định phê duyệt tín dụng ở tệp Excel, hãy tìm khoảng tin cậy và dự đoán 95% cho điểm tín dụng và số dư quay vòng của chủ sở hữu nhà và người không sở hữu nhà. 22. Một nghiên cứu về thương tích nghề nghiệp không gây tử vong ở Hoa Kỳ cho thấy khoảng 31% tất cả các thương tích trong lĩnh vực dịch vụ liên quan đến lưng. Viện Sức khỏe và An toàn Lao động Quốc gia (NIOSH) khuyến nghị tiến hành đánh giá toàn diện về công thái học đối với công việc và nơi làm việc. Đáp lại thông tin này, Mark Glassmeyer đã phát triển một chiếc xe đẩy tay công thái học độc đáo để giúp các kỹ sư dịch vụ tại hiện trường làm việc hiệu quả hơn và cũng để giảm chấn thương lưng do nâng các bộ phận và thiết bị trong các cuộc gọi dịch vụ. Sử dụng mẫu gồm 382 phó kỹ sư dịch vụ hiện trường được cung cấp những chiếc Làm thế nào để họ so sánh? 26. Các hiệp hội thương mại, chẳng hạn như Hiệp hội những người chăn nuôi bò sữa thống nhất, thường xuyên tiến hành các cuộc khảo sát để xác định các đặc điểm của thành viên. Nếu tổ chức này tiến hành một cuộc khảo sát để ước tính mức tiêu thụ sữa bình quân đầu người hàng năm và muốn có độ tin cậy 95% rằng ước tính đó không khác quá {0,5 gallon so với mức trung bình thực tế, thì cần cỡ mẫu như thế nào? Dữ liệu trong quá khứ đã chỉ ra rằng độ lệch chuẩn của mức tiêu thụ là khoảng 6 gallon. xe đẩy này, Mark đã thu thập dữ liệu sau: 27. Nếu một nhà sản xuất tiến hành một cuộc khảo sát giữa các Năm 1 (không có xe đẩy) Năm 2 hộ gia đình thị trường mục tiêu được lựa chọn cụ thể và muốn có độ tin cậy 95% rằng chênh lệch giữa ước tính mẫu (có xe đẩy) và thị phần thực tế cho sản phẩm mới của họ không quá {2%, thì kích thước mẫu sẽ là bao nhiêu? Cần thiết? Thời gian gọi trung bình 8,27 giờ 7,98 giờ Thời gian gọi độ lệch 1,36 giờ 1,21 giờ 0,018 0,010 chuẩn 28. Một hiệp hội rượu vang Oregon muốn xác định tỷ lệ người Tỷ lệ chấn thương lưng tiêu dùng bờ tây sẽ chi ít nhất 30 đô la cho rượu vang pinot noir của Thung lũng Willamette ở mức độ tin cậy 99%. Nếu họ muốn sai số không quá 5% thì họ phải lấy mẫu với số Tìm khoảng tin cậy 95% cho số lần gọi trung bình và tỷ lệ lượng bao nhiêu? Dựa trên các cuộc khảo sát về hành khách chấn thương lưng mỗi năm. đi tàu đã đến thăm các nhà máy rượu vang, hiệp hội ước tính Những kết luận bạn sẽ đạt được dựa trên kết quả của bạn? rằng tỷ lệ này là khoảng 0,15. 23. Sử dụng dữ liệu trong bảng tính Khảo sát chuyển đổi người 29. Một bệnh viện cộng đồng muốn ước tính chỉ số khối cơ thể tiêu dùng, phát triển các khoảng dự đoán 95% và 99% cho (BMI) của người dân địa phương. Để ước tính chỉ số BMI với những điều sau: sai số tối đa là 1,0 ở mức độ tin cậy 95%, họ nên sử dụng Một. số giờ mỗi tuần mà một cá nhân sẽ sử dụng phương tiện của mình cỡ mẫu nào? Độ lệch chuẩn dựa trên dữ liệu bệnh nhân có sẵn của bệnh viện là 3,0. b. số dặm lái xe mỗi tuần Trường hợp: Dự án nghiên cứu quảng cáo Drout Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1. đề xuất kích thước mẫu lớn hơn để có được thời gian chính xác hơn. Đây là phần tiếp theo của trường hợp trong Chương 4. Đối với Viết những phát hiện của bạn trong một báo cáo chính thức hoặc thêm phần này của trường hợp, hãy tính khoảng tin cậy cho phương tiện những phát hiện của bạn vào báo cáo mà bạn đã hoàn thành cho trường và tỷ lệ, đồng thời phân tích các lỗi lấy mẫu, có thể là hợp trong Chương 4, tùy thuộc vào yêu cầu của người hướng dẫn của bạn. Machine Translated by Google 203 Chương 6 Lấy mẫu và ước lượng Trường hợp: Hiệu suất Lawn Thiết bị Khi xem xét các báo cáo trước đây của bạn, một số câu hỏi xuất hiện trong tâm trí của Elizabeth Burke. Sử dụng ước tính điểm và khoảng 4. Khoảng tin cậy cho một mẫu bổ sung về hiệu suất kiểm tra máy cắt như trong trang tính Kiểm tra máy cắt là bao nhiêu? thời gian để giúp trả lời những câu hỏi này. 1. Tỷ lệ khách hàng đánh giá công ty bằng các câu trả lời khảo sát “top box” (được định nghĩa là thang điểm 4 và 5) về chất lượng, dễ sử dụng, giá cả và dịch vụ trong bảng Khảo sát khách hàng năm 2012? Làm thế nào để các tỷ lệ này khác nhau theo khu vực địa lý? 2. PLE có thể cung cấp cho khách hàng những ước tính nào, với sự đảm bảo hợp lý, về thời gian phản hồi các cuộc gọi từ dịch vụ khách hàng? 5. Đối với dữ liệu trong trang tính Blade Weight, phân phối lấy mẫu của giá trị trung bình, giá trị trung bình tổng thể và sai số chuẩn của giá trị trung bình là gì? Là một phân phối bình thường mal là một giả định thích hợp cho việc lấy mẫu phân phối của giá trị trung bình? 6. Phải đo bao nhiêu trọng lượng lưỡi để tìm khoảng tin cậy 95% cho trọng lượng trung bình của lưỡi với sai số lấy mẫu tối đa là 0,2? Điều gì xảy ra nếu lỗi lấy mẫu được chỉ định là 0,1? 3. Kỹ thuật đã thu thập dữ liệu về chi phí quy trình thay thế để xây dựng đường truyền trong bảng Chi phí truyền tải. Bạn có thể xác định liệu một trong các quy trình được đề xuất có tốt hơn quy trình hiện tại không? Trả lời những câu hỏi này và tóm tắt kết quả của bạn trong một báo cáo chính thức cho cô Burke. Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Suy luận thống kê CHƯƠNG Benis Arapovic/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích mục đích của kiểm định giả thuyết. Giải thích cách rút ra kết luận cho các thử nghiệm giả Giải thích sự khác biệt giữa giả thuyết không và giả thuyết thuyết một và hai đuôi. thay thế. Sử dụng giá trị p để rút ra kết luận về giả thuyết Liệt kê các bước trong quy trình kiểm định giả thuyết. các bài kiểm tra. Nêu các dạng giả thuyết phù hợp cho các kiểm định giả thuyết Nêu các dạng giả thuyết thích hợp cho kiểm định giả thuyết một mẫu. hai mẫu. Xây dựng chính xác các giả thuyết. Chọn và sử dụng quy trình Công cụ phân tích Excel cho các thử Liệt kê bốn kết quả có thể xảy ra từ một thử nghiệm nghiệm giả thuyết hai mẫu. giả thuyết. Giải thích mục đích của phân tích phương sai. Giải thích sự khác biệt giữa Loại I và Loại II Sử dụng công cụ Excel ANOVA để tiến hành phân tích kiểm lỗi. định phương sai. Nêu cách tăng sức mạnh của một bài kiểm tra. Liệt kê các giả định của ANOVA. Chọn thống kê kiểm tra thích hợp cho các kiểm tra giả Tiến hành và giải thích kết quả của phép kiểm tra chi bình thuyết liên quan đến phương tiện và tỷ lệ. phương về tính độc lập. 205 Machine Translated by Google 206 Chương 7 Suy luận thống kê Các nhà quản lý cần biết liệu những quyết định mà họ đã đưa ra hoặc đang lên kế hoạch đưa ra có hiệu quả hay không. Ví dụ: họ có thể muốn trả lời các câu hỏi như sau: Chiến dịch quảng cáo có làm tăng doanh thu không? Vị trí sản phẩm trong một cửa hàng tạp hóa sẽ tạo ra sự khác biệt? Phương pháp lắp ráp mới có cải thiện năng suất hoặc chất lượng trong nhà máy không? Nhiều ứng dụng của phân tích kinh doanh liên quan đến việc tìm kiếm bằng chứng thống kê rằng các quyết định hoặc thay đổi quy trình đã đáp ứng mục tiêu của họ. Suy luận thống kê tập trung vào việc rút ra kết luận về quần thể từ các mẫu. Suy luận thống kê bao gồm ước tính các tham số tổng thể và kiểm tra giả thuyết, bao gồm việc rút ra kết luận về giá trị của các tham số của một hoặc nhiều tổng thể dựa trên dữ liệu mẫu. Phương pháp thống kê cơ bản để làm điều này được gọi là thử nghiệm giả thuyết. Kiểm định giả thuyết là một kỹ thuật cho phép bạn rút ra các kết luận thống kê có giá trị về giá trị của các tham số dân số hoặc sự khác biệt giữa chúng. Thử nghiệm giả thuyết Thử nghiệm giả thuyết liên quan đến việc rút ra các suy luận về hai mệnh đề tương phản (mỗi mệnh đề được gọi là giả thuyết) liên quan đến giá trị của một hoặc nhiều tham số tổng thể, chẳng hạn như giá trị trung bình, tỷ lệ, độ lệch chuẩn hoặc phương sai. Một trong những đề xuất này (được gọi là giả thuyết không) mô tả lý thuyết hiện có hoặc niềm tin được chấp nhận là hợp lệ trừ khi có bằng chứng thống kê mạnh mẽ ngược lại. Mệnh đề thứ hai (được gọi là giả thuyết thay thế) là phần bổ sung của giả thuyết vô hiệu; nó phải đúng nếu giả thuyết không là sai. Giả thuyết không được ký hiệu là H0 và giả thuyết thay thế được ký hiệu là H1 . Sử dụng dữ liệu mẫu, chúng tôi hoặc 1. bác bỏ giả thuyết không và kết luận rằng dữ liệu mẫu cung cấp đủ bằng chứng thống kê để hỗ trợ cho giả thuyết thay thế, hoặc 2. không bác bỏ giả thuyết không và kết luận rằng dữ liệu mẫu không ủng hộ giả thuyết thay thế. Nếu chúng ta không bác bỏ giả thuyết không, thì chúng ta chỉ có thể chấp nhận lý thuyết hoặc niềm tin hiện có là hợp lệ, nhưng chúng ta không bao giờ có thể chứng minh điều đó. VÍ DỤ 7.1 Một phép loại suy pháp lý để kiểm định giả thuyết Một phép loại suy tốt để thử nghiệm giả thuyết là hệ thống pháp bị cáo có tội, thì chúng tôi bác bỏ giả định vô tội. Nếu bằng luật Hoa Kỳ. Trong hệ thống tư pháp của chúng ta, bị cáo vô chứng không đủ để chỉ ra tội lỗi, thì chúng ta không thể bác tội cho đến khi được chứng minh là có tội. Giả thuyết không - bỏ giả thuyết vô tội; tuy nhiên, chúng tôi chưa chứng minh niềm tin của chúng tôi về việc không có bất kỳ bằng chứng mâu được rằng bị cáo vô tội. Trong thực tế, bạn chỉ có thể kết thuẫn nào - không có tội, trong khi giả thuyết thay thế có luận rằng bị cáo có tội từ bằng chứng; bạn vẫn chưa chứng tội. Nếu bằng chứng (dữ liệu mẫu) chỉ ra rõ ràng rằng minh được điều đó! Machine Translated by Google 207 Chương 7 Suy luận thống kê Thủ tục thử nghiệm giả thuyết Tiến hành kiểm tra giả thuyết bao gồm một số bước: 1. Xác định tham số dân số quan tâm và xây dựng giả thuyết bài kiểm tra 2. Lựa chọn mức ý nghĩa, trong đó xác định rủi ro của việc ký hợp đồng kết luận trực tiếp khi giả thuyết giả định là thực sự đúng 3. Xác định quy tắc quyết định làm cơ sở cho kết luận 4. Thu thập dữ liệu và tính toán thống kê kiểm tra 5. Áp dụng quy tắc quyết định cho thống kê kiểm định và rút ra kết luận Chúng tôi áp dụng quy trình này cho hai loại thử nghiệm giả thuyết khác nhau; lần đầu tiên liên quan đến một quần thể duy nhất (được gọi là thử nghiệm một mẫu) và sau đó, các thử nghiệm liên quan đến nhiều hơn một quần thể (kiểm tra nhiều mẫu). Thử nghiệm giả thuyết một mẫu Phép thử giả thuyết một mẫu là phép thử liên quan đến một tham số dân số duy nhất, chẳng hạn như giá trị trung bình, tỷ lệ, độ lệch chuẩn, v.v. Để tiến hành thử nghiệm, chúng tôi sử dụng một mẫu dữ liệu duy nhất từ dân số. Chúng tôi có thể tiến hành ba loại thử nghiệm giả thuyết một mẫu: H0 : hằng số dân số Ú so với H1 : hằng số dân số 6 H0 : tham số dân số … hằng số so với H1 : tham số dân số 7 hằng số H0 : hằng số tham số tổng thể so với H1 : tham số tổng thể hằng số Lưu ý rằng các bài kiểm tra một mẫu luôn so sánh một tham số tổng thể với một hằng số nào đó. Đối với các kiểm định một mẫu, các phát biểu của các giả thuyết không được thể hiện dưới dạng Ú, …, hoặc . Không đúng khi xây dựng một giả thuyết vô hiệu bằng cách sử dụng 7, 6 hoặc . Làm cách nào để chúng ta xác định dạng thích hợp của các giả thuyết không và giả thuyết thay thế? Kiểm định giả thuyết luôn giả định rằng H0 là đúng và sử dụng dữ liệu mẫu để xác định xem H1 có nhiều khả năng đúng hay không. Về mặt thống kê, chúng ta không thể “chứng minh” rằng H0 là đúng; chúng ta chỉ có thể không từ chối nó. Do đó, nếu chúng ta không thể bác bỏ giả thuyết không, thì chúng ta chỉ chứng minh rằng không có đủ bằng chứng để kết luận rằng giả thuyết thay thế là đúng. Tuy nhiên, bác bỏ giả thuyết không cung cấp bằng chứng mạnh mẽ (theo nghĩa thống kê) rằng giả thuyết không là không đúng và giả thuyết thay thế là đúng. Do đó, những gì chúng tôi muốn cung cấp bằng chứng về mặt thống kê nên được xác định là giả thuyết thay thế. VÍ DỤ 7.2 Lập công thức kiểm định giả thuyết một mẫu CadSoft, nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy sẽ giúp giảm thời gian phản hồi. Do đó, nó tin rằng thời gian tính cho ngành hàng không vũ trụ, nhận được rất nhiều lời kêu phản hồi trung bình có thể giảm xuống dưới 25 phút. Công ty gọi hỗ trợ kỹ thuật. Trước đây, thời gian phản hồi trung bình đã thu thập một mẫu gồm 44 thời gian phản hồi trong tệp Excel ít nhất là 25 phút. Công ty đã nâng cấp hệ thống thông tin Thời gian phản hồi của bộ phận hỗ trợ kỹ thuật CadSoft (xem của mình và tin rằng điều này Hình 7.1). Machine Translated by Google 208 Chương 7 Suy luận thống kê Hình 7.1 Phần hỗ trợ kỹ thuật Dữ liệu thời gian phản hồi Nếu hệ thống thông tin mới tạo ra sự khác biệt, thì dữ liệu Chúng tôi thường viết điều này bằng cách sử dụng ký hiệu sẽ có thể xác nhận rằng thời gian phản hồi trung bình ít hơn 25 thích hợp cho tham số dân số. Trong trường hợp này, đặt M là phút; điều này xác định giả thuyết thay thế, H1 . thời gian phản hồi trung bình, chúng ta sẽ viết: Do đó, các tuyên bố thích hợp của các giả thuyết bản địa H0 : M #25 H1 : M * 25 không và thay đổi là: H0 : thời gian phản hồi trung bình dân số # 25 phút H1 : thời gian phản hồi trung bình dân số * 25 phút Hiểu các lỗi tiềm ẩn trong thử nghiệm giả thuyết Chúng tôi đã biết rằng dữ liệu mẫu có thể cho thấy sự thay đổi đáng kể; do đó, kết luận dựa trên dữ liệu mẫu có thể sai. Thử nghiệm giả thuyết có thể dẫn đến một trong bốn kết quả khác nhau: 1. Giả thuyết không thực sự đúng và phép thử chính xác không bác bỏ nó. 2. Giả thuyết không thực sự là sai, và phép thử giả thuyết đưa ra kết luận này một cách chính xác. 3. Giả thuyết không thực sự đúng, nhưng kiểm định giả thuyết bác bỏ sai nó (được gọi là lỗi Loại I). 4. Giả thuyết không thực sự là sai, nhưng kiểm tra giả thuyết sai không bác bỏ nó (gọi là sai lầm loại II). Xác suất mắc sai lầm loại I, nghĩa là P(bác bỏ H0 H0 là đúng), được ký hiệu bởi a và được gọi là mức ý nghĩa. Điều này xác định khả năng bạn sẵn sàng đưa ra kết luận không chính xác rằng giả thuyết thay thế là đúng trong khi trên thực tế, giả thuyết không là đúng. Giá trị của a có thể được kiểm soát bởi người ra quyết định và được chọn trước khi tiến hành kiểm thử. Các mức thường được sử dụng cho a là 0,10, 0,05 và 0,01. Xác suất không bác bỏ đúng giả thuyết không, hay P(không bác bỏ H0 H0 là đúng), được gọi là hệ số tin cậy và được tính bằng 1 - a. Đối với hệ số tin cậy là 0,95, chúng tôi muốn nói rằng chúng tôi mong đợi 95 trong số 100 mẫu ủng hộ giả thuyết không thay vì giả thuyết thay thế khi H0 thực sự đúng. Thật không may, chúng ta không thể kiểm soát xác suất của lỗi Loại II, P (không bác bỏ H0 H0 là sai), được ký hiệu là b. Khác với a, b không thể xác định trước mà phụ thuộc vào giá trị thực của tham số tổng thể (chưa biết). Machine Translated by Google 209 Chương 7 Suy luận thống kê VÍ DỤ 7.3 B phụ thuộc như thế nào vào trung bình dân số thực Xem xét các giả thuyết trong ví dụ về CadSoft: ta bác bỏ H0 . Nếu giá trị trung bình thực sự là 24 phút, ngay cả khi nó nhỏ hơn 25, chúng ta sẽ có khả năng cao hơn nhiều trong H0 : thời gian phản hồi trung bình # 25 phút việc không bác bỏ H0 vì có khả năng cao hơn là giá trị trung bình của mẫu sẽ lớn hơn 25 do lỗi lấy mẫu. Do đó, thời gian đáp ứng H1 : thời gian phản hồi trung bình * 25 phút trung bình thực sự càng xa giá trị được giả thuyết thì B càng nhỏ. Ví dụ, nếu phản hồi trung bình thực sự mà mẫu được rút ra là 15 phút, thì chúng tôi hy vọng sẽ có xác suất kết luận sai rằng giả Nói chung, khi A giảm, B tăng, vì vậy người ra quyết định phải xem thuyết khống là nhỏ hơn nhiều so với khi phản hồi trung bình thực xét sự đánh đổi của những rủi ro này. Vì vậy, nếu bạn chọn mức ý sự là 24 phút chẳng hạn. Nếu giá trị trung bình thực sự là 15 nghĩa 0,01 thay vì 0,05 và giữ cỡ mẫu không đổi, bạn sẽ giảm xác phút, thì giá trị trung bình mẫu rất có thể sẽ thấp hơn nhiều so suất mắc lỗi Loại I nhưng tăng xác suất mắc lỗi Loại II. với 25, dẫn đến Giá trị 1 - b được gọi là sức mạnh của kiểm định và biểu thị xác suất bác bỏ đúng giả thuyết không khi nó thực sự sai, hoặc P(bác bỏ H0 H0 là sai). Chúng tôi muốn sức mạnh của thử nghiệm cao (tương đương, chúng tôi muốn xác suất xảy ra lỗi loại II thấp) để cho phép chúng tôi đưa ra kết luận hợp lệ. Sức mạnh của thử nghiệm nhạy cảm với kích thước mẫu; kích thước mẫu nhỏ thường dẫn đến giá trị thấp từ 1 - b. Sức mạnh của thử nghiệm có thể được tăng lên bằng cách lấy các mẫu lớn hơn, cho phép chúng tôi phát hiện những khác biệt nhỏ giữa thống kê mẫu và các tham số dân số với độ chính xác cao hơn. Tuy nhiên, cỡ mẫu lớn hơn sẽ dẫn đến chi phí cao hơn, mang lại ý nghĩa mới cho câu ngạn ngữ, không có bữa ăn trưa miễn phí. Điều này cho thấy rằng nếu bạn chọn mức ý nghĩa nhỏ, bạn nên cố gắng bù lại bằng cỡ mẫu lớn khi tiến hành kiểm định. Chọn thống kê kiểm tra Bước tiếp theo là thu thập dữ liệu mẫu và sử dụng dữ liệu để đưa ra kết luận. Quyết định bác bỏ hoặc không bác bỏ một giả thuyết không dựa trên việc tính toán một thống kê kiểm tra từ dữ liệu mẫu. Thống kê kiểm định được sử dụng phụ thuộc vào loại kiểm định giả thuyết. Các loại kiểm tra giả thuyết khác nhau sử dụng số liệu thống kê kiểm tra khác nhau và điều quan trọng là sử dụng đúng. Thống kê thử nghiệm thích hợp thường phụ thuộc vào một số giả định nhất định về tổng thể—ví dụ, độ lệch chuẩn có được biết hay không. Các công thức sau đây cho thấy hai loại thử nghiệm giả thuyết một mẫu cho phương tiện và thống kê thử nghiệm liên quan của chúng. Giá trị của m0 là giá trị giả định của trung bình dân số; nghĩa là, “hằng số” trong công thức giả thuyết. Loại bài kiểm tra Thử nghiệm thống kê Kiểm định một mẫu cho giá trị trung bình, S đã biết = Kiểm định một mẫu cho giá trị trung bình, S chưa biết = - M0 S 1n - M0 1n (7.1) (7.2) Machine Translated by Google 210 Chương 7 Suy luận thống kê VÍ DỤ 7.4 Tính toán thống kê kiểm tra Đối với ví dụ về CadSoft, thời gian phản hồi trung bình cho mẫu gồm 44 khách hàng là = 21,91 phút và độ lệch chuẩn của mẫu là = 19,49. Giá trị trung bình giả định là M0 = 25. Bạn có thể thắc mắc tại sao chúng ta thậm chí phải kiểm tra giả Do đó, giá trị của thống kê kiểm định là = - M0 1n = 21,91 25 = 19,49> 144 - 3,09 2.938 = 1,05 thuyết theo thống kê khi trung bình mẫu là 21,91 rõ ràng là Quan sát rằng tử số là khoảng cách giữa giá trị trung bình nhỏ hơn 25. Lý do là do lỗi lấy mẫu. Rất có thể trung bình của mẫu (21,91) và giá trị giả định (25). Bằng cách chia cho dân số thực sự là 25 hoặc hơn và chúng tôi chỉ may mắn rút sai số chuẩn, giá trị của đại diện cho số lượng sai số chuẩn được một mẫu có trung bình nhỏ hơn. Do lỗi lấy mẫu tiềm ẩn, mà giá trị trung bình của mẫu là từ giá trị được giả định. sẽ rất nguy hiểm nếu kết luận rằng công ty đã đạt được mục Trong trường hợp này, giá trị trung bình của mẫu là 1,05 sai tiêu chỉ bằng cách nhìn vào giá trị trung bình mẫu mà không số chuẩn dưới giá trị giả định là 25. có bằng chứng thống kê tốt hơn. Khái niệm này cung cấp cơ sở cơ bản cho phép kiểm tra giả thuyết—nếu giá trị trung bình của mẫu cách xa giá trị giả định Bởi vì chúng ta không biết giá trị của dân số “quá xa”, thì giả thuyết không nên bị bác bỏ. độ lệch chuẩn, thống kê kiểm tra thích hợp để sử dụng là cho công thức (7.2): = - M0 1n Rút ra một kết luận Kết luận bác bỏ hay không bác bỏ H0 dựa trên việc so sánh giá trị của thống kê kiểm định với “giá trị tới hạn” từ phân phối lấy mẫu của thống kê kiểm định khi giả thuyết khống là đúng và mức ý nghĩa đã chọn, a. Phân phối lấy mẫu của thống kê kiểm tra thường là phân phối chuẩn, phân phối t hoặc một số phân phối nổi tiếng khác. Ví dụ, phân phối lấy mẫu của thống kê kiểm định z trong công thức (7.1) là phân phối chuẩn; thống kê kiểm định t trong công thức (7.2) có phân phối t với n - 1 bậc tự do. Đối với phép thử một đầu, giá trị tới hạn là số lỗi tiêu chuẩn khác với giá trị giả thuyết mà xác suất vượt quá giá trị tới hạn là a. Ví dụ: nếu là 0,05, thì chúng tôi đang nói rằng chỉ có 5% khả năng giá trị trung bình mẫu sẽ cách xa giá trị được giả định hoàn toàn do lỗi lấy mẫu và nếu điều này xảy ra, điều đó cho thấy rằng giá trị trung bình thực của tổng thể là khác với những gì đã được giả định. Giá trị tới hạn chia phân phối lấy mẫu thành hai phần, vùng từ chối và một miền không bác bỏ. Nếu giả thuyết không là sai, nhiều khả năng thống kê kiểm định sẽ rơi vào vùng bác bỏ. Nếu đúng như vậy, chúng tôi bác bỏ giả thuyết khống; nếu không, chúng tôi không từ chối nó. Vùng bác bỏ được chọn sao cho xác suất thống kê kiểm tra rơi vào vùng đó nếu H0 đúng là xác suất sai lầm loại I, a. Vùng bác bỏ xuất hiện ở các đuôi của phân phối lấy mẫu của thống kê kiểm định và phụ thuộc vào cấu trúc của kiểm định giả thuyết, như trong Hình 7.2. Nếu giả thuyết không được cấu trúc như và giả thuyết thay thế là , thì chúng tôi sẽ bác bỏ H0 nếu thống kê kiểm định cao hoặc thấp đáng kể. Trong trường hợp này, vùng từ chối sẽ xảy ra ở cả phía trên và phía dưới của phân bố [xem Hình 7.2(a)]. Đây được gọi là phép thử giả thuyết hai phía. Bởi vì xác suất mà thống kê kiểm tra rơi vào vùng bác bỏ, cho rằng H0 là đúng, diện tích kết hợp của cả hai đuôi phải là a; mỗi đuôi có diện tích a>2. Machine Translated by Google 211 Chương 7 Suy luận thống kê Khu vực từ chối Hình 7.2 Minh họa từ chối Các khu vực trong giả thuyết thử nghiệm /2 /2 Giá trị tới hạn thấp hơn Giá trị quan trọng trên (a) Thử nghiệm hai đuôi Sự từ chối Sự từ chối Vùng đất Vùng đất Kiểm tra một đuôi thấp hơn Giá trị quan trọng Bài kiểm tra một đuôi trên (b) Kiểm tra một đuôi Giá trị quan trọng Các loại kiểm định giả thuyết khác, xác định hướng của mối quan hệ (trong đó H0 là Ú hoặc…), được gọi là kiểm định một phía của giả thuyết. Trong trường hợp này, vùng bác bỏ chỉ xuất hiện ở một đuôi của phân bố [xem Hình 7.2(b)]. Việc xác định đuôi trực tiếp của phân phối để sử dụng làm vùng bác bỏ cho thử nghiệm một đầu là dễ dàng. Nếu H1 được ghi là 6, vùng từ chối nằm ở đuôi dưới; nếu H1 được tuyên bố là 7, thì vùng bác bỏ nằm ở đuôi trên (chỉ cần nghĩ về bất đẳng thức như một mũi tên chỉ hướng đuôi thích hợp). Phép thử hai phía có cả giá trị tới hạn trên và dưới, trong khi phép thử một phía có giá trị tới hạn trên hoặc dưới. Đối với các phân phối chuẩn và phân phối t tiêu chuẩn, có giá trị trung bình bằng 0, các giá trị tới hạn đuôi thấp hơn là âm; các giá trị tới hạn của đuôi trên là dương. Các giá trị tới hạn giúp dễ dàng xác định liệu thống kê thử nghiệm có nằm trong vùng bác bỏ của phân phối lấy mẫu phù hợp hay không. Ví dụ: đối với kiểm định một phía trên, nếu thống kê kiểm định lớn hơn giá trị tới hạn, thì quyết định sẽ là bác bỏ giả thuyết không. Tương tự, đối với kiểm định một phía dưới, nếu thống kê kiểm định nhỏ hơn giá trị tới hạn, chúng ta sẽ bác bỏ giả thuyết không. Đối với kiểm định hai đầu, nếu thống kê kiểm định lớn hơn giá trị tới hạn trên hoặc nhỏ hơn giá trị tới hạn dưới, thì quyết định sẽ là bác bỏ giả thuyết không. VÍ DỤ 7.5 Tìm Giá trị Tới hạn và Rút ra Kết luận Đối với ví dụ về CadSoft, nếu mức ý nghĩa là 0,05, thì giá cuối sách hoặc bằng cách sử dụng hàm Excel T.INV(1 trị tới hạn đối với phép thử một đuôi là giá trị của phân 1). Như vậy, giá trị tới hạn là T.INV10.95,432 = A, n = 0,05,43 phối - với n - 1 độ tự do cung cấp diện tích đuôi là 0,05, 1,68. Bởi vì phân phối - là số liệu đối xứng với giá trị tức là A ,n trung bình là 0 và đây là phép thử đuôi dưới, nên chúng tôi 1. Chúng tôi có thể tìm thấy -giá trị trong Bảng A.2 trong Phụ lục A tại sử dụng giá trị âm của số này ( 1,68) làm giá trị tới hạn. Machine Translated by Google 212 Chương 7 Suy luận thống kê Hình 7.3 -Kiểm tra phản hồi trung bình Thời gian Sự từ chối Vùng đất 1,68 1,05 0 Bằng cách so sánh giá trị của thống kê kiểm định t với giá trị tới hạn này, chúng ta thấy rằng thống kê kiểm định cải thiện xuống dưới 25 phút. Hình 7.3 minh họa kết luận mà chúng tôi đạt được. Mặc dù giá trị trung bình của mẫu nhỏ hơn không nằm dưới giá trị tới hạn (nghĩa là - 1,05 + -1,68) và 25, nhưng chúng tôi không thể kết luận rằng thời gian phản hồi không nằm trong vùng bác bỏ. Do đó không thể bác bỏ H0 trung bình của tổng thể nhỏ hơn 25 do lỗi lấy mẫu lớn. và không thể kết luận rằng thời gian đáp ứng trung bình có Kiểm tra giả thuyết hai phía cho giá trị trung bình Về cơ bản, tất cả các bài kiểm tra giả thuyết đều tương tự nhau; bạn chỉ cần đảm bảo rằng bạn chọn thống kê kiểm tra chính xác, giá trị tới hạn và vùng bác bỏ, tùy thuộc vào loại giả thuyết. Ví dụ sau đây minh họa một thử nghiệm hai phía về giả thuyết cho giá trị trung bình. VÍ DỤ 7.6 Tiến hành kiểm định giả thuyết hai phía cho giá trị trung bình Hình 7.4 cho thấy một phần dữ liệu được thu thập trong cuộc Trong trường hợp này, giá trị trung bình của mẫu là 2,73 khảo sát 34 người trả lời của một công ty du lịch (được cung sai số chuẩn trên giá trị trung bình được giả định là 35. Tuy cấp trong tệp Excel Khảo sát Kỳ nghỉ). Giả sử rằng công ty du nhiên, vì đây là thử nghiệm hai phía nên vùng bác bỏ và quy lịch muốn nhắm mục tiêu đến những cá nhân xấp xỉ 35 tuổi. Vì tắc quyết định là khác nhau. Đối với mức ý nghĩa A, chúng ta vậy, chúng tôi muốn kiểm tra xem độ tuổi trung bình của người bác bỏ H0 nếu thống kê kiểm định t nằm dưới mức tiêu cực trả lời có bằng 35 hay không. Giả thuyết cần kiểm định là giá trị cal, dương, A>2,n A>2,n 1 hoặc cao hơn giá trị tới hạn 1. Sử dụng Bảng A.2 trong Phụ lục A ở phía sau của cuốn sách này hoặc hàm Excel T.INV.2T(0,05,33) để tính H0: tuổi trung bình = 35 toán 0,025,33, ta thu được 2,0345. Do đó, các giá trị tới hạn là ±2,0345. Vì thống kê -test không nằm trong khoảng giữa H1: tuổi trung bình 3 35 Giá trị trung bình của mẫu được tính là 38,677 và độ lệch chuẩn của mẫu là 7,858. các giá trị này, nên chúng ta phải bác bỏ giả thuyết không cho rằng tuổi trung bình là 35 (xem Hình 7.5). Chúng tôi sử dụng thống kê -test: = M0 1n = 38.677 35 = 2,73 7.858 234 giá trị p Một cách tiếp cận khác để so sánh thống kê kiểm định với giá trị tới hạn trong kiểm định giả thuyết là tìm xác suất thu được giá trị thống kê kiểm định bằng hoặc cao hơn xác suất thu được từ dữ liệu mẫu khi giả thuyết không là đúng. xác suất này Machine Translated by Google 213 Chương 7 Suy luận thống kê Hình 7.4 Phần khảo sát kỳ nghỉ Dữ liệu Khu vực từ chối Hình 7.5 Minh họa Phép thử hai phía cho Ví dụ 7.6 0 – 2,0345 2,0345 2,73 thường được gọi là giá trị p, hoặc mức ý nghĩa quan sát được. Để rút ra kết luận, hãy so sánh giá trị p với mức ý nghĩa đã chọn a; bất cứ khi nào p 6 a, bác bỏ giả thuyết không và nếu không thì không bác bỏ nó. Giá trị p giúp dễ dàng đưa ra kết luận về các thử nghiệm giả thuyết. Đối với phép thử một phía thấp hơn, giá trị p là xác suất ở bên trái của thống kê phép thử t trong phân phối t và được tìm thấy bởi T.DIST(t, n - 1, TRUE). Đối với phép thử một phía trên, giá trị p là xác suất ở bên phải của thống kê phép thử t và được tìm thấy bởi 1 - T.DIST(t, n - 1, TRUE). Đối với thử nghiệm hai phía, giá trị p được tìm thấy bởi T.DIST.2T (t, n - 1), nếu t 7 0; nếu t 6 0, sử dụng T.DIST.2T(-t, n - 1). VÍ DỤ 7.7 Sử dụng giá trị p Đối với ví dụ về CadSoft, thống kê -test cho kiểm tra giả ĐÚNG VẬY. Đây là một xác suất khá cao, vì vậy sẽ khó để kết thuyết trong ví dụ về thời gian phản hồi là - 1,05. luận rằng giá trị trung bình thực sự nhỏ hơn 25 và chúng ta có Nếu giá trị trung bình thực sự là 25, thì giá trị p là xác thể quy thực tế rằng thống kê kiểm tra nhỏ hơn giá trị giả suất thu được thống kê kiểm tra bằng - 1,05 hoặc thấp hơn (vùng thuyết chỉ do lỗi lấy mẫu và không bác bỏ giả thuyết không. bên trái của - 1,05 trong Hình 7.3). Chúng ta có thể tính giá trị p bằng cách sử dụng hàm Excel T.DIST1 1,05,43,TRUE2 = 0,1498. Vì p = 0,1498 không nhỏ hơn A = 0,05 nên ta không bác Đối với thử nghiệm giả thuyết hai phía của Khảo sát Kỳ nghỉ trong Ví dụ 7.6, giá trị p cho thử nghiệm này là 0,010, bỏ H0 . Nói cách khác, có khoảng 15% khả năng thống kê kiểm giá trị này cũng có thể được tính bằng hàm Excel định sẽ là -1,05 hoặc nhỏ hơn nếu giả thuyết không là T.DIST.2T(2,73,33); do đó, kể từ 0,010 * 0,05, chúng tôi bác bỏ H0 . Thử nghiệm một mẫu cho tỷ lệ Nhiều biện pháp kinh doanh quan trọng, chẳng hạn như thị phần hoặc tỷ lệ giao hàng nhận được đúng hạn, được thể hiện dưới dạng tỷ lệ. Chúng tôi có thể tiến hành kiểm tra giả thuyết về tỷ lệ dân số theo cách tương tự như chúng tôi đã làm đối với phương tiện. Thống kê kiểm định cho phép kiểm định một mẫu đối với tỷ lệ là z pn 2 0 11 - 0 (7.3) 0 2>n Machine Translated by Google 214 Chương 7 Suy luận thống kê ở đâu là 0giá trị giả thuyết và np là tỷ lệ mẫu. Tương tự như thống kê kiểm tra phương tiện, thống kê kiểm tra z cho thấy số lượng lỗi tiêu chuẩn mà tỷ lệ mẫu là từ giá trị giả định. Phân phối lấy mẫu của thống kê kiểm tra này có phân phối chuẩn chuẩn. VÍ DỤ 7.8 Thử nghiệm một mẫu cho tỷ lệ CadSoft cũng đã lấy mẫu của 44 khách hàng và yêu cầu họ đánh 0,795 = giá chất lượng tổng thể của sản phẩm phần mềm của công ty 20,75(1 0,75 = 0,69 0,75) 44 bằng thang điểm: 0—rất kém Trong trường hợp này, tỷ lệ mẫu 0,795 là sai số chuẩn 1—nghèo 0,69 trên giá trị giả định là 0,75. 2—tốt Bởi vì đây là một kiểm định đuôi trên, chúng tôi bác bỏ H0 3—rất tốt nếu giá trị của thống kê kiểm định lớn hơn giá trị tới hạn. 4—xuất sắc Bởi vì phân phối lấy mẫu của là chuẩn tắc chuẩn, nên giá trị Những dữ liệu này có thể được tìm thấy trong Excel File tới hạn của đối với mức ý nghĩa 0,05 được tìm thấy bằng hàm CadSoft Prod uct Satisfaction Survey. Công ty theo dõi sự Excel NORM.S. hài lòng của khách hàng về chất lượng bằng cách đo lường tỷ INV 10,952 = 1,645. Vì thống kê kiểm định không vượt quá giá lệ phản hồi trong hai loại hàng đầu. Trong quá khứ, tỷ lệ này trị tới hạn nên chúng ta không thể bác bỏ giả thuyết khống trung bình khoảng 75%. Đối với những dữ liệu này, 35 trong rằng tỷ lệ này không lớn hơn 0,75. số 44 phản hồi, tương đương 79,5%, thuộc hai loại hàng đầu. Do đó, mặc dù tỷ lệ mẫu vượt quá 0,75, chúng tôi không thể Có đủ bằng chứng để kết luận rằng thước đo sự hài lòng này kết luận thống kê rằng xếp hạng theo ý kiến của khách hàng chắc chắn đã vượt quá 75% đáng kể khi sử dụng mức ý nghĩa đã được cải thiện đáng kể. Chúng tôi có thể quy điều này cho 0,05 không? Trả lời câu hỏi này liên quan đến việc kiểm tra lỗi lấy mẫu và cỡ mẫu tương đối nhỏ. Có thể tìm thấy giá trị p bằng cách tính diện tích ở bên phải của thống kê kiểm tra các giả thuyết về tỷ lệ dân số P: trong phân phối chuẩn chuẩn: 1 – NORM.S.DIST(0,69,TRUE) = H0 : P " 0,75 0,24. H1 : P + 0,75 Lưu ý rằng giá trị p lớn hơn mức ý nghĩa 0,05, dẫn đến cùng Đây là một bài kiểm tra một đuôi trên. Thống kê kiểm định một kết luận là không bác bỏ giả thuyết không. được tính bằng công thức (7.3): Đối với thử nghiệm có đuôi thấp hơn, giá trị p sẽ được tính theo khu vực bên trái của thống kê thử nghiệm; tức là NORM.S.DIST(z, TRUE). Nếu chúng ta có phép thử hai phía, giá trị p là 2*NORM.S.DIST(z, TRUE) nếu z 6 0; mặt khác, giá trị p là 2*(1-NORM.S.DIST (-z, TRUE)) nếu z 7 0. Khoảng tin cậy và kiểm định giả thuyết Một mối quan hệ chặt chẽ tồn tại giữa khoảng tin cậy và kiểm tra giả thuyết. Ví dụ: giả sử chúng ta xây dựng khoảng tin cậy 95% cho giá trị trung bình. Nếu chúng ta muốn kiểm tra các giả thuyết H0 : m m0 H1 : m m0 với mức ý nghĩa 5%, chúng ta chỉ cần kiểm tra xem giá trị giả thuyết m0 có nằm trong khoảng tin cậy hay không. Nếu không, thì chúng ta bác bỏ H0 ; nếu đúng như vậy thì chúng ta không thể bác bỏ H0 . Machine Translated by Google 215 Chương 7 Suy luận thống kê Đối với kiểm định một phía, chúng ta cần kiểm tra xem khoảng tin cậy rơi vào phía nào của giá trị giả định. Đối với thử nghiệm đuôi thấp hơn, nếu khoảng tin cậy hoàn toàn nằm dưới giá trị được giả định, thì chúng tôi bác bỏ giả thuyết không. Đối với thử nghiệm đuôi trên, nếu khoảng tin cậy nằm hoàn toàn trên giá trị giả thuyết, chúng tôi cũng bác bỏ giả thuyết không. Thử nghiệm giả thuyết hai mẫu Nhiều ứng dụng thực tế của kiểm tra giả thuyết liên quan đến việc so sánh hai tổng thể về sự khác biệt về phương tiện, tỷ lệ hoặc các tham số dân số khác. Những thử nghiệm như vậy có thể xác nhận sự khác biệt giữa các nhà cung cấp, hiệu suất tại hai địa điểm nhà máy khác nhau, phương pháp làm việc mới và cũ hoặc chương trình khen thưởng và công nhận, và nhiều tình huống khác. Tương tự như kiểm định một mẫu, kiểm định giả thuyết hai mẫu về sự khác biệt trong các tham số tổng thể có một trong các dạng sau: 1. Kiểm định cấp dưới H0 : tham số quần thể (1) - tham số quần thể (2) Ú D0 so với H1 : tham số quần thể (1) - tham số quần thể (2) 6 D0 . Thử nghiệm này tìm kiếm bằng chứng cho thấy sự khác biệt giữa tham số dân số (1) và tham số dân số (2) nhỏ hơn một giá trị nào đó, D0 . Khi D0 0, kiểm định chỉ đơn giản là tìm cách kết luận liệu tham số tổng thể (1) có nhỏ hơn tham số tổng thể (2) hay không. 2. Kiểm định trên đuôi H0 : tham số quần thể (1) - tham số quần thể (2) … D0 so với H1 : tham số dân số (1) - tham số dân số (2) 7 D0 . Thử nghiệm này tìm kiếm bằng chứng cho thấy sự khác biệt giữa tham số tổng thể (1) và tham số tổng thể (2) lớn hơn một giá trị nào đó, D0 . Khi D0 0, kiểm định chỉ đơn giản là tìm cách kết luận liệu tham số tổng thể (1) có lớn hơn tham số tổng thể (2) hay không. 3. Kiểm định hai đầu H0 : tham số quần thể (1) - tham số quần thể (2) D0 so với H1 : tham số dân số (1) - tham số dân số (2) D0 . Thử nghiệm này tìm kiếm bằng chứng cho thấy sự khác biệt giữa các tham số tổng thể bằng D0 . Khi D0 0, chúng tôi đang tìm kiếm bằng chứng cho thấy tham số tổng thể (1) khác với tham số (2). Trong hầu hết các ứng dụng D0 0, và chúng ta chỉ đơn giản là tìm cách so sánh các tham số tổng thể. Tuy nhiên, có những tình huống chúng ta có thể muốn xác định xem các tham số có khác nhau một lượng khác không hay không; ví dụ: “công việc phân loại A kiếm được nhiều hơn ít nhất 5.000 đô la so với phân loại công việc B.” Các quy trình kiểm tra giả thuyết tương tự như các quy trình đã thảo luận trước đây theo nghĩa tính toán một thống kê kiểm tra và so sánh nó với một giá trị tới hạn. Tuy nhiên, thống kê kiểm tra đối với kiểm tra hai mẫu phức tạp hơn so với kiểm tra một mẫu và chúng tôi sẽ không đi sâu vào các chi tiết toán học. May mắn thay, Excel cung cấp một số công cụ để tiến hành kiểm tra hai mẫu và chúng tôi sẽ sử dụng những công cụ này trong các ví dụ của mình. Bảng 7.1 tóm tắt các thủ tục của Excel Analysis Toolpak mà chúng ta sẽ sử dụng. Thử nghiệm hai mẫu cho sự khác biệt về phương tiện Trong thử nghiệm hai mẫu về sự khác biệt về phương tiện, chúng tôi luôn kiểm tra các giả thuyết có dạng H0 : m1 - m2 {Ú, …, hay } 0 H1 : m1 - m2 {6, 7 hoặc } 0 (7.4) Machine Translated by Google 216 Chương 7 Suy luận thống kê Bảng 7.1 Loại bài kiểm tra Thử nghiệm hai mẫu cho phương tiện, S Phân tích Excel Thủ tục Toolpak cho hai mẫu Kiểm tra giả thuyết Thử nghiệm hai mẫu cho phương tiện, S thủ tục excel 2 đã biết 2 không xác định, Excel -test: Hai mẫu giả định phương sai không bằng nhau giả định không bình đẳng Thử nghiệm hai mẫu cho phương tiện, S Excel -test: Hai mẫu cho phương tiện 2 không xác định, Excel -test: Hai mẫu giả định phương sai bằng giả sử bằng nhau nhau Thử nghiệm hai mẫu được ghép nối cho phương tiện Excel -test: Ghép nối hai mẫu cho phương tiện Thử nghiệm hai mẫu cho sự bằng nhau của phương sai Excel F-test Hai mẫu cho phương sai VÍ DỤ 7.9 So sánh hiệu suất của nhà cung cấp Hai cột cuối cùng trong tệp dữ liệu Đơn đặt hàng cung cấp ngày Sản phẩm bền. Vì vậy, họ muốn kiểm tra giả thuyết đặt hàng và ngày đến của tất cả các đơn đặt hàng với từng nhà cung cấp. Khoảng thời gian từ khi đặt đơn hàng đến khi đơn hàng đến thường được gọi là thời gian giao hàng. Chúng ta có thể tính toán thời gian giao hàng bằng cách trừ các giá trị hàm ngày của Excel với nhau (Ngày đến Ngày đặt hàng), như thể hiện trong Hình 7.7 cho thấy một bảng tổng hợp về thời gian giao hàng trung bình của mỗi nhà cung cấp. Các nhà quản lý mua hàng đã M2 " 0 H1 : M1 M2 + 0 trong đó M1 = thời gian chuẩn bị trung bình cho Tấm Phèn và = M2 Hình 7.6. H0 : M1 thời gian chuẩn bị trung bình cho Sản phẩm Bền. Việc bác bỏ giả thuyết không cho thấy rằng thời gian sử dụng trung bình của Tấm Phèn dài hơn về mặt thống kê so với Sản lưu ý rằng họ đặt hàng nhiều loại mặt hàng giống nhau từ Tấm phẩm Bền. Tuy nhiên, nếu chúng tôi không thể bác bỏ giả thuyết Alum và Sản phẩm Bền và đang xem xét loại bỏ Tấm Alum khỏi cơ không, thì mặc dù thời gian chuẩn bị trung bình cho Tấm phủ sở cung cấp của mình nếu thời gian giao hàng của nó dài hơn Phèn dài hơn, nhưng sự khác biệt rất có thể là do lỗi lấy mẫu đáng kể so với thời gian giao hàng trước đó. và chúng tôi không thể kết luận rằng có sự khác biệt có ý nghĩa thống kê. Việc lựa chọn thống kê kiểm tra thích hợp và quy trình Excel cho kiểm tra hai mẫu đối với các phương tiện phụ thuộc vào việc liệu độ lệch chuẩn tổng thể có được biết hay không và nếu không, liệu chúng có được giả định là bằng nhau hay không. 1. Phương sai dân số đã biết. Trong Excel, chọn z-Test: Two-Sample for Means từ menu Data Analysis. Thử nghiệm này sử dụng thống kê thử nghiệm dựa trên phân phối chuẩn chuẩn. 2. Phương sai dân số chưa được biết và giả định là không bằng nhau. Từ phân tích dữ liệu sis, chọn kiểm tra t: Hai mẫu giả định phương sai không bằng nhau. Thống kê kiểm định Hình 7.6 Phần đơn đặt hàng Cơ sở dữ liệu với thời gian dẫn phép tính cho trường hợp này có phân phối t. Machine Translated by Google 217 Chương 7 Suy luận thống kê Hình 7.7 Bảng tổng hợp cho trung bình Thời gian giao hàng của nhà cung cấp 3. Phương sai tổng thể chưa biết nhưng giả sử bằng nhau. Trong Excel, chọn kiểm tra t: Hai mẫu giả định phương sai bằng nhau. Thống kê kiểm định cũng có phân phối t, nhưng nó khác với trường hợp phương sai không bằng nhau. Các công cụ này tính toán thống kê thử nghiệm, giá trị p cho cả thử nghiệm một phía và hai phía, cũng như các giá trị tới hạn đối với thử nghiệm một phía và hai phía. Đối với kiểm định z với các phương sai tổng thể đã biết, chúng được gọi là z, P1Z … z2 một đuôi hoặc P1Z … z2 hai đuôi và z Một đuôi quan trọng hoặc z Hai đuôi quan trọng, tương ứng. Đối với các bài kiểm tra t, chúng được gọi là t Stat, P1T … t2 one-tail hoặc P1T … t2 hai đầu tương ứng và t Một đầu tới hạn hoặc t Hai đầu tới hạn tương ứng. Thận trọng: Bạn phải rất cẩn thận trong việc diễn giải thông tin đầu ra từ các công cụ Excel và áp dụng các quy tắc sau: 1. Nếu thống kê kiểm tra là âm tính, giá trị p một đầu là giá trị p chính xác cho kiểm định đuôi thấp hơn; tuy nhiên, đối với thử nghiệm đuôi trên, bạn phải lấy 1,0 trừ đi con số này để nhận được giá trị p chính xác. 2. Nếu thống kê kiểm tra là không âm (dương hoặc bằng 0), thì giá trị p trong đầu ra là giá trị p chính xác cho kiểm tra đuôi trên; nhưng đối với thử nghiệm low-tail, bạn phải lấy 1,0 trừ đi con số này để có được giá trị p chính xác. 3. Đối với phép thử đuôi dưới, bạn phải thay đổi dấu của giá trị tới hạn một đầu. Chỉ hiếm khi các phương sai dân số được biết đến; Ngoài ra, thường rất khó để biện minh cho giả định rằng phương sai của mỗi tổng thể là bằng nhau. Do đó, trong hầu hết các tình huống thực tế, chúng tôi sử dụng phép thử t: Hai mẫu giả định phương sai không bằng nhau. Quy trình này cũng hoạt động tốt với cỡ mẫu nhỏ nếu quần thể gần như bình thường. Kích thước của mỗi mẫu được khuyến nghị là xấp xỉ như nhau và tổng cộng là 20 mẫu trở lên. Nếu quần thể có độ lệch cao, thì nên sử dụng cỡ mẫu lớn hơn. VÍ DỤ 7.10 Kiểm tra các giả thuyết về hiệu suất trong thời gian chờ đợi của nhà cung cấp Để tiến hành kiểm tra giả thuyết nhằm so sánh thời gian giao hàng là vì sự bình đẳng về phương tiện. Tuy nhiên, công cụ này cho phép cho Tấm nhôm và Sản phẩm bền, trước tiên hãy sắp xếp dữ liệu theo nhà bạn chỉ định một giá trị D0 để kiểm tra giả thuyết H0 : M1 cung cấp, sau đó chọn -test: Two-Sample Giả định phương sai không nếu bạn muốn kiểm tra xem dân số có nghĩa là có một khoảng cách nhất bằng nhau từ phân tích dữ liệu định giữa chúng hay không. Trong ví dụ này, phạm vi Biến 1 xác định thực đơn. Hộp thoại được hiển thị trong Hình 7.8. Hộp thoại sẽ nhắc thời gian giao hàng cho Tấm Phèn và phạm vi Biến 2 cho Sản phẩm Bền. M2 = D0 bạn về phạm vi dữ liệu cho từng biến, chênh lệch trung bình được giả định, liệu phạm vi có nhãn hay không và mức ý nghĩa A. Nếu bạn để trống ô Chênh lệch trung bình giả định hoặc nhập số 0, phép thử Hình 7.9 cho thấy kết quả từ công cụ. Công cụ này cung cấp thông tin cho cả bài kiểm tra một đầu và hai đầu. Vì đây là bài kiểm tra một đầu nên chúng tôi sử dụng Machine Translated by Google 218 Chương 7 Suy luận thống kê thông tin nổi bật trong Hình 7.9 để rút ra kết luận của chúng Các sản phẩm. Chúng ta có thể rút ra kết luận tương tự bằng cách tôi. Đối với ví dụ này, t Stat là dương và chúng ta có phép thử so sánh giá trị của t Stat với giá trị tới hạn t Critical one đuôi trên; do đó, sử dụng các quy tắc đã nêu trước đó, giá trị p tail. Là một bài kiểm tra đuôi trên, giá trị của t Một đuôi nghiêm trọng là 0,00166. Chỉ dựa trên điều này, chúng tôi bác bỏ giả thuyết là 1,812. So sánh điều này với giá trị của t Stat, chúng ta sẽ bác không và phải kết luận rằng Alum Sheeting có thời gian sản xuất bỏ H0 chỉ khi S at + C itical one@ ail. Vì t Stat lớn hơn t trung bình dài hơn theo thống kê so với Durrable Critical one-tail nên chúng ta bác bỏ giả thuyết không. Thử nghiệm hai mẫu cho phương tiện với các mẫu được ghép nối Trong ví dụ trước để kiểm tra sự khác biệt về thời gian giao hàng trung bình của nhà cung cấp, chúng tôi đã sử dụng các mẫu độc lập; nghĩa là, các đơn đặt hàng trong mẫu của mỗi nhà cung cấp không liên quan đến nhau. Trong nhiều trường hợp, dữ liệu từ hai mẫu được ghép nối hoặc khớp một cách tự nhiên. Ví dụ, giả sử rằng một mẫu công nhân dây chuyền lắp ráp thực hiện một nhiệm vụ bằng hai loại phương pháp làm việc khác nhau và người quản lý nhà máy muốn xác định xem có sự khác biệt nào tồn tại giữa hai phương pháp hay không. Khi thu thập dữ liệu, mỗi công nhân sẽ thực hiện nhiệm vụ bằng từng phương pháp. Nếu chúng tôi sử dụng các mẫu độc lập, chúng tôi sẽ chọn ngẫu nhiên hai nhóm nhân viên khác nhau và chỉ định một phương thức làm việc cho một nhóm và phương thức gốc thay đổi cho nhóm thứ hai. Mỗi công nhân sẽ thực hiện nhiệm vụ chỉ bằng một trong các phương pháp. Một ví dụ khác, giả sử rằng chúng ta muốn so sánh giá bán lẻ của các mặt hàng tạp hóa giữa hai cửa hàng tạp hóa cạnh tranh. Việc so sánh các mẫu mặt hàng khác nhau từ mỗi cửa hàng không có ý nghĩa gì. Thay vào đó, chúng tôi sẽ chọn một mẫu các mặt hàng tạp hóa và Hình 7.8 Hộp thoại cho hai mẫu -Thử nghiệm, Sigma không xác định Hình 7.9 Kết quả cho thử nghiệm hai mẫu cho hiệu suất thời gian chờ đợi Machine Translated by Google 219 Chương 7 Suy luận thống kê tìm giá tính cho các mặt hàng giống nhau của mỗi cửa hàng. Trong trường hợp này, các mẫu được ghép nối vì mỗi mặt hàng sẽ có giá từ mỗi cửa hàng trong số hai cửa hàng. Khi các mẫu được ghép nối được sử dụng, thử nghiệm t được ghép nối sẽ chính xác hơn so với giả định rằng dữ liệu đến từ các quần thể độc lập. Giả thuyết khống mà chúng tôi kiểm tra xoay quanh sự khác biệt trung bình (mD) giữa các mẫu được ghép nối; đó là H0 : mD 5Ú, …, hoặc 6 0 H1 : mD 56, 7 hoặc } 0. Thử nghiệm sử dụng chênh lệch trung bình giữa dữ liệu được ghép nối và độ lệch chuẩn của các khác biệt tương tự như thử nghiệm một mẫu. Excel có một công cụ Phân tích dữ liệu, t-Test: Paired Two-Sample for Phương tiện để tiến hành loại thử nghiệm này. Trong hộp thoại, bạn chỉ cần nhập phạm vi biến và chênh lệch trung bình giả định. VÍ DỤ 7.11 Sử dụng phép thử hai mẫu được ghép nối để tìm phương tiện Tệp Excel Pile Foundation chứa các ước tính được sử dụng Hình 7.10 hiển thị một phần dữ liệu và hộp thoại Excel trong giá thầu và chiều dài cọc khoan-đúc thực tế mà các kỹ cho thử nghiệm hai mẫu được ghép nối. Hình 7.11 hiển thị đầu sư cuối cùng phải sử dụng cho một dự án kỹ thuật nền móng. ra từ công cụ Excel sử dụng mức ý nghĩa 0,05, trong đó Biến 1 Kinh nghiệm trước đây của nhà thầu cho thấy rằng thông tin là độ dài ước tính và Biến 2 là độ dài thực tế. Đây là phép giá thầu nói chung là chính xác, vì vậy giá trị trung bình thử hai phía, vì vậy trong Hình 7.11, chúng tôi diễn giải các của các chênh lệch theo cặp giữa chiều dài cọc thực tế và kết quả chỉ sử dụng thông tin hai phía được đánh dấu. Các giá chiều dài ước tính phải gần bằng không. Sau khi dự án này hoàn trị tới hạn là ±1,968 và vì t Stat nhỏ hơn nhiều so với giá thành, nhà thầu nhận thấy rằng chênh lệch trung bình giữa trị tới hạn thấp hơn, chúng ta phải bác bỏ giả thuyết không chiều dài thực tế và chiều dài ước tính là 6,38. và kết luận rằng giá trị trung bình của sự khác biệt giữa ước tính và chiều dài cọc thực tế là có ý nghĩa thống kê. Lưu ý Nhà thầu có thể kết luận rằng thông tin dự thầu là kém? rằng giá trị p về cơ bản bằng 0, xác minh kết luận này. Kiểm tra sự bình đẳng của phương sai Hiểu được sự thay đổi trong quy trình kinh doanh là rất quan trọng, như chúng tôi đã nêu trước đây. Chẳng hạn, một địa điểm hoặc một nhóm nhân viên có thể hiện sự thay đổi cao hơn những nơi khác không? Chúng ta có thể kiểm tra sự bằng nhau của phương sai giữa hai mẫu bằng cách sử dụng một loại kiểm tra mới, Hình 7.10 Một phần của đống tệp Excel Sự thành lập Machine Translated by Google 220 Chương 7 Suy luận thống kê Hình 7.11 Đầu ra Excel cho ghép nối Thử nghiệm hai mẫu cho phương tiện bài kiểm tra F. Để sử dụng thử nghiệm này, chúng ta phải giả định rằng cả hai mẫu đều được lấy từ các quần thể bình thường. Các giả thuyết chúng tôi kiểm tra là - H0 : 2 1 H1 : - 2 1 2 2 0 0 (7.5) 2 2 Để kiểm tra những giả thuyết này, chúng tôi thu thập các mẫu quan sát n1 từ quần thể 1 và n2 quan sát từ quần thể 2. Thử nghiệm sử dụng thống kê kiểm định F, là tỷ lệ phương sai của hai mẫu: F s21 (7.6) s22 Phân phối lấy mẫu của thống kê này được gọi là phân phối F. Tương tự như phân phối t, nó được đặc trưng bởi bậc tự do; tuy nhiên, phân phối F có hai bậc tự do, một liên kết với tử số của thống kê F, n1 - 1, và một liên kết với mẫu số của thống kê F, n2 - 1. Bảng A.4 trong Phụ lục A ở cuối sách chỉ cung cấp các giá trị tới hạn trên đuôi và phân phối không phải là số liệu đối xứng, cũng như phân phối chuẩn hoặc phân phối t. Do đó, mặc dù kiểm định giả thuyết thực sự là kiểm định hai phía, nhưng chúng tôi sẽ đơn giản hóa nó thành kiểm định một phía để giúp dễ dàng sử dụng các bảng phân phối F và giải thích kết quả của công cụ Excel mà chúng tôi sẽ sử dụng. Chúng tôi làm điều này bằng cách đảm bảo rằng khi tính toán F, chúng tôi lấy tỷ lệ của phương sai mẫu lớn hơn với phương sai mẫu nhỏ hơn. Nếu các phương sai khác biệt đáng kể với nhau, chúng ta mong đợi F lớn hơn 1 nhiều; F càng gần 1 thì càng có nhiều khả năng các phương sai là như nhau. Do đó, chúng ta chỉ cần so sánh F với giá trị tới hạn trên đuôi. Do đó, đối với một mức độ có ý nghĩa a, chúng ta tìm giá trị tới hạn Fa>2,df1,df2 của phân phối F, và sau đó chúng ta bác bỏ giả thuyết không nếu thống kê kiểm định F vượt quá giá trị tới hạn. Lưu ý rằng chúng tôi là sử dụng a>2 để tìm giá trị tới hạn, không phải a. Điều này là do chúng tôi chỉ sử dụng phần đuôi trên thông tin làm cơ sở cho kết luận của chúng tôi. VÍ DỤ 7.12 Áp dụng kiểm định F cho sự bằng nhau của các phương sai Để minh họa cho phép thử F, giả sử rằng chúng tôi muốn xác Công cụ phân tích dữ liệu F-test cho sự bình đẳng của phương định liệu phương sai của thời gian giao hàng có giống nhau đối sai. Nhật ký đường kính nhắc bạn nhập phạm vi dữ liệu mẫu cho với Tấm nhôm và Sản phẩm bền trong dữ liệu Đơn đặt hàng hay từng biến. Như chúng tôi đã lưu ý, bạn nên đảm bảo rằng biến không. Kiểm tra F có thể được áp dụng bằng Excel đầu tiên có phương sai lớn hơn; điều này có thể yêu cầu bạn phải Machine Translated by Google 221 Chương 7 Suy luận thống kê Hình 7.12 Kết quả cho hai mẫu F-Test cho đẳng thức của phương sai tính toán phương sai trước khi bạn sử dụng công cụ. Trong là 3,607. Bởi vì F * F Critical one-tail, chúng ta không thể trường hợp này, phương sai của thời gian giao hàng đối với Tấm bác bỏ giả thuyết không và kết luận rằng các phương sai Phèn lớn hơn phương sai đối với Sản phẩm Bền (xem Hình 7.9), vì không khác biệt đáng kể với nhau. Lưu ý rằng giá trị p là vậy phương sai này được gán cho Biến 1. Cũng lưu ý rằng nếu P1F*=f 2 one ail = 0,0286. Mặc dù mức ý nghĩa là 0,05, hãy chúng ta chọn A = 0,05, thì chúng ta phải nhập 0,025 cho mức độ nhớ rằng chúng ta phải so sánh ý nghĩa trong hộp thoại Excel. Kết quả được thể hiện trong Hình 7.12. điều này thành A>2 = 0,025 vì chúng tôi chỉ sử dụng đuôi trên Giá trị của thống kê F, F, là 3,467. Chúng tôi so sánh thông tin. giá trị này với giá trị tới hạn trên đuôi, F tới hạn một đuôi, Kiểm định F về sự bằng nhau của các phương sai thường được sử dụng trước khi kiểm định sự khác biệt về giá trị trung bình để kiểm định thích hợp (không biết phương sai tổng thể và được giả định là không bằng nhau hoặc phương sai tổng thể chưa biết và được giả định bằng nhau, mà chúng ta đã thảo luận trước đó trong chương này) được chọn . Phân tích phương sai (ANOVA) Đến thời điểm này, chúng ta đã thảo luận về các thử nghiệm giả thuyết so sánh một tham số tổng thể với một giá trị không đổi hoặc so sánh phương tiện của hai tổng thể khác nhau. Thông thường, chúng tôi muốn so sánh phương tiện của một số nhóm khác nhau để xác định xem tất cả có bằng nhau hay không hoặc nếu có sự khác biệt đáng kể so với phần còn lại. VÍ DỤ 7.13 Sự khác biệt trong dữ liệu khảo sát bảo hiểm Trong Khảo sát bảo hiểm tệp dữ liệu Excel, chúng tôi có thể giáo dục. Chúng ta có thể sắp xếp dữ liệu theo trình độ học vấn quan tâm đến việc liệu có sự khác biệt đáng kể nào tồn tại về và sau đó tạo một bảng tương tự như sau. sự hài lòng giữa các cá nhân với các mức độ khác nhau của Tốt nghiệp cao đẳng Bằng tốt nghiệp Cao đẳng nào đó 5 3 4 3 4 1 5 5 4 3 5 2 3 5 3 3 4 4 3 5 4 4 5 2 Trung bình 3.444 Đếm 9 4.500 số 8 3.143 7 Machine Translated by Google 222 Chương 7 Suy luận thống kê Mặc dù mức độ hài lòng trung bình của mỗi nhóm là khác nhau cho biết một cách thuyết phục liệu những khác biệt này có và có vẻ như mức độ hài lòng trung bình của những người có bằng đáng kể hay không do lỗi lấy mẫu. tốt nghiệp cao hơn, nhưng chúng ta không thể Trong thuật ngữ thống kê, biến quan tâm được gọi là một yếu tố. Trong ví dụ này, yếu tố là trình độ học vấn và chúng tôi có ba cấp độ phân loại của yếu tố này, tốt nghiệp đại học, bằng tốt nghiệp và một số trường đại học. Do đó, có vẻ như chúng ta sẽ phải thực hiện ba thử nghiệm theo cặp khác nhau để xác định xem có tồn tại sự khác biệt đáng kể nào giữa chúng hay không. Khi số lượng cấp độ yếu tố tăng lên, bạn có thể dễ dàng nhận thấy rằng số lượng thử nghiệm theo cặp tăng lên rất nhanh. May mắn thay, tồn tại các công cụ thống kê khác giúp loại bỏ sự cần thiết của một phương pháp tiếp cận ap tẻ nhạt như vậy. Phân tích phương sai (ANOVA) là một trong số đó. Giả thuyết vô hiệu cho ANOVA là dân số trung bình của tất cả các nhóm đều bằng nhau; giả thuyết thay thế là ít nhất một giá trị trung bình khác với phần còn lại: H0 : m1 m2 g mm H1 : ít nhất một giá trị trung bình khác với các giá trị trung bình khác ANOVA lấy tên của nó từ thực tế là chúng tôi đang phân tích các phương sai trong dữ liệu; về cơ bản, ANOVA tính toán thước đo phương sai giữa phương tiện của từng nhóm và thước đo phương sai trong các nhóm và kiểm tra một thống kê kiểm tra là tỷ lệ của các thước đo này. Thống kê kiểm định này có thể được chứng minh là có phân phối F (tương tự như kiểm định sự bằng nhau của các phương sai). Nếu thống kê F đủ lớn dựa trên mức ý nghĩa đã chọn và vượt quá giá trị tới hạn, chúng tôi sẽ bác bỏ giả thuyết giả thuyết vô hiệu. Excel cung cấp công cụ Phân tích dữ liệu ANOVA: Single Factor để tiến hành phân tích phương sai. VÍ DỤ 7.14 Áp dụng Công cụ Excel ANOVA Để kiểm tra giả thuyết không rằng mức độ hài lòng trung bình Kết quả cho ví dụ này được đưa ra trong Hình 7.14. đối với tất cả các cấp học trong tệp Excel Khảo sát bảo hiểm Báo cáo đầu ra bắt đầu bằng một báo cáo tóm tắt các số liệu bằng nhau so với giả thuyết thay thế rằng ít nhất một giá trị thống kê cơ bản cho từng nhóm. Phần ANOVA báo cáo chi tiết trung bình khác nhau, hãy chọn ANOVA: Yếu tố đơn của bài kiểm tra giả thuyết. Bạn không cần phải lo lắng về tất từ các tùy chọn Phân tích dữ liệu. Trước tiên, bạn phải thiết cả các chi tiết toán học. Thông tin quan trọng để giải thích lập trang tính sao cho dữ liệu bạn muốn sử dụng được hiển thị bài kiểm tra được đưa ra trong các cột có nhãn F (thống kê trong các cột liền kề như trong Ví dụ 7.13. kiểm tra F), giá trị P (giá trị p cho bài kiểm tra) và F crit Trong hộp thoại minh họa trong Hình 7.13, chỉ định phạm vi đầu (giá trị tới hạn từ phân phối F). Trong ví dụ này, F = 3,92, vào của dữ liệu (phải nằm trong các cột liền kề) và liệu dữ và giá trị tới hạn từ phân phối F là 3,4668. Ở đây F + F crit; liệu đó có được lưu trữ theo hàng hay cột hay không (nghĩa là do đó, chúng ta phải bác bỏ giả thuyết không và kết luận rằng mỗi cấp độ hoặc nhóm yếu tố là một hàng hay cột trong phạm vi) . có sự khác biệt đáng kể về phương tiện của các nhóm; tức là Kích thước mẫu cho mỗi cấp độ yếu tố không cần giống nhau, mức độ hài lòng trung bình không giống nhau giữa ba cấp học. nhưng phạm vi đầu vào phải là vùng hình chữ nhật chứa tất cả Ngoài ra, chúng tôi thấy rằng giá trị p nhỏ hơn mức ý nghĩa đã dữ liệu. Bạn cũng phải xác định mức ý nghĩa (A). chọn, 0,05, dẫn đến kết luận tương tự. Machine Translated by Google Chương 7 Suy luận thống kê 223 Hình 7.13 Hộp thoại một nhân tố ANOVA Hình 7.14 Kết quả ANOVA cho Dữ liệu khảo sát bảo hiểm Mặc dù ANOVA có thể xác định sự khác biệt giữa các phương tiện của nhiều quần thể, nhưng nó không thể xác định phương tiện nào khác với phần còn lại. Để làm điều này, chúng tôi có thể sử dụng quy trình so sánh nhiều Tukey-Kramer. Thật không may, Excel không cung cấp công cụ này, nhưng nó có thể được tìm thấy trong các phần mềm thống kê khác. Giả định của ANOVA ANOVA yêu cầu các giả định rằng m nhóm hoặc cấp độ nhân tố đang được nghiên cứu đại diện cho các quần thể có kết quả đo lường 1. được lấy một cách ngẫu nhiên và độc lập, 2. được phân phối bình thường, và 3. có phương sai bằng nhau. Nếu những giả định này bị vi phạm thì mức độ ý nghĩa và sức mạnh của phép thử có thể bị ảnh hưởng. Thông thường, giả định đầu tiên dễ dàng được xác thực khi các mẫu ngẫu nhiên được chọn cho dữ liệu. ANOVA khá mạnh đối với những sai lệch so với tính bình thường, vì vậy trong hầu hết các trường hợp, đây không phải là vấn đề nghiêm trọng. Nếu cỡ mẫu bằng nhau, thì việc vi phạm giả định thứ ba không có ảnh hưởng nghiêm trọng đến kết luận thống kê; tuy nhiên, với kích thước mẫu không bằng nhau, nó có thể. Khi các giả định cơ bản của ANOVA bị vi phạm, bạn có thể sử dụng phép thử ric không tham số không yêu cầu các giả định này; chúng tôi giới thiệu bạn đến các văn bản toàn diện hơn về số liệu thống kê để biết thêm thông tin và ví dụ. Machine Translated by Google 224 Chương 7 Suy luận thống kê Cuối cùng, chúng tôi muốn chỉ ra rằng sinh viên thường sử dụng ANOVA để so sánh sự bình đẳng về phương tiện của chính xác hai quần thể. Điều quan trọng là phải nhận ra rằng khi làm điều này, bạn đang đưa ra giả định rằng các quần thể có phương sai bằng nhau (giả định 3). Do đó, bạn sẽ thấy rằng các giá trị p cho cả ANOVA và Kiểm tra t: Giả sử hai mẫu Phương sai bằng nhau sẽ giống nhau và dẫn đến cùng một kết luận. Tuy nhiên, nếu các phương sai không bằng nhau như trường hợp chung của dữ liệu mẫu, ANOVA có thể dẫn đến một kết luận sai lầm. Chúng tôi khuyên bạn không nên sử dụng ANOVA để so sánh phương tiện của hai quần thể mà thay vào đó, hãy sử dụng phép thử t thích hợp giả định các phương sai không bằng nhau. Kiểm tra Chi-Square cho Độc lập Một vấn đề phổ biến trong kinh doanh là xác định xem hai biến phân loại có độc lập hay không. Chúng tôi đã giới thiệu khái niệm về các sự kiện độc lập trong Chương 5. Trong ví dụ khảo sát về nước tăng lực (Ví dụ 5.9), chúng tôi đã sử dụng xác suất có điều kiện để xác định xem sở thích nhãn hiệu có độc lập với giới tính hay không. Tuy nhiên, với dữ liệu mẫu, lỗi lấy mẫu có thể gây khó khăn cho việc đánh giá đúng tính độc lập của các biến phân loại. Chúng ta sẽ không bao giờ mong đợi các xác suất kết hợp hoàn toàn giống với tích của các xác suất cận biên do lỗi lấy mẫu ngay cả khi hai biến độc lập về mặt thống kê. Kiểm tra tính độc lập là rất quan trọng trong các ứng dụng tiếp thị. VÍ DỤ 7.15 Tính độc lập và chiến lược tiếp thị Hình 7.15 cho thấy một phần dữ liệu mẫu được sử dụng trong sinh viên nữ cũng thích nhãn hiệu 1. Trên thực tế, chỉ có 9 Chương 5 về sở thích nhãn hiệu nước tăng lực (Khảo sát về nước trong số 37 (24%) thích nhãn hiệu 1. Tuy nhiên, chúng tôi tăng lực trên tệp Excel) và bảng chéo kết quả. Một câu hỏi không biết liệu điều này chỉ đơn giản là do lỗi lấy mẫu hay tiếp thị quan trọng là liệu tỷ lệ nam giới thích một nhãn đại diện phản đối sự khác biệt đáng kể. Biết liệu giới tính hiệu cụ thể có khác với tỷ lệ nữ giới hay không. Chẳng hạn, và sở thích thương hiệu có độc lập hay không có thể giúp trong số 63 sinh viên nam, 25 (40%) thích thương hiệu 1. Nếu nhân viên tiếp thị nhắm mục tiêu chiến dịch quảng cáo tốt hơn. giới tính và sở thích thương hiệu thực sự độc lập, chúng tôi Nếu họ không độc lập, thì quảng cáo sẽ khác nhau đối với nam hy vọng rằng tỷ lệ mẫu của các sinh viên là như nhau. và nữ, trong khi nếu họ độc lập thì điều đó không thành vấn đề. Chúng ta có thể kiểm tra tính độc lập bằng cách sử dụng một bài kiểm tra giả thuyết được gọi là bài kiểm tra chi bình phương cho Sự độc lập. Kiểm định chi bình phương cho tính độc lập kiểm tra các giả thuyết sau: H0 : hai biến phân loại là độc lập H1 : hai biến phân loại là phụ thuộc Bài kiểm tra chi bình phương là một ví dụ về bài kiểm tra phi tham số; nghĩa là, một thứ không phụ thuộc vào các giả định thống kê hạn chế, như ANOVA. Điều này làm cho nó trở thành một công cụ phổ biến và được áp dụng rộng rãi để hiểu mối quan hệ giữa các dữ liệu phân loại. Bước đầu tiên trong quy trình là tính toán tần suất dự kiến trong mỗi ô của bảng chéo nếu hai biến độc lập. Điều này được thực hiện dễ dàng bằng cách sử dụng như sau: tần suất mong đợi ở hàng i và cột j (tổng cộng hàng i)(tổng cộng cột j) tổng số quan sát (7.7) Machine Translated by Google 225 Chương 7 Suy luận thống kê Hình 7.15 Phần năng lượng Khảo sát đồ uống và Bảng chéo Hình 7.16 Tần suất dự kiến cho Kiểm tra Chi-Square VÍ DỤ 7.16 Tính tần số dự kiến Đối với dữ liệu Khảo sát về Nước tăng lực, chúng tôi có thể có thể dễ dàng thực hiện trong Excel. Hình 7.16 thể hiện kết tính tần suất dự kiến bằng cách sử dụng dữ liệu từ bảng chéo quả (xem file Excel Chi-Square Test). Ví dụ, công thức trong và công thức (7.7). Ví dụ, tần suất mong đợi của phụ nữ thích ô F11 là =$I5*F$7/$I$7, có thể sao chép công thức này sang thương hiệu 1 là (37) (34) 100 = 12,58. Cái này các ô khác để hoàn thành phép tính. Tiếp theo, chúng tôi tính toán một thống kê kiểm tra, được gọi là thống kê chi bình phương, là tổng bình phương của sự khác biệt giữa tần suất được quan sát, fo và tần suất dự kiến, fe , chia cho tần suất dự kiến trong mỗi ô: 2 một 1 fo - fe 22 (7.8) fe Tần suất quan sát được càng gần với tần suất mong đợi thì giá trị của thống kê chi bình 2 phương càng nhỏ. Phân phối lấy mẫu của tion được gọi là phân phối là một phân phối đặc biệt 2 chi-square 1 2. Phân phối chi-square được đặc trưng bởi bậc tự do, tương tự như phân phối t. Bảng A.3 trong Phụ lục A ở cuối cuốn sách này cung cấp các giá trị tới hạn của phân phối chi-square cho các giá trị được chọn của a. Chúng tôi so sánh thống kê chi bình phương cho một mức ý nghĩa xác định a với giá trị tới hạn từ phân phối chi bình phương với 1r - 121c - 12 bậc tự do, trong đó r và c là số hàng và cột trong chéo bảng lập bảng tương ứng. Hàm Excel CHISQ.INV.RT(xác suất, độ_tự do) trả về giá trị có vùng đuôi bên phải bằng với xác suất cho một mức độ tự do đã chỉ định. Bằng cách đặt xác suất bằng với mức ý nghĩa, chúng ta có thể thu được giá trị tới hạn cho kiểm định giả thuyết. Nếu thống kê kiểm định vượt quá giá trị tới hạn đối với một mức ý nghĩa cụ thể, chúng tôi bác bỏ H0 . Hàm Excel CHISQ.TEST(actual_range,expected_range) tính giá trị p cho phép kiểm chi bình phương. 2 Machine Translated by Google 226 Chương 7 Suy luận thống kê Hình 7.17 Thực hiện Excel của Kiểm định chi bình phương VÍ DỤ 7.17 Tiến hành phép thử Chi-Square Đối với dữ liệu Khảo sát Nước tăng lực, Hình 7.17 cho thấy giá trị tới hạn 5,99146. Bởi vì thống kê kiểm tra vượt quá các tính toán của thống kê chi bình phương sử dụng công thức giá trị tới hạn, chúng tôi bác bỏ giả thuyết không rằng hai (7.8). Ví dụ: công thức trong ô F17 là =(F5 biến phân loại là độc lập. F11)2 F11, công thức này có thể được sao chép sang các ô khác. Tổng lớn trong Ngoài ra, chúng ta có thể chỉ cần sử dụng hàm CHISQ.TEST ô phía dưới bên phải là giá trị . Trong trường hợp này, thống để tìm giá trị p cho phép thử và đưa ra kết luận dựa trên giá của 2 kê kiểm định chi bình phương là 6,4924. trị đó mà không cần tính toán thống kê chi bình phương. Vì bảng chéo có = 2 hàng và c = 3 Đối với ví dụ này, hàm CHISQ.TEST(F6:H7,F12:H13) trả về giá cột, chúng ta có (2 trị p là 0,0389, nhỏ hơn A = 0,05; 1) (3 1) = 2 bậc tự do đối với phân phối chi-square. Sử dụng A = 0,05, do đó, chúng tôi bác bỏ giả thuyết khống. hàm Excel CHISQ.INV.RT(0,05,2) trả về Thận trọng khi sử dụng Kiểm tra Chi-Square Đầu tiên, khi sử dụng PivotTable để xây dựng bảng chéo và thực hiện kiểm tra chi bình phương trong Excel tương tự như Hình 7.17, hãy hết sức thận trọng với các ô trống trong PivotTable. Các ô trống sẽ không được tính trong phép tính chi-square và sẽ dẫn đến lỗi. Nếu bạn có các ô trống trong PivotTable, chỉ cần thay thế chúng bằng số không hoặc bấm chuột phải vào PivotTable, chọn Tùy chọn PivotTable, rồi nhập 0 vào trường cho hộp kiểm Đối với các ô trống hiển thị. Thứ hai, thử nghiệm chi bình phương giả định tần số tế bào dự kiến đầy đủ. Nguyên tắc chung là không có quá 20% ô có tần số dự kiến nhỏ hơn 5 và không có tần số dự kiến nào bằng 0. Hiện có nhiều quy trình thống kê nâng cao hơn để xử lý vấn đề này, nhưng bạn có thể xem xét việc tổng hợp một số hàng hoặc cột theo kiểu hợp lý để thực thi giả định này. Tất nhiên, điều này dẫn đến ít hàng hoặc cột hơn. Machine Translated by Google 227 Chương 7 Suy luận thống kê Phân tích trong thực tế: Sử dụng thử nghiệm giả thuyết và phân tích kinh doanh trong Dự án Cải thiện Dịch vụ Bộ phận Trợ giúp1 Schlumberger là một nhà cung cấp dịch vụ mỏ dầu quốc tế trung tâm cuộc gọi và bộ phận trợ giúp khác nhau về mặt có trụ sở tại Houston, Texas. Thông qua một hợp đồng thuê thống kê, họ không tìm thấy lợi thế đáng kể về mặt thống ngoài, họ cung cấp các dịch vụ bàn trợ giúp cho một công kê nào trong việc giữ nhân viên bộ phận trợ giúp làm việc ty viễn thông toàn cầu cung cấp các dịch vụ liên lạc hữu tại trung tâm cuộc gọi. Do đó, họ đã chuyển các nhân viên tuyến và viễn thông tích hợp cho hơn 2 triệu thuê bao di trợ giúp đến khu vực văn phòng chính của khách hàng. Sử động. Bộ phận trợ giúp, đặt tại Ecuador, phải đối mặt với dụng nhiều kỹ thuật phân tích khác, họ có thể thực hiện các khiếu nại ngày càng tăng của khách hàng và tổn thất về các thay đổi đối với quy trình của mình, dẫn đến kết quả như sau: đô la và thời gian chu kỳ. Công ty đã dựa vào khả năng phân tích của một trong những người quản lý bộ phận trợ giúp để điều tra và giải quyết vấn đề. Dữ liệu cho thấy thời gian giải quyết trung bình cho các sự cố được báo cáo cho bộ phận trợ giúp là 9,75 giờ. Công ty đặt mục tiêu giảm 50% thời gian giải quyết trung bình. Ngoài ra, số lượng các vấn đề được báo cáo cho bộ phận trợ giúp đã đạt mức trung bình 30.000 mỗi tháng. Giảm tổng số vấn đề được báo cáo cho bộ phận trợ giúp sẽ cho phép công ty giải quyết những vấn đề chưa được giải quyết do thiếu thời gian và giảm số lượng cuộc gọi bị bỏ dở. Họ đặt mục StockLite/ Shutterstock.com tiêu xác định các sự cố có thể ngăn ngừa để khách hàng không phải liên hệ với bộ phận trợ giúp ngay từ đầu và đặt mục tiêu 15.000 sự cố. Là một phần trong phân tích của họ, họ quan sát thấy rằng thời gian giải pháp trung bình cho các kỹ thuật viên giảm số lượng các vấn đề về bộ phận trợ giúp là bộ phận trợ giúp làm việc tại trung tâm cuộc gọi dường như 32% thấp hơn mức trung bình của các kỹ thuật viên làm việc tại nâng cao năng lực đáp ứng mục tiêu tổng số chỗ với khách hàng. Họ đã tiến hành một bài kiểm tra giả phát hành 15.000 thuyết xoay quanh câu hỏi: Có sự khác biệt nào giữa việc giảm thời gian giải pháp máy tính để bàn trung để nhân viên bộ phận trợ giúp làm việc tại một cơ sở bên bình từ 9,75 giờ xuống còn 1 giờ, cải ngoài cơ sở hơn là tại chỗ trong văn phòng chính của khách thiện 89,5% hàng không? Giả thuyết khống là không có sự khác biệt giảm tỷ lệ từ bỏ cuộc gọi từ 44% xuống 26% đáng kể; giả thuyết thay thế là có một sự khác biệt đáng kể. Sử dụng phép thử hai mẫu để đánh giá liệu giảm 69% chi phí vận hành bộ phận trợ giúp Điều khoản quan trọng giả thuyết thay thế giả thuyết không Phân tích phương sai (ANOVA) Thử nghiệm giả thuyết một mẫu phân phối Chi bình phương Kiểm định một phía của giả thuyết thống kê chi bình phương p-Value (mức ý nghĩa quan sát được) hệ số tin cậy Sức mạnh của bài kiểm tra Nhân tố suy luận thống kê giả thuyết Kiểm định hai phía của giả thuyết kiểm định giả thuyết Lỗi loại I Mức độ ý nghĩa lỗi loại II 1Dựa trên Francisco, Endara M. “Bộ phận Trợ giúp Cải thiện Dịch vụ và Tiết kiệm Tiền với Six Sigma,” Hiệp hội Chất lượng Hoa Kỳ, http://asq.org/ economic-case/markets/pdf/help-desk-24490.pdf, được truy cập 19/8/11. Machine Translated by Google 228 Chương 7 Suy luận thống kê vấn đề và bài tập Đối với tất cả các kiểm định giả thuyết, hãy giả định rằng mức ý 32 nhà đầu tư thấy rằng 20 người trong số họ không thích rủi ro. nghĩa là 0,05 trừ khi có quy định khác. Xây dựng và kiểm tra các giả thuyết thích hợp để xác định xem 1. Tạo sổ làm việc Excel với các mẫu trang tính (tương tự như Khoảng tin cậy của sổ làm việc Excel) cho các thử nghiệm giả niềm tin của anh ta có hợp lệ hay không. 6. Một trường đại học tin rằng tuổi nghỉ hưu trung bình của các thuyết một mẫu về trung bình và tỷ lệ. Áp dụng các mẫu của bạn giảng viên hiện nay là 70 thay vì giá trị lịch sử là 65. Một cho các vấn đề ví dụ trong chương này. (Đối với các bài toán mẫu gồm 85 giảng viên cho thấy tuổi nghỉ hưu dự kiến trung bình tiếp theo, bạn nên sử dụng các công thức trong chương này để của họ là 68,4 với độ lệch chuẩn là 3,6. Trường đại học có thể thực hiện phép tính và chỉ sử dụng mẫu này để xác minh kết quả kết luận thống kê rằng tuổi nghỉ hưu trung bình bây giờ bằng của bạn!) 70 không? 7. Một người bán sách trực tuyến đang cân nhắc bán một thiết bị 2. Một trường kinh doanh có mục tiêu là số năm kinh nghiệm làm đọc sách điện tử nhưng sẽ chỉ làm như vậy nếu họ có bằng chứng việc trung bình của các ứng viên MBA ít nhất là 3 năm. Dựa trên cho thấy tỷ lệ khách hàng có khả năng mua một thiết bị ít nhất các ứng viên năm ngoái, người ta thấy rằng trong số 47 mẫu, số là 0,4. Dựa trên một cuộc khảo sát với 25 khách hàng, người năm kinh nghiệm làm việc trung bình là 2,57 với độ lệch chuẩn ta thấy rằng 8 người trong số họ nói rằng họ có thể sẽ mua một là 3,67. Nhà trường có thể rút ra kết luận gì? thiết bị đọc sách điện tử. Người bán sách nên làm gì? 3. Một ngân hàng đã từng phát hiện ra rằng các khoản phí trung 8. Tổng đài thường có doanh thu cao. Giám đốc nhân sự của một ngân bình hàng tháng trong những năm gần đây đối với thẻ tín dụng hàng lớn đã tổng hợp dữ liệu về khoảng 70 nhân viên cũ tại một của họ là 1.350 đô la. Với một nền kinh tế đang cải thiện, họ trong các trung tâm cuộc gọi của ngân hàng trong tệp Excel Call nghi ngờ rằng điều này đã tăng lên. Một mẫu gồm 42 khách hàng Center Data. Khi viết một bài báo về điều kiện làm việc của dẫn đến khoản phí trung bình hàng tháng là $1.376,54 với độ call center, một phóng viên đã khẳng định rằng nhiệm kỳ trung lệch chuẩn là $183,89. Dữ liệu này có cung cấp bằng chứng thống bình không quá 2 năm. Xây dựng và kiểm tra một giả thuyết bằng kê cho thấy các khoản phí trung bình hàng tháng đã tăng lên cách sử dụng những dữ liệu này để xác định xem tuyên bố này không? có thể bị tranh cãi hay không. 4. Một nhà bán lẻ tin rằng chiến lược quảng cáo mới của họ sẽ làm 9. Sử dụng dữ liệu trong tệp Excel Thời gian phục vụ tại sân bay, tăng doanh thu. Trước đây, chi tiêu trung bình cho 15 danh mục xác định xem hãng hàng không có thể tuyên bố rằng thời gian mặt hàng tiêu dùng ở cả nhóm tuổi 18–34 và 35+ là 70 đô la. phục vụ trung bình của họ ít hơn 2,5 phút hay không. 10. Sử dụng dữ liệu trong tệp Excel Thời gian sửa chữa máy tính, xác Một. Xây dựng một bài kiểm tra giả thuyết để xác định xem chi tiêu trung bình trong các danh mục này có tăng theo thống kê hay không. b. Sau khi chiến dịch quảng cáo mới được triển khai, một nghiên cứu tiếp thị cho thấy chi tiêu trung bình của 300 người được hỏi trong độ tuổi 18–34 là 75,86 đô la, với độ lệch chuẩn là 50,90 đô la. Có đủ bằng chứng để kết luận rằng chiến lược quảng cáo đã làm tăng đáng kể doanh số bán hàng ở nhóm tuổi này không? định xem công ty có thể tuyên bố rằng thời gian sửa chữa trung bình của họ ít hơn 15 ngày hay không. 11. Bộ Giáo dục Bang Ohio có bài kiểm tra trình độ bắt buộc dành cho học sinh lớp 9 bao gồm viết, đọc, toán, quyền công dân (nghiên cứu xã hội) và khoa học. Tệp Excel Hiệu suất Giáo dục Ohio cung cấp dữ liệu về tỷ lệ thành công (được định nghĩa là tỷ lệ phần trăm học sinh thi đậu) tại các khu học chánh ở khu vực đô thị Cincinnati lớn hơn cùng với mức trung bình của tiểu bang. Kiểm tra các giả thuyết không cho rằng điểm trung bình ở khu vực Cincinnati bằng với số điểm trung bình của tiểu bang trong mỗi c. Đối với 700 người trả lời ở độ tuổi trên 35, giá trị trung bài kiểm tra và cũng như điểm tổng hợp. bình và độ lệch chuẩn lần lượt là $68,53 và $45,29. Có đủ bằng chứng để kết luận rằng chiến lược quảng cáo có thể làm tăng đáng kể doanh số bán hàng ở nhóm tuổi này không? 12. Xây dựng và kiểm tra các giả thuyết để xác định xem bằng chứng thống kê có cho thấy tỷ lệ tốt nghiệp của (1) trường cao đẳng nghệ thuật tự do hàng đầu hoặc (2) trường đại học nghiên cứu 5. Một cố vấn tài chính tin rằng tỷ lệ người đầu tư không thích trong các trường cao đẳng và đại học mẫu vượt quá 90%. Dữ liệu rủi ro (nghĩa là cố gắng tránh rủi ro trong các quyết định đầu có hỗ trợ kết luận rằng tỷ lệ tốt nghiệp vượt quá 85% không? tư của họ) ít nhất là 0,7. Một cuộc khảo sát của Liệu kết luận của bạn Machine Translated by Google 229 Chương 7 Suy luận thống kê thay đổi nếu mức ý nghĩa là 0,01 thay vì 0,05? 20. Trong Khảo sát điện thoại di động trên tệp Excel, hãy kiểm tra giả thuyết rằng các câu trả lời trung bình cho Giá trị đồng đô 13. File Excel Sales Data cung cấp dữ liệu về một mẫu khách hàng. Một ấn phẩm thương mại trong ngành cho biết lợi nhuận trung bình trên mỗi khách hàng của ngành này ít nhất là 4.500 đô la. la và Dịch vụ khách hàng không khác nhau theo giới tính. 21. Trong tệp Excel Dữ liệu Rủi ro Tín dụng, hãy kiểm tra các giả thuyết rằng số tháng được tuyển dụng là giống nhau đối với Sử dụng kiểm tra giả thuyết, dữ liệu có hỗ trợ cho tuyên bố những ứng viên có rủi ro tín dụng thấp và những ứng viên có đánh này hay không? giá rủi ro tín dụng cao. Sử dụng mức ý nghĩa 0,01. 14. Tệp Excel Kiểm tra phòng cung cấp dữ liệu cho 100 lần kiểm tra 22. Xác định xem có bằng chứng để kết luận rằng điểm trung bình phòng tại mỗi khách sạn trong số 25 khách sạn trong một chuỗi trung bình của nam dự định theo học cao học lớn hơn điểm trung lớn. Ban quản lý mong muốn tỷ lệ phòng không phù hợp dưới 2%. bình của nữ dự định theo học cao học hay không bằng cách sử Kiểm tra một giả thuyết phù hợp để xác định xem ban quản lý dụng dữ liệu trong tệp Excel Khảo sát trường sau đại học. có thể đưa ra tuyên bố này hay không. 23. Giám đốc nhân sự của một ngân hàng lớn đã tổng hợp dữ liệu về 15. Người sử dụng lao động đang xem xét thương lượng cơ cấu giá bảo hiểm y tế với nhà cung cấp của mình nếu có đủ bằng chứng khoảng 70 nhân viên cũ tại một trong các trung tâm cuộc gọi của ngân hàng (xem Dữ liệu Trung tâm cuộc gọi trong tệp Excel). cho thấy khách hàng sẵn sàng trả phí bảo hiểm thấp hơn để nhận Đối với mỗi điều sau đây, giả sử các phương sai bằng nhau của được khoản khấu trừ cao hơn. Cụ thể, họ muốn ít nhất 30% nhân hai quần thể. viên của mình sẵn sàng làm việc này. Sử dụng dữ liệu mẫu trong Khảo sát bảo hiểm tệp Excel, xác định họ nên đưa ra quyết định gì. Một. Kiểm tra giả thuyết khống rằng thời gian phục vụ trung bình của nam giới cũng giống như của nữ giới. b. Kiểm tra giả thuyết khống rằng thời gian phục vụ trung bình của những cá nhân không có kinh nghiệm về trung tâm cuộc 16. Sử dụng dữ liệu trong tệp Excel Khảo sát Vận tải Người tiêu dùng, hãy kiểm tra các giả thuyết sau: Một. Các cá nhân dành ít nhất 8 giờ mỗi tuần trên xe của họ. gọi trước đó cũng giống như những người có kinh nghiệm. c. Kiểm tra giả thuyết không rằng thời gian làm việc trung bình của những người có bằng đại học là bằng với những người không có bằng đại học. b. Cá nhân lái xe trung bình 600 dặm một tuần. c. Độ tuổi trung bình của người lái xe SUV không lớn hơn 35. đ. Bây giờ hãy tiến hành kiểm định các giả thuyết về sự bằng nhau của các phương sai. Các giả định của bạn về các phương sai bằng nhau có hợp đ. Ít nhất 80% cá nhân hài lòng với phương tiện của họ. 17. Sử dụng Khảo sát Facebook tệp Excel, xác định xem số giờ trực tuyến trung bình mỗi tuần của nam và nữ có giống nhau hay không. lệ không? Nếu không, hãy lặp lại (các) phép thử cho các phương tiện bằng cách sử dụng phép thử phương sai không bằng nhau. 24. Một nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy tính cho ngành hàng không vũ trụ nhận được nhiều yêu cầu hỗ trợ kỹ thuật. Phần mềm theo dõi được sử dụng để theo dõi thời gian phản hồi và giải quyết. Ngoài ra, công ty khảo sát những 18. Xác định xem có bằng chứng để kết luận rằng số lần đi nghỉ trung khách hàng yêu cầu hỗ trợ theo thang điểm sau: 0—không vượt bình của những người đã kết hôn ít hơn số lần đi nghỉ của quá mong đợi; 1—đáp ứng được kỳ vọng; 2—đáp ứng kỳ vọng; 3—vượt những người độc thân/đã ly hôn hay không bằng cách sử dụng dữ quá mong đợi; 4—vượt quá mong đợi. Các câu hỏi như sau: liệu trong Khảo sát Kỳ nghỉ ở tệp Excel. Sử dụng mức ý nghĩa 0,05. Kết luận của bạn có thay đổi không nếu mức ý nghĩa là 0,01? 19. File Excel Accounting Professionals cung cấp kết quả khảo sát 27 nhân viên trong bộ phận thuế của một công ty trong danh sách Fortune 100. Một. Kiểm định giả thuyết không rằng số năm phục vụ trung bình của nam và nữ là như nhau. b. Kiểm định giả thuyết không rằng số năm học đại học trung bình của nam và nữ là như nhau. Q1: Đại diện bộ phận hỗ trợ có giải thích quy trình giải quyết vấn đề của bạn không? Câu hỏi 2: Đại diện bộ phận hỗ trợ có thông báo cho bạn về tình trạng tiến triển trong việc giải quyết vấn đề của bạn không? Câu hỏi 3: Đại diện hỗ trợ có lịch sự và chuyên nghiệp? Q4: Vấn đề của bạn đã được giải quyết chưa? Machine Translated by Google 230 Chương 7 Suy luận thống kê Q5: Vấn đề của bạn có được giải quyết trong khoảng thời gian chấp nhận được không? Q6: Nhìn chung, bạn thấy dịch vụ do bộ phận hỗ trợ kỹ thuật của chúng tôi cung cấp như thế nào? Câu hỏi cuối cùng yêu cầu khách hàng đánh giá chất lượng tổng thể của sản phẩm bằng thang điểm 0—rất kém; 1—nghèo; 2—tốt; 3— rất tốt; 4—xuất sắc. Một mẫu phản hồi khảo sát và dữ liệu phản hồi và giải pháp liên quan được cung cấp trong tệp Excel Khảo sát hỗ trợ khách hàng. Điểm chứa dữ liệu từ một mẫu học sinh. Kết luận nào có thể đạt được khi sử dụng ANOVA? 30. Sử dụng dữ liệu trong tệp Excel Khảo sát điện thoại di động, áp dụng ANOVA để xác định xem phản hồi trung bình cho Giá trị đồng đô la có giống nhau đối với các loại điện thoại di động khác nhau hay không. 31. Sử dụng dữ liệu trong tệp Excel Freshman College Data, sử dụng ANOVA để xác định xem có sự khác biệt đáng kể nào về tỷ lệ duy trì trung bình của các trường đại học khác nhau trong khoảng thời gian 4 năm hay không. Thứ hai, sử dụng ANOVA để xác định Một. Công ty đã đặt tiêu chuẩn dịch vụ là 1 ngày cho thời gian giải quyết trung bình. Có bằng chứng tồn tại rằng thời gian phản hồi là hơn 1 ngày không? Làm thế nào để các ngoại lệ trong dữ liệu ảnh hưởng đến kết quả của bạn? Bạn nên làm gì với chúng? xem có sự khác biệt đáng kể nào về điểm ACT và SAT trung bình giữa các trường đại học khác nhau hay không. 32. Một người bán sách trực tuyến đang cố gắng xác định xem giới tính của khách hàng có độc lập với thể loại sách mà họ thường mua hay không. Một mẫu khách hàng đã tiết lộ như sau: b. Kiểm định giả thuyết rằng chỉ số dịch vụ trung bình bằng với chỉ số kỹ sư trung bình. thể loại 25. Sử dụng dữ liệu trong tệp Excel Ohio Education Per formance, kiểm tra các giả thuyết rằng chênh lệch trung bình về điểm Tạp chí Văn học Giới tính Phi hư cấu Phổ biến Viễn tưởng viết và đọc bằng 0 và chênh lệch trung bình về điểm môn toán và khoa học bằng 0. Sử dụng thủ tục lấy mẫu theo cặp. Nữ giới Nam giới 26. Tệp Excel Dữ liệu về Công đoàn và Luật Lao động báo cáo tỷ lệ phần trăm nhân viên khu vực công và khu vực tư nhân tham gia các công đoàn vào năm 1982 cho mỗi bang, cùng với các chỉ số liệu các bang có luật thương lượng áp dụng cho công chức hoặc quyền được luật làm việc. 12 số 8 vực tư nhân là như nhau đối với các bang có luật thương lượng cũng như đối với những bang không có. b. Kiểm tra giả thuyết rằng tỷ lệ phần trăm trung bình của nhân viên trong công đoàn ở cả khu vực công và khu vực tư 9 37 15 22 29 Người bán sách có thể kết luận điều gì? 33. Một cuộc khảo sát các sinh viên đại học đã xác định mức độ ưa thích của các nhà cung cấp điện thoại di động. Các dữ liệu sau đây đã thu được: Một. Kiểm tra giả thuyết rằng tỷ lệ phần trăm trung bình của người lao động trong công đoàn ở cả khu vực công và khu 28 Các nhà cung cấp Giới tính T-Mobile AT&T Verizon Khác Nam giới Nữ giới 12 số 8 39 27 16 22 24 12 Chúng ta có thể kết luận rằng giới tính và nhà cung cấp điện nhân là như nhau đối với các bang có luật về quyền được thoại di động là độc lập không? Nếu không, điều này có ý nghĩa làm việc cũng như đối với những bang không có luật này. gì đối với tiếp thị? 27. Sử dụng dữ liệu trong tệp Excel Điểm của học sinh, đại diện cho 34. Đối với dữ liệu trong file Excel Nghề kế toán, thực hiện kiểm điểm thi trong một phần của khóa học thống kê lớn, kiểm tra định chi bình phương về tính độc lập để xác định xem nhóm tuổi giả thuyết rằng phương sai về điểm là như nhau cho cả hai bài có độc lập với bằng tốt nghiệp hay không. kiểm tra. 28. Trong tệp Excel Doanh số nhà hàng, hãy xác định xem phương sai 35. Đối với dữ liệu trong tệp Excel Khảo sát trường sau đại học, của doanh số bán hàng trong tuần có giống với doanh số bán hãy thực hiện kiểm tra chi bình phương về tính độc lập để xác hàng cuối tuần cho từng biến trong số ba biến (bữa trưa, bữa định xem kế hoạch theo học trường sau đại học có phụ thuộc tối và giao hàng) hay không. vào giới tính hay không. 29. Một trường đại học đang cố gắng xác định xem có sự khác biệt 36. Đối với dữ liệu trong tệp Excel Xử lý tài khoản mới, hãy thực đáng kể nào về điểm GMAT trung bình của các sinh viên từ các hiện kiểm tra chi bình phương về tính độc lập để xác định xem nền tảng đại học khác nhau đăng ký chương trình MBA hay không. chứng nhận có độc lập với giới tính hay không và liệu chứng Tệp Excel GMAT nhận có độc lập với nền tảng thử nghiệm trước đó hay không. Machine Translated by Google 231 Chương 7 Suy luận thống kê Trường hợp: Dự án nghiên cứu quảng cáo Drout Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1. đến báo cáo bạn đã hoàn thành cho trường hợp trong Chương 6 theo Đây là phần tiếp theo của trường hợp trong Chương 6. Đối với phần yêu cầu của người hướng dẫn của bạn. Nếu bạn đã tổng hợp tất cả này của trường hợp, hãy đề xuất và kiểm tra một số giả thuyết các phần của trường hợp này vào một báo cáo, hãy trau chuốt nó có ý nghĩa để giúp cô Drout hiểu và giải thích kết quả. Bao gồm sao cho chuyên nghiệp nhất có thể, rút ra kết luận cuối cùng về các bài kiểm tra hai mẫu, ANOVA và/hoặc kiểm tra Chi-Square về nhận thức về vai trò của quảng cáo trong việc củng cố định kiến tính độc lập khi thích hợp. Viết kết luận của bạn trong một báo giới và tác động của quảng cáo trao quyền . cáo chính thức, hoặc thêm những phát hiện của bạn Trường hợp: Hiệu suất Lawn Thiết bị Elizabeth Burke đã xác định thêm một số câu hỏi mà cô ấy muốn trong bảng tính Chi phí truyền tải, tại sao họ không bạn trả lời. đưa ra kết luận liệu một trong những quy trình được đề 1. Có sự khác biệt đáng kể nào trong xếp hạng của các xuất có tốt hơn quy trình hiện tại hay không? thuộc tính sản phẩm/dịch vụ cụ thể trong bảng tính Khảo sát khách hàng năm 2014 không? 2. Trong bảng tính Giao hàng đúng hẹn, tỷ lệ giao hàng đúng hạn trong năm 2014 có cải thiện đáng kể so với năm 2010 không? 3. Dữ liệu trong trang tính Các lỗi sau khi giao hàng có thay đổi đáng kể trong 5 năm qua không? 5. Có sự khác biệt nào trong việc giữ chân nhân viên do giới tính, tình trạng tốt nghiệp đại học hoặc nhân viên đến từ khu vực địa phương trong dữ liệu trong bảng tính Giữ chân nhân viên không? Tiến hành phân tích thống kê thích hợp và kiểm tra giả thuyết để trả lời những câu hỏi này và tóm tắt kết quả của bạn trong một báo cáo chính thức cho cô Burke. 4. Mặc dù kỹ thuật đã thu thập dữ liệu về chi phí quy trình thay thế cho việc truyền tải tòa nhà Machine Translated by Google Trang này cố ý để trống Machine Translated by Google Đường xu hướng và CHƯƠNG Phân tích hồi quy gibsons/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích mục đích của phân tích hồi quy và cung cấp các ví dụ Giải thích khoảng tin cậy cho các hệ số hồi quy trong kinh doanh. Sử dụng biểu đồ phân tán để xác định loại mối quan hệ giữa Tính lượng dư tiêu chuẩn. hai biến. Liệt kê các giả định của phân tích hồi quy và mô tả các Liệt kê các loại hàm toán học phổ biến được sử dụng trong mô phương pháp để xác minh chúng. hình dự đoán. Giải thích sự khác biệt trong đầu ra của công cụ Hồi quy Sử dụng công cụ Đường xu hướng của Excel để khớp các mô hình với dữ liệu. Excel cho các mô hình hồi quy tuyến tính đơn giản và Giải thích cách hồi quy bình phương tối thiểu tìm ra mô hình nhiều mô hình. hồi quy phù hợp nhất. Áp dụng cách tiếp cận có hệ thống để xây dựng các mô hình hồi Sử dụng các hàm Excel để tìm hệ số hồi quy bình phương nhỏ quy tốt. nhất. Giải thích tầm quan trọng của việc hiểu đa cộng Sử dụng công cụ Hồi quy Excel cho cả hồi quy tuyến tính tuyến trong các mô hình hồi quy. đơn và bội. Xây dựng mô hình hồi quy cho dữ liệu phân loại bằng các Giải thích thống kê hồi quy của công cụ Hồi quy Excel. biến giả. Kiểm tra các tương tác trong mô hình hồi quy với các Giải thích tầm quan trọng của hồi quy từ đầu ra của công biến phân loại. cụ Hồi quy Excel. Xác định khi nào mô hình hồi quy đường cong phù hợp hơn mô Rút ra kết luận cho các kiểm định giả thuyết về hệ số hình tuyến tính. hồi quy. 233 Machine Translated by Google 234 Chương 8 Đường xu hướng và phân tích hồi quy Nhiều ứng dụng phân tích kinh doanh liên quan đến việc lập mô hình mối quan hệ giữa một hoặc nhiều biến độc lập và một số biến phụ thuộc. Ví dụ: chúng tôi có thể muốn dự đoán mức bán hàng dựa trên mức giá mà chúng tôi đặt hoặc ngoại suy một xu hướng trong tương lai. Như các ví dụ khác, một công ty có thể muốn dự đoán doanh số bán hàng dựa trên GDP của Hoa Kỳ (tổng sản phẩm quốc nội) và lãi suất trái phiếu kho bạc 10 năm để nắm bắt ảnh hưởng của chu kỳ kinh doanh,1 hoặc một nhà nghiên cứu tiếp thị có thể muốn dự đoán ý định của mua một mẫu ô tô cụ thể dựa trên một cuộc khảo sát đo lường thái độ của người tiêu dùng đối với thương hiệu, lời truyền miệng tiêu cực và mức thu nhập.2 Đường xu hướng và phân tích hồi quy là những công cụ để xây dựng các mô hình như vậy và dự đoán kết quả trong tương lai. Trọng tâm chính của chúng tôi là đạt được sự hiểu biết cơ bản về cách sử dụng và giải thích các đường xu hướng và mô hình hồi quy, các vấn đề thống kê liên quan đến việc diễn giải các kết quả phân tích hồi quy và các vấn đề thực tế trong việc sử dụng các đường xu hướng và hồi quy làm công cụ để đưa ra và đánh giá các quyết định. Mô hình hóa các mối quan hệ và xu hướng trong dữ liệu Hiểu cả toán học và các thuộc tính mô tả của các mối quan hệ chức năng khác nhau là rất quan trọng trong việc xây dựng các mô hình phân tích dự đoán. Chúng tôi thường bắt đầu bằng cách tạo một biểu đồ dữ liệu để hiểu nó và chọn loại mối quan hệ chức năng thích hợp để kết hợp vào một mô hình phân tích. Đối với dữ liệu cắt ngang, chúng tôi sử dụng biểu đồ phân tán; đối với dấu gạch nối thời gian làm tính từ cho dữ liệu chuỗi dữ liệu, chúng tôi sử dụng biểu đồ đường. Các loại hàm toán học phổ biến được sử dụng trong các mô hình phân tích dự đoán bao gồm: Hàm tuyến tính: ya + bx. Các hàm tuyến tính hiển thị tăng hoặc giảm ổn định trong phạm vi của x. Đây là loại chức năng đơn giản nhất được sử dụng trong các mô hình dự đoán. Nó rất dễ hiểu và trong các phạm vi giá trị nhỏ, có thể ước tính hành vi khá tốt. Hàm logarit: y ln1x2. Các hàm logarit được sử dụng khi tốc độ thay đổi của một biến tăng hoặc giảm nhanh chóng rồi cân bằng lại, chẳng hạn như với lợi nhuận giảm dần theo tỷ lệ. Các hàm logarit thường được sử dụng trong các mô hình tiếp thị trong đó tỷ lệ phần trăm tăng liên tục trong quảng cáo, chẳng hạn, dẫn đến doanh số bán hàng tăng tuyệt đối, liên tục. 2 Hàm đa thức: y ax + bx + c (bậc hai—hàm số bậc hai), 3 + dx + e 2 + bx và chỉ (bậc ba—hàm số bậc ba), v.v. Đa thức bậc hai y ax có tính chất parabol có một ngọn đồi hoặc thung lũng; một đa thức bậc ba có một hoặc hai ngọn đồi hoặc thung lũng. Các mô hình doanh thu kết hợp độ co giãn giá thường là các hàm đa thức. 1 James R. Morris và John P. Daley, Giới thiệu về các Mô hình Tài chính cho Quản lý và Lập kế hoạch (Boca Raton, FL: Chapman & Hall/CRC, 2009): 257. 2Alvin C. Burns và Ronald F. Bush, Nghiên cứu Tiếp thị Cơ bản Sử dụng Phân tích Dữ liệu Microsoft Excel, tái bản lần 2. (Sông Thượng Saddle, NJ: Prentice Hall, 2008): 450. Machine Translated by Google 235 Chương 8 Đường xu hướng và phân tích hồi quy Hàm công suất: tỷ lệ cụ b . Các hàm công suất xác định các hiện tượng tăng ở mức thể y ax. Các đường cong học tập thể hiện thời gian cải thiện trong việc thực hiện một nhiệm vụ thường được mô hình hóa với các hàm lũy thừa có a 7 0 và b 6 0. Hàm số mũ: y ab x . Các hàm số mũ có tính chất là y tăng hoặc giảm với tốc độ tăng liên tục. Ví dụ, độ sáng cảm nhận được của bóng đèn tăng với tốc độ giảm dần khi công suất tăng. Trong trường hợp này, a sẽ là một số dương và b sẽ nằm trong khoảng từ 0 đến 1. Hàm số mũ thường được định nghĩa là y ae x, ở đâu, cơ số của logarit tự nhiên (xấp xỉ 2,71828). Công cụ Đường xu hướng của Excel cung cấp một phương pháp thuận tiện để xác định mối quan hệ chức năng phù hợp nhất giữa các lựa chọn thay thế này cho một tập hợp dữ liệu. Đầu tiên, nhấp vào biểu đồ mà bạn muốn thêm đường xu hướng; điều này sẽ hiển thị menu Công cụ biểu đồ. Chọn tab Thiết kế Công cụ Biểu đồ, rồi bấm vào Thêm Thành phần Biểu đồ từ nhóm Bố cục Biểu đồ. Từ menu con Đường xu hướng, bạn có thể chọn một trong các tùy chọn (Tuyến tính là phổ biến nhất) hoặc Tùy chọn Đường xu hướng khác. . . . Nếu bạn chọn Tùy chọn Đường xu hướng khác, bạn sẽ nhận được ngăn Định dạng Đường xu hướng trong trang tính (xem Hình 8.1). Một cách đơn giản hơn để thực hiện tất cả những điều này là nhấp chuột phải vào chuỗi dữ liệu trong biểu đồ và chọn Thêm đường xu hướng từ menu bật lên—hãy thử! Chọn nút radio cho loại quan hệ chức năng mà bạn muốn khớp với dữ liệu. Chọn các hộp cho Hiển thị phương trình trên biểu đồ và Hiển thị giá trị bình phương R trên biểu đồ. Sau đó, bạn có thể đóng ngăn Định dạng Đường xu hướng. Excel sẽ hiển thị kết quả trên biểu đồ mà bạn đã chọn; bạn có thể di chuyển phương trình và giá trị bình phương R để dễ đọc hơn bằng cách kéo chúng đến một vị trí khác. Để xóa một đường xu hướng, nhấp chuột phải vào nó và chọn Xóa. r 2 (R-squared) là thước đo độ “phù hợp” của đường thẳng với dữ liệu. Giá trị của R2 sẽ 2 nằm trong khoảng từ 0 đến 1. Giá trị của R càng lớn phù hợp càng tốt. Chúng ta sẽ thảo luận về bộ lông này đó trong bối cảnh phân tích hồi quy. Đường xu hướng có thể được sử dụng để lập mô hình mối quan hệ giữa các biến và hiểu biến phụ thuộc hoạt động như thế nào khi biến độc lập thay đổi. Ví dụ: các mô hình dự đoán nhu cầu mà chúng tôi đã giới thiệu trong Chương 1 (Ví dụ 1.9 và 1.10) thường được phát triển bằng cách phân tích dữ liệu. Hình 8.1 Định dạng Excel Đường xu hướng ngăn Machine Translated by Google 236 Chương 8 Đường xu hướng và phân tích hồi quy VÍ DỤ 8.1 Lập mô hình hàm cầu-giá Một nghiên cứu thị trường đã thu thập dữ liệu về khối lượng bán hàng cho các mức giá khác nhau của một sản phẩm cụ thể. Dữ liệu và sơ đồ phân tán được hiển thị trong Hình 8.2 (Dữ doanh số = 20,512 9,5116 × giá Mô hình này có thể được sử dụng làm hàm cầu trong các phân tích tiếp thị hoặc tài chính khác. liệu Giá-Bán hàng trong tệp Excel). Mối quan hệ giữa giá và doanh số rõ ràng là tuyến tính, do đó, một đường xu hướng tuyến tính phù hợp với dữ liệu. Mô hình kết quả là Đường xu hướng cũng được sử dụng rộng rãi trong việc lập mô hình xu hướng theo thời gian— nghĩa là khi biến x trong các mối quan hệ chức năng biểu thị thời gian. Ví dụ: một nhà phân tích cho một hãng hàng không cần dự đoán giá nhiên liệu sẽ diễn biến như thế nào và một nhà phân tích đầu tư muốn dự đoán giá cổ phiếu hoặc các chỉ số kinh tế chính. VÍ DỤ 8.2 Dự đoán giá dầu thô Hình 8.3 hiển thị biểu đồ dữ liệu lịch sử về giá dầu thô vào ngày thứ Sáu đầu tiên của mỗi tháng từ tháng 1 năm 2006 đến tháng 6 năm 2008 (dữ liệu có trong tệp Excel Giá dầu thô). Sử dụng công cụ Đường xu hướng, chúng tôi có thể cố gắng điều chỉnh các chức năng khác nhau cho những dữ liệu này (ở đây đa thức (bậc hai): = 0,130 2 2,399 + 68,01 0,021 logarit: = 13,02ln1 2 + 39,60 R Hình 8.2 Dữ liệu Giá-Bán hàng và Phân tán Sơ đồ với tuyến tính được trang bị Chức năng r 2 2 = 0,664 = 0,382 r 2 r 2 = 0,905 3 + 0,648 + 59,497 2 0,111 _ sức mạnh: = 45,96 cấp số nhân: = 50,49e 2 đa thức (bậc ba): = 0,005 biểu thị số tháng bắt đầu từ tháng 1 năm 2006). Kết quả như sau: r .0169 = 0,928 = 0,397 Mô hình phù hợp nhất là đa thức bậc ba, như trong Hình 8.4. Machine Translated by Google 237 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.3 Biểu đồ giá dầu thô Thận trọng khi sử dụng hàm đa thức. các R 2 giá trị sẽ tiếp tục tăng khi bậc của đa thức tăng; nghĩa là đa thức bậc ba sẽ phù hợp hơn đa thức bậc hai, v.v. Các đa thức bậc cao nói chung sẽ không trơn tru và sẽ khó diễn giải trực quan. Do đó, chúng tôi khuyên bạn không nên vượt quá đa thức bậc ba khi điều chỉnh dữ liệu. Sử dụng con mắt của bạn để làm cho một bản án tốt! Tất nhiên, mô hình thích hợp để sử dụng phụ thuộc vào phạm vi của dữ liệu. Như biểu đồ cho thấy, giá dầu thô tương đối ổn định cho đến đầu năm 2007 và sau đó bắt đầu tăng nhanh. Bằng cách bao gồm dữ liệu ban đầu, mối quan hệ chức năng dài hạn có thể không thể hiện một cách công bằng xu hướng ngắn hạn. Ví dụ: việc khớp một mô hình chỉ với dữ liệu bắt đầu từ tháng 1 năm 2007 sẽ tạo ra các mô hình sau: hàm mũ: đa y 50,56 e0,044x thức (bậc hai): y 0,121x tuyến tính: y 3,548x + 45,76 Hình 8.4 Sự phù hợp đa thức của dầu thô Giá cả 2 + 1,232x + 53,48 r2 0,969 r2 0,968 r2 0,944 Machine Translated by Google 238 Chương 8 Đường xu hướng và phân tích hồi quy Sự khác biệt trong dự đoán có thể là đáng kể. Ví dụ: để dự đoán giá 6 tháng sau điểm dữ liệu cuối cùng 1x 362 mang lại 172,24 đô la cho mô hình đa thức bậc ba phù hợp với tất cả dữ liệu và 246,45 đô la cho mô hình hàm mũ chỉ có dữ liệu gần đây. Vì vậy, việc phân tích phải cẩn thận để lựa chọn lượng dữ liệu phù hợp cho phân tích. Sau đó, câu hỏi trở thành một trong những lựa chọn các giả định tốt nhất cho mô hình. Có hợp lý không khi cho rằng giá cả sẽ tăng theo cấp số nhân hoặc có thể với tốc độ chậm hơn, chẳng hạn như với mô hình tuyến tính phù hợp? Hoặc, họ sẽ chững lại và bắt đầu giảm? Rõ ràng, các yếu tố khác ngoài xu hướng lịch sử sẽ ảnh hưởng đến sự lựa chọn này. Như chúng ta đã biết, giá dầu giảm mạnh vào nửa cuối năm 2008; do đó, tất cả các mô hình dự đoán đều có rủi ro. Hồi quy tuyến tính cơ bản Phân tích hồi quy là một công cụ để xây dựng các mô hình toán học và thống kê đặc trưng cho mối quan hệ giữa một biến phụ thuộc (phải là biến tỷ lệ và không phân loại) và một hoặc nhiều biến độc lập hoặc biến giải thích, tất cả đều là số (nhưng có thể là tỷ lệ hoặc phân loại). Hai loại mô hình hồi quy thường được sử dụng trong môi trường kinh doanh: (1) mô hình hồi quy của dữ liệu chéo và (2) mô hình hồi quy của dữ liệu chuỗi thời gian, trong đó các biến độc lập là thời gian hoặc một số chức năng của thời gian và tiêu điểm là về dự đoán tương lai. Hồi quy chuỗi thời gian là một công cụ quan trọng trong dự báo, là chủ đề của Chương 9. Một mô hình hồi quy liên quan đến một biến độc lập duy nhất được gọi là hồi quy đơn giản. Một mô hình hồi quy bao gồm hai hoặc nhiều biến độc lập được gọi là hồi quy bội. Trong phần còn lại của chương này, chúng tôi mô tả cách phát triển và phân tích các mô hình hồi quy đơn giản và đa biến. Hồi quy tuyến tính đơn giản liên quan đến việc tìm mối quan hệ tuyến tính giữa một biến độc lập X và một biến phụ thuộc Y. Mối quan hệ giữa hai biến có thể có nhiều dạng, như được minh họa trong Hình 8.5. Mối quan hệ có thể là tuyến tính hoặc phi tuyến tính, hoặc có thể không có mối quan hệ nào cả. Bởi vì chúng ta đang tập trung thảo luận về các mô hình hồi quy tuyến tính, điều đầu tiên cần làm là xác minh rằng mối quan hệ là tuyến tính, như trong Hình 8.5(a). Chúng tôi không mong đợi thấy dữ liệu sắp xếp hoàn hảo dọc theo một đường thẳng; chúng tôi chỉ muốn xác minh rằng mối quan hệ chung là tuyến tính. Nếu mối quan hệ rõ ràng là phi tuyến tính, như trong Hình 8.5(b), thì phải sử dụng các phương pháp thay thế, và nếu không có mối quan hệ nào rõ ràng, như trong Hình 8.5(c), thì việc xem xét phát triển một mô hình hồi quy tuyến tính là vô nghĩa. Để xác định xem có tồn tại mối quan hệ tuyến tính giữa các biến hay không, chúng tôi khuyên bạn nên bạn tạo một biểu đồ phân tán có thể hiển thị mối quan hệ giữa các biến một cách trực quan. Hình 8.5 Ví dụ về biến Các mối quan hệ (a) Tuyến tính (b) Phi tuyến tính (c) Không có mối quan hệ Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 239 VÍ DỤ 8.3 Dữ liệu giá trị thị trường nhà Giá trị thị trường của một ngôi nhà thường liên quan đến kích Hình 8.7 cho thấy một biểu đồ phân tán của giá trị thị thước của nó. Trong tệp Excel Giá trị thị trường nhà ở (xem trường liên quan đến quy mô của ngôi nhà. Nói chung, chúng tôi Hình 8.6), dữ liệu thu được từ kiểm toán viên quận cung cấp thấy rằng giá trị thị trường cao hơn có liên quan đến quy mô thông tin về tuổi, diện tích vuông và giá trị thị trường hiện nhà lớn hơn và mối quan hệ gần như tuyến tính. Do đó, chúng tại của nhà ở trong một phân khu cụ thể. Chúng tôi có thể muốn ta có thể kết luận rằng hồi quy tuyến tính đơn giản sẽ là một điều tra mối quan hệ giữa giá trị thị trường và quy mô của kỹ thuật thích hợp để dự đoán giá trị thị trường dựa trên quy ngôi nhà. Biến độc lập, X, là số feet vuông, và biến phụ mô ngôi nhà. thuộc, Y, là giá trị thị trường. Hình 8.6 Phần giá trị thị trường nhà Hình 8.7 Biểu đồ phân tán của thị trường Giá trị so với kích thước nhà Tìm đường hồi quy phù hợp nhất Ý tưởng đằng sau hồi quy tuyến tính đơn giản là biểu thị mối quan hệ giữa các biến phụ thuộc và biến độc lập bằng một phương trình tuyến tính đơn giản, chẳng hạn như giá trị thị trường a + b * feet vuông trong đó a là tung độ gốc y và b là hệ số góc của đường thẳng. Nếu chúng ta vẽ một đường thẳng qua dữ liệu, một số điểm sẽ nằm trên đường thẳng, một số sẽ nằm dưới nó và một số Machine Translated by Google 240 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.8 Hai khả năng hồi quy dòng có thể rơi trên dòng chính nó. Hình 8.8 cho thấy hai đường thẳng có thể đi qua dữ liệu. Rõ ràng, bạn sẽ chọn A là đường thẳng phù hợp hơn B vì tất cả các điểm đều gần đường thẳng hơn và đường thẳng dường như nằm ở giữa dữ liệu. Sự khác biệt duy nhất giữa các dòng là giá trị của hệ số góc và hệ số chặn; do đó, chúng tôi tìm cách xác định các giá trị của độ dốc và đánh chặn cung cấp đường phù hợp nhất. VÍ DỤ 8.4 Sử dụng Excel để tìm đường hồi quy tốt nhất Khi sử dụng công cụ Đường xu hướng cho hồi quy tuyến tính đơn ước tính giá trị thị trường cao hơn so với giá trị chỉ có 1.500 giản trong ví dụ về Giá trị thị trường tại nhà, hãy đảm bảo feet vuông. Ví dụ: giá trị thị trường ước tính của một ngôi nhà rằng tùy chọn hàm lin ear được chọn (đây là tùy chọn mặc định rộng 2.200 bộ vuông sẽ là khi bạn sử dụng công cụ). Hình 8.9 cho thấy đường hồi quy phù hợp nhất. phương trình là giá trị thị trường = $32,673 + $35,036 × feet vuông Giá trị của đường hồi quy có thể được giải thích như sau. Giả sử chúng ta muốn ước tính giá trị thị trường nhà cho bất kỳ ngôi nhà nào trong dân số mà dữ liệu mẫu được thu thập từ đó. giá trị thị trường = $32,673 + $35,036 × 2,200 = $109,752 trong khi giá trị ước tính cho một ngôi nhà có diện tích 1.500 bộ vuông sẽ là giá trị thị trường = $32,673 + $35,036 × 1,500 = $85,227 Mô hình hồi quy giải thích sự khác biệt về giá trị thị trường Nếu tất cả những gì chúng ta biết là giá trị thị trường, thì như là một chức năng của quy mô ngôi nhà và cung cấp ước tính ước tính tốt nhất về giá trị thị trường cho bất kỳ ngôi nhà nào tốt hơn so với việc chỉ sử dụng giá trị trung bình của dữ liệu mẫu. chỉ đơn giản là giá trị trung bình của mẫu, là 92.069 đô la. Do đó, bất kể ngôi nhà có diện tích 1.500 bộ vuông hay 2.200 bộ Một lưu ý quan trọng: sẽ rất nguy hiểm nếu ngoại suy muộn một mô hình hồi quy nằm ngoài phạm vi bao phủ bởi các quan sát. vuông, ước tính tốt nhất về giá trị thị trường vẫn là 92.069 USD. Chẳng hạn, nếu bạn muốn dự đoán giá trị thị trường của một ngôi Vì giá trị thị trường thay đổi từ khoảng 75.000 đô la đến hơn nhà có diện tích 3.000 bộ vuông, kết quả có thể chính xác hoặc 120.000 đô la nên có khá nhiều điều không chắc chắn khi sử dụng không, bởi vì các ước tính của mô hình hồi quy không sử dụng bất giá trị trung bình làm ước tính. Tuy nhiên, từ biểu đồ phân tán, kỳ quan sát nào lớn hơn 2.400 bộ vuông. Chúng ta không thể chắc chúng tôi thấy rằng những ngôi nhà lớn hơn có xu hướng có giá chắn rằng phép ngoại suy tuyến tính sẽ đúng và không nên sử dụng trị thị trường cao hơn. Do đó, nếu chúng ta biết rằng một ngôi mô hình để đưa ra những dự đoán như vậy. nhà có diện tích 2.200 feet vuông, chúng ta sẽ mong đợi Machine Translated by Google 241 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.9 Tuyến tính đơn giản phù hợp nhất Đường Hồi quy Chúng ta có thể tìm thấy đường phù hợp nhất bằng cách sử dụng công cụ Đường xu hướng của Excel (với tùy chọn tuyến tính được chọn), như được mô tả trước đó trong chương này. Hồi quy bình phương tối thiểu Cơ sở toán học cho đường hồi quy phù hợp nhất được gọi là hồi quy bình phương nhỏ nhất. Trong phân tích hồi quy, chúng tôi giả định rằng các giá trị của biến phụ thuộc, Y, trong dữ liệu mẫu được rút ra từ một số dân số chưa biết cho từng giá trị của biến độc lập, X. Ví dụ: trong dữ liệu Giá trị thị trường gia đình, giá trị thứ nhất và thứ tư các quan sát đến từ một quần thể các ngôi nhà có diện tích 1.812 feet vuông; quan sát thứ hai đến từ một quần thể các ngôi nhà có diện tích 1.914 feet vuông; và như thế. Bởi vì chúng tôi giả định rằng tồn tại một mối quan hệ tuyến tính, nên giá trị kỳ vọng của Y là b0 + b1X cho mỗi giá trị của X. Các hệ số b0 và b1 là các tham số tổng thể tương ứng biểu thị tung độ gốc và hệ số góc của tổng thể mà từ đó một mẫu của quan sát được thực hiện. Hệ số chặn là giá trị trung bình của Y khi X 0 và hệ số góc là sự thay đổi giá trị trung bình của Y khi X thay đổi một đơn vị. Do đó, đối với một giá trị cụ thể của X, chúng ta có nhiều giá trị có thể có của Y thay đổi xung quanh giá trị trung bình. Để giải thích cho điều này, chúng tôi thêm một thuật ngữ lỗi, e (chữ Hy Lạp epsilon), vào giá trị trung bình. Điều này xác định một mô hình hồi quy tuyến tính đơn giản: Y b0 + b1X + e (8.1) Tuy nhiên, vì chúng tôi không biết toàn bộ dân số nên chúng tôi không biết giá trị thực của b0 và b1 . Trong thực tế, chúng ta phải ước tính những điều này tốt nhất có thể từ dữ liệu mẫu. xác định b0 và b1 là ước tính của b0 và b1 . Do đó, phương trình hồi quy tuyến tính đơn giản ước tính là N Y b0 + b1X (8.2) Gọi Xi là giá trị của biến độc lập của quan sát thứ i. Khi giá trị của biến độc lập là Xi , thì Y N i b0 + b1Xi là giá trị ước tính của Y đối với Xi . Một cách để định lượng mối quan hệ giữa mỗi điểm và phương trình hồi quy ước tính là đo khoảng cách thẳng đứng giữa chúng, như minh họa trong Hình 8.10. Chúng tôi Machine Translated by Google 242 Chương 8 Đường xu hướng và phân tích hồi quy Y Hình 8.10 Y2^ Đo lường lỗi trong một e2 e1 Mô hình hồi quy Y1Y1^Y2 X1 X2 X Lỗi liên quan đến quan sát cá nhân có thể coi những khác biệt này, ei , là sai số quan sát được (thường được gọi là phần dư) liên quan đến việc ước tính giá trị của biến phụ thuộc bằng cách sử dụng đường hồi quy. Do đó, lỗi liên quan đến quan sát thứ i là: N Ý - Y ei (8.3) Tôi Dòng phù hợp nhất nên giảm thiểu một số biện pháp của các lỗi này. Bởi vì một số lỗi sẽ âm và một số khác dương, chúng tôi có thể lấy giá trị tuyệt đối của chúng hoặc đơn giản là bình phương chúng. Về mặt toán học, làm việc với bình phương sai số sẽ dễ dàng hơn. Cộng các bình phương của các lỗi, chúng ta thu được hàm sau: N N Một e2tôi là tôi 1 N 1Yi - Yn tôi 22 một 1Yi- 3b0 + b1Xi422 (8.4) tôi 1 tôi 1 Nếu chúng ta có thể tìm thấy các giá trị tốt nhất của độ dốc và chặn để giảm thiểu tổng bình phương (do đó có tên là "bình phương nhỏ nhất") của các lỗi quan sát được ei , chúng ta sẽ tìm thấy đường hồi quy phù hợp nhất. Lưu ý rằng Xi và Yi là các giá trị của dữ liệu mẫu và b0 và b1 là ẩn số trong phương trình (8.4). Sử dụng phép tính, chúng ta có thể chỉ ra rằng giải pháp giảm thiểu tổng bình phương của các lỗi được quan sát là N Một XiYi - nX Y tôi 1 b1 (8,5) N X 2 - nX2 Một Tôi tôi 1 b0 Y - b1X (8.6) Mặc dù các tính toán cho các hệ số bình phương nhỏ nhất có vẻ hơi phức tạp, nhưng chúng có thể dễ dàng được thực hiện trên bảng tính Excel. Thậm chí tốt hơn, Excel có các khả năng tích hợp sẵn để thực hiện việc này. Ví dụ: bạn có thể sử dụng các hàm INTERCEPT (known_y's, known_x's) và SLOPE(known_y's, known_x's) để tìm các đồng hiệu quả bình phương nhỏ nhất b0 và b1 . VÍ DỤ 8.5 Sử dụng Hàm Excel để Tìm Hệ số Bình phương Nhỏ nhất Đối với tệp Excel Giá trị thị trường gia đình, phạm vi của cho chúng tôi rằng cứ mỗi foot vuông tăng thêm, giá trị thị biến phụ thuộc Y (giá trị thị trường) là C4:C45; phạm vi của trường tăng thêm $35,036. biến độc lập X (feet vuông) là B4:B45. Hàm INTERCEPT(C4:C45, Chúng ta có thể sử dụng hàm Excel TREND(known_y's, B4:B45) cho kết quả b0 = 32,673 và SLOPE(C4:C45, B4:B45) cho known_x's, new_x's) để ước tính Y cho bất kỳ giá trị nào của kết quả b1 = 35,036, như chúng ta đã thấy trong Ví dụ 8.4. X; ví dụ: đối với một ngôi nhà rộng 1.750 bộ vuông, giá trị Con dốc nói thị trường ước tính là XU HƯỚNG(C4:C45, B4:B45, 1750) = 93.986 USD. Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 243 Chúng tôi có thể dừng lại tại thời điểm này, bởi vì chúng tôi đã tìm thấy dòng phù hợp nhất cho dữ liệu được cung cấp. Tuy nhiên, còn nhiều điều nữa đối với phân tích hồi quy từ góc độ thống kê, bởi vì chúng tôi đang làm việc với dữ liệu mẫu—và thường là các mẫu khá nhỏ—mà chúng tôi biết là có nhiều biến thể so với toàn bộ dân số. Do đó, điều quan trọng là phải hiểu một số thuộc tính thống kê liên quan đến phân tích hồi quy. Hồi quy tuyến tính đơn giản với Excel Các công cụ phần mềm phân tích hồi quy có sẵn trong Excel cung cấp nhiều thông tin khác nhau về các thuộc tính thống kê của phân tích hồi quy. Công cụ Hồi quy Excel có thể được sử dụng cho cả hồi quy tuyến tính đơn giản và đa tuyến tính. Hiện tại, chúng tôi chỉ tập trung vào việc sử dụng công cụ này cho hồi quy tuyến tính đơn giản. Từ menu Phân tích dữ liệu trong nhóm Phân tích trong tab Dữ liệu, chọn công cụ Hồi quy. Hộp thoại như Hình 8.11 được hiển thị. Trong hộp cho Phạm vi đầu vào Y, hãy chỉ định phạm vi của các giá trị biến phụ thuộc. Trong hộp cho Phạm vi đầu vào X, chỉ định phạm vi cho các giá trị biến độc lập. Kiểm tra nhãn nếu phạm vi dữ liệu của bạn chứa nhãn mô tả (chúng tôi khuyên bạn nên sử dụng nhãn này). Bạn có tùy chọn buộc phần chặn về 0 bằng cách kiểm tra Hằng số là Không; tuy nhiên, bạn thường sẽ không chọn hộp này vì việc thêm một thuật ngữ chặn cho phép dữ liệu phù hợp hơn. Bạn cũng có thể đặt Mức độ tin cậy (giá trị mặc định là 95% thường được sử dụng) để cung cấp khoảng tin cậy cho các tham số độ dốc và tung độ gốc. Trong phần dư phần, bạn có tùy chọn bao gồm bảng đầu ra phần dư bằng cách chọn các hộp cho Phần dư, Phần dư được chuẩn hóa, Biểu đồ phần dư và Biểu đồ vừa với đường. Đất Dư tạo biểu đồ cho từng biến độc lập so với phần dư và Line Fit Plots tạo biểu đồ phân tán có chứa các giá trị được mô hình hồi quy dự đoán (tuy nhiên, việc tạo biểu đồ phân tán có thêm đường xu hướng về mặt hình ảnh sẽ vượt trội so với những gì công cụ này cung cấp). Cuối cùng, bạn cũng có thể chọn để Excel xây dựng biểu đồ xác suất chuẩn cho biến phụ thuộc, biểu đồ này biến đổi thang xác suất tích lũy (trục tung) sao cho đồ thị của phân phối chuẩn tích lũy là một đường thẳng. Các điểm càng gần đường thẳng thì càng phù hợp với phân phối chuẩn. Hình 8.12 cho thấy kết quả phân tích hồi quy cơ bản được cung cấp bởi công cụ Hồi quy Excel cho dữ liệu Giá trị thị trường gia đình. Đầu ra bao gồm ba phần: Thống kê hồi quy (hàng 3–8), ANOVA (hàng 10–14) và phần không được gắn nhãn ở dưới cùng (hàng 16–18) với thông tin thống kê khác. Các ước tính bình phương nhỏ nhất của độ dốc và hệ số chặn được tìm thấy trong cột Hệ số ở phần dưới cùng của kết quả. Hình 8.11 Công cụ hồi quy Excel hộp thoại Machine Translated by Google 244 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.12 Phân tích hồi quy cơ bản Đầu ra cho giá trị thị trường nhà Ví dụ Trong phần Thống kê hồi quy, Bội số R là tên gọi khác của hệ số tương quan mẫu, r, đã được giới thiệu trong Chương 4. Các giá trị của r nằm trong khoảng từ -1 đến 1, trong đó dấu được xác định bằng dấu của hệ số góc của đường Hồi quy. Giá trị Nhiều R lớn hơn 0 biểu thị mối tương quan dương; nghĩa là, khi biến độc lập tăng lên, biến phụ thuộc cũng tăng theo; giá trị nhỏ hơn 0 biểu thị mối tương quan âm—khi X tăng, Y giảm. Giá trị 0 cho biết không có tương quan. 2 R bình phương 1R 2 được gọi là hệ số xác định. Trước đó chúng tôi đã lưu ý rằng R 2 là thước đo mức độ phù hợp của đường hồi quy với dữ liệu; giá trị này cũng được cung cấp 2 bằng công cụ Đường xu hướng. Cụ thể, R đưa ra tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi biến độc lập của mô hình hồi quy. giá trị 2 của R nằm trong khoảng từ 0 đến 1. Giá trị 1,0 biểu thị sự phù hợp hoàn hảo và tất cả các điểm dữ liệu nằm trên đường hồi quy, trong khi giá trị 0 biểu thị rằng không có mối quan hệ nào tồn tại. Mặc 2 dù chúng tôi muốn giá trị cao của, Rrất khó để chỉ định một giá trị “tốt” biểu thị một giá trị mạnh mối quan hệ vì điều này phụ thuộc vào ứng dụng. Ví dụ, trong các ứng dụng khoa học như hiệu chuẩn thiết bị đo lường vật lý, R 2 2 được mong đợi; trong nghiên cứu tiếp thị nghiên cứu, một R các giá trị gần với 1 sẽ từ 0,6 trở lên được coi là rất tốt; tuy nhiên, trong nhiều ứng dụng khoa học xã hội, các giá trị trong vùng lân cận 0,3 có thể được coi là chấp nhận được. 2 Điều chỉnh R Square là một thống kê sửa đổi giá trị của R bằng cách kết hợp cỡ mẫu và số lượng biến giải thích trong mô hình. Mặc dù nó không đưa ra phần trăm biến thể thực tế được mô 2 hình giải thích là R hữu ích khi so sánh mô hình này với các mô hình khác bao gồm các biến giải thích bổ sung. Chúng ta sẽ thảo luận về nó đầy đủ hơn trong bối cảnh hồi quy tuyến tính bội ở phần sau của chương này. Lỗi tiêu chuẩn trong đầu ra Excel là sự thay đổi của các giá trị Y quan sát được từ các giá trị dự đoán 1Yn2. Đây chính thức được gọi là lỗi tiêu chuẩn của ước tính, SYX. Nếu dữ liệu được nhóm gần với đường hồi quy, thì sai số chuẩn sẽ nhỏ; dữ liệu càng phân tán thì sai số chuẩn càng lớn. VÍ DỤ 8.6 Diễn giải thống kê hồi quy cho hồi quy tuyến tính đơn giản Sau khi chạy công cụ Hồi quy Excel, điều đầu tiên cần tìm là biến độc lập, Feet vuông) là 35,036, giống như chúng ta đã các giá trị của hệ số góc và hệ số chặn, cụ thể là các ước tính trước đó. Trong Thống kê hồi quy sec 2 = 0,5347. Điều tính b1 và b0 trong mô hình hồi quy. Trong ví dụ về Giá trị này có nghĩa là khoảng 53% tion, R thị trường gia đình, chúng ta thấy rằng hệ số chặn là 32.673 của sự thay đổi trong Giá trị thị trường được giải thích bằng và độ dốc (hệ số của Feet vuông. Sự thay đổi còn lại là do các yếu tố khác Machine Translated by Google 245 Chương 8 Đường xu hướng và phân tích hồi quy đã không được đưa vào mô hình. Sai số chuẩn của ước tính là nhỏ hơn sự thay đổi xung quanh giá trị trung bình của mẫu $7.287,72. Nếu chúng ta so sánh điều này với độ lệch chuẩn của ($10,553). Điều này là do biến độc lập trong mô hình hồi quy giá trị thị trường, là $10,553, chúng ta sẽ thấy rằng sự thay giải thích một số biến thể. đổi xung quanh đường hồi quy ($7,287,72) Hồi quy khi phân tích phương sai Trong Chương 7, chúng tôi đã giới thiệu phân tích phương sai (ANOVA), tiến hành kiểm định F để xác định xem liệu sự thay đổi do một yếu tố cụ thể, chẳng hạn như sự khác biệt về giá trị trung bình của mẫu, có lớn hơn đáng kể so với sự thay đổi do lỗi hay không. ANOVA thường được áp dụng cho hồi quy để kiểm tra ý nghĩa của hồi quy. Đối với một mô hình hồi quy tuyến tính đơn giản, tầm quan trọng của hồi quy chỉ đơn giản là kiểm định giả thuyết về việc liệu hệ số hồi quy b1 (độ dốc của biến độc lập) có bằng 0 hay không: H0 : b1 0 H1 : b1 (8.7) 0 Nếu chúng ta bác bỏ giả thuyết không, thì chúng ta có thể kết luận rằng hệ số góc của biến độc lập không bằng 0 và do đó, có ý nghĩa thống kê theo nghĩa là nó giải thích một số biến thiên của biến phụ thuộc xung quanh giá trị trung bình. Tương tự như phần thảo luận của chúng ta trong Chương 7, bạn không cần lo lắng về các chi tiết toán học về cách tính F hoặc thậm chí giá trị của nó, đặc biệt là khi công cụ này không cung cấp giá trị tới hạn cho phép thử. Điều quan trọng là giá trị của Ý nghĩa F, là giá trị p cho phép thử F. Nếu Ý nghĩa F nhỏ hơn mức ý nghĩa (thường là 0,05), chúng tôi sẽ bác bỏ giả thuyết không. VÍ DỤ 8.7 Diễn giải Ý nghĩa của Hồi quy Đối với ví dụ về Giá trị Thị trường Gia đình, phép thử ANOVA về cơ bản bằng không (3,798 10 được hiển thị trong các hàng 10–14 trong Hình 8.12. Ý nghĩa nghĩa là 0,05, chúng ta phải bác bỏ giả thuyết vô hiệu và F, nghĩa là giá trị p liên quan đến kiểm tra giả thuyết kết luận rằng độ dốc—hệ số cho Feet vuông—không bằng không. H0 : B1 = 0 8 ). Do đó, giả sử mức ý Điều này có nghĩa là kích thước nhà là một biến có ý nghĩa thống kê trong việc giải thích sự thay đổi trong giá trị thị trường. H1 : B1 3 0 Kiểm tra các giả thuyết cho các hệ số hồi quy Các hàng 17–18 của đầu ra Excel, ngoài việc chỉ định các hệ số bình phương nhỏ nhất, còn cung cấp thông tin bổ sung để kiểm tra các giả thuyết liên quan đến hệ số chặn và độ dốc. Cụ thể, chúng ta có thể kiểm tra giả thuyết không rằng b0 hoặc b1 bằng không. Thông thường, sẽ không có ý nghĩa gì khi kiểm tra hoặc diễn giải giả thuyết rằng b0 0 trừ khi hệ số chặn có ý nghĩa vật lý quan trọng trong ngữ cảnh của ứng dụng. Đối với hồi quy tuyến tính đơn giản, việc kiểm định giả thuyết không H0 : b1 0 cũng giống như tầm quan trọng của kiểm định hồi quy mà chúng tôi đã mô tả trước đó. Thử nghiệm t cho độ dốc tương tự như thử nghiệm một mẫu cho giá trị trung bình mà chúng tôi đã mô tả trong Chương 7. Thống kê kiểm tra là t b1 - 0 lỗi tiêu chuẩn (8.8) và được đưa ra trong cột có nhãn t Stat trong đầu ra Excel. Mặc dù giá trị tới hạn của phân phối t không được cung cấp, đầu ra cung cấp giá trị p cho thử nghiệm. Machine Translated by Google 246 Chương 8 Đường xu hướng và phân tích hồi quy VÍ DỤ 8.8 Diễn giải các kiểm định giả thuyết cho các hệ số hồi quy Đối với ví dụ Giá trị thị trường tại nhà, lưu ý rằng giá trị rằng không hệ số nào bằng 0 về mặt thống kê. Lưu ý rằng giá của t Stat được tính bằng cách chia hệ số cho sai số chuẩn sử trị p liên quan đến kiểm tra hệ số góc, Feet vuông, bằng với dụng công thức (8.8). Ví dụ, t Stat cho Ý nghĩa F độ dốc là 35,03637258>5,16738385 = 6,780292234. Vì Excel không cung cấp giá trị tới hạn để so sánh giá trị giá trị. Điều này sẽ luôn đúng đối với mô hình hồi quy có một biến độc lập vì nó là biến kế hoạch duy nhất. Tuy Thống kê t, nên chúng tôi có thể sử dụng giá trị p để đưa ra nhiên, như chúng ta sẽ thấy, điều này sẽ không xảy ra đối kết luận. Vì giá trị p cho cả hai hệ số về cơ bản bằng 0, nên với các mô hình hồi quy bội. chúng tôi sẽ kết luận Khoảng tin cậy cho hệ số hồi quy Khoảng tin cậy (giá trị Lower 95% và Upper 95% trong đầu ra) cung cấp thông tin về các giá trị chưa biết của hệ số hồi quy thực, tính đến lỗi lấy mẫu. Chúng cho chúng ta biết những gì chúng ta có thể mong đợi một cách hợp lý là các phạm vi cho giao điểm dân số và độ dốc ở mức độ tin cậy 95%. Chúng tôi cũng có thể sử dụng khoảng tin cậy để kiểm tra các giả thuyết về hệ số hồi quy. Ví dụ, trong Hình 8.12, chúng ta thấy rằng không khoảng tin cậy nào bao gồm số 0; do đó, chúng ta có thể kết luận rằng b0 và b1 khác 0 về mặt thống kê. Tương tự, chúng ta có thể sử dụng chúng để kiểm tra các giả thuyết rằng các hệ số hồi quy bằng một số giá trị khác 0. Ví dụ, để kiểm tra các giả thuyết H0 : b1 B1 H1 : b1 B1 chúng ta chỉ cần kiểm tra xem B1 có nằm trong khoảng tin cậy cho độ dốc hay không. Nếu không, thì chúng tôi bác bỏ giả thuyết không, nếu không, chúng tôi sẽ không bác bỏ nó. VÍ DỤ 8.9 Giải thích khoảng tin cậy cho hệ số hồi quy Đối với dữ liệu Giá trị thị trường gia đình, khoảng tin giá trị thị trường là 32.673 + 35.036(1.750) = $93.986, cậy 95% cho phần chặn là [14,823, 50,523]. Tương tự, nếu các tham số dân số thực nằm ở các cực trị của khoảng tin khoảng tin cậy 95% cho độ dốc là [24,59, 45,48]. cậy, thì ước tính có thể thấp tới 14.823 + 24,59(1.750) = Mặc dù mô hình hồi quy là Yn = 32,673 + 35,036X, khoảng 57.855 USD hoặc cao nhất là 50.523 + 45,48(1.750) = 130.113 tin cậy cho thấy một chút không chắc chắn về các dự đoán sử USD. Khoảng tin cậy hẹp hơn mang lại độ chính xác cao hơn dụng mô hình. Vì vậy, mặc dù chúng tôi ước tính rằng một trong các dự đoán của chúng tôi. ngôi nhà rộng 1.750 feet vuông có Giả định phân tích và hồi quy phần dư Nhớ lại rằng phần dư là sai số quan sát được, là sự khác biệt giữa giá trị thực và giá trị ước tính của biến phụ thuộc bằng phương trình hồi quy. Hình 8.13 cho thấy một phần của bảng thặng dư được tạo bởi công cụ Hồi quy Excel. Đầu ra còn lại bao gồm, đối với mỗi quan sát, giá trị dự đoán bằng cách sử dụng phương trình hồi quy ước tính, phần dư và phần dư tiêu chuẩn. Phần dư chỉ đơn giản là sự khác biệt giữa giá trị thực tế của biến phụ thuộc và giá trị dự đoán, hoặc Yi - Yn Tôi . Hình 8.14 cho thấy biểu đồ phần dư do công cụ Excel tạo ra. Biểu đồ này thực sự là một biểu đồ phân tán của phần dư với các giá trị của biến độc lập trên trục x. Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 247 Hình 8.13 Phần đầu ra còn lại Hình 8.14 Lô còn lại cho hình vuông Bàn chân Phần dư tiêu chuẩn là phần dư chia cho độ lệch chuẩn của chúng. Phần dư tiêu chuẩn mô tả khoảng cách của mỗi phần dư so với giá trị trung bình của nó tính theo đơn vị độ lệch chuẩn (tương tự như giá trị z đối với phân phối chuẩn chuẩn). Phần dư chuẩn rất hữu ích trong việc kiểm tra các giả định làm cơ sở cho phân tích hồi quy mà chúng tôi sẽ giải quyết ngay sau đây và để phát hiện các giá trị ngoại lai có thể làm sai lệch kết quả. Hãy nhớ lại rằng giá trị ngoại lệ là giá trị cực trị khác với phần còn lại của dữ liệu. Một ngoại lệ duy nhất có thể tạo ra sự khác biệt đáng kể trong phương trình hồi quy, thay đổi độ dốc và hệ số chặn, do đó, cách chúng sẽ được giải thích và sử dụng trong thực tế. Một số coi phần dư chuẩn hóa bên ngoài {2 độ lệch chuẩn là ngoại lệ. Một nguyên tắc ngón tay cái bảo thủ hơn sẽ là xem xét các ngoại lệ bên ngoài {3 phạm vi độ lệch chuẩn. (Các gói phần mềm thương mại có nhiều kỹ thuật phức tạp hơn để xác định các giá trị ngoại lệ.) VÍ DỤ 8.10 Diễn giải Đầu ra Dư Đối với dữ liệu Giá trị thị trường gia đình, quan sát đầu feet, cao hơn 4 độ lệch chuẩn so với giá trị dự đoán và rõ tiên có giá trị thị trường là $90.000 và mô hình hồi quy dự ràng sẽ được xác định là ngoại lệ. đoán $96.159,13. Do đó, số dư là 90.000 96.159,13 = (Nếu nhìn lại Hình 8.7, bạn có thể nhận thấy rằng điểm này $6.159,13. Độ lệch chuẩn của phần dư có thể được tính là dường như khá khác so với phần còn lại của dữ liệu.) Bạn có thể 7.198.299. đặt câu hỏi liệu quan sát này có thuộc dữ liệu hay không, bởi Bằng cách chia phần dư cho giá trị này, chúng ta có phần dư vì ngôi nhà có giá trị lớn mặc dù tương đối kích thước nhỏ. chuẩn hóa stan cho lần quan sát đầu tiên. Giá trị Lời giải thích có thể là một hồ bơi ngoài trời hoặc một khu 0,8556 cho chúng ta biết rằng quan sát đầu tiên là khoảng 0,85 độ lệch đất rộng bất thường. Vì giá trị này sẽ ảnh hưởng đến kết quả chuẩn bên dưới đường hồi quy. Nếu chúng tôi kiểm tra giá trị hồi quy và có thể không đại diện cho các ngôi nhà khác trong của tất cả các phần dư đã chuẩn hóa, bạn sẽ thấy rằng giá trị vùng lân cận, bạn có thể cân nhắc bỏ quan sát này và tính toán của điểm dữ liệu cuối cùng là 4,53, nghĩa là giá trị thị trường lại mô hình hồi quy. của ngôi nhà này, chỉ có 1,581 ô vuông. Machine Translated by Google 248 Chương 8 Đường xu hướng và phân tích hồi quy Kiểm tra giả định Các thử nghiệm giả thuyết thống kê liên quan đến phân tích hồi quy được xác định dựa trên một số giả định chính về dữ liệu. 1. Tính tuyến tính. Điều này thường được kiểm tra bằng cách kiểm tra sơ đồ phân tán của dữ liệu hoặc kiểm tra biểu đồ phần dư. Nếu mô hình phù hợp, thì phần dư sẽ xuất hiện rải rác ngẫu nhiên về 0, không có mẫu rõ ràng. Nếu phần dư thể hiện một số mẫu được xác định rõ ràng, chẳng hạn như xu hướng tuyến tính, hình parabol, v.v., thì có bằng chứng rõ ràng rằng một số dạng hàm khác có thể phù hợp hơn với dữ liệu. 2. Tính bình thường của lỗi. Phân tích hồi quy giả định rằng các lỗi đối với mỗi giá trị riêng của X được phân phối chuẩn, với giá trị trung bình bằng không. Điều này có thể được xác minh bằng cách kiểm tra biểu đồ của phần dư tiêu chuẩn và kiểm tra phân phối hình chuông hoặc bằng cách sử dụng các bài kiểm tra mức độ phù hợp chính thức hơn. Thường khó đánh giá tính quy phạm với cỡ mẫu nhỏ. Tuy nhiên, phân tích hồi quy khá mạnh mẽ chống lại sự khác biệt so với tính bình thường, vì vậy trong hầu hết các trường hợp, đây không phải là vấn đề nghiêm trọng. 3. Phương sai đồng nhất. Giả định thứ ba là phương sai đồng nhất, có nghĩa là sự thay đổi xung quanh đường hồi quy là không đổi đối với tất cả các giá trị của biến độc lập. Điều này cũng có thể được đánh giá bằng cách kiểm tra biểu đồ phần dư và tìm kiếm sự khác biệt lớn về phương sai ở các giá trị khác nhau của biến độc lập. Cần thận trọng khi xem xét các lô còn lại. Trong nhiều ứng dụng, mô hình được lấy từ dữ liệu hạn chế và không có sẵn nhiều quan sát cho các giá trị khác nhau của X, gây khó khăn cho việc đưa ra kết luận dứt khoát về phương sai thay đổi. Nếu giả định này bị vi phạm nghiêm trọng thì nên sử dụng các kỹ thuật khác ngoài bình phương nhỏ nhất để ước lượng mô hình hồi quy. 4. Độc lập nhận lỗi. Cuối cùng, phần dư phải độc lập với từng giá trị của biến độc lập. Đối với dữ liệu chéo, giả định này thường không phải là vấn đề. Tuy nhiên, khi thời gian là biến độc lập, đây là một giả định quan trọng. Nếu các quan sát liên tiếp có vẻ tương quan với nhau— ví dụ, bằng cách trở nên lớn hơn theo thời gian hoặc thể hiện một kiểu mẫu theo chu kỳ—thì giả định này bị vi phạm. Mối tương quan giữa các quan sát liên tiếp theo thời gian được gọi là tự tương quan và có thể được xác định bởi các đồ thị phần dư có các cụm phần dư cùng dấu. Tự tương quan có thể được đánh giá chính thức hơn bằng cách sử dụng kiểm tra thống kê dựa trên thước đo được gọi là thống kê Durbin–Watson. Thống kê Durbin–Watson là N Một 1ei - ei-1 22 Đ. tôi 2 (8.9) N Một e2 Tôi tôi 1 Đây là một tỷ lệ của sự khác biệt bình phương trong số dư liên tiếp với tổng bình phương của tất cả các số dư. D sẽ nằm trong khoảng từ 0 đến 4. Khi các phần dư liên tiếp được tự tương quan dương, D sẽ tiến tới 0. Các giá trị tới hạn của thống kê đã được lập bảng dựa trên cỡ mẫu và số biến độc lập cho phép bạn kết luận rằng có bằng chứng au tocorrelation hoặc không có bằng chứng về tự tương quan hoặc kiểm định không thuyết phục. Đối với hầu hết các mục đích thực tế, các giá trị dưới 1 đề xuất tự tương quan; các giá trị trên 1,5 và dưới 2,5 cho thấy không có tự tương quan; và các giá trị trên 2,5 gợi ý Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 249 Hình 8.15 Biểu đồ tiêu chuẩn dư tự tương quan âm. Điều này có thể trở thành một vấn đề khi sử dụng hồi quy trong dự báo, mà chúng ta sẽ thảo luận trong chương tiếp theo. Một số gói phần mềm tính toán thống kê này; tuy nhiên, Excel thì không. Khi các giả định của hồi quy bị vi phạm, thì các suy luận thống kê rút ra từ các kiểm định giả thuyết có thể không hợp lệ. Do đó, trước khi đưa ra các kết luận về mô hình hồi quy và thực hiện các kiểm định giả thuyết, các giả định này cần được kiểm tra. Tuy nhiên, ngoài tính tuyến tính, những giả định này không chỉ cần thiết cho mục đích ước lượng và điều chỉnh mô hình. VÍ DỤ 8.11 Kiểm tra các giả định hồi quy cho dữ liệu giá trị thị trường nhà Tính tuyến tính: Biểu đồ phân tán của dữ liệu giá trị thị trường sai lệch nghiêm trọng so với thông thường, đặc biệt là khi cỡ mẫu dường như là tuyến tính; nhìn vào biểu đồ phần dư trong Hình 8.14 nhỏ. cũng xác nhận không có mẫu nào trong phần dư. Mức độ sai số bình thường: Hình 8.15 cho thấy một biểu đồ của phần dư tiêu chuẩn cho dữ liệu giá trị thị trường. Phân phối dường như hơi lệch một cách tích cực (đặc biệt là với ngoại lệ) nhưng dường như không phải là một Phương sai đồng nhất: Trong đồ thị phần dư ở Hình 8.14, chúng ta không thấy có sự khác biệt nghiêm trọng nào trong việc trải rộng dữ liệu đối với các giá trị khác nhau của X, đặc biệt nếu giá trị ngoại lệ bị loại bỏ. Tính độc lập của lỗi: Do dữ liệu chéo mặt cắt ngang, chúng ta có thể giả định rằng giả định này đúng. Nhiều hồi quy tuyến tính Nhiều trường đại học cố gắng dự đoán kết quả học tập của sinh viên như là một chức năng của một số đặc điểm. Trong tệp Excel Cao đẳng và Đại học (xem Hình 8.16), giả sử rằng chúng ta muốn dự đoán tỷ lệ tốt nghiệp như một hàm của các biến khác—điểm SAT trung bình, tỷ lệ được nhận, chi tiêu/sinh viên và phần trăm trong 10% học sinh giỏi nhất của họ. lớp trung học. Nó là hợp lý để Machine Translated by Google 250 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.16 Một phần của tệp Excel Cao đẳng và đại học đề xuất rằng các trường có học sinh có điểm SAT cao hơn, tỷ lệ chấp nhận thấp hơn, ngân sách lớn hơn và tỷ lệ học sinh nằm trong top 10% các lớp trung học cao hơn sẽ có xu hướng giữ lại và tốt nghiệp nhiều học sinh hơn. Mô hình hồi quy tuyến tính có nhiều hơn một biến độc lập được gọi là mô hình hồi quy tuyến tính nhiều biến. Hồi quy tuyến tính đơn giản chỉ là một trường hợp đặc biệt của hồi quy tuyến tính bội. Một mô hình hồi quy tuyến tính bội có dạng: Y b0 + b1X1 + b2X2 + g + bkXk + e (8.10) Ở đâu Y là biến phụ thuộc, X1 , c, Xk là các biến độc lập (giải thích), b0 là số hạng chặn, b1 , c, bk là hệ số hồi quy của các biến độc lập, e là thuật ngữ lỗi Tương tự như hồi quy tuyến tính đơn giản, chúng tôi ước tính các hệ số hồi quy—được gọi là hệ số hồi quy từng phần—b0 , b1 , b2 , cbk , sau đó sử dụng mô hình: yn b0 + b1X1 + b2X2 + g+ bkXk (8.11) để dự đoán giá trị của biến phụ thuộc. Các hệ số hồi quy từng phần biểu thị sự thay đổi dự kiến trong biến phụ thuộc khi biến độc lập liên quan được tăng lên một đơn vị trong khi giá trị của tất cả các biến độc lập khác được giữ không đổi. Đối với dữ liệu cao đẳng và đại học, mô hình đề xuất sẽ là % tốt nghiệp b0 + b1 SAT + b2 CHẤP NHẬN + b3 CHI PHÍ + b4 TOP10% HS Do đó, b2 sẽ đại diện cho ước tính về sự thay đổi trong tỷ lệ tốt nghiệp cho một đơn vị tăng tỷ lệ chấp nhận trong khi giữ tất cả các biến khác không đổi. Giống như hồi quy tuyến tính đơn giản, hồi quy tuyến tính bội sử dụng bình phương nhỏ nhất để ước tính hệ số chặn và hệ số góc giúp giảm thiểu tổng các số hạng sai số bình phương trên tất cả các quan sát. Các giả định chính được thảo luận cho hồi quy tuyến tính đơn giản cũng được áp dụng ở đây. Công cụ hồi quy Excel có thể dễ dàng thực hiện nhiều hồi quy tuyến tính; bạn chỉ cần chỉ định phạm vi đầy đủ cho dữ liệu biến độc lập trong hộp thoại. Một lưu ý khi sử dụng công cụ: các biến độc lập trong bảng tính phải nằm trong các cột liền kề nhau. Vì vậy, bạn có thể phải di chuyển thủ công các cột dữ liệu xung quanh trước khi áp dụng công cụ. Machine Translated by Google 251 Chương 8 Đường xu hướng và phân tích hồi quy Các kết quả từ công cụ Hồi quy có cùng định dạng như chúng ta đã thấy 2 hồi quy tuyến tính. Tuy nhiên, một số khác biệt chính tồn tại. Nhiều R và R Square (hoặc R ) lần lượt được gọi là hệ số tương quan bội và hệ số xác định bội, trong bối cảnh hồi quy bội. Chúng chỉ ra sức mạnh của mối liên hệ giữa các biến phụ thuộc và biến độc lập. Tương tự như hồi quy tuyến tính đơn giản, R 2 giải thích tỷ lệ phần trăm biến thể trong biến phụ thuộc được giải thích bởi tập hợp các biến độc lập trong mô hình. Việc giải thích phần ANOVA hoàn toàn khác so với phần hồi quy tuyến tính đơn giản. Đối với hồi quy tuyến tính bội, ANOVA kiểm tra tầm quan trọng của toàn bộ mô hình. Nghĩa là, nó tính toán một thống kê F để kiểm tra các giả thuyết b2 g bk 0 H0 : b1 H1 : ít nhất một bj không phải là 0 Giả thuyết khống nói rằng không có mối quan hệ tuyến tính nào tồn tại giữa người phụ thuộc và bất kỳ của các biến độc lập, trong khi giả thuyết thay thế nói rằng biến phụ thuộc có mối quan hệ tuyến tính với ít nhất một biến độc lập. Nếu giả thuyết vô hiệu bị bác bỏ, chúng ta không thể kết luận rằng có một mối quan hệ tồn tại với từng biến độc lập riêng lẻ. Đầu ra hồi quy tuyến tính bội cũng cung cấp thông tin để kiểm tra các giả thuyết về từng hệ số hồi quy riêng lẻ. Cụ thể, chúng ta có thể kiểm tra giả thuyết không rằng b0 (giá trị chặn) hoặc bất kỳ bi nào bằng không. Nếu chúng ta bác bỏ giả thuyết vô hiệu rằng hệ số góc liên quan đến biến độc lập i bằng 0, H0 : bi 0, thì chúng ta có thể nói rằng biến độc lập i có ý nghĩa trong mô hình hồi quy; nghĩa là nó góp phần làm giảm sự biến thiên của biến phụ thuộc và cải thiện khả năng dự báo tốt hơn của mô hình đối với biến phụ thuộc. Tuy nhiên, nếu chúng ta không thể bác bỏ H0 thì biến độc lập đó không có ý nghĩa và có lẽ không nên đưa vào mô hình. Chúng ta xem cách sử dụng thông tin này để xác định mô hình tốt nhất trong phần tiếp theo. Cuối cùng, đối với nhiều mô hình hồi quy, một biểu đồ phần dư được tạo cho mỗi biến vết lõm độc lập. Điều này cho phép bạn đánh giá các giả định về tuyến tính và phương sai thay đổi đồng nhất của hồi quy. VÍ DỤ 8.12 Giải thích kết quả hồi quy cho dữ liệu trường cao đẳng và đại học Kết quả hồi quy bội cho dữ liệu trường cao đẳng và đại học được thể hiện trong Hình 8.17. nếu nhu cầu của họ không được đáp ứng, một số sinh viên kinh Từ phần Hệ số, chúng ta thấy rằng mô hình là: CHI PHÍ doanh có thể theo đuổi sở thích khác trước khi tốt nghiệp hoặc có lỗi chọn mẫu. Như với hồi quy tuyến tính đơn giản, mô hình chỉ Tốt nghiệp % = 17,92 + 0,072 SAT một số sinh viên giỏi nhất đòi hỏi khắt khe hơn và chuyển trường 24,859 CHẤP NHẬN 0,000136 0,163 TOP10% HS Các dấu hiệu của một số hệ số có ý nghĩa; điểm SAT cao hơn và tỷ nên được sử dụng cho các giá trị của các biến độc lập trong phạm vi dữ liệu. Giá trị của R 2 (0,53) chỉ ra rằng 53% phương sai lệ chấp nhận thấp hơn cho thấy tỷ lệ tốt nghiệp cao hơn. Tuy trong biến phụ thuộc được giải thích bởi những điều này trong nhiên, chúng ta có thể kỳ vọng rằng chi tiêu lớn hơn của sinh các biến phụ thuộc. Điều này cho thấy rằng các yếu tố khác không viên và tỷ lệ học sinh trung học hàng đầu cao hơn cũng sẽ ảnh có trong mô hình, có thể là điều kiện sống trong khuôn viên hưởng tích cực đến tỷ lệ tốt nghiệp. Có lẽ vấn đề xảy ra bởi vì trường, cơ hội xã hội, v.v., cũng có thể ảnh hưởng đến tỷ lệ tốt nghiệp. (còn tiếp) Machine Translated by Google 252 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.17 Nhiều hồi quy Kết quả cho Dữ liệu Cao đẳng và Đại học Hình 8.18 Âm mưu còn lại cho 10% hàng đầu biến HS Từ phần ANOVA, chúng ta có thể kiểm tra ý nghĩa của hồi quy. Ở mức ý nghĩa 5%, chúng tôi bác bỏ giả thuyết không vì Ý nghĩa F về cơ bản bằng không. Do đó, chúng ta có thể kết luận rằng ít nhất một độ dốc khác 0 về mặt thống kê. hệ số hồi quy bằng 0 và kết luận rằng mỗi trong số chúng đều có ý nghĩa thống kê. Hình 8.18 cho thấy một trong các ô còn lại từ đầu ra của Excel. Các giả định dường như được đáp ứng và các ô còn lại khác (không được hiển thị) cũng xác nhận các giả định này. Nhìn vào giá trị p của các biến độc lập trong phần trước, Biểu đồ xác suất bình thường (cũng không được hiển thị) không chúng ta thấy rằng tất cả đều nhỏ hơn 0,05; do đó, chúng tôi gợi ý bất kỳ sự sai lệch nghiêm trọng nào so với tính bình bác bỏ giả thuyết khống rằng mỗi phần thường. Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 253 Phân tích trong thực tế: Sử dụng hồi quy tuyến tính và rủi ro tương tác Trình mô phỏng để dự đoán hiệu suất tại ARAMARK3 ARAMARK là công ty hàng đầu về các dịch vụ chuyên nghiệp, cho khách hàng của họ sử dụng. Họ đã phát triển “Trình mô cung cấp dịch vụ ăn uống từng đoạt giải thưởng, quản lý cơ phỏng rủi ro tương tác”, là công cụ trực tuyến đơn giản cho sở vật chất, đồng phục và trang phục nghề nghiệp cho các tổ phép người dùng thao tác giá trị của các biến độc lập trong chức chăm sóc sức khỏe, trường đại học và khu học chánh, mô hình hồi quy bằng cách sử dụng các thanh trượt tương tác sân vận động và nhà thi đấu cũng như các doanh nghiệp trên tương ứng với các số liệu kinh doanh và xem ngay giá trị khắp thế giới. Có trụ sở chính tại Philadelphia, ARAMARK có của các biến phụ thuộc (các đo lường rủi ro) trên các đồng khoảng 255.000 nhân viên phục vụ khách hàng tại 22 quốc gia. hồ đo tương tự như đồng hồ đo được tìm thấy trên bảng điều khiển của ô tô. ARA M AR K 's G lo ba l R i S Hình 8.19 minh họa cấu trúc của bộ mô phỏng. Các k M an ageme nt Department (GRM) cần một cách để xác định mối quan hệ thống thước đo được cập nhật ngay lập tức khi người dùng điều kê giữa các số liệu kinh doanh chính (ví dụ: thời hạn của chỉnh các thanh trượt, cho biết những thay đổi trong môi nhân viên, mức độ gắn kết của nhân viên, lực lượng lao trường kinh doanh ảnh hưởng như thế nào đến các thước đo rủi động được đào tạo, thời hạn của tài khoản, dịch vụ cung cấp) ro. Biểu diễn trực quan này làm cho các mô hình dễ sử dụng và các số liệu về rủi ro (ví dụ: tỷ lệ OSHA, người lao và dễ hiểu, đặc biệt đối với những nhân viên không có kỹ thuật. động ' tỷ lệ bồi thường, thiệt hại của khách hàng) để hiểu tác động của những rủi ro này đối với doanh nghiệp. GRM cũng cần một công cụ đơn giản mà các nhà điều hành hiện trường và nhóm quản lý rủi ro có thể sử dụng để dự đoán tác động của các quyết định kinh doanh đối với các thước đo rủi ro trước khi các quyết định đó được thực hiện. Những câu hỏi điển hình mà họ muốn hỏi là, Điều gì sẽ xảy ra với tỷ lệ OSHA của chúng tôi nếu chúng tôi tăng tỷ lệ lao động bán thời gian? và Làm thế nào chúng ta có thể tác động đến doanh thu nếu hoạt động cải thiện hiệu suất an toàn? Gunnar Pippel/ Shutterstock.com ARAMARK duy trì dữ liệu lịch sử phong phú. Ví dụ: nhóm Quản lý Rủi ro Toàn cầu theo dõi các dữ liệu như tỷ lệ OSHA, tỷ lệ trượt/chui/ngã, chi phí thương tích và mức độ tuân thủ các tiêu chuẩn an toàn; bộ phận Nhân sự theo dõi doanh thu và tỷ lệ lao động bán thời gian; bộ phận Tính lương lưu dữ liệu về tiền lương bình quân; và bộ phận Đào tạo và Phát triển Tổ chức thu thập dữ liệu về sự gắn kết của GRM đã gửi hơn 200 cuộc khảo sát tới nhiều cấp độ của tổ chức để đánh giá tính hữu ích của Trình mô phỏng rủi ro nhân viên. Hồi quy tuyến tính dựa trên Excel được sử dụng tương tác. Một trăm phần trăm số người được hỏi đã trả lời để xác định mối quan hệ giữa các biến phụ thuộc (chẳng hạn “Có” cho “Các trình mô phỏng có dễ sử dụng không?” và 78% như tỷ lệ OSHA, tỷ lệ trượt/chuyến/ngã, chi phí yêu cầu bồi số người được hỏi đã trả lời “Có” cho “Liệu những trình mô thường và chuyển giao) và các biến độc lập (chẳng hạn như phỏng này có hữu ích trong việc điều hành doanh nghiệp của tỷ lệ phần trăm lao động bán thời gian, mức lương trung bạn và giúp bạn đưa ra quyết định không?” Việc triển khai bình, sự tham gia của nhân viên và tuân thủ an toàn). Trình mô phỏng rủi ro tương tác cho lĩnh vực này đã nhận được phản hồi tích cực và sự công nhận từ lãnh đạo trong tất cả các ngành kinh doanh, bao gồm các nhà quản lý tuyến Mặc dù các mô hình hồi quy cung cấp hỗ trợ phân tích cơ bản mà ARAMARK cần, nhóm GRM đã sử dụng một phương pháp đầu, giám đốc dịch vụ thực phẩm, quản lý khu vực và tổng giám đốc. mới để triển khai các mô hình 3Tác giả bày tỏ lòng biết ơn của mình tới John Toczek, Giám đốc Hỗ trợ Quyết định và Phân tích tại Tập đoàn ARAMARK. Machine Translated by Google 254 Chương 8 Đường xu hướng và phân tích hồi quy c./ Shutterstock.com Nataliia Natykach/ Shutterstock.com vectorminh họa/ Shutterstock.com Đầu vào: Biến độc lập Mô hình hồi quy Đầu ra: Biến phụ thuộc Hình 8.19 Cấu trúc của Trình mô phỏng rủi ro tương tác Xây dựng các mô hình hồi quy tốt Trong ví dụ về hồi quy của các trường cao đẳng và đại học, tất cả các biến độc lập được cho là có ý nghĩa bằng cách đánh giá giá trị p của phân tích hồi quy. Điều này không phải lúc nào cũng đúng và dẫn đến câu hỏi làm thế nào để xây dựng các mô hình hồi quy tốt bao gồm tập hợp các biến “tốt nhất”. Hình 8.20 cho thấy một phần của tệp Excel Dữ liệu ngân hàng, cung cấp dữ liệu thu được từ hồ sơ ngân hàng và điều tra dân số cho các mã zip khác nhau trong thị trường hiện tại của ngân hàng. Những thông tin như vậy có thể hữu ích trong việc nhắm mục tiêu quảng cáo cho khách hàng mới hoặc để chọn địa điểm cho các văn phòng chi nhánh. Dữ liệu cho thấy độ tuổi trung bình của dân số, số năm giáo dục trung bình, thu nhập trung bình, giá trị nhà trung bình, tài sản hộ gia đình trung bình và số dư ngân hàng trung bình. Hình 8.21 cho thấy kết quả phân tích hồi quy được sử dụng để dự đoán số dư ngân hàng trung bình như là một hàm của các biến khác. Mặc dù các biến độc lập giải thích hơn 94% sự thay đổi trong số dư ngân hàng trung bình, nhưng bạn có thể thấy rằng ở mức ý nghĩa 0,05, giá trị p cho thấy rằng cả Giáo dục và Giá trị gia đình dường như không có ý nghĩa. Một mô hình hồi quy tốt chỉ nên bao gồm các biến độc lập có ý nghĩa. Tuy nhiên, không phải lúc nào cũng rõ chính xác điều gì sẽ xảy ra khi chúng ta thêm hoặc bớt các biến khỏi một mô hình; các biến có (hoặc không) có ý nghĩa trong một mô hình có thể (hoặc có thể không) có ý nghĩa trong một mô hình khác. Do đó, bạn không nên xem xét loại bỏ tất cả các biến không quan trọng cùng một lúc mà nên thực hiện một cách tiếp cận có cấu trúc hơn. Việc thêm một biến độc lập vào mô hình hồi quy sẽ luôn dẫn đến R đến hoặc lớn hơn R Hình 8.20 Phần dữ liệu ngân hàng 2 của mô hình ban đầu. Điều này đúng ngay cả khi nền độc lập mới 2 bình đẳng Machine Translated by Google 255 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.21 Kết quả phân tích hồi quy cho dữ liệu ngân hàng biến có ít mối quan hệ thực sự với biến phụ thuộc. Vì vậy, cố gắng tối đa hóa không phải r 2 là một tiêu chí hữu ích. Một cách tốt hơn để đánh giá mức độ phù hợp tương đối của các 2 2 mô hình khác nhau là phản ánh cả số lượng biến độc lập và sử dụng R đã điều chỉnh . R đã điều chỉnh kích thước mẫu và có thể tăng hoặc giảm khi một biến độc lập được thêm vào hoặc bỏ đi, do đó cung cấp một dấu hiệu về giá trị của việc thêm hoặc bớt các biến độc lập trong mô hình. Sự gia tăng trong R điều chỉnh 2 chỉ ra rằng mô hình đã được cải thiện. Điều này gợi ý một cách tiếp cận có hệ thống để xây dựng các mô hình hồi quy tốt: 1. Xây dựng mô hình với tất cả các biến độc lập có sẵn. Kiểm tra ý nghĩa của các biến độc lập bằng cách kiểm tra các giá trị p. 2. Xác định biến độc lập có giá trị p lớn nhất vượt quá mức ý nghĩa đã chọn. 3. Loại bỏ biến đã xác định ở bước 2 khỏi mô hình và đánh giá điều chỉnh. r 2(Không loại bỏ tất cả các biến có giá trị p vượt quá a cùng một lúc, nhưng mỗi lần chỉ xóa một cái.) 4. Tiếp tục cho đến khi tất cả các biến đều có ý nghĩa. 2 Về bản chất, cách tiếp cận này tìm kiếm một mô hình quan trọng có R điều chỉnh cao nhất. . VÍ DỤ 8.13 Xác định mô hình hồi quy tốt nhất Chúng tôi sẽ áp dụng cách tiếp cận trước cho ví dụ Dữ liệu dường như là mô hình tốt nhất. Lưu ý rằng giá trị p cho Giáo ngân hàng. Bước đầu tiên là xác định biến có giá trị p lớn dục, lớn hơn 0,05 trong phân tích hồi quy đầu tiên, đã giảm nhất vượt quá 0,05; trong trường hợp này, đó là Giá trị gia xuống dưới 0,05 sau khi Giá trị gia đình bị loại bỏ. Hiện đình và chúng tôi xóa nó khỏi mô hình và chạy lại công cụ tượng này thường xảy ra khi có hiện tượng đa cộng tuyến (được thảo luận trong phần tiếp theo) và nhấn mạnh tầm quan Hồi quy. Hình 8.22 cho thấy kết quả sau khi loại bỏ Giá trị Nhà. Lưu ý rằng R điều chỉnh đã tăng nhẹ, trong khi R 2 2 -giá trị giảm một chút vì chúng tôi đã loại bỏ một biến khỏi mô hình. Tất cả các giá trị p hiện nhỏ hơn 0,05, vì vậy điều này bây giờ trọng của việc không loại bỏ tất cả các biến có giá trị p lớn khỏi mô hình ban đầu cùng một lúc. Machine Translated by Google 256 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.22 Kết quả hồi quy không có giá trị nhà Một tiêu chí khác được sử dụng để xác định xem có nên loại bỏ một biến hay không là thống kê t. 2 Nếu t 6 1 thì sai số chuẩn giảm và điều chỉnh R sẽ tăng nếu biến có thể được gỡ bỏ. Nếu t 7 1 thì điều ngược lại sẽ xảy ra. Trong kết quả hồi quy ngân hàng, chúng tôi thấy rằng thống kê t cho Giá trị gia đình nhỏ hơn 1; do đó, chúng tôi mong đợi điều chỉnh 2 tăng lên nếu chúng ta loại bỏ biến này. Bạn có thể làm theo cách tiếp cận lặp lại tương tự r xếp hàng trước, ngoại trừ việc sử dụng giá trị t thay vì giá trị p. Những cách tiếp cận này sử dụng giá trị p hoặc thống kê t có thể liên quan đến trải nghiệm đáng 2 đề cập để xác định tập hợp các biến tốt nhất dẫn đến R được điều chỉnh lớn nhất kể. Cho lớn số lượng biến độc lập, số lượng mô hình tiềm năng có thể áp đảo. Ví dụ, có 2 10 1.024 mô hình khả thi có thể được phát triển từ bộ 10 biến độc lập. Điều này có thể gây khó khăn cho việc sàng lọc các biến không đáng kể một cách hiệu quả. May mắn thay, các phương pháp tự động—hồi quy từng bước và các tập hợp con tốt nhất—tồn tại để tạo thuận lợi cho quá trình này. Tương quan và đa cộng tuyến Như chúng ta đã học trước đây, tương quan, một giá trị số giữa -1 và +1, đo lường mối quan hệ tuyến tính giữa các cặp biến. Giá trị tuyệt đối của mối tương quan càng cao thì độ mạnh của mối quan hệ càng lớn. Dấu hiệu chỉ đơn giản cho biết liệu các biến có xu hướng cùng tăng (dương) hay không (âm). Do đó, việc kiểm tra mối tương quan giữa các biến phụ thuộc và biến độc lập, có thể được thực hiện bằng công cụ Tương quan Excel, có thể hữu ích trong việc chọn các biến để đưa vào mô hình hồi quy bội vì mối tương quan mạnh biểu thị mối quan hệ tuyến tính mạnh. Tuy nhiên, mối tương quan chặt chẽ giữa các biến độc lập có thể là vấn đề. Điều này có khả năng biểu thị một hiện tượng gọi là đa cộng tuyến, một tình trạng xảy ra khi hai hoặc nhiều biến độc lập trong cùng một mô hình hồi quy chứa cùng một mức thông tin cao và do đó, có mối tương quan chặt chẽ với nhau và có thể dự đoán lẫn nhau tốt hơn biến phụ thuộc . Khi có hiện tượng đa cộng tuyến đáng kể, sẽ khó tách riêng tác động của một biến độc lập lên biến phụ thuộc và dấu của các hệ số có thể trái ngược với những gì chúng nên có, gây khó khăn cho việc diễn giải các hệ số hồi quy. Ngoài ra, giá trị p có thể bị thổi phồng, dẫn đến kết luận không bác bỏ giả thuyết khống về tầm quan trọng của hồi quy khi nó nên bác bỏ. Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy 257 Một số chuyên gia cho rằng mối tương quan giữa các biến độc lập vượt quá giá trị tuyệt đối 0,7 có thể cho thấy hiện tượng đa cộng tuyến. Tuy nhiên, đa cộng tuyến được đo lường tốt nhất bằng cách sử dụng thống kê gọi là hệ số lạm phát phương sai (VIF) cho từng biến độc lập. Các gói phần mềm tinh vi hơn thường tính toán những thứ này; thật không may, Excel thì không. VÍ DỤ 8.14 Xác định đa cộng tuyến tiềm ẩn Hình 8.23 cho thấy ma trận tương quan của các biến trong dữ liệu tồn tại các mối tương quan giữa Giáo dục và Giá trị gia đình cũng Cao đẳng và Đại học. Bạn có thể thấy rằng SAT và Tỷ lệ được chấp như giữa Sự giàu có và Thu nhập (trên thực tế, sự khác biệt trong nhận có mối tương quan vừa phải với biến phụ thuộc, Tỷ lệ phần trăm tốt nghiệp, nhưng mối tương quan giữa Chi phí/Học sinh và các yếu tố lạm phát cho thấy tính đa cộng tuyến đáng kể). Nếu chúng 2 ta loại bỏ Wealth khỏi mô hình, R được điều chỉnh giọt Top 10% HS với Tỷ lệ phần trăm tốt nghiệp là tương đối thấp. Tuy đến 0,9201, nhưng chúng tôi phát hiện ra rằng Giáo dục không còn nhiên, mối tương quan mạnh nhất là giữa hai biến độc lập: Top 10% quan trọng nữa. Bỏ Học vấn và chỉ để lại Tuổi và Thu nhập trong mô 2 của 0,9202. hình dẫn đến R được điều chỉnh HS và Tỷ lệ chấp nhận. Tuy nhiên, giá trị 0,6097 không vượt quá ngưỡng khuyến nghị là 0,7, vì vậy chúng ta có thể giả định rằng đa cộng tuyến không phải là vấn đề ở đây (một phân tích nâng cao hơn sử dụng tính toán VIF thực sự xác nhận rằng đa cộng tuyến không tồn tại). Tuy nhiên, nếu chúng ta loại bỏ Thu nhập khỏi mô hình thay vì Của 2 giảm xuống chỉ còn 0,9345 và tất cả cải, R đã điều chỉnh các biến còn lại (Tuổi tác, Giáo dục và Sự giàu có) có ý nghĩa 2 -giá trị cho mô hình với quan trọng (xem Hình 8.25). các R ba biến này là 0,936. Ngược lại, Hình 8.24 cho thấy ma trận tương quan cho tất cả dữ liệu trong ví dụ về ngân hàng. Lưu ý rằng lớn Các vấn đề thực tế trong mô hình đường xu hướng và hồi quy Ví dụ 8.14 cho thấy rõ ràng rằng không dễ để xác định mô hình hồi quy tốt nhất chỉ bằng cách kiểm tra các giá trị p. Nó thường đòi hỏi một số thử nghiệm và thử và sai. Từ góc độ thực tế, các biến độc lập được chọn sẽ có ý nghĩa nào đó trong nỗ lực giải thích biến phụ thuộc (nghĩa là bạn nên có lý do nào đó để tin rằng những thay đổi trong biến độc lập sẽ gây ra những thay đổi trong biến phụ thuộc mặc dù không thể chứng minh quan hệ nhân quả bằng thống kê ). Logic nên hướng dẫn mô hình của bạn Hình 8.23 Ma trận tương quan cho Cao đẳng và đại học Dữ liệu Hình 8.24 Ma trận tương quan cho Dữ liệu ngân hàng Machine Translated by Google 258 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.25 Kết quả hồi quy cho Tuổi, Giáo dục, và sự giàu có như Biến độc lập phát triển. Trong nhiều ứng dụng, lý thuyết hành vi, kinh tế hoặc vật lý có thể gợi ý rằng các biến nhất định nên thuộc về một mô hình. Hãy nhớ rằng các biến bổ sung đóng góp vào R cao hơn 2 và, do đó, giúp giải thích một tỷ lệ lớn hơn của sự khác biệt sự. Mặc dù một biến có giá trị p lớn không có ý nghĩa thống kê, nó có thể đơn giản là kết quả của lỗi lấy mẫu và người lập mô hình có thể muốn giữ nó. Những người lập mô hình giỏi cũng cố gắng có một mô hình đơn giản nhất có thể—một nguyên tắc lâu đời được gọi là tính phân tích—với số lượng biến giải thích ít nhất sẽ cung cấp một diễn giải đầy đủ về biến phụ thuộc. Trong khoa học vật lý và quản lý, một số lý thuyết mạnh mẽ nhất lại là lý thuyết đơn giản nhất. Do đó, một mô hình cho dữ liệu ngân hàng chỉ bao gồm tuổi, trình độ học vấn và sự giàu có sẽ đơn giản hơn một mô hình có bốn biến; do vấn đề đa cộng tuyến, sẽ thu được rất ít lợi ích khi đưa thu nhập vào mô hình. Cho dù mô hình giải thích được 93% hay 94% sự thay đổi của tiền gửi ngân hàng thì có thể sẽ tạo ra sự khác biệt nhỏ. Do đó, việc xây dựng các mô hình hồi quy tốt phụ thuộc nhiều vào kinh nghiệm và phán đoán cũng như phân tích kỹ thuật. Một vấn đề mà người ta thường gặp phải khi sử dụng đường xu hướng và hồi quy là khớp quá mức mô hình. Điều quan trọng là phải nhận ra rằng dữ liệu mẫu có thể có sự thay đổi bất thường khác với tổng thể; nếu chúng ta khớp một mô hình quá gần với dữ liệu mẫu, chúng ta có nguy cơ không khớp nó tốt với dân số mà chúng ta quan tâm. Ví dụ, để phù hợp với giá dầu thô trong Ví dụ 8.2, chúng tôi lưu ý rằng R 2-giá trị sẽ tăng lên nếu chúng tôi phù hợp với thứ tự cao hơn các hàm đa thức vào dữ liệu. Mặc dù điều này có thể mang lại sự phù hợp toán học tốt hơn cho dữ liệu mẫu, nhưng làm như vậy có thể gây khó khăn cho việc giải thích các hiện tượng một cách hợp lý. Điều tương tự cũng có thể xảy ra với hồi quy bội. Nếu chúng ta thêm quá nhiều thuật ngữ vào mô hình, thì mô hình có thể không dự đoán đầy đủ các giá trị khác từ tổng thể. Việc trang bị quá mức có thể được giảm thiểu bằng cách sử dụng logic tốt, trực giác, lý thuyết vật lý hoặc hành vi và sự phân tích như chúng ta đã thảo luận. Hồi quy với các biến độc lập phân loại Một số dữ liệu quan tâm trong một nghiên cứu hồi quy có thể là thứ tự hoặc danh nghĩa. Ví dụ, điều này phổ biến khi bao gồm dữ liệu nhân khẩu học trong các nghiên cứu tiếp thị. Bởi vì phân tích hồi quy yêu cầu dữ liệu số, chúng tôi có thể bao gồm các biến phân loại bằng cách mã hóa các biến. Ví dụ: nếu một biến đại diện cho việc một cá nhân có tốt nghiệp đại học hay không, chúng ta có thể mã Không là 0 và Có là 1. Các biến như vậy thường được gọi là biến giả. Machine Translated by Google 259 Chương 8 Đường xu hướng và phân tích hồi quy VÍ DỤ 8.15 Một mô hình với các biến phân loại Tệp Excel Lương nhân viên, được hiển thị trong Hình 8.26, cung Do đó, một người 30 tuổi có bằng MBA sẽ có mức lương ước tính là cấp dữ liệu về lương và tuổi của 35 nhân viên, cùng với chỉ số về việc nhân viên đó có bằng MBA hay không (Có hoặc Không). Biến chỉ báo MBA là cat egorical; do đó, chúng tôi mã hóa nó bằng cách thay thế Không bằng 0 và Có bằng 1. lương = 893,59 + 1044,15 × 30 + 14767,23 × 1 = $46.985,32 Mô hình này gợi ý rằng việc có bằng MBA sẽ tăng lương cho nhóm Nếu chúng ta quan tâm đến việc dự đoán tiền lương như một chức năng của các biến khác, chúng tôi sẽ đề xuất mô hình Y = B0 + B1X1 + B2X2 + E Lưu ý rằng bằng cách thay thế 0 hoặc 1 cho MBA, chúng tôi thu được hai mô hình: Không có bằng MBA: lương = 893,59 + 1044,15 × tuổi Ở đâu Y = tiền lương X1 = tuổi X2 = chỉ số MBA (0 hoặc 1) Sau khi mã hóa cột chỉ báo MBA trong tệp dữ liệu, chúng tôi bắt đầu bằng cách chạy hồi quy trên toàn bộ tập dữ liệu, thu được kết quả như trong Hình 8.27. Lưu ý rằng mô hình giải thích khoảng 95% biến thể và giá trị p của cả hai biến đều có ý nghĩa. mô hình là lương = 893,59 + 1044,15 × tuổi + 14767,23 × MBA Hình 8.26 Một phần của tệp Excel Lương nhân viên Hình 8.27 Mô hình hồi quy ban đầu cho Lương nhân viên nhân viên này lên gần 15.000 USD. MBA: lương = 15.660,82 + 1044,15 × tuổi Sự khác biệt duy nhất giữa chúng là đánh chặn. Các mô hình cho thấy tỷ lệ tăng lương theo tuổi là như nhau ở cả hai nhóm. Tất nhiên, điều này có thể không đúng. Những người có bằng MBA có thể kiếm được mức lương tương đối cao hơn khi họ già đi. Nói cách khác, độ dốc của Tuổi có thể phụ thuộc vào giá trị của MBA. Machine Translated by Google 260 Chương 8 Đường xu hướng và phân tích hồi quy Một tương tác xảy ra khi ảnh hưởng của một biến (nghĩa là độ dốc) phụ thuộc vào một biến khác. Chúng ta có thể kiểm tra các tương tác bằng cách xác định một biến mới là tích của hai biến X3 X1 * X2 và kiểm tra xem biến này có ý nghĩa hay không, dẫn đến một mô hình thay thế. VÍ DỤ 8.16 Kết hợp các thuật ngữ tương tác trong một mô hình hồi quy Đối với ví dụ về Lương của nhân viên, chúng tôi xác định một lương = 3.323,11 + 984,25 × tuổi + 425,58 thuật ngữ tương tác là tích của tuổi 1X1 2 và MBA 1X2 2 bằng × MBA × tuổi cách xác định X3 = X1 × X2 . Mô hình mới là Các mô hình cho nhân viên có và không có bằng MBA là: Y = B0 + B1X1 + B2X2 + B3X3 + E Không có bằng MBA: lương = 3.323,11 + 984,25 × tuổi + 425,58 (0) Trong trang tính, chúng ta cần tạo một cột mới (được gọi là × tuổi Tương tác) bằng cách nhân MBA với Tuổi cho mỗi quan sát (xem = 3323,11 + 984,25 × tuổi Hình 8.28). Kết quả hồi quy được thể hiện trong Hình 8.29. Từ hình 8.29, chúng ta thấy rằng R hiệu chỉnh 2 MBA: lương = 3323,11 + 984,25 × tuổi + 425,58 (1) TRONG nếp gấp; tuy nhiên, giá trị p của biến chỉ báo MBA là 0,33, cho thấy biến này không có ý nghĩa. × tuổi = 3.323,11 + 1.409,83 × tuổi Do đó, chúng tôi loại bỏ biến này và chạy hồi quy chỉ sử dụng Ở đây, chúng ta thấy rằng mức lương không chỉ phụ thuộc vào việc tuổi và thuật ngữ tương tác. Kết quả được thể hiện trong Hình 2 8.30. R đã điều chỉnh tăng nhẹ và nhân viên có bằng MBA hay không mà còn phụ thuộc vào tuổi tác cả tuổi tác và thời hạn tương tác đều có ý nghĩa. Mô hình cuối cùng là Hình 8.28 Phần nhân viên Tiền lương được sửa đổi cho Thuật ngữ tương tác Hình 8.29 Kết quả hồi quy với Thuật ngữ tương tác và thực tế hơn so với mô hình ban đầu. Machine Translated by Google 261 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.30 Mô hình hồi quy cuối cùng cho Dữ liệu lương Biến phân loại có nhiều hơn hai cấp độ Khi một biến phân loại chỉ có hai cấp độ, như trong ví dụ trước, chúng tôi đã mã hóa các cấp độ là 0 và 1 và thêm một biến mới vào mô hình. Tuy nhiên, khi một biến phân loại có k 7 2 cấp thì ta cần thêm k - 1 biến phụ vào mô hình. VÍ DỤ 8.17 Mô hình hồi quy với nhiều mức biến phân loại Tệp Excel Surface Finish cung cấp các phép đo độ hoàn thiện bề mặt của Lưu ý rằng khi X2 = X3 = X4 = 0, thì theo mặc định, loại dao là A. 35 bộ phận được sản xuất trên máy tiện, cùng với số vòng quay trên Thay các giá trị này cho từng loại dao vào mô hình, chúng ta thu được: phút (RPM) của trục chính và một trong bốn loại dụng cụ cắt được sử dụng (xem Hình 8.31). Công cụ loại A: Y = B0 + B1X1 + E Kỹ sư đã thu thập dữ liệu quan tâm đến việc dự đoán độ hoàn thiện bề Loại dao B: Y = B0 + B1X1 + B2 + E mặt như là một chức năng của RPM và loại công cụ. Loại dao C: Y = B0 + B1X1 + B3 + E Trực giác có thể gợi ý xác định một biến giả cho từng loại công Loại dao D: Y = B0 + B1X1 + B4 + E cụ; tuy nhiên, làm như vậy sẽ gây ra sự mất ổn định về số trong dữ liệu và khiến công cụ hồi quy gặp sự cố. Thay vào đó, chúng ta sẽ cần k 1 = 3 biến giả tương ứng với ba cấp độ của biến tự nhiên cat. Mức còn lại sẽ tương ứng với một giá trị tham chiếu hoặc đường cơ sở. Do Đối với giá trị RPM cố định (X1 ), độ dốc tương ứng với các biến giả thể hiện sự khác biệt giữa độ hoàn thiện bề mặt khi sử dụng loại công cụ đó và đường cơ sở khi sử dụng loại công cụ A. đó, vì chúng ta có k = 4 cấp độ của loại công cụ, nên chúng ta sẽ xác Để kết hợp các biến giả này vào mô hình hồi quy, chúng tôi thêm định một mô hình hồi quy có dạng ba cột vào dữ liệu, như trong Hình 8.32. Sử dụng những dữ liệu này, chúng tôi thu được kết quả hồi quy như trong Hình 8.33. Mô hình kết quả là Y = B0 + B1X1 + B2X2 + B3X3 + B4X4 + E bề mặt hoàn thiện = 24,49 + 0,098 RPM Ở đâu 20,49 loại C Y = bề mặt hoàn thiện X1 = VÒNG/PHÚT X2 = 1 nếu loại dụng cụ là B và 0 nếu không X3 = 1 nếu loại dao là C và 0 nếu không X4 = 1 nếu loại dao là D và 0 nếu không 13,31 loại B 26,04 loại D Gần 99% sự thay đổi về độ hoàn thiện bề mặt được mô hình giải thích và tất cả các biến đều có ý nghĩa. Các mô hình els cho từng công cụ riêng lẻ là Công cụ A: bề mặt hoàn thiện = 24,49 + 0,098 RPM 20,49(0) 13,31(0) 26,04(0) = 24,49 + 0,098 vòng/phút (còn tiếp) Machine Translated by Google 262 Chương 8 Đường xu hướng và phân tích hồi quy Công cụ B: hoàn thiện bề mặt = 24,49 + 0,098 RPM 20,49(0) 13,31(1) Công cụ D: bề mặt hoàn thiện = 24,49 + 0,098 RPM 26,04(0) 20,49(0) = 11,18 + 0,098 vòng/phút Công cụ C: bề mặt hoàn thiện = 24,49 + 0,098 RPM 20,49(1) 26,04(0) = 4,00 + 0,098 vòng/phút = 13,31(0) 13,31(0) 26,04(1) 1,55 + 0,098 vòng/phút Lưu ý rằng sự khác biệt duy nhất giữa các mô hình này là các phần chặn; các độ dốc liên quan đến RPM là như nhau. Điều này cho thấy rằng chúng tôi có thể muốn kiểm tra các hành động tương tác giữa loại công cụ cắt và RPM; chúng tôi để lại điều này cho bạn như một bài tập. Hình 8.31 Một phần của bề mặt tệp Excel Hoàn thành Hình 8.32 Ma trận dữ liệu cho bề mặt Kết thúc với các biến giả Machine Translated by Google 263 Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.33 Hồi quy hoàn thiện bề mặt Kết quả mô hình Mô hình hồi quy với số hạng phi tuyến Mô hình hồi quy tuyến tính không phù hợp với mọi tình huống. Biểu đồ phân tán của dữ liệu có thể hiển thị mối quan hệ phi tuyến tính hoặc phần dư cho sự phù hợp tuyến tính có thể dẫn đến một mẫu phi tuyến tính. Trong những trường hợp như vậy, chúng tôi có thể đề xuất một mô hình phi tuyến tính để giải thích mối quan hệ. Chẳng hạn, một mô hình đa thức bậc hai sẽ là Y b0 + b1X + b2X 2 + e Đôi khi, đây được gọi là mô hình hồi quy đường cong. Trong mô hình này, b1 biểu thị hiệu ứng tuyến tính của X trên Y và b2 biểu thị hiệu ứng đường cong. Tuy nhiên, mặc dù mô hình này có vẻ khá khác so với các mô hình hồi quy tuyến tính thông thường, nhưng nó vẫn tuyến tính trong các tham số (beta, là ẩn số mà chúng ta đang cố gắng ước tính). Nói cách khác, tất cả các thuật ngữ là sản phẩm của hệ số beta và một số chức năng của dữ liệu, chúng chỉ đơn giản là các giá trị số. Trong những trường hợp như vậy, chúng ta vẫn có thể áp dụng bình phương nhỏ nhất để ước lượng các hệ số hồi quy. Các mô hình hồi quy đường cong cũng thường được sử dụng trong dự báo khi biến số độc lập là thời gian. Ứng dụng này và các ứng dụng khác của hồi quy trong dự báo sẽ được thảo luận trong chương tiếp theo. VÍ DỤ 8.18 Lập mô hình bán đồ uống sử dụng hồi quy đường cong Tệp Excel Doanh số bán đồ uống cung cấp dữ liệu về doanh số Bây giờ, cả nhiệt độ và bình phương nhiệt độ đều là các biến bán đồ uống lạnh tại một nhà hàng nhỏ có sân ngoài trời lớn độc lập. Hình 8.36 cho thấy kết quả của mô hình hồi quy đường trong những tháng mùa hè (xem Hình 8.34). cong. Mô hình là: Chủ sở hữu đã quan sát thấy rằng doanh số bán hàng có xu hướng tăng vào những ngày nóng hơn. Hình 8.35 cho thấy kết quả hồi doanh số = 142.850 3.643,17 × nhiệt độ + 23,3 × nhiệt độ2 quy tuyến tính cho những dữ liệu này. Hình chữ U của biểu đồ 2 phần dư (đường xu hướng đa thức bậc hai phù hợp với dữ liệu Lưu ý rằng R điều chỉnh phần dư) cho thấy rằng mối quan hệ tuyến tính là không phù tuyến tính và các ô còn lại hiện hiển thị nhiều mẫu ngẫu nhiên hợp. Để áp dụng mô hình hồi quy đường cong, hãy thêm một cột hơn. vào ma trận dữ liệu bằng cách bình phương nhiệt độ. đã tăng đáng kể so với mô hình Machine Translated by Google 264 Hình 8.34 Một phần của tệp Excel Bán nước giải khát Hình 8.35 Kết quả hồi quy tuyến tính cho doanh số bán đồ uống Hình 8.36 hồi quy đường cong Kết quả bán đồ uống Chương 8 Đường xu hướng và phân tích hồi quy Machine Translated by Google 265 Chương 8 Đường xu hướng và phân tích hồi quy Kỹ thuật nâng cao để lập mô hình hồi quy bằng XLMiner XLMiner là một phần bổ trợ Excel để khai thác dữ liệu đi kèm với Nền tảng bộ giải phân tích. Khai thác dữ liệu là chủ đề của Chương 10 và bao gồm nhiều quy trình thống kê khác nhau để khám phá dữ liệu, bao gồm cả phân tích hồi quy. Công cụ phân tích hồi quy trong XLMiner có một số tùy chọn nâng cao không có sẵn trong công cụ Thống kê mô tả của Excel mà chúng ta sẽ thảo luận trong phần này. Hồi quy tập hợp con tốt nhất đánh giá tất cả các mô hình hồi quy có thể có cho một tập hợp các biến độc lập hoặc tập hợp con tốt nhất của các mô hình cho một số biến độc lập cố 2. tập hợp con tốt định. Nó giúp bạn tìm ra mô hình tốt nhất dựa trên R đã điều chỉnh nhất hồi quy đánh giá các mô hình bằng cách sử dụng một thống kê gọi là Cp, được gọi là tiêu chí Bonferroni. Cp ước tính độ lệch được đưa ra trong các ước tính của các câu trả lời bằng cách sử dụng một mô hình chưa được xác định rõ (một mô hình thiếu các yếu tố dự báo quan trọng). Nếu Cp lớn hơn nhiều so với k + 1 (số biến độc lập cộng với 1), thì có độ chệch đáng kể. Mô hình đầy đủ luôn có Cp k + 1. Nếu tất cả các mô hình ngoại trừ mô hình đầy đủ đều có Cps lớn, điều đó cho thấy rằng các biến dự đoán quan trọng bị thiếu. Các mô hình có giá trị tối thiểu hoặc có Cp nhỏ hơn hoặc ít nhất gần bằng k + 1 là những mô hình tốt để xem xét. XLMiner cung cấp năm quy trình khác nhau để chọn các tập hợp con tốt nhất của các biến. Loại bỏ ngược bắt đầu với tất cả các biến độc lập trong mô hình và xóa từng biến một cho đến khi xác định được mô hình tốt nhất. Lựa chọn chuyển tiếp bắt đầu với một mô hình không có biến độc lập và liên tục thêm từng biến một cho đến khi không có biến bổ sung nào đóng góp đáng kể. Lựa chọn từng bước tương tự như Lựa chọn chuyển tiếp ngoại trừ ở mỗi bước, quy trình xem xét loại bỏ các biến không có ý nghĩa thống kê. Thay thế tuần tự thay thế các biến một cách tuần tự, giữ lại những biến giúp cải thiện hiệu suất. Các tùy chọn này có thể chấm dứt với một mô hình khác. Tìm kiếm Toàn diện xem xét tất cả các kết hợp biến để tìm ra kết hợp phù hợp nhất, nhưng có thể tốn thời gian đối với số lượng lớn biến. VÍ DỤ 8.19 Sử dụng XLMiner để hồi quy Chúng tôi sẽ sử dụng ví dụ Dữ liệu Ngân hàng. Sau khi cài đặt, XLMiner sẽ xuất hiện dưới dạng một tab mới trong dải băng Excel. Dải băng XLMiner tạo một trang tính mới với “Bộ điều hướng đầu ra” cho phép bạn nhấp vào các siêu liên kết để xem các phần khác nhau của XLMiner được hiển thị trong Hình 8.37. Để sử dụng công cụ hồi quy cơ đầu ra (xem Hình 8.41). Mô hình hồi quy và đầu ra ANOVA được thể hiện bản, hãy nhấp vào nút Dự đoán trong Khai thác dữ liệu trong Hình 8.42. Lưu ý rằng điều này giống như kết quả thể hiện trong nhóm và chọn Multiple Linear Regression. Sau đó, hộp thoại đầu tiên Hình 8.21. trong số hai hộp thoại sẽ được hiển thị, như trong Hình 8.38. Kết quả tập hợp con tốt nhất xuất hiện bên dưới đầu ra ANOVA, được Đầu tiên, nhập phạm vi dữ liệu (bao gồm tiêu đề) vào hộp gần trên hiển thị trong Hình 8.43. RSS là tổng bình phương còn lại hoặc tổng cùng và chọn hộp Hàng đầu tiên chứa tiêu đề. Tất cả các biến sẽ được bình phương độ lệch giữa khả năng thành công được dự đoán và giá trị liệt kê trong khung bên trái (Các biến trong dữ liệu đầu vào). Chọn thực tế (1 hoặc 0). Xác suất là một thử nghiệm gần như giả thuyết các biến độc lập và di chuyển chúng bằng cách sử dụng nút mũi tên đến rằng một tập hợp con nhất định có thể chấp nhận được; nếu giá trị này ngăn Các biến đầu vào; sau đó chọn biến phụ thuộc và di chuyển nó đến nhỏ hơn 0,05, bạn có thể loại trừ tập hợp con đó. Lưu ý rằng mô hình ngăn Biến đầu ra như trong hình. Bấm tiếp. Hộp thoại thứ hai như trong có 5 hệ số (bao gồm hệ số chặn) là mô hình duy nhất có giá trị Cp nhỏ Hình 8.39 sẽ xuất hiện. hơn k + 1 = 5 và R điều chỉnh của nó 2 là cái lớn nhất. Nếu bạn nhấp vào “Chọn tập hợp con,” Chọn các tùy chọn đầu ra và kiểm tra báo cáo Tóm tắt XLMiner sẽ tạo một trang tính mới với các kết quả cho mô hình này, hộp. Tuy nhiên, trước khi nhấp vào Kết thúc, hãy nhấp vào nút Tập hợp giống như chúng ta tìm thấy trong Hình 8.22; tức là mô hình không có con tốt nhất. Trong hộp thoại minh họa trong Hình 8.40, đánh dấu vào biến Giá trị gia đình. hộp ở trên cùng và chọn quy trình lựa chọn. Bấm OK rồi bấm Kết thúc trong hộp thoại Bước 2. Machine Translated by Google 266 Hình 8.37 Ruy băng XLMiner Hình 8.38 Hồi quy tuyến tính XLMiner Hộp thoại, Bước 1/2 Hình 8.39 Hồi quy tuyến tính XLMiner Hộp thoại, Bước 2/2 Chương 8 Đường xu hướng và phân tích hồi quy Machine Translated by Google Chương 8 Đường xu hướng và phân tích hồi quy Hình 8.40 Hộp thoại tập hợp con tốt nhất của XLMiner Hình 8.41 Đầu ra XLMiner Hoa tiêu Hình 8.42 Công cụ khai thác XL hồi quy đầu ra Hình 8.43 Kết quả tập hợp con tốt nhất của XLMiner 267 Machine Translated by Google 268 Chương 8 Đường xu hướng và phân tích hồi quy XLMiner cũng cung cấp xác thực chéo—một quá trình sử dụng hai bộ dữ liệu mẫu; một để xây dựng mô hình (được gọi là tập huấn luyện) và phần thứ hai để đánh giá hiệu suất của mô hình (được gọi là tập hợp lệ). Điều này sẽ được giải thích trong Chương 10 khi chúng ta nghiên cứu sâu hơn về khai thác dữ liệu, nhưng không cần thiết cho phân tích hồi quy tiêu chuẩn. Điều khoản quan trọng tự tương quan Hồi quy tập con tốt nhất Hệ số xác định 1R nhiều hệ số tương quan 2 Hồi quy tuyến tính bội 2 trang bị quá mức xác thực chéo tằn tiện Hệ số xác định nhiều lần hệ số hồi quy từng phần Mô hình hồi quy đường cong Chức năng đa thức Biến giả hàm số mũ chức năng nguồn r 2 (R bình phương) phương sai đồng nhất Phân tích hồi quy Sự tương tác dư Hồi quy bình phương tối thiểu Ý nghĩa của hồi quy Hàm tuyến tính Hồi quy tuyến tính cơ bản Hàm logarit Sai số chuẩn của ước lượng, SYX đa cộng tuyến Lượng dư tiêu chuẩn vấn đề và bài tập 1. Mỗi trang tính trong tệp Excel LineFit Data chứa đường hồi quy tuyến tính phù hợp nhất bằng công cụ một bộ dữ liệu mô tả mối quan hệ hàm giữa biến phụ Đường xu hướng của Excel. Bạn sẽ kết luận gì về sức thuộc y và biến độc lập x. Xây dựng biểu đồ đường mạnh của bất kỳ mối quan hệ nào? Bạn có sử dụng của từng tập dữ liệu và sử dụng công cụ Thêm đường hồi quy để đưa ra dự đoán về tỷ lệ thất nghiệp dựa xu hướng để xác định các hàm phù hợp nhất để lập mô trên chi phí sinh hoạt không? hình các tập dữ liệu này. 4. Sử dụng dữ liệu trong tệp Excel Weddings xây dựng biểu 2. Một công ty sản phẩm tiêu dùng đã thu thập một số dữ liệu đồ phân tán để xác định xem có mối quan hệ tuyến tính liên quan đến nhu cầu hàng tháng với giá của một trong các nào tồn tại giữa (1) chi phí đám cưới và số người sản phẩm của mình: tham dự, (2) chi phí đám cưới và xếp hạng giá trị, và Giá Yêu cầu (3) giá trị của cặp đôi. thu nhập và chi phí đám cưới chỉ dành cho đám cưới do cô dâu và chú rể chi trả. $11 2.100 Sau đó, tìm các đường hồi quy tuyến tính phù hợp nhất $13 2,020 bằng cách sử dụng công cụ Đường xu hướng của Excel $17 1.980 $19 1.875 cho từng biểu đồ này. 5. Sử dụng dữ liệu trong tệp Excel Điểm của Học sinh, xây dựng biểu đồ phân tán cho điểm của bài kiểm tra giữa kỳ Loại mô hình nào sẽ thể hiện tốt nhất những dữ liệu này? và cuối kỳ và thêm một đường xu hướng tuyến tính. Mô hình Sử dụng công cụ Đường xu hướng để tìm thứ tốt nhất trong số các hồi quy là gì? Nếu một học sinh đạt 70 điểm trong kỳ thi tùy chọn được cung cấp. 3. Sử dụng dữ liệu trong tệp Excel Demographics, xác định xem có tồn tại mối quan hệ tuyến tính giữa tỷ giữa kỳ, bạn dự đoán điểm của cô ấy trong kỳ thi cuối kỳ là bao nhiêu? 6. Sử dụng kết quả điều chỉnh Giá trị Thị trường Nhà lệ thất nghiệp và chỉ số chi phí sinh hoạt hay không đường hồi quy trong Ví dụ 8.4, tính toán các sai số bằng cách xây dựng biểu đồ phân tán. Trực quan, dường liên quan đến từng quan sát bằng cách sử dụng công như có bất kỳ ngoại lệ? Nếu vậy, xóa chúng và sau đó tìm thức (8.3) và xây dựng một biểu đồ. Machine Translated by Google 269 Chương 8 Đường xu hướng và phân tích hồi quy 7. Thiết lập trang tính Excel để áp dụng các công thức (8.5) và (8.6) để tính giá trị của b0 và b1 cho dữ liệu trong tệp Excel Giá trị thị trường tại nhà và xác minh rằng bạn thu được các giá trị giống như trong Ví dụ 8.4 và 8.5. Một. Giải thích tất cả các kết quả hồi quy chính, kiểm tra giả thuyết và khoảng tin cậy ở đầu ra. b. Phân tích phần dư để xác định xem giả định các cơ sở phân tích hồi quy là hợp lệ. c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ 8. Giám đốc điều hành của một nhóm tư vấn có dữ liệu hàng tháng sau đây về tổng chi phí chung và số giờ lao động chuyên nghiệp để lập hóa đơn cho khách hàng:4 Chi phí chung Số giờ có thể thanh toán $365,000 3.000 400.000 USD 4.000 $430,000 5.000 $477,000 6.000 $560,000 7.000 $587,000 8.000 Một. Phát triển một đường xu hướng để xác định mối quan hệ giữa số giờ có thể tính phí và chi phí chung. b. Giải thích các hệ số của mô hình hồi quy của bạn. Cụ nào có thể tồn tại hay không. đ. Nếu một cặp vợ chồng kiếm được 70.000 đô la cùng nhau, họ có thể dự trù bao nhiêu cho đám cưới? 11. Sử dụng dữ liệu trong tệp Excel Demographics, áp dụng công cụ Hồi quy Excel sử dụng tỷ lệ thất nghiệp làm biến phụ thuộc và chỉ số chi phí sinh hoạt làm biến độc lập. Một. Giải thích tất cả các kết quả hồi quy chính, kiểm tra giả thuyết và khoảng tin cậy ở đầu ra. b. Phân tích phần dư để xác định xem giả định các cơ sở phân tích hồi quy là hợp lệ. c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ nào có thể tồn tại hay không. 12. Sử dụng dữ liệu trong tệp Excel Điểm của Học sinh, áp thể, thành phần cố định của mô hình có ý nghĩa gì dụng công cụ Hồi quy Excel bằng cách sử dụng điểm giữa đối với công ty tư vấn? kỳ làm biến độc lập và điểm thi cuối kỳ làm biến phụ c. Nếu một công việc đặc biệt yêu cầu 1.000 giờ có thể tính phí sẽ đóng góp khoản lãi 38.000 đô la trước khi có sẵn chi phí hoạt động, liệu công việc đó có hấp dẫn không? 9. Sử dụng tệp Excel Weddings, áp dụng công cụ Excel Regression bằng cách sử dụng chi phí đám cưới làm biến phụ thuộc và tham dự làm biến độc lập. thuộc. Một. Giải thích tất cả các kết quả hồi quy chính, kiểm tra giả thuyết và khoảng tin cậy ở đầu ra. b. Phân tích phần dư để xác định xem giả định các cơ sở phân tích hồi quy là hợp lệ. c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ nào có thể tồn tại hay không. 13. Tệp Excel National Football League cung cấp nhiều dữ liệu Một. Giải thích tất cả các kết quả hồi quy chính, kiểm tra giả thuyết và khoảng tin cậy ở đầu ra. b. Phân tích phần dư để xác định xem giả định các cơ sở phân tích hồi quy là hợp lệ. c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ nào có thể tồn tại hay không. đ. Nếu một cặp đôi dự định tổ chức đám cưới cho 175 khách, họ nên dự trù bao nhiêu tiền? 10. Sử dụng file Excel Weddings, áp dụng Excel Re khác nhau về bóng đá chuyên nghiệp trong một mùa giải. Một. Xây dựng sơ đồ phân tán cho Điểm/Trò chơi và Yard/ Trò chơi trong tệp Excel. Có vẻ như là một mối quan hệ tuyến tính? b. Phát triển một mô hình hồi quy để dự đoán Điểm/Trò chơi như là một chức năng của Yards/Trò chơi. Giải thích ý nghĩa thống kê của mô hình. c. Rút ra kết luận về giá trị của các giả định phân tích hồi quy từ đồ thị phần dư và phần dư chuẩn. công cụ tính toán sử dụng chi phí đám cưới làm biến phụ thuộc và thu nhập của cặp đôi làm biến độc lập, chỉ dành cho những đám cưới do cô dâu và chú rể chi trả. 14. Một nhà thầu kỹ thuật nền móng sâu đã đấu thầu hệ thống móng cho một tòa nhà mới có trụ sở chính trên thế giới cho một công ty trong danh sách Fortune 500. 4Sửa đổi từ Charles T. Horngren, George Foster và Srikant M. Datar, Cost Accounting: A Managerial Emphasis, tái bản lần thứ 9. (Vách đá Englewood, NJ: Prentice Hall, 1997): 371. Machine Translated by Google 270 Chương 8 Đường xu hướng và phân tích hồi quy Một phần của dự án bao gồm lắp đặt cọc khoan nhồi 311. Nhà mô hình bạn chọn, hãy tiến hành phân tích sâu hơn để kiểm thầu đã được cung cấp thông tin dự thầu cho mục đích ước tra mức độ quan trọng của các biến độc lập và tính đa cộng tính chi phí, bao gồm độ sâu ước tính của mỗi cọc; tuy tuyến. nhiên, không thể xác định chính xác chiều dài mũi khoan thực tế của từng cọc cho đến khi tiến hành thi công. File excel Pile Foundation chứa các ước tính và chiều dài cọc thực tế sau khi dự án được hoàn thành. Xây dựng mô hình hồi quy tuyến tính để ước tính chiều dài cọc thực tế như là một hàm của chiều dài cọc ước tính. Bạn kết luận điều gì? 15. Tệp Excel Bán buổi hòa nhạc cung cấp dữ liệu về số tiền bán hàng và số lượng quảng cáo trên đài phát thanh, TV và báo quảng bá các buổi hòa nhạc cho một nhóm thành phố. Phát triển các mô hình hồi quy tuyến tính đơn giản để dự đoán doanh số bán hàng dưới dạng hàm của số lượng từng loại quảng cáo. 20. Sử dụng dữ liệu trong tệp Excel Freshman College Data, xác định mô hình hồi quy tốt nhất để dự đoán tỷ lệ duy trì năm đầu tiên. Đối với mô hình bạn chọn, hãy tiến hành phân tích sâu hơn để kiểm tra tầm quan trọng của các biến độc lập và tính đa cộng tuyến. 21. Tệp Excel Giải bóng chày nhà nghề cung cấp dữ liệu về mùa giải 2010. Một. Xây dựng và kiểm tra ma trận tương quan. Là đa cộng tuyến một vấn đề tiềm năng? b. Đề xuất một tập hợp các biến độc lập phù hợp để dự đoán số lần thắng bằng cách kiểm tra ma trận tương quan. So sánh các kết quả này với mô hình hồi quy tuyến tính bội sử dụng cả hai biến độc lập. Kiểm tra phần dư của mô hình hồi quy tốt nhất dưới dạng giả định và các ngoại lệ có thể có. c. Tìm mô hình hồi quy bội tốt nhất để dự đoán số lần thắng. Làm thế nào tốt là mô hình của bạn? Nó có sử dụng các biến giống như bạn nghĩ là phù hợp trong phần 16. Sử dụng dữ liệu trong tệp Excel Giá trị thị trường của ngôi nhà, hãy phát triển mô hình hồi quy tuyến tính bội để ước tính giá trị thị trường như một hàm của cả tuổi và kích thước của ngôi nhà. Dự đoán giá trị của một ngôi nhà 30 tuổi và có diện tích 1.800 bộ vuông, và một ngôi nhà đã 5 tuổi và có diện tích 2.800 bộ vuông. 17. Tệp Excel Dữ liệu ngũ cốc cung cấp nhiều thông tin dinh dưỡng về 67 loại ngũ cốc và vị trí kệ của chúng trong siêu thị. Sử dụng phân tích hồi quy để tìm mô hình tốt nhất giải thích mối quan hệ giữa lượng calo và các biến số khác. Điều tra các giả định của mô hình và giải thích rõ ràng các kết luận của bạn. Hãy ghi nhớ nguyên tắc tiết kiệm! 18. Tệp Excel Dữ liệu Lương cung cấp thông tin về mức lương (b) không? 22. Tệp Excel Golfing Statistics cung cấp dữ liệu về một phần của mùa giải chuyên nghiệp năm 2010 của 25 tay golf hàng đầu. Một. Tìm mô hình hồi quy bội tốt nhất để dự đoán thu nhập/ sự kiện dưới dạng hàm của các biến chính còn lại. b. Tìm mô hình hồi quy bội tốt nhất để dự đoán điểm trung bình dưới dạng hàm của các biến khác ngoại trừ thu nhập và sự kiện. 23. Sử dụng tiêu chí giá trị p để tìm một mô hình tốt để dự đoán số điểm ghi được trong mỗi trận đấu của các đội bóng sử dụng dữ liệu trong tệp Excel National Football League. hiện tại, mức lương khởi điểm, kinh nghiệm trước đây (tính theo tháng) khi được tuyển dụng và tổng số năm học cho một mẫu gồm 100 nhân viên trong một công ty. Một. Phát triển một mô hình hồi quy bội để dự đoán mức lương hiện tại là một hàm của các biến khác. 24. Bộ Giáo dục Bang Ohio có một bài kiểm tra trình độ bắt buộc dành cho học sinh lớp 9 bao gồm viết, đọc, toán, quyền công dân (nghiên cứu xã hội) và khoa học. Tệp Excel Hiệu suất Giáo dục Ohio cung cấp dữ liệu về tỷ lệ thành công (được định nghĩa là tỷ lệ phần trăm học sinh thi đậu) tại các khu b. Tìm mô hình tốt nhất để dự đoán mức lương hiện tại sử dụng tiêu chí giá trị t. học chánh ở khu vực đô thị Cincinnati lớn hơn cùng với mức trung bình của tiểu bang. 19. Tệp Excel Quyết định phê duyệt tín dụng cung cấp thông tin về lịch sử tín dụng của một mẫu khách hàng ngân hàng. Sử Một. Đề xuất mô hình hồi quy tốt nhất để dự đoán thành công dụng phân tích hồi quy để xác định mô hình tốt nhất để dự môn toán như một hàm thành công trong các môn học đoán điểm tín dụng dưới dạng hàm của các biến số khác. Cho khác bằng cách kiểm tra ma trận tương quan; sau đó chạy công cụ hồi quy cho tập biến này. Machine Translated by Google 271 Chương 8 Đường xu hướng và phân tích hồi quy b. Phát triển một mô hình hồi quy bội để dự đoán sự thành công hồi quy, và kiểm tra biểu đồ phần dư. Bạn kết luận trong môn toán như là một hàm của sự thành công trong tất cả điều gì? Tạo biểu đồ phân tán và sử dụng tính năng các môn học khác bằng cách sử dụng phương pháp có hệ thống Đường xu hướng của Excel để xác định loại đường xu được mô tả trong chương này. Là đa cộng tuyến một vấn đề? 2 hướng cong tốt nhất giúp tối đa hóa R . c. So sánh các mô hình trong phần (a) và (b). Có phải họ giống nhau? Tại sao hay tại sao không? Các đơn vị sản xuất 500 25. Một công ty xây dựng quốc gia xây dựng những ngôi nhà chi phí $12,500 dành cho một gia đình và nhà phố kiểu chung cư. Tệp 1.000 25.000 USD Excel Doanh số bán nhà cung cấp thông tin về giá bán, 1.500 $32,500 2.000 40.000 USD 2.500 45.000 USD 3.000 50.000 USD chi phí lô đất, loại nhà và khu vực của quốc gia 1 triệu Trung Tây, Nam Mỹ2 để đóng cửa trong một tháng. Một. Phát triển một mô hình hồi quy bội cho giá bán dưới dạng một hàm của chi phí lô đất và loại nhà mà không có bất kỳ thuật ngữ tương tác nào. b. Xác định xem có tồn tại sự tương tác giữa chi phí lô đất và loại nhà hay không và tìm ra mô hình tốt nhất. 29. Bộ phận Trực thăng của Aerospatiale đang nghiên cứu chi phí lắp ráp tại nhà máy ở Marseilles.6 Dữ liệu trước đây cho biết số giờ lao động trên mỗi trực thăng như sau: Giá dự đoán cho một ngôi nhà dành cho một gia đình hoặc một ngôi nhà phố với chi phí rất lớn là 30.000 đô la là bao nhiêu? Số máy bay trực thăng Giờ lao động 26. Đối với dữ liệu Doanh số bán nhà được mô tả trong Bài toán 25, hãy phát triển mô hình hồi quy cho giá bán dưới dạng một hàm của chi phí lô đất và khu vực, kết hợp với một thuật ngữ tương tác. Giá dự đoán cho một ngôi nhà ở miền Nam hoặc miền Trung Tây với chi phí rất lớn là 30.000 đô la sẽ là bao nhiêu? Làm thế nào để những dự đoán này so với giá trung bình tổng thể ở mỗi khu vực? 27. Đối với file Excel Auto 1 2.000 2 1.400 3 1.238 4 1.142 5 1.075 6 1.029 7 985 số 8 957 Survey, a. Tìm mô hình hồi quy tốt nhất để dự đoán dặm/ gallon như là một chức năng của tuổi xe và số dặm. b. Sử dụng kết quả của bạn từ phần (a), thêm biến phân loại Đã mua vào mô hình. Điều này có thay đổi kết quả của bạn không? c. Xác định xem có tương tác đáng kể nào không tồn tại giữa các biến Tuổi xe và Đã mua. Sử dụng những dữ liệu này, áp dụng hồi quy tuyến tính đơn giản và kiểm tra biểu đồ phần dư. Bạn kết luận điều gì? Xây dựng biểu đồ phân tán và sử dụng Đường xu hướng Excel tính năng để xác định loại đường xu hướng cong tốt nhất giúp tối đa hóa R 2 . 30. Đối với tệp Excel Dữ liệu ngũ cốc, hãy sử dụng XLMiner và các tập hợp con tốt nhất với lựa chọn ngược để tìm mô hình tốt nhất. 28. Các hàm chi phí thường phi tuyến tính với khối lượng vì các cơ sở sản xuất thường có thể sản xuất số 31. Sử dụng XLMiner và các tập hợp con tốt nhất với lựa chọn lượng lớn hơn với tốc độ thấp hơn so với số lượng từng bước để tìm các điểm mô hình tốt nhất cho mỗi trận nhỏ hơn.5 Sử dụng dữ liệu sau, áp dụng tuyến tính đơn giản đấu cho dữ liệu Giải bóng đá quốc gia (xem Vấn đề 23). 5Horngren, Foster và Datar, Cost Accounting: A Managerial Emphasis, 9th ed.: 349. 6Horngren, Foster và Datar, Cost Accounting: A Managerial Emphasis, 9th ed.: 349. Machine Translated by Google 272 Chương 8 Đường xu hướng và phân tích hồi quy Trường hợp: Hiệu suất Lawn Thiết bị Khi xem xét dữ liệu PLE, Elizabeth Burke nhận thấy rằng các lỗi các kỹ sư được thuê cách đây 10 năm đã được chọn để xác định nhận được từ nhà cung cấp đã giảm (bảng tính Lỗi sau khi giao mức độ ảnh hưởng của những biến số này đối với thời gian mỗi cá hàng). Sau khi điều tra, cô được biết rằng vào năm 2010, PLE đã nhân ở lại với công ty. Dữ liệu được tổng hợp trong bảng tính gặp phải một số vấn đề về chất lượng do ngày càng có nhiều lỗi Giữ chân nhân viên. trong vật liệu nhận được từ nhà cung cấp. Công ty đã đưa ra một Cuối cùng, như một phần trong nỗ lực duy trì tính cạnh sáng kiến vào tháng 8 năm 2011 để làm việc với các nhà cung cấp tranh, PLE cố gắng cập nhật công nghệ sản xuất mới nhất. Điều nhằm giảm thiểu những khiếm khuyết này, phối hợp chặt chẽ hơn này đặc biệt quan trọng trong dòng máy cắt cỏ có tính cạnh tranh việc giao hàng và cải thiện chất lượng vật liệu thông qua tái cao, nơi các đối thủ cạnh tranh có thể đạt được lợi thế thực sự cấu trúc các chính sách sản xuất của nhà cung cấp. Elizabeth lưu nếu họ phát triển các phương tiện sản xuất hiệu quả hơn về chi ý rằng chương trình dường như đã đảo ngược xu hướng ngày phí. Do đó, bộ phận máy cắt cỏ đã dành rất nhiều nỗ lực để thử càng tăng của các khiếm khuyết; cô ấy muốn dự đoán điều gì có nghiệm công nghệ mới. Khi công nghệ sản xuất mới được giới thể xảy ra nếu sáng kiến của nhà cung cấp không được thực hiện thiệu, các công ty thường trải qua quá trình học hỏi, dẫn đến và số lượng lỗi có thể giảm hơn nữa trong tương lai gần như việc giảm dần thời gian cần thiết để sản xuất các đơn vị liên thế nào. Trong cuộc gặp với giám đốc nhân sự của PLE, Elizabeth cũng tiếp. Nói chung, tốc độ cải tiến giảm dần cho đến khi thời gian sản xuất ngừng lại. phát hiện ra mối lo ngại về tỷ lệ thay thế nhân viên dịch vụ Một ví dụ là việc sản xuất một thiết kế mới cho động cơ máy cắt hiện trường cao. Các nhà quản lý cấp cao đã gợi ý rằng bộ nên cỏ. Để xác định thời gian cần thiết để sản xuất những động cơ xem xét kỹ hơn các chính sách tuyển dụng của mình, đặc biệt là này, PLE đã sản xuất 50 chiếc trên dây chuyền sản xuất của mình; cố gắng xác định các đặc điểm của các cá nhân dẫn đến việc giữ kết quả kiểm tra được đưa ra trên trang tính Động cơ trong cơ chân nhân viên nhiều hơn. Tuy nhiên, trong một cuộc họp nhân sở dữ liệu. Do PLE liên tục phát triển công nghệ mới nên việc viên gần đây, các nhà quản lý nhân sự không thể thống nhất về hiểu tốc độ học hỏi có thể hữu ích trong việc ước tính chi phí những đặc điểm này. Một số lập luận rằng số năm học và điểm trung sản xuất trong tương lai mà không cần phải chạy thử nghiệm bình là những yếu tố dự đoán tốt. Những người khác lập luận rằng nguyên mẫu rộng rãi và Elizabeth muốn xử lý vấn đề này tốt hơn. việc thuê những ứng viên trưởng thành hơn sẽ dẫn đến khả năng giữ chân nhiều hơn. Để nghiên cứu những yếu tố này, các nhân Sử dụng các kỹ thuật phân tích hồi quy để hỗ trợ cô ấy đánh viên đã đồng ý tiến hành một nghiên cứu thống kê để xác định ảnh giá dữ liệu trong ba bảng tính này và đưa ra các kết luận hữu hưởng của số năm học, điểm trung bình đại học và tuổi khi được ích. Tóm tắt công việc của bạn trong một báo cáo chính thức với tuyển dụng đối với việc giữ chân nhân viên. Một mẫu gồm 40 dịch vụ tạitất hiện cảtrường các kết quả và phân tích phù hợp. Machine Translated by Google kỹ thuật dự báo CHƯƠNG iQoncept/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích cách tiếp cận phán đoán được sử dụng để dự Sử dụng mô hình Holt-Winters và hồi quy để dự báo chuỗi báo. thời gian có tính thời vụ. Liệt kê các loại mô hình dự báo thống kê khác nhau. Áp dụng các mô hình dự báo Holt-Winters cho chuỗi thời Áp dụng các mô hình làm mịn trung bình động và hàm mũ gian có cả xu hướng và tính thời vụ. cho chuỗi thời gian cố định. Xác định lựa chọn mô hình dự báo phù hợp dựa trên đặc Nêu ba số liệu sai số được sử dụng để đo lường độ chính điểm của chuỗi thời gian. xác của dự báo và giải thích sự khác biệt giữa chúng. Giải thích cách các kỹ thuật hồi quy có thể được sử Áp dụng các mô hình làm mịn hàm mũ kép cho chuỗi thời dụng để dự báo với các biến giải thích hoặc nhân quả. gian có xu hướng tuyến tính. Áp dụng XLMiner cho các loại mô hình dự báo khác nhau. 273 Machine Translated by Google 274 Chương 9 Kỹ thuật dự báo Các nhà quản lý yêu cầu dự báo tốt về các sự kiện trong tương lai để đưa ra quyết định đúng đắn. Ví dụ, dự báo về lãi suất, giá năng lượng và các chỉ số kinh tế khác là cần thiết cho việc lập kế hoạch tài chính; dự báo bán hàng là cần thiết để lập kế hoạch năng lực sản xuất và lực lượng lao động; và dự báo các xu hướng về nhân khẩu học, hành vi người tiêu dùng và đổi mới công nghệ là cần thiết cho việc lập kế hoạch chiến lược dài hạn. Chính phủ cũng đầu tư nguồn lực đáng kể vào việc dự đoán hoạt động kinh doanh ngắn hạn của Hoa Kỳ bằng cách sử dụng Chỉ số Chỉ số Hàng đầu. Chỉ số này tập trung vào hiệu suất của các doanh nghiệp riêng lẻ, thường có mối tương quan cao với hiệu suất của toàn bộ nền kinh tế và được sử dụng để dự báo các xu hướng kinh tế cho toàn quốc. Trong chương này, chúng tôi giới thiệu một số phương pháp và cách tiếp cận chung để dự báo, bao gồm cả kỹ thuật định tính và định lượng. Các nhà phân tích kinh doanh có thể chọn từ một loạt các kỹ thuật dự báo để hỗ trợ việc ra quyết định. Việc lựa chọn phương pháp thích hợp phụ thuộc vào các đặc điểm của vấn đề dự báo, chẳng hạn như khoảng thời gian của biến được dự báo, cũng như thông tin có sẵn mà dự báo sẽ dựa vào. Ba loại phương pháp dự báo chính là kỹ thuật định tính và phán đoán, mô hình chuỗi thời gian thống kê và phương pháp giải thích/nhân quả. Trong chương này, chúng tôi giới thiệu các kỹ thuật dự báo trong từng danh mục này và sử dụng các công cụ Excel cơ bản, XLMiner và hồi quy tuyến tính để triển khai chúng trong môi trường bảng tính. Dự báo định tính và phán đoán Kỹ thuật định tính và phán đoán dựa vào kinh nghiệm và trực giác; chúng cần thiết khi không có dữ liệu lịch sử hoặc khi người ra quyết định cần dự báo xa về tương lai. Ví dụ, dự báo về thời điểm thế hệ tiếp theo của bộ vi xử lý sẽ ra mắt và khả năng của nó sẽ phụ thuộc rất nhiều vào ý kiến và kiến thức chuyên môn của những cá nhân am hiểu công nghệ. Một cách sử dụng khác của các phương pháp phán đoán là kết hợp thông tin phi định lượng, chẳng hạn như tác động của các quy định của chính phủ hoặc hành vi của đối thủ cạnh tranh, trong một dự báo định lượng. Các kỹ thuật đánh giá bao gồm từ các phương pháp đơn giản như ý kiến của người quản lý hoặc ban giám khảo dựa trên nhóm về ý kiến điều hành cho đến các phương pháp có cấu trúc hơn như phép loại suy lịch sử và phương pháp Delphi. Tương tự lịch sử Một cách tiếp cận phán đoán là phép loại suy lịch sử, trong đó một dự báo thu được thông qua phân tích so sánh với một tình huống trước đó. Ví dụ: nếu một sản phẩm mới sắp được giới thiệu, phản ứng của người tiêu dùng đối với các chiến dịch tiếp thị đối với các sản phẩm tương tự trước đó có thể được sử dụng làm cơ sở để dự đoán chiến dịch tiếp thị mới có thể đạt được kết quả như thế nào. Tất nhiên, những thay đổi theo thời gian hoặc các yếu tố độc đáo khác có thể không được xem xét đầy đủ trong Machine Translated by Google Chương 9 Kỹ thuật dự báo 275 một cách tiếp cận. Tuy nhiên, rất nhiều hiểu biết sâu sắc thường có thể đạt được thông qua phân tích các kinh nghiệm trong quá khứ. VÍ DỤ 9.1 Dự đoán giá dầu Đầu năm 1998, giá dầu khoảng 22 đô la một thùng. Tuy nhiên, dầu. Do đó, từ phép loại suy lịch sử, chúng ta có thể dự báo vào giữa năm 1998, giá một thùng dầu giảm xuống còn khoảng 11 giá dầu sẽ tăng. Trên thực tế, các thành viên OPEC đã gặp USD. Những lý do cho sự sụt giảm giá này bao gồm dư cung dầu nhau vào giữa năm 1998 và đồng ý cắt giảm sản lượng, nhưng từ sản xuất mới ở khu vực Biển Caspian, sản lượng cao ở các không ai tin rằng họ sẽ thực sự hợp tác hiệu quả, và giá tiếp khu vực ngoài OPEC và nhu cầu thấp hơn bình thường. Trong tục giảm trong một thời gian. Sau đó, vào năm 2000, giá dầu hoàn cảnh tương tự trước đây, OPEC sẽ họp và hành động để tăng đột biến, rồi lại giảm vào cuối năm 2001. tăng giá Phép loại suy thường đưa ra những dự báo tốt, nhưng bạn cần cẩn thận để nhận ra những hoàn cảnh mới hoặc khác. Một phép loại suy khác là xung đột quốc tế liên quan đến giá dầu. Nếu chiến tranh nổ ra, giá sẽ tăng lên, tương tự như những gì nó đã làm trong quá khứ. Phương pháp Delphi Một phương pháp dự báo mang tính phán đoán phổ biến, được gọi là phương pháp Delphi, sử dụng một nhóm chuyên gia, những người có danh tính thường được giữ bí mật với nhau, để trả lời một chuỗi các câu hỏi. Sau mỗi vòng phản hồi, các ý kiến cá nhân, được chỉnh sửa để đảm bảo tính ẩn danh, được chia sẻ, cho phép mỗi người xem suy nghĩ của các chuyên gia khác. Xem xét ý kiến của các chuyên gia khác giúp củng cố ý kiến của những người đồng ý và tác động đến những người không đồng ý để có thể xem xét các yếu tố khác. Trong vòng tiếp theo, các chuyên gia sửa đổi ước tính của họ và quá trình này được lặp lại, thường không quá hai hoặc ba vòng. Phương pháp Delphi thúc đẩy trao đổi ý kiến và thảo luận không thiên vị và thường dẫn đến một số quan điểm hội tụ. Đây là một trong những cách tiếp cận tốt hơn để dự báo các xu hướng và tác động dài hạn. Các chỉ số và chỉ số Các chỉ số và chỉ số nói chung đóng một vai trò quan trọng trong việc phát triển các dự báo phán đoán. Các chỉ số là các biện pháp được cho là có ảnh hưởng đến hành vi của một biến mà chúng ta muốn dự báo. Bằng cách theo dõi những thay đổi trong các chỉ số, chúng tôi hy vọng có được cái nhìn sâu sắc về hành vi trong tương lai của biến để giúp dự đoán tương lai. VÍ DỤ 9.2 Các chỉ số kinh tế Một biến số quan trọng đối với nền kinh tế quốc gia là Tổng đo lường; sản xuất đầu ra có chất lượng kém sẽ thổi phồng sản phẩm quốc nội (GDP), đây là thước đo chắc chắn về giá thước đo, cũng như công sức dành cho hành động khắc phục), trị của tất cả hàng hóa và dịch vụ được sản xuất tại Hoa Kỳ. đó là một thước đo thực tế và hữu ích về hiệu quả kinh tế. Mặc dù có những hạn chế (ví dụ, công việc không được trả Giống như hầu hết các chuỗi thời gian, GDP tăng và giảm theo lương như dọn dẹp nhà cửa và chăm sóc trẻ em không được chu kỳ. Dự đoán xu hướng trong tương lai của GDP là (còn tiếp) Machine Translated by Google Chương 9 Kỹ thuật dự báo 276 thường được thực hiện bằng cách phân tích các chỉ báo hàng đầu—chuỗi cung tiền (M1) và thay đổi ròng trong các khoản vay kinh doanh. có xu hướng tăng và giảm trong một khoảng thời gian có thể dự đoán Các chỉ số khác, được gọi là chỉ số trễ, có xu hướng có đỉnh và đáy trước khi GDP đạt đỉnh và đáy. Một ví dụ về chỉ báo hàng đầu là sự trùng với GDP. Một số chỉ báo trễ là Chỉ số giá tiêu dùng, lãi suất cơ hình thành các khoản đầu tư kinh doanh; khi tỷ lệ các doanh nghiệp mới bản, chi tiêu đầu tư kinh doanh hoặc hàng tồn kho. GDP có thể được sử tăng lên, chúng tôi hy vọng GDP sẽ tăng trong tương lai. Các ví dụ dụng để dự đoán xu hướng tương lai trong các chỉ số này. khác về các chỉ báo hàng đầu là phần trăm thay đổi trong Các chỉ số thường được kết hợp một cách định lượng thành một chỉ số, một thước đo duy nhất có trọng số cho nhiều chỉ số, do đó cung cấp thước đo về kỳ vọng tổng thể. Ví dụ, các nhà phân tích tài chính sử dụng Chỉ số Trung bình Công nghiệp Dow Jones như một chỉ số về hoạt động chung của thị trường chứng khoán. Các chỉ số không cung cấp một dự báo đầy đủ mà là một bức tranh tốt hơn về hướng thay đổi và do đó đóng một vai trò quan trọng trong dự báo phán đoán. VÍ DỤ 9.3 Các chỉ số kinh tế hàng đầu Bộ Thương mại đã khởi xướng một Chỉ số về các Chỉ số Hàng đầu để giúp Điều kiện kinh doanh Digest bao gồm hơn 100 chuỗi thời gian trong dự đoán hoạt động kinh tế trong tương lai. bảy lĩnh vực kinh tế. Ấn phẩm này đã bị ngừng vào tháng 3 năm 1990, Các thành phần của chỉ mục bao gồm: nhưng thông tin liên quan đến Chỉ số các Chỉ số Hàng đầu vẫn được tiếp tục trong Khảo sát Kinh doanh Hiện tại. Vào tháng 12 năm 1995, Bộ giờ trung bình hàng tuần, sản xuất yêu cầu ban đầu trung bình hàng tuần, bảo hiểm thất Thương mại Hoa Kỳ đã bán nguồn dữ liệu này cho The Conference Board, hiện đang tiếp thị thông tin dưới tiêu đề Các chỉ số chu kỳ kinh doanh; nghiệp đơn đặt hàng mới, hàng tiêu dùng và vật liệu hiệu suất của nhà cung cấp—giao hàng chậm hơn đơn đặt hàng mới, tư liệu sản xuất phi quốc phòng thông tin có thể được lấy tại trang web của nó (www.conferenceboard .org). Trang web bao gồm thông tin hiện tại tuyệt vời về cách tính chỉ mục cũng như các thành phần hiện tại của nó. giấy phép xây dựng, nhà ở tư nhân giá cổ phiếu, 500 cổ phiếu phổ thông (Standard & Poor) cung tiền chênh lệch lãi suất chỉ số kỳ vọng của người tiêu dùng (Đại học Michigan) Mô hình dự báo thống kê Các mô hình chuỗi thời gian thống kê tìm thấy khả năng ứng dụng lớn hơn cho các vấn đề dự báo tầm ngắn. Chuỗi thời gian là một luồng dữ liệu lịch sử, chẳng hạn như doanh số hàng tuần. Chúng tôi mô tả các giá trị của một chuỗi thời gian trong T khoảng thời gian là At , t 1, 2, c, T. Các mô hình chuỗi thời gian giả định rằng bất kỳ lực lượng nào đã ảnh hưởng đến doanh số bán hàng trong quá khứ gần đây sẽ tiếp tục trong tương lai gần; do đó, các dự báo được phát triển bằng cách ngoại suy những dữ liệu này trong tương lai. Chuỗi thời gian thường có một hoặc nhiều thành phần sau: hành vi ngẫu nhiên, xu hướng, hiệu ứng âm thanh trên biển hoặc hiệu ứng theo chu kỳ. Chuỗi thời gian không có tác động theo xu hướng, theo mùa hoặc theo chu kỳ nhưng tương đối không đổi và chỉ thể hiện hành vi ngẫu nhiên được gọi là chuỗi thời gian dừng. Nhiều dự báo dựa trên phân tích dữ liệu chuỗi thời gian lịch sử và được xác định dựa trên giả định rằng tương lai là phép ngoại suy của quá khứ. Xu hướng là một chuyển động tăng dần hoặc giảm dần của một chuỗi thời gian theo thời gian. Machine Translated by Google 277 Chương 9 Kỹ thuật dự báo VÍ DỤ 9.4 Xác định các xu hướng trong một chuỗi thời gian Hình 9.1 cho thấy biểu đồ về tổng mức tiêu thụ năng lượng từ chững lại trong một thời gian và bắt đầu tăng với tốc độ chậm dữ liệu trong tệp Excel Sản xuất & Tiêu thụ năng lượng. Chuỗi hơn trong những năm 1980 và 1990. Trong thập kỷ qua, chúng ta thời gian này cho thấy một xu hướng tăng. thực sự thấy một xu hướng giảm nhẹ. Do đó, chuỗi thời gian này Tuy nhiên, chúng tôi thấy rằng mức tiêu thụ năng lượng đã bao gồm một số xu hướng ngắn hạn khác nhau. tăng khá nhanh theo kiểu tuyến tính trong những năm 1960, sau đó Chuỗi thời gian cũng có thể thể hiện các hiệu ứng theo mùa ngắn hạn (trong một năm, tháng, tuần hoặc thậm chí một ngày) cũng như các hiệu ứng chu kỳ dài hạn hoặc xu hướng phi tuyến tính. Hiệu ứng theo mùa là hiệu ứng lặp lại trong các khoảng thời gian cố định, thường là một năm, tháng, tuần hoặc ngày. Ví dụ: tại một cửa hàng tạp hóa lân cận, các mô hình thời vụ ngắn hạn có thể diễn ra trong một tuần, với lượng khách hàng đông nhất vào cuối tuần; các mô hình theo mùa cũng có thể rõ ràng trong suốt một ngày, với khối lượng cao hơn vào buổi sáng và cuối buổi chiều. Hình 9.2 cho thấy những thay đổi theo mùa trong việc sử dụng khí đốt tự nhiên của một chủ nhà trong suốt một năm (Tệp Excel Gas & Electric). Hiệu ứng theo chu kỳ mô tả những thăng trầm trong một khung thời gian dài hơn nhiều, chẳng hạn như vài năm. Hình 9.3 hiển thị biểu đồ dữ liệu Hình 9.1 Tổng năng lượng tiêu thụ Chuỗi thời gian Hình 9.2 Hiệu ứng theo mùa trong Sử dụng khí đốt tự nhiên Machine Translated by Google 278 Chương 9 Kỹ thuật dự báo Hình 9.3 Hiệu ứng theo chu kỳ ở Liên bang Tỷ lệ quỹ trong tệp Excel Tỷ lệ quỹ liên bang. Chúng tôi thấy một số bằng chứng về chu kỳ dài hạn trong chuỗi thời gian do các yếu tố kinh tế thúc đẩy, chẳng hạn như thời kỳ lạm phát và suy thoái. Mặc dù việc kiểm tra trực quan một chuỗi thời gian để xác định các xu hướng, các hiệu ứng theo mùa hoặc theo chu kỳ có thể hoạt động một cách ngây thơ, nhưng những cách tiếp cận không khoa học như vậy có thể gây khó khăn cho người quản lý khi đưa ra các quyết định quan trọng. Các tác động và tương tác tinh tế của các yếu tố chu kỳ và sóng biển có thể không rõ ràng từ phép ngoại suy trực quan đơn giản của dữ liệu. Các phương pháp thống kê, bao gồm các phân tích chính thức hơn về chuỗi thời gian, là vô giá trong việc phát triển các dự báo tốt. Nhiều phương pháp dự báo dựa trên thống kê cho chuỗi thời gian thường được sử dụng. Trong số những phương pháp phổ biến nhất là phương pháp trung bình động, làm mịn theo cấp số nhân và phân tích hồi quy. Những điều này có thể được triển khai rất dễ dàng trên bảng tính bằng cách sử dụng các chức năng cơ bản và công cụ Phân tích dữ liệu có sẵn trong Microsoft Excel, cũng như bằng phần mềm mạnh hơn như XLMiner. Các mô hình làm mịn trung bình động và hàm mũ hoạt động tốt nhất cho chuỗi thời gian không thể hiện xu hướng hoặc các yếu tố theo mùa. Đối với chuỗi thời gian liên quan đến xu hướng và/hoặc các yếu tố theo mùa, các kỹ thuật khác đã được phát triển. Chúng bao gồm các mô hình làm mịn hàm mũ và trung bình trượt kép, các mô hình cộng và nhân theo mùa, và các mô hình cộng và nhân Holt-Winters. Các mô hình dự báo cho chuỗi thời gian tĩnh Hai cách tiếp cận đơn giản hữu ích trong khoảng thời gian ngắn khi các tác động của xu hướng, theo mùa hoặc theo chu kỳ không đáng kể là các mô hình làm mịn trung bình động và hàm mũ. Các mô hình trung bình động Phương pháp trung bình động đơn giản là một phương pháp làm mịn dựa trên ý tưởng lấy trung bình các dao động ngẫu nhiên trong chuỗi thời gian để xác định hướng cơ bản mà chuỗi thời gian đang thay đổi. Bởi vì phương pháp trung bình trượt giả định rằng các quan sát trong tương lai sẽ tương tự như quá khứ gần đây, nên nó hữu ích nhất với tư cách là một phương pháp dự báo tầm ngắn. Mặc dù phương pháp này rất đơn giản, nhưng nó đã được chứng minh là khá hữu ích trong môi trường ổn định, chẳng hạn như quản lý hàng tồn kho, trong đó cần phát triển các dự báo cho một số lượng lớn mặt hàng. Cụ thể, dự báo trung bình động đơn giản cho giai đoạn tiếp theo được tính là trung bình của k quan sát gần đây nhất. Giá trị của k hơi tùy ý, Machine Translated by Google 279 Chương 9 Kỹ thuật dự báo mặc dù sự lựa chọn của nó ảnh hưởng đến độ chính xác của dự báo. Giá trị của k càng lớn, dự báo hiện tại càng phụ thuộc vào dữ liệu cũ hơn và dự báo sẽ không phản ứng nhanh với các biến động trong chuỗi thời gian. Giá trị của k càng nhỏ, dự báo phản ứng nhanh hơn với những thay đổi trong chuỗi thời gian. Ngoài ra, khi k lớn hơn, các giá trị cực trị ít ảnh hưởng đến dự báo hơn. (Trong phần tiếp theo, chúng ta thảo luận cách chọn k bằng cách kiểm tra các lỗi liên quan đến các giá trị khác nhau.) VÍ DỤ 9.5 Dự báo trung bình trượt Tệp Excel Bán máy tính bảng chứa dữ liệu về số lượng đơn vị đã bán trong 17 tuần qua. Hình 9.4 cho thấy một biểu đồ của những dữ liệu này. Chuỗi thời gian dường như tương đối ổn định, không có tác động theo xu hướng, theo mùa hoặc theo chu dự báo tuần 18 = 82 + 71 + 50 3 = 67,67 Dự báo trung bình động có thể được tạo dễ dàng trên bảng tính. Hình 9.5 cho thấy các tính toán cho một dự báo kỳ; do đó, một mô hình trung bình động sẽ phù hợp. Đặt k = trung bình động ba thời kỳ về doanh số bán máy tính bảng. 3, dự báo trung bình động ba giai đoạn cho tuần 18 là Hình 9.6 hiển thị một biểu đồ đối chiếu dữ liệu với các giá trị dự báo. Dự báo trung bình động cũng có thể được lấy từ các tùy chọn Phân tích dữ liệu của Excel. VÍ DỤ 9.6 Sử dụng Công cụ Trung bình Động của Excel Đối với tệp Excel Bán máy tính bảng, hãy chọn Phân tích dữ hoặc các tùy chọn lỗi do các dự báo do công cụ này tạo ra liệu rồi chọn Trung bình động từ Phân tích không được căn chỉnh chính xác với dữ liệu (giá trị dự báo nhóm. Excel hiển thị hộp thoại như Hình 9.7. được căn chỉnh theo một điểm dữ liệu cụ thể đại diện cho dự Bạn cần nhập Phạm vi đầu vào của dữ liệu, Khoảng thời gian báo cho tháng tiếp theo) và do đó, có thể gây hiểu nhầm. (giá trị của k) và ô đầu tiên của Phạm vi đầu ra. Thay vào đó, chúng tôi khuyên bạn nên tạo biểu đồ của riêng Để căn chỉnh dữ liệu thực tế với các giá trị được dự báo mình như chúng tôi đã làm trong Hình 9.6. Hình 9.8 cho thấy trong trang tính, hãy chọn ô đầu tiên của Phạm vi đầu ra nằm các kết quả do công cụ Trung bình Động tạo ra (với một số tùy bên dưới giá trị đầu tiên một hàng. Bạn cũng có thể nhận chỉnh về định dạng). Lưu ý rằng dự báo cho tuần 18 được căn được biểu đồ dữ liệu và các đường trung bình động, cũng như chỉnh với giá trị thực tế cho tuần 17 trên biểu đồ. So sánh một cột sai số chuẩn, bằng cách đánh dấu vào các ô thích điều này với Hình 9.6 và bạn có thể thấy sự khác biệt. hợp. Tuy nhiên, chúng tôi không khuyên bạn nên sử dụng biểu đồ Hình 9.4 Bảng xếp hạng máy tính bảng hàng tuần Bán máy tính Machine Translated by Google 280 Chương 9 Kỹ thuật dự báo Hình 9.5 Thực hiện Excel của Dự báo trung bình động Hình 9.6 Biểu đồ đơn vị đã bán và Dự báo trung bình động Hình 9.7 Công cụ trung bình động Excel hộp thoại XLMiner cũng cung cấp một công cụ để dự báo với các đường trung bình động. XLMiner là một tiện ích bổ sung Excel có sẵn từ Frontline Systems, nhà phát triển của Nền tảng bộ giải phân tích. Xem Lời nói đầu để biết hướng dẫn cài đặt. XLMiner sẽ được thảo luận kỹ hơn trong Chương 10. Machine Translated by Google 281 Chương 9 Kỹ thuật dự báo Hình 9.8 Kết quả của Công cụ trung bình động Excel (Lưu ý sự sai lệch của các dự báo với doanh số bán hàng thực tế trong biểu đồ.) VÍ DỤ 9.7 Dự báo trung bình động với XLMiner Để sử dụng XLMiner cho dữ liệu Bán máy tính bảng, trước tiên hãy bảng điều khiển, bạn có thể nhấp vào Cung cấp dự báo và nhập số nhấp vào bất kỳ giá trị nào trong dữ liệu. Sau đó chọn Làm mịn lượng dự báo sẽ tạo từ quy trình. Khi bạn bấm OK, XLMiner sẽ tạo từ nhóm Chuỗi thời gian và chọn Trung bình trượt. đầu ra trên một trang tính mới, như trong Hình 9.10. Dự đoán Hộp thoại trong Hình 9.9 xuất hiện. Tiếp theo, di chuyển các biến được hiển thị trong các hàng từ 24 đến 40 cùng với biểu đồ dữ từ trường Biến trong dữ liệu đầu vào sang trường Biến thời gian liệu và dự báo (không có khoảng thời gian ban đầu không có dự báo và Biến được chọn bằng cách sử dụng mũi tên nhưng tấn (điều này tương ứng). Dự báo cho tuần 18 được hiển thị ở dưới cùng của đã được thực hiện trong Hình 9.9). trong các trọng lượng hình. Chúng tôi thảo luận về các phần khác của đầu ra tiếp theo. bảng điều khiển, hãy điều chỉnh giá trị của Khoảng thời gian—số chu kỳ sẽ sử dụng cho đường trung bình động. Trong các tùy chọn đầu ra Hình 9.9 Trung bình di chuyển XLMiner hộp thoại Machine Translated by Google 282 Chương 9 Kỹ thuật dự báo Hình 9.10 XLMiner di chuyển Kết quả trung bình Số liệu lỗi và độ chính xác dự báo Chất lượng của một dự báo phụ thuộc vào mức độ chính xác của nó trong việc dự đoán các giá trị tương lai của một chuỗi thời gian. Trong mô hình trung bình động đơn giản, các giá trị khác nhau của k sẽ tạo ra các dự báo khác nhau. Làm thế nào để chúng ta biết đó là giá trị tốt nhất cho k? Lỗi hoặc phần dư trong dự báo là sự khác biệt giữa giá trị dự báo và giá trị thực tế của chuỗi thời gian (khi đã biết). Trong Hình 9.6, sai số dự báo chỉ đơn giản là khoảng cách theo chiều dọc giữa dự báo và dữ liệu trong cùng một khoảng thời gian. Để phân tích hiệu quả của các mô hình dự báo khác nhau, chúng ta có thể xác định các số liệu sai số, so sánh định lượng dự báo với các quan sát thực tế. Ba số liệu thường được sử dụng là độ lệch tuyệt đối trung bình, sai số bình phương trung bình và sai số phần trăm tuyệt đối trung bình. Độ lệch tuyệt đối trung bình (MAD) là chênh lệch tuyệt đối giữa giá trị thực tế và giá trị dự báo, được tính trung bình trên một loạt các giá trị được dự báo: N Một Tại - Ft ĐIÊN RỒ t1 N (9.1) trong đó At là giá trị thực của chuỗi thời gian tại thời điểm t, Ft là giá trị dự báo cho thời điểm t và n là số lượng giá trị dự báo (không phải số lượng điểm dữ liệu vì chúng tôi không có giá trị dự báo được liên kết với giá trị dự báo đầu tiên k điểm dữ liệu). MAD cung cấp một thước đo lỗi mạnh mẽ và ít bị ảnh hưởng bởi các quan sát cực đoan. Machine Translated by Google Chương 9 Kỹ thuật dự báo 283 Lỗi bình phương trung bình (MSE) có lẽ là thước đo lỗi được sử dụng phổ biến nhất. Nó xử phạt các lỗi lớn hơn vì bình phương các số lớn hơn có tác động lớn hơn so với bình phương các số nhỏ hơn. Công thức cho MSE là N Một 1At - Ft22 t1 MSE N (9.2) Một lần nữa, n đại diện cho số lượng giá trị dự báo được sử dụng để tính giá trị trung bình. Đôi khi căn bậc hai của MSE, được gọi là lỗi bình phương trung bình gốc (RMSE), được sử dụng: N t1 1At - Ft22 (9.3) N RMSE H một Lưu ý rằng không giống như MSE, RMSE được biểu thị theo cùng đơn vị với dữ liệu (tương tự như sự khác biệt giữa độ lệch chuẩn và phương sai), cho phép so sánh thực tế hơn. Số liệu thứ tư thường được sử dụng là lỗi phần trăm tuyệt đối trung bình (MAPE). MAPE là giá trị trung bình của sai số tuyệt đối chia cho giá trị quan sát thực tế. N Tại Ft a BẢN ĐỒ t1 Tại N * 100 (9.4) Các giá trị của MAD và MSE phụ thuộc vào thang đo của dữ liệu chuỗi thời gian. Ví dụ: dự báo lợi nhuận trong phạm vi hàng triệu đô la sẽ dẫn đến các giá trị MAD và MSE rất lớn, ngay cả đối với các mô hình dự báo rất chính xác. Mặt khác, thị phần được đo bằng tỷ lệ; do đó, ngay cả các mô hình dự báo xấu cũng sẽ có các giá trị nhỏ của MAD và MSE. Do đó, các biện pháp này không có ý nghĩa gì ngoại trừ việc so sánh với các mô hình khác được sử dụng để dự báo cùng một dữ liệu. Nói chung, MAD ít bị ảnh hưởng bởi các quan sát cực đoan và thích hợp hơn MSE nếu các quan sát cực đoan như vậy được coi là các sự kiện hiếm gặp và không có ý nghĩa đặc biệt. MAPE khác ở chỗ thang đo được loại bỏ bằng cách chia sai số tuyệt đối cho giá trị dữ liệu chuỗi thời gian. Điều này cho phép so sánh tương đối tốt hơn. Mặc dù những nhận xét này cung cấp một số hướng dẫn, nhưng không có thỏa thuận chung nào về biện pháp nào là tốt nhất. Lưu ý rằng đầu ra từ XLMiner trong Hình 9.10 tính toán phần dư cho fore ép kiểu và cung cấp các giá trị của MAPE, MAD và MSE. VÍ DỤ 9.8 Sử dụng số liệu lỗi để so sánh các dự báo trung bình động Các số liệu mà chúng tôi đã mô tả có thể được sử dụng để các lỗi và sau đó trung bình chúng. Đối với MSE, chúng tôi so sánh các dự báo trung bình động khác nhau cho dữ liệu Bán tính toán các lỗi bình phương và sau đó tìm giá trị trung máy tính bảng. Một bảng tính hiển thị các dự đoán trước bình. Đối với MAPE, chúng tôi tìm các giá trị tuyệt đối của cũng như tính toán các số liệu sai số cho các mô hình trung các lỗi chia cho quan sát thực tế nhân với 100 và sau đó bình trượt hai, ba và bốn giai đoạn được đưa ra trong Hình tính trung bình chúng. Kết quả cho thấy rằng mô hình trung 9.11. Lỗi là sự khác biệt giữa giá trị thực tế của các đơn bình trượt hai kỳ cung cấp dự báo tốt nhất trong số các vị đã bán và dự báo. Để tính toán MAD, trước tiên chúng ta phương án này vì các số liệu sai số đều nhỏ hơn so với các tính toán các giá trị tuyệt đối của mô hình khác. Machine Translated by Google 284 Chương 9 Kỹ thuật dự báo Hình 9.11 Mô hình làm mịn hàm mũ Thay thế số liệu lỗi Một cách tiếp cận linh hoạt nhưng hiệu quả cao để dự báo tầm ngắn là làm trơn theo Dự báo trung bình động cấp số nhân đơn giản. Mô hình làm mịn hàm mũ đơn giản cơ bản là Ft+1 11 - a2Ft + aAt Ft + a1At - Ft2 (9,5) trong đó Ft+1 là dự báo cho khoảng thời gian t + 1, Ft là dự báo cho khoảng thời gian t, At là giá trị quan sát được trong khoảng thời gian t và a là hằng số nằm trong khoảng từ 0 đến 1 được gọi là hằng số làm mịn. Để bắt đầu, đặt F1 và F2 bằng với quan sát thực tế trong giai đoạn 1, A1 . Sử dụng hai dạng của phương trình dự báo vừa cho, chúng ta có thể diễn giải mô hình làm trơn hàm mũ đơn giản theo hai cách. Trong mô hình đầu tiên, dự báo cho giai đoạn tiếp theo, Ft+1 , là trung bình có trọng số của dự báo được thực hiện cho giai đoạn t, Ft và quan sát thực tế trong giai đoạn t, At . Dạng thứ hai của mô hình, thu được bằng cách sắp xếp lại các số hạng, nói rằng dự báo cho giai đoạn tiếp theo, Ft+1 , bằng dự báo cho giai đoạn trước, Ft , cộng với một phần a của sai số dự báo được thực hiện trong giai đoạn t, Tại - Ft . Do đó, để đưa ra dự báo khi chúng ta đã chọn hằng số làm mịn, chúng ta chỉ cần biết dự báo trước đó và giá trị thực tế. Bằng cách thay thế nhiều lần cho Ft trong phương trình, có thể dễ dàng chứng minh rằng Ft+1 là trung bình gia quyền giảm dần của tất cả dữ liệu chuỗi thời gian trong quá khứ. Do đó, dự báo thực sự phản ánh tất cả dữ liệu, với điều kiện là a hoàn toàn nằm trong khoảng từ 0 đến 1. VÍ DỤ 9.9 Sử dụng Làm mịn Hàm mũ để Dự báo Doanh số Máy tính bảng Đối với dữ liệu doanh số máy tính bảng, dự báo cho tuần Quan sát thực tế tuần 3 là 60; do đó, dự báo cho tuần 4 2 là 88, quan sát thực tế cho tuần 1. Giả sử chúng ta sẽ là chọn A = 0,7; sau đó dự báo cho tuần 3 sẽ là dự báo tuần 3 = (1 dự báo tuần 4 = (1 0,7)(57,2) + (0,7)(60) = 59,16 0,7)(88) + (0,7)(44) = 57,2 Bởi vì mô hình làm mịn hàm mũ đơn giản chỉ yêu cầu dự đoán trước đó và giá trị chuỗi thời gian hiện tại, nên rất dễ tính toán; do đó, nó rất phù hợp với các môi trường như hệ thống kiểm kê, nơi phải thực hiện nhiều dự báo. Machine Translated by Google 285 Chương 9 Kỹ thuật dự báo Hằng số làm mịn a thường được chọn bằng thực nghiệm giống như cách chọn số chu kỳ để sử dụng trong mô hình trung bình động. Các giá trị khác nhau của a ảnh hưởng đến tốc độ phản ứng của mô hình đối với những thay đổi trong chuỗi thời gian. Chẳng hạn, giá trị bằng 0 sẽ chỉ lặp lại dự báo của giai đoạn trước, trong khi giá trị 1 sẽ đưa ra nhu cầu thực tế của giai đoạn trước. A càng gần 1, mô hình phản ứng với những thay đổi trong chuỗi thời gian càng nhanh, bởi vì nó đặt trọng số vào quan sát thực tế hiện tại nhiều hơn so với dự báo. Tương tự như vậy, a càng gần 0 thì dự báo trước đó càng có trọng số, vì vậy mô hình sẽ phản ứng với các thay đổi chậm hơn. VÍ DỤ 9.10 Tìm Mô hình Làm mịn Hàm mũ Tốt nhất cho Doanh số Máy tính Bảng Một bảng tính Excel để đánh giá các mô hình làm mịn hàm mũ không được bao gồm vì chúng tôi không có dự đoán cho giai cho dữ liệu Bán máy tính bảng sử dụng các giá trị của A trong đoạn đầu tiên, Tuần 1. Hằng số làm mịn là A = 0,6 khoảng từ 0,1 đến 0,9 được hiển thị trong Hình 9.12. cung cấp lỗi thấp nhất cho cả ba số liệu. Lưu ý rằng trong tính toán các biện pháp lỗi, hàng đầu tiên Excel có một công cụ Phân tích dữ liệu để làm mịn hàm mũ. VÍ DỤ 9.11 Sử dụng Công cụ Làm mịn Hàm mũ của Excel Trong ví dụ về Bán máy tính bảng, từ Phân tích điểm dữ liệu đầu tiên. Bạn cũng có các tùy chọn cho nhãn, đầu nhóm, chọn Phân tích dữ liệu và sau đó làm mịn hàm mũ. Trong ra biểu đồ và thu được các lỗi tiêu chuẩn. Trái ngược với hộp thoại (Hình 9.13), giống như trong hộp thoại Trung bình công cụ Đường trung bình trượt, biểu đồ được tạo bởi công cụ trượt, bạn phải nhập Phạm vi đầu vào của dữ liệu chuỗi thời này căn chỉnh chính xác các dự báo với dữ liệu thực tế, như gian, Hệ số giảm chấn là (1 - A) không phải là hằng số làm thể hiện trong Hình 9.14. Bạn có thể thấy rằng mô hình làm mịn mịn như chúng ta đã định nghĩa—và là hằng số đầu tiên ô của hàm mũ tuân theo mô hình của dữ liệu khá chặt chẽ, mặc dù nó Phạm vi đầu ra, phải liền kề với có xu hướng trễ với xu hướng ngày càng tăng của dữ liệu. Hình 9.12 Làm mịn theo cấp số nhân Dự báo cho máy tính bảng Bán máy tính Machine Translated by Google 286 Chương 9 Kỹ thuật dự báo Hình 9.13 Công cụ làm mịn hàm mũ hộp thoại Hình 9.14 Dự báo làm mịn hàm mũ của Excel cho A = 0,6 XLMiner cũng có khả năng làm mịn theo cấp số nhân. Hộp thoại (xuất hiện khi Hàm mũ . . . được chọn từ trình đơn Chuỗi thời gian/Làm mịn) tương tự như hộp thoại dành cho các đường trung bình di động trong Hình 9.9. Tuy nhiên, trong ngăn Trọng số, nó cung cấp các tùy chọn để nhập hằng số làm mịn, Cấp (Alpha) hoặc để chọn hộp Tối ưu hóa, hộp này sẽ tìm thấy giá trị tốt nhất của hằng số làm mịn. VÍ DỤ 9.12 Tối ưu hóa Dự báo Làm mịn Hàm mũ Sử dụng XLMiner Chọn Làm mịn theo cấp số nhân từ menu Làm mịn trong XLMiner. Đối hằng số làm mịn là 0,63. Bạn có thể thấy rằng giá trị này gần với dữ liệu Doanh số máy tính bảng, hãy nhập dữ liệu (tương tự với giá trị 0,6 mà chúng tôi đã ước tính trong Hình 9.12; các như hộp thoại trong Hình 9.9) và chọn hộp Tối ưu hóa trong ngăn thước đo lỗi hiển thị trong các hàng 48–50 thấp hơn một chút so Trọng lượng. Hình 9.15 cho thấy kết quả. Trong hàng 16, chúng với các thước đo trong Hình 9.12. tôi thấy rằng tối ưu hóa Các mô hình dự báo cho chuỗi thời gian với xu hướng tuyến tính Đối với chuỗi thời gian có xu hướng tuyến tính nhưng không có thành phần theo mùa đáng kể, các mô hình làm mịn hàm mũ và trung bình động kép sẽ phù hợp hơn so với việc sử dụng các mô hình làm mịn hàm mũ hoặc trung bình trượt đơn giản. Cả hai phương pháp đều dựa trên phương trình xu hướng tuyến tính: Ft+k tại + btk (9.6) Machine Translated by Google Chương 9 Kỹ thuật dự báo 287 Hình 9.15 XLMiner lũy thừa Kết quả làm mịn cho Bán máy tính bảng Nghĩa là, dự báo cho k giai đoạn trong tương lai từ giai đoạn t là một hàm của giá trị cơ sở tại , còn được gọi là mức và xu hướng hoặc độ dốc, bt . Đường trung bình động kép và làm mịn hàm mũ kép khác nhau ở cách sử dụng dữ liệu để đạt được các giá trị thích hợp cho at và bt . Bởi vì các tính toán phức tạp hơn so với các mô hình làm mịn hàm mũ và trung bình di chuyển đơn giản, nên việc sử dụng phần mềm dự báo sẽ dễ dàng hơn là cố gắng triển khai các mô hình trực tiếp trên bảng tính. Do đó, chúng tôi không thảo luận về lý thuyết hoặc các công thức nền tảng của các phương pháp. XLMiner không hỗ trợ quy trình cho đường trung bình kép; tuy nhiên, nó cung cấp một để làm mịn hàm mũ kép. Làm mịn hàm mũ kép Trong phương pháp làm mịn hàm mũ kép, các ước tính của at và bt thu được từ các phương trình sau: tại aFt + 11 - a21at-1 + bt-1 2 bt b1at - at-1 2 + 11 - b2bt- 1 (9.7) Về bản chất, chúng tôi đang làm mịn cả hai tham số của mô hình xu hướng tuyến tính. Từ phương trình đầu tiên, ước tính mức trong khoảng thời gian t là trung bình có trọng số của giá trị quan sát được tại thời điểm t và giá trị dự đoán tại thời điểm t, at-1 + bt-1 , dựa trên làm mịn hàm mũ đơn giản. Đối với các giá trị lớn của a, giá trị quan sát được đặt trọng số hơn. Các giá trị thấp hơn của một đặt trọng số hơn trên giá trị dự đoán được làm mịn. Tương tự, từ phương trình thứ hai, ước tính của xu hướng trong giai đoạn t là trung bình có trọng số của sự khác biệt về mức ước tính trong giai đoạn t và t - 1 và ước tính của mức trong giai đoạn t - 1. Machine Translated by Google Chương 9 Kỹ thuật dự báo 288 Các giá trị lớn hơn của b đặt trọng số nhiều hơn vào sự khác biệt trong các mức, nhưng các giá trị thấp hơn của b nhấn mạnh hơn vào ước tính trước đó về xu hướng. Các giá trị ban đầu được chọn cho a1 là A1 và b1 là A2 - A1 . Các phương trình (9.7) sau đó phải được sử dụng để tính toán at và bt cho toàn bộ chuỗi thời gian để có thể tạo ra các dự báo trong tương lai. Như với làm trơn hàm mũ đơn giản, chúng ta có thể tự do lựa chọn các giá trị của a và b. Tuy nhiên, việc để XLMiner tối ưu hóa các giá trị này bằng dữ liệu lịch sử sẽ dễ dàng hơn. VÍ DỤ 9.13 Làm mịn hàm mũ kép với XLMiner Hình 9.16 cho thấy một phần của tệp Excel Sản xuất Than, cung tương ứng. Các dự báo do XLMiner tạo ra trong 3 năm tới cấp dữ liệu về tổng số tấn được sản xuất từ năm 1960 đến năm (không được hiển thị trong Hình 9.17) là 2011. Dữ liệu dường như tuân theo một xu hướng tuyến tính. Hộp thoại XLMiner tương tự như hộp thoại được sử dụng để làm mịn hàm mũ đơn lẻ. Sử dụng tính năng tối ưu hóa để tìm các giá trị tốt nhất của A và B, XLMiner tạo ra kết quả, một phần của kết quả được thể hiện trong Hình 9.17. Chúng tôi 2012: 1.115.563.804 2013: 1.130.977.341 2014: 1.146.390.878 thấy rằng các giá trị tốt nhất của A và B là 0,684 và 0,00, Dự báo dựa trên hồi quy cho chuỗi thời gian với xu hướng tuyến tính Phương trình 9.6 có thể trông quen thuộc từ hồi quy tuyến tính đơn giản. Chúng tôi đã giới thiệu hồi quy trong chương trước như một phương tiện để phát triển mối quan hệ giữa biến phụ thuộc và biến độc lập. Hồi quy tuyến tính đơn giản có thể được áp dụng để dự báo bằng cách sử dụng thời gian làm biến độc lập. VÍ DỤ 9.14 Dự báo Sử dụng Đường xu hướng Đối với dữ liệu trong tệp Excel Sản xuất than, tuyến tính đường xu hướng, được minh họa trong Hình 9.18, cho một R 2 giá trị 0,95 (mô hình được trang bị giả định rằng các năm được đánh số từ 1 đến 52, không phải là ngày thực tế). mô hình là tấn = 438.819.885,29 + 15.413.536,97 × năm Hình 9.16 Một phần của tệp Excel Sản xuất than Như vậy, dự báo cho năm 2012 sẽ là tấn = 438.819.885,29 + 15.413.536,97 × (53) = 1.255.737.345 Tuy nhiên, lưu ý rằng mô hình tuyến tính không dự đoán đầy đủ sự sụt giảm sản xuất gần đây sau năm 2008. Machine Translated by Google Chương 9 Kỹ thuật dự báo 289 Hình 9.17 Một phần của XLMiner Đầu ra cho Double Làm mịn theo cấp số nhân của dữ liệu sản xuất than Hình 9.18 Dự báo dựa trên đường xu hướng cho sản xuất than Trong Chương 8, chúng ta đã lưu ý rằng một giả định quan trọng khi sử dụng phân tích hồi quy là thiếu tự tương quan giữa các dữ liệu. Khi có hiện tượng tự tương quan, các quan sát kế tiếp có tương quan với nhau; ví dụ, các quan sát lớn có xu hướng nối tiếp các quan sát lớn khác và các quan sát nhỏ cũng có xu hướng nối tiếp nhau. Điều này thường có thể được nhìn thấy bằng cách kiểm tra đồ thị còn lại khi dữ liệu được sắp xếp theo thời gian. Hình 9.19 cho thấy biểu đồ phần dư được sắp xếp theo thời gian từ công cụ Hồi quy Excel cho ví dụ sản xuất than. Phần dư dường như không phải là ngẫu nhiên; thay vào đó, liên tiếp Machine Translated by Google Chương 9 Kỹ thuật dự báo 290 Hình 9.19 Âm mưu dư cho tuyến tính Dự báo hồi quy Người mẫu quan sát dường như có liên quan với nhau. Điều này cho thấy hiện tượng tự tương quan, chỉ ra rằng các cách tiếp cận khác, được gọi là mô hình tự hồi quy, phù hợp hơn. Tuy nhiên, đây là những cấp độ nâng cao hơn trình độ của cuốn sách này và không được thảo luận ở đây. Chuỗi thời gian dự báo với tính thời vụ Khá thường xuyên, dữ liệu chuỗi thời gian thể hiện tính thời vụ, đặc biệt là trên cơ sở hàng năm. Chúng ta đã thấy một ví dụ về điều này trong Hình 9.2. Khi chuỗi thời gian thể hiện tính thời vụ, các kỹ thuật khác nhau sẽ cung cấp dự báo tốt hơn so với những kỹ thuật chúng tôi đã mô tả. Mô hình dự báo theo mùa dựa trên hồi quy Một cách tiếp cận là sử dụng hồi quy tuyến tính. Nhiều mô hình hồi quy tuyến tính với các biến phân loại có thể được sử dụng cho chuỗi thời gian có tính thời vụ. Để làm được điều này, chúng tôi sử dụng các biến thực thể giả mèo cho các thành phần theo mùa. VÍ DỤ 9.15 Dự báo sử dụng khí tự nhiên dựa trên hồi quy Với dữ liệu hàng tháng, như chúng ta có về việc sử dụng khí đốt tự nhiên Sơ đồ mã hóa này dẫn đến ma trận dữ liệu được hiển thị trong Hình trong tệp Gas & Electric Excel, chúng ta có một biến phân loại theo mùa 9.20. Mô hình này thu thập các xu hướng từ hệ số hồi quy theo thời gian với k = 12 cấp độ. Như đã thảo luận trong Chương 8, chúng ta xây dựng và tính thời vụ từ các biến giả cho mỗi tháng. Dự đoán cho tháng 1 tới sẽ mô hình hồi quy sử dụng k 1 biến giả. Chúng tôi sẽ sử dụng tháng Giêng làm tháng tham chiếu; do đó, biến này không xuất hiện trong mô hình: là B0 + B1 (25). Các hệ số biến thiên (beta) cho từng tháng trong số 11 tháng còn lại sẽ hiển thị mức điều chỉnh so với tháng Giêng. Ví dụ: dự báo cho tháng 2 tới sẽ là B0 + B1 (26) + B2 (1), v.v. lượng gas sử dụng = B0 + B1 lần + B2 tháng 2 + B3 tháng 3 + B4 Tháng 4 + B5 Tháng 5 + B6 Tháng 6 + B7 Tháng 7 + B8 Tháng 8 + B9 Tháng 9 + B10 Tháng 10 + B11 tháng 11 + B12 tháng 12 Hình 9.21 cho thấy kết quả của việc sử dụng Regression công cụ trong Excel sau khi loại bỏ các biến không đáng kể (thời gian và tháng hai). Bởi vì dữ liệu cho thấy không có xu hướng tuyến tính rõ ràng, Machine Translated by Google 291 Chương 9 Kỹ thuật dự báo thời gian thay đổi không thể giải thích bất kỳ sự thay đổi lượng gas sử dụng = 236,75 đáng kể nào trong dữ liệu. Biến giả cho tháng 2 có lẽ không tháng 4 đáng kể vì mức sử dụng gas lịch sử cho cả tháng 1 và tháng 2 208,25 tháng 7 rất gần nhau. 2 _ tháng 9 r 11 cho mô hình này là 0,971, rất tốt. Trận chung kết mô hình hồi quy là Hình 9.20 Ma trận dữ liệu theo mùa Mô hình hồi quy Hình 9.21 Mô hình hồi quy cuối cùng để dự báo mức sử dụng khí 36,75 tháng 3 192,25 tháng 5 99,25 203,25 tháng 6 209,75 tháng 8 196,75 tháng 10 43,25 tháng 12 208,25 149,75 tháng Machine Translated by Google 292 Chương 9 Kỹ thuật dự báo Dự báo Holt-Winters cho chuỗi thời gian theo mùa Các phương pháp chúng tôi mô tả ở đây và trong phần tiếp theo dựa trên công trình của hai nhà nghiên cứu, CC Holt, người đã phát triển phương pháp cơ bản và PR Winters, người đã mở rộng công trình của Holt. Do đó, những cách tiếp cận này thường được gọi là mô hình Holt-Winters. Các mô hình Holt-Winters tương tự như các mô hình làm trơn theo cấp số nhân ở chỗ các hằng số làm trơn được sử dụng để làm phẳng các biến thể về mức độ và các mẫu theo mùa theo thời gian. Đối với chuỗi thời gian có tính thời vụ nhưng không có xu hướng, XLMiner hỗ trợ phương pháp Holt-Winters nhưng không có khả năng tối ưu hóa các tham số. VÍ DỤ 9.16 Dự báo mức sử dụng khí đốt tự nhiên bằng mô hình không có xu hướng Holt-Winters Hình 9.22 hiển thị hộp thoại cho mô hình làm mịn Holt-Winters phải thử nghiệm với các hằng số làm mịn A và G (gamma) áp không có xu hướng đối với dữ liệu khí tự nhiên trong tệp Gas dụng cho các yếu tố cấp độ và mùa vụ trong mô hình. Hình 9.23 & Electric Excel trong Hình 9.2. Trong ngăn Tham số, giá trị cho thấy một phần của đầu ra. của Thời gian là độ dài của mùa, trong trường hợp này là 12 Chúng tôi thấy rằng sự lựa chọn tham số này dẫn đến dự báo tháng. Lưu ý rằng chúng tôi có hai mùa dữ liệu hoàn chỉnh. khá sát với số liệu sai số thấp. Các dự báo ở dưới cùng của Bởi vì quy trình không tối ưu hóa các tham số, nhìn chung đầu ra cung cấp các ước tính điểm cùng với khoảng tin cậy. bạn sẽ Mô hình Holt-Winters để dự báo chuỗi thời gian theo mùa và xu hướng Nhiều chuỗi thời gian thể hiện cả xu hướng và tính thời vụ. Đó có thể là trường hợp tăng doanh số bán hàng của một sản phẩm theo mùa. Những mẫu này kết hợp các yếu tố của cả mẫu xu hướng và mẫu hàng hải. Hai loại mô hình làm mịn Holt-Winters thường được sử dụng. Hình 9.22 XLMiner Holt-Winters Làm mịn mô hình không có xu hướng hộp thoại Machine Translated by Google Chương 9 Kỹ thuật dự báo 293 Hình 9.23 Phần sản lượng của XLMiner để dự báo khí thiên nhiên Cách sử dụng Mô hình cộng Holt-Winters dựa trên phương trình Ft+1 at + bt + St-s+1 (9.8) và mô hình nhân Holt-Winters là Ft+1 1at + bt2St- s+1 (9.9) Mô hình cộng áp dụng cho chuỗi thời gian có tính thời vụ tương đối ổn định, trong khi mô hình nhân áp dụng cho chuỗi thời gian có biên độ tăng hoặc giảm theo thời gian. Do đó, trước tiên nên xem biểu đồ chuỗi thời gian để xác định loại mô hình thích hợp sẽ sử dụng. Ba tham số a, b và g được sử dụng để làm trơn các yếu tố mức độ, xu hướng và mùa vụ trong chuỗi thời gian. XLMiner hỗ trợ cả hai mô hình. VÍ DỤ 9.17 Dự báo doanh số bán ô tô mới bằng mô hình Holt-Winters Hình 9.24 cho thấy một phần của tệp Excel Doanh số bán ô tô Cũng như các quy trình khác, một số thử nghiệm là cần thiết mới, chứa dữ liệu về doanh số bán lẻ hàng tháng trong 3 năm. để xác định các tham số tốt nhất cho mô hình. Hộp thoại trong Rõ ràng có một yếu tố thời vụ ổn định trong chuỗi thời gian, Hình 9.25 hiển thị các giá trị mặc định. Trong các kết quả cùng với xu hướng gia tăng; do đó, mô hình phụ gia Holt- được hiển thị trong Hình 9.26, bạn có thể thấy rằng các Winters có vẻ là phù hợp nhất. Trong XLMiner, chọn Smoothing/ phôi trước không theo dõi dữ liệu rất tốt. Điều này có thể Holt-Winters/Additive từ nhóm Time-Series. là do giá trị thấp của G được sử dụng để làm dịu yếu tố mùa vụ. Chúng tôi để bạn thử nghiệm để tìm ra một mô hình tốt hơn. Machine Translated by Google 294 Chương 9 Kỹ thuật dự báo Hình 9.24 Một phần của tệp Excel mới Bán ô tô Hình 9.25 Làm mịn Holt-Winters Hộp thoại Mô hình Phụ gia Lựa chọn các mô hình dự báo dựa trên chuỗi thời gian phù hợp Bảng 9.1 tóm tắt các lựa chọn phương pháp dự báo có thể được thực hiện bởi XLMiner dựa trên các đặc điểm của chuỗi thời gian. Bảng 9.1 Không có tính thời vụ không có xu hướng Lựa chọn mô hình dự báo Xu hướng tính thời vụ Đường trung bình động đơn Mô hình làm trơn không có xu hướng giản hoặc làm mịn hàm mũ đơn giản Holt-Winters hoặc hồi quy bội Làm mịn theo cấp số Phụ gia Holt-Winters hoặc mô hình nhân nhân kép Holt-Winters Machine Translated by Google 295 Chương 9 Kỹ thuật dự báo Hình 9.26 Mẫu kết quả Holt-Winters Mô hình phụ gia cho Dự báo doanh số bán xe mới Dự báo hồi quy với các biến nhân quả Trong nhiều ứng dụng dự báo, các biến độc lập khác ngoài thời gian, chẳng hạn như các chỉ số kinh tế hoặc các yếu tố nhân khẩu học, có thể ảnh hưởng đến chuỗi thời gian. Ví dụ: một nhà sản xuất thiết bị bệnh viện có thể bao gồm các biến số như chi tiêu vốn cho bệnh viện và những thay đổi về tỷ lệ người trên 65 tuổi trong các mô hình xây dựng để dự đoán doanh số bán hàng trong tương lai. Các mô hình giải thích/nhân quả, thường được gọi là các mô hình kinh tế lượng, tìm cách xác định các yếu tố giải thích thống kê các mẫu quan sát được trong biến được dự báo, thường là với phân tích hồi quy. Chúng tôi sẽ sử dụng một ví dụ đơn giản về dự báo doanh số bán xăng để minh họa cho mô hình kinh tế lượng. VÍ DỤ 9.18 Dự báo doanh số bán xăng sử dụng hồi quy tuyến tính đơn giản Hình 9.27 thể hiện doanh số bán xăng trong 10 tuần từ tháng 6 đến tháng 8 xu hướng, mặc dù R 2 là không cao lắm. Đường xu hướng là: cùng với giá trung bình trên gal lon và biểu đồ chuỗi thời gian bán xăng với đường xu hướng phù hợp (Tệp Excel Doanh số bán xăng). Trong những tháng mùa hè, không có gì lạ khi thấy doanh số bán hàng tăng lên khi doanh số = 4.790,1 + 812,99 tuần Sử dụng mô hình này, chúng tôi sẽ dự đoán doanh số bán hàng cho tuần 11 là nhiều người đi nghỉ hơn. Biểu đồ cho thấy một tuyến tính doanh số = 4.790,1 + 812,99(11) = 13.733 gallon Machine Translated by Google Chương 9 Kỹ thuật dự báo 296 Hình 9.27 Dữ liệu bán hàng xăng dầu và đường xu hướng Trong dữ liệu bán xăng, chúng tôi cũng thấy rằng giá trung bình mỗi gallon thay đổi mỗi tuần và điều này có thể ảnh hưởng đến doanh số bán hàng của người tiêu dùng. Do đó, xu hướng bán hàng có thể không chỉ đơn giản là một yếu tố làm tăng nhu cầu đều đặn, mà nó còn có thể bị ảnh hưởng bởi giá trung bình mỗi gallon. Giá trung bình cho mỗi gallon có thể được coi là một biến nhân quả. Hồi quy tuyến tính bội cung cấp một kỹ thuật để xây dựng các mô hình dự báo kết hợp không chỉ thời gian mà còn cả các biến nguyên nhân tiềm ẩn khác. VÍ DỤ 9.19 Kết hợp các biến nhân quả trong mô hình dự báo dựa trên hồi quy 2 Đối với dữ liệu bán xăng, chúng ta có thể kết hợp giá/gallon Chú ý rằng R bằng cách sử dụng hai biến độc lập. Điều này dẫn đến mô hình bao gồm, giải thích hơn 86% sự thay đổi trong dữ liệu. Nếu hồi quy bội giá trị cao hơn khi cả hai biến đều công ty ước tính rằng giá trung bình trong tuần tới sẽ giảm doanh số = B0 + B1 tuần + B2 giá gallon Các kết quả được hiển thị trong Hình 9.28, và các hồi quy mô hình sion là xuống còn 3,8 đô la, thì mô hình sẽ dự báo doanh số bán hàng cho tuần thứ 11 là doanh số = 72333,08 + 508,67(11) 16463,2(3,80) = 15,368 gallon doanh số = 72333,08 + 508,67 tuần 16463,2 gallon giá Thực hành dự báo Các khảo sát về thực hành dự báo đã chỉ ra rằng cả phương pháp đánh giá và định lượng đều được sử dụng để dự báo doanh số bán hàng của các dòng sản phẩm hoặc họ sản phẩm cũng như cho các dự báo chung của công ty và ngành. Các mô hình chuỗi thời gian đơn giản được sử dụng để dự báo tầm ngắn và trung bình, trong khi phân tích hồi quy là phương pháp phổ biến nhất để dự báo tầm xa. Tuy nhiên, nhiều công ty dựa vào các phương pháp phán đoán nhiều hơn các phương pháp định lượng và gần một nửa điều chỉnh các dự báo định lượng một cách phán đoán. Trong chương này, chúng ta tập trung vào ba cách tiếp cận để dự báo. Trong thực tế, các nhà quản lý sử dụng nhiều kỹ thuật dự báo định lượng và phán đoán khác nhau. Chỉ riêng các phương pháp thống kê không thể giải thích được các yếu tố như khuyến mại, xáo trộn môi trường bất thường, giới thiệu sản phẩm mới, đơn đặt hàng lớn một lần và Machine Translated by Google 297 Chương 9 Kỹ thuật dự báo Hình 9.28 Kết quả hồi quy cho Bán xăng dầu sớm. Nhiều nhà quản lý bắt đầu với một dự báo thống kê và điều chỉnh nó để tính đến các yếu tố vô hình. Những người khác có thể phát triển các dự báo thống kê và phán đoán độc lập, sau đó kết hợp chúng, một cách khách quan bằng cách lấy trung bình hoặc theo cách chủ quan. Điều quan trọng là phải so sánh các dự báo được tạo ra một cách định lượng với các dự báo dựa trên phán đoán để xem liệu phương pháp dự báo có làm tăng giá trị của một dự báo được cải thiện hay không. Không thể đưa ra hướng dẫn chung về cách tiếp cận nào là tốt nhất, bởi vì chúng phụ thuộc vào nhiều yếu tố, bao gồm sự hiện diện hay vắng mặt của các xu hướng và tính thời vụ, số lượng điểm dữ liệu có sẵn, khoảng thời gian dự báo và kinh nghiệm và kiến thức của người dự báo. Thông thường, các phương pháp định lượng sẽ bỏ lỡ những thay đổi quan trọng trong dữ liệu, chẳng hạn như sự đảo ngược xu hướng, trong khi các dự báo định tính có thể nắm bắt được chúng, đặc biệt khi sử dụng các chỉ số như đã thảo luận trước đó trong chương này. Phân tích trong thực tế: Dự báo tại NBC Universal1 NBC Universal (NBCU), một công ty con của General Electric 2 đến 3 tuần. Giai đoạn bán hàng này được gọi là thị Company (GE), là một trong những công ty truyền thông và trường phía trước. Ngay sau khi công bố lịch trình giải trí hàng đầu thế giới trong việc phân phối, sản chương trình của họ, các mạng hoàn thiện dự báo xếp hạng xuất và tiếp thị nội dung giải trí, tin tức và thông tin. của họ và ước tính nhu cầu thị trường. Dự báo xếp hạng Năm phát sóng truyền hình ở Hoa Kỳ bắt đầu vào tuần thứ ba là dự đoán về số lượng người trong từng nhóm nhân khẩu học dự kiến sẽ xem mỗi lần phát sóng các chương trình của tháng 9. Các mạng phát sóng lớn thông báo lịch phát trong lịch trình chương trình cho cả năm phát sóng. sóng của họ cho năm phát sóng mới vào giữa tháng Năm. Ngay sau đó, việc bán thời gian quảng cáo, tạo ra phần Sau khi họ hoàn thành các dự đoán xếp hạng và ước tính lớn doanh thu, bắt đầu. Các mạng phát sóng bán 60% đến 80% nhu cầu thị trường, các mạng đặt thẻ giá có chứa giá cho khoảng không quảng cáo thời gian phát sóng của họ trong quảng cáo trên tất cả các chương trình của họ và phát một khoảng thời gian ngắn bắt đầu từ cuối tháng 5 và kéo triển chiến lược giá. (còn tiếp) dài 1Dựa trên Srinivas Bollapragada, Salil Gupta, Brett Hurwitz, Paul Miles và Rajesh Tyagi, “NBCUniversal Sử dụng Kỹ thuật Dự báo Định tính Mới để Dự đoán Nhu cầu Quảng cáo,” Giao diện, 38, 2 (Tháng 3–Tháng 4 năm 2008): 103–111. Machine Translated by Google 298 Chương 9 Kỹ thuật dự báo Dự báo trước nhu cầu thị trường luôn là một thách thức. NBCU ban đầu dựa vào các mẫu lịch sử, kiến thức chuyên môn và trực giác để ước tính nhu cầu. Sau đó, nó đã thử các mô hình dự báo chuỗi thời gian dựa trên nhu cầu lịch sử và dữ liệu chỉ số kinh tế hàng đầu, đồng thời triển khai các mô hình này trong hệ thống dựa trên M icrosoft Excel. Tuy nhiên, những mô hình này tỏ ra không đạt yêu cầu vì tính chất độc đáo của nhu cầu dân số của NBCU. Các mô hình chuỗi thời gian có sai số phù hợp và dự đoán trong khoảng từ 5% đến 12% dựa trên dữ liệu lịch © Sean Pavone |Dreamstime.com sử. Những lỗi này được coi là hợp lý, nhưng các giám đốc bán hàng đã miễn cưỡng sử dụng các mô hình vì các mô hình không xem xét một số yếu tố định tính mà họ tin rằng ảnh hưởng đến nhu cầu. Kết quả là họ không tin vào những dự báo mà các mô hình này tạo ra; do đó, họ chưa bao giờ sử dụng chúng. Nhân viên phân tích tại NBCU sau đó đã và nhân viên tài chính tại NBCU đã sử dụng hệ thống này quyết định phát triển một mô hình dự báo nhu cầu định để hỗ trợ các quyết định bán hàng trong giai đoạn thị tính thu thập kiến thức của các chuyên gia bán hàng. trường trả trước khi NBCU ký các hợp đồng quảng cáo trị giá hơn 4,5 tỷ USD. Hệ thống này cho phép NBCU bán và Cách tiếp cận của họ kết hợp phương pháp Delphi và “dự báo cơ sở”, dựa trên khái niệm hỏi những người gần phân tích các kịch bản định giá trên tất cả các thuộc tính truyền hình của NBCU một cách dễ dàng và tinh vi đồng gũi với người tiêu dùng cuối, chẳng hạn như nhân viên thời dự đoán nhu cầu với độ chính xác cao. bán hàng, về kế hoạch mua hàng của khách hàng, cùng với Các nhà lãnh đạo bán hàng của NBCU tin rằng hệ thống đã dữ liệu lịch sử để phát triển dự báo. . Kể từ năm 2004, mang lại cho họ một lợi thế cạnh tranh độc nhất. hơn 200 doanh số Điều khoản quan trọng hiệu ứng chu kỳ Độ lệch tuyệt đối trung bình (MAD) phương pháp Delphi Lỗi phần trăm tuyệt đối trung bình (MAPE) Làm mịn theo cấp số nhân kép Lỗi bình phương trung bình (MSE) Đường trung bình kép Lỗi bình phương trung bình gốc (RMSE) mô hình kinh tế lượng hiệu ứng theo mùa phép loại suy lịch sử Làm mịn hàm mũ đơn giản Mô hình phụ gia Holt-Winters Đường trung bình động đơn giản mô hình Holt-Winters Làm mịn liên tục Mô hình nhân Holt-Winters chuỗi thời gian tĩnh Mục lục Chuỗi thời gian chỉ báo Xu hướng vấn đề và bài tập 1. Xác định một số ứng dụng kinh doanh trong đó đánh giá các kỹ thuật dự báo tinh thần như phân tích lịch sử và phương pháp Delphi sẽ hữu ích. 2. Tìm kiếm trang web của Conference Board để tìm các dự báo kinh tế và báo cáo về hoạt động kinh doanh của họ các chỉ số chu kỳ. Viết một báo cáo ngắn về những phát hiện của bạn. 3. File Excel Sản xuất và tiêu thụ năng lượng cung cấp dữ liệu về sản xuất, nhập khẩu, xuất khẩu và tiêu dùng. Phát triển biểu đồ đường cho từng biến Machine Translated by Google 299 Chương 9 Kỹ thuật dự báo và xác định các đặc điểm chính của chuỗi thời gian (ví dụ: xu hướng hoặc chu kỳ). Có bất kỳ chuỗi thời gian nào đứng yên không? Khi dự báo tương lai, hãy thảo luận xem nên sử dụng tất cả hay chỉ một phần dữ liệu. 4. Tệp Excel Tỷ lệ thất nghiệp cung cấp dữ liệu về tỷ lệ thất nghiệp hàng tháng trong 4 năm. So sánh các dự báo trung bình động 3 tháng và 12 tháng bằng cách sử dụng tiêu chí MAD. Giải thích tại sao mô hình 3 tháng mang lại kết quả tốt hơn. 5. Tệp Excel Giá đóng cửa cổ phiếu cung cấp dữ liệu cho bốn cổ phiếu và Chỉ số công nghiệp Dow Jones trong khoảng thời gian 1 tháng. Một. Phát triển các mô hình bảng tính để dự báo từng giá cổ phiếu bằng cách sử dụng đường trung bình động 2 kỳ đơn giản và làm mịn hàm mũ đơn giản với hằng số làm mịn là 0,3. 8. Xét số liệu trong file Excel Giá tiêu dùng Mục lục. Một. Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu. Dự đoán trong 2 năm tới sẽ như thế nào? b. Sử dụng quy trình làm mịn hàm mũ kép trong XLMiner để tìm dự báo cho 2 năm tới. 9. Xét dữ liệu trong file excel Nuclear Power. Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu. Dự đoán trong 3 năm tới sẽ như thế nào? 10. Phát triển một mô hình hồi quy bội với các biến phân loại kết hợp tính thời vụ để dự đoán nhiệt độ ở Washington, DC, sử dụng dữ liệu cho các năm 1999 và 2000 trong tệp Excel Washington DC Weather. Sử dụng mô hình để tạo ra các dự báo trong 9 tháng tới và so sánh các dự báo với các quan sát thực tế trong dữ liệu của năm 2001. b. So sánh kết quả của bạn với kết quả đầu ra từ các công cụ Phân tích Dữ liệu của Excel. c. Sử dụng MAD, MSE và MAPE làm hướng dẫn, tìm số chu kỳ trung bình động tốt nhất và hằng số làm trơn tốt nhất để làm trơn theo cấp số nhân. 11. Phát triển mô hình hồi quy bội với các biến phân loại kết hợp tính thời vụ cho doanh số bán hàng dự đoán bằng cách sử dụng dữ liệu ba năm qua trong tệp Excel Doanh số bán ô tô mới. đ. Sử dụng XLMiner để tìm số khoảng thời gian tốt nhất cho dự báo trung bình động và hằng số làm mịn theo cấp số nhân tối ưu. 6. Đối với dữ liệu trong file Excel Giá xăng dầu làm như sau: 12. Phát triển một mô hình hồi quy bội với các biến phân loại kết hợp tính thời vụ cho việc bắt đầu xây dựng nhà đúc bắt đầu từ tháng 6 năm 2006 bằng cách sử dụng dữ liệu trong tệp Excel Bắt đầu xây dựng nhà ở. 13. Sử dụng mô hình không có xu hướng Holt-Winters để tìm mô Một. Phát triển các mô hình bảng tính để dự báo giá bằng cách sử dụng đường trung bình động đơn giản và làm mịn hình tốt nhất dự báo lượng điện sử dụng trong năm tới trong tệp Excel Gas & Electric. hàm mũ đơn giản. b. So sánh kết quả của bạn với kết quả đầu ra từ các công cụ Phân tích Dữ liệu của Excel. 14. Sử dụng mô hình không có xu hướng Holt-Winters để tìm mô hình tốt nhất để tìm dự báo cho 12 tháng tới trong tệp Excel Housing Starts. c. Sử dụng MAD, MSE và MAPE làm hướng dẫn, tìm số chu kỳ trung bình động tốt nhất và hằng số làm trơn tốt nhất để làm trơn theo cấp số nhân. 15. CD File Excel Lãi suất cung cấp lãi suất trung bình hàng năm trên chứng chỉ tiền gửi có kỳ hạn 6 tháng. So sánh các mô hình phụ gia Holt-Winters và nhiều mô hình sử dụng XLMiner đ. Sử dụng XLMiner để tìm số khoảng thời gian tốt nhất cho dự báo trung bình động và hằng số làm mịn theo cấp số với các tham số mặc định và một mùa là 6 năm. Tại sao mô hình nhân cung cấp kết quả tốt hơn? nhân tối ưu. 7. Xem xét giá của DJ Industrials trong tệp Excel Giá đóng cửa chứng khoán. Dữ liệu dường như có xu hướng tuyến tính trong khoảng thời gian được cung cấp. Một. Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu. 16. Tệp Excel Dữ liệu điền kinh Olympic cung cấp cự ly giành huy chương vàng cho môn nhảy cao, ném đĩa và nhảy xa của Thế vận hội Olympic hiện đại. Phát triển các mô hình dự báo cho từng sự kiện. Mô hình của bạn dự đoán gì cho Thế vận hội tiếp theo? Dự báo trong 3 ngày tới sẽ như thế nào? b. Sử dụng quy trình làm mịn hàm mũ kép trong XLMiner để tìm dự báo cho 3 ngày tới. 17. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp Excel Tiêu thụ than và tìm Machine Translated by Google 300 Chương 9 Kỹ thuật dự báo mô hình dự báo tốt nhất. Giải thích cách bạn sẽ sử dụng mô mô hình dự báo. Giải thích cách bạn sẽ sử dụng mô hình để hình để dự báo và khoảng thời gian phù hợp để dự báo trong dự báo và khoảng thời gian phù hợp để dự báo trong tương tương lai. lai. 18. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp Excel DJIA Tháng 12 Đóng và tìm mô hình dự báo tốt nhất. 22. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp Excel Tỷ suất lợi tức trái phiếu kho bạc và tìm mô hình dự Giải thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng báo tốt nhất. Giải thích cách bạn sẽ sử dụng mô hình để dự thời gian phù hợp để dự báo trong tương lai. báo và khoảng thời gian phù hợp để dự báo trong tương lai. 19. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp 23. Dữ liệu trong File Excel Bộ vi xử lý Dữ liệu cho thấy nhu Excel Tỷ lệ quỹ liên bang và tìm mô hình dự báo tốt nhất. cầu đối với một loại chip dùng trong thiết bị công nghiệp Giải thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng từ một nhà sản xuất nhỏ. thời gian phù hợp để dự báo trong tương lai. Một. Xây dựng biểu đồ dữ liệu. Điều gì sẽ xảy ra khi một con chip mới được giới thiệu? 20. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp Excel Tỷ lệ thế chấp và tìm mô hình dự báo tốt nhất. Giải thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng thời gian phù hợp để dự báo trong tương lai. b. Phát triển mô hình hồi quy nhân quả để dự báo nhu cầu bao gồm cả thời gian và việc giới thiệu một con chip mới dưới dạng các biến giải thích. c. Dự báo cho tháng tới sẽ như thế nào nếu một con chip mới được giới thiệu? Điều gì sẽ xảy ra nếu một con chip mới 21. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp không được giới thiệu? Excel Prime Rate và tìm ra phương án tốt nhất Trường hợp: Hiệu suất Lawn Thiết bị Một phần quan trọng của việc lập kế hoạch năng lực sản xuất là có những thay đổi về thị phần. Cô ấy cũng muốn dự báo chi phí sản một dự báo tốt về doanh số bán hàng. Elizabeth Burke quan tâm đến xuất sẽ tăng trong tương lai. Phát triển các mô hình dự báo cho việc dự báo doanh số bán máy cắt cỏ và máy kéo ở từng khu vực những dữ liệu này và chuẩn bị một báo cáo kết quả của bạn với các tiếp thị cũng như doanh số bán hàng của ngành để đánh giá tương lai biểu đồ thích hợp và đầu ra từ Excel. Machine Translated by Google Giới thiệu về dữ liệu CHƯƠNG Khai thác mỏ kensoh/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Định nghĩa khai thác dữ liệu và một số phương pháp phổ biến được sử Áp dụng k-Láng giềng gần nhất, phân tích phân biệt và hồi quy dụng trong khai thác dữ liệu. logistic để phân loại bằng XLMiner. Giải thích cách phân tích cụm được sử dụng để khám phá và giảm dữ liệu. Mô tả khai phá luật kết hợp và sử dụng nó trong phân Áp dụng các kỹ thuật phân tích cụm bằng XLMiner. tích rổ thị trường. Giải thích mục đích của các phương pháp phân loại, Sử dụng XLMiner để phát triển các luật kết hợp. cách đo hiệu suất phân loại và việc sử dụng dữ liệu đào Sử dụng phân tích tương quan cho mô hình nguyên nhân tạo và xác nhận. và kết quả 301 Machine Translated by Google 302 Chương 10 Giới thiệu về khai thác dữ liệu Trong một bài báo trên tạp chí Analytics , Talha Omer đã quan sát thấy rằng việc sử dụng điện thoại di động để thực hiện cuộc gọi thoại để lại một lượng dữ liệu đáng kể. “Nhà cung cấp điện thoại di động biết tất cả những người bạn đã gọi, thời gian bạn nói chuyện, thời gian bạn gọi và liệu cuộc gọi của bạn có thành công hay không. Nó cũng biết bạn đang ở đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu, bạn đang hưởng ứng chương trình khuyến mại nào, bạn đã mua hàng bao nhiêu lần, v.v..”1 Xem xét thực tế rằng đại đa số mọi người ngày nay sử dụng điện thoại di động điện thoại, một lượng lớn dữ liệu về hành vi của người tiêu dùng có sẵn. Tương tự, nhiều cửa hàng hiện nay sử dụng thẻ khách hàng thân thiết. Tại siêu thị, nhà thuốc, cửa hàng bán lẻ và các cửa hàng khác, thẻ khách hàng thân thiết cho phép người tiêu dùng tận dụng giá ưu đãi chỉ dành cho những người sử dụng thẻ. Tuy nhiên, khi họ làm như vậy, các thẻ sẽ để lại một dấu vết dữ liệu kỹ thuật số về các mẫu mua hàng. Làm thế nào một doanh nghiệp có thể khai thác những dữ liệu này? Nếu họ có thể hiểu rõ hơn về các mẫu và mối quan hệ ẩn trong dữ liệu, họ không chỉ hiểu thói quen mua hàng mà còn có thể tùy chỉnh quảng cáo, khuyến mãi, phiếu giảm giá, v.v. cho từng khách hàng cá nhân và gửi tin nhắn văn bản và email chào hàng được nhắm mục tiêu (chúng tôi không nói về thư rác ở đây, mà là những người đã đăng ký cho chúng tôi, những người chọn tham gia các tin nhắn như vậy). Khai thác dữ liệu là một lĩnh vực phân tích kinh doanh đang phát triển nhanh chóng, tập trung vào việc hiểu rõ hơn các đặc điểm và mẫu giữa các biến trong cơ sở dữ liệu lớn bằng nhiều công cụ thống kê và phân tích. Nhiều công cụ mà chúng ta đã nghiên cứu trong các chương trước, chẳng hạn như trực quan hóa dữ liệu, tóm tắt dữ liệu, PivotTable, phân tích tương quan và hồi quy, và các kỹ thuật khác, được sử dụng rộng rãi trong khai thác dữ liệu. Tuy nhiên, khi lượng dữ liệu tăng theo cấp số nhân, nhiều phương pháp thống kê và phân tích khác đã được phát triển để xác định mối quan hệ giữa các biến trong tập dữ liệu lớn và hiểu các mẫu ẩn mà chúng có thể chứa. Trong chương này, chúng tôi giới thiệu một số phương pháp phổ biến hơn và sử dụng phần mềm XLMiner để triển khai chúng trong môi trường bảng tính. Nhiều quy trình khai thác dữ liệu đòi hỏi kiến thức thống kê nâng cao để hiểu được lý thuyết cơ bản. Do đó, trọng tâm của chúng tôi là về các ứng dụng đơn giản và hiểu mục đích cũng như ứng dụng của các kỹ thuật hơn là nền tảng lý thuyết của chúng.2 Ngoài ra, chúng tôi lưu ý rằng chương này không có ý định đề cập đến tất cả các khía cạnh của khai thác dữ liệu. Nhiều kỹ thuật khác có sẵn trong XLMiner không được mô tả trong chương này. 1Talha Omer, “From Business Intelligence to Analytics,” Analytics (tháng 1/tháng 2 năm 2011): 20. www.analyticsmagazine.com. 2Nhiều mô tả về các kỹ thuật được XLMiner hỗ trợ đã được điều chỉnh từ các tệp trợ giúp của XLMiner. Xin lưu ý rằng ảnh chụp màn hình đầu ra ví dụ trong chương này sẽ khác với bản phát hành XLMiner mới nhất. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 303 Phạm vi khai thác dữ liệu Khai thác dữ liệu có thể được coi là một phần phân tích mô tả và một phần theo quy định. Trong phân tích theo kịch bản, các công cụ khai thác dữ liệu giúp các nhà phân tích xác định các mẫu trong dữ liệu. Ví dụ, biểu đồ Excel và PivotTable là những công cụ hữu ích để mô tả các mẫu và phân tích các tập dữ liệu; tuy nhiên, họ yêu cầu can thiệp thủ công. Phân tích hồi quy và các mô hình dự đoán giúp chúng ta dự đoán các mối quan hệ hoặc giá trị tương lai của các biến quan tâm. Theo quan sát của một số nhà nghiên cứu, “ranh giới giữa dự đoán và mô tả không rõ ràng (một số mô hình dự đoán có thể mô tả ở mức độ khó hiểu và ngược lại).”3 Trong hầu hết các ứng dụng kinh doanh, mục đích của mô tả phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra các quyết định tốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta có thể nói chung rằng khai thác dữ liệu chủ yếu là một phương pháp phân tích dự đoán. Một số cách tiếp cận phổ biến trong khai thác dữ liệu bao gồm: Khám phá và giảm thiểu dữ liệu. Điều này thường liên quan đến việc xác định các nhóm trong đó các phần tử của các nhóm giống nhau về mặt nào đó. Cách tiếp cận này thường được sử dụng để hiểu sự khác biệt giữa các khách hàng và phân chia họ thành các nhóm đồng nhất. Ví dụ, các cửa hàng bách hóa của Macy đã xác định bốn phong cách sống của khách hàng: “Katherine,” một người ăn mặc cổ điển, truyền thống, không chấp nhận nhiều rủi ro và thích chất lượng; “Julie,” tân truyền thống và sắc sảo hơn một chút nhưng vẫn cổ điển; “Erin,” một khách hàng hiện đại yêu thích sự mới mẻ và mua sắm theo nhãn hiệu; và “Alex”, khách hàng thời trang chỉ muốn những thứ mới nhất và tốt nhất (họ cũng có phiên bản dành cho nam giới).4 Sự phân khúc như vậy rất hữu ích trong các hoạt động thiết kế và tiếp thị để nhắm mục tiêu tốt hơn các sản phẩm. Những kỹ thuật này cũng đã được sử dụng để xác định các đặc điểm của nhân viên thành công và cải thiện các hoạt động tuyển dụng và tuyển dụng. Phân loại. Phân loại là quá trình phân tích dữ liệu để dự đoán cách phân loại một phần tử dữ liệu mới. Một ví dụ về phân loại là lọc thư rác trong ứng dụng e-mail. Bằng cách kiểm tra các đặc điểm văn bản của thư (tiêu đề chủ đề, từ khóa, v.v.), thư có được phân loại là rác hay không. Các phương pháp phân loại có thể giúp dự đoán liệu một giao dịch thẻ tín dụng có gian lận hay không, liệu người xin vay có rủi ro cao hay không hoặc liệu người tiêu dùng có phản ứng với quảng cáo hay không. Sự kết hợp. Hiệp hội là quá trình phân tích cơ sở dữ liệu để xác định các hiệp hội tự nhiên giữa các biến và tạo ra các quy tắc cho khuyến nghị tiếp thị hoặc mua hàng mục tiêu. Ví dụ: Netflix sử dụng liên kết để hiểu loại phim mà khách hàng thích và đưa ra đề xuất dựa trên dữ liệu. Amazon.com cũng đưa ra các đề xuất dựa trên các giao dịch mua trước đây. Thẻ khách hàng thân thiết Supermar ket thu thập dữ liệu về thói quen mua hàng của khách hàng và in phiếu giảm giá tại điểm mua hàng dựa trên những gì hiện đang được mua. Mô hình nhân quả. Mô hình nguyên nhân và kết quả là quá trình phát triển các mô hình phân tích để mô tả mối quan hệ giữa các chỉ số thúc đẩy hiệu quả kinh doanh—ví dụ: lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên. Hiểu các trình điều khiển của hiệu suất có thể 3Usama Fayyad, Gregory Piatetsky-Shapiro, và Padhraic Smyth, “From Data Mining to Knowledge Discovery in Databases,” Tạp chí AI, Hiệp hội Trí tuệ Nhân tạo Hoa Kỳ (Mùa thu 1996): 37–54. 4 “Đây là ông Macy,” Fortune (28 tháng 11 năm 2005): 139–142. Machine Translated by Google 304 Chương 10 Giới thiệu về khai thác dữ liệu dẫn đến các quyết định tốt hơn để cải thiện hiệu suất. Ví dụ, nhóm kiểm soát của Johnson Controls, Inc., đã kiểm tra mối quan hệ giữa sự hài lòng và tỷ lệ gia hạn hợp đồng. Họ phát hiện ra rằng 91% số lần gia hạn hợp đồng đến từ những khách hàng hài lòng hoặc rất hài lòng và những khách hàng không hài lòng có tỷ lệ rời bỏ hợp đồng cao hơn nhiều. Mô hình của họ dự đoán rằng mức tăng một điểm phần trăm trong điểm hài lòng tổng thể có giá trị 13 triệu đô la trong việc gia hạn hợp đồng dịch vụ hàng năm. Kết quả là, họ đã xác định được các quyết định sẽ cải thiện sự hài lòng của khách hàng.5 Phân tích hồi quy và tương quan là những công cụ chính cho mô hình nguyên nhân và kết quả. Khám phá và thu nhỏ dữ liệu Một số kỹ thuật cơ bản trong khai thác dữ liệu liên quan đến việc khám phá dữ liệu và “giảm thiểu dữ liệu”— nghĩa là chia nhỏ các tập hợp dữ liệu lớn thành các nhóm hoặc phân đoạn dễ quản lý hơn để cung cấp thông tin chi tiết tốt hơn. Chúng ta đã thấy nhiều kỹ thuật trước đó trong cuốn sách này để khám phá dữ liệu và giảm thiểu dữ liệu. Ví dụ: biểu đồ, phân phối tần suất và biểu đồ và thống kê tóm tắt cung cấp thông tin cơ bản về các đặc điểm của dữ liệu. Đặc biệt, Pivot Tables rất hữu ích trong việc khám phá dữ liệu từ các quan điểm khác nhau và để giảm thiểu dữ liệu. XLMiner cung cấp nhiều công cụ và kỹ thuật để khám phá dữ liệu bổ sung hoặc mở rộng các khái niệm và công cụ mà chúng ta đã nghiên cứu trong các chương trước. Chúng được tìm thấy trong nhóm Phân tích dữ liệu của ruy-băng XLMiner, được hiển thị trong Hình 10.1. Lấy mẫu Khi xử lý các tập dữ liệu lớn và “dữ liệu lớn”, việc xử lý tất cả dữ liệu có thể tốn kém hoặc mất thời gian. Thay vào đó, chúng ta có thể phải sử dụng một mẫu. Chúng tôi đã giới thiệu quy trình lấy mẫu trong Chương 6. XLMiner có thể lấy mẫu từ trang tính Excel hoặc từ cơ sở dữ liệu Microsoft Access. VÍ DỤ 10.1 Sử dụng XLMiner để lấy mẫu từ một trang tính Hình 10.2 cho thấy một phần Dữ liệu Rủi ro Tín dụng Tệp Excel. phần Tùy chọn lấy mẫu; trong trường hợp này, chúng tôi đã Mặc dù chắc chắn không phải là “dữ liệu lớn”, nhưng nó bao chọn 20 mẫu (không thay thế trừ khi hộp Mẫu có thay thế được gồm 425 bản ghi. Đầu tiên, nhấp vào bất kỳ đâu trong tập dữ chọn—điều này tránh trùng lặp) bằng cách lấy mẫu ngẫu nhiên liệu. Từ nhóm Phân tích dữ liệu trong dải băng XLMiner, nhấp đơn giản. Bằng cách nhập một giá trị vào hộp Đặt hạt giống, vào nút Mẫu và chọn Mẫu từ Trang tính. bạn có thể nhận được kết quả tương tự vào thời điểm khác cho Hình 10.3 hiển thị hộp thoại đã hoàn thành. Chọn tất cả các mục đích kiểm soát; nếu không thì một mẫu ngẫu nhiên khác sẽ biến trong ngăn cửa sổ bên trái và di chuyển chúng sang bên được chọn. Hình 10.4 cho thấy kết quả. phải bằng cách sử dụng nút # (chuyển thành dấu " nếu tất cả Id Hàng trong cột B hiển thị các bản ghi cụ thể đã được lấy các biến được di chuyển sang phải). Chọn các tùy chọn trong mẫu. 5Steve Hoisington và Earl Naumann, “Con voi trung thành,” Tiến độ chất lượng (tháng 2 năm 2003): 33–41. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.1 Ruy băng XLMiner Hình 10.2 Phần tín dụng tệp Excel Dữ liệu rủi ro Hình 10.3 Hộp thoại lấy mẫu XLMiner 305 Machine Translated by Google 306 Chương 10 Giới thiệu về khai phá dữ liệu Hình 10.4 Kết quả lấy mẫu XLMiner Trực quan hóa dữ liệu XLMiner cung cấp nhiều biểu đồ để trực quan hóa dữ liệu. Chúng ta đã thấy nhiều trong số này, chẳng hạn như biểu đồ thanh, đường và phân tán cũng như biểu đồ. Tuy nhiên, XLMiner cũng có khả năng tạo các ô vuông, biểu đồ tọa độ song song, biểu đồ ma trận phân tán và biểu đồ biến đổi. Chúng được tìm thấy từ nút Khám phá trong nhóm Phân tích dữ liệu. Boxplots (đôi khi được gọi là biểu đồ hình hộp và râu) hiển thị bằng đồ họa năm số liệu thống kê chính của một tập dữ liệu—tối thiểu, phần tư thứ nhất, trung vị, phần tư thứ ba và VÍ DỤ 10.2 Biểu đồ hộp cho dữ liệu rủi ro tín dụng Chúng tôi sẽ xây dựng một biểu đồ hộp cho số tháng được sử hai bên của hộp để biểu thị các giá trị tối thiểu và tối đa dụng cho mỗi giá trị tình trạng hôn nhân từ Dữ liệu Rủi ro trong tập dữ liệu. Nếu bạn di con trỏ chuột qua bất kỳ ô nào, Tín dụng. Đầu tiên, chọn Thuật sĩ Biểu đồ từ Khám phá biểu đồ sẽ hiển thị các giá trị này. Râu rất dài gợi ý các trong nhóm Phân tích dữ liệu trong tab XLMiner. ngoại lệ có thể có trong dữ liệu. Chọn Boxplot; trong hộp thoại thứ hai, chọn Số tháng được Bạn có thể dễ dàng nhận thấy sự khác biệt trong dữ liệu giữa tuyển dụng làm biến để vẽ biểu đồ trên trục tung. Trong hộp những người độc thân so với những người đã kết hôn hoặc ly thoại tiếp theo, chọn Tình trạng hôn nhân làm biến để vẽ biểu hôn. Bạn cũng có thể lọc dữ liệu bằng cách chọn hoặc bỏ chọn đồ trên trục hoành. Nhấp vào Kết thúc. Kết quả được thể hiện các hộp trong ngăn bộ lọc để hiển thị các ô vuông chỉ cho trong Hình 10.5. Phạm vi hộp hiển thị phần trăm thứ 25 và 75 một phần dữ liệu, chẳng hạn như để so sánh những dữ liệu có (phạm vi liên vùng, IQR), đường liền nét trong hộp là trung rủi ro tín dụng cao với những dữ liệu có phân loại rủi ro tín vị và đường chấm trong hộp là giá trị trung bình. “Râu ria” dụng thấp. kéo dài Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 307 Hình 10.5 Boxplot cho tháng Làm việc theo tình trạng hôn nhân tối đa—và rất hữu ích trong việc xác định hình dạng của phân phối và các giá trị ngoại lai trong dữ liệu. Biểu đồ tọa độ song song bao gồm một tập hợp các trục dọc, một trục cho mỗi biến được chọn. Đối với mỗi quan sát, một đường được vẽ nối các trục dọc. Điểm mà tại đó đường thẳng đi qua một trục biểu thị giá trị cho biến đó. Biểu đồ tọa độ song song tạo ra một "hồ sơ đa biến" và giúp nhà phân tích khám phá dữ liệu và đưa ra kết luận cơ bản. VÍ DỤ 10.3 Biểu đồ tọa độ song song cho dữ liệu rủi ro tín dụng Đầu tiên, chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong chúng tôi chọn tô màu theo rủi ro tín dụng. Màu vàng thể hiện nhóm Phân tích Dữ liệu trong tab XLMiner. Chọn Tọa độ song rủi ro tín dụng thấp và màu xanh lam thể hiện mức cao. Chúng song. Trong hộp thoại thứ hai, chọn Kiểm tra, Tiết kiệm, Số tôi thấy rằng những cá nhân có số tháng làm việc thấp và độ tháng Làm việc và Tuổi làm các biến cần đưa vào. Hình 10.6 tuổi thấp hơn có xu hướng gặp rủi ro tín dụng cao, thể hiện cho thấy kết quả. Trong hộp thả xuống nhỏ ở trên cùng, bạn có qua mật độ của các đường màu xanh lam. Như với các ô vuông, thể chọn tô màu các đường theo một trong các biến; trong bạn có thể dễ dàng lọc dữ liệu để khám phá các kết hợp khác trường hợp này, của các biến hoặc tập hợp con của dữ liệu. Một ma trận biểu đồ phân tán kết hợp một số biểu đồ phân tán vào một bảng điều khiển, cho phép người dùng để trực quan hóa mối quan hệ theo cặp giữa các biến. Machine Translated by Google 308 Chương 10 Giới thiệu về khai phá dữ liệu Hình 10.6 Ví dụ về song song Lô tọa độ VÍ DỤ 10.4 Ma trận phân tán cho dữ liệu rủi ro tín dụng Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân so với Tuổi. Lưu ý rằng tháng làm việc nằm trên trục x và tích Dữ liệu trong tab XLMiner. Chọn Ma trận phân tán. Trong tuổi trên trục y. Dữ liệu dường như có xu hướng tuyến tính hộp thoại tiếp theo, hãy chọn các hộp cho Tháng khách hàng, tăng nhẹ, cho thấy rằng những người lớn tuổi đã được tuyển Tháng làm việc và Tuổi và nhấp vào Kết thúc. Hình 10.7 cho dụng trong một thời gian dài hơn. Lưu ý rằng có hai biểu đồ thấy kết quả. Dọc theo đường chéo là biểu đồ của các biến cho mỗi cặp biến với các trục được đảo ngược. riêng lẻ. Ngoài đường chéo là biểu đồ phân tán của các cặp Ví dụ: biểu đồ ở hàng thứ hai và cột thứ ba giống như biểu biến. Ví dụ: biểu đồ ở hàng thứ ba và cột thứ hai của hình đồ mà chúng ta đã thảo luận, nhưng có tuổi trên trục x. Như hiển thị biểu đồ phân tán của Số tháng được tuyển dụng trước đây, bạn có thể dễ dàng lọc dữ liệu để tạo các dạng xem khác nhau. Cuối cùng, một biểu đồ biến chỉ đơn giản là vẽ một ma trận biểu đồ cho các biến được chọn. VÍ DỤ 10.5 Một biểu đồ dữ liệu rủi ro tín dụng có thể thay đổi Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân Hình 10.8 cho thấy kết quả. Công cụ này dễ sử dụng hơn nhiều tích Dữ liệu trong tab XLMiner. Chọn Biểu đồ biến. Trong hộp so với công cụ Biểu đồ của Excel, đặc biệt đối với nhiều biến thoại tiếp theo, hãy đánh dấu vào các hộp cho các biến bạn trong một tập dữ liệu và bạn có thể dễ dàng lọc dữ liệu để muốn đưa vào (chúng tôi giữ tất cả chúng) và nhấp vào Kết thúc. tạo ra các phối cảnh khác nhau. Dữ liệu bẩn Không có gì lạ khi tìm thấy các tập dữ liệu thực có giá trị bị thiếu hoặc lỗi. Những bộ dữ liệu như vậy được gọi là "bẩn" và cần được "làm sạch" trước khi phân tích chúng. Một số cách tiếp cận Machine Translated by Google Chương 10 Giới thiệu về khai phá dữ liệu 309 Hình 10.7 Ví dụ về biểu đồ phân tán ma trận Hình 10.8 Ví dụ về một âm mưu biến được sử dụng để xử lý dữ liệu bị thiếu. Ví dụ: chúng ta có thể chỉ cần loại bỏ các bản ghi chứa dữ liệu bị thiếu; ước tính các giá trị hợp lý cho các quan sát bị thiếu, chẳng hạn như giá trị trung bình hoặc giá trị trung vị; hoặc sử dụng thủ tục khai thác dữ liệu để xử lý chúng. XLMiner có khả năng xử lý dữ liệu bị thiếu trong menu Chuyển đổi trong nhóm Phân tích dữ liệu. Chúng tôi khuyên bạn nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ giúp để biết thêm thông tin. Trong mọi trường hợp, bạn nên cố gắng hiểu liệu dữ liệu bị thiếu chỉ đơn giản là sự kiện ngẫu nhiên hay liệu có lý do hợp lý nào khiến chúng bị thiếu hay không. Việc loại bỏ dữ liệu mẫu một cách bừa bãi có thể dẫn đến thông tin và kết luận sai lệch về dữ liệu. Machine Translated by Google 310 Chương 10 Giới thiệu về khai thác dữ liệu Lỗi dữ liệu thường có thể được xác định từ các ngoại lệ (xem phần thảo luận trong Chương 3). Một cách tiếp cận điển hình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem tác động của chúng có làm thay đổi đáng kể các kết luận hay không và liệu có nên dành nhiều nỗ lực hơn để cố gắng hiểu và giải thích chúng hay không. Phân tích cluster Phân tích cụm, còn được gọi là phân đoạn dữ liệu, là một tập hợp các kỹ thuật tìm cách nhóm hoặc phân đoạn một tập hợp các đối tượng (nghĩa là các quan sát hoặc bản ghi) thành các tập hợp con hoặc cụm, sao cho các đối tượng trong mỗi cụm có liên quan chặt chẽ với nhau hơn so với các đối tượng gán cho các cụm khác nhau. Các đối tượng trong các cụm sẽ thể hiện mức độ tương đồng cao, trong khi các đối tượng trong các cụm khác nhau sẽ không giống nhau. Phân tích cụm là một kỹ thuật giảm thiểu dữ liệu theo nghĩa là nó có thể lấy một số lượng lớn các quan sát, chẳng hạn như khảo sát khách hàng hoặc bảng câu hỏi, và giảm thông tin thành các nhóm nhỏ hơn, đồng nhất có thể diễn giải dễ dàng hơn. Ví dụ, việc phân khúc khách hàng thành các nhóm nhỏ hơn có thể được sử dụng để tùy chỉnh quảng cáo hoặc khuyến mại. Trái ngược với nhiều kỹ thuật khai thác dữ liệu khác, phân tích cụm chủ yếu mang tính mô tả và chúng ta không thể rút ra các suy luận thống kê về một mẫu bằng cách sử dụng nó. Ngoài ra, các cụm được xác định không phải là duy nhất và phụ thuộc vào quy trình cụ thể được sử dụng; do đó, nó không dẫn đến một câu trả lời dứt khoát mà chỉ cung cấp những cách nhìn mới về dữ liệu. Tuy nhiên, nó là một kỹ thuật được sử dụng rộng rãi. Có hai phương pháp phân cụm chính là phân cụm theo thứ bậc và phân cụm theo phương pháp k-mean. Trong phân cụm theo cấp bậc, dữ liệu không được phân vùng thành một cụm cụ thể trong một bước. Thay vào đó, một loạt các phân vùng diễn ra, có thể chạy từ một cụm chứa tất cả các đối tượng đến n cụm, mỗi cụm chứa một đối tượng. Phân cụm theo thứ bậc được chia nhỏ thành các phương pháp phân cụm kết tụ, tiến hành bằng một loạt các hợp nhất n đối tượng thành các nhóm và các phương pháp phân cụm phân chia, phân tách n đối tượng liên tiếp thành các nhóm tốt hơn. Hình 10.9 minh họa sự khác biệt giữa hai loại phương pháp này. Các kỹ thuật kết tụ được sử dụng phổ biến hơn và đây là phương pháp được triển khai trong XLMiner. Phân cụm theo thứ bậc có thể được biểu diễn bằng một không gian hai chiều Hình 10.9 kết tụ so với Phân cụm chia Machine Translated by Google 311 Chương 10 Giới thiệu về khai phá dữ liệu biểu đồ được gọi là chương trình dendro, minh họa sự kết hợp hoặc phân chia được thực hiện ở mỗi giai đoạn phân tích kế tiếp. Một quy trình phân cụm theo thứ bậc tổng hợp tạo ra một loạt các phân vùng dữ liệu, Pn , Pn-1 , c, P1 . Pn bao gồm n cụm đối tượng đơn lẻ và P1 bao gồm một nhóm duy nhất chứa tất cả n quan sát. Ở mỗi giai đoạn cụ thể, phương pháp này kết hợp hai cụm gần nhau nhất (giống nhau nhất). Ở giai đoạn đầu tiên, điều này chỉ đơn giản là nối hai đối tượng gần nhau nhất lại với nhau. Các phương pháp khác nhau sử dụng các cách khác nhau để xác định khoảng cách (hoặc độ tương tự) giữa các cụm. Thước đo khoảng cách được sử dụng phổ biến nhất giữa các vật thể là khoảng cách Euclide. Đây là phần mở rộng của cách tính khoảng cách giữa hai điểm trên một mặt phẳng như cạnh huyền của một tam giác vuông (xem Hình 10.10). Khoảng cách Euclide đo giữa hai điểm (x1 , x2 , . . . xn ) và (y1 , y2 , , 21x1 - y1 22 + 1x2 - y2 22 + g + 1xn - yn 22 . . . , y ) là (10.1) Một số phương pháp phân cụm sử dụng khoảng cách Euclide bình phương (nghĩa là không có căn bậc hai) vì nó tăng tốc độ tính toán. Một trong những phương pháp phân cụm theo thứ bậc kết tụ đơn giản nhất là phân cụm liên kết đơn, còn được gọi là kỹ thuật lân cận gần nhất. Tính năng xác định của phương pháp là khoảng cách giữa các nhóm được xác định là khoảng cách giữa cặp đối tượng gần nhất, trong đó chỉ các cặp bao gồm một đối tượng từ mỗi nhóm được xem xét. Trong phương pháp liên kết đơn, khoảng cách giữa hai cụm, r và s, D(r,s), được định nghĩa là khoảng cách tối thiểu giữa bất kỳ đối tượng nào trong cụm r và bất kỳ đối tượng nào trong cụm s. Nói cách khác, khoảng cách giữa hai cụm được cho bởi giá trị của liên kết ngắn nhất giữa các cụm. Ở mỗi giai đoạn phân cụm theo cấp bậc, chúng tôi tìm thấy hai cụm có khoảng cách tối thiểu giữa chúng và hợp nhất chúng lại với nhau. Một phương pháp khác về cơ bản ngược lại với phân cụm liên kết đơn được gọi là phân cụm liên kết hoàn chỉnh. Trong phương pháp này, khoảng cách giữa các nhóm được định nghĩa là khoảng cách giữa cặp đối tượng ở xa nhất, một đối tượng từ mỗi nhóm. Phương pháp thứ ba Hình 10.10 Tính toán Euclide Khoảng Cách Giữa Hai điểm Machine Translated by Google 312 Chương 10 Giới thiệu về khai thác dữ liệu là cụm liên kết trung bình. Ở đây, khoảng cách giữa hai cụm được định nghĩa là giá trị trung bình của khoảng cách giữa tất cả các cặp đối tượng, trong đó mỗi cặp được tạo thành từ một đối tượng từ mỗi nhóm. Các phương pháp khác là phân cụm liên kết nhóm trung bình, sử dụng các giá trị trung bình cho từng biến để tính toán khoảng cách giữa các cụm và phương pháp phân cụm theo cấp bậc của Ward, sử dụng tiêu chí tổng bình phương. Các phương pháp khác nhau thường mang lại kết quả khác nhau, vì vậy tốt nhất là thử nghiệm và so sánh kết quả. VÍ DỤ 10.6 Phân cụm dữ liệu các trường đại học và cao đẳng Đầu ra Các giai đoạn phân cụm trình bày chi tiết lịch Hình 10.11 cho thấy một phần của tệp Excel Cao đẳng và Đại học. Đặc điểm của các tổ chức này khác nhau khá nhiều. Giả sử sử hình thành cụm, cho biết cách các cụm được hình thành ở rằng chúng ta muốn phân nhóm chúng thành các nhóm đồng nhất mỗi giai đoạn của thuật toán. Ở các giai đoạn khác nhau của hơn dựa trên điểm SAT trung bình, tỷ lệ chấp nhận, chi tiêu/ quá trình phân cụm, có số lượng khác nhau của các cụm. học sinh, tỷ lệ học sinh nằm trong top 10% của trường trung Chương trình dendro cho phép bạn hình dung điều này. Điều này được thể hiện trong Hình 10.16. Trục y đo khoảng cách giữa các cụm. học và tỷ lệ tốt nghiệp. Do quy mô của vấn đề, mỗi quan sát riêng lẻ không được hiển Trong XLMiner, chọn Phân cụm theo cấp bậc từ menu Cụm thị và một số trong số chúng đã được nhóm lại trong “các cụm trong nhóm Phân tích dữ liệu. Trong hộp thoại được hiển thị trong Hình 10.12, chỉ định phạm vi dữ liệu và di chuyển các con”. ID cụm phụ được liệt kê dọc theo trục x, với chú thích biến được quan tâm vào danh sách Các biến được chọn. Lưu ý bên dưới. Ví dụ, trong thủ tục phân cụm, các phân cụm 1 và rằng chúng tôi đang nhóm các biến số, vì vậy Trường học và 12 đã được hợp nhất; sau đó cụm con 11 (bao gồm quan sát 14) Loại không được bao gồm. Sau khi nhấn Next, hộp thoại Step 2 được hợp nhất với nó. Ở đầu sơ đồ, chúng ta thấy rằng tất cả xuất hiện (xem Hình 10.13). Đánh dấu vào ô Chuẩn hóa dữ liệu các cụm được hợp nhất thành một cụm duy nhất. Nếu bạn vẽ một đầu vào; điều này rất quan trọng để đảm bảo rằng khoảng cách đường ngang qua dendogram ở bất kỳ giá trị nào của trục y, đo chắc chắn phù hợp với trọng lượng bằng nhau cho từng biến; bạn có thể xác định số cụm và các quan sát trong mỗi cụm. Ví không có chuẩn hóa, biến có tỷ lệ lớn nhất sẽ chiếm ưu thế dụ, vẽ đường ở giá trị khoảng cách là 2,5, bạn có thể thấy trong phép đo. Phân cụm theo cấp bậc sử dụng khoảng cách rằng chúng tôi có hai cụm; chỉ cần theo dõi các nhóm con ở Euclidean làm thước đo độ tương tự cho dữ liệu số. Hai tùy cuối các nhánh để xác định các quan sát riêng lẻ trong mỗi chọn còn lại chỉ áp dụng cho dữ liệu nhị phân (0 hoặc 1). nhóm. Chọn phương pháp phân cụm mà bạn muốn sử dụng. Trong trường hợp này, chúng tôi chọn liên kết nhóm trung bình. Trong hộp Cụm Dự đoán hiển thị việc gán các quan sát cho số lượng thoại cuối cùng (Hình 10.14), chọn số cụm. Phương pháp kết cụm mà chúng tôi đã chỉ định trong hộp thoại nhập liệu, trong tụ của phân cụm theo thứ bậc tiếp tục hình thành các cụm cho trường hợp này là bốn (vẽ một đường qua biểu đồ den ở đến khi chỉ còn lại một cụm. Tùy chọn này cho phép bạn dừng khoảng cách 2 để thấy điều này). Điều này được thể hiện trong quá trình tại một số cụm nhất định. Chúng tôi đã chọn bốn cụm. Hình 10.17. Chẳng hạn, cụm 3 chỉ bao gồm ba trường, ID hàng Đầu ra được lưu trên nhiều trang tính. Hình 10.15 hiển 4, 41 và 42; và cụm 4 chỉ bao gồm một quan sát, hàng ID 8. thị tóm tắt các đầu vào. Bạn có thể sử dụng thanh Điều hướng (Bạn có thể sắp xếp dữ liệu trong Excel để xem điều này dễ đầu ra ở đầu trang tính để hiển thị các phần khác nhau của dàng hơn.) Các trường này và dữ liệu của chúng được trích đầu ra thay vì cố gắng tự mình điều hướng qua các trang tính. xuất trong cơ sở dữ liệu sau: chấp thuận cụm trường 3 3 Kiểu SAT trung bình Tỷ lệ chi tiêu/ Học sinh Top 10% HS tốt nghiệp% Berkeley Trường đại học 1176 37% $23,665 95 68 UCLA Trường đại học 1142 43% $26,859 96 61 3 UNC Trường đại học 1109 32% $19,684 82 73 4 Cal Tech Trường đại học 1400 31% $102,262 98 75 Chúng ta có thể thấy rằng các trường trong cụm 3 có hồ sơ khá giống nhau, trong khi Cal Tech nổi bật hơn hẳn so với các trường khác. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.11 Một phần của File Excel Cao đẳng và Đại học Hình 10.12 Phân cụm theo cấp bậc Đối thoại, Bước 1 Hình 10.13 Phân cụm theo cấp bậc Đối thoại, Bước 2 313 Machine Translated by Google 314 Hình 10.14 Phân cụm theo cấp bậc Đối thoại, Bước 3 Hình 10.15 Phân cụm theo cấp bậc Kết quả: Đầu vào Hình 10.16 Phân cụm theo cấp bậc Kết quả: Dendogram Chương 10 Giới thiệu về khai phá dữ liệu Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 315 Hình 10.17 Phân cụm theo cấp bậc Kết quả: Cụm dự đoán phân loại Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành một trong hai hoặc nhiều loại dựa trên các thuộc tính dữ liệu khác nhau. Đối với mỗi bản ghi trong cơ sở dữ liệu, chúng tôi có một biến phân loại được quan tâm (ví dụ: mua hay không mua, rủi ro cao hay không rủi ro) và một số biến dự đoán bổ sung (tuổi, thu nhập, giới tính, giáo dục, tài sản, v.v.) . Đối với một tập hợp các biến dự đoán nhất định, chúng tôi muốn gán giá trị tốt nhất của biến phân loại. Chúng tôi sẽ minh họa các kỹ thuật phân loại khác nhau bằng cách sử dụng cơ sở dữ liệu Excel Quyết định phê duyệt tín dụng. Một phần của cơ sở dữ liệu này được hiển thị trong Hình 10.18. Trong cơ sở dữ liệu này, biến phân loại quan tâm là quyết định phê duyệt hoặc từ chối đơn xin tín dụng. Các biến ing còn lại là các biến dự đoán. Bởi vì chúng tôi đang làm việc với dữ liệu số, Hình 10.18 Một phần của tệp Excel Quyết định phê duyệt tín dụng Machine Translated by Google 316 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.19 Tệp Excel đã sửa đổi với Các biến được mã hóa bằng số tuy nhiên, chúng ta cần mã hóa các trường Chủ nhà và Quyết định bằng số. Chúng tôi mã hóa thuộc tính Chủ nhà “Y” là 1 và “N” là 0; tương tự, chúng tôi mã hóa thuộc tính Quyết định “Phê duyệt” là 1 và “Từ chối” là 0. Hình 10.19 cho thấy một phần của cơ sở dữ liệu đã sửa đổi (Quyết định phê duyệt tín dụng được mã hóa trong tệp Excel). Một lời giải thích trực quan về phân loại Để phát triển sự hiểu biết trực quan về phân loại, chúng tôi chỉ coi điểm tín dụng và số năm lịch sử tín dụng là các biến dự đoán. VÍ DỤ 10.7 Phân loại quyết định phê duyệt tín dụng theo trực giác Hình 10.20 cho thấy biểu đồ điểm tín dụng và số năm lịch sử tín dụng trong dữ liệu Quyết định phê duyệt tín dụng. Một cách khác để phân loại các nhóm là sử dụng cả điểm tín dụng và số năm lịch sử tín dụng bằng cách vẽ một đường thẳng Biểu đồ vẽ điểm tín dụng của những người đăng ký khoản vay để phân tách các nhóm, như trong Hình 10.21. Đường thẳng này trên trục x và các năm lịch sử tín dụng trên trục y. Các bong đi qua các điểm (763, 2) và (595, 18). Sử dụng một chút đại số, bóng lớn đại diện cho những người nộp đơn bị từ chối đơn xin chúng ta có thể tính phương trình của dòng như tín dụng; các bong bóng nhỏ đại diện cho những bong bóng đã được phê duyệt. Với một vài trường hợp ngoại lệ (các điểm ở năm = dưới cùng bên phải tương ứng với điểm tín dụng cao chỉ với 0,095 × điểm tín dụng + 74,66 một vài năm lịch sử tín dụng đã bị từ chối), dường như có sự Do đó, chúng tôi có thể đề xuất một quy tắc phân loại khác: bất phân chia điểm rõ ràng. Khi điểm tín dụng lớn hơn 640, đơn đăng cứ khi nào số năm + 0,095 × điểm tín dụng " 74,66, đơn đăng ký ký đã được chấp thuận, nhưng hầu hết các đơn đăng ký có điểm sẽ bị từ chối; nếu không, nó sẽ được chấp thuận. Tuy nhiên, ở tín dụng từ 640 trở xuống đều bị từ chối. đây một lần nữa, chúng tôi thấy một số phân loại sai. Do đó, chúng tôi có thể đề xuất một quy tắc phân loại đơn giản: ap chứng minh đơn đăng ký có điểm tín dụng lớn hơn 640. Mặc dù điều này dễ thực hiện bằng trực giác chỉ với hai biến dự đoán, nhưng sẽ khó thực hiện hơn khi chúng ta có nhiều biến dự đoán hơn. Do đó, các thủ tục phức tạp hơn là cần thiết như chúng ta sẽ thảo luận. Đo lường hiệu suất phân loại Như chúng ta đã thấy trong ví dụ trước, lỗi có thể xảy ra với bất kỳ quy tắc phân loại nào, dẫn đến phân loại sai. Một cách để đánh giá tính hiệu quả của quy tắc phân loại là tìm xác suất mắc lỗi phân loại sai và tóm tắt kết quả trong ma trận phân loại, ma trận này cho biết số trường hợp được phân loại đúng hoặc sai. Machine Translated by Google 317 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.20 Biểu đồ phê duyệt tín dụng quyết định Hình 10.21 Phê duyệt tín dụng thay thế sơ đồ phân loại VÍ DỤ 10.8 Ma trận phân loại cho các quy tắc phân loại phê duyệt tín dụng Trong ví dụ về quyết định phê duyệt tín dụng, chỉ sử dụng điểm tín dụng để Các phần tử ngoài đường chéo là tần số phân loại sai, trong khi các phần phân loại các ứng dụng, chúng tôi thấy rằng trong hai trường hợp, các ứng tử đường chéo là các số được phân loại chính xác. Do đó, xác suất phân viên có điểm tín dụng vượt quá 640 đã bị từ chối, trong tổng số 50 điểm loại sai là để bạn phát triển ma trận phân loại cho quy tắc thứ hai. dữ liệu. Bảng 10.1 cho thấy một ma trận phân loại cho quy tắc điểm tín dụng trong Hình 10.20. 2 50 , hoặc 0,04. Chúng tôi để nó như một bài tập Machine Translated by Google 318 Chương 10 Giới thiệu về khai thác dữ liệu Phân loại dự đoán Bảng 10.1 Phân loại thực tế Ma trận phân loại cho Quy tắc điểm tín dụng Quyết định = 1 Quyết định = 0 Quyết định = 1 23 2 0 0 25 Quyết định = Sử dụng dữ liệu đào tạo và xác thực Hầu hết các dự án khai thác dữ liệu sử dụng khối lượng lớn dữ liệu. Trước khi xây dựng một mô hình, chúng tôi thường phân vùng dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu xác thực. Các tập dữ liệu huấn luyện đã biết trước các kết quả và được sử dụng để “dạy” một thuật toán khai thác dữ liệu. Để có ước tính thực tế hơn về cách mô hình sẽ hoạt động với dữ liệu không nhìn thấy, bạn cần dành một phần dữ liệu gốc thành tập dữ liệu xác thực và không sử dụng dữ liệu đó trong quá trình đào tạo. Nếu bạn sử dụng tập dữ liệu huấn luyện để tính toán độ chính xác của mức độ phù hợp của mô hình, bạn sẽ nhận được ước tính quá lạc quan về độ chính xác của mô hình. Điều này là do quy trình đào tạo hoặc điều chỉnh mô hình đảm bảo rằng độ chính xác của mô hình đối với dữ liệu đào tạo càng cao càng tốt—mô hình đặc biệt phù hợp với dữ liệu đào tạo. Bộ dữ liệu xác thực thường được sử dụng để tinh chỉnh các mô hình. Khi một mô hình cuối cùng được chọn, độ chính xác của mô hình với tập dữ liệu xác thực vẫn là một ước tính lạc quan về cách mô hình sẽ hoạt động với dữ liệu không nhìn thấy. Điều này là do mô hình cuối cùng đã trở thành người chiến thắng trong số các mô hình cạnh tranh dựa trên thực tế là độ chính xác của nó với tập dữ liệu xác thực là cao nhất. Do đó, những người khai thác dữ liệu thường dành một phần dữ liệu khác, phần này không được sử dụng trong đào tạo cũng như xác thực. Tập hợp này được gọi là tập dữ liệu thử nghiệm. Độ chính xác của mô hình trên dữ liệu thử nghiệm đưa ra ước tính thực tế về hiệu suất của mô hình trên dữ liệu hoàn toàn không nhìn thấy được. VÍ DỤ 10.8 Phân vùng tập dữ liệu trong XLMiner Để phân vùng dữ liệu thành các bộ đào tạo và xác thực trong 2. Chỉ định tỷ lệ phần trăm: Bạn có thể chỉ định tỷ lệ phần XLMiner, hãy chọn Phân vùng từ nhóm Khai thác dữ liệu rồi trăm phân vùng cần thiết. Trong trường hợp tập dữ liệu chọn Phân vùng tiêu chuẩn. Hộp thoại Phân vùng dữ liệu tiêu lớn, XLMiner sẽ đề xuất tỷ lệ phần trăm tối đa có thể chuẩn nhắc bạn về thông tin cơ bản; Hình 10.22 hiển thị hộp cho tập huấn luyện, sao cho phân vùng huấn luyện nằm thoại đã hoàn thành. Trước tiên, hộp thoại cho phép bạn chỉ trong giới hạn đã chỉ định. Sau đó, nó sẽ phân bổ các định phạm vi dữ liệu và liệu nó có chứa các tiêu đề trong tệp bản ghi còn lại cho các bộ kiểm tra và xác thực theo tỷ Excel hay không cũng như các biến để đưa vào phân vùng. Để lệ 60:40. Bạn có thể thay đổi những điều này và chỉ chọn một biến cho phân vùng, hãy nhấp vào biến đó rồi nhấp định tỷ lệ phần trăm. XLMiner sẽ thực hiện các thông số vào nút # (nút này chuyển thành nút " nếu tất cả các biến đã kỹ thuật của bạn miễn là các giới hạn được đáp ứng. được chuyển sang ngăn bên phải). Bạn có thể sử dụng phím Ctrl để chọn nhiều biến. Số ngẫu nhiên hạt giống mặc định là 12345, nhưng điều này có thể được thay đổi.XLMiner cung cấp ba tùy chọn: 1. Tự động: Nếu bạn chọn tùy chọn này, 60% tổng số bản ghi 3. Các bản ghi bằng nhau trong tập huấn luyện, xác nhận và kiểm tra: XLMiner sẽ chia đều các bản ghi trong các tập huấn luyện, xác nhận và kiểm tra. Nếu tập dữ liệu lớn, nó sẽ chỉ định các bản ghi tối đa có thể cho quá trình huấn luyện sao cho số lượng nằm trong giới hạn đã chỉ định cho phân vùng trong tập dữ liệu được gán ngẫu nhiên cho tập huấn huấn luyện và chỉ định tỷ lệ phần trăm tương tự cho các luyện và phần còn lại cho tập hợp lệ. Nếu tập dữ liệu tập hợp xác thực và kiểm tra. Điều này có nghĩa là tất cả lớn, thì 60% có lẽ sẽ vượt quá giới hạn về số lượng các bản ghi có thể không được cung cấp. Vì vậy, trong bản ghi trong phân vùng huấn luyện. Trong trường hợp trường hợp tập dữ liệu lớn, hãy chỉ định tỷ lệ phần trăm nếu cần. đó, XLMiner sẽ phân bổ tỷ lệ phần trăm tối đa cho tập huấn luyện nằm trong giới hạn. Sau đó, nó sẽ chỉ định phần trăm còn lại cho bộ xác thực. Hình 10.23 cho thấy một phần đầu ra của ví dụ Quyết định phê duyệt tín dụng. 30 hàng đầu tiên (được xác định bằng Id hàng của chúng trong tiêu đề ở hàng 18) là tập dữ liệu huấn luyện và phần còn lại là tập dữ liệu xác thực. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 319 Hình 10.22 Phân vùng dữ liệu tiêu chuẩn hộp thoại Hình 10.23 Phần của phân vùng dữ liệu đầu ra XLMiner cung cấp hai cách phân vùng tiêu chuẩn: phân vùng ngẫu nhiên và phân vùng do người dùng xác định. Phân vùng ngẫu nhiên sử dụng lấy mẫu ngẫu nhiên đơn giản, trong đó mọi quan sát trong tập dữ liệu chính đều có xác suất được chọn cho tập dữ liệu phân vùng như nhau. Ví dụ: nếu bạn chỉ định 60% cho tập dữ liệu huấn luyện, thì 60% của Machine Translated by Google 320 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.24 Dữ liệu bổ sung trong Phê duyệt tín dụng tệp Excel Quyết định được mã hóa tổng số quan sát sẽ được chọn ngẫu nhiên và sẽ bao gồm tập dữ liệu huấn luyện. Phân vùng ngẫu nhiên sử dụng các số ngẫu nhiên để tạo mẫu. Bạn có thể chỉ định bất kỳ hạt giống số ngẫu nhiên không âm nào để tạo mẫu ngẫu nhiên. Sử dụng cùng một hạt giống cho phép bạn sao chép chính xác các phân vùng cho các lần chạy khác nhau. Phân loại dữ liệu mới Mục đích của việc phát triển một mô hình phân loại là để có thể phân loại dữ liệu mới. Sau khi sơ đồ phân loại được chọn và mô hình tốt nhất được phát triển dựa trên dữ liệu hiện có, chúng tôi sử dụng các biến dự đoán làm đầu vào cho mô hình để dự đoán đầu ra. VÍ DỤ 10.9 Phân loại dữ liệu mới cho các quyết định tín dụng bằng cách sử dụng điểm tín dụng và số năm lịch sử tín dụng Các tệp Excel Quyết định phê duyệt tín dụng và Quyết định phê cho các bản ghi đầu tiên, thứ ba và thứ sáu là 1 và phần còn lại là 0. duyệt tín dụng được mã hóa bao gồm một tập hợp nhỏ dữ liệu mới Nếu chúng ta sử dụng quy tắc được phát triển trong Ví dụ 10.7, mà chúng tôi muốn phân loại trong bảng tính Dữ liệu bổ sung. Những bao gồm cả điểm tín dụng và số năm trong lịch sử tín dụng—tức là, dữ liệu này được thể hiện trong Hình 10.24. Nếu chúng tôi sử dụng từ chối đơn đăng ký nếu số năm + 0,095 × điểm tín dụng " 74,66 quy tắc điểm tín dụng đơn giản từ Ví dụ 10.7 rằng cần có số điểm thì các quyết định sẽ như sau: trên 640 để phê duyệt đơn đăng ký, thì chúng tôi sẽ phân loại quyết định Năm Điểm tín dụng của chủ sở hữu nhà quay vòng Lịch sử tín dụng 1 700 0 520 1 1 650 0 602 Sự cân bằng quay vòng Năm + 0,095*Điểm tín dụng Phán quyết sử dụng $21.000,00 15% 74,50 0 $4.000,00 90% 50,40 0 10 $8.500,00 25% 71,75 0 7 $16,300.00 70% 64.19 0 số 8 0 549 2 $2.500,00 90% 54.16 0 1 742 15 $16,700.00 18% 85,49 1 Chỉ hồ sơ cuối cùng sẽ được phê duyệt. Kỹ thuật phân loại Chúng tôi sẽ mô tả ba cách tiếp cận khai thác dữ liệu khác nhau được sử dụng để phân loại: kHàng xóm gần nhất, phân tích phân biệt và hồi quy logistic. Machine Translated by Google 321 Chương 10 Giới thiệu về khai phá dữ liệu k-Hàng xóm gần nhất (k-NN) Thuật toán k-Láng giềng gần nhất (k-NN) là một sơ đồ phân loại cố gắng tìm các bản ghi trong cơ sở dữ liệu tương tự với cơ sở dữ liệu mà chúng tôi muốn phân loại. Tính tương tự dựa trên “sự gần gũi” của một bản ghi với các yếu tố dự đoán bằng số trong các bản ghi khác. Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng, chúng tôi có các yếu tố dự đoán Chủ sở hữu nhà, Điểm tín dụng, Số năm Lịch sử tín dụng, Số dư quay vòng và Sử dụng quay vòng. Chúng tôi tìm cách phân loại quyết định phê duyệt hoặc từ chối đơn xin cấp tín dụng. Giả sử rằng giá trị của các bộ dự đoán của hai bản ghi X và Y được dán nhãn 1x1 , x2 , c, xn 2 và 1y1 , y2 , c, xn 2. Chúng ta đo khoảng cách giữa hai bản ghi bằng khoảng cách Euclide trong công thức (10.1). Bởi vì các yếu tố dự đoán thường có các thang đo khác nhau nên chúng thường được chuẩn hóa trước khi tính toán khoảng cách. Giả sử chúng ta có một bản ghi X mà chúng ta muốn phân loại. Láng giềng gần nhất với sợi dây đó trong tập dữ liệu huấn luyện là sợi dây có khoảng cách nhỏ nhất với nó. Quy tắc 1-NN sau đó phân loại bản ghi X trong cùng loại với hàng xóm gần nhất của nó. Chúng ta có thể mở rộng ý tưởng này thành quy tắc k-NN bằng cách tìm k hàng xóm gần nhất trong tập dữ liệu huấn luyện cho mỗi bản ghi mà chúng ta muốn phân loại và sau đó chỉ định phân loại là phân loại đa số của k hàng xóm gần nhất. Sự lựa chọn của k là hơi tùy tiện. Nếu k quá nhỏ, việc phân loại một bản ghi rất nhạy cảm với việc phân loại một bản ghi mà nó gần nhất. Giá trị k lớn hơn làm giảm khả năng thay đổi này, nhưng việc làm cho k quá lớn sẽ dẫn đến sai lệch trong các quyết định phân loại. Ví dụ: nếu k là số lượng của toàn bộ tập dữ liệu huấn luyện, tất cả các bản ghi sẽ được phân loại theo cùng một cách. Giống như các hằng số làm mịn cho dự báo làm mịn trung bình động hoặc hàm mũ, một số thử nghiệm là cần thiết để tìm giá trị tốt nhất của k nhằm giảm thiểu tỷ lệ phân loại sai trong dữ liệu xác thực. Công cụ khai thác XL cung cấp khả năng chọn giá trị tối đa cho k và đánh giá hiệu suất của thuật toán trên tất cả các giá trị của k cho đến giá trị tối đa được chỉ định. Thông thường, các giá trị của k từ 1 đến 20 được sử dụng, tùy thuộc vào kích thước của tập dữ liệu và các số lẻ thường được sử dụng để tránh ràng buộc trong việc tính toán phân loại đa số của các lân cận gần nhất. VÍ DỤ 10.10 Phân loại quyết định tín dụng bằng thuật toán k-NN Đầu tiên, phân vùng dữ liệu trong Quyết định phê duyệt tín dụng giá trị của k cho đến giá trị tối đa được chỉ định và việc chấm điểm được Tệp Excel được mã hóa thành tập dữ liệu huấn luyện và xác thực, như được thực hiện trên những mô hình tốt nhất này. Trong ví dụ này, chúng tôi đặt mô tả trong Ví dụ 10.8. Tiếp theo, chọn Phân loại từ nhóm Khai thác dữ k = 5 và đánh giá tất cả các mô hình từ k = 1 đến 5. liệu XLMiner và chọn k-Hàng xóm gần nhất. Trong hộp thoại như trong Hình Đầu ra của thuật toán k-NN được hiển thị trong một trang tính riêng 10.25, đảm bảo rằng trang tính Nguồn dữ liệu khớp với tên của trang tính biệt (xem Hình 10.27) và các phần khác nhau của đầu ra có thể được điều với phần dữ liệu, không phải dữ liệu gốc. Di chuyển các biến đầu vào (biến hướng bằng cách sử dụng thanh Điều hướng đầu ra ở đầu trang tính bằng cách dự đoán) và biến đầu ra (biến được phân loại) vào các ô thích hợp bằng cách nhấp vào tiêu đề được đánh dấu. Nhật ký lỗi xác thực (xem các hàng 38–45) sử dụng các nút mũi tên. Nhấp vào Tiếp theo để tiếp tục. cho các k khác nhau liệt kê các lỗi phần trăm đối với tất cả các giá trị của k đối với tập dữ liệu xác thực và huấn luyện và chọn giá trị đó là k tốt nhất để xác thực lỗi phần trăm là nhỏ nhất. Trong hộp thoại thứ hai (xem Hình 10.26), chúng tôi khuyên bạn nên chọn hộp Chuẩn hóa dữ liệu đầu vào. Bình thường hóa dữ liệu là điều quan Việc chấm điểm được thực hiện sau đó sử dụng giá trị tốt nhất này của k. trọng để đảm bảo rằng phép đo khoảng cách mang lại trọng số bằng nhau cho Quan tâm đặc biệt là báo cáo chấm điểm Dữ liệu đào tạo (hàng 48–62), mỗi biến; không chuẩn hóa thì biến nào có thang đo lớn nhất sẽ chiếm ưu báo cáo này kiểm tra các phân loại thực tế và được tính toán khi mô hình thế trong phép đo. Trong trường bên dưới, nhập giá trị của k. Trong phần được áp dụng cho dữ liệu đào tạo. Tùy chọn chấm điểm, nếu bạn chọn Điểm trên giá trị được chỉ định của k như Số lượng phân loại chính xác nằm dọc theo đường chéo từ phía trên bên trên, đầu ra được hiển thị bằng cách cho điểm trên giá trị được chỉ định trái xuống phía dưới bên phải trong Ma trận nhầm lẫn phân loại. Trong của k. Nếu bạn chọn Điểm trên k tốt nhất giữa 1 và giá trị được chỉ định, trường hợp này, có 2 lần phân loại sai, với tỷ lệ lỗi chung của phần Báo XLMiner sẽ đánh giá các mô hình cho tất cả các giá trị cáo. 2 hoặc 6,67% như trong Lỗi 30 Machine Translated by Google 322 Chương 10 Giới thiệu về khai phá dữ liệu Hình 10.25 Hộp thoại k-NN, Bước 1/2 Hình 10.26 Hộp thoại k-NN, Bước 2/2 VÍ DỤ 10.11 Phân loại dữ liệu mới bằng k-NN Chúng tôi sử dụng cơ sở dữ liệu Mã hóa quyết định phê duyệt chọn trang tính Dữ liệu bổ sung trong Trang tính tín dụng mà chúng tôi đã sử dụng trong Ví dụ 10.9 để phân loại trường và đánh dấu phạm vi của dữ liệu mới trong trường Phạm dữ liệu mới. Trước tiên, hãy phân vùng dữ liệu hoặc sử dụng vi dữ liệu, bao gồm cả tiêu đề. Bởi vì chúng tôi sử dụng các trang tính Data_Partition1 đã được phân tích trong ví dụ tiêu đề giống nhau, hãy nhấp vào Khớp (các) biến có cùng tên; trước. Ở Bước 2 của quy trình k-NN (xem Hình 10.26), chuẩn hóa điều này dẫn đến hộp thoại như trong Hình 10.28. Bấm OK rồi dữ liệu đầu vào và đặt số hàng xóm gần nhất (k) thành 2, vì bấm Kết thúc trong hộp thoại Bước 2. Hình 10.29 cho thấy kết đây là giá trị tốt nhất được xác định trong ví dụ trước. quả. Hồ sơ thứ nhất, thứ ba và thứ sáu được phân loại là “Đã Sau đó, nhấp vào In worksheet trong ngăn Score new data của phê duyệt”. hộp thoại. Trong hộp thoại Khớp các biến trong phạm vi mới, Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.27 Đầu ra k-NN Hình 10.28 Kết hợp các biến trong cái mới Hộp thoại phạm vi để chấm điểm Dữ liệu mới 323 Machine Translated by Google 324 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.29 Thủ tục k-NN Phân loại mới Dữ liệu Phân tích biệt thức Phân tích phân biệt là một kỹ thuật để phân loại một tập hợp các quan sát thành các lớp được xác định trước. Mục đích là để xác định lớp của một quan sát dựa trên một tập hợp các biến dự báo. Dựa trên tập dữ liệu huấn luyện, kỹ thuật này xây dựng một tập hợp các hàm tuyến tính của các yếu tố dự đoán, được gọi là hàm phân biệt, có dạng: B1X1 + b2X2 + _ c + bnXn + c (10.2) trong đó bs là trọng số hoặc hệ số phân biệt, X là biến đầu vào hoặc yếu tố dự đoán và c là hằng số hoặc hệ số chặn. Các trọng số được xác định bằng cách tối đa hóa phương sai giữa các nhóm so với phương sai trong nhóm. Các hàm phân biệt này được sử dụng để dự đoán danh mục của một quan sát mới. Đối với k loại, k chức năng phân biệt được xây dựng. Đối với một quan sát mới, mỗi trong số k hàm phân biệt được đánh giá và quan sát được gán cho lớp i nếu hàm phân biệt thứ i có giá trị cao nhất. VÍ DỤ 10.12 Phân loại quyết định tín dụng sử dụng phân tích phân biệt Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng được mã hóa, trước tiên, hãy phân chia dữ liệu thành các tập huấn luyện và xác nhận, như đã mô tả trước đó. Từ các tùy chọn XLMiner, chọn 2. Sử dụng xác suất trước bằng nhau. Tùy chọn này giả định rằng tất cả các danh mục xảy ra với xác suất như nhau. 3. Xác suất trước do người dùng chỉ định. Tùy chọn này Phân tích phân biệt từ menu Phân loại trong nhóm Khai thác dữ liệu. chỉ khả dụng nếu biến đầu ra có hai loại. Hộp thoại đầu tiên xuất hiện được hiển thị trong Hình 10.30. Nếu bạn có thông tin về xác suất mà một quan sát sẽ thuộc Đảm bảo trang tính được chỉ định là trang tính có phân vùng dữ về một danh mục cụ thể (bất kể mẫu huấn luyện là gì) thì liệu. Chỉ định các biến đầu vào và biến đầu ra. bạn có thể chỉ định các giá trị xác suất cho hai danh mục. Loại “thành công” tương ứng với giá trị kết quả mà bạn coi là thành công—trong trường hợp này là phê duyệt khoản vay mà chúng tôi đã chỉ định giá trị 1. Khả năng xác suất ngưỡng mặc định là 0,5 và giá trị này thường được sử dụng. Hộp thoại thứ hai được hiển thị trong Hình 10.31. dis quy trình phân tích chất tạo tội phạm kết hợp các giả định trước đó về tần suất xuất hiện của các loại khác nhau. Ba tùy chọn có sẵn: 1. Theo sự xuất hiện tương đối trong dữ liệu huấn luyện. Hộp thoại này cũng cho phép bạn chỉ định chi phí phân loại sai khi có hai loại. Nếu chi phí của hai nhóm bằng nhau, thì phương pháp này sẽ cố gắng phân loại sai số lượng quan sát ít nhất trong tất cả các nhóm. Nếu chi phí phân loại sai là không bằng nhau, XLMiner xem xét các chi phí tương đối và cố gắng phù hợp với một mô hình giúp giảm thiểu tổng chi phí của việc phân loại sai. Hộp thoại thứ ba (Hình 10.32) cho phép bạn chỉ định các Tùy chọn này giả định rằng xác suất gặp phải một danh tùy chọn đầu ra. Chúng bao gồm một số thống kê nâng cao trong mục cụ thể giống như tần suất xảy ra trong dữ liệu huấn quá trình hình thành và các báo cáo chi tiết hơn; chúng tôi sẽ luyện. chỉ tạo các báo cáo tóm tắt cho dữ liệu đào tạo và xác thực. Machine Translated by Google 325 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.33 cho thấy các chức năng phân loại (phân biệt) cho hai loại. Đối với loại 1 (phê duyệt hồ sơ vay), hàm phân biệt là L(1) = Ví dụ, đối với bản ghi đầu tiên trong cơ sở dữ liệu, L(1) = 137,48 + 32,295 × chủ nhà + 0,286 × điểm tín dụng + 0,833 × lịch sử tín dụng + 0,00010274 × số dư quay vòng + 128,248 × sử dụng quay vòng 137,48 + 32,295 × 1 + 0,286 × 725 + 0,833 × 20 + 0,00010274 × $11.320 + 128,248 × 0,25 = 152,05 L(0) = 157,2 + 30,747 × 1 + 0,289 × 725 + 0,473 × 20 + 0,0004716 × 11.320 + 167,7 × 0,25 = 139,80 Đối với loại 0 (từ chối đơn xin vay), hàm phân biệt là Do đó, bản ghi này sẽ được gán cho loại 1. L(0) = liệu huấn luyện và xác nhận. Chúng tôi thấy rằng có một tỷ Hình 10.34 hiển thị các báo cáo chấm điểm cho tập dữ 157,2 + 30,747 × chủ nhà + 0,289 × điểm tín dụng + 0,473 × lịch sử tín dụng + 0,0004716 × số dư quay vòng + 167,7 × sử dụng quay vòng Hình 10.30 Hộp thoại phân tích phân biệt đối xử, Bước 1 Hình 10.31 Hộp thoại phân tích phân biệt đối xử, Bước 2 lệ phân loại sai trên tất cả là 15%. Machine Translated by Google 326 Hình 10.32 Hộp thoại phân tích phân biệt đối xử, Bước 3 Hình 10.33 Phân tích biệt thức Kết quả—Phân loại Chức năng Hình 10.34 Phân tích biệt thức Kết quả—Đào tạo và Dữ liệu xác thực Chương 10 Giới thiệu về khai thác dữ liệu Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 327 VÍ DỤ 10.13 Sử dụng Phân tích Phân biệt để Phân loại Dữ liệu Mới Chúng tôi sẽ sử dụng cơ sở dữ liệu Quyết định phê duyệt tín dụng trường Phạm vi dữ liệu bao gồm các tiêu đề. Bởi vì chúng tôi sử dụng được mã hóa mà chúng tôi đã giới thiệu trước đó để phân loại dữ liệu mới. các tiêu đề giống nhau, hãy nhấp vào Khớp (các) biến có cùng tên. Nhấp Thực hiện theo quy trình tương tự như trong Ví dụ 10.12. Tuy nhiên, vào OK và sau đó nhấp vào Kết thúc trong nhật ký bước 3. XLMiner tạo trong hộp thoại cho Bước 3 (xem Hình 10.32), bấm vào Báo cáo chi một trang tính mới có nhãn DA_New Score, được hiển thị trong Hình tiết trong ngăn Điểm dữ liệu mới trong Bảng tính của hộp thoại. Hộp 10.35, cung cấp phân loại dự đoán cho mỗi bản ghi mới. Các hồ sơ 1, thoại tương tự, Khớp các biến trong phạm vi mới, mà chúng ta đã thấy 3, 6 được xếp vào loại 1 (chấp nhận hồ sơ) và các hồ sơ còn lại trong Ví dụ 10.11, xuất hiện (xem Hình 10.28). Chọn trang tính Dữ được xếp vào loại 0 (từ chối hồ sơ). liệu bổ sung trong trường Trang tính và đánh dấu phạm vi dữ liệu mới trong Giống như nhiều thủ tục thống kê, phân tích phân biệt đòi hỏi một số giả định nhất định, chẳng hạn như tính quy tắc của các biến độc lập cũng như các giả định khác, để áp dụng đúng. Giả định về tính quy tắc thường bị vi phạm trong thực tế, nhưng phương pháp này thường mạnh mẽ đối với các vi phạm giả định. Kỹ thuật tiếp theo, được gọi là hồi quy logistic, không dựa trên các giả định này, khiến nó được nhiều người thực hành phân tích ưa thích. Hồi quy logistic Trong Chương 8, chúng ta đã nghiên cứu về hồi quy tuyến tính, trong đó biến phụ thuộc là liên tục và là số. Hồi quy logistic là một biến thể của hồi quy thông thường trong đó biến phụ thuộc là phân loại. Các biến độc lập có thể là liên tục hoặc phân loại, như trong trường hợp hồi quy tuyến tính thông thường. Tuy nhiên, trong khi hồi quy tuyến tính đa biến tìm cách dự đoán giá trị bằng số của biến phụ thuộc Y dựa trên giá trị của các biến phụ thuộc, hồi quy logistic tìm cách dự đoán xác suất mà biến đầu ra sẽ rơi vào một danh mục dựa trên giá trị của các biến độc lập (bộ dự báo). Xác suất này được sử dụng để phân loại một quan sát thành một danh mục. Hồi quy logistic thường được sử dụng khi biến phụ thuộc là nhị phân—nghĩa là nhận hai giá trị 0 hoặc 1, như trong ví dụ về quyết định phê duyệt tín dụng mà chúng ta đang sử dụng, trong đó Y 1 nếu khoản vay được phê duyệt và Y 0 nếu nó bị từ chối. Tình huống này rất phổ biến trong nhiều tình huống kinh doanh khác, chẳng hạn như khi chúng tôi muốn phân loại khách hàng là người mua hay người không mua hoặc giao dịch thẻ tín dụng là gian lận hay không. Hình 10.35 Phân tích biệt thức Phân loại mới Dữ liệu Machine Translated by Google 328 Chương 10 Giới thiệu về khai thác dữ liệu Để phân loại một quan sát bằng hồi quy logistic, trước tiên chúng tôi ước tính xác suất p rằng nó thuộc loại 1, P1Y 12 và do đó, xác suất 1 - p rằng nó thuộc loại 0, P1Y 02. Sau đó, chúng tôi sử dụng giá trị ngưỡng, thường là 0,5, để so sánh p và phân loại quan sát thành một trong hai loại. Chẳng hạn, nếu p 7 0,5 thì quan sát được xếp vào loại 1; nếu không nó sẽ được xếp vào loại 0. Bạn có thể nhớ lại ở Chương 8 rằng một mô hình hồi quy tuyến tính bội có dạng Y b0 + b1X1 + b2X2 + g+ bkXk . Trong hồi quy logistic, chúng tôi sử dụng một biến phụ thuộc khác, được gọi là logit, là logarit tự nhiên của p 11 - p2. Như vậy, dạng của một mô hình hồi quy logistic là ln P b0 + b1X1 + b2X2 + g+ bkXk 1 - p (10.3) trong đó p là xác suất để biến phụ thuộc Y 1, và X1 , X2 , c, Xk là các biến độc lập (các biến dự báo). Các tham số b0 , b1 , b2 ,c, bk là các hệ số hồi quy chưa biết, phải được ước tính từ dữ liệu. Tỷ lệ p 11 - p2 được gọi là tỷ lệ cược thuộc loại 1 1Y 12. Đây là một khái niệm phổ biến trong cờ bạc. Ví dụ: nếu xác suất thắng một trò chơi là p 0,2, thì 1 - p 1 0,8, do đó, tỷ lệ thắng là 0,2 0,8 hoặc một phần tư. Nghĩa là, 4trung bình bạn sẽ thắng một lần trong bốn lần bạn thua. Logit liên tục trong khoảng từ - ∞ đến + ∞ và từ phương trình (10.3) là một hàm tuyến tính của các biến dự báo. Các giá trị của biến dự đoán này sau đó được chuyển đổi thành các khả năng thăm dò bằng một hàm hậu cần: P 1 1 + e-1b0+b1X1+b2X2+c+bkXk 2 (10.4) VÍ DỤ 10.14 Phân loại Quyết định Phê duyệt Tín dụng Sử dụng Hồi quy logistic Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng được mã hóa, các biến độc lập không đáng kể. Hình 10.38 hiển thị hộp thoại. Một trước tiên, hãy phân vùng dữ liệu thành các tập xác nhận và đào số tùy chọn có sẵn cho quy trình lựa chọn mà thuật toán sử dụng để tạo. Trong XLMiner, chọn Hồi quy logistic từ menu Phân loại trong chọn các biến trong mô hình: nhóm Khai thác dữ liệu. Hộp thoại như trong Hình 10.36 xuất hiện, tại đây bạn cần chỉ định phạm vi dữ liệu, các biến đầu vào và biến đầu ra. Loại bỏ ngược: Các biến được loại bỏ từng biến một, Lớp “thành công” tương ứng với giá trị kết quả mà bạn coi là thành bắt đầu từ biến ít quan trọng nhất. công—trong trường hợp này là phê duyệt khoản vay mà chúng tôi đã chỉ Lựa chọn chuyển tiếp: Các biến được thêm vào từng biến định giá trị 1. Hộp thoại hồi quy logistic thứ hai được hiển thị trong Hình một, bắt đầu với biến quan trọng nhất. Tìm kiếm toàn diện: Tất cả các kết hợp của các biến 10.37. Bạn có thể chọn buộc số hạng không đổi bằng 0 và loại bỏ nó được tìm kiếm cho phù hợp nhất (có thể khá tốn thời khỏi hồi quy. Bạn cũng có thể thay đổi mức độ tin cậy cho khoảng tin gian, tùy thuộc vào số lượng biến). cậy được hiển thị trong kết quả cho tỷ lệ chênh lệch. Thông thường, điều này được đặt thành 95%. Nút Nâng cao cho phép bạn thay đổi hoặc Thay thế tuần tự: Đối với một số biến nhất định, các chọn một số tùy chọn bổ sung; vì mục đích của chúng tôi, chúng tôi biến được thay thế tuần tự và các thay thế cải thiện để những thứ này một mình. hiệu suất sẽ được giữ lại. Nút Tập hợp con tốt nhất cho phép XLMiner đánh giá tất cả các Lựa chọn từng bước: Giống như lựa chọn chuyển tiếp, mô hình có thể có với tập hợp con của các biến độc lập. Điều này rất nhưng ở mỗi giai đoạn, các biến có thể được loại bỏ hữu ích trong việc lựa chọn các mô hình loại bỏ hoặc thêm vào. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 329 Hình 10.36 Hồi quy logistic Đối thoại, Bước 1 Mỗi tùy chọn có thể mang lại kết quả khác nhau, vì vậy, bạn nên ables (cộng với hằng số). Chúng tôi có thể sử dụng bất kỳ mô hình thử nghiệm với các tùy chọn khác nhau. Đối với mục đích của chúng nào trong số này để phân tích thêm bằng cách nhấp vào liên kết tôi, chúng tôi sẽ sử dụng các giá trị mặc định trong hộp thoại này. “Chọn tập hợp con” tương ứng trong cột đầu tiên. Thao tác này Hình 10.39 hiển thị hộp thoại thứ ba. Kiểm tra các tùy chọn thích hợp. Đối với các vấn đề đơn giản, các báo cáo tóm tắt để cho điểm dữ liệu đào tạo và xác nhận là đủ. sẽ trả về trình tự các hộp thoại để phân loại dữ liệu huấn luyện và xác thực chỉ sử dụng tập biến cụ thể đó. Việc lựa chọn mô hình tốt nhất phụ thuộc vào giá trị tính Đầu ra hồi quy logistic được hiển thị trên một trang tính mới và bạn có thể sử dụng liên kết Bộ điều hướng đầu ra để hiển toán của các giá trị lỗi khác nhau và xác suất. RSS là tổng bình phương còn lại hoặc tổng bình phương độ lệch thị các phần khác nhau của trang tính. Hình 10.40 cho thấy mô hình giữa xác suất thành công được dự đoán và giá trị thực tế (1 hoặc hồi quy và đầu ra tập hợp con tốt nhất. Đầu ra chứa các hệ số 0). Cp là thước đo sai số trong mô hình tập hợp con tốt nhất, liên beta, sai số chuẩn của chúng, giá trị p, tỷ lệ chênh lệch cho từng quan đến sai số kết hợp tất cả các biến. Các mô hình phù hợp là biến (đơn giản là những mô hình mà Cp x, trong đó x là giá trị của hệ số) và confi gần bằng với số lượng tham số trong mô hình (bao gồm cả hằng số) dence khoảng thời gian cho các tỷ lệ cược. Thống kê tóm tắt ở bên và/hoặc Cp ở mức tối thiểu. phải cho thấy bậc tự do còn lại (số lượng quan sát Xác suất là phép thử gần như giả thuyết của mệnh đề rằng một tập số lượng yếu tố dự đoán), thước đo loại độ lệch chuẩn (Độ lệch dư) cho mô hợp con đã cho là chấp nhận được; nếu Xác suất * 0,05 hình (thường có phân phối chi-square), tỷ lệ phần trăm của thành chúng ta có thể loại trừ tập hợp con đó. Trong ví dụ này, có rất ít công (1 giây) trong dữ liệu huấn luyện, số lần lặp lại cần thiết để sự khác biệt trong RSS, nhưng các giá trị của Cp và Xác suất có phù hợp với mô hình và giá trị bình phương R bội. thể khiến chúng ta chọn mô hình đầy đủ. Nếu chúng tôi chọn tùy chọn tập hợp con tốt nhất, thì XLMiner Các báo cáo tóm tắt đào tạo và xác nhận được hiển thị trong hiển thị các biến được bao gồm trong các tập hợp con. Trong Hình Hình 10.41. Chúng tôi thấy rằng tất cả các trường hợp đều được 10.40, chúng ta có tập con tốt nhất của một biến (cộng với hằng phân loại chính xác cho dữ liệu đào tạo và có tỷ lệ lỗi trên tất số), cho đến tập con tốt nhất cho cả năm biến cả là 10% đối với dữ liệu xác thực. Machine Translated by Google 330 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.37 Hộp thoại hồi quy logistic, Bước 2 Hình 10.38 Hồi quy logistic tốt nhất Hộp thoại lựa chọn tập hợp con Hình 10.39 Hộp thoại hồi quy logistic, Bước 3 VÍ DỤ 10.15 Sử dụng hồi quy logistic để phân loại dữ liệu mới Chúng tôi sử dụng cơ sở dữ liệu Mã hóa quyết định phê duyệt Thông tin trong hộp thoại Khớp (các) biến có cùng tên phải tín dụng có chứa dữ liệu mới. Đầu tiên, phân vùng dữ liệu hoặc giống như trong các ví dụ trước (xem Hình 10.28). Sau khi sử dụng trang tính phân vùng dữ liệu hiện có đã được phân bạn quay lại hộp thoại Bước 3, bấm Kết thúc. XLMiner tạo một tích trong ví dụ trước. Trong Bước 3 của quy trình hồi quy trang tính mới có tên là LR_NewScore được hiển thị trong logistic (xem Hình 10.39), nhấp vào Trong trang tính trong Hình 10.42 cung cấp phân loại dự đoán cho mỗi bản ghi mới. ngăn Dữ liệu mới của hộp thoại. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 331 Hình 10.40 Mô hình hồi quy logistic và đầu ra tập hợp con tốt nhất Hình 10.41 Hồi quy logistic Dữ liệu đào tạo và xác nhận tóm tắt Khai thác quy tắc hiệp hội Khai thác quy tắc kết hợp, thường được gọi là phân tích mối quan hệ, tìm cách phát hiện ra các mối quan hệ thú vị như các mối quan hệ xã hội và/hoặc tương quan giữa các tập hợp dữ liệu lớn. Các quy tắc kết hợp xác định các thuộc tính xuất hiện thường xuyên cùng nhau trong một tập dữ liệu nhất định. Một ví dụ điển hình và được sử dụng rộng rãi về khai phá luật kết hợp là phân tích rổ thị trường. Ví dụ, các siêu thị thường xuyên thu thập dữ liệu bằng máy quét mã vạch. Mỗi bản ghi liệt kê tất cả các mặt hàng đã mua Machine Translated by Google 332 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.42 Hồi quy logistic Phân loại mới Dữ liệu bởi một khách hàng cho một giao dịch mua một lần. Cơ sở dữ liệu như vậy bao gồm một số lượng lớn các hồ sơ giao dịch. Các nhà quản lý sẽ muốn biết liệu một số nhóm mặt hàng nhất định có được mua cùng nhau một cách nhất quán hay không. Họ có thể sử dụng những dữ liệu này để điều chỉnh bố cục cửa hàng (đặt các mặt hàng một cách tối ưu so với nhau), để bán chéo, khuyến mãi, thiết kế danh mục và để xác định phân khúc khách hàng dựa trên các kiểu mua hàng. Ví dụ, khai thác quy tắc kết hợp là cách các công ty như Netflix và Amazon.com đưa ra đề xuất dựa trên các lần thuê phim hoặc mua hàng trước đây. VÍ DỤ 10.16 Cấu hình máy tính tùy chỉnh Hình 10.43 cho thấy một phần của dữ liệu mua máy PC trong tệp lựa chọn. Nếu nhà sản xuất có thể hiểu rõ hơn những loại linh Excel. Dữ liệu đại diện cho các cấu hình cho một số lượng nhỏ kiện nào thường được đặt hàng cùng nhau, thì nhà sản xuất có đơn đặt hàng máy tính xách tay được đặt qua Web. thể tăng tốc quá trình lắp ráp cuối cùng bằng cách đặt máy tính Các tùy chọn chính mà khách hàng có thể chọn là loại bộ xử lý, xách tay đã hoàn thiện một phần với các tổ hợp linh kiện phổ kích thước màn hình, bộ nhớ và ổ cứng. “1” có nghĩa là một khách biến nhất được định cấu hình trước khi đặt hàng, nhờ đó giảm hàng đã chọn một thời gian giao hàng và cải thiện sự hài lòng của khách hàng. Hình 10.43 Một phần dữ liệu mua máy tính tệp Excel Machine Translated by Google 333 Chương 10 Giới thiệu về khai thác dữ liệu Các luật kết hợp cung cấp thông tin dưới dạng câu lệnh if-then. Các quy tắc này được tính toán từ dữ liệu, nhưng không giống như các quy tắc logic nếu-thì, các quy tắc kết hợp có bản chất xác suất. Trong phân tích liên kết, tiền đề (phần “nếu”) và hệ quả (phần “thì”) là các tập hợp các phần tử (được gọi là các tập phần tử) rời rạc (không có bất kỳ phần tử chung nào). Để đo độ mạnh của liên kết, một luật kết hợp có hai con số thể hiện mức độ không chắc chắn của luật. Số đầu tiên được gọi là độ hỗ trợ cho quy tắc (kết hợp). Độ hỗ trợ chỉ đơn giản là số lượng giao dịch bao gồm tất cả các mục trong các phần trước và sau của quy tắc. (Độ hỗ trợ đôi khi được biểu thị bằng tỷ lệ phần trăm của tổng số bản ghi trong cơ sở dữ liệu.) Một cách nghĩ về độ hỗ trợ là xác suất mà một giao dịch được chọn ngẫu nhiên từ cơ sở dữ liệu sẽ chứa tất cả các mục trong tiền đề và hậu quả. . Số thứ hai là độ tin cậy của quy tắc (hiệp hội). Độ tin cậy là tỷ lệ giữa số lượng giao dịch bao gồm tất cả các mục trong phần hậu quả cũng như phần trước (cụ thể là hỗ trợ) với số lượng giao dịch bao gồm tất cả các phần tử trong phần trước. Độ tin cậy là xác suất có điều kiện mà một giao dịch được chọn ngẫu nhiên sẽ bao gồm tất cả các mục trong hệ quả nếu giao dịch đó bao gồm tất cả các mục trong tiền đề: độ tin cậy P (tiền đề hệ quả) P1 tiền đề và hậu quả2 P1tiền thân2 (10,5) Độ tin cậy càng cao, chúng ta càng tin rằng luật kết hợp cung cấp thông tin hữu ích. Một thước đo khác về sức mạnh của luật kết hợp là độ nâng, được định nghĩa là tỷ lệ giữa độ tin cậy và độ tin cậy dự kiến. Độ tin cậy kỳ vọng là số lượng giao dịch bao gồm hệ quả chia cho tổng số lượng giao dịch. Độ tin cậy kỳ vọng giả định sự độc lập giữa hệ quả và tiền đề. Thang máy cung cấp thông tin về sự gia tăng xác suất của thì (hậu quả) cho phần if (tiền đề). Tỷ lệ thang máy càng cao, quy tắc kết hợp càng mạnh; một giá trị lớn hơn 1,0 thường là một mức tối thiểu tốt. VÍ DỤ 10.17 Đo lường Độ bền của Liên kết Giả sử rằng một cơ sở dữ liệu siêu thị có 100.000 giao dịch 800 giao dịch (tương đương 0,8% = 800 100.000) và độ tin tại điểm bán hàng, trong đó 2.000 giao dịch bao gồm cả mặt cậy là 40% (= 800 2.000). Giả sử tổng số giao dịch của C là hàng A và B và 800 giao dịch trong số này bao gồm mặt hàng 5.000. Khi đó, độ tin cậy kỳ vọng là 5.000 100.000 = 5% và độ C. Quy tắc kết hợp “Nếu A và B được mua theo đuổi, thì C nâng = độ tin cậy Độ tin cậy kỳ vọng = 40% 5% = 8. cũng được mua ” có sự hỗ trợ của Tiếp theo, chúng tôi minh họa cách XLMiner được sử dụng cho dữ liệu mua PC. Machine Translated by Google 334 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.44 Hộp thoại quy tắc hiệp hội VÍ DỤ 10.18 Xác định quy tắc kết hợp cho dữ liệu mua máy tính Trong XLMiner, chọn Quy tắc kết hợp từ menu Liên kết trong các giá trị sẽ dẫn đến nhiều quy tắc có thể khó diễn giải. nhóm Khai thác dữ liệu. Trong hộp thoại được hiển thị trong Chúng tôi đã chọn 80%. Hình 10.44, chỉ định phạm vi dữ liệu sẽ được xử lý, định dạng dữ liệu đầu vào mong muốn và các yêu cầu của bạn về mức Hình 10.45 cho thấy kết quả. Quy tắc 1 quy định rằng nếu khách hàng mua màn hình 15 inch với bộ xử lý Intel Core i7, độ hỗ trợ và quy tắc tin cậy phải được báo cáo. thì ổ cứng 750 GB cũng được mua. Nếu bạn bấm vào bất kỳ đâu Hai tùy chọn đầu vào có sẵn: trong hàng cho một quy tắc, quy tắc đó sẽ được hiển thị 1. Dữ liệu ở định dạng ma trận nhị phân: Chọn tùy chọn này nếu mỗi cột trong dữ liệu đại diện cho một mục riêng biệt và dữ liệu được biểu thị bằng 0 và 1. Tất cả các giá trị khác không được coi là 1 giây. Số 0 dưới tên biến có nghĩa là mặt hàng đó không có trong giao dịch đó và số 1 có nghĩa là mặt hàng đó có mặt. 2. Dữ liệu ở định dạng danh sách mặt hàng: Chọn tùy chọn này nếu mỗi hàng dữ liệu bao gồm mã mặt hàng hoặc tên có mặt trong giao dịch đó. Trong ngăn Tham số, hãy chỉ định số lượng giao dịch tối thiểu mà một bộ mục cụ thể phải xuất hiện để đủ điều kiện đưa trong hộp phía trên bảng, như trong Hình 10.46. Quy tắc cụ thể này có độ tin cậy 100%, nghĩa là những người đã mua màn hình 15 inch và bộ xử lý core i7, tất cả (100%) đều mua ổ cứng 750 GB. Giá trị trong cột Hỗ trợ (a) cho biết nó hỗ trợ 5 giao dịch, nghĩa là 5 khách hàng đã mua màn hình 15 inch và bộ xử lý core i7. Giá trị trong cột Hỗ trợ (c) cho biết tổng số giao dịch liên quan đến việc mua quyền chọn. Giá trị trong cột Hỗ trợ 1a h c2 là số lượng giao dịch trong đó màn hình 15 inch, Intel Core i7 và ổ cứng 750 GB đã được vào quy tắc kết hợp trong trường Hỗ trợ tối thiểu (# giao đặt hàng. Giá trị trong cột Tỷ lệ nâng cho biết khả năng chúng dịch). Đối với tập dữ liệu nhỏ, như trong ví dụ này, chúng tôi gặp phải giao dịch 750 GB cao hơn bao nhiêu nếu chúng tôi đặt số này là 5. Trong trường Độ tin cậy tối thiểu (%) , tôi chỉ xem xét những giao dịch mua màn hình 15 inch và Intel chỉ định ngưỡng độ tin cậy tối thiểu để tạo quy tắc. Nếu giá Core i7, so với toàn bộ giao dịch. trị này được đặt quá cao, thuật toán có thể không tìm thấy bất kỳ luật kết hợp nào; thấp Mô hình nhân quả Các nhà quản lý luôn quan tâm đến kết quả, chẳng hạn như lợi nhuận, sự hài lòng và giữ chân khách hàng, năng suất sản xuất, v.v. Các thước đo hoặc kết quả trễ cho biết điều gì đã xảy ra và thường là kết quả kinh doanh bên ngoài, chẳng hạn như lợi nhuận, thị phần hoặc mức độ hài lòng của khách hàng. Các thước đo hàng đầu (trình điều khiển hiệu suất) dự đoán điều gì sẽ xảy ra và thường là các thước đo nội bộ, chẳng hạn như sự hài lòng của nhân viên, năng suất, doanh thu, v.v. Machine Translated by Google Chương 10 Giới thiệu về khai thác dữ liệu 335 Hình 10.45 Kết quả Hiệp hội cho PC Dữ liệu mua hàng Hình 10.46 Hiển thị Quy tắc #1 Ví dụ, kết quả hài lòng của khách hàng liên quan đến giao dịch bán hàng hoặc dịch vụ sẽ là thước đo trễ; sự hài lòng của nhân viên, hành vi của đại diện bán hàng, tính chính xác của hóa đơn, v.v., sẽ là những ví dụ về các thước đo hàng đầu có thể ảnh hưởng đến sự hài lòng của khách hàng. Nếu nhân viên không hài lòng, hành vi của họ đối với khách hàng có thể bị ảnh hưởng tiêu cực và sự hài lòng của khách hàng có thể thấp. Nếu điều này có thể được giải thích bằng cách sử dụng phân tích kinh doanh, các nhà quản lý có thể thực hiện các bước để cải thiện sự hài lòng của nhân viên, dẫn đến sự hài lòng của khách hàng được cải thiện. Do đó, điều quan trọng là phải hiểu những yếu tố có thể kiểm soát nào ảnh hưởng đáng kể đến các biện pháp đo lường hiệu quả kinh doanh chính mà các nhà quản lý không thể kiểm soát trực tiếp. Phân tích tương quan có thể giúp xác định những ảnh hưởng này và dẫn đến sự phát triển của các mô hình nguyên nhân và kết quả có thể giúp các nhà quản lý đưa ra quyết định tốt hơn hôm nay sẽ ảnh hưởng đến kết quả vào ngày mai. Nhớ lại ở Chương 4 rằng tương quan là thước đo mối quan hệ tuyến tính giữa hai biến. Giá trị cao của hệ số tương quan cho thấy mối quan hệ chặt chẽ giữa các biến. Ví dụ sau đây cho thấy mối tương quan có thể hữu ích như thế nào trong mô hình nguyên nhân và kết quả. Machine Translated by Google 336 Chương 10 Giới thiệu về khai thác dữ liệu VÍ DỤ 10.19 Sử dụng mối tương quan cho mô hình nguyên nhân và kết quả Tệp Excel Khảo sát 10 năm cho thấy kết quả của 40 cuộc khảo sát sự hài lòng của nhân viên với người giám sát của họ, và nhận hàng quý được thực hiện bởi một nhà sản xuất thiết bị điện tử thức của nhân viên về đào tạo và nâng cao kỹ năng. lớn, một phần trong số đó được thể hiện trong Hình 10.47.6 . phe hài lòng của nhân viên, sự hài lòng của nhân viên trong công việc, Mặc dù phân tích tương quan không chứng minh được bất kỳ nguyên nhân và kết quả nào, nhưng chúng ta có thể suy luận một sự hài lòng của nhân viên với người giám sát của họ, và nhận thức cách logic rằng có tồn tại mối quan hệ nhân quả. Dữ liệu chỉ ra của nhân viên về đào tạo và nâng cao kỹ năng. Hình 10.48 cho thấy rằng sự hài lòng của khách hàng, kết quả kinh doanh bên ngoài quan ma trận tương quan. Tất cả các mối tương quan ngoại trừ mối trọng, bị ảnh hưởng mạnh mẽ bởi các yếu tố bên trong thúc đẩy sự tương quan giữa sự hài lòng trong công việc và sự hài lòng của hài lòng của nhân viên. Về mặt logic, chúng ta có thể đề xuất mô khách hàng đều tương đối mạnh, với mối tương quan cao nhất giữa hình như trong Hình 10.49. Điều này cho thấy rằng nếu các nhà sự hài lòng của nhân viên nói chung và sự hài lòng trong công việc quản lý muốn cải thiện sự hài lòng của khách hàng, họ cần bắt của nhân viên, đầu bằng việc đảm bảo mối quan hệ tốt giữa người giám sát và nhân viên của họ, đồng thời tập trung vào việc cải thiện đào tạo và kỹ năng. Hình 10.47 Một phần dữ liệu khảo sát mười năm Hình 10.48 Ma trận tương quan của dữ liệu khảo sát mười năm 6Dựa trên mô tả về một ứng dụng thực tế của Steven H. Hoisington và Tse-His Huang, “Customer Satisfaction and Market Share: An Empirical Case Study of IBM's AS/400 Division,” trong Earl Naumann và Steven H. Hoisington (eds.) Six Sigma lấy khách hàng làm trung tâm (Milwaukee, WI: ASQ Quality Press, 2001). Tuy nhiên, dữ liệu được sử dụng trong ví dụ này là hư cấu. Machine Translated by Google 337 Chương 10 Giới thiệu về khai thác dữ liệu Hình 10.49 Sự thoả mãn với Người giám sát Mô hình nhân quả Người lao động Công việc Sự hài lòng Sự hài lòng Khách hàng Sự hài lòng Đào tạo và Kỹ năng Sự cải tiến Phân tích trong thực tế: Các ứng dụng kinh doanh thành công khai thác dữ liệu7 Nhiều công ty đã triển khai khai thác dữ liệu thành công. Mặc dù những người sớm chấp nhận công nghệ này có xu hướng tham gia vào các ngành sử dụng nhiều thông tin như dịch vụ tài chính và tiếp thị qua thư trực tiếp, khai thác dữ liệu đã tìm thấy ứng dụng trong bất kỳ công ty nào muốn tận dụng kho dữ liệu lớn để quản lý tốt hơn các mối quan hệ khách hàng của họ. Hai yếu tố quan trọng để thành công với khai thác dữ liệu là kho dữ liệu lớn, được tích hợp tốt và hiểu biết rõ ràng về quy trình kinh doanh áp dụng khai thác dữ liệu Hector Almeida/ Shutterstock.com (chẳng hạn như tìm kiếm khách hàng tiềm năng, giữ chân khách hàng, quản lý chiến dịch, v.v.). Một số lĩnh vực ứng dụng thành công của khai thác dữ liệu bao gồm: Một công ty dược phẩm phân tích hoạt động của lực trong toàn tổ chức để được áp dụng trong các lượng bán hàng gần đây và sử dụng kết quả của họ tình huống bán hàng cụ thể. để cải thiện việc nhắm mục tiêu các bác sĩ có Một công ty thẻ tín dụng tận dụng kho dữ liệu giá trị cao và xác định hoạt động tiếp thị nào sẽ giao dịch khách hàng khổng lồ của mình để xác có tác động lớn nhất trong tương lai gần. Các định những khách hàng có nhiều khả năng quan tâm kết quả được phân phối cho lực lượng bán hàng đến một sản phẩm tín dụng mới. Bằng cách gửi thông qua một mạng diện rộng cho phép những người thư thử nghiệm nhỏ, các thuộc tính của khách đại diện xem xét các khuyến nghị từ quan điểm của hàng có thiện cảm với sản phẩm được xác định. Các dự các thuộc tính quan trọng trong quá trình quyết án gần đây đã chỉ ra rằng chi phí cho các chiến định. Phân tích động, liên tục của kho dữ liệu cho dịch gửi thư mục tiêu đã giảm hơn 20 lần so với phép thực hành tốt nhất từ các phương pháp truyền thống. (còn tiếp) 7Dựa trên Kurt Thearling, “Giới thiệu về khai thác dữ liệu,” Sách trắng từ Thearling.com. http://www.tearling.com/text/dmwhite/dmwhite.htm. Machine Translated by Google 338 Chương 10 Giới thiệu về khai thác dữ liệu Một công ty vận tải đa ngành với lực lượng bán hàng trực các lô hàng và hoạt động của đối thủ cạnh tranh được sử tiếp lớn sử dụng khai thác dữ liệu để xác định triển vọng tốt dụng để hiểu lý do chuyển đổi thương hiệu và cửa hàng. nhất cho các dịch vụ của mình. Sử dụng khai thác dữ liệu để Thông qua phân tích này, nhà sản xuất có thể lựa chọn các phân tích trải nghiệm khách hàng của chính mình, công ty này chiến lược quảng cáo tiếp cận tốt nhất các phân khúc khách hàng xây dựng một phân khúc duy nhất xác định các thuộc tính của mục tiêu của họ. khách hàng tiềm năng có giá trị cao. Áp dụng cách phân khúc này vào cơ sở dữ liệu kinh doanh chung Trong mỗi ví dụ này, các công ty đã tận dụng kiến thức của họ về khách chẳng hạn như cơ sở dữ liệu do Dun & Bradstreet cung hàng để giảm chi phí và nâng cao giá trị của các mối quan hệ khách cấp có thể tạo ra danh sách khách hàng tiềm năng được ưu tiên hàng. Giờ đây, các tổ chức này có thể tập trung nỗ lực vào những theo khu vực. khách hàng và khách hàng tiềm năng quan trọng nhất (có lợi nhuận), Một công ty hàng tiêu dùng đóng gói lớn áp dụng khai đồng thời thiết kế các chiến lược tiếp thị mục tiêu để tiếp cận họ thác dữ liệu để cải thiện quy trình bán hàng của mình một cách tốt nhất. cho các nhà bán lẻ. Dữ liệu từ bảng người tiêu dùng, Điều khoản quan trọng Phương pháp phân cụm kết tụ thuật toán k-hàng xóm gần nhất (k-NN) Khai phá luật kết hợp biện pháp tụt hậu Phân cụm liên kết nhóm trung bình Các biện pháp hàng đầu Cụm liên kết trung bình Thang máy Boxplot Hồi quy logistic ma trận phân loại Nhật ký Phân tích cluster Phân tích rổ thị trường Hoàn thành cụm liên kết tỷ lệ cược Độ tin cậy của quy tắc (hiệp hội) Biểu đồ tọa độ song song Khai thác dữ liệu Ma trận biểu đồ phân tán biểu đồ Cụm liên kết đơn phân tích biệt thức Hỗ trợ cho quy tắc (hiệp hội) chức năng phân biệt Tập dữ liệu huấn luyện Phương pháp phân cụm chia Tập dữ liệu xác thực khoảng cách Euclide cốt truyện biến phân cụm theo thứ bậc Phân cụm theo thứ bậc của Ward vấn đề và bài tập 1. Sử dụng XLMiner để tạo một mẫu ngẫu nhiên đơn giản gồm 10 bản ghi từ Dữ liệu ngân hàng tệp Excel. 2. Sử dụng file Excel Banking Data. 3. Xây dựng biểu đồ tọa độ song song cho Thu nhập trung bình, Giá trị nhà trung bình, Tài sản hộ gia đình trung bình và Số dư ngân hàng trung bình trong Dữ liệu ngân hàng tệp Excel. Bạn có thể rút ra kết luận gì? Một. Xây dựng một biểu đồ hộp cho Thu nhập trung bình, Giá trị nhà trung bình, Tài sản hộ gia đình trung bình và Số dư ngân hàng trung bình. b. Bạn có thể quan sát những gì về những dữ liệu? 4. Xây dựng ma trận biểu đồ phân tán cho Thu nhập trung bình, Giá trị nhà trung bình, Tài sản hộ gia đình trung bình và Số dư ngân hàng trung bình trong Dữ liệu ngân hàng tệp Excel. Bạn có thể rút ra kết luận gì? Machine Translated by Google 339 Chương 10 Giới thiệu về khai thác dữ liệu 5. Xây dựng biểu đồ biến cho tất cả các biến trong tệp Excel Banking Data. 6. Tính khoảng cách Euclide giữa các chỉ điểm tín dụng và số năm lịch sử tín dụng là biến đầu vào. 16. Tệp Excel Dữ liệu rủi ro tín dụng cung cấp cơ sở dữ liệu ing tập hợp các điểm: thông tin về các đơn xin vay cùng với phân loại rủi ro tín Một. (2,5) và (8,4) dụng trong cột L. Chuyển đổi dữ liệu phân loại thành mã số b. 12, -1, 32 và 18, 15, -52 7. Đối với tệp Excel Cao đẳng và Đại học, chuẩn hóa kích phù hợp. Lấy mẫu 200 bản ghi từ tập dữ liệu. Sau đó áp dụng thuật toán k-NN để phân loại tập dữ liệu huấn luyện và xác thực thước từng cột của dữ liệu số (nghĩa là tính điểm z cho cũng như dữ liệu bổ sung trong tệp. Tóm tắt những phát từng giá trị) rồi tính khoảng cách Euclide giữa các trường hiện của bạn. sau: Amherst, Cal Tech và Duke . 17. Tệp Excel Dữ liệu rủi ro tín dụng cung cấp cơ sở dữ liệu thông tin về các đơn xin vay cùng với phân loại rủi ro tín 8. Đối với bốn cụm được xác định trong Ví dụ 10.6, hãy tìm giá trị trung bình và độ lệch chuẩn của mỗi biến số đối dụng trong cột L. Chuyển đổi dữ liệu phân loại thành mã số phù hợp. với các trường trong mỗi cụm và so sánh chúng với giá Lấy mẫu 200 bản ghi từ tập dữ liệu. Sau đó áp dụng phân trị trung bình và độ lệch chuẩn của toàn bộ tập dữ liệu. tích phân biệt để phân loại tập dữ liệu huấn luyện và xác Việc phân cụm có cho thấy sự khác biệt rõ rệt giữa các thực cũng như dữ liệu mới trong tệp. Tóm tắt những phát cụm không? hiện của bạn. 9. Đối với dữ liệu Cao đẳng và Đại học, hãy sử dụng XLMiner 18. Tệp Excel Dữ liệu Rủi ro Tín dụng cung cấp cơ sở dữ liệu để tìm bốn cụm bằng cách sử dụng từng phương pháp phân thông tin về các đơn xin vay, cùng với phân loại rủi ro cụm khác (xem Hình 10.13); so sánh kết quả với Ví dụ 10.6. tín dụng trong cột L. Chuyển đổi dữ liệu phân loại thành mã số phù hợp. 10. Áp dụng phân tích cụm cho dữ liệu số trong tệp Excel Quyết định phê duyệt tín dụng. Phân tích các cụm và xác định xem Sau đó, áp dụng hồi quy logistic để phân loại tập dữ liệu đào tạo và xác thực cũng như dữ liệu mới trong tệp. Tóm tắt những phát hiện của bạn. phân tích cụm có phải là một phương pháp phân loại hữu ích để phê duyệt hoặc từ chối các đơn xin vay hay không. 19. Đối với Dữ liệu mua PC, hãy xác định các quy tắc kết hợp với các tham số đầu vào sau cho XLMiner 11. Áp dụng phân tích cụm cho Dữ liệu bán hàng tệp Excel, sử dụng các biến đầu vào Phần trăm lợi nhuận gộp, Mã ngành và Quy trình quy tắc kết hợp: Một. hỗ trợ 3; tự tin 90, Xếp hạng cạnh tranh. Tạo bốn cụm và rút ra kết luận về các b. hỗ trợ 7; tự tin 90, nhóm. c. hỗ trợ 3; tự tin 70, 12. Nhóm các bản ghi trong Khảo sát Mười Năm của tệp Excel. Tạo tối đa năm cụm và phân tích kết quả để đưa ra kết luận đ. hỗ trợ 7; tự tin 70, So sánh kết quả của bạn với kết quả trong Ví dụ 10.18. về cuộc khảo sát. 13. Sử dụng thuật toán k-NN để phân loại dữ liệu mới trong tệp Excel Quyết định phê duyệt tín dụng Được mã hóa chỉ sử dụng điểm tín dụng và số năm lịch sử tín dụng làm biến đầu vào. 14. Sử dụng phân tích phân biệt để phân loại dữ liệu mới trong 20. Tệp Excel Tùy chọn ô tô cung cấp dữ liệu về các tùy chọn được sắp xếp cùng nhau cho một kiểu xe ô tô cụ thể. Phát triển phân tích rổ thị trường bằng quy trình quy tắc kết hợp XLMiner với các tham số đầu vào hỗ trợ 6 và độ tin cậy 80. tệp Excel Quyết định phê duyệt tín dụng được mã hóa chỉ sử dụng điểm tín dụng và số năm lịch sử tín dụng làm biến đầu vào. 15. Sử dụng hồi quy logistic để phân loại dữ liệu mới trong tệp Excel Quyết định phê duyệt tín dụng Được mã hóa bằng cách sử dụng 21. Tệp Excel Myatt Steak House cung cấp dữ liệu trong 5 năm về kết quả kinh doanh chính của một nhà hàng. Xác định các biện pháp dẫn đầu và tụt hậu, tìm ma trận tương quan và đề xuất mô hình nguyên nhân và kết quả bằng cách sử dụng các mối tương quan mạnh nhất. Machine Translated by Google 340 Chương 10 Giới thiệu về khai thác dữ liệu Trường hợp: Hiệu suất Lawn Thiết bị Bảng tính Khảo sát mua hàng trong cơ sở dữ liệu Performance Lawn Mức độ sử dụng—bao nhiêu trong tổng số sản phẩm của công ty Care cung cấp dữ liệu liên quan đến dự đoán mức độ kinh doanh được mua từ PLE, được đo trên thang điểm 100, dao động từ 0% (Mức độ sử dụng) thu được từ cuộc khảo sát của bên thứ ba đối đến 100% với người quản lý mua hàng của khách hàng Performance Lawn Care.8 Bảy thuộc tính PLE được đánh giá bởi mỗi người trả lời là Mức độ hài lòng—mức độ hài lòng của người mua với các giao dịch mua trước đây từ PLE, được đo trên cùng thang đánh giá đồ họa như nhận thức từ 1 đến 7 Tốc độ giao hàng—khoảng thời gian cần thiết để giao sản phẩm sau khi đơn hàng được xác nhận Dữ liệu cũng bao gồm bốn đặc điểm của các công ty phản hồi: Mức giá—mức giá được cảm nhận bởi làm ơn Tính linh hoạt về giá—sự sẵn sàng nhận thức của các đại diện PLE để thương lượng giá đối với tất cả các loại mua hàng Hình ảnh nhà sản xuất—hình ảnh tổng thể của nhà sản xuất Quy mô của công ty—quy mô tương đối so với các công ty khác trên thị (0 bé nhỏ; 1 trường lớn) Cơ cấu mua hàng—phương pháp mua hàng được sử dụng trong một công ty cụ thể (1 mua sắm tập trung, 0 mua sắm phi tập trung) Ngành—phân loại ngành của tư nhân người mua Dịch vụ tổng thể—mức độ dịch vụ tổng thể cần thiết để duy trì mối quan hệ hài lòng giữa PLE và người mua Hình ảnh lực lượng bán hàng—hình ảnh tổng thể về lực lượng bán [1 bán lẻ (bán lại chẳng hạn như Home Depot), 0 (không bán lại, chẳng hạn như nhà làm vườn)] Loại mua—một biến có ba loại (1 lần mua mới, 2 lần mua lại có điều chỉnh, 3 lần mua lại liên tiếp) hàng của PLE Chất lượng sản phẩm - mức chất lượng cảm nhận Các câu trả lời cho bảy biến số này đã thu được bằng cách Elizabeth Burke muốn hiểu những gì cô ấy học được từ những dữ liệu này. Áp dụng các kỹ thuật khai thác dữ liệu thích hợp để sử dụng thang xếp hạng đồ họa, trong đó một đường thẳng 10 cm phân tích dữ liệu. Ví dụ, PLE có thể phân chia khách hàng thành được vẽ giữa các điểm cuối có nhãn “kém” và “xuất sắc”. các nhóm có nhận thức tương tự về công ty không? Các mô hình Những người được hỏi cho biết nhận thức của họ bằng cách đánh nguyên nhân và kết quả có thể cung cấp cái nhìn sâu sắc về các dấu trên đường thẳng, được đo từ điểm cuối bên trái. Kết quả yếu tố thúc đẩy sự hài lòng và mức độ sử dụng không? là thang điểm từ 0 đến 10 được làm tròn đến một chữ số thập phân. Tóm tắt kết quả của bạn trong một báo cáo cho cô Burke. Hai biện pháp đã thu được phản ánh kết quả của mối quan hệ mua hàng của người trả lời với PLE: 8Dữ liệu và mô tả về trường hợp này dựa trên ví dụ về HATCO ở trang 28–29 trong Joseph F. Hair, Jr., Rolph E. Anderson, Ronald L. Tatham, và William C. Black, Multivariate Analysis, 5th ed. (Sông Thượng Saddle, NJ: Prentice Hall, 1998). Machine Translated by Google Lập mô hình và phân tích bảng tính CHƯƠNG Rufous/Shutterstock.com Mục tiêu học tập Trình quản lý kịch bản Tìm kiếm mục tiêu phân tích Nền tảng bộ giải 341 Machine Translated by Google 342 chương 11 muộn Các chiến lược cho mô hình quyết định dự đoán Xây dựng các mô hình quyết định là một nghệ thuật hơn là khoa học. Việc tạo ra các mô hình quyết định tốt đòi hỏi sự hiểu biết vững chắc về các nguyên tắc kinh doanh cơ bản trong tất cả các lĩnh vực chức năng, chẳng hạn như kế toán, tài chính, tiếp thị và vận hành, kiến thức về nghiên cứu và thực hành kinh doanh cũng như các kỹ năng logic. Các mô hình thường phát triển từ đơn giản đến phức tạp và từ tất định đến ngẫu nhiên (xem các định nghĩa trong Chương 1), do đó, tốt nhất là bắt đầu các mô hình đơn giản và làm phong phú thêm khi cần thiết. Xây dựng mô hình sử dụng toán học đơn giản Đôi khi, một phép tính “sơ bộ” đơn giản có thể giúp các nhà quản lý đưa ra quyết định tốt hơn và dẫn đến sự phát triển của các mô hình hữu ích. VÍ DỤ 11.1 Giá trị kinh tế của một khách hàng Rất ít công ty dành thời gian để ước tính giá trị của một lợi nhuận sẽ là ($50)(6)(.40) = $120. Nếu 30% khách hàng khách hàng tốt (và thường tốn ít công sức để giữ chân họ). không quay lại mỗi năm, thì tuổi thọ trung bình của một khách Giả sử rằng một khách hàng tại một nhà hàng chi trung bình 50 hàng là 1 0,3 = 3,33 năm. Do đó, lợi nhuận gộp chưa chiết đô la cho mỗi lần ghé thăm và đến sáu lần mỗi năm. khấu trung bình trong suốt thời gian tồn tại của khách hàng Giả sử rằng nhà hàng nhận được lợi nhuận 40% trên hóa đơn là $120(3,33) = $400. trung bình cho thực phẩm và đồ uống, thì tổng doanh thu của họ Machine Translated by Google 343 chương 11 Mặc dù ví dụ này đã tính toán giá trị kinh tế của một khách hàng cho một tình huống cụ thể, nhưng những gì chúng tôi thực sự đã làm là tạo tiền đề cho việc xây dựng một mô hình quyết định chung. Giả sử chúng ta định nghĩa các biến sau: Doanh thu R trên mỗi lần mua F tần suất mua theo số lượng mỗi năm (ví dụ: nếu khách hàng mua một lần 1 2 cứ sau 2 năm, thì F 0,5) Tỷ suất lợi nhuận gộp M (được biểu thị dưới dạng phân số) Tỷ lệ đào tẩu D (tỷ lệ khách hàng đào tẩu mỗi năm) Khi đó, giá trị của một khách hàng trung thành, V, sẽ là V R * F * M (11.1) Đ. Trong ví dụ trước, R +50, F 6, M 0,4 và D 0,3. Chúng ta có thể sử dụng mô hình này để đánh giá các kịch bản khác nhau một cách có hệ thống. Xây dựng mô hình sử dụng biểu đồ ảnh hưởng Mặc dù có thể dễ dàng phát triển một mô hình từ các phép tính số đơn giản, nhưng như chúng tôi đã minh họa trong ví dụ trước, hầu hết việc phát triển mô hình đều yêu cầu một cách tiếp cận chính thức hơn. Biểu đồ ảnh hưởng đã được giới thiệu trong Chương 1, và là biểu diễn hợp lý và trực quan về các mối quan hệ chính của mô hình, có thể được sử dụng làm cơ sở để phát triển mô hình quyết định toán học. VÍ DỤ 11.2 Phát triển Mô hình Quyết định Sử dụng Biểu đồ Ảnh hưởng Chúng tôi sẽ phát triển một mô hình quyết định để dự đoán lợi nhuận khi đối mặt với nhu cầu không chắc chắn trong tương lai. Để giúp phát triển mô hình, chúng tôi sử dụng cách tiếp cận sơ đồ ảnh hưởng. Chúng ta đều biết rằng lợi nhuận = doanh thu - chi phí. Sử S = số lượng bán Q = số lượng sản xuất D = nhu cầu dụng một chút logic “Kinh doanh 101”, doanh thu phụ thuộc vào đơn Đầu tiên, lưu ý rằng chi phí bao gồm chi phí cố định (F ) cộng giá và số lượng bán ra, còn chi phí phụ thuộc vào đơn giá, số với chi phí biến đổi để sản xuất Q đơn vị (cQ): lượng sản xuất và chi phí sản xuất cố định. Tuy nhiên, nếu nhu C = F + cQ cầu không chắc chắn, thì số lượng sản xuất có thể ít hơn hoặc lớn hơn nhu cầu thực tế. Như vậy, số lượng bán ra phụ thuộc vào cả Tiếp theo, doanh thu bằng đơn giá (p) nhân với số lượng nhu cầu và số lượng sản xuất. Đặt những dữ kiện này lại với nhau, bán (S): chúng ta có thể xây dựng biểu đồ ảnh hưởng như trong Hình 11.1. Bước tiếp theo là chuyển biểu đồ ảnh hưởng thành một mô hình chính thức hơn. Định nghĩa P = lợi nhuận R = doanh thu C = chi phí R = pS Tuy nhiên, số lượng bán phải nhỏ hơn nhu cầu (D) và số lượng sản xuất (Q), hoặc S = min5D, Q6 Do đó, R = pS = p*min5D, Q6. Thay những kết quả này vào công thức cơ bản cho lợi nhuận P = R - C, chúng ta có p = đơn giá c = chi phí đơn vị F = chi phí cố định P = p*min5D, Q6 (F + cQ) (11.2) Machine Translated by Google 344 Chương 11 Lập mô hình và phân tích bảng tính Hình 11.1 Lợi nhuận Sự ảnh hưởng Sơ đồ lợi nhuận Doanh thu đơn giá Trị giá Số lượng Số lượng bán sản xuất Đơn giá Chi phí cố định Yêu cầu Triển khai mô hình trên bảng tính Chúng ta có thể áp dụng một cách sáng tạo các công cụ và khả năng khác nhau của Excel để cải thiện cấu trúc và việc sử dụng các mô hình bảng tính. Trong phần này, chúng tôi thảo luận về các phương pháp để phát triển các mô hình bảng tính tốt, hữu ích và chính xác. Các ứng dụng phân tích bảng tính tốt cũng phải thân thiện với người dùng; nghĩa là, phải dễ dàng nhập hoặc thay đổi dữ liệu và xem các kết quả chính, đặc biệt đối với những người dùng có thể không thành thạo trong việc sử dụng bảng tính. Thiết kế tốt làm giảm khả năng mắc lỗi và hiểu sai thông tin, dẫn đến các quyết định sáng suốt hơn và kết quả tốt hơn. Thiết kế bảng tính Trong Chương 1, Ví dụ 1.7, chúng ta đã phát triển một mô hình quyết định đơn giản cho tình huống phân tích hòa vốn. Nhớ lại rằng tình huống liên quan đến một nhà sản xuất có thể sản xuất một bộ phận với giá 125 đô la/đơn vị với chi phí cố định là 50.000 đô la. Giải pháp thay thế là thuê ngoài sản xuất cho một nhà cung cấp với chi phí đơn vị là $175. Chúng tôi đã phát triển các mô hình toán học cho tổng chi phí sản xuất và tổng chi phí thuê ngoài như một hàm của khối lượng sản xuất, Q: TC 1sản xuất2 +50.000 + +125 * Q TC 1gia công2 +175 * Q VÍ DỤ 11.3 Mô hình bảng tính cho quyết định thuê ngoài Hình 11.2 thể hiện bảng tính thực hiện mô hình quyết định thuê hoặc 0, thì hàm trả về “Sản xuất” là quyết định tốt nhất; nếu ngoài (file Excel Outsourcing Decision Model). Dữ liệu đầu vào không nó sẽ trả về "Outsource." Cũng quan sát sự tương ứng bao gồm các chi phí liên quan đến việc sản xuất sản phẩm trong giữa bảng tính cho công thức và mô hình toán học: nhà hoặc mua sản phẩm từ nhà cung cấp bên ngoài và khối lượng sản xuất. Mô hình tính toán tổng chi phí cho sản xuất và thuê ngoài. Các đầu ra chính trong mô hình là sự khác biệt trong các chi phí này và quyết định dẫn đến chi phí thấp nhất. Dữ TC (sản xuất) = 50.000 USD + 125 USD × Q = B6 + B7*B12 TC (thuê ngoài) = $175 × Q = B12*B10 liệu được xếp hạng rõ ràng từ thành phần mô hình của bảng Vì vậy, nếu bạn có thể viết một công thức bảng tính, bạn có tính. thể phát triển một mô hình toán học bằng cách thay thế các ký hiệu hoặc số vào các công thức Excel. Quan sát cách hàm IF được sử dụng trong ô B20 để xác định quyết định tốt nhất. Nếu chênh lệch chi phí là âm Machine Translated by Google 345 chương 11 Hình 11.2 Mô hình quyết định thuê ngoài bảng tính Vì các mô hình quyết định mô tả mối quan hệ giữa đầu vào và đầu ra, nên việc tách dữ liệu, tính toán mô hình và đầu ra mô hình một cách rõ ràng khi thiết kế bảng tính là rất hữu ích. Điều đặc biệt quan trọng là không sử dụng dữ liệu đầu vào trong công thức mô hình mà phải tham chiếu đến các ô bảng tính chứa dữ liệu. Bằng cách này, nếu dữ liệu thay đổi hoặc bạn muốn thử nghiệm mô hình, bạn không cần thay đổi bất kỳ công thức nào, điều này rất dễ dẫn đến sai sót. VÍ DỤ 11.4 Mô hình bảng quyết định giá Một mô hình khác mà chúng tôi đã phát triển trong Chương 1 là mô hình trong đó một công ty muốn xác định mức giá tốt nhất cho doanh số = 2,9485 × giá + 3.240,9 tổng doanh thu = giá × doanh số một trong các sản phẩm của mình để tối đa hóa doanh thu. Mô hình = giá × ( được phát triển bằng cách kết hợp một phương trình bán hàng = vào tính toán tổng doanh thu: 2,9485 × giá + 3.240,9) 2,9485 × giá2 + 3.240,9 × giá Hình 11.3 cho thấy một bảng tính để tính cả doanh thu và doanh thu dưới dạng hàm giá. Hình 11.3 Bảng tính quyết định giá Người mẫu Các mô hình toán học dễ thao tác; ví dụ, chúng tôi đã chỉ ra trong Chương 1 rằng có thể dễ dàng tìm được điểm hòa vốn bằng cách đặt TC (sản xuất) TC (thuê ngoài) và giải quyết Q. Ngược lại, sẽ khó tìm được mức hòa vốn hơn khi sử dụng thử và lỗi trên bảng tính mà không biết một số công cụ và phương pháp nâng cao. Tuy nhiên, Machine Translated by Google 346 chương 11 bảng tính có lợi thế là cho phép bạn dễ dàng sửa đổi các đầu vào mô hình và tính toán các kết quả số. Chúng tôi sẽ sử dụng cả bảng tính và phương pháp lập mô hình phân tích trong các ứng dụng xây dựng mô hình của mình—điều quan trọng là có thể “nói được cả hai ngôn ngữ”. VÍ DỤ 11.5 Triển khai Bảng tính của Mô hình Lợi nhuận Mô hình phân tích mà chúng tôi đã phát triển trong Ví dụ 11.2 hiểu rõ hơn về mô hình, nghiên cứu các mối quan hệ giữa các có thể dễ dàng được triển khai trong bảng tính Excel để công thức bảng tính, biểu đồ ảnh hưởng và mô hình toán học. đánh giá lợi nhuận (Mô hình Lợi nhuận trong tệp Excel). Giả Người quản lý có thể sử dụng bảng tính để đánh giá lợi nhuận sử đơn giá = 40 đô la, chi phí đơn vị = 24 đô la, chi phí dự kiến sẽ thay đổi như thế nào đối với các giá trị khác cố định = 400.000 đô la và nhu cầu = 50.000. Biến quyết định nhau của nhu cầu trong tương lai không chắc chắn và/hoặc là số lượng sản xuất; với mục đích xây dựng mô hình bảng số lượng được sản xuất, đây là một biến số quyết định mà tính, chúng tôi giả định giá trị là 40.000 đơn vị. Hình 11.4 người quản lý có thể kiểm soát. Chúng tôi làm điều này sau cho thấy một triển khai bảng tính của mô hình này. ĐẾN trong chương này. Chất lượng bảng tính Xây dựng các mô hình bảng tính, thường được gọi là kỹ thuật bảng tính, là một phần nghệ thuật và một phần khoa học. Chất lượng của một bảng tính có thể được đánh giá bằng cả độ chính xác logic và thiết kế của nó. Bảng tính cần chính xác, dễ hiểu và thân thiện với người dùng. Đầu tiên và quan trọng nhất, bảng tính phải chính xác. Xác minh là quá trình đảm bảo rằng một mô hình là chính xác và không có lỗi logic. Lỗi bảng tính có thể gây ra sự cố. Một công ty đầu tư lớn từng mắc lỗi 2,6 tỷ USD. Họ đã thông báo cho những người nắm giữ một quỹ tương hỗ để mong đợi một khoản cổ tức lớn; may mắn thay, họ đã phát hiện ra lỗi trước khi gửi séc. Một nghiên cứu về 50 bảng tính cho thấy rằng ít hơn 10% không có lỗi.1 Các lỗi nghiêm trọng trong kinh doanh là do lỗi sao chép và dán, sắp xếp, nhập số và tham chiếu công thức bảng tính. Nghiên cứu trong ngành đã phát hiện ra rằng hơn 90% bảng tính có hơn 150 hàng bị sai ít nhất 5%. Có ba cách tiếp cận cơ bản đối với kỹ thuật bảng tính có thể cải thiện chất lượng bảng tính: Hình 11.4 Thực hiện bảng tính của mô hình lợi nhuận 1S. Powell, K. Baker và B. Lawson, “Errors in Operational Spreadsheets,” Journal of End User Computing, 21 (Tháng 7–Tháng 9 năm 2009): 24–36. Machine Translated by Google Chương 11 Lập mô hình và phân tích bảng tính 347 1. Cải thiện thiết kế và định dạng của bảng tính. Sau khi đã hiểu rõ các mối quan hệ đầu vào, đầu ra và mô hình chính, bạn nên phác thảo một thiết kế logic của bảng tính. Ví dụ: bạn có thể muốn bảng tính giống với báo cáo tài chính để người quản lý dễ đọc hơn. Tốt nhất là tách các đầu vào của mô hình khỏi chính mô hình đó và tham chiếu các ô đầu vào trong các công thức của mô hình; theo cách đó, mọi thay đổi trong đầu vào sẽ tự động được phản ánh trong mô hình. Chúng tôi đã làm điều này trong các ví dụ. Một cách tiếp cận hữu ích khác là chia các công thức phức tạp thành các phần nhỏ hơn. Điều này làm giảm các lỗi đánh máy, giúp kiểm tra kết quả của bạn dễ dàng hơn và cũng giúp người dùng dễ đọc bảng tính hơn. Cuối cùng, điều quan trọng nữa là thiết lập bảng tính ở dạng mà người dùng cuối—ví dụ, có thể là người quản lý tài chính—có thể dễ dàng diễn giải và sử dụng. Ví dụ 11.6 minh họa những ý tưởng này. 2. Cải thiện quy trình được sử dụng để phát triển bảng tính. Nếu bạn đã phác thảo một thiết kế khái niệm của bảng tính, hãy làm việc trên từng phần riêng lẻ trước khi chuyển sang các phần khác để đảm bảo rằng mỗi phần đều chính xác. Khi bạn nhập công thức, hãy kiểm tra kết quả bằng các số đơn giản (chẳng hạn như 1) để xác định xem chúng có hợp lý hay không hoặc sử dụng đầu vào với kết quả đã biết. Hãy cẩn thận khi sử dụng Sao chép và Dán các lệnh trong Excel, đặc biệt đối với các địa chỉ tương đối và tuyệt đối. Sử dụng trình hướng dẫn hàm Excel ( nút fx trên thanh công thức) để đảm bảo rằng bạn đang nhập đúng giá trị vào đúng trường của hàm. 3. Kiểm tra kết quả của bạn một cách cẩn thận và sử dụng các công cụ thích hợp có sẵn trong Excel. Ví dụ: công cụ Kiểm tra Công thức Excel (trong tab Công thức) giúp bạn xác thực logic của công thức và kiểm tra lỗi. Sử dụng tiền lệ Trace và Trace Dependents, bạn có thể hiển thị trực quan những ô nào ảnh hưởng hoặc bị ảnh hưởng bởi giá trị của một ô đã chọn, tương tự như biểu đồ ảnh hưởng. Các công cụ Kiểm tra Công thức cũng bao gồm Kiểm tra Lỗi, kiểm tra các lỗi phổ biến xảy ra khi sử dụng công thức và Đánh giá Công thức, giúp gỡ lỗi một công thức phức tạp bằng cách đánh giá từng phần của công thức riêng lẻ. Chúng tôi khuyến khích bạn tìm hiểu cách sử dụng các công cụ này. VÍ DỤ 11.6 Lập mô hình thu nhập ròng trên bảng tính Việc tính toán thu nhập ròng dựa trên các công thức sau: kết quả cuối cùng và, từ góc độ tài chính, cung cấp ít thông tin cho người dùng cuối. lợi nhuận gộp = doanh thu - giá vốn hàng bán chi phí hoạt động = chi phí hành chính + chi phí bán hàng + chi phí khấu hao thu nhập hoạt động ròng = lợi nhuận gộp - chi phí hoạt động thu nhập trước thuế = thu nhập hoạt động ròng - chi phí lãi vay thu nhập ròng = thu nhập trước thuế thuế Chúng ta có thể phát triển một mô hình đơn giản để tính thu nhập ròng bằng cách thay thế các công thức sau: thu nhập ròng = doanh thu - giá vốn hàng bán - quản lý chi phí chi phí bán hàng khấu hao chi phí - chi phí lãi vay - thuế Chúng ta có thể thực hiện mô hình này trên một bảng tính, như trong Hình 11.5. Bảng tính này chỉ cung cấp Một cách khác là chia nhỏ mô hình bằng cách viết các công thức trước đó vào các ô riêng biệt trong bảng tính bằng cách sử dụng định dạng mô hình dữ liệu, như trong Hình 11.6. Điều này hiển thị rõ ràng các tính toán riêng lẻ và cung cấp thông tin tốt hơn. Tuy nhiên, mặc dù cả hai mô hình này đều đúng về mặt kỹ thuật, nhưng cả hai đều không phải là hình thức mà hầu hết các nhân viên kế toán và tài chính đều quen thuộc. Một giải pháp thay thế thứ ba là thể hiện các tính toán dưới dạng báo cáo thu nhập theo quy ước sử dụng cấu trúc và định dạng mà các kế toán viên đã quen sử dụng, như trong Hình 11.7. Mặc dù điều này có các tính toán tương tự như trong Hình 11.6, lưu ý rằng việc sử dụng số tiền âm đòi hỏi phải thay đổi công thức (nghĩa là cộng số tiền âm thay vì trừ số tiền dương). Sổ làm việc Excel Mô hình Thu nhập Ròng chứa từng ví dụ này trong các trang tính riêng biệt. Machine Translated by Google 348 Hình 11.5 Mô hình bảng tính đơn giản cho thu nhập ròng Hình 11.6 Định dạng mô hình dữ liệu cho Thu nhập ròng Hình 11.7 Báo cáo thu nhập Pro Forma Định dạng chương 11 Machine Translated by Google 349 chương 11 Phân tích trong thực tế: Kỹ thuật bảng tính tại Procter & Gamble2 Vào giữa những năm 1980, Procter & Gamble (P&G) cần một cách Ở cấp độ cơ bản, tất cả các trường đầu vào đều có nhận dễ dàng và nhất quán để quản lý hàng tồn kho an toàn. Nhóm Phân xét kèm theo; điều này phục vụ như một chức năng trợ giúp tích Kinh doanh Tây Âu của P&G đã tạo ra một mô hình bảng tính trực tuyến nhanh chóng cho các nhà lập kế hoạch. Đối với mỗi mà cuối cùng đã phát triển thành một bộ mô hình hàng tồn kho mô hình, họ cũng cung cấp một hướng dẫn sử dụng mô tả mọi đầu toàn cầu. Mô hình được thiết kế để giúp các nhà hoạch định vào và kết quả cũng như giải thích chi tiết các công thức. Các chuỗi cung ứng hiểu rõ hơn về hàng tồn kho trong chuỗi cung mẫu mô hình và tất cả tài liệu đã được đăng trên một trang ứng và cung cấp một phương pháp nhanh chóng để thiết lập mức mạng nội bộ mà tất cả nhân viên của P&G đều có thể truy cập tồn kho an toàn. được. Điều này đảm bảo rằng tất cả nhân viên đều có quyền P&G cũng đã phát triển một số mô hình phụ dựa trên ứng dụng truy cập vào các phiên bản cho thuê mới nhất của các mô hình, này được sử dụng trên khắp thế giới. tài liệu hỗ trợ và lịch trình đào tạo. Khi thiết kế mô hình, các nhà phân tích đã sử dụng nhiều nguyên tắc của kỹ thuật bảng tính. Ví dụ: họ đã tách các phần đầu vào khỏi phần tính toán và kết quả bằng cách nhóm các ô thích hợp và sử dụng các định dạng khác nhau. Điều này đã tăng tốc quá trình nhập dữ liệu. Ngoài ra, bảng tính được thiết kế để hiển thị tất cả dữ liệu liên quan trên một màn hình nên người dùng không cần phải chuyển đổi giữa các phần khác nhau của mô hình. Các nhà phân tích cũng đã sử dụng kết hợp xác thực dữ liệu và định dạng có điều kiện để làm nổi bật các lỗi trong dữ liệu đầu vào. Họ cũng cung cấp một danh sách các cảnh báo và lỗi mà người dùng nên giải quyết trước khi sử dụng kết quả Lưu trữ ZUMA/ ZUMA Press/ Newscom của mô hình. Danh sách đánh dấu các lỗi rõ ràng như thời gian vận chuyển âm và dữ liệu đầu vào có thể yêu cầu kiểm tra và dự báo các lỗi nằm ngoài ranh giới của giá trị thống kê của mô hình Ứng dụng bảng tính trong phân tích kinh doanh Một loạt các vấn đề thực tế trong phân tích kinh doanh có thể được mô hình hóa bằng bảng tính. Trong phần này, chúng tôi trình bày một số ví dụ và họ các mô hình minh họa các ứng dụng khác nhau. Một điều cần lưu ý là một mô hình bảng tính hữu ích không nhất thiết phải phức tạp; thông thường, các mô hình đơn giản có thể cung cấp cho các nhà quản lý thông tin họ cần để đưa ra quyết định đúng đắn. Ví dụ 11.7 được điều chỉnh từ một ứng dụng thực tế trong ngành ngân hàng. VÍ DỤ 11.7 Một mô hình dự đoán về bố trí nhân sự3 Nhân sự là một lĩnh vực của bất kỳ doanh nghiệp nào mà việc thay nhân viên mới có thể là 90 đến 180 ngày, vì vậy không phải lúc nào đổi có thể tốn kém và tốn thời gian. Vì vậy, điều khá quan trọng cũng có thể phản ứng nhanh với nhu cầu nhân sự. Do đó, lập kế hoạch là phải hiểu rõ các yêu cầu về nhân sự trước. Trong nhiều trường trước là rất quan trọng để các nhà quản lý có thể đưa ra quyết hợp, thời gian thuê và đào tạo định đúng đắn về việc làm thêm giờ hoặc cắt giảm công việc 2Dựa trên Ingrid Farasyn, Koray Perkoz, Wim Van de Velde, “Spreadsheet Models for Inventory Target Setting at Procter & Gamble,” Interfaces, 38, 4 (Tháng 7–Tháng 8 năm 2008): 241–250. 3Tác giả mang ơn ông Craig Zielanzy của BlueNote Analytics, LLC, vì đã cung cấp ví dụ này. Machine Translated by Google 350 chương 11 giờ, hoặc thêm hoặc bớt nhân viên tạm thời hoặc cố định. Lập kế hoạch cho các yêu cầu về nhân sự là một lĩnh vực mà phân tích có thể mang lại lợi ích to lớn. Giả sử rằng người quản lý của bộ phận xử lý khoản vay sản phẩm 4 sản phẩm 5 sản phẩm 6 12 5,50 9 4,00 9 3,00 6 2,00 2,00 muốn biết sẽ cần bao nhiêu nhân viên trong vài tháng tới để xử sản phẩm 7 lý một số lượng hồ sơ vay nhất định mỗi tháng để cô ấy có thể sản phẩm 8 5 sản phẩm 9 3 1,50 sản phẩm 10 1 3,50 3 3,00 lập kế hoạch năng lực tốt hơn. Cũng giả sử rằng có nhiều loại sản phẩm khác nhau cần được xử lý. Một sản phẩm có thể là khoản thế chấp có lãi suất cố định 30 năm, khoản vay 7/1 ARM, khoản vay FHA hoặc khoản vay xây dựng. Mỗi loại khoản vay này có mức linh tinh độ phức tạp khác nhau và yêu cầu các cấp độ chứng từ khác nhau, Tổng cộng do đó, có thời gian hoàn thành khác nhau. Người quản lý muốn dự đoán số lượng nhân viên toàn thời gian Giả sử rằng người quản lý dự báo có 700 đơn xin vay vào tháng Năm, 750 vào tháng Sáu, 800 vào tháng Bảy và 825 vào tháng Tám. Mỗi nhân viên làm việc hiệu quả trong 6,5 giờ mỗi ngày và có 22 ngày làm việc vào tháng 5, 20 vào tháng 6, 22 vào tháng 7 và 22 vào tháng 8. Người quản lý cũng biết, dựa trên dữ liệu lịch sử cho vay, tỷ lệ phần trăm của từng loại sản phẩm và thời gian xử lý một khoản vay của từng loại. sản phẩm 1 22 3,50 sản phẩm 2 17 2,00 sản phẩm 3 13 1,50 Thực hiện các khoản vay có thể được xử lý. Hình 11.8 cho thấy một mô hình dự đoán đơn giản trên bảng tính để tính FTE cần thiết (Mô hình Nhân sự trong tệp Excel). Đối với mỗi tháng, chúng tôi lấy thông lượng mong muốn và chuyển đổi thành số lượng tệp cho từng sản phẩm dựa trên tỷ lệ phần trăm hỗn hợp sản phẩm. Bằng cách nhân với số giờ trên mỗi phẩm. Cuối cùng, chúng tôi chia tổng số giờ cần thiết mỗi tháng Sản phẩm Kết hợp sản phẩm (%) Giờ trên mỗi tệp Bảng tính mô hình nhân sự tương đương (FTE) cần thiết mỗi tháng để đảm bảo rằng tất cả tệp, sau đó chúng tôi tính toán số giờ cần thiết cho mỗi sản Những dữ liệu này được trình bày tiếp theo: Hình 11.8 100 cho số giờ làm việc mỗi tháng (số giờ làm việc mỗi ngày * số ngày trong tháng). Điều này mang lại số lượng FTE cần thiết. Machine Translated by Google 351 chương 11 Hình 11.8 Bảng tính mô hình nhân sự Thực hiện (tiếp theo) Mô hình liên quan đến nhiều khoảng thời gian Hầu hết các mô hình thực tế được sử dụng trong phân tích kinh doanh phức tạp hơn và liên quan đến phân tích tài chính cơ bản tương tự như mô hình lợi nhuận. Một ví dụ là quyết định tung ra một sản phẩm mới. Ví dụ, trong ngành dược phẩm, quá trình nghiên cứu và phát triển là một quá trình lâu dài và gian khổ (xem Ví dụ 11.8); tổng chi phí phát triển có thể đạt tới 1 tỷ USD. Các mô hình cho các loại ứng dụng này thường kết hợp nhiều khoảng thời gian được liên kết với nhau một cách hợp lý và khả năng phân tích dự đoán là rất quan trọng để đưa ra các quyết định kinh doanh đúng đắn. Tuy nhiên, áp dụng một cách tiếp cận có hệ thống để sắp xếp các mảnh ghép lại với nhau một cách logic thường có thể khiến một vấn đề có vẻ khó khăn trở nên dễ dàng hơn nhiều. VÍ DỤ 11.8 Phát triển sản phẩm mới Giả sử rằng Moore Pharmaceuticals đã phát hiện ra một loại thuốc trên nhiều dữ liệu, ước tính và giả định đã biết. Nếu bạn kiểm đột phá tiềm năng trong phòng thí nghiệm và cần quyết định xem tra kỹ mô hình, bạn sẽ thấy rằng một số đầu vào trong mô hình có nên tiếp tục tiến hành các thử nghiệm lâm sàng và tìm kiếm có thể dễ dàng thu được từ kế toán doanh nghiệp (ví dụ: tỷ lệ sự chấp thuận của FDA để tiếp thị loại thuốc đó hay không. Tổng chiết khấu, doanh thu đơn vị và chi phí đơn vị) bằng cách sử chi phí R&D dự kiến sẽ đạt 700 triệu USD và chi phí cho các dụng dữ liệu lịch sử (ví dụ: chi phí dự án), dự báo hoặc đánh thử nghiệm lâm sàng sẽ vào khoảng 150 triệu USD. Quy mô thị giá các ước tính tinh thần dựa trên nghiên cứu thị trường sơ trường cho thuê hiện tại được ước tính là 2 triệu người và bộ hoặc kinh nghiệm trước đó (ví dụ: quy mô thị trường, thị dự kiến sẽ tăng trưởng với tốc độ 3% mỗi năm. Trong năm đầu phần và tốc độ tăng trưởng hàng năm). Bản thân mô hình này là tiên, Moore ước tính sẽ giành được 8% thị phần, con số này một ứng dụng đơn giản của logic kế toán và tài chính; bạn nên được dự đoán sẽ tăng 20% mỗi năm. Khó có thể ước tính sau 5 kiểm tra các công thức Excel để xem mô hình được xây dựng như thế nào. năm vì các đối thủ cạnh tranh mới dự kiến sẽ gia nhập thị trường. Đơn thuốc hàng tháng dự kiến sẽ tạo ra doanh thu là Các giả định được sử dụng đại diện cho các ước tính “rất có thể” và bảng tính cho thấy rằng sản phẩm sẽ bắt đầu có lãi 130 đô la trong khi phát sinh chi phí biến đổi là 40 đô la. Tỷ vào năm thứ tư. Tuy nhiên, mô hình này dựa trên một số giả định lệ chiết khấu 9% được giả định để tính giá trị hiện tại ròng khá mơ hồ về quy mô thị trường và tốc độ tăng trưởng thị phần. của dự án. Công ty cần biết sẽ mất bao lâu để thu hồi chi phí Trên thực tế, phần lớn dữ liệu được sử dụng trong mô hình là cố định và giá trị hiện tại ròng trong 5 năm đầu tiên. không chắc chắn và công ty sẽ thiếu sót nếu chỉ sử dụng kết quả của một kịch bản này. Giá trị thực của mô hình sẽ nằm ở việc phân tích nhiều tình huống sử dụng các giá trị thực thể khác Hình 11.9 cho thấy một mô hình bảng tính cho tình huống này (file Excel của Moore Pharmaceuticals). Mô hình dựa trên nhau cho các giả định này. Machine Translated by Google 352 Hình 11.9 Triển khai bảng tính của Moore Pharmaceuticals Người mẫu chương 11 Machine Translated by Google 353 chương 11 Quyết định mua hàng trong một thời kỳ Banana Republic, một bộ phận của Gap, Inc., đang cố gắng tạo dựng tên tuổi của mình trong giới thời trang khi công ty mẹ Gap chuyển dòng sản phẩm của mình sang những sản phẩm cơ bản như quần cắt, quần jean và kaki. Trong một mùa lễ gần đây, công ty đã đặt cược rằng màu xanh sẽ là màu bán chạy nhất trong những chiếc áo len len merino co giãn. Họ đã sai; như chủ tịch công ty đã lưu ý, “Người bán số 1 có màu xanh rêu. Chúng tôi không có đủ.”4 Tình huống này mô tả một trong nhiều tình huống thực tế trong đó phải đưa ra quyết định mua hàng một lần khi đối mặt với nhu cầu không chắc chắn. Người mua ở cửa hàng bách hóa phải mua quần áo theo mùa trước mùa mua hàng và cửa hàng kẹo phải quyết định số lượng hộp quà đặc biệt cho ngày lễ để lắp ráp. Tình huống chung thường được gọi là bài toán người bán báo: Một người bán báo trên đường phố bán báo hàng ngày và phải đưa ra quyết định về số lượng sẽ mua. Mua quá ít dẫn đến mất cơ hội tăng lợi nhuận, nhưng mua quá nhiều dẫn đến thua lỗ vì phần thừa phải được loại bỏ vào cuối ngày. Đầu tiên chúng ta phát triển một mô hình tổng quát cho vấn đề này và sau đó minh họa nó bằng một ví dụ. Giả sử rằng mỗi mặt hàng có giá $C để mua và được bán với giá $R. Vào cuối khoảng thời gian, mọi mặt hàng không bán được có thể được thanh lý với giá $S mỗi mặt hàng (giá trị cứu hộ). Rõ ràng, sẽ hợp lý khi giả sử rằng R 7 C 7 S. Gọi D là số đơn vị được yêu cầu trong kỳ và Q là số lượng mua. Lưu ý rằng D là đầu vào không kiểm soát được, trong khi Q là biến quyết định. Nếu biết trước nhu cầu, thì quyết định tối ưu là hiển nhiên: Chọn Q D. Tuy nhiên, nếu không biết trước D, chúng ta có nguy cơ mua quá nhiều hoặc không mua được. Nếu Q 6 D, thì chúng ta mất cơ hội nhận thêm lợi nhuận (vì chúng ta cho rằng R 7 C) và nếu Q 7 D, chúng ta sẽ bị lỗ (vì C 7 S). Lưu ý rằng chúng tôi không thể bán nhiều hơn mức tối thiểu của nhu cầu thực tế và số lượng được sản xuất. Như vậy, số lượng bán theo giá thông thường là nhỏ hơn của D và Q. Ngoài ra, số lượng thặng dư càng lớn trong 0 và Q - D. Lợi nhuận ròng được tính như sau: lợi nhuận ròng R * số lượng bán + S * số lượng thặng dư - C * Q (11.3) Trên thực tế, nhu cầu D là không chắc chắn và có thể được mô hình hóa bằng cách sử dụng phân phối xác suất dựa trên các phương pháp mà chúng tôi đã mô tả trong Chương 5. Hiện tại, chúng tôi không giải quyết các mô hình liên quan đến phân phối xác suất (xây dựng các mô hình đã đủ là một thách thức tại thời điểm này); tuy nhiên, chúng ta sẽ học cách đối phó với chúng trong chương tiếp theo. Một ví dụ khác về ứng dụng phân tích dự đoán có liên quan đến phân phối xác suất là đặt trước quá nhiều. VÍ DỤ 11.9 Mô hình quyết định mua hàng trong một giai đoạn Giả sử rằng một cửa hàng kẹo nhỏ làm hộp quà tặng Ngày lễ tình nhân có giá $12,00 và bán với giá $18,00. Trước đây, ít nhất 40 hộp đã được bán vào Ngày lễ tình nhân, nhưng số lượng thực tế không chắc chắn và trước đây, chủ sở hữu thường thiếu hoặc làm quá nhiều. Sau kỳ nghỉ lễ, bất kỳ hộp nào chưa bán được sẽ được giảm giá 50% và bán hết. Lợi nhuận ròng có thể được tính bằng công thức (11.3) cho bất kỳ giá trị nào của Q và D: lợi nhuận ròng = $18,00 × min5D, Q6 +$9,00 × max50, Q D6 $12,00 × Q Hình 11.10 cho thấy một bảng tính thực hiện mô hình này giả định nhu cầu là 41 và số lượng mua là 44 (Mô hình nhà cung cấp tin tức tệp Excel). 4Louise Lee, “Vâng, chúng tôi có một quả chuối mới,” BusinessWeek (31 tháng 5 năm 2004): 70–72. Machine Translated by Google 354 chương 11 Hình 11.10 Triển khai bảng tính của mô hình Newsvendor Quyết định đặt trước quá nhiều Một quyết định hoạt động quan trọng đối với các doanh nghiệp dịch vụ như khách sạn, hãng hàng không và công ty cho thuê ô tô là số lượng đặt trước cần chấp nhận để lấp đầy công suất một cách hiệu quả khi biết rằng một số khách hàng có thể không sử dụng đặt chỗ của họ hoặc thông báo cho doanh nghiệp. Ví dụ, nếu một khách sạn giữ phòng cho những khách hàng không xuất hiện, họ sẽ mất cơ hội doanh thu. (Ngay cả khi họ tính phí một đêm để đảm bảo, các phòng được giữ cho những ngày tiếp theo có thể không được sử dụng.) Một thông lệ phổ biến trong các ngành này là đặt trước quá nhiều đặt trước. Khi có nhiều khách hàng đến hơn mức có thể xử lý, doanh nghiệp thường phải chịu một số chi phí để làm hài lòng họ (bằng cách đưa họ đến một khách sạn khác hoặc, đối với hầu hết các hãng hàng không, cung cấp thêm khoản bồi thường như phiếu mua vé). Do đó, quyết định trở thành đặt trước vượt mức bao nhiêu để cân bằng giữa chi phí đặt trước vượt mức và doanh thu bị mất do sử dụng quá mức. VÍ DỤ 11.10 Một mô hình đặt trước quá nhiều khách sạn Hình 11.11 cho thấy một mô hình bảng tính (file Excel Mô hình của những khách hàng quyết định hủy đặt phòng của họ. Trong đặt phòng quá mức khách sạn) cho một khách sạn nghỉ dưỡng nổi ví dụ này, chúng tôi giả định rằng chỉ có 6 trong số 310 đặt tiếng có 300 phòng và thường được đặt kín chỗ. Khách sạn chỗ bị hủy. Do đó, số lượng khách hàng đến thực tế (ô B15) tính phí $120 mỗi phòng. Việc đặt trước có thể bị hủy trước là sự khác biệt giữa số lượng đặt phòng được thực hiện và hạn chót 6:00 chiều mà không bị phạt. Khách sạn đã ước tính số lượng hủy bỏ. Nếu số lượng khách đến thực tế vượt quá rằng chi phí đặt trước vượt mức trung bình là 100 đô la. công suất của phòng, tình trạng overbooking xảy ra. Điều này Logic của mô hình là đơn giản. Trong phần mô hình của bảng tính, ô B12 biểu thị biến quyết định về số lượng đặt được mô hình hóa bởi hàm MAX trong ô B17. Doanh thu thuần được tính trong ô B18. Người quản lý có thể muốn sử dụng mô trước để chấp nhận. Trong ví dụ này, chúng tôi giả định rằng hình này để phân tích số lượng khách hàng đặt trước quá mức khách sạn sẽ chấp nhận 310 đặt phòng; tức là đặt trước quá và doanh thu thuần sẽ bị ảnh hưởng như thế nào bởi những 10 phòng. Ô B13 thể hiện nhu cầu thực tế của khách hàng (số thay đổi về giới hạn đặt trước, nhu cầu của khách hàng và lượng khách hàng muốn đặt chỗ trước). Ở đây chúng tôi giả việc hủy đặt phòng. định rằng có 312 khách hàng đã cố gắng đặt trước. Khách sạn không thể chấp nhận đặt phòng nhiều hơn giới hạn định trước, do đó, số lượng đặt phòng được thực hiện trong ô B13 Như với mô hình nhà cung cấp tin tức, nhu cầu của khách hàng và số lượng hủy bỏ trong thực tế, chạy các biến là số lượng đặt phòng nhỏ hơn nhu cầu của khách hàng và dom mà chúng tôi không thể chỉ định một cách chắc chắn. Chúng giới hạn đặt phòng. Ô B14 là số tôi cũng chỉ ra cách kết hợp tính ngẫu nhiên vào mô hình trong chương tiếp theo. Machine Translated by Google 355 chương 11 Hình 11.11 Mô hình Overbooking khách sạn bảng tính Phân tích trong thực tế: Sử dụng mô hình đặt trước quá nhiều cho sinh viên Phòng khám sức khoẻ Dịch vụ Y tế Sinh viên (SHS) của Đại học East Carolina (ECU) cung cấp các dịch vụ chăm sóc sức khỏe và giáo dục sức khỏe cho các sinh viên đã đăng ký.5 Số lượng bệnh nhân bao gồm hầu hết các cuộc hẹn đã lên lịch cho các nhu cầu chăm sóc sức khỏe không khẩn cấp. Trong một năm kỷ lục gần đây, 35.050 cuộc hẹn đã được lên lịch. Bệnh nhân không đến trong hơn 10% các cuộc hẹn này. Vấn đề vắng mặt không phải là duy nhất. Các nghiên cứu khác nhau báo cáo rằng tỷ lệ vắng mặt của các nhà cung cấp dịch vụ y tế thường dao động từ 30% đến 50%. Để giải quyết vấn đề này, một nhóm cải thiện chất lượng (QI) đã được thành lập để phân tích tùy chọn đăng Kurhan/ Shutterstock.com ký trước quá nhiều. Những nỗ lực của họ đã dẫn đến việc phát triển một mô hình đặt trước vượt mức mới bao gồm các tác động của tình trạng kiệt sức của nhân viên do nhu cầu khám bệnh cho nhiều bệnh nhân hơn khả năng thông thường cho phép. Mô hình cung cấp bằng chứng mạnh mẽ dự đoán rằng trong 85% số ngày hoạt động mỗi tháng, không có bệnh nhân nào nằm ngoài lịch trình; tối đa 16 bệnh rằng mức đặt trước vượt quá 10% đến 15% tạo ra giá trị cao nhất. Mô hình đăng ký trước quá nhiều cũng là công cụ giúp nhân quá hạn hiếm khi xảy ra. giảm bớt những lo ngại của nhân viên về sự gián đoạn và áp lực do số lượng lớn bệnh nhân quá lịch trình. Với tỷ lệ đặt trước vượt quá 5%, nhân viên đã yên tâm với kết Dựa trên các dự đoán của mô hình, SHS đã triển khai chính sách đặt trước vượt mức và đặt trước vượt mức quả mô hình dự đoán 95% số ngày hoạt động mà không có 7,3% với kế hoạch tăng lên 10% trong các học kỳ tới. Giám bệnh nhân nào bị quá lịch; trong trường hợp xấu nhất, 8 đốc SHS ước tính khoản tiết kiệm thực tế từ việc đặt bệnh nhân sẽ bị xếp lịch quá hạn vài ngày mỗi tháng. trước quá nhiều trong học kỳ đầu tiên triển khai sẽ vào khoảng 95.000 USD. Ngoài ra, với tỷ lệ đặt trước quá mức 10%, mô hình 5Dựa trên John Kros, Scott Dellana và David West, “Đặt trước quá nhiều giúp tăng khả năng tiếp cận của bệnh nhân tại Phòng khám Dịch vụ Y tế Sinh viên của Đại học East Carolina,” Interfaces, Vol. 39, Số 3 tháng 5–tháng 6 năm 2009, trang 271–287. Machine Translated by Google 356 chương 11 Giả định mô hình, độ phức tạp và chủ nghĩa hiện thực Các mô hình không thể nắm bắt mọi chi tiết của vấn đề thực tế và các nhà quản lý phải hiểu những hạn chế của các mô hình và các giả định cơ bản của chúng. Tính hợp lệ đề cập đến việc một mô hình đại diện cho thực tế tốt như thế nào. Một cách tiếp cận để đánh giá tính hợp lệ của một mô hình là xác định và kiểm tra các giả định được đưa ra trong một mô hình để xem chúng phù hợp như thế nào với nhận thức của chúng ta về thế giới thực; thỏa thuận càng gần thì hiệu lực càng cao. Một cách tiếp cận khác là so sánh kết quả mô hình với kết quả quan sát được; thỏa thuận càng gần, mô hình càng hợp lệ. Một mô hình “hoàn hảo” tương ứng với thế giới thực ở mọi khía cạnh; thật không may, không có mô hình nào như vậy đã từng tồn tại và sẽ không bao giờ tồn tại trong tương lai, bởi vì không thể đưa mọi chi tiết của cuộc sống thực vào một mô hình. Để thêm tính hiện thực hơn vào một mô hình thường đòi hỏi sự phức tạp hơn và các nhà phân tích phải biết cách cân bằng những điều này. VÍ DỤ 11.11 Mô hình hoạch định hưu trí Xem xét mô hình hóa một kế hoạch nghỉ hưu điển hình. Giả sử các biến sẽ thay đổi rõ ràng mỗi năm. Vấn đề giá trị thứ hai là rằng một nhân viên bắt đầu làm việc sau khi tốt nghiệp đại học cách mô hình tính toán lợi tức đầu tư. Mô hình trong Hình 11.12 ở tuổi 22 với mức lương khởi điểm là 50.000 USD. Cô mong đợi giả định rằng lợi tức đầu tư được áp dụng cho số dư của năm mức tăng lương trung bình 3% mỗi năm. Kế hoạch nghỉ hưu của trước chứ không phải cho các khoản đóng góp của năm hiện tại cô ấy yêu cầu cô ấy đóng góp 8% tiền lương của mình và người (kiểm tra công thức được sử dụng trong ô E15). Một cách khác sử dụng lao động của cô ấy cộng thêm 35% khoản đóng góp của cô là tính toán tiền lãi đầu tư dựa trên số dư cuối năm, bao gồm ấy. Cô dự đoán lợi nhuận hàng năm là 8% cho danh mục đầu tư hưu các khoản đóng góp của năm hiện tại, sử dụng công thức =(E14 + trí của mình. C15 +D15)*(1+ $B$8) trong ô E15 và sao chép nó xuống bảng tính. Hình 11.12 cho thấy một mô hình bảng tính các khoản đầu tư Điều này sẽ tạo ra một kết quả khác. hưu trí của bà cho đến năm 50 tuổi (Kế hoạch Hưu trí trong tệp Excel). Có hai vấn đề hợp lệ với mô hình này. Tất nhiên, một là liệu các giả định về tăng lương hàng năm và lợi tức đầu tư Cả hai giả định này đều không hoàn toàn chính xác, vì các có hợp lý hay không và liệu chúng có nên được giả định giống khoản đóng góp thường được thực hiện hàng tháng. Để phản ánh nhau hàng năm hay không. Giả sử tỷ lệ tăng lương và lợi tức điều này sẽ cần một mô hình bảng tính lớn hơn và phức tạp hơn đầu tư mỗi năm như nhau sẽ đơn giản hóa mô hình nhưng lại nhiều. Do đó, việc xây dựng các mô hình thực tế đòi hỏi phải làm mất đi tính thực tế bởi vì những điều này suy nghĩ cẩn thận và sáng tạo, đồng thời có kiến thức tốt về các khả năng của Excel. Dữ liệu và Mô hình Dữ liệu được sử dụng trong các mô hình có thể đến từ phán đoán chủ quan dựa trên kinh nghiệm trong quá khứ, cơ sở dữ liệu hiện có và các nguồn dữ liệu khác, phân tích dữ liệu lịch sử hoặc khảo sát, thí nghiệm và các phương pháp thu thập dữ liệu khác. Ví dụ: trong mô hình lợi nhuận, chúng tôi có thể truy vấn hồ sơ kế toán để biết các giá trị của chi phí đơn vị và chi phí cố định. Các phương pháp thống kê mà chúng tôi đã nghiên cứu thường được sử dụng để ước tính dữ liệu cần thiết trong các mô hình dự đoán. Ví dụ: chúng tôi có thể sử dụng dữ liệu lịch sử để tính toán nhu cầu trung bình; chúng tôi cũng có thể sử dụng phần tư hoặc phần trăm trong mô hình để đánh giá các kịch bản khác nhau. Tuy nhiên, ngay cả khi không có sẵn dữ liệu, việc sử dụng một ước tính chủ quan tốt vẫn tốt hơn là hy sinh tính đầy đủ của một mô hình có thể hữu ích cho các nhà quản lý.6 6Glen L. Urban, “Building Models for Decision Makers,” Interfaces, 4, 3 (tháng 5 năm 1974): 1–11. Machine Translated by Google 357 chương 11 Hình 11.12 Phần của Kế hoạch Hưu trí bảng tính Hãy phát triển một ví dụ đơn giản dựa trên quyết định giảm giá bán lẻ mà chúng tôi mô tả trong Ví dụ 1.1 ở Chương 1. VÍ DỤ 11.12 Lập mô hình quyết định giảm giá bán lẻ Một chuỗi cửa hàng bách hóa đang giới thiệu nhãn hiệu đồ tắm mới với dự kiến bán 50 × 7 = 350 đơn vị với giá bán lẻ đầy đủ và kiếm được giá 70 đô la. Mùa bán hàng chính là 50 ngày vào cuối mùa xuân và đầu doanh thu là $70,00 × 350 = $24.500. 650 đơn vị còn lại sẽ được mùa hè; sau đó, cửa hàng có đợt giảm giá thanh lý vào khoảng ngày 4 bán với giá 21 đô la, với doanh thu giải phóng mặt bằng là 13.650 tháng 7 và giảm giá 70% (còn 21 đô la), thường bán bất kỳ hàng tồn đô la. Do đó, tổng doanh thu sẽ được dự đoán là $24.500 + $13.650 kho nào còn lại với giá thanh lý. Người mua hàng đã mua 1.000 chiếc = $38.150. và phân bổ cho các cửa hàng trước mùa bán hàng. Sau một vài tuần, các cửa hàng báo cáo doanh số bán hàng trung bình là 7 đơn vị/ngày Như một thử nghiệm, cửa hàng đã giảm giá xuống còn 49 đô la cho một ngày cuối tuần và nhận thấy rằng doanh số bán hàng trung bình và kinh nghiệm trước đây cho thấy mức doanh số bán hàng không đổi hàng ngày là 32,2 đơn vị. Giả sử một mô hình xu hướng tuyến tính cho này sẽ tiếp tục trong phần còn lại của mùa bán hàng. doanh số là một hàm của giá, như trong Ví dụ 1.9, doanh số hàng ngày = a Như vậy, trong 50 ngày mùa sale, các cửa hàng sẽ b × giá (còn tiếp) Machine Translated by Google 358 Chương 11 Lập mô hình và phân tích bảng tính chúng ta có thể tìm thấy các giá trị cho a và b bằng cách giải số đơn vị được bán giảm giá = doanh số hàng ngày × (50 - x) miễn đồng thời hai phương trình này dựa trên dữ liệu mà cửa hàng thu được. là giá trị này nhỏ hơn hoặc bằng số lượng đơn vị còn lại trong kho từ doanh số bán lẻ đầy đủ. Nếu không, con số này cần phải được 7 = a b × $70,00 32,2 = a b × $49,00 điều chỉnh. Sau đó, chúng ta có thể tính doanh thu giảm giá là Điều này dẫn đến mô hình nhu cầu tuyến tính: doanh số hàng ngày = 91 doanh thu giảm giá = đơn vị đã bán x giá giảm giá 1,2 × giá Chúng ta cũng có thể sử dụng các hàm SLOPE và INTERCEPT của Excel để tìm hệ số góc và giao điểm của đường thẳng giữa hai điểm Cuối cùng, số hàng tồn kho còn lại sau 50 ngày là khoảng không quảng cáo thanh lý = 1000 - đơn vị bán lẻ đầy đủ - các đơn vị được bán tại markdown ($70, 7) và ($49, 32,2); điều này được tích hợp vào mô hình Excel = 1.000 sau đây. 7x [91 × $70,00 × (100% Bởi vì mô hình này gợi ý rằng doanh số bán hàng cao hơn có × (50 thể được thúc đẩy bởi việc giảm giá, bộ phận tiếp thị có cơ sở để 1,2 y%)] x) Số tiền này được bán với giá $21,00, dẫn đến doanh thu là đưa ra các quyết định giảm giá được cải thiện. Chẳng hạn, giả sử họ quyết định bán với giá bán lẻ đầy đủ trong x ngày và sau đó chiết khấu giá y% trong thời gian còn lại của mùa bán hàng, sau đó là đợt bán thanh lý. Họ có thể dự đoán tổng doanh doanh thu giá thanh lý = 31.000 7x [91 1,2 × $70,00 × 1100% thu là bao nhiêu? × 150 Chúng ta có thể tính toán điều này một cách dễ dàng. Bán lẻ toàn bộ y%2] x2 4 × $21,00 Tổng doanh thu sẽ được tìm thấy bằng cách cộng các mô hình đã phát giá cho x ngày mang lại doanh thu là triển cho doanh thu giá bán lẻ đầy đủ, doanh thu giá chiết khấu doanh thu giá bán lẻ đầy đủ = 7 đơn vị ngày × x ngày × $70,00 = $490,00x Giá giảm giá áp dụng cho 50 và doanh thu giá thanh lý. Hình 11.13 cho thấy việc triển khai bảng tính của mô hình này (Mô hình định giá Markdown trong tệp Excel). Bằng cách thay đổi x ngày còn lại: các giá trị trong các ô B7 và B8, người quản lý tiếp thị có thể dự giá chiết khấu = $70(100% y%) đoán doanh thu có thể đạt được đối với các quyết định giảm giá doanh số hàng ngày = a - b × giá giảm = 91 Hình 11.13 đánh dấu Mô hình định giá bảng tính 1,2 × $70 x (100% khác nhau. y%) Machine Translated by Google 359 chương 11 Phát triển các ứng dụng Excel thân thiện với người dùng Sử dụng phân tích kinh doanh yêu cầu giao tiếp tốt giữa các nhà phân tích và khách hàng hoặc người quản lý sử dụng các công cụ. Trong nhiều trường hợp, người dùng có thể không quen thuộc với Excel. Do đó, việc phát triển các bảng tính thân thiện với người dùng là rất quan trọng để có được sự chấp nhận của các công cụ và làm cho chúng trở nên hữu ích. Xác nhận dữ liệu Một công cụ Excel hữu ích là tính năng xác thực dữ liệu. Tính năng này cho phép bạn xác định các giá trị đầu vào được chấp nhận trong bảng tính và đưa ra cảnh báo lỗi nếu một mục nhập không hợp lệ được thực hiện. Điều này có thể giúp tránh các lỗi vô ý của người dùng. Điều này có thể được tìm thấy trong Nhóm công cụ dữ liệu trong tab Dữ liệu trên dải băng Excel. Chọn phạm vi ô, bấm vào Xác thực dữ liệu, sau đó chỉ định tiêu chí mà Excel sẽ sử dụng để gắn cờ dữ liệu không hợp lệ. Tên phạm vi Sử dụng tên ô và phạm vi để đơn giản hóa công thức và làm cho chúng thân thiện hơn với người dùng. Ví dụ: giả sử rằng đơn giá được lưu trữ trong ô B13 và số lượng đã bán được lưu trữ trong ô B14. Giả sử bạn muốn tính doanh thu trong ô C15. Thay vì viết công thức =B13*B14, bạn có thể xác định tên của ô B13 trong Excel là “Đơn giá” và tên của ô B14 là “Số lượng đã bán”. Sau đó, trong ô C15, bạn chỉ cần viết công thức =UnitPrice*QuantitySold. (Tuy nhiên, trong cuốn sách này, chúng tôi sử dụng các tham chiếu ô để bạn có thể dễ dàng theo dõi các công thức trong các ví dụ hơn.) VÍ DỤ 11.13 Sử dụng Xác thực Dữ liệu Hãy để chúng tôi sử dụng bảng tính Mô hình quyết định thuê ngoài làm ví $47,50 chẳng hạn, một số thập phân bị đặt sai vị trí sẽ dẫn đến kết quả dụ. Giả sử rằng một nhân viên được yêu cầu sử dụng bảng tính để đánh là $4,75 hoặc $475, rõ ràng là nằm ngoài phạm vi. Trong hộp thoại Data giá các lựa chọn chi phí sản xuất và mua hàng cũng như các quyết định Validation, bạn có thể chỉ định rằng giá trị phải là một số thập phân từ tốt nhất cho một số lượng lớn các bộ phận được sử dụng trong hệ thống 10 đến 100 như trong Hình 11.14. Trên tab Cảnh báo Lỗi, bạn cũng có thể lắp ráp ô tô. Cô ấy được cung cấp các danh sách dữ liệu mà kế toán chi tạo một hộp cảnh báo bật lên khi một lần thử không hợp lệ được thực hiện phí và quản lý mua hàng đã biên soạn và in ra, đồng thời phải tra cứu dữ (xem Hình 11.15). Trên tab Thông báo đầu vào, bạn có thể tạo lời nhắc liệu và nhập chúng vào bảng tính. Một quy trình thủ công như vậy để lại để hiển thị nhận xét trong ô về định dạng đầu vào chính xác. Xác thực dữ rất nhiều cơ hội cho lỗi. liệu có các tùy chọn tùy chỉnh khác mà bạn có thể muốn khám phá. Tuy nhiên, giả sử rằng chúng ta biết rằng chi phí đơn vị của bất kỳ mặt hàng nào ít nhất là 10 đô la nhưng không quá 100 đô la. Nếu một chi phí là Hình 11.14 Hộp thoại xác thực dữ liệu Machine Translated by Google 360 chương 11 Hình 11.15 Ví dụ về Cảnh báo Lỗi Điều khiển biểu mẫu Điều khiển biểu mẫu là các nút, hộp và các cơ chế khác để nhập hoặc thay đổi dữ liệu trên bảng tính một cách dễ dàng có thể được sử dụng để thiết kế bảng tính thân thiện với người dùng. Để sử dụng các điều khiển biểu mẫu, trước tiên bạn phải kích hoạt tab Nhà phát triển trên dải băng. Bấm vào tab Tệp, sau đó Tùy chọn, rồi Tùy chỉnh Ruy-băng. Bên dưới Tùy chỉnh Ruy-băng, đảm bảo rằng các Tab Chính được hiển thị trong hộp thả xuống, rồi bấm vào hộp kiểm bên cạnh Nhà phát triển (thường không được chọn trong bản cài đặt Excel tiêu chuẩn). Bạn sẽ thấy tab mới trong dải băng Excel như trong Hình 11.16. Nếu bạn nhấp vào nút Chèn trong nhóm Điều khiển, bạn sẽ thấy các điều khiển biểu mẫu có sẵn (đừng nhầm lẫn các điều khiển này với Điều khiển Active X trong cùng một menu). kiểm soát hình thức bao gồm Cái nút hộp tổ hợp hộp kiểm nút quay hộp danh sách Nút tùy chọn hộp nhóm Nhãn Thanh cuộn Những điều này cho phép người dùng giao tiếp dễ dàng hơn với các mô hình để nhập hoặc thay đổi dữ liệu mà không có khả năng vô tình đưa ra lỗi trong công thức. Với các điều khiển biểu mẫu, bạn có thể ẩn các bảng tính và làm cho chúng dễ sử dụng hơn, đặc biệt là đối với những người không có nhiều kiến thức về bảng tính. Để chèn một điều khiển biểu mẫu, bấm vào nút Chèn trong tab Điều khiển bên dưới menu Nhà phát triển, bấm vào điều khiển bạn muốn sử dụng, rồi bấm vào bên trong trang tính của bạn. Ví dụ sau đây cho thấy cách sử dụng cả nút xoay và thanh cuộn trong tệp Excel Mô hình quyết định thuê ngoài. Hình 11.16 Tab Nhà phát triển Excel Machine Translated by Google 361 chương 11 VÍ DỤ 11.14 Sử dụng Điều khiển Biểu mẫu cho Mô hình Quyết định Thuê ngoài Chúng tôi sẽ thiết kế một giao diện bảng tính đơn giản để cho phép người xem các giá trị bên cạnh các điều khiển biểu mẫu.) Giờ đây, bằng cách sử dùng đánh giá các giá trị khác nhau của chi phí nhà cung cấp và khối lượng dụng các điều khiển, bạn có thể dễ dàng xem kết quả đầu ra của mô hình thay sản xuất trong bảng tính Mô hình quyết định thuê ngoài. Chúng tôi sẽ sử đổi như thế nào mà không cần phải nhập các giá trị mới. dụng một nút xoay cho chi phí đơn vị của nhà cung cấp (mà chúng tôi giả sử có thể thay đổi trong khoảng từ 150 đô la đến 200 đô la với gia số là 5 Các điều khiển biểu mẫu chỉ cho phép tăng số nguyên, vì vậy chúng ta phải thực hiện một số sửa đổi đối với bảng tính nếu chúng ta muốn thay đô la) và một thanh cuộn cho khối lượng sản xuất (với gia số đơn vị từ đổi một số thành một giá trị phân số. Ví dụ: giả sử rằng chúng tôi muốn 500 đến 3000 đơn vị). Bảng tính đã hoàn thành được hiển thị trong Hình sử dụng nút xoay để thay đổi lãi suất trong ô B8 từ 0% thành 10% theo gia 11.17. số 0,1% (tức là 0,001). Chọn một số ô trống, chẳng hạn như C8 và nhập giá trị từ 0 đến 100 vào ô đó. Sau đó nhập công thức = C8/1000 vào ô B8. Lưu Đầu tiên, bấm vào nút Chèn trong nhóm Điều khiển của tab Nhà phát triển, chọn nút xoay, bấm vào nút đó, rồi bấm vào một nơi nào đó trong trang tính. Nút xoay (và bất kỳ điều khiển biểu mẫu nào) có thể được thay ý rằng nếu giá trị trong C8 = 40 chẳng hạn, thì giá trị trong ô B8 sẽ là 40/1000= 0,04 hoặc 4%. Sau đó, khi giá trị trong ô C8 thay đổi 1, thì giá trị trong ô B8 thay đổi 1/1000 hoặc 0,1%. đổi kích thước bằng cách kéo các núm điều khiển dọc theo cạnh và di chuyển trong trang tính. Di chuyển nó đến một vị trí thuận tiện và nhập tên bạn muốn sử dụng (chẳng hạn như Chi phí Đơn vị của Nhà cung cấp) bên Trong hộp thoại Điều khiển định dạng, chỉ định giá trị tối thiểu là 0 và cạnh nó. Tiếp theo, nhấp chuột phải vào nút xoay và chọn Điều khiển định giá trị tối đa là 100 và liên kết nút với ô C8. Bây giờ khi bạn nhấp vào dạng. Bạn sẽ thấy hộp thoại như trong Hình 11.18. Nhập các giá trị được mũi tên lên hoặc xuống trên nút xoay, giá trị trong ô C8 thay đổi 1 và hiển thị và nhấp vào OK. Bây giờ nếu bạn nhấp vào nút lên hoặc xuống, giá giá trị trong ô B8 thay đổi 0,1%. trị trong ô D3 sẽ thay đổi trong phạm vi đã chỉ định. Tiếp theo, lặp lại quy trình này bằng cách chèn thanh cuộn bên cạnh khối lượng sản xuất trong cột D. Bước tiếp theo là liên kết các giá trị trong cột D với mô Các điều khiển biểu mẫu khác cũng có thể được sử dụng; chúng tôi khuyến khích bạn thử nghiệm và xác định những cách sáng tạo để sử dụng chúng. hình bằng cách thay thế giá trị trong ô B10 bằng =D3 và giá trị trong ô Excel cũng có nhiều tính năng khác có thể được sử dụng để cải thiện việc B12 với =D8. (Chúng ta có thể đã gán các tham chiếu liên kết ô trong hộp thiết kế và triển khai các mô hình bảng tính. Nhà phân tích nghiêm túc nên thoại Điều khiển Định dạng cho các ô B10 và B12, nhưng sẽ dễ dàng hơn nếu xem xét việc học về ghi macro và Visual Basic for Applications (VBA), nhưng những chủ đề này nằm ngoài phạm vi của cuốn sách này. Hình 11.17 Mô hình quyết định thuê ngoài Bảng tính có biểu mẫu điều khiển Machine Translated by Google 362 chương 11 Hình 11.18 Hộp thoại điều khiển định dạng Phân tích sự không chắc chắn và giả định mô hình Bởi vì các mô hình phân tích dự đoán dựa trên các giả định về tương lai và kết hợp các biến cụ thể mà rất có thể sẽ không được biết một cách chắc chắn, điều quan trọng là phải điều tra xem các giả định và sự không chắc chắn này ảnh hưởng như thế nào đến kết quả đầu ra của mô hình. Đây là một trong những hoạt động quan trọng và có giá trị nhất đối với việc sử dụng các mô hình dự đoán để hiểu rõ hơn và đưa ra quyết định đúng đắn. Trong phần này, chúng tôi mô tả một số cách tiếp cận khác nhau để thực hiện việc này. Những gì nếu phân tích Các mô hình bảng tính cho phép bạn dễ dàng đánh giá các câu hỏi giả sử—các quốc gia kết hợp đầu vào cụ thể phản ánh các giả định chính sẽ ảnh hưởng như thế nào đến đầu ra của mô hình. Những gì nếu phân tích dễ dàng như thay đổi giá trị trong bảng tính và tính toán lại kết quả đầu ra. Tuy nhiên, các phương pháp tiếp cận có hệ thống làm cho quá trình này dễ dàng và hữu ích hơn. Trong Ví dụ 11.2, chúng tôi đã phát triển một mô hình vì lợi nhuận và đề xuất cách người quản lý có thể sử dụng mô hình này để thay đổi đầu vào và đánh giá các tình huống khác nhau. Một cách thông tin hơn để đánh giá phạm vi kịch bản rộng hơn là xây dựng một bảng trong bảng tính để thay đổi đầu vào hoặc các đầu vào mà chúng ta quan tâm trong một số phạm vi và tính toán đầu ra cho phạm vi giá trị này. Ví dụ sau đây minh họa điều này. VÍ DỤ 11.15 Sử dụng Excel để phân tích What-If Trong mô hình lợi nhuận được sử dụng trong Ví dụ 11.2, chúng ta đã nói rằng đề cập đến các ô trong mô hình; do đó, người dùng có thể thay đổi số lượng nhu cầu là không chắc chắn. Một nhà quản lý có thể quan tâm đến câu hỏi sau: được sản xuất hoặc bất kỳ đầu vào nào khác của mô hình mà vẫn có đánh giá chính Với bất kỳ số lượng cố định nào được sản xuất, lợi nhuận sẽ thay đổi như xác về lợi nhuận cho các giá trị nhu cầu này. Một trong những lợi thế của thế nào khi nhu cầu thay đổi? Trong Hình 11.19, chúng ta đã tạo một bảng cho việc đánh giá các câu hỏi giả sử cho một loạt các giá trị thay vì từng giá trị các mức nhu cầu khác nhau và tính toán lợi nhuận. Điều này cho thấy rằng một một là khả năng trực quan hóa các kết quả trong một biểu đồ, như trong Hình khoản lỗ phát sinh đối với các mức nhu cầu thấp, trong khi lợi nhuận bị giới 11.20. Điều này cho thấy rõ ràng rằng lợi nhuận tăng lên khi nhu cầu tăng lên hạn ở mức 240.000 đô la bất cứ khi nào nhu cầu vượt quá số lượng được sản cho đến khi đạt đến giá trị của số lượng được sản xuất. xuất, bất kể nó cao đến mức nào. Chú ý rằng công thức Machine Translated by Google chương 11 Hình 11.19 Bảng What-If cho Nhu cầu không chắc chắn Hình 11.20 Biểu đồ phân tích What-If 363 Machine Translated by Google 364 chương 11 Tiến hành phân tích what-if theo cách này có thể khá tẻ nhạt. May mắn thay, Excel cung cấp một số công cụ—bảng dữ liệu, Trình quản lý Kịch bản và Tìm kiếm Mục tiêu—tạo điều kiện thuận lợi cho các kiểu phân tích mô hình quyết định giả định và các kiểu khác. Chúng có thể được tìm thấy trong menu Phân tích What-If trong tab Dữ liệu. Bảng dữ liệu Các bảng dữ liệu tóm tắt tác động của một hoặc hai đầu vào đối với một đầu ra xác định. Excel cho phép bạn xây dựng hai loại bảng dữ liệu. Bảng dữ liệu một chiều đánh giá một biến đầu ra trên một dải giá trị cho một biến đầu vào. Bảng dữ liệu hai chiều đánh giá một biến đầu ra trên một dải giá trị cho hai biến đầu vào khác nhau. Để tạo bảng dữ liệu một chiều, trước tiên hãy tạo một dải giá trị cho một số ô đầu vào trong mô hình mà bạn muốn thay đổi. Các giá trị đầu vào phải được liệt kê xuống một cột (theo hướng cột) hoặc trên một hàng (theo hướng hàng). Nếu các giá trị đầu vào được định hướng theo cột, hãy nhập tham chiếu ô cho biến đầu ra trong mô hình của bạn mà bạn muốn đánh giá trong hàng phía trên giá trị đầu tiên và một ô ở bên phải của cột giá trị đầu vào. Tham chiếu bất kỳ ô biến đầu ra nào khác ở bên phải của công thức đầu tiên. Nếu các giá trị đầu vào được liệt kê trên một hàng, hãy nhập tham chiếu ô của biến đầu ra vào cột bên trái của giá trị đầu tiên và một ô bên dưới hàng giá trị. Nhập bất kỳ tham chiếu ô đầu ra bổ sung nào bên dưới ô đầu tiên. Tiếp theo, chọn phạm vi ô chứa cả công thức và giá trị mà bạn muốn thay thế. Từ tab Dữ liệu trong Excel, chọn Bảng Dữ liệu trong Phân tích What-If thực đơn. Trong hộp thoại (xem Hình 11.21), nếu phạm vi đầu vào được định hướng theo cột, hãy nhập tham chiếu ô cho ô đầu vào trong mô hình của bạn trong ô Ô đầu vào cột. Nếu phạm vi đầu vào được định hướng theo hàng, hãy nhập tham chiếu ô cho ô đầu vào trong hộp Ô đầu vào hàng. VÍ DỤ 11.16 Bảng dữ liệu một chiều cho nhu cầu không chắc chắn Trong ví dụ này, chúng tôi tạo bảng dữ liệu một chiều về lợi nhuận lợi nhuận) và chọn Bảng dữ liệu từ Phân tích What-If cho các mức độ nhu cầu khác nhau. Đầu tiên, tạo một cột giá trị thực đơn. Trong trường Ô nhập cột, nhập B8; điều này cho công cụ nhu cầu trong cột E chính xác như chúng ta đã làm trong Ví dụ biết rằng các giá trị trong cột E là các giá trị khác nhau của nhu 11.15. Sau đó, trong ô F3, hãy nhập công thức =C22. Điều này chỉ cầu trong mô hình. Khi bạn nhấp vào OK, công cụ sẽ tạo ra kết quả đơn giản là tham chiếu đầu ra của mô hình lợi nhuận. Đánh sáng (mà chúng tôi đã định dạng là tiền tệ) được hiển thị trong Hình phạm vi E3:F11 (lưu ý rằng phạm vi này bao gồm cả cột nhu cầu 11.22. cũng như tham chiếu ô đến Chúng tôi có thể đánh giá nhiều đầu ra bằng bảng dữ liệu một chiều. VÍ DỤ 11.17 Bảng dữ liệu một chiều có nhiều đầu ra Giả sử rằng chúng ta muốn kiểm tra tác động của nhu cầu không và “Doanh thu” trong G2 để xác định kết quả. Sau đó, đánh dấu phạm chắc chắn đối với doanh thu ngoài lợi nhuận. Chúng tôi chỉ cần vi E3:G11 và tiến hành như được mô tả trong ví dụ trước. Quá thêm một cột khác vào bảng dữ liệu. Trong trường hợp này, hãy trình này cho kết quả là bảng dữ liệu như hình 11.23. chèn công thức =C15 vào ô G3. Ngoài ra, hãy thêm nhãn “Lợi nhuận” trong F2 Hình 11.21 Hộp thoại bảng dữ liệu Machine Translated by Google chương 11 365 Hình 11.22 Bảng dữ liệu một chiều cho Nhu cầu không chắc chắn Hình 11.23 Bảng dữ liệu một chiều với hai đầu ra Để tạo bảng dữ liệu hai chiều, hãy nhập danh sách các giá trị cho một biến đầu vào trong một cột và danh sách các giá trị đầu vào cho biến đầu vào thứ hai trong một hàng, bắt đầu từ một hàng phía trên và một cột ở bên phải của danh sách cột . Trong ô ở góc trên bên trái, ngay phía trên danh sách cột và bên trái danh sách hàng, hãy nhập tham chiếu ô của biến đầu ra mà bạn muốn đánh giá. Chọn phạm vi ô có chứa tham chiếu ô này và cả hàng và cột giá trị. Trên menu Phân tích What-If, bấm vào Bảng dữ liệu. Trong ô đầu vào Hàng của hộp thoại, nhập tham chiếu cho ô đầu vào trong mô hình tương ứng với các giá trị đầu vào trong hàng. Trong hộp ô nhập Cột, VÍ DỤ 11.18 Bảng dữ liệu hai chiều cho mô hình lợi nhuận Trong hầu hết các mô hình, các giả định được sử dụng cho dữ tham chiếu đến lợi nhuận trong mô hình. Chọn phạm vi của liệu đầu vào thường không chắc chắn. Ví dụ, trong mô hình tất cả dữ liệu (không bao gồm tiêu đề mô tả) rồi chọn công lợi nhuận, chi phí đơn vị có thể bị ảnh hưởng bởi sự thay cụ bảng dữ liệu trong Phân tích What-If đổi giá của nhà cung cấp và các yếu tố lạm phát. Tiếp thị thực đơn. Trong hộp thoại Bảng dữ liệu, nhập B6 cho hàng có thể đang xem xét điều chỉnh giá để đáp ứng mục tiêu lợi trong ô đặt vì đơn giá tương ứng với ô B6 trong mô hình nhuận. Chúng tôi sử dụng bảng dữ liệu hai chiều để đánh và nhập B5 cho ô nhập Cột vì đơn giá tương ứng với ô B5. giá tác động của việc thay đổi các giả định này. Đầu tiên, Hình 11.24 cho thấy kết quả đã hoàn thành. tạo một cột cho đơn giá bạn muốn đánh giá và một hàng cho đơn giá dưới dạng ma trận. Ở góc trên bên trái, nhập công thức =C22, Machine Translated by Google 366 chương 11 Hình 11.24 Bảng dữ liệu hai chiều nhập tham chiếu cho ô đầu vào trong mô hình tương ứng với các giá trị đầu vào trong cột. Sau đó bấm OK. Các bảng dữ liệu hai chiều chỉ có thể đánh giá một biến đầu ra. Để đánh giá bội số đặt các biến, bạn phải xây dựng nhiều bảng hai chiều. Trình quản lý kịch bản Công cụ Trình quản lý Kịch bản Excel cho phép bạn tạo các kịch bản—tập hợp các giá trị được lưu và có thể được thay thế tự động trên trang tính của bạn. Các kịch bản rất hữu ích để tiến hành phân tích what-if khi bạn có nhiều hơn hai biến đầu ra (mà bảng dữ liệu không thể xử lý). Trình quản lý Kịch bản Excel được tìm thấy trong Phân tích What-If menu trong nhóm Công cụ dữ liệu trên tab Dữ liệu. Khi công cụ được khởi động, hãy nhấp vào nút Thêm để mở hộp thoại Thêm Kịch bản và xác định một kịch bản (xem Hình 11.25). Nhập tên của kịch bản vào hộp Tên kịch bản. Trong hộp Thay đổi ô, hãy nhập các tham chiếu, được phân tách bằng dấu phẩy, cho các ô trong mô hình mà bạn muốn đưa vào kịch bản (hoặc giữ phím Ctrl và bấm vào các ô). Trong hộp thoại Giá trị kịch bản xuất hiện tiếp theo, hãy nhập giá trị cho từng ô thay đổi. Nếu bạn đã đưa chúng vào bảng tính của mình, bạn chỉ cần tham khảo chúng. Sau khi tất cả các kịch bản được thêm vào, chúng có thể được chọn bằng cách nhấp vào tên của kịch bản và sau đó nhấp vào nút Hiển thị. Excel sẽ thay đổi tất cả giá trị của các ô trong bảng tính của bạn để tương ứng với giá trị được xác định bởi tình huống để bạn xem kết quả trong mô hình. Khi bạn nhấp vào nút Tóm tắt trên hộp thoại Trình quản lý Kịch bản, bạn sẽ được nhắc nhập các ô kết quả và chọn báo cáo tóm tắt hoặc báo cáo PivotTable. Trình quản lý kịch bản có thể xử lý tối đa 32 biến. Hình 11.25 Thêm hộp thoại kịch bản Machine Translated by Google 367 chương 11 VÍ DỤ 11.19 Sử dụng Trình quản lý kịch bản cho Mô hình định giá Markdown Trong bảng tính Mô hình định giá Markdown, giả sử rằng ô B7 hoặc =E3 cho ô B8 đang thay đổi. Lặp lại quy chúng ta muốn đánh giá bốn chiến lược khác nhau, trình này cho từng kịch bản. Nhấp vào nút Tóm tắt. được thể hiện trong Hình 11.26. Trong hộp thoại Thêm Trong hộp thoại Tóm tắt tình huống xuất hiện tiếp theo, kịch bản, nhập Ten/ten làm tên kịch bản và chỉ định hãy nhập C33 (tổng doanh thu) làm ô kết quả. Trình các ô thay đổi là B7 và B8 (nghĩa là số ngày ở mức giá quản lý Kịch bản đánh giá mô hình cho từng tổ hợp giá bán lẻ đầy đủ và mức giảm giá trung gian). Trong hộp trị và tạo báo cáo tóm tắt như trong Hình 11.27. Kết thoại Giá trị kịch bản, hãy nhập giá trị cho các biến quả chỉ ra rằng lợi nhuận lớn nhất có thể thu được này vào các trường thích hợp hoặc nhập công thức cho bằng cách sử dụng chiến lược giảm giá hai mươi/hai mươi. tham chiếu ô; ví dụ: nhập =E2 để thay đổi Tìm kiếm mục tiêu Nếu bạn biết kết quả mình muốn từ một công thức nhưng không chắc giá trị đầu vào mà công thức cần để nhận được kết quả đó, hãy sử dụng tính năng Tìm kiếm Mục tiêu trong Excel. Goal Seek chỉ hoạt động với một giá trị đầu vào thay đổi. Nếu bạn muốn xem xét nhiều hơn một giá trị đầu vào hoặc muốn tối đa hóa hoặc giảm thiểu một số mục tiêu, bạn phải sử dụng phần bổ trợ Bộ giải, phần bổ trợ này sẽ được thảo luận trong các chương khác. Trên tab Dữ liệu, trong nhóm Công cụ dữ liệu, bấm vào Phân tích nếu-xảy ra, rồi bấm vào Tìm kiếm mục tiêu. Hộp thoại như Hình 11.28 sẽ xuất hiện. Trong hộp Đặt ô, hãy nhập tham chiếu cho ô chứa công thức mà bạn muốn giải quyết. Trong hộp Đến giá trị, hãy nhập kết quả công thức mà bạn muốn. Trong hộp Bằng cách thay đổi ô, hãy nhập tham chiếu cho ô chứa giá trị mà bạn muốn điều chỉnh. Hình 11.26 Mô hình định giá Markdown với các kịch bản Hình 11.27 Tóm tắt kịch bản cho Mô hình định giá Markdown Hình 11.28 Hộp thoại tìm kiếm mục tiêu Machine Translated by Google 368 chương 11 Hình 11.29 Phân tích hòa vốn bằng cách sử dụng Tìm kiếm mục tiêu VÍ DỤ 11.20 Tìm điểm hòa vốn trong mô hình thuê ngoài Trong mô hình quyết định thuê ngoài mà chúng tôi đã giới ume trong ô B12 mang lại giá trị bằng 0 trong ô B19. Trong thiệu trong Chương 1 và phát triển một bảng tính trong Ví dụ hộp thoại Tìm kiếm mục tiêu, nhập B19 cho ô Đặt, nhập 0 vào 11.3 tr. 352, chúng ta có thể muốn tìm điểm hòa vốn. Điểm hộp Giá trị tới và nhập B12 vào ô Bằng cách thay đổi hòa vốn là giá trị của lượng cầu mà tại đó tổng chi phí sản hộp. Công cụ Goal Seek xác định rằng khối lượng hòa vốn là xuất bằng tổng chi phí mua, hoặc tương đương, chênh lệch 1.000 và nhập giá trị này vào ô B12 trong mô hình, như trong bằng không. Hình 11.29. Do đó, bạn tìm cách tìm giá trị sản xuất vol Phân tích mô hình bằng Nền tảng bộ giải phân tích Nền tảng bộ giải phân tích (xem phần trong Chương 2 về phần bổ trợ bảng tính) cung cấp khả năng phân tích độ nhạy để khám phá mô hình bảng tính, đồng thời xác định và trực quan hóa các tham số đầu vào chính có tác động lớn nhất đến kết quả mô hình. Phân tích độ nhạy tham số Phân tích độ nhạy tham số là thuật ngữ được sử dụng bởi Nền tảng bộ giải phân tích cho các phương pháp phân tích giả định của hệ thống. Một tham số chỉ đơn giản là một phần dữ liệu đầu vào trong một mô hình. Với Nền tảng bộ giải phân tích, bạn có thể dễ dàng tạo các bảng dữ liệu một chiều và hai chiều và một loại biểu đồ đặc biệt, được gọi là biểu đồ lốc xoáy, cung cấp thông tin giả định hữu ích. VÍ DỤ 11.21 Tạo bảng dữ liệu với Nền tảng bộ giải phân tích Giả sử rằng chúng ta muốn tạo một bảng dữ liệu một chiều để Thao tác này sẽ mở hộp thoại Đối số chức năng (Hình 11.31), đánh giá lợi nhuận khi đơn giá trong ô B5 thay đổi từ 35 trong đó bạn chỉ định một tập hợp các giá trị hoặc một phạm đô la đến 45 đô la trong mô hình lợi nhuận (xem Hình 11.4). vi. Để tạo bảng dữ liệu, hãy chọn ô kết quả tương ứng với Trước tiên, hãy xác định ô này làm tham số trong Nền tảng bộ đầu ra của mô hình—trong trường hợp này là ô C22. Sau đó giải phân tích. Chọn ô B5 rồi nhấp vào Tham số nhấp vào nút Báo cáo và nhấp vào Phân tích tham số từ menu trong ruy-băng (Hình 11.30) và chọn Độ nhạy. Độ nhạy. Thao tác này sẽ hiển thị hộp thoại Báo cáo độ nhạy Machine Translated by Google 369 chương 11 (Hình 11.32). Bạn có thể sử dụng các mũi tên để di chuyển các như chi phí đơn vị. Với hai tham số, hãy nhớ đánh dấu vào ô ô vào ô bên phải; điều này hữu ích nếu bạn đã xác định nhiều Vary Parameters Independent gần cuối. tham số đầu vào và muốn tiến hành các phân tích độ nhạy khác Bạn cũng có thể tạo biểu đồ để trực quan hóa bảng dữ liệu nhau. Nền tảng bộ giải phân tích sẽ tạo một trang tính mới bằng cách chọn ô kết quả, bấm vào nút Biểu đồ, sau đó bấm vào với bảng dữ liệu, như thể hiện trong Hình 11.33. Phân tích tham số từ Độ nhạy thực đơn. Hình 11.34 cho thấy một bảng dữ liệu hai chiều và Để tạo bảng dữ liệu hai chiều, hãy xác định hai đầu vào là một biểu đồ ba chiều khi cả đơn giá và chi phí đơn vị đều thay tham số và trong hộp thoại Báo cáo độ nhạy. Ví dụ: chúng tôi đổi. Chúng tôi khuyến khích bạn thay thế các tham chiếu ô cũng có thể muốn thay đổi cả đơn giá ($B$5, $B$6 và $C$22) bằng các tên mô tả để dễ hiểu kết quả. Hình 11.30 Nền tảng bộ giải phân tích Ruy-băng Hình 11.31 Bộ giải phân tích Chức năng nền tảng Đối số hộp thoại Hình 11.32 Hộp thoại báo cáo độ nhạy Machine Translated by Google 370 chương 11 Hình 11.33 Báo cáo phân tích độ nhạy— Bảng dữ liệu một chiều Hình 11.34 biểu đồ lốc xoáy Như chúng ta đã thấy, biểu đồ, đồ thị và các công cụ hỗ trợ trực quan khác đóng vai trò quan trọng trong việc phân tích Bảng và Biểu đồ Dữ liệu Hai chiều. dữ liệu và mô hình. Một công cụ hữu ích là biểu đồ lốc xoáy. Biểu đồ cơn lốc xoáy cho thấy bằng đồ họa tác động của sự thay đổi trong đầu vào mô hình đối với một số đầu ra trong khi giữ tất cả các đầu ra khác không đổi. Thông thường, chúng tôi chọn một trường hợp cơ sở và sau đó thay đổi đầu vào theo một số phần trăm tuổi, chẳng hạn như cộng hoặc trừ 10% hoặc 20%. Vì mỗi đầu vào đều khác nhau, chúng tôi ghi lại các giá trị của đầu ra và lập biểu đồ phạm vi của đầu ra trong biểu đồ thanh theo thứ tự giảm dần. Điều này thường dẫn đến hình dạng phễu, do đó có tên này. Biểu đồ lốc xoáy cho thấy đầu vào nào có ảnh hưởng lớn nhất đến đầu ra và đầu vào nào ít ảnh hưởng nhất. Nếu những yếu tố đầu vào này không chắc chắn, thì có lẽ bạn sẽ muốn nghiên cứu những yếu tố có ảnh hưởng hơn để giảm bớt sự không chắc chắn và ảnh hưởng của nó đối với đầu ra. Nếu các tác động nhỏ, bạn có thể bỏ qua bất kỳ sự không chắc chắn nào hoặc loại bỏ các tác động đó khỏi mô hình. Chúng cũng hữu ích trong việc giúp bạn chọn đầu vào mà bạn muốn phân tích sâu hơn với bảng dữ liệu hoặc kịch bản. VÍ DỤ 11.22 Tạo Biểu đồ Lốc xoáy trong Nền tảng Bộ giải Phân tích Tạo biểu đồ lốc xoáy trong Nền tảng bộ giải phân tích cực kỳ kết quả. Chúng tôi thấy rằng sự thay đổi 10% trong ô B5, đơn giá, dễ thực hiện. Nền tảng bộ giải phân tích tự động xác định tất ảnh hưởng nhiều nhất đến lợi nhuận, tiếp theo là chi phí đơn vị, số cả các ô đầu vào dữ liệu mà ô đầu ra phụ thuộc vào đó và tạo lượng sản xuất, chi phí cố định và nhu cầu. Nếu bạn không muốn thay biểu đồ. Trong mô hình lợi nhuận đổi tất cả các tham số theo cùng một tỷ lệ phần trăm, thì bạn có thể bảng tính, chọn ô C22; sau đó nhấp vào Tham số xác định các phạm vi theo cách tương tự như chúng tôi đã làm đối và chọn Xác định. Hình 11.35 cho thấy với các ví dụ về bảng dữ liệu. Machine Translated by Google chương 11 371 Hình 11.35 Độ nhạy lốc xoáy Biểu đồ cho lợi nhuận Người mẫu Điều khoản quan trọng Bảng dữ liệu kịch bản Xác nhận dữ liệu kỹ thuật bảng tính Điều khiển biểu mẫu Biểu đồ lốc xoáy vấn đề nhà cung cấp báo Bảng dữ liệu hai chiều Bảng dữ liệu một chiều hiệu lực Đặt trước quá nhiều xác minh Phân tích độ nhạy tham số Những gì nếu phân tích Báo cáo thu nhập chiếu lệ vấn đề và bài tập 1. Xây dựng mô hình bảng tính cho kịch bản sử dụng xăng, Bài toán thanh toán thế chấp hàng tháng phải chăng. Ngoài ra, các hướng 4 trong Chương 1, sử dụng dữ liệu được cung cấp. Áp dụng các dẫn cũng đề xuất rằng tổng số khoản thanh toán nợ hàng tháng hợp nguyên tắc của kỹ thuật bảng tính trong việc phát triển mô hình túi tiền, bao gồm cả chi phí nhà ở, không được vượt quá 36% của bạn. 2. Phát triển một mô hình bảng tính cho Bài toán 5 trong Chương 1. Áp dụng các nguyên tắc của kỹ thuật bảng tính trong việc phát triển mô hình của bạn. Sử dụng bảng tính để tạo bảng cho nhiều mức giá nhằm giúp bạn xác định mức giá mang lại doanh thu tối đa. 3. Phát triển một mô hình bảng tính để xác định số tiền mà một tổng thu nhập hàng tháng. Con số này được tính bằng cách lấy 36% tổng thu nhập hàng tháng trừ đi tổng chi phí nhà ở không thế chấp và bất kỳ khoản nợ trả góp nào khác, chẳng hạn như khoản vay mua ô tô, khoản vay sinh viên, nợ thẻ tín dụng, v.v. Khoản thanh toán thế chấp hàng tháng hợp lý và tổng số khoản thanh toán nợ hàng tháng hợp lý là khoản thế chấp hàng tháng hợp lý. Để tính số tiền tối đa có thể được vay, hãy tìm khoản thanh toán hàng tháng cho mỗi khoản thế chấp 1.000 đô la dựa người hoặc một cặp vợ chồng có thể chi trả cho một ngôi nhà.7 trên lãi suất hiện tại và thời hạn của khoản vay. Chia số tiền Hướng dẫn của bên cho vay đề xuất rằng chi phí nhà ở hàng thế chấp hợp lý hàng tháng cho khoản thanh toán hàng tháng này tháng có thể cho phép không được vượt quá 28% tổng thu nhập để tìm khoản thế chấp hợp lý. Giả sử khoản thanh toán trước hàng tháng. Từ đó, bạn phải trừ tổng chi phí nhà ở không thế 20%, giá tối đa của một ngôi nhà sẽ là khoản thế chấp hợp lý chấp, bao gồm bảo hiểm và thuế bất động sản và bất kỳ chi phí chia cho 0,8. Sử dụng bổ sung nào khác. Điều này xác định 7Dựa trên Ralph R. Frasca, Tài chính cá nhân, tái bản lần thứ 8. (Boston: Hội trường Prentice, 2009). Machine Translated by Google chương 11 372 dữ liệu sau đây để kiểm tra mô hình của bạn: tổng thu nhập gộp hàng tháng $6.500; chi phí nhà ở không thế chấp $350; nợ trả góp hàng tháng $500; khoản thanh toán hàng tháng cho mỗi khoản thế chấp $1.000 là $7,25. 4. MasterTech là một công ty phần mềm mới phát triển và tiếp Một. Sử dụng thông tin này để vẽ sơ đồ ảnh hưởng bằng cách nhận ra rằng cụm từ “A có liên quan đến B” ngụ ý rằng A ảnh hưởng đến B trong mô hình. b. Nếu chúng ta cho rằng cụm từ “A có liên quan đến B” có thể được dịch sang thuật ngữ toán học là A kB, trong thị phần mềm năng suất cho các ứng dụng của chính quyền đó k là một hằng số nào đó, hãy phát triển một mô thành phố. Khi phát triển báo cáo thu nhập của họ, các hình toán học cho thông tin được cung cấp. công thức sau đây được sử dụng: lợi nhuận gộp doanh thu thuần - giá vốn hàng bán lợi nhuận hoạt động thuần lợi nhuận gộp - chi phí quản lý doanh nghiệp - chi phí bán hàng Thu nhập ròng trước thuế Lợi nhuận thuần từ hoạt động kinh doanh - Chi phí lãi vay thu nhập ròng thu nhập ròng trước thuế - thuế 7. Một ban nhạc muốn tổ chức một buổi hòa nhạc. Đám đông dự kiến là 3.000. Chi phí trung bình cho các ưu đãi là 15 đô la. Mỗi vé được bán với giá 10 đô la và lợi nhuận của ban nhạc là 80% doanh thu tại cổng và nhượng quyền, trừ đi chi phí cố định là 12.000 đô la. Phát triển một mô hình toán học tổng quát và thực hiện nó trên một bảng tính để tìm lợi nhuận kỳ vọng của họ. Doanh thu thuần dự kiến là $1,250,000. Chi phí bán hàng ước tính là $300,000. Chi phí bán hàng có thành phần cố định ước tính là 90.000 USD và thành phần biến đổi ước 8. Radio Shop có bán 2 mẫu porta phổ biến radio thể thao ble, model A và model B. Doanh số bán các tính là 8% doanh thu thuần. Chi phí hành chính là $50,000. sản phẩm này không độc lập với nhau (trong kinh tế học, Chi phí lãi suất là 8.000 đô la. Công ty bị đánh thuế ở chúng ta gọi đây là những sản phẩm có thể thay thế, bởi mức 50%. Xây dựng mô hình bảng tính để tính thu nhập ròng. vì nếu giá của một sản phẩm này tăng thì doanh số của sản Thiết kế bảng tính của bạn bằng cách sử dụng các nguyên phẩm kia sẽ tăng). Cửa hàng mong muốn thiết lập chính sách tắc kỹ thuật bảng tính tốt. giá để tối đa hóa doanh thu từ các sản phẩm này. Một nghiên cứu về giá và dữ liệu bán hàng cho thấy các mối quan hệ sau đây giữa số lượng bán (N) và giá (P) của từng 5. Một công ty đang cố gắng dự đoán thị phần dài hạn của một kiểu máy: sản phẩm khử mùi mới dành cho nam giới.8 Dựa trên các nghiên cứu tiếp thị ban đầu, họ tin rằng 35% những người mua hàng mới trên thị trường này cuối cùng sẽ thử nhãn hiệu này. Họ tin rằng khoảng 60% khách hàng sẽ mua thương hiệu của họ trong tương lai. Dữ liệu sơ bộ cũng cho thấy rằng thương hiệu sẽ thu hút những người mua nặng hơn mức trung bình, chẳng hạn như những người thường xuyên tập thể dục và tham gia thể thao, và họ sẽ mua nhiều hơn khoảng 20% so với người mua trung bình. Một. Tính thị phần dài hạn mà công ty có thể dự kiến theo các giả định này. b. Phát triển một mô hình chung để dự đoán thị phần dài hạn. NA 20 - 0,62PA + 0,30PB NB 29 + 0,10PA - 0,60PB Một. Xây dựng một mô hình cho tổng doanh thu và triển khai nó trên bảng tính. b. Doanh thu dự đoán là bao nhiêu nếu PA +18 và PB +30? Điều gì sẽ xảy ra nếu giá là PA +25 và PB +50? 9. Đối với một sản phẩm mới, doanh số bán hàng trong năm đầu tiên ước tính là 80.000 chiếc và dự kiến sẽ tăng trưởng với tốc độ 4% mỗi năm. Giá bán là $12 và sẽ tăng $0,5 mỗi năm. Chi phí biến đổi trên mỗi đơn vị là 3 đô la và chi phí cố định hàng năm là 400.000 đô la. 6. Một mô hình đơn giản hóa (rất nhiều) của nền kinh tế quốc Chi phí cho mỗi đơn vị dự kiến sẽ tăng 5% mỗi năm. gia có thể được mô tả như sau. Thu nhập quốc gia là tổng Chi phí cố định dự kiến sẽ tăng 8% mỗi năm. của ba thành phần: tiêu dùng, đầu tư và chi tiêu của chính Xây dựng mô hình bảng tính để tính giá trị hiện tại ròng phủ. Tiêu dùng có liên quan đến tổng thu nhập của tất cả của lợi nhuận trong khoảng thời gian 3 năm, giả sử tỷ các cá nhân và thuế mà họ phải trả cho thu nhập. Thuế phụ lệ chiết khấu là 4%. thuộc vào tổng thu nhập và thuế suất. Đầu tư cũng liên quan đến quy mô của tổng thu nhập. 10. Một nhà môi giới chứng khoán kêu gọi các khách hàng tiềm năng từ những người được giới thiệu. Đối với mỗi cuộc gọi, có 10% cơ hội khách hàng sẽ quyết định đầu tư với công ty. Năm mươi lăm 8Dựa trên một ví dụ về mô hình Parfitt-Collins trong Gary L. Lilien, Philip Kotler, và K. Sridhar Moorthy, Các mô hình tiếp thị (Englewood Cliffs, NJ: Prentice Hall, 1992): 483. Machine Translated by Google 373 chương 11 phần trăm những người quan tâm bị phát hiện là không thay đổi từ 10 đến 30 bản mỗi tháng. Phải bán bao nhiêu đủ tiêu chuẩn, dựa trên tiêu chí sàng lọc của công ty để ít nhất hòa vốn? môi giới. Số còn lại đủ tiêu chuẩn. Trong số này, một nửa sẽ đầu tư trung bình 5.000 đô la, 25% sẽ đầu tư trung bình 20.000 đô la, 15% sẽ đầu tư trung bình 50.000 đô la và phần còn lại sẽ đầu tư 100.000 đô la. Lịch hoa hồng như sau: 13. Koehler Vision Associates (KVA) chuyên về phẫu thuật chỉnh sửa mắt bằng laser. Các bệnh nhân tương lai đặt lịch hẹn khám sàng lọc trước để xác định khả năng ứng cử của họ cho cuộc phẫu thuật: nếu họ đủ điều kiện, khoản phí $250 sẽ được áp dụng như một khoản đặt cọc cho thủ tục thực tế. Nhu cầu hàng tuần là 150 và khoảng Hoa hồng số tiền giao dịch 12% bệnh nhân tương lai không đến hoặc hủy buổi khám Lên đến 25.000 đô la $50 + 0,5% số tiền $25,001 đến $50,000 $75 + 0,4% số tiền $50,001 đến $100,000 $125 + 0,3% số tiền Người môi giới giữ một nửa hoa hồng. Xây dựng một bảng tính để tính hoa hồng của nhà môi giới dựa trên số lượng cuộc gọi được thực hiện mỗi tháng. Hoa hồng dự kiến dựa trên việc thực hiện 600 cuộc gọi là bao nhiêu? phố cỡ trung của Mỹ đang lên kế hoạch cho chiến dịch gây quỹ tiếp theo. Trong những năm gần đây, chương trình đã tìm được tỷ lệ phần trăm người quyên góp và mức quà tặng như sau: Số lượng quà tặng mức quà tặng Số lượng trung bình ân nhân 10.000 USD 3 nhà hảo tâm 5.000 USD 10 nhà sản xuất $1,000 25 $500 50 Vòng tròn nghệ sĩ độc tấu đặt trước quá nhiều cuộc hẹn của mình để giảm doanh thu bị mất liên quan đến việc hủy bỏ. Tuy nhiên, bất kỳ bệnh nhân nào đặt trước quá hạn đều có thể lan truyền những bình luận bất lợi về công ty; do đó, chi phí đặt trước quá nhiều được ước tính là $125. Xây dựng mô hình bảng tính doanh thu thuần. Tìm doanh thu thuần và số lượng hiện. 14. Công viên Tanner là một công viên giải trí nhỏ cung cấp nhiều trò chơi và hoạt động ngoài trời cho trẻ em và thanh thiếu niên. Trong một mùa hè điển hình, số lượng vé người lớn và trẻ em được bán lần lượt là 20.000 và 10.000. Giá vé người lớn là $18 và giá trẻ em là $10. Doanh thu từ nhượng quyền thực phẩm và đồ uống ước tính là 60.000 đô la và doanh thu hàng lưu niệm dự kiến là 25.000 đô la. Chi phí biến đổi cho mỗi người (người lớn hoặc trẻ em) là 3 đô la và chi phí cố định lên tới 150.000 đô la. Xác định khả năng sinh lời của hoạt động Vòng tròn Hiệu trưởng lại phí sàng lọc trước trừ đi $25 phí xử lý. KVA có thể xử lý 125 bệnh nhân mỗi tuần và đang xem xét việc đã đặt trước nếu có 140 đến 150 cuộc hẹn được thực 11. Giám đốc của một công ty múa ba lê phi lợi nhuận ở một thành Đạo diễn vào phút cuối. Những bệnh nhân không có mặt được hoàn kinh doanh này. 15. Với sự phát triển của nhiếp ảnh kỹ thuật số, một doanh $100 7% lời gạ gẫm nhân trẻ đang cân nhắc thành lập một doanh nghiệp mới, $50 12% lời gạ gẫm Cruz Wedding Photography. Anh ấy tin rằng số lượng đặt tiệc cưới trung bình mỗi năm là 15. Một trong những Phát triển một mô hình bảng tính để tính toán tổng số biến số quan trọng trong việc phát triển kế hoạch kinh tiền quyên góp dựa trên thông tin này nếu số lượng doanh của anh ấy là tuổi thọ mà anh ấy có thể mong đợi công ty liên hệ với 1000 người tiềm năng không quyên từ một chiếc máy ảnh phản xạ ống kính đơn kỹ thuật số góp ở mức 100 đô la trở xuống. (DSLR) duy nhất trước khi cần phải thay thế. Do sử dụng 12. Một siêu thị nhỏ bán xăng đặt mua 25 bản tạp chí hàng tháng. Tùy thuộc vào câu chuyện trang bìa, nhu cầu về tạp chí khác nhau. Siêu thị nhỏ xăng dầu mua các tạp chí với giá 1,50 đô la và bán chúng với giá 4,00 đô la. Bất kỳ tạp chí nào còn sót lại vào cuối tháng đều nhiều, tuổi thọ màn trập ước tính là 150.000 lần nhấp. Đối với mỗi đặt phòng, số lượng ảnh trung bình được chụp được giả định là 2.000. Xây dựng mô hình xác định tuổi thọ của camera (tính bằng năm). 16. Ủy ban điều hành của Reder Electric Xe đang tranh luận được tặng cho bệnh viện và các cơ sở chăm sóc sức khỏe về việc có nên thay thế mẫu xe ban đầu của họ, REV- khác. Sửa đổi bảng tính mẫu của nhà cung cấp tin tức Touring, bằng một mẫu xe mới, REV-Sport, sẽ thu hút đối để mô hình hóa tình huống này. Điều tra ý nghĩa tài tượng trẻ hơn hay không. Bất cứ loại xe nào được chọn chính của chính sách này nếu nhu cầu dự kiến sẽ được sản xuất trong 4 năm tới, Machine Translated by Google chương 11 374 sau thời gian đó sẽ cần phải đánh giá lại. 20. Chèn một nút xoay trong Moore Pharmaceuticals REV-Sport đã trải qua giai đoạn ý tưởng và thiết kế ban mô hình để thay đổi tỷ lệ chiết khấu trong ô B8 từ 1% đầu và sẵn sàng cho thiết kế và sản xuất cuối cùng. Chi thành 10% với mức tăng 1/10. phí phát triển cuối cùng được ước tính là 75 triệu đô la và chi phí cố định mới cho công cụ và sản xuất được ước tính là 600 triệu đô la. REV-Sport dự kiến sẽ được bán với giá 30.000 USD. Doanh số bán hàng năm đầu tiên của REV-Sport ước tính là 60.000 21. Đối với mô hình Báo cáo Thu nhập Pro Forma trong tệp Excel. bảng tính. (Gợi ý: các giá trị cuộn phải nằm trong khoảng từ 0 đến 30.000, vì vậy bạn sẽ cần sửa đổi bảng tính để bảng tính hoạt động chính xác.) chiếc, với mức tăng trưởng doanh số bán hàng trong những năm tiếp theo là 6% mỗi năm. Chi phí biến đổi trên mỗi phương tiện là không chắc chắn cho đến khi các quyết định về thiết kế và chuỗi cung ứng được hoàn tất, nhưng ước tính là 22.000 USD. Doanh số bán hàng trong năm tới của REVTouring được ước tính là 50.000 chiếc, nhưng doanh số bán 22. Tạo một bảng tính mới trong Retirement Portfolio sách bài tập. Trong trang tính này, hãy thêm kiểm soát hàng dự kiến sẽ giảm với tốc độ 10% cho mỗi năm trong vòng biểu mẫu hộp danh sách để cho phép người dùng chọn một 3 năm tới. Giá bán là 28.000 USD. Chi phí biến đổi cho mỗi trong các quỹ tương hỗ trên trang tính gốc và hiển chiếc xe là $21,000. Vì mô hình đã được sản xuất nên chi thị tóm tắt giá trị tài sản ròng, số lượng cổ phiếu và phí cố định cho việc phát triển đã được thu hồi. Phát triển tổng giá trị bằng cách sử dụng hàm VLOOKUP. (Gợi ý: hộp mô hình 4 năm để đề xuất quyết định tốt nhất bằng cách sử danh sách của bạn sẽ hiển thị tên quỹ, nhưng bạn sẽ dụng tỷ lệ chiết khấu giá trị hiện tại ròng là 5%. Mức độ cần sửa đổi bảng tính gốc để sử dụng VLOOKUP chính xác!) nhạy cảm của kết quả đối với chi phí biến đổi ước tính của REV Sport? Làm thế nào điều này có thể ảnh hưởng đến quyết định? 17. Bảo tàng Schoch đang bắt tay vào chiến dịch gây quỹ vui 23. Sử dụng ma trận khoảng cách giữa các thành phố trong tệp Giải bóng chày Mỹ, thêm các điều khiển biểu mẫu hộp danh sách để người dùng có thể chọn hai thành phố vẻ kéo dài 5 năm. Là một tổ chức phi lợi nhuận, bảo (sử dụng hai hộp danh sách) và tìm khoảng cách giữa chúng. tàng gặp khó khăn trong việc tìm kiếm các nhà tài trợ Bỏ qua phần mô hình trong trang tính. (Gợi ý: đặt liên mới vì nhiều nhà tài trợ không đóng góp hàng năm. Giả kết ô thành ô trống bất kỳ vì hộp danh sách trả về số sử rằng bảo tàng đã xác định được một nhóm 8.000 nhà của vị trí trong danh sách; sau đó sử dụng VLOOKUP để tài trợ tiềm năng. Số lượng thực tế của các nhà tài tìm khoảng cách.) trợ trong năm đầu tiên của chiến dịch được ước tính là 65% của nhóm này. Đối với mỗi năm tiếp theo, bảo tàng hy vọng rằng 35% số nhà tài trợ hiện tại sẽ ngừng đóng góp. Ngoài ra, bảo tàng hy vọng sẽ thu hút được một số phần trăm các nhà tài trợ mới. Điều này được 24. Bài toán 15 trong Chương 1 đặt ra tình huống sau: Một nhà sản xuất máy nghe nhạc mp3 đang chuẩn bị định giá cho một mẫu mã mới. Nhu cầu được cho là phụ thuộc vào giá cả và được đại diện bởi mô hình D 2.500 - 3P tổng hợp là 10% của nhóm. Khoản đóng góp trung bình trong năm đầu tiên được giả định là $50 và sẽ tăng với tốc độ 2,5%. Phát triển một mô hình để dự đoán tổng số tiền sẽ được huy động trong khoảng thời gian 5 năm và Bộ phận kế toán ước tính rằng tổng chi phí có thể được đại diện bởi C5.000 + 5D điều tra tác động của các giả định tỷ lệ phần trăm được sử dụng trong mô hình. 18. Áp dụng công cụ Data Validation cho President's Inn Tệp Cơ sở dữ liệu khách có hộp thông báo cảnh báo lỗi để đảm bảo rằng các ngày nằm trong tháng 12 và được nhập chính xác cũng như số lượng khách đã nhập không lớn hơn 6. Nhập một số dữ liệu bổ sung hư cấu để xác minh rằng kết quả của bạn là chính xác. 19. Chèn một nút xoay và thanh cuộn trong Mô hình quyết định Triển khai mô hình của bạn trên bảng tính và xây dựng bảng dữ liệu một chiều để ước tính mức giá tối đa hóa lợi nhuận. 25. Bài toán 16 ở Chương 1 đặt ra tình huống sau: Nhu cầu đi lại bằng máy bay khá nhạy cảm với giá cả. Thông thường, có một mối quan hệ nghịch đảo giữa nhu cầu và giá cả; khi giá giảm thì lượng cầu tăng và ngược lại. Một hãng hàng không lớn đã phát hiện ra rằng khi giá thuê ngoài để cho phép người dùng dễ dàng thay đổi (p) cho chuyến khứ hồi giữa Chicago và Los Angeles là khối lượng sản xuất trong ô B12 từ 500 thành 3000. 600 đô la, nhu cầu (D) là 500 hành khách mỗi ngày. Khi Cái nào dễ sử dụng hơn? Thảo luận về ưu và nhược điểm giá giảm xuống còn 400 đô la, nhu cầu là 1.200 hành của mỗi. khách Machine Translated by Google 375 chương 11 mỗi ngày. Bạn được yêu cầu phát triển một mô hình thích hợp. b. Giả sử người quản lý đang xem xét giảm hoặc tăng giá hàng Triển khai mô hình của bạn trên bảng tính và sử dụng bảng dữ liệu tuần thêm 100 đô la. Lợi nhuận sẽ bị ảnh hưởng như thế để ước tính mức giá tối đa hóa tổng doanh thu. nào? 28. Đối với mô hình Koehler Vision Associates mà bạn đã phát triển 26. Sử dụng mô hình bảng tính Mô hình định giá Markdown và bảng dữ trong Bài toán 13, hãy sử dụng các bảng dữ liệu để nghiên cứu liệu hai chiều để tìm tổng doanh thu nếu số ngày bán lẻ đầy đủ xem doanh thu bị ảnh hưởng như thế nào bởi những thay đổi về thay đổi từ 20 đến 40 với gia số 5 và giảm giá trung gian thay đổi số điểm cuộc hẹn được chấp nhận và nhu cầu của bệnh nhân. từ 15% đến 50% với gia số 5 %. 29. Đối với mô hình môi giới chứng khoán mà bạn đã phát triển trong Bài toán 10, hãy sử dụng các bảng dữ liệu để cho biết tiền hoa hồng là một hàm số 27. Giá hàng tuần tại một khách sạn lưu trú dài hạn (thuê theo tuần như thế nào đối với số lượng giao dịch được thực hiện. cho khách doanh nhân) là 950 USD. Chi phí vận hành trung bình 30. Đối với mô hình gây quỹ của công ty múa ba lê phi lợi nhuận mà bạn là 20.000 USD mỗi tuần, bất kể số lượng phòng được thuê. Xây dựng đã phát triển trong Bài toán 11, hãy sử dụng bảng dữ liệu để cho mô hình bảng tính để xác định lợi nhuận nếu 40 phòng được cho biết số tiền thay đổi như thế nào dựa trên số lượng lời kêu gọi. thuê. Người quản lý đã quan sát thấy rằng số lượng phòng được thuê trong bất kỳ tuần nào thay đổi trong khoảng từ 32 đến 50 (tổng 31. Đối với mô hình dải nhà để xe mà bạn đã phát triển trong Bài số phòng có sẵn). toán 7, hãy xác định và chạy một số tình huống hợp lý bằng cách sử dụng Trình quản lý Kịch bản để đánh giá khả năng sinh lợi cho Một. Sử dụng bảng dữ liệu để đánh giá lợi nhuận cho phạm vi cho các tình huống sau: thuê đơn vị này. Các kịch bản cho Bài toán 31 đám đông dự kiến Chi phí nhượng bộ Chi phí cố định Lạc quan Bi quan Rất có thể 3000 4500 2500 $15 $20 $12,50 $8,500 $12,500 10.000 USD 32. Hãy nghĩ về bất kỳ nhà bán lẻ nào điều hành nhiều cửa hàng trên đó sẽ được cho thuê trong 5 năm. Một mô hình Excel được cung khắp đất nước, chẳng hạn như Old Navy, Hallmark Cards hoặc cấp trong bảng tính Mô hình tài chính cửa hàng mới. Sử dụng Radio Shack, đó chỉ là một vài ví dụ. Nhà bán lẻ thường tìm Trình quản lý kịch bản để đánh giá dòng tiền chiết khấu lũy kế cách mở các cửa hàng mới và cần đánh giá khả năng sinh lời của cho năm thứ năm theo các tình huống sau: một địa điểm được đề xuất Các kịch bản cho Bài toán 32 Tỷ lệ lạm phát Tình huống 1 Tình huống 2 Tình huống 3 1% 5% 3% 25% 30% Chi phí nhân công $150,000 $225,000 200.000 USD Các chi phí khác 300.000 USD $350,000 $325,000 Doanh thu bán hàng đầu năm $600,000 $600,000 $800,000 Tăng trưởng doanh số năm 2 15% 22% 25% Tăng trưởng doanh số năm 3 10% 15% 18% Tăng trưởng doanh số năm 4 6% 11% 14% Tăng trưởng doanh số năm 5 3% 5% Giá vốn hàng bán (% trên doanh thu) 26% số 8% Machine Translated by Google 376 chương 11 33. Trung tâm Phẫu thuật Hyde Park chuyên về phẫu thuật tim 36. Giám đốc tuyển sinh của một trường cao đẳng kỹ thuật có mạch có nguy cơ cao. Trung tâm cần dự báo khả năng sinh học bổng trị giá 500.000 đô la mỗi năm từ khoản tài trợ lời trong vòng 3 năm tới để có kế hoạch tăng vốn cho các dành cho những ứng viên đạt thành tích cao. Giá trị của dự án. Trong năm đầu tiên, bệnh viện dự kiến phục vụ 1.200 mỗi học bổng được cung cấp là 25.000 đô la (do đó, 20 học bệnh nhân, dự kiến sẽ tăng 8%/năm. Dựa trên các công thức bổng được cung cấp). Nhà hảo tâm đã cung cấp số tiền muốn hoàn trả tiền thuê nhà hiện tại, mỗi bệnh nhân thanh toán thấy tất cả số tiền đó được sử dụng hàng năm cho các sinh trung bình 125.000 đô la, sẽ tăng 3% mỗi năm. Tuy nhiên, viên mới. Tuy nhiên, không phải sinh viên nào cũng nhận do chăm sóc được quản lý, trung tâm chỉ thu 25% hóa đơn. tiền; một số nhận lời mời từ các trường cạnh tranh. Nếu Chi phí biến đổi cho vật tư và thuốc được tính bằng 10% họ đợi đến khi hết thời hạn nhập học để từ chối học bổng, hóa đơn. Chi phí cố định cho tiền lương, tiện ích, v.v. học bổng đó không thể được trao cho người khác vì bất kỳ sẽ lên tới 20.000.000 đô la trong năm đầu tiên và được giả sinh viên giỏi nào khác cũng đã cam kết tham gia các định là tăng 5% mỗi năm. Xây dựng mô hình bảng tính để tính chương trình khác. Do đó, giám đốc tuyển sinh đưa ra giá trị hiện tại ròng của lợi nhuận trong 3 năm tới. Sử nhiều tiền hơn mức có sẵn với dự đoán rằng một phần trăm dụng tỷ lệ chiết khấu là 4%. Xác định ba kịch bản hợp lý mà lời đề nghị sẽ bị từ chối. Nếu hơn 20 sinh viên chấp nhận giám đốc trung tâm có thể muốn đánh giá và sử dụng Trình đề nghị, trường đại học cam kết tôn vinh họ và số tiền bổ quản lý kịch bản để so sánh chúng. sung phải lấy từ ngân sách của trưởng khoa. Dựa trên câu chuyện trước đây của anh ấy, tỷ lệ ứng viên chấp nhận lời mời là khoảng 70%. Phát triển một mô hình bảng tính cho tình huống này và áp dụng bất kỳ công cụ phân tích nào mà 34. Đối với mô hình dải nhà để xe trong Bài toán 7, hãy xây dựng biểu đồ lốc xoáy và giải thích độ nhạy của từng tham số bạn cho là phù hợp để giúp giám đốc tuyển sinh đưa ra quyết định về số lượng học bổng sẽ cung cấp. của mô hình đối với tổng lợi nhuận. 35. Đối với mô hình sản phẩm mới trong Bài toán 9, hãy xây dựng biểu đồ lốc xoáy và giải thích độ nhạy của từng tham số của Giải thích kết quả của bạn trong một bản ghi nhớ kinh doanh cho giám đốc, ông P. Woolston. mô hình đối với NPV của lợi nhuận. Trường hợp: Hiệu suất Lawn Thiết bị Phần 1: Cơ sở dữ liệu Thiết bị làm cỏ Hiệu suất chứa dữ liệu cần thiết để lập báo cáo thu nhập chiếu lệ. Các đại lý bán sản phẩm PLE đều nhận được 18% doanh thu bán hàng cho phần kinh doanh của họ và khoản này được hạch toán vào chi phí bán hàng. Thuế suất là 50%. Xây dựng bảng tính Excel để trích xuất và tóm tắt dữ liệu cần thiết để lập báo cáo thu nhập cho năm 2014 và triển khai mô hình Excel dưới dạng báo cáo thu nhập theo mẫu cho công ty. Phần 2: Giám đốc tài chính của Performance Lawn Equipment, J. Kenneth Valentine, muốn có một mô hình để dự đoán thu nhập ròng trong 3 năm tới. Để làm được điều này, bạn cần xác định xem các biến số trong báo cáo thu nhập theo quy ước có thể sẽ thay đổi như thế nào trong tương lai. Sử dụng các phép tính và bảng tính mà bạn đã phát triển cùng với các dữ liệu lịch sử khác trong cơ sở dữ liệu, hãy ước tính tỷ lệ thay đổi hàng năm về doanh thu bán hàng, giá vốn hàng bán, chi phí hoạt động và chi phí lãi vay. Sử dụng các tỷ lệ này để sửa đổi báo cáo thu nhập pro Forma để dự đoán thu nhập ròng trong 3 năm tới. Do các ước tính mà bạn thu được từ dữ liệu lịch sử có thể không đúng trong tương lai, hãy tiến hành phân tích điều gì xảy ra nếu, kịch bản và/hoặc độ nhạy tham số thích hợp để điều tra xem các dự đoán có thể thay đổi như thế nào nếu những giả định này không đúng. Xây dựng một biểu đồ lốc xoáy để cho thấy các giả định tác động như thế nào đến thu nhập ròng trong mô hình của bạn. Tóm tắt kết quả và kết luận của bạn trong một báo cáo cho ông Valentine. Machine Translated by Google Phân tích rủi ro và mô CHƯƠNG phỏng Monte Carlo iQoncept/Shutterstock.com Mục tiêu học tập Sau khi nghiên cứu chương này, bạn sẽ có thể: Giải thích khái niệm và tầm quan trọng của việc phân tích rủi ro Giải thích tầm quan trọng của “lỗi của số trung bình.” trong các quyết định kinh doanh. Tiến hành mô phỏng Monte Carlo sử dụng dữ liệu lịch sử và kỹ thuật Sử dụng bảng dữ liệu để tiến hành mô phỏng Monte Carlo đơn lấy mẫu lại. giản. Sử dụng phân phối được trang bị để xác định các biến không chắc chắn trong Sử dụng Nền tảng bộ giải phân tích để phát triển, triển khai và một mô phỏng. phân tích các mô hình mô phỏng Monte Carlo. Xác định và sử dụng các bản phân phối tùy chỉnh ở Monte Carlo Tính khoảng tin cậy cho giá trị trung bình của đầu ra trong mô hình mô phỏng. mô phỏng. Tương quan các biến không chắc chắn trong một mô hình mô phỏng Xây dựng và giải thích các biểu đồ độ nhạy, lớp phủ, xu hướng sử dụng Nền tảng bộ giải phân tích. và hộp râu cho một mô hình mô phỏng. 377 Machine Translated by Google 378 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Đối với nhiều mô hình quyết định dự đoán mà chúng ta đã phát triển trong Chương 11, tất cả dữ liệu—đặc biệt là các đầu vào không kiểm soát được—được giả định là đã biết và không đổi. Các mô hình khác, chẳng hạn như mô hình nhà cung cấp tin tức, đặt trước quá nhiều và lập kế hoạch nghỉ hưu, kết hợp các yếu tố đầu vào không thể kiểm soát, chẳng hạn như nhu cầu của khách hàng, hủy phòng khách sạn và lợi tức đầu tư hàng năm, những mô hình này thể hiện hành vi ngẫu nhiên. Chúng ta thường giả sử các biến như vậy là không đổi đối với sim khuếch đại mô hình và phân tích. Tuy nhiên, nhiều tình huống đòi hỏi tính ngẫu nhiên phải được kết hợp rõ ràng vào các mô hình của chúng tôi. Điều này thường được thực hiện bằng cách xác định các phân phối xác suất cho các đầu vào không kiểm soát thích hợp. Như chúng tôi đã lưu ý trước đó trong cuốn sách này, các mô hình bao gồm tính ngẫu nhiên được gọi là các mô hình ngẫu nhiên hoặc xác suất. Các loại mô hình này giúp đánh giá rủi ro liên quan đến hậu quả không mong muốn và tìm ra các quyết định tối ưu trong điều kiện không chắc chắn. Rủi ro là khả năng xảy ra một kết quả không mong muốn. Nó có thể được đánh giá bằng cách đánh giá xác suất mà kết quả sẽ xảy ra cùng với mức độ nghiêm trọng của kết quả. Ví dụ, một khoản đầu tư có xác suất thua lỗ cao sẽ rủi ro hơn khoản đầu tư có xác suất thua lỗ thấp hơn. Tương tự như vậy, một khoản đầu tư có thể dẫn đến khoản lỗ 10 triệu đô la chắc chắn rủi ro hơn khoản đầu tư chỉ có thể dẫn đến khoản lỗ 10.000 đô la. Khi đánh giá rủi ro, chúng ta có thể trả lời các câu hỏi như, Xác suất mà chúng ta sẽ gánh chịu tổn thất tài chính là gì? So sánh xác suất của các tổn thất tiềm năng khác nhau như thế nào? Xác suất mà chúng tôi sẽ hết hàng tồn kho là gì? Cơ hội mà một dự án sẽ được hoàn thành đúng hạn là gì? Phân tích rủi ro là một cách tiếp cận để phát triển “sự hiểu biết và nhận thức toàn diện về rủi ro liên quan đến một biến quan tâm cụ thể (có thể là thước đo hoàn trả, hồ sơ dòng tiền hoặc dự báo kinh tế vĩ mô).”1 Hertz và Thomas trình bày một kịch bản đơn giản để minh họa khái niệm phân tích rủi ro: Các giám đốc điều hành của một công ty thực phẩm phải quyết định có nên tung ra một gói ngũ cốc lâu năm mới hay không. Họ đã đi đến kết luận rằng năm yếu tố là các biến số khai thác ngăn cản: chi phí quảng cáo và xúc tiến, tổng thị trường ngũ cốc, thị phần của sản phẩm này, chi phí vận hành và vốn đầu tư mới. Trên cơ sở ước tính “rất có thể” cho từng biến số này, bức tranh có vẻ rất tươi sáng—mức lợi nhuận hợp lý 30%, cho thấy giá trị hiện tại ròng kỳ vọng dương đáng kể. Tuy nhiên, tương lai này phụ thuộc vào từng ước tính “rất có thể” trở thành sự thật trong trường hợp thực tế. Ví dụ, nếu mỗi “dự đoán có tính toán” này có 60% cơ hội đúng, thì chỉ có 8% cơ hội mà cả năm dự đoán sẽ đúng (0,60 * 0,60 * 0,60 * 0,60 * 0,60) nếu các yếu tố được giả định được độc lập. Vì vậy, lợi nhuận "kỳ vọng" hoặc giá trị hiện tại 1David B. Hertz và Howard Thomas, Phân tích rủi ro và các ứng dụng của nó (Chichester, Vương quốc Anh: John Wiley & Sons, Ltd., 1983): 1. Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 379 biện pháp, thực sự phụ thuộc vào một sự trùng hợp khá khó xảy ra. Người ra quyết định cần biết nhiều hơn về các giá trị khác được sử dụng để thực hiện từng ước tính trong số năm ước tính và về những gì anh ta được hoặc mất từ các kết hợp khác nhau của các giá trị này.2 Do đó, phân tích rủi ro tìm cách kiểm tra các tác động của sự không chắc chắn trong các ước tính và khả năng tương tác của chúng với nhau đối với biến đầu ra quan tâm. Hertz và Thomas cũng lưu ý rằng thách thức đối với các nhà phân tích rủi ro là định hình kết quả của các quy trình phân tích rủi ro theo cách có ý nghĩa đối với người quản lý và cung cấp cái nhìn sâu sắc rõ ràng về vấn đề, cho thấy rằng mô phỏng có nhiều lợi thế. Trong chương này, chúng ta thảo luận về cách xây dựng và phân tích các mô hình liên quan đến sự không chắc chắn và rủi ro bằng cách sử dụng Excel. Sau đó, chúng tôi giới thiệu Nền tảng bộ giải phân tích để thực hiện mô phỏng Monte Carlo. Chúng tôi muốn chỉ ra rằng chủ đề mô phỏng có thể lấp đầy toàn bộ cuốn sách. Một lĩnh vực mô phỏng hoàn toàn khác mà chúng tôi không đề cập đến trong cuốn sách này, đó là mô phỏng các hệ thống động, chẳng hạn như hàng đợi, hệ thống kiểm kê, hệ thống sản xuất, v.v. Điều này đòi hỏi các công cụ triển khai và tạo mô hình khác nhau và được tiếp cận tốt nhất bằng cách sử dụng phần mềm thương mại. Mô phỏng hệ thống là một công cụ quan trọng để phân tích hoạt động, trong khi mô phỏng Monte Carlo, như chúng tôi mô tả, tập trung nhiều hơn vào phân tích rủi ro tài chính. Mô hình bảng tính với các biến ngẫu nhiên Trong Chương 5, chúng tôi đã mô tả cách lấy mẫu ngẫu nhiên từ các phân phối xác suất và tạo các biến ngẫu nhiên nhất định bằng cách sử dụng các công cụ và hàm Excel. Chúng tôi sẽ sử dụng các kỹ thuật này để chỉ ra cách kết hợp sự không chắc chắn vào các mô hình quyết định. VÍ DỤ 12.1 Kết hợp sự không chắc chắn trong Mô hình quyết định thuê ngoài Tham khảo lại mô hình quyết định thuê ngoài mà chúng tôi đã standard_deviation), như được mô tả trong Chương 5, để tạo giới thiệu trong Chương 1 và chúng tôi đã phát triển một mô ra các giá trị ngẫu nhiên của nhu cầu (Khối lượng Sản xuất) hình Excel trong Chương 11. Mô hình này được hiển thị lại bằng cách thay thế đầu vào trong ô B12 của bảng tính bằng trong Hình 12.1. Giả sử rằng khối lượng sản xuất là không chắc chắn. công thức =ROUND(NORM.INV (RAND(), 1000, 100), 0). Chúng ta có thể lập mô hình nhu cầu như một biến ngẫu nhiên Hàm ROUND được sử dụng để đảm bảo rằng các giá trị sẽ là số có phân bố xác suất nào đó. Giả sử nhà sản xuất có đủ dữ liệu nguyên. Bất cứ khi nào nhấn phím F9 (trên PC Windows) hoặc nút và thông tin để cho rằng nhu cầu (khối lượng sản xuất) sẽ Tính toán ngay được nhấp từ nhóm Tính toán trong tab Công được phân phối chuẩn với giá trị trung bình là 1.000 và độ thức, trang tính sẽ được tính toán lại và giá trị của nhu cầu lệch chuẩn là 100. Chúng ta có thể sử dụng hàm Excel NORM.INV sẽ thay đổi ngẫu nhiên. (xác suất, giá trị trung bình, Mô phỏng Monte Carlo Mô phỏng Monte Carlo là quá trình tạo ra các giá trị ngẫu nhiên cho các đầu vào không chắc chắn trong một mô hình, tính toán các biến đầu ra quan tâm và lặp lại quá trình này cho nhiều 2 Sđd., 24. Machine Translated by Google 380 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.1 Mô hình quyết định thuê ngoài bảng tính thử nghiệm để hiểu sự phân bố của các kết quả đầu ra. Ví dụ, trong mô hình quyết định thuê ngoài, chúng ta có thể tạo ngẫu nhiên khối lượng sản xuất và tính toán chênh lệch chi phí và quyết định liên quan, sau đó lặp lại điều này cho một số thử nghiệm. Có thể dễ dàng thực hiện mô phỏng Monte Carlo trên bảng tính bằng bảng dữ liệu. VÍ DỤ 12.2 Sử dụng bảng dữ liệu để mô phỏng bảng tính Monte Carlo Hình 12.2 cho thấy một mô phỏng Monte Carlo cho mô hình Số lượng thử nghiệm nhỏ mà chúng tôi sử dụng trong ví quyết định thuê ngoài (Mô hình mô phỏng quyết định thuê dụ này khiến lỗi lấy mẫu trở thành một vấn đề quan trọng. Chúng ngoài trong tệp Excel). Đầu tiên, xây dựng một bảng dữ tôi có thể dễ dàng thu được các kết quả khác biệt đáng kể nếu liệu (xem Chương 11) bằng cách liệt kê số lượng thử chúng tôi lặp lại mô phỏng (bằng cách nhấn phím F9 trên PC nghiệm trong một cột (ở đây chúng tôi sử dụng 20 thử Windows). Ví dụ: các mô phỏng lặp đi lặp lại mang lại tỷ lệ nghiệm) và tham chiếu các ô liên quan đến nhu cầu, sự khác phần trăm sau đây cho việc thuê ngoài là quyết định tốt nhất: biệt và quyết định trong các ô E3, F3 và G3, tương ứng 40%, 60%, 65%, 45%, 75%, 45% và 35%. Có sự thay đổi đáng kể (nghĩa là công thức trong ô E3 là =B12; trong ô F3 là trong kết quả, nhưng điều này có thể được giảm bớt bằng cách =B19; và trong ô G3 là =B20). Chọn phạm vi của bảng (D3:G23) sử dụng một số lượng lớn các thử nghiệm. —và đây là mẹo—trong trường Ô đầu vào cột trong hộp thoại Để hiểu rõ hơn về sự thay đổi này, chúng ta hãy Bảng dữ liệu, hãy nhập bất kỳ ô trống nào trong bảng tính. xây dựng một khoảng tin cậy cho tỷ lệ các quyết định Điều này được thực hiện bởi vì số thử nghiệm không liên dẫn đến khuyến nghị sản xuất với cỡ mẫu (số lượng thử quan đến bất kỳ tham số nào trong mô hình; chúng tôi chỉ nghiệm) n = 20 bằng cách sử dụng dữ liệu trong Hình muốn lặp lại tính toán lại bảng tính một cách độc lập cho 12.2. Sử dụng công thức (6.4) từ Chương 6, khoảng từng hàng của bảng dữ liệu, biết rằng nhu cầu sẽ thay đổi tin cậy 95% cho tỷ lệ này là 0,55 1,96 mỗi lần do sử dụng hàm RAND trong công thức nhu cầu. Như bạn có thể thấy từ kết quả, mỗi thử nghiệm có một 20 B 0.5510.452 = 0,55 0,22 hoặc [0,33, 0,77]. Bởi vì nhu cầu được tạo ngẫu nhiên. Quá trình bảng dữ liệu thay thế CI bao gồm các giá trị dưới và trên 0,5, điều này cho thấy rằng các yêu cầu này vào ô B12 và tìm thấy quyết định và sự khác chúng tôi có ít sự chắc chắn về quyết định tốt nhất. Tuy nhiên, nếu biệt liên quan trong các cột F và G. Sự khác biệt trung bình chúng tôi thu được tỷ lệ tương tự bằng cách sử dụng 1.000 thử nghiệm, là $535 và 55% số thử nghiệm dẫn đến quyết định tốt nhất là 1000 thuê ngoài; biểu đồ cho thấy sự phân phối của các kết quả. khoảng tin cậy sẽ là 0,55 1,96 B 0,5510,452 Những kết quả này có thể gợi ý rằng, mặc dù chưa biết nhu cầu 0,55 0,03 hoặc [0,52, 0,58]. Điều này cho thấy rằng chúng trong tương lai, lựa chọn tốt nhất của nhà sản xuất có thể tôi tin tưởng rằng thuê ngoài sẽ là quyết định tốt hơn là thuê ngoài. Tuy nhiên, có một rủi ro là đây có thể không trong hơn một nửa thời gian. phải là quyết định tốt nhất. = Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.2 Mô phỏng Monte Carlo của Mô hình quyết định thuê ngoài 381 Mặc dù việc sử dụng bảng dữ liệu minh họa cách chúng ta có thể áp dụng mô phỏng Monte Carlo cho mô hình quyết định, nhưng việc áp dụng cho các vấn đề phức tạp hơn là không thực tế. Ví dụ, trong mô hình Moore Pharmaceuticals ở Chương 11, nhiều tham số của mô hình, chẳng hạn như quy mô thị trường ban đầu, chi phí dự án, các yếu tố tăng trưởng quy mô thị trường và tốc độ tăng trưởng thị phần, đều có thể không chắc chắn. Ngoài ra, chúng ta cần có khả năng nắm bắt và lưu kết quả của hàng nghìn thử nghiệm để thu được kết quả thống kê tốt và sẽ rất hữu ích nếu xây dựng biểu đồ kết quả và tính toán nhiều thống kê khác nhau để tiến hành phân tích thêm. May mắn thay, hiện có các phương pháp tiếp cận phần mềm tinh vi dễ dàng thực hiện các chức năng này. Phần còn lại của chương này tập trung vào việc học cách sử dụng Nền tảng bộ giải phân tích phần mềm để thực hiện mô phỏng Monte Carlo quy mô lớn. Chúng ta sẽ bắt đầu với mô hình quyết định thuê ngoài đơn giản. Mô phỏng Monte Carlo bằng Nền tảng bộ giải phân tích Để sử dụng Nền tảng bộ giải phân tích, bạn phải thực hiện các bước sau: 1. Xây dựng mô hình bảng tính. 2. Xác định các phân phối xác suất mô tả các yếu tố đầu vào không chắc chắn trong mô hình của bạn. 3. Xác định các biến đầu ra mà bạn muốn dự đoán. 4. Đặt số lần thử hoặc số lần lặp lại cho mô phỏng. 5. Chạy mô phỏng. 6. Diễn giải kết quả. Xác định đầu vào mô hình không chắc chắn Khi đầu vào mô hình không chắc chắn, chúng ta cần mô tả chúng bằng một số phân phối xác suất. Đối với nhiều mô hình quyết định, dữ liệu thực nghiệm có thể có sẵn, hoặc trong hồ sơ lịch sử của anh ấy hoặc được thu thập thông qua những nỗ lực đặc biệt. Ví dụ, hồ sơ bảo trì Machine Translated by Google 382 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro có thể cung cấp dữ liệu về tỷ lệ hỏng máy và thời gian sửa chữa, hoặc những người quan sát có thể thu thập dữ liệu về thời gian phục vụ tại ngân hàng hoặc bưu điện. Điều này cung cấp cơ sở thực tế để lựa chọn phân bố xác suất phù hợp để mô hình hóa biến đầu vào. Chúng ta có thể xác định một phân phối phù hợp bằng cách khớp dữ liệu lịch sử với một mô hình lý thuyết, như chúng ta đã minh họa trong Chương 5. Trong các tình huống khác, dữ liệu lịch sử không có sẵn, và chúng ta có thể dựa trên các thuộc tính của các phân phối xác suất chung và các ứng dụng điển hình mà chúng ta đã thảo luận trong Chương 5 để giúp chọn một phân phối đại diện có hình dạng thể hiện hợp lý nhất sự hiểu biết của nhà phân tích về biến không chắc chắn. Ví dụ, một phân phối bình thường là đối xứng, với một đỉnh ở giữa. Dữ liệu hàm mũ bị sai lệch rất tích cực, không có giá trị âm. Phân phối tam giác có phạm vi giới hạn và có thể bị lệch theo cả hai hướng. Rất thường xuyên, phân phối đồng nhất hoặc tam giác được sử dụng trong trường hợp không có dữ liệu. Những phân phối này phụ thuộc vào các tham số đơn giản mà người ta có thể dễ dàng xác định dựa trên kiến thức và phán đoán của người quản lý. Ví dụ, để xác định phân phối đồng đều, chúng ta chỉ cần biết các giá trị nhỏ nhất và lớn nhất có thể mà biến có thể nhận. Đối với phân phối tam giác, chúng tôi cũng bao gồm giá trị có khả năng nhất. Ví dụ, trong ngành xây dựng, những người giám sát có kinh nghiệm có thể dễ dàng cho bạn biết thời gian nhanh nhất, khả dĩ nhất và chậm nhất để thực hiện một nhiệm vụ chẳng hạn như đóng khung nhà, có tính đến thời tiết và sự chậm trễ có thể xảy ra đối với vật liệu, nhân công vắng mặt, v.v. Có hai cách để xác định các biến không chắc chắn trong Nền tảng bộ giải phân tích. Một là sử dụng các hàm Excel tùy chỉnh để tạo các mẫu ngẫu nhiên từ các phân phối xác suất mà chúng tôi đã mô tả trong Bảng 5.1 ở Chương 5. Điều này tương tự như phương pháp mà chúng tôi đã sử dụng cho ví dụ gia công phần mềm khi chúng tôi sử dụng hàm NORM.INV trong Monte Mô phỏng bảng tính Carlo. Ví dụ: hàm Nền tảng bộ giải phân tích tương đương với NORM.INV(RAND(), trung bình, độ lệch chuẩn) là PsiNormal(trung bình, độ lệch chuẩn). VÍ DỤ 12.3 Sử dụng các hàm phân phối xác suất của nền tảng bộ giải tích Đối với Mô hình quyết định thuê ngoài, chúng tôi giả định phân phối khối lượng sản xuất trong mô hình quyết định thuê rằng khối lượng sản xuất được phân phối chuẩn với giá trị ngoài, chúng ta có thể sử dụng chức năng PsiNormal(mean, trung bình là 1.000 và độ lệch chuẩn là 100, như trong ví dụ stan dard độ lệch). Vì vậy, chúng ta có thể nhập công thức trước. Tuy nhiên, chúng ta làm cho vấn đề trở nên phức tạp =PsiNormal(1000, 100) vào ô B12. Để đảm bảo rằng kết quả là hơn một chút bằng cách giả định rằng đơn giá mua hàng từ một số nguyên, chúng ta có thể sửa đổi công thức thành nhà cung cấp cũng không chắc chắn và có phân phối tam giác =ROUND(PsiNormal(1000,100),0). Để lập mô hình đơn giá, chúng với giá trị tối thiểu là 160 đô la, giá trị rất có thể là 175 ta có thể nhập công thức =PsiTriangular(160, 175, 200) vào ô đô la và giá trị tối đa là 200 đô la. Để mô hình hóa B10. Cách thứ hai để xác định một biến không chắc chắn là sử dụng nút Phân phối trong dải băng Nền tảng Bộ giải Phân tích. Đầu tiên, chọn ô trong bảng tính mà bạn muốn xác định phân phối. Nhấp vào nút Phân phối như trong Hình 12.3. Chọn một bản phân phối từ một trong các danh mục trong danh sách bật lên. Thao tác này sẽ hiển thị hộp thoại trong đó bạn có thể xác định các tham số của phân phối. Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 383 Hình 12.3 Nền tảng bộ giải phân tích Tùy chọn phân phối VÍ DỤ 12.4 Sử dụng Nút Phân phối trong Nền tảng Bộ giải Phân tích Trong bảng tính Mô hình Quyết định Gia công, chọn ô B12, khối lượng sản nút Lưu ở đầu hộp thoại. Nền tảng bộ giải phân tích sẽ nhập hàm Psi chính xuất. Nhấp vào Phân phối xác vào ô trong bảng tính và bạn có thể đóng hộp thoại. Đối với chi phí đơn trong dải băng Nền tảng bộ giải phân tích và chọn phân phối chuẩn từ danh vị, hãy chọn ô B10 và chọn phân phối tam giác từ danh sách. Hình 12.5 hiển mục Chung. Thao tác này sẽ hiển thị hộp thoại như trong Hình 12.4. Trong thị hộp thoại đã hoàn thành sau khi nhập các tham số tối thiểu, khả năng ngăn bên phải, thay đổi giá trị của giá trị trung bình và giá trị tiêu và tối đa. Nếu bấm đúp vào một ô không chắc chắn, bạn có thể xuất hiện hộp chuẩn trong Tham số để phản ánh phân phối mà bạn muốn lập mô hình; trong thoại này để thực hiện chỉnh sửa bổ sung nếu cần. trường hợp này, đặt giá trị trung bình là 1.000 và stdev là 100. Nhấp vào Hình 12.4 Nền tảng bộ giải phân tích Hộp thoại phân phối bình thường Machine Translated by Google 384 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.5 Nền tảng bộ giải phân tích Hộp thoại phân phối tam giác Xác định các ô đầu ra Để xác định một ô mà bạn muốn dự đoán và tạo phân phối các giá trị đầu ra từ mô hình của bạn (mà Nền tảng bộ giải phân tích gọi là một ô hàm không chắc chắn), trước tiên hãy chọn ô đó, rồi bấm vào nút Kết quả trong nhóm Mô hình mô phỏng trong Bộ giải phân tích Dải băng nền tảng. Chọn tùy chọn Đầu ra và sau đó chọn Trong ô. VÍ DỤ 12.5 Sử dụng Nút Kết quả trong Nền tảng Bộ giải Phân tích Đối với Mô hình Quyết định Gia công phần mềm, hãy chọn ô B19 +PsiOutput( ) theo cách thủ công vào công thức ô để chỉ định (giá trị chênh lệch chi phí) và sau đó chọn tùy chọn Trong nó làm ô đầu ra. Tuy nhiên, bạn chỉ có thể chọn các ô đầu ra ô, như chúng tôi đã mô tả. Hình 12.6 cho thấy quá trình này. là số; do đó, bạn không thể chọn ô B20, ô hiển thị kết quả văn Nền tảng bộ giải phân tích sửa đổi công thức trong ô thành = bản. B16 B17 + PsiOutput(). Bạn cũng có thể thêm Chạy mô phỏng Để chạy mô phỏng, trước tiên hãy nhấp vào nút Tùy chọn trong nhóm Tùy chọn trong dải băng Nền tảng Bộ giải Phân tích. Thao tác này sẽ hiển thị một hộp thoại (xem Hình 12.7) trong đó bạn có thể chỉ định số lần thử nghiệm và các tùy chọn khác để chạy mô phỏng (đảm bảo Mô phỏng tab được chọn). Thử nghiệm trên mỗi Mô phỏng cho phép bạn chọn số lần mà Nền tảng bộ giải phân tích sẽ tạo các giá trị ngẫu nhiên cho các ô không chắc chắn trong mô hình và tính toán lại toàn bộ bảng tính. Bởi vì mô phỏng Monte Carlo về cơ bản là lấy mẫu thống kê, bạn sử dụng số lượng thử nghiệm càng lớn thì kết quả sẽ càng chính xác. Trừ khi mô hình cực kỳ phức tạp, nếu không thì một số lượng lớn các bản dùng thử sẽ không đánh thuế quá mức đối với máy tính ngày nay, vì vậy chúng tôi khuyên bạn nên sử dụng ít nhất 5.000 bản dùng thử (phiên bản dành cho giáo dục giới hạn mức này ở mức tối đa 10.000 bản dùng thử). Bạn nên sử dụng số lượng thử nghiệm lớn hơn vì số lượng ô không chắc chắn trong mô hình của bạn tăng lên để mô phỏng có thể tạo ra các mẫu đại diện từ tất cả các bản phân phối cho các giả định. Bạn có thể chạy nhiều hơn một mô phỏng nếu bạn muốn kiểm tra sự thay đổi trong kết quả. Quy trình mà Nền tảng bộ giải phân tích sử dụng sẽ tạo ra một luồng số ngẫu nhiên mà từ đó các giá trị của đầu vào không chắc chắn được chọn từ xác suất của chúng Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 385 Hình 12.6 Nền tảng bộ giải phân tích Tùy chọn kết quả Hình 12.7 Nền tảng bộ giải phân tích Hộp thoại Tùy chọn phân phối. Mỗi khi bạn chạy mô hình, bạn sẽ nhận được kết quả hơi khác nhau do lỗi lấy mẫu. Tuy nhiên, bạn có thể kiểm soát điều này bằng cách đặt giá trị cho Sim. Hạt giống ngẫu nhiên trong hộp thoại. Nếu bạn chọn một số khác 0, thì cùng một chuỗi số ngẫu nhiên sẽ được sử dụng để tạo các giá trị ngẫu nhiên cho các đầu vào không chắc chắn; điều này sẽ đảm bảo rằng các giá trị giống nhau sẽ được sử dụng mỗi khi bạn chạy mô hình. Điều này hữu ích khi bạn muốn thay đổi một biến có thể kiểm soát trong mô hình của mình và so sánh kết quả cho Machine Translated by Google 386 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro các giá trị giả thiết giống nhau. Miễn là bạn sử dụng cùng một số, các giả định được tạo ra sẽ giống nhau cho tất cả các mô phỏng. Nền tảng Bộ giải Phân tích có các phương pháp lấy mẫu thay thế; hai cách phổ biến nhất là lấy mẫu Monte Carlo và Latin Hypercube. Lấy mẫu Monte Carlo chọn các biến ngẫu nhiên độc lập trên toàn bộ phạm vi giá trị có thể có của phân phối. Với lấy mẫu Latin Hypercube, phân phối xác suất của biến không chắc chắn được chia thành các khoảng xác suất bằng nhau và tạo ra một giá trị ngẫu nhiên trong mỗi khoảng. Lấy mẫu Latin Hypercube dẫn đến phân phối các giá trị đầu ra đồng đều hơn vì nó lấy mẫu toàn bộ phạm vi phân phối theo cách nhất quán hơn, do đó đạt được thống kê dự báo chính xác hơn (đặc biệt là giá trị trung bình) cho một số thử nghiệm Monte Carlo cố định. Tuy nhiên, lấy mẫu Monte Carlo mang tính đại diện hơn cho thực tế và nên được sử dụng nếu bạn quan tâm đến việc đánh giá hiệu suất của mô hình theo các tình huống giả định khác nhau. Trừ khi bạn là người dùng nâng cao, chúng tôi khuyên bạn nên để các tùy chọn khác ở giá trị mặc định của chúng. Bước cuối cùng là chạy mô phỏng bằng cách nhấp vào nút Mô phỏng trong nhóm Hành động Giải quyết. Khi quá trình mô phỏng kết thúc, bạn sẽ thấy thông báo “Quá trình mô phỏng kết thúc thành công” ở góc dưới bên trái của cửa sổ Excel. Xem và phân tích kết quả Bạn có thể chỉ định xem bạn có muốn các biểu đồ đầu ra tự động xuất hiện sau khi chạy mô phỏng hay không bằng cách bấm vào nút Tùy chọn trong dải băng Nền tảng Bộ giải Phân tích và chọn hoặc bỏ chọn hộp Hiển thị biểu đồ sau khi mô phỏng trong tab Biểu đồ. Bạn cũng có thể xem kết quả mô phỏng bất kỳ lúc nào bằng cách nhấp đúp vào ô đầu ra có chứa hàm PsiOutput() hoặc bằng cách chọn Mô phỏng từ Báo cáo trong nhóm Phân tích trong dải băng Nền tảng Bộ giải Phân tích. Điều này sẽ hiển thị một win dow với các tab khác nhau hiển thị các biểu đồ khác nhau để phân tích kết quả. VÍ DỤ 12.6 Phân tích kết quả mô phỏng cho Mô hình quyết định thuê ngoài Hình 12.8 hiển thị tab Tần suất trong cửa sổ kết quả mô phỏng. sự khác biệt. Từ biểu đồ, chúng ta thấy rằng có khoảng 59% khả Đây là phân phối tần suất của chênh lệch chi phí cho 5.000 thử năng xảy ra giá trị âm đối với gia công phần mềm, theo đó sản nghiệm sử dụng phương pháp lấy mẫu Monte Carlo. Bạn có thể xuất nội bộ sẽ là tốt nhất. Đường màu đỏ phân chia các vùng thấy rằng sự phân phối hơi bị lệch một cách tiêu cực. trong trong biểu đồ được gọi là đường đánh dấu. Bạn có thể di thống kê chuyển nó bằng chuột để tính toán các vùng xác suất khác nhau. ở bên phải, chúng ta thấy rằng chênh lệch chi phí trung bình Khi bạn làm như vậy, các giá trị trong phần Thống kê biểu đồ là - 3.068 đô la, điều này cho thấy rằng, về trung bình, sẽ sẽ thay đổi. Bạn có thể nhấp chuột phải vào một dòng đánh dấu tốt hơn nếu tự sản xuất hơn là thuê bên ngoài. Chúng tôi để xóa nó; bạn cũng có thể thêm các đường đánh dấu mới bằng cũng thấy rằng chênh lệch chi phí tối thiểu là -43.222 đô la cách nhấp chuột phải để hiển thị xác suất giữa các đường đánh và chênh lệch tối đa là 24.367 đô la. Đây là ước tính về kết dấu trong biểu đồ. Nếu bạn chỉ định cả giá trị Ngưỡng dưới quả tốt nhất và xấu nhất có thể được mong đợi, cung cấp thêm và Ngưỡng trên mỗi ngưỡng, các đường đánh dấu sẽ được thêm bằng chứng cho thấy việc sản xuất nội bộ có thể tốt hơn. vào ở cả hai giá trị và thống kê Khả năng xảy ra sẽ là xác suất giữa chúng. Các tab khác trong cửa sổ kết quả hiển thị Trong phần Thống kê biểu đồ của Thống kê ngăn, bạn có thể chỉ định giá trị Ngưỡng dưới, Khả năng hoặc phân phối tần số tích lũy và phân phối tần số tích lũy ngược, cũng như biểu đồ độ nhạy và biểu đồ phân tán mà chúng ta sẽ Ngưỡng trên. Các tùy chọn này giúp bạn phân tích biểu đồ tần thảo luận trong các ví dụ khác. Cách tốt nhất để học cách phân số. Ví dụ, nếu chúng ta đặt Upper Cutoff là 0, chúng ta sẽ có tích các biểu đồ là thử nghiệm. được biểu đồ như trong Hình 12.9. Điều này minh họa khả năng xảy ra chi phí âm (cũng như dương) Ngoài ra, bạn có thể thay đổi cách hiển thị ở khung bên phải bằng cách chọn các tùy chọn khác trong menu thả xuống Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 387 Hình 12.8 Kết quả mô phỏng— Chênh lệch chi phí Tính thường xuyên Phân bổ Hình 12.9 xác suất của một Chi phí âm Sự khác biệt bằng cách nhấp vào mũi tên xuống ở bên phải tiêu đề Statis của phân phối tích lũy của đầu ra; ví dụ: phân vị thứ 10 tics. Các tùy chọn là Phần trăm, Loại biểu đồ, Tùy chọn biểu trong các kết quả mô phỏng này là -$16.550 (không hiển thị). đồ, Tùy chọn trục và Điểm đánh dấu. Tùy chọn Phần trăm phần Điều này có nghĩa là 10% chênh lệch chi phí mô phỏng nhỏ trăm hiển thị phần trăm kết quả mô phỏng và về cơ bản là hơn hoặc bằng một bảng số Các tùy chọn khác chỉ đơn giản là để tùy chỉnh biểu đồ. 16.550 đô la. Trong phần còn lại của chương này, chúng tôi trình bày một số ví dụ bổ sung về mô phỏng Monte Carlo bằng cách sử dụng Nền tảng bộ giải phân tích. Chúng phục vụ để minh họa nhiều ứng dụng trong đó phương pháp này có thể được sử dụng và cả các tính năng khác nhau của Nền tảng bộ giải phân tích và các công cụ để phân tích các mô hình mô phỏng. Machine Translated by Google 388 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Mô hình phát triển sản phẩm mới Mô hình bảng tính của Moore Pharmaceuticals để hỗ trợ quyết định phát triển sản phẩm mới đã được giới thiệu trong Chương 11; Hình 12.10 mô tả lại mô hình. Mặc dù các giá trị được sử dụng trong bảng tính gợi ý rằng loại thuốc mới sẽ có lãi vào năm thứ tư, nhưng phần lớn dữ liệu trong mô hình này là không chắc chắn. Vì vậy, chúng tôi có thể quan tâm đến việc đánh giá rủi ro liên quan đến dự án. Ba câu hỏi chúng tôi có thể quan tâm như sau: 1. Giá trị hiện tại ròng trong 5 năm sẽ không dương là rủi ro gì? 2. Cơ hội để sản phẩm tạo ra lợi nhuận ròng tích lũy trong năm là bao nhiêu? năm thứ ba? 3. Lợi nhuận tích lũy nào trong năm thứ năm mà chúng ta có khả năng nhận ra với xác suất ít nhất là 0,90? Giả sử rằng người quản lý dự án của Moore Pharmaceuticals đã xác định được các biến không chắc chắn sau đây trong mô hình và các phân phối cũng như tham số mô tả chúng, như sau: Quy mô thị trường: bình thường với trung bình 2.000.000 đơn vị và độ lệch chuẩn 400.000 đơn vị Chi phí R&D: thống nhất giữa $600,000,000 và $800,000,000 Chi phí thử nghiệm lâm sàng: lognormal với giá trị trung bình là 150.000.000 USD và độ lệch chuẩn là 30.000.000 USD Yếu tố tăng trưởng thị trường hàng năm: hình tam giác với tối thiểu 2%, tối đa 6% và rất có thể là 3% Tốc độ tăng trưởng thị phần hàng năm: hình tam giác với tối thiểu tối đa 25% và rất có thể là 20% Hình 12.10 Dược phẩm Moore Mô hình bảng tính 15%, Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 389 VÍ DỤ 12.7 Thiết lập mô hình mô phỏng cho Moore Pharmaceuticals Như chúng ta đã biết trước đó, chúng ta có thể sử dụng chức năng Psi Hệ số tăng trưởng thị trường hàng năm (các ô từ C18 đến F18): hoặc các nút Phân phối trong dải băng Nền tảng Bộ giải Phân tích để chỉ =PsiHình tam giác(2%, 3%, 6%) định các biến không chắc chắn. Mặc dù kết quả là như nhau nhưng các hàm Tốc độ tăng trưởng thị phần hàng năm (ô C20 đến Psi thường dễ sử dụng hơn. Để lập mô hình quy mô thị trường, chúng ta F20): =PsiHình tam giác(15%, 20%, 25%) có thể sử dụng hàm PsiNormal(trung bình, độ lệch chuẩn). Vì vậy, chúng ta có thể nhập công thức =PsiNormal(2000000, 400000) vào ô B5. Tương tự, chúng ta có thể sử dụng các hàm sau cho các biến không chắc chắn còn lại: Bởi vì các yếu tố tăng trưởng thị trường hàng năm và tốc độ tăng trưởng thị phần sử dụng cùng một cách phân phối, nên chúng ta chỉ cần nhập chúng một lần rồi sao chép chúng sang các ô khác. Chúng tôi xác định lợi nhuận ròng tích lũy cho mỗi năm (các ô từ B28 Chi phí R&D (ô B11): =PsiUniform(600000000, 800000000) đến F28) và giá trị hiện tại ròng (ô B30) làm các ô đầu ra. Chi phí thử nghiệm lâm sàng (ô B12): =PsiLognormal(150000000, 30000000) Bây giờ chúng ta chuẩn bị chạy mô phỏng và phân tích kết quả. Nếu mô hình mô phỏng của bạn chứa nhiều hơn một hàm đầu ra, thì Biểu đồ biến thiên chứa đồ thị tần số của tối đa 9 hàm đầu ra và các biến không chắc chắn sẽ xuất hiện như trong Hình 12.11. Trong trường hợp này, Biểu đồ Biến số hiển thị các biểu đồ tần suất cho tất cả 6 hàm không chắc chắn (ô B28:F28 và B30) và 3 đầu vào không chắc chắn (B5, B11 và B12) trong mô hình Moore Pharmaceutical. Bạn có thể tùy chỉnh điều này bằng cách chọn hoặc bỏ chọn các hộp trong ngăn Bộ lọc; ví dụ: bạn có thể loại bỏ các phân phối đầu vào không chắc chắn và chỉ hiển thị sáu đầu ra. Như đã lưu ý trước đó trong chương này, bạn cũng có thể chặn hiển thị tự động biểu đồ trong tab Biểu đồ sau khi nhấp vào nút Tùy chọn. Trong ví dụ này, chúng tôi đã sử dụng 10.000 thử nghiệm. Chúng ta có thể sử dụng các biểu đồ tần suất trong các kết quả mô phỏng để trả lời các câu hỏi phân tích rủi ro mà chúng ta đã đặt ra trước đó. Hình 12.11 Biểu đồ biến cho mô phỏng Kết quả Machine Translated by Google 390 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro VÍ DỤ 12.8 Phân tích rủi ro đối với Moore Pharmaceuticals 1. Xác suất mà giá trị hiện tại ròng trong 5 năm sẽ không dương là bao nhiêu? Bấm đúp vào ô B30 để hiển thị kết 3. Lợi nhuận tích lũy nào trong năm thứ năm mà chúng ta có khả năng nhận ra với xác suất ít nhất là 0,90? quả mô phỏng cho đầu ra giá trị hiện tại ròng. Nhập số Một cách dễ dàng để trả lời câu hỏi này là xem kết quả 0 cho giá trị Upper Cutoff trong ngăn Thống kê. Kết quả Phần Trăm (xem Hình 12.14). Do đó, chúng ta có thể mong được thể hiện trong Hình 12.12; điều này cho thấy đợi lợi nhuận ròng tích lũy khoảng 180.000 đô la trở lên khoảng 18% khả năng NPV sẽ không dương. với độ chắc chắn 90%. Một cách khác là đặt ngưỡng thấp hơn trong trường Thống kê biểu đồ thành một số nhỏ hơn 2. Khả năng sản phẩm sẽ hiển thị một cu là bao nhiêu? lợi nhuận ròng tăng trưởng trong năm thứ ba? Nhấp đúp vào ô D28, lợi nhuận ròng tích lũy trong năm thứ 3. Nhập giá trị 0 cho giá trị Lower Cutoff, như minh họa trong Hình 12.13. Điều này cho thấy xác suất thu được lợi nhuận ròng tích lũy dương trong năm thứ ba chỉ khoảng 9%. Hình 12.12 Xác suất của một không tích cực Giá trị hiện tại ròng Hình 12.13 Xác suất của một Non-Positive Tích lũy ròng năm thứ ba Lợi nhuận giá trị tối thiểu và sau đó đặt khả năng thành 10%. Nền tảng bộ giải phân tích sẽ tính toán và vẽ một đường đánh dấu cho giá trị của ngưỡng trên cung cấp độ chắc chắn nhỏ hơn ngưỡng trên 10% và do đó, độ chắc chắn lớn hơn 90% so với ngưỡng trên. Machine Translated by Google 391 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.14 Phần trăm cho năm thứ năm Lợi nhuận ròng tích lũy Khoảng tin cậy cho giá trị trung bình Mô phỏng Monte Carlo thực chất là một thí nghiệm lấy mẫu. Mỗi khi bạn chạy một mô phỏng, bạn sẽ nhận được các kết quả hơi khác nhau như chúng ta đã quan sát thấy trong Ví dụ 12.2 đối với mô hình quyết định thuê ngoài. Do đó, các số liệu thống kê như giá trị trung bình là một quan sát đơn lẻ từ một mẫu gồm n thử nghiệm từ một quần thể chưa biết nào đó. Trong Chương 6, chúng ta đã thảo luận về cách xây dựng khoảng tin cậy cho trung bình tổng thể để đo lường sai số trong việc ước lượng trung bình tổng thể thực. Chúng ta có thể sử dụng thông tin thống kê để xây dựng khoảng tin cậy cho giá trị trung bình bằng cách sử dụng một biến thể của công thức (6.3) trong Chương 6: x { za 2 1s 1n2 (12.1) Bởi vì mô phỏng Monte Carlo nói chung sẽ có số lượng thử nghiệm rất lớn (chúng tôi đã sử dụng 10.000), nên chúng tôi có thể sử dụng giá trị z chuẩn thông thường thay vì phân phối t trong công thức khoảng tin cậy. VÍ DỤ 12.9 Khoảng tin cậy cho giá trị hiện tại ròng trung bình Chúng tôi sẽ xây dựng khoảng tin cậy 95% cho NPV trung bình Điều này có nghĩa là nếu chúng ta chạy lại mô phỏng với các bằng cách sử dụng kết quả mô phỏng từ ví dụ về Dược phẩm đầu vào ngẫu nhiên khác nhau, chúng ta có thể mong đợi NPV Moore. Từ số liệu thống kê ở hình 12.12, ta có trung bình = $200,608,120 độ lệch chuẩn = $220,980,564 n = 10.000 Với khoảng tin cậy 95%, zA 2 = 1,96. Do đó, sử dụng công thức (12.1), khoảng tin cậy 95% cho giá trị trung bình sẽ là $200,608,120 1.961220.980.564 10.0002, hoặc [$196.276.901, $204.939.339] trung bình thường nằm trong khoảng này. Để giảm kích thước của khoảng tin cậy, chúng ta cần chạy mô phỏng cho số lượng thử nghiệm lớn hơn. Tuy nhiên, đối với hầu hết các ứng dụng phân tích rủi ro, giá trị trung bình ít quan trọng hơn so với phân phối thực tế của các kết quả. Machine Translated by Google 392 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Biểu đồ độ nhạy Tính năng biểu đồ độ nhạy cho phép bạn xác định ảnh hưởng của từng đầu vào mô hình không chắc chắn đối với một biến đầu ra dựa trên mối tương quan của nó với biến đầu ra. Biểu đồ độ nhạy hiển thị thứ hạng của từng biến không chắc chắn theo tác động của nó đối với một ô đầu ra dưới dạng biểu đồ lốc xoáy. Biểu đồ độ nhạy cung cấp ba lợi ích: 1. Nó cho biết những biến không chắc chắn nào ảnh hưởng nhiều nhất đến các biến đầu ra và sẽ được hưởng lợi từ các ước tính tốt hơn. 2. Nó cho biết những biến không chắc chắn nào ảnh hưởng ít nhất đến các biến đầu ra và có thể bỏ qua hoặc loại bỏ hoàn toàn. 3. Bằng cách cung cấp hiểu biết về cách các biến không chắc chắn ảnh hưởng đến mô hình của bạn, nó cho phép bạn phát triển các mô hình bảng tính thực tế hơn và cải thiện độ chính xác của kết quả. Có thể xem biểu đồ độ nhạy bằng cách nhấp vào tab Độ nhạy trong cửa sổ kết quả (xem Hình 12.15). VÍ DỤ 12.10 Giải thích biểu đồ độ nhạy cho NPV Hình 12.15 hiển thị biểu đồ độ nhạy và ô đầu ra giá trị hiện ô biến bất định có ảnh hưởng không đáng kể. Điều này có nghĩa tại ròng (B30). Các ô biến không chắc chắn được xếp hạng từ là nếu bạn muốn giảm nhiều nhất sự thay đổi trong phân phối trên xuống dưới, bắt đầu với ô có giá trị tương quan tuyệt NPV, bạn cần thu thập thông tin tốt hơn về quy mô thị trường đối cao nhất với NPV. Trong ví dụ này, chúng ta thấy rằng ô ước tính và sử dụng phân phối xác suất có phương sai nhỏ B5, quy mô thị trường, có tương quan khoảng 0,95 với NPV; hơn. Mối tương quan nhỏ giữa NPV và các yếu tố tăng trưởng chi phí R&D (ô B11) có tương quan âm 0,255 và chi phí thử thị trường cho thấy rằng việc sử dụng các giá trị không đổi nghiệm lâm sàng (ô B12) có tương quan âm 0,130 với NPV. Cái thay vì phân phối xác suất không chắc chắn sẽ ít ảnh hưởng khác đến kết quả. Biểu đồ lớp phủ Nếu một mô phỏng có nhiều dự báo liên quan, thì tính năng biểu đồ lớp phủ cho phép bạn xếp chồng các phân phối tần suất từ các dự báo đã chọn trên một biểu đồ để so sánh sự khác biệt và tương đồng có thể không rõ ràng. Hình 12.15 Biểu đồ độ nhạy cho Net Giá trị hiện tại Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 393 VÍ DỤ 12.11 Tạo biểu đồ lớp phủ Để tạo biểu đồ lớp phủ, hãy bấm vào nút Biểu đồ trong nhóm tương ứng với lợi nhuận ròng lũy kế trong năm 1 và 5. Hình Phân tích trong dải băng Nền tảng Bộ giải Phân tích. 12.17 cho thấy biểu đồ lớp phủ phân phối lợi nhuận ròng lũy Nhấp vào Nhiều kết quả mô phỏng (không chọn Nhiều mô phỏng!) kế trong năm 1 và 5. rồi chọn Lớp phủ. Trong Báo cáo Biểu đồ này cho thấy rõ ràng rằng giá trị trung bình của năm hộp thoại xuất hiện, hãy chọn các ô biến đầu ra mà bạn muốn 1 nhỏ hơn so với năm 5 và phương sai trong năm 5 lớn hơn đưa vào biểu đồ và di chuyển chúng sang bên phải của hộp nhiều so với năm 1. Điều này có thể xảy ra vì có nhiều sự thoại bằng cách sử dụng các nút mũi tên (xem Hình 12.16). không chắc chắn hơn trong việc dự đoán xa hơn trong tương Trong ví dụ này, chúng tôi đã chọn các ô B28 và F28, lai , và mô hình nắm bắt điều này. Hình 12.16 Hộp thoại báo cáo để chọn Các ô đầu ra cho một lớp phủ Đồ thị Hình 12.17 Biểu đồ lớp phủ cho Năm 1 và Lợi nhuận ròng tích lũy năm 5 Machine Translated by Google 394 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Biểu đồ xu hướng Nếu một mô phỏng có nhiều biến đầu ra có liên quan với nhau (chẳng hạn như theo thời gian), bạn có thể xem phân phối của tất cả các biến đầu ra trên một biểu đồ duy nhất, được gọi là biểu đồ xu hướng. Trong Nền tảng bộ giải phân tích, biểu đồ xu hướng hiển thị các giá trị trung bình cũng như các dải 75% và 90% (khoảng xác suất) xung quanh giá trị trung bình. Ví dụ: dải đại diện cho dải 90% cho biết dải giá trị mà biến đầu ra có 90% khả năng rơi vào đó. VÍ DỤ 12.12 Tạo biểu đồ xu hướng Để tạo một biểu đồ xu hướng cho Moore Pharmaceuticals biểu đồ và di chuyển chúng sang bên phải của hộp thoại bằng dụ, hãy bấm vào nút Biểu đồ trong nhóm Phân tích trong dải các nút mũi tên. Trong ví dụ này, chúng tôi đã chọn các ô từ băng Nền tảng Bộ giải Phân tích. Nhấp vào Nhiều kết quả mô B28 đến F28, tương ứng với lợi nhuận ròng tích lũy trong tất phỏng rồi chọn Xu hướng. (Hãy cẩn thận để không nhầm lẫn cả các năm. Hình 12.18 cho thấy một biểu đồ xu hướng cho các giữa “Nhiều kết quả mô phỏng” với “Nhiều mô phỏng” trong menu biến này. Chúng ta thấy rằng mặc dù lợi nhuận ròng tích lũy thả xuống; đây là các tùy chọn khác nhau.) Trong hộp thoại trung bình tăng theo thời gian, nhưng sự thay đổi cũng vậy, Báo cáo xuất hiện, hãy chọn các ô biến đầu ra mà bạn muốn đưa điều này cho thấy sự không chắc chắn trong việc dự báo tương vào lai cũng tăng theo thời gian. Biểu đồ hình hộp Cuối cùng, Nền tảng bộ giải phân tích có thể tạo các biểu đồ hình hộp để minh họa các đặc tính thống kê của các phân phối biến đầu ra theo một kiểu thay thế. Biểu đồ hình hộp thể hiện các giá trị tối thiểu, phần tư thứ nhất, trung bình, phần tư thứ ba và giá trị tối đa trong một tập dữ liệu dưới dạng biểu đồ. Các phần tư thứ nhất và thứ ba tạo thành một hộp xung quanh trung vị, hiển thị 50% dữ liệu ở giữa và các râu mở rộng đến các giá trị tối thiểu và tối đa. Chúng có thể được tạo bằng cách nhấp vào nút Biểu đồ tương tự như biểu đồ lớp phủ và biểu đồ xu hướng. Hình 12.19 cho thấy một ví dụ về lợi nhuận ròng tích lũy trong mô phỏng Moore Pharmaceuticals. Hình 12.18 Biểu đồ xu hướng tích lũy Lợi nhuận ròng trong 5 năm Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 395 Hình 12.19 Ví dụ về bộ giải phân tích Biểu đồ hộp -râu nền tảng Báo cáo mô phỏng Nền tảng bộ giải phân tích cho phép bạn tạo các báo cáo ở dạng trang tính Excel tóm tắt một mô phỏng. Để thực hiện việc này, hãy bấm vào nút Báo cáo trong nhóm Phân tích trong dải băng Nền tảng Bộ giải Phân tích và chọn Mô phỏng từ các tùy chọn xuất hiện. Báo cáo tóm tắt thông tin thống kê cơ bản về mô hình, các tùy chọn mô phỏng, các biến không xác định và các biến đầu ra, hầu hết chúng ta đã thấy trong biểu đồ. Sẽ rất hữu ích nếu cung cấp bản ghi mô phỏng để tham khảo nhanh. người bán báo Trong Chương 11, chúng ta đã phát triển mô hình nhà cung cấp tin tức để phân tích quyết định mua hàng trong một khoảng thời gian. Ở đây, chúng tôi áp dụng mô phỏng Monte Carlo để dự đoán khả năng sinh lời của các số lượng mua khác nhau khi nhu cầu trong tương lai không chắc chắn. Chúng ta hãy giả sử rằng chủ cửa hàng đã lưu giữ hồ sơ trong 20 năm qua về số lượng hộp được bán với giá gốc, như thể hiện trong bảng tính ở Hình 12.20 (Mô hình nhà cung cấp tin tức tệp Excel với Dữ liệu Lịch sử). Việc phân phối doanh số bán hàng dường như là một số loại phân phối không theo phương thức sai lệch tích cực. Lỗ hổng của trung bình Bạn có thể thắc mắc tại sao chúng ta không thể đơn giản sử dụng các giá trị trung bình cho các đầu vào không chắc chắn trong mô hình quyết định và loại bỏ nhu cầu mô phỏng Monte Carlo. Hãy xem điều gì sẽ xảy ra nếu chúng ta làm điều này cho mô hình nhà cung cấp tin tức. VÍ DỤ 12.13 Sử dụng Giá trị Trung bình trong Mô hình Newsvendor Nếu tìm giá trị trung bình của doanh số bán kẹo trước đây, chúng xây dựng một bảng dữ liệu để đánh giá lợi nhuận cho từng giá trị ta sẽ có 44,05 hoặc làm tròn thành một số nguyên, 44. Sử dụng lịch sử (cũng được hiển thị trong Hình 12.21), chúng tôi thấy giá trị này cho nhu cầu và số lượng mua, mô hình dự đoán lợi rằng lợi nhuận trung bình chỉ là $255,00. nhuận là $264 (xem Hình 12.21). Tuy nhiên, nếu chúng ta Machine Translated by Google 396 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.20 Newsvendor Model với Dữ liệu lịch sử Hình 12.21 Ví dụ về lỗ hổng của trung bình Tiến sĩ Sam Savage, một người ủng hộ mạnh mẽ mô hình bảng tính, đã đặt ra thuật ngữ lỗ hổng của các số trung bình để mô tả hiện tượng này. Về cơ bản, điều này nói lên rằng việc đánh giá đầu ra của mô hình sử dụng giá trị trung bình của đầu vào không nhất thiết phải bằng giá trị trung bình của đầu ra khi được đánh giá với từng giá trị đầu vào. Lý do điều này xảy ra trong ví dụ về người bán báo là vì số lượng bán được giới hạn ở mức nhỏ hơn giữa nhu cầu và số lượng mua, vì vậy ngay cả khi nhu cầu vượt quá số lượng mua, lợi nhuận vẫn bị hạn chế. Sử dụng trung bình trong các mô hình có thể che giấu rủi ro và đây là một lỗi phổ biến đối với những người sử dụng mô hình phân tích. Đây là lý do tại sao mô phỏng Monte Carlo lại có giá trị. Mô phỏng Monte Carlo sử dụng dữ liệu lịch sử Chúng ta có thể thực hiện mô phỏng Monte Carlo bằng cách lấy mẫu lại từ phân phối doanh số bán hàng lịch sử—nghĩa là bằng cách chọn ngẫu nhiên một giá trị từ dữ liệu lịch sử làm nhu cầu trong mô hình. Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 397 VÍ DỤ 12.14 Mô phỏng Mô hình nhà cung cấp báo bằng cách lấy mẫu lại Trong Mô hình Newsvendor với dữ liệu lịch sử trải rộng lợi nhuận ô B17 như một ô chức năng không chắc chắn, đặt các tùy trang tính, chúng tôi có dữ liệu lịch sử được liệt kê trong phạm chọn mô phỏng (chúng tôi đã chọn 5.000 thử nghiệm) và chạy mô phỏng. vi D2:D21. Tất cả những gì chúng ta cần làm là xác định phân phối Hình 12.22 cho thấy kết quả; với số lượng mua là 44, lợi nhuận nhu cầu trong ô B11 bằng cách sử dụng hàm PsiDisUniform trong Nền trung bình là $255,00. Biểu đồ tần số, cũng được thể hiện trong tảng bộ giải phân tích. Hàm này sẽ lấy mẫu một giá trị từ dữ liệu Hình 12.22, có vẻ hơi kỳ quặc. Tuy nhiên, hãy nhớ lại rằng nếu lịch sử cho mỗi lần thử mô phỏng. nhu cầu vượt quá số lượng mua, thì doanh số bán hàng chỉ giới hạn Nhập công thức =PsiDisUniform(D2:D21) vào ô B11. ở số lượng đã mua, điều này giải thích cho sự tăng đột biến lớn Bây giờ, bạn có thể thiết lập mô hình mô phỏng bằng cách xác định ở bên phải phân phối. Mô phỏng Monte Carlo sử dụng phân phối được trang bị Mặc dù việc lấy mẫu từ dữ liệu thực nghiệm rất dễ thực hiện, nhưng nó có một số nhược điểm. Đầu tiên, dữ liệu thực nghiệm có thể không đại diện đầy đủ cho dân số cơ bản thực sự do lỗi lấy mẫu. Thứ hai, việc sử dụng phân phối theo kinh nghiệm sẽ loại trừ các giá trị lấy mẫu nằm ngoài phạm vi của dữ liệu thực tế. Do đó, thông thường nên điều chỉnh một phân phối và sử dụng nó cho biến không chắc chắn. Chúng ta có thể làm điều này bằng cách khớp một phân phối với dữ liệu bằng cách sử dụng các kỹ thuật mà chúng ta đã mô tả trong Chương 5. VÍ DỤ 12.15 Sử dụng phân phối phù hợp cho mô phỏng Monte Carlo Thực hiện theo các bước trong Ví dụ 5.42, trước tiên hãy tô sáng nếu bạn muốn chấp nhận phân phối được trang bị. Nhấp vào Có và phạm vi dữ liệu trong bảng tính Mô hình nhà cung cấp tin tức với một cửa sổ bật lên sẽ cho phép bạn kéo và đặt hàm vào một ô trong dữ liệu lịch sử và bấm vào Khớp từ nhóm Công cụ trong dải băng bảng tính. Đặt hàm Psi cho phân phối nhị thức âm trong ô đầu tiên Nền tảng bộ giải phân tích. Vì số lượng bán rời rạc, hãy chọn nút của dữ liệu (ô D2). radio Rời rạc trong hộp thoại Fit Options và nhấp vào Fit. Hình Để sử dụng điều này cho mô phỏng, chỉ cần tham chiếu ô D2 trong ô 12.23 cho thấy phân phối phù hợp nhất, phân phối nhị thức âm. Khi B11, tương ứng với nhu cầu trong mô hình. Hình 12.24 cho thấy các bạn cố gắng đóng hộp thoại, Nền tảng bộ giải phân tích sẽ hỏi kết quả, khá giống với các kết quả được tìm thấy bằng cách lấy mẫu lại trong Ví dụ 12.14. Hình 12.22 người bán báo Kết quả mô phỏng sử dụng Lấy mẫu lại để mua hàng Số lượng = 44 Machine Translated by Google 398 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.23 Phân phối phù hợp nhất cho Bán kẹo lịch sử Hình 12.24 Mô phỏng nhà cung cấp tin tức Kết quả sử dụng tiêu cực Phân phối nhị thức cho Số lượng mua = 44 Nền tảng bộ giải phân tích có một tính năng được gọi là Mô phỏng tương tác. Bất cứ khi nào nhấp vào nút Mô phỏng, bạn sẽ nhận thấy rằng bóng đèn trong biểu tượng sẽ sáng. Nếu bạn thay đổi bất kỳ số nào trong mô hình, Nền tảng bộ giải phân tích sẽ tự động chạy mô phỏng cho số đó; điều này giúp dễ dàng tiến hành phân tích what-if. Ví dụ: thay đổi số lượng mua thành 50 sẽ cho kết quả như trong Hình 12.25. Lợi nhuận trung bình giảm xuống còn $246,05. Bạn có thể sử dụng phương pháp này để xác định số lượng mua tốt nhất; tuy nhiên, một phương pháp có hệ thống hơn được mô tả trong Chương B bổ sung trực tuyến. Mô hình đặt trước quá nhiều Trong Chương 11, chúng tôi đã phát triển một mô hình cho các quyết định đặt trước quá nhiều (Mô hình đặt trước quá nhiều khách sạn). Trong bất kỳ tình huống đặt trước vượt mức thực tế nào, nhu cầu thực tế của khách hàng cũng như số lần hủy sẽ là các biến ngẫu nhiên. Chúng tôi minh họa cách một mô hình mô phỏng có thể giúp đưa ra quyết định đặt trước vượt mức tốt nhất và giới thiệu một loại phân phối mới trong Nền tảng bộ giải phân tích, một phân phối tùy chỉnh. Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 399 Hình 12.25 Mô phỏng nhà cung cấp tin tức Kết quả mua hàng Số lượng = 50 Hình 12.26 Đặt trước quá nhiều khách sạn Mô hình mô phỏng và Phân phối nhu cầu Phân phối tùy chỉnh trong Nền tảng bộ giải phân tích Chúng ta hãy giả sử rằng dữ liệu lịch sử về nhu cầu đã được thu thập và tóm tắt theo phân phối tần suất tương đối, nhưng dữ liệu thực tế không còn nữa. Những điều này được thể hiện trong các cột D và E trong Hình 12.26 (Mô hình mô phỏng Đặt trước quá nhiều khách sạn ở Monte Carlo trong tệp Excel với nhu cầu tùy chỉnh). Chúng tôi cũng giả định rằng mỗi đặt phòng có xác suất bị hủy không đổi p 0,04; do đó, số lần hủy (ô B14) có thể được lập mô hình bằng cách sử dụng phân phối nhị thức với n số lần đặt trước được thực hiện và p xác suất hủy. VÍ DỤ 12.16 Xác định Phân phối Tùy chỉnh trong Nền tảng Bộ giải Phân tích Để sử dụng phân phối tần suất tương đối để xác định nhu cầu không tương ứng với nhu cầu, sau đó nhấp vào Phân phối chắc chắn trong Mô hình đặt trước quá nhiều khách sạn với tùy chỉnh trong dải băng Nền tảng bộ giải phân tích và chọn Rời rạc từ Nhu cầu (lưu ý rằng bảng tính này đã được hoàn thành; để theo danh mục Tùy chỉnh. Trong hộp thoại, hãy chỉnh sửa phạm vi dõi, hãy sao chép cột D và E vào bản gốc Khách sạn cho “giá trị” và “trọng số” trong phần Tham số ở các trường Overbooking Model worksheet) đầu tiên chọn ô B12 mà bên phải. Giá trị tương ứng với phạm vi (còn tiếp) Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 400 Hình 12.27 Phân phối rời rạc tùy chỉnh hộp thoại Hình 12.28 Hộp thoại phân phối nhị thức của nhu cầu trong các ô D2:D13 và trọng số là tần suất hoặc thử nghiệm phải là giá trị trong ô B13. Điều này rất quan xác suất tương đối trong các ô E2:E13. Sau đó, hộp thoại sẽ trọng trong ví dụ này, vì số lượng đặt trước được thực hiện hiển thị hình thức phân phối thực tế, như trong Hình 12.27. sẽ thay đổi, tùy thuộc vào nhu cầu của khách hàng trong ô B12. Ngoài ra, bạn có thể sử dụng hàm =Psi Do đó, trong phần Tham số của hộp thoại, chúng ta phải tham Rời rạc($D$2:$D$13,$E$2:$E$13) trong ô B12. chiếu ô B13 và không sử dụng giá trị hằng số, như trong Hình Để lập mô hình số lần hủy trong ô B14, hãy chọn phân phối 12.28. Ngoài ra, chúng ta có thể sử dụng hàm =PsiBinomial(B13, nhị thức từ danh mục Mèo rời rạc trong danh sách Phân phối. 0,04) trong ô B14. Xác định ô B17 và B18 là ô đầu ra và chạy Lưu ý rằng số lượng mô hình. Hình 12.29 và 12.30 hiển thị biểu đồ tần suất của hai biến đầu ra—số lượng khách hàng đặt trước vượt mức và doanh thu thuần—để chấp nhận 310 đặt phòng. Có khoảng 14% cơ hội đặt trước quá nhiều cho ít nhất một khách hàng. Quan sát rằng dường như có hai phân phối khác nhau chồng lên nhau trong phân phối tần suất doanh thu ròng. Bạn có thể giải thích tại sao điều này là như vậy? Đối với vấn đề nhà cung cấp tin tức, chúng ta có thể dễ dàng thay đổi số lượng đặt trước được thực hiện và khả năng Mô phỏng tương tác sẽ nhanh chóng chạy một mô phỏng mới và thay đổi kết quả trong biểu đồ tần suất. Mô hình ngân sách tiền mặt Lập ngân sách tiền mặt là quá trình lập dự kiến và tóm tắt dòng tiền vào và dòng tiền ra dự kiến của công ty trong khoảng thời gian lập kế hoạch, thường là từ 6 đến 12 tháng.3 Ngân quỹ tiền mặt cũng cho biết số dư tiền mặt hàng tháng và bất kỳ khoản vay ngắn hạn nào được sử dụng để chi trả. 3Douglas R. Emery, John D. Finnerty, và John D. Stowe, Nguyên tắc quản lý tài chính (Upper Saddle River, NJ: Prentice Hall, 1998): 652–654. Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 401 Hình 12.29 Biểu đồ tần suất về số lượng khách hàng đặt trước quá nhiều Hình 12.30 Biểu đồ tần số của Net Doanh thu thâm hụt tiền mặt. Dòng tiền dương có thể làm tăng tiền mặt, giảm dư nợ hoặc được sử dụng ở nơi khác trong doanh nghiệp; dòng tiền âm có thể làm giảm tiền mặt sẵn có hoặc được bù đắp bằng khoản vay bổ sung. Hầu hết các ngân sách tiền mặt được dựa trên dự báo bán hàng. Với sự không chắc chắn cố hữu trong các dự báo như vậy, mô phỏng Monte Carlo là một công cụ thích hợp để phân tích ngân sách tiền mặt. Hình 12.31 cho thấy một ví dụ về bảng tính ngân sách tiền mặt (File Excel Mô hình ngân sách tiền mặt). Các ô được đánh dấu đại diện cho các biến và đầu ra không chắc chắn mà chúng tôi muốn dự đoán từ mô hình mô phỏng. Ngân sách bắt đầu vào tháng 4 (do đó, doanh số bán hàng cho tháng 4 và các tháng tiếp theo là không chắc chắn). Chúng được giả định là phân phối chuẩn với độ lệch chuẩn là 10% giá trị trung bình. Ngoài ra, chúng tôi giả định rằng doanh số bán hàng trong các tháng liền kề có tương quan với nhau, với hệ số tương quan là 0,6. Trung bình, 20% doanh thu được thu trong tháng bán hàng, 50% trong tháng sau khi bán hàng và 30% trong tháng thứ hai sau khi bán hàng. Tuy nhiên, những con số này không chắc chắn, do đó phân phối đồng đều được sử dụng để lập mô hình cho hai giá trị đầu tiên (tương ứng là 15% đến 20% và 40% đến 50%), với giả định rằng tất cả doanh thu còn lại được thu vào tháng thứ hai sau tháng thứ hai. doanh thu. mua là 60% của Machine Translated by Google 402 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.31 Mô hình ngân sách tiền mặt bán hàng và được thanh toán 1 tháng trước khi bán hàng. Tiền công và tiền lương là 12% doanh số bán hàng và được trả trong cùng tháng bán hàng. Tiền thuê $10,000 trả mỗi tháng. Chi phí hoạt động bằng tiền mặt bổ sung là 30.000 đô la mỗi tháng sẽ phát sinh từ tháng 4 đến tháng 7, giảm xuống còn 25.000 đô la cho tháng 8 và tháng 9. Các khoản thanh toán thuế $20.000 và $30.000 dự kiến lần lượt vào tháng 4 và tháng 7. Chi phí vốn là 150.000 đô la sẽ xảy ra vào tháng 6 và công ty có khoản thanh toán thế chấp là 60.000 đô la vào tháng 5. Số dư tiền mặt vào cuối tháng 3 là 150.000 đô la và các nhà quản lý luôn muốn duy trì số dư tiền mặt tối thiểu là 100.000 đô la. Công ty sẽ vay số tiền cần thiết để đảm bảo đạt được số dư tối thiểu. Bất kỳ khoản tiền mặt nào trên mức tối thiểu sẽ được sử dụng để thanh toán bất kỳ số dư khoản vay nào cho đến khi nó được loại bỏ. Số dư tiền mặt khả dụng ở hàng 25 của bảng tính là các biến đầu ra mà chúng tôi muốn dự đoán. VÍ DỤ 12.17 Mô phỏng Mô hình Ngân sách Tiền mặt không có Tương quan Xây dựng mô hình mô phỏng cơ bản bằng cách xác định phân phối phân phối thống nhất =PsiUniform(15%, 20%) và đối với tỷ lệ cho từng biến không chắc chắn. Đầu tiên, chỉ định doanh số từ thu tiền của tháng trước trong ô B8, hãy sử dụng tháng 4 đến tháng 10 (ô E5:K5) được phân phối chuẩn với giá =PsiUniform(40%, 50%). Xác định số dư khả dụng trong hàng 25 trị trung bình bằng giá trị trong bảng tính và độ lệch chuẩn làm biến đầu ra trong mô hình mô phỏng. Tệp Excel Mô hình mô bằng 10% giá trị trung bình. phỏng ngân sách tiền mặt Monte Carlo cung cấp mô hình mô Ví dụ: sử dụng hàm =PsiNormal(600000,60000) trong ô E5. Đối phỏng đã hoàn thành. với tỷ lệ thu thập hiện tại trong ô B7, hãy sử dụng Hình 12.32 cho thấy kết quả của Ví dụ 12.17 dưới dạng biểu đồ xu hướng. Chúng tôi nhận thấy khả năng cao là số dư tiền mặt trong 3 tháng đầu năm sẽ âm trước khi tăng lên. Xem các biểu đồ tần suất và số liệu thống kê cho các tháng riêng lẻ sẽ cung cấp chi tiết về phân phối số dư tiền mặt có khả năng và xác suất Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 403 Hình 12.32 Mô phỏng số dư tiền mặt Biểu đồ xu hướng yêu cầu các khoản vay. Ví dụ: vào tháng 4, xác suất số dư sẽ không vượt quá mức tối thiểu 100.000 USD và yêu cầu khoản vay bổ sung là khoảng 0,70 (xem Hình 12.33). Điều này thực sự trở nên tồi tệ hơn vào tháng 5 và tháng 6 và trở thành 0 vào tháng 7. Các biến không chắc chắn tương quan Trừ khi bạn chỉ định khác, mô phỏng Monte Carlo giả định rằng mỗi biến không chắc chắn là độc lập với tất cả các biến khác. Điều này có thể không phải là trường hợp. Trong mô hình ngân sách tiền mặt, nếu doanh số bán hàng trong tháng 4 cao, thì doanh số bán hàng trong tháng 5 cũng sẽ cao. Vì vậy, chúng ta có thể mong đợi một mối tương quan tích cực giữa các biến này. Trong kịch bản này, chúng tôi giả định hệ số tương quan giữa doanh số bán hàng trong các tháng liên tiếp là 0,6. Ví dụ sau đây cho thấy cách kết hợp giả định này vào mô hình mô phỏng. Hình 12.33 Khả năng không gặp nhau Số dư tối thiểu trong tháng 4 Machine Translated by Google 404 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro VÍ DỤ 12.18 Kết hợp các mối tương quan trong Nền tảng bộ giải phân tích Để tương quan các biến không chắc chắn trong Mô hình mô phỏng không thỏa mãn tính chất này, nó sẽ hỏi bạn có muốn điều chỉnh Ngân sách tiền mặt Monte Carlo, trước tiên hãy nhấp vào Tương quan các mối tương quan để nó thỏa mãn hay không. Luôn chọn Có. trong nhóm Mô hình Mô phỏng trong dải băng Nền tảng Bộ giải Phân Nhấp vào nút Ma trận cập nhật (bạn có thể thực hiện các thay đổi tích. Thao tác này làm xuất hiện hộp thoại Tạo ma trận tương theo cách thủ công nhưng chúng tôi khuyên bạn chỉ nên thực hiện quan mới như trong Hình 12.34 liệt kê các biến không chắc chắn điều này cho người dùng nâng cao) rồi nhấp vào Chấp nhận cập trong mô hình. Trong ví dụ này, chúng tôi chỉ tương quan hóa nhật. Ma trận điều chỉnh được thể hiện trong Hình 12.37. Lưu ý các biến trong phạm vi E5:K5. Trong ngăn bên trái, giữ phím Ctrl rằng mối tương quan giữa các tháng kế tiếp gần bằng 0,6, nhưng và nhấp vào từng bản phân phối trong phạm vi E5:K5 hoặc nhấp vào ma trận hiện bao gồm một số mối tương quan nhỏ giữa các tháng $E5$, giữ phím Shift và sau đó nhấp vào $K$5 để chọn chúng. Sau khác. Điều này đảm bảo tính nhất quán toán học cần thiết để chạy đó bấm vào mũi tên bên phải. (Mũi tên kép bên phải chọn tất cả mô phỏng. Bây giờ bạn có thể đóng hộp thoại. chúng, điều mà chúng ta không muốn trong ví dụ này.) Điều này tạo Phạm vi ô của ma trận tương quan được sử dụng trong hàm ra một ma trận tương quan ban đầu như trong Hình 12.35. Các giá PsiCorrMatrix(phạm vi ô, vị trí, thế đứng), trong đó vị trí trị số hiển thị các mối tương quan (ban đầu được đặt thành 0); tương ứng với số biến không chắc chắn trong ma trận tương quan các phân phối màu xanh lá cây là những phân phối được sử dụng và thể hiện đề cập đến tên được đặt cho ma trận tương quan. Nền trong các ô không chắc chắn và các biểu đồ phân tán màu xanh lam tảng bộ giải phân tích thêm các chức năng này vào các bản phân hiển thị các biểu diễn trực quan về mối tương quan giữa các phối cho các biến không chắc chắn có tương quan với nhau. Ví biến. Thay thế các số không bằng các mối tương quan mà bạn muốn dụ: công thức trong ô E5 cho doanh số tháng 4 được thay đổi thành: trong mô hình. Trong ví dụ này, chúng tôi sẽ giả sử mối tương = PsiNormal (600000,60000,PsiCorrMatrix($B$33:$H$39,1, “Monthly quan là 0,6 giữa mỗi tháng liên tiếp. Trong hộp 2 và 3, bạn có Correlations”)). Công thức trong ô F5 cho doanh số tháng 5 được thể đặt tên cho ma trận tương quan và chỉ định vị trí để đặt nó thay đổi thành: =PsiNormal(700000,70000,PsiCorrMatrix trong bảng tính. Điều này được thể hiện trong Hình 12.36. ($B$33:$H$39,2, “Monthly Correlations”)), v.v. Bây giờ, điều rất quan trọng là phải đảm bảo rằng các mối tương quan nhất quán với nhau về mặt toán học (một tính chất toán học được gọi là nửa xác định dương). Bạn có thể chọn nút Bây giờ thiết lập các tùy chọn mô phỏng và chạy mô hình. Tệp Xác thực trong hộp thoại Quản lý tương quan hoặc Nền tảng bộ Excel Mô hình mô phỏng ngân sách tiền mặt Monte Carlo với các mối giải phân tích sẽ thực hiện kiểm tra tự động cho điều này khi bạn tương quan cung cấp mô hình hoàn chỉnh cho ví dụ này. cố gắng đóng hộp thoại. Nếu ma trận tương quan Hình 12.34 Tạo mối tương quan mới Hộp thoại ma trận Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Hình 12.35 Ma trận tương quan ban đầu Hình 12.36 Hoàn thành tương quan ma trận Hình 12.37 Điều chỉnh tương quan 405 Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 406 Bạn sẽ quan sát thấy một số khác biệt nhỏ trong kết quả khi các biến không chắc chắn có mối tương quan với nhau. Ví dụ: độ lệch chuẩn cho số dư tháng 9 thấp hơn khi các mối tương quan được đưa vào mô hình so với khi không có. Nói chung, việc đưa các mối tương quan vào một mô hình mô phỏng có xu hướng làm giảm phương sai của các kết quả đầu ra được dự đoán. Phân tích trong thực tế: Triển khai Monte Carlo quy mô lớn Mô hình bảng tính4 Việc triển khai các mô hình Monte Carlo quy mô lớn trong bởi vì toàn bộ bảng tính phải được tính toán lại cho cả bảng tính trong thực tế có thể là một thách thức. Ví dụ mỗi lần lặp lại mô phỏng và từng tài sản riêng lẻ (hoặc này cho thấy cách một công ty đã sử dụng mô phỏng Monte giao dịch) trong danh mục đầu tư. Điều này đẩy các giới Carlo để phân tích rủi ro tín dụng bất động sản thương hạn của các mô hình Excel độc lập, ngay cả đối với một mại nhưng phải phát triển các phương pháp tiếp cận mới nội dung. Hơn nữa, vì ngân hàng thường quan tâm đến để triển khai hiệu quả các phân tích bảng tính trong việc phân tích toàn bộ danh mục đầu tư gồm hàng ngàn toàn công ty. tài sản của mình, nên trên thực tế, việc sử dụng Excel Có trụ sở tại Stuttgart, Đức, Hypo Real Estate Bank độc lập trở nên không thể thực hiện được. Do đó, Hypo cần một cách để triển khai các phân tích International (Hypo), với danh mục đầu tư lớn trong lĩnh vực cho vay bất động sản thương mại, đảm nhận một số mô phỏng phức tạp theo cách mà các văn phòng toàn cầu của giao dịch bất động sản lớn nhất thế giới. Hypo đã phải đối họ có thể sử dụng cho tất cả hàng nghìn khoản vay của họ. mặt với thách thức tuân thủ các quy định ngân hàng Basel Ngoài cường độ tính toán của các phân tích mô phỏng, tùy II ở Châu Âu. Basel II là một quy định mới để thiết lập chọn xây dựng toàn bộ khung mô phỏng trong Excel có thể vốn tối thiểu được giữ trong dự trữ của các ngân hàng dẫn đến lỗi do con người gây ra. hoạt động quốc tế. Nếu một ngân hàng có thể tuân thủ các yêu cầu khắt khe hơn của quy định, thì ngân hàng đó có thể tiết kiệm được 20–E60 triệu E mỗi năm chi phí vốn. Tuy nhiên, để đủ điều kiện, Hypo cần các mô hình rủi ro và hệ thống báo cáo mới. Công ty cũng mong muốn nâng cấp khung quản lý và báo cáo nội bộ để cung cấp các công cụ phân tích tốt hơn cho các nhân viên cho vay, những người chịu trách nhiệm cơ cấu các khoản vay mới và cung cấp cho các nhà quản lý hiểu rõ hơn về rủi ro của danh mục đầu tư tổng thể. Mô phỏng Monte Carlo là phương pháp tiếp cận thực tế duy nhất để phân tích các mô hình rủi ro mà ngân hàng cần. Ví dụ: trong một ứng dụng bất động sản thương mại, 200 biến kinh tế vĩ mô và thị trường khác nhau thường được mô phỏng trong hơn 20 năm. Quá trình mô hình hóa dòng tiền có thể còn phức tạp hơn, đặc biệt nếu tác động Vladitto/ Shutterstock.com của tất cả các chi tiết phức tạp của giao dịch phải được định lượng. Tuy nhiên, quá trình tính toán của mô phỏng Monte Carlo đòi hỏi nhiều về số lượng 4Dựa trên Yusuf Jafry, Christopher Marrison và Ulrike Umkehrer-Neudeck, “Hypo International Tăng cường Quản lý Rủi ro với Khuôn khổ Quản lý Bảng tính An toàn, Quy mô Lớn,” Interfaces, 38, 4 (Tháng 7–Tháng 8 năm 2008): 281–288. Machine Translated by Google 407 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro họ gọi là rủi ro bảng tính. Rủi ro bảng tính mà Hypo muốn giảm thiểu bao gồm: Với những vấn đề tiềm ẩn này, Hypo coi giải pháp Excel thuần túy là không thực tế. Thay vào đó, họ sử dụng phần mềm độc quyền của một công ty tư vấn, được gọi là Sự phổ biến của các mô hình bảng tính được Hệ thống Tài chính Chuyên dụng (SFS), nhúng các bảng tính lưu trữ trên máy tính để bàn của người dùng cá vào một hệ thống dựa trên máy chủ, hiệu suất cao dành cho nhân trong toàn tổ chức chưa được kiểm tra và thiếu các ứng dụng doanh nghiệp. Điều này đã loại bỏ rủi ro về dữ liệu phiên bản cũng như việc thao túng kết quả bảng tính nhưng cho phép người dùng khai thác sức mạnh tính toán bảng tính mà không được phép. lập trình linh hoạt mà bảng tính mang lại, đồng thời mang Khả năng xảy ra lỗi nghiêm trọng do lỗi đánh lại sự tự tin và tin tưởng vào kết quả. Hệ thống mới đã máy và lỗi “cắt và sao chép và dán” khi nhập dữ cải thiện báo cáo quản lý và hiệu quả của các quy trình liệu từ các ứng dụng hoặc bảng tính khác. nội bộ, đồng thời cung cấp thông tin chi tiết về cơ cấu Vô tình chấp nhận kết quả từ tính toán không đầy đủ. các khoản vay mới để làm cho chúng ít rủi ro hơn và sinh lãi nhiều hơn. Lỗi liên quan đến việc chạy không đủ số lần lặp Monte Carlo do hạn chế về dữ liệu hoặc thời gian. Điều khoản quan trọng Rủi ro Biểu đồ hình hộp Lỗi trung bình phân tích rủi ro vạch đánh dấu Biểu đồ độ nhạy Mô phỏng Monte Carlo Biểu đồ xu hướng biểu đồ lớp phủ chức năng không chắc chắn vấn đề và bài tập 1. Đối với mô hình thị phần trong Bài toán 5 của Chương 11, giả doanh thu mà họ có thể mong đợi từ việc bán vé. sử rằng ước tính tỷ lệ phần trăm người mua mới cuối cùng sẽ Sân nhà, Sân vận động Dylan, có năm khu vực chỗ ngồi khác nhau dùng thử nhãn hiệu là không chắc chắn và được giả định là với các mức giá khác nhau. Thông tin chính được đưa ra dưới phân phối chuẩn với trung bình là 35% và độ lệch chuẩn là 4%. đây. Tất cả các nhu cầu đều được giả định là có phân phối Sử dụng hàm NORM.INV và bảng dữ liệu một chiều để tiến hành mô chuẩn. phỏng Monte Carlo với 25 thử nghiệm nhằm tìm ra sự phân bổ của thị phần trong dài hạn. chỗ ngồi Vùng Đầu tiên 2. Đối với mô hình gara-band trong Bài toán 7 của Chương 11, giả sử rằng đám đông dự kiến được phân phối chuẩn với trung bình là 3.000 và độ lệch chuẩn là 200. Sử dụng hàm NORM.INV và bảng dữ liệu một chiều để tiến hành một mô phỏng Monte Carlo với 25 thử nghiệm để tìm ra sự phân phối lợi nhuận dự kiến. Một thành phần của ngân sách là 15.000 Vé Giá Nghĩa là Yêu cầu $100,00 14.500 Tiêu chuẩn độ lệch 750 Mức độ bên lề Thứ hai 5.000 $90,00 4.750 500 10.000 $80,00 9.000 1.250 Mức độ Đầu tiên 3. Một đội bóng chuyên nghiệp đang chuẩn bị ngân sách cho năm tới. Ghế ngồi Có sẵn Mức độ Vùng cuối (còn tiếp) Machine Translated by Google 408 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro chỗ ngồi Vùng Vé Ghế ngồi Giá Có sẵn Ngày thứ ba Nghĩa là 21.000 Yêu cầu $70,00 17.000 Tiêu chuẩn độ lệch 2.500 chuẩn là $12. Tìm xác suất mà gia công phần mềm sẽ dẫn đến quyết định tốt nhất. 7. Đối với Mô hình quyết định thuê ngoài, giả sử rằng lượng cầu Mức độ được phân phối logic với giá trị trung bình là 1.500 và độ lệch bên lề Ngày thứ ba được phân phối chuẩn với giá trị trung bình là $175 và độ lệch 14.000 $60,00 8.000 3.000 chuẩn là 500. Sự phân bổ chênh lệch chi phí giữa sản xuất trong nhà và mua hàng là gì? Quyết định nào bạn sẽ đề nghị? Xác định Mức độ cả chênh lệch chi phí và quyết định làm ô đầu ra. Vì các ô đầu Vùng cuối ra trong Nền tảng bộ giải phân tích phải là số, hãy thay thế Xác định phân phối tổng doanh thu theo các giả định này bằng cách sử dụng bảng dữ liệu Excel với 50 thử nghiệm mô phỏng. công thức trong ô B20 bằng IF(B19< 0,1,0); nghĩa là, 1 đại diện cho sản xuất và 0 đại diện cho gia công phần mềm. Tóm tắt kết quả của bạn với một biểu đồ. 4. Đối với mẫu sản phẩm mới trong Bài toán 9 của Chương 11, giả sử rằng doanh số bán hàng năm đầu tiên được phân phối chuẩn với trung bình là 100.000 đơn vị và độ lệch chuẩn là 10.000. Sử dụng hàm NORM.INV và bảng dữ liệu một chiều để tiến hành mô phỏng Monte Carlo nhằm tìm phân phối lợi nhuận theo giá trị hiện tại ròng trong khoảng thời gian 3 năm. 8. Giả sử rằng một số biến trong mô hình về giá trị kinh tế của một khách hàng trong Ví dụ 11.1 trong Chương 11 là không chắc chắn. Cụ thể, giả sử rằng doanh thu trên mỗi lần mua là bình thường với giá trị trung bình là 50 đô la và độ lệch chuẩn là 5 đô la và tỷ lệ bỏ trốn là đồng nhất trong khoảng từ 20% đến 40%. Tìm phân phối của V bằng cách sử dụng Nền tảng bộ giải phân tích. 5. Các nhà phân tích tài chính thường sử dụng mô hình sau để Đặc trưng cho sự thay đổi giá cổ phiếu: Pt p0 e (m-0,5s2 )t+sZ2t 9. Đối với mô hình lợi nhuận được phát triển trong Ví dụ 11.2 trong Chương 11 và mô hình Excel trong Hình 11.4, giả sử rằng nhu cầu có dạng tam giác với giá trị tối thiểu là 35.000, tối đa là 60.000 và rất có thể là 50.000; chi phí cố định là bình Ở đâu thường với giá trị trung bình là 400.000 đô la và độ lệch chuẩn P0 giá cổ phiếu hiện tại Giá Pt tại thời điểm t m thay đổi trung bình (logarit) của giá cổ phiếu trên một đơn vị thời gian s (logarit) độ lệch chuẩn của thay đổi giá Biến ngẫu nhiên chuẩn Z chuẩn Mô hình này giả định rằng logarit của giá cổ phiếu là một biến ngẫu nhiên có phân phối chuẩn (xem thảo luận về phân phối chuẩn logic và lưu ý rằng số hạng đầu tiên của số mũ là giá trị trung là 25.000 đô la; và chi phí đơn vị có dạng tam giác với giá trị tối thiểu là $22,00, giá trị rất có thể là $24,00 và giá trị tối đa là $30,00. Một. Sử dụng Nền tảng bộ giải phân tích để tìm phân phối lợi nhuận. b. Lợi nhuận trung bình có thể được mong đợi là gì? c. Bao nhiêu lợi nhuận có thể được mong đợi với xác suất ít nhất là 0,7? đ. Tìm khoảng tin cậy 95% cho mô phỏng 5.000 lần thử. bình của phân phối chuẩn logic). Sử dụng dữ liệu lịch sử, chúng ta có thể ước tính các giá trị cho m và s. Giả sử rằng thay đ. Diễn giải biểu đồ độ nhạy. đổi trung bình hàng ngày đối với một cổ phiếu là $0,003227 và độ lệch chuẩn là 0,026154. Xây dựng bảng tính để mô phỏng giá cổ phiếu trong 30 ngày tới nếu giá hiện tại là 53 đô la. Sử dụng 10. Đối với mô hình Moore Pharmaceuticals, giả sử rằng các nhà phân tích đã đưa ra các giả định sau: hàm Excel NORM.S.INV(RAND( )) để tạo giá trị cho Z. Tạo biểu đồ Chi phí R&D: Hình tam giác ($500, $700, $800) tính bằng thể hiện biến động của giá cổ phiếu. triệu đô la Chi phí thử nghiệm lâm sàng: Hình tam giác ($135, $150, $160) tính bằng triệu đô la 6. Sử dụng Nền tảng Bộ giải Phân tích để mô phỏng Mô hình Quyết định Gia công phần mềm theo các giả định rằng khối lượng sản Quy mô thị trường: Bình thường (2000000, 250000) Thị phần năm 1: Thống nhất (6%, 10%) xuất sẽ có dạng tam giác với giá trị tối thiểu là 800, tối đa Tất cả các dữ liệu khác được coi là không đổi. Phát triển và là 1.700 và rất có thể là 1.400 và chi phí của nhà cung cấp đơn chạy mô hình mô phỏng Monte Carlo để dự đoán giá trị hiện tại vị ròng và lợi nhuận ròng tích lũy cho mỗi Machine Translated by Google 409 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro năm. Tóm tắt kết quả của bạn trong một bản ghi nhớ ngắn cho Chi phí cố định được ước tính tuân theo phân phối sau: giám đốc R&D. 11. Chụp ảnh đám cưới Cruz (xem Vấn đề 15 trong Chương 11) tin Giá cố định rằng số lượng đặt tiệc cưới trung bình mỗi năm có thể được ước tính bằng phân phối tam giác với giá trị tối thiểu là 10, tối đa là 22 và giá trị rất có thể là 15. Một trong những yếu tố chính trong việc phát triển kế hoạch kinh doanh của xác suất 45.000 USD 0,20 50.000 USD 0,50 $55,000 0,30 anh ấy là tuổi thọ mà anh ấy có thể mong đợi từ một chiếc máy ảnh phản xạ ống kính đơn kỹ thuật số (DSLR) duy nhất Thử nghiệm với mô hình để xác định số lượng sản xuất tốt trước khi cần phải thay thế nó. Do sử dụng nhiều, tuổi thọ nhất để tối đa hóa lợi nhuận trung bình. cửa trập được ước tính theo phân phối bình thường với Bạn có kết luận rằng sản phẩm này là một khoản đầu tư tốt? trung bình 150.000 lần nhấp với độ lệch chuẩn là 10.000. Đối với mỗi lượt đặt trước, số lượng ảnh chụp trung bình được giả định là phân phối chuẩn với giá trị trung bình là 2.000 với độ lệch chuẩn là 300. Phát triển một mô hình mô phỏng để xác định phân phối tuổi thọ của máy ảnh (tính bằng năm). 15. Người quản lý khách sạn lưu trú dài hạn trong Bài toán 27 của Chương 11 tin rằng số phòng được thuê trong một tuần nhất định có phân phối tam giác với tối thiểu là 32, rất có thể là 38 và tối đa là 50. Giá theo tuần là 950 đô la và chi phí hoạt động hàng tuần tuân theo phân phối chuẩn với giá trị 12. Sử dụng bảng tính Mô hình nhà cung cấp tin tức để thiết lập và chạy mô phỏng Monte Carlo với giả định rằng nhu cầu là trung bình là 20.000 đô la và độ lệch chuẩn là 25.000 đô la nhưng với giá trị tối thiểu là 15.000 đô la (tham số ngưỡng Poisson với giá trị trung bình là 45 nhưng giá trị tối thiểu thấp hơn trong hộp thoại; điều này ngăn các giá trị nhỏ là 40 (sử dụng tham số ngưỡng thấp hơn trong hộp thoại phân hơn 15.000 đô la được tạo ra). Chạy mô phỏng để trả lời các phối để cắt bớt phân phối và đảm bảo rằng không các giá trị câu hỏi sau. nhỏ hơn 40 được tạo ra trong quá trình mô phỏng). Tìm cách phân phối lợi nhuận cho số lượng đặt hàng là 40, 45 và 50. 13. Mô phỏng mô hình nhà cung cấp báo cho trường hợp siêu thị mini được mô tả trong Vấn đề 12 của Chương 11. Sử dụng phân phối IntUniform trong Nền tảng Bộ giải Phân tích để lập mô hình nhu cầu và tìm phân phối lợi nhuận cho số lượng đặt Một. Xác suất mà lợi nhuận hàng tuần sẽ dương là gì? b. Xác suất mà lợi nhuận hàng tuần sẽ vượt quá 20.000 đô la là gì? c. Xác suất mà lợi nhuận hàng tuần sẽ ít hơn 10.000 đô la là gì? hàng là 10, 15, 20, 25 , và 30. 14. Sử dụng mô hình lợi nhuận đã phát triển trong Chương 11, hãy triển khai mô hình mô phỏng tài chính cho một đề xuất sản phẩm mới và xác định phân phối lợi nhuận của nó bằng cách sử dụng các phân phối riêng biệt bên dưới cho chi phí đơn vị, nhu cầu và chi phí cố định. Giá được cố định ở mức 1.000 đô la. Chi phí đơn vị không xác định và tuân theo phân phối: Đơn giá xác suất $400 0,20 $600 0,40 $700 0,25 $800 0,15 Nhu cầu cũng có thể thay đổi và tuân theo phân phối sau: 16. Phát triển một mô hình mô phỏng Monte Carlo cho ga-ra-ban nhạc trong Bài toán 7 trong Chương 11 với các giả định sau. Đám đông dự kiến không được phân phối chính xác với giá trị trung bình là 3.000 và độ lệch chuẩn 400 (cắt bớt phân phối để có giá trị nhỏ nhất bằng 0). Chi phí trung bình cho nhượng quyền cũng được phân phối chuẩn với giá trị trung bình là 15 đô la, độ lệch chuẩn là 3 đô la và giá trị nhỏ nhất bằng 0. Xác định lợi nhuận trung bình, lợi nhuận tối thiểu quan sát được, lợi nhuận quan sát tối đa và xác suất đạt được lợi nhuận ít nhất là 60.000 đô la. Phát triển và giải thích khoảng tin cậy cho lợi nhuận trung bình cho mô phỏng 5.000 thử nghiệm. 17. Công viên Tanner (xem Vấn đề 14 trong Chương 11) là một công viên giải trí nhỏ cung cấp nhiều trò chơi và hoạt động ngoài trời cho trẻ em và thanh thiếu niên. Trong một mùa hè điển hình, số lượng vé người lớn bán ra có phân phối chuẩn với Yêu cầu xác suất 120 0,25 140 0,50 160 0,25 trung bình là 20.000 và độ lệch chuẩn là 2.000. Số vé trẻ em bán ra có phân phối chuẩn với trung bình là 10.000 và độ lệch chuẩn là 1.000. Giá vé người lớn là $18 và giá trẻ em là $10. Machine Translated by Google 410 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Doanh thu từ nhượng quyền thực phẩm và đồ uống được dự kiến sẽ tạo ra dòng tiền khoảng 8.000 đô la mỗi năm ước tính là từ 50.000 đến 100.000 đô la, với giá trị rất trong 5 năm tới. Tuy nhiên, dòng tiền không chắc chắn và có thể là 60.000 đô la. Tương tự như vậy, doanh thu quà người quản lý ước tính rằng dòng tiền thực tế sẽ được lưu niệm có giá trị tối thiểu là 20.000 đô la, rất có thể phân phối chuẩn với giá trị trung bình là 8.000 đô la và là 25.000 đô la và giá trị tối đa là 30.000 đô la. độ lệch chuẩn là 500 đô la. Chi phí biến đổi cho mỗi người là 3 đô la và chi phí cố Tỷ lệ chiết khấu được đặt ở mức 8% và được giả định là định lên tới 150.000 đô la. Hãy xác định khả năng sinh lợi không đổi trong 5 năm tới. Công ty đánh giá các khoản của hoạt động kinh doanh này. Xác suất để công viên bị đầu tư vốn sử dụng giá trị hiện tại ròng. thua lỗ trong bất kỳ mùa nào là bao nhiêu? 18. Cửa hàng kem Lily's Gourmet cung cấp nhiều loại kem và kem lắc cho người sành ăn. Mặc dù Lily's cạnh tranh với các cửa hàng kem và cửa hàng sữa chua đông lạnh khác, Mức độ rủi ro của khoản đầu tư này như thế nào? Xây dựng một mô hình mô phỏng phù hợp và tiến hành các thí nghiệm và phân tích kết quả thống kê để trả lời câu hỏi này. 20. Nhà hát Kelly sản xuất các vở kịch và nhạc kịch cho khán nhưng không cửa hàng nào cung cấp kem cho người sành ăn giả trong khu vực. Đối với một buổi biểu diễn thông với nhiều hương vị khác nhau. Cửa hàng cũng nằm trong thường, nhà hát bán ít nhất 250 vé và đôi khi đạt đến một khu vực cao cấp và do đó có thể yêu cầu giá cao sức chứa 600 chỗ ngồi. Thông thường, khoảng 450 vé được hơn. Chủ sở hữu là một sinh viên tốt nghiệp trường ẩm bán. Chi phí cố định cho mỗi hiệu suất là bình thường thực không có nhiều kinh nghiệm kinh doanh và đã thuê một với giá trị trung bình là 2.500 đô la và độ lệch chuẩn là trong những người bạn của cô ấy, người gần đây đã lấy 250 đô la. Giá vé dao động từ $30 đến $70 tùy theo vị trí bằng MBA để hỗ trợ cô ấy phân tích tài chính của doanh ghế ngồi. Trong số 600 ghế, 150 ghế có giá 70 đô la, 200 nghiệp và đánh giá khả năng sinh lời của việc giới thiệu ghế có giá 55 đô la và số còn lại có giá 30 đô la. một sản phẩm mới. Cửa hàng mở cửa vào mùa xuân và mùa hè, Trong số tất cả các vé đã bán, vé $55 được bán hết trước với doanh thu cao hơn vào mùa hè. tiên. Nếu tổng nhu cầu ít nhất là 500, thì tất cả các chỗ 70 đô la sẽ bán hết. Nếu không, thì từ 50% đến 75% trong Dựa trên quan sát trước đây, Lily đã xác định ba kịch bản bán hàng cho sản phẩm mới. Mùa hè: số các giấy phép 70 đô la được bán, phần còn lại là các giấy phép 30 đô la. Tuy nhiên, nếu tổng nhu cầu nhỏ hơn hoặc bằng 350, thì số lượng vé $70 và $30 được bán thường được chia đều. Nhà hát tổ chức 160 buổi biểu diễn Cao—3.000 đơn vị mỗi năm và phát sinh chi phí cố định hàng năm là 2 triệu Khả thi nhất—2.500 đơn vị đô la. Xây dựng mô hình mô phỏng để đánh giá khả năng sinh Thấp—2.100 đơn vị lời của rạp hát. Phân phối lợi nhuận ròng và rủi ro mất tiền trong một năm là gì? Mùa xuân: 21. Xây dựng mô hình mô phỏng phân tích tài chính tổng lợi Cao—2.500 đơn vị nhuận trong 3 năm dựa trên dữ liệu và thông tin sau. Khả thi nhất—1.500 đơn vị Doanh số bán hàng trong năm đầu tiên ước tính là 100.000 Thấp—1.000 đơn vị chiếc và dự kiến sẽ tăng với tốc độ phân phối chuẩn với Giá dự kiến là $3,00. Tuy nhiên, chi phí đơn vị là không chắc chắn và được thúc đẩy bởi chi phí của các thành phần mà cô ấy phải mua cho sản phẩm. Số tiền này được ước tính là từ $1,40 đến $2,00, với giá trị rất có thể là $1,50 vào mùa hè, nhưng vào mùa xuân, chi phí rất có thể là $2,00 vì nguyên liệu khó kiếm hơn. Chi phí cố định được ước tính là $2.600. trung bình là 7% mỗi năm và độ lệch chuẩn là 4%. Giá bán là 10 đô la và mức tăng giá được phân phối chuẩn với giá trị trung bình là 0,5 đô la và độ lệch chuẩn là 0,05 đô la mỗi năm. Chi phí biến đổi trên mỗi đơn vị là 3 đô la và chi phí cố định hàng năm là 200.000 đô la. Chi phí trên mỗi đơn vị dự kiến sẽ tăng theo một lượng phân phối chuẩn với giá trị trung bình là 5% mỗi năm và độ lệch chuẩn là 2%. Chi phí cố định dự kiến sẽ tăng theo Một. Tìm phân phối lợi nhuận cho mỗi mùa và phân phối chung. phân phối bình thường với trung bình là 10% mỗi năm và b. Việc tăng giá 0,5 đô la vào mùa hè và giảm 0,5 đô la phỏng, hãy tìm lợi nhuận tích lũy trung bình trong 3 năm. độ lệch chuẩn là 3%. Dựa trên 10.000 thử nghiệm mô vào mùa xuân ảnh hưởng đến kết quả như thế nào? Tạo và biểu diễn rõ ràng biểu đồ xu hướng thể hiện lợi nhuận ròng theo năm. 19. Một giám đốc nhà máy đang cân nhắc đầu tư vào một chiếc máy mới trị giá 30.000 USD. Sử dụng máy mới là 22. Ủy ban điều hành của Reder Electric Xe (xem Vấn đề 16 trong Chương 11) đang tranh luận liệu Machine Translated by Google Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro để thay thế mẫu ban đầu, REV-Touring, bằng một mẫu mới, 411 và 7% và độc lập với các năm khác. Tìm phân phối NPV của REV-Sport, sẽ thu hút khán giả trẻ hơn. Bất kỳ phương lợi nhuận trong thời hạn 3 năm và phân tích độ nhạy và tiện nào được chọn sẽ được sản xuất trong 4 năm tới, biểu đồ xu hướng. Summa rize kết luận của bạn. sau thời gian đó sẽ cần phải đánh giá lại. REV-Sport đã trải qua giai đoạn ý tưởng và thiết kế ban đầu và đã sẵn sàng cho giai đoạn thiết kế và sản xuất cuối cùng. Chi phí phát triển cuối cùng được ước tính là 75 triệu đô la và chi phí cố định mới cho công cụ và sản xuất được ước tính là 600 triệu đô la. REV-Sport dự kiến sẽ được bán với giá 30.000 USD. Doanh số bán hàng năm đầu tiên của REV-Sport ước tính được phân bổ bình thường với mức trung bình là 60.000/năm và độ lệch chuẩn là 12.000/năm. Tăng trưởng doanh thu cho các năm tiếp theo ước tính có phân phối chuẩn với trung bình là 6% và độ lệch chuẩn là 2%. Chi phí biến đổi trên mỗi phương tiện là không chắc chắn cho đến khi các quyết định về thiết kế và chuỗi cung ứng được hoàn thiện nhưng được ước tính là từ 20.000 đến 28.000 USD với giá trị có khả năng nhất là 22.000 USD. Doanh số bán hàng trong năm tới của REV-Touring được ước tính là 50.000 chiếc với độ lệch chuẩn là 9.000 chiếc/năm, nhưng doanh số bán hàng dự kiến sẽ giảm với tốc độ phân phối chuẩn với trung bình là 10% và độ lệch chuẩn là 3,5% cho mỗi 3 năm tiếp theo. Giá bán là 28.000 USD. Chi phí biến đổi không đổi ở mức $21,000. Vì mô hình đã được sản xuất nên chi phí cố định cho việc phát triển đã được phục hồi. Phát triển mô 25. Bảo tàng Schoch (xem Vấn đề 17 trong Chương 11) đang bắt tay vào chiến dịch gây quỹ kéo dài 5 năm. Là một tổ chức phi lợi nhuận, bảo tàng gặp khó khăn trong việc thu hút các nhà tài trợ mới vì nhiều nhà tài trợ không đóng góp hàng năm. Giả sử rằng bảo tàng đã xác định được một nhóm 8.000 nhà tài trợ tiềm năng. Số lượng nhà tài trợ thực tế trong năm đầu tiên của chiến dịch được ước tính nằm trong khoảng từ 60% đến 75% của nhóm này. Đối với mỗi năm tiếp theo, bảo tàng hy vọng rằng một tỷ lệ phần trăm nhất định các nhà tài trợ hiện tại sẽ ngừng đóng góp của họ. Con số này dự kiến nằm trong khoảng từ 10% đến 60%, với giá trị rất có thể là 35%. Ngoài ra, bảo tàng hy vọng sẽ thu hút được một số phần trăm các nhà tài trợ mới. Con số này được giả định là từ 5% đến 40% số nhà tài trợ của năm hiện tại, với giá trị rất có thể là 10%. Khoản đóng góp trung bình trong năm đầu tiên được giả định là 50 đô la và sẽ tăng với tốc độ từ 0% đến 8% mỗi năm tiếp theo, với mức tăng nhiều khả năng nhất là 2,5%. Phát triển và phân tích một mô hình để dự đoán tổng số tiền sẽ được huy động trong khoảng thời gian 5 năm. 26. Xem lại tình huống lập kế hoạch nghỉ hưu được mô tả trong Chương 11 (Ví dụ 11.11). Sửa đổi bảng tính để hình mô phỏng Monte Carlo 4 năm để đề xuất quyết định bao gồm các giả định rằng mức tăng lương hàng năm là tốt nhất sử dụng suất chiết khấu giá trị hiện tại ròng hình tam giác với mức tối thiểu là 1%, giá trị rất có thể là 5%. 23. Phát triển và phân tích mô hình mô phỏng cho Koehler Vision Associates (KVA) trong Bài toán 13 của Chương 11 với các giả định sau. Giả sử rằng nhu cầu thống nhất từ 110 đến 160 mỗi tuần và có khoảng từ 10% đến 20% bệnh nhân tương lai không đến khám hoặc hủy buổi khám vào phút cuối. Xác định phân phối lợi nhuận ròng (doanh thu trừ chi phí đặt trước vượt mức) và số lượng đặt trước vượt mức để lên lịch cho 133, 140 hoặc 150 bệnh nhân. là 3% và giá trị tối đa là 5% và lợi tức đầu tư hàng năm là hình tam giác với mức tối thiểu là 5% , giá trị rất có thể là 8% và giá trị tối đa là 9%. Sử dụng nền tảng bộ giải phân tích để tìm sự phân phối của số dư quỹ hưu trí cuối kỳ theo các giả định này. Làm thế nào để kết quả so sánh với trường hợp cơ sở? 27. Mô hình lập kế hoạch nghỉ hưu được mô tả trong Chương 11 (Ví dụ 11.11) giả định rằng dữ liệu trong hàng 5–8 của bảng tính giống nhau cho mỗi năm của mô hình. Sửa 24. Đối với kịch bản của Trung tâm Phẫu thuật Hyde Park được mô tả trong Bài toán 33 ở Chương 11, giả sử rằng các giả định sau được thực hiện. Số lượng bệnh nhân phục vụ năm đầu thống nhất từ 1.300 đến 1.700; tốc độ tăng trưởng của các năm tiếp theo là tam giác với các tham số (5%, 8%, 9%) và tốc độ tăng trưởng của năm thứ 2 không đổi bảng tính để cho phép mức tăng lương hàng năm và lợi tức đầu tư thay đổi độc lập mỗi năm và sử dụng công thức trong Bài toán 26 để chạy mô hình mô phỏng. So sánh kết quả của bạn với Bài toán 26. 28. Adam 24 tuổi và có kế hoạch 401(k) thông qua chủ của anh phụ thuộc vào tốc độ tăng trưởng của năm thứ 3; hóa đơn ấy, một tổ chức tài chính lớn. Công ty của anh ấy phù trung bình là bình thường với giá trị trung bình là hợp với 50% khoản đóng góp của anh ấy lên tới 6% tiền 150.000 đô la và độ lệch chuẩn là 10.000 đô la; và mức lương của anh ấy. Anh ấy hiện đang đóng góp số tiền tăng chi phí cố định hàng năm đều trong khoảng 5% tối đa có thể. Trong tài khoản 401(k) của mình, anh ấy có ba quỹ. Machine Translated by Google 412 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Đầu tư A là một quỹ chỉ số vốn hóa lớn, có mức tăng tỷ lệ $0,109/kWh. Dựa trên phân tích hóa đơn tiền điện của trưởng trung bình hàng năm trong 10 năm qua là 6,63% với những năm trước, chi phí điện hàng năm dự kiến sẽ tăng độ lệch chuẩn là 13,46%. theo phân phối tam giác với giá trị có khả năng nhất là Investment B là một quỹ chỉ số vốn hóa trung bình với mức 3%, tối thiểu là 2,5% và tối đa là 4%, bắt đầu từ năm đầu tăng trưởng trung bình hàng năm trong 10 năm là 9,89% và tiên. Chi phí vốn ước tính là 5%. Phát triển một mô hình độ lệch chuẩn là 15,28%. Cuối cùng, Đầu tư C là một quỹ mô phỏng để tìm giá trị hiện tại ròng của công nghệ trong Chỉ số vốn hóa nhỏ với tốc độ tăng trưởng trung bình hàng khoảng thời gian 10 năm, bao gồm cả hệ thống và chi phí năm trong 10 năm là 8,55% và độ lệch chuẩn là 16,90%. 50% lắp đặt. Xác suất mà hệ thống sẽ kinh tế là gì? khoản đóng góp của anh ấy được chuyển đến Khoản đầu tư A, 25% cho Khoản đầu tư B và 25% cho Khoản đầu tư C. Mức lương hiện tại của anh ấy là 48.000 đô la và dựa trên một cuộc khảo sát về thù lao của các tổ chức tài chính, 31. Tham khảo lại kịch bản giám đốc tuyển sinh đại học (Vấn đề 36 trong Chương 11). Phát triển một mô hình bảng tính và anh ấy dự kiến mức tăng trung bình là 2,7% với độ lệch chuẩn xác định các phân phối không chắc chắn mà bạn tin rằng sẽ 0,4% mỗi năm. Phát triển một mô hình mô phỏng để dự đoán phù hợp để tiến hành mô phỏng Monte Carlo. Dựa trên mô anh ta sẽ có bao nhiêu tiền ở tuổi 60. hình và mô phỏng của bạn, hãy đưa ra đề xuất về số lượng 29. Phát triển một mô hình mô phỏng lập kế hoạch nghỉ hưu thực tàu học giả sẽ cung cấp. tế cho hoàn cảnh cá nhân của bạn. Nếu bạn hiện đang làm việc, hãy sử dụng càng nhiều thông tin càng tốt mà bạn có thể thu thập cho mô hình của mình, bao gồm khả năng tăng 32. Ngân hàng J&G nhận được một số lượng lớn đơn đăng ký thẻ tín dụng mỗi tháng, trung bình là 30.000 với độ lệch chuẩn lương, thăng chức, đóng góp và tỷ lệ hoàn vốn dựa trên số là 4.000, phân phối chuẩn. tiền thực tế mà bạn đầu tư. Nếu bạn chưa có việc làm, Khoảng 60% trong số đó được phê duyệt, nhưng tỷ lệ này hãy cố gắng tìm kiếm thông tin về mức lương trong ngành thường dao động trong khoảng từ 50% đến 70%. Mỗi khách mà bạn dự định làm việc và các phúc lợi khi nghỉ hưu mà hàng tính tổng cộng 2.000 đô la, được phân phối bình các công ty trong ngành đó cung cấp cho mô hình của bạn. thường, với độ lệch chuẩn là 250 đô la, vào thẻ tín dụng Ước tính tỷ lệ lợi nhuận dựa trên các quỹ tương hỗ phổ của họ mỗi tháng. Khoảng 85% thanh toán toàn bộ số dư của biến được sử dụng cho quỹ hưu trí hoặc hiệu suất trung họ và phần còn lại trả phí tài chính hiện hành. Phí tài bình của các chỉ số thị trường chứng khoán. Trình bày rõ chính trung bình gần đây đã thay đổi từ 3% đến 4% mỗi ràng các giả định của bạn và cách bạn đạt được chúng, đồng thời phân tích và giải thích đầy đủ các kết quả mô hình của bạn. 30. Waring Solar Systems cung cấp các tấm pin mặt trời và các tháng. Ngân hàng cũng nhận được thu nhập từ phí tính cho các khoản thanh toán trễ và phí hàng năm liên quan đến thẻ tín dụng. Đây là tỷ lệ phần trăm của tổng chi phí hàng công nghệ tiết kiệm năng lượng khác cho các tòa nhà. tháng và dao động trong khoảng từ 6,8% đến 7,2%. Ngân hàng Đáp lại yêu cầu của khách hàng, công ty đang tiến hành một phải trả 20 đô la cho mỗi đơn đăng ký, cho dù nó có được nghiên cứu khả thi để xác định xem liệu các tấm pin mặt chấp thuận hay không. Chi phí duy trì hàng tháng cho khách trời có cung cấp đủ năng lượng để tự thanh toán trong thời hàng sử dụng thẻ tín dụng được phân phối bình thường với gian hoàn vốn hay không. Công suất được đo bằng MWh/năm giá trị trung bình là 10 đô la và độ lệch chuẩn là 1,50 đô (1000 kWh). Con số này được xác định bởi số lượng tấm pin la. Cuối cùng, tổn thất do trừ tài khoản của khách hàng được lắp đặt và lượng ánh sáng mặt trời mà tấm pin nhận nằm trong khoảng từ 4,6% đến 5,4% tổng phí. được mỗi năm. Tốc độ Ca có thể thay đổi rất nhiều do điều kiện thời tiết, đặc biệt là mây và tuyết. Các kỹ sư đã xác định rằng khách hàng này nên sử dụng hệ thống 80MWh/năm. Một. Sử dụng các giá trị trung bình cho tất cả các yếu tố đầu vào không chắc chắn, hãy phát triển một mô hình bảng tính để tính toán tổng lợi nhuận hàng tháng của ngân hàng. Chi phí của hệ thống và lắp đặt là $80,000. Lượng điện năng mà hệ thống sẽ sản xuất được phân phối chuẩn với độ lệch chuẩn là 10 MWh/năm. Các tấm pin mặt trời trở nên kém hiệu quả hơn theo thời gian chủ yếu là do lớp vỏ bảo vệ của chúng bị che phủ. Mức giảm hiệu quả hàng năm thường được phân bổ với giá trị trung bình là 1% và độ lệch chuẩn là 0,2% và sẽ được áp dụng sau năm đầu tiên. Khách hàng hiện đang nhận điện từ nhà cung cấp của mình tại b. Sử dụng mô phỏng Monte Carlo để phân tích khả năng sinh lời của sản phẩm thẻ tín dụng. Sử dụng bất kỳ công cụ nào của Nền tảng bộ giải phân tích khi thích hợp để phân tích đầy đủ kết quả của bạn và cung cấp báo cáo đầy đủ và hữu ích cho người quản lý bộ phận thẻ tín dụng. 33. SPD Tax Service là một công ty khai thuế khu vực cạnh tranh với các chuỗi quốc gia như H&R Machine Translated by Google 413 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro Khối. Công ty đang xem xét việc mở rộng và cần một chuyển đổi và bảo trì, trung bình 70% với độ lệch mô hình tài chính để phân tích quyết định mở một cửa chuẩn là 5%, điều này làm giảm công suất hàng tuần. hàng mới. Các yếu tố chính ảnh hưởng đến quyết định Sáu bộ phận chính được sản xuất và nhà máy có ba này bao gồm nhân khẩu học của vị trí được đề xuất, loại máy móc khác nhau để sản xuất từng bộ phận. mức giá có thể đạt được trong thị trường mục tiêu Các máy không thể hoán đổi cho nhau vì mỗi máy có và khả năng tài trợ cho tiếp thị và quảng cáo. Chi một chức năng cụ thể. Thời gian sản xuất từng bộ phí vốn sẽ được bỏ qua vì thiết bị không sử dụng từ phận trên mỗi máy khác nhau. Thời gian trung bình các địa điểm khác thường có thể được chuyển đến và độ lệch chuẩn (tính bằng giờ) để sản xuất từng cửa hàng mới trong năm đầu tiên cho đến khi chúng có bộ phận trên mỗi máy được hiển thị bên dưới: thể được thay thế định kỳ thông qua ngân sách chi phí cố định. Các thị trường mục tiêu của SPD đang được xem xét là các cộng đồng có dân số từ 30.000 đến 50.000, được giả định là phân bố đồng đều. thời gian trung bình Loại bộ phận Máy A Máy B Máy C 1 3,5 2.6 2 3.4 2,5 3 1.8 3,5 12.6 khai thuế. Giả sử trung bình mỗi hộ gia đình có 2,5 4 2.4 5,8 12,5 người, điều này có thể được biểu thị bằng 0,15*dân 5 4.2 4.3 28 số/2,5. SPD ước tính rằng nhu cầu trong năm đầu tiên 6 4 4.3 28 Nhu cầu thị trường về dịch vụ kê khai thuế liên quan trực tiếp đến số lượng hộ gia đình trên địa bàn; ước tính khoảng 15% hộ gia đình sẽ sử dụng dịch vụ 8,9 số 8 của họ sẽ chiếm trung bình 5% tổng nhu cầu thị trường và với mỗi đô la quảng cáo, trung bình sẽ tăng 2%. Nhu cầu năm đầu tiên được giả định là bình thường với độ lệch chuẩn là 20% nhu cầu trung bình. Độ lệch chuẩn Loại bộ phận Máy A Máy B Máy C 1 0,15 0,12 0,15 nhưng bị giới hạn ở mức 10% doanh thu hàng năm. 2 0,15 0,12 0,15 Nhu cầu tăng khá mạnh trong năm thứ hai và thứ ba và 3 0,1 0,15 0,25 Ngân sách quảng cáo 5.000 đô la đã được phê duyệt được giả định là có phân phối tam giác với giá trị tối thiểu là 20%, giá trị rất có thể là 35% và giá trị tối đa là 40%. Sau năm thứ 3, mức tăng trưởng nhu cầu nằm trong khoảng từ 5% đến 15%, với giá trị rất có thể là 7%. Phí trung bình cho mỗi tờ khai thuế là $175 và tăng theo tỷ lệ phân phối chuẩn với 4 0,15 0,15 0,25 5 0,15 0,15 0,5 6 0,15 0,15 0,5 Nhu cầu dự báo được hiển thị bên dưới giá trị trung bình là 4% với độ lệch chuẩn là 1,0% mỗi năm. Chi phí biến đổi trung bình là 15 đô la cho Loại bộ phận Nhu cầu (Bộ phận/Tuần) mỗi khách hàng và tăng hàng năm với tốc độ phân phối 1 42 chuẩn với giá trị trung bình là 3% với độ lệch chuẩn 2 18 là 1,5%. Chi phí cố định được ước tính là khoảng 3 6 35.000 đô la cho năm đầu tiên và tăng hàng năm với tốc độ từ 1,5% đến 3%. Phát triển mô hình mô phỏng Monte Carlo để tìm phân phối giá trị hiện tại ròng của khả năng sinh lời của một cửa hàng mới trong 4 6 5 6 6 6 khoảng thời gian 5 năm với tỷ lệ chiết khấu là 5%. Máy A và B chỉ cần một người chạy hai máy. Máy C 34. Sturgill Manufacturing, Inc. cần dự đoán số lượng máy móc và nhân công cần thiết để sản xuất kế hoạch sản xuất cho năm tới. Nhà máy chạy ba ca liên tục trong tuần làm việc, chỉ cần một người mỗi máy. Xây dựng mô hình mô phỏng để xác định số lượng máy móc của mỗi loại và số lượng nhân viên sẽ được yêu cầu để đáp ứng nhu cầu dự báo. với tổng công suất là 120 giờ mỗi tuần. Hiệu quả của cửa hàng (phần trăm tổng thời gian có sẵn để sản xuất), tính đến việc thiết lập, 35. O'Brien Chemicals sản xuất ba loại sản phẩm: tẩy rửa công nghiệp, xử lý hóa chất và một số Machine Translated by Google 414 Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro sản phẩm linh tinh. Mỗi chiếc được bán trong thùng 55 gallon. Giá bán và chi phí sản xuất đơn vị được hiển thị dưới đây: Yêu cầu Tiêu chuẩn độ lệch Vệ Sinh Công Nghiệp Chế tạo Loại sản phẩm Nghĩa là Loại sản phẩm Giá bán/trống Chi phí/trống Vệ Sinh Công Nghiệp 100 Chất tẩy kiềm 5.000 Chất tẩy rửa axit 2.000 500 Chất tẩy rửa trung tính 5.000 350 Chất tẩy kiềm $700,00 $275,00 Chất tẩy rửa axit $600,00 $225,00 sắt photphat 5.500 250 Chất tẩy rửa trung tính $450,00 $150,00 Zirconi 2.800 130 Kẽm phốt phát 4.350 300 $920,00 $400,00 Zirconi $1.350,00 $525,00 chất bịt kín 8.000 350 Kẽm phốt phát $1.400,00 $625,00 Chống gỉ 4.250 250 chất bịt kín $850,00 $350,00 Chống gỉ $600,00 $260,00 Xử lý hóa chất sắt photphat Xử lý hóa chất Khác Khác Chi phí cố định được giả định là bình thường với giá trị trung bình là 5 triệu đô la và độ lệch chuẩn là 20.000 đô la. Tất cả các nhu cầu đều được giả định là được phân bổ bình thường với các phương tiện và độ lệch chuẩn sau: Người quản lý hoạt động phải xác định số lượng cần sản xuất khi đối mặt với nhu cầu không chắc chắn. Một lựa chọn đơn giản là tạo ra nhu cầu trung bình; tùy thuộc vào nhu cầu thực tế, điều này có thể dẫn đến tình trạng thiếu hàng (mất doanh số bán hàng) hoặc hàng tồn kho dư thừa. Hai lựa chọn khác là sản xuất ở mức bằng 75% hoặc 90% nhu cầu (nghĩa là tìm giá trị sao cho 75% hoặc 90% diện tích dưới phân phối chuẩn nằm bên trái). Sử dụng mô phỏng Monte Carlo, đánh giá và so sánh ba chính sách này và viết báo cáo cho người quản lý hoạt động tóm tắt những phát hiện của bạn. Trường hợp: Hiệu suất Lawn Thiết bị Một trong những nhà máy sản xuất của PLE cung cấp các bộ phận động cơ khác nhau cho các nhà sản xuất xe máy trên cơ sở đúng Xây dựng mô hình bảng tính để mô phỏng 260 ngày làm việc (1 năm) và đếm số ca làm việc bổ sung được yêu cầu. Giả sử rằng lúc. Công suất sản xuất theo kế hoạch cho một thành phần là 100 hàng tồn kho ban đầu là 100 đơn vị. Sử dụng các hàm Psi cho tất đơn vị mỗi ca và nhà máy hoạt động một ca mỗi ngày. Tuy nhiên, cả các ô không chắc chắn trong việc xây dựng mô hình của bạn. Sử do sự biến động trong hoạt động lắp ráp của khách hàng, nhu cầu dụng số ca làm việc bổ sung cần thiết làm ô đầu ra cho mô phỏng dao động và trong lịch sử là từ 80 đến 130 chiếc mỗi ngày. Để Monte Carlo, tìm phân phối số ca làm việc mà công ty có thể sẽ duy trì đủ hàng tồn kho nhằm đáp ứng các cam kết đúng lúc, ban cần trong năm tới. Giải thích và tóm tắt những phát hiện của bạn quản lý của PLE đang xem xét chính sách chạy ca thứ hai vào ngày trong một báo cáo cho người quản lý nhà máy và đưa ra khuyến hôm sau nếu hàng tồn kho giảm xuống còn 50 hoặc thấp hơn vào nghị về số lượng ca làm việc cần lập kế hoạch trong ngân sách cuối ngày (sau khi biết nhu cầu hàng ngày). Đối với quy trình năm tới. lập kế hoạch ngân sách hàng năm, các nhà quản lý cần biết sẽ cần thêm bao nhiêu ca làm việc. Phương trình cơ bản chi phối quá trình này mỗi ngày là tồn kho cuối kỳ tồn kho đầu kỳ + sản xuất nhu cầu

Obchodná Analytika: Metódy, Modely a Rozhodnutia

Products

Support

Obchodná Analytika: Metódy, Modely a Rozhodnutia

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib