Uploaded by HIEN TRAN THE

Vie Business Analytics 2nd Edition

advertisement
Machine Translated by Google
Machine Translated by Google
Phân tích kinh doanh
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Phân tích kinh doanh
Phương pháp, Mô hình và Quyết định
James R. Evans Đại học Cincinnati
PHIÊN BẢN THỨ HAI
Boston Columbus Indianapolis New York San Francisco
Amsterdam Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto
Delhi Thành phố Mexico São Paulo Sydney Hồng Kông Seoul Singapore Đài Bắc Tokyo
Machine Translated by Google
Giám đốc biên tập: Chris Hoag
Trợ lý tiếp thị: Emma Sarconi
Tổng biên tập: Deirdre Lynch
Hỗ trợ tác giả cấp cao/Chuyên gia công nghệ: Joe Vetere
Biên tập viên mua lại: Patrick Barbera
Quyền và Quyền Giám đốc dự án: Diahanne Lucas Dowridge
Trợ lý biên tập: Justin Billing
Chuyên gia mua sắm: Carole Melville
Quản lý chương trình: Tatiana Anacki
Phó Giám đốc Thiết kế: Andrea Nix
Quản lý dự án: Kerri Consalvo
Trưởng nhóm thiết kế chương trình: Beth Paquin
Trưởng nhóm quản lý dự án: Christina Lepre
Thiết kế văn bản: 12/10 TimesLTStd
Trưởng nhóm quản lý chương trình: Marianne Stepanian
Thành phần: Lumina Datamatics Ltd.
Nhà sản xuất truyền thông: Nicholas Sweeney
Thiết kế bìa: Studio Montage
MathXL Nhà phát triển nội dung: Kristina Evans
Ảnh bìa: Hình ảnh Aleksandarvelasevic/Getty
Giám đốc tiếp thị: Erin Kelly
Bản quyền © 2016, 2013 của Pearson Education, Inc. Bảo lưu mọi quyền. In tại Hoa Kỳ. Ấn phẩm này được bảo vệ bởi bản quyền và phải được nhà xuất bản cho
phép trước khi thực hiện bất kỳ hành vi sao chép, lưu trữ nào bị cấm trong hệ thống truy xuất hoặc truyền tải dưới bất kỳ hình thức nào hoặc bằng bất kỳ
phương tiện nào, điện tử, cơ khí, sao chụp, ghi âm hoặc cách khác. Để biết thông tin về quyền, biểu mẫu yêu cầu và liên hệ thích hợp trong bộ phận Quyền &
Quyền Toàn cầu của Pearson Education, vui lòng truy cập www.pearsoned.com/permissions/.
Xác nhận nội dung của bên thứ ba xuất hiện trên trang xvii, cấu thành phần mở rộng của trang bản quyền này.
PEARSON, ALWAYS LEARNING là nhãn hiệu độc quyền tại Hoa Kỳ và/hoặc các quốc gia khác thuộc sở hữu của Pearson Education, Inc. hoặc các chi nhánh của Pearson.
Trừ khi có quy định khác ở đây, mọi nhãn hiệu của bên thứ ba có thể xuất hiện trong tác phẩm này đều là tài sản của chủ sở hữu tương ứng và mọi tham chiếu
đến nhãn hiệu, logo hoặc hình thức thương mại khác của bên thứ ba chỉ nhằm mục đích minh họa hoặc mô tả. Những tham chiếu như vậy không nhằm mục đích ngụ ý bất kỳ
sự tài trợ, chứng thực, ủy quyền hoặc quảng cáo nào cho các sản phẩm của Pearson bởi chủ sở hữu các nhãn hiệu đó hoặc bất kỳ mối quan hệ nào giữa chủ sở hữu và
Pearson Education, Inc. hoặc các chi nhánh, tác giả, người được cấp phép hoặc nhà phân phối của nó.
[Đối với phiên bản dành cho người hướng dẫn: Công việc này chỉ dành cho người hướng dẫn và quản trị viên sử dụng cho mục đích giảng dạy các khóa học và đánh giá
quá trình học tập của sinh viên. Việc phổ biến, xuất bản hoặc bán trái phép tác phẩm, toàn bộ hoặc một phần (kể cả đăng trên internet) sẽ phá hủy tính toàn vẹn của
tác phẩm và bị nghiêm cấm.]
Dữ liệu Biên mục của Thư viện Quốc hội
Evans, James R. (James Robert), 1950–
Phân tích kinh doanh: phương pháp, mô hình và quyết định / James R. Evans, Đại học Cincinnati.—Ấn bản 2.
trang cm
Bao gồm tài liệu tham khảo và chỉ mục.
ISBN 978-0-321-99782-1 (alk. giấy)
1. Lập kế hoạch kinh doanh. 2. Hoạch định chiến lược. 3. Quản lý công nghiệp—Phương pháp thống kê. I. Tiêu đề.
HD30.28.E824 2016
658.4'01—dc23
2014017342
1 2 3 4 5 6 7 8 9 10—XXX—18 17 16 15 14
ISBN 10: 0-321-99782-4
ISBN 13: 978-0-321-99782-1
Machine Translated by Google
Nội dung tóm tắt
Lời nói đầu xviii
Về tác giả xxiii
tín dụng xxv
Phần 1 Nền tảng của Phân tích Kinh doanh
Chương 1 Giới thiệu về Business Analytics 1
Chương 2 Phân tích trên bảng tính 37
Phần 2 Phân tích mô tả
Chương 3 Trực quan hóa và khám phá dữ liệu 53
Chương 4 Các biện pháp thống kê mô tả 95
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu 131
Chương 6 Lấy mẫu và ước lượng 181
Chương 7 Suy luận thống kê 205
Phần 3 Phân tích Dự đoán
Chương 8 Phân tích đường xu hướng và hồi quy 233
Chương 9
Kỹ Thuật Dự Báo 273
Chương 10 Giới thiệu về khai phá dữ liệu 301
Chương 11 Mô hình hóa và phân tích bảng tính 341
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro 377
Phần 4 Phân tích theo quy định
Chương 13 Tối ưu tuyến tính 415
Chương 14 Ứng dụng của Tối ưu tuyến tính 457
Chương 15 Tối ưu số nguyên 513
Chương 16 Phân tích quyết định 553
Chương bổ sung A (trực tuyến) Tối ưu hóa phi tuyến tính và không trơn tru
Chương bổ sung B (trực tuyến) Các mô hình tối ưu hóa với sự không chắc chắn
Phụ lục A 585
Thuật ngữ 609
Chỉ mục 617
vv
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
nội dung
Lời nói đầu xviii
Về tác giả xxiii
tín dụng xxv
Phần 1: Nền tảng của phân tích kinh doanh
Chương 1: Giới thiệu về Business Analytics 1
Mục tiêu học tập 1
Phân tích kinh doanh là gì? 4
Sự phát triển của phân tích kinh doanh 5
Tác động và Thách thức 8
Phạm vi Phân tích Kinh doanh 9
Hỗ trợ phần mềm 12
Dữ liệu cho Business Analytics 13
Tập dữ liệu và cơ sở dữ liệu 14 Dữ liệu lớn 15 Số liệu và dữ liệu
Phân loại 16 Độ tin cậy và giá trị của dữ liệu 18
Các mô hình trong Phân tích kinh doanh 18
Các mô hình quyết định 21 Các giả định của mô hình 24 Sự không chắc chắn và rủi ro 26
Mô hình quyết định theo quy định 26
Giải quyết vấn đề với Analytics 27
Nhận ra vấn đề 28
Bài toán 28
a Quyết định 29
Xác định vấn đề 28
Phân Tích Bài Toán 29
cấu trúc các
Giải thích kết quả và làm
Thực hiện giải pháp 29
Thuật ngữ chính 30 Thú vị với Analytics 31 Vấn đề và bài tập 31
Trường hợp: Dự án nghiên cứu quảng cáo Drout 33 Trường hợp: Bãi cỏ biểu diễn
Thiết bị 34
Chương 2: Phân tích trên bảng tính 37
Mục tiêu học tập 37
Kỹ năng Excel cơ bản 39
Công thức Excel 40 Sao chép công thức 40 Thủ thuật Excel hữu ích khác 41
Hàm Excel 42
Các hàm Excel cơ bản 42 Các hàm cho các ứng dụng cụ thể 43
Hàm Chèn 44 Hàm Logic 45
Sử dụng Hàm Tra cứu Excel cho Truy vấn Cơ sở dữ liệu 47
Phần bổ trợ bảng tính cho Business Analytics 50
Thuật ngữ chính 50 Vấn đề và bài tập 50 Tình huống: Sân cỏ biểu diễn
Thiết bị 52
vii
Machine Translated by Google
viii
nội dung
Phần 2: Phân tích mô tả
Chương 3: Trực quan hóa và khám phá dữ liệu 53
Mục tiêu học tập 53
Trực quan hóa dữ liệu 54
Bảng điều khiển 55 Công cụ và phần mềm để trực quan hóa dữ liệu 55
Tạo biểu đồ trong Microsoft Excel 56
Biểu đồ cột và thanh 57 Biểu đồ nhãn dữ liệu và bảng dữ liệu
Biểu đồ hình tròn 59 Biểu đồ vùng 60
Tùy chọn 59 Biểu đồ đường 59
Biểu đồ tán xạ 60 Biểu đồ bong bóng 62 Khác
Biểu đồ Excel 63 Dữ liệu địa lý 63
Các công cụ trực quan hóa dữ liệu Excel khác 64
Thanh dữ liệu, thang màu và bộ biểu tượng 64 Sparklines 65 Excel Camera
Công cụ 66
Truy vấn dữ liệu: Bảng, Sắp xếp và Lọc 67
Sắp xếp dữ liệu trong Excel 68
Phân tích Pareto 68
Lọc dữ liệu 70
Phương pháp thống kê để tổng hợp dữ liệu 72
Phân phối tần suất cho dữ liệu phân loại 73 Tần suất tương đối
Phân phối 74 Phân phối tần số cho dữ liệu số 75
Công cụ biểu đồ Excel 75 Tần suất tương đối tích lũy
Phân phối 79
Phần trăm và phần tư 80 Bảng chéo 82
Khám phá dữ liệu bằng cách sử dụng PivotTable 84
PivotCharts 86 Slicers và PivotTable Dashboards 87
Thuật ngữ chính 90 Vấn đề và Bài tập 91 Tình huống: Nghiên cứu Quảng cáo Drout
Trường hợp dự án 93: Thiết bị làm cỏ hiệu suất 94
Chương 4: Các biện pháp thống kê mô tả 95
Mục tiêu học tập 95
Quần thể và mẫu 96
Hiểu ký hiệu thống kê 96
Biện pháp Vị trí 97
Trung bình số học 97 Trung bình 98 Chế độ 99 Trung bình 99
Sử dụng thước đo vị trí trong các quyết định kinh doanh 100
Các biện pháp phân tán 101
Phạm vi 101 Khoảng tứ phân vị 101 Phương sai 102 Tiêu chuẩn
Độ lệch 103 Định lý Ch Quashev và Quy tắc Thực nghiệm 104
Giá trị chuẩn hóa 107 Hệ số biến đổi 108
Số đo hình dạng 109
Công cụ thống kê mô tả Excel 110
Thống kê mô tả cho dữ liệu được nhóm 112
Thống kê mô tả cho dữ liệu phân loại: Tỷ lệ 114
Thống kê trong PivotTable 114
Machine Translated by Google
nội dung
Các biện pháp của hiệp hội 115
Hiệp phương sai 116 Tương quan 117 Công cụ Tương quan Excel 119
Ngoại lệ 120
Tư Duy Thống Kê Trong Các Quyết Định Kinh Doanh 122
Sự thay đổi trong các mẫu 123
Thuật ngữ chính 125 Vấn đề và Bài tập 126 Tình huống: Nghiên cứu Quảng cáo Drout
Trường hợp dự án 129: Thiết bị cắt cỏ hiệu suất 129
Chương 5: Phân phối xác suất và mô hình hóa dữ liệu 131
Mục tiêu học tập 131
Các khái niệm cơ bản về xác suất 132
Quy tắc và công thức xác suất 134 Xác suất chung và xác suất cận biên 135
Xác suất có điều kiện 137
Biến ngẫu nhiên và phân phối xác suất 140
Phân phối xác suất rời rạc 142
Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc 143 Sử dụng giá trị kỳ vọng
trong việc đưa ra quyết định 144 Phương sai của một biến ngẫu nhiên rời
rạc 146 Phân phối Bernoulli 147 Phân phối nhị thức 147
Phân phối Poisson 149
Phân phối xác suất liên tục 150
Các thuộc tính của hàm mật độ xác suất 151 Phân phối đồng nhất 152 Phân phối
chuẩn 154 Hàm NORM.INV 156 Phân phối chuẩn chuẩn 156 Sử dụng bảng phân phối chuẩn
chuẩn 158 Phân phối lũy thừa 158 Các phân phối hữu ích khác 160 Phân
phối liên tục 160
Lấy mẫu ngẫu nhiên từ phân phối xác suất 161
Lấy Mẫu Từ Phân Phối Xác Suất Rời Rạc 162 Lấy Mẫu Từ Phổ Biến
Phân phối xác suất 163 Hàm phân phối xác suất trong Bộ giải tích
sân ga 166
Mô hình hóa và phân phối dữ liệu phù hợp 168
Goodness of Fit 170 Phân phối Khớp với Nền tảng Bộ giải Phân tích 170
Thuật ngữ chính 172 Vấn đề và bài tập 173 Tình huống: Bãi cỏ biểu diễn
Thiết bị 179
Chương 6: Lấy mẫu và ước lượng 181
Mục tiêu học tập 181
Lấy mẫu thống kê 182
Phương pháp lấy mẫu 182
Ước tính các tham số dân số 185
Công cụ Ước tính Không chệch 186 Lỗi trong Ước tính Điểm 186
Lỗi lấy mẫu 187
Hiểu lỗi lấy mẫu 187
ix
Machine Translated by Google
x
nội dung
Phân phối lấy mẫu 189
Phân phối lấy mẫu của giá trị trung bình 189 của
Áp dụng phân phối lấy mẫu
giá trị trung bình 190
Khoảng ước lượng 190
Khoảng tin cậy 191
Khoảng tin cậy cho giá trị trung bình với tiêu chuẩn dân số đã biết
Độ lệch 192 Phân phối t 193 Khoảng tin cậy cho
Giá trị trung bình với độ lệch chuẩn dân số chưa biết 194 Khoảng tin cậy cho một
tỷ lệ 194 Các loại khoảng tin cậy bổ sung 196
Sử dụng khoảng tin cậy để ra quyết định 196
Khoảng dự đoán 197
Khoảng tin cậy và cỡ mẫu 198
Thuật ngữ chính 200 Vấn đề và Bài tập 200 Tình huống: Quảng cáo Drout
Dự án nghiên cứu 202 Trường hợp: Thiết bị làm cỏ hiệu suất 203
Chương 7: Suy luận thống kê 205
Mục tiêu học tập 205
Kiểm Định Giả Thuyết 206
Thủ tục kiểm định giả thuyết 207
Thử nghiệm giả thuyết một mẫu 207
Hiểu các Lỗi Tiềm ẩn trong Kiểm tra Giả thuyết 208
Chọn bài kiểm tra
Thống kê 209 Rút ra kết luận 210
Kiểm tra giả thuyết về giá trị trung bình hai phía 212
Giá trị p 212 Kiểm định một mẫu cho các tỷ lệ 213 Khoảng tin cậy và kiểm định giả
thuyết 214
Kiểm Định Giả Thuyết Hai Mẫu 215
Thử nghiệm hai mẫu để tìm sự khác biệt về phương tiện 215 Thử nghiệm hai mẫu để tìm phương tiện với
Các mẫu được ghép đôi 218 Kiểm tra sự bằng nhau của phương sai 219
Phân Tích Phương Sai (ANOVA) 221
Giả định của ANOVA 223
Chi-Square Test cho Độc lập 224
Thận trọng khi sử dụng Chi-Square Test 226
Thuật ngữ chính 227 Vấn đề và bài tập 228 Tình huống: Nghiên cứu quảng cáo Drout
Trường hợp dự án 231: Thiết bị cắt cỏ hiệu suất 231
Phần 3: Phân tích dự đoán
Chương 8: Đường xu hướng và Phân tích hồi quy 233
Mục tiêu học tập 233
Mô hình hóa các mối quan hệ và xu hướng trong dữ liệu 234
Hồi quy tuyến tính đơn giản 238
Tìm Đường hồi quy phù hợp nhất 239
Hồi quy bình phương nhỏ nhất 241
Hồi quy tuyến tính đơn giản với hồi quy Excel 243 dưới dạng phân tích
Phương sai 245 Kiểm định giả thuyết cho các hệ số hồi quy 245
Khoảng tin cậy cho các hệ số hồi quy 246
Machine Translated by Google
nội dung
xi
Giả định phân tích và hồi quy phần dư 246
Kiểm tra giả định 248
Hồi quy tuyến tính bội 249
Xây Dựng Các Mô Hình Hồi Quy Tốt 254
Tương Quan và Đa Cộng Tuyến 256 Các Vấn Đề Thực Tế về Đường Xu Hướng và Hồi Quy
người mẫu 257
Hồi quy với các biến độc lập phân loại 258
Các biến phân loại có nhiều hơn hai cấp 261
Mô hình hồi quy với số hạng phi tuyến 263
Các kỹ thuật nâng cao để lập mô hình hồi quy bằng XLMiner 265
Thuật ngữ chính 268 Vấn đề và bài tập 268 Tình huống: Bãi cỏ biểu diễn
Thiết bị 272
Chương 9: Kỹ thuật dự báo 273
Mục tiêu học tập 273
Dự báo định tính và phán đoán 274
Tương tự lịch sử 274 Phương pháp Delphi 275 Các chỉ báo và chỉ số 275
Mô hình dự báo thống kê 276
Các mô hình dự báo cho chuỗi thời gian tĩnh 278
Các mô hình trung bình động 278
Số liệu lỗi và độ chính xác dự báo 282
Các mô hình làm mịn hàm mũ 284
Các mô hình dự báo cho chuỗi thời gian với xu hướng tuyến tính 286
Làm mịn hàm mũ kép 287 Dự báo dựa trên hồi quy cho chuỗi thời gian với xu hướng tuyến
tính 288
Chuỗi thời gian dự báo với tính thời vụ 290
Các mô hình dự báo theo mùa dựa trên hồi quy 290 Holt-Winters Dự báo cho
Chuỗi thời gian theo mùa 292 Mô hình Holt-Winters để dự báo chuỗi thời gian với
Tính thời vụ và xu hướng 292
Lựa chọn các mô hình dự báo dựa trên chuỗi thời gian phù hợp 294
Dự báo hồi quy với các biến nhân quả 295
Thực Hành Dự Báo 296
Thuật ngữ chính 298 Vấn đề và bài tập 298 Tình huống: Sân cỏ biểu diễn
Thiết bị 300
Chương 10: Giới thiệu về Khai thác dữ liệu 301
Mục tiêu học tập 301
Phạm vi khai thác dữ liệu 303
Khai thác và thu nhỏ dữ liệu 304
Lấy mẫu 304 Trực quan hóa dữ liệu 306 Dữ liệu bẩn 308
cụm
Phân tích 310
Phân loại 315
Giải thích trực quan về Phân loại 316 Phân loại Đo lường
Hiệu suất 316 Sử dụng dữ liệu đào tạo và xác thực 318
Dữ liệu mới 320
phân loại
Machine Translated by Google
xii
nội dung
Kỹ Thuật Phân Loại 320
k-Hàng xóm gần nhất (k-NN) 321 Phân tích phân biệt 324 Logistic
Hồi quy 327 Khai phá luật kết hợp 331
Mô Hình Nhân Quả 334
Các thuật ngữ chính 338 Vấn đề và bài tập 338 Tình huống: Sân cỏ biểu diễn
Thiết bị 340
Chương 11: Mô hình hóa và phân tích bảng tính 341
Mục tiêu học tập 341
Chiến lược cho mô hình quyết định dự đoán 342
Xây dựng Mô hình Sử dụng Toán học Đơn giản 342 Xây dựng Mô hình Sử dụng Ảnh hưởng
sơ đồ 343
Triển khai Mô hình trên Bảng tính 344
Thiết kế bảng tính 344 Chất lượng bảng tính 346
Ứng dụng bảng tính trong Business Analytics 349
Mô hình liên quan đến nhiều khoảng thời gian 351 Mua một khoảng thời gian
Quyết định 353 Overbooking Quyết định 354
Các giả định về mô hình, tính phức tạp và tính hiện thực 356
Dữ liệu và Mô hình 356
Phát triển ứng dụng Excel thân thiện với người dùng 359
Xác thực dữ liệu 359 Tên phạm vi 359 Điều khiển biểu mẫu 360
Phân tích sự không chắc chắn và giả định mô hình 362
Phân tích What-If 362 Bảng dữ liệu 364 Trình quản lý kịch bản 366
Mục Tiêu Đi Tìm 367
Phân tích mô hình bằng cách sử dụng Nền tảng bộ giải phân tích 368
Phân tích độ nhạy tham số 368 Biểu đồ lốc xoáy 370
Các thuật ngữ chính 371 Vấn đề và bài tập 371 Tình huống: Sân cỏ biểu diễn
Thiết bị 376
Chương 12: Mô phỏng Monte Carlo và Phân tích Rủi ro 377
Mục tiêu học tập 377
Mô hình bảng tính với các biến ngẫu nhiên 379
Mô phỏng Monte Carlo 379
Mô phỏng Monte Carlo Sử dụng Nền tảng Bộ giải Phân tích 381
Xác định các đầu vào mô hình không chắc chắn 381 Xác định các ô đầu ra 384
Chạy mô phỏng 384 Xem và phân tích kết quả 386
Mô hình phát triển sản phẩm mới 388
Khoảng tin cậy cho giá trị trung bình 391 Biểu đồ độ nhạy 392 Lớp phủ
Biểu đồ 392 Biểu đồ xu hướng 394 Biểu đồ hình hộp 394
Báo cáo mô phỏng 395
Người bán báo Model 395
Lỗ hổng của Trung bình 395 Mô phỏng Monte Carlo Sử dụng Lịch sử
Dữ liệu 396 Mô phỏng Monte Carlo bằng phân phối được trang bị 397
Đặt trước vượt mức Mẫu 398
Phân phối tùy chỉnh trong Nền tảng bộ giải phân tích 399
Machine Translated by Google
nội dung
xiii
Mô hình ngân sách tiền mặt 400
Các biến không chắc chắn tương quan 403
Các thuật ngữ chính 407 Vấn đề và bài tập 407 Case: Performance Lawn
Thiết Bị 414
Phần 4: Phân tích theo quy định
Chương 13: Tối ưu tuyến tính 415
Mục tiêu học tập 415
Xây dựng mô hình tối ưu hóa tuyến tính 416
Xác định các yếu tố cho mô hình tối ưu hóa 416 Mô hình dịch thuật
Thông tin vào biểu thức toán học 417 Tìm hiểu thêm về
ràng buộc 419
Đặc điểm của mô hình tối ưu hóa tuyến tính 420
Triển khai các Mô hình Tối ưu hóa Tuyến tính trên Bảng tính 420
Các hàm Excel cần tránh trong Tối ưu hóa tuyến tính 422
Giải các mô hình tối ưu tuyến tính 422
Sử dụng Bộ giải Tiêu chuẩn 423 Sử dụng Bộ giải Cao cấp 425 Bộ giải
Báo cáo trả lời 426
Giải thích đồ họa của Tối ưu hóa tuyến tính 428
Cách thức hoạt động của bộ giải 433
Cách bộ giải tạo tên trong báo cáo 435
Kết quả bộ giải và thông báo giải pháp 435
Giải pháp tối ưu duy nhất 436 Phương án thay thế (Nhiều) Tối ưu
Giải pháp 436 Không giới hạn Giải pháp 437 Không khả thi 438
Sử dụng các Mô hình Tối ưu hóa để Dự đoán và Hiểu biết sâu sắc 439
Báo cáo độ nhạy của bộ giải 441 Sử dụng Báo cáo độ nhạy 444
Phân tích tham số trong Nền tảng bộ giải phân tích 446
Các thuật ngữ chính 450 Vấn đề và bài tập 450 Tình huống: Sân cỏ biểu diễn
Thiết bị 455
Chương 14: Ứng dụng của Tối ưu tuyến tính 457
Mục tiêu học tập 457
Các loại ràng buộc trong mô hình tối ưu hóa 459
Mô hình lựa chọn quy trình 460
Thiết kế bảng tính và báo cáo bộ giải 461
Đầu ra bộ giải và trực quan hóa dữ liệu 463
Pha trộn các mô hình 467
Đối phó với sự không khả thi 468
Các mô hình đầu tư danh mục đầu tư 471
Đánh giá Rủi ro so với Phần thưởng 473 Các vấn đề Mở rộng Quy mô khi Sử dụng Bộ giải 474
Mô hình vận tải 476
Định dạng Báo cáo Độ nhạy 478 Suy biến 480
Mô hình lập kế hoạch sản xuất nhiều giai đoạn 480
Xây dựng các mô hình thay thế 482
Mô hình lập kế hoạch tài chính đa kỳ 485
Machine Translated by Google
xiv
nội dung
Các mô hình có biến giới hạn 489
Các biến phụ trợ cho ràng buộc ràng buộc 493
Mô hình phân bổ sản xuất/tiếp thị 495
Sử Dụng Thông Tin Độ Nhạy Đúng Cách 497
Thuật ngữ chính 499 Vấn đề và bài tập 499 Tình huống: Sân cỏ biểu diễn
Thiết Bị 511
Chương 15: Tối ưu số nguyên 513
Mục tiêu học tập 513
Giải mô hình với các biến số nguyên tổng quát 514
Mô hình Lập kế hoạch Lực lượng lao động 518
Giải pháp thay thế tối ưu 519
Các mô hình tối ưu hóa số nguyên với các biến nhị phân 523
Project-Selection Models 524 Sử dụng các biến nhị phân để mô hình logic
Ràng buộc 526 Mô hình Vị trí 527 Phân tích Tham số 529
Mô hình chuyển nhượng khách hàng để tối ưu hóa chuỗi cung ứng 530
Mô hình tối ưu hóa số nguyên hỗn hợp 533
Vị trí nhà máy và mô hình phân phối 533 Biến nhị phân, Hàm IF và
Tính phi tuyến tính trong xây dựng mô hình 534 Mô hình chi phí cố định 536
Các thuật ngữ chính 538 Vấn đề và bài tập 538 Tình huống: Bãi cỏ biểu diễn
Thiết bị 547
Chương 16: Phân tích quyết định 553
Mục tiêu học tập 553
Xây dựng quyết định vấn đề 555
Các chiến lược quyết định không có xác suất kết quả 556
Các Chiến lược Quyết định cho Mục tiêu Tối thiểu hóa 556 Các Chiến lược Quyết định cho một
Tối đa hóa mục tiêu 557 Các quyết định có mâu thuẫn với các mục tiêu 558
Chiến lược Quyết định với Xác suất Kết quả 560
Chiến lược hoàn trả trung bình 560 Chiến lược giá trị kỳ vọng 560
Đánh giá rủi ro 561
Cây quyết định 562
Cây quyết định và Mô phỏng Monte Carlo 566 Cây quyết định và
Rủi ro 566 Phân tích độ nhạy trong cây quyết định 568
Giá trị của thông tin 569
Quyết định với thông tin mẫu 570 Quy tắc Bayes 570
Tiện ích và ra quyết định 572
Xây Dựng Hàm Tiện Ích 573 Hàm Tiện Ích Hàm Mũ 576
Thuật ngữ chính 578 Vấn đề và bài tập 578 Tình huống: Bãi cỏ biểu diễn
Thiết bị 582
Machine Translated by Google
nội dung
Chương bổ sung A (trực tuyến) Tối ưu hóa phi tuyến tính và không trơn tru
Chương bổ sung B (trực tuyến) Các mô hình tối ưu hóa với sự không chắc chắn
Các chương trực tuyến có sẵn để tải xuống tại www.pearsonhighered.com/evans.
Phụ lục A 585
Thuật ngữ 609
Chỉ mục 617
xv
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
lời nói đầu
Năm 2007, Thomas H. Davenport và Jeanne G. Harris đã viết một cuốn sách mang tính đột phá,
Cạnh tranh dựa trên phân tích: Khoa học mới về chiến thắng (Boston: Nhà xuất bản Trường Kinh
doanh Harvard). Họ đã mô tả có bao nhiêu tổ chức đang sử dụng phân tích một cách chiến lược để
đưa ra quyết định tốt hơn và cải thiện giá trị của khách hàng và cổ đông. Trong vài năm qua,
chúng tôi đã chứng kiến sự tăng trưởng đáng kể về số liệu phân tích trong tất cả các loại
hình tổ chức. Viện Nghiên cứu Hoạt động và Khoa học Quản lý (INFORMS) lưu ý rằng phần mềm phân
tích với tư cách là một dịch vụ được dự đoán sẽ tăng trưởng gấp ba lần tốc độ của các phân
khúc kinh doanh khác trong những năm tới.1 Ngoài ra, MIT Sloan Management Review hợp tác với
Viện Giá trị Kinh doanh của IBM đã khảo sát một mẫu toàn cầu gồm gần 3.000 giám đốc điều hành,
nhà quản lý và nhà phân tích.2 Nghiên cứu này kết luận rằng các tổ chức hoạt động hiệu quả
nhất sử dụng số liệu phân tích nhiều hơn năm lần so với các tổ chức hoạt động kém hiệu quả
hơn, rằng việc cải thiện thông tin và hoạt động phân tích là ưu tiên hàng đầu trong các tổ
chức này và rằng nhiều tổ chức cảm thấy họ phải chịu áp lực đáng kể trong việc áp dụng các
phương pháp phân tích và thông tin nâng cao. Kể từ khi các báo cáo này được xuất bản, sự quan
tâm và việc sử dụng phân tích đã tăng lên đáng kể.
Trên thực tế, phân tích kinh doanh đã tồn tại hơn nửa thế kỷ. Các trường kinh doanh từ
lâu đã giảng dạy nhiều chủ đề cốt lõi trong phân tích kinh doanh—thống kê, phân tích dữ liệu,
hệ thống hỗ trợ quyết định và thông tin cũng như khoa học quản lý. Tuy nhiên, những chủ đề này
theo truyền thống đã được trình bày trong các khóa học riêng biệt và độc lập và được hỗ trợ
bởi sách giáo khoa với rất ít sự tích hợp theo chủ đề. Cuốn sách này được thiết kế độc đáo để
trình bày nguyên tắc phân tích kinh doanh mới nổi theo một cách thống nhất nhất quán với định
nghĩa hiện đại về lĩnh vực này.
Về cuốn sách
Cuốn sách này cung cấp cho sinh viên kinh doanh đại học và sinh viên mới tốt nghiệp các khái
niệm và công cụ cơ bản cần thiết để hiểu vai trò mới nổi của phân tích kinh doanh trong các
tổ chức, để áp dụng các công cụ phân tích kinh doanh cơ bản trong môi trường bảng tính và
giao tiếp với các chuyên gia phân tích để sử dụng và diễn giải các mô hình và kết quả phân
tích để đưa ra các quyết định kinh doanh tốt hơn. Chúng tôi thực hiện một cách tiếp cận cân
bằng, toàn diện trong việc xem xét các phân tích kinh doanh từ các quan điểm mô tả, dự đoán
và quy định mà ngày nay xác định nguyên tắc.
1Anne Robinson, Jack Levis và Gary Bennett, INFORMS News: INFORMS chính thức tham gia Phong trào Analyt ics. http://
www.informs.org/ORMS-Today/Public-Articles/Oct-Volume-37-Number-5/
THÔNG TIN-Tin tức-THÔNG TIN-để-Chính thức-Tham gia-Chuyển động Phân tích.
2
“Phân tích: Con đường mới dẫn đến giá trị,” Báo cáo nghiên cứu đánh giá quản lý MIT Sloan, mùa thu năm 2010.
xvii
Machine Translated by Google
xviii
lời nói đầu
Cuốn sách này được tổ chức trong năm phần.
1. Nền tảng của phân tích kinh doanh
Hai chương đầu tiên cung cấp nền tảng cơ bản cần thiết để hiểu phân tích kinh doanh và thao
tác dữ liệu bằng Microsoft Excel.
2. Phân tích mô tả
Chương 3 đến Chương 7 tập trung vào các công cụ cơ bản và phương pháp phân tích dữ liệu và
thống kê, tập trung vào trực quan hóa dữ liệu, phép đo thống kê mô tả, phân phối xác suất
và mô hình hóa dữ liệu, lấy mẫu và ước tính cũng như suy luận thống kê. Chúng tôi tán thành
các khuyến nghị của Hiệp hội Thống kê Hoa Kỳ về việc giảng dạy thống kê nhập môn, trong đó
bao gồm nhấn mạnh kiến thức thống kê và phát triển tư duy thống kê, nhấn mạnh sự hiểu biết
về khái niệm hơn là kiến thức đơn thuần về quy trình và sử dụng công nghệ để phát triển hiểu
biết về khái niệm và phân tích dữ liệu. Chúng tôi tin rằng những mục tiêu này có thể đạt
được mà không cần giới thiệu mọi kỹ thuật có thể tưởng tượng được vào một cuốn sách 800–1.000
trang như nhiều cuốn sách chính thống hiện nay. Trên thực tế, chúng tôi đề cập đến tất cả
nội dung thiết yếu mà bang Ohio đã quy định đối với số liệu thống kê kinh doanh dành cho sinh
viên đại học trên tất cả các trường cao đẳng và đại học công lập.
3. Phân tích dự đoán
Trong phần này, các Chương 8 đến 12 phát triển các phương pháp áp dụng các kỹ thuật hồi quy,
dự báo và khai thác dữ liệu, xây dựng và phân tích các mô hình dự đoán trên bảng tính, cũng
như mô phỏng và phân tích rủi ro.
4. Phân tích theo quy định
Các chương từ 13 đến 15, cùng với hai chương bổ sung trực tuyến, khám phá các mô hình và ứng
dụng tối ưu hóa tuyến tính, số nguyên và phi tuyến tính, bao gồm tối ưu hóa với độ không
đảm bảo.
5. Đưa ra quyết định
Chương 16 tập trung vào các triết lý, công cụ và kỹ thuật phân tích quyết định.
Phiên bản thứ hai đã được sửa đổi cẩn thận để cải thiện cả nội dung và tổ chức sư phạm của
tài liệu. Cụ thể, ấn bản này nhấn mạnh hơn nhiều vào trực quan hóa dữ liệu, kết hợp việc sử
dụng các công cụ Excel bổ sung, các tính năng mới của Nền tảng bộ giải phân tích dành cho
giáo dục cũng như nhiều bộ dữ liệu và bài toán mới. Các chương từ 8 đến 12 đã được sắp xếp
lại từ ấn bản đầu tiên để cải thiện luồng logic của các chủ đề và cung cấp sự chuyển đổi
tốt hơn sang các ứng dụng và mô hình bảng tính.
Các tính năng của cuốn sách
Các ví dụ được đánh số—nhiều ví dụ ngắn, xuyên suốt tất cả các chương minh họa các khái
niệm và kỹ thuật, đồng thời giúp học sinh học cách áp dụng các kỹ thuật và hiểu kết quả.
“Phân tích trong thực hành”—ít nhất một chương trong mỗi chương, tính năng này mô tả các ứng
dụng thực tế trong kinh doanh.
Mục tiêu học tập—liệt kê các mục tiêu mà học sinh có thể đạt được sau khi học chương này.
Machine Translated by Google
xix
lời nói đầu
Các thuật ngữ chính—được in đậm trong văn bản và được liệt kê ở cuối mỗi chương,
những từ này sẽ hỗ trợ học sinh khi các em ôn tập chương này và ôn tập cho các kỳ
thi. Các thuật ngữ chính và định nghĩa của chúng có trong bảng thuật ngữ ở cuối sách.
Các vấn đề và bài tập cuối chương—giúp củng cố kiến thức đã học qua chương này.
Các trường hợp tích hợp—cho phép học sinh suy nghĩ độc lập và áp dụng các công cụ liên
quan ở cấp độ học tập cao hơn.
Tập dữ liệu và Mô hình Excel—được sử dụng trong các ví dụ và vấn đề và có sẵn cho
sinh viên tại www.pearsonhighered.com/evans.
Hỗ trợ phần mềm
Mặc dù nhiều loại gói phần mềm khác nhau được sử dụng trong các ứng dụng phân tích kinh doanh
trong ngành, nhưng cuốn sách này sử dụng phần bổ trợ Excel mạnh mẽ của Microsoft Excel và
Frontline Systems, Nền tảng bộ giải phân tích dành cho giáo dục, cùng nhau cung cấp các khả
năng mở rộng cho phân tích kinh doanh. Nhiều gói phần mềm thống kê có sẵn và cung cấp các khả
năng rất mạnh mẽ; tuy nhiên, họ thường yêu cầu giấy phép đặc biệt (và tốn kém) và các yêu cầu
học tập bổ sung. Các gói này chắc chắn phù hợp với các chuyên gia phân tích và sinh viên trong
các chương trình thạc sĩ chuyên đào tạo các chuyên gia như vậy. Tuy nhiên, đối với sinh viên
kinh doanh nói chung, chúng tôi tin rằng Microsoft Ex cel với các phần bổ trợ phù hợp sẽ phù
hợp hơn. Mặc dù Microsoft Excel có thể có một số thiếu sót trong khả năng thống kê, nhưng thực
tế là mọi sinh viên kinh doanh sẽ sử dụng Excel trong suốt sự nghiệp của họ. Excel hỗ trợ tốt
cho việc trực quan hóa dữ liệu, phân tích thống kê cơ bản, phân tích điều gì xảy ra nếu và
nhiều khía cạnh quan trọng khác của phân tích kinh doanh. Trên thực tế, khi sử dụng cuốn sách
này, sinh viên sẽ đạt được mức độ thành thạo cao với nhiều tính năng của Excel sẽ phục vụ tốt
cho sự nghiệp tương lai của họ. Ngoài ra, phần bổ trợ Excel của Nền tảng bộ giải phân tích
dành cho giáo dục của Frontline Systems được tích hợp xuyên suốt cuốn sách.
Phần bổ trợ này, được sử dụng trong số các tổ chức kinh doanh hàng đầu trên thế giới, cung cấp
thông tin toàn diện về nhiều chủ đề phân tích kinh doanh khác trong một nền tảng chung.
Phần bổ trợ này cung cấp hỗ trợ cho mô hình hóa dữ liệu, dự báo, mô phỏng Monte Carlo và phân
tích rủi ro, khai thác dữ liệu, tối ưu hóa và phân tích quyết định. Cùng với Excel, nó cung cấp
cơ sở toàn diện để tìm hiểu phân tích kinh doanh một cách hiệu quả.
Gửi các em học sinh
Để tận dụng tối đa cuốn sách này, bạn cần phải làm nhiều hơn là chỉ đọc nó! Nhiều ví dụ mô
tả chi tiết cách sử dụng và áp dụng các công cụ hoặc phần bổ trợ Excel khác nhau. Chúng tôi
thực sự khuyên bạn nên làm việc thông qua các ví dụ này trên máy tính của mình để sao chép các
kết quả và kết quả được hiển thị trong văn bản. Bạn cũng nên so sánh các công thức toán học
với các công thức bảng tính và thực hiện các phép tính số cơ bản bằng tay. Chỉ theo cách này,
bạn mới học cách sử dụng các công cụ và kỹ thuật một cách hiệu quả, hiểu rõ hơn về các khái
niệm cơ bản của phân tích kinh doanh và nâng cao trình độ sử dụng Microsoft Excel, thứ sẽ phục
vụ tốt cho bạn trong sự nghiệp tương lai.
Truy cập trang web của Companion (www.pearsonhighered.com/evans) để truy cập vào các thông
tin sau:
Tệp Trực tuyến: Tập dữ liệu và Mô hình Excel—các tệp được sử dụng với các ví dụ
được đánh số và các vấn đề ở cuối chương (Để dễ tham khảo, các tên tệp liên quan
được in nghiêng và nêu rõ khi sử dụng trong các ví dụ.)
Machine Translated by Google
xx
lời nói đầu
Hướng dẫn tải xuống phần mềm: Truy cập vào Nền tảng bộ giải phân tích dành cho giáo dục
—giấy phép miễn phí, kéo dài một học kỳ của phiên bản đặc biệt này của phần mềm Nền tảng
bộ giải phân tích của Frontline Systems dành cho Microsoft Excel.
Được tích hợp xuyên suốt cuốn sách, phần mềm bổ sung Excel Nền tảng bộ giải phân tích dành cho giáo dục
của Frontline Systems cung cấp cơ sở toàn diện để tìm hiểu phân tích kinh doanh một cách hiệu quả, bao
gồm:
Risk Solver Pro—Chương trình này là một công cụ để phân tích rủi ro, mô phỏng và tối ưu hóa
trong Excel. Có một liên kết nơi bạn sẽ tìm hiểu thêm về phần mềm này tại www.solver.com.
XLMiner—Chương trình này là một bổ trợ khai thác dữ liệu cho Excel. Có một liên kết nơi bạn
sẽ tìm hiểu thêm về phần mềm này tại www.solver.com/xlminer.
Nền tảng Bộ giải Cao cấp, một siêu bộ lớn của Bộ giải Cao cấp và cho đến nay là trình tối ưu hóa
bảng tính mạnh mẽ nhất, với trình thông dịch PSI để phân tích mô hình và năm Công cụ Bộ
giải được tích hợp sẵn cho tuyến tính, bậc hai, SOCP, số nguyên hỗn hợp, phi tuyến tính, không
trơn và tối ưu hóa toàn cầu.
Khả năng giải quyết các mô hình tối ưu hóa với các quyết định truy đòi và không chắc chắn,
sử dụng tối ưu hóa mô phỏng, lập trình ngẫu nhiên, tối ưu hóa mạnh mẽ và phân tách ngẫu nhiên.
Khả năng phân tích độ nhạy và cây quyết định tích hợp mới, được phát triển với sự hợp tác
của Giáo sư Chris Albright (SolverTable), Giáo sư. Stephen Powell và Ken Baker (Bộ công cụ
nhạy cảm) và Giáo sư Mike Middleton (TreePlan).
Một phiên bản đặc biệt của Gurobi Solver—trình tối ưu hóa số nguyên hỗn hợp tuyến tính hiệu
suất cực cao được tạo bởi các nhà khoa học máy tính đáng kính tại Gurobi Optimization.
Để đăng ký và tải phần mềm thành công, bạn cần có Mã Texbook và Mã khóa học. Mã sách giáo khoa là EBA2
và người hướng dẫn của bạn sẽ cung cấp Mã khóa học. Bản tải xuống này bao gồm giấy phép 140 ngày để sử
dụng phần mềm. Truy cập www.pearsonhighed.com/evans để biết hướng dẫn tải xuống đầy đủ.
Kính gửi quý thầy cô
Trung tâm tài nguyên của người hướng dẫn—Truy cập qua liên kết tại www.pearsonhighered.com/
evans, Trung tâm tài nguyên của người hướng dẫn chứa các tệp điện tử dành cho Hướng dẫn giải pháp hoàn
chỉnh của người hướng dẫn, bản trình bày bài giảng PowerPoint và Tệp mục kiểm tra.
Đăng ký, mua lại, đăng nhập tại www.pearsonhighered.com/irc, người hướng dẫn có thể truy cập
nhiều tài nguyên in ấn, phương tiện và trình chiếu có sẵn với cuốn sách này ở định dạng kỹ
thuật số có thể tải xuống. Tài nguyên cũng có sẵn cho các nền tảng quản lý khóa học như
Blackboard, WebCT và CourseCompass.
Cần giúp đỡ? Nhóm hỗ trợ kỹ thuật chuyên dụng của Pearson Education sẵn sàng làm trợ giảng
cho các câu hỏi về các phương tiện bổ sung đi kèm với văn bản này. Truy cập http://
247pearsoned.com để biết câu trả lời cho các câu hỏi thường gặp và số điện thoại hỗ trợ người
dùng miễn phí. Các bổ sung có sẵn để thông qua người hướng dẫn. Mô tả chi tiết được cung cấp
tại Trung tâm tài nguyên của người hướng dẫn.
Hướng dẫn Giải pháp dành cho Người hướng dẫn—Sổ tay Giải pháp dành cho Người hướng dẫn,
được tác giả cập nhật và sửa đổi cho lần xuất bản thứ hai, bao gồm các giải pháp dựa
trên Excel cho tất cả các vấn đề, bài tập và trường hợp ở cuối chương. của người hướng dẫn
Machine Translated by Google
lời nói đầu
xxi
Hướng dẫn giải pháp có sẵn để tải xuống bằng cách truy cập www.pearsonhighered.
com/evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn.
Bản trình bày PowerPoint—Các bản trình bày PowerPoint, đã được tác giả sửa đổi và cập
nhật, có sẵn để tải xuống bằng cách truy cập www.pearsonhighered.com/
evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn. Các trang chiếu
PowerPoint cung cấp cho người hướng dẫn các đề cương bài giảng riêng lẻ để đi kèm với văn bản.
Các slide bao gồm gần như tất cả các hình, bảng và ví dụ từ văn bản.
Giáo viên hướng dẫn có thể sử dụng nguyên trạng các ghi chú bài giảng này hoặc có thể dễ dàng sửa
đổi các ghi chú để phản ánh các nhu cầu trình bày cụ thể.
Ngân hàng đề thi—Ngân hàng đề thi do Paolo Catasti từ Đại học Virginia Common rich biên
soạn, có sẵn để tải xuống bằng cách truy cập www.pearsonhighered.
com/evans và nhấp vào liên kết Tài nguyên dành cho Người hướng dẫn.
Nền tảng bộ giải phân tích dành cho giáo dục (ASPE)—Đây là phiên bản đặc biệt của phần
mềm Nền tảng bộ giải phân tích của Frontline Systems dành cho Microsoft Excel.
Để biết thêm thông tin về Nền tảng bộ giải phân tích dành cho giáo dục, hãy liên hệ với Hệ
thống tiền tuyến theo số (888) 831–0333 (Hoa Kỳ và Canada), 775-831-0300 hoặc ac
ademia@solver.com. Họ sẽ vui lòng cung cấp giấy phép đánh giá miễn phí cho các giảng viên
đang cân nhắc áp dụng phần mềm và tạo Mã khóa học duy nhất cho khóa học của bạn mà sinh
viên của bạn sẽ cần để tải xuống phần mềm. Họ có thể giúp bạn chuyển đổi các mô hình mô
phỏng mà bạn có thể đã tạo bằng phần mềm khác để hoạt động với Nền tảng bộ giải phân tích
(rất đơn giản).
Sự nhìn nhận
Tôi muốn cảm ơn các nhân viên tại Pearson Education vì tính chuyên nghiệp và sự tận tâm của họ để biến
cuốn sách này thành hiện thực. Đặc biệt, tôi muốn cảm ơn Kerri Consalvo, Tatiana Anacki, Erin Kelly,
Nicholas Sweeney và Patrick Barbera; Jen Carley tại Lumina Datamatics Ltd.; người kiểm tra độ chính xác
Annie Puciloski; và người kiểm tra giải pháp Regina Krahenbuhl vì những đóng góp nổi bật của họ trong
việc xuất bản cuốn sách này. Tôi cũng muốn cảm ơn Daniel Fylstra và nhân viên của anh ấy tại Frontline
Systems đã hợp tác chặt chẽ với tôi để cho phép cuốn sách này trở thành cuốn sách đầu tiên bao gồm
XLMiner với Nền tảng bộ giải phân tích. Nếu bạn có bất kỳ đề xuất hoặc chỉnh sửa nào, vui lòng liên hệ
với tác giả qua email tại james.evans@uc.edu.
James R. Evans
Phòng Điều hành, Phân tích Kinh doanh và Hệ thống Thông tin
Đại học Cincinnati
Cincinnati, Ohio
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Giới thiệu về tác giả
James R. Evans
Giáo sư, Đại học Kinh doanh Cincinnati
James R. Evans là giáo sư tại Khoa Điều hành, Phân tích Kinh doanh và Hệ thống Thông tin
tại Trường Cao đẳng Kinh doanh tại Đại học Cincinnati. Ông có bằng BSIE và MSIE của Đại học
Purdue và bằng Tiến sĩ Kỹ thuật Hệ thống và Công nghiệp của Đại học Georgia Tech.
Tiến sĩ Evans đã xuất bản nhiều sách giáo khoa trong nhiều lĩnh vực kinh doanh khác
nhau, bao gồm thống kê, mô hình quyết định và phân tích, mô phỏng và phân tích rủi ro, tối
ưu hóa mạng, quản lý hoạt động, quản lý chất lượng và tư duy sáng tạo. Ông đã xuất bản hơn
90 bài báo trên các tạp chí như Khoa học Quản lý, Giao dịch IIE, Khoa học Quyết định, Giao
diện, Tạp chí Quản lý Hoạt động, Tạp chí Quản lý Chất lượng, và nhiều tạp chí khác, đồng
thời viết một loạt bài trong Giao diện về sự sáng tạo trong quản lý nghiên cứu khoa học và
hoạt động trong những năm 1990. Ông cũng đã phục vụ trong nhiều ban biên tập tạp chí và là
cựu chủ tịch và là thành viên của Viện Khoa học Quyết định. Năm 1996, anh là Người lọt vào
Chung kết Giải thưởng Edelman của INFORMS như một phần của dự án tối ưu hóa chuỗi cung ứng
với Procter & Gamble, được ghi nhận là đã giúp P&G tiết kiệm hơn 250.000.000 đô la hàng
năm trong chuỗi cung ứng ở Bắc Mỹ của họ và tư vấn về mô hình phân tích rủi ro cho
Cincinnati 2012's Đề xuất đấu thầu Thế vận hội Olympic.
Là một chuyên gia quốc tế được công nhận về quản lý chất lượng, ông đã phục vụ trong
Hội đồng Giám khảo và Hội đồng Giám khảo cho Giải thưởng Chất lượng Quốc gia Malcolm Baldrige.
Phần lớn các nghiên cứu hiện tại của ông tập trung vào hiệu quả hoạt động xuất sắc của tổ chức và các
biện pháp đảm bảo đo lường.
xxiii
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Tín dụng
Tín dụng văn bản
Chương 1 Trang 2–3 “Sở thú & Vườn bách thảo Cincinnati” từ Sở thú Cincinnati Chuyển đổi Trải
nghiệm của Khách hàng và Tăng Lợi nhuận, Bản quyền © 2012. Được sử dụng dưới sự cho phép
của Tập đoàn IBM. Trang 4–5 “Các loại quyết định phổ biến có thể được cải thiện bằng cách sử
dụng phân tích” của Thomas H. Davenport từ Cách các tổ chức đưa ra quyết định tốt hơn. Được
xuất bản bởi SAS Institute, Inc. Trang 10–11 Phân tích trong ngành cho vay thế chấp và cho
vay mua nhà của Craig Zielazny. Được sử dụng dưới sự cho phép của Craig Zielazny. Trang 26
Đoạn trích của Thomas Olavson, Chris Fry từ Công cụ hỗ trợ ra quyết định trên bảng tính: Bài
học kinh nghiệm tại Hewlett-Packard. Xuất bản bởi Giao diện. Trang 29–30 Phân tích trong thực
tế: Phát triển các công cụ phân tích hiệu quả tại Hewlett-Packard: Thomas Olvason; Chris Fry;
Giao diện Trang 33 Dự án Nghiên cứu Quảng cáo Drout của Jamie Drout. Được sử dụng dưới sự
cho phép của Jamie Drout.
Chương 5 Trang 151 Đoạn trích từ Định giá trên Priceline của Chris K. Anderson.
Xuất bản bởi Giao diện.
Chương 7 Trang 227 Dự án Cải thiện Dịch vụ Bộ phận Trợ giúp của Francisco Endara M từ Bộ
phận Trợ giúp Cải thiện Dịch vụ và Tiết kiệm Tiền với Six Sigma. Được sử dụng dưới sự cho
phép của Hiệp hội Chất lượng Hoa Kỳ.
Chương 12 Trang 410–411 Thực hiện các mô hình bảng tính Monte Carlo quy mô lớn của Yusuf
Jafry từ Hypo International Tăng cường quản lý rủi ro bằng Khung quản lý bảng tính an toàn,
quy mô lớn. Xuất bản bởi Giao diện, © 2008.
Chương 13 Trang 452–453 Đoạn trích của Srinivas Bollapragada từ Hệ thống Tối ưu hóa của NBC
Tăng Doanh thu và Năng suất. Bản quyền © 2002. Được sử dụng dưới sự cho phép của Giao diện.
Chương 15 Trang 536–537 Tối ưu hóa chuỗi cung ứng tại Procter & Gamble của Jeffrey D.
Camm from Blending OR/MS, Judgement và GIS: Tái cấu trúc Chuỗi cung ứng của P&G.
Xuất bản bởi Giao diện, © 1997.
Chương 16 Trang 580–581 Đoạn trích từ Cách Bayer đưa ra quyết định phát triển thuốc mới của
Jeffrey S Stonebraker. Xuất bản bởi Giao diện.
Tín ảnh
Chương 1 Trang 1 Phân tích Phân tích Kinh doanh: Mindscanner/Fotolia Trang 30
Máy tính, máy tính và bảng tính: Hans12/Fotolia
Chương 2 Trang 37 Máy tính với Bảng tính: Gunnar Pippel/Shutterstock
xxv
Machine Translated by Google
xxvi
Tín dụng
Chương 3 Trang 53 Bảng tính với kính lúp: Poles/Fotolia Trang 72 Dữ liệu
Phân tích: 2jenn/Shutterstock
Chương 4 Trang 95 Mẫu số đầy màu sắc: JonnyDrake/Shutterstock Trang 125
Màn hình máy tính với dữ liệu tài chính: NAN728/Shutterstock
Chương 5 Trang 131 Bảng tính mờ dần: Fantasista/Fotolia Trang 151 Biểu đồ xác suất và chi phí bằng
bút chì: Fantasista/Fotolia Trang 172 Khái niệm kinh doanh: Victor Correia/
màn trập
Chương 6 Trang 181 Loạt biểu đồ thanh: Kalabukhava Iryna/Shutterstock Trang 185
Xe chở bia: Stephen Finn/Shutterstock
Chương 7 Trang 205 Doanh nhân giải bài toán bằng đồ thị minh họa:
Serg Nvns/Fotolia Page 227 Những người làm việc tại bộ phận trợ giúp: StockLite/Shutterstock
Chương 8 Trang 233 Đồ thị 3D Đường xu hướng: Sheelamohanachandran/Fotolia Trang 253 Máy tính và Rủi
ro: Gunnar Pippel/Shutterstock Trang 254C 4 thanh trượt nút điều hướng hình vuông trống trên web
2.0: Claudio Divizia/Shutterstock Trang 254L Biểu đồ đồ thị minh họa về tăng trưởng và suy thoái:
Vector Minh họa/Shutterstock Trang 254R Máy đo âm thanh: Shutterstock
Chương 9 Trang 273 Biển chỉ đường trong quá khứ và tương lai: Karen Roach/Fotolia Trang 298 NBC
Hãng phim: Sean Pavone/Dreamstine
Chương 10 Trang 301 Khái niệm chiến lược công nghệ khai thác dữ liệu: Kentoh/Shutterstock
Trang 337 Doanh nhân vẽ sơ đồ tiếp thị: Helder Almeida/Shutterstock
Chương 11 Trang 341 Bảng tính 3D: Dmitry/Fotolia Trang 349 Tòa nhà: ZUMA
Báo chí/Newscom Trang 355 Phòng khám sức khỏe: Poprostskiy Alexey/Shutterstock
Chương 12 Trang 377 Phân tích Rủi ro trong Kinh doanh: iQoncept/Shutterstock Trang 406
Tòa nhà văn phòng: Verdeskerde/Shutterstock
Chương 13 Trang 415 Bảng tính 3D, biểu đồ, bút: Archerix/Shutterstock Trang 449
Ký hiệu diễn xuất trên truyền hình: Bizoo_n/Fotolia
Chương 14 Trang 457 Những người làm việc trên bảng tính: Pressmaster/Shutterstock Page
Biểu đồ thị trường chứng khoán màu 489: 2jenn/Shutterstock
Chương 15 Trang 513 Động não Khái niệm: Dusit/Shutterstock Trang 523 Xe buýt Qantas Air A380: Gordon
Tipene/Dreamstine Trang 533 Khái niệm chuỗi cung ứng: Kheng Guan Toh/
màn trập
Chương 16 Trang 553 Người ở ngã tư đường: Michael D Brown/Shutterstock Trang 578
Ảnh ghép một số hình ảnh từ một cửa hàng thuốc: Sokolov/Shutterstock
Phần bổ sung Chương A (trực tuyến) Trang 1 Các thẻ và nhãn giảm giá khác nhau: ít
Whale/Shutterstock Page 9 Cơ sở Chữ Thập Đỏ: Littleny/Dreamstine
Chương bổ sung B (trực tuyến) Trang 1 Người đàn ông bối rối suy nghĩ về quyết định đúng đắn:
StockThings/Shutterstock Trang 7 Buồng lái Lockheed Constellation: Brad Whitsitt/
màn trập
Machine Translated by Google
Giới thiệu về
Phân tích kinh doanh
CHƯƠNG
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Xác định phân tích kinh doanh.
Mô tả bốn nhóm phân loại dữ liệu, phân loại, thứ tự,
Giải thích tại sao phân tích lại quan trọng trong môi trường kinh
khoảng và tỷ lệ, đồng thời cung cấp ví dụ về từng nhóm.
doanh ngày nay.
Nêu một số ví dụ điển hình về các ứng dụng kinh doanh trong đó
Giải thích khái niệm về một mô hình và các cách khác nhau để
phân tích sẽ có lợi.
mô tả một mô hình.
Tóm tắt sự phát triển của phân tích kinh doanh và giải
Xác định và liệt kê các yếu tố của một mô hình quyết định.
thích các khái niệm về kinh doanh thông minh, nghiên cứu
Xác định và cung cấp một ví dụ về sơ đồ ảnh hưởng.
hoạt động và khoa học quản lý cũng như các hệ thống hỗ trợ ra
quyết định.
Sử dụng sơ đồ ảnh hưởng để xây dựng các mô hình toán học đơn
Giải thích và cung cấp các ví dụ về phân tích mô tả,
giản.
dự đoán và quy định.
Sử dụng các mô hình dự đoán để tính toán kết quả đầu ra của mô hình.
Nêu các ví dụ về cách dữ liệu được sử dụng trong kinh doanh.
Giải thích sự khác biệt giữa sự không chắc chắn và rủi ro.
Giải thích sự khác biệt giữa tập dữ liệu và cơ sở dữ liệu.
Định nghĩa các thuật ngữ tối ưu hóa, hàm mục tiêu và giải pháp
tối ưu.
Xác định một số liệu và giải thích các khái niệm về
Giải thích sự khác biệt giữa mô hình quyết định tất định và
đo lường và các biện pháp.
ngẫu nhiên.
Giải thích sự khác biệt giữa chỉ số rời rạc và chỉ số liên tục,
Liệt kê và giải thích các bước giải quyết vấn đề
đồng thời cung cấp ví dụ về từng loại.
quá trình.
1
Machine Translated by Google
2
Chương 1 Giới thiệu về Phân tích Kinh doanh
Hầu hết các bạn có thể đã từng đến sở thú, nhìn thấy các loài động vật, ăn gì đó và mua
một số quà lưu niệm. Bạn có thể sẽ không nghĩ rằng việc quản lý vườn thú là rất khó khăn;
xét cho cùng, đó chỉ là việc cho các con vật ăn và chăm sóc, phải không? Sở thú có thể
là nơi cuối cùng mà bạn mong muốn tìm thấy các phân tích kinh doanh đang được sử dụng,
nhưng giờ thì không còn nữa. Sở thú & Vườn bách thảo Cincinnati là “người áp dụng sớm” và
là một trong những tổ chức đầu tiên thuộc loại này khai thác phân tích kinh doanh.1
Mặc dù tạo ra hơn hai phần ba ngân sách thông qua các nỗ lực gây quỹ của riêng mình,
vườn thú muốn giảm sự phụ thuộc vào trợ cấp thuế địa phương hơn nữa bằng cách tăng lượng
khách tham quan và doanh thu từ các nguồn thứ cấp như thành viên, thực phẩm và cửa hàng
bán lẻ. Người quản lý cấp cao của sở thú phỏng đoán rằng cách tốt nhất để nhận ra nhiều
giá trị hơn từ mỗi lần ghé thăm là mang đến cho du khách trải nghiệm khách hàng thực sự
thay đổi. Bằng cách sử dụng phân tích kinh doanh để hiểu rõ hơn về hành vi của du khách
và điều chỉnh các hoạt động theo sở thích của họ, sở thú dự kiến sẽ tăng lượng người tham
dự, thúc đẩy số lượng thành viên và tối đa hóa doanh số bán hàng.
Nhóm dự án—bao gồm các chuyên gia tư vấn từ IBM và BrightStar Partners, cũng như các
giám đốc điều hành cấp cao từ sở thú—bắt đầu biến các mục tiêu của tổ chức thành các giải
pháp kỹ thuật. Vườn thú đã làm việc để tạo ra một nền tảng phân tích kinh doanh có khả
năng mang lại các mục tiêu mong muốn bằng cách kết hợp dữ liệu từ hệ thống bán vé và điểm
bán hàng trong toàn bộ vườn thú với thông tin thành viên và dữ liệu địa lý được thu thập
từ mã ZIP của tất cả khách tham quan. Điều này cho phép tạo báo cáo và bảng điều khiển
cung cấp cho mọi người từ quản lý cấp cao đến nhân viên sở thú quyền truy cập thông tin
theo thời gian thực giúp họ tối ưu hóa quản lý vận hành và chuyển đổi trải nghiệm của
khách hàng.
Bằng cách tích hợp dữ liệu dự báo thời tiết, sở thú có thể so sánh các dự báo hiện
tại với dữ liệu bán hàng và tham dự lịch sử, hỗ trợ việc ra quyết định tốt hơn cho việc
lập kế hoạch lao động và lập kế hoạch kiểm kê. Một lĩnh vực khác mà giải pháp mang lại
cái nhìn sâu sắc mới là dịch vụ ăn uống. Bằng cách mở các cửa hàng ăn uống vào những
thời điểm cụ thể trong ngày khi nhu cầu cao nhất (ví dụ: để các quầy bán kem mở cửa trong
giờ cuối cùng trước khi sở thú đóng cửa), sở thú đã có thể tăng doanh thu đáng kể. Sở thú
đã có thể tăng đáng kể lượng người tham dự và doanh thu, dẫn đến ROI hàng năm là 411%.
Kinh doanh
1Nguồn: IBM Software Business Analtyics, “Cincinnati Zoo thay đổi trải nghiệm của khách hàng và
tăng lợi nhuận,” © Tập đoàn IBM 2012.
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
3
sáng kiến phân tích đã tự trả tiền trong vòng ba tháng và mang lại lợi ích trung bình là
738.212 đô la mỗi năm. Đặc biệt,
Sở thú đã chứng kiến doanh số bán vé tăng 4,2% bằng cách nhắm mục tiêu đến
những du khách tiềm năng sống ở các mã ZIP cụ thể.
Doanh thu thực phẩm tăng 25% nhờ tối ưu hóa sự kết hợp của các sản phẩm được bán và
điều chỉnh các phương thức bán hàng để phù hợp với thời gian mua hàng cao điểm.
Loại bỏ các sản phẩm bán chậm và nhắm mục tiêu khách truy cập bằng các
chương trình khuyến mãi cụ thể đã giúp tăng 18% doanh số bán hàng hóa.
Cắt giảm chi phí tiếp thị, tiết kiệm 40.000 đô la trong năm đầu tiên và giảm
43% chi phí quảng cáo bằng cách loại bỏ các chiến dịch không hiệu quả và phân
khúc khách hàng để tiếp thị có mục tiêu hơn.
Vì sự thành công của sở thú, các tổ chức khác như Point Defiance Zoo & Aquarium, ở bang
Washington, và History Colorado, một bảo tàng ở Denver, đã bắt tay vào các sáng kiến tương
tự.
Trong những năm gần đây, phân tích ngày càng trở nên quan trọng trong thế giới kinh
doanh, đặc biệt khi các tổ chức có quyền truy cập ngày càng nhiều dữ liệu.
Các nhà quản lý ngày nay không còn đưa ra quyết định dựa trên phán đoán và kinh nghiệm
thuần túy; họ dựa vào dữ liệu thực tế và khả năng thao tác và phân tích dữ liệu để hỗ trợ
các quyết định của họ. Do đó, nhiều công ty gần đây đã thành lập bộ phận phân tích; chẳng
hạn, IBM đã tổ chức lại hoạt động kinh doanh tư vấn của mình và thành lập một tổ chức mới
gồm 4.000 người tập trung vào phân tích.2 Các công ty đang ngày càng tìm kiếm những sinh
viên tốt nghiệp kinh doanh có khả năng hiểu và sử dụng phân tích. Trên thực tế, vào năm
2011, Cục Thống kê Lao động Hoa Kỳ dự đoán nhu cầu đối với các chuyên gia có chuyên môn
phân tích sẽ tăng 24%.
Bất kể sự tập trung kinh doanh học thuật của bạn là gì, bạn sẽ nhất
có thể là người dùng phân tích trong tương lai ở một mức độ nào đó và làm việc với các
chuyên gia phân tích. Mục đích của cuốn sách này là cung cấp cho bạn phần giới thiệu cơ
bản về các khái niệm, phương pháp và mô hình được sử dụng trong phân tích kinh doanh để
bạn không chỉ phát triển sự đánh giá cao về khả năng hỗ trợ và nâng cao các quyết định
kinh doanh mà còn cả khả năng sử dụng phân tích kinh doanh ở cấp độ cơ bản trong công việc
của bạn. Trong chương này, chúng tôi giới thiệu cho bạn lĩnh vực phân tích kinh doanh và
đặt nền tảng cho nhiều khái niệm và kỹ thuật mà bạn sẽ học.
2Matthew J. Liberatore và Wenhong Luo, “The Analytics Movement: Implications for Operations
Research,” Interfaces, 40, 4 (Tháng 7–Tháng 8 năm 2010): 313–324.
Machine Translated by Google
4
Chương 1 Giới thiệu về Phân tích Kinh doanh
Phân tích kinh doanh là gì?
Mọi người đều đưa ra quyết định. Các cá nhân phải đối mặt với các quyết định cá nhân chẳng hạn như
chọn chương trình đại học hoặc sau đại học, mua sản phẩm, chọn công cụ thế chấp và đầu tư để nghỉ
hưu. Các nhà quản lý trong các tổ chức kinh doanh đưa ra nhiều quyết định mỗi ngày. Một số quyết
định này bao gồm sản xuất sản phẩm nào và định giá như thế nào, đặt cơ sở ở đâu, thuê bao nhiêu
người, phân bổ ngân sách quảng cáo ở đâu, có hay không thuê ngoài chức năng kinh doanh hoặc đầu tư
vốn và cách lên lịch trình. sản xuất. Nhiều quyết định trong số này có những hậu quả kinh tế đáng
kể; hơn nữa, chúng rất khó thực hiện vì dữ liệu không chắc chắn và thông tin không hoàn hảo về tương
lai. Vì vậy, các nhà quản lý cần thông tin tốt và sự hỗ trợ để đưa ra những quyết định quan trọng
không chỉ ảnh hưởng đến công ty mà còn cả sự nghiệp của họ. Điều làm cho các quyết định kinh doanh
trở nên phức tạp ngày nay là lượng dữ liệu và thông tin sẵn có quá lớn. Dữ liệu để hỗ trợ các quyết
định kinh doanh — bao gồm cả những dữ liệu được thu thập cụ thể bởi các công ty cũng như thông qua
Internet và phương tiện truyền thông xã hội như Facebook — đang phát triển theo cấp số nhân và
ngày càng trở nên khó hiểu và khó sử dụng. Đây là một trong những lý do tại sao phân tích lại quan
trọng trong môi trường kinh doanh ngày nay.
Phân tích kinh doanh, hay đơn giản là phân tích, là việc sử dụng dữ liệu, công nghệ thông
tin, phân tích thống kê, phương pháp định lượng và các mô hình toán học hoặc dựa trên máy tính để
giúp các nhà quản lý hiểu rõ hơn về hoạt động kinh doanh của họ và đưa ra các quyết định dựa trên
thực tế tốt hơn. Phân tích kinh doanh là “một quá trình chuyển đổi dữ liệu thành hành động thông
qua phân tích và hiểu biết sâu sắc trong bối cảnh ra quyết định của tổ chức và giải quyết vấn
đề.”3 Phân tích kinh doanh được hỗ trợ bởi nhiều công cụ như Microsoft Excel và nhiều phần bổ trợ
Excel khác nhau, phần mềm thống kê thương mại các gói như SAS hoặc Minitab và các bộ kinh doanh
thông minh phức tạp hơn tích hợp dữ liệu với phần mềm phân tích.
Các công cụ và kỹ thuật phân tích kinh doanh được sử dụng trên nhiều lĩnh vực trong nhiều tổ
chức khác nhau để cải thiện việc quản lý các mối quan hệ khách hàng, hoạt động tài chính và tiếp
thị, nguồn nhân lực, chuỗi cung ứng và nhiều lĩnh vực khác. Các ngân hàng hàng đầu sử dụng phân
tích để dự đoán và ngăn chặn gian lận tín dụng. Các nhà sản xuất sử dụng phân tích để lập kế
hoạch sản xuất, mua hàng và quản lý hàng tồn kho. Các nhà bán lẻ sử dụng phân tích để giới thiệu
sản phẩm cho khách hàng và tối ưu hóa các chương trình khuyến mãi tiếp thị. Các công ty dược phẩm
sử dụng nó để đưa các loại thuốc cứu người ra thị trường nhanh hơn. Ngành giải trí và nghỉ dưỡng
cố gắng sử dụng phân tích để phân tích dữ liệu bán hàng lịch sử, hiểu hành vi của khách hàng, cải
thiện thiết kế trang Web và tối ưu hóa lịch trình và đặt chỗ. Các hãng hàng không và khách sạn sử
dụng số liệu phân tích để tự động đặt giá theo thời gian nhằm tối đa hóa doanh thu. Ngay cả các
đội thể thao cũng đang sử dụng phân tích kinh doanh để xác định cả chiến lược trận đấu và giá vé
tối ưu.4 Trong số nhiều tổ chức sử dụng phân tích để đưa ra quyết định chiến lược và quản lý hoạt
động hàng ngày có Harrah's Entertainment, đội bóng chày Oakland Athletics và New England Các đội
bóng yêu nước, Amazon.com, Procter & Gamble, United Parcel Service (UPS) và ngân hàng Capital One.
Có báo cáo rằng gần như tất cả các công ty có doanh thu hơn 100 triệu đô la đều đang sử dụng một
số hình thức phân tích kinh doanh.
Một số loại quyết định phổ biến có thể được tăng cường bằng cách sử dụng phân tích bao gồm
định giá (ví dụ: định giá cho hàng tiêu dùng và hàng công nghiệp, hợp đồng chính phủ
và hợp đồng bảo trì),
phân khúc khách hàng (ví dụ: xác định và nhắm mục tiêu các nhóm khách hàng chính
trong ngành bán lẻ, bảo hiểm và thẻ tín dụng),
3Liberatore và Luo, “Phong trào phân tích.”
4
Jim Davis, “8 yếu tố cần thiết của phân tích kinh doanh,” trong “Brain Trust—Kích hoạt doanh nghiệp tự
tin với phân tích kinh doanh” (Cary, NC: SAS Institute, Inc., 2010): 27–29. www.sas.com/bareport
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
5
bán hàng (ví dụ: xác định nhãn hiệu để mua, số lượng và phân bổ),
vị trí (ví dụ: tìm vị trí tốt nhất cho các chi nhánh ngân hàng và máy ATM hoặc
nơi bảo dưỡng thiết bị công nghiệp),
và nhiều lĩnh vực khác trong hoạt động và chuỗi cung ứng, tài chính, tiếp thị và nguồn
nhân lực—trên thực tế, trong mọi lĩnh vực kinh doanh.5
Các nghiên cứu khác nhau đã phát hiện ra mối quan hệ chặt chẽ giữa hiệu quả hoạt động của một
công ty về lợi nhuận, doanh thu và lợi nhuận của cổ đông và việc sử dụng các phương pháp phân tích
của công ty. Các tổ chức hoạt động hiệu quả nhất (những tổ chức vượt trội so với đối thủ cạnh tranh
của họ) có khả năng sử dụng phân tích phức tạp hơn gấp ba lần so với những tổ chức hoạt động kém
hơn và có nhiều khả năng tuyên bố rằng việc sử dụng phân tích của họ khiến họ khác biệt với các
đối thủ cạnh tranh.6 Tuy nhiên, tìm kiếm lại cũng có gợi ý rằng các tổ chức bị choáng ngợp bởi dữ
liệu và đấu tranh để hiểu cách sử dụng dữ liệu để đạt được kết quả kinh doanh và hầu hết các tổ
chức chỉ đơn giản là không hiểu cách sử dụng phân tích để cải thiện doanh nghiệp của họ. Do đó,
hiểu được khả năng và kỹ thuật phân tích là rất quan trọng để quản lý trong môi trường kinh doanh ngày nay.
Một trong những ứng dụng mới nổi của phân tích là giúp các doanh nghiệp học hỏi từ truyền thông
xã hội và khai thác dữ liệu truyền thông xã hội để tạo lợi thế chiến lược.7 Sử dụng phân tích, các
công ty có thể tích hợp dữ liệu truyền thông xã hội với các nguồn dữ liệu truyền thống như khảo sát
khách hàng, nhóm tiêu điểm và dữ liệu bán hàng; hiểu xu hướng và nhận thức của khách hàng về sản phẩm
của họ; và tạo các báo cáo thông tin để hỗ trợ các nhà quản lý tiếp thị và nhà thiết kế sản phẩm.
Sự phát triển của phân tích kinh doanh
Các phương pháp phân tích, dưới hình thức này hay hình thức khác, đã được sử dụng trong kinh doanh
hơn một thế kỷ. Tuy nhiên, sự phát triển hiện đại của phân tích bắt đầu với sự ra đời của máy
tính vào cuối những năm 1940 và sự phát triển của chúng trong suốt những năm 1960 và hơn thế
nữa. Những chiếc máy tính ban đầu cung cấp khả năng lưu trữ và phân tích dữ liệu theo những cách
rất khó hoặc không thể thực hiện thủ công. Điều này tạo thuận lợi cho việc thu thập, quản lý, phân
tích và báo cáo dữ liệu, thường được gọi là nghiệp vụ thông minh (BI), một thuật ngữ được đặt ra
vào năm 1958 bởi một nhà nghiên cứu của IBM, Hans Peter Luhn.8 Phần mềm nghiệp vụ thông minh có
thể trả lời những câu hỏi cơ bản như vậy như "Chúng tôi đã bán được bao nhiêu đơn vị trong tháng
trước?" “Khách hàng đã mua những sản phẩm nào và họ đã chi bao nhiêu tiền?” “Có bao nhiêu giao
dịch thẻ tín dụng đã được hoàn thành ngày hôm qua?” Sử dụng BI, chúng ta có thể tạo các quy tắc
đơn giản để tự động gắn cờ các trường hợp ngoại lệ, ví dụ: một ngân hàng có thể dễ dàng xác định
các giao dịch lớn hơn 10.000 đô la để báo cáo cho Sở Thuế vụ.9 BI đã phát triển thành nguyên tắc
hiện đại mà chúng ta gọi là hệ thống thông tin (IS) .
5Thomas H. Davenport, “Làm thế nào các tổ chức đưa ra các quyết định tốt hơn,” đã chỉnh sửa đoạn trích của một bài
báo do Viện Phân tích Quốc tế phân phối được xuất bản trong “Brain Trust—Kích hoạt Doanh nghiệp Tự tin với Phân tích
Kinh doanh” (Cary, NC: SAS Institute, Inc. , 2010): 8–11. www.sas.com/bareport 6Thomas H. Davenport và Jeanne G.
Harris, Cạnh tranh về phân tích (Boston: Nhà xuất bản Trường Kinh doanh Harvard, 2007): 46; Michael S. Hopkins,
Steve LaValle, Fred Balboni, Nina Kruschwitz và Rebecca Shockley, “10 Data Points: Information and Analytics at
Work,” MIT Sloan Management Review, 52, 1 (Mùa thu 2010): 27–31.
7
Jim Davis, “Hội tụ—Đưa phương tiện truyền thông xã hội từ thảo luận sang hành động,” SASCOM (Quý 1 năm 2011): 17.
8 GIỜ. P. Luhn, “Một hệ thống kinh doanh thông minh.” Tạp chí IBM (tháng 10 năm 1958).
9 Jim Davis, “Phân tích kinh doanh: Giúp bạn tiến lên phía trước với đầy đủ thông tin,” trong “Niềm tin của bộ não
— Tạo điều kiện cho doanh nghiệp tự tin với phân tích kinh doanh,” (Cary, NC: SAS Institute, Inc., 2010): 4–7.
www.sas .com/bareport
Machine Translated by Google
6
Chương 1 Giới thiệu về Phân tích Kinh doanh
Thống kê có một lịch sử lâu dài và phong phú, nhưng chỉ gần đây nó mới được công nhận là
một yếu tố quan trọng của kinh doanh, phần lớn được thúc đẩy bởi sự phát triển ồ ạt của dữ liệu
trong thế giới ngày nay. Nhà kinh tế trưởng của Google tuyên bố rằng các nhà thống kê chắc chắn
có “công việc thực sự hấp dẫn” trong thập kỷ tới.10 Các phương pháp thống kê cho phép chúng ta
hiểu rõ hơn về dữ liệu vượt ra ngoài báo cáo kinh doanh thông minh bằng cách không chỉ tổng hợp
dữ liệu ngắn gọn mà còn tìm ra những điều chưa biết và thú vị mối quan hệ giữa các dữ liệu. Các
phương pháp thống kê bao gồm các công cụ cơ bản về mô tả, khám phá, ước tính và suy luận, cũng
như các kỹ thuật nâng cao hơn như hồi quy, dự báo và khai thác dữ liệu.
Phần lớn phân tích kinh doanh hiện đại bắt nguồn từ việc phân tích và giải quyết các vấn
đề quyết định phức tạp bằng cách sử dụng các mô hình toán học hoặc dựa trên máy tính—một chuyên
ngành được gọi là nghiên cứu hoạt động hoặc khoa học quản lý. Nghiên cứu hoạt động (OR) ra đời
từ nỗ lực cải thiện các hoạt động quân sự trước và trong Thế chiến II. Sau chiến tranh, các nhà
khoa học nhận ra rằng các công cụ và kỹ thuật toán học được phát triển cho các ứng dụng quân sự
có thể được áp dụng thành công cho các vấn đề trong kinh doanh và công nghiệp. Một số lượng đáng
kể các nghiên cứu đã được tiến hành trong các viện nghiên cứu công và tư nhân vào cuối những năm
1940 và cho đến những năm 1950. Khi tập trung vào các ứng dụng kinh doanh được mở rộng, thuật
ngữ khoa học quản lý (MS) trở nên phổ biến hơn. Nhiều người sử dụng thuật ngữ nghiên cứu hoạt
động và khoa học quản lý thay thế cho nhau, và lĩnh vực này được gọi là Khoa học quản lý/Nghiên
cứu hoạt động (OR/MS). Nhiều ứng dụng OR/MS sử dụng mô hình hóa và tối ưu hóa—các kỹ thuật để
dịch các vấn đề thực tế thành toán học, bảng tính hoặc các ngôn ngữ máy tính khác và sử dụng
chúng để tìm ra các giải pháp và quyết định (“tối ưu”) tốt nhất. INFORMS, Viện Nghiên cứu Hoạt
động và Khoa học Quản lý, là tổ chức chuyên nghiệp hàng đầu dành cho OR/MS và phân tích, đồng
thời xuất bản tạp chí hai tháng một lần có tên là Analytics (http://analytics-magazine.com/).
Đăng ký kỹ thuật số có thể được lấy miễn phí tại trang Web.
Các hệ thống hỗ trợ quyết định (DSS) bắt đầu phát triển vào những năm 1960 bằng cách kết
hợp các khái niệm kinh doanh thông minh với các mô hình OR/MS để tạo ra các hệ thống máy tính
dựa trên phân tích nhằm hỗ trợ việc ra quyết định. DSS bao gồm ba thành phần:
1. Quản lý dữ liệu. Thành phần quản lý dữ liệu bao gồm cơ sở dữ liệu để lưu trữ dữ liệu
và cho phép người dùng nhập, truy xuất, cập nhật và thao tác dữ liệu.
2. Quản lý mô hình. Thành phần quản lý mô hình bao gồm nhiều công cụ thống kê và mô hình
khoa học quản lý và cho phép người dùng dễ dàng xây dựng, thao tác, phân tích và
giải quyết các mô hình.
3. Hệ thống thông tin liên lạc. Thành phần hệ thống truyền thông cung cấp giao diện cần
thiết để người dùng tương tác với các thành phần quản lý dữ liệu và mô hình.11
DSS đã được sử dụng cho nhiều ứng dụng, bao gồm quản lý quỹ hưu trí, quản lý danh mục đầu
tư, lập kế hoạch ca làm việc, sản xuất toàn cầu và vị trí cơ sở, phân bổ ngân sách quảng cáo,
lập kế hoạch truyền thông, lập kế hoạch phân phối, lập kế hoạch hoạt động hàng không, kiểm soát
hàng tồn kho, quản lý thư viện, phân công lớp học , lập kế hoạch y tá, phân phối máu, kiểm soát
ô nhiễm nước, thiết kế khu trượt tuyết, thiết kế đánh bại cảnh sát và lập kế hoạch năng lượng.12
10James J. Swain, “Phần mềm thống kê trong thời đại đam mê công nghệ,” Analytics-magazine.org, tháng 3/tháng 4 năm 2013,
trang 48–55. www.informs.org
11William E. Leigh và Michael E. Doherty, Hệ thống Chuyên gia và Hỗ trợ Quyết định (Cincinnati, OH: South-Western Publishing
Co., 1986).
12H. B. Eom và SM Lee, “Khảo sát về các ứng dụng của hệ thống hỗ trợ ra quyết định (1971–tháng 4 năm 1988),”
Giao diện, 20, 3 (Tháng 5–Tháng 6 năm 1990): 65–79.
Machine Translated by Google
7
Chương 1 Giới thiệu về Phân tích Kinh doanh
Hình 1.1
Việc kinh doanh
Một góc nhìn trực quan của
Phân tích kinh doanh
Sự thông minh/
Thông tin
Số liệu thống kê
hệ thống
Mô hình hóa và
Tối ưu hóa
Phân tích kinh doanh hiện đại có thể được xem như là sự tích hợp của BI/IS, số liệu thống kê,
mô hình hóa và tối ưu hóa như được minh họa trong Hình 1.1. Mặc dù các chủ đề cốt lõi là truyền
thống và đã được sử dụng trong nhiều thập kỷ, nhưng điểm độc đáo nằm ở các giao điểm của chúng. Ví
dụ, khai thác dữ liệu tập trung vào việc hiểu rõ hơn các đặc điểm và mẫu giữa các biến trong cơ sở
dữ liệu lớn bằng nhiều công cụ thống kê và phân tích. Nhiều công cụ thống kê tiêu chuẩn cũng như
những công cụ tiên tiến hơn được sử dụng rộng rãi trong khai thác dữ liệu. Mô phỏng và phân tích
rủi ro dựa trên các mô hình bảng tính và phân tích thống kê để kiểm tra tác động của sự không chắc
chắn trong các ước tính và khả năng tương tác của chúng với nhau đối với biến đầu ra quan tâm. Bảng
tính và các mô hình chính thức cho phép một người thao tác dữ liệu để thực hiện phân tích what-if—
sự kết hợp cụ thể của các yếu tố đầu vào phản ánh các giả định chính sẽ ảnh hưởng đến kết quả đầu ra
của mô hình. Phân tích điều gì xảy ra nếu cũng được sử dụng để đánh giá mức độ nhạy cảm của các mô
hình tối ưu hóa đối với những thay đổi trong dữ liệu đầu vào và cung cấp thông tin chi tiết tốt hơn
để đưa ra quyết định đúng đắn.
Có lẽ thành phần hữu ích nhất của phân tích kinh doanh, làm cho nó thực sự độc đáo, là trung
tâm của Hình 1.1—sự trực quan hóa. Trực quan hóa dữ liệu và kết quả phân tích cung cấp một cách dễ
dàng truyền đạt dữ liệu ở tất cả các cấp của doanh nghiệp và có thể tiết lộ các mẫu và mối quan hệ
đáng ngạc nhiên. Phần mềm như hệ thống Cognos của IBM khai thác trực quan hóa dữ liệu để truy vấn
và báo cáo, phân tích dữ liệu, trình bày bảng điều khiển và thẻ điểm liên kết chiến lược với các
hoạt động. Ví dụ: Sở thú Cincinnati đã sử dụng tính năng này trên iPad để hiển thị các báo cáo hàng
giờ, hàng ngày và hàng tháng về số lượng người tham dự, doanh thu và doanh thu bán lẻ và thực phẩm
cũng như các số liệu khác cho các chiến lược dự đoán và tiếp thị. UPS sử dụng viễn thông để thu
thập dữ liệu về phương tiện và hiển thị chúng để giúp đưa ra quyết định nhằm cải thiện hiệu quả và hiệu suất.
Bạn có thể đã thấy một đám mây thẻ (xem đồ họa ở đầu chương này), đây là hình ảnh trực quan hóa văn
bản hiển thị các từ xuất hiện thường xuyên hơn bằng cách sử dụng phông chữ lớn hơn.
Những phát triển có ảnh hưởng nhất thúc đẩy việc sử dụng phân tích kinh doanh là máy tính cá
nhân và công nghệ bảng tính. Máy tính cá nhân và bảng tính cung cấp một cách thuận tiện để quản lý
đồng thời dữ liệu, tính toán và đồ họa trực quan, sử dụng các biểu diễn trực quan thay vì ký hiệu
toán học trừu tượng. Mặc dù sớm
Machine Translated by Google
số 8
Chương 1 Giới thiệu về Phân tích Kinh doanh
Phân tích trong thực tế: Harrah's Entertainment13
Một trong những ví dụ được trích dẫn nhiều nhất về việc sử
giảm giá phòng và các đặc quyền khác cho khách hàng dựa
dụng phân tích trong kinh doanh là Harrah's Entertainment.
trên số tiền và thời gian họ chi tiêu tại Harrah's. Dữ
Harrah's sở hữu nhiều khách sạn và sòng bạc và sử dụng
liệu thu thập được sử dụng để phân chia khách hàng thành
phân tích để hỗ trợ các hoạt động quản lý doanh thu, liên
hơn 20 nhóm dựa trên các hoạt động chơi trò chơi dự kiến
quan đến việc bán đúng tài nguyên cho đúng khách hàng với
của họ. Đối với từng phân khúc khách hàng, phân tích dự
mức giá phù hợp để tối đa hóa doanh thu và lợi nhuận.
báo nhu cầu về phòng khách sạn theo ngày đến và thời gian
Ngành công nghiệp cờ bạc coi phòng khách sạn là động cơ
lưu trú. Sau đó, Harrah's sử dụng mô hình quy định để
hoặc phần thưởng để hỗ trợ các hoạt động và doanh thu
đặt giá và phân bổ phòng cho các phân khúc khách hàng
của sòng bạc chứ không phải là tài sản tối đa hóa doanh thu. này. Ví dụ: hệ thống có thể cung cấp phòng miễn phí cho
Do đó, mục tiêu của Harrah là đặt giá phòng và chấp nhận
những khách hàng dự kiến sẽ tạo ra lợi nhuận từ trò chơi
đặt phòng để tối đa hóa lợi nhuận từ trò chơi dự kiến từ
ít nhất là 400 đô la nhưng tính phí 325 đô la cho một
khách hàng. Họ bắt đầu bằng việc thu thập và theo dõi các
phòng nếu lợi nhuận dự kiến chỉ là 100 đô la. Tiếp thị có
hoạt động chơi trò chơi của khách hàng (chơi máy đánh
thể sử dụng thông tin để gửi khuyến mại đến các phân khúc
bạc và trò chơi đánh bạc) bằng chương trình thẻ “Total
khách hàng mục tiêu nếu nó xác định tỷ lệ lấp đầy thấp cho
Rewards” của Harrah, một chương trình khách hàng thân
các ngày cụ thể.
thiết cung cấp các phần thưởng như bữa ăn,
các ứng dụng của bảng tính chủ yếu là trong kế toán và tài chính, các bảng tính đã phát triển thành các
công cụ quản lý có mục đích chung mạnh mẽ để áp dụng các kỹ thuật phân tích kinh doanh. Sức mạnh của phân
tích trong môi trường máy tính cá nhân đã được các chuyên gia tư vấn kinh doanh Michael Hammer và James
Champy ghi nhận cách đây khoảng 20 năm, họ cho biết: “Khi dữ liệu có thể truy cập được kết hợp với các công
cụ mô hình và phân tích dễ sử dụng, nhân viên tuyến đầu—khi được đào tạo đúng cách —đột nhiên có khả năng
ra quyết định phức tạp.”14
Mặc dù có nhiều gói phần mềm phân tích tốt dành cho các chuyên gia, nhưng chúng tôi sử dụng Microsoft Excel
và một phần bổ trợ mạnh mẽ có tên là Nền tảng bộ giải phân tích xuyên suốt cuốn sách này.
Tác động và Thách thức
Tác động của việc áp dụng phân tích kinh doanh có thể là đáng kể. Các công ty báo cáo chi phí giảm, quản lý
rủi ro tốt hơn, quyết định nhanh hơn, năng suất tốt hơn và nâng cao hiệu suất cuối cùng như lợi nhuận và sự
hài lòng của khách hàng. Ví dụ: 1-800-flowers.com sử dụng phần mềm phân tích để nhắm mục tiêu các quảng cáo
in và trực tuyến với độ chính xác cao hơn; thay đổi giá cả và dịch vụ trên trang Web của mình (đôi khi hàng
giờ); và tối ưu hóa các hoạt động tiếp thị, vận chuyển, phân phối và sản xuất, giúp tiết kiệm 50 triệu đô
la chi phí trong một năm.15
Phân tích kinh doanh đang thay đổi cách các nhà quản lý đưa ra quyết định.16 Để phát triển mạnh trong
thế giới kinh doanh ngày nay, các tổ chức phải liên tục đổi mới để tạo sự khác biệt so với các đối thủ
cạnh tranh, tìm cách tăng doanh thu và thị phần, giảm chi phí, giữ chân khách hàng hiện có và thu hút khách
hàng mới, đồng thời trở thành nhanh hơn và gọn gàng hơn. IBM gợi ý rằng
13Dựa trên Liberatore và Luo, “Phong trào phân tích”; và Richard Metters et al., “The 'Killer Application' of
Revenue Management: Harrah's Cherokee Casino & Hotel,” Interfaces, 38, 3 (Tháng 5–Tháng 6 năm 2008): 161–175.
14Michael Hammer và James Champy, Tái cấu trúc Tổng công ty (New York: HarperBusiness, 1993): 96.
15Jim Goodnight, “Tác động của phân tích kinh doanh đối với hiệu suất và khả năng sinh lời,” trong “Brain Trust—
Kích hoạt Doanh nghiệp Tự tin với Phân tích Kinh doanh” (Cary, NC: SAS Institute, Inc., 2010): 4–7. www.sas.com/
bareport 16Analytics: The
New Path to Value, một bài đánh giá chung của MIT Sloan Management Review và nghiên cứu về giá trị kinh doanh
của Viện IBM.
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
9
các phương pháp quản lý truyền thống đang phát triển trong môi trường dựa trên phân tích ngày nay
để bao gồm nhiều quyết định dựa trên thực tế hơn là phán đoán và trực giác, nhiều dự đoán hơn là
các quyết định phản ứng và việc mọi người sử dụng phân tích tại thời điểm đưa ra quyết định thay
vì dựa vào về các chuyên gia lành nghề trong một nhóm tư vấn.17
Tuy nhiên, các tổ chức phải đối mặt với nhiều thách thức trong việc phát triển khả năng phân tích,
bao gồm thiếu hiểu biết về cách sử dụng phân tích, cạnh tranh ưu tiên kinh doanh, thiếu kỹ năng
phân tích, khó khăn trong việc lấy dữ liệu tốt và chia sẻ thông tin cũng như không hiểu lợi ích
so với chi phí nhận thức của nghiên cứu phân tích. Ứng dụng phân tích thành công đòi hỏi nhiều hơn
là chỉ biết các công cụ; nó đòi hỏi sự hiểu biết ở mức độ cao về cách phân tích hỗ trợ chiến lược
cạnh tranh của tổ chức và thực thi hiệu quả qua nhiều lĩnh vực và cấp quản lý.
Một cuộc khảo sát năm 2011 của Bloomberg Businessweek Research Services và SAS đã kết luận
rằng phân tích kinh doanh vẫn đang ở “giai đoạn mới nổi” và chỉ được sử dụng trong phạm vi hẹp của
các đơn vị kinh doanh chứ không phải trên toàn bộ tổ chức. Nghiên cứu cũng lưu ý rằng nhiều tổ
chức thiếu tài năng phân tích và những tổ chức có tài năng phân tích thường không biết cách áp
dụng kết quả đúng cách. Mặc dù phân tích được sử dụng như một phần của quy trình ra quyết định
trong nhiều tổ chức, nhưng hầu hết các quyết định kinh doanh vẫn dựa trên trực giác.18 Do đó,
trong khi có nhiều thách thức rõ ràng, vẫn có nhiều cơ hội hơn. Những cơ hội này được phản ánh
trong thị trường việc làm dành cho các chuyên gia phân tích hoặc “nhà khoa học dữ liệu”, như một
số người gọi họ. Harvard Business Review đã gọi nhà khoa học dữ liệu là “công việc hấp dẫn nhất
của thế kỷ 21,” và McKinsey & Company dự đoán sự thiếu hụt từ 50 đến 60% số lượng các nhà khoa học
dữ liệu ở Hoa Kỳ vào năm 2018.19
Phạm vi phân tích kinh doanh
Phân tích kinh doanh bắt đầu với việc thu thập, tổ chức và thao tác dữ liệu và được hỗ trợ bởi ba
thành phần chính:20
1. Phân tích mô tả. Hầu hết các doanh nghiệp bắt đầu với phân tích mô tả—việc sử dụng dữ
liệu để hiểu hiệu suất kinh doanh trong quá khứ và hiện tại và đưa ra các quyết định
đã hình thành. Phân tích mô tả là loại phân tích được sử dụng phổ biến nhất và được
hiểu rõ nhất. Những kỹ thuật này phân loại, mô tả đặc điểm, hợp nhất và phân loại dữ
liệu để chuyển đổi dữ liệu thành thông tin hữu ích cho mục đích hiểu và phân tích
hiệu quả kinh doanh. Phân tích mô tả tóm tắt dữ liệu thành các biểu đồ và báo cáo có
ý nghĩa, chẳng hạn như về ngân sách, bán hàng, doanh thu hoặc chi phí. Quá trình này
cho phép các nhà quản lý nhận được các báo cáo tiêu chuẩn và tùy chỉnh, sau đó đi
sâu vào dữ liệu và đưa ra các truy vấn để hiểu tác động của một chiến dịch quảng cáo,
ví dụ: xem xét hiệu suất kinh doanh để tìm ra các vấn đề hoặc các lĩnh vực có cơ hội
cũng như xác định các mẫu và xu hướng trong dữ liệu . Các câu hỏi điển hình mà phân
tích mô tả giúp trả lời là “Chúng tôi đã bán được bao nhiêu ở mỗi khu vực?” “Doanh
thu và lợi nhuận của chúng ta trong quý trước là bao nhiêu?” “Có bao nhiêu và loại
khiếu nại nào chúng tôi đã
17“Phân tích và tối ưu hóa kinh doanh cho doanh nghiệp thông minh” (tháng 4 năm 2009). www.ibm.com /qbs/
intelligent-enterprise
18Bloomberg Businessweek Research Services và SAS, “Hiện trạng phân tích kinh doanh: Chúng ta bắt đầu từ
đây?” (2011).
19Andrew Jennings, “Điều gì tạo nên một nhà khoa học dữ liệu giỏi?” Tạp chí Analytics (tháng 7–tháng 8 năm
2013): 8–13. www.analytics-magazine.org
20Các phần của phần này được điều chỉnh từ Irv Lustig, Brenda Dietric, Christer Johnson và Christopher
Dziekan, “The Analytics Journey,” Analytics (tháng 11/tháng 12 năm 2010). www.analytics-magazine.org
Machine Translated by Google
10
Chương 1 Giới thiệu về Phân tích Kinh doanh
giải quyết?" “Nhà máy nào có năng suất thấp nhất?” Phân tích mô tả cũng giúp các
công ty phân loại khách hàng thành các phân khúc khác nhau, cho phép họ phát
triển các chiến dịch tiếp thị và chiến lược quảng cáo cụ thể.
2. Phân tích dự đoán. Phân tích dự đoán tìm cách dự đoán tương lai bằng
khai thác dữ liệu lịch sử, phát hiện các mẫu hoặc mối quan hệ trong những dữ liệu
này, sau đó ngoại suy các mối quan hệ này theo thời gian. Ví dụ: một nhà tiếp thị
có thể muốn dự đoán phản ứng của các phân khúc khách hàng khác nhau đối với một
chiến dịch quảng cáo, một nhà kinh doanh hàng hóa có thể muốn dự đoán các biến
động ngắn hạn của giá cả hàng hóa hoặc một nhà sản xuất đồ trượt tuyết có thể muốn
dự đoán nhu cầu đồ trượt tuyết của mùa tới là bao nhiêu. một màu sắc và kích
thước cụ thể. Phân tích dự đoán có thể dự đoán rủi ro và tìm ra các mối quan hệ
trong dữ liệu không dễ dàng nhận thấy bằng các phân tích truyền thống. Bằng cách
sử dụng các kỹ thuật tiên tiến, phân tích dự đoán có thể giúp phát hiện các mẫu ẩn
trong số lượng lớn dữ liệu để phân đoạn và nhóm dữ liệu thành các tập hợp chặt
chẽ nhằm dự đoán hành vi và phát hiện xu hướng. Ví dụ, người quản lý ngân hàng có
thể muốn xác định những khách hàng có lợi nhất hoặc dự đoán khả năng người xin vay
sẽ vỡ nợ hoặc cảnh báo khách hàng sử dụng thẻ tín dụng về một khoản phí gian lận
tiềm ẩn. Phân tích dự đoán giúp trả lời các câu hỏi như “Điều gì sẽ xảy ra nếu nhu
cầu giảm 10% hoặc nếu giá nhà cung cấp tăng 5%?” “Chúng ta dự kiến sẽ trả bao nhiêu
cho nhiên liệu trong vài tháng tới?” “Rủi ro mất tiền trong một dự án kinh doanh mới là gì?”
3. Phân tích theo quy định. Ví dụ, nhiều vấn đề, chẳng hạn như lập kế hoạch máy bay hoặc
nhân viên và thiết kế chuỗi cung ứng, chỉ đơn giản là liên quan đến quá nhiều lựa chọn
hoặc phương án thay thế để người ra quyết định là con người có thể xem xét một cách
hiệu quả. Phân tích đề xuất sử dụng tối ưu hóa để xác định các lựa chọn thay thế tốt
nhất nhằm giảm thiểu hoặc tối đa hóa một số mục tiêu. Phân tích theo quy định được sử
dụng trong nhiều lĩnh vực kinh doanh, bao gồm hoạt động, tiếp thị và tài chính. Ví dụ:
chúng tôi có thể xác định chiến lược định giá và quảng cáo tốt nhất để tối đa hóa doanh
thu, lượng tiền mặt tối ưu để lưu trữ trong máy ATM hoặc kết hợp tốt nhất các khoản đầu
tư vào danh mục hưu trí để quản lý rủi ro. Các kỹ thuật toán học và thống kê của phân
tích dự đoán cũng có thể được kết hợp với tối ưu hóa để đưa ra các quyết định có tính
đến sự không chắc chắn trong dữ liệu. Phân tích đề xuất giải quyết các câu hỏi như “Chúng
ta nên sản xuất bao nhiêu để tối đa hóa lợi nhuận?” “Cách tốt nhất để vận chuyển hàng hóa
từ các nhà máy của chúng tôi để giảm thiểu chi phí là gì?” “Chúng ta có nên thay đổi kế
hoạch nếu thiên tai khiến nhà máy của nhà cung cấp phải đóng cửa không: nếu có thì thay đổi bao nhiêu?”
Phân tích trong thực tế: Phân tích trong cho vay mua nhà và thế chấp
Công nghiệp21
Đôi khi trong cuộc đời của họ, hầu hết người Mỹ sẽ nhận
tài sản, xác minh việc làm, và đánh giá tài sản trong số
được một khoản vay thế chấp cho một ngôi nhà hoặc căn hộ
những người khác. Kết quả của chức năng xử lý là một hồ
chung cư. Quá trình bắt đầu với một ứng dụng. Ứng dụng
sơ cho vay hoàn chỉnh có chứa tất cả thông tin và tài liệu
chứa tất cả thông tin thích hợp về người đi vay mà người
cần thiết để bảo lãnh khoản vay, đây là bước tiếp theo
cho vay sẽ cần. Sau đó, ngân hàng hoặc công ty thế chấp sẽ
trong quy trình. Bảo lãnh phát hành là nơi đơn xin vay
bắt đầu một quy trình dẫn đến quyết định cho vay. Tại đây,
được đánh giá về rủi ro của nó.
thông tin chính về người vay được cung cấp bởi các nhà
Người bảo lãnh đánh giá liệu người đi vay có thể thanh
cung cấp bên thứ ba. Thông tin này bao gồm báo cáo tín
toán đúng hạn hay không, có đủ khả năng trả lại khoản vay
dụng, xác minh thu nhập, xác minh
và có đủ tài sản thế chấp để đảm bảo cho khoản vay hay không.
(còn tiếp)
21Đóng góp bởi Craig Zielazny, BlueNote Analytics, LLC.
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
khoản vay. Trong trường hợp người đi vay không trả được nợ,
Có bao nhiêu ứng dụng cho vay đã được thực hiện mỗi 12
người cho vay có thể bán tài sản để thu hồi số tiền cho vay. Tuy
tháng qua?
nhiên, nếu số tiền cho vay lớn hơn giá trị của tài sản, thì
Tổng thời gian chu kỳ từ khi đóng ứng dụng là bao nhiêu?
người cho vay không thể thu hồi tiền của họ. Nếu quy trình bảo
Sự phân bổ lợi nhuận cho vay theo điểm tín dụng và tỷ lệ
lãnh chỉ ra rằng người vay có uy tín về tín dụng, có khả năng
cho vay trên giá trị (LTV), là số tiền thế chấp chia cho
hoàn trả khoản vay và giá trị của tài sản được đề cập lớn hơn số
giá trị thẩm định của tài sản.
tiền vay, thì khoản vay được chấp thuận và sẽ chuyển sang giai
đoạn đóng. Đóng là bước mà người vay ký vào tất cả các giấy tờ
thích hợp đồng ý với các điều khoản của khoản vay.
Phân tích dự đoán—Mô hình dự đoán sử dụng các mô hình toán học,
bảng tính và thống kê, đồng thời giải quyết các câu hỏi như:
Trên thực tế, người cho vay có rất nhiều việc khác phải
Một chương trình tiếp thị nhất định sẽ có tác động gì
làm. Đầu tiên, họ phải thực hiện đánh giá kiểm soát chất lượng
đến khối lượng cho vay?
đối với một mẫu hồ sơ cho vay bao gồm việc kiểm tra thủ công tất
Có bao nhiêu bộ xử lý hoặc người bảo lãnh cần thiết cho một
cả các tài liệu và thông tin thu thập được. Quá trình này được
khối lượng cho vay nhất định?
thiết kế để xác định bất kỳ lỗi nào có thể đã được thực hiện
Một thay đổi quy trình nhất định sẽ làm giảm thời gian chu kỳ?
hoặc thông tin bị thiếu trong hồ sơ cho vay. Vì người cho vay
không có số tiền vô hạn để cho người đi vay vay nên họ thường
bán khoản vay cho bên thứ ba để có vốn mới cho người khác vay.
Điều này xảy ra trong những gì được gọi là thị trường thứ cấp.
Phân tích theo đề xuất—Điều này liên quan đến việc sử dụng mô
phỏng hoặc tối ưu hóa để đưa ra quyết định. Các câu hỏi điển
hình bao gồm:
Freddie Mac và Fannie Mae là hai người mua lớn nhất các khoản
thế chấp trên thị trường thứ cấp. Bước cuối cùng trong quy
Nhân viên tối ưu để đạt được lợi nhuận nhất định bị
trình là phục vụ. Phục vụ bao gồm tất cả các hoạt động liên quan
hạn chế bởi thời gian chu kỳ cố định là gì?
đến việc cung cấp dịch vụ khách hàng cho khoản vay như xử lý
Sự kết hợp sản phẩm tối ưu để tối đa hóa lợi nhuận bị hạn
các khoản thanh toán, quản lý thuế tài sản được giữ trong tài
chế bởi nhân viên cố định là gì?
khoản ký quỹ và trả lời các câu hỏi về khoản vay.
Thị trường thế chấp đã trở nên năng động hơn nhiều trong
những năm gần đây do giá trị nhà tăng, lãi suất giảm, các sản
phẩm cho vay mới và mong muốn ngày càng tăng của chủ sở hữu nhà
Ngoài ra, tổ chức thu thập nhiều dữ liệu hoạt động khác
nhau về quy trình để theo dõi hiệu suất và hiệu quả của nó, bao
sử dụng vốn chủ sở hữu trong nhà của họ như một nguồn tài chính.
Điều này đã làm tăng tính phức tạp và khả năng thay đổi của quy
gồm số lượng đơn đăng ký, loại và số tiền cho vay, thời gian
trình thế chấp và tạo cơ hội cho người cho vay chủ động sử dụng
chu kỳ (thời gian kết thúc khoản vay), tắc nghẽn trong quy
dữ liệu có sẵn cho họ như một công cụ để quản lý hoạt động kinh
trình, v.v. Nhiều loại phân tích khác nhau được sử dụng:
doanh của họ. Để đảm bảo rằng quy trình hoạt động hiệu quả, hiệu
quả và được thực hiện với chất lượng, dữ liệu và phân tích được
sử dụng hàng ngày để theo dõi những gì đã được thực hiện, ai
Phân tích mô tả—Điều này tập trung vào báo cáo lịch sử, giải
đang thực hiện và mất bao lâu.
quyết các câu hỏi như:
Một loạt các công cụ được sử dụng để hỗ trợ phân tích kinh doanh. Bao gồm các:
Truy vấn và phân tích cơ sở dữ liệu
"Bảng điều khiển" để báo cáo các biện pháp hiệu suất chính
Trực quan hóa dữ liệu
phương pháp thống kê
Bảng tính và mô hình dự báo
Kịch bản và phân tích “điều gì xảy ra nếu”
mô phỏng
11
Machine Translated by Google
12
Chương 1 Giới thiệu về Phân tích Kinh doanh
Dự báo
Khai thác dữ liệu và văn bản
Tối ưu hóa
Phương tiện truyền thông xã hội, Web và phân tích văn bản
Mặc dù các công cụ được sử dụng trong phân tích mô tả, dự đoán và quy định là khác nhau,
nhưng nhiều ứng dụng liên quan đến cả ba. Dưới đây là một ví dụ điển hình trong hoạt động bán lẻ.
VÍ DỤ 1.1 Quyết định hạ giá bán lẻ22
Như bạn có thể biết từ kinh nghiệm mua sắm của mình, hầu hết các cửa
chuỗi có thể chứa hàng nghìn sản phẩm, điều này có thể dễ dàng dẫn
hàng bách hóa và nhà bán lẻ thời trang đều giải phóng hàng tồn kho
đến hàng triệu quyết định mà người quản lý cửa hàng phải đưa ra.
theo mùa của họ bằng cách giảm giá. Câu hỏi quan trọng mà họ phải
Phân tích mô tả có thể được sử dụng để kiểm tra dữ liệu lịch sử cho
đối mặt là họ nên đặt mức giá nào—và khi nào nên đặt mức giá đó—để
các sản phẩm tương tự, chẳng hạn như số lượng đơn vị đã bán, giá tại
đáp ứng các mục tiêu về hàng tồn kho và tối đa hóa doanh thu? Ví dụ:
mỗi điểm bán, hàng tồn kho bắt đầu và kết thúc cũng như các chương
giả sử một cửa hàng có 100 bộ đồ tắm thuộc một kiểu dáng nhất định
trình khuyến mãi đặc biệt, báo trên mỗi quảng cáo, quảng cáo tiếp
sẽ được giảm giá từ ngày 1 tháng 4 và muốn bán hết chúng vào cuối
thị trực tiếp, v.v. hiểu kết quả của những quyết định trong quá khứ
tháng 6.
đạt được những gì. Phân tích dự đoán có thể được sử dụng để dự đoán
Trong mỗi tuần của mùa bán hàng kéo dài 12 tuần, họ có thể đưa ra
doanh số bán hàng dựa trên các quyết định về giá. Cuối cùng, phân
quyết định giảm giá. Họ phải đối mặt với hai quyết định: Giảm giá khi
tích theo quy định có thể được áp dụng để tìm ra tập hợp các quyết
nào và giảm bao nhiêu?
định về giá tốt nhất nhằm tối đa hóa tổng doanh thu.
Điều này dẫn đến 24 quyết định cần thực hiện. Đối với một quốc gia lớn
Hỗ trợ phần mềm
Nhiều công ty, chẳng hạn như IBM, SAS và Tableau đã phát triển nhiều giải pháp phần cứng và phần
mềm khác nhau để hỗ trợ phân tích kinh doanh. Ví dụ: Cognos Express của IBM, một giải pháp lập
kế hoạch và thông minh kinh doanh tích hợp được thiết kế để đáp ứng nhu cầu của các công ty cỡ
trung bình, cung cấp khả năng báo cáo, phân tích, bảng điều khiển, thẻ điểm, lập kế hoạch, lập
ngân sách và dự báo. Nó bao gồm một số mô-đun, bao gồm Cognos Express Reporter, để báo cáo tự
phục vụ và truy vấn đặc biệt; Cognos Express Advisor, để phân tích và trực quan hóa; và Cognos
Express Xcelerator, để lập kế hoạch dựa trên Excel và phân tích kinh doanh. Thông tin được trình
bày cho người dùng doanh nghiệp trong bối cảnh kinh doanh dễ hiểu, với giao diện dễ sử dụng, họ
có thể nhanh chóng có được thông tin chi tiết cần thiết từ dữ liệu của mình để đưa ra quyết
định đúng đắn và sau đó thực hiện hành động để tối ưu hóa kinh doanh hiệu quả và hiệu quả và kết
quả. SAS cung cấp nhiều loại phần mềm tích hợp quản lý dữ liệu, kinh doanh thông minh và các
công cụ phân tích.
SAS Analytics bao gồm nhiều khả năng, bao gồm lập mô hình dự đoán và khai thác dữ liệu, trực
quan hóa, dự báo, tối ưu hóa và quản lý mô hình, phân tích thống kê, phân tích văn bản, v.v.
Phần mềm Tableau cung cấp các công cụ kéo và thả đơn giản để trực quan hóa dữ liệu từ bảng tính
và cơ sở dữ liệu khác. Chúng tôi khuyến khích bạn khám phá nhiều sản phẩm trong số này khi bạn
tìm hiểu các nguyên tắc cơ bản của phân tích kinh doanh trong cuốn sách này.
22Lấy cảm hứng từ bài thuyết trình của Radhika Kulkarni, Viện SAS, “Quyết định dựa trên dữ liệu: Vai trò
của nghiên cứu hoạt động trong phân tích kinh doanh,” Hội nghị INFORMS về nghiên cứu hoạt động và phân
tích kinh doanh, ngày 10–12 tháng 4 năm 2011.
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
13
Dữ liệu cho phân tích kinh doanh
Kể từ buổi bình minh của thời đại điện tử và Internet, cả cá nhân và tổ chức đều có quyền truy cập vào vô số
dữ liệu và thông tin. Dữ liệu là các sự kiện và số liệu bằng số được thu thập thông qua một số loại quy trình
đo lường. Thông tin
đến từ việc phân tích dữ liệu—tức là, rút ra ý nghĩa từ dữ liệu để hỗ trợ đánh giá và ra quyết định.
Dữ liệu được sử dụng trong hầu hết mọi chức năng chính trong một doanh nghiệp. Các tổ chức hiện đại—
không chỉ bao gồm các doanh nghiệp vì lợi nhuận mà còn cả các tổ chức phi lợi nhuận—cần dữ liệu tốt để hỗ
trợ nhiều mục đích khác nhau của công ty, chẳng hạn như lập kế hoạch, xem xét hiệu quả hoạt động của công
ty, cải thiện hoạt động và so sánh hiệu quả hoạt động của công ty với các đối thủ cạnh tranh hoặc tiêu
chuẩn thực hành tốt nhất. Một số ví dụ về cách dữ liệu được sử dụng trong kinh doanh bao gồm:
Các báo cáo hàng năm tóm tắt dữ liệu về khả năng sinh lời và thị phần của các công ty ở
dạng số cũng như ở dạng biểu đồ và đồ thị để trao đổi với các cổ đông.
Kế toán tiến hành kiểm toán để xác định xem các số liệu được báo cáo trên bảng cân đối kế toán
của công ty có phản ánh đúng dữ liệu thực tế hay không bằng cách kiểm tra các mẫu (nghĩa
là tập hợp con) của dữ liệu kế toán, chẳng hạn như các khoản phải thu.
Các nhà phân tích tài chính thu thập và phân tích nhiều loại dữ liệu để hiểu được sự đóng
góp mà một doanh nghiệp mang lại cho các cổ đông của mình. Chúng thường bao gồm lợi nhuận,
tăng trưởng doanh thu, lợi tức đầu tư, sử dụng tài sản, lợi nhuận hoạt động, thu nhập trên
mỗi cổ phiếu, giá trị kinh tế gia tăng (EVA), giá trị cổ đông và các biện pháp liên quan khác.
Các nhà kinh tế sử dụng dữ liệu để giúp các công ty hiểu và dự đoán xu hướng dân số, lãi suất,
hiệu quả hoạt động của ngành, chi tiêu của người tiêu dùng và thương mại quốc tế.
Những dữ liệu như vậy thường được lấy từ các nguồn bên ngoài như bộ dữ liệu Standard & Poor's
Compustat, hiệp hội thương mại ngành hoặc cơ sở dữ liệu của chính phủ.
Các nhà nghiên cứu tiếp thị thu thập và phân tích dữ liệu khách hàng rộng lớn. Những dữ liệu
này thường bao gồm nhân khẩu học, sở thích và ý kiến, lịch sử giao dịch và thanh toán, hành
vi mua sắm, v.v. Dữ liệu như vậy có thể được thu thập bằng các cuộc khảo sát, phỏng vấn cá nhân,
nhóm tập trung hoặc từ thẻ khách hàng thân thiết.
Các nhà quản lý hoạt động sử dụng dữ liệu về hiệu suất sản xuất, chất lượng sản xuất, thời gian
giao hàng, độ chính xác của đơn hàng, hiệu suất của nhà cung cấp, năng suất, chi phí và tuân thủ
môi trường để quản lý hoạt động của họ.
Các nhà quản lý nguồn nhân lực đo lường sự hài lòng của nhân viên, chi phí đào tạo, doanh thu,
đổi mới thị trường, hiệu quả đào tạo và phát triển kỹ năng.
Dữ liệu đó có thể được thu thập từ các nguồn chính như hồ sơ nội bộ công ty và giao dịch kinh doanh, thiết
bị thu thập dữ liệu tự động hoặc khảo sát thị trường khách hàng và từ các nguồn thứ cấp như nguồn dữ liệu
thương mại và chính phủ, nhà cung cấp nghiên cứu tùy chỉnh và nghiên cứu trực tuyến.
Có lẽ nguồn dữ liệu quan trọng nhất hiện nay là dữ liệu thu được từ Web. Với công nghệ ngày nay, các
nhà tiếp thị thu thập thông tin mở rộng về các hành vi trên Web, chẳng hạn như số lượt xem trang, quốc gia
của khách truy cập, thời gian xem, khoảng thời gian, nguồn gốc và đường dẫn đến, sản phẩm họ đã tìm kiếm và
xem, sản phẩm đã mua, họ đánh giá gì đọc, và nhiều người khác. Sử dụng phân tích, các nhà tiếp thị có thể
tìm hiểu nội dung nào đang được xem thường xuyên nhất, quảng cáo nào được nhấp vào, ai là khách truy cập
thường xuyên nhất và loại khách truy cập nào duyệt nhưng không mua. Các nhà tiếp thị không chỉ có thể hiểu
những gì khách hàng đã làm mà còn có thể dự đoán tốt hơn những gì họ định làm trong tương lai. Ví dụ,
Machine Translated by Google
14
Chương 1 Giới thiệu về Phân tích Kinh doanh
nếu một ngân hàng biết rằng một khách hàng đã duyệt lãi suất thế chấp và bảo hiểm chủ nhà, thì họ có
thể nhắm mục tiêu khách hàng đó bằng các khoản vay mua nhà thay vì thẻ tín dụng hoặc các khoản vay
mua ô tô. Dữ liệu Web truyền thống hiện đang được tăng cường với dữ liệu truyền thông xã hội từ
Facebook, điện thoại di động và thậm chí cả các thiết bị chơi game có kết nối Internet.
Lấy một ví dụ, một nhà bán lẻ đồ nội thất gia đình muốn tăng tỷ lệ bán hàng cho những khách hàng
duyệt qua trang web của họ. Họ đã phát triển một bộ dữ liệu lớn bao gồm hơn 7.000 thuộc tính hành vi
nhân khẩu học, Web, danh mục và bán lẻ cho mỗi khách hàng.
Họ đã sử dụng các phân tích dự báo để xác định mức độ phản hồi của khách hàng đối với các đề nghị
tiếp thị qua e-mail khác nhau và các chương trình khuyến mãi tùy chỉnh cho các khách hàng cá nhân. Điều
này không chỉ giúp họ xác định nơi sử dụng tài nguyên tiếp thị hiệu quả nhất mà còn tăng gấp đôi tỷ lệ
phản hồi so với các chiến dịch tiếp thị trước đó, với mức tăng doanh thu hàng triệu đô la dự kiến.23
Tập dữ liệu và cơ sở dữ liệu
Một bộ dữ liệu chỉ đơn giản là một tập hợp dữ liệu. Các câu trả lời khảo sát tiếp thị, bảng giá cổ
phiếu trong lịch sử và tập hợp các phép đo kích thước của một mặt hàng được sản xuất là những ví dụ
về tập dữ liệu. Cơ sở dữ liệu là một tập hợp các tệp có liên quan chứa các bản ghi về người, địa điểm
hoặc sự vật. Những người, địa điểm hoặc những thứ mà chúng tôi lưu trữ và duy trì thông tin được gọi
là các thực thể.24 Ví dụ: cơ sở dữ liệu cho một nhà bán lẻ trực tuyến bán sách và DVD hướng dẫn thể
dục có thể bao gồm một tệp cho ba thực thể: nhà xuất bản mà hàng hóa được lấy từ đó. đã mua, giao dịch
bán hàng của khách hàng và hàng tồn kho sản phẩm.
Tệp cơ sở dữ liệu thường được tổ chức trong một bảng hai chiều, trong đó các cột tương ứng với từng
phần tử dữ liệu riêng lẻ (được gọi là trường hoặc thuộc tính) và các hàng biểu thị các bản ghi của các
phần tử dữ liệu liên quan. Một tính năng chính của cơ sở dữ liệu trên máy vi tính là khả năng nhanh
chóng liên kết một tập hợp các tệp với nhau.
Cơ sở dữ liệu rất quan trọng trong phân tích kinh doanh để truy cập dữ liệu, thực hiện truy vấn
và các hoạt động quản lý thông tin và dữ liệu khác. Phần mềm như Microsoft Access cung cấp khả năng cơ
sở dữ liệu phân tích mạnh mẽ. Tuy nhiên, trong cuốn sách này, chúng ta sẽ không đào sâu vào cơ sở dữ
liệu hoặc hệ quản trị cơ sở dữ liệu mà sẽ làm việc với các tệp cơ sở dữ liệu riêng lẻ hoặc các tập
dữ liệu đơn giản. Vì bảng tính là công cụ thuận tiện để lưu trữ và thao tác với các tập dữ liệu và tệp
cơ sở dữ liệu nên chúng tôi sẽ sử dụng chúng cho tất cả các ví dụ và bài toán.
VÍ DỤ 1.2 Tệp cơ sở dữ liệu giao dịch bán hàng25
Hình 1.2 cho thấy một phần giao dịch bán hàng trên trang tính
ID khách hàng, khu vực, loại thanh toán, mã giao dịch, nguồn
Excel trong một ngày cụ thể đối với người bán sách và DVD
bán hàng, số lượng, sản phẩm đã mua và thời gian trong ngày.
hướng dẫn thể dục trực tuyến. Các trường được hiển thị trong
Mỗi bản ghi (bắt đầu từ hàng 4) có một giá trị cho từng trường
hàng 3 của bảng tính và bao gồm
này.
23Dựa trên bài trình bày của Bill Franks của Teradata, “Tối ưu hóa phân tích khách hàng: Dữ liệu web cấp độ
khách hàng có thể trợ giúp như thế nào,” Hội nghị INFORMS về nghiên cứu hoạt động và phân tích kinh doanh,
ngày 10–12 tháng 4 năm 2011.
24Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản lần thứ 9. (Sông
Thượng Saddle, NJ: Prentice Hall, 2011): 159.
25Phỏng theo và sửa đổi từ Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems.
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
15
Hình 1.2
Một phần doanh số bán tệp Excel
Cơ sở dữ liệu giao dịch
Dữ liệu lớn
Ngày nay, gần như tất cả dữ liệu đều được ghi lại bằng kỹ thuật số. Do đó, dữ liệu đã tăng lên
với tốc độ chóng mặt, được đo bằng terabyte (1012 byte), petabyte (1015 byte), exa byte (1018
byte) và thậm chí bằng các thuật ngữ có chiều cao hơn. Chỉ cần nghĩ đến lượng dữ liệu được lưu
trữ trên máy chủ Facebook, Twitter hoặc Amazon hoặc lượng dữ liệu thu được hàng ngày từ việc
quét các mặt hàng tại chuỗi cửa hàng tạp hóa quốc gia như Kroger và các chi nhánh của nó. Ví
dụ, Walmart có hơn một triệu giao dịch mỗi giờ, mang lại hơn 2,5 petabyte dữ liệu. Các chuyên
gia phân tích đã đặt ra thuật ngữ dữ liệu lớn để chỉ lượng dữ liệu kinh doanh khổng lồ từ nhiều
nguồn khác nhau, phần lớn trong số đó có sẵn trong thời gian thực và phần lớn trong số đó là
không chắc chắn hoặc không thể đoán trước. IBM gọi những đặc điểm này là khối lượng, sự đa
dạng, tốc độ và tính xác thực. Thông thường, dữ liệu lớn xoay quanh hành vi của khách hàng và
trải nghiệm của khách hàng. Dữ liệu lớn tạo cơ hội cho các tổ chức đạt được lợi thế cạnh tranh—
nếu dữ liệu có thể được hiểu và phân tích hiệu quả để đưa ra các quyết định kinh doanh tốt hơn.
Khối lượng dữ liệu tiếp tục tăng; những gì được coi là “lớn” hôm nay sẽ còn lớn hơn vào
ngày mai. Trong một nghiên cứu về các chuyên gia công nghệ thông tin (CNTT) vào năm 2010, gần
một nửa số người tham gia khảo sát đã xếp hạng tăng trưởng dữ liệu trong số ba thách thức hàng
đầu của họ. Dữ liệu lớn đến từ nhiều nguồn và có thể là dữ liệu số, văn bản và thậm chí cả âm
thanh và video. Dữ liệu lớn được thu thập bằng các cảm biến (ví dụ: máy quét siêu thị), nhấp vào
luồng từ Web, giao dịch của khách hàng, e-mail, tweet và phương tiện truyền thông xã hội và các
cách khác. Các tập dữ liệu lớn không có cấu trúc và lộn xộn, đòi hỏi các phân tích phức tạp để
tích hợp và xử lý dữ liệu cũng như hiểu thông tin chứa trong đó. Dữ liệu lớn không chỉ được
thu thập trong thời gian thực mà còn phải được đưa vào các quyết định kinh doanh với tốc độ
nhanh hơn. Các quy trình như phát hiện gian lận phải được phân tích nhanh chóng để có giá trị.
IBM đã thêm một khía cạnh thứ tư: tính xác thực—mức độ tin cậy liên quan đến dữ liệu. Có dữ
liệu chất lượng cao và hiểu được tính không chắc chắn của dữ liệu là điều cần thiết để đưa ra
quyết định đúng đắn. Tính xác thực của dữ liệu là một vai trò quan trọng đối với các phương
pháp thống kê.
Dữ liệu lớn có thể giúp các tổ chức hiểu rõ hơn và dự đoán hành vi của khách hàng cũng như
cải thiện dịch vụ khách hàng. Một nghiên cứu của Viện Toàn cầu McKinsey lưu ý rằng “Việc sử
dụng hiệu quả dữ liệu lớn có khả năng chuyển đổi nền kinh tế, mang lại một làn sóng tăng trưởng
năng suất mới và thặng dư tiêu dùng. Việc sử dụng dữ liệu lớn sẽ trở thành cơ sở cạnh tranh
chính cho các công ty hiện tại và sẽ tạo ra những đối thủ cạnh tranh mới có khả năng thu hút
những nhân viên có kỹ năng quan trọng cho thế giới dữ liệu lớn.”26 Tuy nhiên, hiểu biết về dữ liệu lớn
26James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh và Angela
Hung Byers, “Dữ liệu lớn: Biên giới tiếp theo của Đổi mới, Cạnh tranh và Năng suất,” McKinsey &
Company tháng 5 năm 2011.
Machine Translated by Google
16
Chương 1 Giới thiệu về Phân tích Kinh doanh
dữ liệu yêu cầu các công cụ phân tích nâng cao như khai thác dữ liệu và phân tích văn bản cũng
như các công nghệ mới như điện toán đám mây, bộ xử lý đa lõi nhanh hơn, không gian bộ nhớ lớn
và ổ đĩa trạng thái rắn.
Số liệu và phân loại dữ liệu
Số liệu là một đơn vị đo lường cung cấp cách định lượng hiệu suất một cách khách quan. Ví dụ:
các nhà quản lý cấp cao có thể đánh giá hiệu quả kinh doanh tổng thể bằng cách sử dụng các số
liệu như lợi nhuận ròng, lợi tức đầu tư, thị phần và sự hài lòng của khách hàng.
Người quản lý nhà máy có thể theo dõi các số liệu như tỷ lệ các bộ phận bị lỗi được sản xuất hoặc số
lượng hàng tồn kho luân chuyển mỗi tháng. Đối với một nhà bán lẻ dựa trên Web, một số chỉ số đo lường
hữu ích là tỷ lệ phần trăm đơn đặt hàng được thực hiện chính xác và thời gian cần thiết để thực hiện
đơn đặt hàng của khách hàng. Đo lường là hành động thu thập dữ liệu liên quan đến một số liệu. Các biện
pháp là các giá trị số được liên kết với một số liệu.
Các số liệu có thể rời rạc hoặc liên tục. Một số liệu rời rạc là một số liệu bắt nguồn
từ việc đếm một cái gì đó. Ví dụ, việc giao hàng có đúng hạn hay không; một đơn đặt hàng đã
hoàn thành hoặc chưa hoàn thành; hoặc một hóa đơn có thể có một, hai, ba hoặc bất kỳ lỗi nào.
Một số chỉ số rời rạc liên quan đến các ví dụ này sẽ là tỷ lệ giao hàng đúng hạn; số lượng đơn
đặt hàng không đầy đủ mỗi ngày và số lượng lỗi trên mỗi hóa đơn. Các phép đo liên tục dựa trên
thang đo liên tục. Ví dụ: bất kỳ số liệu nào liên quan đến đô la, độ dài, thời gian, khối
lượng hoặc trọng lượng đều liên tục.
Một cách phân loại dữ liệu khác là theo loại thang đo. Dữ liệu có thể được phân loại
thành bốn nhóm:
1. Dữ liệu phân loại (danh nghĩa), được sắp xếp thành các loại theo các đặc điểm xác
định. Ví dụ, khách hàng của một công ty có thể được phân loại theo khu vực địa lý
của họ (Bắc Mỹ, Nam Mỹ, Châu Âu và Thái Bình Dương); nhân viên có thể được phân
loại là người quản lý, người giám sát và cộng sự. Các danh mục không có mối quan
hệ định lượng với nhau, nhưng chúng tôi thường gán một số tùy ý cho từng danh mục
để dễ dàng quản lý dữ liệu và thống kê tính toán. Dữ liệu phân loại thường được
tính hoặc biểu thị dưới dạng tỷ lệ hoặc phần trăm.
2. Dữ liệu thứ tự, có thể được sắp xếp hoặc xếp hạng theo một số mối quan hệ với
nhau. Bảng xếp hạng bóng đá hoặc bóng rổ của trường đại học là thứ tự; thứ hạng
cao hơn biểu thị một đội mạnh hơn nhưng không chỉ định bất kỳ thước đo sức mạnh
bằng số nào. Dữ liệu thông thường có ý nghĩa hơn dữ liệu phân loại vì dữ liệu có
thể được so sánh với nhau. Một ví dụ phổ biến trong kinh doanh là dữ liệu từ quy
mô khảo sát—ví dụ: xếp hạng một dịch vụ là kém, trung bình, tốt, rất tốt hoặc xuất
sắc. Dữ liệu như vậy là phân loại nhưng cũng có thứ tự tự nhiên (xuất sắc tốt hơn
rất tốt) và do đó, có thứ tự. Tuy nhiên, dữ liệu thứ tự không có đơn vị đo lường
cố định, vì vậy chúng tôi không thể đưa ra các tuyên bố bằng số có ý nghĩa về sự
khác biệt giữa các danh mục. Vì vậy, chúng ta không thể nói rằng sự khác biệt giữa
xuất sắc và rất tốt cũng giống như giữa tốt và trung bình chẳng hạn. Tương tự, một
đội xếp thứ nhất có thể vượt trội hơn nhiều so với đội xếp thứ hai, trong khi có
thể có rất ít sự khác biệt giữa các đội xếp thứ 9 và thứ 10.
3. Dữ liệu khoảng, là dữ liệu có thứ tự nhưng có sự khác biệt không đổi giữa các quan
sát và có các điểm 0 tùy ý. Các ví dụ phổ biến là thời gian và nhiệt độ. Thời
gian liên quan đến vị trí toàn cầu và lịch có ngày bắt đầu tùy ý (ví dụ: so sánh
lịch Gregorian tiêu chuẩn với lịch Trung Quốc
Machine Translated by Google
17
Chương 1 Giới thiệu về Phân tích Kinh doanh
lịch). Cả thang đo độ F và độ C đều biểu thị một thước đo xác định về khoảng cách
—độ—nhưng có các điểm 0 tùy ý. Vì vậy, chúng tôi không thể lấy tỷ lệ có ý nghĩa;
chẳng hạn, chúng ta không thể nói rằng 50 độ nóng gấp đôi 25 độ. Tuy nhiên, chúng
ta có thể so sánh sự khác biệt. Một ví dụ khác là điểm SAT hoặc GMAT. Điểm số có
thể được sử dụng để xếp hạng học sinh, nhưng chỉ có sự khác biệt giữa các điểm số
mới cung cấp thông tin về mức độ học sinh này học tốt hơn học sinh khác; tỷ lệ
có rất ít ý nghĩa. Trái ngược với dữ liệu thứ tự, dữ liệu khoảng cho phép so sánh
có ý nghĩa các phạm vi, giá trị trung bình và các số liệu thống kê khác.
Trong kinh doanh, dữ liệu từ thang đo khảo sát, mặc dù theo thứ tự kỹ thuật,
thường được coi là dữ liệu khoảng khi thang đo số được liên kết với các loại mèo
(ví dụ: 1 kém, 2 trung bình, 3 tốt, 4 rất tốt, 5 xuất sắc). Nói một cách chính
xác, điều này không chính xác vì “khoảng cách” giữa các loại có thể không được
coi là giống nhau (ví dụ: người được hỏi có thể nhận thấy khoảng cách lớn hơn giữa
người nghèo và người trung bình so với người giỏi và người rất tốt). Tuy nhiên,
nhiều người sử dụng dữ liệu khảo sát coi chúng là khoảng thời gian khi phân tích
dữ liệu, đặc biệt khi chỉ sử dụng thang số mà không có nhãn mô tả.
4. Dữ liệu tỷ lệ liên tục và có số 0 tự nhiên. Hầu hết dữ liệu kinh doanh và kinh
tế, chẳng hạn như đô la và thời gian, đều thuộc loại này. Ví dụ, đơn vị đo lường
đô la có số không tuyệt đối. Tỷ lệ của con số đô la có ý nghĩa đầy đủ. Ví dụ:
biết rằng khu vực Seattle đã bán được 12 triệu đô la trong tháng 3 trong khi khu
vực Tampa bán được 6 triệu đô la có nghĩa là Seattle đã bán được gấp đôi so với
Tampa.
Sự phân loại này có thứ bậc ở chỗ mỗi cấp bao gồm tất cả nội dung thông tin của cấp
trước nó. Ví dụ: dữ liệu thứ tự cũng được phân loại và tỷ lệ trong quá trình hình thành có
thể được chuyển đổi thành bất kỳ loại dữ liệu nào khác. Thông tin khoảng có thể được chuyển
đổi thành dữ liệu thứ tự hoặc phân loại nhưng không thể chuyển đổi thành dữ liệu tỷ lệ mà
không biết điểm không tuyệt đối. Do đó, thang đo tỷ lệ là hình thức đo lường mạnh nhất.
VÍ DỤ 1.3 Phân loại các yếu tố dữ liệu trong cơ sở dữ liệu mua hàng27
Hình 1.3 cho thấy một phần của tập dữ liệu chứa tất cả các mặt hàng
Mục Mô tả—phân loại
mà một công ty sản xuất linh kiện máy bay đã mua trong 3 tháng
Hạng mục Chi phí—tỷ lệ
qua. Dữ liệu cung cấp cho nhà cung cấp; số thứ tự; số mục, mô tả
Số lượng—tỷ lệ
và chi phí; số lượng đặt hàng; chi phí cho mỗi đơn đặt hàng, các
Chi phí trên mỗi đơn đặt hàng—tỷ lệ
điều khoản về tài khoản phải trả (A/P) của nhà cung cấp; và thứ tự
Điều khoản A/P—tỷ lệ
và ngày đến. Chúng tôi có thể phân loại từng loại dữ liệu này như
Ngày đặt hàng—khoảng thời gian
sau:
Ngày đến—khoảng thời gian
Chúng tôi có thể sử dụng những dữ liệu này để đánh giá tốc độ
Nhà cung cấp—phân loại
giao hàng trung bình và xếp hạng các nhà cung cấp (do đó tạo ra dữ
Số thứ tự—thứ tự
liệu thứ tự) theo số liệu này. (Chúng ta xem cách thực hiện điều này
Số mục—phân loại
trong chương tiếp theo).
27Dựa trên Laudon và Laudon, Yếu tố cần thiết của Hệ thống Thông tin Quản lý.
Machine Translated by Google
18
Chương 1 Giới thiệu về Phân tích Kinh doanh
Hình 1.3
Độ tin cậy và hiệu lực của dữ liệu
Một phần của tệp Excel
Dữ liệu đơn đặt hàng
Dữ liệu kém có thể dẫn đến các quyết định kém. Trong một tình huống, một mô hình thiết kế hệ
thống phân phối dựa trên dữ liệu thu được từ bộ phận tài chính doanh nghiệp. Chi phí vận chuyển
được xác định bằng cách sử dụng công thức dựa trên vĩ độ và kinh độ của các địa điểm của nhà
máy và khách hàng. Nhưng khi giải pháp được trình bày trên chương trình lập bản đồ hệ thống
thông tin địa lý (GIS), một trong những khách hàng ở Đại Tây Dương.
Do đó, dữ liệu được sử dụng trong các quyết định kinh doanh cần phải đáng tin cậy và hợp
lệ. Độ tin cậy có nghĩa là dữ liệu chính xác và nhất quán. Giá trị có nghĩa là dữ liệu đo lường
chính xác những gì chúng phải đo lường. Ví dụ: đồng hồ đo áp suất lốp liên tục đọc vài pound
áp suất dưới giá trị thực là không đáng tin cậy, mặc dù nó có giá trị vì nó đo áp suất lốp. Số
cuộc gọi đến bàn dịch vụ khách hàng có thể được tính chính xác mỗi ngày (và do đó là thước đo
đáng tin cậy), nhưng không hợp lệ nếu nó được sử dụng để đánh giá sự không hài lòng của khách
hàng, vì nhiều cuộc gọi có thể chỉ là những câu hỏi đơn giản. Cuối cùng, một câu hỏi khảo sát
yêu cầu khách hàng đánh giá chất lượng thực phẩm trong nhà hàng có thể không đáng tin cậy (vì
các khách hàng khác nhau có thể có những nhận thức trái ngược nhau) cũng không có giá trị (nếu
mục đích là đo lường sự hài lòng của khách hàng, vì sự hài lòng thường bao gồm các yếu tố
khác). yếu tố dịch vụ bên cạnh thực phẩm).
Các mô hình trong phân tích kinh doanh
Để đưa ra quyết định, chúng ta phải có khả năng chỉ rõ các phương án quyết định đại diện cho
các lựa chọn có thể đưa ra và các tiêu chí để đánh giá các phương án. Chỉ định các phương án
quyết định có thể rất đơn giản; ví dụ: bạn có thể cần chọn một trong ba tùy chọn chương trình
sức khỏe của công ty. Các tình huống khác có thể phức tạp hơn; ví dụ, khi định vị một trung
tâm phân phối mới, có thể không liệt kê được chỉ một số lượng nhỏ các lựa chọn thay thế. Tập
hợp các vị trí tiềm năng có thể ở bất kỳ đâu tại Hoa Kỳ hoặc thậm chí trong một khu vực địa lý
rộng lớn như Châu Á. Các tiêu chí quyết định có thể là tối đa hóa lợi nhuận ròng chiết khấu,
sự hài lòng của khách hàng hoặc lợi ích xã hội hoặc để giảm thiểu chi phí, tác động môi trường
hoặc một số biện pháp tổn thất.
Nhiều vấn đề quyết định có thể được hình thức hóa bằng cách sử dụng một mô hình. Một mô
hình là một sự trừu tượng hóa hoặc biểu diễn của một hệ thống, ý tưởng hoặc đối tượng thực. Các
mô hình nắm bắt các đặc điểm quan trọng nhất của một vấn đề và trình bày chúng dưới dạng dễ
diễn giải. Một mô hình có thể đơn giản như một mô tả bằng văn bản hoặc bằng lời nói về một số
hiện tượng, một biểu diễn trực quan như đồ thị hoặc lưu đồ, hoặc biểu diễn toán học hoặc bảng
tính (xem Ví dụ 1.4).
Các mô hình có thể mang tính mô tả, dự đoán hoặc quy định và do đó được sử dụng trong
nhiều ứng dụng phân tích kinh doanh. Trong ví dụ 1.4, lưu ý rằng hai cái đầu tiên
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
19
VÍ DỤ 1.4 Ba dạng của một mô hình
Việc bán một sản phẩm mới, chẳng hạn như iPad thế hệ đầu tiên, điện
thoại Android hoặc tivi 3D, thường tuân theo một khuôn mẫu chung.
Chúng ta có thể biểu diễn điều này theo một trong ba cách sau:
3. Cuối cùng, các nhà phân tích có thể xác định một mô hình toán
học đặc trưng cho đường cong này. Một số hàm toán học khác
nhau thực hiện điều này; một được gọi là đường cong
Gompertz và có công thức: S = aebec , trong đó S = doanh
1. Một mô tả bằng lời nói đơn giản về doanh số bán hàng có thể
là: Tỷ lệ doanh số bán hàng bắt đầu nhỏ khi những người
dùng sớm bắt đầu đánh giá một sản phẩm mới và sau đó bắt đầu
tăng với tốc độ ngày càng tăng theo thời gian khi phản hồi
tích cực của khách hàng lan rộng. Cuối cùng, thị trường bắt
đầu trở nên bão hòa và tốc độ bán hàng bắt đầu giảm.
số, = thời gian, e là cơ số của logarit tự nhiên và a, b và
c là các hằng số. Tất nhiên, bạn sẽ không biết điều này; đó
là những gì các chuyên gia phân tích làm. Một mô hình toán
học như vậy cung cấp khả năng dự đoán doanh số bán hàng một
cách định lượng và phân tích các quyết định tiềm năng bằng
cách đặt câu hỏi “điều gì sẽ xảy ra nếu?” câu hỏi.
2. Bản phác thảo doanh số bán hàng dưới dạng đường cong hình chữ
S theo thời gian, như trong Hình 1.4, là một mô hình trực
quan thể hiện hiện tượng này.
các hình thức của mô hình hoàn toàn là mô tả; họ chỉ đơn giản là giải thích hiện tượng. Mặc dù mô
hình toán học cũng mô tả hiện tượng này, nhưng nó có thể được sử dụng để dự đoán doanh số bán
hàng trong tương lai. Các mô hình thường được phát triển từ lý thuyết hoặc quan sát và thiết lập
mối quan hệ giữa các hành động mà người ra quyết định có thể thực hiện và kết quả mà họ có thể
mong đợi, do đó cho phép người ra quyết định dự đoán điều gì có thể xảy ra dựa trên mô hình.
Các mô hình bổ sung cho trực giác của những người ra quyết định và thường cung cấp những
hiểu biết sâu sắc mà trực giác không thể. Ví dụ, một ứng dụng ban đầu của phân tích trong tiếp
thị liên quan đến nghiên cứu về hoạt động bán hàng. Các đại diện bán hàng phải phân chia thời gian
giữa các khách hàng lớn và nhỏ, giữa việc thu hút khách hàng mới và giữ chân khách hàng cũ. Vấn
đề là xác định xem những người đại diện nên phân bổ thời gian như thế nào là tốt nhất. Trực giác
gợi ý rằng họ nên tập trung vào những khách hàng lớn và việc có được một khách hàng mới khó hơn
nhiều so với việc giữ một khách hàng cũ. Tuy nhiên, trực giác không thể cho biết liệu họ nên tập
trung vào 100 khách hàng lớn nhất hay 1.000 khách hàng lớn nhất hay nên dành bao nhiêu nỗ lực để
có được khách hàng mới. Các mô hình về hiệu quả của lực lượng bán hàng và mô hình phản hồi của
khách hàng đã cung cấp cái nhìn sâu sắc để đưa ra những quyết định này. Tuy nhiên, điều quan trọng
là phải hiểu rằng tất cả các mô hình chỉ là đại diện của thế giới thực và do đó, không thể nắm
bắt được mọi sắc thái mà những người ra quyết định phải đối mặt trong thực tế. Người ra quyết định phải thường xuyên
Hình 1.4
Bán sản phẩm mới
Tăng ca
Machine Translated by Google
20
Chương 1 Giới thiệu về Phân tích Kinh doanh
sửa đổi các chính sách mà các mô hình đề xuất để tính đến các yếu tố vô hình mà chúng có thể
không thể kết hợp vào mô hình.
Một mô hình mô tả đơn giản là một biểu diễn trực quan được gọi là biểu đồ ảnh hưởng
bởi vì nó mô tả các yếu tố khác nhau của mô hình ảnh hưởng hoặc liên quan đến những yếu tố
khác như thế nào. Sơ đồ ảnh hưởng là một cách tiếp cận hữu ích để khái niệm hóa cấu trúc của
một mô hình và có thể hỗ trợ xây dựng một mô hình toán học hoặc bảng tính. Các phần tử của
mô hình được biểu diễn bằng các ký hiệu hình tròn gọi là các nút. Các mũi tên được gọi là
nhánh kết nối các nút và chỉ ra yếu tố nào ảnh hưởng đến yếu tố khác. Biểu đồ ảnh hưởng khá
hữu ích trong giai đoạn đầu xây dựng mô hình khi chúng ta cần hiểu và mô tả các mối quan hệ chính.
Ví dụ 1.5 chỉ ra cách xây dựng các biểu đồ ảnh hưởng đơn giản và Ví dụ 1.6 chỉ ra cách xây
dựng một mô hình toán học dựa trên biểu đồ ảnh hưởng.
VÍ DỤ 1.5 Biểu đồ ảnh hưởng đối với tổng chi phí
Từ các nguyên tắc kinh doanh cơ bản, chúng ta biết rằng tổng
không có nhánh nào trỏ vào chúng là đầu vào cho mô hình.
chi phí để sản xuất một lượng sản phẩm cố định bao gồm chi
Chúng ta có thể thấy biến phí đơn vị và định phí là dữ liệu
phí cố định và chi phí biến đổi. Do đó, một biểu đồ ảnh hưởng
đầu vào trong mô hình. Tuy nhiên, số lượng được sản xuất là
đơn giản thể hiện các mối quan hệ này được đưa ra trong Hình
một biến quyết định bởi vì nó có thể được kiểm soát bởi người
1.5.
quản lý hoạt động. Tổng chi phí là đầu ra (lưu ý rằng nó không
Chúng ta có thể phát triển một mô hình chi tiết hơn bằng
có nhánh nào hướng ra ngoài) mà chúng ta muốn tính toán. Nút
cách lưu ý rằng chi phí biến đổi phụ thuộc vào chi phí biến
chi phí biến đổi liên kết một số đầu vào với đầu ra và có thể
đổi đơn vị cũng như số lượng sản xuất. Mô hình mở rộng được
được coi là “khối xây dựng” của mô hình cho tổng chi phí.
thể hiện trong Hình 1.6. Trong hình này, tất cả các nút có
Hình 1.5
Tổng chi phí
Sơ đồ ảnh hưởng
Liên quan tổng chi phí đến nó
Thành phần chính
Chi phí cố định
Hình 1.6
Chi phí biến đổi
Tổng chi phí
Ảnh hưởng mở rộng
Sơ đồ cho Tổng chi phí
Chi phí biến đổi
Chi phí cố định
biến đơn vị
Trị giá
Số lượng
sản xuất
Machine Translated by Google
21
Chương 1 Giới thiệu về Phân tích Kinh doanh
VÍ DỤ 1.6 Xây dựng Mô hình Toán học từ Biểu đồ Ảnh hưởng
Chúng ta có thể phát triển một mô hình toán học từ biểu đồ ảnh hưởng
trong Hình 1.6. Đầu tiên, chúng ta cần xác định bản chất chính xác của
Sử dụng các mối quan hệ này, chúng ta có thể phát triển một biểu
diễn toán học bằng cách xác định các ký hiệu cho từng đại lượng sau:
các mối quan hệ giữa các đại lượng khác nhau. Ví dụ, chúng ta có thể
dễ dàng nói rằng
TC = tổng chi phí
(1.1)
Tổng chi phí = Chi phí cố định + Chi phí biến đổi
Logic cũng gợi ý rằng chi phí biến đổi là chi phí biến đổi đơn vị nhân
với số lượng được sản xuất. Như vậy,
V = chi phí biến đổi đơn vị
F = chi phí cố định
Q = số lượng sản xuất
Điều này dẫn đến mô hình
Chi phí biến đổi = Chi phí biến đổi đơn vị x Số lượng sản xuất
(1.4)
TC = F + VQ
(1.2)
Bằng cách thay điều này vào phương trình (1.1), chúng ta có
Tổng chi phí = Chi phí cố định + Chi phí biến đổi
= Chi phí cố định + Chi phí biến đổi đơn vị x Số lượng sản xuất
(1.3)
Mô hình quyết định
Mô hình quyết định là một biểu diễn logic hoặc toán học của một vấn đề hoặc tình huống kinh
doanh có thể được sử dụng để hiểu, phân tích hoặc tạo thuận lợi cho việc đưa ra quyết định. Hầu
hết các mô hình quyết định có ba loại đầu vào:
1. Dữ liệu, được giả định là không đổi cho các mục đích của mô hình. Một số ví dụ sẽ
là chi phí, công suất máy móc và khoảng cách giữa các thành phố.
2. Biến số không kiểm soát được là những đại lượng có thể thay đổi nhưng người ra
quyết định không thể kiểm soát trực tiếp. Một số ví dụ sẽ là nhu cầu của khách
hàng, tỷ lệ lạm phát và lợi tức đầu tư. Thông thường, các biến này là không chắc
chắn.
3. Các biến số quyết định, có thể kiểm soát được và có thể được lựa chọn theo quyết
định của người ra quyết định. Một số ví dụ sẽ là số lượng sản xuất (xem Ví dụ
1.5), mức nhân sự và phân bổ đầu tư.
Các mô hình quyết định mô tả các mối quan hệ giữa dữ liệu, các biến không thể kiểm soát và
các biến quyết định cũng như các kết quả đầu ra mà người ra quyết định quan tâm (xem Hình 1.7).
Các mô hình quyết định có thể được biểu diễn theo nhiều cách khác nhau, điển hình nhất là với
các hàm toán học và bảng tính. Bảng tính là phương tiện lý tưởng để triển khai các mô hình
quyết định vì tính linh hoạt của chúng trong việc quản lý dữ liệu, đánh giá các tình huống
khác nhau và trình bày kết quả theo cách có ý nghĩa.
Hình 1.7
đầu vào
đầu ra
Bản chất của các mô hình quyết định
Các biện pháp của
Dữ liệu, Không thể kiểm soát
Các biến và
Các biến quyết định
Phán quyết
Người mẫu
Hiệu suất hoặc
Hành vi
Machine Translated by Google
22
Chương 1 Giới thiệu về Phân tích Kinh doanh
Chúng ta có thể sử dụng mô hình trong Ví dụ 1.6 như thế nào để giúp đưa ra quyết định? Giả sử
rằng một nhà sản xuất có tùy chọn tự sản xuất một bộ phận hoặc thuê ngoài từ một nhà cung cấp (các
biến quyết định). Công ty nên sản xuất một phần hoặc thuê ngoài nó? Quyết định phụ thuộc vào khối
lượng nhu cầu dự đoán (một biến không thể kiểm soát); đối với số lượng lớn, chi phí sản xuất nội bộ
sẽ thấp hơn so với thuê ngoài, bởi vì chi phí cố định có thể được phân bổ cho một số lượng lớn các
đơn vị. Đối với khối lượng nhỏ, sẽ tiết kiệm hơn nếu thuê ngoài. Biết được tổng chi phí của cả hai
phương án (dựa trên dữ liệu về chi phí sản xuất cố định và biến đổi cũng như chi phí mua hàng) và
điểm hòa vốn sẽ tạo thuận lợi cho quyết định. Một ví dụ số được cung cấp trong Ví dụ 1.7.
VÍ DỤ 1.7 Mô hình quyết định hòa vốn
Giả sử rằng một nhà sản xuất có thể sản xuất một bộ phận với
Do đó, nếu khối lượng sản xuất dự kiến lớn hơn 1.000,
giá 125 đô la/đơn vị với chi phí cố định là 50.000 đô la. Giải
thì việc sản xuất bộ phận đó sẽ tiết kiệm hơn; nếu dưới 1.000
pháp thay thế là thuê ngoài sản xuất cho một nhà cung cấp với
thì nên thuê ngoài.
chi phí đơn vị là $175. Tổng chi phí sản xuất được thể hiện
Điều này được thể hiện bằng đồ thị trong Hình 1.8.
Chúng tôi cũng có thể phát triển một công thức chung
bằng phương trình (1.5):
TC (sản xuất) = $50.000 + $125 × Q
và tổng chi phí gia công phần mềm có thể được viết là
TC (thuê ngoài) = $175 × Q
Các mô hình toán học dễ thao tác; ví dụ, có thể dễ dàng
tìm thấy khối lượng hòa vốn bằng cách đặt
cho điểm hòa vốn bằng cách đặt C là chi phí đơn vị thuê ngoài
một phần và đặt TC (sản xuất) = TC (thuê ngoài) bằng cách sử
dụng các công thức:
F + VQ = CQ
Q =
F
C - V
(1.5)
TC (sản xuất) = TC (gia công) và giải Q:
$50.000 + $125 × Q = $175 × Q
50.000 USD = 50 × Q
Q = 1.000
Nhiều mô hình được phát triển bằng cách phân tích dữ liệu lịch sử. Ví dụ 1.8 cho thấy dữ liệu
lịch sử có thể được sử dụng như thế nào để phát triển một mô hình quyết định có thể được sử dụng để
dự đoán tác động của các chiến lược định giá và quảng cáo trong ngành tạp hóa.
Hình 1.8
Minh họa đồ họa của
Phân tích hòa vốn
Machine Translated by Google
23
Chương 1 Giới thiệu về Phân tích Kinh doanh
VÍ DỤ 1.8 Mô hình quyết định xúc tiến bán hàng
Trong ngành hàng tạp hóa, các nhà quản lý thường cần biết cách sử dụng
để phát triển một mô hình dự đoán doanh số bán hàng như là một chức năng
giá cả, phiếu giảm giá và chiến lược quảng cáo tốt nhất để tác động đến
của các chiến lược quyết định này.
doanh số bán hàng. Các cửa hàng tạp hóa thường nghiên cứu mối quan hệ
giữa doanh số bán hàng với các chiến lược này bằng cách tiến hành các
Ví dụ: giả sử rằng một người bán tạp hóa điều hành ba cửa hàng ở
một thành phố nhỏ đã thay đổi giá, phiếu giảm giá (có = 1, không = 0)
thử nghiệm có kiểm soát để xác định mối quan hệ giữa họ và doanh số bán
và chi phí quảng cáo trên một tờ báo địa phương trong khoảng thời gian
hàng.28 Nghĩa là, họ triển khai các kết hợp khác nhau giữa giá cả, phiếu
16 tuần và quan sát thấy doanh thu như sau:
giảm giá và quảng cáo, quan sát doanh số bán hàng dẫn đến, và sử dụng
phân tích
cửa hàng 1
Giá tuần ($) Phiếu giảm giá (0,1)
Quảng cáo ($)
0
1
6,99
2
6,99
0
3
6,99
1
4
6,99
1
0
150
0
150
5
6,49
0
6
6,49
0
7
6,49
1
6,49
1
7,59
0
0
số 8
9
0
cửa hàng 3
cửa hàng 2
Bán hàng (Đơn vị)
Bán hàng (Đơn vị)
Bán hàng (Đơn vị)
501
510
481
772
748
775
554
528
506
838
785
834
521
519
500
150
723
790
723
0
510
556
520
818
773
800
479
491
486
150
10
7,59
0
150
825
822
757
11
7,59
1
0
533
513
540
12
7,59
1
839
791
832
13
5,49
0
14
5,49
0
15
5,49
1
16
5,49
1
150
0
150
0
150
Để hiểu rõ hơn về mối quan hệ giữa giá cả, phiếu giảm giá và quảng
484
480
508
686
683
708
543
531
530
767
743
779
đầu ra của mô hình là các đơn vị bán hàng của sản phẩm. Ví dụ: nếu giá
cáo, người bán tạp hóa có thể đã phát triển mô hình sau bằng cách sử
là 6,99 đô la, không có phiếu giảm giá nào được cung cấp và không có
dụng các công cụ phân tích kinh doanh:
quảng cáo nào được thực hiện (thử nghiệm tương ứng với tuần 1), thì mô
doanh số = 500
0,05 × giá + 30 × phiếu giảm giá + 0,08
× quảng cáo + 0,25 × giá × quảng cáo
hình ước tính doanh số bán hàng là
doanh thu = 500
0,05 × 6,99 USD + 30 × 0 + 0,08 × 0
+ 0,25 × 6,99 USD × 0 = 500 đơn vị
Trong mô hình này, các biến quyết định là giá cả, phiếu giảm giá và
quảng cáo. Các giá trị 500,
0,05, 30, 0,08 và 0,25 là ảnh hưởng của dữ
liệu đầu vào đến mô hình được ước tính từ dữ liệu thu được từ thử nghiệm.
Chúng tôi thấy rằng doanh số bán hàng thực tế trong tuần 1 thay
đổi từ 481 đến 510 trong ba cửa hàng. Do đó, mô hình này dự đoán một ước
tính tốt cho doanh số bán hàng; tuy nhiên, nó không cho chúng ta biết bất
Chúng phản ánh tác động đến doanh số của việc thay đổi các biến quyết
cứ điều gì về khả năng thay đổi tiềm năng hoặc lỗi dự đoán. Tuy nhiên,
định. Ví dụ: tăng giá 1 đô la dẫn đến doanh số hàng tuần giảm 0,05 đơn
người quản lý có thể sử dụng mô hình này để đánh giá các chiến lược định
vị; sử dụng phiếu giảm giá dẫn đến doanh số hàng tuần tăng 30 đơn vị.
giá, khuyến mãi và quảng cáo khác nhau, đồng thời giúp chọn chiến lược
Trong ví dụ này, không có biến đầu vào không kiểm soát được. Các
tốt nhất để tối đa hóa doanh thu hoặc lợi nhuận.
28Roger J. Calantone, Cornelia Droge, David S. Litvack, và C. Anthony di Benedetto. “Flanking in a
Price War,” Interfaces, 19, 2 (1989): 1–12.
Machine Translated by Google
24
Chương 1 Giới thiệu về Phân tích Kinh doanh
Giả định mô hình
Tất cả các mô hình đều dựa trên các giả định phản ánh quan điểm của người lập mô hình về “thế giới thực”.
Một số giả định được đưa ra để đơn giản hóa mô hình và làm cho nó dễ xử lý hơn; nghĩa là, có
thể dễ dàng phân tích hoặc giải quyết. Các giả định khác có thể được thực hiện để mô tả dữ
liệu lịch sử hoặc các quan sát trong quá khứ tốt hơn. Nhiệm vụ của người lập mô hình là lựa
chọn hoặc xây dựng một mô hình thích hợp thể hiện tốt nhất hành vi của tình huống thực tế. Ví
dụ, lý thuyết kinh tế cho chúng ta biết rằng nhu cầu đối với một sản phẩm có quan hệ tỷ lệ
nghịch với giá của nó. Do đó, khi giá tăng, nhu cầu giảm và ngược lại (một hiện tượng mà bạn
có thể nhận ra là độ co giãn của giá—tỷ lệ phần trăm thay đổi của nhu cầu so với phần trăm
thay đổi của giá). Các mô hình toán học khác nhau có thể mô tả hiện tượng này. Trong các ví
dụ sau đây, chúng tôi minh họa hai trong số chúng. (Bạn có thể tìm thấy cả hai ví dụ này trong
tệp Excel Mô hình dự đoán nhu cầu. Chúng tôi sẽ giới thiệu việc sử dụng bảng tính trong phân
tích trong chương tiếp theo.)
VÍ DỤ 1.9 Mô hình dự báo nhu cầu tuyến tính
Một mô hình đơn giản để dự đoán nhu cầu như một hàm của giá là mô
hình tuyến tính
Nếu giá tăng lên 90 đô la, mô hình dự đoán nhu cầu là
D = 20.000
D = a
bP
(1.6)
trong đó D là tỷ lệ cầu, P là đơn giá, a là hằng số ước tính lượng
cầu khi giá bằng 0 và b là độ dốc của hàm cầu. Mô hình này được
áp dụng nhiều nhất khi chúng ta muốn dự đoán tác động của những
101902 = 19.100 đơn vị
Nếu giá là $100, nhu cầu sẽ là
D = 20.000
1011002 = 19.000 đơn vị
và như thế. Biểu đồ nhu cầu như là một chức năng của giá được hiển
thay đổi nhỏ xung quanh mức giá hiện tại. Ví dụ: giả sử chúng ta
thị trong Hình 1.9 khi giá dao động trong khoảng từ 80 đô la đến
biết rằng khi giá là 100 đô la, nhu cầu là 19.000 đơn vị và nhu
120 đô la. Chúng tôi thấy rằng nhu cầu giảm liên tục đối với mỗi
cầu đó giảm 10 đô la cho mỗi đô la tăng giá. Sử dụng đại số đơn
lần tăng giá 10 đô la, một đặc điểm của mô hình tuyến tính.
giản, chúng ta có thể xác định rằng a = 20.000 và b = 10. Do đó,
nếu giá là 80 đô la, thì nhu cầu dự đoán là
D = 20.000
101802 = 19.200 đơn vị
Hình 1.9
Đồ thị nhu cầu tuyến tính
Mô hình D = a
bP
Machine Translated by Google
25
Chương 1 Giới thiệu về Phân tích Kinh doanh
VÍ DỤ 1.10 Một mô hình dự báo nhu cầu phi tuyến tính
Một mô hình thay thế giả định rằng độ co giãn của giá là không
Nếu giá là 90, lượng cầu sẽ là
đổi. Trong trường hợp này, mô hình thích hợp là
D = cP
d
0,0111382 D = 20.0001902 = 19022.
(1.7)
Nếu giá là 100, lượng cầu là
Trong đó, c là cầu khi giá bằng 0 và d + 0 là độ co giãn của
D = 20,00011002
giá. Để phù hợp với Ví dụ 1.9, chúng ta giả định rằng khi giá
0,0111382
= 19.000.
bằng 0, lượng cầu là 20.000. Do đó, c = 20.000. Chúng ta cũng
Một đồ thị của nhu cầu như là một chức năng của giá cả được
sẽ, như trong Ví dụ 1.9, giả định rằng khi giá là 100 đô
thể hiện trong hình 1.10. Nhu cầu dự đoán giảm theo kiểu phi
la, D = 19.000.
tuyến tính nhẹ khi giá tăng. Ví dụ: nhu cầu giảm 25 đơn vị
Sử dụng các giá trị này trong phương trình (1.7), chúng ta có thể xác
khi giá tăng từ 80 đô la lên 90 đô la, nhưng chỉ giảm 22 đơn
định giá trị cho d (chúng ta có thể thực hiện điều này về mặt toán
vị khi giá tăng từ 90 đô la lên 100 đô la. Nếu giá tăng lên
học bằng cách sử dụng log arithms, nhưng chúng ta sẽ xem cách thực
100 đô la, bạn sẽ thấy nhu cầu giảm ít hơn. Do đó, ta thấy
hiện điều này rất dễ dàng bằng Excel trong Chương 11); đây là d =
quan hệ phi tuyến ngược với Ví dụ 1.9.
0,0111382. Do đó, nếu giá là 80 đô la, thì nhu cầu dự đoán là
Đ = 20.0001802
0,0111382
= 19,047.
Cả hai mô hình trong Ví dụ 1.9 và 1.10 đưa ra những dự đoán khác nhau về nhu cầu
đối với các mức giá khác nhau (ngoài $90). Mô hình nào là tốt nhất? Câu trả lời có thể là
không. Trước hết, việc phát triển các mô hình thực tế đòi hỏi nhiều thay đổi về mức giá
trong một thử nghiệm được thiết kế cẩn thận. Thứ hai, nó cũng nên bao gồm dữ liệu về
cạnh tranh và thu nhập khả dụng của khách hàng, cả hai đều khó xác định. Tuy nhiên, có
thể phát triển các mô hình co giãn giá với phạm vi giá hạn chế và phân khúc khách hàng
hẹp. Điểm khởi đầu tốt là tạo cơ sở dữ liệu lịch sử với thông tin chi tiết về tất cả các
hành động định giá trong quá khứ. Thật không may, các học viên đã quan sát thấy rằng các
mô hình như vậy không được sử dụng rộng rãi trong tiếp thị bán lẻ, cho thấy rất nhiều cơ
hội để áp dụng phân tích kinh doanh.29
Hình 1.10
Đồ thị nhu cầu phi tuyến tính
Mô hình D = cP
d
29Ming Zhang, Clay Duan, và Arun Muthupalaniappan, “Analytics Applications in Consumer Credit
and Retail Marketing,” analytics-magazine.org, tháng 11/12/2011, trang 27–33.
Machine Translated by Google
26
Chương 1 Giới thiệu về Phân tích Kinh doanh
Sự không chắc chắn và rủi ro
Như chúng ta đã biết, tương lai luôn không chắc chắn. Do đó, nhiều mô hình dự đoán kết hợp tính không
chắc chắn và giúp những người ra quyết định phân tích những rủi ro liên quan đến các quyết định của
họ. Sự không chắc chắn là kiến thức không hoàn hảo về những gì sẽ xảy ra; rủi ro có liên quan đến hậu
quả và khả năng xảy ra của những gì có thể xảy ra. Ví dụ: sự thay đổi giá cổ phiếu của Apple vào ngày
giao dịch tiếp theo là không chắc chắn. Tuy nhiên, nếu bạn sở hữu cổ phiếu Apple, bạn sẽ phải đối mặt
với rủi ro mất tiền nếu giá cổ phiếu giảm. Nếu bạn không sở hữu bất kỳ cổ phiếu nào, giá vẫn không
chắc chắn mặc dù bạn sẽ không gặp bất kỳ rủi ro nào. Rủi ro được đánh giá bằng mức độ nghiêm trọng của
hậu quả và khả năng chúng sẽ xảy ra. Ví dụ: giá cổ phiếu giảm 10% sẽ có rủi ro cao hơn nếu bạn sở hữu
1 triệu đô la so với khi bạn chỉ sở hữu 1.000 đô la. Tương tự, nếu cơ hội giảm 10% là 1 trên 5, rủi
ro sẽ cao hơn nếu cơ hội chỉ là 1 trên 100.
Tầm quan trọng của rủi ro trong kinh doanh đã được công nhận từ lâu. Nhà văn nổi tiếng về quản
lý, Peter Drucker, đã nhận xét vào năm 1974:
Cố gắng loại bỏ rủi ro trong doanh nghiệp kinh doanh là vô ích. Rủi ro vốn có trong cam kết của
các nguồn lực hiện tại với những kỳ vọng trong tương lai. Thật vậy, tiến bộ kinh tế có thể được
định nghĩa là khả năng chấp nhận rủi ro lớn hơn. Nỗ lực loại bỏ rủi ro, thậm chí cả nỗ lực giảm
thiểu chúng, chỉ có thể khiến chúng trở nên phi lý và không thể chịu đựng nổi. Nó chỉ có thể dẫn
đến rủi ro lớn nhất trong tất cả: sự cứng nhắc.30
Xem xét rủi ro là một yếu tố sống còn của việc ra quyết định. Chẳng hạn, bạn có thể sẽ không chọn
một khoản đầu tư chỉ dựa trên cơ sở lợi nhuận mà bạn có thể mong đợi bởi vì thông thường, lợi nhuận cao
hơn có liên quan đến rủi ro cao hơn. Do đó, bạn phải đánh đổi giữa lợi ích của phần thưởng lớn hơn và
rủi ro thua lỗ tiềm ẩn.
Các mô hình phân tích có thể giúp đánh giá điều này. Chúng tôi sẽ giải quyết vấn đề này trong các chương sau.
Mô hình quyết định theo quy định
Một mô hình quyết định theo quy tắc giúp những người ra quyết định xác định giải pháp tốt nhất cho
một vấn đề quyết định. Tối ưu hóa là quá trình tìm kiếm một tập hợp các giá trị cho các biến quyết
định giúp tối thiểu hóa hoặc tối đa hóa một số lượng quan tâm—lợi nhuận, doanh thu, chi phí, thời
gian, v.v.—được gọi là hàm mục tiêu. Bất kỳ tập hợp các biến quyết định nào tối ưu hóa hàm mục tiêu
được gọi là một giải pháp tối ưu. Trong một thế giới cạnh tranh cao, nơi một điểm phần trăm có thể có
nghĩa là sự khác biệt hàng trăm nghìn đô la trở lên, việc biết giải pháp tốt nhất có thể có nghĩa là
sự khác biệt giữa thành công và thất bại.
VÍ DỤ 1.11 Một mô hình định giá cho việc định giá
Để minh họa một ví dụ về mô hình quy định, giả sử rằng một công ty
Bởi vì doanh thu bằng giá × doanh số, một mô hình cho tổng doanh
muốn xác định mức giá tốt nhất cho một trong các sản phẩm của mình
thu là
để tối đa hóa doanh thu trong năm tới.
Một nghiên cứu thị trường đã thu thập dữ liệu ước tính doanh số
tổng doanh thu = giá × doanh số
hàng năm dự kiến cho các mức giá khác nhau.
= giá × 1
Các nhà phân tích xác định rằng doanh số bán hàng có thể được thể
giá2 + 3240,9 × giá
hiện bằng mô hình sau:
doanh số =
2,9485 × giá + 3240,92 = 22,9485 ×
Công ty muốn xác định mức giá tối đa hóa tổng doanh thu. Một cách
2,9485 × giá + 3.240,9
để làm điều này là thử các mức giá khác nhau và tìm kiếm mức giá
mang lại tổng doanh thu cao nhất. Điều này sẽ khá tẻ nhạt nếu làm
bằng tay hoặc thậm chí với máy tính. Chúng ta sẽ xem cách thực hiện
điều này một cách dễ dàng trên bảng tính trong Chương 11.
30P. F. Drucker, The Manager and the Management Sciences in Management: Tasks, Responsibilities,
Practices (London: Harper and Row, 1974).
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
27
Mặc dù mô hình định giá thì không, nhưng hầu hết các mô hình tối ưu hóa đều có những ràng buộc—
giới hạn, yêu cầu hoặc các hạn chế khác được áp dụng cho bất kỳ giải pháp nào, chẳng hạn như
“không vượt quá ngân sách cho phép” hoặc “đảm bảo rằng tất cả nhu cầu đều được đáp ứng”. Ví
dụ, một nhà quản lý công ty sản phẩm tiêu dùng có thể muốn đảm bảo đạt được mức độ dịch vụ
khách hàng cụ thể khi thiết kế lại hệ thống phân phối. Sự hiện diện của các ràng buộc làm cho
việc mô hình hóa và giải quyết các vấn đề tối ưu hóa trở nên khó khăn hơn; chúng ta giải quyết
các vấn đề tối ưu hóa có ràng buộc ở phần sau của cuốn sách này, bắt đầu từ Chương 13.
Đối với một số mô hình quy tắc, các giải pháp phân tích — biểu thức toán học dạng đóng hoặc
công thức đơn giản — có thể thu được bằng cách sử dụng các kỹ thuật như phép tính hoặc các loại
phân tích toán học khác. Tuy nhiên, trong hầu hết các trường hợp, một số loại quy trình dựa trên
máy tính là cần thiết để tìm ra giải pháp tối ưu. Một thuật toán là một thủ tục có hệ thống nhằm
tìm ra giải pháp cho một vấn đề. Các nhà nghiên cứu đã phát triển các thuật toán hiệu quả để giải
quyết nhiều loại vấn đề tối ưu hóa. Ví dụ: Microsoft Excel có một phần bổ trợ tích hợp sẵn có tên
là Bộ giải cho phép bạn tìm các giải pháp tối ưu cho các vấn đề tối ưu hóa được định dạng dưới
dạng mô hình bảng tính. Chúng tôi sử dụng Bộ giải trong các chương sau. Tuy nhiên, chúng ta sẽ
không quan tâm đến cơ chế chi tiết của các thuật toán này; trọng tâm của chúng tôi sẽ là việc sử
dụng các thuật toán để giải quyết và phân tích các mô hình mà chúng tôi phát triển.
Nếu có thể, chúng tôi muốn đảm bảo rằng thuật toán chẳng hạn như thuật toán mà Bộ giải sử
dụng sẽ tìm ra giải pháp tốt nhất. Tuy nhiên, một số mô hình phức tạp đến mức không thể giải
quyết chúng một cách tối ưu trong một khoảng thời gian hợp lý trên máy tính do số lượng tính
toán cực kỳ lớn có thể được yêu cầu hoặc do chúng quá phức tạp nên không thể đảm bảo tìm ra
giải pháp tốt nhất. Trong những trường hợp này, các nhà phân tích sử dụng các thuật toán tìm
kiếm—các thủ tục giải pháp thường tìm ra các giải pháp tốt mà không đảm bảo tìm ra giải pháp
tốt nhất. Các thuật toán tìm kiếm mạnh mẽ tồn tại để có được các giải pháp tốt cho các vấn đề
tối ưu hóa cực kỳ khó khăn. Những điều này được thảo luận trong phần trực tuyến bổ sung Chương
A.
Các mô hình quyết định theo quy định có thể là tất định hoặc ngẫu nhiên. Một mô hình xác
định là một mô hình trong đó tất cả thông tin đầu vào của mô hình đều đã biết hoặc được giả
định là đã biết một cách chắc chắn. Mô hình ngẫu nhiên là mô hình trong đó một số thông tin
đầu vào của mô hình là không chắc chắn. Chẳng hạn, giả sử rằng nhu cầu của khách hàng là một
yếu tố quan trọng của một số mô hình. Chúng ta có thể giả định rằng nhu cầu được biết một cách
chắc chắn; nói, 5.000 đơn vị mỗi tháng. Trong trường hợp này, chúng ta sẽ xử lý một mô hình tất định.
Mặt khác, giả sử chúng ta có bằng chứng cho thấy nhu cầu không chắc chắn, với giá trị trung
bình là 5.000 đơn vị mỗi tháng, nhưng thường dao động trong khoảng 3.200 đến 6.800 đơn vị. Nếu
chúng ta đưa ra giả định này, chúng ta sẽ xử lý một mô hình ngẫu nhiên.
Những tình huống này được thảo luận trong phần trực tuyến bổ sung Chương B.
Giải quyết vấn đề với Analytics
Mục đích cơ bản của phân tích là giúp các nhà quản lý giải quyết vấn đề và đưa ra quyết định.
Các kỹ thuật phân tích chỉ đại diện cho một phần của quá trình ra quyết định và giải quyết
vấn đề tổng thể. Giải quyết vấn đề là hoạt động liên quan đến việc xác định, phân tích và giải
quyết một vấn đề và lựa chọn một giải pháp thích hợp để giải quyết vấn đề đó. Giải quyết vấn
đề bao gồm một số giai đoạn:
1. nhận ra vấn đề
2. xác định vấn đề
3. cấu trúc vấn đề
4. phân tích vấn đề
5. giải thích kết quả và đưa ra quyết định
6. thực hiện giải pháp
Machine Translated by Google
28
Chương 1 Giới thiệu về Phân tích Kinh doanh
Nhận ra một vấn đề
Các nhà quản lý ở các cấp tổ chức khác nhau phải đối mặt với các loại vấn đề khác nhau. Ví dụ, trong
một công ty sản xuất, các nhà quản lý cấp cao phải đối mặt với các quyết định phân bổ nguồn tài chính,
xây dựng hoặc mở rộng cơ sở vật chất, xác định hỗn hợp sản phẩm và tìm nguồn cung ứng sản xuất một
cách chiến lược. Các nhà quản lý cấp trung trong các hoạt động xây dựng kế hoạch phân phối, kế hoạch
sản xuất và hàng tồn kho, và kế hoạch nhân sự. Các nhà quản lý tài chính phân tích rủi ro, xác định
chiến lược đầu tư và đưa ra quyết định về giá. Các nhà quản lý tiếp thị phát triển các kế hoạch quảng
cáo và đưa ra các quyết định phân bổ lực lượng bán hàng. Trong các hoạt động sản xuất, các vấn đề liên
quan đến quy mô hoạt động sản xuất hàng ngày, lịch trình của từng máy và phân công công nhân.
Dù vấn đề là gì, bước đầu tiên là nhận ra rằng nó tồn tại.
Các vấn đề được nhận ra như thế nào? Các vấn đề tồn tại khi có khoảng cách giữa những gì đang xảy
ra và những gì chúng ta nghĩ nên xảy ra. Ví dụ: người quản lý sản phẩm tiêu dùng có thể cảm thấy rằng
chi phí phân phối quá cao. Sự công nhận này có thể là kết quả của việc so sánh hiệu suất với đối thủ
cạnh tranh, quan sát xu hướng ngày càng tăng so với những năm trước.
Xác định vấn đề
Bước thứ hai trong quá trình giải quyết vấn đề là xác định rõ vấn đề. Tìm ra vấn đề thực sự và phân
biệt nó với các triệu chứng quan sát được là một bước quan trọng.
Ví dụ: chi phí phân phối cao có thể xuất phát từ việc định tuyến xe tải không hiệu quả, vị trí kém của
các trung tâm phân phối hoặc các yếu tố bên ngoài như tăng chi phí nhiên liệu. Vấn đề có thể được
định nghĩa là cải thiện quy trình định tuyến, thiết kế lại toàn bộ hệ thống phân phối hoặc phòng ngừa
rủi ro mua nhiên liệu một cách tối ưu.
Xác định vấn đề không phải là một nhiệm vụ tầm thường. Sự phức tạp của một vấn đề tăng lên khi
những điều sau đây xảy ra:
Số lượng các khóa học tiềm năng của hành động là lớn.
Vấn đề thuộc về một nhóm hơn là một cá nhân.
Người giải quyết vấn đề có một số mục tiêu cạnh tranh.
Các nhóm hoặc cá nhân bên ngoài bị ảnh hưởng bởi vấn đề.
Người giải quyết vấn đề và chủ nhân thực sự của vấn đề—người trải nghiệm vấn đề và chịu
trách nhiệm giải quyết vấn đề—không giống nhau.
Giới hạn thời gian là quan trọng.
Những yếu tố này gây khó khăn cho việc phát triển các mục tiêu có ý nghĩa và đặc trưng cho phạm vi các quyết
định tiềm năng. Khi xác định vấn đề, điều quan trọng là phải thu hút sự tham gia của tất cả những người đưa
ra quyết định hoặc những người có thể bị ảnh hưởng bởi quyết định đó.
Cấu trúc vấn đề
Điều này thường liên quan đến việc nêu rõ các mục tiêu và mục tiêu, mô tả đặc điểm của các quyết định
khả thi và xác định bất kỳ ràng buộc hoặc hạn chế nào. Ví dụ: nếu vấn đề là thiết kế lại hệ thống phân
phối, các quyết định có thể liên quan đến địa điểm mới cho nhà máy sản xuất và nhà kho (ở đâu?), phân
bổ sản phẩm mới cho nhà máy (nhà máy nào?) kho cho khách hàng (bao nhiêu?).
Mục tiêu giảm chi phí có thể được đo bằng tổng chi phí giao sản phẩm.
Người quản lý có thể muốn đảm bảo rằng một mức dịch vụ khách hàng cụ thể—
chẳng hạn, có thể giao các đơn đặt hàng trong vòng 48 giờ—có được nhờ thiết kế lại.
Đây là một ví dụ về một hạn chế. Cấu trúc một vấn đề thường liên quan đến việc phát triển một mô hình
chính thức.
Machine Translated by Google
29
Chương 1 Giới thiệu về Phân tích Kinh doanh
Phân tích vấn đề
Đây là nơi phân tích đóng một vai trò quan trọng. Phân tích liên quan đến một số loại quy trình thử
nghiệm hoặc giải pháp, chẳng hạn như đánh giá các kịch bản khác nhau, phân tích rủi ro liên quan đến
các lựa chọn thay thế quyết định khác nhau, tìm giải pháp đáp ứng các mục tiêu nhất định hoặc xác
định giải pháp tối ưu. Các chuyên gia phân tích đã dành nhiều thập kỷ để phát triển và tinh chỉnh
nhiều phương pháp khác nhau để giải quyết các loại vấn đề khác nhau. Phần lớn nội dung của cuốn sách
này được dành để giúp bạn hiểu những kỹ thuật này và đạt được nền tảng cơ bản trong việc sử dụng chúng.
Giải thích kết quả và đưa ra quyết định
Diễn giải kết quả từ giai đoạn phân tích là rất quan trọng trong việc đưa ra quyết định tốt. Các mô
hình không thể nắm bắt mọi chi tiết của vấn đề thực tế và các nhà quản lý phải hiểu những hạn chế
của các mô hình và các giả định cơ bản của chúng và thường kết hợp phán đoán vào việc đưa ra quyết
định. Ví dụ: khi định vị một cơ sở, chúng tôi có thể sử dụng quy trình phân tích để tìm vị trí “trung
tâm”; tuy nhiên, nhiều cân nhắc khác phải được đưa vào quyết định, chẳng hạn như khả năng tiếp cận
đường cao tốc, nguồn cung lao động và chi phí cơ sở vật chất. Do đó, vị trí được chỉ định bởi một
giải pháp phân tích có thể không phải là vị trí chính xác mà công ty thực sự chọn.
Thực hiện giải pháp
Điều này đơn giản có nghĩa là làm cho nó hoạt động trong tổ chức hoặc dịch kết quả của một mô hình trở
lại thế giới thực. Điều này thường đòi hỏi phải cung cấp đầy đủ nguồn lực, động viên nhân viên, loại
bỏ khả năng chống lại sự thay đổi, sửa đổi chính sách của tổ chức và phát triển lòng tin. Các vấn đề
và giải pháp của chúng ảnh hưởng đến mọi người: khách hàng, nhà cung cấp và nhân viên. Tất cả phải là
một phần quan trọng của quá trình giải quyết vấn đề. Nhạy cảm với các vấn đề chính trị và tổ chức là
một kỹ năng quan trọng mà các nhà quản lý cũng như các chuyên gia phân tích phải có khi giải quyết
vấn đề.
Trong mỗi bước này, giao tiếp tốt là rất quan trọng. Các chuyên gia phân tích cần có khả năng
giao tiếp với người quản lý và khách hàng để hiểu bối cảnh kinh doanh của vấn đề và có thể giải thích
kết quả một cách rõ ràng và hiệu quả. Những kỹ năng như xây dựng biểu đồ trực quan và bảng tính dễ
hiểu là rất quan trọng đối với người dùng phân tích. Chúng tôi nhấn mạnh những kỹ năng này trong suốt
cuốn sách này.
Phân tích trong thực tế: Phát triển các công cụ phân tích hiệu quả
tại Hewlett-Packard31
Hewlett-Packard (HP) sử dụng phân tích rộng rãi.
có vẻ như là một vấn đề phân tích có thể thực sự bắt nguồn từ
Nhiều ứng dụng được sử dụng bởi các nhà quản lý có ít kiến thức về
các vấn đề về động cơ không phù hợp, quyền sở hữu và trách
phân tích. Những điều này đòi hỏi các công cụ phân tích phải dễ
nhiệm giải trình không rõ ràng, hoặc chiến lược kinh doanh.
hiểu. Dựa trên nhiều năm kinh nghiệm, các nhà phân tích của HP đã
biên soạn một số bài học quan trọng.
Trước khi tạo một công cụ quyết định phân tích, HP đặt ra ba câu hỏi:
2. Chúng ta có thể tận dụng một giải pháp hiện có không? Trước
“phát minh lại bánh xe”, các giải pháp hiện tại có thể
giải quyết vấn đề không? Chi phí và lợi ích là gì?
1. Phân tích có giải quyết được vấn đề không? công cụ sẽ en
3. Mô hình quyết định có thực sự cần thiết? có thể đơn giản
có thể một giải pháp tốt hơn? Có nên sử dụng các giải pháp phi
hướng dẫn quyết định được sử dụng thay vì một công cụ quyết
phân tích khác không? Có tổ chức hoặc các vấn đề khác phải
định chính thức?
được giải quyết? Thường thì cái gì
(còn tiếp)
31Dựa trên Thomas Olavson và Chris Fry, “Các công cụ hỗ trợ ra quyết định trên bảng tính: Bài học kinh nghiệm tại
Hewlett-Packard,” Interfaces, 38, 4, Tháng 7–Tháng 8 năm 2008: 300–310.
Machine Translated by Google
30
Chương 1 Giới thiệu về Phân tích Kinh doanh
Sau khi quyết định phát triển một công cụ phân tích được đưa ra,
họ sử dụng một số hướng dẫn để tăng cơ hội triển khai thành công:
Sử dụng nguyên mẫu–một phiên bản hoạt động nhanh của công cụ
được thiết kế để kiểm tra các tính năng của nó và thu thập
phản hồi;
Xây dựng cái nhìn sâu sắc, không phải hộp đen. Công cụ “hộp đen”
là công cụ tạo ra câu trả lời nhưng có thể không mang lại sự
tin cậy cho người dùng. Các công cụ tương tác tạo ra hiểu biết
sâu sắc để hỗ trợ quyết định cung cấp thông tin tốt hơn.
Loại bỏ sự phức tạp không cần thiết. Đơn giản hơn là tốt hơn.
Một công cụ tốt có thể được sử dụng mà không cần sự hỗ trợ của chuyên gia.
Hợp tác với người dùng cuối trong khám phá và thiết kế.
Những người ra quyết định, những người sẽ thực sự sử dụng công
cụ này nên tham gia vào quá trình phát triển của nó.
Phát triển một nhà vô địch phân tích. Một người nào đó (lý tưởng
nhất là người ra quyết định thực sự) am hiểu về giải pháp và gần
với giải pháp đó phải ủng hộ quy trình.
Điều khoản quan trọng
thuật toán
Hàm mục tiêu
Dữ liệu lớn
Nghiên cứu/Quản lý hoạt động
Phân tích kinh doanh (phân tích)
Khoa học (HOẶC/MS)
Kinh doanh thông minh (BI)
Giải pháp tối ưu
Dữ liệu phân loại (danh nghĩa)
Tối ưu hóa
Hạn chế
dữ liệu thông thường
số liệu liên tục
phân tích dự đoán
Khai thác dữ liệu
phân tích theo quy định
tập dữ liệu
co giãn giá
cơ sở dữ liệu
Giải quyết vấn đề
Mô hình quyết định
dữ liệu tỷ lệ
Hệ thống hỗ trợ ra quyết định (DSS)
độ tin cậy
phân tích mô tả
Rủi ro
mô hình tất định
Thuật toán tìm kiếm
Số liệu rời rạc
Mô phỏng và phân tích rủi ro
sơ đồ ảnh hưởng
Số liệu thống kê
Hệ thống thông tin (IS)
mô hình ngẫu nhiên
dữ liệu khoảng
thẻ đám mây
Đo lường
Tính không chắc chắn
Đo đạc
hiệu lực
Hệ mét
Hình dung
Người mẫu
Những gì nếu phân tích
Mô hình hóa và tối ưu hóa
Machine Translated by Google
31
Chương 1 Giới thiệu về Phân tích Kinh doanh
Vui vẻ với Analytics
Ông John Toczek, giám đốc phân tích tại Tập đoàn ARAMARK, duy trì một trang Web có tên là PuzzlOR (HOẶC là
“Nghiên cứu Hoạt động”) tại www.puzzlor.com.
Mỗi tháng anh ấy đăng một câu đố mới. Nhiều trong số này có thể được giải bằng các kỹ thuật trong cuốn sách
này; tuy nhiên, ngay cả khi bạn không thể phát triển một mô hình chính thức, các câu đố có thể là những thử
thách thú vị và mang tính cạnh tranh cho học sinh. Chúng tôi khuyến khích bạn khám phá những điều này, bên
cạnh các bài toán, bài tập và tình huống chính thức trong cuốn sách này. Một cái hay để bắt đầu là “SurvivOR”
từ tháng 6 năm 2010. Chúc các bạn vui vẻ!
vấn đề và bài tập
1. Thảo luận về cách bạn có thể sử dụng phân tích kinh doanh trong
8. Một cuộc khảo sát được trao cho các cá nhân tại một trung tâm
cuộc sống cá nhân của mình, chẳng hạn như quản lý hoạt động mua
mua sắm lớn ở một thành phố nhỏ của Florida vào tháng 7 đã hỏi
hàng tạp hóa, bảo dưỡng ô tô, lập ngân sách, thể thao, v.v. Hãy
những điều sau:
sáng tạo trong việc xác định các cơ hội!
2. Một siêu thị đã phải xếp hàng dài trong giờ cao điểm trong ngày.
Vấn đề trở nên tồi tệ hơn rõ rệt vào một số ngày nhất định
trong tuần và các khoảng thời gian cao điểm đôi khi khác nhau
tùy theo ngày trong tuần. Thường có đủ công nhân trong công việc
để mở tất cả các máy tính tiền. Vấn đề mà các siêu thị phải đối
mặt là biết khi nào nên gọi một số công nhân đang chất hàng lên
kệ phía trước để làm việc tại quầy thanh toán. Làm thế nào phân
giới tính
tuổi
dân tộc
thời gian cư trú
hài lòng chung với các dịch vụ của thành phố (sử dụng thang
điểm từ 1–5, đi từ kém đến xuất sắc)
chất lượng trường học (sử dụng thang điểm từ 1–5, đi từ
kém đến xuất sắc)
tích kinh doanh có thể giúp siêu thị? Những dữ liệu nào sẽ cần
Mỗi mục khảo sát sẽ đại diện cho loại dữ liệu nào (phân loại,
thiết để tạo điều kiện cho các quyết định tốt?
thứ tự, khoảng hoặc tỷ lệ) và tại sao?
9. Một ngân hàng đã phát triển một mô hình để dự đoán số dư tài
3. Đề xuất một số chỉ số mà khách sạn có thể muốn thu thập về khách
khoản tiết kiệm và séc ở độ tuổi trung bình dưới dạng số dư
của họ. Làm thế nào những số liệu này có thể được sử dụng với
-17.732 + 367 * tuổi + 1.300 * số năm học vấn + 0,116 * tài sản
phân tích kinh doanh để hỗ trợ các quyết định tại khách sạn?
hộ gia đình.
Một. Giải thích làm thế nào để giải thích các con số trong này
4. Đề xuất một số chỉ số mà người quản lý của một nhà hàng thức ăn
nhanh, chẳng hạn như McDonald's hoặc Chipotle, có thể muốn thu
người mẫu.
b. Giả sử rằng một khách hàng 32 tuổi, tốt nghiệp đại học (do
thập. Mô tả cách người quản lý có thể sử dụng dữ liệu để tạo
đó học 16 năm) và có tài sản hộ gia đình là 150.000 đô la.
điều kiện cho các quyết định tốt hơn.
Số dư ngân hàng dự đoán là gì?
5. Phân loại từng thành phần dữ liệu trong cơ sở dữ liệu Giao dịch
bán hàng (Hình 1.1) thành dữ liệu phân loại, thứ tự, khoảng
hoặc tỷ lệ và giải thích lý do.
6. Xác định từng biến trong tệp Excel Quyết định phê duyệt tín dụng
dưới dạng phân loại, thứ tự, khoảng hoặc tỷ lệ và giải thích lý
10. Bốn biến quyết định tiếp thị chính là giá (P), quảng cáo (A),
vận chuyển (T) và chất lượng sản phẩm (Q). Nhu cầu của người
tiêu dùng (D) bị ảnh hưởng bởi các biến này. Mô hình đơn giản
nhất để mô tả nhu cầu theo các biến này là
do tại sao.
7. Phân loại từng biến trong tệp Excel Weddings thành phân loại,
thứ tự, khoảng hoặc tỷ lệ và giải thích lý do tại sao.
D k - pP + aA + tT + qQ
Machine Translated by Google
32
Chương 1 Giới thiệu về Phân tích Kinh doanh
trong đó k, p, a, t và q là các hằng số dương.
Một. Làm thế nào để một sự thay đổi trong mỗi biến ảnh hưởng đến nhu cầu?
b. Làm thế nào để các biến ảnh hưởng lẫn nhau?
14. Ô tô có mức tiết kiệm nhiên liệu (mpg) khác nhau và những người đi
làm phải lái những quãng đường khác nhau để đến cơ quan hoặc trường học.
Giả sử rằng Bộ Giao thông Vận tải (DOT) của tiểu bang quan
tâm đến việc đo lường mức tiêu thụ nhiên liệu trung bình
c. Mô hình này có thể có những hạn chế nào? Bạn có thể
hàng tháng của hành khách trong một thành phố nhất định.
nghĩ làm thế nào mô hình này có thể được thực hiện
DOT có thể lấy mẫu một nhóm hành khách và thu thập thông
thực tế hơn?
tin về số dặm lái xe mỗi ngày, số ngày lái xe mỗi tháng và
11. Giả sử rằng một nhà sản xuất có thể sản xuất một bộ phận
mức tiết kiệm nhiên liệu của ô tô của họ. Xây dựng một mô
với giá 10 đô la với chi phí cố định là 5.000 đô la. Nhà
hình dự đoán để tính toán lượng xăng tiêu thụ, sử dụng các
sản xuất có thể ký hợp đồng với một nhà cung cấp ở Châu Á
ký hiệu sau cho dữ liệu.
để mua bộ phận này với chi phí là $12,00, bao gồm cả vận chuyển.
Một. Nếu khối lượng sản xuất dự kiến là 1.200 đơn vị, hãy
tính tổng chi phí sản xuất và tổng chi phí thuê ngoài.
Quyết định tốt nhất là gì?
G gallon nhiên liệu tiêu thụ mỗi tháng
m dặm lái xe mỗi ngày đến và đi từ nơi làm việc hoặc trường học
d số ngày lái xe mỗi tháng
f tiết kiệm nhiên liệu tính bằng dặm trên gallon
b. Tìm khối lượng hòa vốn và mô tả phạm vi khối lượng mà
việc sản xuất hoặc thuê bên ngoài sẽ kinh tế hơn.
Giả sử rằng một người đi làm lái xe khứ hồi 30 dặm để đi
làm 20 ngày mỗi tháng và đạt được mức tiết kiệm nhiên liệu
là 34 mpg. Có bao nhiêu gallon xăng được sử dụng?
12. Lợi tức đầu tư (ROI) được tính theo cách sau: ROI bằng
doanh thu nhân với thu nhập dưới dạng phần trăm doanh thu.
15. Một nhà sản xuất máy nghe nhạc mp3 đang chuẩn bị định giá
Doanh thu là doanh thu chia cho tổng vốn đầu tư. Tổng đầu
cho một mẫu mã mới. Nhu cầu được cho là phụ thuộc vào giá
tư là tài sản lưu động (hàng tồn kho, khoản phải thu và
cả và được đại diện bởi mô hình
tiền mặt) cộng với tài sản cố định. Thu nhập bằng doanh số
D 2.500 - 3P
trừ đi chi phí bán hàng. Chi phí bán hàng bao gồm chi phí
sản xuất biến đổi, chi phí bán hàng, chi phí vận chuyển
Bộ phận kế toán ước tính rằng tổng chi phí có thể được đại
và giao hàng, và chi phí hành chính.
diện bởi
Một. Xây dựng một biểu đồ ảnh hưởng liên quan đến các biến
này.
C5.000 + 5D
Phát triển một mô hình cho tổng lợi nhuận theo giá, P.
b. Xác định các ký hiệu và phát triển một mô hình toán học.
13. Tổng nỗ lực tiếp thị là thuật ngữ dùng để mô tả các yếu tố
quyết định quan trọng ảnh hưởng đến nhu cầu: giá cả, quảng
16. Nhu cầu đi máy bay khá nhạy cảm với giá cả.
Thông thường, có một mối quan hệ nghịch đảo giữa nhu cầu
cáo, phân phối và chất lượng sản phẩm. Đặt biến x đại diện
và giá cả; khi giá giảm thì cầu tăng và ngược lại. Một
cho tổng nỗ lực tiếp thị. Một mô hình điển hình được sử
hãng hàng không lớn đã phát hiện ra rằng khi giá (P) cho
dụng để dự đoán nhu cầu như là một chức năng của nỗ lực
chuyến khứ hồi giữa Chicago và Los Angeles là 600 đô la,
tiếp thị tổng thể là
nhu cầu (D) là 500 hành khách mỗi ngày. Khi giá giảm xuống
Rìu D
b
Giả sử rằng a là một số dương. Các dạng mô hình khác nhau
là kết quả của việc thay đổi hằng số b. Phác thảo các đồ
thị của mô hình này cho b 1, 0 6 b0,6 b1, b 6 0, và b 7 1.
Mỗi mô hình cho bạn biết điều gì về mối quan hệ giữa nhu
cầu và nỗ lực tiếp thị? Những giả định nào được ngụ ý? Họ
có hợp lý không? Làm thế nào bạn sẽ đi về việc lựa chọn
các mô hình thích hợp?
còn 400 đô la, nhu cầu là 1.200 hành khách mỗi ngày.
Một. Vẽ các điểm này trên một hệ tọa độ và phát triển một
mô hình tuyến tính liên quan đến nhu cầu với giá cả.
b. Phát triển một mô hình quy định sẽ xác định mức giá sẽ
tính để tối đa hóa tổng doanh thu.
c. Bằng cách thử và sai, bạn có thể tìm ra giải pháp tối
ưu để tối đa hóa tổng doanh thu không?
Machine Translated by Google
Chương 1 Giới thiệu về Phân tích Kinh doanh
33
Trường hợp: Dự án Nghiên cứu Quảng cáo Drout32
Jamie Drout quan tâm đến nhận thức về các loại khuôn mẫu giới tính
50.000 đô la đến 6 đô la 60.000 đô la
trong quảng cáo sản phẩm làm đẹp, bao gồm xà phòng, chất khử mùi,
60.000 đô la đến 6 đô la 70.000 đô la
dầu gội đầu, dầu xả, kem dưỡng da, nước hoa, nước hoa, đồ trang
70.000 đô la đến 6 đô la 80.000 đô la
điểm, thuốc nhuộm tóc hóa học, dao cạo râu, chăm sóc da, chăm sóc
80.000 đô la đến 6 đô la 90.000 đô la
phụ nữ và các dịch vụ thẩm mỹ viện; cũng như những lợi ích nhận thức
90.000 đô la đến 6 đô la 110.000 đô la
được của quảng cáo trao quyền. Định kiến giới đặc biệt sử dụng nhận
110.000 đô la đến 6 đô la 130.000 đô la
thức văn hóa về những gì tạo nên một người đàn ông hoặc phụ nữ hấp
130.000 đô la đến 6 đô la 150.000 đô la
dẫn, chấp nhận được và đáng mơ ước, thường xuyên khai thác các vai
150.000 USD trở lên
trò giới cụ thể và thường được sử dụng trong các quảng cáo cho các
sản phẩm làm đẹp. Phụ nữ được thể hiện là nữ tính một cách tinh tế,
xinh đẹp nổi bật và hoàn hảo về thể chất, chiếm một lượng nhỏ không
gian vật lý và thường khai thác khả năng tình dục của họ; những
người đàn ông mạnh mẽ và nam tính với cơ thể rắn chắc, chiếm một
lượng lớn không gian vật lý để duy trì sự nam tính và quyền lực của
họ. Ngược lại, chiến lược quảng cáo trao quyền có nghĩa là phủ nhận
các định kiến về giới và truyền đạt một cách trực quan sự khác biệt
duy nhất ở mỗi cá nhân. Trong quảng cáo trao quyền, đàn ông và phụ
5. Trung bình, bạn trả bao nhiêu tiền cho các sản phẩm hoặc dịch
vụ làm đẹp và vệ sinh mỗi năm? Bao gồm các tham chiếu đến
các sản phẩm sau: xà phòng, chất khử mùi, dầu gội đầu, dầu xả,
kem dưỡng da, nước hoa, nước hoa, đồ trang điểm, thuốc nhuộm
tóc hóa học, dao cạo râu, chăm sóc da, chăm sóc phụ nữ chín
tuổi và dịch vụ thẩm mỹ viện.
6. Trung bình, có bao nhiêu quảng cáo làm đẹp và vệ sinh, nếu
có, bạn nghĩ bạn xem hoặc nghe mỗi ngày? Bao gồm các tham
nữ phải đại diện cho sự đa dạng về vẻ đẹp, kiểu cơ thể và mức độ cảm
chiếu đến các quảng cáo sau: truyền hình, biển quảng cáo,
nhận về nữ tính và nam tính. Dự án của cô ấy tập trung vào việc tìm
Internet, đài phát thanh, báo chí, tạp chí và thư trực tiếp.
hiểu nhận thức của người tiêu dùng về các chiến lược quảng cáo này.
7. Trung bình, có bao nhiêu trong số những quảng cáo đó, nếu có,
Jamie đã tiến hành một cuộc khảo sát bằng bảng câu hỏi sau:
1. Giới tính của bạn là gì?
Nam giới
Nữ giới
2. Bạn bao nhiêu tuổi?
3. Trình độ học vấn cao nhất mà bạn đã hoàn thành là gì?
đặc biệt ủng hộ vai trò và định kiến giới?
8. Ở thang đo sau, những quảng cáo này có vai trò gì, nếu có,
trong việc củng cố định kiến giới cụ thể?
Quyết liệt
có ảnh hưởng
Giới hạn
Không đáng kể
Một Số Lớp Trung Học
Bằng tốt nghiệp trung học phổ thông
Không có
9. Ở mức độ nào bạn đồng ý rằng quảng cáo trao quyền, truyền
Một số khóa học đại học
đạt rõ ràng sự khác biệt duy nhất ở mỗi cá nhân, sẽ giúp thay
Bằng liên kết
đổi định kiến giới trong văn hóa?
Bằng cử nhân
Bằng thạc sĩ
Hoàn toàn đồng ý
JD
Đồng ý
MD
Đồng ý ở một mức nào đó
bằng tiến sĩ
Trung lập
4. Thu nhập hàng năm của bạn là bao nhiêu?
$0 đến $6 $10,000
10.000 đô la đến 6 đô la 20.000 đô la
20.000 đô la đến 6 đô la 30.000 đô la
30.000 đô la đến 6 đô la 40.000 đô la
Co gi đo không hai long
Không đồng ý
Mạnh mẽ phủ quyết
10. Trung bình, bao nhiêu phần trăm quảng cáo mà bạn xem hoặc nghe
mỗi ngày hiện đang sử dụng quảng cáo trao quyền?
40.000 đô la đến 6 đô la 50.000 đô la
32Tôi đánh giá cao Jamie Drout vì đã cung cấp tài liệu gốc này từ dự án lớp của cô ấy để làm cơ sở cho trường hợp này.
Machine Translated by Google
34
Chương 1 Giới thiệu về Phân tích Kinh doanh
Nhiệm vụ: Jamie đã nhận được 105 phản hồi, được đưa ra trong
tệp Excel Khảo sát quảng cáo Drout. Xem lại bảng câu hỏi và phân
Một khía cạnh quan trọng của phân tích kinh doanh là giao
tiếp tốt. Viết câu trả lời của bạn cho trường hợp này một cách chính
loại dữ liệu được thu thập từ mỗi câu hỏi dưới dạng phân loại, thứ
thức trong một báo cáo được viết tốt như thể bạn là một nhà tư vấn cho Ms.
tự, khoảng hoặc tỷ lệ.
Drout. Trường hợp này sẽ tiếp tục trong Chương 3, 4, 6 và 7, và bạn
Tiếp theo, hãy giải thích cách dữ liệu và phân tích tiếp theo sử
sẽ được yêu cầu sử dụng nhiều công cụ phân tích mô tả để phân tích
dụng phân tích kinh doanh có thể giúp hiểu rõ hơn về quảng cáo rập
dữ liệu và diễn giải kết quả. Khi bạn làm điều này, hãy thêm thông
khuôn so với quảng cáo trao quyền. Cụ thể, nêu một số hiểu biết chính
tin chi tiết của bạn vào báo cáo, hoàn thành báo cáo dự án hoàn chỉnh
mà bạn hy vọng sẽ trả lời được bằng cách phân tích dữ liệu.
phân tích đầy đủ dữ liệu và đưa ra kết luận phù hợp.
Trường hợp: Hiệu suất Lawn Thiết bị
Trong mỗi chương của cuốn sách này, chúng tôi sử dụng cơ sở dữ liệu
Cả người dùng cuối và đại lý đều đã được coi là những khách hàng
cho một công ty hư cấu, Performance Lawn Equipment (PLE), trong một
quan trọng đối với PLE. Việc thu thập và phân tích dữ liệu của người
bài tập tình huống để áp dụng các công cụ và kỹ thuật được giới
dùng cuối cho thấy sự hài lòng với sản phẩm phụ thuộc vào chất lượng
thiệu trong chương.33 Để đưa cơ sở dữ liệu vào quan điểm, trước tiên
cao, dễ gắn/tháo dỡ dụng cụ, chi phí bảo trì thấp, giá cả phải
chúng tôi cung cấp một số thông tin cơ bản về công ty để việc áp dụng
chăng và dịch vụ. Đối với các đại lý, các yêu cầu chính là chất lượng
các công cụ phân tích kinh doanh sẽ có ý nghĩa hơn.
cao, các bộ phận và tính năng sẵn có, bổ sung hàng nhanh chóng, giảm
giá và hỗ trợ kịp thời.
PLE, có trụ sở chính tại St. Louis, Missouri, là một nhà thiết
kế và sản xuất máy cắt cỏ truyền thống thuộc sở hữu tư nhân được các
chủ nhà sử dụng. Trong 10 năm qua, PLE đã bổ sung thêm một sản phẩm
PLE có một số nhà cung cấp chính: Mitsitsiu, Inc., nguồn duy
nhất của tất cả các động cơ diesel; LANTO Axles, Inc., cung cấp trục
chủ chốt khác, máy kéo cắt cỏ chạy bằng động cơ diesel cỡ trung với
máy kéo; Schorst Fabrication, nơi cung cấp các cụm lắp ráp phụ;
bộ ngắt điện phía trước và phía sau, móc ba điểm Loại I, hệ dẫn động
Cuberillo, Inc, nhà cung cấp đường truyền; và Specialty Machining,
bốn bánh, hệ thống lái trợ lực và hệ thống thủy lực hoàn toàn. Thiết
Inc., nhà cung cấp các bộ phận máy móc chính xác.
bị này được chế tạo chủ yếu cho thị trường ngách bao gồm các khu đất
lớn, bao gồm câu lạc bộ gôn và đồng quê, khu nghỉ dưỡng, khu đất tư
nhân, công viên thành phố, khu phức hợp thương mại lớn, nhà cung cấp
Để giúp quản lý công ty, các nhà quản lý của PLE đã phát triển
một “thẻ điểm cân bằng” gồm các thước đo. Những dữ liệu này, được
dịch vụ chăm sóc cỏ, chủ nhà tư nhân có diện tích từ năm mẫu Anh trở
tóm tắt ngắn gọn, được lưu trữ dưới dạng sổ làm việc Microsoft Excel
lên và cơ quan chính phủ ( liên bang, tiểu bang và địa phương),
(Thiết bị cắt cỏ hiệu suất) đi kèm với cuốn sách này. Cơ sở dữ liệu
công viên, khu phức hợp xây dựng và căn cứ quân sự. PLE cung cấp hầu
chứa các biện pháp khác nhau được thu thập hàng tháng hoặc hàng quý
hết các sản phẩm cho các đại lý, từ đó bán trực tiếp cho người dùng
và được các nhà quản lý khác nhau sử dụng để đánh giá hiệu quả kinh
cuối. PLE sử dụng 1.660 người trên toàn thế giới. Khoảng một nửa lực
doanh. Dữ liệu cho từng biện pháp chính được lưu trữ trong một trang
lượng lao động có trụ sở tại St. Louis; phần còn lại được chia cho
tính riêng. Một bản tóm tắt của các bảng này được đưa ra tiếp theo:
các nhà máy sản xuất của họ.
Tại Hoa Kỳ, trọng tâm bán hàng là ở bờ biển phía đông,
California, Đông Nam và các bang miền trung nam, nơi tập trung nhiều
khách hàng nhất. Bên ngoài Hoa Kỳ, doanh số bán hàng của PLE bao gồm
thị trường châu Âu, thị trường Nam Mỹ đang phát triển và các thị
trường đang phát triển ở Vành đai Thái Bình Dương và Trung Quốc. Thị
trường có tính chu kỳ, nhưng các sản phẩm và khu vực khác nhau cân
• Mức độ hài lòng của Đại lý, được đo theo thang điểm từ 1–5
(1 kém, 2 kém trung bình, 3 trung bình, 4 trên trung bình
và 5 xuất sắc). Mỗi năm, các đại lý ở mỗi khu vực được
khảo sát về mức độ hài lòng chung của họ với PLE. Bảng công
việc chứa dữ liệu tóm tắt từ các cuộc điều tra trong 5
năm qua.
bằng một số yếu tố này, với chỉ dưới 30% tổng doanh số bán hàng vào
mùa xuân và mùa hè (ở Hoa Kỳ), khoảng 25% vào mùa thu và khoảng 20%
vào mùa thu. mùa đông. Doanh thu hàng năm xấp xỉ 180 triệu USD.
• Mức độ hài lòng của người dùng cuối, được đo lường trên cùng
thang đo với đại lý. Mỗi năm, 100 người dùng từ mỗi khu
vực được khảo sát. Bảng tính chứa dữ liệu tóm tắt trong 5
năm qua.
33Tình huống tình huống dựa trên Nghiên cứu điển hình về Công ty Gateway Estate Lawn Equipment, được sử dụng cho khóa đào tạo Giám khảo Giải thưởng
Chất lượng Quốc gia Malcolm Baldrige năm 1997. Tài liệu này thuộc phạm vi công cộng. Cơ sở dữ liệu, tuy nhiên, được phát triển bởi tác giả.
Machine Translated by Google
35
Chương 1 Giới thiệu về Phân tích Kinh doanh
• Khảo sát khách hàng năm 2014, kết quả từ cuộc khảo sát xếp
hạng của khách hàng về các thuộc tính cụ thể của máy kéo
PLE: chất lượng, dễ sử dụng, giá cả và dịch vụ trên cùng
thang điểm từ 1–5. Bảng này chứa 200 quan sát về xếp
Ngoài các biện pháp kinh doanh này, cơ sở dữ liệu PLE chứa
các bảng tính với dữ liệu từ các nghiên cứu đặc biệt:
• Động cơ, liệt kê 50 mẫu thời gian cần thiết để sản xuất
lưỡi máy cắt cỏ bằng công nghệ mới.
hạng của khách hàng.
• Đơn khiếu nại, hiển thị số lượng đơn khiếu nại được đăng
ký bởi tất cả khách hàng mỗi tháng ở mỗi khu vực trong
số năm khu vực của PLE (Bắc Mỹ, Nam Mỹ, Châu Âu, Thái
Bình Dương và Trung Quốc).
• Bán đơn vị máy cắt và Bán đơn vị máy kéo, cung cấp doanh
số bán hàng theo sản phẩm theo khu vực hàng tháng. Đơn
• Chi phí Truyền tải, cung cấp kết quả của 30 mẫu cho mỗi
quy trình hiện tại được sử dụng để sản xuất hộp số máy
kéo và hai quy trình mới được đề xuất. • Trọng lượng
lưỡi cắt, cung
cấp các mẫu trọng lượng lưỡi máy cắt để đánh giá tính nhất
quán của quy trình sản xuất.
vị bán hàng cho từng khu vực được tổng hợp để có được
số liệu bán hàng thế giới.
• Tổng doanh số máy cắt công nghiệp và Tổng doanh số máy kéo
công nghiệp, liệt kê số lượng đơn vị được bán bởi tất
cả các nhà sản xuất theo khu vực.
• Chi phí Sản xuất Đơn vị, cung cấp các ước tính kế toán
hàng tháng về chi phí biến đổi trên mỗi đơn vị sản xuất
máy kéo và máy cắt cỏ trong 5 năm qua.
• Kiểm tra máy cắt, liệt kê các kết quả kiểm tra hiệu suất
chức năng của máy cắt sau khi lắp ráp cho 30 mẫu, mỗi
mẫu 100 chiếc.
• Giữ chân nhân viên, dữ liệu từ một nghiên cứu về họ
thời gian làm việc (thời gian thuê) với PLE. 40 đối
tượng được xác định bằng cách xem xét những người được
tuyển dụng từ 10 năm trước và xác định những người có
liên quan đến các vị trí quản lý (được thuê vào vị trí
• Chi phí hoạt động và lãi vay, cung cấp chi phí hành chính,
khấu hao và lãi suất hàng tháng ở cấp độ công ty.
quản lý hoặc được thăng chức thành quản lý) vào một
thời điểm nào đó trong khoảng thời gian 10 năm này.
• Chi phí vận chuyển, cung cấp chi phí vận chuyển đơn vị cho
• Giao hàng Đúng hạn, cung cấp số lượng giao hàng được thực
hiện mỗi tháng từ mỗi nhà cung cấp chính của PLE, số
lượng giao hàng đúng hạn và phần trăm giao hàng đúng hạn.
máy cắt cỏ và máy kéo từ các nhà máy hiện có và được
đề xuất cho một nghiên cứu thiết kế chuỗi cung ứng.
• Chi phí cố định, liệt kê chi phí cố định để mở rộng các
nhà máy hiện có hoặc xây dựng cơ sở mới, cũng là một phần
• Lỗi sau khi giao hàng, cho thấy số lượng lỗi trong vật
liệu do nhà cung cấp cung cấp được tìm thấy trong tất
cả các lô hàng nhận được từ nhà cung cấp.
• Thời gian thanh toán cho nhà cung cấp, cung cấp các phép
của nghiên cứu thiết kế chuỗi cung ứng.
• Khảo sát mua hàng, cung cấp dữ liệu thu được từ cuộc khảo
sát của bên thứ ba đối với các nhà quản lý mua hàng của
khách hàng của Performance Lawn Care.
đo tính bằng ngày kể từ khi nhận được hóa đơn cho đến
khi thanh toán được gửi đi.
• Thời gian phản hồi, đưa ra các ví dụ về thời gian nhân
viên dịch vụ khách hàng của PLE thực hiện để phản hồi
các cuộc gọi dịch vụ theo quý trong 2 năm qua.
Elizabeth Burke gần đây đã tham gia nhóm quản lý PLE để giám
sát các hoạt động sản xuất. Cô ấy đã xem lại các loại dữ liệu mà
công ty thu thập và đã giao cho bạn trách nhiệm trở thành nhà phân
tích chính của cô ấy trong những tuần tới. Để chuẩn bị cho nhiệm
vụ này, bạn đã quyết định xem xét từng trang tính và xác định xem
• Sự hài lòng của nhân viên, cung cấp dữ liệu cho các cuộc
khảo sát nội bộ của nhân viên trong 4 năm qua để xác
định mức độ hài lòng chung của họ đối với công việc, sử
dụng cùng một thang đo được sử dụng cho khách hàng.
Nhân viên được khảo sát hàng quý và kết quả được phân
tầng theo danh mục nhân viên: thiết kế và sản xuất, quản
lý và hỗ trợ bán hàng/hành chính.
dữ liệu được thu thập từ nguồn nội bộ, nguồn bên ngoài hay được
tạo ra từ các nghiên cứu đặc biệt. Ngoài ra, bạn cần biết liệu các
biện pháp là phân loại, hay dinal, khoảng hoặc tỷ lệ. Chuẩn bị một
báo cáo tóm tắt các đặc điểm của các số liệu được sử dụng trong
mỗi trang tính.
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Phân tích trên
bảng tính
CHƯƠNG
S. Dashkevych/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Tìm các nút và menu trong dải băng Excel 2013.
Sử dụng các tính năng của Excel như chia đôi màn hình, dán đặc biệt,
Viết các công thức chính xác trong một trang tính Excel.
hiển thị công thức cũng như hiển thị đường lưới và tiêu đề trong ứng
Áp dụng địa chỉ tương đối và tuyệt đối trong công thức
dụng của bạn.
Excel.
Sử dụng các hàm Excel cơ bản và nâng cao.
Sao chép công thức từ ô này sang ô khác hoặc sang một
Sử dụng các hàm Excel cho các truy vấn kinh doanh thông minh
dải ô.
trong cơ sở dữ liệu.
37
Machine Translated by Google
38
Chương 2 Phân tích trên bảng tính
Nhiều gói phần mềm thương mại có sẵn để tạo thuận lợi cho việc áp dụng phân tích
kinh doanh. Mặc dù chúng thường có các tính năng và khả năng độc đáo, nhưng chúng
có thể đắt tiền, thường yêu cầu đào tạo nâng cao để hiểu và áp dụng cũng như chỉ có
thể hoạt động trên các nền tảng máy tính cụ thể.
Mặt khác, phần mềm bảng tính được sử dụng rộng rãi trong tất cả các lĩnh vực kinh
doanh và là tiêu chuẩn trên hầu hết mọi máy tính của nhân viên. Bảng tính là một
nền tảng hiệu quả để thao tác dữ liệu, phát triển và giải quyết các mô hình; chúng
hỗ trợ các phần bổ trợ thương mại mạnh mẽ và tạo điều kiện thuận lợi cho việc
truyền đạt kết quả. Bảng tính cung cấp một môi trường lập mô hình linh hoạt và đặc
biệt hữu ích khi người dùng cuối không phải là người thiết kế mô hình. Các nhóm có
thể dễ dàng sử dụng bảng tính và hiểu logic mà chúng được xây dựng. Thông tin trong
bảng tính có thể dễ dàng được sao chép từ Excel sang các tài liệu và bản trình bày
khác. Một cuộc khảo sát gần đây đã xác định hơn 180 sản phẩm bảng tính thương mại
hỗ trợ các nỗ lực phân tích, bao gồm quản lý và báo cáo dữ liệu, kỹ thuật phân tích
dựa trên dữ liệu và mô hình cũng như triển khai.1 Nhiều tổ chức đã sử dụng bảng
tính cực kỳ hiệu quả để hỗ trợ việc ra quyết định trong tiếp thị, tài chính, và
hoạt động. Một số ứng dụng minh họa bao gồm:2
Phân tích chuỗi cung ứng (Hewlett-Packard)
Xác định mức tồn kho tối ưu để đáp ứng mục tiêu dịch vụ khách hàng
(Procter & Đánh bạc)
Lựa chọn các dự án nội bộ (Công ty Lockheed Martin Space Systems)
Lập kế hoạch cho các phòng khám khẩn cấp để đối phó với dịch bệnh hoặc cuộc tấn
công khủng bố sinh học bất ngờ (Trung tâm kiểm soát dịch bệnh)
Phân tích rủi ro vỡ nợ của danh mục cho vay bất động sản
(Hypo quốc tế)
Chỉ định các bác sĩ nội trú luân phiên trực và khẩn cấp
(Đại học Y khoa Vermont)
Đo lường và đánh giá hiệu suất (Hội chữ thập đỏ Hoa Kỳ)
Mục đích của chương này là cung cấp một đánh giá về các tính năng cơ bản của
Microsoft Excel mà bạn cần biết để sử dụng bảng tính để phân tích và
1Thomas A. Grossman, “Tài nguyên dành cho nhà phân tích bảng tính,” Analytics (tháng 5/tháng 6 năm 2010): 8. tạp
chí phân tích.com
2Larry J. LeBlanc và Thomas A. Grossman, “Giới thiệu: Sử dụng Phần mềm Bảng tính trong Ứng dụng Khoa học Quản lý
và Nghiên cứu Hoạt động,” Giao diện, 38, 4 (Tháng 7–Tháng 8 năm 2008): 225–227.
Machine Translated by Google
Chương 2 Phân tích trên bảng tính
39
giải quyết vấn đề với các kỹ thuật phân tích kinh doanh. Trong văn bản này, chúng tôi sử
dụng Microsoft Excel 2013 dành cho Windows để thực hiện các tính toán bảng tính và phân
tích. Các tệp Excel cho tất cả các ví dụ văn bản và dữ liệu được sử dụng trong các vấn đề và
bài tập được cung cấp cùng với cuốn sách này (xem Lời nói đầu). Đánh giá này không nhằm mục
đích trở thành một hướng dẫn hoàn chỉnh; bạn có thể tìm thấy nhiều hướng dẫn tốt về Excel
trực tuyến và chúng tôi cũng khuyến khích bạn sử dụng khả năng trợ giúp của Excel (bằng cách
nhấp vào nút dấu chấm hỏi ở trên cùng bên phải của màn hình). Ngoài ra, đối với bất kỳ độc
giả nào có thể là người dùng Mac, chúng tôi lưu ý bạn rằng các phiên bản Excel dành cho Mac
không có đầy đủ chức năng như các phiên bản Windows có, đặc biệt là các tính năng thống kê,
mặc dù hầu hết các khả năng cơ bản đều giống nhau. Đặc biệt, phần bổ trợ Excel mà chúng tôi
sử dụng trong các chương sau, Nền tảng bộ giải phân tích, chỉ chạy trên Windows. Vì vậy, nếu
bạn sử dụng máy Mac, bạn nên chạy Bootcamp với Windows hoặc sử dụng sản phẩm phần mềm của
bên thứ ba như Parallels hoặc VMWare.
Kỹ năng Excel cơ bản
Để có thể áp dụng các quy trình và kỹ thuật mà bạn sẽ học trong cuốn sách này, bạn cần phải
sử dụng Excel tương đối thành thạo. Chúng tôi cho rằng bạn đã quen thuộc với các khái niệm
và quy trình bảng tính cơ bản nhất, chẳng hạn như
mở, lưu và in tệp;
sử dụng sổ làm việc và bảng tính;
di chuyển xung quanh một bảng tính;
chọn ô và phạm vi;
chèn/xóa hàng, cột;
nhập và chỉnh sửa văn bản, dữ liệu số và công thức trong ô;
định dạng dữ liệu (số, tiền tệ, chữ số thập phân, v.v.);
làm việc với chuỗi văn bản;
định dạng dữ liệu và văn bản; Và
sửa đổi giao diện của bảng tính bằng cách sử dụng đường viền, bóng, v.v.
Các menu và lệnh trong Excel 2013 nằm trong “dải băng” được minh họa trong Hình 2.1.
Các menu và lệnh được sắp xếp theo nhóm hợp lý trong các tab khác nhau (Tệp, Trang chủ,
Chèn, v.v.); các hình tam giác nhỏ hướng xuống dưới cho biết menu của các lựa chọn bổ sung.
Chúng tôi thường đề cập đến các lệnh hoặc tùy chọn nhất định và nơi chúng có thể được tìm
thấy trong dải băng.
Hình 2.1
Dải băng Excel 2013
Machine Translated by Google
40
Chương 2 Phân tích trên bảng tính
Công thức Excel
Các công thức trong Excel sử dụng các toán tử phổ biến:
cộng (+) trừ
(-) nhân (*)
phân công (/)
Luỹ thừa sử dụng ký hiệu ^; ví dụ, 2
5
được viết là 2^5 trong một công thức Excel.
Tham chiếu ô trong công thức có thể được viết bằng địa chỉ tương đối hoặc địa chỉ tuyệt
đối. Địa chỉ tương đối chỉ sử dụng nhãn hàng và cột trong tham chiếu ô (ví dụ: A4 hoặc C21);
một địa chỉ tuyệt đối sử dụng ký hiệu đô la ($ sign) trước nhãn hàng hoặc nhãn cột hoặc cả
hai (ví dụ: $A2, C$21 hoặc $B$15). Cái nào chúng tôi chọn sẽ tạo ra sự khác biệt quan trọng
nếu bạn sao chép công thức ô. Nếu chỉ sử dụng địa chỉ tương đối, thì việc sao chép công thức
sang ô khác sẽ thay đổi tham chiếu ô theo số hàng hoặc cột theo hướng mà công thức được sao
chép. Vì vậy, chẳng hạn, nếu chúng ta sử dụng một công thức trong ô B8, B4-B5*A8 và sao chép
nó vào ô C9 (một cột ở bên phải và một hàng ở dưới), tất cả các tham chiếu ô được tăng lên
một và công thức sẽ được đổi thành C5-C6*B9.
Sử dụng ký hiệu $ trước nhãn hàng (ví dụ: B$4) giữ tham chiếu cố định ở hàng 4 nhưng
cho phép tham chiếu cột thay đổi nếu công thức được sao chép sang một ô khác.
Tương tự, sử dụng ký hiệu $ trước nhãn cột (ví dụ: $B4) sẽ giữ cố định tham chiếu đến cột B
nhưng cho phép tham chiếu hàng thay đổi. Cuối cùng, việc sử dụng ký hiệu $ trước cả nhãn
hàng và nhãn cột (ví dụ: $B$4) sẽ giữ cố định tham chiếu đến ô B4 bất kể công thức được sao
chép ở đâu. Bạn nên rất cẩn thận khi sử dụng địa chỉ tương đối và tuyệt đối một cách thích
hợp trong các mô hình của mình, đặc biệt là khi sao chép công thức.
VÍ DỤ 2.1 Triển khai Mô hình Giá-Cầu trong Excel
Trong Chương 1, chúng ta đã mô tả hai mô hình dự đoán nhu cầu
tính toán nhu cầu trong ô B8 cho mô hình tuyến tính, chúng tôi
theo hàm giá:
sử dụng công thức
D = a
bP
Và
= $B$4$B$5*A8
Để tính nhu cầu trong ô E8 cho mô hình phi tuyến tính, chúng
D = cP
d
Hình 2.2 cho thấy một bảng tính (Mô hình Dự đoán Nhu cầu
ta sử dụng công thức
= $E$4*D8^$E$5
trong tệp Excel) để tính toán nhu cầu đối với các mức giá
Lưu ý cách các địa chỉ tuyệt đối được sử dụng để khi các công
khác nhau bằng cách sử dụng từng mô hình này. Ví dụ, để
thức này được sao chép xuống, nhu cầu được tính toán chính xác.
Sao chép công thức
Excel cung cấp một số cách sao chép công thức vào các ô khác nhau. Điều này cực kỳ hữu ích
trong việc xây dựng các mô hình quyết định, bởi vì nhiều mô hình yêu cầu sao chép các công
thức trong các khoảng thời gian khác nhau, các sản phẩm tương tự, v.v. Một cách là chọn ô
có công thức cần sao chép, nhấp vào nút Sao chép từ nhóm Bảng tạm bên dưới tab Trang chủ
(hoặc chỉ cần nhấn Ctrl-C trên bàn phím của bạn), nhấp vào ô bạn muốn sao chép vào, sau đó
nhấp vào nút Dán (hoặc nhấn Ctrl-V). Bạn cũng có thể nhập công thức trực tiếp vào một dải ô
mà không cần sao chép và dán bằng cách chọn dải ô, nhập công thức và nhấn Ctrl-Enter.
Machine Translated by Google
Chương 2 Phân tích trên bảng tính
41
Hình 2.2
Mô hình Excel cho nhu cầu
Sự dự đoán
Để sao chép công thức từ một ô hoặc dải ô xuống một cột hoặc trên một hàng, trước
tiên hãy chọn ô hoặc dải ô đó, bấm và giữ chuột trên ô vuông nhỏ ở góc dưới bên phải của
ô (biểu tượng “điền handle”), và kéo công thức vào các ô “đích” mà bạn muốn sao chép.
Mẹo Excel hữu ích khác
Màn hình chia nhỏ. Bạn có thể chia trang tính theo chiều ngang và/hoặc
chiều dọc để xem các phần khác nhau của trang tính cùng một lúc. Thanh chia dọc
nằm ngay bên phải của thanh cuộn dưới cùng và thanh chia ngang nằm ngay
phía trên thanh cuộn bên phải. Định vị con trỏ của bạn trên một trong số
này cho đến khi nó thay đổi hình dạng, nhấp và kéo thanh bộ chia sang trái
hoặc xuống dưới.
Dán Đặc Biệt. Khi bạn thường sao chép (một hoặc nhiều) ô và dán chúng vào
một trang tính, Excel sẽ đặt một bản sao chính xác của các công thức hoặc dữ
liệu trong các ô (ngoại trừ địa chỉ tương đối). Thường thì bạn chỉ muốn kết
quả của công thức, vì vậy dữ liệu sẽ không đổi ngay cả khi các tham số khác
được sử dụng trong công thức thay đổi. Để thực hiện việc này, hãy sử dụng tùy
chọn Dán Đặc biệt có trong menu Dán trong nhóm Bảng tạm bên dưới tab Trang chủ
thay vì lệnh Dán. Chọn Dán Giá trị sẽ dán kết quả của các công thức dùng để
tính toán dữ liệu.
Độ rộng cột và hàng. Nhiều khi một ô chứa một số quá lớn để hiển thị chính xác
vì chiều rộng của cột quá nhỏ. Bạn có thể thay đổi chiều rộng cột để vừa với
giá trị lớn nhất hoặc chuỗi văn bản ở bất kỳ đâu trong cột bằng cách định vị
con trỏ ở bên phải nhãn cột sao cho nhãn thay đổi thành hình chữ thập có mũi tên
nằm ngang, rồi bấm đúp. Bạn cũng có thể di chuyển mũi tên sang trái hoặc phải để
thay đổi độ rộng cột theo cách thủ công. Bạn có thể thay đổi chiều cao hàng
theo cách tương tự bằng cách di chuyển con trỏ bên dưới nhãn số hàng.
Điều này có thể đặc biệt hữu ích nếu bạn có một công thức rất dài để hiển thị.
Để ngắt một công thức trong một ô, đặt con trỏ tại điểm ngắt trong thanh công
thức và nhấn Alt-Enter.
Hiển thị công thức trong trang tính. Chọn Hiển thị Công thức trong nhóm Kiểm
tra Công thức dưới tab Công thức. Bạn thường cần thay đổi độ rộng của cột để
hiển thị đúng các công thức.
Hiển thị Đường lưới và Tiêu đề Hàng và Cột để In. Chọn hộp In cho đường lưới
và tiêu đề trong nhóm Tùy chọn Trang tính bên dưới Trang
Machine Translated by Google
42
Chương 2 Phân tích trên bảng tính
tab bố cục. Lưu ý rằng lệnh Print có thể được tìm thấy bằng cách nhấp vào Office
cái nút.
Điền vào một dãy với một dãy số. Giả sử bạn muốn xây dựng một trang tính để nhập
100 giá trị dữ liệu. Sẽ rất tẻ nhạt khi phải nhập các số từ 1 đến 100 cùng một
lúc. Chỉ cần điền vào một vài giá trị đầu tiên trong chuỗi và đánh dấu chúng. Sau
đó nhấp và kéo hình vuông nhỏ (điền điều khiển) ở góc dưới bên phải xuống (Excel
sẽ hiển thị một cửa sổ bật lên nhỏ cho bạn biết giá trị cuối cùng trong phạm vi) cho
đến khi bạn điền vào cột tới 100; sau đó nhả chuột.
Hàm Excel
Các hàm được sử dụng để thực hiện các phép tính đặc biệt trong các ô và được sử dụng rộng rãi
trong các ứng dụng phân tích kinh doanh. Tất cả các hàm Excel yêu cầu một dấu bằng và một tên
hàm theo sau dấu ngoặc đơn, trong đó bạn chỉ định các đối số cho hàm.
Hàm excel cơ bản
Một số chức năng phổ biến hơn mà chúng tôi sẽ sử dụng trong các ứng dụng bao gồm:
MIN(phạm vi)—tìm giá trị nhỏ nhất trong một phạm vi ô
MAX(phạm vi)—tìm giá trị lớn nhất trong một phạm vi ô
SUM(phạm vi)—tìm tổng các giá trị trong một phạm vi ô
AVERAGE(phạm vi)—tìm giá trị trung bình của các giá trị trong một phạm vi ô
COUNT(range)—tìm số ô trong một phạm vi có chứa số
COUNTIF(phạm vi, tiêu chí)—tìm số ô trong một phạm vi đáp ứng
tiêu chí quy định.
Hàm COUNTIF đếm số ô trong phạm vi đáp ứng tiêu chí mà bạn chỉ định. Ví dụ: bạn có thể
đếm tất cả các ô bắt đầu bằng một chữ cái nhất định hoặc bạn có thể đếm tất cả các ô chứa một
số lớn hơn hoặc nhỏ hơn một số mà bạn chỉ định. Ví dụ về tiêu chí là 100, “>100”, tham chiếu ô
chẳng hạn như A4, chuỗi văn bản chẳng hạn như “Facebook”. Lưu ý rằng văn bản và công thức logic
phải được đặt trong dấu ngoặc kép. Xem Trợ giúp Excel để biết các ví dụ khác.
Excel có các hàm loại COUNT hữu ích khác: COUNTA đếm số ô không trống trong một phạm vi
và COUNTBLANK đếm số ô trống trong một phạm vi. Ngoài ra, COUNTIFS(range1, criteria1, range2,
criteria2,… range_n, criteria_n) tìm số ô trong nhiều phạm vi đáp ứng các tiêu chí cụ thể cho
từng phạm vi.
Chúng tôi minh họa các chức năng này bằng cách sử dụng bộ dữ liệu Đơn đặt hàng trong Ví dụ 2.2.
VÍ DỤ 2.2 Sử dụng các hàm Excel cơ bản
Trong tập dữ liệu Đơn đặt hàng, chúng ta sẽ tìm thấy những điều sau:
số lượng nhỏ nhất và lớn nhất của bất kỳ mặt hàng nào được đặt hàng
số lượng đơn đặt hàng cho vòng chữ O
số lượng đơn đặt hàng có thời hạn A/P ngắn hơn 30 tháng
tổng chi phí đặt hàng
số tháng trung bình cho mỗi đơn đặt hàng cho các khoản
số lượng đơn đặt hàng vòng chữ O từ Không thời gian
phải trả
công nghệ
số lượng đơn đặt hàng đã đặt
Machine Translated by Google
Chương 2 Phân tích trên bảng tính
43
Kết quả được thể hiện trong Hình 2.3. Trong hình này, chúng tôi đã
vì vậy chúng tôi không thể sử dụng nó trong các cột A, B hoặc D;
sử dụng tính năng chia đôi màn hình trong Excel để giảm số lượng
tuy nhiên, bất kỳ cột nào khác sẽ được chấp nhận. Sử dụng số mục
hàng được hiển thị trong bảng tính. Để tìm số lượng nhỏ nhất và
trong cột C, công thức trong ô B103 là =COUNT(C4:C97).
lớn nhất của bất kỳ mặt hàng nào được đặt hàng, chúng tôi sử dụng
Để tìm số lượng đơn hàng đã đặt cho O-ring, chúng ta sử dụng hàm
hàm MIN và MAX cho dữ liệu trong cột F. Do đó, công thức trong ô
COUNTIF. Đối với ví dụ này, công thức được sử dụng trong ô B104 là
B99 là =MIN(F4:F97) và công thức trong ô B100 là =MAX (F4:F97).
=COUNTIF(D4:D97, “O-Ring”). Chúng ta cũng có thể sử dụng tham chiếu
Để tìm tổng chi phí đặt hàng, chúng tôi tính tổng dữ liệu trong
ô cho bất kỳ ô nào chứa văn bản Vòng chữ O, chẳng hạn như =
cột G bằng cách sử dụng hàm SUM: =SUM(G4:G97); đây là công thức
COUNTIF(D4:D97,D12). Để tìm số lượng đơn đặt hàng có thời hạn A/P
trong ô B101. Để tìm số A/P trung bình tháng, chúng ta sử dụng hàm
dưới 30 tháng, hãy sử dụng công thức = COUNTIF(H4:H97,”<30”) trong
AVERAGE cho dữ liệu trong cột H. Công thức trong ô B102 là
ô B105.
=AVERAGE(H4:H97).
Cuối cùng, để đếm số lượng đơn đặt hàng Vòng chữ O cho Công nghệ
Để tìm số lượng đơn đặt hàng đã đặt, hãy sử dụng hàm COUNT. Lưu ý
thời gian không gian, chúng tôi sử dụng =COUNTIFS(D4:D97,”O-Ring”,
rằng hàm COUNT chỉ đếm số lượng ô trong một phạm vi có chứa số,
A4:A97,“Công nghệ thời gian không gian”).
Các hàm loại IF cũng có sẵn cho các tính toán khác. Ví dụ: các hàm SUMIF, AVERAGEIF, SUMIFS
và AVERAGEIFS có thể được sử dụng để nhúng logic IF vào trong các hàm toán học. Chẳng hạn, cú pháp
của SUMIF là SUMIF(phạm vi, tiêu chí, [phạm vi tổng]). “Dải tổng” là một đối số tùy chọn cho phép
bạn cộng các ô trong một dải khác. Do đó, trong cơ sở dữ liệu Đơn đặt hàng, để tìm tổng chi phí của
tất cả các dây buộc khung máy bay, chúng tôi sẽ sử dụng
SUMIF(D4:D97, “Các chốt khung máy bay”, G4:G97)
Hàm này tìm các chốt khung Máy bay trong phạm vi D4:D97, nhưng sau đó tính tổng các giá trị được
liên kết trong cột G (chi phí mỗi đơn hàng).
Chức năng cho các ứng dụng cụ thể
Excel có rất nhiều hàm khác dành cho các ứng dụng thống kê, tài chính và các ứng dụng khác, nhiều
hàm trong số đó được chúng tôi giới thiệu và sử dụng xuyên suốt bài viết. Ví dụ: một số mô hình
Hình 2.3
Ứng Dụng Các Hàm Excel Vào
Dữ Liệu Đơn Đặt Hàng
tài chính mà chúng tôi phát triển yêu cầu tính toán giá trị hiện tại ròng (NPV). Giá trị hiện tại ròng
(còn gọi là dòng tiền chiết khấu) đo lường giá trị của một dòng tiền, có tính đến
Machine Translated by Google
44
Chương 2 Phân tích trên bảng tính
hạch toán giá trị thời gian của tiền. Nghĩa là, một dòng tiền F đô la trong khoảng thời gian t trong tương lai
t
có giá trị F>11 + i2
đô la ngày nay, với i là lãi suất chiết khấu. Lãi suất chiết khấu phản ánh
chi phí cơ hội của việc tiêu tiền ngay bây giờ so với việc đạt được lợi nhuận thông qua một khoản đầu tư
khác, cũng như những rủi ro liên quan đến việc không nhận được tiền lãi cho đến một thời điểm sau đó. Tổng
giá trị hiện tại của tất cả các dòng tiền trong một khoảng thời gian xác định là giá trị hiện tại ròng:
N
NPV một
t0
t
Ft 11 + i2
(2.1)
dòng tiền Ft trong thời kỳ t. NPV dương có nghĩa là khoản đầu tư sẽ mang lại giá
trị gia tăng vì lợi nhuận dự kiến vượt quá tỷ lệ chiết khấu.
Hàm Excel NPV(rate, value1, value2,…) tính toán giá trị hiện tại ròng của một khoản đầu tư bằng
cách sử dụng tỷ lệ chiết khấu và một loạt các khoản thanh toán trong tương lai (giá trị âm) và thu
nhập (giá trị dương). Tỷ lệ là giá trị của tỷ lệ chiết khấu i trong khoảng thời gian của một khoảng
thời gian và value1, value2, … là các đối số từ 1 đến 29 đại diện cho các khoản thanh toán và thu
nhập cho mỗi khoảng thời gian. Các giá trị phải cách đều nhau về thời gian và được giả định là xảy
ra vào cuối mỗi khoảng thời gian. Đầu tư NPV bắt đầu một khoảng thời gian trước ngày của dòng tiền
giá trị1 và kết thúc với dòng tiền cuối cùng trong danh sách. Việc tính toán NPV dựa trên dòng tiền
trong tương lai. Nếu dòng tiền đầu tiên (chẳng hạn như khoản đầu tư ban đầu hoặc chi phí cố định) xảy
ra vào đầu kỳ đầu tiên, thì dòng tiền này phải được cộng vào kết quả NPV và không được đưa vào các đối số của hàm.
VÍ DỤ 2.3 Sử dụng Hàm NPV
Một công ty đang giới thiệu một sản phẩm mới. Chi phí cố định
trong ô B8 tính giá trị hiện tại ròng của các dòng tiền này
cho tiếp thị và phân phối là 25.000 đô la và phát sinh ngay
là =NPV(B6,C4:H4)
trước khi ra mắt. Doanh thu thuần bán hàng dự kiến trong 6
là dòng tiền trong tương lai và không được bao gồm trong các
tháng đầu năm được thể hiện trong Hình 2.4. công thức
đối số của hàm NPV.
B5. Lưu ý rằng chi phí cố định không phải
Chèn chức năng
Cách dễ nhất để định vị một hàm cụ thể là chọn một ô và nhấp vào nút Chèn hàm 3
f 4 , có thể tìm thấy nút này dưới dải băng bên cạnh thanh công thức và cả trong
nhóm Thư viện Hàm trong tab Công thức. Bạn có thể nhập mô tả vào trường tìm kiếm,
chẳng hạn như “giá trị hiện tại ròng” hoặc chọn một danh mục, chẳng hạn như “Tài
chính” từ hộp thả xuống.
Tính năng này đặc biệt hữu ích nếu bạn biết nên sử dụng hàm nào nhưng không chắc
chắn nên nhập đối số nào vì nó sẽ hướng dẫn bạn nhập dữ liệu thích hợp cho các đối số
của hàm. Hình 2.5 hiển thị hộp thoại mà từ đó bạn có thể chọn chức năng bạn muốn
Hình 2.4
Tính toán giá trị hiện tại ròng
Machine Translated by Google
Chương 2 Phân tích trên bảng tính
45
Hình 2.5
Chèn hộp thoại chức năng
để sử dụng. Ví dụ, nếu chúng ta chọn hàm COUNTIF, hộp thoại trong Hình 2.6 sẽ xuất hiện. Khi
bạn bấm vào một ô nhập liệu, mô tả của đối số sẽ được hiển thị. Vì vậy, nếu bạn không chắc
chắn nên nhập gì cho phạm vi, phần giải thích trong Hình 2.6 sẽ giúp bạn. Để biết thêm thông
tin, bạn có thể nhấp vào nút Trợ giúp ở góc dưới bên trái.
Hàm logic
Các hàm logic chỉ trả về một trong hai giá trị: TRUE hoặc FALSE. Ba chức năng logic hữu ích
trong các ứng dụng phân tích kinh doanh là
IF(điều kiện, giá trị nếu đúng, giá trị nếu sai)—một hàm logic trả về một giá trị nếu
điều kiện là đúng và khác nếu điều kiện là sai,
AND(điều kiện 1, điều kiện 2…)—một hàm logic trả về TRUE nếu tất cả
điều kiện là đúng và FALSE nếu không,
OR(điều kiện 1, điều kiện 2…)—một hàm logic trả về TRUE nếu bất kỳ điều kiện nào
là đúng và FALSE nếu không.
Hàm IF, IF(điều kiện, giá trị nếu đúng, giá trị nếu sai), cho phép bạn chọn một trong hai
giá trị để nhập vào một ô. Nếu điều kiện đã chỉ định là đúng, giá trị nếu đúng sẽ được đưa vào
Hình 2.6
Hộp thoại đối số chức năng
cho COUNTIF
Machine Translated by Google
46
Chương 2 Phân tích trên bảng tính
tế bào. Nếu điều kiện là sai, giá trị nếu sai sẽ được nhập vào. Giá trị nếu đúng và giá trị nếu sai
có thể là một số hoặc một chuỗi văn bản đặt trong dấu ngoặc kép. Lưu ý rằng nếu một khoảng
trống được sử dụng giữa các dấu ngoặc kép, “ ”, thì kết quả sẽ chỉ là một ô trống. Điều này
thường hữu ích để tạo một bảng tính rõ ràng. Ví dụ: nếu ô C2 chứa hàm IF(A8 2,7,12), nó cho
biết nếu giá trị trong ô A8 là 2, thì số 7 sẽ được gán cho ô C2; nếu giá trị trong ô A8
không phải là 2, số 12 sẽ được gán cho ô C2. Các điều kiện có thể bao gồm những điều sau đây:
tương đương với
7 lớn hơn
6 nhỏ hơn
7 lớn hơn hoặc bằng
6 nhỏ hơn hoặc bằng
6 7 không bằng
Bạn có thể “lồng” tối đa bảy hàm IF bằng cách thay thế giá trị-nếu-đúng hoặc giá trị-nếu-sai trong
một hàm IF với một hàm IF khác:
NẾU(A8 2,(NẾU(B3 5,;CÓ<,;<)),15)
Điều này nói rằng nếu ô A8 bằng 2, thì hãy kiểm tra nội dung của ô B3. Nếu ô B3 là 5, thì
giá trị của hàm là chuỗi văn bản CÓ; nếu không, đó là một khoảng trống (được biểu thị bằng
dấu ngoặc kép không có gì ở giữa). Tuy nhiên, nếu ô A8 không phải là 2, thì giá trị của
hàm là 15 cho dù ô B3 là gì.
Các hàm AND và OR chỉ trả về các giá trị đúng hoặc sai nếu tất cả hoặc ít nhất một
trong nhiều điều kiện được đáp ứng tương ứng. Bạn có thể sử dụng các hàm AND và OR làm
VÍ DỤ 2.4 Sử dụng Hàm IF
Giả sử rằng nhà sản xuất linh kiện máy bay coi bất kỳ đơn đặt hàng
trả về giá trị Nhỏ. Hơn nữa, giả sử rằng các đơn đặt hàng lớn với
nào từ 10.000 đơn vị trở lên là lớn, trong khi bất kỳ quy mô đơn
tổng chi phí ít nhất là 25.000 đô la được coi là quan trọng.
hàng nào khác được coi là nhỏ.
Chúng ta có thể đánh dấu các đơn đặt hàng này là quan trọng bằng cách sử dụng
Chúng ta có thể sử dụng hàm IF để phân loại các đơn đặt hàng. Đầu
hàm trong ô L4:
tiên, tạo một cột mới trong bảng tính cho kích thước đơn đặt hàng,
chẳng hạn như cột K. Trong ô K4, hãy sử dụng công thức
=IF(F4+=10000,;Lớn<,;Nhỏ<)
=IF(AND(K4=“Lớn”, G4+=25000),“Nghiêm trọng”,“ ”)
Sau khi sao chép các công thức này xuống các cột, Hình 2.7 cho
thấy một phần kết quả.
Hàm này sẽ trả về giá trị Lớn trong ô K4 nếu quy mô đơn hàng trong
ô F4 là 10.000 trở lên; nếu không, nó
Hình 2.7
Phân loại kích thước đơn hàng bằng hàm IF
Machine Translated by Google
47
Chương 2 Phân tích trên bảng tính
điều kiện trong hàm IF; ví dụ: NẾU(VÀ(B1 3,C1 5),12,22). Ở đây, nếu ô B1 3 và ô C1 5 thì giá trị
của hàm là 12; ngược lại là 22.
Sử dụng hàm tra cứu Excel cho truy vấn cơ sở dữ liệu
Trong Chương 1, chúng tôi đã lưu ý rằng trí tuệ kinh doanh là công cụ trong sự phát triển của phân
tích kinh doanh. Các tổ chức thường cần trích xuất thông tin chính từ cơ sở dữ liệu để hỗ trợ các
đại diện dịch vụ khách hàng, hỗ trợ kỹ thuật, sản xuất và các nhu cầu khác.
Excel cung cấp một số chức năng hữu ích để tìm dữ liệu cụ thể trong bảng tính. Đó là:
VLOOKUP(lookup_value, table_array, col_index_num, [range lookup]) tra cứu giá trị ở cột ngoài
cùng bên trái của bảng (được chỉ định bởi table_array) và trả về giá trị trong cùng một
hàng từ cột bạn chỉ định (col_index_num).
Hàm HLOOKUP(giá trị_tra cứu, bảng_mảng, hàng_chỉ_số_số, [tra cứu phạm vi]) tra cứu giá trị ở
hàng trên cùng của bảng và trả về giá trị trong cùng một cột từ hàng bạn chỉ định.
INDEX(array, row_num, col_num) trả về một giá trị hoặc tham chiếu của ô tại giao điểm của
một hàng và cột cụ thể trong một phạm vi nhất định.
MATCH(lookup_value, lookup_array, match_type) trả về vị trí tương đối của một mục trong một
mảng khớp với một giá trị đã chỉ định theo một thứ tự đã chỉ định.
Trong các hàm VLOOKUP và HLOOKUP, tra cứu phạm vi là tùy chọn. Nếu điều này bị bỏ qua hoặc
được đặt là True, thì cột đầu tiên của bảng phải được sắp xếp theo thứ tự số tăng dần. Nếu kết quả
khớp chính xác cho giá trị tra cứu được tìm thấy trong cột đầu tiên, thì Excel sẽ trả về giá trị
col_index_num của hàng đó. Nếu không tìm thấy kết quả khớp chính xác, Excel sẽ chọn hàng có giá trị
lớn nhất trong cột đầu tiên nhỏ hơn giá trị tra cứu.
Nếu tra cứu phạm vi là sai, thì Excel sẽ tìm kiếm kết quả khớp chính xác trong cột đầu tiên của
phạm vi bảng. Nếu không tìm thấy kết quả khớp chính xác, Excel sẽ trả về #N/A (không khả dụng).
Chúng tôi khuyên bạn nên chỉ định tra cứu phạm vi để tránh lỗi.
VÍ DỤ 2.5 Sử dụng Hàm VLOOKUP
Trong Chương 1, chúng tôi đã giới thiệu cơ sở dữ liệu về các
thứ tự số, vì vậy chúng tôi có thể bỏ qua tra cứu phạm vi
giao dịch bán hàng cho một công ty bán sách và DVD hướng dẫn
đối số hoặc đặt nó là đúng. Do đó, nếu chúng ta nhập công
thể dục (Giao dịch bán hàng tệp Excel). Cơ sở dữ liệu được
thức bên dưới vào bất kỳ ô trống nào của bảng tính:
sắp xếp theo ID khách hàng, và một phần của nó được thể hiện
trong Hình 2.8. Giả sử rằng một khách hàng gọi cho một đại
=VLOOKUP(10007,$A$4:$H$475,3)
diện về vấn đề thanh toán. Người đại diện tìm ID khách hàng—
trả về loại thanh toán, C chỉnh sửa. Nếu chúng ta sử dụng
ví dụ: 10007—và cần tra cứu loại thanh toán và mã giao dịch.
công thức sau:
Chúng ta có thể sử dụng hàm VLOOKUP để làm việc này. Trong
hàm VLOOKUP(lookup_value, table_array, col_ index_num),
lookup_value đại diện cho ID khách hàng.
table_array là phạm vi dữ liệu trong bảng tính; trong trường
=VLOOKUP(10007,$A$4:$H$475,4)
hàm trả về mã giao dịch, 80103311.
Bây giờ, giả sử cơ sở dữ liệu được sắp xếp theo mã giao
dịch sao cho cột ID khách hàng không còn theo thứ tự số tăng
hợp này, đó là phạm vi A4:H475. Giá trị cho col_index_num đại
dần như trong Hình 2.9. Nếu chúng ta sử dụng hàm
diện cho cột trong phạm vi bảng mà chúng tôi muốn truy xuất.
=VLOOKUP(10007,$A$4:$H$475,4, True), Excel sẽ trả về #N/A. Tuy
Đối với loại thanh toán, đây là cột 3; đối với mã giao dịch,
nhiên, nếu chúng ta thay đổi đối số tra cứu phạm vi thành
đây là cột 4.
Sai, thì hàm sẽ trả về giá trị chính xác của mã giao dịch.
Lưu ý rằng cột đầu tiên đã được sắp xếp tăng dần
Machine Translated by Google
48
Chương 2 Phân tích trên bảng tính
Hình 2.8
Phần giao dịch bán hàng
Dữ liệu được sắp xếp theo ID khách hàng
Hình 2.9
Phần bán hàng
Dữ liệu giao dịch được sắp
xếp theo mã giao dịch
Hàm HLOOKUP hoạt động theo cách tương tự. Đối với hầu hết các cơ sở dữ liệu bảng tính,
thông thường chúng ta sẽ cần sử dụng hàm VLOOKUP. Tuy nhiên, trong một số tình huống lập mô
hình, hàm HLOOKUP có thể hữu ích nếu dữ liệu được sắp xếp theo từng cột thay vì theo từng
hàng.
Hàm INDEX hoạt động như một thủ tục tra cứu bằng cách trả về giá trị trong một hàng và
cột cụ thể của một mảng. Ví dụ: trong cơ sở dữ liệu Giao dịch bán hàng, INDEX(+A+4:+H+475, 7,
4) sẽ truy xuất mã giao dịch, 80103311 ở hàng thứ 7 và cột thứ 4 của mảng dữ liệu (xem Hình
2.8) , như hàm VLOOKUP đã làm trong Ví dụ 2.5. Sự khác biệt là nó dựa vào số hàng chứ không
phải giá trị thực của ID khách hàng.
Trong hàm MATCH, lookup_value là giá trị mà bạn muốn so khớp trong mảng lookup_, là phạm
vi ô đang được tìm kiếm. Match_type là -1, 0 hoặc 1. Giá trị mặc định là 1. Nếu match_type là
1, thì hàm sẽ tìm giá trị lớn nhất nhỏ hơn hoặc bằng lookup_value. Các giá trị trong
lookup_array phải được đặt theo thứ tự tăng dần.
Nếu match_type 0, MATCH sẽ tìm giá trị đầu tiên chính xác bằng lookup_value.
Các giá trị trong lookup_array có thể theo thứ tự bất kỳ. Nếu match_type -1, thì hàm tìm giá
trị nhỏ nhất lớn hơn hoặc bằng lookup_value. Các giá trị trong lookup_array phải được đặt theo
thứ tự giảm dần. Ví dụ 2.6 cho thấy cách sử dụng các hàm INDEX và MATCH.
Hàm VLOOKUP sẽ không hoạt động nếu bạn muốn tra cứu thứ gì đó ở bên trái của một phạm vi
đã chỉ định (vì hàm này sử dụng cột đầu tiên của phạm vi để tìm giá trị tra cứu).
Tuy nhiên, chúng ta có thể dễ dàng sử dụng hàm INDEX và MATCH để làm điều này, như Ví dụ 2.7
cho thấy.
Machine Translated by Google
49
Chương 2 Phân tích trên bảng tính
VÍ DỤ 2.6 Sử dụng hàm INDEX và MATCH cho truy vấn cơ sở dữ liệu
Hình 2.10 hiển thị dữ liệu trong tệp Excel Truy vấn Doanh số
Trong trường hợp này, hàm MATCH được sử dụng để xác định cột
Sản phẩm Hàng tháng. Giả sử chúng ta muốn thiết kế một ứng
trong bảng tương ứng với tên sản phẩm trong ô I6. Lưu ý việc
dụng truy vấn đơn giản để nhập tháng và tên sản phẩm, đồng
sử dụng “+1” để chuyển số cột tương đối của sản phẩm sang số
thời truy xuất doanh số bán hàng tương ứng. Ba trang tính bổ
cột chính xác trong bảng tra cứu.
sung trong sổ làm việc chỉ ra cách thực hiện việc này theo ba
cách khác nhau. Trang tính Query1 (xem Hình 2.11) sử dụng hàm
Cuối cùng, trang tính Query3 (cũng không được hiển thị ở
VLOOKUP với các câu lệnh IF được nhúng. Các công thức trong ô
đây) chỉ sử dụng các hàm INDEX và MATCH trong ô I8. for mula
I8 là:
trong ô I8 là:
=VLOOKUP(I5,A4:F15,IF(I6=“A”,2,IF(I6=“B”,3,
IF(I6=“C”,4,IF(I6=“D”,5,IF(I6=“E”,6))))),SAI)
Các hàm IF được sử dụng để xác định cột trong bảng tra cứu sẽ
=INDEX(A4:F15,MATCH(I5,A4:A15,0), MATCH(I6,A3:F3,0))
Hàm MATCH được sử dụng làm đối số trong hàm INDEX để xác định
số hàng và cột trong bảng dựa trên tháng và tên sản phẩm. Hàm
sử dụng và như bạn có thể thấy, hơi phức tạp, đặc biệt nếu
INDEX sau đó truy xuất giá trị trong hàng và cột tương ứng.
bảng lớn hơn nhiều.
Đây có lẽ là công thức sạch nhất trong ba.
Trang tính Query2 (không được hiển thị ở đây; hãy xem sổ
làm việc Excel) sử dụng các hàm VLOOKUP và MATCH trong ô I8.
Bằng cách nghiên cứu kỹ các ví dụ này, bạn sẽ hiểu rõ hơn
Công thức trong ô I8 là:
cách sử dụng các chức năng này trong các ứng dụng khác.
=VLOOKUP(I5,A4:F15,MATCH(I6,B3:F3,0)+1,FALSE)
Hình 2.10
Doanh số sản phẩm hàng tháng
sổ làm việc truy vấn
Hình 2.11
Query1 Worksheet trong
Doanh số sản phẩm hàng tháng
sổ làm việc truy vấn
Machine Translated by Google
50
Chương 2 Phân tích trên bảng tính
VÍ DỤ 2.7 Sử dụng INDEX và MATCH để tra cứu bảng bên trái
Giả sử rằng, trong cơ sở dữ liệu Giao dịch bán hàng, chúng
tôi muốn tìm ID khách hàng được liên kết với một mã giao
dịch cụ thể. Tham khảo lại Hình 2.8 hoặc sổ làm việc Excel.
Giả sử rằng chúng ta nhập mã giao dịch vào ô K2 và muốn hiển
thị ID khách hàng vào ô K4.
=INDEX(A4:A475,MATCH(K2,D4:D475,0),1)
Ở đây, hàm MATCH được sử dụng để xác định số hàng trong phạm
vi bảng khớp chính xác với mã giao dịch và hàm INDEX sử dụng
số hàng này và cột 1 để xác định ID khách hàng được liên kết.
Sử dụng công thức trong ô K4:
Phần bổ trợ bảng tính cho Business Analytics
Microsoft Excel sẽ cung cấp hầu hết các hỗ trợ tính toán cần thiết cho tài liệu trong cuốn sách này.
Excel (chỉ dành cho Windows) cung cấp một phần bổ trợ có tên là Analysis Toolpak,
trong đó có nhiều công cụ để tính toán thống kê và Bộ giải, được sử dụng để tối ưu hóa. Các phần bổ trợ
này không được bao gồm trong bản cài đặt Excel tiêu chuẩn. Để cài đặt chúng, nhấp vào tab Tệp và sau đó
nhấp vào Tùy chọn ở cột bên trái. Chọn Add-Ins từ cột bên trái. Ở cuối hộp thoại, hãy đảm bảo rằng phần bổ
trợ Excel được chọn trong phần Quản lý:
hộp và bấm Đi. Trong hộp thoại Add-Ins, nếu Analysis Toolpak, Analysis Toolpak VBA, và
Phần bổ trợ bộ giải không được chọn, chỉ cần chọn các hộp và bấm OK. Bạn sẽ không phải lặp lại quy trình
này mỗi khi chạy Excel trong tương lai.
Ngoài ra, nhiều phần bổ trợ của bên thứ ba sẵn có để hỗ trợ các quy trình phân tích trong Excel.
Một phần bổ trợ, Nền tảng bộ giải phân tích của Frontline Systems, cung cấp nhiều khả năng khác cho cả
phân tích dự đoán và phân tích theo quy định. Xem Lời nói đầu để biết hướng dẫn về cách tải xuống và cài
đặt phần mềm này. Chúng tôi sẽ sử dụng cả phần bổ trợ Excel và Nền tảng bộ giải phân tích đi kèm trong
suốt cuốn sách này, vì vậy chúng tôi khuyến khích bạn tải xuống và thiết lập các phần bổ trợ này trên máy
tính của mình vào lúc này.
Điều khoản quan trọng
địa chỉ tuyệt đối
Giá trị hiện tại ròng (dòng tiền chiết khấu)
tỷ lệ chiết khấu
địa chỉ tương đối
vấn đề và bài tập
1. Tệp Excel Công việc Khoa học và Kỹ thuật cho thấy số lượng
2. Cơ sở dữ liệu cửa hàng và doanh số khu vực tệp Excel
công việc tính bằng nghìn trong năm 2000 và dự báo cho năm
cung cấp dữ liệu bán hàng cho máy tính và các thiết bị ngoại
2010 từ một nghiên cứu của chính phủ. Sử dụng tệp Excel để
vi hiển thị số nhận dạng cửa hàng, khu vực bán hàng, số mặt
tính toán mức tăng dự kiến từ đường cơ sở năm 2000 và cả mức
hàng, mô tả mặt hàng, đơn giá, đơn vị đã bán và tháng bán
tăng phần trăm cho từng danh mục nghề nghiệp.
hàng được thực hiện trong quý IV năm ngoái.3 Sửa đổi
3Dựa trên Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản
lần thứ 9. (Sông Thượng Saddle, NJ: Prentice Hall, 2011).
Machine Translated by Google
51
Chương 2 Phân tích trên bảng tính
bảng tính để tính tổng doanh thu bán hàng cho từng cửa
hàng trong số tám cửa hàng cũng như từng khu vực trong số
ba khu vực bán hàng.
3. File excel President's Inn Guest Database pro
hiển thị danh sách khách hàng, phòng họ ở, đối thủ cạnh
tranh và ngày khởi hành, số người ở, và giá hàng ngày cho
một nhà trọ nhỏ phục vụ bữa sáng trong một tháng.4 Giá
phòng là như nhau cho một hoặc hai khách ; tuy nhiên,
khách bổ sung phải trả thêm $20 mỗi người mỗi ngày cho
các bữa ăn. Khách lưu trú từ bảy ngày trở lên được giảm
giá 10%.
Năm
Lợi nhuận ròng
1
$(300.000.000)
2
$(145.000.000)
3
$50,000,000
4
$125,000,000
5
$530,000,000
Sử dụng bảng tính để tìm giá trị hiện tại ròng của các
dòng tiền này với tỷ lệ chiết khấu là 3%.
7. Ví dụ 1.4 trong Chương 1 đã mô tả một tình huống bán sản
Sửa bảng tính để tính số ngày mỗi bên lưu trú tại nhà trọ
phẩm mới có thể được mô tả bằng một công thức gọi là đường
và tổng doanh thu cho thời gian lưu trú.
cong Gompertz: S aebect. Phát triển một bảng tính để tính
toán doanh thu bằng cách sử dụng công thức này cho t 0 đến
4. Bảng tính Dữ liệu Cơ sở trong tệp Excel Dữ liệu Rủi ro Tín
160 với gia số là 10 khi a 15000, b -8 và c -0,05.
dụng cung cấp thông tin về 425 khách hàng ngân hàng đã
đăng ký vay vốn. Dữ liệu bao gồm mục đích của khoản vay,
8. Ví dụ 1.8 trong Chương 1 đã cung cấp dữ liệu từ một người cũ
số dư tài khoản séc và tiết kiệm, số tháng là khách hàng
cơ hội để xác định mối quan hệ giữa bán hàng và giá cả,
của ngân hàng, số tháng làm việc, giới tính, tình trạng
phiếu giảm giá và chiến lược quảng cáo. Nhập dữ liệu vào
hôn nhân, tuổi tác, tình trạng nhà ở và số năm ở hiện tại,
bảng tính và triển khai mô hình trong ví dụ trong bảng
loại công việc, và phân loại rủi ro tín dụng của ngân hàng.5
tính của bạn để ước tính doanh số cho từng thử nghiệm hàng
tuần. Tính toán doanh số bán hàng trung bình của ba cửa
hàng và tìm sự khác biệt giữa mức trung bình và ước tính
Một. Sử dụng hàm COUNTIF để xác định (1) có bao nhiêu
mô hình cho mỗi tuần.
khách hàng đăng ký vay mua ô tô mới, ô tô cũ, kinh
doanh, giáo dục, thiết bị nhỏ và đồ đạc và (2) số
lượng khách hàng có số dư tài khoản séc dưới 500 đô la.
9. Các bài tập sau sử dụng Đơn đặt hàng
cơ sở dữ liệu. Sử dụng các hàm MATCH và/hoặc INDEX để tìm
các mục sau:
b. Sửa đổi bảng tính bằng cách sử dụng các hàm IF để bao
gồm các cột mới, phân loại số dư tài khoản séc và tài
khoản tiết kiệm ở mức thấp nếu số dư dưới 250 đô la,
trung bình nếu từ 250 đô la đến dưới 2000 đô la và cao
nếu ngược lại.
Một. Số hàng tương ứng với phiên bản đầu tiên và cuối cùng
của mục số 1369 trong cột C (đảm bảo cột C được sắp
xếp theo số thứ tự).
b. Chi phí đặt hàng liên quan đến trường hợp đầu tiên của
mục 1369 mà bạn đã xác định trong phần (a).
5. Nhà quản lý cần xác định một số thông tin từ tệp Excel
Đơn đặt hàng nhưng chỉ có số đơn đặt hàng. Sửa đổi tệp
Excel để sử dụng hàm VLOOKUP để tìm mô tả mặt hàng và chi
phí mỗi đơn đặt hàng cho các số đơn đặt hàng sau: Aug11008,
Sep11023 và Oct11020.
c. Tổng chi phí của tất cả các đơn đặt hàng cho mặt hàng
1369. Sử dụng câu trả lời cho phần (a) và (b) cùng
với hàm SUM để thực hiện việc này. Nói cách khác, bạn
nên sử dụng các hàm INDEX và MATCH thích hợp trong
hàm SUM để tìm câu trả lời.
Xác thực kết quả của bạn bằng cách áp dụng hàm SUM
6. Một nhà sản xuất dược phẩm đã dự kiến lợi nhuận ròng cho
trực tiếp cho dữ liệu trong cột G.
một loại thuốc mới sẽ được tung ra thị trường trong 5 năm
tới:
4Dựa trên Kenneth C. Laudon và Jane P. Laudon, Yếu tố cần thiết của Hệ thống Thông tin Quản lý.
5Dựa trên Efraim Turban, Ranesh Sharda, Dursun Delen và David King, Business Intelligence: A
Managerial Approach, tái bản lần 2. (Upper Saddle River NJ: Prentice Hall, 2011).
Machine Translated by Google
52
Chương 2 Phân tích trên bảng tính
10. Sử dụng hàm INDEX và MATCH để điền vào bảng trích xuất số
11. Giả sử một công ty đưa ra chiết khấu theo số lượng.
lượng vận chuyển giữa mỗi cặp thành phố trong tệp Excel
Nếu mua tối đa 1000 đơn vị, đơn giá là 10 đô la; nếu mua hơn
General Appliance Corporation. Bảng của bạn sẽ hiển thị như
1000 và tối đa 5000 đơn vị, đơn giá là 9 đô la; và nếu hơn
sau và công thức cho số tiền phải tham chiếu tên trong cột
5000 đơn vị được mua, đơn giá là $7,50.
Từ và Đến:
Xây dựng bảng tính bằng cách sử dụng chức năng VLOOKUP để
tìm đơn giá liên quan đến bất kỳ hoặc số lượng đặt hàng nào
Từ
ĐẾN
Marietta
Cleveland
Số lượng
và tính toán tổng chi phí của đơn đặt hàng.
0
350
Marietta
Baltimore
Marietta
Chicago
Marietta
Phượng Hoàng
850
Minneapolis
Cleveland
150
Minneapolis
Baltimore
0
0
Minneapolis
Chicago
500
Minneapolis
Phượng Hoàng
150
Trường hợp: Hiệu suất Lawn Thiết bị
Elizabeth Burke đã yêu cầu bạn thực hiện một số phân tích sơ bộ
về dữ liệu trong Thiết bị cắt cỏ hiệu suất
Tạo một trang tính mới trong cơ sở dữ liệu để tính toán tổng
doanh thu theo tháng và khu vực, cũng như tổng doanh thu trên
cơ sở dữ liệu. Đầu tiên, cô ấy muốn bạn chỉnh sửa bảng tính Sự hài
toàn thế giới, cho từng sản phẩm bằng cách sử dụng dữ liệu trong
lòng của đại lý và Sự hài lòng của người dùng cuối để hiển thị
Doanh số bán đơn vị máy cắt và Doanh số bán đơn vị máy kéo. Cuối
tổng số câu trả lời cho từng cấp độ của thang đo khảo sát trên
cùng, cô ấy muốn biết thị phần của từng sản phẩm và khu vực dựa
tất cả các khu vực trong mỗi năm. Thứ hai, cô ấy muốn đếm số lần
trên PLE và dữ liệu bán hàng của ngành trong cơ sở dữ liệu. Tạo
thất bại trong bài kiểm tra máy cắt bảng tính. Tiếp theo, Elizabeth
và lưu các tính toán này trong một trang tính mới. Tóm tắt tất cả
cung cấp cho bạn giá các sản phẩm PLE trong 5 năm qua:
những phát hiện của bạn trong một báo cáo cho cô Burke.
Năm Giá máy cắt ($) Giá máy kéo ($)
2010
150
3.250
2011
175
3.400
2012
180
3.600
2013
185
3.700
2014
190
3.800
Machine Translated by Google
hình dung và
khám phá dữ liệu
CHƯƠNG
Người lao động / Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Tạo biểu đồ Microsoft Excel.
Xây dựng phân bố tần số tương đối và biểu đồ.
Xác định biểu đồ thích hợp để trực quan hóa các loại dữ liệu
khác nhau.
Tính toán tần số tương đối tích lũy.
Sắp xếp tập dữ liệu trong bảng tính Excel.
Tìm phần trăm và phần tư cho một tập dữ liệu.
Áp dụng Nguyên tắc Pareto để phân tích dữ liệu.
Lập bảng chéo (bảng dự phòng).
Sử dụng Bộ lọc tự động của Excel để xác định các bản ghi
Sử dụng PivotTable để khám phá và tóm tắt dữ liệu.
trong cơ sở dữ liệu đáp ứng các đặc điểm nhất định.
Sử dụng PivotTable để tạo bảng chéo.
Giải thích khoa học về thống kê và định nghĩa thuật
Hiển thị kết quả của PivotTable bằng PivotCharts.
ngữ thống kê.
Xây dựng phân phối tần số cho cả dữ liệu rời rạc và liên tục.
53
Machine Translated by Google
54
Chương 3 Trực quan hóa và khám phá dữ liệu
Chuyển đổi dữ liệu thành thông tin để hiểu hiệu suất trong quá khứ và hiện tại là cốt lõi của
phân tích mô tả và rất quan trọng để đưa ra các quyết định kinh doanh đúng đắn. Các kỹ thuật
để thực hiện điều này bao gồm vẽ dữ liệu trên biểu đồ, trích xuất dữ liệu từ cơ sở dữ liệu,
thao tác và tóm tắt dữ liệu. Trong chương này, chúng tôi giới thiệu nhiều kỹ thuật hữu ích
cho phân tích mô tả.
Trực quan hóa dữ liệu
Câu ngạn ngữ cổ “Một bức tranh đáng giá 1000 từ” có lẽ đúng hơn bao giờ hết trong môi trường
giàu thông tin ngày nay. Trong Chương 1, chúng tôi đã nói rằng trực quan hóa dữ liệu là cốt
lõi của phân tích kinh doanh hiện đại. Trực quan hóa dữ liệu là quá trình hiển thị dữ liệu
(thường với số lượng lớn) theo cách có ý nghĩa để cung cấp thông tin chuyên sâu hỗ trợ các
quyết định tốt hơn. Hiểu được số lượng lớn dữ liệu khác nhau là cần thiết không chỉ để đạt
được lợi thế cạnh tranh trong môi trường kinh doanh ngày nay mà còn để tồn tại trong đó. Các
nhà nghiên cứu đã quan sát thấy rằng trực quan hóa dữ liệu cải thiện quá trình ra quyết định,
cung cấp cho các nhà quản lý khả năng phân tích tốt hơn giúp giảm sự phụ thuộc vào các chuyên
gia CNTT, đồng thời cải thiện sự hợp tác và chia sẻ thông tin.
Dữ liệu thô rất quan trọng, đặc biệt khi cần xác định các giá trị chính xác hoặc so sánh
các số riêng lẻ. Tuy nhiên, khá khó để xác định xu hướng và mẫu, tìm ngoại lệ hoặc so sánh
các nhóm dữ liệu ở dạng bảng. Bộ não con người thực hiện công việc xử lý thông tin hình ảnh
tốt một cách đáng kinh ngạc—nếu được trình bày một cách hiệu quả.
Trực quan hóa dữ liệu cung cấp một cách truyền đạt dữ liệu ở tất cả các cấp của doanh nghiệp và có
thể tiết lộ các mẫu và mối quan hệ đáng ngạc nhiên. Để biết nhiều ví dụ độc đáo và hấp dẫn về trực
quan hóa dữ liệu, hãy truy cập Phòng trưng bày trực quan hóa dữ liệu tại trang web của Cục điều tra
dân số Hoa Kỳ, www.census.gov/dataviz/.
VÍ DỤ 3.1 Phân tích dữ liệu dạng bảng so với trực quan
Hình 3.1 hiển thị dữ liệu trong tệp Excel Doanh số sản phẩm
Hình 3.2 hiển thị biểu đồ doanh số hàng tháng cho từng sản
hàng tháng. Chúng tôi có thể sử dụng dữ liệu để xác định chính
phẩm. Chúng ta có thể dễ dàng so sánh tổng doanh số bán hàng
xác có bao nhiêu đơn vị sản phẩm nhất định đã được bán trong
của các sản phẩm khác nhau (ví dụ: Sản phẩm C bán ít nhất) và
một tháng cụ thể hoặc để so sánh tháng này với tháng khác.
xác định xu hướng (doanh số bán Sản phẩm D đang tăng), các
Ví dụ: chúng ta thấy rằng doanh số của sản phẩm A đã giảm
mẫu khác (doanh số bán Sản phẩm C tương đối ổn định trong khi
trong tháng 2, cụ thể là 6,7% (được tính theo công thức Excel
doanh số bán Sản phẩm B dao động nhiều hơn theo thời gian) và
= 1
các trường hợp ngoại lệ (Doanh số của Sản phẩm E đã giảm đáng
B3/B2). Tuy nhiên, ngoài những tính toán như vậy, rất
kể trong tháng 9).
khó để đưa ra kết luận toàn cảnh.
Trực quan hóa dữ liệu cũng rất quan trọng đối với việc xây dựng các mô hình quyết định
và để giải thích kết quả của chúng. Ví dụ, nhớ lại các mô hình dự đoán nhu cầu trong Chương 1
( Ví dụ 1.9 và 1.10). Để xác định mô hình phù hợp để sử dụng, thông thường chúng ta sẽ phải
thu thập và phân tích dữ liệu về nhu cầu bán hàng và giá cả để xác định loại mối quan hệ (ví
dụ: tuyến tính hoặc phi tuyến tính) và ước tính giá trị của các tham số trong mô hình. Trực
quan hóa dữ liệu sẽ giúp xác định mối quan hệ thích hợp và sử dụng công cụ phân tích dữ liệu
thích hợp. Hơn nữa, các mô hình phân tích phức tạp thường mang lại kết quả phức tạp. Trực
quan hóa các kết quả thường giúp hiểu và có được cái nhìn sâu sắc về đầu ra của mô hình và các
giải pháp.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
55
Hình 3.1
Dữ liệu bán sản phẩm hàng tháng
Hình 3.2
Trực quan hóa hàng tháng
Dữ liệu bán sản phẩm
bảng điều khiển
Làm cho dữ liệu hiển thị và có thể truy cập được đối với nhân viên ở tất cả các cấp là dấu hiệu của
các tổ chức hiện đại hiệu quả. Bảng điều khiển là một đại diện trực quan của một tập hợp các biện
pháp kinh doanh chính. Nó bắt nguồn từ sự tương tự của bảng điều khiển ô tô, hiển thị tốc độ, mức
xăng, nhiệt độ, v.v. Trang tổng quan cung cấp các bản tóm tắt quan trọng về thông tin kinh doanh
chính để giúp quản lý quy trình hoặc chức năng kinh doanh. Bảng điều khiển có thể bao gồm dữ liệu
dạng bảng cũng như trực quan để cho phép người quản lý nhanh chóng định vị dữ liệu chính. Hình 3.3
hiển thị một bảng điều khiển đơn giản cho dữ liệu doanh số sản phẩm trong Hình 3.1 hiển thị doanh
số hàng tháng cho từng sản phẩm riêng lẻ, doanh số của tất cả các sản phẩm cộng lại, tổng doanh số
hàng năm theo sản phẩm, so sánh hai tháng trước và phần trăm thay đổi hàng tháng theo sản phẩm.
Công cụ và phần mềm để trực quan hóa dữ liệu
Trực quan hóa dữ liệu bao gồm từ các biểu đồ Excel đơn giản đến các công cụ và phần mềm tương tác tiên
tiến hơn cho phép người dùng dễ dàng xem và thao tác dữ liệu chỉ bằng một vài cú nhấp chuột, không chỉ
trên máy tính mà còn trên iPad và các thiết bị khác. Trong chương này, chúng ta thảo luận về các công
cụ cơ bản có sẵn trong Excel. Trong Chương 10, chúng ta sẽ thấy một số công cụ khác được sử dụng trong
các ứng dụng khai thác dữ liệu có sẵn với phần bổ trợ Excel, XLMiner, được sử dụng trong cuốn sách này.
Machine Translated by Google
56
Hình 3.3
Chương 3 Trực quan hóa và khám phá dữ liệu
Mặc dù chúng tôi sẽ chỉ tập trung vào các công cụ dựa trên Excel trong cuốn sách này, nhưng
bạn nên biết về các tùy chọn và gói thương mại khác có sẵn. Cụ thể, chúng tôi khuyên bạn nên xem các
Bảng điều khiển cho sản phẩm
Việc bán hàng
khả năng của Tableau (www.tableausoftware.com) và phần mềm Cognos của IBM (www.cognos10.com).
Tableau rất dễ sử dụng và cung cấp bản dùng thử miễn phí.
Tạo biểu đồ trong Microsoft Excel
Microsoft Excel cung cấp khả năng vẽ biểu đồ toàn diện với nhiều tính năng. Với một chút thử nghiệm,
bạn có thể tạo các biểu đồ rất chuyên nghiệp để phân tích và thuyết trình kinh doanh. Chúng bao gồm
biểu đồ thanh dọc và ngang, biểu đồ đường, biểu đồ hình tròn, biểu đồ vùng, biểu đồ phân tán và
nhiều loại biểu đồ đặc biệt khác. Chúng tôi thường không hướng dẫn bạn qua mọi ứng dụng nhưng cung
cấp một số hướng dẫn cho các thủ tục mới khi thích hợp.
Một số biểu đồ nhất định hoạt động tốt hơn đối với một số loại dữ liệu nhất định và việc sử
dụng sai biểu đồ có thể khiến người dùng khó diễn giải và hiểu. Mặc dù Excel cung cấp nhiều cách để
làm cho biểu đồ trở nên độc đáo và lạ mắt, nhưng người dùng ngây thơ thường tập trung nhiều hơn
vào việc thu hút sự chú ý dưới dạng các biểu đồ hơn là hiệu quả hiển thị thông tin của chúng. Vì
vậy, chúng tôi khuyên bạn nên giữ cho các biểu đồ đơn giản và tránh những thứ linh tinh như thanh 3D, hình trụ, hình nón, v.v. Chúng tôi đánh giá cao các cuốn sách do Stephen Few viết, chẳng hạn như
Show Me the Numbers (Oakland, CA: Analytics Press, 2004) để có thêm hướng dẫn trong việc phát triển
trực quan hóa dữ liệu hiệu quả.
Để tạo biểu đồ trong Excel, trước tiên, tốt nhất bạn nên đánh dấu phạm vi dữ liệu bạn muốn lập
biểu đồ. Các tệp Trợ giúp Excel cung cấp hướng dẫn về định dạng dữ liệu của bạn cho một loại biểu
đồ cụ thể. Nhấp vào tab Chèn trong dải băng Excel (Hình 3.4). Từ nhóm Biểu đồ, hãy bấm vào loại
biểu đồ, rồi bấm vào một loại phụ của biểu đồ mà bạn muốn sử dụng. Khi một biểu đồ cơ bản được tạo,
bạn có thể sử dụng các tùy chọn trong tab Thiết kế và Định dạng trong Công cụ Biểu đồ
tab để tùy chỉnh biểu đồ của bạn (Hình 3.5). Trong tab Thiết kế, bạn có thể thay đổi loại biểu đồ,
dữ liệu có trong biểu đồ, bố cục biểu đồ và kiểu. Tab Định dạng cung cấp các tùy chọn định dạng khác
nhau. Bạn cũng có thể dễ dàng tùy chỉnh các biểu đồ bằng cách nhấp chuột phải vào các thành phần
của biểu đồ hoặc bằng cách sử dụng các tùy chọn Bố cục Nhanh trong nhóm Bố cục Biểu đồ trong tab
Thiết kế Công cụ Biểu đồ.
Bạn nên nhận ra rằng có tới 10% dân số nam bị ảnh hưởng bởi chứng mù màu, gây khó khăn cho
việc phân biệt giữa các biến thể màu khác nhau. Mặc dù chúng ta thường hiển thị các biểu đồ bằng
cách sử dụng các màu mặc định của Excel, rất tiếc là thường sử dụng màu đỏ, nhưng các chuyên gia
khuyên bạn nên sử dụng các bảng màu xanh da cam. Chúng tôi khuyên bạn nên biết điều này đối với
các ứng dụng chuyên nghiệp và thương mại.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
57
Hình 3.4
Tab Chèn Excel
Hình 3.5
Công cụ biểu đồ Excel
Biểu đồ cột và thanh
Excel phân biệt giữa biểu đồ thanh dọc và ngang, gọi biểu đồ cột trước và biểu đồ
thanh sau. Biểu đồ cột nhóm so sánh các giá trị trên các loại mèo bằng hình chữ nhật
dọc; biểu đồ cột xếp chồng lên nhau hiển thị phần đóng góp của từng giá trị vào tổng
số bằng cách xếp chồng các hình chữ nhật; và biểu đồ cột xếp chồng 100% so sánh tỷ lệ
phần trăm mà mỗi giá trị đóng góp vào tổng số. Biểu đồ cột và thanh rất hữu ích để so
sánh dữ liệu phân loại hoặc thứ tự, để minh họa sự khác biệt giữa các bộ giá trị và
để hiển thị tỷ lệ hoặc tỷ lệ phần trăm của tổng thể.
VÍ DỤ 3.2 Tạo biểu đồ cột
Tệp Excel Báo cáo việc làm EEO cung cấp dữ liệu về số lượng
Alabama.” Tên của chuỗi dữ liệu có thể được thay đổi bằng cách
nhân viên trong các danh mục khác nhau được chia nhỏ theo nhóm
nhấp vào nút Chọn Dữ liệu trong nhóm Dữ liệu của tab Thiết
chủng tộc/dân tộc và giới tính (Hình 3.6). Chúng tôi sẽ xây
kế. Trong hộp thoại Select Data Source (xem Hình 3.7), nhấp
dựng một biểu đồ cột đơn giản cho các danh mục việc làm
vào “Series1” và sau đó nhấp vào nút Chỉnh sửa.
khác nhau cho tất cả nhân viên. Đầu tiên, đánh dấu phạm vi
Nhập tên của chuỗi dữ liệu, trong trường hợp này là “Tất cả
C3:K6, bao gồm các tiêu đề và dữ liệu cho từng danh mục.
nhân viên”. Thay đổi tên của chuỗi dữ liệu khác thành “Nam”
Nhấp vào nút Biểu đồ cột và sau đó nhấp vào loại biểu đồ đầu
và “Nữ” theo cách tương tự. Bạn cũng có thể thay đổi thứ tự
tiên trong danh sách (biểu đồ cột được nhóm lại). Để thêm tiêu
hiển thị chuỗi dữ liệu trên biểu đồ bằng các nút lên và xuống.
đề, nhấp vào Thêm thành phần biểu đồ
Biểu đồ cuối cùng được thể hiện trong Hình 3.8.
trong dải băng tab Thiết kế. Nhấp vào “Tiêu đề biểu đồ” trong
biểu đồ và thay đổi nó thành “Báo cáo việc làm EEO—
Hãy thận trọng khi thay đổi tỷ lệ của trục số. Chiều cao hoặc chiều dài của các thanh chỉ
phản ánh chính xác các giá trị dữ liệu nếu trục bắt đầu từ 0. Nếu không, các kích thước tương
đối có thể vẽ nên một bức tranh sai lệch về các giá trị tương đối của dữ liệu.
Machine Translated by Google
58
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.6
Một phần dữ liệu báo cáo việc làm của EEO
Hình 3.7
Hộp thoại Chọn nguồn dữ liệu
Hình 3.8
Biểu đồ cột cho Alabama
Dữ liệu việc làm
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
59
Hình 3.9
Định dạng biểu đồ cột thay thế
Nhãn dữ liệu và bảng dữ liệu Tùy chọn biểu đồ
Excel cung cấp các tùy chọn để bao gồm dữ liệu số dựa trên biểu đồ nào trong biểu đồ. Chẳng
hạn, nhãn dữ liệu có thể được thêm vào các thành phần biểu đồ để hiển thị giá trị thực của
các thanh. Bảng dữ liệu cũng có thể được thêm vào; những thứ này thường tốt hơn nhãn dữ liệu,
có thể trở nên khá lộn xộn. Có thể thêm cả hai từ nút Thêm thành phần biểu đồ trong tab Thiết
kế công cụ biểu đồ hoặc cũng từ nút Bố cục nhanh, nút này cung cấp các tùy chọn thiết kế tiêu
chuẩn. Hình 3.9 cho thấy một bảng dữ liệu được thêm vào biểu đồ Việc làm Alabama. Bạn có thể
thấy rằng bảng dữ liệu cung cấp thông tin bổ sung hữu ích để cải thiện khả năng hiển thị.
Biểu đồ đường
Biểu đồ đường cung cấp một phương tiện hữu ích để hiển thị dữ liệu theo thời gian, như minh
họa trong Ví dụ 3.3. Bạn có thể vẽ nhiều chuỗi dữ liệu trong biểu đồ đường; tuy nhiên, chúng
có thể khó giải thích nếu độ lớn của các giá trị dữ liệu khác nhau rất nhiều. Trong trường
hợp đó, nên tạo các biểu đồ riêng cho từng chuỗi dữ liệu.
VÍ DỤ 3.3 Biểu đồ đường cho dữ liệu xuất khẩu của Trung Quốc
Hình 3.10 cho thấy một biểu đồ đường thể hiện số lượng hàng tỷ
tăng xuất khẩu bắt đầu từ năm 2000, bắt đầu chững lại vào
đô la Mỹ xuất khẩu sang Trung Quốc từ tệp Excel Dữ liệu Thương
khoảng năm 2008.
mại Trung Quốc. Biểu đồ cho thấy rõ ràng một sự thay đổi đáng kể
Biểu đồ hình tròn
Đối với nhiều loại dữ liệu, chúng tôi quan tâm đến việc hiểu tỷ lệ tương đối của từng nguồn
dữ liệu so với tổng số. Biểu đồ hình tròn hiển thị điều này bằng cách chia một vòng tròn
thành các khu vực hình tròn thể hiện tỷ lệ tương đối. Ví dụ 3.4 cung cấp một ứng dụng.
Machine Translated by Google
60
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.10
Biểu đồ có nhãn dữ liệu
và bảng dữ liệu
VÍ DỤ 3.4 Biểu đồ hình tròn cho dữ liệu điều tra dân số
Xem xét tình trạng hôn nhân của các cá nhân trong dân số Hoa Kỳ
trong hình 3.12. Biểu đồ này sử dụng tùy chọn bố cục hiển thị các
trong tệp Excel Dữ liệu Điều tra Dân số Giáo dục, một phần trong số
nhãn được liên kết với dữ liệu cũng như tỷ lệ thực dưới dạng phần
đó được thể hiện trong Hình 3.11. Để hiển thị phần pro tương đối
trăm. Cũng có thể chọn một bố cục khác hiển thị cả giá trị và/hoặc tỷ
trong mỗi danh mục, chúng ta có thể sử dụng biểu đồ hình tròn, như được hiểnlệ.
thị
Các chuyên gia trực quan hóa dữ liệu không khuyến nghị sử dụng biểu đồ hình tròn. Ví dụ, đối
chiếu biểu đồ hình tròn trong Hình 3.12 với biểu đồ cột trong Hình 3.13 cho cùng một dữ liệu. Trong
biểu đồ hình tròn, rất khó để so sánh kích thước tương đối của các khu vực; tuy nhiên, có thể dễ dàng
so sánh các thanh trong biểu đồ cột để xác định tỷ lệ tương đối của dữ liệu. Nếu bạn sử dụng biểu đồ
hình tròn, hãy giới hạn chúng ở một số lượng nhỏ danh mục, luôn đảm bảo rằng các con số cộng lại bằng
100% và sử dụng nhãn để hiển thị tên nhóm và tỷ lệ phần trăm thực tế. Tránh các biểu đồ hình tròn ba
chiều (3-D)—đặc biệt là những biểu đồ được xoay—và giữ cho chúng đơn giản.
Biểu đồ khu vực
Biểu đồ vùng kết hợp các tính năng của biểu đồ hình tròn với các tính năng của biểu đồ đường. Biểu đồ
vùng trình bày nhiều thông tin hơn biểu đồ hình tròn hoặc đường thẳng nhưng có thể làm rối trí người
quan sát với quá nhiều chi tiết nếu sử dụng quá nhiều chuỗi dữ liệu; do đó, chúng nên được sử dụng cẩn thận.
VÍ DỤ 3.5 Biểu đồ diện tích tiêu thụ năng lượng
Hình 3.14 hiển thị tổng mức tiêu thụ năng lượng (tỷ Btu) và mức tiêu
Kể từ năm 1949, tỷ lệ tiêu thụ nhiên liệu hóa thạch tương đối nhìn
thụ nhiên liệu hóa thạch từ tệp Excel Sản xuất & Tiêu thụ Năng lượng.
chung vẫn ổn định ở khoảng một nửa tổng số, cho thấy rằng các nguồn
Biểu đồ này cho thấy mặc dù tổng mức tiêu thụ năng lượng đã tăng kể
năng lượng thay thế đã không thay thế một phần đáng kể mức tiêu thụ
từ
nhiên liệu hóa thạch.
Biểu đồ phân tán
Biểu đồ phân tán cho thấy mối quan hệ giữa hai biến. Để xây dựng biểu đồ phân tán, chúng ta cần các
quan sát bao gồm các cặp biến. Ví dụ, học sinh trong một lớp có thể có điểm cho cả bài kiểm tra giữa kỳ
và cuối kỳ. Một biểu đồ phân tán sẽ cho biết liệu điểm cao hay thấp trong kỳ thi giữa kỳ có tương ứng
mạnh mẽ với điểm cao hay thấp trong kỳ thi cuối kỳ hoặc liệu mối quan hệ này có yếu hay không tồn tại.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.11
Phần điều tra dân số
Thông tin giáo dục
Hình 3.12
Biểu đồ hình tròn cho tình trạng hôn nhân
Hình 3.13
Biểu đồ cột thay thế cho tình
trạng hôn nhân: Không cao
học tốt nghiệp
61
Machine Translated by Google
62
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.14
Biểu đồ diện tích cho năng lượng
Sự tiêu thụ
VÍ DỤ 3.6 Biểu đồ phân tán cho dữ liệu bất động sản
Hình 3.15 hiển thị biểu đồ phân tán kích thước nhà (tính bằng
Giá trị thị trường nhà. Dữ liệu cho thấy rõ ràng rằng giá trị
feet vuông) so với giá trị thị trường nhà từ tệp Excel
thị trường cao hơn có liên quan đến những ngôi nhà lớn hơn.
Biểu đồ bong bóng
Biểu đồ bong bóng là một loại biểu đồ tán xạ trong đó kích thước của điểm đánh dấu dữ liệu
tương ứng với giá trị của biến thứ ba; do đó, đó là một cách để vẽ ba biến theo hai chiều.
VÍ DỤ 3.7 Biểu đồ bong bóng để so sánh các đặc điểm của cổ phiếu
Hình 3.16 hiển thị biểu đồ bong bóng để hiển thị tỷ lệ giá, P/E
tập tin So sánh cổ phiếu. Vị trí trên biểu đồ hiển thị giá và P/
(giá/thu nhập) và vốn hóa thị trường cho năm cổ phiếu khác nhau
E; kích thước của bong bóng đại diện cho vốn hóa thị trường tính
vào một ngày cụ thể trong Excel
bằng hàng tỷ đô la.
Hình 3.15
Biểu đồ phân tán Quy mô Nhà so
với Giá trị Thị trường
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
63
Hình 3.16
Biểu đồ bong bóng cho chứng khoán
so sánh
Biểu đồ Excel khác
Excel cung cấp một số biểu đồ bổ sung cho các ứng dụng đặc biệt. Có thể chọn và tạo các loại biểu đồ
bổ sung này (bao gồm cả biểu đồ bong bóng) từ nút Biểu đồ khác trong dải băng Excel. Chúng bao gồm
những điều sau đây:
Biểu đồ chứng khoán cho phép bạn vẽ biểu đồ giá cổ phiếu, chẳng hạn như mức cao nhất, thấp nhất
và đóng cửa hàng ngày. Nó cũng có thể được sử dụng cho dữ liệu khoa học như thay đổi nhiệt độ.
Biểu đồ bề mặt hiển thị dữ liệu 3-D.
Biểu đồ vành khuyên tương tự như biểu đồ hình tròn nhưng có thể chứa nhiều hơn một chuỗi
dữ liệu.
Biểu đồ radar cho phép bạn vẽ biểu đồ nhiều chiều của một số chuỗi dữ liệu.
Dữ liệu địa lý
Nhiều ứng dụng phân tích kinh doanh liên quan đến dữ liệu địa lý. Ví dụ, các vấn đề như tìm vị trí tốt
nhất cho các cơ sở sản xuất và phân phối, phân tích hoạt động bán hàng theo khu vực, vận chuyển
nguyên liệu thô và thành phẩm, và định tuyến các phương tiện như xe tải giao hàng liên quan đến dữ
liệu địa lý. Trong những vấn đề như vậy, ánh xạ dữ liệu có thể giúp theo nhiều cách khác nhau. Trực
quan hóa dữ liệu địa lý có thể làm nổi bật các tàu quan hệ dữ liệu chính, xác định xu hướng và khám
phá các cơ hội kinh doanh. Ngoài ra, nó thường có thể giúp phát hiện các lỗi dữ liệu và giúp người
dùng cuối hiểu các giải pháp, do đó làm tăng khả năng chấp nhận các mô hình quyết định. Các công ty
như Nike sử dụng dữ liệu địa lý và hệ thống thông tin để hình dung sản phẩm đang được phân phối ở đâu
và điều đó liên quan như thế nào đến thông tin nhân khẩu học và bán hàng. Thông tin này rất quan trọng
đối với các chiến lược tiếp thị. Việc sử dụng các mô hình phân tích quy tắc kết hợp với lập bản đồ dữ
liệu là công cụ mang lại thành công cho nghiên cứu Chuỗi cung ứng Bắc Mỹ của Công ty Procter & Gamble,
giúp tiết kiệm cho công ty hơn 200 triệu đô la mỗi năm.1 Chúng ta sẽ thảo luận về ứng dụng này trong
Chương 15 .
1 J. Camm và cộng sự, “Kết hợp OR/MS, Phán quyết và GIS: Tái cấu trúc Chuỗi cung ứng của P&G,” Giao diện, 27, 1 (1997): 128–142.
Machine Translated by Google
64
Chương 3 Trực quan hóa và khám phá dữ liệu
Khả năng lập bản đồ địa lý đã được giới thiệu trong Excel 2000 nhưng không khả dụng trong
Excel 2002 và các phiên bản mới hơn. Những khả năng này hiện có sẵn thông qua Microsoft MapPoint
2010, phải được mua riêng. MapPoint là công cụ lập bản đồ dữ liệu địa lý cho phép bạn trực quan
hóa dữ liệu được nhập từ Excel và các nguồn cơ sở dữ liệu khác, đồng thời tích hợp chúng vào các
ứng dụng Microsoft Office khác. Để biết thêm thông tin, hãy xem http://www.microsoft.com/mappoint/
en-us/home.aspx.
Các công cụ trực quan hóa dữ liệu Excel khác
Microsoft Excel cung cấp nhiều công cụ khác để giúp trực quan hóa dữ liệu. Chúng bao gồm các thanh
dữ liệu, thang màu và bộ biểu tượng; biểu đồ thu nhỏ và công cụ máy ảnh. Chúng tôi sẽ mô tả từng
trong số này trong các phần sau.
Thanh dữ liệu, thang màu và bộ biểu tượng
Các tùy chọn này là một phần của quy tắc Định dạng có điều kiện của Excel, cho phép bạn trực quan
hóa các giá trị số khác nhau thông qua việc sử dụng màu sắc và ký hiệu. Excel có nhiều mẫu tiêu
chuẩn để sử dụng, nhưng bạn cũng có thể tùy chỉnh các quy tắc để đáp ứng các điều kiện và phong
cách của riêng mình. Chúng tôi khuyến khích bạn thử nghiệm với những công cụ này.
VÍ DỤ 3.8 Trực quan hóa dữ liệu thông qua định dạng có điều kiện
Thanh dữ liệu hiển thị các thanh màu được chia tỷ lệ theo độ lớn của
các ô chứa giá trị lớn có màu xanh lục, giá trị nhỏ có màu đỏ và giá
các giá trị dữ liệu (tương tự như biểu đồ thanh) nhưng được đặt trực
trị ở giữa có màu vàng. Màu xanh càng đậm thì giá trị càng lớn; màu
tiếp trong các ô của một phạm vi. Hình 3.17 hiển thị các thanh dữ
đỏ càng đậm thì giá trị càng nhỏ.
liệu được áp dụng cho dữ liệu trong trang tính Doanh số sản phẩm hàng
Đối với các giá trị trung gian, bạn có thể thấy rằng các màu hòa trộn
tháng. Đánh dấu dữ liệu trong mỗi cột, nhấp vào nút Định dạng có điều
với nhau. Điều này cung cấp một cách nhanh chóng để xác định các
kiện trong nhóm Kiểu trong tab Trang chủ, chọn Thanh dữ liệu và chọn
giá trị bán hàng trong tháng của sản phẩm lớn nhất và nhỏ nhất. Mã
tùy chọn tô và màu.
màu của dữ liệu định lượng thường được gọi là bản đồ nhiệt. Chúng ta
sẽ thấy một ứng dụng khác của bản đồ nhiệt trong Chương 14.
Thang màu tô bóng các ô dựa trên giá trị số của chúng bằng cách
Cuối cùng, Bộ biểu tượng cung cấp thông tin tương tự bằng cách
sử dụng bảng màu. Đây là một tùy chọn khác trong menu Định dạng có
sử dụng các biểu tượng khác nhau như mũi tên hoặc màu đèn giao thông.
điều kiện. Ví dụ, trong Hình 3.18, chúng tôi sử dụng thang màu lục-
Hình 3.19 cho thấy một ví dụ.
vàng-đỏ, làm nổi bật
Hình 3.17
Ví dụ về thanh dữ liệu
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
65
Hình 3.18
Ví dụ về thang màu
Hình 3.19
Ví dụ về Bộ biểu tượng
đường lấp lánh
Biểu đồ thu nhỏ là đồ họa tóm tắt một hàng hoặc cột dữ liệu trong một ô. Spar klines được giới
thiệu bởi Edward Tufte, một chuyên gia nổi tiếng về trình bày dữ liệu trực quan.
Anh ấy mô tả các biểu đồ thu nhỏ là “đồ họa có kích thước bằng chữ, cường độ cao về dữ liệu, thiết
kế đơn giản”. Excel có ba loại biểu đồ thu nhỏ: dòng, cột và thắng/thua. Biểu đồ thu nhỏ dòng rõ
ràng hữu ích cho dữ liệu chuỗi thời gian, trong khi biểu đồ thu nhỏ cột phù hợp hơn cho dữ liệu phân loại.
Sparklines thắng-thua rất hữu ích cho dữ liệu di chuyển lên hoặc xuống theo thời gian. Chúng
được tìm thấy trong nhóm Sparklines trong menu Chèn trên dải băng.
VÍ DỤ 3.9 Ví dụ về Sparklines
Chúng tôi sẽ lại sử dụng dữ liệu Bán sản phẩm hàng tháng. Hình
Hình 3.21 cho thấy một trang tính đã sửa đổi, trong đó chúng
3.20 hiển thị biểu đồ thu nhỏ trong hàng 14 cho mỗi sản phẩm.
tôi tính toán phần trăm thay đổi từ tháng này sang tháng khác
Trong cột G, chúng tôi hiển thị biểu đồ thu nhỏ cột, về cơ bản
cho sản phẩm A và B. Biểu đồ thu được-thua ở hàng 14 cho thấy
là biểu đồ cột nhỏ. Nói chung, bạn cần mở rộng độ rộng của hàng
các mẫu doanh số bán hàng tăng và giảm, cho thấy rằng sản phẩm A
hoặc cột để hiển thị chúng một cách hiệu quả. Tuy nhiên, hãy
có một mẫu theo chu kỳ trong khi sản phẩm B thay đổi theo kiểu
lưu ý rằng độ dài của các thanh không được chia tỷ lệ phù hợp
ngẫu nhiên hơn. Nếu bạn bấm vào bất kỳ ô nào có chứa biểu đồ thu
với dữ liệu; ví dụ: trong trường hợp đầu tiên, sản phẩm D và E
nhỏ, tab Thiết kế Công cụ biểu đồ thu nhỏ sẽ xuất hiện, cho phép
có giá trị bằng khoảng một phần ba Sản phẩm E nhưng các thanh
bạn tùy chỉnh màu sắc và các tùy chọn khác.
không được chia tỷ lệ chính xác. Vì vậy, hãy cẩn thận khi sử dụng chúng.
Machine Translated by Google
66
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.20
Biểu đồ thu nhỏ Dòng và Cột
Hình 3.21
Sparklines thắng-thua
Công cụ máy ảnh Excel
Một tính năng ít được biết đến của Excel là công cụ máy ảnh. Điều này cho phép bạn tạo các ảnh
trực tiếp thuộc nhiều phạm vi khác nhau từ các trang tính khác nhau mà bạn có thể đặt trên một
trang, định cỡ và sắp xếp chúng dễ dàng. Chúng chỉ đơn giản là các hình ảnh được liên kết của
các phạm vi ban đầu và ưu điểm là khi bất kỳ dữ liệu nào được thay đổi hoặc cập nhật, ảnh chụp
từ máy ảnh cũng vậy. Điều này đặc biệt có giá trị để in tóm tắt khi bạn cần trích xuất dữ liệu
từ nhiều trang tính, hợp nhất PivotTable (được giới thiệu ở phần sau của chương này) trên một
trang hoặc để tạo bảng điều khiển khi các bảng và biểu đồ nằm rải rác trên nhiều trang tính.
Để sử dụng cả camera, trước tiên hãy thêm camera đó vào Thanh công cụ truy cập nhanh (tập hợp
các nút phía trên ruy-băng). Từ menu Tệp, chọn Tùy chọn rồi chọn Thanh công cụ Truy nhập Nhanh.
Chọn Lệnh, rồi chọn Lệnh Không có trong Dải băng. Chọn Máy ảnh và thêm nó.
Sau đó nó sẽ hiện ra như hình 3.22. Để sử dụng nó, chỉ cần bôi đen một dãy ô
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
67
Hình 3.22
Nút Công cụ Máy ảnh Excel
(nếu bạn muốn chụp một biểu đồ, hãy đánh dấu một dãy ô bao quanh nó), nhấp vào nút công cụ máy ảnh rồi
nhấp vào vị trí bạn muốn đặt ảnh. Bạn có thể định cỡ ảnh giống như bất kỳ đối tượng Microsoft Excel nào
khác. Chúng tôi sẽ minh họa công cụ này ở phần sau của chương khi thảo luận về PivotTable.
Truy vấn dữ liệu: Bảng, Sắp xếp và Lọc
Người quản lý thực hiện nhiều truy vấn về dữ liệu. Ví dụ: trong cơ sở dữ liệu Đơn đặt hàng (Hình 1.3),
họ có thể quan tâm đến việc tìm kiếm tất cả các đơn đặt hàng từ một nhà cung cấp nhất định, tất cả các
đơn đặt hàng cho một mặt hàng cụ thể hoặc theo dõi đơn đặt hàng theo dữ liệu đơn đặt hàng. Để giải quyết
các truy vấn này, chúng ta cần sắp xếp dữ liệu theo một cách nào đó. Trong các trường hợp khác, các nhà
quản lý có thể quan tâm đến việc trích xuất một bộ hồ sơ có các đặc điểm nhất định. Điều này được gọi là
lọc dữ liệu. Ví dụ: trong cơ sở dữ liệu Đơn đặt hàng, người quản lý có thể quan tâm đến việc trích xuất
tất cả các bản ghi tương ứng với một mặt hàng nhất định.
Excel cung cấp một cách thuận tiện để định dạng cơ sở dữ liệu để hỗ trợ phân tích, được gọi là Bảng.
VÍ DỤ 3.10 Tạo một bảng Excel
Chúng tôi sẽ sử dụng tệp Dữ liệu rủi ro tín dụng để minh họa
để bạn xác minh.) Phạm vi bảng bây giờ sẽ được định dạng ted
một bảng Excel. Đầu tiên, chọn phạm vi dữ liệu, bao gồm tiêu
và sẽ tự động tiếp tục khi dữ liệu mới được nhập vào. Hình
đề (một lối tắt hữu ích là chọn ô đầu tiên ở góc trên bên
3.23 cho thấy một phần của kết quả. Lưu ý rằng các hàng được
trái, sau đó bấm Ctrl+Shift+mũi tên xuống, rồi bấm
tô bóng và mỗi tiêu đề cột có một mũi tên thả xuống để lọc dữ
Ctrl+Shift+mũi tên phải). Tiếp theo, nhấp vào Bảng từ Bảng
liệu (chúng ta sẽ thảo luận vấn đề này ngay sau đây). Nếu bạn
nhóm trên tab Chèn và đảm bảo rằng hộp cho Bảng của tôi có
bấm vào trong một bảng, tab Thiết kế Công cụ Bảng sẽ xuất
tiêu đề được chọn. (Bạn cũng có thể chỉ cần chọn một ô trong
hiện trong dải băng, cho phép bạn thực hiện nhiều việc khác
bảng rồi nhấp vào Bảng
nhau, chẳng hạn như thay đổi bảng phối màu, di chuyển lại
từ menu Chèn. Excel sẽ chọn phạm vi bảng
các bản sao, thay đổi định dạng, v.v.
Hình 3.23
Phần dữ liệu rủi ro tín dụng được định dạng dưới dạng bảng Excel
Machine Translated by Google
68
Chương 3 Trực quan hóa và khám phá dữ liệu
Bảng Excel cho phép bạn sử dụng các tham chiếu bảng để thực hiện các phép tính cơ bản, như
minh họa trong ví dụ tiếp theo.
VÍ DỤ 3.11 Tính toán dựa trên bảng
Giả sử rằng trong bảng Dữ liệu Rủi ro Tín dụng, chúng ta muốn
của tiêu đề trong cột C. Một trong những ưu điểm của việc
tính tổng số tiền tiết kiệm được trong cột C. Tất nhiên,
làm này là nếu chúng ta thêm các bản ghi mới vào bảng, phép
chúng ta có thể chỉ cần sử dụng hàm SUM(C4:C428).
tính sẽ được cập nhật tự động và chúng ta không phải thay đổi
Tuy nhiên, với một bảng, chúng ta có thể sử dụng công thức =
phạm vi trong công thức hoặc tính sai kết quả nếu chúng ta
SUM(Table1[Savings]). Tên bảng, Table1, có thể được tìm thấy
quên. Một ví dụ khác, chúng ta có thể tìm số lượng chủ sở hữu
(và thay đổi) trong nhóm Thuộc tính của tab Thiết kế Công cụ
nhà bằng cách sử dụng hàm =COUNTIF(Table1[Housing], “Own”).
Bảng. Lưu ý rằng Tiết kiệm là tên
Nếu bạn thêm các bản ghi bổ sung vào cuối bảng, chúng sẽ tự động được đưa vào và định dạng,
đồng thời nếu bạn tạo biểu đồ dựa trên dữ liệu, biểu đồ sẽ tự động được cập nhật nếu bạn thêm các
bản ghi mới.
Sắp xếp dữ liệu trong Excel
Excel cung cấp nhiều cách để sắp xếp danh sách theo hàng hoặc cột hoặc theo thứ tự tăng dần hoặc
giảm dần và sử dụng lược đồ sắp xếp tùy chỉnh. Có thể tìm thấy các nút sắp xếp trong Excel dưới
tab Dữ liệu trong nhóm Sắp xếp & Lọc (xem Hình 3.24). Chọn một ô duy nhất trong cột mà bạn muốn
sắp xếp và nhấp vào nút “AZ mũi tên xuống” để sắp xếp từ nhỏ nhất đến lớn nhất hoặc nút “AZ mũi tên
lên” để sắp xếp từ lớn nhất đến nhỏ nhất. Bạn cũng có thể nhấp vào nút Sắp xếp
để chỉ định tiêu chí cho các khả năng sắp xếp nâng cao hơn.
VÍ DỤ 3.12 Sắp xếp dữ liệu trong cơ sở dữ liệu đơn đặt hàng
Trong Chương 1 (Hình 1.3), chúng tôi đã giới thiệu bộ dữ liệu
tab dữ liệu. Excel sẽ chọn toàn bộ phạm vi dữ liệu và sắp
cho các đơn đặt hàng của một nhà sản xuất linh kiện máy bay.
xếp theo tên của nhà cung cấp trong cột A, một phần trong đó
Giả sử chúng ta muốn sắp xếp dữ liệu theo nhà cung cấp.
được thể hiện trong Hình 3.25. Điều này cho phép bạn dễ dàng
Nhấp vào bất kỳ ô nào trong cột A của dữ liệu (nhưng không
xác định các bản ghi tương ứng với tất cả các đơn đặt hàng
phải ô tiêu đề A3) và sau đó nhấp vào nút “AZ down” trong
từ một nhà cung cấp cụ thể.
Phân tích Pareto
Phân tích Pareto là một thuật ngữ được đặt theo tên của một nhà kinh tế người Ý, Vilfredo Pareto,
người vào năm 1906 đã quan sát thấy rằng một tỷ lệ lớn của cải ở Ý thuộc sở hữu của một tỷ lệ tương
đối nhỏ người dân. Nguyên tắc Pareto thường thấy trong nhiều tình huống kinh doanh.
Ví dụ: một tỷ lệ lớn doanh số thường đến từ một tỷ lệ nhỏ khách hàng, một tỷ lệ lớn lỗi chất lượng
chỉ bắt nguồn từ một vài nguồn hoặc một tỷ lệ lớn giá trị hàng tồn kho tương ứng với một tỷ lệ nhỏ
Hình 3.24
Tab dữ liệu ruy-băng Excel
mặt hàng. Do đó, nguyên tắc Pareto còn thường được gọi là “quy tắc 80–20”, đề cập đến tình huống
chung
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.25
Phần đơn đặt hàng
69
trong đó 80% của một số đầu ra đến từ 20% của một số đầu vào. Phân tích Pareto dựa trên
việc sắp xếp dữ liệu và tính toán tỷ lệ phần trăm tích lũy của đặc tính quan tâm.
Cơ sở dữ liệu được sắp xếp theo nhà cung cấp
Tên
VÍ DỤ 3.13 Áp dụng Nguyên tắc Pareto
Tệp Excel Xe đạp hàng tồn kho liệt kê hàng tồn kho của các mẫu xe đạp
giá trị hàng tồn kho và tính tỷ lệ phần trăm của tổng giá trị hàng tồn kho
trong một cửa hàng bán đồ thể thao (xem các cột từ A đến F trong Hình
cho từng sản phẩm và tỷ lệ phần trăm tích lũy. Xem các cột từ G đến I
3.26).2 Để tiến hành phân tích Pareto, trước tiên chúng tôi tính giá trị
trong Hình 3.26. Chúng tôi thấy rằng khoảng 75% giá trị hàng tồn kho được
hàng tồn kho của từng sản phẩm bằng cách nhân số lượng hiện có bằng chi
chiếm dưới 40% (9 trên 24) mặt hàng. Nếu những hàng tồn kho có giá trị cao
phí mua hàng; đây là số tiền đầu tư vào các mặt hàng hiện đang có trong
này không bán chạy, người quản lý cửa hàng có thể muốn giữ ít hàng hơn
kho. Sau đó, chúng tôi sắp xếp dữ liệu theo thứ tự giảm dần trong
trong kho.
Hình 3.26
Phân tích Pareto của xe đạp
2Dựa trên Kenneth C. Laudon và Jane P. Laudon, Essentials of Management Information Systems, tái bản
Hàng tồn kho
lần thứ 9. (Sông Thượng Saddle, NJ: Prentice Hall, 2011).
Machine Translated by Google
70
Chương 3 Trực quan hóa và khám phá dữ liệu
Lọc dữ liệu
Đối với các tệp dữ liệu lớn, việc tìm kiếm một tập hợp con cụ thể các bản ghi đáp ứng các đặc điểm nhất
định bằng cách sắp xếp có thể rất tẻ nhạt. Excel cung cấp hai công cụ lọc: AutoFilter cho các tiêu chí
đơn giản và Advanced Filter cho các tiêu chí phức tạp hơn. Những công cụ này được hiểu rõ nhất bằng
cách làm việc thông qua một số ví dụ.
VÍ DỤ 3.14 Lọc Bản ghi theo Mô tả Mục
Trong cơ sở dữ liệu Đơn đặt hàng, giả sử chúng ta quan tâm
vào gói Bolt-nut, như trong Hình 3.27.
đến việc trích xuất tất cả các bản ghi tương ứng với gói
Nhấp vào nút OK, và công cụ Lọc sẽ chỉ hiển thị những đơn đặt
Bolt-nut item. Đầu tiên, chọn bất kỳ ô nào trong cơ sở dữ
hàng cho mục này (Hình 3.28). Trên thực tế, công cụ lọc không
liệu. Sau đó, từ tab Dữ liệu Excel, nhấp vào Bộ lọc trong
giải nén các bản ghi; nó chỉ ẩn các bản ghi không phù hợp với
nhóm Sắp xếp & Lọc. Sau đó, một mũi tên thả xuống sẽ được
tiêu chí. Tuy nhiên, bạn có thể sao chép và dán dữ liệu vào
hiển thị ở phía bên phải của mỗi cột tiêu đề. Nhấp vào một
một trang tính Excel khác, tài liệu Microsoft Word hoặc bản
trong số này sẽ hiển thị hộp thả xuống. Đây là các tùy chọn
trình bày PowerPoint chẳng hạn. Để khôi phục tệp dữ liệu
để lọc trên cột dữ liệu đó. Nhấp vào cái bên cạnh tiêu đề Mô
gốc, hãy nhấp lại vào mũi tên thả xuống rồi nhấp vào Xóa bộ
tả Mục. Bỏ chọn hộp Chọn tất cả rồi chọn hộp tương ứng
lọc khỏi “Mô tả vật phẩm”.
Hình 3.27
Chọn bản ghi cho
Gói Bolt-Nut
Hình 3.28
Lọc Kết quả cho Gói Bolt-Nut
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
71
VÍ DỤ 3.15 Lọc Bản ghi theo Chi phí Hạng mục
Trong ví dụ này, giả sử chúng ta muốn xác định tất cả các bản
hiển thị hộp thoại Bộ lọc tự động tùy chỉnh (Hình 3.30) cho phép
ghi trong cơ sở dữ liệu Đơn đặt hàng có chi phí mặt hàng ít nhất
bạn chỉ định tối đa hai tiêu chí cụ thể bằng cách sử dụng logic
là $200. Đầu tiên, nhấp vào mũi tên thả xuống trong cột Chi
“và” và “hoặc”. Nhập 200 vào ô như hình rồi nhấn OK. Công cụ này
phí Vật phẩm và đặt con trỏ lên Bộ lọc Số.
sẽ hiển thị tất cả các bản ghi có một mặt hàng có giá từ 200 đô
Điều này sẽ hiển thị một danh sách các tùy chọn, như thể hiện trong Hình 3.29.
la trở lên.
Chọn lớn hơn
Hoặc
Tương đương với . . . từ danh sách. Cái này
AutoFilter tạo tiêu chí lọc dựa trên loại dữ liệu được lọc. Đối với trường hợp,
trong Hình 3.29, chúng ta thấy rằng danh sách menu Bộ lọc Số bao gồm các tiêu chí số như
“bằng nhau”, “không bằng nhau”, v.v. Nếu bạn chọn lọc theo Ngày đặt hàng hoặc Ngày đến,
các công cụ Bộ lọc tự động sẽ hiển thị một danh sách menu Bộ lọc ngày khác để lọc bao
gồm “ngày mai”, “tuần tới”, “từ đầu năm đến nay”, v.v.
AutoFilter có thể được sử dụng tuần tự để “đi sâu” vào dữ liệu. Ví dụ: sau khi lọc
kết quả theo gói Bolt-nut trong Hình 3.28, chúng ta có thể lọc theo ngày đặt hàng và chọn
tất cả các đơn đặt hàng được xử lý trong tháng 9.
Hình 3.29
Chọn bản ghi cho
Lọc chi phí mặt hàng
Hình 3.30
Hộp thoại Bộ lọc Tự động Tùy chỉnh
Machine Translated by Google
72
Chương 3 Trực quan hóa và khám phá dữ liệu
Phân tích trong thực tế: Khám phá giá trị của phân tích dữ liệu
tại Allders International3
Allders International chuyên về các hoạt động miễn thuế
với 82 cửa hàng bán lẻ miễn thuế trên khắp châu Âu, bao
gồm các cửa hàng ở sân bay, cảng biển và trên các chuyến
phà xuyên kênh. Giống như hầu hết các cửa hàng bán lẻ,
Allders International phải theo dõi hàng loạt dữ liệu về
điểm bán hàng để hỗ trợ các quyết định về kết hợp sản
phẩm và hàng tồn kho. Những mặt hàng dự trữ tại mỗi cửa
hàng của nó có thể có tác động đáng kể đến lợi nhuận của
công ty. Để hỗ trợ họ, họ đã triển khai kho dữ liệu dựa
trên máy tính để duy trì dữ liệu. Trước khi làm điều này,
họ phải phân tích một lượng lớn dữ liệu trên giấy. Quy
Ermek/
Shutterstock.com
trình thủ công như vậy quá tải và tốn thời gian nên các
phân tích thường quá muộn để cung cấp thông tin hữu ích
cho các quyết định của họ.
Kho dữ liệu cho phép công ty thực hiện các truy vấn đơn
giản, chẳng hạn như tìm hiệu suất của một mặt hàng cụ
(nhóm các mặt hàng tương tự) nhận thấy rằng khoảng 20% dòng
thể trên tất cả các cửa hàng bán lẻ hoặc hiệu quả tài
sản phẩm đang tạo ra 80% lợi nhuận của nó. Điều này cho
chính của một cửa hàng cụ thể, một cách nhanh chóng và dễ
phép họ loại bỏ có chọn lọc một số mặt hàng khỏi 80% dòng
dàng. Điều này cho phép họ xác định mặt hàng nào trong
sản phẩm khác, giúp giải phóng không gian trên kệ cho các
kho hoặc cửa hàng đang hoạt động kém hiệu quả.
mặt hàng sinh lời nhiều hơn, đồng thời giảm chi phí tồn kho
Chẳng hạn, phân tích Pareto về các dòng sản phẩm của nó
và nhà cung cấp.
Phương pháp thống kê để tóm tắt dữ liệu
Thống kê, theo định nghĩa của David Hand, cựu chủ tịch Hiệp hội Thống kê Hoàng gia ở Anh, vừa là
khoa học về sự không chắc chắn vừa là công nghệ trích xuất thông tin từ dữ liệu.4 Thống kê liên quan
đến việc thu thập, tổ chức, phân tích, giải thích và trình bày dữ liệu. Một thống kê là một phép đo
tóm tắt dữ liệu. Chắc chắn bạn đã quen thuộc với khái niệm thống kê trong cuộc sống hàng ngày được
đưa tin trên báo chí và phương tiện truyền thông: tỷ lệ trung bình đánh bóng chày, hiệu suất đến đúng
giờ của hãng hàng không và thống kê kinh tế như Chỉ số giá tiêu dùng chỉ là một vài ví dụ.
Các phương pháp thống kê rất cần thiết cho phân tích kinh doanh và được sử dụng xuyên suốt cuốn
sách này. Microsoft Excel hỗ trợ phân tích thống kê theo hai cách:
1. Với các hàm thống kê được nhập trực tiếp vào các ô của bảng tính hoặc em
giường trong công thức
2. Với phần bổ trợ Excel Analysis Toolpak để thực hiện các tính toán thống kê phức tạp
hơn. Chúng tôi muốn chỉ ra rằng Excel cho Mac không hỗ trợ Bộ công cụ phân tích. Một
số thủ tục này có sẵn miễn phí
3Dựa trên Stephen Pass, “Discovering Value in a Mountain of Data,” OR/MS Today, 24, 5, (Tháng 12 năm
1997): 24–28. (OR/MS Today là tiền thân của tạp chí Analytics.)
4David Hand, “Statistics: An Overview,” trong Miodrag Lovric, Ed., International Encyclopedia of
Statistical Science, Springer Major Reference; http://www.springer.com/statistics/book/978-3-642-04897-5,
tr. 1504.
Machine Translated by Google
73
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.31
ấn bản của StatPlus:mac LE (www.analystsoft.com). Bạn cũng có thể mua phiên bản hoàn
Phần đơn đặt hàng
cơ sở dữ liệu
chỉnh hơn, StatPlus:mac Pro. Tuy nhiên, một số khác biệt đáng kể tồn tại trong các
công cụ giữa các phiên bản Excel và Mac.
Chúng tôi sử dụng cả chức năng thống kê và Toolpak phân tích trong nhiều ví dụ.
Thống kê mô tả đề cập đến các phương pháp mô tả và tóm tắt dữ liệu bằng các kỹ thuật dạng
bảng, trực quan và định lượng. Trong phần còn lại của chương này, chúng tôi tập trung vào một số
phương pháp dạng bảng và trực quan để phân tích dữ liệu phân loại và số; trong chương tiếp theo,
chúng tôi thảo luận về các biện pháp định lượng.
Phân phối tần suất cho dữ liệu phân loại
Phân phối tần suất là một bảng hiển thị số lượng quan sát trong mỗi nhóm trong số các nhóm không
chồng lấp. Các biến phân loại tự nhiên xác định các nhóm trong phân bố tần số. Ví dụ, trong cơ sở
dữ liệu Đơn đặt hàng (xem Hình 3.31), hoặc các đơn đặt hàng đã được đặt cho các mặt hàng sau:
Chốt khung máy bay
van gia công
Gói bu lông-đai ốc
Vòng chữ O
Bảng điều khiển
Decal dán tường
Decal dán cửa
Máy đo áp suất
Đầu nối điện
Cáp được bảo vệ / ft.
miếng đệm
bảng điều khiển bên
đề can nở
Để xây dựng phân bố tần suất, chúng ta chỉ cần đếm số lượng quan sát xuất hiện trong mỗi danh mục.
Điều này có thể được thực hiện bằng hàm Excel COUNTIF.
VÍ DỤ 3.16 Xây dựng phân phối tần số cho các mặt hàng trong cơ sở
dữ liệu đơn đặt hàng
Đầu tiên, liệt kê các tên mục trong một cột trên bảng tính.
phân phối quency cho các mặt hàng được thể hiện trong Hình 3.33.
Chúng tôi đã sử dụng cột A, bắt đầu từ ô A100, thấp hơn mảng
Do đó, công ty đã đặt 14 đơn đặt hàng cho Bộ phận buộc khung
dữ liệu hiện có. Điều quan trọng là sử dụng tên chính xác như
máy bay và 11 đơn đặt hàng cho gói Bolt-nut. Chúng ta cũng có
được sử dụng trong tệp dữ liệu. Để đếm số lượng đơn hàng đã đặt
thể xây dựng biểu đồ cột để trực quan hóa các tần số này, như
cho mỗi mặt hàng, hãy sử dụng hàm = COUNTIF($D$4:$D$97,
trong Hình 3.34. Chúng ta có thể muốn sắp xếp những thứ này
cell_reference), trong đó tham chiếu ô_là ô chứa tên mặt hàng,
ô A101 của chúng ta. Điều này được thể hiện trong Hình 3.32.
kết quả miễn phí
bằng cách sử dụng phân tích Pareto để hiểu rõ hơn về tần suất
đặt hàng.
Machine Translated by Google
74
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.32
Sử dụng hàm COUNTIF để tạo tần
số
Phân bổ
Hình 3.33
Phân phối tần số cho
Mặt hàng đã mua
Hình 3.34
Biểu đồ cột cho tần suất
Phân phối vật phẩm
đã mua
Phân phối tần số tương đối
Chúng tôi có thể biểu thị các tần số dưới dạng phân số hoặc tỷ lệ của tổng số; đây được gọi là
tần số tương đối. Nếu một tập dữ liệu có n quan sát, tần suất tương đối của loại i được tính là
tần suất tương đối của loại i
tần suất của loại i
N
(3.1)
Chúng ta thường nhân các tần số tương đối với 100 để biểu thị chúng dưới dạng phần trăm. Phân
phối tần suất tương đối là một bản tóm tắt dạng bảng về tần suất tương đối của tất cả các danh mục.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
75
Hình 3.35
Tần số tương đối
Phân phối cho các mặt hàng
đã mua
VÍ DỤ 3.17 Xây dựng phân bố tần suất tương đối cho các mặt hàng
trong cơ sở dữ liệu đơn đặt hàng
Các tính toán cho tần số tương đối là đơn giản. Đầu tiên, tính
Sau đó, bạn sao chép công thức này xuống cột để tính các tần
tổng các tần suất để tìm tổng số (lưu ý rằng tổng các tần số
số tương đối khác. Lưu ý rằng tổng các tần số tương đối phải
phải bằng tổng số quan sát, n). Sau đó chia tần suất của từng
bằng 1.0. Một biểu đồ hình tròn về tần số đôi khi được sử dụng
loại cho giá trị này. Hình 3.35 cho thấy phân phối tần suất
để hiển thị các tỷ lệ này một cách trực quan, mặc dù nó hấp
tương đối cho các mặt hàng trong đơn đặt hàng.
dẫn hơn đối với một số lượng nhỏ các danh mục. Đối với một số
lượng lớn các danh mục, biểu đồ cột hoặc thanh sẽ hoạt động
Ví dụ, công thức trong ô C101 là =B101/$B$114 .
tốt hơn.
Phân phối tần số cho dữ liệu số
Đối với dữ liệu số bao gồm một số lượng nhỏ các giá trị rời rạc, chúng ta có thể xây dựng
phân bố tần suất tương tự như cách chúng ta đã làm đối với dữ liệu phân loại; nghĩa là,
chúng ta chỉ cần sử dụng COUNTIF để đếm tần số của từng giá trị rời rạc.
VÍ DỤ 3.18 Tần suất và Phân bố tần số tương đối cho các thuật ngữ A/P
Trong dữ liệu Đơn đặt hàng, các thuật ngữ A/P đều là các số
Biểu đồ thanh thể hiện tỷ lệ, hoặc tần suất tương đối,
nguyên 15, 25, 30 và 45. Tần suất và phân bố tần số tương đối
trong Hình 3.37, cho thấy rõ ràng rằng phần lớn các đơn đặt
cho những dữ liệu này được thể hiện trong Hình 3.36.
hàng có kỳ hạn thanh toán là 30 tháng.
Công cụ Biểu đồ Excel
Một mô tả đồ họa về phân phối tần số cho dữ liệu số ở dạng biểu đồ cột được gọi là
biểu đồ. Phân phối tần suất và biểu đồ có thể được tạo bằng Công cụ phân tích trong
Excel. Để thực hiện việc này, hãy nhấp vào nút Công cụ phân tích dữ liệu trong
Hình 3.36
Tần số và tương đối
Phân phối tần số cho
Điều khoản A/P
Machine Translated by Google
76
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.37
Biểu đồ thanh tương đối
Tần suất của Điều khoản A/P
nhóm Phân tích trong tab Dữ liệu trong thanh menu Excel và chọn Biểu đồ từ danh sách.
Trong hộp thoại (xem Hình 3.38), chỉ định Phạm vi đầu vào tương ứng với dữ liệu.
Nếu bạn bao gồm tiêu đề cột, hãy chọn hộp Nhãn để Excel biết rằng phạm vi chứa nhãn.
Phạm vi Thùng xác định các nhóm (Excel gọi các “thùng” này) được sử dụng để phân phối
tần suất. Nếu bạn không chỉ định Phạm vi Bin, Excel sẽ tự động xác định các giá trị
bin cho phân bố tần suất và biểu đồ, điều này thường dẫn đến một lựa chọn khá kém. Nếu
bạn có các giá trị rời rạc, hãy thiết lập một cột chứa các giá trị này trong bảng tính
của bạn cho phạm vi bin và chỉ định phạm vi này trong trường Phạm vi Bin. Chúng tôi mô
tả ngắn gọn cách xử lý dữ liệu liên tục. Chọn hộp Kết xuất biểu đồ để hiển thị biểu
đồ bên cạnh phân phối tần số. Bạn cũng có thể sắp xếp các giá trị dưới dạng biểu đồ
Pareto và hiển thị tần số tích lũy bằng cách chọn các hộp bổ sung.
VÍ DỤ 3.19 Sử dụng Công cụ Biểu đồ
Chúng tôi sẽ tạo phân phối tần suất và biểu đồ cho biến Điều
Nếu bạn chọn hộp Nhãn, điều quan trọng là cả Phạm vi Đầu
khoản A/P trong cơ sở dữ liệu Đơn đặt hàng.
vào và Phạm vi Thùng rác đều có nhãn được bao gồm trong hàng
Hình 3.39 hiển thị hộp thoại biểu đồ đã hoàn thành. Phạm vi
đầu tiên. Hình 3.40 cho thấy kết quả từ công cụ này.
đầu vào bao gồm tiêu đề cột cũng như dữ liệu trong cột H. Chúng
tôi đã xác định phạm vi bin bên dưới dữ liệu trong các ô
H99:H103 như sau:
Tháng
15
25
30
45
Đối với dữ liệu số có nhiều giá trị rời rạc khác nhau ít lặp lại hoặc
liên tục, phân phối tần số yêu cầu chúng tôi xác định bằng cách chỉ định
1. số nhóm,
2. chiều rộng của mỗi nhóm, và
3. giới hạn trên và dưới của mỗi nhóm.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
77
Hình 3.38
Hộp thoại Công cụ Biểu đồ
Hình 3.39
Hộp thoại biểu đồ cho A/P
điều khoản dữ liệu
Hình 3.40
Phân phối tần số Excel
và Biểu đồ cho A/P
Điều kiện
Điều quan trọng cần nhớ là các nhóm không được chồng lên nhau để mỗi giá trị được tính
vào chính xác một nhóm.
Bạn nên xác định các nhóm sau khi kiểm tra phạm vi dữ liệu. Nói chung, bạn nên chọn
từ 5 đến 15 nhóm và phạm vi của mỗi nhóm phải bằng nhau. Bạn càng có nhiều dữ liệu, bạn
càng nên sử dụng nhiều nhóm hơn. Lưu ý rằng với ít nhóm hơn, chiều rộng của nhóm sẽ rộng
hơn. Độ rộng nhóm rộng hơn cung cấp biểu đồ "thô". Đôi khi bạn cần thử nghiệm để tìm số
lượng nhóm tốt nhất nhằm cung cấp hình ảnh trực quan hữu ích về dữ liệu. Chọn giới hạn
dưới của nhóm đầu tiên (LL) dưới dạng số nguyên nhỏ hơn giá trị dữ liệu tối thiểu và
giới hạn trên của nhóm cuối cùng (UL) dưới dạng số nguyên
Machine Translated by Google
78
Chương 3 Trực quan hóa và khám phá dữ liệu
lớn hơn giá trị dữ liệu tối đa. Nói chung, bạn nên chọn các số nguyên đẹp, tròn trịa.
Sau đó, bạn có thể tính chiều rộng nhóm là
UL - LL
chiều rộng nhóm
số nhóm
(3.2)
VÍ DỤ 3.20 Xây dựng biểu đồ và phân phối tần suất cho chi phí trên mỗi đơn
hàng
Trong ví dụ này, chúng tôi áp dụng công cụ Biểu đồ Excel cho
Điều này có nghĩa là nhóm đầu tiên bao gồm tất cả các giá trị
dữ liệu Chi phí trên mỗi đơn hàng trong cột G của cơ sở dữ
nhỏ hơn hoặc bằng $0; nhóm thứ hai bao gồm tất cả các giá trị
liệu Đơn đặt hàng. Phạm vi dữ liệu từ mức tối thiểu là 68,75
lớn hơn $0 nhưng nhỏ hơn hoặc bằng $26.000, v.v. Lưu ý rằng
USD đến mức tối đa là 127.500 USD. Bạn có thể tìm thấy điều
các nhóm không trùng nhau vì giới hạn dưới của một nhóm hoàn
này bằng cách sử dụng các hàm MIN và MAX hoặc đơn giản bằng
toàn lớn hơn giới hạn trên của nhóm trước đó. Chúng tôi khuyên
cách sắp xếp dữ liệu. Để đảm bảo rằng tất cả dữ liệu sẽ được
bạn nên sử dụng tiêu đề “Giới hạn nhóm trên” cho phạm vi
bao gồm trong một số nhóm, nên đặt giới hạn dưới của nhóm đầu
thùng rác để làm rõ điều này. Trong bảng tính, phạm vi thùng
tiên thành 0 đô la và giới hạn trên của nhóm cuối cùng là
rác này được nhập vào các ô G99:G105.
130.000 đô la. Như vậy, nếu chúng ta chọn 5 nhóm, sử dụng
phương trình (3.2) chiều rộng của mỗi nhóm là 1$130,000
Phạm vi đầu vào trong hộp thoại Biểu đồ là G4:G97. Hình 3.41
02
cho thấy kết quả. Những kết quả này cho thấy rằng phần lớn
5 = $26,000; nếu chúng ta chọn 10 nhóm, chiều rộng là
các đơn đặt hàng có giá từ 26.000 đô la trở xuống và nhanh
1$130.000
chóng giảm xuống ngoài giá trị này. Việc chọn nhiều nhóm hơn
02 10 = $13.000. Chúng tôi chọn 5 nhóm. Làm như
vậy, phạm vi bin được chỉ định là
Giới hạn nhóm trên
0,00 đô la
$26,000.00
$52,000.00
$78,000.00
$104.000,00
$130.000,00
Hình 3.41
Phân phối tần số và
Biểu đồ cho Chi phí trên mỗi
Đặt hàng (5 nhóm)
có thể giúp hiểu rõ hơn về bản chất của dữ liệu. Hình 3.42
cho thấy kết quả sử dụng 10 nhóm. Điều này cho thấy tỷ lệ đơn
đặt hàng có giá từ 13.000 đô la trở xuống cao hơn so với các
đơn đặt hàng từ 13.000 đến 26.000 đô la.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
79
Hình 3.42
Phân phối tần số và
Biểu đồ cho Chi phí trên mỗi đơn hàng
(10 nhóm)
Một hạn chế của công cụ Excel Histogram là phân phối tần suất và biểu đồ của anh ta
không được liên kết với dữ liệu; do đó, nếu bạn thay đổi bất kỳ dữ liệu nào, bạn phải lặp
lại toàn bộ quy trình để xây dựng biểu đồ và phân bố tần số mới.
Phân phối tần số tương đối tích lũy
Đối với dữ liệu số, chúng tôi cũng có thể tính toán tần suất quan sát tương đối trong mỗi
nhóm. Bằng cách tính tổng tất cả các tần số tương đối bằng hoặc thấp hơn mỗi giới hạn
trên, chúng ta thu được tần số tương đối tích lũy. Tần suất tương đối tích lũy biểu thị
tỷ lệ của tổng số quan sát rơi vào hoặc thấp hơn giới hạn trên của mỗi nhóm.
Bảng tóm tắt các tần suất tương đối tích lũy được gọi là phân bố tần suất tương đối tích
lũy.
VÍ DỤ 3.21 Tính toán tần số tương đối tích lũy
Hình 3.43 cho thấy tần suất tương đối và phân bố tần suất
Ví dụ: tần suất tương đối tích lũy trong ô D3 được tính là
tương đối tích lũy cho dữ liệu Chi phí trên mỗi đơn hàng sử
=D2+C3 = 0,000+0,447 = 0,447; tần số tương đối tích lũy trong
dụng 10 nhóm. Các tần suất tương đối được tính bằng cách sử
ô D4 được tính là =D3+C4 = 0,447+0,277 = 0,723, v.v. (Các giá
dụng cùng một phương pháp như trong Ví dụ 3.17—cụ thể là bằng
trị hiển thị được làm tròn đến ba chữ số thập phân.) Vì tần
cách chia tần suất cho tổng số quan sát (94). Trong cột D,
số tương đối phải nằm trong khoảng từ 0 đến 1 và phải cộng
chúng tôi đặt tần số tương đối cộng dồn của nhóm đầu tiên
lại bằng 1 nên tần số tích lũy cho nhóm cuối cùng phải bằng 1.
bằng với tần số tương đối của nó. Sau đó, chúng tôi thêm tần
suất tương đối của nhóm tiếp theo vào tần suất tương đối tích
lũy.
Hình 3.44 cho thấy một biểu đồ về tần suất tương đối tích lũy, được gọi là một ogive.
Từ biểu đồ này, bạn có thể dễ dàng ước tính tỷ lệ quan sát giảm xuống thấp ở một giá trị
nhất định. Ví dụ: bạn có thể thấy rằng hơn 70% dữ liệu nằm ở mức 26.000 đô la trở xuống,
khoảng 90% dữ liệu nằm ở mức 78.000 đô la trở xuống, v.v.
Machine Translated by Google
80
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.43
tương đối tích lũy
Phân phối tần số cho
Dữ liệu chi phí trên mỗi đơn đặt hàng
Hình 3.44
Ogive cho chi phí mỗi đơn hàng
Phần trăm và phần tư
Dữ liệu thường được thể hiện dưới dạng phần trăm và phần tư. Bạn chắc chắn đã quen thuộc
với phần trăm từ các bài kiểm tra tiêu chuẩn được sử dụng cho các kỳ thi tuyển sinh đại
học hoặc sau đại học (SAT, ACT, GMAT, GRE, v.v.). Phần trăm xác định tỷ lệ phần trăm của
những người dự thi khác đã đạt điểm bằng hoặc thấp hơn điểm của một cá nhân cụ thể. Nói
chung, phân vị thứ k là một giá trị bằng hoặc thấp hơn ít nhất k phần trăm của các quan
sát. Tuy nhiên, cách tính phần trăm không được chuẩn hóa. Cách phổ biến nhất để tính
phân vị thứ k là sắp xếp thứ tự các giá trị dữ liệu từ nhỏ nhất đến lớn nhất và tính thứ
hạng của phân vị thứ k bằng cách sử dụng công thức
nk
100
+ 0,5
(3.3)
trong đó n là số lượng quan sát. Làm tròn số này thành số nguyên gần nhất và lấy giá trị
tương ứng với thứ hạng này làm phân vị thứ k.
VÍ DỤ 3.22 Tính toán phần trăm
Trong dữ liệu Đơn đặt hàng, chúng tôi có n = 94 quan sát.
hoặc, được làm tròn, 85. Giá trị theo thứ tự thứ 85 là
Thứ hạng của phần trăm thứ 90 (k = 90) cho dữ liệu Chi phí
$74.375 và là phân vị thứ 90. Điều này có nghĩa là 90% chi
trên mỗi đơn hàng được tính là 94(90) 100 + 0,5 = 85,1,
phí cho mỗi đơn đặt hàng nhỏ hơn hoặc bằng 74.375 đô la và 10% cao hơn.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
81
Phần mềm thống kê sử dụng các phương pháp khác nhau thường liên quan đến nội suy
giữa các cấp thay vì làm tròn, do đó tạo ra các kết quả khác nhau. Hàm Excel
PERCENTILE.INC(mảng, k) tính toán phân vị thứ k của dữ liệu trong phạm vi được chỉ định
trong trường mảng, trong đó k nằm trong phạm vi từ 0 đến 1, bao gồm cả.
VÍ DỤ 3.23 Tính toán phần trăm trong Excel
Để tìm phân vị thứ 90 cho dữ liệu Chi phí trên mỗi đơn hàng
phần trăm là $73.737,50, khác với việc sử dụng công thức (3.3).
trong dữ liệu Đơn đặt hàng, hãy sử dụng hàm PERCENTILE của
Excel. INC(G4:G97,0,9). Cái này tính thứ 90
Excel cũng có một công cụ để sắp xếp dữ liệu từ cao đến thấp và tính toán phần trăm
được liên kết với từng giá trị. Chọn Xếp hạng và Phần trăm từ menu Phân tích Dữ liệu và
chỉ định phạm vi dữ liệu trong hộp thoại. Đảm bảo chọn hộp Nhãn trong Hàng đầu tiên nếu
phạm vi của bạn bao gồm tiêu đề trong bảng tính.
VÍ DỤ 3.24 Công cụ Xếp hạng và Phân vị trong Excel
Một phần kết quả từ công cụ Xếp hạng và Phần trăm cho dữ liệu
chúng tôi đã tính toán trong Ví dụ 3.22 là $74,375 là giá trị
Chi phí trên mỗi đơn hàng được hiển thị trong Hình 3.45. Bạn
phân vị thứ 90,3.
có thể thấy rằng giá trị Excel của phân vị thứ 90
Các phần tư chia dữ liệu thành bốn phần. Phần trăm thứ 25 được gọi là phần tư thứ
nhất, Q1 ; phần trăm thứ 50 được gọi là phần tư thứ hai, Q2 ; phần trăm thứ 75 được gọi
là phần tư thứ ba, Q3 ; và phần trăm thứ 100 là phần tư thứ tư, Q4 . Một phần tư dữ liệu
nằm dưới phần tư thứ nhất, một nửa nằm dưới phần tư thứ hai và ba phần tư nằm dưới phần
tư thứ ba. Chúng ta có thể tính toán các phần tư bằng cách sử dụng hàm QUARTILE.INC(mảng,
phần tư) của Excel, trong đó mảng chỉ định phạm vi dữ liệu và phần tư là một số nguyên
trong khoảng từ 1 đến 4, chỉ định phần tư mong muốn.
Hình 3.45
Phần xếp hạng và
Kết quả công cụ phần trăm
Machine Translated by Google
82
Chương 3 Trực quan hóa và khám phá dữ liệu
VÍ DỤ 3.25 Tính toán tứ phân vị trong Excel
Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng trong cơ sở dữ
liệu Đơn đặt hàng, chúng tôi có thể sử dụng hàm Excel =QUARTILE.INC
Chúng ta có thể kết luận rằng 25% chi phí đặt hàng rơi vào
hoặc dưới $6.757,81; 50% giảm xuống bằng hoặc dưới 15.656,25 đô la; 75%
(G4:G97,k), trong đó k nằm trong khoảng từ 1 đến 4, để tính toán
giảm xuống bằng hoặc thấp hơn 27.593,75 đô la và 100% giảm xuống bằng hoặc
các phần tư. Kết quả như sau:
thấp hơn giá trị tối đa là 127.500 đô la.
k = 1
tứ phân vị đầu tiên
k = 2
Phần tư thứ hai
$15,656.25
k = 3
Phần tư thứ ba
$27.593,75
k = 4
tứ phân vị thứ tư
$6.757,81
$127.500,00
Chúng ta có thể mở rộng những ý tưởng này sang các phần khác của dữ liệu. Ví dụ: deciles
chia dữ liệu thành 10 bộ: phân vị thứ 10, phân vị thứ 20, v.v. Tất cả các loại biện pháp này
được gọi là hồ sơ dữ liệu hoặc phân mảnh.
Bảng chéo
Một trong những công cụ thống kê cơ bản nhất được sử dụng để tóm tắt dữ liệu phân loại và
kiểm tra mối quan hệ giữa hai biến phân loại là lập bảng chéo. Lập bảng chéo là một phương
pháp dạng bảng hiển thị số lượng quan sát trong một tập dữ liệu cho các danh mục mèo con
khác nhau của hai biến phân loại. Bảng chéo thường được gọi là bảng dự phòng. Các danh mục
con của các biến phải loại trừ lẫn nhau và đầy đủ, nghĩa là mỗi quan sát chỉ có thể được
phân loại thành một danh mục con và, được đưa vào tất cả các danh mục con, chúng phải tạo
thành bộ dữ liệu hoàn chỉnh. Bảng chéo thường được sử dụng trong nghiên cứu tiếp thị để cung
cấp cái nhìn sâu sắc về đặc điểm của các phân khúc thị trường khác nhau bằng cách sử dụng
các biến phân loại như giới tính, trình độ học vấn, tình trạng hôn nhân, v.v.
VÍ DỤ 3.26 Lập bảng chéo
Chúng ta hãy xem xét cơ sở dữ liệu Giao dịch bán hàng, một phần
Biểu thị kết quả dưới dạng tỷ lệ phần trăm của một hàng
của cơ sở dữ liệu này được thể hiện trong Hình 3.46. Giả sử
hoặc cột giúp dễ dàng diễn giải sự khác biệt giữa các khu vực
chúng ta muốn xác định số lượng sách và đĩa DVD được sắp xếp
hoặc sản phẩm, đặc biệt là khi tổng số cho mỗi danh mục khác
theo vùng. Một bảng chéo sẽ có các hàng tương ứng với các vùng
nhau. Bảng 3.2 cho biết tỷ lệ phần trăm doanh số bán sách và
khác nhau và các cột tương ứng với các sản phẩm. Trong bảng,
DVD trong mỗi khu vực; điều này được tính bằng cách chia số đếm
chúng tôi liệt kê số lượng trong mỗi cặp danh mục. Một bảng chéo
cho tổng số hàng và nhân với 100 (trong Excel, chỉ cần chia số
của những dữ liệu này được thể hiện trong Bảng 3.1. Trực quan hóa
đếm cho tổng số và đối chiếu kết quả dưới dạng phần trăm bằng
dữ liệu dưới dạng biểu đồ là một cách tốt để truyền đạt kết quả.
cách bấm vào nút % trong nhóm Số trong tab Trang chủ trong dải
băng ).
Hình 3.47 cho thấy sự khác biệt giữa doanh số sản phẩm và khu
Ví dụ: chúng tôi thấy rằng mặc dù sách và DVD được bán ở khu vực
vực. Hơi khó đếm trực tiếp số lượng quan sát một cách dễ dàng
phía Tây nhiều hơn ở phía Bắc, nhưng tỷ lệ phần trăm tương đối
trong tệp dữ liệu Excel; tuy nhiên, một công cụ Excel có tên là
của từng sản phẩm là tương tự nhau, đặc biệt khi so sánh với khu
PivotTable giúp việc này trở nên dễ dàng. PivotTable được giới
vực phía Đông và phía Nam.
thiệu trong phần tiếp theo.
Machine Translated by Google
83
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.46
Phần bán hàng
Cơ sở dữ liệu giao dịch
Bảng 3.1
Lập bảng chéo doanh số bán hàng
Dữ liệu giao dịch
Bảng 3.2
Vùng đất
Sản phẩm trong từng khu vực
Hình 3.47
Biểu đồ doanh số khu vực
theo sản phẩm
đĩa DVD
Tổng cộng
Phía đông
56
42
Phi
43
42
85
62
37
99
hướng Tây
100
90
190
Tổng cộng
261
211
472
a bă
c
Phía nam
Vùng đất
Phía đông
Tỷ lệ phần trăm bán hàng của
Sách
Sách
đĩa DVD
98
Tổng cộng
57,1%
42,9%
100,0%
50,6%
49,4%
100,0%
Phía nam
62,6%
37,4%
100,0%
hướng Tây
52,6%
47,4%
100,0%
Phi
a bă
c
Machine Translated by Google
84
Chương 3 Trực quan hóa và khám phá dữ liệu
Khám phá dữ liệu bằng cách sử dụng PivotTable
Excel cung cấp một công cụ mạnh mẽ để chắt lọc một tập hợp dữ liệu phức tạp thành thông tin
có ý nghĩa: PivotTable (vâng, đó là một từ!). PivotTable cho phép bạn tạo các bản tóm tắt và
biểu đồ tùy chỉnh về thông tin chính trong dữ liệu. Có thể sử dụng PivotTable để nhanh chóng
tạo các bảng chéo và đi sâu vào một tập hợp dữ liệu lớn theo nhiều cách.
Để áp dụng PivotTable, bạn cần một tập dữ liệu có nhãn cột ở hàng đầu tiên, tương tự như
các tệp dữ liệu mà chúng ta đang sử dụng. Chọn bất kỳ ô nào trong tập dữ liệu và chọn PivotTable
từ nhóm Bảng trong tab Chèn và làm theo các bước của trình hướng dẫn. Trước tiên, Excel yêu cầu
bạn chọn một bảng hoặc dải dữ liệu; nếu bạn bấm vào bất kỳ ô nào trong ma trận dữ liệu trước
khi chèn PivotTable, Excel sẽ mặc định hiển thị toàn bộ phạm vi dữ liệu của bạn. Bạn có thể
đặt PivotTable vào một trang tính mới hoặc trong một phạm vi trống của trang tính hiện có.
Sau đó, Excel sẽ tạo một PivotTable trống, như thể hiện trong Hình 3.48.
Trong Danh sách Trường PivotTable ở phía bên phải của Hình 3.48 là danh sách các trường
tương ứng với các tiêu đề trong tệp dữ liệu. Bạn chọn những cái bạn muốn bao gồm, dưới dạng
nhãn hàng, nhãn cột, giá trị hoặc cái được gọi là Bộ lọc Báo cáo. Trước tiên, bạn nên quyết
định loại bảng nào bạn muốn tạo—nghĩa là bạn muốn trường nào cho các hàng, cột và giá trị dữ liệu.
VÍ DỤ 3.27 Tạo PivotTable
Hãy để chúng tôi tạo một bảng chéo về doanh số bán hàng theo
phương pháp tóm tắt trong PivotTable trong hộp thoại Cài đặt
khu vực theo sản phẩm, như chúng tôi đã làm trong phần trước.
Trường Giá trị được hiển thị trong Hình 3.50. Chọn ing Count
Nếu bạn kéo trường Vùng từ Danh sách Trường PivotTable trong
kết quả trong PivotTable được hiển thị trong Hình 3.51, đây là
Hình 3.48 vào vùng Nhãn Hàng, trường Sản phẩm vào vùng Nhãn
bảng chéo mà chúng tôi đã trình bày trong Bảng 3.1.
Cột và bất kỳ trường nào khác, chẳng hạn như ID khách hàng,
Các tùy chọn Cài đặt Trường Giá trị trong Hình 3.50 bao gồm
vào vùng Giá trị, bạn sẽ tạo PivotTable thể hiện trong Hình
các tùy chọn khác, chẳng hạn như Trung bình, Tối đa, Tối thiểu
3.49. Tuy nhiên, tổng giá trị ID khách hàng (mặc định) là vô
và các biện pháp thống kê khác mà chúng tôi giới thiệu trong
nghĩa; chúng tôi chỉ muốn đếm số lượng bản ghi trong mỗi danh
chương tiếp theo. Nó cũng cho phép bạn định dạng dữ liệu đúng
mục.
cách (ví dụ: tiền tệ hoặc để hiển thị một số thập phân cố
Bấm vào tab Phân tích, sau đó trong nhóm Trường Hoạt động và
định) bằng cách nhấp vào nút Định dạng Số.
chọn Cài đặt Trường. Bạn sẽ có thể thay đổi
Hình 3.48
Bảng tổng hợp trống
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
85
Hình 3.49
PivotTable mặc định cho
Doanh số khu vực theo sản phẩm
Hình 3.50
Hộp thoại Cài đặt Trường Giá trị
Hình 3.51
PivotTable cho Đếm
Doanh số khu vực theo sản phẩm
Cái hay của PivotTable là nếu bạn muốn thay đổi phân tích, bạn chỉ cần bỏ chọn
các hộp trong Danh sách trường PivotTable hoặc kéo tên trường đến các khu vực khác nhau.
Bạn có thể dễ dàng thêm nhiều biến trong các trường để tạo các dạng xem dữ liệu khác nhau.
Ví dụ: nếu bạn kéo trường Nguồn vào vùng Nhãn hàng, bạn sẽ tạo
Machine Translated by Google
86
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.52
PivotTable để bán hàng theo
Khu vực, Sản phẩm và Đơn hàng
Nguồn
PivotTable thể hiện trong Hình 3.52. Điều này cho thấy số lượng bán hàng theo khu vực và sản
phẩm cũng được chia nhỏ theo cách đặt hàng - qua e-mail hoặc trên Web.
Kéo một trường vào khu vực Bộ lọc Báo cáo trong danh sách Trường PivotTable cho phép bạn
thêm thứ nguyên thứ ba vào phân tích của mình. Ví dụ 3.28 minh họa điều này. Bạn có thể tạo các
PivotTable khác mà không cần lặp lại tất cả các bước trong Trình hướng dẫn. Chỉ cần sao chép và
dán bảng đầu tiên. Cách tốt nhất để tìm hiểu về PivotTable chỉ đơn giản là thử nghiệm với chúng.
VÍ DỤ 3.28 Sử dụng Bộ lọc Báo cáo PivotTable
Quay lại PivotTable lập bảng chéo của doanh số khu vực theo
Nhấp vào mũi tên thả xuống ở hàng 1 và bạn có thể chọn hiển
sản phẩm, hãy kéo trường Thanh toán vào khu vực Bộ lọc Báo
thị bảng chéo cho một trong các loại thanh toán khác nhau,
cáo. Điều này đặt thanh toán ở hàng 1 của PivotTable và cho
Tín dụng hoặc Paypal. Hình 3.54 cho thấy kết quả thanh toán
phép bạn chia nhỏ bảng chéo theo loại thanh toán, như thể
bằng thẻ tín dụng, chiếm 299 trên tổng số giao dịch.
hiện trong Hình 3.53.
Biểu đồ Pivot
Microsoft Excel cung cấp cách tạo PivotChart đơn giản bằng một cú nhấp chuột để trực quan hóa
dữ liệu trong PivotTable. Để hiển thị PivotChart cho PivotTable, trước tiên hãy chọn PivotTable.
Từ tab Phân tích, bấm vào PivotChart. Excel sẽ hiển thị hộp thoại Chèn Biểu đồ cho phép bạn
chọn loại biểu đồ mà bạn muốn hiển thị.
Machine Translated by Google
Chương 3 Trực quan hóa và khám phá dữ liệu
87
Hình 3.53
PivotTable được lọc bởi
Hình thức thanh toán
Hình 3.54
PivotTable lập bảng chéo cho
giao dịch thẻ tín dụng
VÍ DỤ 3.29 Một PivotChart cho dữ liệu bán hàng
Đối với PivotTable thể hiện trong Hình 3.52, chúng tôi chọn
bấm vào biểu đồ và chọn tab Thiết kế Công cụ PivotChart, bạn
hiển thị biểu đồ cột từ hộp thoại Chèn Biểu đồ.
có thể chuyển các hàng và cột để hiển thị dạng xem thay thế
Hình 3.55 hiển thị biểu đồ do Excel tạo ra. Bằng cách nhấp
của biểu đồ hoặc thay đổi hoàn toàn loại biểu đồ.
vào các nút thả xuống, bạn có thể dễ dàng thay đổi dữ liệu
được hiển thị bằng cách lọc dữ liệu. Cũng bởi
Slicers và Bảng điều khiển PivotTable
Excel 2010 đã giới thiệu slicer—một công cụ để đi sâu vào "cắt" PivotTable và hiển thị
một tập hợp con dữ liệu. Để tạo một bộ cắt cho bất kỳ cột nào trong cơ sở dữ liệu, hãy
bấm vào PivotTable và chọn Chèn Bộ cắt từ tab Phân tích trong dải băng Công cụ PivotTable.
Machine Translated by Google
88
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.55
PivotChart để bán hàng theo
Khu vực, Sản phẩm và Đơn hàng
Nguồn
VÍ DỤ 3.30 Sử dụng Slicers
Đối với PivotTable, chúng ta đã tạo trong Hình 3.51 để đếm doanh số bán
một trong các nút nguồn, Email hoặc Web, PivotTable chỉ phản ánh những
hàng theo khu vực theo sản phẩm, hãy chèn một slicer cho nguồn giao dịch
bản ghi tương ứng với nguồn đó.
như trong Hình 3.56.
Trong Hình 3.57, bây giờ chúng ta có một bảng chéo chỉ dành cho các đơn
Trong trường hợp này, chúng tôi chọn Nguồn làm slicer. Điều này dẫn đến
đặt hàng qua email.
cửa sổ slicer như trong Hình 3.57. Nếu bạn bấm vào
Hình 3.56
Chèn cửa sổ Slicers
Hình 3.57
Cross-Tabulation Sliced bởi
E-mail
Machine Translated by Google
89
Chương 3 Trực quan hóa và khám phá dữ liệu
Hình 3.58
Bảng điều khiển dựa trên máy ảnh
Cuối cùng, chúng tôi đã giới thiệu công cụ máy ảnh Excel trước đó trong chương này. Đây là
một công cụ hữu ích để tạo bảng thông tin dựa trên PivotTable. Nếu bạn tạo nhiều PivotTable và
biểu đồ khác nhau, bạn có thể dễ dàng sử dụng công cụ máy ảnh để chụp ảnh chúng và hợp nhất
chúng vào một trang tính. Theo cách này, bạn vẫn có thể thực hiện các thay đổi đối với
PivotTable và chúng sẽ tự động được phản ánh trong ảnh chụp của máy ảnh. Hình 3.58 hiển thị
một bảng điều khiển đơn giản được tạo bằng công cụ camera cho cơ sở dữ liệu Giao dịch bán hàng.
Phân tích trong thực tế: Thúc đẩy quá trình chuyển đổi kinh doanh với IBM Business
Phân tích5
Được thành lập vào những năm 1930 và có trụ sở tại Ballinger,
cần thiết để truyền đạt chiến lược bán lẻ của mình để tuyển
Texas, Mueller là nhà bán lẻ và sản xuất hàng đầu các sản
dụng nhân viên trong toàn tổ chức.
phẩm nhà kim loại tiền chế và tấm lợp kim loại. Ngày nay,
Như Mark Lack, Giám đốc Phân tích Chiến lược và
công ty bán trực tiếp các sản phẩm của mình cho người tiêu
Business Intelligence tại Mueller, giải thích: “Quá trình
dùng trên khắp vùng Tây Nam Hoa Kỳ từ 35 địa điểm trên khắp
chuyển đổi từ sản xuất thuần túy sang sản xuất do người bán
Texas, New Mexico, Louisiana và Oklahoma.
lẻ dẫn đầu đòi hỏi một cách tiếp cận bán hàng tập trung vào
khách hàng cuối hơn. Chúng tôi muốn có một cách để theo dõi
Về mặt lịch sử, Mueller trước hết coi mình là một nhà
mức độ thành công mà các nhóm bán hàng của chúng tôi trên
sản xuất; các khía cạnh bán lẻ của doanh nghiệp là trọng tâm
toàn quốc đã thích ứng với chiến lược mới này và xác định
thứ yếu. Tuy nhiên, vào đầu những năm 2000, công ty đã quyết
nơi có thể thực hiện các cải tiến.”
định chuyển trọng tâm chiến lược của mình và tập trung vào
bán lẻ hơn nhiều—tiếp cận gần hơn với khách hàng sử dụng cuối
Để theo dõi hiệu suất bán hàng, Mueller đã làm việc với
IBM để triển khai IBM Cognos Business Intelligence. Nhóm IBM
và thúc đẩy hoạt động kinh doanh mới nhờ hiểu rõ hơn về nhu
đã giúp Mueller áp dụng khoa học công nghệ vào quy trình thẻ
cầu của họ.
điểm cân bằng để quản lý chiến lược trong Cognos Metric Studio.
Để đạt được mục tiêu chuyển đổi của mình, công ty
(còn tiếp)
5 “Mueller xây dựng một doanh nghiệp tập trung vào khách hàng,” IBM Software, Business Analytics, © IBM Corporation, 2013.
Machine Translated by Google
90
Chương 3 Trực quan hóa và khám phá dữ liệu
Bằng cách sử dụng một bộ KPI chung, Mueller có thể dễ dàng xác
định điểm mạnh và điểm yếu của tất cả các nhóm bán hàng của mình
doanh nghiệp và cho phép họ đi sâu vào dữ liệu thô nếu họ cần. Đó
là một cách sử dụng thông tin trực quan và hấp dẫn hơn nhiều.”
thông qua phân tích hiệu suất bán hàng. Mark Lack cho biết: “Sử
dụng Metric Studio trong Cognos Business Intelligence, chúng tôi có
Giờ đây, Mueller sử dụng Cognos để điều tra lý do tại sao một
được bức tranh rõ ràng về hiệu suất chiến lược của từng nhóm. “Bằng
số sản phẩm bán chạy hơn ở một số khu vực nhất định, sản phẩm nào
cách sử dụng thông tin chi tiết về hiệu suất bán hàng từ thẻ điểm
của công ty có tỷ lệ chấp nhận cao nhất và sản phẩm nào có tỷ suất
Cognos, chúng tôi có thể xác định các nhóm đang đạt được mục tiêu
lợi nhuận lớn nhất. Sử dụng những hiểu biết sâu sắc này, công ty có
và xác định lý do thành công của họ. Sau đó, chúng tôi có thể chia
thể điều chỉnh chiến lược của mình để đảm bảo rằng công ty tiếp thị
sẻ kiến thức này với các nhóm hoạt động kém hiệu quả và chứng minh
đúng sản phẩm cho đúng khách hàng—tăng doanh số bán hàng.
cách họ có thể thay đổi cách làm việc để đạt được mục tiêu của mình.
Bằng cách sử dụng IBM SPSS Modeler để khai thác khối lượng dữ
“Thay vì chỉ cố gắng áp đặt hoặc thực thi các cách làm việc
liệu giao dịch khổng lồ, công ty nhằm mục đích tiết lộ các mẫu và
mới, chúng tôi có thể chỉ ra cho các nhóm bán hàng thấy chính xác
xu hướng sẽ giúp dự đoán các rủi ro và cơ hội trong tương lai, cũng
cách họ đang đóng góp cho doanh nghiệp và giải thích những gì họ cần
như phát hiện ra các vấn đề và sự bất thường chưa từng thấy trong
làm để cải thiện các chỉ số của mình.
các hoạt động hiện tại của công ty. Một dự án ban đầu với IBM
Đó là một cách hiệu quả hơn nhiều để thúc đẩy những thay đổi trong
SPSS Modeler nhằm mục đích giúp Mueller tìm cách giảm chi phí nhiên
hành vi vốn rất quan trọng đối với quá trình chuyển đổi kinh doanh.”
liệu.
Gần đây, Dịch vụ phần mềm phân tích kinh doanh của IBM đã
Sử dụng SPSS Modeler, công ty đang xây dựng một mô hình thống kê
giúp Mueller nâng cấp lên IBM Cognos 10.
giả tạo sẽ tự động hóa quá trình phân tích các giao dịch nhiên liệu
Với phiên bản mới, Mueller đã bắt đầu sử dụng một tính năng mới có
cho hàng trăm phương tiện, tài xế và tuyến đường.
tên Business Insight để trao quyền cho các nhà quản lý bán hàng
khu vực theo dõi và cải thiện hiệu suất của nhóm bán hàng bằng cách
tạo bảng điều khiển được cá nhân hóa của riêng họ.
Mark Lack cho biết: “Với SPSS Modeler, chúng tôi sẽ có thể
xác định mức tiêu thụ nhiên liệu trung bình của mỗi phương tiện
trên mỗi tuyến đường trong suốt một tuần. “SPSS sẽ tự động gắn cờ
“Báo cáo tĩnh là một điểm khởi đầu tốt, nhưng mọi người không
bất kỳ sai lệch nào so với mức tiêu thụ trung bình và sau đó chúng
thích đọc qua các trang dữ liệu để tìm thông tin họ cần,” Mark Lack
tôi sẽ đi sâu vào để tìm ra nguyên nhân gốc rễ. Giải pháp của IBM
nhận xét.
giúp chúng tôi xác định xem các giao dịch nhiên liệu cao hơn bình
“Phiên bản mới của Cognos cung cấp cho chúng tôi khả năng tạo các
thường có hợp pháp hay không—ví dụ: tài xế đi thêm dặm—
bảng điều khiển tương tác được tùy chỉnh để cung cấp cho mỗi người
dùng cái nhìn sâu sắc ngay lập tức về lĩnh vực cụ thể của riêng họ.
hoặc kết quả của một số yếu tố khác, chẳng hạn như gian lận.”
Điều khoản quan trọng
Biểu đồ vùng
biểu đồ đường
Biểu đồ cột
ogive
Biểu đồ bong bóng
phân tích Pareto
Biểu đồ cột
Biểu đồ tròn
Bảng dữ liệu thống kê
Biểu đồ Pivot
Bảng chéo
PivotTable
Tần suất tương đối tích lũy
phần tư
Phân phối tần số tương đối tích lũy
biểu đồ ra đa
Tần số tương đối
bảng điều khiển
Phân phối tần số tương đối
Hồ sơ dữ liệu (dễ gãy)
biểu đồ phân tán
Trực quan hóa dữ liệu
máy thái
Thống kê mô tả
đường lấp lánh
biểu đồ bánh rán
thống kê
Phân phối tần số
Số liệu thống kê
Biểu đồ
biểu đồ chứng khoán
phân vị thứ k
biểu đồ bề mặt
Machine Translated by Google
91
Chương 3 Trực quan hóa và khám phá dữ liệu
vấn đề và bài tập
1. Tạo biểu đồ đường cho giá đóng cửa trong tất cả các năm và biểu
dưới 10.000 đô la và phương tiện nằm ở khoảng giữa.
đồ chứng khoán cho giá cao/thấp/đóng cửa cho tháng 8 năm 2013
trong tệp Excel S&P 500.
2. Tạo biểu đồ hình tròn hiển thị bảng phân tích nghề nghiệp cho
10. Áp dụng ba màu khác nhau của thanh dữ liệu cho doanh số bán
hàng ăn trưa, ăn tối và giao hàng trong tệp Excel Doanh số bán
từng năm trong tệp Excel Công việc Khoa học và Kỹ thuật và đối
hàng tại nhà hàng để trực quan hóa số lượng bán hàng tương
chiếu những biểu đồ này với các biểu đồ cột đơn giản.
đối. Sau đó, sắp xếp dữ liệu (gợi ý: sử dụng sắp xếp tùy chỉnh)
theo ngày trong tuần bắt đầu từ Chủ Nhật. So sánh dữ liệu chưa
3. Khảo sát Facebook tệp Excel cung cấp dữ liệu được thu thập từ
một mẫu sinh viên đại học. Tạo biểu đồ phân tán thể hiện mối
quan hệ giữa Số giờ trực tuyến/tuần và Bạn bè.
sắp xếp với dữ liệu đã sắp xếp về nội dung thông tin của các
trực quan hóa.
11. Đối với cơ sở dữ liệu Cửa hàng và Bán hàng theo khu vực, hãy áp
dụng bộ biểu tượng bốn đèn giao thông để trực quan hóa việc
4. Một công ty xây dựng nhà ở quốc gia xây dựng những ngôi nhà
dành cho một gia đình và nhà phố kiểu chung cư. Tệp Excel Bán
nhà cung cấp thông tin về giá bán, chi phí lô đất, loại nhà
và khu vực của quốc gia (Trung Tây, Nam) để đóng cửa trong 1
tháng.
Xây dựng biểu đồ phân tán thể hiện mối quan hệ giữa giá bán và
chi phí lô hàng.
phân phối số lượng đơn vị đã bán cho mỗi cửa hàng, trong đó màu
xanh lá cây tương ứng với ít nhất 30 đơn vị đã bán, màu vàng
tương ứng với ít nhất 20 đơn vị nhưng ít hơn hơn 30, màu đỏ đến
ít nhất 10 nhưng ít hơn 20 và màu đen đến dưới 10.
12. Đối với file Excel Giá Đóng Chứng Khoán, a. Áp
dụng cả biểu đồ thu nhỏ dạng cột và dòng để trực quan hóa xu
hướng giá của từng cổ phiếu trong số bốn cổ phiếu trong tệp.
5. Tạo biểu đồ bong bóng cho năm trường đại học đầu tiên trong tệp
Excel Cao đẳng và Đại học mà trục x là 10% HS hàng đầu, trục y
b. Tính toán sự thay đổi hàng ngày trong chỉ số Dow Jones và
là Tỷ lệ chấp nhận và bong bóng biểu thị Chi phí cho mỗi sinh
áp dụng biểu đồ thu nhỏ thắng/thua để trực quan hóa chuyển
viên.
động tăng hoặc giảm hàng ngày của chỉ số.
6. Xây dựng biểu đồ cột cho dữ liệu trong tệp Excel Tỷ lệ thất
nghiệp của bang để cho phép so sánh tỷ lệ tháng 6 với mức cao
và thấp trong lịch sử.
Có biểu đồ nào khác tốt hơn để truyền tải thông tin này một cách
trực quan không? Tại sao hay tại sao không?
7. Tệp Excel Sử dụng Internet cung cấp dữ liệu về chúng tôi
13. Chuyển đổi cơ sở dữ liệu Bán hàng tại Cửa hàng và Khu vực thành
bảng Excel. Sử dụng các kỹ thuật được mô tả trong Ví dụ 3.11
để tìm:
Một. tổng số đơn vị đã bán
b. tổng số căn bán được tại khu vực phía Nam
c. tổng số đơn vị đã bán trong tháng mười hai
er của Internet. Xây dựng các biểu đồ thanh xếp chồng lên nhau
sẽ cho phép bạn so sánh bất kỳ sự khác biệt nào do tuổi tác
hoặc trình độ học vấn và rút ra bất kỳ kết luận nào mà bạn có
14. Chuyển đổi cơ sở dữ liệu Đơn đặt hàng sang bảng Excel. Sử dụng
các kỹ thuật được mô tả trong Ví dụ 3.11 để tìm:
thể. Một loại biểu đồ khác sẽ phù hợp hơn?
Một. tổng chi phí của tất cả các
8. Xây dựng một biểu đồ thích hợp để thể hiện tỷ lệ vốn trong mỗi
hạng mục đầu tư trong tệp Excel Retirement Portfolio.
đơn đặt hàng b. tổng số lượng ốc vít khung máy bay đã mua
c. tổng chi phí của tất cả các đơn đặt hàng với Manley
Van.
9. Trong file Excel Banking Data, áp dụng các công cụ trực quan
hóa dữ liệu sau:
Một. Sử dụng các thanh dữ liệu để trực quan hóa các giá trị tương
đối của Giá trị nhà trung bình.
b. Sử dụng thang màu để trực quan hóa các giá trị tương đối của
Tài sản hộ gia đình trung bình.
c. Sử dụng bộ biểu tượng để hiển thị số dư ngân hàng cao,
trung bình và thấp, trong đó cao trên 30.000 đô la, thấp
15. Tệp Excel Thăm dò ý kiến kinh tế cung cấp một số dữ liệu minh
họa và ý kiến về việc liệu nền kinh tế có đang đi đúng hướng
hay không. Chuyển đổi dữ liệu này thành bảng Excel và lọc
những người trả lời là chủ nhà và nhận thấy rằng nền kinh tế
đang không đi đúng hướng. Sự phân bổ các đảng phái chính trị của
họ là gì?
Machine Translated by Google
92
Chương 3 Trực quan hóa và khám phá dữ liệu
16. Mở tệp Excel cơ sở dữ liệu Cửa hàng và Doanh số khu vực.
Một. Sắp xếp dữ liệu theo đơn vị đã bán, từ cao đến thấp
b. Sắp xếp các đơn vị đã bán bằng bộ biểu tượng, trong đó màu xanh lá cây
tương ứng với mức doanh số cao, màu vàng tương ứng với doanh số trung
bình và màu đỏ tương ứng với doanh số thấp. Việc sắp xếp sẽ hiển thị
đ. Sử dụng khả năng lọc của Excel để trích xuất tất cả các
bản ghi cho những cá nhân được tuyển dụng dưới 12 tháng.
Bạn có thể rút ra bất kỳ kết luận nào về rủi ro tín dụng
liên quan đến những cá nhân này không?
22. Sử dụng hàm COUNTIF để xây dựng phân bố tần suất của các loại
tất cả các biểu tượng màu xanh lá cây trước tiên, tiếp theo là màu
cho vay trong file Excel Dữ liệu rủi ro tín dụng và xây dựng
vàng thấp và sau đó là màu đỏ.
biểu đồ cột để thể hiện kết quả một cách trực quan.
17. Sắp xếp dữ liệu trong file Excel Chất lượng ô tô
từ số lượng vấn đề cao nhất đến thấp nhất trên 100 phương
tiện bằng cách sử dụng khả năng sắp xếp trong Excel.
23. Sử dụng công cụ Biểu đồ để xây dựng phân bổ tần suất của số
tiền bán bữa trưa trong cơ sở dữ liệu Doanh số nhà hàng.
18. Trong cơ sở dữ liệu Đơn đặt hàng, hãy tiến hành phân tích
Pareto về dữ liệu Chi phí cho mỗi đơn hàng. Bạn có thể rút ra
kết luận gì?
24. Một cuộc khảo sát về tình trạng sức khỏe cộng đồng đã thu được
thông tin nhân khẩu học sau đây từ những người được hỏi:
19. Sử dụng khả năng lọc của Excel để (1) trích xuất tất cả hoặc
đơn đặt hàng cho bảng điều khiển, (2) tất cả đơn đặt hàng với
số lượng dưới 500 đơn vị và (3) tất cả đơn đặt hàng cho bảng
điều khiển với số lượng dưới 500 đơn vị trong Mua hàng Cơ sở
dữ liệu đơn đặt hàng.
20. Trong cơ sở dữ liệu Giao dịch bán hàng, hãy sử dụng khả năng lọc của
Excel để trích xuất tất cả các đơn đặt hàng đã sử dụng PayPal, tất
Tuổi
Tính thường xuyên
18 đến 29
297
30 đến 45
743
46 đến 64
602
65 +
369
cả các đơn đặt hàng dưới 100 đô la và tất cả các đơn đặt hàng trên
Tính tần số tương đối và tần số tương đối tích lũy của các
100 đô la và đã sử dụng thẻ tín dụng.
nhóm tuổi.
21. File Excel Dữ liệu rủi ro tín dụng cung cấp thông tin về các
25. Xây dựng phân bố tần suất và biểu đồ tần số cho dữ liệu dạng
khách hàng của ngân hàng đã đăng ký vay vốn.6
số trong file Excel Cell Phone Survey. Ngoài ra, tính tần số
Dữ liệu bao gồm mục đích của khoản vay, số dư tài khoản tiết
tương đối và tần số tương đối tích lũy.
kiệm và séc, số tháng là khách hàng của ngân hàng, số tháng
làm việc, giới tính, tình trạng hôn nhân, tuổi tác, tình
trạng nhà ở và số năm ở nơi cư trú hiện tại, loại công việc
và tín dụng - Phân loại rủi ro của ngân hàng.
26. Sử dụng công cụ Biểu đồ để phát triển phân bổ tần suất và
biểu đồ với sáu ngăn cho tuổi của các cá nhân trong tệp Excel
Dữ liệu Rủi ro Tín dụng. Tính toán các tần suất tương đối
và tích lũy tương đối và sử dụng biểu đồ đường để xây dựng
Một. Tính tổng số dư tài khoản séc và tài khoản tiết kiệm cho
một ogive.
từng bản ghi trong cơ sở dữ liệu.
Sau đó sắp xếp hồ sơ theo số tháng là khách hàng của ngân
hàng. Từ việc kiểm tra dữ liệu, có vẻ như các khách hàng
27. Sử dụng công cụ Histogram để xây dựng phân bổ tần suất và
biểu đồ cho số tháng là khách hàng của ngân hàng trong file
gắn bó lâu hơn với ngân hàng có nhiều tập hợp hơn không?
Excel Dữ liệu rủi ro tín dụng. Sử dụng phán đoán của bạn để
Xây dựng một biểu đồ phân tán để xác nhận kết luận của
xác định số lượng thùng sẽ sử dụng. Tính tần suất tương đối
bạn.
và tần số tương đối tích lũy, đồng thời sử dụng biểu đồ đường
để xây dựng một ogive.
b. Áp dụng phân tích Pareto để rút ra kết luận về tổng số tiền
trong tài khoản séc và tài khoản tiết kiệm.
28. Xây dựng phân phối tần suất và biểu đồ bằng cách sử dụng công
cụ Biểu đồ Excel cho dữ liệu Tổng doanh thu và Tổng lợi nhuận
c. Sử dụng khả năng lọc của Excel để trích xuất tất cả các bản ghi
cho các khoản vay mua ô tô mới. Xây dựng biểu đồ hình tròn thể
trong dữ liệu Bán hàng của tệp Excel. Đầu tiên hãy để Excel
tự động xác định số lượng thùng
hiện tình trạng hôn nhân liên quan đến các khoản vay này.
6Dựa trên Efraim Turban, Ramesh Sharda, Dursun Delen và David King, Business Intelligence: A Managerial Approach, xuất bản lần 2.
(Sông Thượng Saddle, NJ: Prentice Hall, 2011).
Machine Translated by Google
93
Chương 3 Trực quan hóa và khám phá dữ liệu
và phạm vi bin. Sau đó, xác định một tập hợp các ngăn thích hợp
theo khu vực và tổng doanh thu theo khu vực và sản phẩm trong
hơn và chạy lại công cụ Biểu đồ.
cơ sở dữ liệu Giao dịch bán hàng.
29. Tìm phân vị thứ 10 và 90 cũng như phần tư thứ 1 và thứ 3 cho
38. Tạo PivotTable cho dữ liệu trong tệp Excel Đám cưới để phân tích
chênh lệch thời gian giữa thời gian đến theo lịch trình và thời
chi phí đám cưới theo loại người chi trả và xếp hạng giá trị.
gian đến thực tế trong tệp Excel Dữ liệu Hàng không Atlanta.
Bạn đạt được kết luận gì?
39. File Excel Rin's Gym cung cấp dữ liệu mẫu về đặc điểm cơ thể
30. Tìm phân vị thứ 20 và 80 của giá nhà ở
thành viên và hoạt động trong phòng tập. Tạo PivotTables để tìm:
tệp Excel Giá trị thị trường tại nhà.
31. Tìm phân vị thứ 10 và 90 cũng như phần tư thứ 1, 2 và 3 cho tổng
số tiền của tài khoản séc và tài khoản tiết kiệm trong tệp
Excel Dữ liệu Rủi ro Tín dụng.
Một. một bảng chéo về giới tính và loại cơ thể so với phân loại
BMI
b. thời gian chạy trung bình, khoảng cách chạy, số ngày nâng tạ,
thời gian tập nâng và thời gian tập gym theo giới tính.
32. Xây dựng các bảng chéo về Giới tính so với Nhà cung cấp dịch vụ
và Loại so với Cách sử dụng trong Khảo sát điện thoại di động
tệp Excel. Bạn có thể kết luận gì từ phân tích này?
Tóm tắt kết luận của bạn.
40. Tạo bảng điều khiển hữu ích cho từng cơ sở dữ liệu sau. Sử dụng
các biểu đồ và bố cục phù hợp (ví dụ: Giải thích lý do bạn chọn
33. Sử dụng PivotTable để xây dựng bảng chéo cho mục đích rủi ro khoản
vay và tín dụng trong tệp Excel Dữ liệu Rủi ro Tín dụng. Minh
họa kết quả trên PivotChart.
các thành phần của trang tổng quan và cách người quản lý có thể
sử dụng chúng.
Một. Nhà trọ của Tổng thống
b. Bán hàng nhà hàng
34. Sử dụng PivotTable để tạo bảng chéo cho tình trạng hôn nhân và
loại nhà ở trong tệp Excel Dữ liệu Rủi ro Tín dụng. Minh họa kết
c. Bán hàng tại cửa hàng và khu vực
đ. Ngân hàng lựa chọn nhân dân
quả trên PivotChart.
41. Một nhà nghiên cứu tiếp thị đã khảo sát 92 cá nhân, hỏi họ xem
họ có thích ý tưởng sản phẩm mới hay không.
35. Tạo PivotTable để tìm số tiền chi phí đi lại trung bình cho mỗi
Các kết quả được hiển thị dưới đây:
đại diện bán hàng trong tệp Excel Chi phí đi lại. Minh họa kết
quả của bạn bằng PivotChart.
Nam giới
36. Sử dụng PivotTable để tìm số khoản vay theo các mục đích khác
Nữ giới
Đúng
KHÔNG
30
50
6
6
nhau, tình trạng hôn nhân và rủi ro tín dụng trong tệp Excel Dữ
liệu Rủi ro Tín dụng. Minh họa kết quả trên PivotChart.
Chuyển đổi dữ liệu thành tỷ lệ phần trăm. Sau đó xây dựng biểu
đồ về số lượng và biểu đồ về tỷ lệ phần trăm. Thảo luận về
37. Sử dụng PivotTable để tìm số lượng giao dịch bán hàng theo sản
phẩm và khu vực, tổng doanh thu
những gì mỗi biểu đồ truyền đạt một cách trực quan và cách các
biểu đồ khác nhau có thể dẫn đến các cách diễn giải dữ liệu khác nhau.
Trường hợp: Dự án nghiên cứu quảng cáo Drout
Cơ sở cho trường hợp này đã được giới thiệu trong Chương 1. Đối với
bảng chéo và các ứng dụng thích hợp khác của PivotTable để chia nhỏ dữ
phần này của trường hợp, hãy sử dụng các biểu đồ thích hợp để trực quan
liệu và phát triển hữu ích trong tầm nhìn. Thêm những phát hiện của
hóa dữ liệu. Tóm tắt dữ liệu bằng cách sử dụng phân phối tần suất và
bạn vào báo cáo mà bạn đã bắt đầu cho trường hợp ở Chương 1.
biểu đồ cho các biến số,
Machine Translated by Google
94
Chương 3 Trực quan hóa và khám phá dữ liệu
Trường hợp: Hiệu suất Lawn Thiết bị
Phần 1: Ban đầu PLE sản xuất máy cắt cỏ, nhưng phần lớn doanh số bán
Phần 2: Như đã lưu ý trong trường hợp ở Chương 1, bảng tính chuỗi
hàng trong những năm gần đây đến từ thị trường máy kéo nhỏ đang phát
cung ứng cung cấp dữ liệu chi phí liên quan đến hậu cần giữa các
triển. Như chúng tôi đã lưu ý trong trường hợp ở Chương 1, PLE bán
nhà máy hiện tại và khách hàng cũng như các nhà máy mới được đề xuất.
sản phẩm của họ trên toàn thế giới, với các khu vực bán hàng bao gồm
Bà Burke muốn bạn trích xuất các bản ghi liên quan đến chi phí vận
Bắc Mỹ, Nam Mỹ, Châu Âu và Vành đai Thái Bình Dương. Ba năm trước,
chuyển đơn vị của các địa điểm nhà máy được đề xuất và so sánh chi
một khu vực mới đã được mở ra để phục vụ Trung Quốc, nơi một thị
phí của các địa điểm hiện tại với chi phí của các địa điểm được đề
trường máy kéo nhỏ đang bùng nổ đã được thiết lập. PLE luôn nhấn mạnh
xuất bằng cách sử dụng các phần tư.
đến chất lượng có quy mô và coi chất lượng mà công ty tích hợp vào
các sản phẩm của mình là điểm bán hàng chính của mình. Trong 2 năm
qua, PLE cũng đã nhấn mạnh vào tính dễ sử dụng của các sản phẩm của
họ.
Trước khi đi sâu vào chi tiết hoạt động, Elizabeth Burke muốn
có được cái nhìn tổng quan về hiệu quả kinh doanh tổng thể và vị thế
thị trường của PLE bằng cách kiểm tra thông tin được cung cấp trong
Phần 3: Bà Burke cũng muốn có một bản tổng hợp định lượng về các
phản hồi trung bình cho từng khách hàng tại các buổi tri ân trong
bảng tính Khảo sát khách hàng năm 2014 cho từng khu vực thị trường
dưới dạng bảng chéo (sử dụng PivotTable thích hợp), cùng với tần
suất phân phối, biểu đồ và phần tư của những dữ liệu này.
cơ sở dữ liệu. Cụ thể, cô ấy đang yêu cầu bạn xây dựng các biểu đồ
thích hợp cho dữ liệu trong các bảng tính sau đây và tóm tắt các kết
Phần 4: Đề xuất bảng điều khiển hàng tháng về thông tin kinh doanh
luận của bạn từ việc phân tích các biểu đồ này.
quan trọng nhất mà bà Burke có thể sử dụng thường xuyên khi dữ liệu
được cập nhật. Tạo một cái bằng cách sử dụng dữ liệu gần đây nhất.
Một. Sự hài lòng của đại lý
b. Sự hài lòng của người dùng cuối
Trang tổng quan của bạn không nên bao gồm nhiều hơn 6–8 biểu đồ, các
biểu đồ này phải vừa vặn trên một màn hình.
c. Khiếu nại
đ. Đơn vị bán máy cắt
đ. Đơn vị bán máy kéo
f. Chuyển hàng đúng giờ
g. Lỗi sau khi giao hàng
h. Thời gian đáp ứng
Viết một báo cáo chính thức tóm tắt kết quả của bạn cho tất cả bốn
phần của trường hợp này.
Machine Translated by Google
Thống kê mô tả
Đo
CHƯƠNG
Jonny Drake / Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích sự khác nhau giữa quần thể và mẫu.
Giải thích các hệ số của skewness và kurtosis.
Sử dụng công cụ Thống kê mô tả Excel để tóm tắt dữ
Hiểu ký hiệu thống kê.
liệu.
Liệt kê các biện pháp khác nhau của vị trí.
Tính giá trị trung bình, phương sai và độ lệch chuẩn cho dữ liệu
Tính giá trị trung bình, trung bình, chế độ và tầm trung
được nhóm.
của một tập dữ liệu.
Tính toán một tỷ lệ.
Sử dụng các thước đo vị trí để đưa ra các quyết định kinh doanh
Sử dụng PivotTable để tính giá trị trung bình, phương sai và
thực tế.
độ lệch chuẩn của dữ liệu tóm tắt.
Liệt kê các biện pháp phân tán khác nhau.
Giải thích tầm quan trọng của việc hiểu mối quan hệ giữa hai biến.
Tính toán phạm vi, phạm vi liên vùng, phương sai và độ lệch
Giải thích sự khác biệt giữa hiệp phương sai và tương quan.
chuẩn của một tập hợp dữ liệu.
Giải thích định lý Chebyshev.
Phát biểu các Quy tắc Thực nghiệm và áp dụng chúng vào
dữ liệu thực tế.
Tính giá trị tiêu chuẩn hóa ( -score) cho
các quan sát trong một tập dữ liệu.
Tính toán các biện pháp của hiệp phương sai và tương quan.
Sử dụng công cụ Tương quan Excel.
Xác định các ngoại lệ trong dữ liệu.
Nêu các nguyên tắc của tư duy thống kê.
Giải thích sự thay đổi trong dữ liệu từ góc độ logic và thực tế.
Định nghĩa và tính hệ số biến thiên.
Giải thích bản chất của độ lệch và độ nhọn
trong một phân phối.
Giải thích bản chất của sự thay đổi trong dữ liệu mẫu.
95
Machine Translated by Google
96
Chương 4 Các biện pháp thống kê mô tả
Như chúng ta đã lưu ý trong Chương 3, phân phối tần suất, biểu đồ và bảng chéo là các
công cụ dạng bảng và trực quan của thống kê mô tả. Trong chương này, chúng tôi giới
thiệu các biện pháp số cung cấp một cách hiệu quả và hiệu quả để thu được thông tin có
ý nghĩa từ dữ liệu. Tuy nhiên, trước khi thảo luận về các biện pháp chắc chắn này,
chúng ta cần hiểu sự khác biệt giữa quần thể và mẫu.
Quần thể và mẫu
Tổng thể bao gồm tất cả các mục được quan tâm đối với một quyết định hoặc cuộc điều tra
cụ thể—ví dụ: tất cả các cá nhân ở Hoa Kỳ không sở hữu điện thoại di động, tất cả những
người đăng ký Netflix hoặc tất cả các cổ đông của Google. Một công ty như Netflix lưu
giữ nhiều hồ sơ về khách hàng của mình, giúp dễ dàng truy xuất dữ liệu về toàn bộ khách hàng.
Tuy nhiên, có lẽ không thể xác định được tất cả những người không sở hữu điện thoại di
động.
Một mẫu là một tập hợp con của dân số. Ví dụ: danh sách những cá nhân đã thuê một
bộ phim hài từ Netflix trong năm qua sẽ là một mẫu từ tập hợp của tất cả các khách hàng.
Liệu mẫu này có đại diện cho tập hợp khách hàng hay không—điều này phụ thuộc vào cách sử
dụng dữ liệu mẫu—có thể gây tranh cãi; tuy nhiên, nó là một mẫu. Hầu hết các quần thể,
ngay cả khi chúng là hữu hạn, nói chung là quá lớn để giải quyết một cách hiệu quả hoặc
thực tế. Ví dụ, sẽ là không thực tế cũng như quá tốn kém để khảo sát toàn bộ người xem
truyền hình ở Hoa Kỳ. Việc lấy mẫu rõ ràng cũng cần thiết khi dữ liệu phải được lấy từ
thử nghiệm phá hủy hoặc từ quá trình sản xuất liên tục. Do đó, mục đích của việc lấy mẫu
là thu thập đầy đủ thông tin để rút ra kết luận hợp lệ về tổng thể. Ví dụ, các nhà
nghiên cứu thị trường sử dụng mẫu để đánh giá nhận thức của người tiêu dùng về hàng hóa
và dịch vụ mới hoặc hiện có; kiểm toán viên sử dụng phương pháp lấy mẫu để xác minh
tính chính xác của báo cáo tài chính; và các nhà phân tích kiểm soát chất lượng lấy mẫu
đầu ra của sản xuất để xác minh mức chất lượng và xác định các cơ hội cải tiến.
Hầu hết dữ liệu mà các doanh nghiệp xử lý đều là mẫu. Ví dụ, Đơn đặt hàng
và cơ sở dữ liệu Giao dịch bán hàng mà chúng tôi đã sử dụng trong các chương trước đại diện cho các mẫu
vì dữ liệu đơn đặt hàng chỉ bao gồm các đơn đặt hàng được đặt trong khoảng thời gian ba tháng và các
giao dịch bán hàng đại diện cho các đơn đặt hàng chỉ trong một ngày, ngày 14 tháng 7. Do đó, trừ khi
được chú ý nếu không, chúng tôi sẽ cho rằng bất kỳ tập dữ liệu nào cũng là một mẫu.
Hiểu ký hiệu thống kê
Chúng tôi thường gắn nhãn các phần tử của tập dữ liệu bằng cách sử dụng các biến được
chỉ định, x1 , x2 , … , v.v. Nói chung, xi đại diện cho quan sát thứ i. Thông lệ phổ
biến trong thống kê là sử dụng các chữ cái Hy Lạp, chẳng hạn như m (mu), (sigma) và (pi),
để biểu thị các thước đo dân số và các chữ cái in nghiêng như x (x-bar), s và p đến
đại diện cho số liệu thống kê mẫu. Chúng ta sẽ sử dụng N để biểu thị số lượng phần tử
trong tổng thể và n để biểu thị số lượng quan sát trong một mẫu. Các công thức thống kê
thường chứa một toán tử tổng, Σ (sigma vốn của Hy Lạp), có nghĩa là các số hạng
N
theo nó được thêm vào với nhau. Như vậy, một xi x1 + x2 + g+ xn . hiểu biết
tôi 1
những quy ước và ký hiệu toán học này sẽ giúp bạn giải thích và áp dụng các công thức
thống kê.
Machine Translated by Google
97
Chương 4 Các biện pháp thống kê mô tả
Biện pháp Vị trí
Các phép đo vị trí cung cấp các ước tính về một giá trị duy nhất mà theo một cách nào đó đại diện cho
"căn giữa" của một tập hợp dữ liệu. Phổ biến nhất là trung bình. Tất cả chúng ta đều sử dụng mức trung
bình thường xuyên trong cuộc sống của mình, chẳng hạn như để đo lường thành tích của học sinh ở trường
đại học (ví dụ: điểm trung bình), để đo lường hiệu suất của các đội thể thao (ví dụ: trung bình đánh
bóng) và để đo lường hiệu suất trong kinh doanh (ví dụ: trung bình thời gian giao hàng).
trung bình số học
Giá trị trung bình chính thức được gọi là trung bình số học (hoặc đơn giản là giá trị trung
bình), là tổng của các quan sát chia cho số lượng quan sát. Về mặt toán học, giá trị trung bình
của một tổng thể được biểu thị bằng chữ cái Hy Lạp m và giá trị trung bình của một mẫu được ký
hiệu là x. Nếu một tổng thể bao gồm N quan sát x1 , x2 , c, xN, thì trung bình tổng thể, m, được tính như sau
N
Một xi
tôi 1
tôi
N
(4.1)
Giá trị trung bình của một mẫu gồm n quan sát, x1 , x2 , c, xn , ký hiệu là x, được tính như sau
N
Một xi
x
tôi 1
N
(4.2)
Lưu ý rằng các phép tính cho giá trị trung bình là giống nhau cho dù chúng ta đang xử lý một
quần thể hay một mẫu; chỉ có ký hiệu khác nhau. Chúng tôi cũng có thể tính giá trị trung bình
trong Excel bằng hàm AVERAGE(phạm vi dữ liệu).
Một thuộc tính của giá trị trung bình là tổng độ lệch của mỗi quan sát so với giá trị
trung bình bằng 0:
Một 1xi - x2 0
(4.3)
Tôi
Điều này đơn giản có nghĩa là tổng các độ lệch trên giá trị trung bình bằng với tổng các độ
lệch dưới giá trị trung bình; về cơ bản, giá trị trung bình “cân bằng” các giá trị ở hai bên
của nó. Tuy nhiên, điều đó không có nghĩa là một nửa dữ liệu nằm trên hoặc dưới giá trị trung
bình—một quan niệm sai lầm phổ biến ở những người không hiểu về thống kê.
Ngoài ra, giá trị trung bình là duy nhất cho mọi tập hợp dữ liệu và có ý nghĩa đối với cả dữ liệu
giữa giá trị và tỷ lệ. Tuy nhiên, nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ—các quan sát hoàn
toàn khác với phần còn lại—điều này kéo giá trị trung bình về phía các giá trị này. Chúng ta sẽ thảo
luận thêm về các ngoại lệ ở phần sau của chương này.
VÍ DỤ 4.1 Tính Chi phí Trung bình cho mỗi Đơn hàng
Trong cơ sở dữ liệu Đơn đặt hàng, giả sử rằng chúng tôi quan
tâm đến việc tìm chi phí trung bình cho mỗi đơn đặt hàng. Hình
chi phí trung bình cho mỗi đơn đặt hàng là $2.471.760>94 = $26.295,32. Chúng tôi
hiển thị các phép tính này trong một trang tính riêng, Mean
4.1 cho thấy một phần của tệp dữ liệu. Chúng tôi tính toán chi
trong sổ làm việc Đơn đặt hàng Excel. Một phần của trang tính
phí trung bình cho mỗi đơn đặt hàng bằng cách tính tổng các
này ở chế độ chia đôi màn hình được hiển thị trong Hình 4.2.
giá trị trong cột G rồi chia cho số lượng quan sát. Sử dụng
Ngoài ra, chúng tôi đã sử dụng hàm Excel =AVERAGE
rằng 1
công thức (4.2),
lưu ý = $2.700, = $19.250, v.v. và n = 94.
(B2:B95) trong bảng tính này để đạt được cùng một giá trị. Chúng
2
Tổng các chi phí đặt hàng này là $2,471,760. Do đó, các
tôi khuyến khích bạn nghiên cứu các tính toán và công thức được sử dụng.
Machine Translated by Google
98
Chương 4 Các biện pháp thống kê mô tả
Hình 4.1
Phần cơ sở dữ liệu đơn đặt hàng
Hình 4.2
Tính toán giá trị trung bình trong Excel
Chi phí cho mỗi đơn đặt hàng
Trung bình
Số đo vị trí chỉ định giá trị ở giữa khi dữ liệu được sắp xếp từ nhỏ nhất đến lớn nhất là
trung vị. Một nửa dữ liệu nằm dưới mức trung bình và một nửa dữ liệu nằm trên nó. Đối với
một số lượng quan sát lẻ, trung vị là giữa các số được sắp xếp. Đối với một số lượng quan
sát chẵn, trung vị là giá trị trung bình của hai số ở giữa. Chúng ta có thể sử dụng tùy
chọn Sắp xếp trong Excel để sắp xếp thứ tự dữ liệu và sau đó xác định giá trị trung bình.
Hàm Excel MEDIAN(phạm vi dữ liệu) cũng có thể được sử dụng. Trung vị có ý nghĩa đối với dữ
liệu tỷ lệ, khoảng thời gian và thứ tự. Trái ngược với giá trị trung bình, trung vị không phải là
bị ảnh hưởng bởi ngoại lệ.
VÍ DỤ 4.2 Tìm Chi phí Trung bình cho mỗi Đơn hàng
Trong cơ sở dữ liệu Đơn đặt hàng, hãy sắp xếp dữ liệu trong
có thể kết luận rằng tổng chi phí của một nửa số đơn đặt hàng
Cột G từ nhỏ nhất đến lớn nhất. Vì chúng ta có 94 quan sát nên
ít hơn $15.656,25 và một nửa cao hơn số tiền này.
trung vị là giá trị trung bình của quan sát thứ 47 và 48. Bạn
Trong trường hợp này, giá trị trung bình không gần với giá trị
nên xác minh rằng quan sát được sắp xếp thứ 47 là $15.562,50 và
trung bình. Các phép tính này được hiển thị trong trang tính
quan sát thứ 48 là $15.750. Lấy giá trị trung bình của hai
Trung bình trong sổ làm việc Đơn đặt hàng mua Excel, như thể
giá trị này dẫn đến giá trị trung bình là ($15.562,5 + $15.750)
hiện trong Hình 4.3.
2 = $15.656,25. Vì vậy, chúng tôi
Machine Translated by Google
Chương 4 Các biện pháp thống kê mô tả
99
Hình 4.3
Tính toán Excel cho
Chi phí trung bình cho mỗi đơn đặt hàng
Cách thức
Một biện pháp thứ ba của vị trí là chế độ. Chế độ là quan sát xảy ra thường xuyên nhất. Chế độ này
hữu ích nhất cho các tập dữ liệu chứa một số lượng tương đối nhỏ các giá trị duy nhất. Đối với
các tập dữ liệu có ít giá trị lặp lại, chế độ không mang lại nhiều giá trị thực tế. Bạn có thể dễ
dàng xác định chế độ từ phân phối tần số bằng cách xác định giá trị có tần số lớn nhất hoặc từ
biểu đồ bằng cách xác định thanh cao nhất. Bạn cũng có thể sử dụng hàm MODE.SNGL(phạm vi dữ
liệu) của Excel. Đối với phân phối tần suất và biểu đồ của dữ liệu được nhóm, chế độ là nhóm có
tần suất lớn nhất.
VÍ DỤ 4.3 Tìm Chế độ
Trong cơ sở dữ liệu Đơn đặt hàng, phân phối tần suất và biểu đồ cho
Do đó, chế độ là 30 tháng. Đối với phân phối tần suất được nhóm và
Điều khoản A/P trong Hình 3.40 ở Chương 3, chúng ta thấy rằng tần suất
biểu đồ của biến Chi phí cho mỗi đơn hàng trong Hình 3.42, chúng ta
lớn nhất tương ứng với giá trị 30 tháng; đây cũng là thanh cao nhất
thấy rằng chế độ tương ứng với nhóm từ 0 đô la đến 13.000 đô la.
trong biểu đồ.
Một số bộ dữ liệu có nhiều chế độ; để xác định những điều này, bạn có thể sử dụng hàm
MODE.MULT(phạm vi dữ liệu) của Excel, trả về một mảng các giá trị phương thức.
tầm trung
Thước đo vị trí thứ tư thỉnh thoảng được sử dụng là tầm trung. Đây chỉ đơn giản là giá trị trung
bình của các giá trị lớn nhất và nhỏ nhất trong tập dữ liệu.
VÍ DỤ 4.4 Tính toán dải trung
Chúng tôi có thể xác định các giá trị tối thiểu và tối đa bằng cách sử
giá trị là $68,78 và giá trị tối đa là $127.500. Do đó, mức trung bình
dụng các hàm Excel MIN và MAX hoặc sắp xếp dữ liệu và tìm thấy chúng dễ
là ($127.500 + $68,78) 2 = $63.784,39.
dàng. Đối với dữ liệu Chi phí trên mỗi đơn đặt hàng, giá trị tối thiểu
Machine Translated by Google
100
Chương 4 Các biện pháp thống kê mô tả
Cần phải thận trọng khi sử dụng dải trung bình vì các giá trị cực đoan dễ làm sai lệch kết quả,
như minh họa trong ví dụ này. Điều này là do dải trung chỉ sử dụng hai phần dữ liệu, trong khi mức
trung bình sử dụng tất cả dữ liệu; do đó, nó thường là một ước tính thô hơn nhiều so với giá trị
trung bình và thường chỉ được sử dụng cho các cỡ mẫu nhỏ.
Sử dụng thước đo vị trí trong các quyết định kinh doanh
Bởi vì mọi người đã quá quen thuộc với khái niệm trung bình trong cuộc sống hàng ngày, các nhà quản
lý thường sử dụng giá trị trung bình một cách không thích hợp trong kinh doanh khi các thông tin
thống kê khác cần được xem xét. Ví dụ giả định sau đây, dựa trên một tình huống thực tế, minh họa
điều này.
VÍ DỤ 4.5 Báo giá thời gian sửa chữa máy tính
Tệp Excel Thời gian sửa chữa máy tính cung cấp một ví dụ về
tab biểu đồ trong tệp Excel). Chúng tôi thấy rằng thời gian sửa
thời gian sửa chữa và trả lại 250 máy tính cho khách hàng đã sử
chữa lâu nhất mất gần 6 tuần. Vì vậy, công ty có nên cung cấp
dụng dịch vụ sửa chữa của một nhà bán lẻ điện tử quốc gia.
cho khách hàng thời gian sửa chữa được đảm bảo trong 6 tuần không?
Máy tính được vận chuyển đến cơ sở trung tâm, nơi chúng được
Họ có thể sẽ không có nhiều khách hàng vì ít người muốn đợi lâu
sửa chữa và sau đó được vận chuyển trở lại cửa hàng để khách
như vậy. Thay vào đó, phân phối tần số và biểu đồ cung cấp cái
hàng đến lấy. Giá trị trung bình, trung vị và chế độ đều rất
nhìn sâu sắc để đưa ra quyết định hợp lý hơn. Bạn có thể xác
gần nhau và cho thấy thời gian sửa chữa điển hình là khoảng 2
minh rằng 90% thời gian, việc sửa chữa được hoàn thành trong
tuần (xem Hình 4.4). Vì vậy, bạn có thể nghĩ rằng nếu một khách
vòng 21 ngày; trong những trường hợp hiếm hoi mất nhiều thời
hàng mang máy tính đến để sửa chữa, thì việc báo giá thời
gian hơn, điều đó thường có nghĩa là các kỹ thuật viên phải đặt
gian sửa chữa là 2 tuần là hợp lý. Điều gì sẽ xảy ra nếu các
hàng và đợi một bộ phận. Vì vậy, sẽ hợp lý nếu nói với khách
cửa hàng trích dẫn tất cả khách hàng trong thời gian 2 tuần?
hàng rằng họ có thể mong đợi máy tính của mình hoạt động trở
Rõ ràng là khoảng một nửa số khách hàng sẽ khó chịu vì máy tính
lại trong vòng 2 đến 3 tuần và thông báo với họ rằng có thể mất
của họ không được hoàn thành vào thời điểm này.
nhiều thời gian hơn nếu cần một bộ phận đặc biệt.
Hình 4.5 cho thấy một phần phân phối tần số và biểu đồ
cho những lần sửa chữa này (xem
Từ ví dụ này, chúng tôi thấy rằng việc sử dụng phân phối tần suất, biểu đồ và phần trăm ô có
thể cung cấp nhiều thông tin hữu ích hơn so với các phép đo vị trí đơn giản. Điều này khiến chúng
tôi giới thiệu các cách định lượng tính biến thiên của dữ liệu, mà chúng tôi gọi là các biện pháp phân tán.
Hình 4.4
Biện pháp Vị trí cho
Thời Gian Sửa Chữa Máy Tính
Machine Translated by Google
Chương 4 Các biện pháp thống kê mô tả
101
Hình 4.5
Phân phối tần số và biểu đồ cho thời gian sửa chữa máy tính
Các biện pháp phân tán
Độ phân tán đề cập đến mức độ thay đổi trong dữ liệu, nghĩa là độ phân tán số (hoặc độ
nén) của dữ liệu. Một số biện pháp thống kê đặc trưng cho sự phân tán: phạm vi, phương
sai và độ lệch chuẩn.
Phạm vi
Phạm vi là đơn giản nhất và là sự khác biệt giữa giá trị tối đa và giá trị tối thiểu
trong tập dữ liệu. Mặc dù Excel không cung cấp hàm cho phạm vi, nhưng nó có thể được
tính dễ dàng bằng công thức MAX(dải dữ liệu) - MIN(dải dữ liệu). Giống như tầm trung,
phạm vi bị ảnh hưởng bởi các ngoại lệ và do đó, thường chỉ được sử dụng cho các tập dữ
liệu rất nhỏ.
VÍ DỤ 4.6 Tính Phạm vi
Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng trong cơ sở dữ
giá trị tối đa là $127,500. Do đó, phạm vi là $127.500
liệu Đơn đặt hàng, giá trị tối thiểu là $68,78 và
$68,78 = $127.431,22.
Phạm vi liên vùng
Sự khác biệt giữa phần tư thứ nhất và phần tư thứ ba, Q3 - Q1 , thường được gọi là phạm
vi giữa các phần tư (IQR) hoặc khoảng cách giữa. Điều này chỉ bao gồm 50% dữ liệu ở giữa
và do đó, không bị ảnh hưởng bởi các giá trị cực trị. Do đó, đôi khi nó được sử dụng như
một biện pháp phân tán thay thế.
Machine Translated by Google
102
Chương 4 Các biện pháp thống kê mô tả
VÍ DỤ 4.7 Tính Khoảng tứ phân vị
Đối với dữ liệu Chi phí cho mỗi đơn đặt hàng, chúng tôi đã xác
tập trung trong một phạm vi tương đối nhỏ là $20.835,94.
định phần tư thứ nhất và thứ ba là Q1 = $6.757,81 và Q3 = $27.593,75 Lưu ý rằng 25% trên của dữ liệu nằm trong phạm vi từ 27.593,75
trong Ví dụ 3.25. Do đó, IQR = $27.593,75
$6.757,81 =
$20.835,94. Do đó, 50% dữ liệu ở giữa là
USD đến 127.500 USD, cho thấy rằng chi phí cao cho mỗi đơn đặt
hàng trải rộng trên một phạm vi lớn là 99.906,25 USD.
phương sai
Một phép đo độ phân tán được sử dụng phổ biến hơn là phương sai, tính toán của nó phụ
thuộc vào tất cả dữ liệu. Phương sai càng lớn, dữ liệu càng được trải ra từ giá trị
trung bình và người ta có thể mong đợi nhiều biến thiên hơn trong các quan sát. Công
thức được sử dụng để tính phương sai là khác nhau đối với quần thể và mẫu.
Công thức tính phương sai của quần thể là
N
2
Một 1xi - m22
tôi 1
N
(4.4)
trong đó xi là giá trị của mục thứ i, N là số lượng mục trong tổng thể và m là giá trị trung
bình của tổng thể. Về cơ bản, phương sai là giá trị trung bình của bình phương độ lệch của
các quan sát so với giá trị trung bình.
Có sự khác biệt đáng kể giữa các công thức tính toán phương sai của tổng thể và
của mẫu. Phương sai của một mẫu được tính theo công thức
N
Một 1xi - x22
s2
tôi 1
n - 1
(4.5)
trong đó n là số mục trong mẫu và x là giá trị trung bình của mẫu. Việc sử dụng một mẫu
số khác để lấy “trung bình” bình phương độ lệch so với giá trị trung bình đối với tổng
thể và mẫu có vẻ hơi lạ, nhưng các nhà thống kê đã chỉ ra rằng công thức cho phương sai
mẫu cung cấp một biểu diễn chính xác hơn về phương sai thực của tổng thể. Chúng ta sẽ
thảo luận vấn đề này một cách chính thức hơn trong Chương 6. Hiện tại, chỉ cần hiểu
rằng các tính toán thích hợp về tổng thể và phương sai mẫu sử dụng các mẫu số khác nhau
dựa trên số lượng quan sát trong dữ liệu.
Hàm Excel VAR.S(phạm vi dữ liệu) có thể được sử dụng để tính toán phương sai mẫu,
s2 , trong khi hàm Excel VAR.P(phạm vi dữ liệu) được sử dụng để tính toán phương sai
2
của tổng thể, .
VÍ DỤ 4.8 Tính Phương sai
Hình 4.6 cho thấy một phần của trang tính Excel Variance trong
bình phương những khác biệt này, như thể hiện trong cột D. Cuối
sổ làm việc Đơn đặt hàng. Để tìm phương sai của chi phí trên mỗi
cùng, cộng các bình phương độ lệch này (ô D96) và chia cho n
đơn đặt hàng bằng công thức (4.5), trước tiên chúng ta cần tính
= 93. Điều này dẫn đến phương sai 890.594.573,82.
giá trị trung bình, như được thực hiện trong Ví dụ 4.1. Sau đó,
Ngoài ra, hàm Excel =VAR.S(B2:B95) cũng cho kết quả tương tự.
đối với mỗi quan sát, tính toán sự khác biệt giữa quan sát và giá
trị trung bình, như thể hiện trong cột C. Tiếp theo,
1
Machine Translated by Google
103
Chương 4 Các biện pháp thống kê mô tả
Hình 4.6
Tính toán Excel cho
Phương sai của chi phí trên mỗi
Đặt hàng
Lưu ý rằng thứ nguyên của phương sai là bình phương của thứ nguyên của các quan sát.
Vì vậy, ví dụ, phương sai của chi phí cho mỗi đơn đặt hàng không được biểu thị bằng đô la,
mà bằng đô la bình phương. Điều này gây khó khăn cho việc sử dụng phương sai trong các ứng
dụng thực tế. Tuy nhiên, một biện pháp liên quan chặt chẽ đến phương sai có thể được sử dụng
trong các ứng dụng thực tế là độ lệch chuẩn.
Độ lệch chuẩn
Độ lệch chuẩn là căn bậc hai của phương sai. Đối với một dân số, độ lệch chuẩn được
tính là
N
Một 1xi - m22
tôi 1
N
(4.6)
và đối với các mẫu, nó là
N
1xi - x22
tôi 1
s H một
n - 1
(4.7)
Hàm Excel STDEV.P(phạm vi dữ liệu) tính toán độ lệch chuẩn cho cửa sổ bật lên
phỏng 1 2; hàm STDEV.S(phạm vi dữ liệu) tính toán nó cho (các) mẫu.
VÍ DỤ 4.9 Tính Độ Lệch Chuẩn
Chúng ta có thể sử dụng các tính toán trang tính tương tự như
trong Ví dụ 4.8. Tất cả những gì chúng ta cần làm là lấy căn
là 2890.594.573,82 = 29.842,8312 USD. Ngoài ra, chúng ta có
thể sử dụng hàm Excel =STDEV.S(B2:B95) để tìm giá trị tương tự.
bậc hai của phương sai đã tính để tìm độ lệch chuẩn. Do đó,
độ lệch chuẩn của chi phí trên mỗi đơn hàng
Độ lệch chuẩn thường dễ diễn giải hơn phương sai vì đơn vị đo của nó giống với đơn
vị của dữ liệu. Do đó, nó có thể dễ dàng liên quan đến giá trị trung bình hoặc các số
liệu thống kê khác được đo bằng cùng một đơn vị.
Độ lệch chuẩn là một thước đo rủi ro phổ biến, đặc biệt là trong phân tích tài
chính, bởi vì nhiều người liên kết rủi ro với sự biến động của giá cổ phiếu. độ lệch chuẩn
Machine Translated by Google
104
Chương 4 Các biện pháp thống kê mô tả
Hình 4.7
Đóng tệp Excel
Giá cổ phiếu
đo lường xu hướng lợi nhuận hàng tháng của một quỹ thay đổi so với mức trung bình dài hạn
của quỹ (như Fortune đã nêu trong một số báo của mình, “... độ lệch chuẩn cho bạn biết điều
gì sẽ xảy ra trong cách giảm và tăng. Nó cho bạn biết mức độ sợ hãi bạn sẽ như vậy.”).1 Ví
dụ: lợi nhuận của một quỹ tương hỗ có thể đạt trung bình 11% với độ lệch chuẩn là 10%. Do
đó, khoảng hai phần ba thời gian lợi tức hàng tháng hàng năm nằm trong khoảng từ 1% đến
21%. Ngược lại, lợi nhuận trung bình của một quỹ khác có thể là 14% nhưng có độ lệch chuẩn là 20%.
Lợi nhuận của nó sẽ giảm trong khoảng từ -6% đến 34% và do đó, rủi ro hơn.
Nhiều trang web tài chính, chẳng hạn như IFA.com và Morningstar.com, cung cấp những sai lệch
tiêu chuẩn cho các chỉ số thị trường và quỹ tương hỗ.
Ví dụ: tệp Excel Giá Đóng cửa Cổ phiếu (xem Hình 4.7) liệt kê giá đóng cửa hàng ngày
của bốn cổ phiếu và chỉ số Trung bình Công nghiệp Dow Jones trong khoảng thời gian 1 tháng.
Giá đóng cửa trung bình của Intel (INTC) và General Electric (GE) khá giống nhau, lần lượt
là 18,81 đô la và 16,19 đô la. Tuy nhiên, độ lệch chuẩn của giá Intel trong khung thời gian
này là 0,5 đô la, trong khi của GE là 0,35 đô la. GE có ít biến động hơn và do đó, ít rủi
ro hơn. Độ lệch chuẩn lớn hơn ngụ ý rằng trong khi tiềm năng lớn hơn về lợi nhuận cao hơn
tồn tại, thì cũng có nhiều rủi ro hơn khi nhận được lợi nhuận thấp hơn. Nhiều ấn phẩm đầu tư
và các trang web cung cấp độ lệch chuẩn của cổ phiếu và quỹ tương hỗ để giúp các nhà đầu
tư đánh giá rủi ro theo cách này. Chúng ta tìm hiểu thêm về rủi ro trong các chương khác.
Định lý Chebyshev và các Quy tắc Thực nghiệm
Một trong những kết quả quan trọng hơn trong thống kê là định lý Chebyshev, phát biểu rằng
đối với bất kỳ tập hợp dữ liệu nào, tỷ lệ các giá trị nằm trong k độ lệch chuẩn 1k 7 12 của
nghĩa là ít nhất 1 - 1>k2 . Do đó, đối với k 2, ít nhất 3/4, hay 75%, dữ liệu nằm trong hai
độ lệch chuẩn của giá trị trung bình; đối với k 3, ít nhất 8/9 hoặc 89% dữ liệu nằm trong ba độ lệch chuẩn
của giá trị trung bình. Chúng ta có thể sử dụng các giá trị này để cung cấp hiểu biết cơ bản về biến thể
trong một tập hợp dữ liệu chỉ bằng cách sử dụng giá trị trung bình được tính toán và độ lệch chuẩn.
1Fortune magazine 1999 Investor's Guide (số ra ngày 21 tháng 12 năm 1998).
Machine Translated by Google
105
Chương 4 Các biện pháp thống kê mô tả
VÍ DỤ 4.10 Áp dụng Định lý Ch Quashev
Đối với dữ liệu Chi phí trên mỗi đơn đặt hàng trong cơ sở dữ
Khoảng ba độ lệch chuẩn là [ - $63.233,17, $115.823,81] và
liệu Đơn đặt hàng, khoảng hai độ lệch chuẩn xung quanh giá trị
chúng tôi thấy rằng 92 trên 94, hay 97,9%, nằm trong khoảng
trung bình là [$33.390,34, $85.980,98]. Nếu chúng ta đếm số
này. Cả hai đều trên ít nhất 75% và ít nhất 89% Định lý
quan sát trong khoảng này, chúng ta sẽ thấy rằng 89 trên 94,
Chebyshev.
hay 94,68%, nằm trong hai độ lệch chuẩn của giá trị trung bình.
Đối với nhiều bộ dữ liệu gặp phải trong thực tế, chẳng hạn như dữ liệu Chi phí trên mỗi đơn
hàng, tỷ lệ phần trăm thường cao hơn nhiều so với định lý của Chebyshev chỉ định. Những điều này
được phản ánh trong cái được gọi là các quy tắc thực nghiệm:
1. Khoảng 68% các quan sát sẽ nằm trong một độ lệch chuẩn
của giá trị trung bình, hoặc giữa x - s và x + s.
2. Khoảng 95% các quan sát sẽ nằm trong khoảng hai độ lệch chuẩn của giá trị trung bình
hoặc trong khoảng x { 2s.
3. Khoảng 99,7% các quan sát sẽ nằm trong ba tiêu chuẩn
độ lệch của giá trị trung bình, hoặc trong x { 3s.
Chúng tôi thấy rằng dữ liệu Chi phí trên mỗi đơn hàng phản ánh khá chặt chẽ các quy tắc thực
nghiệm này. Tùy thuộc vào dữ liệu và hình dạng phân bố tần suất, tỷ lệ phần trăm thực tế có thể
cao hơn hoặc thấp hơn.
Hai hoặc ba độ lệch chuẩn xung quanh giá trị trung bình thường được sử dụng để mô tả tính
biến thiên của hầu hết các bộ dữ liệu thực tế. Ví dụ: giả sử một nhà bán lẻ biết rằng trung bình
một đơn đặt hàng được vận chuyển bằng đường bộ tiêu chuẩn trong 8 ngày với độ lệch chuẩn là 1
ngày. Do đó, sử dụng quy tắc thực nghiệm thứ hai, nhà bán lẻ có thể tự tin nói với khách hàng rằng
gói hàng của họ sẽ đến trong vòng 6 đến 10 ngày.
Một ví dụ khác, điều quan trọng là phải đảm bảo rằng đầu ra từ quy trình sản xuất đáp ứng
các thông số kỹ thuật mà các kỹ sư và nhà thiết kế yêu cầu. Kích thước cho một bộ phận được sản
xuất điển hình thường được chỉ định bởi giá trị mục tiêu hoặc lý tưởng cũng như dung sai hoặc "yếu
tố sai lệch", thừa nhận rằng sự thay đổi sẽ tồn tại trong hầu hết các quy trình sản xuất do các
yếu tố như vật liệu, máy móc, phương pháp làm việc, hiệu suất của con người, điều kiện môi trường,
v.v. Ví dụ: kích thước một bộ phận có thể được chỉ định là 5,00 { 0,2 cm. Điều này đơn giản có
nghĩa là một bộ phận có kích thước từ 4,80 đến 5,20 cm sẽ được chấp nhận; bất cứ điều gì bên ngoài
phạm vi này sẽ được phân loại là khiếm khuyết. Để đo lường mức độ hiệu quả của một quy trình sản
xuất có thể đạt được các thông số kỹ thuật, chúng tôi thường lấy một mẫu đầu ra, đo kích thước,
tính toán tổng biến thiên bằng cách sử dụng quy tắc thực nghiệm thứ ba (nghĩa là ước tính tổng
biến thiên theo sáu độ lệch chuẩn), sau đó so sánh dẫn đến các thông số kỹ thuật bằng cách chia
phạm vi thông số kỹ thuật cho tổng biến thể. Kết quả được gọi là chỉ số khả năng xử lý, ký hiệu là
Cp:
CP
thông số kỹ thuật trên - thông số kỹ thuật thấp hơn
tổng số biến thể
(4.8)
Các nhà sản xuất sử dụng chỉ số này để đánh giá chất lượng sản phẩm của họ và xác định khi nào họ
cần cải thiện quy trình của mình.
Machine Translated by Google
106
Chương 4 Các biện pháp thống kê mô tả
VÍ DỤ 4.11 Sử dụng Quy tắc Thực nghiệm để Đo lường Khả năng của Quy trình
Sản xuất
Hình 4.8 cho thấy một phần dữ liệu được thu thập từ quy trình
Hình 4.9 cho thấy sự phân bố tần suất và biểu đồ của
sản xuất cho một bộ phận có kích thước được chỉ định là 5,00
những dữ liệu này (biểu đồ biểu đồ trong sổ làm việc Phép đo
± 0,2 cm. Chúng được cung cấp trong Sổ làm việc Excel Phép đo
sản xuất). Lưu ý rằng các giá trị bin đại diện cho các giới
Sản xuất.
hạn trên của các nhóm trong gam lịch sử; do đó, 3 quan sát
Giá trị trung bình và độ lệch chuẩn trước tiên được tính toán
giảm xuống bằng hoặc thấp hơn 4,8, giới hạn thông số kỹ thuật
trong các ô J3 và J4 bằng cách sử dụng các hàm AVERAGE và
thấp hơn. Ngoài ra, 5 quan sát vượt quá giới hạn thông số kỹ
STDEV.S của Excel (các hàm này hoạt động chính xác cho dù dữ
thuật trên là 5.2. Do đó, 8 trong số 200 quan sát, hay 4%,
liệu được sắp xếp trong một cột hay ở dạng ma trận).
thực sự bị lỗi và 96% có thể chấp nhận được. Mặc dù điều này
Sau đó, tổng biến thể được tính bằng giá trị trung bình cộng
không đáp ứng chính xác quy tắc thực nghiệm, nhưng bạn phải
hoặc trừ ba độ lệch chuẩn. Trong ô J14, Cp được tính bằng
nhớ rằng chúng ta đang xử lý dữ liệu mẫu. Các mẫu khác từ cùng
công thức (4.8). Giá trị Cp nhỏ hơn 1,0 là không tốt; điều đó
một quy trình sẽ có các đặc điểm khác nhau, nhưng nhìn chung,
có nghĩa là sự thay đổi trong quy trình rộng hơn giới hạn
quy tắc thực nghiệm cung cấp ước tính tốt về tổng biến thể
thông số kỹ thuật, cho thấy rằng một số bộ phận sẽ không đáp
trong dữ liệu mà chúng ta có thể mong đợi từ bất kỳ mẫu nào.
ứng các thông số kỹ thuật. Trong thực tế, nhiều nhà sản xuất
muốn có giá trị Cp ít nhất là 1,5.
Hình 4.8
Cách tính chỉ số Cp
Hình 4.9
Phân phối tần số và
Biểu đồ sản xuất
Đo
Machine Translated by Google
107
Chương 4 Các biện pháp thống kê mô tả
Giá trị chuẩn hóa
Một giá trị tiêu chuẩn hóa, thường được gọi là -score, cung cấp thước đo tương đối về
khoảng cách mà một quan sát so với giá trị trung bình, không phụ thuộc vào các đơn vị đo
lường. Điểm số z cho lần quan sát thứ i trong tập dữ liệu được tính như sau:
tử
xi - x
S
(4.9)
Chúng tôi trừ đi giá trị trung bình của mẫu từ lần quan sát thứ i, xi và chia kết quả
cho độ lệch chuẩn của mẫu. Trong công thức (4.9), tử số là khoảng cách mà xi
là từ trung bình mẫu; giá trị âm cho biết xi nằm bên trái giá trị trung bình và giá trị
dương cho biết xi nằm bên phải giá trị trung bình. Bằng cách chia cho độ lệch chuẩn, s,
chúng ta chia tỷ lệ khoảng cách từ giá trị trung bình để biểu thị nó theo đơn vị độ lệch
chuẩn. Do đó, điểm số z là 1,0 có nghĩa là quan sát là một độ lệch chuẩn ở bên phải của
giá trị trung bình; z-score -1,5 có nghĩa là quan sát lệch chuẩn 1,5 lần so với giá trị
trung bình. Do đó, mặc dù hai bộ dữ liệu có thể có các phương tiện và độ lệch chuẩn khác
nhau, nhưng cùng một điểm số z có nghĩa là các quan sát có cùng khoảng cách tương đối so
với các phương tiện tương ứng của chúng.
Điểm Z có thể được tính toán dễ dàng trên bảng tính; tuy nhiên, Excel có một hàm tính
toán trực tiếp, STANDARDIZE(x, mean, standard_dev).
VÍ DỤ 4.12 Điện toán -Điểm
Hình 4.10 cho thấy các phép tính -scores cho một phần của dữ
được tính là =STANDARDIZE(B2,$B$97,$B$98).
liệu Chi phí trên mỗi đơn hàng. Trang tính này có thể được tìm
Do đó, quan sát đầu tiên $2.700 là 0,79 độ lệch chuẩn dưới
thấy trong sổ làm việc Đơn đặt hàng dưới dạng điểm z. Trong
mức trung bình, trong khi quan sát 92 là 1,61 độ lệch chuẩn
các ô B97 và B98, chúng tôi tính toán giá trị trung bình và độ
trên mức trung bình. Chỉ có hai quan sát (x19 và x8) lớn hơn
lệch chuẩn bằng cách sử dụng hàm AVERAGE và STDEV.S của
3 độ lệch chuẩn so với giá trị trung bình. Chúng ta đã thấy
Excel. Trong cột C, chúng ta có thể sử dụng công thức (4.9)
điều này trong Ví dụ 4.10 khi chúng ta áp dụng định lý
hoặc hàm STANDARDIZE của Excel. Ví dụ: hàm for trong ô C2 là
Chebyshev cho dữ liệu.
=(B2$B$97) $B$98, nhưng nó cũng có thể
Hình 4.10
Máy tính -Điểm số cho dữ liệu chi
phí trên mỗi đơn hàng
Machine Translated by Google
108
Chương 4 Các biện pháp thống kê mô tả
Hình 4.11
tính toán
hệ số của
Biến thể để đóng
Giá cổ phiếu
Hệ số biến thiên
Hệ số biến thiên (CV) cung cấp thước đo tương đối về độ phân tán trong dữ liệu so với giá trị
trung bình và được định nghĩa là
độ lệch chuẩn
sơ yếu lý lịch
(4.10)
nghĩa là
Đôi khi hệ số biến thiên được nhân với 100 để biểu thị nó dưới dạng phần trăm.
Thống kê này hữu ích khi so sánh tính biến thiên của hai hoặc nhiều tập dữ liệu khi thang đo của
chúng khác nhau.
Hệ số biến thiên cung cấp thước đo tương đối về rủi ro hoàn trả. Hệ số biến thiên càng nhỏ
thì rủi ro tương đối đối với lợi tức được cung cấp càng nhỏ. Nghịch đảo của hệ số biến thiên, được
gọi là tỷ suất sinh lợi trên rủi ro, thường được sử dụng vì nó dễ diễn giải hơn. Nghĩa là, nếu
mục tiêu là tối đa hóa lợi nhuận, tỷ lệ lợi nhuận trên rủi ro cao hơn thường được coi là tốt hơn.
Một thước đo liên quan trong lĩnh vực tài chính là tỷ lệ Sharpe, là tỷ lệ giữa lợi nhuận vượt mức
của quỹ (tổng lợi nhuận hàng năm trừ lợi nhuận tín phiếu kho bạc) so với độ lệch chuẩn của nó.
Nếu một số cơ hội đầu tư có cùng giá trị trung bình nhưng phương sai khác nhau, thì một nhà đầu
tư hợp lý (không thích rủi ro) sẽ chọn cơ hội có phương sai nhỏ nhất.2 Cách tiếp cận này để chính
thức hóa rủi ro là cơ sở cho lý thuyết danh mục đầu tư hiện đại, tìm cách xây dựng danh mục đầu
tư phương sai tối thiểu. Như tạp chí Fortune đã từng nhận xét: “Không phải rủi ro lúc nào cũng
xấu. . . . Chỉ là khi bạn mạo hiểm với số tiền của mình, bạn muốn được trả tiền cho nó.” 3
Một ứng dụng thực tế của hệ số biến thiên là so sánh giá cổ phiếu.
VÍ DỤ 4.13 Áp dụng hệ số biến thiên
Ví dụ: bằng cách chỉ kiểm tra độ lệch chuẩn trong bảng tính Giá
các biến này. Đối với IBM, CV là 0,025; đối với Intel là 0,027;
cổ phiếu đóng cửa, chúng ta có thể kết luận rằng IBM rủi ro hơn
đối với Cisco là 0,024; đối với GE là 0,022; và đối với DJIA, 0,016.
các cổ phiếu khác. Tuy nhiên, giá cổ phiếu trung bình của IBM
Ta thấy hệ số biến thiên của các cổ phiếu chênh lệch nhau không
lớn hơn nhiều so với các cổ phiếu khác. Vì vậy, so sánh độ lệch
lớn; trên thực tế, Intel chỉ rủi ro hơn IBM một chút so với mức
chuẩn trực tiếp cung cấp ít thông tin. Hệ số biến thiên cung cấp
giá trung bình của nó. Tuy nhiên, một quỹ chỉ số dựa trên Dow
một thước đo có thể so sánh hơn. Hình 4.11 cho thấy các tính
Industrials sẽ ít rủi ro hơn bất kỳ cổ phiếu riêng lẻ nào.
toán của các hệ số biến thiên cho
2David G. Luenberger, Khoa học Đầu tư (New York: Oxford University Press, 1998).
Tạp chí 3Fortune 1999 Investor's Guide (số ra ngày 21 tháng 12 năm 1998).
Machine Translated by Google
109
Chương 4 Các biện pháp thống kê mô tả
Số đo hình dạng
Biểu đồ của dữ liệu mẫu có thể có nhiều hình dạng khác nhau. Hình 4.12 hiển thị biểu
đồ cho Chi phí trên mỗi đơn hàng và Điều khoản A/P mà chúng ta đã tạo trong Chương 3
cho dữ liệu Đơn đặt hàng. Biểu đồ cho Điều khoản A/P tương đối đối xứng, có giá trị
phương thức ở giữa và giảm dần khỏi trung tâm theo cùng một kiểu ở hai bên.
Tuy nhiên, biểu đồ Chi phí cho mỗi đơn đặt hàng không đối xứng hoặc bị lệch; nghĩa là,
phần lớn khối lượng được tập trung vào một bên và sự phân bổ các giá trị “đuổi đuôi” sang
bên kia. Những cái đuôi lệch về bên phải, như ví dụ này, được gọi là lệch dương; những cái
đuôi lệch về bên trái được cho là bị lệch âm. Skewness mô tả sự thiếu đối xứng của dữ liệu.
Hệ số lệch (CS) đo lường mức độ bất đối xứng của các quan sát xung quanh giá
trị trung bình. Hệ số xiên được tính như
1
CS
N
Một 1xi - m23
tôi 1
3
(4.11)
Đối với dữ liệu mẫu, hãy thay thế giá trị trung bình tổng thể và độ lệch chuẩn bằng
thống kê mẫu tương ứng. Mặc dù CS có thể được tính toán trên bảng tính, nhưng có thể
dễ dàng tìm thấy nó bằng cách sử dụng hàm SKEW(phạm vi dữ liệu) của Excel. Nếu CS
dương, thì sự phân bố của các giá trị bị lệch dương; nếu âm, nó bị lệch âm. CS càng
gần 0 thì mức độ lệch càng ít. Hệ số độ lệch lớn hơn 1 hoặc nhỏ hơn -1 cho thấy mức độ
lệch cao. Giá trị nằm trong khoảng từ 0,5 đến 1 hoặc từ -0,5 đến -1 thể hiện độ lệch
vừa phải. Các hệ số từ 0,5 đến -0,5 biểu thị tính đối xứng tương đối.
VÍ DỤ 4.14 Đo độ nghiêng
Sử dụng hàm Excel trong cơ sở dữ liệu Đơn đặt hàng
Điều này cho chúng tôi biết rằng dữ liệu Chi phí trên mỗi đơn hàng rất cao
SKEW, các hệ số về độ lệch cho dữ liệu Chi phí trên mỗi đơn
lệch dương, trong khi dữ liệu Điều khoản A/P có độ lệch dương
hàng và Điều khoản A/P được tính như sau
nhỏ. Đây là điều hiển nhiên từ histo gram trong Hình 4.12.
CS (giá mỗi đơn hàng) = 1,66
CS (thuật ngữ AP) = 0,60
Hình 4.12
Biểu đồ chi phí trên mỗi đơn đặt hàng và Điều khoản A/P
Machine Translated by Google
110
Chương 4 Các biện pháp thống kê mô tả
Hình 4.13
Đặc điểm của Xiên
phân phối
Nghĩa là
Trung bình
Cách thức
Cách thức
Trung bình
Nghĩa là
Biểu đồ chỉ có một "đỉnh" được gọi là đơn thức. (Nếu một biểu đồ có chính xác hai đỉnh,
chúng tôi gọi nó là lưỡng cực. Điều này thường biểu thị một hỗn hợp các mẫu từ các quần thể
khác nhau.) Đối với các biểu đồ đơn mô thức tương đối đối xứng, chế độ là một ước tính khá tốt
về giá trị trung bình. Ví dụ: chế độ cho dữ liệu Điều khoản A/P rõ ràng là 30 tháng; trung bình
là 30,638 tháng. Mặt khác, đối với dữ liệu Chi phí cho mỗi đơn hàng, chế độ xảy ra trong nhóm
(0, 13.000). Điểm giữa của nhóm, 6.500 đô la, có thể được sử dụng làm ước tính bằng số của chế
độ, hoàn toàn không gần với giá trị trung bình thực sự là 26.295,32 đô la. Mức độ lệch cao kéo
giá trị trung bình ra khỏi chế độ.
So sánh các biện pháp về vị trí đôi khi có thể tiết lộ thông tin về hình dạng của sự phân
bố các quan sát. Ví dụ: nếu phân phối hoàn toàn đối xứng và không theo phương thức, thì giá trị
trung bình, trung vị và chế độ sẽ giống nhau. Nếu nó bị lệch âm, nhìn chung chúng ta sẽ thấy giá
trị trung bình < trung vị < chế độ, trong khi độ lệch dương sẽ gợi ý rằng chế độ < trung vị <
trung bình (xem Hình 4.13).
Độ nhọn đề cập đến độ nhọn (nghĩa là cao, hẹp) hoặc độ phẳng (tức là ngắn, đỉnh bằng phẳng)
của biểu đồ. Hệ số nhọn (CK) đo lường mức độ nhọn của một tổng thể và có thể được tính toán bằng
cách sử dụng hàm Excel KURT(phạm vi dữ liệu). Hệ số nhọn được tính như
1
CK
N
Một 1xi - m24
tôi 1
4
(4.12)
(Một lần nữa, đối với dữ liệu mẫu, hãy sử dụng số liệu thống kê mẫu thay vì các thước đo dân số.)
Các phân phối có giá trị CK nhỏ hơn 3 phẳng hơn với mức độ phân tán rộng; những loại có giá trị
CK lớn hơn 3 có nhiều đỉnh hơn với độ phân tán ít hơn.
Độ lệch và độ nhọn có thể giúp cung cấp nhiều thông tin hơn để đánh giá rủi ro hơn là chỉ
sử dụng độ lệch chuẩn. Ví dụ, cả phân phối lệch âm và lệch dương có thể có cùng độ lệch chuẩn,
nhưng rõ ràng nếu mục tiêu là đạt được lợi nhuận cao, thì phân phối lệch chuẩn sẽ có xác suất
cao hơn để thu được lợi nhuận lớn hơn. Độ nhọn càng cao, biểu đồ càng có nhiều diện tích ở đuôi
hơn là ở giữa.
Điều này có thể cho thấy tiềm năng lớn hơn dẫn đến các kết quả cực đoan và có thể là thảm họa.
Công cụ thống kê mô tả Excel
Excel cung cấp một công cụ hữu ích để phân tích dữ liệu cơ bản, Thống kê mô tả, cung cấp tóm tắt
các biện pháp thống kê số mô tả vị trí, độ phân tán và hình dạng cho dữ liệu mẫu (không phải
tổng thể). Bấm vào Phân tích dữ liệu trong nhóm Phân tích dưới tab Dữ liệu trong thanh menu
Excel. Chọn Thống kê mô tả từ danh sách công cụ.
Hộp thoại Thống kê mô tả như trong Hình 4.14 sẽ xuất hiện. Bạn chỉ cần nhập phạm vi dữ liệu, phải
nằm trong một hàng hoặc một cột. Nếu dữ liệu nằm trong nhiều cột, thì công cụ sẽ coi mỗi hàng
hoặc cột là một tập dữ liệu riêng biệt, tùy thuộc vào việc bạn chỉ định. Điều này có nghĩa là
nếu bạn có một tập dữ liệu duy nhất được sắp xếp theo ma trận
Machine Translated by Google
Chương 4 Các biện pháp thống kê mô tả
111
Hình 4.14
Hộp thoại thống kê mô tả
định dạng, bạn sẽ phải xếp dữ liệu vào một cột trước khi áp dụng công cụ Thống kê mô
tả. Chọn hộp Nhãn trong Hàng đầu tiên nếu nhãn được bao gồm trong phạm vi đầu vào.
Bạn có thể chọn lưu kết quả trong trang tính hiện tại hoặc trong trang tính mới. Đối với thống kê
tóm tắt cơ bản, hãy chọn hộp Thống kê tóm tắt; bạn không cần phải kiểm tra bất kỳ người nào khác.
VÍ DỤ 4.15 Sử dụng Công cụ Thống kê Mô tả
Chúng tôi sẽ áp dụng công cụ Thống kê mô tả cho dữ liệu Chi phí
sổ làm việc Đơn đặt hàng và được hiển thị trong Hình 4.15. Công
trên mỗi đơn hàng và Điều khoản A/P trong các cột G và H của cơ
cụ này cung cấp tất cả các phép đo mà chúng ta đã thảo luận cũng
sở dữ liệu Đơn đặt hàng. Các kết quả được cung cấp trong trang
như sai số chuẩn mà chúng ta đã thảo luận trong Chương 6, cùng
tính Thống kê mô tả trong Mua hàng
với giá trị nhỏ nhất, giá trị lớn nhất, tổng và số đếm.
Một điểm quan trọng cần lưu ý về việc sử dụng các công cụ trong các hàm Analysis
Toolpak ver sus Excel là trong khi các hàm Excel tự động thay đổi khi dữ liệu trong
bảng tính được thay đổi, kết quả của các công cụ Analysis Toolpak thì không. Ví dụ:
nếu bạn tính trực tiếp giá trị trung bình của một dãy số bằng cách sử dụng hàm
AVERAGE(dải ô), thì việc thay đổi dữ liệu trong dãy số sẽ tự động cập nhật kết quả.
Tuy nhiên, bạn sẽ phải chạy lại công cụ Thống kê mô tả sau khi thay đổi dữ liệu.
Hình 4.15
Dữ liệu đơn đặt hàng
Thống kê mô tả
Bản tóm tắt
Machine Translated by Google
112
Chương 4 Các biện pháp thống kê mô tả
Thống kê mô tả cho dữ liệu được nhóm
Trong một số trường hợp, dữ liệu có thể đã được nhóm theo phân phối tần suất và chúng tôi có
thể không có quyền truy cập vào dữ liệu thô. Trường hợp này thường xảy ra khi trích xuất thông
tin từ cơ sở dữ liệu của chính phủ như Cục điều tra dân số hoặc Cục thống kê lao động. Trong
những tình huống này, chúng tôi không thể tính giá trị trung bình hoặc phương sai bằng các công
thức tiêu chuẩn.
Khi dữ liệu mẫu được tóm tắt trong một phân phối tần suất, giá trị trung bình của dân số
tion có thể được tính bằng cách sử dụng công thức
N
Mộtcố
tôi
định
tôi 1
(4.13)
N
Đối với các mẫu, công thức tương tự:
N
Mộtcố
x
ở đâu
Tôi
định
tôi 1
N
(4.14)
là tần suất quan sát i. Về cơ bản, chúng tôi nhân tần suất với giá trị của
quan sát i, cộng chúng lại và chia cho số lượng quan sát.
Chúng tôi có thể sử dụng các công thức tương tự để tính toán phương sai dân số cho dữ liệu được
nhóm,
N
Mộtfi1xi - m22
2
tôi 1
N
(4.15)
và phương sai mẫu,
N
Mộtfi1xi - x22
s2
tôi 1
n - 1
(4.16)
Để tìm độ lệch chuẩn, hãy lấy căn bậc hai của phương sai, như chúng ta đã làm trước đó.
Lưu ý sự giống nhau giữa các công thức này với công thức (4.13) và (4.14). Khi nhân các giá
trị theo tần suất, về cơ bản, chúng ta đang cộng các giá trị giống nhau nhiều lần. Vì vậy, chúng
thực sự là những công thức giống nhau, chỉ được thể hiện khác nhau.
VÍ DỤ 4.16 Tính toán các biện pháp thống kê từ phân phối tần số
Trang tính Tính toán Thống kê trong sổ làm việc Thời gian Sửa
trong công thức (4.14)] rồi chia cho n, tổng các tần số trong
chữa Máy tính hiển thị các tính toán về giá trị trung bình và
cột B, để tìm giá trị trung bình trong ô C49.
phương sai bằng cách sử dụng các công thức (4.14) và (4.16)
Các cột D, E và F cung cấp các tính toán cần thiết để tìm
cho phân bố tần suất thời gian sửa chữa. Một phần của điều này
phương sai. Chúng tôi chia tổng dữ liệu trong cột F cho n - 1
được thể hiện trong Hình 4.16. Trong cột C, chúng tôi nhân
= 249 để tìm phương sai trong ô F49.
tần suất với giá trị của các quan sát [tử số
Machine Translated by Google
Chương 4 Các biện pháp thống kê mô tả
113
Hình 4.16
Tính toán trung bình và phương sai sử dụng phân phối tần số
Nếu dữ liệu được nhóm thành k ô trong một phân phối tần suất, chúng ta có thể sử dụng các phiên
bản đã sửa đổi của các công thức này để ước tính giá trị trung bình và phương sai bằng cách thay thế
xi bằng một giá trị đại diện (chẳng hạn như điểm giữa) cho tất cả các quan sát trong mỗi ô.
VÍ DỤ 4.17 Tính toán thống kê mô tả cho
phân phối tần số được nhóm
Hình 4.17 cho thấy dữ liệu thu được từ Cục điều tra dân số Hoa
nhóm này, chúng tôi không có thông tin để xác định giá trị tốt
Kỳ cho thấy số lượng hộ gia đình chi tiền thuê nhà theo các tỷ
nhất có thể là bao nhiêu. Có thể không hợp lý khi giả định điểm
lệ phần trăm thu nhập khác nhau. Giả sử chúng ta muốn tính tỷ
giữa giữa 50% và 100%, hoặc 75%; một giá trị hợp lý hơn có thể
lệ phần trăm trung bình và độ lệch chuẩn. Vì chúng tôi không
là 58% hoặc 60%. Khi xử lý thông tin không chắc chắn hoặc mơ
có dữ liệu thô nên chúng tôi chỉ có thể ước tính các số liệu
hồ trong các ứng dụng phân tích kinh doanh, chúng ta thường
thống kê này bằng cách giả định một số giá trị đại diện cho
phải đưa ra giả định tốt nhất có thể. Trong trường hợp này,
mỗi nhóm. Đối với các nhóm được xác định bởi giá trị trên và
chúng tôi chọn 60%. Các phép tính, được minh họa trong Hình
dưới, điều này rất dễ thực hiện; chúng ta có thể sử dụng các
4.18 (bảng tính Phép tính trong sổ làm việc Dữ liệu Điều tra
điểm giữa—ví dụ: 5% cho nhóm thứ nhất và 12% cho nhóm thứ hai.
giá thuê nhà), cho thấy giá trị trung bình gần 30% và độ lệch
Tuy nhiên, không rõ phải làm gì đối với nhóm 50% trở lên. Vì
chuẩn là 17,61%.
Hình 4.17
Dữ liệu thuê của Cục điều tra dân số
Machine Translated by Google
114
Chương 4 Các biện pháp thống kê mô tả
Hình 4.18
Dữ liệu thuê điều tra dân số
phép tính
Điều quan trọng là phải hiểu rằng vì chúng tôi chưa sử dụng tất cả dữ liệu gốc để tính
toán các số liệu thống kê này nên chúng chỉ là ước tính của các giá trị thực.
Thống kê mô tả cho dữ liệu phân loại: Tỷ lệ
Các thống kê như phương tiện và phương sai không phù hợp với dữ liệu phân loại. Thay vào đó,
chúng tôi thường quan tâm đến phần dữ liệu có một đặc điểm nhất định. Thước đo thống kê chính
thức được gọi là tỷ lệ, thường được ký hiệu là p. Tỷ lệ là số liệu thống kê mô tả chính cho dữ
liệu phân loại, chẳng hạn như khiếm khuyết hoặc sai sót trong các ứng dụng kiểm soát chất lượng
hoặc sở thích của người tiêu dùng trong nghiên cứu thị trường.
VÍ DỤ 4.18 Tính tỷ lệ
Trong cơ sở dữ liệu Đơn đặt hàng, cột A liệt kê tên của nhà
với Công nghệ thời không, chúng tôi đã sử dụng hàm
cung cấp cho mỗi đơn đặt hàng. Chúng ta có thể sử dụng hàm
=COUNTIF(A4:A97, “Công nghệ thời không”). Giá trị này chuyển
Excel =COUNTIF(phạm vi dữ liệu, tiêu chí) để đếm số quan sát
thành giá trị là 12. Vì 94 đơn hàng đã được đặt nên tỷ lệ đơn
đáp ứng các đặc điểm được chỉ định. Chẳng hạn, để tìm số lượng
hàng được đặt với Công nghệ Không thời gian là p = 12 94 =
đơn hàng đã đặt
0,128.
Điều quan trọng là phải nhận ra rằng tỷ lệ là các số từ 0 đến 1. Mặc dù chúng tôi thường
chuyển đổi chúng thành tỷ lệ phần trăm—ví dụ: 12,8% đơn đặt hàng được đặt với Công nghệ Không
thời gian trong ví dụ trước—chúng tôi phải cẩn thận khi sử dụng biểu thức thập phân của một
tỷ lệ khi các công thức thống kê yêu cầu nó.
Thống kê trong PivotTable
Chúng tôi đã giới thiệu PivotTable trong Chương 3 và áp dụng chúng để tìm số đếm đơn giản và
tạo các bảng chéo. PivotTable cũng có chức năng tính toán nhiều biện pháp thống kê cơ bản từ
tóm tắt dữ liệu. Nếu bạn nhìn vào hộp thoại Cài đặt Trường Giá trị được hiển thị trong Hình
4.19, bạn có thể thấy rằng bạn có thể tính giá trị trung bình, độ lệch chuẩn và phương sai của
một trường giá trị.
Machine Translated by Google
Chương 4 Các biện pháp thống kê mô tả
115
Hình 4.19
Hộp thoại Cài đặt Trường Giá trị
Hình 4.20
PivotTable cho Trung bình
Kiểm tra và Tiết kiệm
Số dư tài khoản theo công việc
VÍ DỤ 4.19 Các biện pháp thống kê trong PivotTable
Trong tệp Excel Dữ liệu Rủi ro Tín dụng, giả sử rằng chúng ta
và “Số tiền tiết kiệm” ở mức trung bình. Kết quả được thể hiện
muốn tìm số tiền trung bình trong các tài khoản séc và tiết
trong Hình 4.20; chúng tôi cũng đã định dạng các giá trị dưới
kiệm theo phân loại công việc. Tạo PivotTable và trong Danh
dạng đơn vị tiền tệ bằng cách sử dụng nút Định dạng Số trong
sách Trường PivotTable, di chuyển Công việc sang trường Hàng La
hộp thoại. Theo cách tương tự, bạn có thể tìm thấy độ lệch chuẩn
bels và Kiểm tra và Tiết kiệm sang trường Giá trị.
hoặc phương sai của từng nhóm bằng cách chọn cài đặt trường
Sau đó, thay đổi cài đặt trường từ “Tổng kiểm tra”
thích hợp.
Các biện pháp của Hiệp hội
Hai biến có mối quan hệ thống kê chặt chẽ với nhau nếu chúng dường như di chuyển cùng nhau.
Chúng tôi thấy nhiều ví dụ hàng ngày; chẳng hạn, việc tham dự các trận đấu bóng chày thường
liên quan chặt chẽ đến tỷ lệ thắng của đội và doanh số bán kem có thể có mối quan hệ chặt
chẽ với nhiệt độ hàng ngày. Chúng ta có thể kiểm tra mối quan hệ giữa hai biến một cách
trực quan bằng cách sử dụng biểu đồ tán xạ mà chúng ta đã giới thiệu trong Chương 3.
Khi hai biến dường như có liên quan với nhau, bạn có thể nghi ngờ về mối quan hệ nhân quả.
Tuy nhiên, đôi khi, các mối quan hệ thống kê vẫn tồn tại mặc dù sự thay đổi của một biến không
phải do sự thay đổi của biến kia gây ra. Ví dụ, tờ New York Times đưa tin về mối quan hệ thống
kê mạnh mẽ giữa khả năng chơi gôn của các CEO công ty và hiệu quả hoạt động trên thị trường
chứng khoán của công ty họ trong hơn 3 năm. CEO từng là người chơi golf giỏi hơn mức trung bình
Machine Translated by Google
116
Chương 4 Các biện pháp thống kê mô tả
Hình 4.21
Một Phần File Excel Cao Đẳng Và Đại Học
có khả năng mang lại lợi nhuận trên mức trung bình cho các cổ đông.4 Rõ ràng, khả năng chơi
gôn sẽ không mang lại hiệu quả kinh doanh tốt hơn. Do đó, bạn phải thận trọng khi rút ra những
suy luận về mối quan hệ nhân quả chỉ dựa trên các mối quan hệ thống kê. (Mặt khác, bạn có thể
muốn dành nhiều thời gian hơn cho phạm vi luyện tập!)
Hiểu được mối quan hệ giữa các biến là cực kỳ quan trọng trong việc đưa ra các quyết định kinh
doanh đúng đắn, đặc biệt là khi các mối quan hệ nhân quả có thể được chứng minh. Khi một công ty hiểu
các yếu tố bên trong như chất lượng sản phẩm, đào tạo nhân viên và các yếu tố định giá ảnh hưởng như
thế nào đến các biện pháp bên ngoài như lợi nhuận và sự hài lòng của khách hàng, thì công ty có thể đưa
ra các quyết định tốt hơn. Vì vậy, thật hữu ích khi có các công cụ thống kê để đo lường các mối quan hệ này.
Tệp Excel Cao đẳng và Đại học, một phần của tệp được hiển thị trong Hình 4.21, chứa dữ
liệu từ 49 trường đại học nghiên cứu và nghệ thuật tự do hàng đầu trên khắp Hoa Kỳ. Một số
câu hỏi có thể được đặt ra về mối quan hệ thống kê giữa các biến này. Chẳng hạn, tỷ lệ học
sinh trong top 10% cao nhất của lớp trung học có cho thấy tỷ lệ tốt nghiệp cao hơn không? Là
tỷ lệ chấp nhận liên quan đến số tiền chi tiêu cho mỗi sinh viên? Các trường có tỷ lệ chấp
nhận thấp hơn có xu hướng chấp nhận học sinh có điểm SAT cao hơn không? Những câu hỏi như thế
này có thể được giải quyết bằng cách tính toán các phép đo thống kê về mối liên hệ giữa các biến.
hiệp phương sai
Hiệp phương sai là thước đo mối liên hệ tuyến tính giữa hai biến X và Y. Giống như phương
sai, các công thức khác nhau được sử dụng cho tổng thể và mẫu. Về mặt tính toán, hiệp phương
sai của tổng thể là giá trị trung bình của tích các độ lệch của từng quan sát so với giá trị
trung bình tương ứng của nó:
N
Một 1xi - mx 21yi - my 2
cov (X, Y)
tôi 1
N
(4.17)
Để hiểu rõ hơn về hiệp phương sai, chúng ta hãy xem xét công thức (4.17). Hiệp phương sai
giữa X và Y là giá trị trung bình của tích các độ lệch của từng cặp quan sát so với giá trị
trung bình tương ứng của chúng. Giả sử rằng các giá trị lớn (nhỏ) của X thường được liên kết
với các giá trị lớn (nhỏ) của Y. Khi đó, trong hầu hết các trường hợp, cả xi và yi đều ở trên
hoặc ở dưới trung bình tương ứng của chúng. Nếu vậy, tích của độ lệch so với trung bình sẽ là
một số dương và khi cộng lại với nhau và tính trung bình sẽ cho hiệp phương sai giá trị dương.
Mặt khác, nếu giá trị nhỏ (lớn) của X được liên kết với giá trị lớn (nhỏ) của
4Adam Bryant, “CEOs' Golf Games Linked to Companies' Performance,” Cincinnati Enquirer, 7/6/1998,
El.
Machine Translated by Google
117
Chương 4 Các biện pháp thống kê mô tả
Y, thì một trong các độ lệch so với giá trị trung bình thường sẽ âm trong khi độ lệch
kia dương. Khi được nhân với nhau, kết quả là giá trị âm và giá trị của hiệp phương
sai sẽ âm. Như vậy, giá trị tuyệt đối của hiệp phương sai càng lớn thì mức độ liên kết
tuyến tính giữa hai biến càng cao. Dấu hiệu của hiệp phương sai cho chúng ta biết liệu
có mối quan hệ trực tiếp (tức là một biến tăng khi biến kia tăng) hay mối quan hệ
nghịch đảo (tức là một biến tăng trong khi biến kia giảm hoặc ngược lại). Nói chung,
chúng ta có thể xác định cường độ của bất kỳ mối liên hệ tuyến tính nào giữa hai biến
số và dấu của hiệp phương sai bằng cách xây dựng biểu đồ phân tán. Hàm Excel
COVARIANCE.P(array1, array2) tính toán hiệp phương sai của một tổng thể.
Hiệp phương sai mẫu được tính như
N
Một 1xi - x21yi - y2
cov (X, Y)
tôi 1
n - 1
(4.18)
Tương tự với phương sai mẫu, lưu ý việc sử dụng n - 1 ở mẫu số. Hàm Excel COVARIANCE.S(array1,
array2) tính toán hiệp phương sai của một mẫu.
VÍ DỤ 4.20 Tính hiệp phương sai
Hình 4.22 cho thấy biểu đồ phân tán tỷ lệ tốt nghiệp (biến Y)
hiệp phương sai. Hình 4.23 thể hiện các tính toán sử dụng for
so với điểm SAT trung bình (biến X) đối với dữ liệu của các
mula (4.18); những thứ này được cung cấp trong bảng tính Cova
trường Cao đẳng và Đại học. Có vẻ như khi điểm SAT trung bình
riance trong sổ làm việc Excel của trường Cao đẳng và Đại học.
tăng lên, tỷ lệ tốt nghiệp cũng tăng lên; do đó, chúng tôi hy
Hàm Excel =COVARIANCE.S(B2:B50,C2:C50) trong ô F55 xác minh
vọng sẽ thấy một kết quả tích cực
các phép tính.
tương quan
Giá trị số của hiệp phương sai nói chung rất khó giải thích vì nó phụ thuộc vào đơn vị
đo lường của các biến. Ví dụ: nếu chúng ta biểu thị tỷ lệ tốt nghiệp dưới dạng tỷ lệ
thực chứ không phải theo tỷ lệ phần trăm trong ví dụ trước, thì giá trị bằng số của
hiệp phương sai sẽ nhỏ hơn, mặc dù mối liên hệ tuyến tính giữa các biến sẽ giống nhau.
Tương quan là thước đo mối quan hệ tuyến tính giữa hai biến X và Y, không phụ thuộc vào
đơn vị đo lường. Mối tương quan được đo bằng
Hình 4.22
Biểu đồ phân tán tốt nghiệp
Tỷ lệ so với SAT trung bình
Machine Translated by Google
118
Chương 4 Các biện pháp thống kê mô tả
Hình 4.23
Tính toán hiệp phương sai
cho tỷ lệ tốt nghiệp và
SAT trung bình
hệ số tương quan, còn được gọi là hệ số tương quan thời điểm sản phẩm Pearson. Hệ số tương quan
cho một quần thể được tính như
xy
cov(X, Y)
(4.19)
xy
Bằng cách chia hiệp phương sai cho tích của các độ lệch chuẩn, về cơ bản, chúng ta đang chia tỷ
lệ giá trị bằng số của hiệp phương sai thành một số trong khoảng từ -1 đến 1.
Theo cách tương tự, hệ số tương quan mẫu được tính là
rxy
cov(X,Y)
(4.20)
sx sy
Hàm CORREL của Excel tính toán hệ số tương quan của hai mảng dữ liệu.
Tương quan bằng 0 chỉ ra rằng hai biến không có mối quan hệ tuyến tính với nhau. Do đó, nếu
một thay đổi, chúng ta không thể dự đoán một cách hợp lý biến kia có thể làm gì. Hệ số tương quan
dương biểu thị mối quan hệ tuyến tính trong đó một biến tăng khi biến kia cũng tăng. Hệ số tương
quan âm biểu thị mối quan hệ tuyến tính đối với một biến tăng trong khi biến kia giảm. Trong
kinh tế học, theo lập trường, một sản phẩm co giãn theo giá có mối tương quan nghịch giữa giá
và doanh số; khi giá tăng thì doanh số giảm và ngược lại. Các mối quan hệ này được minh họa
trong Hình 4.24.
Lưu ý rằng mặc dù Hình 4.24(d) có mối quan hệ rõ ràng giữa các biến, nhưng mối quan hệ này
không phải là tuyến tính và hệ số tương quan bằng không.
Hình 4.24
215 210 25
0 5
10 15
Y
Y
X
X
(a) Tương quan dương
(b) Tương quan âm
Y
Y
Ví dụ về tương quan
X
X (c) Không tương quan
(d) Mối quan hệ phi tuyến tính không có tương quan tuyến tính
Machine Translated by Google
119
Chương 4 Các biện pháp thống kê mô tả
Hình 4.25
Tính toán tương quan cho tỷ lệ tốt nghiệp và SAT trung bình
VÍ DỤ 4.21 Tính hệ số tương quan
Hình 4.25 trình bày các phép tính để tính toán hệ số tương quan
trong các ô B52 và C52, sau đó chia hiệp phương sai cho tích
mẫu cho tỷ lệ tốt nghiệp và các biến SAT trung bình ở các trường
của các độ lệch chuẩn này trong ô F54. Ô F56 hiển thị kết quả
Cao đẳng và Đại học
tương tự khi sử dụng hàm Excel =CORREL(B2:B50,C2:C50).
tập tin dữ liệu. Đầu tiên chúng ta tính độ lệch chuẩn của mỗi
Khi sử dụng hàm CORREL, việc dữ liệu đại diện cho các mẫu hoặc
quần thể. Nói cách khác,
CORREL(mảng1, mảng2)
COVARIANCE.P1array1, array22
STDEV.P1array12 * STDEV.P1array22
Và
CORREL(mảng1, mảng2)
COVARIANCE.S1array1, array22
STDEV.S1array12 * STDEV.S1array22
Chẳng hạn, trong Ví dụ 4.21, nếu chúng ta giả sử rằng dữ liệu là tổng thể, chúng ta
thấy rằng độ lệch chuẩn tổng thể của X là 7,372 và độ lệch chuẩn tổng thể của Y
là 62.034 (dùng hàm STDEV.P). Bằng cách chia hiệp phương sai tổng thể, 257,995 (sử
dụng hàm COVARIANCE.P), cho tích của các độ lệch chuẩn này, chúng tôi thấy rằng hệ số
tương quan vẫn là 0,564 như được tính toán bởi hàm CORREL.
Công cụ tương quan Excel
Công cụ Tương quan Phân tích Dữ liệu tính toán các hệ số tương quan cho nhiều hơn hai tia ar.
Chọn Tương quan từ danh sách công cụ Phân tích dữ liệu. Hộp thoại được hiển thị trong Hình 4.26.
Bạn chỉ cần nhập phạm vi dữ liệu (phải nằm trong các cột liền kề; nếu không, bạn phải
di chuyển chúng trong trang tính của mình), chỉ định xem dữ liệu được nhóm theo hàng
hay cột (hầu hết các ứng dụng sẽ được nhóm theo cột), và cho biết hàng đầu tiên có chứa
nhãn dữ liệu hay không. Đầu ra của công cụ này là một ma trận đưa ra mối tương quan
giữa từng cặp biến. Công cụ này cung cấp đầu ra giống như hàm CORREL cho từng cặp biến.
Machine Translated by Google
120
Chương 4 Các biện pháp thống kê mô tả
Hình 4.26
Công cụ tương quan Excel
hộp thoại
Hình 4.27
Kết quả tương quan cho
Cao đẳng và đại học
Dữ liệu
VÍ DỤ 4.22 Sử dụng Công cụ Tương quan
Ma trận tương quan giữa tất cả các biến trong tệp dữ liệu Đại
tỷ lệ chấp nhận có tỷ lệ tốt nghiệp cao hơn. Chúng tôi cũng
học và Đại học được thể hiện trong Hình 4.27.
thấy rằng tỷ lệ chấp nhận cũng có tương quan nghịch với SAT
Không có mối tương quan nào là rất mạnh. Mối tương quan thuận
trung bình và 10% HS hàng đầu, cho thấy rằng các trường có tỷ
vừa phải giữa tỷ lệ tốt nghiệp và điểm SAT cho thấy các trường
lệ chấp nhận thấp hơn có hồ sơ học sinh cao hơn. Mối tương quan
có điểm SAT trung bình cao hơn có tỷ lệ tốt nghiệp cao hơn.
với Chi tiêu/Học sinh cũng gợi ý rằng các trường có hồ sơ học
Chúng tôi thấy có mối tương quan nghịch vừa phải giữa tỷ lệ
sinh cao hơn sẽ chi nhiều tiền hơn cho mỗi học sinh.
chấp nhận và tỷ lệ tốt nghiệp, cho thấy rằng các trường có điểm
thấp hơn
ngoại lệ
Trước đó, chúng tôi đã lưu ý rằng giá trị trung bình và phạm vi rất nhạy cảm với các giá trị ngoại
lệ—các giá trị lớn hoặc nhỏ bất thường trong dữ liệu. Các ngoại lệ có thể tạo ra sự khác biệt đáng
kể trong kết quả mà chúng tôi thu được từ các phân tích thống kê. Một câu hỏi thống kê quan trọng
là làm thế nào để xác định chúng. Điều đầu tiên cần làm từ góc độ thực tế là kiểm tra dữ liệu để
tìm các lỗi có thể xảy ra, chẳng hạn như dấu thập phân bị đặt sai vị trí hoặc phiên âm không chính
xác sang tệp máy tính. Biểu đồ có thể giúp xác định các ngoại lệ có thể có một cách trực quan.
Chúng ta có thể sử dụng quy tắc thực nghiệm và điểm số z để xác định một giá trị ngoại lệ là giá
trị sai lệch nhiều hơn ba tiêu chuẩn so với giá trị trung bình. Chúng tôi cũng có thể xác định các
ngoại lệ dựa trên phạm vi liên vùng. Các giá trị ngoại lệ “nhẹ” thường được định nghĩa là nằm trong
khoảng từ 1,5*IQR đến 3*IQR ở bên trái của Q1 hoặc ở bên phải của Q3 và các giá trị ngoại lệ “cực
đoan”, tức là cách các phần tư này hơn 3*IQR. Về cơ bản, không có định nghĩa tiêu chuẩn nào về
những gì tạo nên một ngoại lệ ngoài một quan sát bất thường so với phần còn lại. Tuy nhiên, điều
quan trọng là cố gắng xác định các ngoại lệ và xác định tầm quan trọng của chúng khi tiến hành các
nghiên cứu phân tích kinh doanh.
Machine Translated by Google
121
Chương 4 Các biện pháp thống kê mô tả
Hình 4.28
Một phần thị trường gia đình
Giá trị
Hình 4.29
Máy tính -Điểm cho
Kiểm tra ngoại lệ
VÍ DỤ 4.23 Điều tra các ngoại lệ
Tệp dữ liệu Excel Giá trị thị trường tại nhà cung cấp một mẫu dữ
kích thước ngôi nhà (1.581 feet vuông). Điểm trên biểu đồ phân
liệu cho các ngôi nhà trong một vùng lân cận (Hình 4.28). Hình
tán dường như không trùng khớp với phần còn lại của dữ liệu.
4.29 cho thấy các phép tính -score cho các biến số foot vuông và
Câu hỏi đặt ra là phải làm gì với các ngoại lệ có thể xảy
giá trị thị trường. Không có -scores nào cho một trong hai biến
ra. Không nên loại bỏ chúng một cách mù quáng trừ khi có lý do
này vượt quá 3 (có thể tìm thấy các tính toán này trong bảng tính
chính đáng để làm như vậy – chẳng hạn, nếu ngôi nhà cuối cùng
Giá trị ngoại lệ trong Giá trị thị trường gia đình của Excel
trong ví dụ về Giá trị thị trường gia đình có một bể bơi ngoài
sách bài tập). Tuy nhiên, trong khi các biến riêng lẻ có thể
trời khiến nó khác biệt đáng kể so với phần còn lại của khu vực
không thể hiện các ngoại lệ, thì sự kết hợp của chúng lại có
lân cận. Các nhà thống kê thường gợi ý rằng các phân tích nên
thể. Chúng ta thấy điều này trong biểu đồ phân tán ở Hình 4.30.
được thực hiện có và không có các ngoại lệ để có thể so sánh và
Quan sát cuối cùng có giá trị thị trường cao ($120,700) nhưng tương đối
kiểmnhỏ
tra các kết quả một cách nghiêm túc.
Hình 4.30
Biểu đồ phân tán của ngôi nhà
Quy mô so với giá trị thị trường
Machine Translated by Google
122
Chương 4 Các biện pháp thống kê mô tả
Tư duy thống kê trong các quyết định kinh doanh
Tầm quan trọng của việc áp dụng các khái niệm thống kê để đưa ra các quyết định kinh doanh tốt và cải thiện hiệu
suất không thể được nhấn mạnh quá mức. Tư duy thống kê là một triết lý học tập và hành động để cải thiện dựa trên
các nguyên tắc
tất cả các công việc xảy ra trong một hệ thống các quy trình được kết nối với nhau,
biến thể tồn tại trong tất cả các quá trình, và
kết quả hoạt động tốt hơn từ sự hiểu biết và giảm biến thể.5
Công việc được thực hiện trong bất kỳ tổ chức nào thông qua các quy trình—những cách thức có hệ thống để thực
hiện mọi việc nhằm đạt được kết quả mong muốn. Việc hiểu các quy trình kinh doanh cung cấp bối cảnh để xác định tác
động của sự thay đổi và loại hành động thích hợp được thực hiện. Bất kỳ quy trình nào cũng chứa nhiều nguồn biến
đổi. Ví dụ, trong sản xuất, các lô vật liệu khác nhau sẽ khác nhau về độ bền, độ dày hoặc độ ẩm. Trong quá trình sản
xuất, các công cụ bị mài mòn, rung động gây ra những thay đổi trong cài đặt máy và dao động điện gây ra sự thay đổi
về công suất. Công nhân có thể không định vị các bộ phận trên đồ đạc một cách nhất quán và căng thẳng về thể chất và
tinh thần có thể ảnh hưởng đến tính nhất quán của công nhân. Ngoài ra, các thiết bị đo lường và khả năng kiểm tra của
con người không đồng đều dẫn đến sai số đo lường.
Các hiện tượng tương tự xảy ra trong quy trình dịch vụ do sự thay đổi trong hành vi của nhân viên và khách hàng, ứng
dụng công nghệ, v.v. Giảm biến thể dẫn đến tính nhất quán hơn trong quy trình sản xuất và dịch vụ, ít lỗi hơn, khách
hàng hài lòng hơn và độ chính xác cao hơn của những thứ như báo giá thời gian giao hàng.
Mặc dù sự khác biệt tồn tại ở khắp mọi nơi, nhiều nhà quản lý thường không nhận ra nó hoặc xem xét nó trong
các quyết định của họ. Tần suất các nhà quản lý đưa ra quyết định dựa trên một hoặc hai điểm dữ liệu mà không xem xét
mô hình biến đổi, xem các xu hướng trong dữ liệu không hợp lý hoặc cố gắng thao túng các biện pháp mà họ không thể
thực sự kiểm soát? Thật không may, câu trả lời là khá thường xuyên. Ví dụ, nếu doanh số bán hàng ở một số khu vực
giảm so với quý trước, người quản lý khu vực có thể nhanh chóng đổ lỗi cho nhân viên bán hàng của mình vì đã không
làm việc chăm chỉ, mặc dù việc giảm doanh số bán hàng có thể chỉ đơn giản là kết quả của sự thay đổi không kiểm soát
được. Thông thường, nó chỉ đơn giản là vấn đề thiếu hiểu biết về cách đối phó với sự thay đổi của dữ liệu. Đây là nơi
phân tích kinh doanh có thể đóng một vai trò quan trọng. Phân tích thống kê có thể cung cấp cái nhìn sâu sắc hơn về
các sự kiện và bản chất của các mối quan hệ giữa nhiều yếu tố có thể đã góp phần tạo nên một sự kiện và cho phép các
nhà quản lý đưa ra các quyết định tốt hơn.
VÍ DỤ 4.24 Áp dụng tư duy thống kê
Hình 4.31 cho thấy một phần dữ liệu trong tệp Excel Nhiễm
kết luận rằng một xu hướng tồn tại. Sẽ thích hợp hơn nếu xem
trùng Phẫu thuật ghi lại số ca nhiễm trùng xảy ra sau các ca
xét một mẫu dữ liệu lớn hơn và nghiên cứu mô hình biến thể.
phẫu thuật trong hơn 36 tháng tại một bệnh viện, cùng với biểu
Trong 36 tháng, dữ liệu chỉ ra rõ ràng rằng có sự khác
đồ đường về số ca nhiễm trùng. (Chúng tôi sẽ giả định rằng số
biệt trong tỷ lệ lây nhiễm hàng tháng. Số ca nhiễm dường như
ca phẫu thuật được thực hiện mỗi tháng là như nhau.) Số ca
dao động trong khoảng từ 0 đến 3, ngoại trừ tháng 12. Tuy
nhiễm trùng tăng gấp ba lần trong tháng 2 và 3 so với tháng
nhiên, một phân tích trực quan về biểu đồ không nhất thiết dẫn
đầu tiên. Đây có phải là dấu hiệu của xu hướng gây ra bởi sự
đến một kết luận hợp lệ. Vì vậy, hãy áp dụng một số tư duy
thất bại của một số quy trình chăm sóc sức khỏe hay chỉ đơn
thống kê. Số ca nhiễm trung bình là 1.583 và độ lệch chuẩn là
giản là sự thay đổi ngẫu nhiên? Có nên thực hiện hành động
1.180. Nếu chúng ta áp dụng quy tắc thực nghiệm rằng hầu hết
để xác định nguyên nhân? Từ góc độ thống kê, ba điểm là không
các quan sát phải nằm trong khoảng ba độ lệch chuẩn của giá
đủ để
trị trung bình, thì chúng ta sẽ đạt được phạm vi
(còn tiếp)
5Galen Britz, Don Emerling, Lynne Hare, Roger Hoerl, và Janice Shade, “Làm thế nào để dạy người khác áp
dụng tư duy thống kê,” Quality Progress (tháng 6 năm 1997): 67–79.
Machine Translated by Google
123
Chương 4 Các biện pháp thống kê mô tả
of - 1,957 (rõ ràng số ca nhiễm không thể âm, vì vậy hãy đặt giá
quản lý bệnh viện nên tìm cách điều tra những gì có thể đã xảy ra
trị này thành 0) và 5,12. Điều này có nghĩa là, từ góc độ thống kê,
trong tháng đó và cố gắng ngăn chặn những sự cố tương tự.
chúng ta có thể mong đợi hầu hết tất cả các quan sát đều nằm trong
các giới hạn này. Hình 4.32 cho thấy biểu đồ hiển thị các phạm vi
này. Số ca nhiễm trong tháng 12 rõ ràng vượt quá giá trị phạm vi
Các phân tích tương tự được sử dụng thường xuyên trong kiểm
soát chất lượng và các ứng dụng kinh doanh khác để theo dõi hiệu
trên và cho thấy rằng số ca nhiễm trong tháng này khác biệt về mặt
suất một cách thống kê. Các tính toán phân tích thích hợp phụ thuộc
thống kê so với các tháng còn lại. Các
vào loại phép đo và các yếu tố khác và được giải thích đầy đủ trong
sách dành riêng cho kiểm soát chất lượng và quản lý chất lượng.
Sự thay đổi trong các mẫu
Bởi vì chúng tôi thường xử lý dữ liệu mẫu trong các ứng dụng phân tích kinh doanh,
điều cực kỳ quan trọng là phải hiểu rằng các mẫu khác nhau từ bất kỳ tập hợp nào sẽ
khác nhau; nghĩa là, chúng sẽ có các phương tiện khác nhau, độ lệch chuẩn và các biện
pháp thống kê khác và sẽ có sự khác biệt về hình dạng của biểu đồ. Đặc biệt, các mẫu
cực kỳ nhạy cảm với cỡ mẫu—số lượng quan sát có trong các mẫu.
Hình 4.31
Nhiễm trùng phẫu thuật
Hình 4.32
Nhiễm trùng theo kinh nghiệm
Phạm vi quy tắc
Machine Translated by Google
124
Chương 4 Các biện pháp thống kê mô tả
VÍ DỤ 4.25 Sự thay đổi trong dữ liệu mẫu
Trong ví dụ 4.5, chúng tôi đã minh họa một phân bố tần suất cho 250
trung bình và phương sai của toàn bộ mẫu được thể hiện trong Hình 4.5.
lần sửa chữa máy tính. Thời gian sửa chữa trung bình là 14,9 ngày và
Ngoài ra, biểu đồ hiển thị một cấu hình hơi khác.
phương sai của thời gian sửa chữa là 35,50.
Trong Hình 4.34, chúng tôi hiển thị kết quả cho hai mẫu nhỏ hơn có
Giả sử chúng tôi đã chọn một số mẫu nhỏ hơn từ những dữ liệu này.
kích thước 25. Ở đây, chúng tôi thực sự thấy nhiều thay đổi hơn trong
Hình 4.33 thể hiện hai mẫu cỡ 50 được chọn ngẫu nhiên từ 250 lần sửa
cả các biện pháp thống kê và biểu đồ so với toàn bộ tập dữ liệu.
chữa. Quan sát rằng các phương tiện và phương sai khác nhau cũng như
từ
Hình 4.33
Hai Mẫu Size 50 Của Sửa Máy Tính
Hình 4.34
Hai Mẫu Size 25 Của Sửa Máy Tính Lần
Machine Translated by Google
125
Chương 4 Các biện pháp thống kê mô tả
Ví dụ này chứng minh rằng điều quan trọng là phải hiểu tính biến thiên của dữ liệu
mẫu và thông tin thống kê được rút ra từ một mẫu có thể không đại diện chính xác cho tập
hợp mẫu. Đây là một trong những khái niệm quan trọng nhất trong việc áp dụng phân tích
kinh doanh. Chúng ta khám phá chủ đề này nhiều hơn trong Chương 6.
Phân tích trong thực tế: Áp dụng tư duy thống kê để phát hiện
Vấn đề tài chính6
Trong thập kỷ qua, đã có rất nhiều vụ phát hiện gian lận
trung bình. Sử dụng các biện pháp này, các nhà nghiên cứu
trong quản lý dẫn đến sự sụp đổ của một số công ty nổi
đã áp dụng kỹ thuật này cho 25 nghiên cứu điển hình. Những
tiếng. Các công ty này đã rất hiệu quả trong việc che giấu
điều này bao gồm một số công ty nổi tiếng đã bị SEC buộc tội
những khó khăn tài chính của họ, và các nhà đầu tư cũng như
gian lận báo cáo tài chính hoặc đã thừa nhận sai sót kế
chủ nợ hiện đang tìm cách xác định các vấn đề tài chính
toán, dẫn đến việc trình bày lại báo cáo tài chính của họ.
trước khi các vụ bê bối xảy ra. Ngay cả với việc thông qua
Phương pháp này có thể xác định những điểm bất thường đối
Đạo luật Sar banes-Oxley vào tháng 7 năm 2002, giúp cải
với các chỉ số quan trọng được các chuyên gia coi là dấu
thiện chất lượng của dữ liệu được tiết lộ cho công chúng,
hiệu cảnh báo gian lận báo cáo tài chính. Những dấu hiệu
vẫn có thể đánh giá sai sức mạnh tài chính của một tổ chức
cảnh báo này nhất quán khi so sánh với bình luận sau khi
nếu không có đánh giá phân tích.
khám nghiệm tử thi của chuyên gia về các trường hợp gian
lận nổi tiếng. Quan trọng hơn, chúng báo hiệu hành vi bất
Có một số dấu hiệu cảnh báo, nhưng không có cách thức
thường ít nhất sáu quý trước khi SEC thông báo điều tra với
khách quan và có hệ thống nào để xác định liệu một số liệu
ít hơn 5% âm tính giả và 40% dương tính giả.
tài chính nhất định, chẳng hạn như mô hình xóa nợ hoặc giao
dịch nội gián, là cao hay bất thường.
Các nhà nghiên cứu đã đề xuất sử dụng thống kê
tư duy để phát hiện dị thường. Họ đề xuất một “điểm phát
hiện bất thường”, là sự khác biệt giữa thước đo tài chính
mục tiêu và hiệu suất trước đây của chính công ty hoặc hiệu
suất hiện tại của đối thủ cạnh tranh bằng cách sử dụng độ
lệch chuẩn. Kỹ thuật này là một biến thể của -score tiêu
chuẩn hóa. Cụ thể, cách tiếp cận của họ liên quan đến việc
so sánh hiệu suất với hiệu suất trong quá khứ (trong phạm
vi phân tích) và so sánh hiệu suất với hiệu suất của các
công ty cùng ngành trong cùng thời kỳ (giữa các lần phân
tích). Họ đã tạo ra hai loại điểm bất thường đặc biệt:
-between (Zb) để giải quyết sự khác biệt giữa các công ty
và -within (Z ) để giải quyết sự khác biệt trong công ty.
NAN728/
Shutterstock.com
Các biện pháp này định lượng số lượng độ lệch chuẩn mà thước
đo tài chính của công ty lệch khỏi
Điều khoản quan trọng
Trung bình số học (trung bình)
Hệ số nhọn (CK)
lưỡng kim
Hệ số lệch (CS)
Định lý Chebyshev
Hệ số biến thiên (CV)
6Dựa trên Deniz Senturk, Christina LaComb, Radu Neagu, và Murat Doganaksoy, “Phát hiện các vấn đề tài
chính với Six Sigma,” Tiến độ chất lượng (tháng 4 năm 2006): 41–47.
Machine Translated by Google
126
Chương 4 Các biện pháp thống kê mô tả
tương quan
Dân số
Hệ số tương quan (Hệ số tương quan
Chỉ số năng lực quá trình
Tỷ lệ
thời điểm sản phẩm Pearson)
Phạm vi
hiệp phương sai
Quay trở lại rủi ro
phân tán
Vật mẫu
quy tắc thực nghiệm
Hệ số tương quan mẫu
Phạm vi liên vùng (IRQ hoặc midspread)
độ lệch
gai nhọn
Độ lệch chuẩn
Trung bình
Giá trị chuẩn hóa (z-score)
tầm trung
tư duy thống kê
Cách thức
đơn thức
ngoại lệ
phương sai
vấn đề và bài tập
1. Dữ liệu thu được từ kiểm toán viên quận trong tệp Excel
Giá trị thị trường tại nhà cung cấp thông tin về tuổi,
Một. Xem xét những dữ liệu này như một mẫu chủ nhà trên
con phố này, hãy tính giá trị trung bình, phương sai
diện tích vuông và giá trị thị trường hiện tại của những
và độ lệch chuẩn cho từng biến số này bằng cách sử
ngôi nhà dọc theo một con phố trong một phân khu cụ thể.
dụng các công thức (4.2), (4.5) và (4.7). Xác minh
Xem xét những dữ liệu này dưới dạng dân số chủ nhà trên
con phố này, hãy tính giá trị trung bình, phương sai và
độ lệch chuẩn cho từng biến số này bằng bảng tính và
các tính toán của bạn bằng hàm Excel thích hợp.
b. Tính hệ số biến thiên cho từng biến. Cái nào có độ
phân tán tương đối nhỏ nhất và lớn nhất?
công thức (4.1), (4.4) và (4.6).
Xác minh các tính toán của bạn bằng hàm Excel thích hợp.
6. Tìm giá cổ phiếu trong 30 ngày của ba công ty trong các
2. Trong Khảo sát Facebook tệp Excel, tìm số giờ trung bình
và trung bình trực tuyến/tuần và số lượng bạn bè trong
mẫu bằng cách sử dụng các hàm Excel thích hợp.
Tính toán tầm trung và so sánh tất cả các biện pháp của
vị trí.
3. Đối với tệp Excel Bán máy tính bảng, hãy tìm số trung
bình, độ lệch chuẩn và phạm vi giữa các đơn vị bán được
mỗi tuần. Chứng minh rằng định lý Chebyshev đúng với dữ
ngành khác nhau. Giá cổ phiếu trung bình nên có một loạt
các giá trị. Sử dụng dữ liệu, tính toán và diễn giải hệ
số biến thiên.
7. Tính toán thống kê mô tả cho các trường đại học nghệ
thuật tự do và các trường đại học nghiên cứu trong tệp
Excel Col leges and Universities. So sánh hai loại
trường đại học. Bạn có thể kết luận điều gì?
8. Sử dụng công cụ Thống kê mô tả để tóm tắt tỷ lệ phần trăm
liệu và xác định mức độ chính xác của các quy tắc thực
lợi nhuận gộp, doanh thu gộp và lợi nhuận gộp trong Dữ
nghiệm.
liệu bán hàng tệp Excel.
4. Tệp Excel Dữ liệu hãng hàng không Atlanta cung cấp số
9. Bảng tính Dữ liệu trong tệp Excel Thời gian phục vụ sân
liệu thống kê về thời gian đến và đón taxi trong một
bay liệt kê một mẫu lớn thời gian tính bằng giây để xử
ngày tại sân bay quốc tế Atlanta Hartsfield. Tìm độ lệch
lý khách hàng tại quầy bán vé. Bảng tính thứ hai hiển
chuẩn và trung bình của chênh lệch giữa thời gian đến
thị phân phối tần suất và biểu đồ của dữ liệu.
theo lịch trình và thực tế và thời gian taxi đến cổng.
Tính toán điểm số z cho mỗi biến này.
Một. Tóm tắt dữ liệu bằng công cụ Descriptive Statis
tics. Bạn có thể nói gì về hình thức phân phối thời
5. Dữ liệu thu được từ kiểm toán viên quận trong tệp Excel
Giá trị thị trường tại nhà cung cấp thông tin về tuổi,
diện tích vuông và giá trị thị trường hiện tại của những
ngôi nhà dọc theo một con phố trong một phân khu cụ thể.
gian?
b. Tìm phân vị thứ 90.
c. Hãng hàng không có thể sử dụng những kết quả này như thế nào
để quản lý hoạt động quầy bán vé của mình?
Machine Translated by Google
127
Chương 4 Các biện pháp thống kê mô tả
10. Dữ liệu trong tệp Excel Đóng góp của Giáo hội đã được báo cáo về
căn cứ. Ngoài ra, hãy tìm doanh số bán hàng trung bình theo nguồn
việc đóng góp hàng năm cho một nhà thờ. Ước tính giá trị trung
(Web hoặc e-mail). Bạn có nghĩ rằng thông tin này có thể hữu ích
bình và độ lệch chuẩn của các khoản đóng góp hàng năm của tất
trong quảng cáo? Giải thích như thế nào và tại sao hoặc tại sao không.
cả giáo dân bằng cách thực hiện các công thức (4.13) và (4.15)
trên một bảng tính, giả sử những dữ liệu này đại diện cho toàn
19. Đối với tệp Excel Chi phí đi lại, hãy sử dụng PivotTable để tìm
độ lệch trung bình và độ lệch chuẩn của các khoản chi cho
bộ giáo dân.
mỗi đại diện bán hàng.
Thứ hai, ước tính mức đóng góp trung bình của các gia đình có
con học tại trường giáo xứ. Làm thế nào để điều này so sánh với
20. Sử dụng PivotTable, tính giá trị trung bình và độ lệch chuẩn
tất cả giáo dân?
cho mỗi số liệu theo năm trong tệp Excel Freshman College Data.
Có bất kỳ sự khác biệt nào rõ ràng từ năm này sang năm khác
11. Một nghiên cứu tiếp thị trên 800 người trưởng thành trong độ
không?
tuổi 18–34 đã báo cáo các thông tin sau:
chi ít hơn $100 nhưng hơn $0 cho quần áo trẻ em mỗi năm:
21. Tệp Excel Freshman College Data hiển thị dữ liệu trong 4 năm tại
một trường đại học lớn ở đô thị. Sử dụng PivotTable để kiểm tra
50 phản hồi
sự khác biệt về thành tích học tập của học sinh trung học và
chi $100–$499,99 cho quần áo trẻ em mỗi năm: 275 phản hồi
khả năng duy trì năm thứ nhất giữa các trường cao đẳng khác
nhau tại trường đại học này. Bạn đạt được kết luận gì?
chi $500–$999,99 cho quần áo trẻ em mỗi năm: 175 phản hồi
22. Khảo sát điện thoại di động tệp Excel báo cáo ý kiến của một
không chi tiêu gì: phần còn lại
mẫu người tiêu dùng về cường độ tín hiệu, giá trị đồng đô la
và dịch vụ khách hàng cho các nhà cung cấp dịch vụ điện thoại
Xây dựng bảng tính ước lượng trung bình mẫu và độ lệch chuẩn
di động của họ. Sử dụng PivotTable để tìm các nội dung sau:
mẫu của chi tiêu mua quần áo trẻ em cho nhóm tuổi này bằng
công thức (4.14) và (4.16).
Một. cường độ tín hiệu trung bình theo loại sóng mang
b. giá trị trung bình của đồng đô la theo loại nhà cung cấp dịch vụ
12. Báo cáo Việc làm EEO trong tệp Excel cho biết số lượng người
và mức độ sử dụng
được tuyển dụng trong các ngành nghề khác nhau cho các nhóm
c. phương sai nhận thức về dịch vụ khách hàng theo nhà cung
chủng tộc và dân tộc khác nhau. Tìm tỉ lệ nam và nữ của mỗi
cấp dịch vụ và giới tính
dân tộc trong tổng số việc làm và trong mỗi ngành nghề.
Những kết luận nào bạn có thể đạt được từ thông tin này?
13. Trong tệp Excel Motorcycle Inventory, hãy tìm tỷ lệ các mẫu xe
đạp được bán với giá dưới 200 đô la.
23. Các trung tâm cuộc gọi có tỷ lệ nghỉ việc cao vì môi trường căng
thẳng. Trung bình toàn quốc là khoảng 50%. Giám đốc nhân sự
14. Trong cơ sở dữ liệu Giao dịch bán hàng, hãy tìm tỷ lệ khách hàng
của một ngân hàng lớn đã tổng hợp dữ liệu về 70 nhân viên cũ
đã sử dụng PayPal và tỷ lệ khách hàng đã sử dụng thẻ tín dụng.
tại một trong các trung tâm cuộc gọi của ngân hàng (xem Dữ liệu
Ngoài ra, hãy tìm tỷ lệ đã mua một cuốn sách và tỷ lệ theo
Trung tâm cuộc gọi trong tệp Excel). Sử dụng PivotTable để tìm
đuổi một đĩa DVD.
những thống kê này:
Một. thời gian làm việc trung bình của nam và nữ trong mẫu
15. Trong file Excel Economic Poll, hãy tìm tỷ lệ
của từng biến phân loại.
b. thời gian phục vụ trung bình cho những người có và không có
bằng đại học
16. Trong Khảo sát Facebook trên tệp Excel, sử dụng PivotTable để
tìm độ lệch chuẩn và trung bình của số giờ trực tuyến/tuần và
c. thời gian phục vụ trung bình đối với nam và nữ có và không
số lượng bạn bè của nam và nữ trong mẫu.
17. Trong tệp Excel Khảo sát điện thoại di động, hãy sử dụng
có kinh nghiệm về tổng đài trước đó
24. Trong file Excel Weddings, hãy xác định mối tương quan giữa chi
PivotTable để tìm giá trị trung bình cho từng biến số đối với
phí đám cưới và số người tham dự.
các nhà mạng điện thoại di động khác nhau và giới tính của người trả lời.
25. Đối với dữ liệu trong tệp Excel Rin's Gym, hãy tìm hiệp phương
18. Sử dụng PivotTable, tìm độ lệch trung bình và độ lệch chuẩn của
doanh số bán hàng trong dữ liệu Giao dịch bán hàng
sai và tương quan giữa các phép tính chiều cao, cân nặng và chỉ
số BMI.
Machine Translated by Google
128
Chương 4 Các biện pháp thống kê mô tả
26. Đối với tệp Cơ sở dữ liệu khách của President's Inn,
hãy tìm thời gian lưu trú trung bình và số lượng khách.
mẫu 20 thẻ (bắt đầu với một bộ bài đầy đủ mỗi lần);
tính toán giá trị trung bình và phương sai và xây dựng
Có mối tương quan nào giữa quy mô bữa tiệc và thời gian
một biểu đồ. Dữ liệu mẫu khác với dữ liệu dân số như
lưu trú không?
thế nào? Lặp lại thí nghiệm này cho các mẫu gồm 5 thẻ
27. Tệp Excel Bán hàng Đồ uống liệt kê một ví dụ về doanh
số bán hàng trong tuần tại một cửa hàng tiện lợi, cùng
và tóm tắt kết luận của bạn.
35. Kiểm tra các điểm số z mà bạn đã tính toán trong Vấn đề 4 cho Dữ
với nhiệt độ cao hàng ngày. Tính toán hiệp phương sai
liệu Hãng hàng không Atlanta. Họ có đề xuất bất kỳ ngoại lệ nào
và tương quan giữa nhiệt độ và doanh số bán hàng.
trong dữ liệu không?
28. Đối với Dữ liệu Rủi ro Tín dụng ở tệp Excel, hãy tính
36. Trong tệp Excel Weddings, hãy tìm chi phí đám cưới trung
toán mối quan hệ tương quan giữa tuổi và số tháng làm
bình và trung vị cũng như độ lệch chuẩn mẫu. Bạn sẽ
việc, tuổi và số dư tài khoản tiết kiệm và séc kết hợp,
nói gì với một cặp đôi mới đính hôn về chi phí mong
số tháng là khách hàng và số tiền trong ngân hàng. Giải
đợi? Xem xét tác động của các ngoại lệ có thể có trong
thích kết quả của bạn.
dữ liệu.
29. Trong dữ liệu Call Center trong tệp Excel, thời gian phục
vụ tương quan chặt chẽ như thế nào với tuổi bắt đầu?
30. Một công ty xây dựng quốc gia xây dựng những ngôi nhà
dành cho một gia đình và nhà phố kiểu chung cư. Tệp
Excel Doanh số bán nhà cung cấp thông tin về giá bán,
chi phí lô đất, loại nhà và khu vực của quốc gia 1
triệu Trung Tây, Nam Mỹ2 để đóng cửa trong 1 tháng. Sử
37. Một nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy
tính cho ngành hàng không vũ trụ nhận được nhiều yêu
cầu hỗ trợ kỹ thuật. Phần mềm theo dõi được sử dụng để
theo dõi thời gian phản hồi và giải quyết. Ngoài ra
công ty còn khảo sát khách hàng yêu cầu hỗ trợ chúng
tôi theo thang điểm sau:
0—không vượt quá mong đợi
dụng PivotTable để tìm giá bán trung bình và giá lô cho
1—đáp ứng được kỳ vọng
từng loại nhà ở từng khu vực của thị trường. Những kết
2—đáp ứng kỳ vọng
luận nào bạn có thể đạt được từ thông tin này?
3—vượt quá mong đợi
4—vượt quá mong đợi
31. Tệp Excel Auto Survey chứa một mẫu dữ liệu về các phương
tiện được sở hữu, cho dù chúng được mua mới hay đã qua
sử dụng và các loại dữ liệu khác. Sử dụng công cụ Thống
kê mô tả để tóm tắt dữ liệu số, tìm mối tương quan
giữa từng biến số và xây dựng PivotTable để tìm số dặm/
Các câu hỏi như sau:
Q1: Đại diện bộ phận hỗ trợ có giải thích quy trình
giải quyết vấn đề của bạn không?
Câu hỏi 2: Đại diện bộ phận hỗ trợ có thông báo cho
bạn về tình trạng tiến triển trong việc giải
gallon trung bình cho từng loại phương tiện, cũng như
số dặm trung bình/gallon và độ tuổi trung bình cho từng
loại xe mới và cũ. Tóm tắt các quan sát mà bạn có thể
thực hiện từ những kết quả này.
quyết vấn đề của bạn không?
Q3: Đại diện hỗ trợ có lịch sự và chuyên nghiệp không?
Q4: Vấn đề của bạn đã được giải quyết chưa?
Q5: Vấn đề của bạn có được giải quyết trong khoảng thời gian
32. Tính điểm số z cho dữ liệu trong tệp Excel Thời gian
phục vụ cảng hàng không. Có bao nhiêu quan sát rơi xa hơn
chấp nhận được không?
Q6: Nhìn chung, bạn thấy dịch vụ do bộ phận hỗ trợ
kỹ thuật của chúng tôi cung cấp như thế nào?
ba độ lệch chuẩn so với giá trị trung bình? Bạn có coi
đây là những ngoại lệ không? Tại sao hay tại sao không?
33. Sử dụng dữ liệu Đo lường Sản xuất để
đưa ra mức trung bình của mẫu, giả sử rằng mỗi hàng trong
tệp dữ liệu đại diện cho một mẫu từ quy trình sản xuất.
Vẽ các giá trị trung bình của mẫu trên biểu đồ đường, thêm
các giới hạn kiểm soát và diễn giải kết quả của bạn.
34. Tìm giá trị trung bình và phương sai của một bộ bài gồm
52 quân bài, trong đó quân Át được tính là 11 và quân
bài hình là 10. Hãy xây dựng phân bố tần số và biểu đồ
của các giá trị quân bài. Xào bộ bài và chia bài hai
Câu hỏi cuối cùng yêu cầu khách hàng đánh giá chất lượng
tổng thể của sản phẩm bằng thang đo này:
0—rất kém
1—nghèo
2—tốt
3—rất tốt
4—xuất sắc
Một mẫu phản hồi khảo sát và dữ liệu phản hồi và độ
phân giải liên quan được cung cấp trong Excel
Machine Translated by Google
129
Chương 4 Các biện pháp thống kê mô tả
nộp Khảo sát hỗ trợ khách hàng. Sử dụng bất kỳ biểu đồ Excel
do đó, kích hoạt một phần hoặc toàn bộ ống tiêm.
và số liệu thống kê mô tả nào mà bạn cho là phù hợp để
Những ống tiêm như vậy sau đó phải được loại bỏ. Nếu nắp được
truyền đạt thông tin trong các dữ liệu mẫu này và viết báo
đóng ở độ dài dài hơn mong muốn (4,980 inch hoặc dài hơn),
cáo cho người quản lý giải thích những phát hiện và kết luận
thì việc đóng nắp không đầy đủ hoặc không đầy đủ, điều này
của bạn.
có thể dẫn đến mất nắp và khả năng mất hộp mực trong quá
38. Một công ty dược phẩm ở Trung Tây sản xuất các ống tiêm riêng
lẻ chứa một liều duy nhất thuốc tiêm.7 Trong quy trình sản
xuất, thuốc dạng lỏng vô trùng được rót vào các ống tiêm
thủy tinh và đậy kín bằng nút cao su. Giai đoạn chính còn lại
liên quan đến việc lắp hộp mực vào ống tiêm nhựa và “đóng”
nắp ngăn bằng điện ở độ dài được xác định chính xác của ống
tiêm. Nắp được đóng ở chiều dài ngắn hơn mong muốn (dưới
4,920 inch) dẫn đến áp lực lên nút chặn hộp mực và,
trình vận chuyển và xử lý. Những ống tiêm như vậy có thể được
làm lại bằng tay để gắn nắp ở vị trí thấp hơn. Tuy nhiên, quy
trình này yêu cầu kiểm tra 100% các ống tiêm đã được đóng
gói và dẫn đến tăng chi phí cho các mặt hàng. Bước sản xuất
cuối cùng này dường như tạo ra ngày càng nhiều ống tiêm phế
liệu và làm lại trong những tuần liên tiếp.
Tệp Excel Mẫu ống tiêm cung cấp các mẫu được lấy sau
mỗi 15 phút từ quy trình sản xuất. Xây dựng các giới hạn
kiểm soát bằng cách sử dụng dữ liệu và sử dụng các ý tưởng
tư duy thống kê để đưa ra kết luận.
Trường hợp: Dự án nghiên cứu quảng cáo Drout
Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1. Đây
PivotTable thích hợp để so sánh các giá trị trung bình.
là phần tiếp theo của trường hợp trong Chương 3.
Viết những phát hiện của bạn trong một tài liệu chính thức, hoặc thêm những
Đối với phần này của trường hợp, hãy tóm tắt dữ liệu số bằng cách
phát hiện của bạn vào báo cáo mà bạn đã hoàn thành cho trường hợp trong
sử dụng các biện pháp thống kê mô tả, tìm tỷ lệ cho các biến phân
Chương 3 theo quyết định của người hướng dẫn của bạn.
loại, kiểm tra mối tương quan và sử dụng
Trường hợp: Hiệu suất Lawn Thiết bị
Elizabeth Burke muốn một số thông tin thống kê chi tiết về phần lớn
dữ liệu trong cơ sở dữ liệu PLE.
đ. các lỗi sau khi giao hàng (bảng tính Các lỗi sau khi giao
hàng) đã thay đổi như thế nào trong 5 năm này
Cụ thể, cô ấy muốn biết những điều sau đây:
Một. xếp hạng mức độ hài lòng trung bình và độ lệch chuẩn
theo năm và khu vực trong bảng tính Mức độ hài lòng của
đại lý và Mức độ hài lòng của người dùng cuối
b. một bản tóm tắt thống kê mô tả cho năm 2012
đ. doanh số bán máy cắt cỏ và máy kéo so với tổng doanh số của
ngành như thế nào và doanh số bán sản phẩm hàng tháng có mối
tương quan mạnh mẽ như thế nào với doanh số của ngành
Thực hiện những phân tích này và tóm tắt kết quả của bạn trong một
báo cáo bằng văn bản cho cô Burke.
dữ liệu khảo sát khách hàng
c. thời gian phản hồi khác nhau như thế nào trong mỗi phần
tư của trang tính
7Dựa trên LeRoy A. Franklin và Samar N. Mukherjee, “An SPC Case Study on Stabilizing Syringe
Lengths,” Quality Engineering 12, 1 (1999–2000): 65–71.
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
xác suất
CHƯƠNG
phân phối và
Mô hình hóa dữ liệu
ROMA/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích khái niệm về xác suất và cung cấp các ví
Tính giá trị kỳ vọng và phương sai của một biến ngẫu nhiên rời
dụ về ba quan điểm định nghĩa về xác suất.
rạc.
Sử dụng các quy tắc và công thức xác suất để thực
doanh đơn giản.
hiện các phép tính xác suất.
Tính toán xác suất cho các phân phối Bernoulli, nhị thức
Giải thích xác suất có điều kiện và cách nó có thể được
và Poisson, sử dụng hàm khối lượng xác suất và các hàm Excel.
Sử dụng các giá trị mong đợi để hỗ trợ các quyết định kinh
áp dụng trong bối cảnh kinh doanh.
Tính toán xác suất có điều kiện từ dữ liệu lập bảng
Giải thích hàm mật độ xác suất khác với hàm khối lượng xác
chéo.
suất như thế nào.
Xác định xem hai sự kiện có độc lập hay không bằng cách
Liệt kê các thuộc tính chính của hàm mật độ xác suất.
sử dụng các đối số xác suất.
Sử dụng mật độ xác suất và các hàm phân phối tích lũy để tính
Áp dụng định luật nhân xác suất.
xác suất cho một phân phối đồng đều.
Giải thích sự khác nhau giữa biến ngẫu nhiên rời rạc
và biến ngẫu nhiên liên tục.
Mô tả các phân phối chuẩn và chuẩn
Định nghĩa một phân phối xác suất.
và sử dụng các hàm Excel để tính xác suất.
Kiểm chứng các tính chất của hàm khối lượng xác suất.
Sử dụng bảng phân phối chuẩn chuẩn và -values
Sử dụng hàm phân phối tích lũy để tính toán xác suất trong
để tính xác suất thông thường.
các khoảng thời gian.
131
Machine Translated by Google
132
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Mô tả các tính chất của phân phối mũ và tính xác suất.
Sử dụng công cụ Tạo số ngẫu nhiên của Excel.
Tạo các biến ngẫu nhiên bằng cách sử dụng các chức năng Nền
Cho ví dụ về các loại phân phối khác được sử dụng trong các ứng
tảng bộ giải phân tích.
dụng kinh doanh.
Điều chỉnh các bản phân phối bằng cách sử dụng Nền tảng bộ giải phân tích.
Lấy mẫu từ các bản phân phối rời rạc trong bảng tính bằng VLOOKUP.
Hầu hết các quyết định kinh doanh liên quan đến một số yếu tố không chắc chắn và ngẫu
nhiên. Ví dụ, thời gian sửa chữa máy tính trong tệp Excel Thời gian sửa chữa máy tính mà
chúng tôi đã thảo luận trong Chương 4 cho thấy khá nhiều điều không chắc chắn mà chúng tôi
cần hiểu để cung cấp thông tin cho khách hàng về việc sửa chữa máy tính của họ. Chúng tôi
cũng thấy rằng các mẫu thời gian sửa chữa khác nhau dẫn đến các phương tiện, phương sai
và phân phối tần suất khác nhau. Do đó, sẽ rất hữu ích nếu có thể xác định một số đặc
điểm chung về thời gian sửa chữa sẽ áp dụng cho toàn bộ dân số—kể cả những công việc sửa
chữa chưa diễn ra. Trong các tình huống khác, chúng tôi có thể không có bất kỳ dữ liệu
nào để phân tích và chỉ cần đưa ra một số giả định mang tính phán đoán về những điều không
chắc chắn trong tương lai. Ví dụ: để phát triển một mô hình dự đoán khả năng sinh lời của
một sản phẩm mới và sáng tạo, chúng ta cần đưa ra các giả định đáng tin cậy về doanh số
bán hàng và hành vi của người tiêu dùng mà không có bất kỳ dữ liệu nào trước đó để làm cơ
sở. Đặc trưng cho bản chất của phân phối dữ liệu và xác định các giả định không chắc chắn
trong các mô hình quyết định dựa trên kiến thức cơ bản về các khái niệm xác suất và phân
phối xác suất - chủ đề của chương này.
Các khái niệm cơ bản về xác suất
Khái niệm xác suất được sử dụng ở mọi nơi, cả trong kinh doanh và cuộc sống hàng ngày của
chúng ta; từ nghiên cứu thị trường và dự đoán thị trường chứng khoán đến World Series of
Poker và dự báo thời tiết. Trong kinh doanh, các nhà quản lý cần biết những điều như khả
năng một sản phẩm mới sẽ mang lại lợi nhuận hoặc khả năng một dự án sẽ hoàn thành đúng thời hạn.
Xác suất định lượng sự không chắc chắn mà chúng ta gặp phải xung quanh mình và là một khối
xây dựng quan trọng cho các ứng dụng phân tích kinh doanh. Xác suất là khả năng xảy ra
một kết quả—chẳng hạn như liệu một sản phẩm mới có sinh lãi hay không hoặc liệu một dự án
có hoàn thành trong vòng 15 tuần hay không. Xác suất được thể hiện dưới dạng các giá trị
từ 0 đến 1, mặc dù nhiều người chuyển đổi chúng thành tỷ lệ phần trăm. Tuyên bố rằng có
10% khả năng giá dầu sẽ tăng trong quý tới là một cách khác để nói rằng khả năng giá dầu
tăng là 0,1. Xác suất càng gần 1 thì khả năng xảy ra kết quả càng cao.
Để chính thức thảo luận về xác suất, chúng ta cần một số thuật ngữ mới. một thí nghiệm
là một quá trình dẫn đến một kết quả. Một thử nghiệm có thể đơn giản như tung hai con xúc
xắc, quan sát và ghi lại điều kiện thời tiết, tiến hành nghiên cứu thị trường hoặc theo
dõi thị trường chứng khoán. Kết quả của thí nghiệm là kết quả
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
133
chúng tôi quan sát; nó có thể là tổng của hai con xúc xắc, một mô tả về thời tiết, tỷ
lệ người tiêu dùng ưa chuộng một sản phẩm mới hoặc sự thay đổi của Chỉ số Công nghiệp
Trung bình Dow Jones (DJIA) vào cuối tuần. Tập hợp tất cả các kết quả có thể xảy ra
của một phép thử được gọi là không gian mẫu. Chẳng hạn, nếu chúng ta tung hai con xúc
xắc công bằng, kết quả có thể xảy ra là các số từ 2 đến 12; nếu chúng ta quan sát thời
tiết, kết quả có thể rõ ràng, nhiều mây hoặc nhiều mây; kết quả phản ứng của khách
hàng đối với một sản phẩm mới trong nghiên cứu thị trường sẽ thuận lợi hoặc không
thuận lợi và thay đổi hàng tuần trong DJIA về mặt lý thuyết có thể là bất kỳ số thực
dương hoặc âm nào. Lưu ý rằng một không gian mẫu có thể bao gồm một số lượng nhỏ các
kết quả rời rạc hoặc vô số kết quả.
Xác suất có thể được xác định từ một trong ba quan điểm. Đầu tiên, nếu quá trình đó
tạo ra các kết quả đã biết, xác suất có thể được suy ra từ các lập luận lý thuyết;
đây là định nghĩa cổ điển của xác suất.
VÍ DỤ 5.1 Định nghĩa xác suất cổ điển
Giả sử chúng ta tung hai con xúc xắc. Nếu chúng ta kiểm tra tất cả các kết
2 là 1 36, xác suất lăn được 3 là 2 36 = 1 18,
quả có thể xảy ra, chúng ta có thể dễ dàng xác định rằng có 36: tung một
và xác suất lăn được số 7 là 6 36 = 1 6. Tương tự, nếu hai người tiêu dùng
trong sáu số trên mặt xúc xắc đầu tiên và tung một trong sáu số trên mặt
được hỏi liệu họ có thích một sản phẩm mới hay không, có thể có 4 kết quả
xúc xắc thứ hai, ví dụ: (1,1), ( 1,2), (1,3), . . . , (6,4), (6,5), (6,6).
có thể xảy ra:
Trong số 36 kết quả có thể xảy ra này, 1 kết quả sẽ là số 2, 2 kết quả sẽ
là số 3 (bạn có thể gieo 1 trên con súc sắc đầu tiên và 2 trên con xúc xắc
thứ hai và ngược lại), 6 kết quả sẽ là số 7, v.v. Do đó, khả năng xác suất
của việc tung một số bất kỳ là tỷ lệ giữa số cách tung số đó với tổng số
kết quả có thể xảy ra. Ví dụ, xác suất lăn một
1. (thích, thích)
2. (thích, không thích)
3. (không thích, thích)
4. (không thích, không thích)
Nếu những điều này được giả định là có khả năng như nhau, xác suất mà ít
nhất một người tiêu dùng sẽ phản ứng không thuận lợi là 3 4.
Cách tiếp cận xác suất thứ hai, được gọi là định nghĩa tần suất tương đối, dựa
trên dữ liệu thực nghiệm. Xác suất mà một kết quả sẽ xảy ra chỉ đơn giản là tần suất
tương đối liên quan đến kết quả đó.
VÍ DỤ 5.2 Định nghĩa tần số tương đối của xác suất
Sử dụng mẫu thời gian sửa chữa máy tính trong tệp Excel Thời gian sửa chữa
xác suất nó sẽ được sửa chữa trong đúng 10 ngày là 0,076, v.v. Khi sử dụng
máy tính, chúng tôi đã phát triển phân bố tần suất tương đối trong Chương
định nghĩa tần suất tương đối, điều quan trọng là phải hiểu rằng khi có
4, được hiển thị lại trong Hình 5.1. Chúng ta có thể nói rằng xác suất một
nhiều dữ liệu hơn, thì sự phân bổ kết quả và do đó, xác suất có thể thay
máy tính sẽ được sửa chữa trong ít nhất 4 ngày là 0,
đổi.
Cuối cùng, định nghĩa chủ quan về xác suất dựa trên phán đoán và kinh nghiệm, như
các nhà phân tích tài chính có thể sử dụng để dự đoán 75% khả năng DJIA sẽ tăng 10%
trong năm tới, hoặc như các chuyên gia thể thao có thể dự đoán, vào đầu năm mùa bóng
đá, cơ hội 1 ăn 5 (xác suất 0,20) để một đội nào đó lọt vào giải Super Bowl.
Việc sử dụng định nghĩa nào tùy thuộc vào ứng dụng cụ thể và thông tin chúng tôi
có sẵn. Chúng ta sẽ xem các ví dụ khác nhau dựa trên từng quan điểm này.
Machine Translated by Google
134
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.1
Quy tắc và công thức xác suất
Phân phối máy tính
Giả sử chúng ta gắn nhãn n kết quả trong không gian mẫu là O1 , O2 , c, On , trong đó Oi đại
Thời gian sửa chữa
diện gửi kết quả thứ i trong không gian mẫu. Đặt P1Oi2 là xác suất liên quan đến kết quả Oi .
Hai sự kiện cơ bản chi phối xác suất:
Xác suất liên quan đến bất kỳ kết quả nào phải nằm trong khoảng từ 0 đến 1 hoặc
(5.1)
0 … P1Oi2 … 1 cho mỗi kết quả Oi
Tổng xác suất trên tất cả các kết quả có thể xảy ra phải bằng 1, hoặc
1
P1O1 2 + P1O2 2 + g+ P1On 2
(5.2)
Biến cố là tập hợp của một hoặc nhiều kết quả từ một không gian mẫu. Ví dụ về một sự kiện
sẽ tung một con số 7 hoặc 11 bằng hai viên xúc xắc, hoàn thành sửa chữa máy tính trong khoảng
từ 7 đến 14 ngày hoặc nhận được thay đổi tích cực hàng tuần trong DJIA. Điều này dẫn đến quy
tắc sau:
Quy tắc 1. Xác suất của bất kỳ sự kiện nào là tổng xác suất của các kết quả
bao gồm sự kiện đó.
VÍ DỤ 5.3 Tính toán xác suất của một sự kiện
Xét trường hợp tung mặt 7 hoặc 11 trên hai con xúc xắc. Khả
O1
năng lăn được số 7 là
và
6
36 và xác suất lăn được 11 .
6
2
+
36 ; do đó, xác suất lăn được 7 hoặc 11 là
36
2 =
36
số 8
36
Tương tự, xác suất sửa chữa máy tính trong 7 ngày hoặc ít hơn
= 0, O2
O8
= 1, O3
= 2, O4
= 7 ngày, hay P(O6
= 3, O5
= 4, O6
) + P(O7 ) + P
(O8
= 5, O7
= 6,
) = 0,004 +
0,008 + 0,020 = 0,032 (lưu ý rằng xác suất P(O1 ) = P(O2 ) =
P(O3 ) = P(O4 ) = P(O5 ) = 0; xem Hình 5.1).
là tổng xác suất của các kết quả
c
Nếu A là biến cố bất kì thì phần bù của A, kí hiệu là A , bao gồm tất cả các kết quả trong
không gian mẫu không thuộc A.
Quy tắc 2. Xác suất phần bù của bất kỳ sự kiện A nào là P1A c 2
1 - P1A2.
Machine Translated by Google
135
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.4 Tính toán xác suất của sự bổ sung của một sự kiện
c
Nếu A = 7,11 trong phương án kiểm tra m pl e, t he n A
=
MỘTc
c)
= 1
36
số 8
=
28
36
, 42 và P(A
c
) = 1
0,032 = 0,968.
Đây là xác suất hoàn thành việc sửa chữa trong hơn một tuần.
2, 3, 4, 5, 6, 8, 9, 10, 12 . Do đó, xác suất để lăn bất kỳ
thứ gì khác ngoài 7 hoặc 11 là P(A
= 8, 9,
.
Nếu A = 0, 1, 2, 3, 4, 5, 6, 7 trong ví dụ sửa máy tính,
Hợp của hai sự kiện chứa tất cả các kết quả thuộc về một trong hai sự kiện. Để minh họa
điều này với việc tung hai con xúc xắc, hãy gọi A là biến cố {7, 11} và B là biến cố {2, 3, 12}.
Hợp của A và B là biến cố {2, 3, 7, 11, 12}. Nếu A và B là hai sự kiện, thì xác suất xảy ra
một số kết quả trong A hoặc B (nghĩa là sự kết hợp của A và B) được ký hiệu là P(A hoặc B).
Việc tìm ra xác suất này phụ thuộc vào việc các sự kiện có loại trừ lẫn nhau hay không.
Hai biến cố xung khắc nếu chúng không có kết cục chung. Các sự kiện A và B trong ví dụ
xúc xắc là loại trừ lẫn nhau. Khi các sự kiện loại trừ lẫn nhau, quy tắc sau sẽ được áp dụng:
Quy tắc 3. Nếu biến cố A và B xung khắc thì P1A hoặc B2 P 1A2 + P1B2.
VÍ DỤ 5.5 Tính toán xác suất của các sự kiện loại trừ lẫn nhau
Đối với ví dụ xúc xắc, xác suất của sự kiện A =
rằng sự kiện A hoặc B xảy ra, nghĩa là tung xúc xắc 12
7, 11 là P1A2 =
là 2, 3, 7, 11 hoặc 12, là 8
36
36 , và xác suất của biến cố
số 8
B = 2, 3, 12 là P1B2 =
4
36 .
+
4
36
=
36
.
Do đó, xác suất
Nếu hai sự kiện không loại trừ lẫn nhau, thì việc cộng xác suất của chúng sẽ dẫn đến việc
tính hai lần một số kết quả, vì vậy cần phải điều chỉnh. Điều này dẫn đến quy tắc hạ thấp sau:
Quy tắc 4. Nếu hai biến cố A và B không xung khắc thì P1 A hoặc B2
P1A2 + P1B2 - P1A và B2.
Ở đây, (A và B) đại diện cho giao điểm của các sự kiện A và B—tức là, tất cả các kết quả đều
mong muốn cho cả A và B.
VÍ DỤ 5.6 Tính toán xác suất của các sự kiện không loại trừ lẫn nhau
Trong ví dụ về xúc xắc, chúng ta hãy xác định các biến cố
các số 2 và 12 chung. Như vậy, giao điểm 1A và B2 = 2,
A = 2, 3, 12 và B = số chẵn . Khi đó A và B không xung khắc
12 . Do đó, P(A hoặc B) = P{2, 3, 12} +
vì cả hai biến cố đều có
P(số chẵn)
P(A và B) =
4
36
+
18
36
-
2
36
=
20
36
.
Xác suất chung và cận biên
Trong nhiều ứng dụng, nhiều sự kiện xảy ra đồng thời hoặc theo thuật ngữ thống kê là cùng
nhau. Chúng tôi sẽ chỉ thảo luận về trường hợp đơn giản của hai sự kiện. Chẳng hạn, giả sử
rằng một mẫu gồm 100 cá nhân được yêu cầu đánh giá sở thích của họ đối với ba sản phẩm mới.
Machine Translated by Google
136
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
nước tăng lực được đề xuất trong một cuộc thử nghiệm vị giác mù quáng. Không gian mẫu bao gồm
hai loại kết quả tương ứng với mỗi cá nhân: giới tính (F nữ hoặc M nam) và sở thích thương
hiệu (B1 , B2 hoặc B3 ). Chúng ta có thể định nghĩa một không gian mẫu mới bao gồm các kết
quả phản ánh sự kết hợp khác nhau của các kết quả từ hai không gian mẫu này. Do đó, đối với
bất kỳ người trả lời nào trong bài kiểm tra vị giác mù quáng, chúng tôi có sáu kết hợp có
thể xảy ra (loại trừ lẫn nhau):
1. O1 đáp viên là nữ thích nhãn hiệu 1 2. O2 đáp
viên là nữ thích nhãn hiệu 2 3. O3 đáp viên là nữ
thích nhãn hiệu 3 4. O4 đáp viên là nam thích nhãn
hiệu 1 5. O5 đáp viên là nam và thích nhãn hiệu
2 6. O6 người trả lời là nam và thích nhãn hiệu 3
Ở đây, xác suất của mỗi sự kiện này là giao điểm của sự kiện giới tính và sở thích
nhãn hiệu. Ví dụ: P1O1 2 P1F và B1 2, P1O2 2 P1F và B2 2, v.v. Xác suất giao nhau
của hai biến cố được gọi là xác suất chung. Xác suất của một sự kiện, bất kể kết quả
của sự kiện chung khác, được gọi là xác suất cận biên. Do đó, P1F2, P1M2, P1B1 2,
P1B2 2 và P1B3 2 sẽ là các xác suất cận biên.
VÍ DỤ 5.7 Áp dụng quy tắc xác suất cho các biến cố chung
Hình 5.2 cho thấy một phần của tệp dữ liệu Khảo sát về Nước
hoặc nữ và thích chính xác một trong ba nhãn hiệu.
tăng lực, cùng với bảng chéo được tạo từ PivotTable. Xác suất
Chúng ta có thể sử dụng Quy tắc 3 để tìm, ví dụ: P1B1 hoặc
chung của giới tính và sở thích thương hiệu được tính toán dễ
B2 2 = 0,34 + 0,23 = 0,57. Tuy nhiên, các sự kiện F và B1
dàng bằng cách chia số người trả lời tương ứng với từng kết
không loại trừ lẫn nhau vì một người trả lời có thể là cả nữ
quả trong số sáu kết quả được liệt kê ở trên cho tổng số
và thích nhãn hiệu 1. Do đó, sử dụng Quy tắc 4, chúng ta có
người trả lời, 100. Do đó, P1F và B1 2 = P1O1 2 = 9 100 =
P1F hoặc B1 2 = P1F2 + P1B12
0,09, P1F và B22 = P1O2 2 = 6 100 = 0,06, v.v. Lưu ý rằng
0,09 = 0,62.
P1F và B1 2 = 0,37 + 0,34
Như chúng ta đã thấy, có thể dễ dàng tính toán các xác
tổng xác suất của tất cả các kết quả này là 1,0.
suất chung bằng cách chia các giá trị trong bảng chéo cho
tổng, 100. Bên dưới PivotTable trong Hình 5.2 là một bảng xác
Chúng ta thấy rằng sự kiện F, (người trả lời là nữ) bao
suất chung, tóm tắt các xác suất chung này.
gồm các kết quả O1 , O2 và O3 , và do đó P1F2 = P1O12 + P1O22
Các xác suất biên được đưa ra trong các biên của bảng xác
+ P1O32 = 0,37 khi sử dụng Quy tắc 1.
Phần bù của biến cố này là M; tức là người trả lời là nam. Lưu
ý rằng P1M2 = 0,63 = 1
P1F2 , như được phản ánh trong Quy
tắc 2. Sự kiện B1 bao gồm các kết quả và O4 , do đó, P1B1
O1
suất chung bằng cách tính tổng các hàng và cột. Ví dụ: lưu ý
rằng P1F2 = P1F và B1 2 + P1F và B22 + P1F và B32 = 0,09 +
0,06 + 0,22 = 0,37.
2 = P1O1 2 + P1O4 2 = 0,34. Tương tự, chúng ta thấy rằng
Tương tự, P1B12 = P1F và B12 + P1 M và B12 = 0,09 + 0,25 =
P1B22 = 0,23 và P1B3 2 = 0,43.
0,34.
Các sự kiện F và M là loại trừ lẫn nhau, cũng như các sự kiện
B1 , B2 và B3 vì người trả lời có thể chỉ là nam
Cuộc thảo luận về xác suất chung này dẫn đến quy tắc xác suất sau:
Quy tắc 5. Nếu biến cố A gồm các kết quả {A1 , A2 , g, An } và biến cố B là
kết quả của các kết quả {B1 , B2 , g, Bn } thì
P1Ai2 P1Ai và B1 2 + P1Ai và B2 2 + g+ P1Ai và Bn 2
Machine Translated by Google
137
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.2
xác suất có điều kiện
Một phần năng lượng tệp Excel
Xác suất có điều kiện là xác suất xảy ra một sự kiện A, với điều kiện là một sự
Khảo sát đồ uống
kiện B khác được biết là đúng hoặc đã xảy ra.
VÍ DỤ 5.8 Tính toán Xác suất có Điều kiện trong Bảng chéo
Chúng tôi sẽ sử dụng thông tin được hiển thị trong ví dụ khảo
và trong số này, 25 người thích nhãn hiệu 1. Do đó, xác suất
sát về nước tăng lực ở Hình 5.2 để minh họa cách tính xác
mà một người trả lời nam thích nhãn hiệu
suất có điều kiện từ bảng chéo hoặc bảng xác suất chung.
1 thu được kết quả tương tự từ bảng xác suất chung bằng cách
25
63 . Chúng ta có thể có
chia xác suất chung 0,25 (xác suất mà người trả lời là nam và
Giả sử rằng chúng ta biết rằng một người trả lời là nam.
Xác suất mà anh ấy thích nhãn hiệu 1 là gì? Từ PivotTable,
thích nhãn hiệu 1) cho xác suất cận biên 0,63 (xác suất người
trả lời là nam).
lưu ý rằng chỉ có 63 nam trong nhóm
Xác suất có điều kiện rất hữu ích trong việc phân tích dữ liệu trong các bảng chéo, cũng như trong
các loại ứng dụng khác. Nhiều công ty lưu lịch sử mua hàng của khách hàng để dự đoán doanh số bán hàng
trong tương lai. Xác suất có điều kiện có thể giúp dự đoán các giao dịch mua trong tương lai dựa trên các
giao dịch mua trong quá khứ.
VÍ DỤ 5.9 Xác suất có điều kiện trong Tiếp thị
Tệp Excel Lịch sử mua hàng của Apple trình bày lịch sử giả
iPad với điều kiện khách hàng mua iMac lần đầu là = 0,15.
định về các lần mua sản phẩm của Apple của người tiêu dùng,
Tương tự, 13
74 khách hàng đã mua MacBook trong lần mua đầu tiên;
cho thấy lần mua đầu tiên và lần thứ hai cho một mẫu gồm 200
xác suất có điều kiện mua iPhone nếu khách hàng mua MacBook
khách hàng đã thực hiện các lần mua lặp lại (xem Hình 5.3).
lần đầu là = 0,35. Bằng cách hiểu những sản phẩm nào có nhiều
PivotTable trong Hình 5.4 hiển thị số lượng loại mua hàng thứ
khả năng được mua bởi những khách
hàng đã sở hữu các sản phẩm
74
2
26
hai với điều kiện là mỗi sản phẩm được mua trước. Ví dụ: 13
khác, các công ty có thể nhắm mục tiêu chiến lược quảng cáo
khách hàng đã mua iMac là sản phẩm Apple đầu tiên của họ. Khi
tốt hơn.
đó xác suất mua có điều kiện
Machine Translated by Google
138
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.3
Một phần của tệp Excel Apple
Lịch sử mua hàng
Hình 5.4
PivotTable mua hàng
Hành vi
Nói chung, xác suất có điều kiện của một sự kiện A nếu biết rằng sự kiện B đã
xảy ra là
P1AB2
P1A và B2
(5.3)
P1B2
Chúng tôi đọc ký hiệu P1AB2 là “xác suất của A cho trước B.”
VÍ DỤ 5.10 Sử dụng Công thức Xác suất có Điều kiện
Sử dụng dữ liệu từ ví dụ khảo sát nước tăng lực, thay B1
cho A và M cho B trong công thức (5.3). Điều này dẫn đến
xác suất có điều kiện của B1 cho trước M:
P1B1
M2 =
P1B1 và M2
=
P1M2
0,25
0,63
P(Thương hiệu | Giới tính) Thương hiệu 1 Thương hiệu 2 Thương hiệu 3
Nam giới
0,397
0,270
0,333
Nữ giới
0,243
0,162
0,595
= 0,397.
Những thông tin như vậy có thể quan trọng trong các nỗ lực
Tương tự, xác suất thích nhãn hiệu 1 nếu người trả lời là
tiếp thị. Biết rằng có sự khác biệt về sở thích theo giới tính có
thể giúp tập trung quảng cáo. Ví dụ: chúng tôi thấy rằng khoảng
nữ là
P1B1
F2 =
P1B1 và F2
P1F2
=
0,09
0,37
40% nam giới thích nhãn hiệu 1, trong khi chỉ có khoảng 24% nữ
giới thích nhãn hiệu này và tỷ lệ nam giới thích nhãn hiệu 3 cao
= 0,243.
hơn. Điều này cho thấy rằng sẽ hợp lý hơn nếu tập trung vào quảng
Bảng sau đây tóm tắt các khả năng xác suất có điều
kiện của sở thích thương hiệu theo giới tính:
cáo nhãn hiệu 1 hơn trên phương tiện truyền thông hướng đến nam
giới và thương hiệu thứ 3 trên phương tiện truyền thông hướng đến nữ giới.
Công thức xác suất có điều kiện có thể được sử dụng theo những cách khác. Ví
dụ, nhân cả hai vế của công thức (5.3) với P1B2, ta thu được P1A và B2 P1AB2 P1B2.
Lưu ý rằng chúng tôi có thể chuyển đổi vai trò của A và B và viết P1B và A2 P1BA2 P1A2. Nhưng
P(B và A) cũng giống như P(A và B); do đó chúng ta có thể biểu diễn P(A và B) theo hai cách:
P1A và B2 P1A B2 P1B2 P1BA2 P1A2
Điều này thường được gọi là quy luật nhân xác suất.
(5.4)
Machine Translated by Google
139
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Chúng ta có thể sử dụng khái niệm này để biểu thị xác suất của một sự kiện trong một xác suất chung
bảng theo một cách khác. Sử dụng lại khảo sát về nước tăng lực trong Hình 5.2, lưu ý rằng
P1F2 P1F và Nhãn hiệu 12 + P1F và Nhãn hiệu 22 + P1F và Nhãn hiệu 32
Sử dụng công thức (5.4), chúng ta có thể biểu diễn các xác suất chung P(A và B) theo P(AB) P(B).
Vì thế,
P1F2 Thương hiệu P1F 12 Thương hiệu P1 12 + Thương hiệu P1F 22 Thương hiệu P1F 22 + Thương hiệu P1F 32
P1Brand 32 10,265210,342 + 10,261210,232 + 10,512210,432 0,37 1với độ chính xác làm tròn2.
Chúng ta có thể biểu diễn phép tính này bằng cách sử dụng phần mở rộng sau đây của định luật nhân xác
suất. Giả sử B1 , B2 , . . . , Bn là các sự kiện loại trừ lẫn nhau mà hợp của chúng bao gồm toàn bộ
không gian mẫu. Sau đó
(5.5)
P1A2 P1A B1 2P1B1 2 + P1A B2 2P1B2 2 + g+ P1A Bn 2P1Bn 2
VÍ DỤ 5.11 Sử dụng Luật nhân xác suất
Texas Hold 'Em đã trở thành một trò chơi phổ biến vì sự
thẻ2. Vì xác suất của quân Át trên quân bài đầu tiên
công khai xung quanh World Series of Poker. Khi bắt đầu
là 4/52 và xác suất quân Át trên quân bài thứ hai
trò chơi, mỗi người chơi sẽ nhận được hai lá bài úp
nếu cô ấy đã rút quân Át là 3/51, nên ta có
(chúng ta sẽ không lo lắng về phần còn lại của trò chơi
sẽ diễn ra như thế nào). Giả sử rằng một người chơi
P1 Át trên thẻ đầu tiên và Át trên thẻ thứ hai2
= Át1 ở quân bài thứ hai
nhận được quân Át trên lá bài đầu tiên của mình. Xác
Át ở quân bài thứ nhất
× P1ace trên thẻ đầu tiên2
suất mà cô ấy sẽ kết thúc với “quân át” (hai quân át
trong tay) là P1 Át trên quân linh sam và Át trên quân thứ hai =
P1 Át trên thẻ thứ hai
= một513 b×a 4
Át trên thẻ linh2 × P1 Át trên thẻ linh sam
52 b = 0,004525
Trong ví dụ 5.10, chúng ta thấy rằng xác suất ưa thích một thương hiệu phụ thuộc vào giới tính.
Chúng tôi có thể nói rằng sở thích thương hiệu và giới tính không độc lập. Chúng ta có thể chính thức
hóa khái niệm này bằng cách định nghĩa khái niệm biến cố độc lập: Hai biến cố A và B độc lập nếu P1A
B2 P1A2.
VÍ DỤ 5.12 Xác định xem hai sự kiện có độc lập không
Chúng tôi sử dụng định nghĩa này trong ví dụ khảo sát về nước tăng lực.
Chúng ta thấy rằng trong khi P1B1
Hãy nhớ lại rằng xác suất có điều kiện của sở thích thương hiệu
được chỉ ra là 0,34 trong Ví dụ 5.7; do đó, hai sự kiện
do giới tính cho trước là
này không độc lập.
M2 = 0,397, P1B1 2
P(Thương hiệu | Giới tính) Thương hiệu 1 Thương hiệu 2 Thương hiệu 3
Nam giới
0,397
0,270
0,333
Nữ giới
0,243
0,162
0,595
Cuối cùng, chúng ta thấy rằng nếu hai sự kiện là độc lập, thì chúng ta có thể đơn giản hóa phép nhân
định luật xác suất trong phương trình (5.4) bằng cách thay thế P(A) cho P1AB2:
P1A và B2 P1B2 P1A2 P1A2P1B2
(5.6)
Machine Translated by Google
140
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.13 Sử dụng Luật nhân cho các biến cố độc lập
Giả sử A là sự kiện lần đầu tiên tung được mặt 6 trên một cặp xúc
xắc và B là biến cố tung được mặt 2, 3 hoặc 12 ở lần tung tiếp theo.
xúc xắc không phụ thuộc vào lần tung trước đó. Sau đó, chúng ta có
5
20
4
=
thể tính P1A và B2 = P1A2P1B2 =
36
36
1296 .
Những sự kiện này là độc lập bởi vì cuộn của một cặp
Biến ngẫu nhiên và phân phối xác suất
Một số thí nghiệm đương nhiên có kết quả bằng số, chẳng hạn như tung xúc xắc, thời gian cần thiết để
sửa chữa máy tính hoặc thay đổi hàng tuần trong chỉ số thị trường chứng khoán. Đối với các thử
nghiệm khác, chẳng hạn như thu thập phản ứng của người tiêu dùng đối với một sản phẩm mới, không
gian mẫu là cat egorical. Để có một cơ sở toán học nhất quán để xử lý xác suất, chúng ta muốn kết
quả của tất cả các thí nghiệm là số. Một biến ngẫu nhiên là một mô tả bằng số về kết quả của một thí
nghiệm. Về mặt hình thức, một biến ngẫu nhiên là một hàm gán một số thực cho mỗi phần tử của một
không gian mẫu. Nếu chúng ta có đầu ra phân loại, chúng ta có thể liên kết một giá trị số tùy ý với
chúng. Ví dụ: nếu người tiêu dùng thích một sản phẩm trong nghiên cứu thị trường, chúng tôi có thể
gán cho kết quả này giá trị là 1; nếu người tiêu dùng không thích sản phẩm, chúng tôi có thể gán cho
kết quả này giá trị bằng 0. Các biến ngẫu nhiên thường được biểu thị bằng các chữ cái in hoa, chẳng
hạn như X hoặc Y.
Biến ngẫu nhiên có thể rời rạc hoặc liên tục. Biến ngẫu nhiên rời rạc là biến có thể đếm được
số lượng kết quả có thể xảy ra. Một biến ngẫu nhiên liên tục có kết quả trên một hoặc nhiều khoảng
liên tục của các số thực.
VÍ DỤ 5.14 Biến ngẫu nhiên rời rạc và liên tục
Kết quả của việc tung hai con xúc xắc (các số từ 2 đến 12) và phản
con số; tuy nhiên, số lượng truy cập có thể được tính.
ứng của khách hàng đối với một sản phẩm (thích hoặc không thích)
Ví dụ về các biến ngẫu nhiên liên tục là sự thay đổi hàng tuần
là các biến ngẫu nhiên rời rạc. Số lượng kết quả có thể là hữu hạn
trong DJIA, có thể nhận bất kỳ giá trị dương hoặc âm nào, nhiệt
hoặc vô hạn về mặt lý thuyết, chẳng hạn như số lần truy cập vào
độ hàng ngày, thời gian hoàn thành nhiệm vụ, thời gian giữa các
một liên kết trang Web trong một khoảng thời gian nào đó—chúng tôi
lần hỏng hóc của máy và lợi tức đầu tư.
không thể đặt giới hạn trên được đảm bảo cho điều này
Phân phối xác suất là đặc tính của các giá trị có thể có mà một biến ngẫu nhiên có thể giả
định cùng với xác suất giả định các giá trị này. Một phân phối xác suất có thể rời rạc hoặc liên
tục, tùy thuộc vào bản chất của biến ngẫu nhiên mà nó mô hình hóa.
Các bản phân phối riêng biệt dễ hiểu và dễ làm việc hơn, và chúng tôi xử lý chúng trước.
Chúng ta có thể phát triển một phân bố xác suất bằng cách sử dụng bất kỳ một trong ba khía cạnh
của xác suất. Đầu tiên, nếu chúng ta có thể định lượng xác suất liên quan đến các giá trị của một
biến ngẫu nhiên từ các lập luận lý thuyết; sau đó chúng ta có thể dễ dàng xác định phân phối xác suất.
VÍ DỤ 5.15 Phân phối xác suất của các cuộn xúc xắc
Xác suất của các kết quả khi tung hai con xúc xắc được tính bằng
Những thứ này, cùng với biểu đồ cột Excel mô tả phân bố xác suất,
cách đếm số cách tung mỗi con số chia cho tổng số kết quả có thể
được hiển thị từ tệp Excel Dice Rolls trong Hình 5.5.
xảy ra.
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
141
Hình 5.5
Phân phối xác suất của
cuộn hai con xúc xắc
Thứ hai, chúng ta có thể tính tần suất tương đối từ một mẫu dữ liệu thực nghiệm để
phát triển phân bố xác suất. Như vậy, sự phân bố tần suất tương đối của thời gian sửa
chữa máy tính (Hình 5.1) là một ví dụ. Bởi vì điều này dựa trên dữ liệu mẫu, chúng tôi
thường gọi đây là phân phối xác suất theo kinh nghiệm. Phân phối xác suất theo kinh
nghiệm là một phép tính gần đúng của phân phối xác suất của biến ngẫu nhiên liên quan,
trong khi phân phối xác suất của một biến ngẫu nhiên, chẳng hạn như phân phối xác suất
xuất phát từ các đối số đếm, là một mô hình lý thuyết của biến ngẫu nhiên.
Cuối cùng, chúng ta có thể chỉ định một phân phối xác suất bằng cách sử dụng các giá trị chủ quan và
đánh giá của chuyên gia. Điều này thường được thực hiện trong việc tạo ra các mô hình quyết định cho các hiện
tượng mà chúng ta không có dữ liệu lịch sử.
VÍ DỤ 5.16 Phân phối xác suất chủ quan
Hình 5.6 cho thấy một ví dụ giả thuyết về sự phân bổ đánh giá của một
nhưng chúng tôi hy vọng nó sẽ được hỗ trợ bởi một số phân tích sâu rộng
chuyên gia về cách DJIA có thể thay đổi trong năm tới. Điều này có thể
về dữ liệu trong quá khứ và hiện tại bằng cách sử dụng các công cụ phân
đã được tạo ra hoàn toàn bằng trực giác và đánh giá của chuyên gia,
tích kinh doanh.
Các nhà nghiên cứu đã xác định nhiều loại phân phối xác suất phổ biến hữu ích trong
nhiều ứng dụng phân tích kinh doanh. Kiến thức làm việc về các họ phổ biến của phân phối
xác suất là quan trọng vì nhiều lý do. Đầu tiên, nó có thể giúp bạn hiểu quy trình cơ bản
tạo ra dữ liệu mẫu. Chúng tôi điều tra mối quan hệ giữa phân phối và mẫu sau này. Thứ
hai, nhiều hiện tượng trong kinh doanh và tự nhiên tuân theo một số phân phối lý thuyết
và do đó, rất hữu ích trong việc xây dựng các mô hình quyết định. Cuối cùng, làm việc
với các bản phân phối là điều cần thiết trong việc tính toán xác suất xảy ra các kết quả
để đánh giá rủi ro và đưa ra quyết định.
Machine Translated by Google
142
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.6
xác suất chủ quan
Phân phối Thay đổi DJIA
Phân phối xác suất rời rạc
Đối với một biến ngẫu nhiên rời rạc X, phân bố xác suất của các kết quả rời rạc được gọi là
hàm khối lượng xác suất và được biểu thị bằng một hàm toán học, f1x2. Kí hiệu xi là giá trị
thứ i của biến ngẫu nhiên X và f1xi2 là xác suất.
VÍ DỤ 5.17 Hàm khối lượng xác suất để tung hai con xúc xắc
5
Chẳng hạn, trong Hình 5.5 cho ví dụ về con xúc xắc, các giá
f1 5 2 =
trị của biến ngẫu nhiên X, đại diện cho tổng số lần tung của
hai con xúc xắc, là 1 = 2, = 3
3
=
4
2
= 5, = 56, = 9, =6 12.
= 7,Hàm7 khối
= 8, lượng
số 8
3
= 10
f1 6 2 =
10 4, = 11,11 xác suất của
6
36
5
X là
f1 7 2 =
f1 1 2 =
1
36
2
f1 2 2 =
f1 3 2 =
f1 42 =
36
36
3
36
4
36
= 0,0278
f1
= 0,0556
số 8
2 =
f1 9 2 =
= 0,0833
f1 102 =
= 0,1111
f1 11 2 =
36
4
36
3
36
2
36
1
36
= 0,1389
= 0,1667
= 0,1389
= 0,1111
= 0,0833
= 0,0556
= 0,0278
Hàm khối lượng xác suất có các thuộc tính (1) xác suất của mỗi lần xuất hiện
đến phải nằm trong khoảng từ 0 đến 1 và (2) tổng của tất cả các xác suất phải bằng 1; đó là,
0 … f1xi2 … 1 với mọi i
Mộtf1xi2
1
Tôi
Bạn có thể dễ dàng xác minh rằng điều này đúng trong mỗi ví dụ mà chúng tôi đã mô tả.
(5.7)
(5.8)
Machine Translated by Google
143
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hàm phân phối tích lũy, F1x2, xác định xác suất mà biến dom ran X giả định một
giá trị nhỏ hơn hoặc bằng một giá trị xác định, x. Điều này cũng được ký hiệu là P1X
… x2 và được đọc là “xác suất để biến ngẫu nhiên X nhỏ hơn hoặc bằng x.”
VÍ DỤ 5.18 Sử dụng hàm phân phối tích lũy
Hàm phân phối tích lũy để tung hai con xúc xắc được hiển thị
sử dụng hàm phân phối tích lũy để tìm các mối quan hệ xác suất
trong Hình 5.7, cùng với biểu đồ đường Excel mô tả nó một cách
trong các khoảng thời gian. Ví dụ: để tìm xác suất lăn một số
trực quan từ trang tính CumDist trong tệp Dice Rolls Excel. Để
từ 4 đến 8, P14 " X " 82, chúng ta có thể tìm P1X " 82 và trừ
sử dụng điều này, giả sử chúng ta muốn biết xác suất lăn được
P1X " 32; đó là,
6 hoặc ít hơn. Chúng tôi chỉ cần tra cứu xác suất tích lũy cho
6, là 0,5833.
P14 " X " 82 = P1X " 82
P1X " 32 = 0,7222
0,0833 = 0,6389.
Ngoài ra, chúng ta có thể xác định điểm cho = 6 trong biểu đồ
và ước tính xác suất từ biểu đồ. Cũng lưu ý rằng vì xác suất
Một lời cảnh báo. Hãy cẩn thận với các điểm cuối khi tính
để tung ra con số 6 trở xuống là 0,5833, nên xác suất của sự
toán xác suất trong các khoảng thời gian cho các bản phân phối
kiện bổ sung (cuộn con số 7 trở lên) là 1
chúng ta cũng có thể
0,5833 = 0,4167.
rời rạc; vì 4 được bao gồm trong khoảng mà chúng tôi muốn tính
toán, nên chúng tôi cần trừ P1X " 32, không phải P1X " 42.
Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc
Giá trị kỳ vọng của một biến ngẫu nhiên tương ứng với khái niệm về giá trị trung bình
hoặc trung bình của một mẫu. Đối với biến ngẫu nhiên rời rạc X, giá trị kỳ vọng, ký hiệu
là E[X], là trung bình trọng số của tất cả các kết quả có thể xảy ra, trong đó các trọng
số là xác suất:
∞
E3X4 một
xi f 1xi2
tôi 1
Hình 5.7
Phân phối tích lũy
Chức năng cán
hai xúc xắc
(5.9)
Machine Translated by Google
144
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Lưu ý sự giống nhau khi tính trung bình dân số sử dụng công thức (4.13) trong Chương 4:
N
Mộtcố
tôi
định
tôi 1
N
Nếu chúng ta viết cái này dưới dạng tổng của xi nhân với 1fi>N2, thì chúng ta có thể coi fi>N là
xác suất của xi . Sau đó, biểu thức cho giá trị trung bình này có dạng cơ bản giống như
công thức giá trị kỳ vọng.
VÍ DỤ 5.19 Tính giá trị kỳ vọng
Ta có thể áp dụng công thức (5.9) cho phân phối xác suất của việc
Hình 5.8 cho thấy những tính toán này trong một bảng tính Excel
tung hai con xúc xắc. Chúng ta nhân kết quả 2 với xác suất 1/36 của
(bảng tính Giá trị kỳ vọng trong Trò chơi tung xúc xắc
nó, cộng kết quả này với tích của kết quả 3 và xác suất của nó, v.v.
tập tin Excel). Đúng như dự đoán (không có ý định chơi chữ), giá trị
Tiếp tục theo cách này, giá trị kỳ vọng là
trung bình của hai lần tung xúc xắc là 7.
E[X] = 210,02782 + 310,05562 + 410,08332 + 510,011112
+ 610.13892 + 710.16672 + 810.13892 + 910.11112
+ 1010.08332 + 1110.05562 + 1210.02782 = 7
Sử dụng giá trị kỳ vọng trong việc ra quyết định
Giá trị kỳ vọng có thể hữu ích trong việc đưa ra nhiều quyết định khác nhau, ngay cả những quyết định chúng ta thấy trong cuộc
sống hàng ngày.
VÍ DỤ 5.20 Giá trị kỳ vọng trên truyền hình
Một trong những ví dụ yêu thích của tác giả bắt nguồn từ một nhiệm vụ
mở ra, nhân viên ngân hàng cung cấp cho thí sinh một số tiền để thoát
trong phần 1 của chương trình truyền hình Donald Trump, The Apprentice.
khỏi trò chơi, thí sinh có thể chọn hoặc từ chối. Đầu trò chơi, đề
Các đội được yêu cầu chọn một nghệ sĩ và bán tác phẩm của họ với tổng
nghị của chủ ngân hàng thường thấp hơn giá trị dự kiến của các trường
số tiền cao nhất.
hợp còn lại, tạo động lực để tiếp tục. Tuy nhiên, khi số lượng các
Một nhóm đã chọn một nghệ sĩ chính thống chuyên về nghệ thuật trừu
trường hợp còn lại trở nên nhỏ, đề nghị của chủ ngân hàng sẽ tiếp cận
tượng được bán với giá từ 1.000 đến 2.000 đô la; đội thứ hai chọn một
hoặc thậm chí có thể vượt quá mức trung bình của các trường hợp còn
nghệ sĩ tiên phong có nghệ thuật siêu thực và khá gây tranh cãi được
lại. Hầu hết mọi người tiếp tục cho đến khi kết thúc cay đắng và thường
định giá cao hơn nhiều.
bỏ đi với số tiền ít hơn họ có thể có nếu họ có thể ước tính giá trị
Đoán xem ai đã thắng? Nhóm đầu tiên đã làm như vậy, bởi vì xác suất
kỳ vọng của các trường hợp còn lại và đưa ra quyết định hợp lý hơn.
bán được một tác phẩm nghệ thuật chính thống cao hơn nhiều so với khả
năng bán được tác phẩm nghệ thuật kỳ lạ của nghệ sĩ tiên phong (chính
các thành viên trong nhóm cũng không thích nó!) có xác suất bán được
Trong một trường hợp, một thí sinh còn lại năm chiếc cặp với 100 đô
rất thấp. Một phép tính giá trị kỳ vọng phía sau phong bì sẽ dễ dàng
la, 400 đô la, 1.000 đô la, 50.000 đô la và 300.000 đô la. Bởi vì lựa
dự đoán người chiến thắng.
chọn của mỗi trường hợp đều có khả năng xảy ra như nhau nên giá trị kỳ
Một game show nổi tiếng đã làm mưa làm gió khán giả truyền hình
vọng là 0,21$100 + $400 + $1000 + $50.000 + $300.0002 =
vài năm trước có tên là Deal or No Deal. Trò chơi liên quan đến một
70.300 đô la và chủ ngân hàng đề nghị 80.000 đô la để từ bỏ. Thay vào
tập hợp các chiếc cặp được đánh số chứa số tiền từ 1 xu đến 1.000.000
đó, cô ấy nói “Không có thỏa thuận” và tiếp tục mở chiếc vali trị giá
đô la. Các cuộc tranh luận bắt đầu chọn các trường hợp sẽ được mở và
300.000 đô la, loại bỏ nó khỏi trò chơi và nhận lời đề nghị của chủ
loại bỏ, đồng thời số lượng của chúng được hiển thị. Sau mỗi tập hợp
ngân hàng tiếp theo là 21.000 đô la, lớn hơn 60% so với giá trị dự
các trường hợp là
kiến của những chiếc hộp còn lại.1
1 “Thỏa thuận hoặc Không thỏa thuận: Thỏa thuận thống kê.” www.pearsonified.com/2006/03/deal_or_no_deal_the_real_deal.php
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
145
Hình 5.8
Tính toán giá trị kỳ vọng cho
việc tung hai viên xúc xắc
Điều quan trọng là phải hiểu rằng giá trị kỳ vọng là "trung bình dài hạn" và phù hợp
với các quyết định xảy ra trên cơ sở lặp đi lặp lại. Tuy nhiên, đối với các quyết định một
lần, bạn cần xem xét rủi ro giảm giá và tiềm năng tăng giá của quyết định. Ví dụ sau đây
minh họa điều này.
VÍ DỤ 5.21 Giá trị kỳ vọng của Xổ số từ thiện
Giả sử bạn có cơ hội mua một trong 1.000 vé xổ số từ thiện
nhiều lần trong thời gian dài, bạn sẽ mất trung bình 25,00
được bán với giá 50 đô la, với giải thưởng là 25.000 đô la.
đô la mỗi lần chơi. Tất nhiên, đối với bất kỳ ai
Rõ ràng, xác suất thắng là hoặc 0,001, trong khi xác suất
trò chơi, bạn sẽ mất 50 đô la hoặc thắng 24.950 đô la. Vì
thua
là 1
1.000,
vậy, câu hỏi trở thành, Rủi ro mất 50 đô la có xứng đáng với
1
0,001
0,999. Biến ngẫu nhiên X là tiền thắng
ròng của bạn và phân phối xác suất của nó là
khả năng giành được 24.950 đô la không? Mặc dù giá trị kỳ vọng
là âm, nhưng bạn có thể nắm lấy cơ hội vì tiềm năng tăng giá
là lớn so với những gì bạn có thể mất, và xét cho cùng, đó là
để làm từ thiện. Tuy nhiên, nếu khoản lỗ tiềm năng của bạn
f( )
lớn, bạn có thể không nắm lấy cơ hội, ngay cả khi giá trị kỳ
$50 0,999
$24,950
0,001
vọng là dương.
Giá trị kỳ vọng, E[X ], là $50(0,999) + $24,950(0,001)
= $25,00. Điều này có nghĩa là nếu bạn chơi trò chơi này
Các quyết định dựa trên giá trị kỳ vọng là phổ biến trong các dự án phát triển bất
động sản, giao dịch trong ngày và nghiên cứu dược phẩm. Phát triển thuốc là một ví dụ điển hình.
Chi phí cho các dự án nghiên cứu và phát triển trong ngành dược phẩm thường lên tới hàng
trăm triệu đô la và thường lên tới 1 tỷ đô la. Nhiều dự án không bao giờ được thử nghiệm
lâm sàng hoặc có thể không được Cục Quản lý Thực phẩm và Dược phẩm phê duyệt. Thống kê chỉ
ra rằng 7 trong số 10 sản phẩm không trả lại chi phí vốn của công ty. Tuy nhiên, các công
ty lớn có thể hấp thụ những khoản lỗ như vậy vì lợi nhuận từ một hoặc hai loại thuốc bom
tấn có thể dễ dàng bù đắp những khoản lỗ này. Trên cơ sở trung bình, các công ty dược phẩm
kiếm được lợi nhuận ròng từ những quyết định này.
Machine Translated by Google
146
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.22 Quản lý doanh thu hàng không
Chúng ta hãy xem xét một phiên bản đơn giản hóa của quy trình quản lý
nếu giảm giá thì số ghế còn lại sẽ được bán với giá đó. Giá trị kỳ vọng
doanh thu điển hình mà các hãng hàng không sử dụng. Vào bất kỳ thời
của việc không chiết khấu giá là 0,25 (0) + 0,75($560) = $420. Vì đây
điểm nào trước chuyến bay theo lịch trình, các hãng hàng không phải đưa
là mức giá cao hơn giá đã chiết khấu nên hãng không nên tính chiết khấu
ra quyết định xem có giảm giá vé để kích cầu cho những chỗ trống hay không.
vào thời điểm này. Trên thực tế, các hãng hàng không liên tục cập
Nếu hãng không giảm giá vé, ghế trống có thể không được bán và hãng sẽ
nhật xác suất p dựa trên thông tin họ thu thập và phân tích trong cơ
bị thất thu. Nếu hãng hàng không tính số ghế còn lại quá sớm (và có
sở dữ liệu. Khi giá trị của p giảm xuống dưới điểm hòa vốn: $400 =
thể bán chúng với giá vé cao hơn), họ sẽ mất lợi nhuận. Quyết định phụ
p($560), op = 0,714 thì chiết khấu có lợi. Nó cũng có thể hoạt động
thuộc vào xác suất p bán vé nguyên giá nếu họ chọn không giảm giá. Bởi
ngược lại; nếu nhu cầu cao đến mức xác suất bán được vé cao hơn, thì
vì một hãng hàng không đưa ra hàng trăm hoặc hàng nghìn quyết định như
giá có thể được điều chỉnh tăng lên. Đây là lý do tại sao giá vé được
vậy mỗi ngày nên cách tiếp cận giá trị kỳ vọng là phù hợp.
công bố liên tục thay đổi và tại sao bạn có thể nhận được ưu đãi giảm
giá vào phút cuối hoặc có thể trả giá cao hơn nếu bạn đợi quá lâu để
đặt chỗ. Các ngành công nghiệp khác như khách sạn và tàu du lịch sử
Giả sử rằng chỉ có hai giá vé: đầy đủ và giảm giá. Giả sử rằng
dụng các chiến lược quyết định tương tự.
một vé giá đầy đủ là 560 đô la, giá vé giảm giá là 400 đô la và p =
0,75. Để đơn giản hóa, giả sử rằng
Phương sai của một biến ngẫu nhiên rời rạc
Chúng ta có thể tính toán phương sai, Var[X], của biến ngẫu nhiên rời rạc X dưới dạng trung
bình có trọng số của bình phương độ lệch so với giá trị dự kiến:
∞
Biến [X] a
1xj - E[X]22 f1xj2
(5.10)
j 1
VÍ DỤ 5.23 Tính toán phương sai của một biến ngẫu nhiên
Ta có thể áp dụng công thức (5.10) để tính phương sai của phân bố xác
hiển thị các tính toán này trong bảng tính Excel (bảng tính Phương
suất khi tung hai con súc sắc. Hình 5.9
sai trong tệp Excel tính toán biến ngẫu nhiên).
Tương tự như phần thảo luận của chúng ta trong Chương 4, phương sai đo lường độ
bất định của biến ran dom; phương sai càng cao, độ không chắc chắn của kết quả càng cao.
Mặc dù phương sai dễ xử lý hơn về mặt toán học, nhưng chúng ta thường đo độ biến thiên
của một biến ngẫu nhiên bằng độ lệch chuẩn của nó, đơn giản là căn bậc hai của phương sai.
Hình 5.9
Tính toán phương sai cho
Lăn hai con xúc xắc
Machine Translated by Google
147
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Phân phối Bernoulli
Phân phối Bernoulli đặc trưng cho một biến ngẫu nhiên có hai lần xuất hiện có thể xảy ra,
mỗi lần có xác suất xuất hiện không đổi. Thông thường, những kết quả này đại diện cho
“thành công” 1x 12 có xác suất p và “thất bại” 1x 02, có xác suất 1 - p. Thành công có thể
là bất kỳ kết quả nào bạn xác định. Ví dụ: khi cố gắng khởi động một máy tính mới ngay bên
ngoài dây chuyền lắp ráp, chúng ta có thể định nghĩa thành công là “không khởi động được”
khi xác định một biến ngẫu nhiên Bernoulli để mô tả phân bố xác suất của một sản phẩm bị
lỗi. Vì vậy, thành công không nhất thiết phải là một kết quả thuận lợi theo nghĩa truyền thống.
Hàm khối lượng xác suất của phân phối Bernoulli là
P
f1x2
nếu x 1
(5.11)
1 - p nếu x 0
trong đó p đại diện cho xác suất thành công. Giá trị kỳ vọng là p và phương sai
là p11 - p2.
VÍ DỤ 5.24 Sử dụng Phân phối Bernoulli
Phân phối Bernoulli có thể được sử dụng để lập mô hình liệu một cá
p = 0,2. Hãy nghĩ về thí nghiệm sau đây. Giả sử bạn có một
nhân có phản ứng tích cực hay không (== 0)
1) hoặc âm (
hộp có 100 viên bi, 20 viên bi đỏ và 80 viên bi trắng. Đối
cho một chương trình khuyến mãi tiếp thị qua điện thoại. Ví
với mỗi khách hàng, chọn ngẫu nhiên một viên bi (rồi đặt
dụ: nếu bạn ước tính rằng 20% khách hàng được liên hệ sẽ mua
lại). Kết quả sẽ có phân phối Bernoulli. Nếu một viên bi màu
hàng, phân phối xác suất mô tả việc một cá nhân cụ thể có mua
đỏ được chọn, thì khách hàng đó sẽ đuổi theo; nếu nó có màu
hàng hay không là Bernoulli với
trắng, khách hàng không mua hàng.
phân phối nhị thức
Các mô hình phân phối nhị thức n lần sao chép độc lập của một thí nghiệm Bernoulli,
mỗi lần có xác suất thành công p. Biến ngẫu nhiên X đại diện cho số lần thành công
trong n thí nghiệm này. Trong ví dụ tiếp thị qua điện thoại, giả sử rằng chúng ta gọi n 10
khách hàng, mỗi người trong số họ có xác suất mua hàng p 0,2. Sau đó, phân phối khả
năng xác suất của số phản hồi tích cực thu được từ 10 khách hàng là nhị thức. Sử dụng
phân phối nhị thức, chúng ta có thể tính xác suất để chính xác x khách hàng trong số
10 khách hàng sẽ mua hàng với bất kỳ giá trị nào của x trong khoảng từ 0 đến 10. Phân
phối nhị thức cũng có thể được sử dụng để lập mô hình kết quả kiểm tra lấy mẫu trong
một hoạt động sản xuất hoặc tác dụng của nghiên cứu thuốc trên một mẫu bệnh nhân.
Hàm khối lượng xác suất cho phân phối nhị thức là
f1x2
an x bp x 11 - p2n-x ,
0,
cho x 0, 1, 2,
c,
N
(5.12)
nếu không thì
Ký hiệu xb biểu thị số cách chọn x mục riêng biệt từ một nhóm
của n mục và được tính là
N!
một xb
x! 1n - x2!
ở đâu! (n giai thừa) n1n - 121n - 22 g122112, và 0! được định nghĩa là 1.
(5.13)
Machine Translated by Google
148
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.25 Tính toán xác suất nhị thức
Chúng ta có thể sử dụng công thức (5.12) để tính xác suất
Do đó, để tìm xác suất để 3 người sẽ mua hàng trong số 10
nhị thức. Ví dụ: nếu xác suất mà bất kỳ cá nhân nào sẽ mua
cuộc gọi, chúng ta tính
hàng từ chào mời tiếp thị qua điện thoại là 0,2, thì phân
phối xác suất mà các cá nhân trong số 10 cuộc gọi sẽ mua hàng
f(3) = a10 3 b(0,2)3 (0,8)10
là
c,
f 1 2 = a10b 10.22 10.8210
0,
, với = 0, 1, 2,
3
= (10!/3!7!)(0,008)(0,2097152)
N
= 120(0,008)(0,2097152) = 0,20133
nếu không thì
Công thức cho hàm khối lượng xác suất cho phân phối nhị thức khá phức tạp và xác
suất nhị thức rất tẻ nhạt khi tính toán bằng tay; tuy nhiên, chúng có thể dễ dàng được
tính toán trong Excel bằng hàm
BINOM.DIST1số_s, phép thử, xác suất_s, tích lũy2
Trong chức năng này, number_s đóng vai trò của x và xác suất_s giống như p. Nếu tích
lũy được đặt thành TRUE, thì hàm này sẽ cung cấp xác suất tích lũy; mặt khác, giá trị
mặc định là FALSE và nó cung cấp các giá trị của hàm khối lượng xác suất, f1x2.
VÍ DỤ 5.26 Sử dụng hàm phân phối nhị thức của Excel
Hình 5.10 cho thấy kết quả của việc sử dụng hàm này để
Xác suất để 3 cá nhân trở xuống mua hàng là
tính phân phối cho ví dụ trước (Tệp Excel Xác suất nhị
BINOM.DIST(A10,$B$3,$B$4,TRUE) = 0,87913 = F132. Tương
thức). Chẳng hạn, xác suất để chính xác 3 cá nhân sẽ
ứng, xác suất để hơn 3 trong số 10 cá nhân sẽ mua hàng
mua hàng là BINOM.DIST(A10,$B$3,$B$4,FALSE) = 0,20133
là 1
= f132.
Hình 5.10
Máy tính nhị thức
Xác suất trong Excel
F132 = 1
0,87913 = 0,12087.
Machine Translated by Google
149
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.11
Ví dụ về phân phối nhị
thức với p = 0,8
Giá trị kỳ vọng của phân phối nhị thức là np và phương sai là np11 - p2.
Phân phối nhị thức có thể có các hình dạng và mức độ lệch khác nhau, tùy thuộc vào
các tham số. Hình 5.11 cho thấy một ví dụ khi p 0,8. Đối với các giá trị lớn hơn của
p, phân phối nhị thức bị lệch âm; đối với các giá trị nhỏ hơn, nó bị lệch dương. Khi
p 0,5, phân phối là đối xứng.
Phân phối Poisson
Phân phối Poisson là một phân phối rời rạc được sử dụng để lập mô hình số lần xảy ra
trong một số đơn vị đo lường—ví dụ: số lượng khách hàng đến cửa hàng Subway trong giờ
ăn trưa các ngày trong tuần, số lần hỏng hóc của máy trong một tháng, số lượt truy cập
vào một trang Web trong 1 phút hoặc số lỗi trên mỗi dòng mã phần mềm.
Phân phối Poisson giả định không có giới hạn về số lần xuất hiện (có nghĩa là
biến ngẫu nhiên X có thể nhận bất kỳ giá trị số nguyên không âm nào), rằng các lần xuất
hiện là độc lập và số lần xuất hiện trung bình trên mỗi đơn vị là một hằng số, l (chữ thường
lambda trong tiếng Hy Lạp). Giá trị kỳ vọng của phân phối Poisson là l và phương sai cũng bằng l.
Hàm khối lượng xác suất cho phân phối Poisson là:
tôi _x
,
x!
cho x 0, 1, 2,
c
(5.14)
f1x2
0,
nếu không thì
VÍ DỤ 5.27 Tính xác suất Poisson
Giả sử rằng, trung bình, số lượng khách hàng đến Subway trong
giờ ăn trưa là 12 khách hàng mỗi giờ. Xác suất để chính xác khách
hàng sẽ đến trong giờ đó được cho bởi phân phối Poisson với giá
trị trung bình là 12. Xác suất để chính xác khách hàng sẽ đến
e
f(
12 12
!
) =
0,
, cho = 0, 1, 2,
nếu không thì
trong giờ đó sẽ được tính bằng công thức (5.14):
Thay = 5 vào công thức này, xác suất có đúng 5 khách hàng sẽ đến
là f(5) = 0,1274.
Giống như nhị thức, xác suất Poisson rất cồng kềnh khi tính toán bằng tay. Mối quan hệ xác
suất có thể dễ dàng được tính toán trong Excel bằng cách sử dụng hàm POISSON.DIST(x, nghĩa là, tích lũy).
Machine Translated by Google
150
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.28 Sử dụng hàm phân phối Poisson của Excel
Hình 5.12 cho thấy kết quả của việc sử dụng chức năng này để
= POISSON.DIST(A10,$B$3,TRUE) = 0,00760 = F(4), v.v. Bởi vì
ghi lại các chỉnh sửa trên f hoặc Ex am -
các giá trị có thể có của một biến dom chạy Poisson là vô hạn,
Ví dụ 5.26 với L = 12 (xem tệp Excel Xác suất Poisson). Như
nên chúng tôi chưa chỉ ra phân phối đầy đủ. Khi trở nên lớn,
vậy, xác suất để có đúng một người đến trong giờ ăn trưa được
xác suất trở nên khá nhỏ. Giống như nhị thức, dạng cụ thể của
tính bằng hàm Excel =POISSON.DIST(A7, $B$3,FALSE) = 0,00007 =
phân phối phụ thuộc vào giá trị của tham số L; phân phối bị
f (1);
lệch nhiều hơn cho các giá trị nhỏ hơn.
xác suất của 4 lượt đến hoặc ít hơn được tính bằng
Phân phối xác suất liên tục
Như chúng ta đã lưu ý trước đó, một biến ngẫu nhiên liên tục được xác định trên một
hoặc nhiều khoảng các số thực và do đó, có vô số kết quả có thể xảy ra. Giả sử rằng
chuyên gia đã dự đoán các xác suất liên quan đến sự thay đổi của DJIA trong năm tới
trong Hình 5.6 tiếp tục tinh chỉnh các ước tính trên phạm vi giá trị ngày càng lớn hơn. Hình 5.13
Hình 5.12
Máy tính Poisson
Xác suất trong Excel
Hình 5.13
xác suất tinh chế
Phân phối Thay đổi DJIA
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
151
Phân tích trong thực tế: Sử dụng phân phối Poisson để lập mô hình
Giá thầu trên Priceline2
Priceline nổi tiếng với việc cho phép khách hàng
đặt giá của chính họ (chứ không phải nhà cung cấp
dịch vụ) khi đấu thầu các dịch vụ như chuyến bay
hoặc khách sạn. Một số khách sạn tận dụng chiến
lược của Priceline để lấp đầy phòng trống cho khách
du lịch nghỉ dưỡng mà không làm loãng thị trường
kinh doanh bằng cách đưa ra mức chiết khấu qua các
kênh truyền thống. Trong một nghiên cứu sử dụng
phân tích kinh doanh để phát triển mô hình tối ưu
hóa chiến lược định giá cho Kimpton Hotels, công
ty phát triển, sở hữu hoặc quản lý hơn 40 khách sạn
phong cách boutique độc lập ở Hoa Kỳ và Canada, sự
phân bổ số lượng giá thầu cho một số ngày nhất định
trước khi đến được mô hình hóa dưới dạng phân phối
Poisson vì nó tương ứng tốt với dữ liệu được quan
sát. Ví dụ: số lượng giá thầu trung bình được đặt
mỗi ngày 3 ngày trước khi đến vào cuối tuần (biến
ngẫu nhiên X) là 6,3. Do đó, phân phối được sử dụng
trong mô hình là f( ) = e
6,3 6,3 !, trong đó là
số lượng giá thầu đã đặt. Mô hình phân tích đã giúp
Ảnh
Lucas
Shutterstock.com
/
xác định giá để đăng trên Priceline và phân bổ
hàng tồn kho cho từng mức giá. Sau khi sử dụng mô
hình, các phòng được bán qua Priceline đã tăng 11%
trong 1 năm và giá trung bình cho các phòng này tăng 3,7%.
cho biết phân phối xác suất như vậy có thể trông như thế nào khi sử dụng gia số 2,5%
thay vì 5%. Lưu ý rằng phân phối có hình dạng tương tự như trong Hình 5.6 nhưng đơn
giản là có nhiều kết quả hơn. Nếu quá trình sàng lọc này tiếp tục, thì phân phối sẽ
tiến gần đến hình dạng của một đường cong mượt mà, như thể hiện trong hình. Một đường
cong đặc trưng cho các kết quả của một biến ngẫu nhiên liên tục được gọi là hàm mật độ xác suất
và được mô tả bởi một hàm toán học f1x2.
Tính chất của hàm mật độ xác suất
Hàm mật độ xác suất có các tính chất sau:
1. f1x2 Ú 0 với mọi giá trị của x. Điều này có nghĩa là đồ thị của hàm mật độ
phải nằm ở hoặc trên trục x.
2. Tổng diện tích dưới hàm mật độ phía trên trục x là 1,0. Đây là hậu quả của
tính chất mà tổng tất cả các xác suất của một biến ngẫu nhiên rời rạc phải
cộng lại bằng 1.0.
3. P1X x2 0. Đối với các biến ngẫu nhiên liên tục, việc cố gắng xác định xác
suất cho một giá trị cụ thể của x là vô nghĩa về mặt toán học vì có vô số
giá trị.
2Dựa trên Chris K. Anderson, “Setting Prices on Priceline,” Interfaces, 39, 4 (Tháng 7–Tháng 8 năm 2009): 307–315.
Machine Translated by Google
152
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
4. Xác suất của biến ngẫu nhiên liên tục chỉ được xác định trên các khoảng.
Do đó, chúng ta có thể tính toán xác suất giữa hai số a và b, P1a … X … b2,
hoặc bên trái hoặc bên phải của một số c—ví dụ: P1X 6 c2
và P1X 7 c2.
5. P1a … X … b2 là diện tích dưới hàm mật độ giữa a và b.
Hàm phân phối tích lũy cho một biến ngẫu nhiên liên tục được biểu thị giống như
đối với các biến ngẫu nhiên rời rạc, F1x2, và biểu thị xác suất để biến ngẫu nhiên
chạy X nhỏ hơn hoặc bằng x, P1X … x2. Theo trực giác, F1x2 đại diện cho khu vực bên
dưới hàm mật độ ở bên trái của x. F1x2 thường có thể được suy ra bằng toán học từ f1x2.
Việc biết F(x) giúp dễ dàng tính toán xác suất trong các khoảng thời gian phân
phối liên tục. Xác suất để X nằm giữa a và b bằng hiệu của hàm phân phối tích lũy được
đánh giá tại hai điểm này; đó là,
P1a … X … b2 P1X … b2 - P1X … a2 F1b2 - F1a2
(5.15)
Đối với các bản phân phối liên tục, chúng ta không cần quan tâm đến các điểm cuối, như chúng
ta đã làm với các bản phân phối rời rạc, bởi vì P1a … X … b2 giống như P1a 6 X 6 b2.
Các định nghĩa chính thức về giá trị kỳ vọng và phương sai cho một biến ngẫu nhiên liên tục có
thể tương tự như định nghĩa cho một biến ngẫu nhiên rời rạc; tuy nhiên, để hiểu chúng, chúng ta phải
dựa trên các khái niệm về giải tích nên chúng tôi không bàn đến chúng trong cuốn sách này. Chúng tôi
chỉ nêu chúng khi thích hợp.
Phân bố đồng đều
Phân phối đồng đều đặc trưng cho một biến ngẫu nhiên liên tục mà tất cả các kết quả giữa một số
giá trị tối thiểu và tối đa đều có khả năng xảy ra như nhau. Phân phối đồng đều thường được giả
định trong các ứng dụng phân tích kinh doanh khi người ta biết rất ít về một biến ngẫu nhiên
ngoài các ước tính hợp lý cho các giá trị tối thiểu và tối đa. Các tham số a và b được chọn một
cách thận trọng để phản ánh phỏng đoán tốt nhất của người lập mô hình về phạm vi của biến ngẫu nhiên.
Đối với phân phối đồng đều với giá trị nhỏ nhất a và giá trị lớn nhất b, hàm mật
độ là
1
f1x2
cho a…x…b
,
ba
(5.16)
0,
nếu không thì
và hàm phân phối tích lũy là
0,
x - một
F1x2
ba
1,
nếu x < một
,
nếu a…x…b
(5.17)
nếu b < x
Mặc dù Excel không cung cấp chức năng để tính toán các xác suất đồng nhất, nhưng
các công thức for đủ đơn giản để kết hợp vào một bảng tính. Các xác suất cũng dễ dàng
tính toán cho phân bố đều do dạng hình học đơn giản của hàm mật độ, như minh họa trong
Ví dụ 5.29.
Machine Translated by Google
153
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.29 Tính toán xác suất đồng nhất
Giả sử rằng doanh thu bán hàng, X, cho một sản phẩm thay đổi
Hàm mật độ là f1 2 = 1 12000
Bây giờ, giả sử chúng ta muốn tìm xác suất doanh thu sẽ
nằm trong khoảng từ 1.500 đô la đến 1.700 đô la. Một lần
đơn dạng mỗi tuần giữa a = $1000 và b = $2000.
10002 = 1 1000 và được thể
hiện trong Hình 5.14. Lưu ý rằng diện tích dưới hàm mật độ
nữa, sử dụng các đối số hình học (xem Hình 5.16), diện tích
của hình chữ nhật giữa $1,500 và $1,700 là 1 1 1,000 2 1 200 2 =
là 1,0, mà bạn có thể dễ dàng xác minh bằng cách nhân chiều
0,2. Chúng ta cũng có thể sử dụng công thức (5.15) và tính toán
cao với chiều rộng của hình chữ nhật.
nó như sau:
Giả sử chúng ta muốn tìm xác suất doanh thu bán hàng sẽ
thấp hơn = $1.300. Chúng ta có thể làm điều này theo hai
P(1,500 " X " 1,700) = P( X " 1,700)
= F(1,700)
cách. Đầu tiên, tính diện tích dưới hàm mật độ bằng cách
sử dụng hình học, như trong Hình 5.15. Diện tích là 1 1
=
1.000 2 1 300 2 = 0,30. Ngoài ra, chúng ta có thể sử dụng
12.000
for mula (5.17) để tính F1 1,300 2 :
F11,3002 = 11,300
1,0002 12,000
11,700
= 0,7
1,0002
1.0002
P( X " 1,500)
F(1,500)
-
(1.500
1.000)
(2.000
1.000)
0,5 = 0,2
1,0002 = 0,30
Trong cả hai trường hợp, xác suất là 0,30.
Giá trị kỳ vọng và phương sai của biến ngẫu nhiên đồng nhất X được tính như
sau:
một + b
BÁN TẠI]
Biến[X]
(5.18)
2
1b - a22
(5.19)
12
Một biến thể của phân phối đồng đều là một biến thể mà biến ngẫu nhiên được giới hạn
ở các giá trị nguyên giữa a và b (cũng là số nguyên); đây được gọi là một đồng phục rời rạc
Hình 5.14
1/1.000
Mật độ xác suất thống nhất
$1,000
Chức năng
1/1.000
Hình 5.15
Xác suất mà X * $1,300
1/1.000
Hình 5.16
P(1.500 đô la * X * 1.700 đô la)
2.000 đô la
Machine Translated by Google
154
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
phân bổ. Một ví dụ về phân bố đều rời rạc là tung một con xúc xắc. Mỗi số từ 1 đến 6 có một
1
6 xác suất xảy ra.
Phân phối bình thường
Phân phối chuẩn là một phân phối liên tục được mô tả bởi đường cong hình chuông quen thuộc
và có lẽ là phân phối quan trọng nhất được sử dụng trong thống kê. Phân phối bình thường
được quan sát thấy trong nhiều hiện tượng tự nhiên. Các điểm kiểm tra như SAT, sai lệch
so với thông số kỹ thuật của các hạng mục được gia công, chiều cao và cân nặng của con
người và nhiều phép đo khác thường có phân phối chuẩn.
Phân phối chuẩn được đặc trưng bởi hai tham số: giá trị trung bình, m và độ lệch
chuẩn, . Do đó, khi m thay đổi, vị trí của phân phối trên trục x cũng thay đổi và khi giảm
hoặc tăng, phân phối sẽ trở nên hẹp hơn hoặc rộng hơn tương ứng. Hình 5.17 cho thấy một số
ví dụ.
Phân phối chuẩn có các tính chất sau:
1. Phân phối là đối xứng, vì vậy số đo độ lệch của nó bằng không.
2. Giá trị trung bình, trung vị và mốt đều bằng nhau. Do đó, một nửa diện tích nằm trên
trung bình và một nửa rơi xuống dưới nó.
3. Dãy của X không bị chặn, nghĩa là các đuôi của phân phối kéo dài đến âm và
dương vô cùng.
4. Các quy tắc thực nghiệm áp dụng chính xác cho phân phối chuẩn; diện tích dưới
Hình 5.17
hàm mật độ trong {1 độ lệch chuẩn là 68,3%, diện tích dưới hàm mật độ trong {2
độ lệch chuẩn là 95,4% và diện tích dưới hàm mật độ trong {3 độ lệch chuẩn là
Ví dụ về Bình thường
phân phối
99,7%.
Machine Translated by Google
155
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Xác suất bình thường không thể được tính toán bằng công thức toán học. Thay vào
đó, chúng ta có thể sử dụng hàm Excel NORM.DIST(x, mean, standard_deviation, integration).
NORM.DIST(x, mean, standard_deviation, TRUE) tính xác suất tích lũy F1x2 P1X … x2 cho
một giá trị trung bình và độ lệch chuẩn xác định. (Nếu tích lũy được đặt thành FALSE,
thì hàm này chỉ tính toán giá trị của hàm mật độ f 1x2, hàm này có rất ít ứng dụng thực
tế ngoài việc lập bảng các giá trị của hàm mật độ. Hàm này được sử dụng để vẽ các phân
bố trong Hình 5.17.)
VÍ DỤ 5.30 Sử dụng hàm NORM.DIST để tính xác suất thông thường
Giả sử rằng một công ty đã xác định rằng việc phân phối nhu
Đây chỉ đơn giản là xác suất tích lũy cho = 900,
cầu của khách hàng (X) là bình thường với mức trung bình là 750
có thể được tính bằng hàm Excel =NORM.DIST(900,750,100,TRUE) =
đơn vị/tháng và độ lệch chuẩn là 100 đơn vị/tháng.
0,9332.
tháng. Hình 5.18 cho thấy một số xác suất tích lũy được tính
Câu hỏi 2. Hình 5.19(b) cho thấy xác suất mà nhu cầu sẽ vượt
bằng hàm NORM.DIST (xem tệp Excel Xác suất bình thường). Công
quá 700 đơn vị, P(X + 700). Sử dụng các nguyên tắc chúng ta đã
ty muốn biết như sau:
thảo luận trước đây, điều này có thể được tìm thấy bằng cách
trừ P(X * 700) từ 1:
1. Xác suất nhu cầu tối đa là 900 đơn vị là bao nhiêu?
P(X + 700) = 1
P(X * 700) = 1
F(700)
= 1
2. Xác suất nhu cầu sẽ vượt quá 700 là bao nhiêu
các đơn vị?
3. Xác suất mà nhu cầu sẽ nằm trong khoảng từ 700 đến 900 đơn
vị là bao nhiêu?
0,3085 = 0,6915
Điều này có thể được tính toán trong Excel bằng cách sử dụng
công thức =1
NORM.DIST (700,750,100,TRUE).
Câu hỏi 3. Xác suất mà nhu cầu sẽ nằm trong khoảng từ 700 đến
900, P (700 * X * 900), được minh họa trong Hình 5.19(c).
Để trả lời các câu hỏi, trước tiên hãy vẽ một bức tranh. Điều
Điều này được tính bằng
này giúp đảm bảo rằng bạn biết khu vực bạn đang cố gắng tính
toán và cách sử dụng các công thức để làm việc với phân phối
tích lũy một cách chính xác.
P(700 * X * 900) = P (X * 900)
= F(900)
F (700) = 0,9332
P(X * 700)
0,3085 = 0,6247
Câu hỏi 1. Hình 5.19(a) cho thấy xác suất mà nhu cầu sẽ nhiều
Trong Excel, chúng tôi sẽ sử dụng công thức =NORM.DIST
nhất là 900 đơn vị, hay P(X * 900).
(900,750,100,TRUE)
Hình 5.18
xác suất bình thường
Tính toán trong Excel
NORM.DIST(700,750,100,TRUE).
Machine Translated by Google
156
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
P(Nhu cầu < 900)
Hình 5.19
100
100
P(X > 700)
máy tính bình thường
xác suất
750
900
700 750
(b)
(Một)
100
Khu vực 1 0,10
P(700 X 900)
100
Diện tích 0,10
700 750
900
750
(c)
?
(d)
Hàm NORM.INV
Với hàm NORM.DIST, chúng ta được cung cấp một giá trị của biến ngẫu nhiên X và có thể
tìm xác suất tích lũy bên trái của x. Bây giờ chúng ta hãy đảo ngược vấn đề. Giả sử
rằng chúng ta biết xác suất tích lũy nhưng không biết giá trị của x. Làm thế nào chúng
ta có thể tìm thấy nó? Chúng tôi thường phải đối mặt với một câu hỏi như vậy trong nhiều
ứng dụng. Có thể sử dụng hàm Excel NORM.INV(probability, mean, standard_dev) để thực
hiện việc này. Trong hàm này, xác suất là giá trị xác suất tích lũy tương ứng với giá trị của x
chúng tôi tìm kiếm "INV" là viết tắt của nghịch đảo.
VÍ DỤ 5.31 Sử dụng Hàm NORM.INV
Trong ví dụ trước, mức nhu cầu nào sẽ bị vượt quá tối đa 10%
chúng ta có thể thấy rằng giá trị đúng phải nằm trong khoảng
thời gian? Ở đây, ta cần tìm giá trị của sao cho P(X + ) =
từ 850 đến 900 vì F(850) = 0,8413 và F(900) = 0,9332. Chúng
0,10. Điều này được minh họa trong Hình 5.19(d). Vì diện tích
ta có thể tìm giá trị chính xác bằng hàm Excel =
ở đuôi trên của phân phối chuẩn là 0,10 nên xác suất tích lũy
NORM.INV(0.90,750,100)=878.155,
phải là 1
Do đó, nhu cầu khoảng 878 sẽ đáp ứng tiêu chí.
0,10 = 0,90. Từ Hình 5.18,
Phân phối chuẩn chuẩn
Hình 5.20 cung cấp một phác thảo về trường hợp đặc biệt của phân phối chuẩn được gọi là
phân phối chuẩn chuẩn—phân phối chuẩn với m 0 và 1. Phân phối này rất quan trọng trong
việc thực hiện nhiều phép tính xác suất. Một biến ngẫu nhiên chuẩn chuẩn thường được ký
hiệu là Z, và hàm mật độ của nó là f 1z2. Thang đo dọc theo trục z biểu thị số độ lệch
chuẩn so với giá trị trung bình bằng 0. Hàm Excel NORM.S.DIST(z) tìm xác suất cho phân
phối chuẩn chuẩn.
Machine Translated by Google
157
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
VÍ DỤ 5.32 Tính toán Xác suất với Phân phối Chuẩn Chuẩn
Trước đây chúng ta đã lưu ý rằng các quy tắc thực nghiệm áp
xác suất, F(b)
dụng cho bất kỳ phân phối chuẩn nào. Chúng ta hãy tìm các khu
của giá trị trung bình được tìm thấy bằng cách tính P(
vực nằm dưới phân phối chuẩn chuẩn trong các độ lệch chuẩn
* 1) = F(1)
1, 2 và 3 của giá trị trung bình. Chúng có thể được tìm thấy
bằng cách sử dụng hàm NORM.S.DIST( ). Hình 5.21 cho thấy một
F(a). Ví dụ, khu vực trong 1 độ lệch chuẩn
F(
NORM.S.DIST(
1 * Z
1) = NORM.S.DIST( 1)
1) = 0,84134
0,15866 = 0,6827 (chênh lệch
do làm tròn số thập phân). Như các quy tắc thực nghiệm đã
bảng xác suất tích lũy trong phạm vi từ -3 đến +3 và các phép
nêu, khoảng 68% diện tích nằm trong 1 độ lệch chuẩn; 95%, nằm
tính diện tích nằm trong độ lệch chuẩn 1, 2 và 3 của giá trị
trong 2 độ lệch chuẩn; và hơn 99%, nằm trong 3 độ lệch chuẩn
trung bình. Ta áp dụng công thức (5.15) để tìm hiệu giữa tích
của giá trị trung bình.
Hình 5.20
Phân phối chuẩn chuẩn
Hình 5.21
Máy tính tiêu chuẩn
xác suất bình thường
Machine Translated by Google
158
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Sử dụng bảng phân phối chuẩn chuẩn
Mặc dù việc sử dụng Excel để tính toán các xác suất thông thường khá dễ dàng, các bảng
phân phối chuẩn chuẩn thường được tìm thấy trong sách giáo khoa và các tài liệu tham khảo
chuyên nghiệp khi không có máy tính. Một bảng như vậy được cung cấp trong Bảng A.1 của Phụ
lục A ở cuối cuốn sách này. Bảng này cho phép bạn tra cứu xác suất tích lũy cho bất kỳ giá
trị nào của z trong khoảng từ -3,00 đến +3,00.
Một trong những ưu điểm của phân phối chuẩn tắc chuẩn là chúng ta có thể tính toán xác
suất cho bất kỳ biến ngẫu nhiên chuẩn X nào có trung bình m và độ lệch chuẩn bằng cách chuyển
đổi nó thành biến ngẫu nhiên chuẩn chuẩn Z. Chúng ta đã giới thiệu khái niệm giá trị chuẩn
hóa (z-scores ) cho dữ liệu mẫu trong Chương 4. Ở đây, chúng ta sử dụng một phép tính tương
tự cho mula để chuyển đổi một giá trị x từ một phân phối chuẩn tùy ý thành một giá trị chuẩn
chuẩn tương đương, z:
z
1x - m2
(5.20)
VÍ DỤ 5.33 Tính toán xác suất với các bảng chuẩn thông thường
Chúng ta sẽ trả lời câu hỏi đầu tiên được đặt ra trong Ví dụ
5.30: Xác suất để nhu cầu tối đa = 900 đơn vị là bao nhiêu nếu
phân phối nhu cầu của khách hàng (X) là bình thường với
Lưu ý rằng 900 cao hơn 150 đơn vị so với giá trị trung
bình của 750; vì độ lệch chuẩn là 100, điều này đơn giản có
nghĩa là 900 là 1,5 độ lệch chuẩn trên giá trị trung bình, là
trung bình là 750 đơn vị/tháng và độ lệch chuẩn là 100 đơn vị /
giá trị của . Sử dụng Bảng A.1 trong Phụ lục A, chúng tôi thấy
tháng? Sử dụng công thức (5.19), chuyển đổi thành một giá trị
rằng xác suất tích lũy cho = 1,5 là 0,9332, đây cũng là câu
bình thường tiêu chuẩn:
trả lời tương tự mà chúng tôi tìm thấy cho Ví dụ 5.30.
=
900
750
100
= 1,5
Phân phối theo cấp số nhân
Phân phối hàm mũ là một phân phối liên tục mô hình hóa thời gian giữa các sự kiện xảy
ra ngẫu nhiên. Do đó, nó thường được sử dụng trong các ứng dụng như lập mô hình thời
gian giữa các lần khách hàng đến hệ thống dịch vụ hoặc thời gian đến hoặc giữa các
lần hỏng hóc của máy móc, bóng đèn, ổ cứng và các bộ phận cơ hoặc điện khác.
Tương tự như phân phối Poisson, phân phối mũ có một tham số, l. Trên thực tế,
phân phối hàm mũ có liên quan chặt chẽ với Poisson; nếu số lượng sự kiện xảy ra
trong một khoảng thời gian có phân phối Poisson, thì thời gian giữa các sự kiện
được phân phối theo cấp số nhân. Chẳng hạn, nếu số lượng khách đến ngân hàng
được phân phối Poisson, giả sử với trung bình l 12> giờ thì thời gian giữa các lần đến
là cấp số nhân, với trung bình m 1>12 giờ hoặc 5 phút.
Phân phối mũ có hàm mật độ
f 1x2 le-lx ,
cho x Ú 0
(5.21)
và hàm phân phối tích lũy của nó là
F1x2 1 - e-lx ,
cho x Ú 0
(5.22)
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
159
Đôi khi, phân phối hàm mũ được thể hiện dưới dạng giá trị trung bình m chứ không phải
tỷ lệ l. Để làm điều này, chỉ cần thay thế 1>m cho l trong các công thức trước đó.
Giá trị mong đợi của phân phối mũ là 1>l và phương sai là 11>l22 .
Hình 5.22 cung cấp một bản phác thảo về phân bố hàm mũ. Phân bố hàm mũ có các thuộc
tính mà nó bị giới hạn dưới 0, nó có mật độ lớn nhất tại 0 và mật độ giảm khi x tăng.
Hàm Excel EXPON.DIST (x, lambda, tích lũy) có thể được sử dụng để tính xác suất hàm
mũ. Như với các hàm phân phối xác suất Excel khác, tích lũy là TRUE hoặc FALSE, với
TRUE cung cấp hàm phân phối tích lũy.
VÍ DỤ 5.34 Sử dụng Phân phối Hàm mũ
Giả sử rằng thời gian trung bình để hỏng một bộ phận quan
một phần của hàm phân phối tích lũy, có thể tìm thấy trong
trọng của động cơ là m = 8.000 giờ. Do đó, l = 1 m = 1 8.000
tệp Excel Xác suất hàm mũ.
lần hỏng hóc/giờ. Xác suất mà bộ phận này sẽ hỏng trước vài
Ví dụ: xác suất hỏng hóc trước 5.000 giờ là F(5000) = 0,4647.
giờ được đưa ra bởi hàm phân phối lũy tích F 1 2 . Hình
5.23 cho thấy
Hình 5.22
Ví dụ về Phân phối Hàm mũ 1l = 12
Machine Translated by Google
160
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.23
Tính xác suất lũy thừa trong Excel
Phân phối hữu ích khác
Nhiều phân phối xác suất khác, đặc biệt là những phân phối có nhiều hình dạng khác
nhau, tìm thấy ứng dụng trong các mô hình quyết định để mô tả nhiều loại hiện tượng. Các
phân phối như vậy cung cấp mức độ linh hoạt cao trong việc biểu diễn cả dữ liệu thực
nghiệm hoặc khi cần đánh giá để xác định một phân phối thích hợp. Chúng tôi cung cấp
một mô tả ngắn gọn về các bản phân phối này; tuy nhiên, bạn không cần biết các chi tiết
toán học về chúng để sử dụng chúng trong các ứng dụng.
Phân phối liên tục
Phân phối tam giác. Phân phối tam giác được xác định bởi ba tham số: mức tối
thiểu, a; cực đại, b; và rất có thể, c. Các kết quả gần giá trị có khả năng
nhất có cơ hội xảy ra cao hơn so với các kết quả ở các thái cực. Bằng cách
thay đổi giá trị có khả năng nhất, phân bố tam giác có thể đối xứng hoặc lệch
theo một trong hai hướng, như trong Hình 5.24. Phân phối tam giác thường được
sử dụng khi không có sẵn dữ liệu để mô tả một biến không chắc chắn và phân
phối phải được ước tính một cách thận trọng.
Phân phối lognormal. Nếu logarit tự nhiên của biến ngẫu nhiên X là chuẩn tắc thì
X có phân phối lôgic chuẩn. Do phân phối logic chuẩn bị lệch dương và bị giới
hạn dưới 0, nên nó tìm thấy các ứng dụng trong mô hình hóa các hiện tượng
có xác suất thấp của các giá trị lớn và không thể có các giá trị âm, chẳng hạn
như thời gian để hoàn thành một nhiệm vụ. Các ví dụ phổ biến khác bao gồm
giá cổ phiếu và giá bất động sản. Phân phối logic chuẩn cũng thường được sử
dụng cho thời gian dịch vụ "tăng đột biến", nghĩa là khi xác suất về 0 rất
thấp, nhưng giá trị có khả năng nhất chỉ lớn hơn 0.
Phân phối Beta. Một trong những phân phối linh hoạt nhất để lập mô hình biến thể
trong một khoảng thời gian cố định từ 0 đến giá trị dương là phiên bản beta.
Phân phối beta là một hàm của hai tham số a và b, cả hai đều phải dương.
Nếu a và b bằng nhau thì phân phối đối xứng. Nếu một trong hai tham số là
1,0 và tham số kia lớn hơn 1,0 thì phân phối có dạng chữ J. Nếu a là
Machine Translated by Google
161
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
( )
Hình 5.24
Ví dụ về hình tam giác
(đối xứng)
phân phối
Một
b
c
( )
(độ lệch dương)
Một
b
c
( )
(độ lệch âm)
Một
cb
nhỏ hơn b, phân phối bị lệch dương; nếu không, nó bị lệch âm. Các thuộc tính
này có thể giúp bạn chọn các giá trị thích hợp cho các tham số hình dạng.
Lấy mẫu ngẫu nhiên từ phân phối xác suất
Nhiều ứng dụng trong phân tích kinh doanh yêu cầu các mẫu ngẫu nhiên từ các phân phối
xác suất cụ thể. Ví dụ, trong một mô hình tài chính, chúng ta có thể quan tâm đến việc
phân phối dòng tiền chiết khấu tích lũy trong vài năm khi doanh thu, tốc độ tăng trưởng
doanh thu, chi phí hoạt động và các yếu tố lạm phát đều không chắc chắn và được mô tả
bằng phân phối xác suất. Các biến kết quả của các mô hình quyết định như vậy là các hàm
phức tạp của các biến đầu vào ngẫu nhiên. Việc hiểu phân bố xác suất của các biến như vậy
chỉ có thể được thực hiện bằng các quy trình lấy mẫu được gọi là mô phỏng Monte Carlo,
mà chúng ta sẽ đề cập trong Chương 12.
Cơ sở để tạo ra các mẫu ngẫu nhiên từ các phân phối xác suất là khái niệm về một số
ngẫu nhiên. Số ngẫu nhiên là số được phân phối đồng đều từ 0 đến 1. Về mặt kỹ thuật, máy
tính không thể tạo ra các số thực sự ngẫu nhiên vì chúng phải sử dụng thuật toán có thể
dự đoán được. Tuy nhiên, các thuật toán được thiết kế để tạo ra một dãy số có vẻ như là
ngẫu nhiên. Trong Excel, chúng ta có thể tạo một số ngẫu nhiên trong bất kỳ ô nào bằng
cách sử dụng hàm RAND(). Hàm này không có đối số; do đó, không nên đặt gì trong dấu ngoặc
đơn (nhưng dấu ngoặc đơn là bắt buộc). Hình 5.25 cho thấy một bảng gồm 10 số ngẫu nhiên
được tạo trong Excel. Bạn nên lưu ý rằng trừ khi tính năng tính toán lại tự động bị chặn,
bất cứ khi nào bất kỳ ô nào trong bảng tính bị sửa đổi, giá trị trong bất kỳ ô nào chứa
hàm RAND( ) sẽ thay đổi. Tính toán lại tự động có thể được thay đổi thành thủ công bằng
cách chọn Tùy chọn tính toán trong nhóm Tính toán trong tab Công thức. Trong chế độ tính
toán lại thủ công, bảng tính chỉ được tính toán lại khi nhấn phím F9.
Machine Translated by Google
162
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.25
Một mẫu ngẫu nhiên
số
Lấy mẫu từ phân phối xác suất rời rạc
Việc lấy mẫu từ các phân bố xác suất rời rạc sử dụng các số ngẫu nhiên khá dễ dàng. Chúng tôi
sẽ minh họa quá trình này bằng cách sử dụng phân phối xác suất để tung hai con xúc xắc.
VÍ DỤ 5.35 Lấy mẫu từ phân phối kết quả súc sắc
Hàm khối lượng xác suất và phân phối tích lũy ở dạng thập
bao gồm 0,0833 có xác suất là 0,0556 và tương ứng với kết quả
phân như sau:
= 3; và như thế. Điều này được tổng hợp như sau:
f 1
2
F1 2
2 0,0278
0,0278
3
0,0556
0,0833
4
0,0833
0,1667
5
0,1111
0,2778
6
0,1389
0,4167
7
0,1667
0,5833
0,1389
0,7222
9
0,1111
0,8333
10
0,0833
0,9167
11
0,0556
0,9722
số 8
12
0,0278
1.0000
Lưu ý rằng các giá trị của F( ) chia khoảng từ 0 đến 1 thành
các khoảng nhỏ hơn tương ứng với xác suất của các kết quả. Ví
dụ: khoảng từ (nhưng không bao gồm) 0 trở lên và bao gồm 0,0278
có khả năng xảy ra là 0,028 và tương ứng với kết quả = 2;
khoảng từ (nhưng không bao gồm) 0,0278 trở lên và
khoảng thời gian
0 đến 0,0278
kết quả
2
0,0278 đến 0,0833
3
0,0833 đến 0,1667
4
0,1667 đến 0,2778
5
0,2778 đến 0,4167
6
0,4167 đến 0,5833
7
0,5833 đến 0,7222
số 8
0,7222 đến 0,8323
9
0,8323 đến 0,9167
10
0,9167 đến 0,9722
11
0,9722 đến 1,0000
12
Khi đó, bất kỳ số ngẫu nhiên nào cũng phải nằm trong một
trong các khoảng này. Do đó, để tạo ra kết quả từ phân phối
này, tất cả những gì chúng ta cần làm là chọn một số ngẫu
nhiên và xác định khoảng mà nó rơi vào. Giả sử chúng ta sử
dụng dữ liệu trong Hình 5.25. ngẫu nhiên đầu tiên
Machine Translated by Google
163
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
số là 0,326510048. Giá trị này nằm trong khoảng tương ứng
máy đánh bóng. Nếu điều này được thực hiện lặp đi lặp lại,
với kết quả mẫu là 6. Số dom chạy thứ hai là 0,743390121. Con
thì tần suất xuất hiện của mỗi kết quả sẽ tỷ lệ thuận với
số này nằm trong khoảng tương ứng với kết quả là 9. Về cơ
kích thước của phạm vi số ngẫu nhiên (tức là xác suất liên
bản, chúng tôi đã phát triển một kỹ thuật tung xúc xắc trên
quan đến kết quả) vì các số ngẫu nhiên được phân phối đồng
com
đều.
Chúng ta có thể dễ dàng sử dụng phương pháp này để tạo kết quả từ bất kỳ phân phối riêng biệt nào;
chức năng VLOOKUP trong Excel có thể được sử dụng để thực hiện điều này trên bảng tính.
VÍ DỤ 5.36 Sử dụng hàm VLOOKUP để lấy mẫu ngẫu nhiên
Giả sử rằng chúng ta muốn lấy mẫu từ phân phối khả năng xác
ô J2 là =VLOOKUP(I2,$E$2:$G$10,3), được sao chép xuống cột
suất của sự thay đổi được dự đoán trong chỉ số Trung bình
đó. Hàm này lấy giá trị của số ngẫu nhiên trong ô I2, tìm số
Công nghiệp Dow Jones được thể hiện trong Hình 5.6. Đầu tiên
cuối cùng trong cột đầu tiên của phạm vi bảng nhỏ hơn số ngẫu
chúng tôi xây dựng phân phối tích lũy F 1 2 . Sau đó gán các
nhiên và trả về giá trị trong cột thứ ba của phạm vi bảng.
khoảng thời gian cho các kết quả dựa trên các giá trị của phân
Trong trường hợp này, 0,49 là số cuối cùng trong cột E nhỏ
phối tích lũy, như trong Hình 5.26. Điều này chỉ định phạm
hơn 0,530612386, do đó, hàm trả về kết quả là 5%.
vi bảng cho hàm VLOOKUP, cụ thể là $E$2:$G$10. Liệt kê các số
ngẫu nhiên trong một cột bằng hàm RAND(). Công thức trong
Lấy mẫu từ phân phối xác suất chung
Cách tiếp cận tạo số ngẫu nhiên này và biến chúng thành kết quả từ phân phối xác suất có thể
được sử dụng để lấy mẫu từ hầu hết mọi phân phối. Một giá trị chạy domly tạo ra từ một phân
phối xác suất được chỉ định được gọi là một biến ngẫu nhiên. Ví dụ, khá dễ dàng để chuyển đổi
một số ngẫu nhiên thành một biến ngẫu nhiên từ phân phối dạng đơn vị giữa a và b. Xét công
thức:
U a + 1b - a2*RAND( )
Lưu ý rằng khi RAND( )
(5.23)
0, U a, và khi RAND( ) tiến đến 1, U tiến đến b.
Đối với bất kỳ giá trị nào khác của RAND( ) giữa 0 và 1, 1b - a2*RAND() đại diện cho cùng một
tỷ lệ của khoảng 1a, b2 như RAND( ) của khoảng 10, 12. Do đó, tất cả
Hình 5.26
Sử dụng VLOOKUP
Chức năng lấy mẫu từ một
Phân phối rời rạc
Machine Translated by Google
164
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.27
Số ngẫu nhiên Excel
Hộp thoại thế hệ
các số thực giữa a và b có thể xảy ra. Vì RAND( ) được phân phối đều nên U cũng vậy.
Mặc dù điều này khá dễ dàng, nhưng chắc chắn không rõ ràng về cách tạo các biến
ngẫu nhiên từ các phân phối khác, chẳng hạn như bình thường hoặc theo cấp số nhân.
Chúng tôi không mô tả các chi tiết kỹ thuật về cách thực hiện điều này mà chỉ mô tả
các khả năng sẵn có trong Excel. Excel cho phép bạn tạo các biến ngẫu nhiên từ các bản
phân phối rời rạc và một số bản khác bằng cách sử dụng tùy chọn Tạo số ngẫu nhiên
trong gói Công cụ phân tích. Từ tab Dữ liệu trong dải băng, chọn Phân tích Dữ liệu
trong nhóm Phân tích rồi chọn Tạo số ngẫu nhiên. Hộp thoại Tạo số ngẫu nhiên, như
trong Hình 5.27, sẽ xuất hiện. Từ hộp thoại Tạo số ngẫu nhiên, bạn có thể chọn từ bảy
phân phối: thống nhất, bình thường, Bernoulli, nhị thức, Poisson và theo khuôn mẫu
cũng như rời rạc. (Phân phối theo khuôn mẫu được đặc trưng bởi giới hạn dưới và giới
hạn trên, một bước, tốc độ lặp lại cho các giá trị và tốc độ lặp lại cho chuỗi.) Nếu
bạn chọn tùy chọn Phạm vi đầu ra, bạn sẽ được yêu cầu chỉ định tham chiếu ô phía trên
bên trái của bảng đầu ra sẽ lưu trữ kết quả, số lượng biến (cột giá trị bạn muốn tạo),
số lượng số ngẫu nhiên (số lượng điểm dữ liệu bạn muốn tạo cho mỗi biến) và loại phân
phối. Phân phối mặc định là phân phối rời rạc.
VÍ DỤ 5.37 Sử dụng Công cụ tạo số ngẫu nhiên của Excel
Chúng ta sẽ tạo ra 100 kết quả từ phân phối Poisson với giá
thay đổi và nhắc bạn về giá trị của Lambda, giá trị trung
trị trung bình là 12. Trong hộp thoại Tạo số ngẫu nhiên, đặt
bình của phân phối Poisson; nhập 12 vào ô và nhấp vào OK. Công
Số lượng biến thành 1 và Số lượng số ngẫu nhiên thành 100 và
cụ sẽ hiển thị các số ngẫu nhiên trong một cột. Hình 5.28
chọn Poisson từ hộp Phân phối thả xuống. Hộp thoại sẽ
cho thấy biểu đồ kết quả.
Hộp thoại trong Hình 5.27 cũng cho phép bạn tùy chọn chỉ định hạt giống số ngẫu
nhiên. Một hạt giống số ngẫu nhiên là một giá trị mà từ đó một dòng số ngẫu nhiên
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
165
Hình 5.28
Biểu đồ của các mẫu từ một
Phân phối Poisson
được tạo ra. Bằng cách chỉ định cùng một hạt giống, bạn có thể tạo cùng một số ngẫu
nhiên sau đó. Điều này là mong muốn khi chúng ta muốn tái tạo một chuỗi các sự kiện
“ngẫu nhiên” giống hệt nhau trong một mô phỏng để kiểm tra tác động của các chính sách
hoặc biến quyết định khác nhau trong cùng hoàn cảnh. Tuy nhiên, một nhược điểm khi sử
dụng công cụ Tạo số ngẫu nhiên là bạn phải lặp lại quy trình để tạo một tập giá trị mẫu
mới; nhấn phím tính toán lại (F9) sẽ không thay đổi các giá trị. Điều này có thể gây
khó khăn khi sử dụng công cụ này để phân tích các mô hình quyết định.
Excel cũng có một số hàm nghịch đảo của phân phối xác suất có thể được sử dụng
để tạo ra các biến ngẫu nhiên. Đối với phân phối bình thường, sử dụng
NORM.INV(probability, mean, standard_deviation)—phân phối chuẩn với giá trị
trung bình và độ lệch chuẩn xác định,
NORM.S.INV(xác suất)—phân phối chuẩn chuẩn.
Đối với một số bản phân phối nâng cao, bạn có thể thấy
LOGNORM.INV(probability, mean, standard_deviation)—phân phối chuẩn logarit,
trong đó ln(X) có giá trị trung bình và độ lệch chuẩn xác định,
BETA.INV(xác suất, alpha, beta, A, B)—phân phối beta.
Để sử dụng các hàm này, chỉ cần nhập RAND( ) thay cho xác suất trong hàm. Ví dụ:
NORM.INV(RAND( ), 5, 2) sẽ tạo ra các biến ngẫu nhiên từ phân phối bình thường với giá
trị trung bình 5 và độ lệch chuẩn 2. Mỗi khi bảng tính được tính toán lại, một số ngẫu
nhiên mới và do đó, một số ngẫu nhiên mới khác nhau, được tạo ra. Các hàm này có thể
được nhúng trong công thức ô và sẽ tạo ra các giá trị mới bất cứ khi nào bảng tính được
tính toán lại.
Machine Translated by Google
166
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Ví dụ sau đây cho thấy cách lấy mẫu từ các phân phối xác suất có thể cung cấp
thông tin chi tiết về các quyết định kinh doanh khó phân tích bằng toán học.
VÍ DỤ 5.38 Thử nghiệm lấy mẫu để đánh giá các dự án lập ngân sách vốn
Trong tài chính, một cách để đánh giá các dự án lập ngân sách
chúng ta sẽ thấy, đây không phải là trường hợp. Chúng ta có thể
vốn là tính toán chỉ số lợi nhuận (PI), được định nghĩa là tỷ
sử dụng thí nghiệm lấy mẫu để xác định phân phối xác suất của
lệ giữa giá trị hiện tại của dòng tiền trong tương lai (PV) với
PI cho các giả định này.
khoản đầu tư ban đầu (I):
Hình 5.29 cho thấy một mô hình đơn giản từ Thử nghiệm chỉ
số khả năng sinh lời của tệp Excel. Đối với mỗi thử nghiệm, các
PI = PV Tôi
(5.24)
giá trị của PV và I được lấy mẫu từ phân phối chuẩn giả định của
chúng bằng cách sử dụng hàm NORM.INV. PI được tính toán trong
Bởi vì dòng tiền và đầu tư ban đầu có thể được yêu cầu cho
cột D và giá trị trung bình cho 1.000 thử nghiệm được hiển thị
một dự án cụ thể thường không chắc chắn nên chỉ số lợi nhuận
trong ô E8. Ta thấy rõ đây không phải là 4 như nghi ngờ trước
cũng không chắc chắn. Nếu chúng ta có thể mô tả PV và I bằng
đây. Đồ thị his trong hình 5.30 cũng chứng tỏ phân phối của PI
một số phân phối xác suất, thì chúng ta muốn biết phân phối xác
không bình thường mà bị lệch về bên phải.
suất của PI. Ví dụ: giả sử rằng PV được ước tính là phân phối
chuẩn với giá trị trung bình là 12 triệu đô la và độ lệch chuẩn
Thí nghiệm này khẳng định rằng tỷ lệ của hai phân phối chuẩn
là 2,5 triệu đô la, và khoản đầu tư ban đầu cũng được ước tính
không phải là phân phối chuẩn. Chúng tôi khuyến khích bạn tạo
là bình thường với giá trị trung bình là 3,0 triệu đô la và độ
bảng tính này và sao chép thử nghiệm này (lưu ý rằng kết quả
lệch chuẩn là 0,8 triệu đô la . Theo trực giác, chúng ta có thể
của bạn sẽ không hoàn toàn giống với kết quả này vì bạn đang
tin rằng chỉ số khả năng sinh lợi cũng được phân phối chuẩn với
tạo các giá trị ngẫu nhiên!)
giá trị trung bình là 12 triệu đô la 3 triệu đô la = 4 triệu
đô la; tuy nhiên, như
Hàm phân phối xác suất trong Nền tảng bộ giải phân tích
Nền tảng bộ giải phân tích (xem phần Phần bổ trợ bảng tính trong Chương 2) cung cấp các hàm
Excel tùy chỉnh giúp tạo các mẫu ngẫu nhiên từ các phân phối xác suất được chỉ định. Bảng
5.1 hiển thị danh sách các bản phân phối này mà chúng ta đã thảo luận. Các hàm này trả về các
giá trị ngẫu nhiên từ các phân phối đã chỉ định trong các ô của trang tính. Các chức năng này
sẽ rất hữu ích trong các ứng dụng phân tích kinh doanh ở các chương sau, đặc biệt là Chương
12 về mô phỏng và phân tích rủi ro.
Hình 5.29
Thử nghiệm lấy mẫu cho
Chỉ số lợi nhuận
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
167
Hình 5.30
Phân phối tần số và
Biểu đồ chỉ số khả năng sinh lời
Bảng 5.1
Nền tảng bộ giải phân tích
Phân phối xác suất
Chức năng
Phân bổ
Chức năng nền tảng bộ giải phân tích
Bernoulli
PsiBernoulli(xác suất)
nhị thức
PsiBinomial(thử nghiệm, xác suất)
Poisson
PsiPoisson(trung bình)
Đồng phục
PsiUniform (dưới, trên)
Bình thường
PsiNormal(trung bình, độ lệch chuẩn)
số mũ
Psi Hàm mũ (trung bình)
Đồng phục rời rạc
PsiDisUniform(giá trị)
hình học
PsiGeometric(xác suất)
nhị thức âm
PsiNegBinomial(thành công, xác suất)
siêu hình học
PsiHyperGeo(thử nghiệm, thành công, quy mô dân số)
hình tam giác
PsiTriangular(tối thiểu, rất có thể, tối đa)
logic bình thường
PsiLognormal(trung bình, độ lệch chuẩn)
bản thử nghiệm
PsiBeta (alpha, beta)
VÍ DỤ 5.39 Sử dụng Hàm phân phối Nền tảng Bộ giải Giải tích
Một công ty năng lượng đang xem xét cung cấp một sản phẩm mới
phân bổ. Hình 5.31 (Tỷ lệ tăng trưởng quyền sở hữu PC trong
và cần ước tính mức tăng trưởng về số lượng người sở hữu PC.
tệp Excel) hiển thị một phần trong số 500 mẫu được tạo bằng
Sử dụng dữ liệu và thông tin tốt nhất hiện có, họ xác định
hàm PsiTriangular(5%, 7,7%, 10%).
rằng tỷ lệ tăng trưởng tối thiểu là 5,0%, giá trị có khả năng
Lưu ý rằng biểu đồ thể hiện một hình tam giác rõ ràng.
nhất là 7,7% và giá trị tối đa là 10,0%. Các tham số này đặc
trưng cho một hình tam giác
Machine Translated by Google
168
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.31
Các mẫu từ một hình tam giác
Phân bổ
Mô hình hóa và phân phối dữ liệu
Trong nhiều ứng dụng phân tích kinh doanh, chúng ta cần thu thập dữ liệu mẫu của các biến quan
trọng như nhu cầu của khách hàng, hành vi mua hàng, thời gian hỏng máy và thời gian hoạt động
của dịch vụ, v.v., để hiểu được sự phân bố của các biến này. Bằng cách sử dụng các công cụ đã
nghiên cứu, chúng tôi có thể xây dựng phân phối tần suất và biểu đồ cũng như tính toán các biện
pháp thống kê mô tả cơ bản để hiểu rõ hơn về bản chất của dữ liệu. Tuy nhiên, dữ liệu mẫu chỉ
có vậy—các mẫu.
Việc sử dụng dữ liệu mẫu có thể hạn chế khả năng dự đoán các sự kiện không chắc chắn có
thể xảy ra của chúng tôi do không bao gồm các giá trị tiềm năng nằm ngoài phạm vi của dữ liệu
mẫu. Một cách tiếp cận tốt hơn là xác định phân phối xác suất cơ bản mà từ đó dữ liệu mẫu đến
bằng cách “phù hợp” với một phân phối lý thuyết cho dữ liệu và xác minh mức độ phù hợp về mặt thống kê.
Để chọn một phân phối lý thuyết thích hợp phù hợp với dữ liệu mẫu, chúng ta có thể bắt
đầu bằng cách kiểm tra biểu đồ dữ liệu để tìm kiếm các hình dạng đặc biệt của các phân phối cụ
thể. Ví dụ: dữ liệu bình thường là đối xứng, với một đỉnh ở giữa. Dữ liệu triển lãm có độ lệch
rất tích cực, không có giá trị âm. Dữ liệu logic chuẩn cũng bị sai lệch rất tích cực, nhưng
mật độ giảm xuống 0 tại 0. Các dạng phân phối gamma, Weibull hoặc beta khác nhau có thể được
sử dụng cho các bản phân phối dường như không phù hợp với một trong các dạng phổ biến khác. Tất
nhiên, cách tiếp cận này không phải lúc nào cũng chính xác hoặc hợp lệ và đôi khi có thể khó áp
dụng, đặc biệt nếu cỡ mẫu nhỏ. Tuy nhiên, nó có thể thu hẹp tìm kiếm xuống một vài bản phân phối
tiềm năng.
Thống kê tóm tắt cũng có thể cung cấp manh mối về bản chất của phân phối. Giá trị trung
bình, trung vị, độ lệch chuẩn và hệ số biến thiên thường cung cấp thông tin về bản chất của
phân phối. Chẳng hạn, dữ liệu được phân phối thông thường có xu hướng có hệ số biến thiên khá
thấp (tuy nhiên, điều này có thể không đúng nếu giá trị trung bình nhỏ).
Đối với dữ liệu được phân phối bình thường, chúng tôi cũng mong muốn trung vị và trung bình
gần như giống nhau. Tuy nhiên, đối với dữ liệu được phân phối theo cấp số nhân, giá trị trung
bình sẽ nhỏ hơn giá trị trung bình. Ngoài ra, chúng ta mong đợi giá trị trung bình sẽ gần bằng
với độ lệch chuẩn, hoặc tương đương, hệ số biến thiên sẽ gần bằng 1. Chúng ta cũng có thể xem
xét chỉ số độ lệch. Dữ liệu bình thường không bị sai lệch, trong khi dữ liệu logic và hàm mũ bị
sai lệch tích cực. Các ví dụ sau đây minh họa một số ý tưởng này.
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
169
VÍ DỤ 5.40 Phân tích dữ liệu hành khách của hãng hàng không
Một hãng hàng không khai thác một tuyến hàng ngày giữa hai
có một số mức độ sai lệch tích cực. Từ cuộc thảo luận của
thành phố cỡ trung bình bằng máy bay phản lực khu vực 70 chỗ
chúng ta trong Chương 4 về tính biến đổi của các mẫu, điều
ngồi. Chuyến bay ít khi hết chỗ mà thường dành cho khách
quan trọng là phải nhận ra rằng đây là một mẫu tương đối nhỏ
doanh nhân đặt vào phút chót với giá cao. Hình 5.32 thể hiện
có thể thể hiện nhiều biến đổi so với dân số mà nó được rút
số lượng hành khách của một mẫu gồm 25 chuyến bay (file Excel
ra. Vì vậy, dựa trên những đặc điểm này, sẽ không phải là
Airline Passengers). Biểu đồ cho thấy một phân phối tương đối
không hợp lý khi giả định một phân phối chuẩn cho mục đích
đối xứng.
phát triển một mô hình phân tích dự đoán hoặc mô tả.
Giá trị trung bình, trung vị và chế độ đều giống nhau, mặc dù
VÍ DỤ 5.41 Phân tích thời gian phục vụ sân bay
Hình 5.33 thể hiện một phần dữ liệu và phân tích thống kê của
Từ thống kê mô tả, chúng ta có thể thấy rằng giá trị trung
812 mẫu thời gian phục vụ tại quầy bán vé của một sân bay
bình không gần với độ lệch chuẩn, cho thấy dữ liệu có thể
(file Excel Airport Service Times). Không rõ phân phối có thể
không theo cấp số nhân. Dữ liệu bị sai lệch dương, gợi ý rằng
là gì. Có vẻ như nó không phải là cấp số nhân, nhưng nó có
phân phối logic chuẩn có thể phù hợp. Tuy nhiên, rất khó để
thể là phân phối logic hoặc thậm chí là một phân phối khác mà
đưa ra một kết luận chắc chắn.
bạn có thể không quen thuộc.
Việc kiểm tra biểu đồ và thống kê tóm tắt có thể cung cấp một số ý tưởng về phân
phối thích hợp; tuy nhiên, một cách tiếp cận tốt hơn là phân tích dữ liệu phù hợp với
loại phân phối xác suất tốt nhất.
Hình 5.32
Dữ liệu và thống kê về nhu cầu của hành khách
Machine Translated by Google
170
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.33
Thống kê thời gian dịch vụ sân bay
Sự phù hợp
Cơ sở để điều chỉnh dữ liệu phù hợp với phân phối xác suất là một quy trình thống kê được
gọi là mức độ phù hợp tốt. Sự phù hợp tốt đẹp cố gắng rút ra kết luận về bản chất của sự
phân phối. Chẳng hạn, trong Ví dụ 5.40, chúng tôi đề xuất rằng có thể hợp lý khi giả định
rằng sự phân bổ nhu cầu của hành khách là bình thường. Mức độ phù hợp sẽ cung cấp hỗ trợ
phân tích, khách quan cho giả định này. Để hiểu chi tiết về quy trình này, cần có các khái
niệm mà chúng ta sẽ học trong Chương 7. Tuy nhiên, có một phần mềm (mà chúng tôi sẽ minh họa
ngay sau đây) chạy các quy trình thống kê để xác định mức độ phù hợp của một phân phối lý
thuyết với một tập hợp dữ liệu, đồng thời tìm ra phân phối tốt nhất. phân phối phù hợp.
Việc xác định mức độ phù hợp của dữ liệu mẫu với phân phối thường được đo bằng một trong
ba loại thống kê, được gọi là thống kê chi-square, Kolmogorov-Smirnov và Anderson Darling.
Về cơ bản, các số liệu thống kê này cung cấp thước đo mức độ tốt của biểu đồ tần số của dữ
liệu mẫu so với phân bố xác suất lý thuyết cụ thể. Cách tiếp cận chi bình phương chia phân
phối lý thuyết thành các khu vực có xác suất bằng nhau và so sánh các điểm dữ liệu trong mỗi
khu vực với số dự kiến cho phân phối đó. Quy trình Kolmogorov-Smirnov so sánh phân phối tích
lũy của dữ liệu với phân phối lý thuyết và đưa ra kết luận dựa trên khoảng cách dọc lớn nhất
giữa chúng. Phương pháp Anderson-Darling cũng tương tự nhưng đặt nặng hơn vào sự khác biệt
giữa các đuôi của bản phân phối. Cách tiếp cận này rất hữu ích khi bạn cần một sự phù hợp tốt
hơn ở các phần cuối cùng của phân phối. Nếu bạn sử dụng chi-square, bạn phải có ít nhất 50
điểm dữ liệu; đối với các mẫu nhỏ, thử nghiệm Kolmogorov-Smirnov thường hoạt động tốt hơn.
Lắp ráp phân phối với Nền tảng bộ giải phân tích
Nền tảng bộ giải phân tích có khả năng “điều chỉnh” phân phối xác suất cho dữ liệu bằng cách sử dụng một
trong ba quy trình phù hợp. Điều này thường được thực hiện để phân tích và xác định đầu vào cho các mô
hình mô phỏng mà chúng ta sẽ thảo luận trong Chương 12. Tuy nhiên, bạn không cần phải hiểu mô phỏng giá
đỡ tại thời điểm này để sử dụng khả năng này. Chúng tôi minh họa quy trình này bằng cách sử dụng dữ liệu
thời gian phục vụ tại sân bay.
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
171
VÍ DỤ 5.42 Lắp đặt Phân bổ cho Thời gian Phục vụ Sân bay
Bước 1: Đánh dấu phạm vi dữ liệu trong bảng tính Thời gian
để so sánh kết quả với một bản phân phối khác, chỉ cần chọn
phục vụ sân bay. Bấm vào nút Công cụ trong dải băng Nền
hộp ở bên trái. Bạn không cần phải biết các chi tiết toán học
tảng Bộ giải Phân tích, rồi bấm vào Khớp. Thao tác này
để sử dụng phân phối trong ứng dụng bảng tính vì công thức
sẽ hiển thị hộp thoại Fit Options như trong Hình 5.34.
cho hàm Psi tương ứng với phân phối này được hiển thị trong
Bước 2: Trong hộp thoại Fit Options, chọn khớp dữ liệu với
bảng điều khiển ở phía bên phải của đầu ra. Khi bạn thoát khỏi
phân phối liên tục hay rời rạc. Trong ví dụ này, chúng
hộp thoại, bạn có tùy chọn chấp nhận kết quả; nếu vậy, nó sẽ
tôi chọn Liên tục. Bạn cũng có thể chọn quy trình thống
yêu cầu bạn chọn một ô để đặt hàm Psi cho phân phối, trong
kê được sử dụng để đánh giá kết quả, chi-square,
trường hợp này là hàm:
Kolmogorov-Smirnov hoặc Anderson-Darling. Chúng tôi
chọn tùy chọn mặc định, Kolmogorov-Smirnov. Nhấp vào
nút Phù hợp.
Nền tảng bộ giải phân tích hiển thị một cửa sổ với kết
=PsiErlang(1.46504838280818,80.0576462180289,
Dịch chuyển Psi 8,99)
Chúng ta có thể sử dụng hàm này để tạo các mẫu từ bản phân
quả như trong Hình 5.35. Trong trường hợp này, phân phối phù
phối này, tương tự như cách chúng ta đã sử dụng hàm NORM.INV
hợp nhất được gọi là phân phối Erlang. Nếu bạn muốn
trong Ví dụ 5.38.
Hình 5.34
Hộp thoại Fit Options
Hình 5.35
Nền tảng bộ giải phân tích
Kết quả lắp phân phối
Machine Translated by Google
172
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Phân tích trong thực tế: Giá trị của việc lập mô hình dữ liệu tốt trong quảng cáo
Để minh họa tầm quan trọng của việc xác định phân phối chính
xác trong mô hình quyết định, chúng tôi thảo luận về một ví dụ
trong quảng cáo.3 Số tiền mà các công ty chi tiêu cho thành
phần sáng tạo của quảng cáo (tức là tạo quảng cáo tốt hơn) theo
truyền thống là khá nhỏ so với ngân sách truyền thông tổng
thể . Một chuyên gia lưu ý rằng chi tiêu cho phát triển sáng
tạo bằng khoảng 5% chi tiêu cho chiến dịch truyền thông.
Bất cứ khoản tiền nào được chi cho phát triển sáng tạo
Victor
Correira/
Shutterstock.com
thường được chuyển trực tiếp thông qua một công ty quảng cáo
duy nhất. Tuy nhiên, một lý thuyết đã được đề xuất là nên chi
nhiều hơn cho việc phát triển quảng cáo sáng tạo và các khoản
chi đó nên được phân bổ cho một số hãng quảng cáo cạnh tranh.
Trong các nghiên cứu tìm kiếm lại về lý thuyết này, sự phân bổ
hiệu quả quảng cáo được giả định là bình thường. Trên thực tế,
dữ liệu được thu thập về phản hồi đối với quảng cáo sản phẩm
tiêu dùng cho thấy rằng phân phối này thực sự khá sai lệch và
do đó, không được phân phối bình thường.
Vì dữ liệu quan sát được về hiệu quả của quảng cáo là
sai lệch rõ ràng, các nhà nghiên cứu khác đã kiểm tra tính
hiệu quả của quảng cáo bằng cách nghiên cứu dữ liệu tiêu chuẩn
Sử dụng giả định sai trong bất kỳ mô hình hoặc ứng dụng nào
cũng có thể tạo ra kết quả sai. Trong tình huống này, độ lệch
thực sự mang lại lợi thế cho các nhà quảng cáo, khiến việc lấy
ý tưởng từ nhiều công ty quảng cáo trở nên hiệu quả hơn.
của ngành về khả năng nhớ lại quảng cáo mà không yêu cầu giả
định về các hiệu ứng được phân phối bình thường. Phân tích này
cho thấy rằng quảng cáo tốt nhất trong số nhiều quảng cáo hiệu
quả hơn bất kỳ quảng cáo đơn lẻ nào. Phân tích sâu hơn cho
thấy số lượng quảng cáo tối ưu cho hoa hồng có thể thay đổi đáng
Một mô hình toán học (được gọi là mô hình của Gross) liên
quan đến sự đóng góp tương đối của tiền quảng cáo và tiền
truyền thông vào tổng hiệu quả quảng cáo và thường được sử dụng
để xác định số lượng quảng cáo dự thảo tốt nhất để theo đuổi.
Mô hình này bao gồm các yếu tố về chi phí phát triển quảng cáo,
tổng ngân sách chi tiêu truyền thông, phân phối hiệu quả giữa
các quảng cáo (được cho là bình thường) và độ tin cậy của việc
xác định quảng cáo hiệu quả nhất từ một tập hợp các lựa chọn
kể, tùy thuộc vào hình thức phân phối hiệu quả cho một quảng cáo.
Các nhà nghiên cứu đã phát triển một giải pháp thay thế
cho mô hình của Gross. Từ những phân tích của mình, họ nhận thấy
rằng khi số lượng quảng cáo nháp tăng lên, hiệu quả của quảng
cáo tốt nhất cũng tăng lên. Cả số lượng quảng cáo dự thảo tối
ưu và lợi nhuận thu được từ việc tạo nhiều bản nháp độc lập khi
sử dụng phân phối chính xác đều cao hơn so với kết quả được
báo cáo trong nghiên cứu ban đầu của Gross.
thay thế được tạo độc lập. Mô hình của Gross kết luận rằng có
thể thu được lợi nhuận lớn nếu nhiều quảng cáo được lấy từ các
nguồn độc lập và quảng cáo tốt nhất được chọn.
Điều khoản quan trọng
phân bố Bernoulli
Biến ngẫu nhiên liên tục
phân phối nhị thức
Chức năng phân phối tích lũy
Bổ sung
Biến ngẫu nhiên rời rạc
xác suất có điều kiện
Phân phối đồng đều rời rạc
3Dựa trên GC O'Connor, TR Willemain và J. MacLachlan, “Giá trị của sự cạnh tranh giữa các đại lý trong việc
phát triển các chiến dịch quảng cáo: Xem lại mô hình của Gross,” Tạp chí Quảng cáo, 25, 1 (1996): 51–62.
Machine Translated by Google
173
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Phân phối xác suất thực nghiệm
kết quả
Sự kiện
phân phối độc tố
Gia tri
đươ
c ki vo
ng
xác suất
Cuộc thí nghiệm
Hàm mật độ xác suất
phân phối theo cấp số nhân
Phân phối xác suất
Sự phù hợp tốt
Chức năng có thể xảy ra tập trung
sự kiện độc lập
số ngẫu nhiên
Ngã tư
Hạt giống số ngẫu nhiên
xác suất chung
biến ngẫu nhiên
Bảng xác suất chung
biến ngẫu nhiên
Xác suất biên
Không gian mẫu
luật nhân xác suất
phân phối bình thường tiêu chuẩn
loại trừ lẫn nhau
Phân bố đồng đều
Phân phối bình thường
liên hiệp
vấn đề và bài tập
1. Lauren uống nhiều loại nước giải khát. Trong tháng qua,
cô ấy đã uống 15 lon coca ăn kiêng, 4 lon nước chanh và
6 lon bia gốc không theo thứ tự hay khuôn mẫu cụ thể nào.
Một. Kết quả của thí nghiệm này đối với một người trả
lời là gì?
b. Xác suất mà một người trả lời sẽ xếp hạng Red Bull
đầu tiên là gì?
Một. Với lịch sử này, xác suất thức uống tiếp theo của cô ấy
sẽ là cola dành cho người ăn kiêng là bao nhiêu? Nước chanh?
Bia gốc?
b. Bạn đã sử dụng định nghĩa xác suất nào để trả lời
câu hỏi này?
2. Xem xét thí nghiệm rút hai quân bài không đổi từ một bộ
bài chỉ gồm quân át đến quân 10 của một bộ (ví dụ: chỉ
quân cơ).
Một. Mô tả kết quả của thí nghiệm này. Liệt kê các phần
tử của không gian mẫu.
b. Định nghĩa sự kiện Ai là tập hợp các kết quả mà tổng
giá trị của các quân bài là i (với quân Át 1). Liệt
kê các kết quả liên quan đến Ai cho i 3 đến 19.
c. Xác suất mà hai người trả lời sẽ
cả hai đều xếp hạng Red Bull đầu tiên?
5. Tham khảo kịch bản thẻ được mô tả trong Vấn đề 2.
Một. Gọi A là biến cố “tổng giá trị lá bài là số lẻ”.
c
Tìm P(A) và P(A)).
b. Xác suất mà tổng của hai
thẻ sẽ nhiều hơn 14?
6. Tham khảo kịch bản đồng xu được mô tả trong Vấn đề 3.
Một. Gọi A là biến cố “có đúng 2 mặt ngửa”. Tìm P(A).
b. Gọi B là biến cố “có nhiều nhất 1 mặt ngửa”. Tìm P(B).
c. Gọi C là biến cố có ít nhất 2 mặt ngửa. Tìm P(C).
đ. Biến cố A và B có loại trừ lẫn nhau không? Tìm P(A
c. Xác suất để có tổng hai quân bài bằng nhau từ 3 đến
19 là bao nhiêu?
hoặc B).
đ. Các sự kiện A và C có loại trừ lẫn nhau không? Tìm
P(A hoặc C).
3. Ba đồng xu được thả trên bàn.
Một. Liệt kê tất cả các kết quả có thể xảy ra trong không gian mẫu.
b. Tìm xác suất liên quan đến mỗi kết quả.
7. Roulette được chơi tại một bàn tương tự như trong Hình
5.36. Một bánh xe có các số từ 1 đến 36 (phân bố đều với
các màu đỏ và đen) và hai số 0 và 00 màu xanh lá cây
quay trong một cái bát cạn có thành cong. Một quả bóng
4. Một công ty nghiên cứu thị trường đã khảo sát người tiêu
nhỏ được quay ở mặt trong của bức tường và rơi vào một
dùng để xác định mức độ ưa thích của họ đối với nước
cái túi tương ứng với một trong các con số. Người chơi
tăng lực giữa các thương hiệu Monster, Red Bull và
có thể thực hiện 11 loại cược khác nhau bằng cách đặt
Rockstar.
chip vào các khu vực khác nhau của
Machine Translated by Google
174
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.36
Bố cục của một điển hình
Bàn Roulette
cái bàn. Chúng bao gồm đặt cược vào một số, hai số liền
b. Những kết quả này có loại trừ lẫn nhau không?
kề, một hàng ba số, một khối bốn số, hai hàng sáu số
c. Xác suất để một chuyến bay đến sớm hoặc đúng giờ là
liền kề và năm tổ hợp số 0, 00, 1, 2 và 3; cược vào các
bao nhiêu?
số 1–18 hoặc 19–36; nhóm 12 số thứ nhất, thứ hai, thứ ba;
cột 12 số; chẵn hoặc lẻ; và đỏ hoặc đen. Tiền chi trả
10. Một cuộc khảo sát 200 sinh viên tốt nghiệp đại học đã đi
khác nhau tùy theo đặt cược. Chẳng hạn, đặt cược một
làm ít nhất 3 năm cho thấy 90 người chỉ sở hữu quỹ tương
số trả 35 ăn 1 nếu thắng; đặt cược ba số trả 11 ăn 1;
hỗ, 20 người chỉ sở hữu cổ phiếu và 70 người sở hữu cả hai.
cược cột trả 2 ăn 1; và cược màu trả tiền chẵn.
Một. Xác suất mà một cá nhân sở hữu một cổ phiếu là gì?
Một quỹ tương hỗ?
b. Xác suất mà một cá nhân không sở hữu cổ phiếu hay quỹ
Xác định các sự kiện sau: C1 cột 1 số, C2 cột 2 số, C3
cột 3 số, O
số lẻ, E số chẵn, G số xanh, F12 12 số đầu tiên, S12 thứ
hai 12 số và T12 thứ ba 12 số.
Một. Tìm xác suất của mỗi sự kiện này.
b. Tìm P(G hoặc O), P(O hoặc F12), P(C1 hoặc C3), P(E và
F12), P(E hoặc F12), P(S12 và T12), P(O hoặc C2).
8. Học viên lớp mới MBA tại trường đại học công lập có hồ
sơ chuyên môn như sau:
tương hỗ là gì?
c. Xác suất mà một cá nhân sở hữu cổ phiếu hoặc quỹ tương
hỗ là gì?
11. Hàng 26 của tệp Excel Dữ liệu điều tra dân số giáo dục
đưa ra số lượng người có việc làm có trình độ học vấn
cụ thể.
Một. Tìm xác suất mà một người có việc làm đã đạt được
từng trình độ học vấn được liệt kê trong dữ liệu.
b. Giả sử A là biến cố “có ít nhất bằng cấp xã hội” và
B là biến cố “ít nhất là học sinh tốt nghiệp trung
Tài chính—67
học phổ thông”. Tìm xác suất của những sự kiện này.
Tiếp thị—45
Chúng có loại trừ lẫn nhau không? Tại sao hay tại
Quản lý hoạt động và chuỗi cung ứng—51
sao không? Tìm xác suất P(A hoặc B).
Hệ thống thông tin—18
Tìm xác suất để sinh viên đó học chuyên ngành tài chính
hoặc marketing. Chuyên môn hóa tài chính và chuyên môn
hóa tiếp thị của các sự kiện có loại trừ lẫn nhau không?
Nếu vậy, những gì giả định phải được thực hiện?
9. Một hãng hàng không theo dõi dữ liệu về các chuyến bay đến của
mình. Trong 6 tháng qua, trên một đường bay có 50 chuyến về
sớm, 150 chuyến về đúng giờ, 25 chuyến về muộn và 45 chuyến hủy.
Một. Xác suất mà một chuyến bay là sớm là gì? Kịp thời?
Muộn? Đã hủy?
12. Khảo sát về thói quen mua sắm cho thấy tỷ lệ người được
hỏi sử dụng công nghệ để mua sắm như trong Hình 5.37. Ví
dụ, 17,39% chỉ sử dụng phiếu giảm giá trực tuyến; 21,74%
sử dụng phiếu giảm giá trực tuyến và kiểm tra giá trực
tuyến trước khi mua sắm, v.v.
Một. Xác suất mà một người mua sắm sẽ kiểm tra giá trực
tuyến trước khi mua sắm là gì?
b. Xác suất mà một người mua sắm sẽ sử dụng một
điện thoại thông minh để tiết kiệm tiền?
c. Xác suất mà một người mua sắm sẽ sử dụng
phiếu giảm giá trực tuyến?
Machine Translated by Google
175
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
Hình 5.37
4,35%
Kiểm tra giá trực tuyến
trước khi mua sắm
21,74%
17,39%
17,39%
4,35%
Sử dụng trực tuyến
phiếu giảm giá
4,35%
4,35%
Sử dụng điện thoại thông minh
để tiết kiệm tiền
đ. Xác suất mà một người mua sắm sẽ không sử dụng là gì
Một. Tìm xác suất cận biên mà việc bán hàng bắt nguồn từ
mỗi khu vực trong số bốn khu vực và xác suất cận biên
bất kỳ công nghệ nào trong số này?
đ. Xác suất mà một người mua sắm sẽ kiểm tra giá trực tuyến và
sử dụng phiếu giảm giá trực tuyến nhưng không sử dụng điện
của từng loại bán hàng (sách hoặc DVD).
b. Tìm xác suất có điều kiện để bán một cuốn sách biết rằng
khách hàng cư trú ở mỗi khu vực.
thoại thông minh là gì?
f. Nếu một người mua sắm kiểm tra giá trực tuyến, xác suất
mà người đó sẽ sử dụng điện thoại thông minh là bao nhiêu?
g. Xác suất mà một người mua sắm sẽ kiểm tra là gì
liệu Điều tra Dân số Giáo dục để tìm những thông tin sau:
giá trực tuyến nhưng không sử dụng phiếu giảm giá trực tuyến hoặc điện thoại
thông minh?
trú của lớp sắp nhập học như sau:
học” có độc lập với nhau không?
16. Sử dụng dữ liệu trong tệp Excel Khảo sát về Giao thông vận
Giới tính Canada Hoa Kỳ Châu Âu Châu Á Khác
86
Nữ giới
24
số 8
c. P (không phải học sinh trung học thất nghiệp)
đ. Các sự kiện “thất nghiệp” và “ít nhất là tốt nghiệp trung
cư trú
Nam giới
Một. P (thất nghiệp và bằng cấp cao)
b. P (bằng cấp cao thất nghiệp)
13. Một trường kinh doanh ở Canada đã tóm tắt giới tính và nơi cư
123
15. Sử dụng dữ liệu Lực lượng Lao động Dân sự trong tệp Excel Dữ
17
10
tải của Người tiêu dùng, xây dựng bảng dự phòng cho Giới
52
số 8
73
4
tính và Phương tiện điều khiển; sau đó chuyển đổi bảng này
thành xác suất.
Một. Lập bảng xác suất chung.
Một. Xác suất mà người trả lời là nữ là gì?
b. Tính các xác suất cận biên.
b. Xác suất mà một người được hỏi lái một chiếc SUV là bao
c. Xác suất mà một sinh viên nữ đến từ bên ngoài Canada hoặc
c. Xác suất mà một người được hỏi là nam và lái một chiếc xe
Hoa Kỳ là gì?
14. Trong một ví dụ ở Chương 3, chúng tôi đã phát triển bảng chéo
Sách
đĩa DVD
Tổng cộng
56
42
98
c
43
42
85
Phía nam
62
37
99
Phía đông
Phi
a bă
tải nhỏ là bao nhiêu?
đ. Xác suất để một phụ nữ lái xe tải hoặc SUV là bao nhiêu?
dữ liệu giao dịch bán hàng dưới đây:
Vùng đất
nhiêu?
hướng Tây
100
90
190
Tổng cộng
261
211
472
đ. Nếu biết rằng một người lái ô tô, xác suất người đó là nữ
là bao nhiêu?
f. Nếu biết một người là nam giới, xác suất anh ta lái một
chiếc SUV là bao nhiêu?
g. Xác định xem các biến ngẫu nhiên “giới tính” và sự kiện
“điều khiển phương tiện” có phụ thuộc về mặt thống kê
hay không. Điều này có ý nghĩa gì đối với các nhà quảng cáo?
Machine Translated by Google
176
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
17. Que thử thai tại nhà không phải lúc nào cũng chính xác. Sup
đặt ra xác suất là 0,015 để xét nghiệm chỉ ra rằng một phụ
nữ đang mang thai trong khi thực tế thì cô ấy không mang
thai và xác suất là 0,025 để xét nghiệm chỉ ra rằng một phụ
nữ không mang thai khi thực tế là cô ấy mang thai. Giả sử
rằng xác suất để một phụ nữ làm bài kiểm tra thực sự có
thai là 0,7. Xác suất mà một phụ nữ mang thai là bao nhiêu
nếu xét nghiệm cho kết quả không mang thai?
18. Trong tình huống ở Bài toán 2, xác suất để rút được quân Át đầu
tiên theo sau là quân 2 là bao nhiêu? Điều này khác nhau như
thế nào nếu thẻ đầu tiên được thay thế trong bộ bài? Giải
thích rõ ràng những công thức bạn sử dụng và tại sao.
19. Trong ví dụ về roulette được mô tả ở Vấn đề 7, xác suất để
kết quả có màu xanh hai lần liên tiếp là bao nhiêu? Xác
suất để lần xuất hiện có màu đen hai lần liên tiếp là bao
Tìm giá trị kỳ vọng, phương sai và độ lệch chuẩn của nhu
cầu hàng tuần.
23. Xây dựng phân phối xác suất cho giá trị của một ván bài 2
quân được chia từ một bộ bài tiêu chuẩn gồm 52 quân bài (tất
cả các quân bài ngửa đều có giá trị là 10 và quân Át có giá
trị là 11).
Một. Xác suất để được xử lý 21 là gì?
b. Xác suất để được xử lý 16 là gì?
c. Xây dựng biểu đồ cho hàm phân phối tích lũy. Xác suất để
được xử lý 16 hoặc ít hơn là gì? Từ 12 đến 16? Từ 17
đến 20?
đ. Tìm giá trị kỳ vọng và độ lệch chuẩn của một ván bài 2
lá.
24. Dựa trên dữ liệu trong tệp Excel Khảo sát giao thông tiêu
dùng, hãy xây dựng hàm khối lượng xác suất và hàm phân phối
nhiêu?
20. Một công ty sản phẩm tiêu dùng phát hiện ra rằng 48% sản
phẩm thành công cũng nhận được kết quả thuận lợi từ nghiên
cứu thị trường thử nghiệm, trong khi 12% có kết quả không
thuận lợi nhưng vẫn thành công. Họ cũng phát hiện ra rằng
28% sản phẩm không thành công có kết quả nghiên cứu không
thuận lợi, trong khi 12% trong số đó có kết quả nghiên cứu
thuận lợi. Nghĩa là, P(sản phẩm thành công và thị trường
tích lũy (cả dạng bảng và dạng biểu đồ) cho biến ngẫu nhiên
Số trẻ em. Xác suất để một cá nhân trong cuộc khảo sát
này có ít hơn ba người con là bao nhiêu?
Ít nhất một đứa trẻ? Năm con trở lên?
25. Một ứng dụng chính của phân tích trong tiếp thị là xác định
mức độ tiêu hao của khách hàng. Giả sử rằng xác suất khách
thử nghiệm thuận lợi) 0,48, P(sản phẩm thành công và thị
hàng của một hãng vận tải đường dài chuyển sang một hãng
trường thử nghiệm không thuận lợi) 0,12, P(sản phẩm không
vận tải khác từ tháng này sang tháng khác là 0,12. Mô hình
thành công và thị trường thử nghiệm thuận lợi) 0,12, và
phân phối nào giữ chân một khách hàng cá nhân? Giá trị kỳ
P(sản phẩm không thành công và thị trường thử nghiệm không
vọng và độ lệch tiêu chuẩn là gì?
thuận lợi) 0,28. Tìm xác suất của các sản phẩm thành công
và không thành công với các kết quả thị trường thử nghiệm
đã biết.
26. Tệp Excel Dữ liệu Trung tâm cuộc gọi cho thấy rằng trong một
mẫu gồm 70 cá nhân, 27 người đã có kinh nghiệm về trung
21. Một nhà đầu tư ước tính rằng có 1/10 cơ hội mua cổ phiếu sẽ
mất 20% giá trị, 2/10 cơ hội hòa vốn, 4/10 cơ hội lãi 15%
và 3 trong 10 khả năng nó sẽ đạt được 30%. Lợi nhuận kỳ
tâm cuộc gọi trước đó. Nếu chúng ta giả định rằng xác suất
mà bất kỳ người được tuyển dụng tiềm năng nào cũng sẽ có
kinh nghiệm với xác suất là 27/70, xác suất mà trong số 10
người được tuyển dụng tiềm năng, hơn một nửa trong số họ sẽ
vọng dựa trên những ước tính này là gì?
có kinh nghiệm là bao nhiêu? Xác định (các) tham số cho
phân phối này dựa trên dữ liệu.
22. Nhu cầu hàng tuần của một sản phẩm luân chuyển chậm có hàm
khối lượng xác suất sau:
Yêu cầu,
tiếp thị qua điện thoại để tạo khách hàng mới và xác suất
có được khách hàng mới thành công là 0,07, thì xác suất
Xác suất, f( )
0
0,2
1
0,4
2
0,3
3
0,1
4 hoặc nhiều hơn
27. Nếu một công ty điện thoại di động tiến hành chiến dịch
0
liên hệ với 50 khách hàng tiềm năng sẽ dẫn đến ít nhất 5
khách hàng mới là bao nhiêu?
28. Trong 1 năm, một quỹ tương hỗ cụ thể đã hình thành tốt hơn
chỉ số S&P 500 33 trong 52 tuần. Tìm xác suất để hiệu suất
này hoặc tốt hơn sẽ xảy ra lần nữa.
29. Một khách sạn nghỉ dưỡng nổi tiếng có 300 phòng và thường
được đặt kín chỗ. Khoảng 6% thời gian đặt phòng bị hủy
trước thời hạn 6:00 chiều với
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
không bị phạt. Xác suất để ít nhất 280 phòng có
177
c. P16 6 x 6 102
người ở là bao nhiêu? Sử dụng phân phối nhị thức
đ. P18 6 x 6 112
để tìm giá trị chính xác.
30. Một tổng đài điện thoại nơi mọi người thực hiện các
cuộc gọi tiếp thị tới khách hàng có xác suất thành
công là 0,08. Người quản lý rất khắc nghiệt với
những người không nhận đủ số lượng cuộc gọi thành
công. Tìm số cuộc gọi cần thiết để đảm bảo rằng
xác suất nhận được 5 cuộc gọi thành công trở lên là 0,90.
31. Một chuyên gia tư vấn tài chính có trung bình 7 khách
hàng mà anh ta tư vấn mỗi ngày, những khách hàng này
được giả định là phân phối Poisson. Chi phí chung của
chuyên gia tư vấn yêu cầu anh ta phải tư vấn cho ít
nhất 5 khách hàng để phí đó trang trải chi phí. Tìm xác
suất của 0–10 khách hàng trong một ngày nhất định. Xác
suất mà ít nhất 5 khách hàng sẽ đặt lịch dịch vụ của anh ta là 34.
gì? Thời gian cần thiết để chơi một trò chơi Battleship™
32. Số lượng và tần suất của các cơn bão Đại Tây Dương hàng
năm từ năm 1940 đến năm 2012 được hiển thị ở đây.
được phân bổ đồng đều trong khoảng từ 15 đến 60 phút.
Một. Tìm giá trị kỳ vọng và phương sai của thời gian
để hoàn thành trò chơi.
Con số
Tính thường xuyên
b. Xác suất hoàn thành trong vòng 30 phút là bao
0
5
1
16
2
19
3
14
35. Một nhà thầu đã ước tính rằng số lượng tối thiểu
4
3
số ngày để sửa sang lại phòng tắm cho khách hàng
5
5
6
4
7
3
số 8
2
10
1
12
1
nhiêu?
c. Xác suất để trận đấu kéo dài hơn 40 phút là bao
nhiêu?
là 10 ngày. Ông cũng ước tính rằng 80% công việc
tương tự được hoàn thành trong vòng 18 ngày. Nếu
thời gian tu sửa được phân phối đều, tham số của
phân phối đều là bao nhiêu?
36. Khi xác định xếp hạng số dặm ô tô, người ta thấy
rằng mpg (X) cho một kiểu xe nhất định không được
phân phối chuẩn, với giá trị trung bình là 33 mpg
và độ lệch chuẩn là 1,7 mpg. Tìm theo dưới đây:
Một. Tìm xác suất của 0–12 cơn bão mỗi mùa bằng cách
sử dụng các dữ liệu này.
b. Giả sử phân phối Poisson và sử dụng số cơn bão
Một. P1X 6 302
b. P128 6 X 6 322
trung bình mỗi mùa từ dữ liệu thực nghiệm, tính
c. P1X 7 352
xác suất trải qua 0–12 cơn bão trong một mùa.
đ. P1X 7 312
So sánh những điều này với câu trả lời của bạn
đ. Xếp hạng quãng đường mà 5% ô tô trên đạt được.
cho phần (a). Làm thế nào tốt làm một mô hình
phân phối Poisson hiện tượng này?
Xây dựng một biểu đồ để trực quan hóa những kết quả này.
33. Xác minh rằng hàm tương ứng với hình dưới đây là hàm
mật độ xác suất hợp lệ.
Sau đó tìm các xác suất sau:
Một. P1x 6 82
b. P1x 7 72
37. Phân phối điểm SAT môn toán của một sinh viên kinh
doanh sắp vào lớp có trung bình là 590 và độ lệch
chuẩn là 22. Giả sử rằng điểm số được phân phối
chuẩn.
Một. Tìm xác suất để điểm SAT của một cá nhân thấp
hơn 550.
b. Tìm xác suất để điểm SAT của một cá nhân nằm
trong khoảng từ 550 đến 600.
Machine Translated by Google
178
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
c. Tìm xác suất để điểm SAT của một cá nhân
điểm lớn hơn 620.
đ. Bao nhiêu phần trăm học sinh sẽ đạt điểm cao hơn 700?
quy trình của bạn trên bảng tính và sử dụng hàm VLOOKUP
để lấy mẫu 10 kết quả từ phân phối.
44. Xây dựng quy trình lấy mẫu từ phân phối xác suất của bài
toán 2. Thực hiện quy trình của bạn trên bảng tính và sử
đ. Tìm các giá trị tiêu chuẩn cho học sinh đạt điểm 550,
dụng hàm VLOOKUP để lấy mẫu 20 kết quả từ phân phối.
600, 650 và 700 trong bài kiểm tra.
38. Một loại nước giải khát phổ biến được bán trong chai 2
45. Sử dụng công thức (5.23) để lấy mẫu gồm 25 kết quả cho
lít (2.000 ml). Do sự thay đổi trong quy trình chiết rót,
trò chơi Battleship™ như được mô tả trong Bài toán 34.
các chai có thể tích trung bình là 2.000 ml và độ lệch
Tìm trung bình và độ lệch chuẩn cho 25 kết quả này.
chuẩn là 20, có phân phối chuẩn.
Một. Nếu quá trình làm đầy chai hơn 50 ml, tràn sẽ gây
ra sự cố cho máy. xác suất của điều này xảy ra là gì?
46. Sử dụng công cụ Tạo số ngẫu nhiên của Excel để tạo ra
100 mẫu số lượng khách hàng mà nhà tư vấn tài chính trong
Bài toán 31 sẽ có hàng ngày. Bao nhiêu phần trăm sẽ đạt
được mục tiêu ít nhất là 5?
b. Xác suất làm đầy các chai là bao nhiêu
ít nhất 30 ml?
39. Hợp đồng với nhà cung cấp yêu cầu kích thước chính của một
bộ phận nằm trong khoảng từ 1,96 đến 2,04 cm. Nhà cung
47. Một công thức trong phân tích tài chính là: Tỷ suất lợi
nhuận ròng trên vốn chủ sở hữu * vòng quay tổng tài
sản * hệ số nhân vốn chủ sở hữu. Giả sử rằng hệ số vốn
chủ sở hữu cố định ở mức 4,0, nhưng tỷ suất lợi nhuận
cấp đã xác định rằng độ lệch chuẩn của quy trình của họ,
ròng được phân phối bình thường với trung bình là 3,8%
có phân phối chuẩn, là 0,04 cm.
và độ lệch chuẩn là 0,4%, và vòng quay tổng tài sản được
Một. Nếu giá trị trung bình thực tế của quy trình là 1,98, thì phần
phân phối chuẩn với trung bình là 1,5 và độ lệch chuẩn
nào của các bộ phận sẽ đáp ứng các thông số kỹ thuật?
b. Nếu giá trị trung bình được điều chỉnh thành 2,00, phần nào của
các bộ phận sẽ đáp ứng thông số kỹ thuật?
c. Độ lệch chuẩn phải nhỏ đến mức nào để đảm bảo rằng
không quá 2% các bộ phận không hình thành, giả sử
giá trị trung bình là 2,00?
40. Dữ liệu lịch sử cho thấy những khách hàng tải nhạc từ một
dịch vụ Web phổ biến chi tiêu xấp xỉ 26 đô la mỗi tháng,
với độ lệch chuẩn là 4 đô la. Tìm xác suất mà một khách
hàng sẽ chi tiêu ít nhất $20 mỗi tháng. 10 phần trăm khách
hàng hàng đầu chi bao nhiêu (hoặc nhiều hơn)?
41. Một bóng đèn được bảo hành trong 5.000 giờ. Nếu thời gian
dẫn đến hỏng hóc được phân phối theo cấp số nhân với giá
trị trung bình thực là 4.750 giờ, xác suất để nó kéo dài
ít nhất 5.000 giờ là bao nhiêu?
42. Thời gian giao hàng thực tế từ Giodanni's Pizza được phân
phối theo cấp số nhân với trung bình là 20 phút.
Một. Xác suất mà thời gian giao hàng sẽ vượt quá 30 phút
0,2. Thiết lập và tiến hành một thử nghiệm lấy mẫu để
tìm ra sự phân phối của lợi nhuận trên vốn chủ sở hữu.
Hiển thị kết quả của bạn dưới dạng biểu đồ để giúp làm
rõ phân tích và kết luận của bạn. Sử dụng các quy tắc
thực nghiệm để dự đoán tỷ suất sinh lợi trên vốn chủ sở hữu.
48. Một cơ quan chính phủ đang đưa ra một dự án lớn với giá
thầu thấp. Giá thầu dự kiến từ 10 nhà thầu khác nhau và sẽ
có phân phối bình thường với giá trị trung bình là 3,5
triệu đô la và độ lệch chuẩn là 0,25 triệu đô la. Xây
dựng và thực hiện một thử nghiệm lấy mẫu để ước tính
phân bổ của giá thầu tối thiểu mẹ và giá trị dự kiến của
giá thầu tối thiểu.
49. Sử dụng Nền tảng Bộ giải Phân tích để điều chỉnh dữ liệu
cơn bão trong Bài toán 32 thành một bản phân phối rời
rạc? Phân phối Poisson có phù hợp nhất không?
50. Sử dụng Nền tảng bộ giải phân tích để điều chỉnh phân
phối cho dữ liệu trong tệp Excel Thời gian sửa chữa máy tính.
Hãy thử ba biện pháp thống kê khác nhau để đánh giá mức
độ phù hợp và xem liệu chúng có dẫn đến các phân phối phù
hợp nhất khác nhau hay không.
là gì?
b. Tỷ lệ giao hàng sẽ được hoàn thành trong vòng 20 phút
là bao nhiêu?
43. Xây dựng quy trình lấy mẫu từ phân phối xác suất của các
lựa chọn nước giải khát trong Bài toán 1. Thực hiện
51. Tệp Excel Báo cáo đầu tư cung cấp dữ liệu mẫu về lợi nhuận
hàng năm của S&P 500 và lợi nhuận hàng tháng của danh mục
đầu tư chứng khoán và danh mục đầu tư trái phiếu. Xây
dựng biểu đồ cấu trúc cho từng tập dữ liệu và sử dụng Nền
tảng bộ giải phân tích để tìm phân phối phù hợp nhất.
Machine Translated by Google
Chương 5 Phân phối xác suất và mô hình hóa dữ liệu
179
Trường hợp: Hiệu suất Lawn Thiết bị
PLE thu thập nhiều loại dữ liệu từ các nghiên cứu đặc biệt, nhiều
5. Giả sử rằng dữ liệu là bình thường, khả năng trọng lượng
dữ liệu trong số đó có liên quan đến chất lượng sản phẩm của công
lưỡi cắt từ quy trình này sẽ vượt quá 5,20 là bao nhiêu?
ty. Công ty thu thập dữ liệu về hoạt động kiểm tra chức năng của
máy cắt sau khi lắp ráp; kết quả của 30 ngày qua được đưa ra trong
bảng tính Mower Test. Ngoài ra, nhiều phép đo trong quy trình được
6. Xác suất để trọng số nhỏ hơn 4,80 là bao nhiêu?
thực hiện để đảm bảo rằng các quy trình sản xuất vẫn nằm trong tầm
kiểm soát và có thể sản xuất theo thông số kỹ thuật thiết kế. Bảng
tính Trọng lượng lưỡi dao hiển thị 350 phép đo trọng lượng lưỡi
cắt được lấy từ quy trình sản xuất tạo ra các lưỡi cắt trong ca
làm việc gần đây nhất. Elizabeth Burke đã yêu cầu bạn nghiên cứu
những dữ liệu này từ góc độ phân tích. Dựa trên kinh nghiệm của
bạn, bạn đã phát triển một số câu hỏi.
7. Tỷ lệ phần trăm thực tế của các trọng số vượt quá 5,20 hoặc
nhỏ hơn 4,80 so với dữ liệu trong trang tính là bao nhiêu?
8. Quá trình làm cho cánh quạt có bền theo thời gian không?
Đó là, có bất kỳ thay đổi rõ ràng nào trong mô hình trọng
lượng của lưỡi kiếm không?
9. Có bất kỳ trọng lượng lưỡi nào được coi là ngoại lệ không,
1. Đối với dữ liệu thử nghiệm máy cắt, phân phối nào có thể
phù hợp để mô hình hóa lỗi của từng máy cắt?
2. Phần nào máy cắt không đạt yêu cầu kiểm tra hiệu suất chức
năng khi sử dụng tất cả dữ liệu kiểm tra máy cắt?
3. Xác suất xảy ra lỗi x trong 100 máy cắt tiếp theo được thử
nghiệm, với x từ 0 đến 20 là bao nhiêu?
4. Trọng lượng lưỡi dao trung bình là bao nhiêu và mức độ biến
thiên xảy ra khi đo trọng lượng lưỡi dao là bao nhiêu?
điều này có thể cho thấy có vấn đề với quy trình sản xuất
hoặc vật liệu?
10. Có phải giả định rằng trọng lượng cánh quạt được phân phối
chuẩn không? Phân phối khả năng xác suất phù hợp nhất cho
dữ liệu là gì?
Tóm tắt tất cả những phát hiện của bạn cho những câu hỏi này trong một
báo cáo bằng văn bản.
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
lấy mẫu và
Ước lượng
CHƯƠNG
KALABUKHAVA IRYNA/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Mô tả các yếu tố của kế hoạch lấy mẫu.
Sử dụng lỗi tiêu chuẩn trong tính toán xác suất.
Giải thích sự khác biệt giữa lấy mẫu chủ quan và xác
Giải thích ước lượng khoảng khác với ước lượng điểm như thế nào.
suất.
Nêu hai loại lấy mẫu chủ quan.
Định nghĩa và cho ví dụ về khoảng tin cậy.
Giải thích cách tiến hành lấy mẫu ngẫu nhiên đơn giản và sử
Tính khoảng tin cậy cho trung bình và tỷ lệ dân số bằng cách sử
dụng Excel để tìm mẫu ngẫu nhiên đơn giản từ cơ sở dữ liệu Excel.
dụng các công thức trong chương này và các hàm Excel thích hợp.
Giải thích việc lấy mẫu theo hệ thống, phân tầng và theo cụm cũng
Giải thích khoảng tin cậy thay đổi như thế nào khi mức độ tin cậy
như lấy mẫu từ một quy trình liên tục.
tăng hoặc giảm.
Giải thích tầm quan trọng của ước lượng không chệch.
Mô tả sự khác biệt giữa -distribution
Mô tả sự khác biệt giữa lỗi lấy mẫu và lỗi không lấy mẫu.
và phân phối chuẩn.
Sử dụng khoảng tin cậy để rút ra kết luận về
Giải thích giá trị trung bình, độ lệch chuẩn và phân phối trung
thông số dân số.
bình của các mẫu thay đổi như thế nào khi cỡ mẫu tăng lên.
Tính khoảng dự đoán và giải thích nó khác với khoảng tin cậy như thế nào.
Xác định phân phối lấy mẫu của giá trị trung bình.
Tính toán kích thước mẫu cần thiết để đảm bảo khoảng tin cậy cho phương
Tính sai số chuẩn của giá trị trung bình.
tiện và tỷ lệ với biên độ sai số được chỉ định.
Giải thích tầm quan trọng thực tế của định lý giới hạn trung tâm.
181
Machine Translated by Google
182
Chương 6 Lấy mẫu và ước lượng
Chúng ta đã thảo luận về sự khác biệt giữa dân số và mẫu trong Chương 4. Lấy mẫu là nền tảng
của phân tích thống kê. Chúng tôi sử dụng dữ liệu mẫu trong các ứng dụng phân tích kinh
doanh cho nhiều mục đích. Ví dụ: chúng ta có thể muốn ước tính giá trị trung bình, phương
sai hoặc tỷ lệ của một tổng thể rất lớn hoặc chưa biết; cung cấp các giá trị cho đầu vào
trong các mô hình quyết định; hiểu sự hài lòng của khách hàng; đưa ra kết luận về chiến lược
bán hàng nào hiệu quả hơn; hoặc hiểu nếu một thay đổi trong một quy trình dẫn đến một sự
cải tiến. Trong chương này, chúng ta thảo luận về các phương pháp lấy mẫu, cách chúng được
sử dụng để ước tính các tham số tổng thể và cách chúng ta có thể đánh giá sai số vốn có
trong việc lấy mẫu.
Lấy mẫu thống kê
Bước đầu tiên trong lấy mẫu là thiết kế một kế hoạch lấy mẫu hiệu quả để thu được các mẫu
đại diện cho tổng thể đang nghiên cứu. Kế hoạch lấy mẫu là một mô tả về phương pháp được sử
dụng để lấy mẫu từ tổng thể trước bất kỳ hoạt động thu thập dữ liệu nào. Kế hoạch lấy mẫu
nêu rõ
mục tiêu của hoạt động lấy mẫu,
dân số mục tiêu,
khung dân số (danh sách mà mẫu được chọn), phương pháp lấy mẫu,
các thủ tục hoạt động để thu thập dữ liệu, và
các công cụ thống kê sẽ được sử dụng để phân tích dữ liệu.
VÍ DỤ 6.1 Kế hoạch lấy mẫu cho nghiên cứu thị trường
Giả sử một công ty muốn tìm hiểu xem những người chơi gôn có
đã mua thiết bị từ các công ty sản xuất đồ thể thao hoặc gôn
thể phản ứng thế nào với chương trình thành viên cung cấp các
quốc gia thông qua đó thẻ giảm giá sẽ được bán. Các quy trình
khoản giảm giá tại các sân gôn ở địa phương của những người
hoạt động để thu thập dữ liệu có thể là liên kết e-mail đến
chơi gôn cũng như trên toàn quốc. Mục tiêu của một nghiên cứu
địa điểm khảo sát hoặc bảng câu hỏi gửi trực tiếp qua thư. Dữ
lấy mẫu có thể là ước tính tỷ lệ người chơi gôn có khả năng
liệu có thể được lưu trữ trong cơ sở dữ liệu Excel; các công
sẽ đăng ký chương trình này. Đối tượng mục tiêu có thể là tất
cụ thống kê như PivotTable và thống kê mô tả đơn giản sẽ được
cả những người chơi gôn trên 25 tuổi. Tuy nhiên, việc xác định
sử dụng để phân chia những người phản hồi thành các nhóm nhân
tất cả các tay golf ở Mỹ có thể là điều không thể.
khẩu học khác nhau và ước tính khả năng phản hồi tích cực của
Khung dân số thực tế có thể là danh sách những người chơi gôn
họ.
Phương pháp xét nghiệm
Nhiều loại phương pháp lấy mẫu tồn tại. Phương pháp lấy mẫu có thể chủ quan hoặc xác suất.
Các phương pháp chủ quan bao gồm lấy mẫu phán đoán, trong đó phán đoán của chuyên gia được
sử dụng để chọn mẫu (khảo sát những khách hàng “tốt nhất”) và lấy mẫu thuận tiện, trong đó
các mẫu được chọn dựa trên mức độ dễ dàng mà dữ liệu có thể được thu thập (khảo sát tất cả
các khách hàng tình cờ đến thăm trong tháng này). Lấy mẫu xác suất liên quan đến việc lựa chọn các
Machine Translated by Google
183
Chương 6 Lấy mẫu và ước lượng
Hình 6.1
Hộp thoại Công cụ lấy mẫu Excel
các mục trong mẫu bằng cách sử dụng một số thủ tục ngẫu nhiên. Lấy mẫu xác suất là cần thiết
để rút ra kết luận thống kê hợp lệ.
Phương pháp lấy mẫu xác suất phổ biến nhất là lấy mẫu ngẫu nhiên đơn giản. Lấy mẫu ngẫu
nhiên đơn giản liên quan đến việc chọn các mục từ tổng thể sao cho mọi tập hợp con của một kích
thước nhất định đều có cơ hội được chọn như nhau. Nếu dữ liệu về dân số được lưu trữ trong một cơ
sở dữ liệu, nhìn chung có thể dễ dàng lấy được các mẫu ngẫu nhiên đơn giản.
VÍ DỤ 6.2 Lấy mẫu ngẫu nhiên đơn giản bằng Excel
Giả sử rằng chúng tôi muốn lấy mẫu từ cơ sở dữ liệu Excel Giao
quan sát từ đầu của tập dữ liệu.
dịch bán hàng. Excel cung cấp một công cụ để tạo một tập hợp
Chẳng hạn, nếu sử dụng khoảng thời gian 5, các quan sát
giá trị ngẫu nhiên từ một kích thước dân số nhất định. Bấm vào
5, 10, 15, v.v. sẽ được chọn làm mẫu.
Phân tích dữ liệu trong nhóm Phân tích của tab Dữ liệu và chọn
Lấy mẫu. Thao tác này sẽ mở hộp thoại như trong Hình 6.1. Trong
2. Việc lấy mẫu cũng có thể là ngẫu nhiên và chúng tôi sẽ
được nhắc về Số lượng mẫu. Sau đó, Excel sẽ chọn ngẫu
hộp Phạm vi đầu vào, chúng tôi chỉ định phạm vi dữ liệu mà
nhiên số lượng mẫu này từ tập dữ liệu đã chỉ định. Tuy
mẫu sẽ được lấy. Công cụ này yêu cầu dữ liệu được lấy mẫu phải
nhiên, công cụ này tạo ra các mẫu ngẫu nhiên có thay
ở dạng số, vì vậy, trong ví dụ này, chúng tôi lấy mẫu từ cột
thế, vì vậy chúng ta phải cẩn thận kiểm tra các quan
đầu tiên của tập dữ liệu, tương ứng với số ID khách hàng. Có
sát trùng lặp trong mẫu được tạo.
hai lựa chọn để lấy mẫu:
Hình 6.2 cho thấy 20 mẫu do công cụ tạo ra.
Chúng tôi đã sắp xếp chúng theo thứ tự tăng dần để dễ dàng xác định
1. Việc lấy mẫu có thể định kỳ và chúng tôi sẽ được nhắc về
Khoảng thời gian, là khoảng thời gian giữa các lần lấy mẫu
các mục trùng lặp. Như bạn có thể thấy, hai trong số các khách hàng
đã được sao chép bởi công cụ này.
Các phương pháp lấy mẫu khác bao gồm:
Lấy mẫu có hệ thống (định kỳ). Lấy mẫu có hệ thống hoặc định kỳ là một kế
hoạch lấy mẫu (một trong các tùy chọn trong công cụ Lấy mẫu của Excel) chọn
mọi mục thứ n từ tổng thể. Ví dụ: để lấy mẫu 250 tên từ danh sách 400.000, tên
đầu tiên có thể được chọn ngẫu nhiên từ 1.600 tên đầu tiên, sau đó có thể chọn mọi
tên thứ 1.600. Phương pháp này có thể được sử dụng để lấy mẫu điện thoại khi được
hỗ trợ bởi một trình quay số tự động được lập trình để quay số một cách có hệ
thống. Tuy nhiên, lấy mẫu hệ thống không giống nhau
Machine Translated by Google
184
Chương 6 Lấy mẫu và ước tính
Hình 6.2
Các mẫu được tạo bằng Công
cụ lấy mẫu Excel
là lấy mẫu ngẫu nhiên đơn giản bởi vì đối với bất kỳ mẫu nào, mọi mẫu có thể có của
một kích thước nhất định trong dân số không có cơ hội được chọn như nhau. Trong một số
tình huống, cách tiếp cận này có thể gây ra sai lệch đáng kể nếu dân số có một số mẫu
cơ bản. Chẳng hạn, các đơn đặt hàng lấy mẫu nhận được 7 ngày một lần có thể không
mang lại mẫu đại diện nếu khách hàng có xu hướng gửi đơn đặt hàng vào một số ngày nhất
định mỗi tuần.
Lấy mẫu phân tầng. Lấy mẫu phân tầng áp dụng cho các quần thể được chia thành các
tập hợp con tự nhiên (được gọi là tầng) và phân bổ tỷ lệ mẫu thích hợp cho từng tầng.
Ví dụ, một thành phố lớn có thể được chia thành các quận chính trị được gọi là phường.
Mỗi phường có số lượng công dân khác nhau.
Một mẫu phân tầng sẽ chọn một mẫu gồm các cá nhân trong mỗi phường tương ứng với
quy mô của nó. Cách tiếp cận này đảm bảo rằng mỗi tầng được tính trọng số theo quy mô
của nó so với tổng thể và có thể mang lại kết quả tốt hơn so với lấy mẫu ngẫu nhiên
đơn giản nếu các mục trong mỗi tầng không đồng nhất. Tuy nhiên, các vấn đề về chi phí
hoặc tầm quan trọng của các tầng nhất định có thể làm cho một mẫu không cân xứng trở
nên hữu ích hơn. Ví dụ, sự pha trộn dân tộc hoặc chủng tộc của mỗi phường có thể khác
nhau đáng kể, gây khó khăn cho một mẫu phân tầng để có được thông tin mong muốn.
Lấy mẫu cụm. Lấy mẫu theo cụm dựa trên việc chia dân số thành các nhóm nhỏ (cụm), lấy
mẫu một tập hợp các cụm và (thường) tiến hành điều tra dân số hoàn chỉnh trong các cụm
được lấy mẫu. Chẳng hạn, một công ty có thể phân khúc khách hàng của mình thành các
khu vực địa lý nhỏ. Một mẫu cụm sẽ bao gồm một mẫu ngẫu nhiên của các khu vực địa lý
và tất cả khách hàng trong các khu vực này sẽ được khảo sát (điều này có thể dễ
dàng hơn vì danh sách khu vực có thể dễ dàng tạo và gửi thư hơn).
Lấy mẫu từ một quá trình liên tục. Chọn một mẫu từ quá trình sản xuất liên tục của con
người có thể được thực hiện theo hai cách chính. Đầu tiên, chọn một thời điểm ngẫu
nhiên; sau đó chọn n mặt hàng tiếp theo được sản xuất sau thời gian đó. Thứ hai,
chọn ngẫu nhiên n lần; sau đó chọn mục tiếp theo được sản xuất sau mỗi khoảng thời gian này.
Cách tiếp cận đầu tiên thường đảm bảo rằng các quan sát sẽ đến từ một quần thể đồng
loại; tuy nhiên, cách tiếp cận thứ hai có thể bao gồm các mục từ các quần thể khác
nhau nếu các đặc điểm của quy trình sẽ thay đổi theo thời gian, vì vậy cần thận
trọng khi sử dụng.
Machine Translated by Google
185
Chương 6 Lấy mẫu và ước tính
Phân tích trong thực tế: Sử dụng kỹ thuật lấy mẫu
để cải thiện phân phối1
Các nhà máy bia của Hoa Kỳ dựa vào hệ thống phân phối ba
cấp để phân phối sản phẩm đến các cửa hàng bán lẻ, chẳng
hạn như siêu thị và cửa hàng tiện lợi, cũng như các đại
lý tại chỗ, chẳng hạn như quán bar và nhà hàng. Ba tầng là
nhà sản xuất, nhà bán buôn (nhà phân phối) và nhà bán lẻ.
Một mạng lưới phân phối phải hiệu quả và tiết kiệm chi phí
nhất có thể để cung cấp cho thị trường một sản phẩm mới
không bị hư hỏng và được giao đúng nơi, đúng thời điểm.
Để hiểu hiệu suất của nhà phân phối liên quan đến
hiệu quả tổng thể, nhà máy bia MillerCoors đã xác định bảy
thuộc tính của việc phân phối phù hợp và thu thập dữ liệu
từ 500 nhà phân phối của mình. Chuyên gia chất lượng hiện
trường (FQS) kiểm tra các nhà phân phối trong một khu vực
được chỉ định của quốc gia và thu thập dữ liệu về các
thuộc tính này. FQS sử dụng một thiết bị cầm tay để quét
Stephen
Finn/
Shutterstock.com
mã sản phẩm chung trên mỗi gói hàng để xác định loại và số
lượng sản phẩm. Khi quá trình kiểm tra hoàn tất, dữ liệu
được tổng hợp và tải lên từ thiết bị cầm tay vào cơ sở dữ
liệu chính.
Việc kiểm tra nhà phân phối này sử dụng lấy mẫu ngẫu
nhiên phân tầng với sự phân bổ mẫu theo tỷ lệ dựa trên thị
phần của nhà phân phối. Ngoài việc cung cấp mẫu đại diện
Việc ngẫu nhiên hóa các tài khoản bán lẻ đạt được
thông qua một chương trình được thiết kế đặc biệt dựa trên
hơn và kiểm soát hậu cần tốt hơn đối với lấy mẫu, lấy mẫu
vị trí GPS của nhà phân phối và các tài khoản bán lẻ được
ngẫu nhiên phân tầng nâng cao độ chính xác thống kê khi
phục vụ. Cuối cùng, chiến lược lấy mẫu đề cập đến hiệu
dữ liệu được tổng hợp theo khu vực thị trường mà nhà phân
suất của một nhà phân phối cụ thể liên quan đến sản phẩm
phối phục vụ.
không đúng mã, sản phẩm bị hư hỏng và sản phẩm không còn
Độ chính xác nâng cao này là kết quả của các khu vực thị
luân chuyển ở cấp độ bán lẻ. Nói chung, hơn 6.000 tài khoản
trường nhỏ hơn và thường đồng nhất, có thể cung cấp các
bán lẻ quốc gia của nhà máy bia được kiểm toán trong một
ước tính thực tế về tính biến thiên, đặc biệt là khi so
năm lấy mẫu. Dữ liệu do các FQS thu thập trong năm được sử
sánh với một khu vực thị trường khác biệt rõ rệt.
dụng để xây dựng bảng xếp hạng hiệu suất của các nhà phân
phối và xác định các cơ hội để cải thiện.
Ước tính các tham số dân số
Dữ liệu mẫu cung cấp cơ sở cho nhiều phân tích hữu ích để hỗ trợ việc ra quyết định. Ước
tính liên quan đến việc đánh giá giá trị của một tham số dân số chưa biết—chẳng hạn như
trung bình dân số, tỷ lệ dân số hoặc phương sai dân số—sử dụng dữ liệu mẫu. Công cụ ước
tính là các biện pháp được sử dụng để ước tính các tham số dân số; ví dụ: chúng tôi sử
dụng giá trị trung bình mẫu x để ước tính giá trị trung bình tổng thể m. Phương sai
2,
mẫu s2 ước tính phương sai tổng thể và tỷ lệ mẫu p ước tính tỷ lệ dân số . Ước tính điểm
là một số duy nhất được lấy từ dữ liệu mẫu được sử dụng để ước tính giá trị của tham số tổng thể.
1Dựa trên Tony Gojanovic và Ernie Jimenez, “Sự thức tỉnh của nhà sản xuất bia: Nhà sản xuất bia sử dụng các phương pháp
thống kê để cải thiện cách phân phối sản phẩm của mình,” Tiến độ chất lượng (tháng 4 năm 2010).
Machine Translated by Google
186
Chương 6 Lấy mẫu và ước tính
Công cụ ước tính không thiên vị
Có vẻ khá trực quan rằng giá trị trung bình của mẫu sẽ cung cấp một ước tính điểm tốt
cho giá trị trung bình của tổng thể. Tuy nhiên, có thể không rõ tại sao công thức
phương sai mẫu mà chúng tôi giới thiệu trong Chương 4 lại có mẫu số n - 1, đặc biệt
là vì nó khác với công thức phương sai tổng thể (xem công thức (4.4) và (4.5). )
trong Chương 4). Trong các công thức này, phương sai dân số được tính bằng
N
2
Một 1xi - m22
tôi 1
N
trong khi phương sai mẫu được tính theo công thức
N
Một 1xi - x22
s2
tôi 1
n - 1
Tại sao cái này rất? Các nhà thống kê phát triển nhiều loại công cụ ước tính, và
từ góc độ lý thuyết cũng như góc độ thực tế, điều quan trọng là họ phải “ước tính thực
sự” các thông số dân số mà họ phải ước tính. Giả sử rằng chúng ta thực hiện một thử
nghiệm trong đó chúng ta lấy mẫu lặp đi lặp lại từ một tổng thể và tính toán ước tính
điểm cho một tham số tổng thể. Mỗi ước tính điểm riêng lẻ sẽ khác với tham số dân số;
tuy nhiên, chúng tôi hy vọng rằng giá trị trung bình dài hạn (giá trị kỳ vọng) của tất
cả các ước tính điểm khả thi sẽ bằng tham số dân số. Nếu giá trị kỳ vọng của một công cụ
ước tính bằng với tham số dân số mà nó dự định ước tính, thì công cụ ước tính đó được
gọi là không chệch. Nếu điều này không đúng, công cụ ước tính được gọi là sai lệch và sẽ
không cung cấp kết quả chính xác.
May mắn thay, tất cả các công cụ ước tính mà chúng tôi đã giới thiệu đều không chệch và
do đó, có ý nghĩa đối với việc đưa ra các quyết định liên quan đến tham số tổng thể. Đặc biệt,
các nhà thống kê đã chỉ ra rằng mẫu số n - 1 được sử dụng trong tính toán s2 là cần thiết để
2
cung cấp một ước lượng không chệch của . Nếu chúng ta chỉ chia cho số lượng quan sát, công cụ
ước tính sẽ có xu hướng đánh giá thấp phương sai thực sự.
Lỗi trong ước tính điểm
Một trong những nhược điểm của việc sử dụng ước lượng điểm là chúng không cung cấp bất kỳ
dấu hiệu nào về độ lớn của lỗi tiềm ẩn trong ước lượng. Một tờ báo lớn của thành phố đưa tin
rằng, dựa trên cuộc khảo sát của Cục Thống kê Lao động, các giáo sư đại học là những người
được trả lương cao nhất trong khu vực, với mức lương trung bình là 150.004 USD. Độ tuổi
trung bình thực tế của hai trường đại học địa phương là dưới 70.000 đô la. Chuyện gì đã xảy
ra thế? Như đã báo cáo trong một câu chuyện tiếp theo, cỡ mẫu rất nhỏ và bao gồm một số
lượng lớn các giảng viên trường y được trả lương cao; kết quả là, có một lỗi đáng kể trong
ước tính điểm đã được sử dụng.
Khi chúng tôi lấy mẫu, các công cụ ước tính mà chúng tôi sử dụng—chẳng hạn như trung bình
mẫu, tỷ lệ mẫu hoặc phương sai mẫu—thực ra là các biến ngẫu nhiên được đặc trưng bởi một số
phân phối. Bằng cách biết phân phối này là gì, chúng ta có thể sử dụng lý thuyết xác suất để
định lượng độ không chắc chắn liên quan đến công cụ ước tính. Để hiểu điều này, trước tiên chúng
ta cần thảo luận về lỗi lấy mẫu và phân phối lấy mẫu.
Machine Translated by Google
187
Chương 6 Lấy mẫu và ước tính
Lỗi lấy mẫu
Trong Chương 4, chúng ta đã quan sát thấy rằng các mẫu khác nhau từ cùng một tổng thể
có các đặc điểm khác nhau—ví dụ, sự thay đổi về giá trị trung bình, độ lệch chuẩn,
phân bố tần suất, v.v. Lỗi lấy mẫu (thống kê) xảy ra do các mẫu chỉ là một tập hợp con
của tổng dân số. Lỗi lấy mẫu là cố hữu trong bất kỳ quy trình lấy mẫu nào và mặc dù
có thể giảm thiểu nhưng không thể tránh hoàn toàn. Một loại lỗi khác, được gọi là lỗi
không lấy mẫu, xảy ra khi mẫu không đại diện đầy đủ cho dân số mục tiêu. Đây thường là
kết quả của việc thiết kế mẫu kém, chẳng hạn như sử dụng mẫu thuận tiện khi mẫu ngẫu
nhiên đơn giản sẽ phù hợp hơn hoặc chọn sai khung dân số. Nó cũng có thể là kết quả
của độ tin cậy của dữ liệu không tương đương, mà chúng ta đã thảo luận trong Chương
1. Để rút ra kết luận tốt từ các mẫu, các nhà phân tích cần loại bỏ lỗi không lấy mẫu
và hiểu bản chất của lỗi lấy mẫu.
Sai số lấy mẫu phụ thuộc vào kích thước của mẫu so với tổng thể. Do đó, việc xác
định số lượng mẫu cần lấy thực chất là một vấn đề thống kê dựa trên độ chính xác của
các ước tính cần thiết để rút ra kết luận hữu ích. Chúng ta sẽ thảo luận điều này sau
trong chương này. Tuy nhiên, từ quan điểm thực tế, người ta cũng phải xem xét chi phí
lấy mẫu và đôi khi đánh đổi giữa chi phí và thông tin thu được.
Hiểu lỗi lấy mẫu
Giả sử rằng chúng ta ước tính giá trị trung bình của tổng thể bằng cách sử dụng giá trị trung bình mẫu.
Làm thế nào chúng ta có thể xác định mức độ chính xác của chúng ta? Nói cách khác, chúng ta có thể đưa ra
một tuyên bố có căn cứ về việc trung bình mẫu có thể cách trung bình dân số thực bao xa không? Chúng ta
có thể hiểu rõ hơn về câu hỏi này bằng cách thực hiện một thử nghiệm lấy mẫu.
VÍ DỤ 6.3 Thí nghiệm lấy mẫu
Chúng ta hãy chọn một tổng thể có phân bố đồng đều giữa a = 0 và b =
và AB13). Lưu ý rằng giá trị trung bình của tất cả các phương tiện
10. Công thức (5.17) và (5.18) cho biết giá trị kỳ vọng là 10 + 102
mẫu khá gần với giá trị trung bình thực của tổng thể là 5,0.
2 = 5 và phương sai là (10
0)2 12 = 8,333. Chúng tôi sử dụng công
cụ Tạo số ngẫu nhiên của Excel được mô tả trong Chương 5 để tạo 25
Bây giờ chúng ta hãy lặp lại thí nghiệm này với cỡ mẫu lớn hơn.
Bảng 6.1 cho thấy một số kết quả. Lưu ý rằng khi cỡ mẫu lớn hơn, giá
mẫu, mỗi mẫu có kích thước 10 từ tập hợp này. Hình 6.3 cho thấy một
trị trung bình của 25 phương tiện mẫu vẫn gần với giá trị dự kiến là
phần của bảng tính cho thí nghiệm này, cùng với biểu đồ dữ liệu (ở
5; tuy nhiên, độ lệch chuẩn của 25 nghĩa là mẫu trở nên nhỏ hơn khi
phía bên trái) cho thấy 250 quan sát được phân bố gần như đồng đều.
tăng kích thước mẫu, nghĩa là trung bình của các mẫu được nhóm lại
(Điều này có sẵn trong Thử nghiệm lấy mẫu tệp Excel.)
gần nhau hơn xung quanh giá trị thực mong đợi. Hình 6.4 cho thấy biểu
đồ so sánh của phương tiện mẫu cho mỗi trường hợp này.
Ở hàng 12, chúng tôi tính giá trị trung bình của từng mẫu. Các
Những điều này minh họa cho kết luận mà chúng ta vừa đưa ra và, có
số liệu thống kê này thay đổi rất nhiều so với các giá trị dân số do
lẽ còn đáng ngạc nhiên hơn, phân phối của các phương tiện mẫu dường
lỗi lấy mẫu. Biểu đồ bên phải cho thấy sự phân bố của 25 trung bình
như mang hình dạng của một phân phối bình thường đối với các cỡ mẫu
mẫu, thay đổi từ ít hơn 4 đến lớn hơn 6. Bây giờ, hãy tính độ lệch
lớn hơn. Trong thử nghiệm của chúng tôi, chúng tôi chỉ sử dụng 25
trung bình và chuẩn của trung bình mẫu trong hàng 12 (các ô AB12
phương tiện mẫu. Nếu chúng tôi đã sử dụng một số lượng lớn hơn
nhiều, các bản phân phối sẽ được xác định rõ hơn.
Machine Translated by Google
188
Chương 6 Lấy mẫu và ước tính
Hình 6.3
Phần Bảng tính cho Thử nghiệm Lấy mẫu
Bảng 6.1
Kết quả lấy mẫu
Cuộc thí nghiệm
Hình 6.4
Biểu đồ của
Phương tiện mẫu cho
tăng mẫu
kích cỡ
Trung bình của 25 mẫu
Cỡ mẫu
Có nghĩa
Độ lệch chuẩn của
25 phương tiện mẫu
10
5.0108
0,816673
25
5.0779
0,451351
100
4.9173
0.301941
500
4,9754
0,078993
Machine Translated by Google
189
Chương 6 Lấy mẫu và ước lượng
Nếu chúng ta áp dụng các quy tắc thực nghiệm cho những kết quả này, chúng ta có thể ước tính sai số lấy mẫu
được liên kết với một trong các cỡ mẫu mà chúng tôi đã chọn.
VÍ DỤ 6.4 Ước tính Sai số Lấy mẫu Sử dụng Quy tắc Thực nghiệm
Sử dụng các kết quả trong Bảng 6.1 và quy tắc thực nghiệm cho ba độ
chỉ sử dụng mẫu có 10 người. Đối với mẫu có cỡ 25, chúng tôi cho
lệch chuẩn xung quanh giá trị trung bình, chẳng hạn, chúng ta có thể
rằng trung bình mẫu sẽ nằm trong khoảng 5,0
phát biểu rằng khi sử dụng cỡ mẫu là 10, phân phối của giá trị
đến 5,0 + 3(0,451351) = 6,35.
trung bình mẫu sẽ rơi vào khoảng từ 5,0
Lưu ý rằng khi kích thước mẫu tăng lên, sai số giảm xuống. Đối với
3(0,816673) = 2,55 đến
5,0 + 3(0,816673) = 7,45.
3(0,451351) = 3,65
cỡ mẫu là 100 và 500, các khoảng là [4,09, 5,91] và [4,76, 5,24].
Do đó, có sai số đáng kể trong việc ước lượng giá trị trung bình
Phân phối lấy mẫu
Chúng ta có thể định lượng lỗi lấy mẫu khi ước tính giá trị trung bình cho bất kỳ tổng thể chưa biết nào.
Để làm điều này, chúng ta cần mô tả đặc điểm phân phối lấy mẫu của giá trị trung bình.
Phân phối lấy mẫu của giá trị trung bình
Giá trị trung bình của tất cả các mẫu có thể có kích thước cố định n từ một số tổng thể sẽ tạo
thành một phân phối mà chúng ta gọi là phân phối lấy mẫu của giá trị trung bình. Các biểu đồ
trong Hình 6.4 là các phép tính gần đúng với các phân phối lấy mẫu của giá trị trung bình dựa trên 25 mẫu.
Các nhà thống kê đã chỉ ra hai kết quả chính về phân phối lấy mẫu của giá trị trung bình.
Đầu tiên, độ lệch chuẩn của phân phối lấy mẫu của giá trị trung bình, được gọi là sai số chuẩn
của giá trị trung bình, được tính như sau
Lỗi tiêu chuẩn của giá trị trung bình
(6.1)
> 1n
ở đâu là độ lệch chuẩn của dân số mà từ đó các quan sát riêng lẻ được rút ra và n là cỡ mẫu.
Từ công thức này, chúng ta thấy rằng khi n tăng, sai số chuẩn giảm, giống như thí nghiệm của
chúng ta đã chứng minh. Điều này cho thấy rằng các ước tính về giá trị trung bình mà chúng tôi
thu được từ các cỡ mẫu lớn hơn mang lại độ chính xác cao hơn trong việc ước tính giá trị trung
bình thực của tổng thể. Nói cách khác, kích thước mẫu lớn hơn có lỗi lấy mẫu ít hơn.
VÍ DỤ 6.5 Tính Sai số Chuẩn của Giá trị Trung bình
Đối với thử nghiệm của chúng tôi, chúng tôi biết rằng phương sai
Đối với các dữ liệu còn lại trong Bảng 6.1, chúng tôi có như sau:
của dân số là 8,33 (vì các giá trị được phân phối đồng đều). Do
đó, độ lệch chuẩn của tổng thể là S = 2,89. Chúng ta có thể tính
Kích thước mẫu, n Lỗi tiêu chuẩn của giá trị trung bình
sai số chuẩn của giá trị trung bình cho từng cỡ mẫu trong thử
10
0,914
nghiệm của mình bằng cách sử dụng công thức (6.1). Ví dụ, với n =
25
0,577
10, chúng ta có
100
0,289
Sai số chuẩn của trung bình = S n = 2,89 10 = 0,914
500
0,129
Độ lệch chuẩn thể hiện trong Bảng 6.1 chỉ đơn giản là ước tính sai số chuẩn của giá trị trung
bình dựa trên số lượng giới hạn 25 mẫu. Nếu chúng ta so sánh những ước tính này với các giá trị lý
thuyết trong ví dụ trước, chúng ta sẽ thấy rằng chúng gần giống nhau nhưng không hoàn toàn giống nhau.
Điều này là do lỗi tiêu chuẩn thực dựa trên tất cả các phương tiện mẫu có thể có trong quá trình lấy mẫu
Machine Translated by Google
190
Chương 6 Lấy mẫu và ước lượng
phân phối, trong khi chúng tôi chỉ sử dụng 25. Nếu bạn lặp lại thử nghiệm với số lượng mẫu lớn hơn,
các giá trị quan sát được của sai số chuẩn sẽ gần với các giá trị lý thuyết này hơn.
Trong thực tế, chúng ta sẽ không bao giờ biết được độ lệch chuẩn tổng thể thực sự và thường chỉ
lấy một mẫu giới hạn gồm n quan sát. Tuy nhiên, chúng ta có thể ước tính sai số chuẩn của giá trị
trung bình bằng cách sử dụng dữ liệu mẫu bằng cách chia độ lệch chuẩn mẫu cho căn bậc hai của n.
Kết quả thứ hai mà các nhà thống kê đã chỉ ra được gọi là định lý giới hạn trung tâm, một trong
những kết quả thực tế quan trọng nhất trong thống kê giúp cho việc suy luận có hệ thống trở nên khả
thi. Định lý giới hạn trung tâm phát biểu rằng nếu cỡ mẫu đủ lớn, phân phối lấy mẫu của giá trị trung
bình xấp xỉ phân phối chuẩn, bất kể phân phối của tổng thể như thế nào và giá trị trung bình của
phân phối lấy mẫu sẽ bằng với giá trị trung bình của tổng thể. Đây chính xác là những gì chúng tôi
quan sát được trong thí nghiệm của mình.
Phân bố của tổng thể là đồng nhất, tuy nhiên phân phối lấy mẫu của giá trị trung bình hội tụ thành
hình dạng của phân phối chuẩn khi cỡ mẫu tăng lên. Định lý giới hạn trung tâm cũng phát biểu rằng nếu
tổng thể có phân phối chuẩn thì phân phối lấy mẫu của giá trị trung bình cũng sẽ chuẩn đối với bất
kỳ cỡ mẫu nào. Giới hạn trung tâm theo rem cho phép chúng ta sử dụng lý thuyết đã học về cách tính
xác suất cho phân phối chuẩn để đưa ra kết luận về trung bình mẫu.
Áp dụng phân phối lấy mẫu của giá trị trung bình
Chìa khóa để áp dụng phân phối lấy mẫu của giá trị trung bình một cách chính xác là hiểu liệu xác
suất mà bạn muốn tính toán có liên quan đến một quan sát riêng lẻ hay giá trị trung bình của một mẫu
hay không. Nếu nó liên quan đến giá trị trung bình của một mẫu, thì bạn phải sử dụng phương pháp lấy mẫu
phân phối của giá trị trung bình, có độ lệch chuẩn là sai số chuẩn, > 1n.
VÍ DỤ 6.6 Sử dụng Sai số Chuẩn trong Tính toán Xác suất
Giả sử rằng quy mô đơn đặt hàng của khách hàng cá nhân (tính
của giá trị trung bình sẽ có giá trị trung bình là $36 nhưng sai
bằng đô la), X, từ một trang web của nhà xuất bản sách giảm giá
số chuẩn là $8 16 = $2. Khi đó, xác suất mà số tiền mua trung
lớn có phân phối chuẩn với giá trị trung bình là 36 đô la và độ
bình vượt quá 40 đô la đối với cỡ mẫu n = 16 là
lệch chuẩn là 8 đô la. Xác suất mà cá nhân tiếp theo đặt hàng
tại trang web sẽ mua hàng hơn 40 đô la có thể được tìm thấy
bằng cách tính toán
1
NORM.DIST(40,36,8,TRUE) = 1
1
NORM.DIST(40,36,2,TRUE) = 1
0,9772 = 0,0228
Mặc dù khoảng 30% cá nhân sẽ thực hiện các giao dịch mua
0,6915 = 0,3085
Bây giờ, giả sử rằng một mẫu gồm 16 khách hàng được chọn.
Xác suất mua hàng trung bình cho 16 khách hàng này sẽ vượt quá
vượt quá 40 đô la, nhưng khả năng 16 khách hàng sẽ thu về trung
bình hơn 40 đô la là nhỏ hơn nhiều. Rất khó có khả năng tất cả
16 khách hàng mua hàng với số lượng lớn, bởi vì một số giao
dịch mua riêng lẻ có thể sẽ ít hơn 36 đô la trở lên, khiến khả
$40 là gì? Để tìm ra điều này, chúng ta phải nhận ra rằng chúng
năng thay đổi của số tiền mua trung bình đối với mẫu của 16
ta phải sử dụng phân phối lấy mẫu của giá trị trung bình để thực
khách hàng nhỏ hơn nhiều so với đối với các cá nhân.
hiện các phép tính thích hợp. phân phối lấy mẫu
Ước tính khoảng thời gian
Ước tính khoảng cung cấp một phạm vi cho một đặc điểm dân số dựa trên một mẫu.
Khoảng thời gian khá hữu ích trong thống kê vì chúng cung cấp nhiều thông tin hơn ước tính điểm. Các
khoảng xác định một loạt các giá trị hợp lý cho đặc tính quan tâm và cách đánh giá “mức độ hợp lý” của
chúng. Nói chung, khoảng xác suất 10011 - a2% là khoảng bất kỳ [A, B] sao cho xác suất rơi vào giữa
A và B là 1 - a. Khoảng xác suất thường tập trung vào giá trị trung bình hoặc trung bình. Ví dụ,
Machine Translated by Google
191
Chương 6 Lấy mẫu và ước lượng
trong phân phối chuẩn, giá trị trung bình cộng hoặc trừ 1 độ lệch chuẩn mô tả khoảng xác suất xấp
xỉ 68% xung quanh giá trị trung bình. Một ví dụ khác, phân vị thứ 5 và 95 trong tập dữ liệu tạo
thành khoảng xác suất 90%.
VÍ DỤ 6.7 Ước tính khoảng thời gian trong tin tức
Chúng tôi luôn thấy các ước tính khoảng thời gian trong tin tức
ứng cử viên có nhiều khả năng nằm trong khoảng từ 53% đến 59%.
khi cố gắng ước tính giá trị trung bình hoặc tỷ lệ dân số.
Do đó, chúng tôi sẽ rất tự tin khi dự đoán rằng ứng cử viên sẽ
Ước tính khoảng thường được xây dựng bằng cách lấy ước tính điểm
giành chiến thắng trong cuộc bầu cử sắp tới.
và cộng và trừ biên độ sai số dựa trên kích thước mẫu. Ví dụ:
Tuy nhiên, nếu cuộc thăm dò cho thấy mức ủng hộ là 52% với sai
một cuộc thăm dò của Gallup có thể báo cáo rằng 56% cử tri ủng
số ±4%, thì chúng tôi có thể không tự tin vào việc dự đoán chiến
hộ một ứng cử viên nhất định với sai số ±3%. Chúng tôi sẽ kết
thắng vì tỷ lệ cử tri ủng hộ thực sự có thể nằm trong khoảng
luận rằng tỷ lệ cử tri thực sự ủng hộ
từ 48% đến 56%.
Câu hỏi mà bạn có thể đặt ra vào thời điểm này là làm thế nào để tính toán sai số liên quan
đến ước tính điểm. Trong các cuộc khảo sát quốc gia và các cuộc thăm dò ý kiến chính trị, những mức
sai số như vậy thường được nêu ra, nhưng chúng không bao giờ được giải thích chính xác. Để hiểu
chúng, chúng ta cần giới thiệu khái niệm về khoảng tin cậy.
khoảng tin cậy
Ước tính khoảng tin cậy cung cấp một cách đánh giá độ chính xác của ước tính điểm.
Khoảng tin cậy là một phạm vi các giá trị trong đó giá trị của tham số tổng thể được cho là, cùng
với xác suất mà khoảng đó ước tính chính xác tham số tổng thể thực (chưa biết). Xác suất này được
gọi là mức độ tin cậy, được biểu thị bằng 1 - a, trong đó a là một số từ 0 đến 1. Mức độ tin cậy
thường được biểu thị bằng phần trăm; các giá trị phổ biến là 90%, 95% hoặc 99%. (Lưu ý rằng nếu mức
độ tin cậy là 90% thì là 0,1.) Biên độ sai số phụ thuộc vào mức độ tin cậy và cỡ mẫu. Ví dụ: giả sử
rằng biên sai số đối với một số cỡ mẫu và mức độ tin cậy 95% được tính là 2,0. Một mẫu có thể mang
lại ước tính điểm là 10. Sau đó, khoảng tin cậy 95% sẽ là [8, 12]. Tuy nhiên, khoảng thời gian này
có thể bao gồm hoặc không bao gồm trung bình dân số thực sự. Nếu chúng ta lấy một mẫu khác, rất có
thể chúng ta sẽ có một ước tính điểm khác, chẳng hạn như 10,4, với cùng một mức sai số, sẽ mang lại
ước tính khoảng [8,4, 12,4]. Một lần nữa, điều này có thể bao gồm hoặc không bao gồm ý nghĩa dân số
thực sự.
Nếu chúng tôi chọn 100 mẫu khác nhau, dẫn đến 100 ước tính khoảng khác nhau, thì chúng tôi hy vọng
rằng 95% trong số đó—mức độ tin cậy—sẽ chứa trung bình tổng thể thực.
Chúng tôi có thể nói rằng chúng tôi “tự tin 95%” rằng khoảng thời gian mà chúng tôi thu được từ dữ
liệu mẫu chứa giá trị trung bình thực của tổng thể. Mức độ tin cậy càng cao, chúng ta càng có nhiều
đảm bảo rằng khoảng chứa tham số tổng thể thực. Khi mức độ tin cậy tăng lên, khoảng tin cậy sẽ rộng
hơn để cung cấp mức độ đảm bảo cao hơn. Bạn có thể xem a là nguy cơ kết luận sai rằng khoảng tin cậy
chứa giá trị trung bình thực.
Khi các cuộc khảo sát quốc gia hoặc các cuộc thăm dò chính trị báo cáo ước tính khoảng thời
gian, chúng thực sự là khoảng tin cậy. Tuy nhiên, mức độ tin cậy thường không được công bố vì người
bình thường có thể sẽ không hiểu khái niệm hoặc thuật ngữ này. Mặc dù không được nêu rõ, nhưng bạn có
thể cho rằng mức độ tin cậy là 95%, vì đây là giá trị phổ biến nhất được sử dụng trong thực tế (tuy
nhiên, Cục Thống kê Lao động có xu hướng sử dụng 90% khá thường xuyên).
Machine Translated by Google
192
Chương 6 Lấy mẫu và ước lượng
Nhiều loại khoảng tin cậy khác nhau có thể được phát triển. Các công thức được sử
dụng phụ thuộc vào tham số dân số mà chúng tôi đang cố gắng ước tính và có thể là các
đặc điểm hoặc giả định khác về dân số. Chúng tôi minh họa một số loại khoảng tin cậy.
Khoảng tin cậy cho giá trị trung bình đã biết
Độ lệch tiêu chuẩn dân số
Loại khoảng tin cậy đơn giản nhất là dành cho giá trị trung bình của tổng thể trong đó
độ lệch chuẩn được cho là đã biết. Tuy nhiên, bạn nên nhận ra rằng trong hầu hết các
ứng dụng lấy mẫu thực tế, độ lệch chuẩn tổng thể sẽ không được biết đến. Tuy nhiên,
trong một số ứng dụng, chẳng hạn như phép đo các bộ phận từ máy tự động, quy trình có
thể có phương sai rất ổn định đã được thiết lập trong một lịch sử lâu dài và có thể
giả định một cách hợp lý rằng độ lệch chuẩn đã biết.
Khoảng tin cậy 10011 - a2% cho trung bình tổng thể m dựa trên một mẫu có
kích thước n với trung bình mẫu x và độ lệch chuẩn tổng thể đã biết được cho bởi
(6.2)
x { za/2 1 > 1n2
Lưu ý rằng công thức này chỉ đơn giản là giá trị trung bình của mẫu (ước tính điểm) cộng hoặc trừ một
biên sai số.
Biên độ sai số là một số za>2 nhân với sai số chuẩn của phân phối lấy mẫu của
giá trị trung bình, > 1n. Giá trị za>2 biểu thị giá trị của một biến ngẫu nhiên chuẩn
thông thường có xác suất đuôi trên a>2 hoặc tương đương, xác suất tích lũy là 1 a>2. Nó có thể được tìm thấy từ bảng thông thường tiêu chuẩn (xem Bảng A.1 trong
Phụ lục A ở cuối sách) hoặc có thể được tính toán trong Excel bằng cách sử dụng giá trị của
hàm NORM.S.INV11 - a>22. Ví dụ: nếu 0,05 (với độ tin cậy 95%
khoảng), sau đó là NORM.S.INV10.9752 1.96; nếu là 0,10 (đối với khoảng tin
cậy 90%), thì NORM.S.INV10.952 1.645, v.v.
Mặc dù có thể dễ dàng triển khai công thức (6.2) trong bảng tính, nhưng hàm Excel
CONFIDENCE.NORM(alpha, standard_deviation, size) có thể được sử dụng để tính toán
lề của thuật ngữ lỗi, za>2 > 1n; do đó, khoảng tin cậy là trung bình mẫu {
CONFIDENCE.NORM(alpha, độ_lệch_chuẩn, kích thước).
VÍ DỤ 6.8 Tính toán khoảng tin cậy với độ lệch chuẩn
đã biết
±
Trong quy trình sản xuất để đổ đầy chai chất tẩy rửa dạng
lỏng, dữ liệu lịch sử đã chỉ ra rằng phương sai về thể tích
là không đổi; tuy nhiên, tắc nghẽn trong máy chiết rót thường
A/2 (S !n)
= 796 ± 1,96(15 25) = 796 ± 5,88 hoặc [790,12, 801,88]
ảnh hưởng đến khối lượng bình. Độ lệch chuẩn lịch sử là 15 ml.
Khi đổ đầy chai 800 ml, một mẫu gồm 25 mẫu cho thấy thể tích
Trang tính Giá trị trung bình dân số Sigma đã biết trong
sổ làm việc Excel Khoảng tin cậy tính toán khoảng giá trị này
trung bình là 796 ml.
Sử dụng công thức (6.2), khoảng tin cậy 95% cho trung bình
bằng cách sử dụng hàm CONFIDENCE.NORM để tính biên độ sai số
tổng thể là
trong ô B9, như thể hiện trong Hình 6.5.
Khi mức độ tự tin, 1 - a, giảm, za>2 giảm, và sự tự tin trong
terval trở nên hẹp hơn. Ví dụ: khoảng tin cậy 90% sẽ hẹp hơn khoảng tin cậy 95%. Tương
tự, khoảng tin cậy 99% sẽ rộng hơn khoảng tin cậy 95%. Về cơ bản, bạn phải đánh đổi
mức độ chính xác cao hơn với rủi ro là khoảng tin cậy không chứa giá trị trung bình
thực. Rủi ro nhỏ hơn sẽ dẫn đến một
Machine Translated by Google
193
Chương 6 Lấy mẫu và ước lượng
Hình 6.5
Khoảng tin cậy cho
Có nghĩa là chất tẩy lỏng
Đu
âm lươ
ng
khoảng tin cậy rộng hơn. Tuy nhiên, bạn cũng có thể thấy rằng khi kích thước mẫu tăng
lên, sai số chuẩn sẽ giảm, làm cho khoảng tin cậy hẹp hơn và mang lại ước tính khoảng
chính xác hơn cho cùng một mức độ rủi ro. Vì vậy, nếu bạn muốn giảm rủi ro, bạn nên
xem xét việc tăng cỡ mẫu.
phân phối t
Trong hầu hết các ứng dụng thực tế, độ lệch chuẩn của tổng thể là không xác định và
chúng ta cần tính khoảng tin cậy theo cách khác. Trước khi chúng ta có thể thảo
luận về cách tính toán loại khoảng tin cậy này, chúng ta cần giới thiệu một phân phối
xác suất mới được gọi là phân phối t. Phân phối t thực chất là một họ các phân phối
xác suất có hình dạng tương tự như phân phối chuẩn thông thường. Các phân phối t khác
nhau được phân biệt bởi một tham số bổ sung, bậc tự do (df). Phân phối t có phương
sai lớn hơn so với chuẩn thông thường, do đó làm cho khoảng tin cậy rộng hơn so với
khoảng tin cậy thu được từ phân phối chuẩn chuẩn, về bản chất là điều chỉnh độ không
đảm bảo về độ lệch chuẩn thực, chưa biết. Khi số bậc tự do tăng lên, phân phối t hội
tụ về phân phối chuẩn chuẩn (Hình 6.6). Khi kích thước mẫu lớn tới 120, các bản phân
phối hầu như giống hệt nhau; ngay cả đối với các cỡ mẫu thấp từ 30 đến 35, việc phân
biệt giữa hai loại này trở nên khó khăn. Do đó, đối với cỡ mẫu lớn, nhiều người sử
dụng giá trị z để thiết lập khoảng tin cậy ngay cả khi chưa biết độ lệch chuẩn. Tuy
nhiên, chúng ta phải chỉ ra rằng đối với bất kỳ cỡ mẫu nào, phân phối lấy mẫu thực của
giá trị trung bình là phân phối t, vì vậy khi nghi ngờ, hãy sử dụng t.
Khái niệm về bậc tự do có thể khó hiểu. Nó tốt nhất có thể được giải thích bằng kỳ thi
ining công thức cho phương sai mẫu:
N
Một 1xi - x22
s2
tôi 1
n - 1
Lưu ý rằng để tính s2 , trước tiên chúng ta cần tính giá trị trung bình của mẫu, x. Nếu chúng
ta biết giá trị trung bình, thì chúng ta chỉ cần biết n - 1 quan sát riêng biệt; thứ n được
xác định hoàn toàn. (Ví dụ: nếu giá trị trung bình của ba giá trị là 4 và bạn biết rằng hai
trong số các giá trị là 2 và 4, thì bạn có thể dễ dàng xác định rằng số thứ ba phải là 6.) Số
lượng giá trị mẫu được tự do thay đổi sẽ xác định số bậc tự do; nói chung, df bằng số lượng
giá trị mẫu trừ đi số lượng tham số ước tính.
Bởi vì phương sai mẫu sử dụng một tham số ước tính, giá trị trung bình, nên phân phối t
được sử dụng trong tính toán khoảng tin cậy có n - 1 bậc tự do. Bởi vì phân phối t giải
thích rõ ràng tác động của cỡ mẫu trong việc ước tính phương sai dân số, nên đây là
phân phối thích hợp để sử dụng cho bất kỳ cỡ mẫu nào. Tuy nhiên, đối với các mẫu lớn,
sự khác biệt giữa giá trị t và z là rất nhỏ, như chúng tôi đã lưu ý trước đó.
Machine Translated by Google
194
Chương 6 Lấy mẫu và ước lượng
Hình 6.6
So sánh của
-Phân phối cho
Phân phối chuẩn chuẩn
Khoảng tin cậy cho giá trị trung bình với ẩn số
Độ lệch tiêu chuẩn dân số
Công thức cho khoảng tin cậy 10011 - a2% cho giá trị trung bình m khi chưa
biết độ lệch chuẩn tổng thể là
x { ta>2,n-1 1s>
(6.3)
1n2 trong đó ta>2,n-1 là giá trị từ phân phối t với n - 1 bậc tự do, mang lại xác
suất đuôi trên là a>2. Chúng ta có thể tìm thấy các giá trị t trong Bảng A.2 trong
Phụ lục A ở cuối sách hoặc bằng cách sử dụng hàm Excel T.INV11 - a>2, n - 12 hoặc hàm
T.INV.2T1a, n - 12. Hàm Excel CONFIDENCE.T(alpha, standard_deviation,
size) có thể được sử dụng để tính biên của hạn lỗi, ta>2,n-1 (s>1n); do đó, confi
khoảng dence là giá trị trung bình mẫu {CONFIDENCE.T.
VÍ DỤ 6.9 Tính toán khoảng tin cậy với độ lệch chuẩn
chưa biết
Trong tệp Excel Quyết định phê duyệt tín dụng, một ngân hàng
lỗi n = $1037,96. -distribution có 26 bậc tự do; do đó,
lớn có dữ liệu mẫu được sử dụng để đưa ra quyết định phê
.025,26 = 2,056. Sử dụng công thức (6.3), khoảng tin cậy là
duyệt tín dụng (xem Hình 6.7). Giả sử rằng chúng tôi muốn tìm
$12.630,37 ± 2,056($1037,96) hoặc [$10.496, $14.764]. Trang
khoảng tin cậy 95% cho số dư quay vòng trung bình cho dân số
tính People Mean Sigma Unknown trong sổ làm việc Excel Khoảng
những người nộp đơn sở hữu một ngôi nhà. Đầu tiên, sắp xếp dữ
tin cậy tính khoảng này bằng cách sử dụng hàm CONFIDENCE.T để
liệu theo chủ nhà và tính toán giá trị trung bình và độ lệch
tính biên độ sai số trong ô B10, như thể hiện trong Hình 6.8.
chuẩn của số dư quay vòng cho mẫu chủ nhà. Điều này dẫn đến
= $12.630,37 và = $5393,38. Cỡ mẫu là n = 27 nên tiêu chuẩn
Khoảng tin cậy cho một tỷ lệ
Đối với các biến phân loại như giới tính (nam hay nữ), trình độ học vấn (trung học,
đại học, sau đại học), v.v., chúng ta thường quan tâm đến tỷ lệ các quan sát trong
một mẫu có một đặc điểm nhất định. Một ước tính không thiên vị của dân số
tỷ lệ (đây không phải là số pi 3.14159 . . . . ) là thống kê pˆ x>n (tương đương
theo tỷ lệ), trong đó x là số trong mẫu có đặc tính mong muốn và n là cỡ mẫu.
Machine Translated by Google
195
Chương 6 Lấy mẫu và ước tính
Hình 6.7
Một phần Quyết định phê duyệt tín dụng File Excel
Hình 6.8
Khoảng tin cậy cho
Số dư quay vòng trung bình
của chủ sở hữu nhà
Khoảng tin cậy 10011 - a2% cho tỷ lệ này là
(6.4)
pn { za/2A pn11 N pn2
Lưu ý rằng như với giá trị trung bình, khoảng tin cậy là ước tính điểm cộng hoặc
trừ đi một số sai sót. Trong trường hợp này, 2pn11 - pn2>n là lỗi tiêu chuẩn của sam
pling phân phối của tỷ lệ. Excel không có chức năng tính biên độ lỗi, nhưng nó có thể
dễ dàng thực hiện trên bảng tính.
VÍ DỤ 6.10 Tính toán khoảng tin cậy cho một tỷ lệ
Cột cuối cùng trong tệp Excel Khảo sát bảo hiểm (xem Hình 6.9)
mô tả liệu một mẫu nhân viên có sẵn sàng trả phí bảo hiểm thấp
0,25 ± 1,96A 0,25(0,75)
24
= 0,25 ± 0,173 hoặc [0,077, 0,423]
hơn để nhận được khoản khấu trừ cao hơn cho bảo hiểm y tế của
họ hay không. Giả sử chúng ta quan tâm đến tỷ lệ cá nhân trả
lời có.
Bảng tính People Mean Sigma Unknown trong bảng tính Excel
Khoảng tin cậy tính khoảng này, như thể hiện trong Hình 6.10.
Chúng tôi có thể dễ dàng xác nhận rằng 6 trong số 24 nhân
Lưu ý rằng đây là một khoảng tin cậy khá rộng, cho thấy rằng
viên, hay 25%, đã trả lời là có. Do đó, ước tính điểm
chúng ta có khá nhiều điều không chắc chắn về giá trị thực của
cho phần theo tỷ lệ trả lời có là pn = 0,25. Sử dụng công
tỷ lệ dân số. Điều này là do cỡ mẫu tương đối nhỏ.
thức (6.4), chúng tôi thấy rằng khoảng tin cậy 95% cho tỷ
lệ nhân viên trả lời có là
Machine Translated by Google
196
Chương 6 Lấy mẫu và ước tính
Hình 6.9
Một phần Khảo sát bảo hiểm tệp Excel
Hình 6.10
Khoảng tin cậy cho
Tỷ lệ
Các loại khoảng tin cậy bổ sung
Khoảng tin cậy có thể được tính toán cho các tham số dân số khác như phương sai hoặc
độ lệch chuẩn và cũng cho sự khác biệt về phương tiện hoặc tỷ lệ của hai dân số. Các
khái niệm tương tự như các loại khoảng tin cậy mà chúng ta đã thảo luận, nhưng nhiều
công thức khá phức tạp và khó thực hiện hơn trên bảng tính.
Một số gói phần mềm nâng cao và phần bổ trợ bảng tính cung cấp hỗ trợ bổ sung.
Do đó, chúng tôi không thảo luận về chúng trong cuốn sách này, nhưng chúng tôi khuyên bạn nên tham
khảo các sách và tài liệu tham khảo thống kê khác nếu bạn cần sử dụng chúng, bây giờ bạn đã hiểu
các khái niệm cơ bản bên dưới chúng.
Sử dụng khoảng tin cậy để ra quyết định
Khoảng tin cậy có thể được sử dụng theo nhiều cách để hỗ trợ các quyết định kinh doanh.
VÍ DỤ 6.11 Rút ra kết luận về trung bình dân số sử dụng khoảng
tin cậy
Khi đóng gói một sản phẩm hàng hóa như bột giặt, nhà sản xuất
796 ml. Điều này cho thấy một vấn đề nghiêm trọng? Không cần
phải đảm bảo rằng các gói chứa lượng đã nêu để đáp ứng các quy
thiết. Khoảng tin cậy 95% cho giá trị trung bình mà chúng tôi
định của chính phủ.
tính toán trong Hình 6.5 là [790,12, 801,88]. Mặc dù giá trị
Trong Ví dụ 6.8, chúng ta đã thấy một ví dụ trong đó thể tích
trung bình của mẫu nhỏ hơn 800 nhưng mẫu không cung cấp đủ bằng
yêu cầu là 800 mililit, tuy nhiên giá trị trung bình của mẫu chỉ là chứng để đưa ra kết luận rằng
Machine Translated by Google
197
Chương 6 Lấy mẫu và ước tính
trung bình dân số nhỏ hơn 800 vì 800 nằm trong khoảng tin cậy.
chúng tôi thấy rằng khoảng tin cậy cho giá trị trung bình sẽ là
Trên thực tế, điều hợp lý là trung bình dân số là 801. Chúng
[786,12, 797,88]. Trong trường hợp này, chúng tôi sẽ kết luận
tôi không thể nói chắc chắn vì lỗi lấy mẫu. Tuy nhiên, giả sử
rằng rất khó có khả năng trung bình dân số là 800 ml vì khoảng
rằng trung bình mẫu là 792. Sử dụng trang tính Excel People
tin cậy hoàn toàn giảm xuống dưới 800; nhà sản xuất nên kiểm tra
Mean Sigma known trong sổ làm việc Khoảng tin cậy,
và điều chỉnh thiết bị để đáp ứng tiêu chuẩn.
Ví dụ tiếp theo cho thấy cách diễn giải khoảng tin cậy cho một tỷ lệ.
VÍ DỤ 6.12 Sử dụng khoảng tin cậy để dự đoán kết quả bầu cử
Giả sử rằng một cuộc thăm dò ý kiến của 1.300 cử tri cho thấy
giả sử rằng chỉ có 670 trong số 1.300 cử tri bỏ phiếu cho ứng
692 người đã bỏ phiếu cho một ứng cử viên cụ thể trong cuộc đua
cử viên, tỷ lệ mẫu là 0,515. Khoảng tin cậy cho tỷ lệ dân số là
hai người. Điều này đại diện cho một tỷ lệ 53,23% của mẫu.
[0,488, 0,543].
Chúng ta có thể kết luận rằng ứng cử viên đó sẽ có khả năng
Mặc dù tỷ lệ mẫu lớn hơn 50%, sai số lấy mẫu lớn và khoảng tin
thắng cử không? Khoảng tin cậy 95% cho tỷ lệ này là [0,505, 0,559].cậy cho thấy có khả năng hợp lý là tỷ lệ dân số thực có thể
Điều này cho thấy tỷ lệ cử tri ủng hộ ứng cử viên này có khả
nhỏ hơn 50%, vì vậy sẽ không khôn ngoan khi dự đoán người chiến
năng cao sẽ vượt quá 50%, vì vậy có thể an toàn để dự đoán
thắng dựa trên thông tin này.
người chiến thắng. Mặt khác,
Khoảng thời gian dự đoán
Một loại khoảng thời gian khác được sử dụng trong ước tính là khoảng thời gian dự đoán. Khoảng thời gian dự đoán
là một trong đó cung cấp một phạm vi để dự đoán giá trị của một quan sát mới từ cùng
một dân số. Điều này khác với khoảng tin cậy, cung cấp ước lượng khoảng của tham số
dân số, chẳng hạn như giá trị trung bình hoặc tỷ lệ. Khoảng tin cậy được liên kết với
phân phối lấy mẫu của một thống kê, nhưng khoảng dự đoán được liên kết với phân phối
của chính biến ngẫu nhiên.
Khi độ lệch chuẩn tổng thể không xác định, dự đoán 10011 - a2% trong
khoảng cho một quan sát mới là
1
x { ta>2,n-1 asA 1 +
nb
(6.5)
Lưu ý rằng khoảng này rộng hơn khoảng tin cậy trong công thức (6.3) nhờ giá trị bổ
sung của 1 dưới căn bậc hai. Điều này là do, bên cạnh việc ước tính giá trị trung bình
của tổng thể, chúng ta cũng phải tính đến sự thay đổi của quan sát mới xung quanh giá
trị trung bình.
Một điều quan trọng cũng cần nhận ra là trong công thức (6.3) đối với khoảng tin cậy, khi
n trở nên lớn, số hạng sai số có xu hướng bằng 0 nên khoảng tin cậy hội tụ về giá trị trung bình.
Tuy nhiên, trong công thức khoảng dự đoán (6.5), khi n càng lớn, số hạng sai số hội tụ
đến ta>2, n-1 1s2, đơn giản là khoảng xác suất 10011 - a2%. Bởi vì chúng tôi đang cố gắng
để dự đoán một quan sát mới từ dân số, sẽ luôn có sự không chắc chắn.
Machine Translated by Google
198
Chương 6 Lấy mẫu và ước tính
VÍ DỤ 6.13 Tính toán khoảng thời gian dự đoán
Khi ước tính số dư quay vòng trong tệp Excel Quyết định phê
duyệt tín dụng trong Ví dụ 6.9, chúng ta có thể sử dụng for
Lưu ý rằng so với Ví dụ 6.9, kích thước của khoảng dự
đoán lớn hơn đáng kể so với khoảng tin cậy.
mula (6.5) để tính khoảng dự đoán 95% cho số dư quay vòng của
chủ nhà mới như
1
$12.630,37 ± 2,056 ($5.393,38) A1 +
hoặc 27,
[$338,10, $23.922,64]
Khoảng tin cậy và cỡ mẫu
Một câu hỏi quan trọng trong việc lấy mẫu là kích thước của mẫu cần lấy. Lưu ý rằng
trong tất cả các công thức cho khoảng tin cậy, cỡ mẫu đóng một vai trò quan trọng
trong việc xác định độ rộng của khoảng tin cậy. Khi kích thước mẫu tăng lên, độ rộng
của khoảng tin cậy giảm xuống, mang lại ước tính chính xác hơn về tham số dân số thực.
Trong nhiều ứng dụng, chúng tôi muốn kiểm soát biên độ sai số trong một khoảng tin cậy.
Ví dụ: khi báo cáo sở thích của cử tri, chúng tôi có thể muốn đảm bảo rằng tỷ lệ
sai sót là {2%. May mắn thay, việc xác định kích thước mẫu phù hợp cần thiết để
ước tính tham số dân số trong một mức độ chính xác cụ thể là tương đối dễ dàng.
Các công thức xác định cỡ mẫu để đạt được biên độ sai số nhất định dựa trên nửa
độ rộng của khoảng tin cậy. Ví dụ: hãy xem xét khoảng tin cậy cho giá trị trung bình
với độ lệch chuẩn tổng thể đã biết mà chúng tôi đã giới thiệu trong công thức (6.2):
x { za>2 a 2n
b
Giả sử chúng ta muốn độ rộng của khoảng tin cậy ở hai bên của giá trị trung bình
(nghĩa là biên sai số) tối đa là E. Nói cách khác,
E Ú za>2 a 2n
b
Giải n, ta tìm được:
2
n Ú 1za>2 22e
2
(6.6)
Theo cách tương tự, chúng ta có thể tính cỡ mẫu cần thiết để đạt được nửa độ rộng
khoảng tin cậy mong muốn cho một tỷ lệ bằng cách giải phương trình sau (dựa trên công
thức (6.4) sử dụng tỷ lệ tổng thể trong giới hạn sai số) cho n:
E Ú za>22 11 - 2>n
Điều này mang lại
n Ú 1za>2 22
11 - 2
2
e
(6.7)
Trong thực tế, giá trị của sẽ không được biết đến. Bạn có thể sử dụng tỷ lệ
mẫu từ một mẫu sơ bộ làm ước tính để lập kế hoạch cỡ mẫu, nhưng điều này có thể
yêu cầu một số lần lặp lại và các mẫu bổ sung để tìm ra cỡ mẫu mang lại độ
chính xác cần thiết. Khi không có thông tin, ước tính thận trọng nhất là 0,5.
Điều này tối đa hóa đại lượng 11 - 2 trong công thức, dẫn đến kích
thước tập hợp giống nhau sẽ đảm bảo độ chính xác cần thiết bất kể tỷ lệ thực là bao nhiêu.
Machine Translated by Google
199
Chương 6 Lấy mẫu và ước tính
Hình 6.11
Khoảng tin cậy cho giá trị trung
bình bằng cách sử dụng một
Kích thước mẫu = 97
VÍ DỤ 6.14 Xác định cỡ mẫu cho giá trị trung bình
Trong ví dụ về chất tẩy lỏng (Ví dụ 6.8), khoảng tin cậy mà
Làm tròn lên, chúng tôi thấy rằng sẽ cần 97 mẫu. Để xác
chúng tôi tính toán trong Hình 6.5 là [790,12, 801,88]. Độ
minh điều này, Hình 6.11 cho thấy rằng nếu một mẫu 97 được sử
rộng của khoảng tin cậy là ± 5,88 mililit, đại diện cho sai
dụng cùng với cùng một giá trị trung bình mẫu và độ lệch tiêu
số lấy mẫu. Giả sử nhà sản xuất muốn sai số lấy mẫu nhiều nhất
chuẩn, thì khoảng tin cậy thực sự có sai số lấy mẫu nhỏ hơn 3
là 3 mililit. Sử dụng công thức (6.6), chúng ta có thể tính cỡ
mililit.
mẫu cần thiết như sau:
2 (S
n # 1 A>2 2
2
)
2 E
(152 ) = 11,9622
= 96,04
2 3
Tất nhiên, chúng ta thường không biết độ lệch chuẩn của tổng thể trước khi tìm cỡ
mẫu. Một cách tiếp cận hợp lý sẽ là lấy một mẫu ban đầu để ước tính độ lệch chuẩn tổng
thể bằng cách sử dụng độ lệch chuẩn mẫu s và xác định cỡ mẫu cần thiết, thu thập dữ
liệu bổ sung nếu cần. Nếu nửa chiều rộng của khoảng tin cậy thu được nằm trong biên độ
sai số bắt buộc, thì rõ ràng chúng ta đã đạt được mục tiêu của mình. Nếu không, chúng
ta có thể sử dụng độ lệch chuẩn mẫu mới s để xác định cỡ mẫu mới và thu thập dữ liệu
bổ sung nếu cần. Lưu ý rằng nếu s thay đổi đáng kể, chúng tôi vẫn có thể không đạt được
độ chính xác mong muốn và có thể phải lặp lại quy trình.
Thông thường, tuy nhiên, điều này sẽ là không cần thiết.
VÍ DỤ 6.15 Xác định cỡ mẫu theo tỷ lệ
Đối với ví dụ bỏ phiếu mà chúng ta đã thảo luận, giả sử rằng
cử tri chọn một ứng cử viên cụ thể với độ chính xác từ ± 0,02
chúng ta muốn xác định số lượng cử tri sẽ bỏ phiếu để đảm bảo
trở xuống là
sai số lấy mẫu nhiều nhất là ± 2%. Như chúng tôi đã nói, khi
không có thông tin, cách tiếp cận thận trọng nhất là sử dụng
n # 1 A/2 2
0,5 để ước tính tỷ lệ thực. Sử dụng công thức (6.7) với P =
0,5, số cử tri được thăm dò để đạt khoảng tin cậy 95% về tỷ lệ
= 1 1,962
2
P(1
P)
2 E
2
(0,5) (1
0,022
0,5)
= 2,401
Machine Translated by Google
200
Chương 6 Lấy mẫu và ước tính
Điều khoản quan trọng
Định lý giới hạn trung tâm
khung dân số
lấy mẫu cụm
Khoảng thời gian dự đoán
Khoảng tin cậy
khoảng xác suất
lấy mẫu thuận tiện
Tỷ lệ mẫu
Bậc tự do (df)
Lỗi lấy mẫu (thống kê)
Ước lượng
Phân phối lấy mẫu của giá trị trung bình
công cụ ước tính
kế hoạch lấy mẫu
ước tính khoảng thời gian
Phương pháp lấy mẫu ngẫu nhiên đơn giản
lấy mẫu phán quyết
Lỗi tiêu chuẩn của giá trị trung bình
Mức độ tự tin
lấy mẫu phân tầng
lỗi không lấy mẫu
Lấy mẫu có hệ thống (hoặc định kỳ)
ước tính điểm
phân phối t
vấn đề và bài tập
1. Trường cao đẳng hoặc đại học của bạn mong muốn có được
thông tin đáng tin cậy về nhận thức của sinh viên về giao
tiếp hành chính. Mô tả cách thiết kế một kế hoạch lấy
mẫu cho tình huống này dựa trên kiến thức của bạn về cấu
trúc và tổ chức của trường cao đẳng hoặc đại học của bạn.
Bạn sẽ triển khai lấy mẫu ngẫu nhiên đơn giản, lấy mẫu
phân tầng và lấy mẫu cụm cho nghiên cứu này như thế nào?
Những ưu và nhược điểm của việc sử dụng từng phương pháp
này là gì?
phân tích sai số lấy mẫu. Đối với mỗi mẫu, cũng tìm sai số
chuẩn của giá trị trung bình bằng cách sử dụng công thức (6.1).
6. Khi xác định xếp hạng quãng đường đi được của ô tô, người
ta thấy rằng mpg trong thành phố đối với một kiểu xe nhất
định có phân phối chuẩn, với giá trị trung bình là 30 mpg
và độ lệch chuẩn là 1,0 mpg. Giả sử rằng nhà sản xuất ô tô
lấy mẫu 5 chiếc ô tô từ dây chuyền lắp ráp của mình và kiểm
tra chúng để xếp hạng quãng đường đi được.
Một. Phân phối của mpg trung bình cho mẫu là gì?
2. Đánh số thứ tự các hàng trong file Excel Dữ liệu rủi ro tín dụng
để xác định từng bản ghi. Ngân hàng muốn lấy mẫu từ cơ sở
dữ liệu này để tiến hành kiểm toán chi tiết hơn.
Sử dụng công cụ Lấy mẫu Excel để tìm một mẫu ngẫu nhiên
đơn giản gồm 20 bản ghi duy nhất.
b. Xác suất mà giá trị trung bình của mẫu sẽ lớn hơn 31 mpg
là bao nhiêu?
c. Xác suất mà giá trị trung bình của mẫu sẽ nhỏ hơn 29,5
mpg là bao nhiêu?
3. Mô tả cách áp dụng lấy mẫu phân tầng để lấy mẫu từ tệp Dữ
liệu rủi ro tín dụng dựa trên các loại khoản vay khác
7. Một loại nước giải khát phổ biến được bán trong chai 2 lít
nhau. Thực hiện quy trình của bạn trong Excel để chọn một
(2.000 ml). Do sự thay đổi trong quy trình chiết rót, các
mẫu ngẫu nhiên bao gồm 10% hồ sơ cho từng loại khoản vay.
chai có thể tích trung bình là 2.000 ml và độ lệch chuẩn
là 18, phân phối chuẩn.
4. Tìm 30 cổ phiếu hiện có trong chỉ số Dow
Trung bình công nghiệp Jones. Thiết lập một bảng tính Excel
Một. Nếu nhà sản xuất lấy mẫu 100 chai, xác suất mà giá
trị trung bình nhỏ hơn 1,995 ml là bao nhiêu?
cho tên của họ, giá trị vốn hóa thị trường và một hoặc hai
số liệu thống kê tài chính quan trọng khác (tìm kiếm trên
Yahoo! Finance hoặc một nguồn Web tương tự). Sử dụng Lấy mẫu Excel
cụ, lấy một mẫu ngẫu nhiên gồm 5 cổ phiếu, tính toán các
ước tính điểm cho giá trị trung bình và độ lệch chuẩn, rồi
so sánh chúng với các tham số tổng thể.
5. Lặp lại thí nghiệm lấy mẫu trong Ví dụ 6.3 với cỡ mẫu 50,
b. Điều gì có nghĩa là việc đổ đầy hoặc nhiều hơn sẽ chỉ
xảy ra trong 10% thời gian đối với mẫu gồm 100 chai?
8. Một mẫu gồm 33 hành khách đi máy bay cho thấy thời gian
làm thủ tục trung bình là 2,167. Dựa trên dữ liệu dài hạn,
độ lệch chuẩn dân số được biết là 0,48. Tìm khoảng tin cậy
95% cho thời gian nhận phòng trung bình. Sử dụng công thức
100, 250 và 500. So sánh kết quả của bạn với ví dụ và sử
thích hợp và xác minh kết quả của bạn bằng sổ làm việc
dụng các quy tắc thực nghiệm để
Khoảng tin cậy.
Machine Translated by Google
201
Chương 6 Lấy mẫu và ước lượng
9. Một mẫu gồm 20 sinh viên quốc tế đang theo học tại một
trường đại học ở thành phố Hoa Kỳ cho thấy số tiền trung
Khoảng tin cậy 90%, 95% và 99% cho tổng tài sản do
người xin vay nắm giữ trong ngân hàng sử dụng công
bình được lập ngân sách cho các chi phí mỗi tháng là
thức (6.2) và bất kỳ hàm Excel thích hợp nào. Giải
$1612,50 với độ lệch chuẩn là $1179,64. Tìm khoảng tin
thích sự khác biệt khi mức độ tự tin tăng lên.
cậy 95% cho ngân sách chi tiêu trung bình hàng tháng của
nhóm sinh viên quốc tế. Sử dụng công thức thích hợp và xác
minh kết quả của bạn bằng sổ làm việc Khoảng tin cậy.
b. Khoảng tin cậy của bạn khác nhau như thế nào nếu bạn
cho rằng độ lệch chuẩn tổng thể không được biết nhưng
được ước tính bằng dữ liệu mẫu của bạn?
10. Một mẫu gồm 25 cá nhân tại một trung tâm mua sắm cho thấy
số lượt ghé thăm nhà hàng trung bình mỗi tuần là 2,88 với
độ lệch chuẩn là 1,59.
Tìm khoảng tin cậy 99% cho số lần ghé thăm nhà hàng
trung bình. Sử dụng công thức thích hợp và xác minh kết
quả của bạn bằng Khoảng tin cậy
sách bài tập.
16. Tệp Excel Doanh số nhà hàng cung cấp thông tin mẫu về doanh
số bán bữa trưa, bữa tối và giao hàng tận nơi cho một nhà
hàng Ý địa phương. Phát triển khoảng tin cậy 95% cho giá
trị trung bình của từng biến này, cũng như tổng doanh số
cho các ngày trong tuần và cuối tuần. Bạn có thể rút ra kết
luận gì?
11. Một ngân hàng lấy mẫu khách hàng của mình để xác định tỷ lệ
khách hàng sử dụng thẻ ghi nợ ít nhất một lần mỗi tháng.
Một mẫu gồm 50 khách hàng cho thấy chỉ có 12 người sử
dụng thẻ ghi nợ của họ hàng tháng. Tìm khoảng tin cậy 95%
và 99% cho tỷ lệ khách hàng sử dụng thẻ ghi nợ hàng tháng.
17. Sử dụng dữ liệu trong bảng tính Khảo sát về Giao thông vận
tải của người tiêu dùng, xây dựng khoảng tin cậy 95% cho
những điều sau:
Một. tỷ lệ cá nhân hài lòng với phương tiện của họ
Sử dụng công thức thích hợp và xác minh kết quả của bạn
bằng sổ làm việc Khoảng tin cậy.
12. Nếu, dựa trên cỡ mẫu là 850, một ứng cử viên chính trị thấy
rằng 458 người sẽ bỏ phiếu cho anh ta trong cuộc đua hai
người, thì khoảng tin cậy 95% cho tỷ lệ phiếu bầu dự kiến
của anh ta là bao nhiêu? Liệu anh ấy có tự tin chiến thắng
dựa trên cuộc bình chọn này? Sử dụng công thức thích hợp
và xác minh kết quả của bạn bằng sổ làm việc Khoảng tin
cậy.
b. tỷ lệ người có ít nhất một con
18. Một nhà sản xuất đã tiến hành một cuộc khảo sát trong số 500 người chạy
các hộ gia đình thị trường mục tiêu được lựa chọn chủ yếu
trong thị trường thử nghiệm cho tã giấy dùng một lần mới
của mình. Mục tiêu của cuộc khảo sát là để xác định thị
phần cho thương hiệu mới của mình. Nếu ước tính điểm mẫu
cho thị phần là 16%, hãy phát triển khoảng tin cậy 95%.
Công ty có thể kết luận một cách hợp lý rằng họ có 20% thị
phần không? Làm thế nào về một thị phần 18%?
13. Nếu, dựa trên cỡ mẫu là 200, một ứng cử viên chính trị
phát hiện ra rằng 125 người sẽ bỏ phiếu cho cô ấy trong
cuộc đua hai người, thì khoảng tin cậy 99% cho tỷ lệ phiếu
bầu dự kiến của cô ấy là bao nhiêu? Cô ấy sẽ tự tin chiến
thắng dựa trên cuộc thăm dò này?
14. Sử dụng dữ liệu trong tệp Excel Giáo sư kế toán, tìm và
diễn giải khoảng tin cậy 95% cho các trường hợp sau:
19. Sử dụng dữ liệu trong tệp Excel Colleges and Universities,
tìm khoảng tin cậy 95% cho điểm SAT trung bình của mỗi
nhóm trong số hai nhóm, trường cao đẳng nghệ thuật tự do
và trường đại học nghiên cứu. Dựa trên các khoảng tin cậy
này, liệu có sự khác biệt về điểm SAT trung bình giữa hai
nhóm không?
20. Tệp Excel Số người tham dự môn bóng chày cho thấy xu hướng
Một. số năm phục vụ trung bình
hàng nghìn người tham dự các trận bóng chày của San
b. tỷ lệ nhân viên có bằng tốt nghiệp
Francisco Giants trong 10 năm trước khi Oakland A's chuyển
bằng cấp
đến Bay Area vào năm 1968, cũng như số người tham dự kết
hợp của cả hai đội trong 11 năm tiếp theo . Xây dựng khoảng
15. Tìm độ lệch chuẩn của tổng tài sản do ngân hàng nắm giữ
tin cậy 95% cho số người đi học trung bình của mỗi nhóm
trong tệp Excel Dữ liệu rủi ro tín dụng.
trong hai nhóm. Dựa trên các khoảng tin cậy này, bạn có
Một. Xử lý các bản ghi trong cơ sở dữ liệu dưới dạng dân
kết luận rằng việc tham dự đã thay đổi sau khi di chuyển
số, sử dụng mẫu của bạn trong Bài toán 2 và tính toán
không?
Machine Translated by Google
202
Chương 6 Lấy mẫu và ước lượng
21. Một nghiên cứu tiếp thị cho thấy chi tiêu trung bình cho
15 loại mặt hàng tiêu dùng của 297 người trả lời trong độ
24. Tệp Excel Doanh số bán hàng tại nhà hàng cung cấp mẫu về
doanh số bán hàng bữa trưa, bữa tối và giao hàng tận nơi
tuổi 18–34 là 91,86 đô la với độ lệch chuẩn là 50,90 đô
cho một nhà hàng Ý địa phương. Phát triển các khoảng dự
la. Đối với 536 người trả lời ở độ tuổi trên 35, giá trị
đoán 95% cho doanh số đô la hàng ngày của từng biến trong
trung bình và độ lệch chuẩn lần lượt là $81,53 và $45,29.
số này và cả cho tổng doanh số bán hàng vào một ngày cuối tuần.
Phát triển độ tin cậy 95% trong các khoảng thời gian cho
số tiền chi tiêu trung bình cho từng nhóm tuổi. Bạn có thể
rút ra kết luận gì?
25. Đối với Quyết định phê duyệt tín dụng ở tệp Excel, hãy tìm
khoảng tin cậy và dự đoán 95% cho điểm tín dụng và số dư
quay vòng của chủ sở hữu nhà và người không sở hữu nhà.
22. Một nghiên cứu về thương tích nghề nghiệp không gây tử vong
ở Hoa Kỳ cho thấy khoảng 31% tất cả các thương tích trong
lĩnh vực dịch vụ liên quan đến lưng. Viện Sức khỏe và An
toàn Lao động Quốc gia (NIOSH) khuyến nghị tiến hành đánh
giá toàn diện về công thái học đối với công việc và nơi
làm việc. Đáp lại thông tin này, Mark Glassmeyer đã phát
triển một chiếc xe đẩy tay công thái học độc đáo để giúp
các kỹ sư dịch vụ tại hiện trường làm việc hiệu quả hơn và
cũng để giảm chấn thương lưng do nâng các bộ phận và
thiết bị trong các cuộc gọi dịch vụ. Sử dụng mẫu gồm 382
phó kỹ sư dịch vụ hiện trường được cung cấp những chiếc
Làm thế nào để họ so sánh?
26. Các hiệp hội thương mại, chẳng hạn như Hiệp hội những người
chăn nuôi bò sữa thống nhất, thường xuyên tiến hành các
cuộc khảo sát để xác định các đặc điểm của thành viên.
Nếu tổ chức này tiến hành một cuộc khảo sát để ước tính
mức tiêu thụ sữa bình quân đầu người hàng năm và muốn có
độ tin cậy 95% rằng ước tính đó không khác quá {0,5 gallon
so với mức trung bình thực tế, thì cần cỡ mẫu như thế nào?
Dữ liệu trong quá khứ đã chỉ ra rằng độ lệch chuẩn của mức
tiêu thụ là khoảng 6 gallon.
xe đẩy này, Mark đã thu thập dữ liệu sau:
27. Nếu một nhà sản xuất tiến hành một cuộc khảo sát giữa các
Năm 1
(không có xe đẩy)
Năm 2
hộ gia đình thị trường mục tiêu được lựa chọn cụ thể và
muốn có độ tin cậy 95% rằng chênh lệch giữa ước tính mẫu
(có xe đẩy)
và thị phần thực tế cho sản phẩm mới của họ không quá {2%,
thì kích thước mẫu sẽ là bao nhiêu? Cần thiết?
Thời gian gọi trung bình
8,27 giờ
7,98 giờ
Thời gian gọi độ lệch
1,36 giờ
1,21 giờ
0,018
0,010
chuẩn
28. Một hiệp hội rượu vang Oregon muốn xác định tỷ lệ người
Tỷ lệ chấn thương
lưng
tiêu dùng bờ tây sẽ chi ít nhất 30 đô la cho rượu vang
pinot noir của Thung lũng Willamette ở mức độ tin cậy 99%.
Nếu họ muốn sai số không quá 5% thì họ phải lấy mẫu với số
Tìm khoảng tin cậy 95% cho số lần gọi trung bình và tỷ lệ
lượng bao nhiêu? Dựa trên các cuộc khảo sát về hành khách
chấn thương lưng mỗi năm.
đi tàu đã đến thăm các nhà máy rượu vang, hiệp hội ước tính
Những kết luận bạn sẽ đạt được dựa trên kết quả của bạn?
rằng tỷ lệ này là khoảng 0,15.
23. Sử dụng dữ liệu trong bảng tính Khảo sát chuyển đổi người
29. Một bệnh viện cộng đồng muốn ước tính chỉ số khối cơ thể
tiêu dùng, phát triển các khoảng dự đoán 95% và 99% cho
(BMI) của người dân địa phương. Để ước tính chỉ số BMI với
những điều sau:
sai số tối đa là 1,0 ở mức độ tin cậy 95%, họ nên sử dụng
Một. số giờ mỗi tuần mà một cá nhân sẽ sử dụng phương tiện
của mình
cỡ mẫu nào? Độ lệch chuẩn dựa trên dữ liệu bệnh nhân có
sẵn của bệnh viện là 3,0.
b. số dặm lái xe mỗi tuần
Trường hợp: Dự án nghiên cứu quảng cáo Drout
Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1.
đề xuất kích thước mẫu lớn hơn để có được thời gian chính xác hơn.
Đây là phần tiếp theo của trường hợp trong Chương 4. Đối với
Viết những phát hiện của bạn trong một báo cáo chính thức hoặc thêm
phần này của trường hợp, hãy tính khoảng tin cậy cho phương tiện
những phát hiện của bạn vào báo cáo mà bạn đã hoàn thành cho trường
và tỷ lệ, đồng thời phân tích các lỗi lấy mẫu, có thể là
hợp trong Chương 4, tùy thuộc vào yêu cầu của người hướng dẫn của bạn.
Machine Translated by Google
203
Chương 6 Lấy mẫu và ước lượng
Trường hợp: Hiệu suất Lawn Thiết bị
Khi xem xét các báo cáo trước đây của bạn, một số câu hỏi xuất hiện
trong tâm trí của Elizabeth Burke. Sử dụng ước tính điểm và khoảng
4. Khoảng tin cậy cho một mẫu bổ sung về hiệu suất kiểm tra
máy cắt như trong trang tính Kiểm tra máy cắt là bao nhiêu?
thời gian để giúp trả lời những câu hỏi này.
1. Tỷ lệ khách hàng đánh giá công ty bằng các câu trả lời khảo
sát “top box” (được định nghĩa là thang điểm 4 và 5) về chất
lượng, dễ sử dụng, giá cả và dịch vụ trong bảng Khảo sát
khách hàng năm 2012? Làm thế nào để các tỷ lệ này khác nhau
theo khu vực địa lý?
2. PLE có thể cung cấp cho khách hàng những ước tính nào, với sự
đảm bảo hợp lý, về thời gian phản hồi các cuộc gọi từ dịch
vụ khách hàng?
5. Đối với dữ liệu trong trang tính Blade Weight, phân phối lấy
mẫu của giá trị trung bình, giá trị trung bình tổng thể và
sai số chuẩn của giá trị trung bình là gì? Là một phân phối
bình thường mal là một giả định thích hợp cho việc lấy mẫu
phân phối của giá trị trung bình?
6. Phải đo bao nhiêu trọng lượng lưỡi để tìm khoảng tin cậy 95%
cho trọng lượng trung bình của lưỡi với sai số lấy mẫu tối đa
là 0,2? Điều gì xảy ra nếu lỗi lấy mẫu được chỉ định là 0,1?
3. Kỹ thuật đã thu thập dữ liệu về chi phí quy trình thay thế để
xây dựng đường truyền trong bảng Chi phí truyền tải. Bạn có
thể xác định liệu một trong các quy trình được đề xuất có
tốt hơn quy trình hiện tại không?
Trả lời những câu hỏi này và tóm tắt kết quả của bạn trong một báo
cáo chính thức cho cô Burke.
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Suy luận thống kê
CHƯƠNG
Benis Arapovic/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích mục đích của kiểm định giả thuyết.
Giải thích cách rút ra kết luận cho các thử nghiệm giả
Giải thích sự khác biệt giữa giả thuyết không và giả thuyết
thuyết một và hai đuôi.
thay thế.
Sử dụng giá trị p để rút ra kết luận về giả thuyết
Liệt kê các bước trong quy trình kiểm định giả thuyết.
các bài kiểm tra.
Nêu các dạng giả thuyết phù hợp cho các kiểm định giả thuyết
Nêu các dạng giả thuyết thích hợp cho kiểm định giả thuyết
một mẫu.
hai mẫu.
Xây dựng chính xác các giả thuyết.
Chọn và sử dụng quy trình Công cụ phân tích Excel cho các thử
Liệt kê bốn kết quả có thể xảy ra từ một thử nghiệm
nghiệm giả thuyết hai mẫu.
giả thuyết.
Giải thích mục đích của phân tích phương sai.
Giải thích sự khác biệt giữa Loại I và Loại II
Sử dụng công cụ Excel ANOVA để tiến hành phân tích kiểm
lỗi.
định phương sai.
Nêu cách tăng sức mạnh của một bài kiểm tra.
Liệt kê các giả định của ANOVA.
Chọn thống kê kiểm tra thích hợp cho các kiểm tra giả
Tiến hành và giải thích kết quả của phép kiểm tra chi bình
thuyết liên quan đến phương tiện và tỷ lệ.
phương về tính độc lập.
205
Machine Translated by Google
206
Chương 7 Suy luận thống kê
Các nhà quản lý cần biết liệu những quyết định mà họ đã đưa ra hoặc đang lên kế
hoạch đưa ra có hiệu quả hay không. Ví dụ: họ có thể muốn trả lời các câu hỏi như
sau: Chiến dịch quảng cáo có làm tăng doanh thu không? Vị trí sản phẩm trong một cửa
hàng tạp hóa sẽ tạo ra sự khác biệt? Phương pháp lắp ráp mới có cải thiện năng suất
hoặc chất lượng trong nhà máy không? Nhiều ứng dụng của phân tích kinh doanh liên
quan đến việc tìm kiếm bằng chứng thống kê rằng các quyết định hoặc thay đổi quy trình
đã đáp ứng mục tiêu của họ. Suy luận thống kê tập trung vào việc rút ra kết luận về
quần thể từ các mẫu. Suy luận thống kê bao gồm ước tính các tham số tổng thể và kiểm
tra giả thuyết, bao gồm việc rút ra kết luận về giá trị của các tham số của một hoặc
nhiều tổng thể dựa trên dữ liệu mẫu. Phương pháp thống kê cơ bản để làm điều này
được gọi là thử nghiệm giả thuyết. Kiểm định giả thuyết là một kỹ thuật cho phép bạn
rút ra các kết luận thống kê có giá trị về giá trị của các tham số dân số hoặc sự khác
biệt giữa chúng.
Thử nghiệm giả thuyết
Thử nghiệm giả thuyết liên quan đến việc rút ra các suy luận về hai mệnh đề tương phản
(mỗi mệnh đề được gọi là giả thuyết) liên quan đến giá trị của một hoặc nhiều tham
số tổng thể, chẳng hạn như giá trị trung bình, tỷ lệ, độ lệch chuẩn hoặc phương sai.
Một trong những đề xuất này (được gọi là giả thuyết không) mô tả lý thuyết hiện có
hoặc niềm tin được chấp nhận là hợp lệ trừ khi có bằng chứng thống kê mạnh mẽ ngược
lại. Mệnh đề thứ hai (được gọi là giả thuyết thay thế) là phần bổ sung của giả thuyết
vô hiệu; nó phải đúng nếu giả thuyết không là sai. Giả thuyết không được ký hiệu là
H0 và giả thuyết thay thế được ký hiệu là H1 . Sử dụng dữ liệu mẫu, chúng tôi hoặc
1. bác bỏ giả thuyết không và kết luận rằng dữ liệu mẫu cung cấp đủ bằng chứng
thống kê để hỗ trợ cho giả thuyết thay thế, hoặc
2. không bác bỏ giả thuyết không và kết luận rằng dữ liệu mẫu không ủng hộ giả
thuyết thay thế.
Nếu chúng ta không bác bỏ giả thuyết không, thì chúng ta chỉ có thể chấp nhận lý thuyết hoặc niềm tin hiện có là hợp lệ,
nhưng chúng ta không bao giờ có thể chứng minh điều đó.
VÍ DỤ 7.1 Một phép loại suy pháp lý để kiểm định giả thuyết
Một phép loại suy tốt để thử nghiệm giả thuyết là hệ thống pháp
bị cáo có tội, thì chúng tôi bác bỏ giả định vô tội. Nếu bằng
luật Hoa Kỳ. Trong hệ thống tư pháp của chúng ta, bị cáo vô
chứng không đủ để chỉ ra tội lỗi, thì chúng ta không thể bác
tội cho đến khi được chứng minh là có tội. Giả thuyết không -
bỏ giả thuyết vô tội; tuy nhiên, chúng tôi chưa chứng minh
niềm tin của chúng tôi về việc không có bất kỳ bằng chứng mâu
được rằng bị cáo vô tội. Trong thực tế, bạn chỉ có thể kết
thuẫn nào - không có tội, trong khi giả thuyết thay thế có
luận rằng bị cáo có tội từ bằng chứng; bạn vẫn chưa chứng
tội. Nếu bằng chứng (dữ liệu mẫu) chỉ ra rõ ràng rằng
minh được điều đó!
Machine Translated by Google
207
Chương 7 Suy luận thống kê
Thủ tục thử nghiệm giả thuyết
Tiến hành kiểm tra giả thuyết bao gồm một số bước:
1. Xác định tham số dân số quan tâm và xây dựng giả thuyết
bài kiểm tra
2. Lựa chọn mức ý nghĩa, trong đó xác định rủi ro của việc ký hợp đồng
kết luận trực tiếp khi giả thuyết giả định là thực sự đúng
3. Xác định quy tắc quyết định làm cơ sở cho kết luận
4. Thu thập dữ liệu và tính toán thống kê kiểm tra
5. Áp dụng quy tắc quyết định cho thống kê kiểm định và rút ra kết luận
Chúng tôi áp dụng quy trình này cho hai loại thử nghiệm giả thuyết khác nhau; lần đầu tiên liên quan đến
một quần thể duy nhất (được gọi là thử nghiệm một mẫu) và sau đó, các thử nghiệm liên quan đến nhiều
hơn một quần thể (kiểm tra nhiều mẫu).
Thử nghiệm giả thuyết một mẫu
Phép thử giả thuyết một mẫu là phép thử liên quan đến một tham số dân số duy nhất, chẳng hạn như giá
trị trung bình, tỷ lệ, độ lệch chuẩn, v.v. Để tiến hành thử nghiệm, chúng tôi sử dụng một mẫu dữ
liệu duy nhất từ dân số. Chúng tôi có thể tiến hành ba loại thử nghiệm giả thuyết một mẫu:
H0 : hằng số dân số Ú so với H1 : hằng số dân số 6
H0 : tham số dân số … hằng số so với H1 : tham số dân số 7 hằng số
H0 : hằng số tham số tổng thể so với H1 : tham số tổng thể
hằng số
Lưu ý rằng các bài kiểm tra một mẫu luôn so sánh một tham số tổng thể với một hằng số nào đó.
Đối với các kiểm định một mẫu, các phát biểu của các giả thuyết không được thể hiện dưới dạng Ú, …,
hoặc . Không đúng khi xây dựng một giả thuyết vô hiệu bằng cách sử dụng 7, 6 hoặc
.
Làm cách nào để chúng ta xác định dạng thích hợp của các giả thuyết không và giả thuyết thay thế?
Kiểm định giả thuyết luôn giả định rằng H0 là đúng và sử dụng dữ liệu mẫu để xác định xem H1 có nhiều
khả năng đúng hay không. Về mặt thống kê, chúng ta không thể “chứng minh” rằng H0 là đúng; chúng ta
chỉ có thể không từ chối nó. Do đó, nếu chúng ta không thể bác bỏ giả thuyết không, thì chúng ta chỉ
chứng minh rằng không có đủ bằng chứng để kết luận rằng giả thuyết thay thế là đúng.
Tuy nhiên, bác bỏ giả thuyết không cung cấp bằng chứng mạnh mẽ (theo nghĩa thống kê) rằng giả thuyết
không là không đúng và giả thuyết thay thế là đúng. Do đó, những gì chúng tôi muốn cung cấp bằng chứng
về mặt thống kê nên được xác định là giả thuyết thay thế.
VÍ DỤ 7.2 Lập công thức kiểm định giả thuyết một mẫu
CadSoft, nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy
sẽ giúp giảm thời gian phản hồi. Do đó, nó tin rằng thời gian
tính cho ngành hàng không vũ trụ, nhận được rất nhiều lời kêu
phản hồi trung bình có thể giảm xuống dưới 25 phút. Công ty
gọi hỗ trợ kỹ thuật. Trước đây, thời gian phản hồi trung bình
đã thu thập một mẫu gồm 44 thời gian phản hồi trong tệp Excel
ít nhất là 25 phút. Công ty đã nâng cấp hệ thống thông tin
Thời gian phản hồi của bộ phận hỗ trợ kỹ thuật CadSoft (xem
của mình và tin rằng điều này
Hình 7.1).
Machine Translated by Google
208
Chương 7 Suy luận thống kê
Hình 7.1
Phần hỗ trợ kỹ thuật
Dữ liệu thời gian phản hồi
Nếu hệ thống thông tin mới tạo ra sự khác biệt, thì dữ liệu
Chúng tôi thường viết điều này bằng cách sử dụng ký hiệu
sẽ có thể xác nhận rằng thời gian phản hồi trung bình ít hơn 25
thích hợp cho tham số dân số. Trong trường hợp này, đặt M là
phút; điều này xác định giả thuyết thay thế, H1 .
thời gian phản hồi trung bình, chúng ta sẽ viết:
Do đó, các tuyên bố thích hợp của các giả thuyết bản địa
H0 : M #25
H1 : M * 25
không và thay đổi là:
H0 : thời gian phản hồi trung bình dân số # 25 phút
H1 : thời gian phản hồi trung bình dân số * 25 phút
Hiểu các lỗi tiềm ẩn trong thử nghiệm giả thuyết
Chúng tôi đã biết rằng dữ liệu mẫu có thể cho thấy sự thay đổi đáng kể; do đó, kết luận dựa trên dữ
liệu mẫu có thể sai. Thử nghiệm giả thuyết có thể dẫn đến một trong bốn kết quả khác nhau:
1. Giả thuyết không thực sự đúng và phép thử chính xác không bác bỏ nó.
2. Giả thuyết không thực sự là sai, và phép thử giả thuyết đưa ra kết luận này một cách
chính xác.
3. Giả thuyết không thực sự đúng, nhưng kiểm định giả thuyết bác bỏ sai
nó (được gọi là lỗi Loại I).
4. Giả thuyết không thực sự là sai, nhưng kiểm tra giả thuyết sai không bác bỏ nó (gọi là
sai lầm loại II).
Xác suất mắc sai lầm loại I, nghĩa là P(bác bỏ H0 H0 là đúng), được ký hiệu bởi a và được gọi
là mức ý nghĩa. Điều này xác định khả năng bạn sẵn sàng đưa ra kết luận không chính xác rằng giả
thuyết thay thế là đúng trong khi trên thực tế, giả thuyết không là đúng. Giá trị của a có thể được
kiểm soát bởi người ra quyết định và được chọn trước khi tiến hành kiểm thử. Các mức thường được sử
dụng cho a là 0,10, 0,05 và 0,01.
Xác suất không bác bỏ đúng giả thuyết không, hay P(không bác bỏ H0 H0 là đúng), được gọi là
hệ số tin cậy và được tính bằng 1 - a. Đối với hệ số tin cậy là 0,95, chúng tôi muốn nói rằng chúng
tôi mong đợi 95 trong số 100 mẫu ủng hộ giả thuyết không thay vì giả thuyết thay thế khi H0 thực sự
đúng.
Thật không may, chúng ta không thể kiểm soát xác suất của lỗi Loại II, P (không bác bỏ H0 H0
là sai), được ký hiệu là b. Khác với a, b không thể xác định trước mà phụ thuộc vào giá trị thực của
tham số tổng thể (chưa biết).
Machine Translated by Google
209
Chương 7 Suy luận thống kê
VÍ DỤ 7.3 B phụ thuộc như thế nào vào trung bình dân số thực
Xem xét các giả thuyết trong ví dụ về CadSoft:
ta bác bỏ H0 . Nếu giá trị trung bình thực sự là 24 phút, ngay cả
khi nó nhỏ hơn 25, chúng ta sẽ có khả năng cao hơn nhiều trong
H0 : thời gian phản hồi trung bình # 25 phút
việc không bác bỏ H0 vì có khả năng cao hơn là giá trị trung bình
của mẫu sẽ lớn hơn 25 do lỗi lấy mẫu. Do đó, thời gian đáp ứng
H1 : thời gian phản hồi trung bình * 25 phút
trung bình thực sự càng xa giá trị được giả thuyết thì B càng nhỏ.
Ví dụ, nếu phản hồi trung bình thực sự mà mẫu được rút ra là 15
phút, thì chúng tôi hy vọng sẽ có xác suất kết luận sai rằng giả
Nói chung, khi A giảm, B tăng, vì vậy người ra quyết định phải xem
thuyết khống là nhỏ hơn nhiều so với khi phản hồi trung bình thực
xét sự đánh đổi của những rủi ro này. Vì vậy, nếu bạn chọn mức ý
sự là 24 phút chẳng hạn. Nếu giá trị trung bình thực sự là 15
nghĩa 0,01 thay vì 0,05 và giữ cỡ mẫu không đổi, bạn sẽ giảm xác
phút, thì giá trị trung bình mẫu rất có thể sẽ thấp hơn nhiều so
suất mắc lỗi Loại I nhưng tăng xác suất mắc lỗi Loại II.
với 25, dẫn đến
Giá trị 1 - b được gọi là sức mạnh của kiểm định và biểu thị xác suất bác bỏ đúng
giả thuyết không khi nó thực sự sai, hoặc P(bác bỏ H0 H0 là sai). Chúng tôi muốn sức
mạnh của thử nghiệm cao (tương đương, chúng tôi muốn xác suất xảy ra lỗi loại II thấp)
để cho phép chúng tôi đưa ra kết luận hợp lệ. Sức mạnh của thử nghiệm nhạy cảm với
kích thước mẫu; kích thước mẫu nhỏ thường dẫn đến giá trị thấp từ 1 - b. Sức mạnh của
thử nghiệm có thể được tăng lên bằng cách lấy các mẫu lớn hơn, cho phép chúng tôi phát
hiện những khác biệt nhỏ giữa thống kê mẫu và các tham số dân số với độ chính xác cao
hơn. Tuy nhiên, cỡ mẫu lớn hơn sẽ dẫn đến chi phí cao hơn, mang lại ý nghĩa mới cho
câu ngạn ngữ, không có bữa ăn trưa miễn phí. Điều này cho thấy rằng nếu bạn chọn mức ý
nghĩa nhỏ, bạn nên cố gắng bù lại bằng cỡ mẫu lớn khi tiến hành kiểm định.
Chọn thống kê kiểm tra
Bước tiếp theo là thu thập dữ liệu mẫu và sử dụng dữ liệu để đưa ra kết luận. Quyết
định bác bỏ hoặc không bác bỏ một giả thuyết không dựa trên việc tính toán một thống
kê kiểm tra từ dữ liệu mẫu. Thống kê kiểm định được sử dụng phụ thuộc vào loại kiểm
định giả thuyết. Các loại kiểm tra giả thuyết khác nhau sử dụng số liệu thống kê kiểm
tra khác nhau và điều quan trọng là sử dụng đúng. Thống kê thử nghiệm thích hợp thường
phụ thuộc vào một số giả định nhất định về tổng thể—ví dụ, độ lệch chuẩn có được biết hay không.
Các công thức sau đây cho thấy hai loại thử nghiệm giả thuyết một mẫu cho phương tiện
và thống kê thử nghiệm liên quan của chúng. Giá trị của m0 là giá trị giả định của
trung bình dân số; nghĩa là, “hằng số” trong công thức giả thuyết.
Loại bài kiểm tra
Thử nghiệm thống kê
Kiểm định một mẫu cho giá trị trung bình, S đã biết
=
Kiểm định một mẫu cho giá trị trung bình, S chưa biết
=
- M0
S 1n
- M0
1n
(7.1)
(7.2)
Machine Translated by Google
210
Chương 7 Suy luận thống kê
VÍ DỤ 7.4 Tính toán thống kê kiểm tra
Đối với ví dụ về CadSoft, thời gian phản hồi trung bình cho
mẫu gồm 44 khách hàng là = 21,91 phút và độ lệch chuẩn của
mẫu là = 19,49. Giá trị trung bình giả định là M0 = 25. Bạn
có thể thắc mắc tại sao chúng ta thậm chí phải kiểm tra giả
Do đó, giá trị của thống kê kiểm định là
=
- M0
1n
=
21,91
25
=
19,49> 144
- 3,09
2.938
=
1,05
thuyết theo thống kê khi trung bình mẫu là 21,91 rõ ràng là
Quan sát rằng tử số là khoảng cách giữa giá trị trung bình
nhỏ hơn 25. Lý do là do lỗi lấy mẫu. Rất có thể trung bình
của mẫu (21,91) và giá trị giả định (25). Bằng cách chia cho
dân số thực sự là 25 hoặc hơn và chúng tôi chỉ may mắn rút
sai số chuẩn, giá trị của đại diện cho số lượng sai số chuẩn
được một mẫu có trung bình nhỏ hơn. Do lỗi lấy mẫu tiềm ẩn,
mà giá trị trung bình của mẫu là từ giá trị được giả định.
sẽ rất nguy hiểm nếu kết luận rằng công ty đã đạt được mục
Trong trường hợp này, giá trị trung bình của mẫu là 1,05 sai
tiêu chỉ bằng cách nhìn vào giá trị trung bình mẫu mà không
số chuẩn dưới giá trị giả định là 25.
có bằng chứng thống kê tốt hơn.
Khái niệm này cung cấp cơ sở cơ bản cho phép kiểm tra giả
thuyết—nếu giá trị trung bình của mẫu cách xa giá trị giả định
Bởi vì chúng ta không biết giá trị của dân số
“quá xa”, thì giả thuyết không nên bị bác bỏ.
độ lệch chuẩn, thống kê kiểm tra thích hợp để sử dụng là cho
công thức (7.2):
=
- M0
1n
Rút ra một kết luận
Kết luận bác bỏ hay không bác bỏ H0 dựa trên việc so sánh giá trị của thống
kê kiểm định với “giá trị tới hạn” từ phân phối lấy mẫu của thống kê kiểm định
khi giả thuyết khống là đúng và mức ý nghĩa đã chọn, a. Phân phối lấy mẫu của
thống kê kiểm tra thường là phân phối chuẩn, phân phối t hoặc một số phân phối
nổi tiếng khác. Ví dụ, phân phối lấy mẫu của thống kê kiểm định z trong công
thức (7.1) là phân phối chuẩn; thống kê kiểm định t trong công thức (7.2) có
phân phối t với n - 1 bậc tự do. Đối với phép thử một đầu, giá trị tới hạn là
số lỗi tiêu chuẩn khác với giá trị giả thuyết mà xác suất vượt quá giá trị
tới hạn là a. Ví dụ: nếu là 0,05, thì chúng tôi đang nói rằng chỉ có 5% khả
năng giá trị trung bình mẫu sẽ cách xa giá trị được giả định hoàn toàn do lỗi
lấy mẫu và nếu điều này xảy ra, điều đó cho thấy rằng giá trị trung bình thực
của tổng thể là khác với những gì đã được giả định.
Giá trị tới hạn chia phân phối lấy mẫu thành hai phần, vùng từ chối
và một miền không bác bỏ. Nếu giả thuyết không là sai, nhiều khả năng thống kê kiểm
định sẽ rơi vào vùng bác bỏ. Nếu đúng như vậy, chúng tôi bác bỏ giả thuyết khống; nếu
không, chúng tôi không từ chối nó. Vùng bác bỏ được chọn sao cho xác suất thống kê
kiểm tra rơi vào vùng đó nếu H0 đúng là xác suất sai lầm loại I, a.
Vùng bác bỏ xuất hiện ở các đuôi của phân phối lấy mẫu của thống kê kiểm định và
phụ thuộc vào cấu trúc của kiểm định giả thuyết, như trong Hình 7.2. Nếu giả thuyết
không được cấu trúc như và giả thuyết thay thế là
, thì chúng tôi sẽ bác bỏ H0 nếu
thống kê kiểm định cao hoặc thấp đáng kể. Trong trường hợp này, vùng từ chối sẽ xảy
ra ở cả phía trên và phía dưới của phân bố [xem Hình 7.2(a)]. Đây được gọi là phép
thử giả thuyết hai phía. Bởi vì xác suất mà thống kê kiểm tra rơi vào vùng bác bỏ,
cho rằng H0 là đúng, diện tích kết hợp của cả hai đuôi phải là a;
mỗi đuôi có diện tích a>2.
Machine Translated by Google
211
Chương 7 Suy luận thống kê
Khu vực từ chối
Hình 7.2
Minh họa từ chối
Các khu vực trong giả thuyết
thử nghiệm
/2
/2
Giá trị tới hạn thấp hơn
Giá trị quan trọng trên
(a) Thử nghiệm hai đuôi
Sự từ chối
Sự từ chối
Vùng đất
Vùng đất
Kiểm tra một đuôi thấp hơn
Giá trị quan trọng
Bài kiểm tra một đuôi trên
(b) Kiểm tra một đuôi
Giá trị quan trọng
Các loại kiểm định giả thuyết khác, xác định hướng của mối quan hệ (trong đó H0 là Ú
hoặc…), được gọi là kiểm định một phía của giả thuyết. Trong trường hợp này, vùng bác bỏ chỉ
xuất hiện ở một đuôi của phân bố [xem Hình 7.2(b)]. Việc xác định đuôi trực tiếp của phân
phối để sử dụng làm vùng bác bỏ cho thử nghiệm một đầu là dễ dàng. Nếu H1
được ghi là 6, vùng từ chối nằm ở đuôi dưới; nếu H1 được tuyên bố là 7, thì vùng bác bỏ nằm
ở đuôi trên (chỉ cần nghĩ về bất đẳng thức như một mũi tên chỉ hướng đuôi thích hợp).
Phép thử hai phía có cả giá trị tới hạn trên và dưới, trong khi phép thử một phía có giá
trị tới hạn trên hoặc dưới. Đối với các phân phối chuẩn và phân phối t tiêu chuẩn, có giá trị
trung bình bằng 0, các giá trị tới hạn đuôi thấp hơn là âm; các giá trị tới hạn của đuôi trên
là dương.
Các giá trị tới hạn giúp dễ dàng xác định liệu thống kê thử nghiệm có nằm trong vùng bác
bỏ của phân phối lấy mẫu phù hợp hay không. Ví dụ: đối với kiểm định một phía trên, nếu thống
kê kiểm định lớn hơn giá trị tới hạn, thì quyết định sẽ là bác bỏ giả thuyết không. Tương tự,
đối với kiểm định một phía dưới, nếu thống kê kiểm định nhỏ hơn giá trị tới hạn, chúng ta sẽ
bác bỏ giả thuyết không. Đối với kiểm định hai đầu, nếu thống kê kiểm định lớn hơn giá trị
tới hạn trên hoặc nhỏ hơn giá trị tới hạn dưới, thì quyết định sẽ là bác bỏ giả thuyết không.
VÍ DỤ 7.5 Tìm Giá trị Tới hạn và Rút ra Kết luận
Đối với ví dụ về CadSoft, nếu mức ý nghĩa là 0,05, thì giá
cuối sách hoặc bằng cách sử dụng hàm Excel T.INV(1
trị tới hạn đối với phép thử một đuôi là giá trị của phân
1). Như vậy, giá trị tới hạn là T.INV10.95,432 =
A, n =
0,05,43
phối - với n - 1 độ tự do cung cấp diện tích đuôi là 0,05,
1,68. Bởi vì phân phối - là số liệu đối xứng với giá trị
tức là A ,n
trung bình là 0 và đây là phép thử đuôi dưới, nên chúng tôi
1.
Chúng tôi có thể tìm thấy -giá trị trong Bảng A.2 trong Phụ lục A tại
sử dụng giá trị âm của số này (
1,68) làm giá trị tới hạn.
Machine Translated by Google
212
Chương 7 Suy luận thống kê
Hình 7.3
-Kiểm tra phản hồi trung bình
Thời gian
Sự từ chối
Vùng đất
1,68 1,05 0
Bằng cách so sánh giá trị của thống kê kiểm định t với
giá trị tới hạn này, chúng ta thấy rằng thống kê kiểm định
cải thiện xuống dưới 25 phút. Hình 7.3 minh họa kết luận mà
chúng tôi đạt được. Mặc dù giá trị trung bình của mẫu nhỏ hơn
không nằm dưới giá trị tới hạn (nghĩa là - 1,05 + -1,68) và
25, nhưng chúng tôi không thể kết luận rằng thời gian phản hồi
không nằm trong vùng bác bỏ. Do đó không thể bác bỏ H0
trung bình của tổng thể nhỏ hơn 25 do lỗi lấy mẫu lớn.
và không thể kết luận rằng thời gian đáp ứng trung bình có
Kiểm tra giả thuyết hai phía cho giá trị trung bình
Về cơ bản, tất cả các bài kiểm tra giả thuyết đều tương tự nhau; bạn chỉ cần đảm bảo rằng bạn
chọn thống kê kiểm tra chính xác, giá trị tới hạn và vùng bác bỏ, tùy thuộc vào loại giả thuyết.
Ví dụ sau đây minh họa một thử nghiệm hai phía về giả thuyết cho giá trị trung bình.
VÍ DỤ 7.6 Tiến hành kiểm định giả thuyết hai phía cho giá trị trung bình
Hình 7.4 cho thấy một phần dữ liệu được thu thập trong cuộc
Trong trường hợp này, giá trị trung bình của mẫu là 2,73
khảo sát 34 người trả lời của một công ty du lịch (được cung
sai số chuẩn trên giá trị trung bình được giả định là 35. Tuy
cấp trong tệp Excel Khảo sát Kỳ nghỉ). Giả sử rằng công ty du
nhiên, vì đây là thử nghiệm hai phía nên vùng bác bỏ và quy
lịch muốn nhắm mục tiêu đến những cá nhân xấp xỉ 35 tuổi. Vì
tắc quyết định là khác nhau. Đối với mức ý nghĩa A, chúng ta
vậy, chúng tôi muốn kiểm tra xem độ tuổi trung bình của người
bác bỏ H0 nếu thống kê kiểm định t nằm dưới mức tiêu cực
trả lời có bằng 35 hay không. Giả thuyết cần kiểm định là
giá trị cal,
dương, A>2,n
A>2,n
1 hoặc cao hơn giá trị tới hạn
1. Sử dụng Bảng A.2 trong Phụ lục A ở phía sau
của cuốn sách này hoặc hàm Excel T.INV.2T(0,05,33) để tính
H0: tuổi trung bình = 35
toán 0,025,33, ta thu được 2,0345. Do đó, các giá trị tới hạn
là ±2,0345. Vì thống kê -test không nằm trong khoảng giữa
H1: tuổi trung bình 3 35
Giá trị trung bình của mẫu được tính là 38,677 và độ lệch
chuẩn của mẫu là 7,858.
các giá trị này, nên chúng ta phải bác bỏ giả thuyết không
cho rằng tuổi trung bình là 35 (xem Hình 7.5).
Chúng tôi sử dụng thống kê -test:
=
M0 1n
=
38.677
35
= 2,73
7.858 234
giá trị p
Một cách tiếp cận khác để so sánh thống kê kiểm định với giá trị tới hạn trong kiểm định giả
thuyết là tìm xác suất thu được giá trị thống kê kiểm định bằng hoặc cao hơn xác suất thu được
từ dữ liệu mẫu khi giả thuyết không là đúng. xác suất này
Machine Translated by Google
213
Chương 7 Suy luận thống kê
Hình 7.4
Phần khảo sát kỳ nghỉ
Dữ liệu
Khu vực từ chối
Hình 7.5
Minh họa Phép thử hai phía
cho Ví dụ 7.6
0
– 2,0345
2,0345 2,73
thường được gọi là giá trị p, hoặc mức ý nghĩa quan sát được. Để rút ra kết luận, hãy so
sánh giá trị p với mức ý nghĩa đã chọn a; bất cứ khi nào p 6 a, bác bỏ giả thuyết không và
nếu không thì không bác bỏ nó. Giá trị p giúp dễ dàng đưa ra kết luận về các thử nghiệm giả
thuyết. Đối với phép thử một phía thấp hơn, giá trị p là xác suất ở bên trái của thống kê
phép thử t trong phân phối t và được tìm thấy bởi T.DIST(t, n - 1, TRUE). Đối với phép thử
một phía trên, giá trị p là xác suất ở bên phải của thống kê phép thử t và được tìm thấy
bởi 1 - T.DIST(t, n - 1, TRUE). Đối với thử nghiệm hai phía, giá trị p được tìm thấy bởi
T.DIST.2T (t, n - 1), nếu t 7 0; nếu t 6 0, sử dụng T.DIST.2T(-t, n - 1).
VÍ DỤ 7.7 Sử dụng giá trị p
Đối với ví dụ về CadSoft, thống kê -test cho kiểm tra giả
ĐÚNG VẬY. Đây là một xác suất khá cao, vì vậy sẽ khó để kết
thuyết trong ví dụ về thời gian phản hồi là - 1,05.
luận rằng giá trị trung bình thực sự nhỏ hơn 25 và chúng ta có
Nếu giá trị trung bình thực sự là 25, thì giá trị p là xác
thể quy thực tế rằng thống kê kiểm tra nhỏ hơn giá trị giả
suất thu được thống kê kiểm tra bằng - 1,05 hoặc thấp hơn (vùng
thuyết chỉ do lỗi lấy mẫu và không bác bỏ giả thuyết không.
bên trái của - 1,05 trong Hình 7.3). Chúng ta có thể tính giá
trị p bằng cách sử dụng hàm Excel T.DIST1
1,05,43,TRUE2 =
0,1498. Vì p = 0,1498 không nhỏ hơn A = 0,05 nên ta không bác
Đối với thử nghiệm giả thuyết hai phía của Khảo sát Kỳ
nghỉ trong Ví dụ 7.6, giá trị p cho thử nghiệm này là 0,010,
bỏ H0 . Nói cách khác, có khoảng 15% khả năng thống kê kiểm
giá trị này cũng có thể được tính bằng hàm Excel
định sẽ là -1,05 hoặc nhỏ hơn nếu giả thuyết không là
T.DIST.2T(2,73,33); do đó, kể từ 0,010 * 0,05, chúng tôi bác
bỏ H0 .
Thử nghiệm một mẫu cho tỷ lệ
Nhiều biện pháp kinh doanh quan trọng, chẳng hạn như thị phần hoặc tỷ lệ giao hàng nhận được
đúng hạn, được thể hiện dưới dạng tỷ lệ. Chúng tôi có thể tiến hành kiểm tra giả thuyết về tỷ
lệ dân số theo cách tương tự như chúng tôi đã làm đối với phương tiện. Thống kê kiểm định cho
phép kiểm định một mẫu đối với tỷ lệ là
z
pn 2 0 11 -
0
(7.3)
0 2>n
Machine Translated by Google
214
Chương 7 Suy luận thống kê
ở đâu là 0giá trị giả thuyết và np là tỷ lệ mẫu. Tương tự như thống kê kiểm tra phương tiện,
thống kê kiểm tra z cho thấy số lượng lỗi tiêu chuẩn mà tỷ lệ mẫu là từ giá trị giả định.
Phân phối lấy mẫu của thống kê kiểm tra này có phân phối chuẩn chuẩn.
VÍ DỤ 7.8 Thử nghiệm một mẫu cho tỷ lệ
CadSoft cũng đã lấy mẫu của 44 khách hàng và yêu cầu họ đánh
0,795
=
giá chất lượng tổng thể của sản phẩm phần mềm của công ty
20,75(1
0,75
= 0,69
0,75) 44
bằng thang điểm:
0—rất kém
Trong trường hợp này, tỷ lệ mẫu 0,795 là sai số chuẩn
1—nghèo
0,69 trên giá trị giả định là 0,75.
2—tốt
Bởi vì đây là một kiểm định đuôi trên, chúng tôi bác bỏ H0
3—rất tốt
nếu giá trị của thống kê kiểm định lớn hơn giá trị tới hạn.
4—xuất sắc
Bởi vì phân phối lấy mẫu của là chuẩn tắc chuẩn, nên giá trị
Những dữ liệu này có thể được tìm thấy trong Excel File
tới hạn của đối với mức ý nghĩa 0,05 được tìm thấy bằng hàm
CadSoft Prod uct Satisfaction Survey. Công ty theo dõi sự
Excel NORM.S.
hài lòng của khách hàng về chất lượng bằng cách đo lường tỷ
INV 10,952 = 1,645. Vì thống kê kiểm định không vượt quá giá
lệ phản hồi trong hai loại hàng đầu. Trong quá khứ, tỷ lệ này
trị tới hạn nên chúng ta không thể bác bỏ giả thuyết khống
trung bình khoảng 75%. Đối với những dữ liệu này, 35 trong
rằng tỷ lệ này không lớn hơn 0,75.
số 44 phản hồi, tương đương 79,5%, thuộc hai loại hàng đầu.
Do đó, mặc dù tỷ lệ mẫu vượt quá 0,75, chúng tôi không thể
Có đủ bằng chứng để kết luận rằng thước đo sự hài lòng này
kết luận thống kê rằng xếp hạng theo ý kiến của khách hàng
chắc chắn đã vượt quá 75% đáng kể khi sử dụng mức ý nghĩa
đã được cải thiện đáng kể. Chúng tôi có thể quy điều này cho
0,05 không? Trả lời câu hỏi này liên quan đến việc kiểm tra
lỗi lấy mẫu và cỡ mẫu tương đối nhỏ. Có thể tìm thấy giá trị
p bằng cách tính diện tích ở bên phải của thống kê kiểm tra
các giả thuyết về tỷ lệ dân số P:
trong phân phối chuẩn chuẩn: 1 – NORM.S.DIST(0,69,TRUE) =
H0 : P " 0,75
0,24.
H1 : P + 0,75
Lưu ý rằng giá trị p lớn hơn mức ý nghĩa 0,05, dẫn đến cùng
Đây là một bài kiểm tra một đuôi trên. Thống kê kiểm định
một kết luận là không bác bỏ giả thuyết không.
được tính bằng công thức (7.3):
Đối với thử nghiệm có đuôi thấp hơn, giá trị p sẽ được tính theo khu vực bên trái của
thống kê thử nghiệm; tức là NORM.S.DIST(z, TRUE). Nếu chúng ta có phép thử hai phía, giá trị
p là 2*NORM.S.DIST(z, TRUE) nếu z 6 0; mặt khác, giá trị p là 2*(1-NORM.S.DIST (-z, TRUE))
nếu z 7 0.
Khoảng tin cậy và kiểm định giả thuyết
Một mối quan hệ chặt chẽ tồn tại giữa khoảng tin cậy và kiểm tra giả thuyết. Ví dụ: giả sử
chúng ta xây dựng khoảng tin cậy 95% cho giá trị trung bình. Nếu chúng ta muốn kiểm tra các
giả thuyết
H0 : m m0
H1 : m
m0
với mức ý nghĩa 5%, chúng ta chỉ cần kiểm tra xem giá trị giả thuyết m0 có nằm trong khoảng
tin cậy hay không. Nếu không, thì chúng ta bác bỏ H0 ; nếu đúng như vậy thì chúng ta không
thể bác bỏ H0 .
Machine Translated by Google
215
Chương 7 Suy luận thống kê
Đối với kiểm định một phía, chúng ta cần kiểm tra xem khoảng tin cậy rơi vào phía nào của
giá trị giả định. Đối với thử nghiệm đuôi thấp hơn, nếu khoảng tin cậy hoàn toàn nằm dưới giá
trị được giả định, thì chúng tôi bác bỏ giả thuyết không. Đối với thử nghiệm đuôi trên, nếu
khoảng tin cậy nằm hoàn toàn trên giá trị giả thuyết, chúng tôi cũng bác bỏ giả thuyết không.
Thử nghiệm giả thuyết hai mẫu
Nhiều ứng dụng thực tế của kiểm tra giả thuyết liên quan đến việc so sánh hai tổng thể về sự
khác biệt về phương tiện, tỷ lệ hoặc các tham số dân số khác. Những thử nghiệm như vậy có thể
xác nhận sự khác biệt giữa các nhà cung cấp, hiệu suất tại hai địa điểm nhà máy khác nhau,
phương pháp làm việc mới và cũ hoặc chương trình khen thưởng và công nhận, và nhiều tình huống
khác. Tương tự như kiểm định một mẫu, kiểm định giả thuyết hai mẫu về sự khác biệt trong các
tham số tổng thể có một trong các dạng sau:
1. Kiểm định cấp dưới H0 : tham số quần thể (1) - tham số quần thể (2) Ú D0 so với
H1 : tham số quần thể (1) - tham số quần thể (2) 6 D0 . Thử nghiệm này tìm kiếm
bằng chứng cho thấy sự khác biệt giữa tham số dân số (1) và tham số dân số (2)
nhỏ hơn một giá trị nào đó, D0 . Khi D0 0, kiểm định chỉ đơn giản là tìm cách kết
luận liệu tham số tổng thể (1) có nhỏ hơn tham số tổng thể (2) hay không.
2. Kiểm định trên đuôi H0 : tham số quần thể (1) - tham số quần thể (2)
… D0 so với H1 : tham số dân số (1) - tham số dân số (2) 7 D0 .
Thử nghiệm này tìm kiếm bằng chứng cho thấy sự khác biệt giữa tham số tổng thể (1)
và tham số tổng thể (2) lớn hơn một giá trị nào đó, D0 . Khi D0 0, kiểm định chỉ
đơn giản là tìm cách kết luận liệu tham số tổng thể (1) có lớn hơn tham số tổng
thể (2) hay không.
3. Kiểm định hai đầu H0 : tham số quần thể (1) - tham số quần thể (2) D0
so với H1 : tham số dân số (1) - tham số dân số (2)
D0 . Thử nghiệm này tìm kiếm
bằng chứng cho thấy sự khác biệt giữa các tham số tổng thể bằng D0 . Khi D0 0,
chúng tôi đang tìm kiếm bằng chứng cho thấy tham số tổng thể (1) khác với tham số
(2).
Trong hầu hết các ứng dụng D0 0, và chúng ta chỉ đơn giản là tìm cách so sánh các tham số
tổng thể. Tuy nhiên, có những tình huống chúng ta có thể muốn xác định xem các tham số có khác
nhau một lượng khác không hay không; ví dụ: “công việc phân loại A kiếm được nhiều hơn ít nhất
5.000 đô la so với phân loại công việc B.”
Các quy trình kiểm tra giả thuyết tương tự như các quy trình đã thảo luận trước đây theo
nghĩa tính toán một thống kê kiểm tra và so sánh nó với một giá trị tới hạn. Tuy nhiên, thống kê
kiểm tra đối với kiểm tra hai mẫu phức tạp hơn so với kiểm tra một mẫu và chúng tôi sẽ không đi
sâu vào các chi tiết toán học. May mắn thay, Excel cung cấp một số công cụ để tiến hành kiểm
tra hai mẫu và chúng tôi sẽ sử dụng những công cụ này trong các ví dụ của mình. Bảng 7.1 tóm
tắt các thủ tục của Excel Analysis Toolpak mà chúng ta sẽ sử dụng.
Thử nghiệm hai mẫu cho sự khác biệt về phương tiện
Trong thử nghiệm hai mẫu về sự khác biệt về phương tiện, chúng tôi luôn kiểm tra các giả thuyết có dạng
H0 : m1 - m2 {Ú, …, hay } 0
H1 : m1 - m2 {6, 7 hoặc
} 0
(7.4)
Machine Translated by Google
216
Chương 7 Suy luận thống kê
Bảng 7.1
Loại bài kiểm tra
Thử nghiệm hai mẫu cho phương tiện, S
Phân tích Excel
Thủ tục Toolpak
cho hai mẫu
Kiểm tra giả thuyết
Thử nghiệm hai mẫu cho phương tiện, S
thủ tục excel
2 đã biết
2
không xác định,
Excel -test: Hai mẫu giả định phương sai
không bằng nhau
giả định không bình đẳng
Thử nghiệm hai mẫu cho phương tiện, S
Excel -test: Hai mẫu cho phương tiện
2
không xác định,
Excel -test: Hai mẫu giả định phương sai bằng
giả sử bằng nhau
nhau
Thử nghiệm hai mẫu được ghép nối cho phương tiện
Excel -test: Ghép nối hai mẫu cho phương tiện
Thử nghiệm hai mẫu cho sự bằng nhau của phương sai
Excel F-test Hai mẫu cho phương sai
VÍ DỤ 7.9 So sánh hiệu suất của nhà cung cấp
Hai cột cuối cùng trong tệp dữ liệu Đơn đặt hàng cung cấp ngày
Sản phẩm bền. Vì vậy, họ muốn kiểm tra giả thuyết
đặt hàng và ngày đến của tất cả các đơn đặt hàng với từng nhà
cung cấp. Khoảng thời gian từ khi đặt đơn hàng đến khi đơn hàng
đến thường được gọi là thời gian giao hàng. Chúng ta có thể tính
toán thời gian giao hàng bằng cách trừ các giá trị hàm ngày của
Excel với nhau (Ngày đến
Ngày đặt hàng), như thể hiện trong
Hình 7.7 cho thấy một bảng tổng hợp về thời gian giao hàng
trung bình của mỗi nhà cung cấp. Các nhà quản lý mua hàng đã
M2 " 0
H1 : M1
M2 + 0
trong đó M1 = thời gian chuẩn bị trung bình cho Tấm Phèn và =
M2
Hình 7.6.
H0 : M1
thời gian chuẩn bị trung bình cho Sản phẩm Bền.
Việc bác bỏ giả thuyết không cho thấy rằng thời gian sử
dụng trung bình của Tấm Phèn dài hơn về mặt thống kê so với Sản
lưu ý rằng họ đặt hàng nhiều loại mặt hàng giống nhau từ Tấm
phẩm Bền. Tuy nhiên, nếu chúng tôi không thể bác bỏ giả thuyết
Alum và Sản phẩm Bền và đang xem xét loại bỏ Tấm Alum khỏi cơ
không, thì mặc dù thời gian chuẩn bị trung bình cho Tấm phủ
sở cung cấp của mình nếu thời gian giao hàng của nó dài hơn
Phèn dài hơn, nhưng sự khác biệt rất có thể là do lỗi lấy mẫu
đáng kể so với thời gian giao hàng trước đó.
và chúng tôi không thể kết luận rằng có sự khác biệt có ý nghĩa
thống kê.
Việc lựa chọn thống kê kiểm tra thích hợp và quy trình Excel cho kiểm tra hai mẫu đối với các
phương tiện phụ thuộc vào việc liệu độ lệch chuẩn tổng thể có được biết hay không và nếu không, liệu
chúng có được giả định là bằng nhau hay không.
1. Phương sai dân số đã biết. Trong Excel, chọn z-Test: Two-Sample for Means từ menu Data
Analysis. Thử nghiệm này sử dụng thống kê thử nghiệm dựa trên phân phối chuẩn chuẩn.
2. Phương sai dân số chưa được biết và giả định là không bằng nhau. Từ phân tích dữ liệu
sis, chọn kiểm tra t: Hai mẫu giả định phương sai không bằng nhau. Thống kê kiểm định
Hình 7.6
Phần đơn đặt hàng
Cơ sở dữ liệu với thời gian dẫn
phép tính
cho trường hợp này có phân phối t.
Machine Translated by Google
217
Chương 7 Suy luận thống kê
Hình 7.7
Bảng tổng hợp cho trung bình
Thời gian giao hàng của nhà cung cấp
3. Phương sai tổng thể chưa biết nhưng giả sử bằng nhau. Trong Excel, chọn kiểm tra t: Hai mẫu giả
định phương sai bằng nhau. Thống kê kiểm định cũng có phân phối t, nhưng nó khác với trường
hợp phương sai không bằng nhau.
Các công cụ này tính toán thống kê thử nghiệm, giá trị p cho cả thử nghiệm một phía và hai phía, cũng như các
giá trị tới hạn đối với thử nghiệm một phía và hai phía. Đối với kiểm định z với các phương sai tổng thể đã
biết, chúng được gọi là z, P1Z … z2 một đuôi hoặc P1Z … z2 hai đuôi và z Một đuôi quan trọng
hoặc z Hai đuôi quan trọng, tương ứng. Đối với các bài kiểm tra t, chúng được gọi là t Stat, P1T … t2 one-tail
hoặc P1T … t2 hai đầu tương ứng và t Một đầu tới hạn hoặc t Hai đầu tới hạn tương ứng.
Thận trọng: Bạn phải rất cẩn thận trong việc diễn giải thông tin đầu ra từ các
công cụ Excel và áp dụng các quy tắc sau:
1. Nếu thống kê kiểm tra là âm tính, giá trị p một đầu là giá trị p chính xác cho kiểm định đuôi
thấp hơn; tuy nhiên, đối với thử nghiệm đuôi trên, bạn phải lấy 1,0 trừ đi con số này để nhận
được giá trị p chính xác.
2. Nếu thống kê kiểm tra là không âm (dương hoặc bằng 0), thì giá trị p trong đầu ra là giá trị p
chính xác cho kiểm tra đuôi trên; nhưng đối với thử nghiệm low-tail, bạn phải lấy 1,0 trừ đi
con số này để có được giá trị p chính xác.
3. Đối với phép thử đuôi dưới, bạn phải thay đổi dấu của giá trị tới hạn một đầu.
Chỉ hiếm khi các phương sai dân số được biết đến; Ngoài ra, thường rất khó để biện minh cho giả định
rằng phương sai của mỗi tổng thể là bằng nhau. Do đó, trong hầu hết các tình huống thực tế, chúng tôi sử dụng
phép thử t: Hai mẫu giả định phương sai không bằng nhau. Quy trình này cũng hoạt động tốt với cỡ mẫu nhỏ nếu
quần thể gần như bình thường. Kích thước của mỗi mẫu được khuyến nghị là xấp xỉ như nhau và tổng cộng là 20
mẫu trở lên. Nếu quần thể có độ lệch cao, thì nên sử dụng cỡ mẫu lớn hơn.
VÍ DỤ 7.10 Kiểm tra các giả thuyết về hiệu suất trong thời gian chờ đợi của nhà cung cấp
Để tiến hành kiểm tra giả thuyết nhằm so sánh thời gian giao hàng
là vì sự bình đẳng về phương tiện. Tuy nhiên, công cụ này cho phép
cho Tấm nhôm và Sản phẩm bền, trước tiên hãy sắp xếp dữ liệu theo nhà
bạn chỉ định một giá trị D0 để kiểm tra giả thuyết H0 : M1
cung cấp, sau đó chọn -test: Two-Sample Giả định phương sai không
nếu bạn muốn kiểm tra xem dân số có nghĩa là có một khoảng cách nhất
bằng nhau từ phân tích dữ liệu
định giữa chúng hay không. Trong ví dụ này, phạm vi Biến 1 xác định
thực đơn. Hộp thoại được hiển thị trong Hình 7.8. Hộp thoại sẽ nhắc
thời gian giao hàng cho Tấm Phèn và phạm vi Biến 2 cho Sản phẩm Bền.
M2 = D0
bạn về phạm vi dữ liệu cho từng biến, chênh lệch trung bình được giả
định, liệu phạm vi có nhãn hay không và mức ý nghĩa A. Nếu bạn để
trống ô Chênh lệch trung bình giả định hoặc nhập số 0, phép thử
Hình 7.9 cho thấy kết quả từ công cụ. Công cụ này cung cấp
thông tin cho cả bài kiểm tra một đầu và hai đầu. Vì đây là bài
kiểm tra một đầu nên chúng tôi sử dụng
Machine Translated by Google
218
Chương 7 Suy luận thống kê
thông tin nổi bật trong Hình 7.9 để rút ra kết luận của chúng
Các sản phẩm. Chúng ta có thể rút ra kết luận tương tự bằng cách
tôi. Đối với ví dụ này, t Stat là dương và chúng ta có phép thử
so sánh giá trị của t Stat với giá trị tới hạn t Critical one
đuôi trên; do đó, sử dụng các quy tắc đã nêu trước đó, giá trị p
tail. Là một bài kiểm tra đuôi trên, giá trị của t Một đuôi nghiêm trọng
là 0,00166. Chỉ dựa trên điều này, chúng tôi bác bỏ giả thuyết
là 1,812. So sánh điều này với giá trị của t Stat, chúng ta sẽ bác
không và phải kết luận rằng Alum Sheeting có thời gian sản xuất
bỏ H0 chỉ khi S at + C itical one@ ail. Vì t Stat lớn hơn t
trung bình dài hơn theo thống kê so với Durrable
Critical one-tail nên chúng ta bác bỏ giả thuyết không.
Thử nghiệm hai mẫu cho phương tiện với các mẫu được ghép nối
Trong ví dụ trước để kiểm tra sự khác biệt về thời gian giao hàng trung bình của nhà cung cấp,
chúng tôi đã sử dụng các mẫu độc lập; nghĩa là, các đơn đặt hàng trong mẫu của mỗi nhà cung
cấp không liên quan đến nhau. Trong nhiều trường hợp, dữ liệu từ hai mẫu được ghép nối hoặc
khớp một cách tự nhiên. Ví dụ, giả sử rằng một mẫu công nhân dây chuyền lắp ráp thực hiện một
nhiệm vụ bằng hai loại phương pháp làm việc khác nhau và người quản lý nhà máy muốn xác định
xem có sự khác biệt nào tồn tại giữa hai phương pháp hay không. Khi thu thập dữ liệu, mỗi công
nhân sẽ thực hiện nhiệm vụ bằng từng phương pháp. Nếu chúng tôi sử dụng các mẫu độc lập, chúng
tôi sẽ chọn ngẫu nhiên hai nhóm nhân viên khác nhau và chỉ định một phương thức làm việc cho
một nhóm và phương thức gốc thay đổi cho nhóm thứ hai. Mỗi công nhân sẽ thực hiện nhiệm vụ chỉ
bằng một trong các phương pháp. Một ví dụ khác, giả sử rằng chúng ta muốn so sánh giá bán lẻ
của các mặt hàng tạp hóa giữa hai cửa hàng tạp hóa cạnh tranh. Việc so sánh các mẫu mặt hàng
khác nhau từ mỗi cửa hàng không có ý nghĩa gì. Thay vào đó, chúng tôi sẽ chọn một mẫu các mặt hàng tạp hóa và
Hình 7.8
Hộp thoại cho hai mẫu
-Thử nghiệm, Sigma không xác định
Hình 7.9
Kết quả cho thử nghiệm hai mẫu
cho hiệu suất thời gian chờ đợi
Machine Translated by Google
219
Chương 7 Suy luận thống kê
tìm giá tính cho các mặt hàng giống nhau của mỗi cửa hàng. Trong trường hợp này, các mẫu được ghép nối
vì mỗi mặt hàng sẽ có giá từ mỗi cửa hàng trong số hai cửa hàng.
Khi các mẫu được ghép nối được sử dụng, thử nghiệm t được ghép nối sẽ chính xác hơn so với giả định
rằng dữ liệu đến từ các quần thể độc lập. Giả thuyết khống mà chúng tôi kiểm tra xoay quanh sự khác biệt
trung bình (mD) giữa các mẫu được ghép nối; đó là
H0 : mD 5Ú, …, hoặc 6 0
H1 : mD 56, 7 hoặc
} 0.
Thử nghiệm sử dụng chênh lệch trung bình giữa dữ liệu được ghép nối và độ lệch chuẩn của các khác biệt
tương tự như thử nghiệm một mẫu.
Excel có một công cụ Phân tích dữ liệu, t-Test: Paired Two-Sample for Phương tiện để tiến hành
loại thử nghiệm này. Trong hộp thoại, bạn chỉ cần nhập phạm vi biến và chênh lệch trung bình giả định.
VÍ DỤ 7.11 Sử dụng phép thử hai mẫu được ghép nối để tìm phương tiện
Tệp Excel Pile Foundation chứa các ước tính được sử dụng
Hình 7.10 hiển thị một phần dữ liệu và hộp thoại Excel
trong giá thầu và chiều dài cọc khoan-đúc thực tế mà các kỹ
cho thử nghiệm hai mẫu được ghép nối. Hình 7.11 hiển thị đầu
sư cuối cùng phải sử dụng cho một dự án kỹ thuật nền móng.
ra từ công cụ Excel sử dụng mức ý nghĩa 0,05, trong đó Biến 1
Kinh nghiệm trước đây của nhà thầu cho thấy rằng thông tin
là độ dài ước tính và Biến 2 là độ dài thực tế. Đây là phép
giá thầu nói chung là chính xác, vì vậy giá trị trung bình
thử hai phía, vì vậy trong Hình 7.11, chúng tôi diễn giải các
của các chênh lệch theo cặp giữa chiều dài cọc thực tế và
kết quả chỉ sử dụng thông tin hai phía được đánh dấu. Các giá
chiều dài ước tính phải gần bằng không. Sau khi dự án này hoàn
trị tới hạn là ±1,968 và vì t Stat nhỏ hơn nhiều so với giá
thành, nhà thầu nhận thấy rằng chênh lệch trung bình giữa
trị tới hạn thấp hơn, chúng ta phải bác bỏ giả thuyết không
chiều dài thực tế và chiều dài ước tính là 6,38.
và kết luận rằng giá trị trung bình của sự khác biệt giữa ước
tính và chiều dài cọc thực tế là có ý nghĩa thống kê. Lưu ý
Nhà thầu có thể kết luận rằng thông tin dự thầu là kém?
rằng giá trị p về cơ bản bằng 0, xác minh kết luận này.
Kiểm tra sự bình đẳng của phương sai
Hiểu được sự thay đổi trong quy trình kinh doanh là rất quan trọng, như chúng tôi đã nêu trước đây.
Chẳng hạn, một địa điểm hoặc một nhóm nhân viên có thể hiện sự thay đổi cao hơn những nơi khác không?
Chúng ta có thể kiểm tra sự bằng nhau của phương sai giữa hai mẫu bằng cách sử dụng một loại kiểm tra mới,
Hình 7.10
Một phần của đống tệp Excel
Sự thành lập
Machine Translated by Google
220
Chương 7 Suy luận thống kê
Hình 7.11
Đầu ra Excel cho ghép nối
Thử nghiệm hai mẫu cho phương tiện
bài kiểm tra F. Để sử dụng thử nghiệm này, chúng ta phải giả định rằng cả hai mẫu đều được lấy từ các quần thể
bình thường. Các giả thuyết chúng tôi kiểm tra là
-
H0 :
2 1
H1 :
-
2 1
2
2
0
0
(7.5)
2 2
Để kiểm tra những giả thuyết này, chúng tôi thu thập các mẫu quan sát n1 từ quần
thể 1 và n2 quan sát từ quần thể 2. Thử nghiệm sử dụng thống kê kiểm định F, là tỷ lệ
phương sai của hai mẫu:
F
s21
(7.6)
s22
Phân phối lấy mẫu của thống kê này được gọi là phân phối F. Tương tự như phân phối
t, nó được đặc trưng bởi bậc tự do; tuy nhiên, phân phối F có hai
bậc tự do, một liên kết với tử số của thống kê F, n1 - 1, và một liên kết với mẫu số
của thống kê F, n2 - 1. Bảng A.4 trong Phụ lục A ở cuối sách chỉ cung cấp các giá trị
tới hạn trên đuôi và phân phối không phải là số liệu đối xứng, cũng như phân phối
chuẩn hoặc phân phối t. Do đó, mặc dù kiểm định giả thuyết thực sự là kiểm định hai
phía, nhưng chúng tôi sẽ đơn giản hóa nó thành kiểm định một phía để giúp dễ dàng sử
dụng các bảng phân phối F và giải thích kết quả của công cụ Excel mà chúng tôi sẽ sử
dụng. Chúng tôi làm điều này bằng cách đảm bảo rằng khi tính toán F, chúng tôi lấy tỷ
lệ của phương sai mẫu lớn hơn với phương sai mẫu nhỏ hơn.
Nếu các phương sai khác biệt đáng kể với nhau, chúng ta mong đợi F lớn hơn 1
nhiều; F càng gần 1 thì càng có nhiều khả năng các phương sai là như nhau.
Do đó, chúng ta chỉ cần so sánh F với giá trị tới hạn trên đuôi. Do đó, đối với một mức độ
có ý nghĩa a, chúng ta tìm giá trị tới hạn Fa>2,df1,df2 của phân phối F, và sau đó chúng ta
bác bỏ giả thuyết không nếu thống kê kiểm định F vượt quá giá trị tới hạn. Lưu ý rằng chúng tôi là
sử dụng a>2 để tìm giá trị tới hạn, không phải a. Điều này là do chúng tôi chỉ sử dụng phần đuôi trên
thông tin làm cơ sở cho kết luận của chúng tôi.
VÍ DỤ 7.12 Áp dụng kiểm định F cho sự bằng nhau của các phương sai
Để minh họa cho phép thử F, giả sử rằng chúng tôi muốn xác
Công cụ phân tích dữ liệu F-test cho sự bình đẳng của phương
định liệu phương sai của thời gian giao hàng có giống nhau đối
sai. Nhật ký đường kính nhắc bạn nhập phạm vi dữ liệu mẫu cho
với Tấm nhôm và Sản phẩm bền trong dữ liệu Đơn đặt hàng hay
từng biến. Như chúng tôi đã lưu ý, bạn nên đảm bảo rằng biến
không. Kiểm tra F có thể được áp dụng bằng Excel
đầu tiên có phương sai lớn hơn; điều này có thể yêu cầu bạn phải
Machine Translated by Google
221
Chương 7 Suy luận thống kê
Hình 7.12
Kết quả cho hai mẫu
F-Test cho đẳng thức của
phương sai
tính toán phương sai trước khi bạn sử dụng công cụ. Trong
là 3,607. Bởi vì F * F Critical one-tail, chúng ta không thể
trường hợp này, phương sai của thời gian giao hàng đối với Tấm
bác bỏ giả thuyết không và kết luận rằng các phương sai
Phèn lớn hơn phương sai đối với Sản phẩm Bền (xem Hình 7.9), vì
không khác biệt đáng kể với nhau. Lưu ý rằng giá trị p là
vậy phương sai này được gán cho Biến 1. Cũng lưu ý rằng nếu
P1F*=f 2 one ail = 0,0286. Mặc dù mức ý nghĩa là 0,05, hãy
chúng ta chọn A = 0,05, thì chúng ta phải nhập 0,025 cho mức độ
nhớ rằng chúng ta phải so sánh
ý nghĩa trong hộp thoại Excel. Kết quả được thể hiện trong Hình 7.12.
điều này thành A>2 = 0,025 vì chúng tôi chỉ sử dụng đuôi trên
Giá trị của thống kê F, F, là 3,467. Chúng tôi so sánh
thông tin.
giá trị này với giá trị tới hạn trên đuôi, F tới hạn một đuôi,
Kiểm định F về sự bằng nhau của các phương sai thường được sử dụng trước khi kiểm định sự khác biệt
về giá trị trung bình để kiểm định thích hợp (không biết phương sai tổng thể và được giả định là không
bằng nhau hoặc phương sai tổng thể chưa biết và được giả định bằng nhau, mà chúng ta đã thảo luận trước đó
trong chương này) được chọn .
Phân tích phương sai (ANOVA)
Đến thời điểm này, chúng ta đã thảo luận về các thử nghiệm giả thuyết so sánh một tham số tổng thể
với một giá trị không đổi hoặc so sánh phương tiện của hai tổng thể khác nhau. Thông thường, chúng tôi
muốn so sánh phương tiện của một số nhóm khác nhau để xác định xem tất cả có bằng nhau hay không hoặc
nếu có sự khác biệt đáng kể so với phần còn lại.
VÍ DỤ 7.13 Sự khác biệt trong dữ liệu khảo sát bảo hiểm
Trong Khảo sát bảo hiểm tệp dữ liệu Excel, chúng tôi có thể
giáo dục. Chúng ta có thể sắp xếp dữ liệu theo trình độ học vấn
quan tâm đến việc liệu có sự khác biệt đáng kể nào tồn tại về
và sau đó tạo một bảng tương tự như sau.
sự hài lòng giữa các cá nhân với các mức độ khác nhau của
Tốt nghiệp cao đẳng
Bằng tốt nghiệp Cao đẳng nào đó
5
3
4
3
4
1
5
5
4
3
5
2
3
5
3
3
4
4
3
5
4
4
5
2
Trung bình
3.444
Đếm
9
4.500
số 8
3.143
7
Machine Translated by Google
222
Chương 7 Suy luận thống kê
Mặc dù mức độ hài lòng trung bình của mỗi nhóm là khác nhau
cho biết một cách thuyết phục liệu những khác biệt này có
và có vẻ như mức độ hài lòng trung bình của những người có bằng
đáng kể hay không do lỗi lấy mẫu.
tốt nghiệp cao hơn, nhưng chúng ta không thể
Trong thuật ngữ thống kê, biến quan tâm được gọi là một yếu tố. Trong ví dụ này, yếu tố là
trình độ học vấn và chúng tôi có ba cấp độ phân loại của yếu tố này, tốt nghiệp đại học, bằng tốt
nghiệp và một số trường đại học. Do đó, có vẻ như chúng ta sẽ phải thực hiện ba thử nghiệm theo cặp
khác nhau để xác định xem có tồn tại sự khác biệt đáng kể nào giữa chúng hay không. Khi số lượng
cấp độ yếu tố tăng lên, bạn có thể dễ dàng nhận thấy rằng số lượng thử nghiệm theo cặp tăng lên rất
nhanh.
May mắn thay, tồn tại các công cụ thống kê khác giúp loại bỏ sự cần thiết của một phương pháp
tiếp cận ap tẻ nhạt như vậy. Phân tích phương sai (ANOVA) là một trong số đó. Giả thuyết vô hiệu
cho ANOVA là dân số trung bình của tất cả các nhóm đều bằng nhau; giả thuyết thay thế là ít nhất một
giá trị trung bình khác với phần còn lại:
H0 : m1 m2 g mm
H1 : ít nhất một giá trị trung bình khác với các giá trị trung bình khác
ANOVA lấy tên của nó từ thực tế là chúng tôi đang phân tích các phương sai trong dữ liệu; về cơ
bản, ANOVA tính toán thước đo phương sai giữa phương tiện của từng nhóm và thước đo phương sai
trong các nhóm và kiểm tra một thống kê kiểm tra là tỷ lệ của các thước đo này. Thống kê kiểm định
này có thể được chứng minh là có phân phối F (tương tự như kiểm định sự bằng nhau của các phương
sai). Nếu thống kê F đủ lớn dựa trên mức ý nghĩa đã chọn và vượt quá giá trị tới hạn, chúng tôi sẽ
bác bỏ giả thuyết giả thuyết vô hiệu. Excel cung cấp công cụ Phân tích dữ liệu ANOVA: Single
Factor để tiến hành phân tích phương sai.
VÍ DỤ 7.14 Áp dụng Công cụ Excel ANOVA
Để kiểm tra giả thuyết không rằng mức độ hài lòng trung bình
Kết quả cho ví dụ này được đưa ra trong Hình 7.14.
đối với tất cả các cấp học trong tệp Excel Khảo sát bảo hiểm
Báo cáo đầu ra bắt đầu bằng một báo cáo tóm tắt các số liệu
bằng nhau so với giả thuyết thay thế rằng ít nhất một giá trị
thống kê cơ bản cho từng nhóm. Phần ANOVA báo cáo chi tiết
trung bình khác nhau, hãy chọn ANOVA: Yếu tố đơn
của bài kiểm tra giả thuyết. Bạn không cần phải lo lắng về tất
từ các tùy chọn Phân tích dữ liệu. Trước tiên, bạn phải thiết
cả các chi tiết toán học. Thông tin quan trọng để giải thích
lập trang tính sao cho dữ liệu bạn muốn sử dụng được hiển thị
bài kiểm tra được đưa ra trong các cột có nhãn F (thống kê
trong các cột liền kề như trong Ví dụ 7.13.
kiểm tra F), giá trị P (giá trị p cho bài kiểm tra) và F crit
Trong hộp thoại minh họa trong Hình 7.13, chỉ định phạm vi đầu
(giá trị tới hạn từ phân phối F). Trong ví dụ này, F = 3,92,
vào của dữ liệu (phải nằm trong các cột liền kề) và liệu dữ
và giá trị tới hạn từ phân phối F là 3,4668. Ở đây F + F crit;
liệu đó có được lưu trữ theo hàng hay cột hay không (nghĩa là
do đó, chúng ta phải bác bỏ giả thuyết không và kết luận rằng
mỗi cấp độ hoặc nhóm yếu tố là một hàng hay cột trong phạm vi) .
có sự khác biệt đáng kể về phương tiện của các nhóm; tức là
Kích thước mẫu cho mỗi cấp độ yếu tố không cần giống nhau,
mức độ hài lòng trung bình không giống nhau giữa ba cấp học.
nhưng phạm vi đầu vào phải là vùng hình chữ nhật chứa tất cả
Ngoài ra, chúng tôi thấy rằng giá trị p nhỏ hơn mức ý nghĩa đã
dữ liệu. Bạn cũng phải xác định mức ý nghĩa (A).
chọn, 0,05, dẫn đến kết luận tương tự.
Machine Translated by Google
Chương 7 Suy luận thống kê
223
Hình 7.13
Hộp thoại một nhân tố ANOVA
Hình 7.14
Kết quả ANOVA cho
Dữ liệu khảo sát bảo hiểm
Mặc dù ANOVA có thể xác định sự khác biệt giữa các phương tiện của nhiều quần thể, nhưng nó
không thể xác định phương tiện nào khác với phần còn lại. Để làm điều này, chúng tôi có thể sử
dụng quy trình so sánh nhiều Tukey-Kramer. Thật không may, Excel không cung cấp công cụ này, nhưng
nó có thể được tìm thấy trong các phần mềm thống kê khác.
Giả định của ANOVA
ANOVA yêu cầu các giả định rằng m nhóm hoặc cấp độ nhân tố đang được nghiên cứu đại diện cho các
quần thể có kết quả đo lường
1. được lấy một cách ngẫu nhiên và độc lập,
2. được phân phối bình thường, và
3. có phương sai bằng nhau.
Nếu những giả định này bị vi phạm thì mức độ ý nghĩa và sức mạnh của phép thử có thể bị ảnh hưởng.
Thông thường, giả định đầu tiên dễ dàng được xác thực khi các mẫu ngẫu nhiên được chọn cho dữ
liệu. ANOVA khá mạnh đối với những sai lệch so với tính bình thường, vì vậy trong hầu hết các
trường hợp, đây không phải là vấn đề nghiêm trọng. Nếu cỡ mẫu bằng nhau, thì việc vi phạm giả
định thứ ba không có ảnh hưởng nghiêm trọng đến kết luận thống kê; tuy nhiên, với kích thước mẫu
không bằng nhau, nó có thể.
Khi các giả định cơ bản của ANOVA bị vi phạm, bạn có thể sử dụng phép thử ric không tham số
không yêu cầu các giả định này; chúng tôi giới thiệu bạn đến các văn bản toàn diện hơn về số liệu
thống kê để biết thêm thông tin và ví dụ.
Machine Translated by Google
224
Chương 7 Suy luận thống kê
Cuối cùng, chúng tôi muốn chỉ ra rằng sinh viên thường sử dụng ANOVA để so sánh sự bình
đẳng về phương tiện của chính xác hai quần thể. Điều quan trọng là phải nhận ra rằng khi làm
điều này, bạn đang đưa ra giả định rằng các quần thể có phương sai bằng nhau (giả định 3).
Do đó, bạn sẽ thấy rằng các giá trị p cho cả ANOVA và Kiểm tra t: Giả sử hai mẫu
Phương sai bằng nhau sẽ giống nhau và dẫn đến cùng một kết luận. Tuy nhiên, nếu các phương
sai không bằng nhau như trường hợp chung của dữ liệu mẫu, ANOVA có thể dẫn đến một kết
luận sai lầm. Chúng tôi khuyên bạn không nên sử dụng ANOVA để so sánh phương tiện của hai
quần thể mà thay vào đó, hãy sử dụng phép thử t thích hợp giả định các phương sai không bằng nhau.
Kiểm tra Chi-Square cho Độc lập
Một vấn đề phổ biến trong kinh doanh là xác định xem hai biến phân loại có độc lập hay
không. Chúng tôi đã giới thiệu khái niệm về các sự kiện độc lập trong Chương 5. Trong ví
dụ khảo sát về nước tăng lực (Ví dụ 5.9), chúng tôi đã sử dụng xác suất có điều kiện để xác
định xem sở thích nhãn hiệu có độc lập với giới tính hay không. Tuy nhiên, với dữ liệu
mẫu, lỗi lấy mẫu có thể gây khó khăn cho việc đánh giá đúng tính độc lập của các biến phân
loại. Chúng ta sẽ không bao giờ mong đợi các xác suất kết hợp hoàn toàn giống với tích của
các xác suất cận biên do lỗi lấy mẫu ngay cả khi hai biến độc lập về mặt thống kê. Kiểm tra
tính độc lập là rất quan trọng trong các ứng dụng tiếp thị.
VÍ DỤ 7.15 Tính độc lập và chiến lược tiếp thị
Hình 7.15 cho thấy một phần dữ liệu mẫu được sử dụng trong
sinh viên nữ cũng thích nhãn hiệu 1. Trên thực tế, chỉ có 9
Chương 5 về sở thích nhãn hiệu nước tăng lực (Khảo sát về nước
trong số 37 (24%) thích nhãn hiệu 1. Tuy nhiên, chúng tôi
tăng lực trên tệp Excel) và bảng chéo kết quả. Một câu hỏi
không biết liệu điều này chỉ đơn giản là do lỗi lấy mẫu hay
tiếp thị quan trọng là liệu tỷ lệ nam giới thích một nhãn
đại diện phản đối sự khác biệt đáng kể. Biết liệu giới tính
hiệu cụ thể có khác với tỷ lệ nữ giới hay không. Chẳng hạn,
và sở thích thương hiệu có độc lập hay không có thể giúp
trong số 63 sinh viên nam, 25 (40%) thích thương hiệu 1. Nếu
nhân viên tiếp thị nhắm mục tiêu chiến dịch quảng cáo tốt hơn.
giới tính và sở thích thương hiệu thực sự độc lập, chúng tôi
Nếu họ không độc lập, thì quảng cáo sẽ khác nhau đối với nam
hy vọng rằng tỷ lệ mẫu của các sinh viên là như nhau.
và nữ, trong khi nếu họ độc lập thì điều đó không thành vấn
đề.
Chúng ta có thể kiểm tra tính độc lập bằng cách sử dụng một bài kiểm tra giả thuyết được gọi là bài kiểm tra chi bình phương cho
Sự độc lập. Kiểm định chi bình phương cho tính độc lập kiểm tra các giả thuyết sau:
H0 : hai biến phân loại là độc lập
H1 : hai biến phân loại là phụ thuộc
Bài kiểm tra chi bình phương là một ví dụ về bài kiểm tra phi tham số; nghĩa là, một thứ
không phụ thuộc vào các giả định thống kê hạn chế, như ANOVA. Điều này làm cho nó trở thành
một công cụ phổ biến và được áp dụng rộng rãi để hiểu mối quan hệ giữa các dữ liệu phân
loại. Bước đầu tiên trong quy trình là tính toán tần suất dự kiến trong mỗi ô của bảng chéo
nếu hai biến độc lập. Điều này được thực hiện dễ dàng bằng cách sử dụng như sau:
tần suất mong đợi ở hàng i và cột j
(tổng cộng hàng i)(tổng cộng cột j)
tổng số quan sát
(7.7)
Machine Translated by Google
225
Chương 7 Suy luận thống kê
Hình 7.15
Phần năng lượng
Khảo sát đồ uống và
Bảng chéo
Hình 7.16
Tần suất dự kiến cho Kiểm
tra Chi-Square
VÍ DỤ 7.16 Tính tần số dự kiến
Đối với dữ liệu Khảo sát về Nước tăng lực, chúng tôi có thể
có thể dễ dàng thực hiện trong Excel. Hình 7.16 thể hiện kết
tính tần suất dự kiến bằng cách sử dụng dữ liệu từ bảng chéo
quả (xem file Excel Chi-Square Test). Ví dụ, công thức trong
và công thức (7.7). Ví dụ, tần suất mong đợi của phụ nữ thích
ô F11 là =$I5*F$7/$I$7, có thể sao chép công thức này sang
thương hiệu 1 là (37) (34) 100 = 12,58. Cái này
các ô khác để hoàn thành phép tính.
Tiếp theo, chúng tôi tính toán một thống kê kiểm tra, được gọi là thống kê chi bình
phương, là tổng bình phương của sự khác biệt giữa tần suất được quan sát, fo và tần suất
dự kiến, fe , chia cho tần suất dự kiến trong mỗi ô:
2 một
1 fo - fe 22
(7.8)
fe
Tần suất quan sát được càng gần với tần suất mong đợi thì giá trị của thống kê chi bình
2
phương càng nhỏ. Phân phối lấy mẫu của tion được gọi là phân phối
là một phân phối đặc biệt
2
chi-square 1 2. Phân phối chi-square được đặc trưng bởi bậc tự do, tương tự như phân phối
t. Bảng A.3 trong Phụ lục A ở cuối cuốn sách này cung cấp các giá trị tới hạn của phân phối
chi-square cho các giá trị được chọn của a.
Chúng tôi so sánh thống kê chi bình phương cho một mức ý nghĩa xác định a với giá trị tới
hạn từ phân phối chi bình phương với 1r - 121c - 12 bậc tự do, trong đó r và c là số hàng
và cột trong chéo bảng lập bảng tương ứng.
Hàm Excel CHISQ.INV.RT(xác suất, độ_tự do) trả về giá trị có vùng đuôi bên phải
bằng với xác suất cho một mức độ tự do đã chỉ định. Bằng cách đặt xác suất bằng với
mức ý nghĩa, chúng ta có thể thu được giá trị tới hạn cho kiểm định giả thuyết. Nếu
thống kê kiểm định vượt quá giá trị tới hạn đối với một mức ý nghĩa cụ thể, chúng
tôi bác bỏ H0 . Hàm Excel CHISQ.TEST(actual_range,expected_range) tính giá trị p cho
phép kiểm chi bình phương.
2
Machine Translated by Google
226
Chương 7 Suy luận thống kê
Hình 7.17
Thực hiện Excel của
Kiểm định chi bình phương
VÍ DỤ 7.17 Tiến hành phép thử Chi-Square
Đối với dữ liệu Khảo sát Nước tăng lực, Hình 7.17 cho thấy
giá trị tới hạn 5,99146. Bởi vì thống kê kiểm tra vượt quá
các tính toán của thống kê chi bình phương sử dụng công thức
giá trị tới hạn, chúng tôi bác bỏ giả thuyết không rằng hai
(7.8). Ví dụ: công thức trong ô F17 là =(F5
biến phân loại là độc lập.
F11)2 F11, công
thức này có thể được sao chép sang các ô khác. Tổng lớn trong
Ngoài ra, chúng ta có thể chỉ cần sử dụng hàm CHISQ.TEST
ô phía dưới bên phải là giá trị . Trong trường hợp này, thống
để tìm giá trị p cho phép thử và đưa ra kết luận dựa trên giá
của
2
kê kiểm định chi bình phương là 6,4924.
trị đó mà không cần tính toán thống kê chi bình phương.
Vì bảng chéo có = 2 hàng và c = 3
Đối với ví dụ này, hàm CHISQ.TEST(F6:H7,F12:H13) trả về giá
cột, chúng ta có (2
trị p là 0,0389, nhỏ hơn A = 0,05;
1) (3
1) = 2 bậc tự do đối với phân
phối chi-square. Sử dụng A = 0,05,
do đó, chúng tôi bác bỏ giả thuyết khống.
hàm Excel CHISQ.INV.RT(0,05,2) trả về
Thận trọng khi sử dụng Kiểm tra Chi-Square
Đầu tiên, khi sử dụng PivotTable để xây dựng bảng chéo và thực hiện kiểm tra chi bình phương
trong Excel tương tự như Hình 7.17, hãy hết sức thận trọng với các ô trống trong PivotTable.
Các ô trống sẽ không được tính trong phép tính chi-square và sẽ dẫn đến lỗi. Nếu bạn có các
ô trống trong PivotTable, chỉ cần thay thế chúng bằng số không hoặc bấm chuột phải vào
PivotTable, chọn Tùy chọn PivotTable, rồi nhập 0 vào trường cho hộp kiểm Đối với các ô trống
hiển thị.
Thứ hai, thử nghiệm chi bình phương giả định tần số tế bào dự kiến đầy đủ. Nguyên tắc
chung là không có quá 20% ô có tần số dự kiến nhỏ hơn 5 và không có tần số dự kiến nào bằng
0. Hiện có nhiều quy trình thống kê nâng cao hơn để xử lý vấn đề này, nhưng bạn có thể xem
xét việc tổng hợp một số hàng hoặc cột theo kiểu hợp lý để thực thi giả định này. Tất nhiên,
điều này dẫn đến ít hàng hoặc cột hơn.
Machine Translated by Google
227
Chương 7 Suy luận thống kê
Phân tích trong thực tế: Sử dụng thử nghiệm giả thuyết và phân tích kinh doanh
trong Dự án Cải thiện Dịch vụ Bộ phận Trợ giúp1
Schlumberger là một nhà cung cấp dịch vụ mỏ dầu quốc tế
trung tâm cuộc gọi và bộ phận trợ giúp khác nhau về mặt
có trụ sở tại Houston, Texas. Thông qua một hợp đồng thuê
thống kê, họ không tìm thấy lợi thế đáng kể về mặt thống
ngoài, họ cung cấp các dịch vụ bàn trợ giúp cho một công
kê nào trong việc giữ nhân viên bộ phận trợ giúp làm việc
ty viễn thông toàn cầu cung cấp các dịch vụ liên lạc hữu
tại trung tâm cuộc gọi. Do đó, họ đã chuyển các nhân viên
tuyến và viễn thông tích hợp cho hơn 2 triệu thuê bao di
trợ giúp đến khu vực văn phòng chính của khách hàng. Sử
động. Bộ phận trợ giúp, đặt tại Ecuador, phải đối mặt với
dụng nhiều kỹ thuật phân tích khác, họ có thể thực hiện
các khiếu nại ngày càng tăng của khách hàng và tổn thất về
các thay đổi đối với quy trình của mình, dẫn đến kết quả như sau:
đô la và thời gian chu kỳ. Công ty đã dựa vào khả năng
phân tích của một trong những người quản lý bộ phận trợ
giúp để điều tra và giải quyết vấn đề. Dữ liệu cho thấy
thời gian giải quyết trung bình cho các sự cố được báo cáo
cho bộ phận trợ giúp là 9,75 giờ. Công ty đặt mục tiêu giảm
50% thời gian giải quyết trung bình.
Ngoài ra, số lượng các vấn đề được báo cáo cho bộ phận trợ
giúp đã đạt mức trung bình 30.000 mỗi tháng. Giảm tổng số
vấn đề được báo cáo cho bộ phận trợ giúp sẽ cho phép công
ty giải quyết những vấn đề chưa được giải quyết do thiếu
thời gian và giảm số lượng cuộc gọi bị bỏ dở. Họ đặt mục
StockLite/
Shutterstock.com
tiêu xác định các sự cố có thể ngăn ngừa để khách hàng
không phải liên hệ với bộ phận trợ giúp ngay từ đầu và
đặt mục tiêu 15.000 sự cố.
Là một phần trong phân tích của họ, họ quan sát thấy
rằng thời gian giải pháp trung bình cho các kỹ thuật viên
giảm số lượng các vấn đề về bộ phận trợ giúp là
bộ phận trợ giúp làm việc tại trung tâm cuộc gọi dường như
32%
thấp hơn mức trung bình của các kỹ thuật viên làm việc tại
nâng cao năng lực đáp ứng mục tiêu tổng số
chỗ với khách hàng. Họ đã tiến hành một bài kiểm tra giả
phát hành 15.000
thuyết xoay quanh câu hỏi: Có sự khác biệt nào giữa việc
giảm thời gian giải pháp máy tính để bàn trung
để nhân viên bộ phận trợ giúp làm việc tại một cơ sở bên
bình từ 9,75 giờ xuống còn 1 giờ, cải
ngoài cơ sở hơn là tại chỗ trong văn phòng chính của khách
thiện 89,5%
hàng không? Giả thuyết khống là không có sự khác biệt
giảm tỷ lệ từ bỏ cuộc gọi từ 44% xuống 26%
đáng kể; giả thuyết thay thế là có một sự khác biệt đáng
kể. Sử dụng phép thử hai mẫu để đánh giá liệu
giảm 69% chi phí vận hành bộ phận trợ giúp
Điều khoản quan trọng
giả thuyết thay thế
giả thuyết không
Phân tích phương sai (ANOVA)
Thử nghiệm giả thuyết một mẫu
phân phối Chi bình phương
Kiểm định một phía của giả thuyết
thống kê chi bình phương
p-Value (mức ý nghĩa quan sát được)
hệ số tin cậy
Sức mạnh của bài kiểm tra
Nhân tố
suy luận thống kê
giả thuyết
Kiểm định hai phía của giả thuyết
kiểm định giả thuyết
Lỗi loại I
Mức độ ý nghĩa
lỗi loại II
1Dựa trên Francisco, Endara M. “Bộ phận Trợ giúp Cải thiện Dịch vụ và Tiết kiệm Tiền với Six Sigma,” Hiệp hội Chất lượng Hoa Kỳ, http://asq.org/
economic-case/markets/pdf/help-desk-24490.pdf, được truy cập 19/8/11.
Machine Translated by Google
228
Chương 7 Suy luận thống kê
vấn đề và bài tập
Đối với tất cả các kiểm định giả thuyết, hãy giả định rằng mức ý
32 nhà đầu tư thấy rằng 20 người trong số họ không thích rủi ro.
nghĩa là 0,05 trừ khi có quy định khác.
Xây dựng và kiểm tra các giả thuyết thích hợp để xác định xem
1. Tạo sổ làm việc Excel với các mẫu trang tính (tương tự như
Khoảng tin cậy của sổ làm việc Excel) cho các thử nghiệm giả
niềm tin của anh ta có hợp lệ hay không.
6. Một trường đại học tin rằng tuổi nghỉ hưu trung bình của các
thuyết một mẫu về trung bình và tỷ lệ. Áp dụng các mẫu của bạn
giảng viên hiện nay là 70 thay vì giá trị lịch sử là 65. Một
cho các vấn đề ví dụ trong chương này. (Đối với các bài toán
mẫu gồm 85 giảng viên cho thấy tuổi nghỉ hưu dự kiến trung bình
tiếp theo, bạn nên sử dụng các công thức trong chương này để
của họ là 68,4 với độ lệch chuẩn là 3,6. Trường đại học có thể
thực hiện phép tính và chỉ sử dụng mẫu này để xác minh kết quả
kết luận thống kê rằng tuổi nghỉ hưu trung bình bây giờ bằng
của bạn!)
70 không?
7. Một người bán sách trực tuyến đang cân nhắc bán một thiết bị
2. Một trường kinh doanh có mục tiêu là số năm kinh nghiệm làm
đọc sách điện tử nhưng sẽ chỉ làm như vậy nếu họ có bằng chứng
việc trung bình của các ứng viên MBA ít nhất là 3 năm. Dựa trên
cho thấy tỷ lệ khách hàng có khả năng mua một thiết bị ít nhất
các ứng viên năm ngoái, người ta thấy rằng trong số 47 mẫu, số
là 0,4. Dựa trên một cuộc khảo sát với 25 khách hàng, người
năm kinh nghiệm làm việc trung bình là 2,57 với độ lệch chuẩn
ta thấy rằng 8 người trong số họ nói rằng họ có thể sẽ mua một
là 3,67. Nhà trường có thể rút ra kết luận gì?
thiết bị đọc sách điện tử. Người bán sách nên làm gì?
3. Một ngân hàng đã từng phát hiện ra rằng các khoản phí trung
8. Tổng đài thường có doanh thu cao. Giám đốc nhân sự của một ngân
bình hàng tháng trong những năm gần đây đối với thẻ tín dụng
hàng lớn đã tổng hợp dữ liệu về khoảng 70 nhân viên cũ tại một
của họ là 1.350 đô la. Với một nền kinh tế đang cải thiện, họ
trong các trung tâm cuộc gọi của ngân hàng trong tệp Excel Call
nghi ngờ rằng điều này đã tăng lên. Một mẫu gồm 42 khách hàng
Center Data. Khi viết một bài báo về điều kiện làm việc của
dẫn đến khoản phí trung bình hàng tháng là $1.376,54 với độ
call center, một phóng viên đã khẳng định rằng nhiệm kỳ trung
lệch chuẩn là $183,89. Dữ liệu này có cung cấp bằng chứng thống
bình không quá 2 năm. Xây dựng và kiểm tra một giả thuyết bằng
kê cho thấy các khoản phí trung bình hàng tháng đã tăng lên
cách sử dụng những dữ liệu này để xác định xem tuyên bố này
không?
có thể bị tranh cãi hay không.
4. Một nhà bán lẻ tin rằng chiến lược quảng cáo mới của họ sẽ làm
9. Sử dụng dữ liệu trong tệp Excel Thời gian phục vụ tại sân bay,
tăng doanh thu. Trước đây, chi tiêu trung bình cho 15 danh mục
xác định xem hãng hàng không có thể tuyên bố rằng thời gian
mặt hàng tiêu dùng ở cả nhóm tuổi 18–34 và 35+ là 70 đô la.
phục vụ trung bình của họ ít hơn 2,5 phút hay không.
10. Sử dụng dữ liệu trong tệp Excel Thời gian sửa chữa máy tính, xác
Một. Xây dựng một bài kiểm tra giả thuyết để xác định xem chi
tiêu trung bình trong các danh mục này có tăng theo thống
kê hay không.
b. Sau khi chiến dịch quảng cáo mới được triển khai, một nghiên
cứu tiếp thị cho thấy chi tiêu trung bình của 300 người
được hỏi trong độ tuổi 18–34 là 75,86 đô la, với độ lệch
chuẩn là 50,90 đô la. Có đủ bằng chứng để kết luận rằng
chiến lược quảng cáo đã làm tăng đáng kể doanh số bán
hàng ở nhóm tuổi này không?
định xem công ty có thể tuyên bố rằng thời gian sửa chữa trung
bình của họ ít hơn 15 ngày hay không.
11. Bộ Giáo dục Bang Ohio có bài kiểm tra trình độ bắt buộc dành cho
học sinh lớp 9 bao gồm viết, đọc, toán, quyền công dân (nghiên
cứu xã hội) và khoa học. Tệp Excel Hiệu suất Giáo dục Ohio cung
cấp dữ liệu về tỷ lệ thành công (được định nghĩa là tỷ lệ phần
trăm học sinh thi đậu) tại các khu học chánh ở khu vực đô thị
Cincinnati lớn hơn cùng với mức trung bình của tiểu bang. Kiểm
tra các giả thuyết không cho rằng điểm trung bình ở khu vực
Cincinnati bằng với số điểm trung bình của tiểu bang trong mỗi
c. Đối với 700 người trả lời ở độ tuổi trên 35, giá trị trung
bài kiểm tra và cũng như điểm tổng hợp.
bình và độ lệch chuẩn lần lượt là $68,53 và $45,29. Có đủ
bằng chứng để kết luận rằng chiến lược quảng cáo có thể
làm tăng đáng kể doanh số bán hàng ở nhóm tuổi này không?
12. Xây dựng và kiểm tra các giả thuyết để xác định xem bằng chứng
thống kê có cho thấy tỷ lệ tốt nghiệp của (1) trường cao đẳng
nghệ thuật tự do hàng đầu hoặc (2) trường đại học nghiên cứu
5. Một cố vấn tài chính tin rằng tỷ lệ người đầu tư không thích
trong các trường cao đẳng và đại học mẫu vượt quá 90%. Dữ liệu
rủi ro (nghĩa là cố gắng tránh rủi ro trong các quyết định đầu
có hỗ trợ kết luận rằng tỷ lệ tốt nghiệp vượt quá 85% không?
tư của họ) ít nhất là 0,7. Một cuộc khảo sát của
Liệu kết luận của bạn
Machine Translated by Google
229
Chương 7 Suy luận thống kê
thay đổi nếu mức ý nghĩa là 0,01 thay vì 0,05?
20. Trong Khảo sát điện thoại di động trên tệp Excel, hãy kiểm tra
giả thuyết rằng các câu trả lời trung bình cho Giá trị đồng đô
13. File Excel Sales Data cung cấp dữ liệu về một mẫu khách hàng.
Một ấn phẩm thương mại trong ngành cho biết lợi nhuận trung
bình trên mỗi khách hàng của ngành này ít nhất là 4.500 đô la.
la và Dịch vụ khách hàng không khác nhau theo giới tính.
21. Trong tệp Excel Dữ liệu Rủi ro Tín dụng, hãy kiểm tra các giả
thuyết rằng số tháng được tuyển dụng là giống nhau đối với
Sử dụng kiểm tra giả thuyết, dữ liệu có hỗ trợ cho tuyên bố
những ứng viên có rủi ro tín dụng thấp và những ứng viên có đánh
này hay không?
giá rủi ro tín dụng cao. Sử dụng mức ý nghĩa 0,01.
14. Tệp Excel Kiểm tra phòng cung cấp dữ liệu cho 100 lần kiểm tra
22. Xác định xem có bằng chứng để kết luận rằng điểm trung bình
phòng tại mỗi khách sạn trong số 25 khách sạn trong một chuỗi
trung bình của nam dự định theo học cao học lớn hơn điểm trung
lớn. Ban quản lý mong muốn tỷ lệ phòng không phù hợp dưới 2%.
bình của nữ dự định theo học cao học hay không bằng cách sử
Kiểm tra một giả thuyết phù hợp để xác định xem ban quản lý
dụng dữ liệu trong tệp Excel Khảo sát trường sau đại học.
có thể đưa ra tuyên bố này hay không.
23. Giám đốc nhân sự của một ngân hàng lớn đã tổng hợp dữ liệu về
15. Người sử dụng lao động đang xem xét thương lượng cơ cấu giá
bảo hiểm y tế với nhà cung cấp của mình nếu có đủ bằng chứng
khoảng 70 nhân viên cũ tại một trong các trung tâm cuộc gọi của
ngân hàng (xem Dữ liệu Trung tâm cuộc gọi trong tệp Excel).
cho thấy khách hàng sẵn sàng trả phí bảo hiểm thấp hơn để nhận
Đối với mỗi điều sau đây, giả sử các phương sai bằng nhau của
được khoản khấu trừ cao hơn. Cụ thể, họ muốn ít nhất 30% nhân
hai quần thể.
viên của mình sẵn sàng làm việc này. Sử dụng dữ liệu mẫu trong
Khảo sát bảo hiểm tệp Excel, xác định họ nên đưa ra quyết định
gì.
Một. Kiểm tra giả thuyết khống rằng thời gian phục vụ trung
bình của nam giới cũng giống như của nữ giới.
b. Kiểm tra giả thuyết khống rằng thời gian phục vụ trung bình
của những cá nhân không có kinh nghiệm về trung tâm cuộc
16. Sử dụng dữ liệu trong tệp Excel Khảo sát Vận tải Người tiêu
dùng, hãy kiểm tra các giả thuyết sau:
Một. Các cá nhân dành ít nhất 8 giờ mỗi tuần trên xe của họ.
gọi trước đó cũng giống như những người có kinh nghiệm.
c. Kiểm tra giả thuyết không rằng thời gian làm việc trung bình
của những người có bằng đại học là bằng với những người
không có bằng đại học.
b. Cá nhân lái xe trung bình 600 dặm một tuần.
c. Độ tuổi trung bình của người lái xe SUV không lớn hơn 35.
đ. Bây giờ hãy tiến hành kiểm định các giả thuyết về sự bằng nhau của các
phương sai. Các giả định của bạn về các phương sai bằng nhau có hợp
đ. Ít nhất 80% cá nhân hài lòng với phương tiện của họ.
17. Sử dụng Khảo sát Facebook tệp Excel, xác định xem số giờ trực
tuyến trung bình mỗi tuần của nam và nữ có giống nhau hay không.
lệ không? Nếu không, hãy lặp lại (các) phép thử cho các phương tiện
bằng cách sử dụng phép thử phương sai không bằng nhau.
24. Một nhà sản xuất phần mềm thiết kế có sự hỗ trợ của máy tính
cho ngành hàng không vũ trụ nhận được nhiều yêu cầu hỗ trợ kỹ
thuật. Phần mềm theo dõi được sử dụng để theo dõi thời gian
phản hồi và giải quyết. Ngoài ra, công ty khảo sát những
18. Xác định xem có bằng chứng để kết luận rằng số lần đi nghỉ trung
khách hàng yêu cầu hỗ trợ theo thang điểm sau: 0—không vượt
bình của những người đã kết hôn ít hơn số lần đi nghỉ của
quá mong đợi; 1—đáp ứng được kỳ vọng; 2—đáp ứng kỳ vọng; 3—vượt
những người độc thân/đã ly hôn hay không bằng cách sử dụng dữ
quá mong đợi; 4—vượt quá mong đợi. Các câu hỏi như sau:
liệu trong Khảo sát Kỳ nghỉ ở tệp Excel. Sử dụng mức ý nghĩa
0,05. Kết luận của bạn có thay đổi không nếu mức ý nghĩa là
0,01?
19. File Excel Accounting Professionals cung cấp kết quả khảo sát
27 nhân viên trong bộ phận thuế của một công ty trong danh sách
Fortune 100.
Một. Kiểm định giả thuyết không rằng số năm phục vụ trung bình
của nam và nữ là như nhau.
b. Kiểm định giả thuyết không rằng số năm học đại học trung
bình của nam và nữ là như nhau.
Q1: Đại diện bộ phận hỗ trợ có giải thích quy trình giải
quyết vấn đề của bạn không?
Câu hỏi 2: Đại diện bộ phận hỗ trợ có thông báo cho bạn về
tình trạng tiến triển trong việc giải quyết vấn đề của
bạn không?
Câu hỏi 3: Đại diện hỗ trợ có lịch sự và
chuyên nghiệp?
Q4: Vấn đề của bạn đã được giải quyết chưa?
Machine Translated by Google
230
Chương 7 Suy luận thống kê
Q5: Vấn đề của bạn có được giải quyết trong khoảng thời gian
chấp nhận được không?
Q6: Nhìn chung, bạn thấy dịch vụ do bộ phận hỗ trợ kỹ thuật
của chúng tôi cung cấp như thế nào?
Câu hỏi cuối cùng yêu cầu khách hàng đánh giá chất lượng tổng
thể của sản phẩm bằng thang điểm 0—rất kém; 1—nghèo; 2—tốt; 3—
rất tốt; 4—xuất sắc. Một mẫu phản hồi khảo sát và dữ liệu phản
hồi và giải pháp liên quan được cung cấp trong tệp Excel Khảo
sát hỗ trợ khách hàng.
Điểm chứa dữ liệu từ một mẫu học sinh. Kết luận nào có thể đạt
được khi sử dụng ANOVA?
30. Sử dụng dữ liệu trong tệp Excel Khảo sát điện thoại di động, áp
dụng ANOVA để xác định xem phản hồi trung bình cho Giá trị
đồng đô la có giống nhau đối với các loại điện thoại di động
khác nhau hay không.
31. Sử dụng dữ liệu trong tệp Excel Freshman College Data, sử dụng
ANOVA để xác định xem có sự khác biệt đáng kể nào về tỷ lệ
duy trì trung bình của các trường đại học khác nhau trong khoảng
thời gian 4 năm hay không. Thứ hai, sử dụng ANOVA để xác định
Một. Công ty đã đặt tiêu chuẩn dịch vụ là 1 ngày cho thời gian
giải quyết trung bình. Có bằng chứng tồn tại rằng thời
gian phản hồi là hơn 1 ngày không?
Làm thế nào để các ngoại lệ trong dữ liệu ảnh hưởng đến kết quả của bạn?
Bạn nên làm gì với chúng?
xem có sự khác biệt đáng kể nào về điểm ACT và SAT trung bình
giữa các trường đại học khác nhau hay không.
32. Một người bán sách trực tuyến đang cố gắng xác định xem giới
tính của khách hàng có độc lập với thể loại sách mà họ thường
mua hay không. Một mẫu khách hàng đã tiết lộ như sau:
b. Kiểm định giả thuyết rằng chỉ số dịch vụ trung bình bằng
với chỉ số kỹ sư trung bình.
thể loại
25. Sử dụng dữ liệu trong tệp Excel Ohio Education Per formance,
kiểm tra các giả thuyết rằng chênh lệch trung bình về điểm
Tạp chí Văn học Giới tính Phi hư cấu Phổ biến
Viễn tưởng
viết và đọc bằng 0 và chênh lệch trung bình về điểm môn toán và
khoa học bằng 0. Sử dụng thủ tục lấy mẫu theo cặp.
Nữ giới
Nam giới
26. Tệp Excel Dữ liệu về Công đoàn và Luật Lao động báo cáo tỷ lệ
phần trăm nhân viên khu vực công và khu vực tư nhân tham gia
các công đoàn vào năm 1982 cho mỗi bang, cùng với các chỉ số
liệu các bang có luật thương lượng áp dụng cho công chức hoặc
quyền được luật làm việc.
12
số 8
vực tư nhân là như nhau đối với các bang có luật thương
lượng cũng như đối với những bang không có.
b. Kiểm tra giả thuyết rằng tỷ lệ phần trăm trung bình của
nhân viên trong công đoàn ở cả khu vực công và khu vực tư
9
37
15
22
29
Người bán sách có thể kết luận điều gì?
33. Một cuộc khảo sát các sinh viên đại học đã xác định mức độ ưa
thích của các nhà cung cấp điện thoại di động. Các dữ liệu sau
đây đã thu được:
Một. Kiểm tra giả thuyết rằng tỷ lệ phần trăm trung bình của
người lao động trong công đoàn ở cả khu vực công và khu
28
Các nhà cung cấp
Giới tính T-Mobile AT&T Verizon Khác
Nam giới
Nữ giới
12
số 8
39
27
16
22
24
12
Chúng ta có thể kết luận rằng giới tính và nhà cung cấp điện
nhân là như nhau đối với các bang có luật về quyền được
thoại di động là độc lập không? Nếu không, điều này có ý nghĩa
làm việc cũng như đối với những bang không có luật này.
gì đối với tiếp thị?
27. Sử dụng dữ liệu trong tệp Excel Điểm của học sinh, đại diện cho
34. Đối với dữ liệu trong file Excel Nghề kế toán, thực hiện kiểm
điểm thi trong một phần của khóa học thống kê lớn, kiểm tra
định chi bình phương về tính độc lập để xác định xem nhóm tuổi
giả thuyết rằng phương sai về điểm là như nhau cho cả hai bài
có độc lập với bằng tốt nghiệp hay không.
kiểm tra.
28. Trong tệp Excel Doanh số nhà hàng, hãy xác định xem phương sai
35. Đối với dữ liệu trong tệp Excel Khảo sát trường sau đại học,
của doanh số bán hàng trong tuần có giống với doanh số bán
hãy thực hiện kiểm tra chi bình phương về tính độc lập để xác
hàng cuối tuần cho từng biến trong số ba biến (bữa trưa, bữa
định xem kế hoạch theo học trường sau đại học có phụ thuộc
tối và giao hàng) hay không.
vào giới tính hay không.
29. Một trường đại học đang cố gắng xác định xem có sự khác biệt
36. Đối với dữ liệu trong tệp Excel Xử lý tài khoản mới, hãy thực
đáng kể nào về điểm GMAT trung bình của các sinh viên từ các
hiện kiểm tra chi bình phương về tính độc lập để xác định xem
nền tảng đại học khác nhau đăng ký chương trình MBA hay không.
chứng nhận có độc lập với giới tính hay không và liệu chứng
Tệp Excel GMAT
nhận có độc lập với nền tảng thử nghiệm trước đó hay không.
Machine Translated by Google
231
Chương 7 Suy luận thống kê
Trường hợp: Dự án nghiên cứu quảng cáo Drout
Bối cảnh của trường hợp này đã được giới thiệu trong Chương 1.
đến báo cáo bạn đã hoàn thành cho trường hợp trong Chương 6 theo
Đây là phần tiếp theo của trường hợp trong Chương 6. Đối với phần
yêu cầu của người hướng dẫn của bạn. Nếu bạn đã tổng hợp tất cả
này của trường hợp, hãy đề xuất và kiểm tra một số giả thuyết
các phần của trường hợp này vào một báo cáo, hãy trau chuốt nó
có ý nghĩa để giúp cô Drout hiểu và giải thích kết quả. Bao gồm
sao cho chuyên nghiệp nhất có thể, rút ra kết luận cuối cùng về
các bài kiểm tra hai mẫu, ANOVA và/hoặc kiểm tra Chi-Square về
nhận thức về vai trò của quảng cáo trong việc củng cố định kiến
tính độc lập khi thích hợp. Viết kết luận của bạn trong một báo
giới và tác động của quảng cáo trao quyền .
cáo chính thức, hoặc thêm những phát hiện của bạn
Trường hợp: Hiệu suất Lawn Thiết bị
Elizabeth Burke đã xác định thêm một số câu hỏi mà cô ấy muốn
trong bảng tính Chi phí truyền tải, tại sao họ không
bạn trả lời.
đưa ra kết luận liệu một trong những quy trình được đề
1. Có sự khác biệt đáng kể nào trong xếp hạng của các
xuất có tốt hơn quy trình hiện tại hay không?
thuộc tính sản phẩm/dịch vụ cụ thể trong bảng tính
Khảo sát khách hàng năm 2014 không?
2. Trong bảng tính Giao hàng đúng hẹn, tỷ lệ giao hàng
đúng hạn trong năm 2014 có cải thiện đáng kể so với
năm 2010 không?
3. Dữ liệu trong trang tính Các lỗi sau khi giao hàng có
thay đổi đáng kể trong 5 năm qua không?
5. Có sự khác biệt nào trong việc giữ chân nhân viên do
giới tính, tình trạng tốt nghiệp đại học hoặc nhân
viên đến từ khu vực địa phương trong dữ liệu trong
bảng tính Giữ chân nhân viên không?
Tiến hành phân tích thống kê thích hợp và kiểm tra giả thuyết để
trả lời những câu hỏi này và tóm tắt kết quả của bạn trong một
báo cáo chính thức cho cô Burke.
4. Mặc dù kỹ thuật đã thu thập dữ liệu về chi phí quy
trình thay thế cho việc truyền tải tòa nhà
Machine Translated by Google
Trang này cố ý để trống
Machine Translated by Google
Đường xu hướng và
CHƯƠNG
Phân tích hồi quy
gibsons/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích mục đích của phân tích hồi quy và cung cấp các ví dụ
Giải thích khoảng tin cậy cho các hệ số hồi quy
trong kinh doanh.
Sử dụng biểu đồ phân tán để xác định loại mối quan hệ giữa
Tính lượng dư tiêu chuẩn.
hai biến.
Liệt kê các giả định của phân tích hồi quy và mô tả các
Liệt kê các loại hàm toán học phổ biến được sử dụng trong mô
phương pháp để xác minh chúng.
hình dự đoán.
Giải thích sự khác biệt trong đầu ra của công cụ Hồi quy
Sử dụng công cụ Đường xu hướng của Excel để khớp các mô hình với dữ liệu.
Excel cho các mô hình hồi quy tuyến tính đơn giản và
Giải thích cách hồi quy bình phương tối thiểu tìm ra mô hình
nhiều mô hình.
hồi quy phù hợp nhất.
Áp dụng cách tiếp cận có hệ thống để xây dựng các mô hình hồi
Sử dụng các hàm Excel để tìm hệ số hồi quy bình phương nhỏ
quy tốt.
nhất.
Giải thích tầm quan trọng của việc hiểu đa cộng
Sử dụng công cụ Hồi quy Excel cho cả hồi quy tuyến tính
tuyến trong các mô hình hồi quy.
đơn và bội.
Xây dựng mô hình hồi quy cho dữ liệu phân loại bằng các
Giải thích thống kê hồi quy của công cụ Hồi quy Excel.
biến giả.
Kiểm tra các tương tác trong mô hình hồi quy với các
Giải thích tầm quan trọng của hồi quy từ đầu ra của công
biến phân loại.
cụ Hồi quy Excel.
Xác định khi nào mô hình hồi quy đường cong phù hợp hơn mô
Rút ra kết luận cho các kiểm định giả thuyết về hệ số
hình tuyến tính.
hồi quy.
233
Machine Translated by Google
234
Chương 8 Đường xu hướng và phân tích hồi quy
Nhiều ứng dụng phân tích kinh doanh liên quan đến việc lập mô hình mối quan hệ giữa một
hoặc nhiều biến độc lập và một số biến phụ thuộc.
Ví dụ: chúng tôi có thể muốn dự đoán mức bán hàng dựa trên mức giá mà chúng tôi đặt hoặc
ngoại suy một xu hướng trong tương lai. Như các ví dụ khác, một công ty có thể muốn dự
đoán doanh số bán hàng dựa trên GDP của Hoa Kỳ (tổng sản phẩm quốc nội) và lãi suất trái
phiếu kho bạc 10 năm để nắm bắt ảnh hưởng của chu kỳ kinh doanh,1 hoặc một nhà nghiên cứu
tiếp thị có thể muốn dự đoán ý định của mua một mẫu ô tô cụ thể dựa trên một cuộc khảo
sát đo lường thái độ của người tiêu dùng đối với thương hiệu, lời truyền miệng tiêu cực
và mức thu nhập.2
Đường xu hướng và phân tích hồi quy là những công cụ để xây dựng các mô hình như vậy
và dự đoán kết quả trong tương lai. Trọng tâm chính của chúng tôi là đạt được sự hiểu
biết cơ bản về cách sử dụng và giải thích các đường xu hướng và mô hình hồi quy, các vấn
đề thống kê liên quan đến việc diễn giải các kết quả phân tích hồi quy và các vấn đề thực
tế trong việc sử dụng các đường xu hướng và hồi quy làm công cụ để đưa ra và đánh giá
các quyết định.
Mô hình hóa các mối quan hệ và xu hướng trong dữ liệu
Hiểu cả toán học và các thuộc tính mô tả của các mối quan hệ chức năng khác nhau là rất quan
trọng trong việc xây dựng các mô hình phân tích dự đoán. Chúng tôi thường bắt đầu bằng cách
tạo một biểu đồ dữ liệu để hiểu nó và chọn loại mối quan hệ chức năng thích hợp để kết hợp vào
một mô hình phân tích. Đối với dữ liệu cắt ngang, chúng tôi sử dụng biểu đồ phân tán; đối với
dấu gạch nối thời gian làm tính từ cho dữ liệu chuỗi dữ liệu, chúng tôi sử dụng biểu đồ đường.
Các loại hàm toán học phổ biến được sử dụng trong các mô hình phân tích dự đoán bao
gồm:
Hàm tuyến tính: ya + bx. Các hàm tuyến tính hiển thị tăng hoặc giảm ổn
định trong phạm vi của x. Đây là loại chức năng đơn giản nhất được sử
dụng trong các mô hình dự đoán. Nó rất dễ hiểu và trong các phạm vi giá
trị nhỏ, có thể ước tính hành vi khá tốt.
Hàm logarit: y ln1x2. Các hàm logarit được sử dụng khi tốc độ thay đổi của một
biến tăng hoặc giảm nhanh chóng rồi cân bằng lại, chẳng hạn như với lợi nhuận
giảm dần theo tỷ lệ. Các hàm logarit thường được sử dụng trong các mô hình
tiếp thị trong đó tỷ lệ phần trăm tăng liên tục trong quảng cáo, chẳng hạn,
dẫn đến doanh số bán hàng tăng tuyệt đối, liên tục.
2
Hàm đa thức: y ax
+ bx + c (bậc hai—hàm số bậc hai), 3 + dx + e
2
+
bx
và chỉ (bậc ba—hàm số bậc ba), v.v. Đa thức bậc hai y ax có tính chất parabol
có một ngọn đồi hoặc thung lũng; một đa thức bậc ba có một hoặc hai ngọn đồi
hoặc thung lũng. Các mô hình doanh thu kết hợp độ co giãn giá thường
là các hàm đa thức.
1
James R. Morris và John P. Daley, Giới thiệu về các Mô hình Tài chính cho Quản lý và Lập kế hoạch
(Boca Raton, FL: Chapman & Hall/CRC, 2009): 257.
2Alvin C. Burns và Ronald F. Bush, Nghiên cứu Tiếp thị Cơ bản Sử dụng Phân tích Dữ liệu Microsoft Excel, tái
bản lần 2. (Sông Thượng Saddle, NJ: Prentice Hall, 2008): 450.
Machine Translated by Google
235
Chương 8 Đường xu hướng và phân tích hồi quy
Hàm công suất: tỷ lệ cụ
b
. Các hàm công suất xác định các hiện tượng tăng ở mức
thể y ax. Các đường cong học tập thể hiện thời gian cải thiện trong việc thực hiện
một nhiệm vụ thường được mô hình hóa với các hàm lũy thừa có a 7 0 và b 6 0.
Hàm số mũ: y ab
x
. Các hàm số mũ có tính chất là y
tăng hoặc giảm với tốc độ tăng liên tục. Ví dụ, độ sáng cảm nhận được của bóng
đèn tăng với tốc độ giảm dần khi công suất tăng. Trong trường hợp này, a
sẽ là một số dương và b sẽ nằm trong khoảng từ 0 đến 1. Hàm số mũ thường được
định nghĩa là y ae
x,
ở đâu, cơ số của logarit tự nhiên (xấp xỉ
2,71828).
Công cụ Đường xu hướng của Excel cung cấp một phương pháp thuận tiện để xác định mối quan
hệ chức năng phù hợp nhất giữa các lựa chọn thay thế này cho một tập hợp dữ liệu. Đầu tiên, nhấp
vào biểu đồ mà bạn muốn thêm đường xu hướng; điều này sẽ hiển thị menu Công cụ biểu đồ. Chọn tab
Thiết kế Công cụ Biểu đồ, rồi bấm vào Thêm Thành phần Biểu đồ từ nhóm Bố cục Biểu đồ. Từ menu
con Đường xu hướng, bạn có thể chọn một trong các tùy chọn (Tuyến tính là phổ biến nhất) hoặc
Tùy chọn Đường xu hướng khác. . . . Nếu bạn chọn Tùy chọn Đường xu hướng khác, bạn sẽ nhận được
ngăn Định dạng Đường xu hướng trong trang tính (xem Hình 8.1). Một cách đơn giản hơn để thực hiện
tất cả những điều này là nhấp chuột phải vào chuỗi dữ liệu trong biểu đồ và chọn Thêm đường xu
hướng từ menu bật lên—hãy thử! Chọn nút radio cho loại quan hệ chức năng mà bạn muốn khớp với dữ liệu.
Chọn các hộp cho Hiển thị phương trình trên biểu đồ và Hiển thị giá trị bình phương R trên biểu
đồ. Sau đó, bạn có thể đóng ngăn Định dạng Đường xu hướng. Excel sẽ hiển thị kết quả trên biểu
đồ mà bạn đã chọn; bạn có thể di chuyển phương trình và giá trị bình phương R để dễ đọc hơn bằng
cách kéo chúng đến một vị trí khác. Để xóa một đường xu hướng, nhấp chuột phải vào nó và chọn Xóa.
r 2 (R-squared) là thước đo độ “phù hợp” của đường thẳng với dữ liệu. Giá trị của R2 sẽ
2
nằm trong khoảng từ 0 đến 1. Giá trị của R càng lớn phù hợp càng tốt. Chúng ta sẽ thảo luận về bộ lông này
đó trong bối cảnh phân tích hồi quy.
Đường xu hướng có thể được sử dụng để lập mô hình mối quan hệ giữa các biến và
hiểu biến phụ thuộc hoạt động như thế nào khi biến độc lập thay đổi. Ví dụ: các mô
hình dự đoán nhu cầu mà chúng tôi đã giới thiệu trong Chương 1 (Ví dụ 1.9 và 1.10)
thường được phát triển bằng cách phân tích dữ liệu.
Hình 8.1
Định dạng Excel Đường xu hướng
ngăn
Machine Translated by Google
236
Chương 8 Đường xu hướng và phân tích hồi quy
VÍ DỤ 8.1 Lập mô hình hàm cầu-giá
Một nghiên cứu thị trường đã thu thập dữ liệu về khối lượng
bán hàng cho các mức giá khác nhau của một sản phẩm cụ thể.
Dữ liệu và sơ đồ phân tán được hiển thị trong Hình 8.2 (Dữ
doanh số = 20,512
9,5116 × giá
Mô hình này có thể được sử dụng làm hàm cầu trong các phân
tích tiếp thị hoặc tài chính khác.
liệu Giá-Bán hàng trong tệp Excel). Mối quan hệ giữa giá và
doanh số rõ ràng là tuyến tính, do đó, một đường xu hướng tuyến
tính phù hợp với dữ liệu. Mô hình kết quả là
Đường xu hướng cũng được sử dụng rộng rãi trong việc lập mô hình xu hướng theo thời gian—
nghĩa là khi biến x trong các mối quan hệ chức năng biểu thị thời gian. Ví dụ: một nhà phân tích
cho một hãng hàng không cần dự đoán giá nhiên liệu sẽ diễn biến như thế nào và một nhà phân tích
đầu tư muốn dự đoán giá cổ phiếu hoặc các chỉ số kinh tế chính.
VÍ DỤ 8.2 Dự đoán giá dầu thô
Hình 8.3 hiển thị biểu đồ dữ liệu lịch sử về giá dầu thô vào
ngày thứ Sáu đầu tiên của mỗi tháng từ tháng 1 năm 2006 đến
tháng 6 năm 2008 (dữ liệu có trong tệp Excel Giá dầu thô). Sử
dụng công cụ Đường xu hướng, chúng tôi có thể cố gắng điều
chỉnh các chức năng khác nhau cho những dữ liệu này (ở đây
đa thức (bậc hai): = 0,130
2
2,399 + 68,01
0,021
logarit: = 13,02ln1 2 + 39,60 R
Hình 8.2
Dữ liệu Giá-Bán hàng và Phân tán
Sơ đồ với tuyến tính được trang bị
Chức năng
r
2
2
= 0,664
= 0,382
r
2
r
2
= 0,905
3
+ 0,648 + 59,497
2 0,111 _
sức mạnh: = 45,96
cấp số nhân: = 50,49e
2
đa thức (bậc ba): = 0,005
biểu thị số tháng bắt đầu từ tháng 1 năm 2006). Kết quả như
sau:
r
.0169
= 0,928
= 0,397
Mô hình phù hợp nhất là đa thức bậc ba, như trong Hình 8.4.
Machine Translated by Google
237
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.3
Biểu đồ giá dầu thô
Thận trọng khi sử dụng hàm đa thức. các R
2
giá trị sẽ tiếp tục tăng khi
bậc của đa thức tăng; nghĩa là đa thức bậc ba sẽ phù hợp hơn đa thức bậc hai, v.v. Các
đa thức bậc cao nói chung sẽ không trơn tru và sẽ khó diễn giải trực quan. Do đó, chúng
tôi khuyên bạn không nên vượt quá đa thức bậc ba khi điều chỉnh dữ liệu. Sử dụng con
mắt của bạn để làm cho một bản án tốt!
Tất nhiên, mô hình thích hợp để sử dụng phụ thuộc vào phạm vi của dữ liệu. Như biểu đồ
cho thấy, giá dầu thô tương đối ổn định cho đến đầu năm 2007 và sau đó bắt đầu tăng nhanh.
Bằng cách bao gồm dữ liệu ban đầu, mối quan hệ chức năng dài hạn có thể không thể hiện
một cách công bằng xu hướng ngắn hạn. Ví dụ: việc khớp một mô hình chỉ với dữ liệu bắt
đầu từ tháng 1 năm 2007 sẽ tạo ra các mô hình sau:
hàm mũ: đa
y 50,56 e0,044x
thức (bậc hai): y 0,121x tuyến tính: y
3,548x + 45,76
Hình 8.4
Sự phù hợp đa thức của dầu thô
Giá cả
2 + 1,232x + 53,48
r2
0,969
r2
0,968
r2
0,944
Machine Translated by Google
238
Chương 8 Đường xu hướng và phân tích hồi quy
Sự khác biệt trong dự đoán có thể là đáng kể. Ví dụ: để dự đoán giá 6 tháng sau điểm dữ liệu cuối cùng
1x 362 mang lại 172,24 đô la cho mô hình đa thức bậc ba phù hợp với tất cả dữ liệu và 246,45 đô la
cho mô hình hàm mũ chỉ có dữ liệu gần đây. Vì vậy, việc phân tích phải cẩn thận để lựa chọn lượng dữ
liệu phù hợp cho phân tích. Sau đó, câu hỏi trở thành một trong những lựa chọn các giả định tốt nhất
cho mô hình. Có hợp lý không khi cho rằng giá cả sẽ tăng theo cấp số nhân hoặc có thể với tốc độ chậm
hơn, chẳng hạn như với mô hình tuyến tính phù hợp? Hoặc, họ sẽ chững lại và bắt đầu giảm? Rõ ràng, các
yếu tố khác ngoài xu hướng lịch sử sẽ ảnh hưởng đến sự lựa chọn này. Như chúng ta đã biết, giá dầu giảm
mạnh vào nửa cuối năm 2008; do đó, tất cả các mô hình dự đoán đều có rủi ro.
Hồi quy tuyến tính cơ bản
Phân tích hồi quy là một công cụ để xây dựng các mô hình toán học và thống kê đặc trưng cho mối quan
hệ giữa một biến phụ thuộc (phải là biến tỷ lệ và không phân loại) và một hoặc nhiều biến độc lập hoặc
biến giải thích, tất cả đều là số (nhưng có thể là tỷ lệ hoặc phân loại).
Hai loại mô hình hồi quy thường được sử dụng trong môi trường kinh doanh: (1) mô hình hồi quy của
dữ liệu chéo và (2) mô hình hồi quy của dữ liệu chuỗi thời gian, trong đó các biến độc lập là thời
gian hoặc một số chức năng của thời gian và tiêu điểm là về dự đoán tương lai. Hồi quy chuỗi thời gian
là một công cụ quan trọng trong dự báo, là chủ đề của Chương 9.
Một mô hình hồi quy liên quan đến một biến độc lập duy nhất được gọi là hồi quy đơn giản. Một mô
hình hồi quy bao gồm hai hoặc nhiều biến độc lập được gọi là hồi quy bội. Trong phần còn lại của chương
này, chúng tôi mô tả cách phát triển và phân tích các mô hình hồi quy đơn giản và đa biến.
Hồi quy tuyến tính đơn giản liên quan đến việc tìm mối quan hệ tuyến tính giữa một biến độc lập
X và một biến phụ thuộc Y. Mối quan hệ giữa hai biến có thể có nhiều dạng, như được minh họa trong Hình
8.5. Mối quan hệ có thể là tuyến tính hoặc phi tuyến tính, hoặc có thể không có mối quan hệ nào cả. Bởi
vì chúng ta đang tập trung thảo luận về các mô hình hồi quy tuyến tính, điều đầu tiên cần làm là xác
minh rằng mối quan hệ là tuyến tính, như trong Hình 8.5(a). Chúng tôi không mong đợi thấy dữ liệu sắp
xếp hoàn hảo dọc theo một đường thẳng; chúng tôi chỉ muốn xác minh rằng mối quan hệ chung là tuyến tính.
Nếu mối quan hệ rõ ràng là phi tuyến tính, như trong Hình 8.5(b), thì phải sử dụng các phương pháp thay
thế, và nếu không có mối quan hệ nào rõ ràng, như trong Hình 8.5(c), thì việc xem xét phát triển một
mô hình hồi quy tuyến tính là vô nghĩa.
Để xác định xem có tồn tại mối quan hệ tuyến tính giữa các biến hay không, chúng tôi khuyên bạn nên
bạn tạo một biểu đồ phân tán có thể hiển thị mối quan hệ giữa các biến một cách trực quan.
Hình 8.5
Ví dụ về biến
Các mối quan hệ
(a) Tuyến tính
(b) Phi tuyến tính
(c) Không có mối quan hệ
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
239
VÍ DỤ 8.3 Dữ liệu giá trị thị trường nhà
Giá trị thị trường của một ngôi nhà thường liên quan đến kích
Hình 8.7 cho thấy một biểu đồ phân tán của giá trị thị
thước của nó. Trong tệp Excel Giá trị thị trường nhà ở (xem
trường liên quan đến quy mô của ngôi nhà. Nói chung, chúng tôi
Hình 8.6), dữ liệu thu được từ kiểm toán viên quận cung cấp
thấy rằng giá trị thị trường cao hơn có liên quan đến quy mô
thông tin về tuổi, diện tích vuông và giá trị thị trường hiện
nhà lớn hơn và mối quan hệ gần như tuyến tính. Do đó, chúng
tại của nhà ở trong một phân khu cụ thể. Chúng tôi có thể muốn
ta có thể kết luận rằng hồi quy tuyến tính đơn giản sẽ là một
điều tra mối quan hệ giữa giá trị thị trường và quy mô của
kỹ thuật thích hợp để dự đoán giá trị thị trường dựa trên quy
ngôi nhà. Biến độc lập, X, là số feet vuông, và biến phụ
mô ngôi nhà.
thuộc, Y, là giá trị thị trường.
Hình 8.6
Phần giá trị thị trường nhà
Hình 8.7
Biểu đồ phân tán của thị trường
Giá trị so với kích thước nhà
Tìm đường hồi quy phù hợp nhất
Ý tưởng đằng sau hồi quy tuyến tính đơn giản là biểu thị mối quan hệ giữa các biến phụ thuộc
và biến độc lập bằng một phương trình tuyến tính đơn giản, chẳng hạn như
giá trị thị trường a + b * feet vuông
trong đó a là tung độ gốc y và b là hệ số góc của đường thẳng. Nếu chúng ta vẽ một đường thẳng
qua dữ liệu, một số điểm sẽ nằm trên đường thẳng, một số sẽ nằm dưới nó và một số
Machine Translated by Google
240
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.8
Hai khả năng hồi quy
dòng
có thể rơi trên dòng chính nó. Hình 8.8 cho thấy hai đường thẳng có thể đi qua dữ
liệu. Rõ ràng, bạn sẽ chọn A là đường thẳng phù hợp hơn B vì tất cả các điểm đều gần
đường thẳng hơn và đường thẳng dường như nằm ở giữa dữ liệu. Sự khác biệt duy nhất
giữa các dòng là giá trị của hệ số góc và hệ số chặn; do đó, chúng tôi tìm cách xác
định các giá trị của độ dốc và đánh chặn cung cấp đường phù hợp nhất.
VÍ DỤ 8.4 Sử dụng Excel để tìm đường hồi quy tốt nhất
Khi sử dụng công cụ Đường xu hướng cho hồi quy tuyến tính đơn
ước tính giá trị thị trường cao hơn so với giá trị chỉ có 1.500
giản trong ví dụ về Giá trị thị trường tại nhà, hãy đảm bảo
feet vuông. Ví dụ: giá trị thị trường ước tính của một ngôi nhà
rằng tùy chọn hàm lin ear được chọn (đây là tùy chọn mặc định
rộng 2.200 bộ vuông sẽ là
khi bạn sử dụng công cụ). Hình 8.9 cho thấy đường hồi quy phù
hợp nhất. phương trình là
giá trị thị trường = $32,673 + $35,036 × feet vuông
Giá trị của đường hồi quy có thể được giải thích như sau.
Giả sử chúng ta muốn ước tính giá trị thị trường nhà cho bất kỳ
ngôi nhà nào trong dân số mà dữ liệu mẫu được thu thập từ đó.
giá trị thị trường = $32,673 + $35,036 × 2,200 = $109,752
trong khi giá trị ước tính cho một ngôi nhà có diện tích 1.500
bộ vuông sẽ là
giá trị thị trường = $32,673 + $35,036 × 1,500 = $85,227
Mô hình hồi quy giải thích sự khác biệt về giá trị thị trường
Nếu tất cả những gì chúng ta biết là giá trị thị trường, thì
như là một chức năng của quy mô ngôi nhà và cung cấp ước tính
ước tính tốt nhất về giá trị thị trường cho bất kỳ ngôi nhà nào
tốt hơn so với việc chỉ sử dụng giá trị trung bình của dữ liệu mẫu.
chỉ đơn giản là giá trị trung bình của mẫu, là 92.069 đô la. Do
đó, bất kể ngôi nhà có diện tích 1.500 bộ vuông hay 2.200 bộ
Một lưu ý quan trọng: sẽ rất nguy hiểm nếu ngoại suy muộn
một mô hình hồi quy nằm ngoài phạm vi bao phủ bởi các quan sát.
vuông, ước tính tốt nhất về giá trị thị trường vẫn là 92.069 USD.
Chẳng hạn, nếu bạn muốn dự đoán giá trị thị trường của một ngôi
Vì giá trị thị trường thay đổi từ khoảng 75.000 đô la đến hơn
nhà có diện tích 3.000 bộ vuông, kết quả có thể chính xác hoặc
120.000 đô la nên có khá nhiều điều không chắc chắn khi sử dụng
không, bởi vì các ước tính của mô hình hồi quy không sử dụng bất
giá trị trung bình làm ước tính. Tuy nhiên, từ biểu đồ phân tán,
kỳ quan sát nào lớn hơn 2.400 bộ vuông. Chúng ta không thể chắc
chúng tôi thấy rằng những ngôi nhà lớn hơn có xu hướng có giá
chắn rằng phép ngoại suy tuyến tính sẽ đúng và không nên sử dụng
trị thị trường cao hơn. Do đó, nếu chúng ta biết rằng một ngôi
mô hình để đưa ra những dự đoán như vậy.
nhà có diện tích 2.200 feet vuông, chúng ta sẽ mong đợi
Machine Translated by Google
241
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.9
Tuyến tính đơn giản phù hợp nhất
Đường Hồi quy
Chúng ta có thể tìm thấy đường phù hợp nhất bằng cách sử dụng công cụ Đường xu hướng của Excel (với tùy chọn tuyến tính
được chọn), như được mô tả trước đó trong chương này.
Hồi quy bình phương tối thiểu
Cơ sở toán học cho đường hồi quy phù hợp nhất được gọi là hồi quy bình phương nhỏ nhất. Trong phân tích
hồi quy, chúng tôi giả định rằng các giá trị của biến phụ thuộc, Y, trong dữ liệu mẫu được rút ra từ
một số dân số chưa biết cho từng giá trị của biến độc lập, X. Ví dụ: trong dữ liệu Giá trị thị trường
gia đình, giá trị thứ nhất và thứ tư các quan sát đến từ một quần thể các ngôi nhà có diện tích 1.812
feet vuông; quan sát thứ hai đến từ một quần thể các ngôi nhà có diện tích 1.914 feet vuông; và như
thế.
Bởi vì chúng tôi giả định rằng tồn tại một mối quan hệ tuyến tính, nên giá trị kỳ vọng của Y là
b0 + b1X cho mỗi giá trị của X. Các hệ số b0 và b1 là các tham số tổng thể tương ứng biểu thị tung độ
gốc và hệ số góc của tổng thể mà từ đó một mẫu của quan sát được thực hiện. Hệ số chặn là giá trị
trung bình của Y khi X 0 và hệ số góc là sự thay đổi giá trị trung bình của Y khi X thay đổi một đơn
vị.
Do đó, đối với một giá trị cụ thể của X, chúng ta có nhiều giá trị có thể có của Y thay đổi xung quanh giá
trị trung bình. Để giải thích cho điều này, chúng tôi thêm một thuật ngữ lỗi, e (chữ Hy Lạp epsilon), vào giá trị
trung bình. Điều này xác định một mô hình hồi quy tuyến tính đơn giản:
Y b0 + b1X + e
(8.1)
Tuy nhiên, vì chúng tôi không biết toàn bộ dân số nên chúng tôi không biết giá trị thực của b0
và b1 . Trong thực tế, chúng ta phải ước tính những điều này tốt nhất có thể từ dữ liệu mẫu. xác định b0
và b1 là ước tính của b0 và b1 . Do đó, phương trình hồi quy tuyến tính đơn giản ước tính là
N
Y
b0 + b1X
(8.2)
Gọi Xi là giá trị của biến độc lập của quan
sát thứ i. Khi giá trị của biến độc lập là Xi , thì Y
N
i b0 + b1Xi là giá trị ước tính của Y đối với Xi .
Một cách để định lượng mối quan hệ giữa mỗi điểm và phương trình hồi quy ước tính là đo khoảng
cách thẳng đứng giữa chúng, như minh họa trong Hình 8.10. Chúng tôi
Machine Translated by Google
242
Chương 8 Đường xu hướng và phân tích hồi quy
Y
Hình 8.10
Y2^
Đo lường lỗi trong một
e2
e1
Mô hình hồi quy
Y1Y1^Y2
X1
X2
X
Lỗi liên quan đến quan sát cá nhân
có thể coi những khác biệt này, ei , là sai số quan sát được (thường được gọi là phần dư)
liên quan đến việc ước tính giá trị của biến phụ thuộc bằng cách sử dụng đường hồi quy.
Do đó, lỗi liên quan đến quan sát thứ i là:
N
Ý - Y
ei
(8.3)
Tôi
Dòng phù hợp nhất nên giảm thiểu một số biện pháp của các lỗi này. Bởi vì một số lỗi sẽ
âm và một số khác dương, chúng tôi có thể lấy giá trị tuyệt đối của chúng hoặc đơn giản là
bình phương chúng. Về mặt toán học, làm việc với bình phương sai số sẽ dễ dàng hơn.
Cộng các bình phương của các lỗi, chúng ta thu được hàm sau:
N
N
Một e2tôi là
tôi 1
N
1Yi - Yn tôi 22 một
1Yi- 3b0 + b1Xi422
(8.4)
tôi 1
tôi 1
Nếu chúng ta có thể tìm thấy các giá trị tốt nhất của độ dốc và chặn để giảm thiểu tổng bình
phương (do đó có tên là "bình phương nhỏ nhất") của các lỗi quan sát được ei , chúng ta sẽ
tìm thấy đường hồi quy phù hợp nhất. Lưu ý rằng Xi và Yi là các giá trị của dữ liệu mẫu và b0
và b1 là ẩn số trong phương trình (8.4). Sử dụng phép tính, chúng ta có thể chỉ ra rằng giải
pháp giảm thiểu tổng bình phương của các lỗi được quan sát là
N
Một XiYi - nX Y
tôi 1
b1
(8,5)
N
X 2 - nX2
Một
Tôi
tôi 1
b0 Y - b1X
(8.6)
Mặc dù các tính toán cho các hệ số bình phương nhỏ nhất có vẻ hơi phức tạp, nhưng
chúng có thể dễ dàng được thực hiện trên bảng tính Excel. Thậm chí tốt hơn, Excel có các
khả năng tích hợp sẵn để thực hiện việc này. Ví dụ: bạn có thể sử dụng các hàm INTERCEPT
(known_y's, known_x's) và SLOPE(known_y's, known_x's) để tìm các đồng hiệu quả bình
phương nhỏ nhất b0 và b1 .
VÍ DỤ 8.5 Sử dụng Hàm Excel để Tìm Hệ số Bình phương Nhỏ nhất
Đối với tệp Excel Giá trị thị trường gia đình, phạm vi của
cho chúng tôi rằng cứ mỗi foot vuông tăng thêm, giá trị thị
biến phụ thuộc Y (giá trị thị trường) là C4:C45; phạm vi của
trường tăng thêm $35,036.
biến độc lập X (feet vuông) là B4:B45. Hàm INTERCEPT(C4:C45,
Chúng ta có thể sử dụng hàm Excel TREND(known_y's,
B4:B45) cho kết quả b0 = 32,673 và SLOPE(C4:C45, B4:B45) cho
known_x's, new_x's) để ước tính Y cho bất kỳ giá trị nào của
kết quả b1 = 35,036, như chúng ta đã thấy trong Ví dụ 8.4.
X; ví dụ: đối với một ngôi nhà rộng 1.750 bộ vuông, giá trị
Con dốc nói
thị trường ước tính là XU HƯỚNG(C4:C45, B4:B45, 1750) = 93.986 USD.
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
243
Chúng tôi có thể dừng lại tại thời điểm này, bởi vì chúng tôi đã tìm thấy dòng
phù hợp nhất cho dữ liệu được cung cấp. Tuy nhiên, còn nhiều điều nữa đối với phân
tích hồi quy từ góc độ thống kê, bởi vì chúng tôi đang làm việc với dữ liệu mẫu—và
thường là các mẫu khá nhỏ—mà chúng tôi biết là có nhiều biến thể so với toàn bộ dân
số. Do đó, điều quan trọng là phải hiểu một số thuộc tính thống kê liên quan đến phân tích hồi quy.
Hồi quy tuyến tính đơn giản với Excel
Các công cụ phần mềm phân tích hồi quy có sẵn trong Excel cung cấp nhiều thông tin khác nhau về
các thuộc tính thống kê của phân tích hồi quy. Công cụ Hồi quy Excel có thể được sử dụng cho cả
hồi quy tuyến tính đơn giản và đa tuyến tính. Hiện tại, chúng tôi chỉ tập trung vào việc sử dụng
công cụ này cho hồi quy tuyến tính đơn giản.
Từ menu Phân tích dữ liệu trong nhóm Phân tích trong tab Dữ liệu, chọn công cụ Hồi
quy. Hộp thoại như Hình 8.11 được hiển thị. Trong hộp cho Phạm vi đầu vào Y, hãy chỉ
định phạm vi của các giá trị biến phụ thuộc. Trong hộp cho Phạm vi đầu vào X, chỉ định
phạm vi cho các giá trị biến độc lập. Kiểm tra nhãn
nếu phạm vi dữ liệu của bạn chứa nhãn mô tả (chúng tôi khuyên bạn nên sử dụng nhãn
này). Bạn có tùy chọn buộc phần chặn về 0 bằng cách kiểm tra Hằng số là Không; tuy
nhiên, bạn thường sẽ không chọn hộp này vì việc thêm một thuật ngữ chặn cho phép dữ liệu
phù hợp hơn. Bạn cũng có thể đặt Mức độ tin cậy (giá trị mặc định là 95% thường được
sử dụng) để cung cấp khoảng tin cậy cho các tham số độ dốc và tung độ gốc. Trong phần dư
phần, bạn có tùy chọn bao gồm bảng đầu ra phần dư bằng cách chọn các hộp cho Phần dư,
Phần dư được chuẩn hóa, Biểu đồ phần dư và Biểu đồ vừa với đường. Đất Dư
tạo biểu đồ cho từng biến độc lập so với phần dư và Line Fit Plots
tạo biểu đồ phân tán có chứa các giá trị được mô hình hồi quy dự đoán (tuy nhiên, việc
tạo biểu đồ phân tán có thêm đường xu hướng về mặt hình ảnh sẽ vượt trội so với những
gì công cụ này cung cấp). Cuối cùng, bạn cũng có thể chọn để Excel xây dựng biểu đồ
xác suất chuẩn cho biến phụ thuộc, biểu đồ này biến đổi thang xác suất tích lũy (trục
tung) sao cho đồ thị của phân phối chuẩn tích lũy là một đường thẳng. Các điểm càng gần
đường thẳng thì càng phù hợp với phân phối chuẩn.
Hình 8.12 cho thấy kết quả phân tích hồi quy cơ bản được cung cấp bởi công cụ Hồi
quy Excel cho dữ liệu Giá trị thị trường gia đình. Đầu ra bao gồm ba phần: Thống kê hồi
quy (hàng 3–8), ANOVA (hàng 10–14) và phần không được gắn nhãn ở dưới cùng (hàng 16–18)
với thông tin thống kê khác. Các ước tính bình phương nhỏ nhất của độ dốc và hệ số chặn
được tìm thấy trong cột Hệ số ở phần dưới cùng của kết quả.
Hình 8.11
Công cụ hồi quy Excel
hộp thoại
Machine Translated by Google
244
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.12
Phân tích hồi quy cơ bản
Đầu ra cho giá trị thị trường nhà
Ví dụ
Trong phần Thống kê hồi quy, Bội số R là tên gọi khác của hệ số tương quan mẫu, r, đã được giới
thiệu trong Chương 4. Các giá trị của r nằm trong khoảng từ -1 đến 1, trong đó dấu được xác định bằng
dấu của hệ số góc của đường Hồi quy. Giá trị Nhiều R lớn hơn 0 biểu thị mối tương quan dương; nghĩa
là, khi biến độc lập tăng lên, biến phụ thuộc cũng tăng theo; giá trị nhỏ hơn 0 biểu thị mối tương
quan âm—khi X tăng, Y giảm. Giá trị 0 cho biết không có tương quan.
2
R bình phương 1R 2 được gọi là hệ số xác định. Trước đó chúng tôi đã lưu ý rằng R
2
là thước đo mức độ phù hợp của đường hồi quy với dữ liệu; giá trị này cũng được cung cấp 2
bằng công cụ Đường xu hướng. Cụ thể, R
đưa ra tỷ lệ biến thiên của biến phụ thuộc được giải thích
bởi biến độc lập của mô hình hồi quy. giá trị 2
của R
nằm trong khoảng từ 0 đến 1. Giá trị 1,0 biểu thị sự phù hợp hoàn hảo và tất cả các điểm dữ
liệu nằm trên đường hồi quy, trong khi giá trị 0 biểu thị rằng không có mối quan hệ nào tồn tại. Mặc
2
dù chúng tôi muốn giá trị cao của, Rrất khó để chỉ định một giá trị “tốt” biểu thị một giá trị mạnh
mối quan hệ vì điều này phụ thuộc vào ứng dụng. Ví dụ, trong các ứng dụng khoa học như hiệu chuẩn
thiết bị đo lường vật lý, R
2
2
được mong đợi; trong nghiên cứu tiếp thị nghiên cứu, một R
các giá trị gần với 1 sẽ
từ 0,6 trở lên được coi là rất tốt;
tuy nhiên, trong nhiều ứng dụng khoa học xã hội, các giá trị trong vùng lân cận 0,3 có thể được coi là
chấp nhận được.
2
Điều chỉnh R Square là một thống kê sửa đổi giá trị của R
bằng cách kết hợp cỡ mẫu
và số lượng biến giải thích trong mô hình. Mặc dù nó không đưa ra phần trăm biến thể thực tế được mô
2
hình giải thích là R
hữu ích khi so sánh mô
hình này với các mô hình khác bao gồm các biến giải thích bổ sung. Chúng ta sẽ thảo luận về nó đầy đủ
hơn trong bối cảnh hồi quy tuyến tính bội ở phần sau của chương này.
Lỗi tiêu chuẩn trong đầu ra Excel là sự thay đổi của các giá trị Y quan sát được từ các giá trị
dự đoán 1Yn2. Đây chính thức được gọi là lỗi tiêu chuẩn của ước tính, SYX.
Nếu dữ liệu được nhóm gần với đường hồi quy, thì sai số chuẩn sẽ nhỏ; dữ liệu càng phân tán thì sai số
chuẩn càng lớn.
VÍ DỤ 8.6 Diễn giải thống kê hồi quy cho hồi quy tuyến tính đơn giản
Sau khi chạy công cụ Hồi quy Excel, điều đầu tiên cần tìm là
biến độc lập, Feet vuông) là 35,036, giống như chúng ta đã
các giá trị của hệ số góc và hệ số chặn, cụ thể là các ước
tính trước đó. Trong Thống kê hồi quy sec 2 = 0,5347. Điều
tính b1 và b0 trong mô hình hồi quy. Trong ví dụ về Giá trị
này có nghĩa là khoảng 53% tion, R
thị trường gia đình, chúng ta thấy rằng hệ số chặn là 32.673
của sự thay đổi trong Giá trị thị trường được giải thích bằng
và độ dốc (hệ số của
Feet vuông. Sự thay đổi còn lại là do các yếu tố khác
Machine Translated by Google
245
Chương 8 Đường xu hướng và phân tích hồi quy
đã không được đưa vào mô hình. Sai số chuẩn của ước tính là
nhỏ hơn sự thay đổi xung quanh giá trị trung bình của mẫu
$7.287,72. Nếu chúng ta so sánh điều này với độ lệch chuẩn của
($10,553). Điều này là do biến độc lập trong mô hình hồi quy
giá trị thị trường, là $10,553, chúng ta sẽ thấy rằng sự thay
giải thích một số biến thể.
đổi xung quanh đường hồi quy ($7,287,72)
Hồi quy khi phân tích phương sai
Trong Chương 7, chúng tôi đã giới thiệu phân tích phương sai (ANOVA), tiến hành kiểm định F để
xác định xem liệu sự thay đổi do một yếu tố cụ thể, chẳng hạn như sự khác biệt về giá trị
trung bình của mẫu, có lớn hơn đáng kể so với sự thay đổi do lỗi hay không. ANOVA thường được
áp dụng cho hồi quy để kiểm tra ý nghĩa của hồi quy. Đối với một mô hình hồi quy tuyến tính
đơn giản, tầm quan trọng của hồi quy chỉ đơn giản là kiểm định giả thuyết về việc liệu hệ số
hồi quy b1 (độ dốc của biến độc lập) có bằng 0 hay không:
H0 : b1 0
H1 : b1
(8.7)
0
Nếu chúng ta bác bỏ giả thuyết không, thì chúng ta có thể kết luận rằng hệ số góc của
biến độc lập không bằng 0 và do đó, có ý nghĩa thống kê theo nghĩa là nó giải thích một số
biến thiên của biến phụ thuộc xung quanh giá trị trung bình. Tương tự như phần thảo luận
của chúng ta trong Chương 7, bạn không cần lo lắng về các chi tiết toán học về cách tính
F hoặc thậm chí giá trị của nó, đặc biệt là khi công cụ này không cung cấp giá trị tới hạn
cho phép thử. Điều quan trọng là giá trị của Ý nghĩa F, là giá trị p cho phép thử F. Nếu Ý
nghĩa F nhỏ hơn mức ý nghĩa (thường là 0,05), chúng tôi sẽ bác bỏ giả thuyết không.
VÍ DỤ 8.7 Diễn giải Ý nghĩa của Hồi quy
Đối với ví dụ về Giá trị Thị trường Gia đình, phép thử ANOVA
về cơ bản bằng không (3,798 10
được hiển thị trong các hàng 10–14 trong Hình 8.12. Ý nghĩa
nghĩa là 0,05, chúng ta phải bác bỏ giả thuyết vô hiệu và
F, nghĩa là giá trị p liên quan đến kiểm tra giả thuyết
kết luận rằng độ dốc—hệ số cho Feet vuông—không bằng không.
H0 : B1 = 0
8 ). Do đó, giả sử mức ý
Điều này có nghĩa là kích thước nhà là một biến có ý nghĩa
thống kê trong việc giải thích sự thay đổi trong giá trị thị trường.
H1 : B1 3 0
Kiểm tra các giả thuyết cho các hệ số hồi quy
Các hàng 17–18 của đầu ra Excel, ngoài việc chỉ định các hệ số bình phương nhỏ nhất, còn
cung cấp thông tin bổ sung để kiểm tra các giả thuyết liên quan đến hệ số chặn và độ dốc.
Cụ thể, chúng ta có thể kiểm tra giả thuyết không rằng b0 hoặc b1 bằng không. Thông thường,
sẽ không có ý nghĩa gì khi kiểm tra hoặc diễn giải giả thuyết rằng b0 0 trừ khi hệ số chặn
có ý nghĩa vật lý quan trọng trong ngữ cảnh của ứng dụng. Đối với hồi quy tuyến tính đơn
giản, việc kiểm định giả thuyết không H0 : b1 0 cũng giống như tầm quan trọng của kiểm định
hồi quy mà chúng tôi đã mô tả trước đó.
Thử nghiệm t cho độ dốc tương tự như thử nghiệm một mẫu cho giá trị trung bình mà chúng tôi đã mô tả
trong Chương 7. Thống kê kiểm tra là
t
b1 - 0
lỗi tiêu chuẩn
(8.8)
và được đưa ra trong cột có nhãn t Stat trong đầu ra Excel. Mặc dù giá trị tới hạn của phân phối t không
được cung cấp, đầu ra cung cấp giá trị p cho thử nghiệm.
Machine Translated by Google
246
Chương 8 Đường xu hướng và phân tích hồi quy
VÍ DỤ 8.8 Diễn giải các kiểm định giả thuyết cho các hệ số hồi quy
Đối với ví dụ Giá trị thị trường tại nhà, lưu ý rằng giá trị
rằng không hệ số nào bằng 0 về mặt thống kê. Lưu ý rằng giá
của t Stat được tính bằng cách chia hệ số cho sai số chuẩn sử
trị p liên quan đến kiểm tra hệ số góc, Feet vuông, bằng với
dụng công thức (8.8). Ví dụ, t Stat cho
Ý nghĩa F
độ dốc là 35,03637258>5,16738385 = 6,780292234.
Vì Excel không cung cấp giá trị tới hạn để so sánh giá trị
giá trị. Điều này sẽ luôn đúng đối với mô hình hồi quy có
một biến độc lập vì nó là biến kế hoạch duy nhất. Tuy
Thống kê t, nên chúng tôi có thể sử dụng giá trị p để đưa ra
nhiên, như chúng ta sẽ thấy, điều này sẽ không xảy ra đối
kết luận. Vì giá trị p cho cả hai hệ số về cơ bản bằng 0, nên
với các mô hình hồi quy bội.
chúng tôi sẽ kết luận
Khoảng tin cậy cho hệ số hồi quy
Khoảng tin cậy (giá trị Lower 95% và Upper 95% trong đầu ra) cung cấp thông tin về các giá trị
chưa biết của hệ số hồi quy thực, tính đến lỗi lấy mẫu. Chúng cho chúng ta biết những gì chúng
ta có thể mong đợi một cách hợp lý là các phạm vi cho giao điểm dân số và độ dốc ở mức độ tin cậy
95%.
Chúng tôi cũng có thể sử dụng khoảng tin cậy để kiểm tra các giả thuyết về hệ số hồi quy.
Ví dụ, trong Hình 8.12, chúng ta thấy rằng không khoảng tin cậy nào bao gồm số 0; do đó, chúng ta
có thể kết luận rằng b0 và b1 khác 0 về mặt thống kê. Tương tự, chúng ta có thể sử dụng chúng để
kiểm tra các giả thuyết rằng các hệ số hồi quy bằng một số giá trị khác 0. Ví dụ, để kiểm tra các
giả thuyết
H0 : b1 B1
H1 : b1
B1
chúng ta chỉ cần kiểm tra xem B1 có nằm trong khoảng tin cậy cho độ dốc hay không. Nếu không, thì
chúng tôi bác bỏ giả thuyết không, nếu không, chúng tôi sẽ không bác bỏ nó.
VÍ DỤ 8.9 Giải thích khoảng tin cậy cho hệ số hồi quy
Đối với dữ liệu Giá trị thị trường gia đình, khoảng tin
giá trị thị trường là 32.673 + 35.036(1.750) = $93.986,
cậy 95% cho phần chặn là [14,823, 50,523]. Tương tự,
nếu các tham số dân số thực nằm ở các cực trị của khoảng tin
khoảng tin cậy 95% cho độ dốc là [24,59, 45,48].
cậy, thì ước tính có thể thấp tới 14.823 + 24,59(1.750) =
Mặc dù mô hình hồi quy là Yn = 32,673 + 35,036X, khoảng
57.855 USD hoặc cao nhất là 50.523 + 45,48(1.750) = 130.113
tin cậy cho thấy một chút không chắc chắn về các dự đoán sử
USD. Khoảng tin cậy hẹp hơn mang lại độ chính xác cao hơn
dụng mô hình. Vì vậy, mặc dù chúng tôi ước tính rằng một
trong các dự đoán của chúng tôi.
ngôi nhà rộng 1.750 feet vuông có
Giả định phân tích và hồi quy phần dư
Nhớ lại rằng phần dư là sai số quan sát được, là sự khác biệt giữa giá trị thực và giá trị ước
tính của biến phụ thuộc bằng phương trình hồi quy.
Hình 8.13 cho thấy một phần của bảng thặng dư được tạo bởi công cụ Hồi quy Excel.
Đầu ra còn lại bao gồm, đối với mỗi quan sát, giá trị dự đoán bằng cách sử dụng phương trình hồi
quy ước tính, phần dư và phần dư tiêu chuẩn. Phần dư chỉ đơn giản là sự khác biệt giữa giá trị
thực tế của biến phụ thuộc và giá trị dự đoán, hoặc Yi - Yn
Tôi
. Hình 8.14 cho thấy biểu đồ phần dư do công cụ Excel tạo ra. Biểu đồ này thực sự là một
biểu đồ phân tán của phần dư với các giá trị của biến độc lập trên trục x.
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
247
Hình 8.13
Phần đầu ra còn lại
Hình 8.14
Lô còn lại cho hình vuông
Bàn chân
Phần dư tiêu chuẩn là phần dư chia cho độ lệch chuẩn của chúng. Phần dư tiêu chuẩn mô
tả khoảng cách của mỗi phần dư so với giá trị trung bình của nó tính theo đơn vị độ lệch
chuẩn (tương tự như giá trị z đối với phân phối chuẩn chuẩn). Phần dư chuẩn rất hữu ích
trong việc kiểm tra các giả định làm cơ sở cho phân tích hồi quy mà chúng tôi sẽ giải quyết
ngay sau đây và để phát hiện các giá trị ngoại lai có thể làm sai lệch kết quả. Hãy nhớ lại
rằng giá trị ngoại lệ là giá trị cực trị khác với phần còn lại của dữ liệu. Một ngoại lệ
duy nhất có thể tạo ra sự khác biệt đáng kể trong phương trình hồi quy, thay đổi độ dốc và
hệ số chặn, do đó, cách chúng sẽ được giải thích và sử dụng trong thực tế. Một số coi phần
dư chuẩn hóa bên ngoài {2 độ lệch chuẩn là ngoại lệ. Một nguyên tắc ngón tay cái bảo thủ
hơn sẽ là xem xét các ngoại lệ bên ngoài {3 phạm vi độ lệch chuẩn. (Các gói phần mềm thương
mại có nhiều kỹ thuật phức tạp hơn để xác định các giá trị ngoại lệ.)
VÍ DỤ 8.10 Diễn giải Đầu ra Dư
Đối với dữ liệu Giá trị thị trường gia đình, quan sát đầu
feet, cao hơn 4 độ lệch chuẩn so với giá trị dự đoán và rõ
tiên có giá trị thị trường là $90.000 và mô hình hồi quy dự
ràng sẽ được xác định là ngoại lệ.
đoán $96.159,13. Do đó, số dư là 90.000
96.159,13 =
(Nếu nhìn lại Hình 8.7, bạn có thể nhận thấy rằng điểm này
$6.159,13. Độ lệch chuẩn của phần dư có thể được tính là
dường như khá khác so với phần còn lại của dữ liệu.) Bạn có thể
7.198.299.
đặt câu hỏi liệu quan sát này có thuộc dữ liệu hay không, bởi
Bằng cách chia phần dư cho giá trị này, chúng ta có phần dư
vì ngôi nhà có giá trị lớn mặc dù tương đối kích thước nhỏ.
chuẩn hóa stan cho lần quan sát đầu tiên. Giá trị
Lời giải thích có thể là một hồ bơi ngoài trời hoặc một khu
0,8556 cho
chúng ta biết rằng quan sát đầu tiên là khoảng 0,85 độ lệch
đất rộng bất thường. Vì giá trị này sẽ ảnh hưởng đến kết quả
chuẩn bên dưới đường hồi quy. Nếu chúng tôi kiểm tra giá trị
hồi quy và có thể không đại diện cho các ngôi nhà khác trong
của tất cả các phần dư đã chuẩn hóa, bạn sẽ thấy rằng giá trị
vùng lân cận, bạn có thể cân nhắc bỏ quan sát này và tính toán
của điểm dữ liệu cuối cùng là 4,53, nghĩa là giá trị thị trường
lại mô hình hồi quy.
của ngôi nhà này, chỉ có 1,581 ô vuông.
Machine Translated by Google
248
Chương 8 Đường xu hướng và phân tích hồi quy
Kiểm tra giả định
Các thử nghiệm giả thuyết thống kê liên quan đến phân tích hồi quy được xác định dựa trên một
số giả định chính về dữ liệu.
1. Tính tuyến tính. Điều này thường được kiểm tra bằng cách kiểm tra sơ đồ
phân tán của dữ liệu hoặc kiểm tra biểu đồ phần dư. Nếu mô hình phù hợp,
thì phần dư sẽ xuất hiện rải rác ngẫu nhiên về 0, không có mẫu rõ ràng.
Nếu phần dư thể hiện một số mẫu được xác định rõ ràng, chẳng hạn như xu hướng
tuyến tính, hình parabol, v.v., thì có bằng chứng rõ ràng rằng một số dạng
hàm khác có thể phù hợp hơn với dữ liệu.
2. Tính bình thường của lỗi. Phân tích hồi quy giả định rằng các lỗi đối với mỗi
giá trị riêng của X được phân phối chuẩn, với giá trị trung bình bằng không.
Điều này có thể được xác minh bằng cách kiểm tra biểu đồ của phần dư tiêu
chuẩn và kiểm tra phân phối hình chuông hoặc bằng cách sử dụng các bài kiểm
tra mức độ phù hợp chính thức hơn. Thường khó đánh giá tính quy phạm với cỡ mẫu nhỏ.
Tuy nhiên, phân tích hồi quy khá mạnh mẽ chống lại sự khác biệt so với tính bình thường, vì vậy trong
hầu hết các trường hợp, đây không phải là vấn đề nghiêm trọng.
3. Phương sai đồng nhất. Giả định thứ ba là phương sai đồng nhất, có nghĩa là
sự thay đổi xung quanh đường hồi quy là không đổi đối với tất cả các giá
trị của biến độc lập. Điều này cũng có thể được đánh giá bằng cách kiểm
tra biểu đồ phần dư và tìm kiếm sự khác biệt lớn về phương sai ở các giá
trị khác nhau của biến độc lập. Cần thận trọng khi xem xét các lô còn lại.
Trong nhiều ứng dụng, mô hình được lấy từ dữ liệu hạn chế và không có sẵn
nhiều quan sát cho các giá trị khác nhau của X, gây khó khăn cho việc đưa
ra kết luận dứt khoát về phương sai thay đổi. Nếu giả định này bị vi phạm
nghiêm trọng thì nên sử dụng các kỹ thuật khác ngoài bình phương nhỏ nhất
để ước lượng mô hình hồi quy.
4. Độc lập nhận lỗi. Cuối cùng, phần dư phải độc lập với từng giá trị của biến độc
lập. Đối với dữ liệu chéo, giả định này thường không phải là vấn đề. Tuy nhiên,
khi thời gian là biến độc lập, đây là một giả định quan trọng. Nếu các quan sát
liên tiếp có vẻ tương quan với nhau—
ví dụ, bằng cách trở nên lớn hơn theo thời gian hoặc thể hiện một kiểu mẫu
theo chu kỳ—thì giả định này bị vi phạm. Mối tương quan giữa các quan sát
liên tiếp theo thời gian được gọi là tự tương quan và có thể được xác định
bởi các đồ thị phần dư có các cụm phần dư cùng dấu. Tự tương quan có thể được
đánh giá chính thức hơn bằng cách sử dụng kiểm tra thống kê dựa trên thước
đo được gọi là thống kê Durbin–Watson. Thống kê Durbin–Watson là
N
Một 1ei - ei-1 22
Đ.
tôi 2
(8.9)
N
Một e2
Tôi
tôi 1
Đây là một tỷ lệ của sự khác biệt bình phương trong số dư liên tiếp với
tổng bình phương của tất cả các số dư. D sẽ nằm trong khoảng từ 0 đến 4.
Khi các phần dư liên tiếp được tự tương quan dương, D sẽ tiến tới 0. Các giá
trị tới hạn của thống kê đã được lập bảng dựa trên cỡ mẫu và số biến độc
lập cho phép bạn kết luận rằng có bằng chứng au tocorrelation hoặc không
có bằng chứng về tự tương quan hoặc kiểm định không thuyết phục. Đối với hầu
hết các mục đích thực tế, các giá trị dưới 1 đề xuất tự tương quan; các giá
trị trên 1,5 và dưới 2,5 cho thấy không có tự tương quan; và các giá trị trên 2,5 gợi ý
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
249
Hình 8.15
Biểu đồ tiêu chuẩn
dư
tự tương quan âm. Điều này có thể trở thành một vấn đề khi sử dụng hồi quy trong dự báo, mà
chúng ta sẽ thảo luận trong chương tiếp theo. Một số gói phần mềm tính toán thống kê này;
tuy nhiên, Excel thì không.
Khi các giả định của hồi quy bị vi phạm, thì các suy luận thống kê rút ra từ các kiểm định giả thuyết
có thể không hợp lệ. Do đó, trước khi đưa ra các kết luận về mô hình hồi quy và thực hiện các kiểm định
giả thuyết, các giả định này cần được kiểm tra. Tuy nhiên, ngoài tính tuyến tính, những giả định này không
chỉ cần thiết cho mục đích ước lượng và điều chỉnh mô hình.
VÍ DỤ 8.11 Kiểm tra các giả định hồi quy cho dữ liệu giá
trị thị trường nhà
Tính tuyến tính: Biểu đồ phân tán của dữ liệu giá trị thị trường
sai lệch nghiêm trọng so với thông thường, đặc biệt là khi cỡ mẫu
dường như là tuyến tính; nhìn vào biểu đồ phần dư trong Hình 8.14
nhỏ.
cũng xác nhận không có mẫu nào trong phần dư.
Mức độ sai số bình thường: Hình 8.15 cho thấy một biểu đồ của
phần dư tiêu chuẩn cho dữ liệu giá trị thị trường. Phân phối dường
như hơi lệch một cách tích cực (đặc biệt là với ngoại lệ) nhưng
dường như không phải là một
Phương sai đồng nhất: Trong đồ thị phần dư ở Hình 8.14, chúng ta
không thấy có sự khác biệt nghiêm trọng nào trong việc trải rộng dữ liệu
đối với các giá trị khác nhau của X, đặc biệt nếu giá trị ngoại lệ bị loại bỏ.
Tính độc lập của lỗi: Do dữ liệu chéo
mặt cắt ngang, chúng ta có thể giả định rằng giả định này đúng.
Nhiều hồi quy tuyến tính
Nhiều trường đại học cố gắng dự đoán kết quả học tập của sinh viên như là một chức năng của một số đặc điểm.
Trong tệp Excel Cao đẳng và Đại học (xem Hình 8.16), giả sử rằng chúng ta muốn dự đoán tỷ lệ tốt nghiệp
như một hàm của các biến khác—điểm SAT trung bình, tỷ lệ được nhận, chi tiêu/sinh viên và phần trăm trong
10% học sinh giỏi nhất của họ. lớp trung học. Nó là hợp lý để
Machine Translated by Google
250
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.16
Một phần của tệp Excel
Cao đẳng và đại học
đề xuất rằng các trường có học sinh có điểm SAT cao hơn, tỷ lệ chấp nhận thấp hơn, ngân sách
lớn hơn và tỷ lệ học sinh nằm trong top 10% các lớp trung học cao hơn sẽ có xu hướng giữ lại
và tốt nghiệp nhiều học sinh hơn.
Mô hình hồi quy tuyến tính có nhiều hơn một biến độc lập được gọi là mô hình hồi quy
tuyến tính nhiều biến. Hồi quy tuyến tính đơn giản chỉ là một trường hợp đặc biệt của hồi quy
tuyến tính bội. Một mô hình hồi quy tuyến tính bội có dạng:
Y b0 + b1X1 + b2X2 + g + bkXk + e
(8.10)
Ở đâu
Y là biến phụ thuộc,
X1 , c, Xk là các biến độc lập (giải thích),
b0 là số hạng chặn,
b1 , c, bk là hệ số hồi quy của các biến độc lập,
e là thuật ngữ lỗi
Tương tự như hồi quy tuyến tính đơn giản, chúng tôi ước tính các hệ số hồi quy—được gọi là
hệ số hồi quy từng phần—b0 , b1 , b2 , cbk , sau đó sử dụng mô hình:
yn
b0 + b1X1 + b2X2 + g+ bkXk
(8.11)
để dự đoán giá trị của biến phụ thuộc. Các hệ số hồi quy từng phần biểu thị sự thay đổi dự
kiến trong biến phụ thuộc khi biến độc lập liên quan được tăng lên một đơn vị trong khi giá
trị của tất cả các biến độc lập khác được giữ không đổi.
Đối với dữ liệu cao đẳng và đại học, mô hình đề xuất sẽ là
% tốt nghiệp
b0 + b1 SAT + b2 CHẤP NHẬN + b3 CHI PHÍ
+ b4 TOP10% HS
Do đó, b2 sẽ đại diện cho ước tính về sự thay đổi trong tỷ lệ tốt nghiệp cho một đơn vị tăng
tỷ lệ chấp nhận trong khi giữ tất cả các biến khác không đổi.
Giống như hồi quy tuyến tính đơn giản, hồi quy tuyến tính bội sử dụng bình phương nhỏ
nhất để ước tính hệ số chặn và hệ số góc giúp giảm thiểu tổng các số hạng sai số bình phương
trên tất cả các quan sát. Các giả định chính được thảo luận cho hồi quy tuyến tính đơn giản
cũng được áp dụng ở đây. Công cụ hồi quy Excel có thể dễ dàng thực hiện nhiều hồi quy tuyến
tính; bạn chỉ cần chỉ định phạm vi đầy đủ cho dữ liệu biến độc lập trong hộp thoại. Một lưu ý
khi sử dụng công cụ: các biến độc lập trong bảng tính phải nằm trong các cột liền kề nhau. Vì
vậy, bạn có thể phải di chuyển thủ công các cột dữ liệu xung quanh trước khi áp dụng công cụ.
Machine Translated by Google
251
Chương 8 Đường xu hướng và phân tích hồi quy
Các kết quả từ công cụ Hồi quy có cùng định dạng như chúng ta đã thấy
2
hồi quy tuyến tính. Tuy nhiên, một số khác biệt chính tồn tại. Nhiều R và R Square (hoặc R
)
lần lượt được gọi là hệ số tương quan bội và hệ số xác định bội, trong bối cảnh hồi quy bội.
Chúng chỉ ra sức mạnh của mối liên hệ giữa các biến phụ thuộc và biến độc lập. Tương tự như
hồi quy tuyến tính đơn giản, R
2
giải thích tỷ lệ phần trăm biến thể trong biến phụ thuộc
được giải thích bởi tập hợp các biến độc lập trong mô hình.
Việc giải thích phần ANOVA hoàn toàn khác so với phần hồi quy tuyến tính đơn giản.
Đối với hồi quy tuyến tính bội, ANOVA kiểm tra tầm quan trọng của toàn bộ mô hình. Nghĩa
là, nó tính toán một thống kê F để kiểm tra các giả thuyết
b2 g bk 0
H0 : b1
H1 : ít nhất một bj không phải là 0
Giả thuyết khống nói rằng không có mối quan hệ tuyến tính nào tồn tại giữa người phụ thuộc và bất kỳ
của các biến độc lập, trong khi giả thuyết thay thế nói rằng biến phụ thuộc có mối quan hệ
tuyến tính với ít nhất một biến độc lập. Nếu giả thuyết vô hiệu bị bác bỏ, chúng ta không
thể kết luận rằng có một mối quan hệ tồn tại với từng biến độc lập riêng lẻ.
Đầu ra hồi quy tuyến tính bội cũng cung cấp thông tin để kiểm tra các giả thuyết về
từng hệ số hồi quy riêng lẻ. Cụ thể, chúng ta có thể kiểm tra giả thuyết không rằng b0 (giá
trị chặn) hoặc bất kỳ bi nào bằng không. Nếu chúng ta bác bỏ giả thuyết vô hiệu rằng hệ số
góc liên quan đến biến độc lập i bằng 0, H0 : bi 0, thì chúng ta có thể nói rằng biến độc
lập i có ý nghĩa trong mô hình hồi quy; nghĩa là nó góp phần làm giảm sự biến thiên của biến
phụ thuộc và cải thiện khả năng dự báo tốt hơn của mô hình đối với biến phụ thuộc. Tuy
nhiên, nếu chúng ta không thể bác bỏ H0 thì biến độc lập đó không có ý nghĩa và có lẽ không
nên đưa vào mô hình. Chúng ta xem cách sử dụng thông tin này để xác định mô hình tốt nhất
trong phần tiếp theo.
Cuối cùng, đối với nhiều mô hình hồi quy, một biểu đồ phần dư được tạo cho mỗi biến vết lõm
độc lập. Điều này cho phép bạn đánh giá các giả định về tuyến tính và phương sai thay đổi đồng
nhất của hồi quy.
VÍ DỤ 8.12 Giải thích kết quả hồi quy cho dữ liệu trường cao đẳng và
đại học
Kết quả hồi quy bội cho dữ liệu trường cao đẳng và đại học được
thể hiện trong Hình 8.17.
nếu nhu cầu của họ không được đáp ứng, một số sinh viên kinh
Từ phần Hệ số, chúng ta thấy rằng mô hình là:
CHI PHÍ
doanh có thể theo đuổi sở thích khác trước khi tốt nghiệp hoặc
có lỗi chọn mẫu. Như với hồi quy tuyến tính đơn giản, mô hình chỉ
Tốt nghiệp % =
17,92 + 0,072 SAT
một số sinh viên giỏi nhất đòi hỏi khắt khe hơn và chuyển trường
24,859 CHẤP NHẬN
0,000136
0,163 TOP10% HS
Các dấu hiệu của một số hệ số có ý nghĩa; điểm SAT cao hơn và tỷ
nên được sử dụng cho các giá trị của các biến độc lập trong phạm
vi dữ liệu.
Giá trị của R
2
(0,53) chỉ ra rằng 53% phương sai
lệ chấp nhận thấp hơn cho thấy tỷ lệ tốt nghiệp cao hơn. Tuy
trong biến phụ thuộc được giải thích bởi những điều này trong
nhiên, chúng ta có thể kỳ vọng rằng chi tiêu lớn hơn của sinh
các biến phụ thuộc. Điều này cho thấy rằng các yếu tố khác không
viên và tỷ lệ học sinh trung học hàng đầu cao hơn cũng sẽ ảnh
có trong mô hình, có thể là điều kiện sống trong khuôn viên
hưởng tích cực đến tỷ lệ tốt nghiệp. Có lẽ vấn đề xảy ra bởi vì
trường, cơ hội xã hội, v.v., cũng có thể ảnh hưởng đến tỷ lệ tốt
nghiệp.
(còn tiếp)
Machine Translated by Google
252
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.17
Nhiều hồi quy
Kết quả cho Dữ liệu
Cao đẳng và Đại học
Hình 8.18
Âm mưu còn lại cho 10% hàng đầu
biến HS
Từ phần ANOVA, chúng ta có thể kiểm tra ý nghĩa của hồi
quy. Ở mức ý nghĩa 5%, chúng tôi bác bỏ giả thuyết không vì Ý
nghĩa F về cơ bản bằng không. Do đó, chúng ta có thể kết luận
rằng ít nhất một độ dốc khác 0 về mặt thống kê.
hệ số hồi quy bằng 0 và kết luận rằng mỗi trong số chúng đều
có ý nghĩa thống kê.
Hình 8.18 cho thấy một trong các ô còn lại từ đầu ra của
Excel. Các giả định dường như được đáp ứng và các ô còn lại
khác (không được hiển thị) cũng xác nhận các giả định này.
Nhìn vào giá trị p của các biến độc lập trong phần trước,
Biểu đồ xác suất bình thường (cũng không được hiển thị) không
chúng ta thấy rằng tất cả đều nhỏ hơn 0,05; do đó, chúng tôi
gợi ý bất kỳ sự sai lệch nghiêm trọng nào so với tính bình
bác bỏ giả thuyết khống rằng mỗi phần
thường.
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
253
Phân tích trong thực tế: Sử dụng hồi quy tuyến tính và rủi ro tương tác
Trình mô phỏng để dự đoán hiệu suất tại ARAMARK3
ARAMARK là công ty hàng đầu về các dịch vụ chuyên nghiệp,
cho khách hàng của họ sử dụng. Họ đã phát triển “Trình mô
cung cấp dịch vụ ăn uống từng đoạt giải thưởng, quản lý cơ
phỏng rủi ro tương tác”, là công cụ trực tuyến đơn giản cho
sở vật chất, đồng phục và trang phục nghề nghiệp cho các tổ
phép người dùng thao tác giá trị của các biến độc lập trong
chức chăm sóc sức khỏe, trường đại học và khu học chánh,
mô hình hồi quy bằng cách sử dụng các thanh trượt tương tác
sân vận động và nhà thi đấu cũng như các doanh nghiệp trên
tương ứng với các số liệu kinh doanh và xem ngay giá trị
khắp thế giới. Có trụ sở chính tại Philadelphia, ARAMARK có
của các biến phụ thuộc (các đo lường rủi ro) trên các đồng
khoảng 255.000 nhân viên phục vụ khách hàng tại 22 quốc gia.
hồ đo tương tự như đồng hồ đo được tìm thấy trên bảng điều
khiển của ô tô.
ARA M AR K 's G lo ba l R i
S
Hình 8.19 minh họa cấu trúc của bộ mô phỏng. Các
k M an ageme nt
Department (GRM) cần một cách để xác định mối quan hệ thống
thước đo được cập nhật ngay lập tức khi người dùng điều
kê giữa các số liệu kinh doanh chính (ví dụ: thời hạn của
chỉnh các thanh trượt, cho biết những thay đổi trong môi
nhân viên, mức độ gắn kết của nhân viên, lực lượng lao
trường kinh doanh ảnh hưởng như thế nào đến các thước đo rủi
động được đào tạo, thời hạn của tài khoản, dịch vụ cung cấp)
ro. Biểu diễn trực quan này làm cho các mô hình dễ sử dụng
và các số liệu về rủi ro (ví dụ: tỷ lệ OSHA, người lao
và dễ hiểu, đặc biệt đối với những nhân viên không có kỹ thuật.
động ' tỷ lệ bồi thường, thiệt hại của khách hàng) để hiểu
tác động của những rủi ro này đối với doanh nghiệp. GRM
cũng cần một công cụ đơn giản mà các nhà điều hành hiện
trường và nhóm quản lý rủi ro có thể sử dụng để dự đoán tác
động của các quyết định kinh doanh đối với các thước đo rủi
ro trước khi các quyết định đó được thực hiện. Những câu hỏi
điển hình mà họ muốn hỏi là, Điều gì sẽ xảy ra với tỷ lệ
OSHA của chúng tôi nếu chúng tôi tăng tỷ lệ lao động bán
thời gian? và Làm thế nào chúng ta có thể tác động đến doanh
thu nếu hoạt động cải thiện hiệu suất an toàn?
Gunnar
Pippel/
Shutterstock.com
ARAMARK duy trì dữ liệu lịch sử phong phú.
Ví dụ: nhóm Quản lý Rủi ro Toàn cầu theo dõi các dữ liệu
như tỷ lệ OSHA, tỷ lệ trượt/chui/ngã, chi phí thương tích và
mức độ tuân thủ các tiêu chuẩn an toàn; bộ phận Nhân sự theo
dõi doanh thu và tỷ lệ lao động bán thời gian; bộ phận Tính
lương lưu dữ liệu về tiền lương bình quân; và bộ phận Đào
tạo và Phát triển Tổ chức thu thập dữ liệu về sự gắn kết của
GRM đã gửi hơn 200 cuộc khảo sát tới nhiều cấp độ của
tổ chức để đánh giá tính hữu ích của Trình mô phỏng rủi ro
nhân viên. Hồi quy tuyến tính dựa trên Excel được sử dụng
tương tác. Một trăm phần trăm số người được hỏi đã trả lời
để xác định mối quan hệ giữa các biến phụ thuộc (chẳng hạn
“Có” cho “Các trình mô phỏng có dễ sử dụng không?” và 78%
như tỷ lệ OSHA, tỷ lệ trượt/chuyến/ngã, chi phí yêu cầu bồi
số người được hỏi đã trả lời “Có” cho “Liệu những trình mô
thường và chuyển giao) và các biến độc lập (chẳng hạn như
phỏng này có hữu ích trong việc điều hành doanh nghiệp của
tỷ lệ phần trăm lao động bán thời gian, mức lương trung
bạn và giúp bạn đưa ra quyết định không?” Việc triển khai
bình, sự tham gia của nhân viên và tuân thủ an toàn).
Trình mô phỏng rủi ro tương tác cho lĩnh vực này đã nhận
được phản hồi tích cực và sự công nhận từ lãnh đạo trong
tất cả các ngành kinh doanh, bao gồm các nhà quản lý tuyến
Mặc dù các mô hình hồi quy cung cấp hỗ trợ phân tích
cơ bản mà ARAMARK cần, nhóm GRM đã sử dụng một phương pháp
đầu, giám đốc dịch vụ thực phẩm, quản lý khu vực và tổng
giám đốc.
mới để triển khai các mô hình
3Tác giả bày tỏ lòng biết ơn của mình tới John Toczek, Giám đốc Hỗ trợ Quyết định và Phân
tích tại Tập đoàn ARAMARK.
Machine Translated by Google
254
Chương 8 Đường xu hướng và phân tích hồi quy
c./
Shutterstock.com
Nataliia
Natykach/
Shutterstock.com
vectorminh
họa/
Shutterstock.com
Đầu vào: Biến độc lập
Mô hình hồi quy
Đầu ra: Biến phụ thuộc
Hình 8.19
Cấu trúc của Trình mô phỏng rủi ro tương tác
Xây dựng các mô hình hồi quy tốt
Trong ví dụ về hồi quy của các trường cao đẳng và đại học, tất cả các biến độc lập được cho là
có ý nghĩa bằng cách đánh giá giá trị p của phân tích hồi quy. Điều này không phải lúc nào cũng
đúng và dẫn đến câu hỏi làm thế nào để xây dựng các mô hình hồi quy tốt bao gồm tập hợp các biến
“tốt nhất”.
Hình 8.20 cho thấy một phần của tệp Excel Dữ liệu ngân hàng, cung cấp dữ liệu thu được từ
hồ sơ ngân hàng và điều tra dân số cho các mã zip khác nhau trong thị trường hiện tại của ngân
hàng. Những thông tin như vậy có thể hữu ích trong việc nhắm mục tiêu quảng cáo cho khách hàng
mới hoặc để chọn địa điểm cho các văn phòng chi nhánh. Dữ liệu cho thấy độ tuổi trung bình của
dân số, số năm giáo dục trung bình, thu nhập trung bình, giá trị nhà trung bình, tài sản hộ gia
đình trung bình và số dư ngân hàng trung bình.
Hình 8.21 cho thấy kết quả phân tích hồi quy được sử dụng để dự đoán số dư ngân hàng trung
bình như là một hàm của các biến khác. Mặc dù các biến độc lập giải thích hơn 94% sự thay đổi
trong số dư ngân hàng trung bình, nhưng bạn có thể thấy rằng ở mức ý nghĩa 0,05, giá trị p cho
thấy rằng cả Giáo dục và Giá trị gia đình dường như không có ý nghĩa. Một mô hình hồi quy tốt
chỉ nên bao gồm các biến độc lập có ý nghĩa. Tuy nhiên, không phải lúc nào cũng rõ chính xác
điều gì sẽ xảy ra khi chúng ta thêm hoặc bớt các biến khỏi một mô hình; các biến có (hoặc không)
có ý nghĩa trong một mô hình có thể (hoặc có thể không) có ý nghĩa trong một mô hình khác. Do
đó, bạn không nên xem xét loại bỏ tất cả các biến không quan trọng cùng một lúc mà nên thực
hiện một cách tiếp cận có cấu trúc hơn.
Việc thêm một biến độc lập vào mô hình hồi quy sẽ luôn dẫn đến R
đến hoặc lớn hơn R
Hình 8.20
Phần dữ liệu ngân hàng
2
của mô hình ban đầu. Điều này đúng ngay cả khi nền độc lập mới
2
bình đẳng
Machine Translated by Google
255
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.21
Kết quả phân tích hồi quy
cho dữ liệu ngân hàng
biến có ít mối quan hệ thực sự với biến phụ thuộc. Vì vậy, cố gắng tối đa hóa không phải
r 2 là
một tiêu chí hữu ích. Một cách tốt hơn để đánh giá mức độ phù hợp tương đối của các
2
2
mô hình khác nhau là phản ánh cả số lượng biến độc lập và
sử dụng R đã điều chỉnh . R đã điều chỉnh
kích thước mẫu và có thể tăng hoặc giảm khi một biến độc lập được thêm vào hoặc bỏ đi,
do đó cung cấp một dấu hiệu về giá trị của việc thêm hoặc bớt các biến độc lập trong mô
hình. Sự gia tăng trong R điều chỉnh
2
chỉ ra rằng mô hình đã được cải thiện.
Điều này gợi ý một cách tiếp cận có hệ thống để xây dựng các mô hình hồi quy tốt:
1. Xây dựng mô hình với tất cả các biến độc lập có sẵn. Kiểm tra ý nghĩa của
các biến độc lập bằng cách kiểm tra các giá trị p.
2. Xác định biến độc lập có giá trị p lớn nhất vượt quá
mức ý nghĩa đã chọn.
3. Loại bỏ biến đã xác định ở bước 2 khỏi mô hình và đánh giá điều chỉnh.
r 2(Không loại bỏ tất cả các biến có giá trị p vượt quá a cùng một lúc,
nhưng mỗi lần chỉ xóa một cái.)
4. Tiếp tục cho đến khi tất cả các biến đều có ý nghĩa.
2
Về bản chất, cách tiếp cận này tìm kiếm một mô hình quan trọng có R điều chỉnh cao nhất. .
VÍ DỤ 8.13 Xác định mô hình hồi quy tốt nhất
Chúng tôi sẽ áp dụng cách tiếp cận trước cho ví dụ Dữ liệu
dường như là mô hình tốt nhất. Lưu ý rằng giá trị p cho Giáo
ngân hàng. Bước đầu tiên là xác định biến có giá trị p lớn
dục, lớn hơn 0,05 trong phân tích hồi quy đầu tiên, đã giảm
nhất vượt quá 0,05; trong trường hợp này, đó là Giá trị gia
xuống dưới 0,05 sau khi Giá trị gia đình bị loại bỏ. Hiện
đình và chúng tôi xóa nó khỏi mô hình và chạy lại công cụ
tượng này thường xảy ra khi có hiện tượng đa cộng tuyến
(được thảo luận trong phần tiếp theo) và nhấn mạnh tầm quan
Hồi quy. Hình 8.22 cho thấy kết quả
sau khi loại bỏ Giá trị Nhà. Lưu ý rằng R điều chỉnh
đã tăng nhẹ, trong khi R
2
2
-giá trị giảm
một chút vì chúng tôi đã loại bỏ một biến khỏi mô hình.
Tất cả các giá trị p hiện nhỏ hơn 0,05, vì vậy điều này bây giờ
trọng của việc không loại bỏ tất cả các biến có giá trị p
lớn khỏi mô hình ban đầu cùng một lúc.
Machine Translated by Google
256
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.22
Kết quả hồi quy không có
giá trị nhà
Một tiêu chí khác được sử dụng để xác định xem có nên loại bỏ một biến hay không là thống kê t.
2
Nếu t 6 1 thì sai số chuẩn giảm và điều chỉnh R
sẽ tăng nếu biến
có thể được gỡ bỏ. Nếu t 7 1 thì điều ngược lại sẽ xảy ra. Trong kết quả hồi quy ngân hàng,
chúng tôi thấy rằng thống kê t cho Giá trị gia đình nhỏ hơn 1; do đó, chúng tôi mong đợi điều
chỉnh 2
tăng lên nếu chúng ta loại bỏ biến này. Bạn có thể làm theo cách tiếp cận lặp lại tương tự
r
xếp hàng trước, ngoại trừ việc sử dụng giá trị t thay vì giá trị p.
Những cách tiếp cận này sử dụng giá trị p hoặc thống kê t có thể liên quan đến trải nghiệm đáng
2
đề cập để xác định tập hợp các biến tốt nhất dẫn đến R được điều chỉnh lớn nhất kể. Cho lớn
số lượng biến độc lập, số lượng mô hình tiềm năng có thể áp đảo.
Ví dụ, có 2
10
1.024 mô hình khả thi có thể được phát triển từ bộ 10 biến độc
lập. Điều này có thể gây khó khăn cho việc sàng lọc các biến không đáng kể một cách hiệu quả.
May mắn thay, các phương pháp tự động—hồi quy từng bước và các tập hợp con tốt nhất—tồn tại để
tạo thuận lợi cho quá trình này.
Tương quan và đa cộng tuyến
Như chúng ta đã học trước đây, tương quan, một giá trị số giữa -1 và +1, đo lường mối
quan hệ tuyến tính giữa các cặp biến. Giá trị tuyệt đối của mối tương quan càng cao thì
độ mạnh của mối quan hệ càng lớn. Dấu hiệu chỉ đơn giản cho biết liệu các biến có xu hướng
cùng tăng (dương) hay không (âm). Do đó, việc kiểm tra mối tương quan giữa các biến phụ
thuộc và biến độc lập, có thể được thực hiện bằng công cụ Tương quan Excel, có thể hữu
ích trong việc chọn các biến để đưa vào mô hình hồi quy bội vì mối tương quan mạnh biểu
thị mối quan hệ tuyến tính mạnh. Tuy nhiên, mối tương quan chặt chẽ giữa các biến độc
lập có thể là vấn đề.
Điều này có khả năng biểu thị một hiện tượng gọi là đa cộng tuyến, một tình trạng xảy ra
khi hai hoặc nhiều biến độc lập trong cùng một mô hình hồi quy chứa cùng một mức thông
tin cao và do đó, có mối tương quan chặt chẽ với nhau và có thể dự đoán lẫn nhau tốt hơn
biến phụ thuộc . Khi có hiện tượng đa cộng tuyến đáng kể, sẽ khó tách riêng tác động của
một biến độc lập lên biến phụ thuộc và dấu của các hệ số có thể trái ngược với những gì
chúng nên có, gây khó khăn cho việc diễn giải các hệ số hồi quy. Ngoài ra, giá trị p có
thể bị thổi phồng, dẫn đến kết luận không bác bỏ giả thuyết khống về tầm quan trọng của
hồi quy khi nó nên bác bỏ.
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
257
Một số chuyên gia cho rằng mối tương quan giữa các biến độc lập vượt quá giá trị
tuyệt đối 0,7 có thể cho thấy hiện tượng đa cộng tuyến. Tuy nhiên, đa cộng tuyến được đo
lường tốt nhất bằng cách sử dụng thống kê gọi là hệ số lạm phát phương sai (VIF) cho từng
biến độc lập. Các gói phần mềm tinh vi hơn thường tính toán những thứ này; thật không
may, Excel thì không.
VÍ DỤ 8.14 Xác định đa cộng tuyến tiềm ẩn
Hình 8.23 cho thấy ma trận tương quan của các biến trong dữ liệu
tồn tại các mối tương quan giữa Giáo dục và Giá trị gia đình cũng
Cao đẳng và Đại học. Bạn có thể thấy rằng SAT và Tỷ lệ được chấp
như giữa Sự giàu có và Thu nhập (trên thực tế, sự khác biệt trong
nhận có mối tương quan vừa phải với biến phụ thuộc, Tỷ lệ phần
trăm tốt nghiệp, nhưng mối tương quan giữa Chi phí/Học sinh và
các yếu tố lạm phát cho thấy tính đa cộng tuyến đáng kể). Nếu chúng
2
ta loại bỏ Wealth khỏi mô hình, R được điều chỉnh
giọt
Top 10% HS với Tỷ lệ phần trăm tốt nghiệp là tương đối thấp. Tuy
đến 0,9201, nhưng chúng tôi phát hiện ra rằng Giáo dục không còn
nhiên, mối tương quan mạnh nhất là giữa hai biến độc lập: Top 10%
quan trọng nữa. Bỏ Học vấn và chỉ để lại Tuổi và Thu nhập trong mô
2 của 0,9202.
hình dẫn đến R được điều chỉnh
HS và Tỷ lệ chấp nhận. Tuy nhiên, giá trị
0,6097 không vượt quá
ngưỡng khuyến nghị là 0,7, vì vậy chúng ta có thể giả định rằng đa
cộng tuyến không phải là vấn đề ở đây (một phân tích nâng cao hơn
sử dụng tính toán VIF thực sự xác nhận rằng đa cộng tuyến không
tồn tại).
Tuy nhiên, nếu chúng ta loại bỏ Thu nhập khỏi mô hình thay vì Của
2
giảm xuống chỉ còn 0,9345 và tất cả
cải, R đã điều chỉnh
các biến còn lại (Tuổi tác, Giáo dục và Sự giàu có) có ý nghĩa
2
-giá trị cho mô hình với
quan trọng (xem Hình 8.25). các R
ba biến này là 0,936.
Ngược lại, Hình 8.24 cho thấy ma trận tương quan cho tất cả
dữ liệu trong ví dụ về ngân hàng. Lưu ý rằng lớn
Các vấn đề thực tế trong mô hình đường xu hướng và hồi quy
Ví dụ 8.14 cho thấy rõ ràng rằng không dễ để xác định mô hình hồi quy tốt nhất chỉ bằng
cách kiểm tra các giá trị p. Nó thường đòi hỏi một số thử nghiệm và thử và sai. Từ góc
độ thực tế, các biến độc lập được chọn sẽ có ý nghĩa nào đó trong nỗ lực giải thích biến
phụ thuộc (nghĩa là bạn nên có lý do nào đó để tin rằng những thay đổi trong biến độc
lập sẽ gây ra những thay đổi trong biến phụ thuộc mặc dù không thể chứng minh quan hệ
nhân quả bằng thống kê ). Logic nên hướng dẫn mô hình của bạn
Hình 8.23
Ma trận tương quan cho
Cao đẳng và đại học
Dữ liệu
Hình 8.24
Ma trận tương quan cho
Dữ liệu ngân hàng
Machine Translated by Google
258
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.25
Kết quả hồi quy cho Tuổi,
Giáo dục, và sự giàu có như
Biến độc lập
phát triển. Trong nhiều ứng dụng, lý thuyết hành vi, kinh tế hoặc vật lý có thể gợi ý rằng các
biến nhất định nên thuộc về một mô hình. Hãy nhớ rằng các biến bổ sung đóng góp vào R cao hơn
2
và, do đó, giúp giải thích một tỷ lệ lớn hơn của sự khác biệt
sự. Mặc dù một biến có giá trị p lớn không có ý nghĩa thống kê, nó có thể đơn giản là kết quả của
lỗi lấy mẫu và người lập mô hình có thể muốn giữ nó.
Những người lập mô hình giỏi cũng cố gắng có một mô hình đơn giản nhất có thể—một nguyên tắc
lâu đời được gọi là tính phân tích—với số lượng biến giải thích ít nhất sẽ cung cấp một diễn giải
đầy đủ về biến phụ thuộc. Trong khoa học vật lý và quản lý, một số lý thuyết mạnh mẽ nhất lại là lý
thuyết đơn giản nhất. Do đó, một mô hình cho dữ liệu ngân hàng chỉ bao gồm tuổi, trình độ học vấn
và sự giàu có sẽ đơn giản hơn một mô hình có bốn biến; do vấn đề đa cộng tuyến, sẽ thu được rất ít
lợi ích khi đưa thu nhập vào mô hình. Cho dù mô hình giải thích được 93% hay 94% sự thay đổi của
tiền gửi ngân hàng thì có thể sẽ tạo ra sự khác biệt nhỏ. Do đó, việc xây dựng các mô hình hồi quy
tốt phụ thuộc nhiều vào kinh nghiệm và phán đoán cũng như phân tích kỹ thuật.
Một vấn đề mà người ta thường gặp phải khi sử dụng đường xu hướng và hồi quy là khớp quá mức
mô hình. Điều quan trọng là phải nhận ra rằng dữ liệu mẫu có thể có sự thay đổi bất thường khác
với tổng thể; nếu chúng ta khớp một mô hình quá gần với dữ liệu mẫu, chúng ta có nguy cơ không khớp
nó tốt với dân số mà chúng ta quan tâm. Ví dụ, để phù hợp với giá dầu thô trong Ví dụ 8.2, chúng tôi
lưu ý rằng R
2-giá
trị sẽ tăng lên nếu chúng tôi phù hợp với thứ tự cao hơn
các hàm đa thức vào dữ liệu. Mặc dù điều này có thể mang lại sự phù hợp toán học tốt hơn cho dữ liệu
mẫu, nhưng làm như vậy có thể gây khó khăn cho việc giải thích các hiện tượng một cách hợp lý. Điều
tương tự cũng có thể xảy ra với hồi quy bội. Nếu chúng ta thêm quá nhiều thuật ngữ vào mô hình, thì
mô hình có thể không dự đoán đầy đủ các giá trị khác từ tổng thể. Việc trang bị quá mức có thể được
giảm thiểu bằng cách sử dụng logic tốt, trực giác, lý thuyết vật lý hoặc hành vi và sự phân tích như
chúng ta đã thảo luận.
Hồi quy với các biến độc lập phân loại
Một số dữ liệu quan tâm trong một nghiên cứu hồi quy có thể là thứ tự hoặc danh nghĩa. Ví dụ, điều
này phổ biến khi bao gồm dữ liệu nhân khẩu học trong các nghiên cứu tiếp thị. Bởi vì phân tích hồi
quy yêu cầu dữ liệu số, chúng tôi có thể bao gồm các biến phân loại bằng cách mã hóa các biến. Ví
dụ: nếu một biến đại diện cho việc một cá nhân có tốt nghiệp đại học hay không, chúng ta có thể mã
Không là 0 và Có là 1. Các biến như vậy thường được gọi là biến giả.
Machine Translated by Google
259
Chương 8 Đường xu hướng và phân tích hồi quy
VÍ DỤ 8.15 Một mô hình với các biến phân loại
Tệp Excel Lương nhân viên, được hiển thị trong Hình 8.26, cung
Do đó, một người 30 tuổi có bằng MBA sẽ có mức lương ước tính là
cấp dữ liệu về lương và tuổi của 35 nhân viên, cùng với chỉ số
về việc nhân viên đó có bằng MBA hay không (Có hoặc Không). Biến
chỉ báo MBA là cat egorical; do đó, chúng tôi mã hóa nó bằng
cách thay thế Không bằng 0 và Có bằng 1.
lương = 893,59 + 1044,15 × 30 + 14767,23 × 1
= $46.985,32
Mô hình này gợi ý rằng việc có bằng MBA sẽ tăng lương cho nhóm
Nếu chúng ta quan tâm đến việc dự đoán tiền lương như một chức năng
của các biến khác, chúng tôi sẽ đề xuất mô hình
Y = B0 + B1X1 + B2X2 + E
Lưu ý rằng bằng cách thay thế 0 hoặc 1 cho MBA, chúng tôi thu
được hai mô hình:
Không có bằng MBA: lương = 893,59 + 1044,15 × tuổi
Ở đâu
Y = tiền lương
X1 = tuổi
X2 = chỉ số MBA (0 hoặc 1)
Sau khi mã hóa cột chỉ báo MBA trong tệp dữ liệu, chúng
tôi bắt đầu bằng cách chạy hồi quy trên toàn bộ tập dữ liệu,
thu được kết quả như trong Hình 8.27. Lưu ý rằng mô hình giải
thích khoảng 95% biến thể và giá trị p của cả hai biến đều có ý
nghĩa. mô hình là
lương = 893,59 + 1044,15 × tuổi + 14767,23 × MBA
Hình 8.26
Một phần của tệp Excel
Lương nhân viên
Hình 8.27
Mô hình hồi quy ban đầu cho
Lương nhân viên
nhân viên này lên gần 15.000 USD.
MBA: lương = 15.660,82 + 1044,15 × tuổi
Sự khác biệt duy nhất giữa chúng là đánh chặn. Các mô hình cho
thấy tỷ lệ tăng lương theo tuổi là như nhau ở cả hai nhóm. Tất
nhiên, điều này có thể không đúng. Những người có bằng MBA có
thể kiếm được mức lương tương đối cao hơn khi họ già đi. Nói
cách khác, độ dốc của Tuổi có thể phụ thuộc vào giá trị của MBA.
Machine Translated by Google
260
Chương 8 Đường xu hướng và phân tích hồi quy
Một tương tác xảy ra khi ảnh hưởng của một biến (nghĩa là độ dốc) phụ thuộc vào
một biến khác. Chúng ta có thể kiểm tra các tương tác bằng cách xác định một biến mới
là tích của hai biến X3 X1 * X2 và kiểm tra xem biến này có ý nghĩa hay không, dẫn
đến một mô hình thay thế.
VÍ DỤ 8.16 Kết hợp các thuật ngữ tương tác trong một mô hình hồi quy
Đối với ví dụ về Lương của nhân viên, chúng tôi xác định một
lương = 3.323,11 + 984,25 × tuổi + 425,58
thuật ngữ tương tác là tích của tuổi 1X1 2 và MBA 1X2 2 bằng
× MBA × tuổi
cách xác định X3 = X1 × X2 . Mô hình mới là
Các mô hình cho nhân viên có và không có bằng MBA là:
Y = B0 + B1X1 + B2X2 + B3X3 + E
Không có bằng MBA: lương = 3.323,11 + 984,25 × tuổi + 425,58 (0)
Trong trang tính, chúng ta cần tạo một cột mới (được gọi là
× tuổi
Tương tác) bằng cách nhân MBA với Tuổi cho mỗi quan sát (xem
= 3323,11 + 984,25 × tuổi
Hình 8.28). Kết quả hồi quy được thể hiện trong Hình 8.29.
Từ hình 8.29, chúng ta thấy rằng R hiệu chỉnh
2
MBA: lương = 3323,11 + 984,25 × tuổi + 425,58 (1)
TRONG
nếp gấp; tuy nhiên, giá trị p của biến chỉ báo MBA là 0,33, cho
thấy biến này không có ý nghĩa.
× tuổi
= 3.323,11 + 1.409,83 × tuổi
Do đó, chúng tôi loại bỏ biến này và chạy hồi quy chỉ sử dụng
Ở đây, chúng ta thấy rằng mức lương không chỉ phụ thuộc vào việc
tuổi và thuật ngữ tương tác. Kết quả được thể hiện trong Hình
2
8.30. R đã điều chỉnh
tăng nhẹ và
nhân viên có bằng MBA hay không mà còn phụ thuộc vào tuổi tác
cả tuổi tác và thời hạn tương tác đều có ý nghĩa. Mô hình cuối
cùng là
Hình 8.28
Phần nhân viên
Tiền lương được sửa đổi cho
Thuật ngữ tương tác
Hình 8.29
Kết quả hồi quy với
Thuật ngữ tương tác
và thực tế hơn so với mô hình ban đầu.
Machine Translated by Google
261
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.30
Mô hình hồi quy cuối cùng cho
Dữ liệu lương
Biến phân loại có nhiều hơn hai cấp độ
Khi một biến phân loại chỉ có hai cấp độ, như trong ví dụ trước, chúng tôi đã mã
hóa các cấp độ là 0 và 1 và thêm một biến mới vào mô hình. Tuy nhiên, khi một biến
phân loại có k 7 2 cấp thì ta cần thêm k - 1 biến phụ vào mô hình.
VÍ DỤ 8.17 Mô hình hồi quy với nhiều mức biến phân loại
Tệp Excel Surface Finish cung cấp các phép đo độ hoàn thiện bề mặt của
Lưu ý rằng khi X2 = X3 = X4 = 0, thì theo mặc định, loại dao là A.
35 bộ phận được sản xuất trên máy tiện, cùng với số vòng quay trên
Thay các giá trị này cho từng loại dao vào mô hình, chúng ta thu được:
phút (RPM) của trục chính và một trong bốn loại dụng cụ cắt được sử
dụng (xem Hình 8.31).
Công cụ loại A: Y = B0 + B1X1 + E
Kỹ sư đã thu thập dữ liệu quan tâm đến việc dự đoán độ hoàn thiện bề
Loại dao B: Y = B0 + B1X1 + B2 + E
mặt như là một chức năng của RPM và loại công cụ.
Loại dao C: Y = B0 + B1X1 + B3 + E
Trực giác có thể gợi ý xác định một biến giả cho từng loại công
Loại dao D: Y = B0 + B1X1 + B4 + E
cụ; tuy nhiên, làm như vậy sẽ gây ra sự mất ổn định về số trong dữ
liệu và khiến công cụ hồi quy gặp sự cố. Thay vào đó, chúng ta sẽ cần
k
1 = 3 biến giả tương ứng với ba cấp độ của biến tự nhiên cat. Mức
còn lại sẽ tương ứng với một giá trị tham chiếu hoặc đường cơ sở. Do
Đối với giá trị RPM cố định (X1 ), độ dốc tương ứng với các biến giả
thể hiện sự khác biệt giữa độ hoàn thiện bề mặt khi sử dụng loại công
cụ đó và đường cơ sở khi sử dụng loại công cụ A.
đó, vì chúng ta có k = 4 cấp độ của loại công cụ, nên chúng ta sẽ xác
Để kết hợp các biến giả này vào mô hình hồi quy, chúng tôi thêm
định một mô hình hồi quy có dạng
ba cột vào dữ liệu, như trong Hình 8.32. Sử dụng những dữ liệu này,
chúng tôi thu được kết quả hồi quy như trong Hình 8.33. Mô hình kết
quả là
Y = B0 + B1X1 + B2X2 + B3X3 + B4X4 + E
bề mặt hoàn thiện = 24,49 + 0,098 RPM
Ở đâu
20,49 loại C
Y = bề mặt hoàn thiện
X1 = VÒNG/PHÚT
X2 = 1 nếu loại dụng cụ là B và 0 nếu không
X3 = 1 nếu loại dao là C và 0 nếu không
X4 = 1 nếu loại dao là D và 0 nếu không
13,31 loại B
26,04 loại D
Gần 99% sự thay đổi về độ hoàn thiện bề mặt được mô hình giải thích và
tất cả các biến đều có ý nghĩa. Các mô hình els cho từng công cụ riêng
lẻ là
Công cụ A: bề mặt hoàn thiện = 24,49 + 0,098 RPM
20,49(0)
13,31(0)
26,04(0)
= 24,49 + 0,098 vòng/phút
(còn tiếp)
Machine Translated by Google
262
Chương 8 Đường xu hướng và phân tích hồi quy
Công cụ B: hoàn thiện bề mặt = 24,49 + 0,098 RPM
20,49(0)
13,31(1)
Công cụ D: bề mặt hoàn thiện = 24,49 + 0,098 RPM
26,04(0)
20,49(0)
= 11,18 + 0,098 vòng/phút
Công cụ C: bề mặt hoàn thiện = 24,49 + 0,098 RPM
20,49(1)
26,04(0)
= 4,00 + 0,098 vòng/phút
=
13,31(0)
13,31(0)
26,04(1)
1,55 + 0,098 vòng/phút
Lưu ý rằng sự khác biệt duy nhất giữa các mô hình này là các phần
chặn; các độ dốc liên quan đến RPM là như nhau. Điều này cho thấy
rằng chúng tôi có thể muốn kiểm tra các hành động tương tác giữa
loại công cụ cắt và RPM; chúng tôi để lại điều này cho bạn như một
bài tập.
Hình 8.31
Một phần của bề mặt tệp Excel
Hoàn thành
Hình 8.32
Ma trận dữ liệu cho bề mặt
Kết thúc với các biến giả
Machine Translated by Google
263
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.33
Hồi quy hoàn thiện bề mặt
Kết quả mô hình
Mô hình hồi quy với số hạng phi tuyến
Mô hình hồi quy tuyến tính không phù hợp với mọi tình huống. Biểu đồ phân tán của dữ liệu có thể
hiển thị mối quan hệ phi tuyến tính hoặc phần dư cho sự phù hợp tuyến tính có thể dẫn đến một mẫu
phi tuyến tính. Trong những trường hợp như vậy, chúng tôi có thể đề xuất một mô hình phi tuyến
tính để giải thích mối quan hệ. Chẳng hạn, một mô hình đa thức bậc hai sẽ là
Y b0 + b1X + b2X
2 + e
Đôi khi, đây được gọi là mô hình hồi quy đường cong. Trong mô hình này, b1 biểu thị hiệu ứng
tuyến tính của X trên Y và b2 biểu thị hiệu ứng đường cong. Tuy nhiên, mặc dù mô hình này có
vẻ khá khác so với các mô hình hồi quy tuyến tính thông thường, nhưng nó vẫn tuyến tính trong
các tham số (beta, là ẩn số mà chúng ta đang cố gắng ước tính). Nói cách khác, tất cả các
thuật ngữ là sản phẩm của hệ số beta và một số chức năng của dữ liệu, chúng chỉ đơn giản là
các giá trị số. Trong những trường hợp như vậy, chúng ta vẫn có thể áp dụng bình phương nhỏ
nhất để ước lượng các hệ số hồi quy.
Các mô hình hồi quy đường cong cũng thường được sử dụng trong dự báo khi biến số độc lập
là thời gian. Ứng dụng này và các ứng dụng khác của hồi quy trong dự báo sẽ được thảo luận
trong chương tiếp theo.
VÍ DỤ 8.18 Lập mô hình bán đồ uống sử dụng hồi quy đường cong
Tệp Excel Doanh số bán đồ uống cung cấp dữ liệu về doanh số
Bây giờ, cả nhiệt độ và bình phương nhiệt độ đều là các biến
bán đồ uống lạnh tại một nhà hàng nhỏ có sân ngoài trời lớn
độc lập. Hình 8.36 cho thấy kết quả của mô hình hồi quy đường
trong những tháng mùa hè (xem Hình 8.34).
cong. Mô hình là:
Chủ sở hữu đã quan sát thấy rằng doanh số bán hàng có xu hướng
tăng vào những ngày nóng hơn. Hình 8.35 cho thấy kết quả hồi
doanh số = 142.850
3.643,17 × nhiệt độ + 23,3
× nhiệt độ2
quy tuyến tính cho những dữ liệu này. Hình chữ U của biểu đồ
2
phần dư (đường xu hướng đa thức bậc hai phù hợp với dữ liệu
Lưu ý rằng R điều chỉnh
phần dư) cho thấy rằng mối quan hệ tuyến tính là không phù
tuyến tính và các ô còn lại hiện hiển thị nhiều mẫu ngẫu nhiên
hợp. Để áp dụng mô hình hồi quy đường cong, hãy thêm một cột
hơn.
vào ma trận dữ liệu bằng cách bình phương nhiệt độ.
đã tăng đáng kể so với mô hình
Machine Translated by Google
264
Hình 8.34
Một phần của tệp Excel
Bán nước giải khát
Hình 8.35
Kết quả hồi quy tuyến tính
cho doanh số bán đồ uống
Hình 8.36
hồi quy đường cong
Kết quả bán đồ uống
Chương 8 Đường xu hướng và phân tích hồi quy
Machine Translated by Google
265
Chương 8 Đường xu hướng và phân tích hồi quy
Kỹ thuật nâng cao để lập mô hình hồi quy bằng XLMiner
XLMiner là một phần bổ trợ Excel để khai thác dữ liệu đi kèm với Nền tảng bộ giải phân tích.
Khai thác dữ liệu là chủ đề của Chương 10 và bao gồm nhiều quy trình thống kê khác nhau để
khám phá dữ liệu, bao gồm cả phân tích hồi quy. Công cụ phân tích hồi quy trong XLMiner có
một số tùy chọn nâng cao không có sẵn trong công cụ Thống kê mô tả của Excel mà chúng ta sẽ
thảo luận trong phần này.
Hồi quy tập hợp con tốt nhất đánh giá tất cả các mô hình hồi quy có thể có cho một tập
hợp các biến độc lập hoặc tập hợp con tốt nhất của các mô hình cho một số biến độc lập cố
2. tập hợp con tốt
định. Nó giúp bạn tìm ra mô hình tốt nhất dựa trên R đã điều chỉnh
nhất
hồi quy đánh giá các mô hình bằng cách sử dụng một thống kê gọi là Cp, được gọi là tiêu chí
Bonferroni. Cp ước tính độ lệch được đưa ra trong các ước tính của các câu trả lời bằng cách
sử dụng một mô hình chưa được xác định rõ (một mô hình thiếu các yếu tố dự báo quan trọng).
Nếu Cp lớn hơn nhiều so với k + 1 (số biến độc lập cộng với 1), thì có độ chệch đáng kể. Mô
hình đầy đủ luôn có Cp k + 1. Nếu tất cả các mô hình ngoại trừ mô hình đầy đủ đều có Cps lớn,
điều đó cho thấy rằng các biến dự đoán quan trọng bị thiếu. Các mô hình có giá trị tối thiểu
hoặc có Cp nhỏ hơn hoặc ít nhất gần bằng k + 1 là những mô hình tốt để xem xét.
XLMiner cung cấp năm quy trình khác nhau để chọn các tập hợp con tốt nhất của các biến.
Loại bỏ ngược bắt đầu với tất cả các biến độc lập trong mô hình và xóa từng biến một cho đến
khi xác định được mô hình tốt nhất. Lựa chọn chuyển tiếp bắt đầu với một mô hình không có
biến độc lập và liên tục thêm từng biến một cho đến khi không có biến bổ sung nào đóng góp
đáng kể. Lựa chọn từng bước tương tự như Lựa chọn chuyển tiếp ngoại trừ ở mỗi bước, quy
trình xem xét loại bỏ các biến không có ý nghĩa thống kê. Thay thế tuần tự thay thế các biến
một cách tuần tự, giữ lại những biến giúp cải thiện hiệu suất. Các tùy chọn này có thể chấm
dứt với một mô hình khác. Tìm kiếm Toàn diện xem xét tất cả các kết hợp biến để tìm ra kết
hợp phù hợp nhất, nhưng có thể tốn thời gian đối với số lượng lớn biến.
VÍ DỤ 8.19 Sử dụng XLMiner để hồi quy
Chúng tôi sẽ sử dụng ví dụ Dữ liệu Ngân hàng. Sau khi cài đặt, XLMiner
sẽ xuất hiện dưới dạng một tab mới trong dải băng Excel. Dải băng
XLMiner tạo một trang tính mới với “Bộ điều hướng đầu ra” cho
phép bạn nhấp vào các siêu liên kết để xem các phần khác nhau của
XLMiner được hiển thị trong Hình 8.37. Để sử dụng công cụ hồi quy cơ
đầu ra (xem Hình 8.41). Mô hình hồi quy và đầu ra ANOVA được thể hiện
bản, hãy nhấp vào nút Dự đoán trong Khai thác dữ liệu
trong Hình 8.42. Lưu ý rằng điều này giống như kết quả thể hiện trong
nhóm và chọn Multiple Linear Regression. Sau đó, hộp thoại đầu tiên
Hình 8.21.
trong số hai hộp thoại sẽ được hiển thị, như trong Hình 8.38.
Kết quả tập hợp con tốt nhất xuất hiện bên dưới đầu ra ANOVA, được
Đầu tiên, nhập phạm vi dữ liệu (bao gồm tiêu đề) vào hộp gần trên
hiển thị trong Hình 8.43. RSS là tổng bình phương còn lại hoặc tổng
cùng và chọn hộp Hàng đầu tiên chứa tiêu đề. Tất cả các biến sẽ được
bình phương độ lệch giữa khả năng thành công được dự đoán và giá trị
liệt kê trong khung bên trái (Các biến trong dữ liệu đầu vào). Chọn
thực tế (1 hoặc 0). Xác suất là một thử nghiệm gần như giả thuyết
các biến độc lập và di chuyển chúng bằng cách sử dụng nút mũi tên đến
rằng một tập hợp con nhất định có thể chấp nhận được; nếu giá trị này
ngăn Các biến đầu vào; sau đó chọn biến phụ thuộc và di chuyển nó đến
nhỏ hơn 0,05, bạn có thể loại trừ tập hợp con đó. Lưu ý rằng mô hình
ngăn Biến đầu ra như trong hình. Bấm tiếp. Hộp thoại thứ hai như trong
có 5 hệ số (bao gồm hệ số chặn) là mô hình duy nhất có giá trị Cp nhỏ
Hình 8.39 sẽ xuất hiện.
hơn k + 1 = 5 và
R điều chỉnh của nó
2
là cái lớn nhất. Nếu bạn nhấp vào “Chọn tập hợp con,”
Chọn các tùy chọn đầu ra và kiểm tra báo cáo Tóm tắt
XLMiner sẽ tạo một trang tính mới với các kết quả cho mô hình này,
hộp. Tuy nhiên, trước khi nhấp vào Kết thúc, hãy nhấp vào nút Tập hợp
giống như chúng ta tìm thấy trong Hình 8.22; tức là mô hình không có
con tốt nhất. Trong hộp thoại minh họa trong Hình 8.40, đánh dấu vào
biến Giá trị gia đình.
hộp ở trên cùng và chọn quy trình lựa chọn.
Bấm OK rồi bấm Kết thúc trong hộp thoại Bước 2.
Machine Translated by Google
266
Hình 8.37
Ruy băng XLMiner
Hình 8.38
Hồi quy tuyến tính XLMiner
Hộp thoại, Bước 1/2
Hình 8.39
Hồi quy tuyến tính XLMiner
Hộp thoại, Bước 2/2
Chương 8 Đường xu hướng và phân tích hồi quy
Machine Translated by Google
Chương 8 Đường xu hướng và phân tích hồi quy
Hình 8.40
Hộp thoại tập hợp con tốt nhất của XLMiner
Hình 8.41
Đầu ra XLMiner
Hoa tiêu
Hình 8.42
Công cụ khai thác XL
hồi quy
đầu ra
Hình 8.43
Kết quả tập hợp con tốt nhất của XLMiner
267
Machine Translated by Google
268
Chương 8 Đường xu hướng và phân tích hồi quy
XLMiner cũng cung cấp xác thực chéo—một quá trình sử dụng hai bộ dữ liệu mẫu;
một để xây dựng mô hình (được gọi là tập huấn luyện) và phần thứ hai để đánh giá hiệu suất của
mô hình (được gọi là tập hợp lệ). Điều này sẽ được giải thích trong Chương 10 khi chúng ta nghiên
cứu sâu hơn về khai thác dữ liệu, nhưng không cần thiết cho phân tích hồi quy tiêu chuẩn.
Điều khoản quan trọng
tự tương quan
Hồi quy tập con tốt nhất
Hệ số xác định 1R
nhiều hệ số tương quan
2
Hồi quy tuyến tính bội
2
trang bị quá mức
xác thực chéo
tằn tiện
Hệ số xác định nhiều lần
hệ số hồi quy từng phần
Mô hình hồi quy đường cong
Chức năng đa thức
Biến giả
hàm số mũ
chức năng nguồn
r 2 (R bình phương)
phương sai đồng nhất
Phân tích hồi quy
Sự tương tác
dư
Hồi quy bình phương tối thiểu
Ý nghĩa của hồi quy
Hàm tuyến tính
Hồi quy tuyến tính cơ bản
Hàm logarit
Sai số chuẩn của ước lượng, SYX
đa cộng tuyến
Lượng dư tiêu chuẩn
vấn đề và bài tập
1. Mỗi trang tính trong tệp Excel LineFit Data chứa
đường hồi quy tuyến tính phù hợp nhất bằng công cụ
một bộ dữ liệu mô tả mối quan hệ hàm giữa biến phụ
Đường xu hướng của Excel. Bạn sẽ kết luận gì về sức
thuộc y và biến độc lập x. Xây dựng biểu đồ đường
mạnh của bất kỳ mối quan hệ nào? Bạn có sử dụng
của từng tập dữ liệu và sử dụng công cụ Thêm đường
hồi quy để đưa ra dự đoán về tỷ lệ thất nghiệp dựa
xu hướng để xác định các hàm phù hợp nhất để lập mô
trên chi phí sinh hoạt không?
hình các tập dữ liệu này.
4. Sử dụng dữ liệu trong tệp Excel Weddings xây dựng biểu
2. Một công ty sản phẩm tiêu dùng đã thu thập một số dữ liệu
đồ phân tán để xác định xem có mối quan hệ tuyến tính
liên quan đến nhu cầu hàng tháng với giá của một trong các
nào tồn tại giữa (1) chi phí đám cưới và số người
sản phẩm của mình:
tham dự, (2) chi phí đám cưới và xếp hạng giá trị, và
Giá
Yêu cầu
(3) giá trị của cặp đôi. thu nhập và chi phí đám cưới
chỉ dành cho đám cưới do cô dâu và chú rể chi trả.
$11
2.100
Sau đó, tìm các đường hồi quy tuyến tính phù hợp nhất
$13
2,020
bằng cách sử dụng công cụ Đường xu hướng của Excel
$17
1.980
$19
1.875
cho từng biểu đồ này.
5. Sử dụng dữ liệu trong tệp Excel Điểm của Học sinh, xây
dựng biểu đồ phân tán cho điểm của bài kiểm tra giữa kỳ
Loại mô hình nào sẽ thể hiện tốt nhất những dữ liệu này?
và cuối kỳ và thêm một đường xu hướng tuyến tính. Mô hình
Sử dụng công cụ Đường xu hướng để tìm thứ tốt nhất trong số các
hồi quy là gì? Nếu một học sinh đạt 70 điểm trong kỳ thi
tùy chọn được cung cấp.
3. Sử dụng dữ liệu trong tệp Excel Demographics, xác
định xem có tồn tại mối quan hệ tuyến tính giữa tỷ
giữa kỳ, bạn dự đoán điểm của cô ấy trong kỳ thi cuối kỳ
là bao nhiêu?
6. Sử dụng kết quả điều chỉnh Giá trị Thị trường Nhà
lệ thất nghiệp và chỉ số chi phí sinh hoạt hay không
đường hồi quy trong Ví dụ 8.4, tính toán các sai số
bằng cách xây dựng biểu đồ phân tán. Trực quan, dường
liên quan đến từng quan sát bằng cách sử dụng công
như có bất kỳ ngoại lệ? Nếu vậy, xóa chúng và sau đó tìm
thức (8.3) và xây dựng một biểu đồ.
Machine Translated by Google
269
Chương 8 Đường xu hướng và phân tích hồi quy
7. Thiết lập trang tính Excel để áp dụng các công thức (8.5)
và (8.6) để tính giá trị của b0 và b1 cho dữ liệu trong
tệp Excel Giá trị thị trường tại nhà và xác minh rằng
bạn thu được các giá trị giống như trong Ví dụ 8.4 và 8.5.
Một. Giải thích tất cả các kết quả hồi quy chính, kiểm
tra giả thuyết và khoảng tin cậy ở đầu ra.
b. Phân tích phần dư để xác định xem giả định
các cơ sở phân tích hồi quy là hợp lệ.
c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ
8. Giám đốc điều hành của một nhóm tư vấn có dữ liệu hàng
tháng sau đây về tổng chi phí chung và số giờ lao động
chuyên nghiệp để lập hóa đơn cho khách hàng:4
Chi phí chung
Số giờ có thể thanh toán
$365,000
3.000
400.000 USD
4.000
$430,000
5.000
$477,000
6.000
$560,000
7.000
$587,000
8.000
Một. Phát triển một đường xu hướng để xác định mối quan
hệ giữa số giờ có thể tính phí và chi phí chung.
b. Giải thích các hệ số của mô hình hồi quy của bạn. Cụ
nào có thể tồn tại hay không.
đ. Nếu một cặp vợ chồng kiếm được 70.000 đô la cùng nhau,
họ có thể dự trù bao nhiêu cho đám cưới?
11. Sử dụng dữ liệu trong tệp Excel Demographics, áp dụng
công cụ Hồi quy Excel sử dụng tỷ lệ thất nghiệp làm biến
phụ thuộc và chỉ số chi phí sinh hoạt làm biến độc lập.
Một. Giải thích tất cả các kết quả hồi quy chính, kiểm
tra giả thuyết và khoảng tin cậy ở đầu ra.
b. Phân tích phần dư để xác định xem giả định
các cơ sở phân tích hồi quy là hợp lệ.
c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ
nào có thể tồn tại hay không.
12. Sử dụng dữ liệu trong tệp Excel Điểm của Học sinh, áp
thể, thành phần cố định của mô hình có ý nghĩa gì
dụng công cụ Hồi quy Excel bằng cách sử dụng điểm giữa
đối với công ty tư vấn?
kỳ làm biến độc lập và điểm thi cuối kỳ làm biến phụ
c. Nếu một công việc đặc biệt yêu cầu 1.000 giờ có thể
tính phí sẽ đóng góp khoản lãi 38.000 đô la trước
khi có sẵn chi phí hoạt động, liệu công việc đó có
hấp dẫn không?
9. Sử dụng tệp Excel Weddings, áp dụng công cụ Excel
Regression bằng cách sử dụng chi phí đám cưới làm biến
phụ thuộc và tham dự làm biến độc lập.
thuộc.
Một. Giải thích tất cả các kết quả hồi quy chính, kiểm
tra giả thuyết và khoảng tin cậy ở đầu ra.
b. Phân tích phần dư để xác định xem giả định
các cơ sở phân tích hồi quy là hợp lệ.
c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ
nào có thể tồn tại hay không.
13. Tệp Excel National Football League cung cấp nhiều dữ liệu
Một. Giải thích tất cả các kết quả hồi quy chính, kiểm
tra giả thuyết và khoảng tin cậy ở đầu ra.
b. Phân tích phần dư để xác định xem giả định
các cơ sở phân tích hồi quy là hợp lệ.
c. Sử dụng phần dư tiêu chuẩn để xác định xem có bất kỳ ngoại lệ
nào có thể tồn tại hay không.
đ. Nếu một cặp đôi dự định tổ chức đám cưới cho 175
khách, họ nên dự trù bao nhiêu tiền?
10. Sử dụng file Excel Weddings, áp dụng Excel Re
khác nhau về bóng đá chuyên nghiệp trong một mùa giải.
Một. Xây dựng sơ đồ phân tán cho Điểm/Trò chơi và Yard/
Trò chơi trong tệp Excel. Có vẻ như là một mối quan
hệ tuyến tính?
b. Phát triển một mô hình hồi quy để dự đoán Điểm/Trò
chơi như là một chức năng của Yards/Trò chơi.
Giải thích ý nghĩa thống kê của mô hình.
c. Rút ra kết luận về giá trị của các giả định phân tích
hồi quy từ đồ thị phần dư và phần dư chuẩn.
công cụ tính toán sử dụng chi phí đám cưới làm biến phụ
thuộc và thu nhập của cặp đôi làm biến độc lập, chỉ dành
cho những đám cưới do cô dâu và chú rể chi trả.
14. Một nhà thầu kỹ thuật nền móng sâu đã đấu thầu hệ thống
móng cho một tòa nhà mới có trụ sở chính trên thế giới
cho một công ty trong danh sách Fortune 500.
4Sửa đổi từ Charles T. Horngren, George Foster và Srikant M. Datar, Cost Accounting: A Managerial Emphasis, tái bản lần thứ 9. (Vách đá
Englewood, NJ: Prentice Hall, 1997): 371.
Machine Translated by Google
270
Chương 8 Đường xu hướng và phân tích hồi quy
Một phần của dự án bao gồm lắp đặt cọc khoan nhồi 311. Nhà
mô hình bạn chọn, hãy tiến hành phân tích sâu hơn để kiểm
thầu đã được cung cấp thông tin dự thầu cho mục đích ước
tra mức độ quan trọng của các biến độc lập và tính đa cộng
tính chi phí, bao gồm độ sâu ước tính của mỗi cọc; tuy
tuyến.
nhiên, không thể xác định chính xác chiều dài mũi khoan
thực tế của từng cọc cho đến khi tiến hành thi công. File
excel Pile Foundation chứa các ước tính và chiều dài cọc
thực tế sau khi dự án được hoàn thành. Xây dựng mô hình hồi
quy tuyến tính để ước tính chiều dài cọc thực tế như là một
hàm của chiều dài cọc ước tính.
Bạn kết luận điều gì?
15. Tệp Excel Bán buổi hòa nhạc cung cấp dữ liệu về số tiền bán
hàng và số lượng quảng cáo trên đài phát thanh, TV và báo
quảng bá các buổi hòa nhạc cho một nhóm thành phố. Phát
triển các mô hình hồi quy tuyến tính đơn giản để dự đoán
doanh số bán hàng dưới dạng hàm của số lượng từng loại quảng cáo.
20. Sử dụng dữ liệu trong tệp Excel Freshman College Data, xác
định mô hình hồi quy tốt nhất để dự đoán tỷ lệ duy trì năm
đầu tiên. Đối với mô hình bạn chọn, hãy tiến hành phân tích
sâu hơn để kiểm tra tầm quan trọng của các biến độc lập và
tính đa cộng tuyến.
21. Tệp Excel Giải bóng chày nhà nghề cung cấp dữ liệu về mùa
giải 2010.
Một. Xây dựng và kiểm tra ma trận tương quan. Là đa cộng
tuyến một vấn đề tiềm năng?
b. Đề xuất một tập hợp các biến độc lập phù hợp để dự đoán
số lần thắng bằng cách kiểm tra ma trận tương quan.
So sánh các kết quả này với mô hình hồi quy tuyến tính bội
sử dụng cả hai biến độc lập. Kiểm tra phần dư của mô hình
hồi quy tốt nhất dưới dạng giả định và các ngoại lệ có thể
có.
c. Tìm mô hình hồi quy bội tốt nhất để dự đoán số lần
thắng. Làm thế nào tốt là mô hình của bạn? Nó có sử
dụng các biến giống như bạn nghĩ là phù hợp trong phần
16. Sử dụng dữ liệu trong tệp Excel Giá trị thị trường của ngôi
nhà, hãy phát triển mô hình hồi quy tuyến tính bội để ước
tính giá trị thị trường như một hàm của cả tuổi và kích
thước của ngôi nhà. Dự đoán giá trị của một ngôi nhà 30
tuổi và có diện tích 1.800 bộ vuông, và một ngôi nhà đã 5
tuổi và có diện tích 2.800 bộ vuông.
17. Tệp Excel Dữ liệu ngũ cốc cung cấp nhiều thông tin dinh
dưỡng về 67 loại ngũ cốc và vị trí kệ của chúng trong siêu
thị. Sử dụng phân tích hồi quy để tìm mô hình tốt nhất
giải thích mối quan hệ giữa lượng calo và các biến số
khác. Điều tra các giả định của mô hình và giải thích rõ
ràng các kết luận của bạn. Hãy ghi nhớ nguyên tắc tiết
kiệm!
18. Tệp Excel Dữ liệu Lương cung cấp thông tin về mức lương
(b) không?
22. Tệp Excel Golfing Statistics cung cấp dữ liệu về một phần
của mùa giải chuyên nghiệp năm 2010 của 25 tay golf hàng
đầu.
Một. Tìm mô hình hồi quy bội tốt nhất để dự đoán thu nhập/
sự kiện dưới dạng hàm của các biến chính còn lại.
b. Tìm mô hình hồi quy bội tốt nhất để dự đoán điểm trung
bình dưới dạng hàm của các biến khác ngoại trừ thu nhập
và sự kiện.
23. Sử dụng tiêu chí giá trị p để tìm một mô hình tốt để dự đoán
số điểm ghi được trong mỗi trận đấu của các đội bóng sử
dụng dữ liệu trong tệp Excel National Football League.
hiện tại, mức lương khởi điểm, kinh nghiệm trước đây (tính
theo tháng) khi được tuyển dụng và tổng số năm học cho một
mẫu gồm 100 nhân viên trong một công ty.
Một. Phát triển một mô hình hồi quy bội để dự đoán mức
lương hiện tại là một hàm của các biến khác.
24. Bộ Giáo dục Bang Ohio có một bài kiểm tra trình độ bắt buộc
dành cho học sinh lớp 9 bao gồm viết, đọc, toán, quyền công
dân (nghiên cứu xã hội) và khoa học. Tệp Excel Hiệu suất
Giáo dục Ohio cung cấp dữ liệu về tỷ lệ thành công (được
định nghĩa là tỷ lệ phần trăm học sinh thi đậu) tại các khu
b. Tìm mô hình tốt nhất để dự đoán mức lương hiện tại
sử dụng tiêu chí giá trị t.
học chánh ở khu vực đô thị Cincinnati lớn hơn cùng với mức
trung bình của tiểu bang.
19. Tệp Excel Quyết định phê duyệt tín dụng cung cấp thông tin
về lịch sử tín dụng của một mẫu khách hàng ngân hàng. Sử
Một. Đề xuất mô hình hồi quy tốt nhất để dự đoán thành công
dụng phân tích hồi quy để xác định mô hình tốt nhất để dự
môn toán như một hàm thành công trong các môn học
đoán điểm tín dụng dưới dạng hàm của các biến số khác. Cho
khác bằng cách kiểm tra ma trận tương quan; sau đó chạy
công cụ hồi quy cho tập biến này.
Machine Translated by Google
271
Chương 8 Đường xu hướng và phân tích hồi quy
b. Phát triển một mô hình hồi quy bội để dự đoán sự thành công
hồi quy, và kiểm tra biểu đồ phần dư. Bạn kết luận
trong môn toán như là một hàm của sự thành công trong tất cả
điều gì? Tạo biểu đồ phân tán và sử dụng tính năng
các môn học khác bằng cách sử dụng phương pháp có hệ thống
Đường xu hướng của Excel để xác định loại đường xu
được mô tả trong chương này. Là đa cộng tuyến một vấn đề?
2
hướng cong tốt nhất giúp tối đa hóa R .
c. So sánh các mô hình trong phần (a) và (b). Có phải họ
giống nhau? Tại sao hay tại sao không?
Các đơn vị sản xuất
500
25. Một công ty xây dựng quốc gia xây dựng những ngôi nhà
chi phí
$12,500
dành cho một gia đình và nhà phố kiểu chung cư. Tệp
1.000
25.000 USD
Excel Doanh số bán nhà cung cấp thông tin về giá bán,
1.500
$32,500
2.000
40.000 USD
2.500
45.000 USD
3.000
50.000 USD
chi phí lô đất, loại nhà và khu vực của quốc gia 1
triệu Trung Tây, Nam Mỹ2 để đóng cửa trong một tháng.
Một. Phát triển một mô hình hồi quy bội cho giá bán dưới
dạng một hàm của chi phí lô đất và loại nhà mà không
có bất kỳ thuật ngữ tương tác nào.
b. Xác định xem có tồn tại sự tương tác giữa chi phí
lô đất và loại nhà hay không và tìm ra mô hình tốt nhất.
29. Bộ phận Trực thăng của Aerospatiale đang nghiên cứu
chi phí lắp ráp tại nhà máy ở Marseilles.6 Dữ liệu
trước đây cho biết số giờ lao động trên mỗi trực thăng
như sau:
Giá dự đoán cho một ngôi nhà dành cho một gia đình
hoặc một ngôi nhà phố với chi phí rất lớn là 30.000 đô
la là bao nhiêu?
Số máy bay trực thăng Giờ lao động
26. Đối với dữ liệu Doanh số bán nhà được mô tả trong Bài
toán 25, hãy phát triển mô hình hồi quy cho giá bán dưới
dạng một hàm của chi phí lô đất và khu vực, kết hợp với
một thuật ngữ tương tác. Giá dự đoán cho một ngôi nhà ở
miền Nam hoặc miền Trung Tây với chi phí rất lớn là
30.000 đô la sẽ là bao nhiêu? Làm thế nào để những dự
đoán này so với giá trung bình tổng thể ở mỗi khu vực?
27. Đối với file Excel Auto
1
2.000
2
1.400
3
1.238
4
1.142
5
1.075
6
1.029
7
985
số 8
957
Survey, a. Tìm mô hình hồi quy tốt nhất để dự đoán dặm/
gallon như là một chức năng của tuổi xe và số dặm.
b. Sử dụng kết quả của bạn từ phần (a), thêm biến
phân loại Đã mua vào mô hình. Điều này có thay
đổi kết quả của bạn không?
c. Xác định xem có tương tác đáng kể nào không
tồn tại giữa các biến Tuổi xe và Đã mua.
Sử dụng những dữ liệu này, áp dụng hồi quy tuyến tính
đơn giản và kiểm tra biểu đồ phần dư. Bạn kết luận điều gì?
Xây dựng biểu đồ phân tán và sử dụng Đường xu hướng Excel
tính năng để xác định loại đường xu hướng cong tốt
nhất giúp tối đa hóa R 2 .
30. Đối với tệp Excel Dữ liệu ngũ cốc, hãy sử dụng XLMiner và
các tập hợp con tốt nhất với lựa chọn ngược để tìm mô hình
tốt nhất.
28. Các hàm chi phí thường phi tuyến tính với khối lượng
vì các cơ sở sản xuất thường có thể sản xuất số
31. Sử dụng XLMiner và các tập hợp con tốt nhất với lựa chọn
lượng lớn hơn với tốc độ thấp hơn so với số lượng
từng bước để tìm các điểm mô hình tốt nhất cho mỗi trận
nhỏ hơn.5 Sử dụng dữ liệu sau, áp dụng tuyến tính đơn giản
đấu cho dữ liệu Giải bóng đá quốc gia (xem Vấn đề 23).
5Horngren, Foster và Datar, Cost Accounting: A Managerial Emphasis, 9th ed.: 349.
6Horngren, Foster và Datar, Cost Accounting: A Managerial Emphasis, 9th ed.: 349.
Machine Translated by Google
272
Chương 8 Đường xu hướng và phân tích hồi quy
Trường hợp: Hiệu suất Lawn Thiết bị
Khi xem xét dữ liệu PLE, Elizabeth Burke nhận thấy rằng các lỗi
các kỹ sư được thuê cách đây 10 năm đã được chọn để xác định
nhận được từ nhà cung cấp đã giảm (bảng tính Lỗi sau khi giao
mức độ ảnh hưởng của những biến số này đối với thời gian mỗi cá
hàng). Sau khi điều tra, cô được biết rằng vào năm 2010, PLE đã
nhân ở lại với công ty. Dữ liệu được tổng hợp trong bảng tính
gặp phải một số vấn đề về chất lượng do ngày càng có nhiều lỗi
Giữ chân nhân viên.
trong vật liệu nhận được từ nhà cung cấp. Công ty đã đưa ra một
Cuối cùng, như một phần trong nỗ lực duy trì tính cạnh
sáng kiến vào tháng 8 năm 2011 để làm việc với các nhà cung cấp
tranh, PLE cố gắng cập nhật công nghệ sản xuất mới nhất. Điều
nhằm giảm thiểu những khiếm khuyết này, phối hợp chặt chẽ hơn
này đặc biệt quan trọng trong dòng máy cắt cỏ có tính cạnh tranh
việc giao hàng và cải thiện chất lượng vật liệu thông qua tái
cao, nơi các đối thủ cạnh tranh có thể đạt được lợi thế thực sự
cấu trúc các chính sách sản xuất của nhà cung cấp. Elizabeth lưu
nếu họ phát triển các phương tiện sản xuất hiệu quả hơn về chi
ý rằng chương trình dường như đã đảo ngược xu hướng ngày
phí. Do đó, bộ phận máy cắt cỏ đã dành rất nhiều nỗ lực để thử
càng tăng của các khiếm khuyết; cô ấy muốn dự đoán điều gì có
nghiệm công nghệ mới. Khi công nghệ sản xuất mới được giới
thể xảy ra nếu sáng kiến của nhà cung cấp không được thực hiện
thiệu, các công ty thường trải qua quá trình học hỏi, dẫn đến
và số lượng lỗi có thể giảm hơn nữa trong tương lai gần như
việc giảm dần thời gian cần thiết để sản xuất các đơn vị liên
thế nào.
Trong cuộc gặp với giám đốc nhân sự của PLE, Elizabeth cũng
tiếp. Nói chung, tốc độ cải tiến giảm dần cho đến khi thời gian
sản xuất ngừng lại.
phát hiện ra mối lo ngại về tỷ lệ thay thế nhân viên dịch vụ
Một ví dụ là việc sản xuất một thiết kế mới cho động cơ máy cắt
hiện trường cao. Các nhà quản lý cấp cao đã gợi ý rằng bộ nên
cỏ. Để xác định thời gian cần thiết để sản xuất những động cơ
xem xét kỹ hơn các chính sách tuyển dụng của mình, đặc biệt là
này, PLE đã sản xuất 50 chiếc trên dây chuyền sản xuất của mình;
cố gắng xác định các đặc điểm của các cá nhân dẫn đến việc giữ
kết quả kiểm tra được đưa ra trên trang tính Động cơ trong cơ
chân nhân viên nhiều hơn. Tuy nhiên, trong một cuộc họp nhân
sở dữ liệu. Do PLE liên tục phát triển công nghệ mới nên việc
viên gần đây, các nhà quản lý nhân sự không thể thống nhất về
hiểu tốc độ học hỏi có thể hữu ích trong việc ước tính chi phí
những đặc điểm này. Một số lập luận rằng số năm học và điểm trung
sản xuất trong tương lai mà không cần phải chạy thử nghiệm
bình là những yếu tố dự đoán tốt. Những người khác lập luận rằng
nguyên mẫu rộng rãi và Elizabeth muốn xử lý vấn đề này tốt hơn.
việc thuê những ứng viên trưởng thành hơn sẽ dẫn đến khả năng
giữ chân nhiều hơn. Để nghiên cứu những yếu tố này, các nhân
Sử dụng các kỹ thuật phân tích hồi quy để hỗ trợ cô ấy đánh
viên đã đồng ý tiến hành một nghiên cứu thống kê để xác định ảnh
giá dữ liệu trong ba bảng tính này và đưa ra các kết luận hữu
hưởng của số năm học, điểm trung bình đại học và tuổi khi được
ích. Tóm tắt công việc của bạn trong một báo cáo chính thức với
tuyển dụng đối với việc giữ chân nhân viên. Một mẫu gồm 40 dịch vụ tạitất
hiện
cảtrường
các kết quả và phân tích phù hợp.
Machine Translated by Google
kỹ thuật dự báo
CHƯƠNG
iQoncept/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích cách tiếp cận phán đoán được sử dụng để dự
Sử dụng mô hình Holt-Winters và hồi quy để dự báo chuỗi
báo.
thời gian có tính thời vụ.
Liệt kê các loại mô hình dự báo thống kê khác nhau.
Áp dụng các mô hình dự báo Holt-Winters cho chuỗi thời
Áp dụng các mô hình làm mịn trung bình động và hàm mũ
gian có cả xu hướng và tính thời vụ.
cho chuỗi thời gian cố định.
Xác định lựa chọn mô hình dự báo phù hợp dựa trên đặc
Nêu ba số liệu sai số được sử dụng để đo lường độ chính
điểm của chuỗi thời gian.
xác của dự báo và giải thích sự khác biệt giữa chúng.
Giải thích cách các kỹ thuật hồi quy có thể được sử
Áp dụng các mô hình làm mịn hàm mũ kép cho chuỗi thời
dụng để dự báo với các biến giải thích hoặc nhân quả.
gian có xu hướng tuyến tính.
Áp dụng XLMiner cho các loại mô hình dự báo khác nhau.
273
Machine Translated by Google
274
Chương 9 Kỹ thuật dự báo
Các nhà quản lý yêu cầu dự báo tốt về các sự kiện trong tương lai để đưa ra quyết định đúng đắn.
Ví dụ, dự báo về lãi suất, giá năng lượng và các chỉ số kinh tế khác là cần thiết cho việc lập kế
hoạch tài chính; dự báo bán hàng là cần thiết để lập kế hoạch năng lực sản xuất và lực lượng lao
động; và dự báo các xu hướng về nhân khẩu học, hành vi người tiêu dùng và đổi mới công nghệ là
cần thiết cho việc lập kế hoạch chiến lược dài hạn. Chính phủ cũng đầu tư nguồn lực đáng kể vào
việc dự đoán hoạt động kinh doanh ngắn hạn của Hoa Kỳ bằng cách sử dụng Chỉ số Chỉ số Hàng đầu. Chỉ
số này tập trung vào hiệu suất của các doanh nghiệp riêng lẻ, thường có mối tương quan cao với
hiệu suất của toàn bộ nền kinh tế và được sử dụng để dự báo các xu hướng kinh tế cho toàn quốc.
Trong chương này, chúng tôi giới thiệu một số phương pháp và cách tiếp cận chung để dự báo, bao
gồm cả kỹ thuật định tính và định lượng.
Các nhà phân tích kinh doanh có thể chọn từ một loạt các kỹ thuật dự báo để hỗ trợ việc ra
quyết định. Việc lựa chọn phương pháp thích hợp phụ thuộc vào các đặc điểm của vấn đề dự báo,
chẳng hạn như khoảng thời gian của biến được dự báo, cũng như thông tin có sẵn mà dự báo sẽ dựa
vào.
Ba loại phương pháp dự báo chính là kỹ thuật định tính và phán đoán, mô hình chuỗi thời gian thống
kê và phương pháp giải thích/nhân quả. Trong chương này, chúng tôi giới thiệu các kỹ thuật dự
báo trong từng danh mục này và sử dụng các công cụ Excel cơ bản, XLMiner và hồi quy tuyến tính để
triển khai chúng trong môi trường bảng tính.
Dự báo định tính và phán đoán
Kỹ thuật định tính và phán đoán dựa vào kinh nghiệm và trực giác; chúng cần thiết khi không có dữ
liệu lịch sử hoặc khi người ra quyết định cần dự báo xa về tương lai. Ví dụ, dự báo về thời điểm
thế hệ tiếp theo của bộ vi xử lý sẽ ra mắt và khả năng của nó sẽ phụ thuộc rất nhiều vào ý kiến và
kiến thức chuyên môn của những cá nhân am hiểu công nghệ. Một cách sử dụng khác của các phương
pháp phán đoán là kết hợp thông tin phi định lượng, chẳng hạn như tác động của các quy định của
chính phủ hoặc hành vi của đối thủ cạnh tranh, trong một dự báo định lượng. Các kỹ thuật đánh giá
bao gồm từ các phương pháp đơn giản như ý kiến của người quản lý hoặc ban giám khảo dựa trên
nhóm về ý kiến điều hành cho đến các phương pháp có cấu trúc hơn như phép loại suy lịch sử và
phương pháp Delphi.
Tương tự lịch sử
Một cách tiếp cận phán đoán là phép loại suy lịch sử, trong đó một dự báo thu được thông qua phân
tích so sánh với một tình huống trước đó. Ví dụ: nếu một sản phẩm mới sắp được giới thiệu, phản
ứng của người tiêu dùng đối với các chiến dịch tiếp thị đối với các sản phẩm tương tự trước đó
có thể được sử dụng làm cơ sở để dự đoán chiến dịch tiếp thị mới có thể đạt được kết quả như thế nào.
Tất nhiên, những thay đổi theo thời gian hoặc các yếu tố độc đáo khác có thể không được xem xét đầy đủ trong
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
275
một cách tiếp cận. Tuy nhiên, rất nhiều hiểu biết sâu sắc thường có thể đạt được thông qua phân tích các kinh
nghiệm trong quá khứ.
VÍ DỤ 9.1 Dự đoán giá dầu
Đầu năm 1998, giá dầu khoảng 22 đô la một thùng. Tuy nhiên,
dầu. Do đó, từ phép loại suy lịch sử, chúng ta có thể dự báo
vào giữa năm 1998, giá một thùng dầu giảm xuống còn khoảng 11
giá dầu sẽ tăng. Trên thực tế, các thành viên OPEC đã gặp
USD. Những lý do cho sự sụt giảm giá này bao gồm dư cung dầu
nhau vào giữa năm 1998 và đồng ý cắt giảm sản lượng, nhưng
từ sản xuất mới ở khu vực Biển Caspian, sản lượng cao ở các
không ai tin rằng họ sẽ thực sự hợp tác hiệu quả, và giá tiếp
khu vực ngoài OPEC và nhu cầu thấp hơn bình thường. Trong
tục giảm trong một thời gian. Sau đó, vào năm 2000, giá dầu
hoàn cảnh tương tự trước đây, OPEC sẽ họp và hành động để
tăng đột biến, rồi lại giảm vào cuối năm 2001.
tăng giá
Phép loại suy thường đưa ra những dự báo tốt, nhưng bạn cần cẩn thận để nhận ra những hoàn
cảnh mới hoặc khác. Một phép loại suy khác là xung đột quốc tế liên quan đến giá dầu. Nếu chiến tranh
nổ ra, giá sẽ tăng lên, tương tự như những gì nó đã làm trong quá khứ.
Phương pháp Delphi
Một phương pháp dự báo mang tính phán đoán phổ biến, được gọi là phương pháp Delphi, sử dụng một
nhóm chuyên gia, những người có danh tính thường được giữ bí mật với nhau, để trả lời một chuỗi các
câu hỏi. Sau mỗi vòng phản hồi, các ý kiến cá nhân, được chỉnh sửa để đảm bảo tính ẩn danh, được
chia sẻ, cho phép mỗi người xem suy nghĩ của các chuyên gia khác. Xem xét ý kiến của các chuyên gia
khác giúp củng cố ý kiến của những người đồng ý và tác động đến những người không đồng ý để có thể
xem xét các yếu tố khác. Trong vòng tiếp theo, các chuyên gia sửa đổi ước tính của họ và quá trình
này được lặp lại, thường không quá hai hoặc ba vòng. Phương pháp Delphi thúc đẩy trao đổi ý kiến
và thảo luận không thiên vị và thường dẫn đến một số quan điểm hội tụ. Đây là một trong những cách
tiếp cận tốt hơn để dự báo các xu hướng và tác động dài hạn.
Các chỉ số và chỉ số
Các chỉ số và chỉ số nói chung đóng một vai trò quan trọng trong việc phát triển các dự báo phán
đoán. Các chỉ số là các biện pháp được cho là có ảnh hưởng đến hành vi của một biến mà chúng ta muốn
dự báo. Bằng cách theo dõi những thay đổi trong các chỉ số, chúng tôi hy vọng có được cái nhìn sâu
sắc về hành vi trong tương lai của biến để giúp dự đoán tương lai.
VÍ DỤ 9.2 Các chỉ số kinh tế
Một biến số quan trọng đối với nền kinh tế quốc gia là Tổng
đo lường; sản xuất đầu ra có chất lượng kém sẽ thổi phồng
sản phẩm quốc nội (GDP), đây là thước đo chắc chắn về giá
thước đo, cũng như công sức dành cho hành động khắc phục),
trị của tất cả hàng hóa và dịch vụ được sản xuất tại Hoa Kỳ.
đó là một thước đo thực tế và hữu ích về hiệu quả kinh tế.
Mặc dù có những hạn chế (ví dụ, công việc không được trả
Giống như hầu hết các chuỗi thời gian, GDP tăng và giảm theo
lương như dọn dẹp nhà cửa và chăm sóc trẻ em không được
chu kỳ. Dự đoán xu hướng trong tương lai của GDP là
(còn tiếp)
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
276
thường được thực hiện bằng cách phân tích các chỉ báo hàng đầu—chuỗi
cung tiền (M1) và thay đổi ròng trong các khoản vay kinh doanh.
có xu hướng tăng và giảm trong một khoảng thời gian có thể dự đoán
Các chỉ số khác, được gọi là chỉ số trễ, có xu hướng có đỉnh và đáy
trước khi GDP đạt đỉnh và đáy. Một ví dụ về chỉ báo hàng đầu là sự
trùng với GDP. Một số chỉ báo trễ là Chỉ số giá tiêu dùng, lãi suất cơ
hình thành các khoản đầu tư kinh doanh; khi tỷ lệ các doanh nghiệp mới
bản, chi tiêu đầu tư kinh doanh hoặc hàng tồn kho. GDP có thể được sử
tăng lên, chúng tôi hy vọng GDP sẽ tăng trong tương lai. Các ví dụ
dụng để dự đoán xu hướng tương lai trong các chỉ số này.
khác về các chỉ báo hàng đầu là phần trăm thay đổi trong
Các chỉ số thường được kết hợp một cách định lượng thành một chỉ số, một thước đo duy nhất có
trọng số cho nhiều chỉ số, do đó cung cấp thước đo về kỳ vọng tổng thể. Ví dụ, các nhà phân tích tài
chính sử dụng Chỉ số Trung bình Công nghiệp Dow Jones như một chỉ số về hoạt động chung của thị trường
chứng khoán. Các chỉ số không cung cấp một dự báo đầy đủ mà là một bức tranh tốt hơn về hướng thay đổi
và do đó đóng một vai trò quan trọng trong dự báo phán đoán.
VÍ DỤ 9.3 Các chỉ số kinh tế hàng đầu
Bộ Thương mại đã khởi xướng một Chỉ số về các Chỉ số Hàng đầu để giúp
Điều kiện kinh doanh Digest bao gồm hơn 100 chuỗi thời gian trong
dự đoán hoạt động kinh tế trong tương lai.
bảy lĩnh vực kinh tế. Ấn phẩm này đã bị ngừng vào tháng 3 năm 1990,
Các thành phần của chỉ mục bao gồm:
nhưng thông tin liên quan đến Chỉ số các Chỉ số Hàng đầu vẫn được
tiếp tục trong Khảo sát Kinh doanh Hiện tại. Vào tháng 12 năm 1995, Bộ
giờ trung bình hàng tuần, sản xuất
yêu cầu ban đầu trung bình hàng tuần, bảo hiểm thất
Thương mại Hoa Kỳ đã bán nguồn dữ liệu này cho The Conference Board,
hiện đang tiếp thị thông tin dưới tiêu đề Các chỉ số chu kỳ kinh doanh;
nghiệp
đơn đặt hàng mới, hàng tiêu dùng và vật liệu
hiệu suất của nhà cung cấp—giao hàng chậm hơn
đơn đặt hàng mới, tư liệu sản xuất phi quốc phòng
thông tin có thể được lấy tại trang web của nó (www.conferenceboard .org). Trang web bao gồm thông tin hiện tại tuyệt vời về cách
tính chỉ mục cũng như các thành phần hiện tại của nó.
giấy phép xây dựng, nhà ở tư nhân
giá cổ phiếu, 500 cổ phiếu phổ thông (Standard & Poor)
cung tiền
chênh lệch lãi suất
chỉ số kỳ vọng của người tiêu dùng (Đại học
Michigan)
Mô hình dự báo thống kê
Các mô hình chuỗi thời gian thống kê tìm thấy khả năng ứng dụng lớn hơn cho các vấn đề dự báo tầm ngắn.
Chuỗi thời gian là một luồng dữ liệu lịch sử, chẳng hạn như doanh số hàng tuần. Chúng tôi mô tả các giá
trị của một chuỗi thời gian trong T khoảng thời gian là At , t 1, 2, c, T. Các mô hình chuỗi thời gian
giả định rằng bất kỳ lực lượng nào đã ảnh hưởng đến doanh số bán hàng trong quá khứ gần đây sẽ tiếp
tục trong tương lai gần; do đó, các dự báo được phát triển bằng cách ngoại suy những dữ liệu này trong
tương lai. Chuỗi thời gian thường có một hoặc nhiều thành phần sau: hành vi ngẫu nhiên, xu hướng,
hiệu ứng âm thanh trên biển hoặc hiệu ứng theo chu kỳ. Chuỗi thời gian không có tác động theo xu hướng,
theo mùa hoặc theo chu kỳ nhưng tương đối không đổi và chỉ thể hiện hành vi ngẫu nhiên được gọi là
chuỗi thời gian dừng.
Nhiều dự báo dựa trên phân tích dữ liệu chuỗi thời gian lịch sử và được xác định dựa trên giả định
rằng tương lai là phép ngoại suy của quá khứ. Xu hướng là một chuyển động tăng dần hoặc giảm dần của
một chuỗi thời gian theo thời gian.
Machine Translated by Google
277
Chương 9 Kỹ thuật dự báo
VÍ DỤ 9.4 Xác định các xu hướng trong một chuỗi thời gian
Hình 9.1 cho thấy biểu đồ về tổng mức tiêu thụ năng lượng từ
chững lại trong một thời gian và bắt đầu tăng với tốc độ chậm
dữ liệu trong tệp Excel Sản xuất & Tiêu thụ năng lượng. Chuỗi
hơn trong những năm 1980 và 1990. Trong thập kỷ qua, chúng ta
thời gian này cho thấy một xu hướng tăng.
thực sự thấy một xu hướng giảm nhẹ. Do đó, chuỗi thời gian này
Tuy nhiên, chúng tôi thấy rằng mức tiêu thụ năng lượng đã
bao gồm một số xu hướng ngắn hạn khác nhau.
tăng khá nhanh theo kiểu tuyến tính trong những năm 1960, sau đó
Chuỗi thời gian cũng có thể thể hiện các hiệu ứng theo mùa ngắn hạn (trong một năm, tháng, tuần
hoặc thậm chí một ngày) cũng như các hiệu ứng chu kỳ dài hạn hoặc xu hướng phi tuyến tính. Hiệu ứng
theo mùa là hiệu ứng lặp lại trong các khoảng thời gian cố định, thường là một năm, tháng, tuần hoặc ngày.
Ví dụ: tại một cửa hàng tạp hóa lân cận, các mô hình thời vụ ngắn hạn có thể diễn ra trong
một tuần, với lượng khách hàng đông nhất vào cuối tuần; các mô hình theo mùa cũng có thể rõ
ràng trong suốt một ngày, với khối lượng cao hơn vào buổi sáng và cuối buổi chiều. Hình
9.2 cho thấy những thay đổi theo mùa trong việc sử dụng khí đốt tự nhiên của một chủ nhà
trong suốt một năm (Tệp Excel Gas & Electric). Hiệu ứng theo chu kỳ mô tả những thăng trầm
trong một khung thời gian dài hơn nhiều, chẳng hạn như vài năm. Hình 9.3 hiển thị biểu đồ dữ liệu
Hình 9.1
Tổng năng lượng tiêu thụ
Chuỗi thời gian
Hình 9.2
Hiệu ứng theo mùa trong
Sử dụng khí đốt tự nhiên
Machine Translated by Google
278
Chương 9 Kỹ thuật dự báo
Hình 9.3
Hiệu ứng theo chu kỳ ở Liên bang
Tỷ lệ quỹ
trong tệp Excel Tỷ lệ quỹ liên bang. Chúng tôi thấy một số bằng chứng về chu kỳ dài hạn trong chuỗi thời
gian do các yếu tố kinh tế thúc đẩy, chẳng hạn như thời kỳ lạm phát và suy thoái.
Mặc dù việc kiểm tra trực quan một chuỗi thời gian để xác định các xu hướng, các hiệu ứng theo mùa
hoặc theo chu kỳ có thể hoạt động một cách ngây thơ, nhưng những cách tiếp cận không khoa học như vậy
có thể gây khó khăn cho người quản lý khi đưa ra các quyết định quan trọng. Các tác động và tương tác
tinh tế của các yếu tố chu kỳ và sóng biển có thể không rõ ràng từ phép ngoại suy trực quan đơn giản của dữ liệu.
Các phương pháp thống kê, bao gồm các phân tích chính thức hơn về chuỗi thời gian, là vô giá trong việc
phát triển các dự báo tốt. Nhiều phương pháp dự báo dựa trên thống kê cho chuỗi thời gian thường được
sử dụng. Trong số những phương pháp phổ biến nhất là phương pháp trung bình động, làm mịn theo cấp số
nhân và phân tích hồi quy. Những điều này có thể được triển khai rất dễ dàng trên bảng tính bằng cách sử
dụng các chức năng cơ bản và công cụ Phân tích dữ liệu có sẵn trong Microsoft Excel, cũng như bằng phần
mềm mạnh hơn như XLMiner. Các mô hình làm mịn trung bình động và hàm mũ hoạt động tốt nhất cho chuỗi thời
gian không thể hiện xu hướng hoặc các yếu tố theo mùa.
Đối với chuỗi thời gian liên quan đến xu hướng và/hoặc các yếu tố theo mùa, các kỹ thuật khác đã được phát
triển. Chúng bao gồm các mô hình làm mịn hàm mũ và trung bình trượt kép, các mô hình cộng và nhân theo
mùa, và các mô hình cộng và nhân Holt-Winters.
Các mô hình dự báo cho chuỗi thời gian tĩnh
Hai cách tiếp cận đơn giản hữu ích trong khoảng thời gian ngắn khi các tác động của xu hướng, theo mùa
hoặc theo chu kỳ không đáng kể là các mô hình làm mịn trung bình động và hàm mũ.
Các mô hình trung bình động
Phương pháp trung bình động đơn giản là một phương pháp làm mịn dựa trên ý tưởng lấy trung bình các
dao động ngẫu nhiên trong chuỗi thời gian để xác định hướng cơ bản mà chuỗi thời gian đang thay đổi. Bởi
vì phương pháp trung bình trượt giả định rằng các quan sát trong tương lai sẽ tương tự như quá khứ
gần đây, nên nó hữu ích nhất với tư cách là một phương pháp dự báo tầm ngắn. Mặc dù phương pháp này rất
đơn giản, nhưng nó đã được chứng minh là khá hữu ích trong môi trường ổn định, chẳng hạn như quản lý
hàng tồn kho, trong đó cần phát triển các dự báo cho một số lượng lớn mặt hàng.
Cụ thể, dự báo trung bình động đơn giản cho giai đoạn tiếp theo được tính là trung bình của k quan
sát gần đây nhất. Giá trị của k hơi tùy ý,
Machine Translated by Google
279
Chương 9 Kỹ thuật dự báo
mặc dù sự lựa chọn của nó ảnh hưởng đến độ chính xác của dự báo. Giá trị của k càng lớn, dự
báo hiện tại càng phụ thuộc vào dữ liệu cũ hơn và dự báo sẽ không phản ứng nhanh với các biến
động trong chuỗi thời gian. Giá trị của k càng nhỏ, dự báo phản ứng nhanh hơn với những thay
đổi trong chuỗi thời gian. Ngoài ra, khi k lớn hơn, các giá trị cực trị ít ảnh hưởng đến dự
báo hơn. (Trong phần tiếp theo, chúng ta thảo luận cách chọn k bằng cách kiểm tra các lỗi liên
quan đến các giá trị khác nhau.)
VÍ DỤ 9.5 Dự báo trung bình trượt
Tệp Excel Bán máy tính bảng chứa dữ liệu về số lượng đơn vị
đã bán trong 17 tuần qua. Hình 9.4 cho thấy một biểu đồ của
những dữ liệu này. Chuỗi thời gian dường như tương đối ổn
định, không có tác động theo xu hướng, theo mùa hoặc theo chu
dự báo tuần 18 =
82 + 71 + 50
3
= 67,67
Dự báo trung bình động có thể được tạo dễ dàng trên
bảng tính. Hình 9.5 cho thấy các tính toán cho một dự báo
kỳ; do đó, một mô hình trung bình động sẽ phù hợp. Đặt k =
trung bình động ba thời kỳ về doanh số bán máy tính bảng.
3, dự báo trung bình động ba giai đoạn cho tuần 18 là
Hình 9.6 hiển thị một biểu đồ đối chiếu dữ liệu với các giá
trị dự báo.
Dự báo trung bình động cũng có thể được lấy từ các tùy chọn Phân tích dữ liệu của Excel.
VÍ DỤ 9.6 Sử dụng Công cụ Trung bình Động của Excel
Đối với tệp Excel Bán máy tính bảng, hãy chọn Phân tích dữ
hoặc các tùy chọn lỗi do các dự báo do công cụ này tạo ra
liệu rồi chọn Trung bình động từ Phân tích
không được căn chỉnh chính xác với dữ liệu (giá trị dự báo
nhóm. Excel hiển thị hộp thoại như Hình 9.7.
được căn chỉnh theo một điểm dữ liệu cụ thể đại diện cho dự
Bạn cần nhập Phạm vi đầu vào của dữ liệu, Khoảng thời gian
báo cho tháng tiếp theo) và do đó, có thể gây hiểu nhầm.
(giá trị của k) và ô đầu tiên của Phạm vi đầu ra.
Thay vào đó, chúng tôi khuyên bạn nên tạo biểu đồ của riêng
Để căn chỉnh dữ liệu thực tế với các giá trị được dự báo
mình như chúng tôi đã làm trong Hình 9.6. Hình 9.8 cho thấy
trong trang tính, hãy chọn ô đầu tiên của Phạm vi đầu ra nằm
các kết quả do công cụ Trung bình Động tạo ra (với một số tùy
bên dưới giá trị đầu tiên một hàng. Bạn cũng có thể nhận
chỉnh về định dạng). Lưu ý rằng dự báo cho tuần 18 được căn
được biểu đồ dữ liệu và các đường trung bình động, cũng như
chỉnh với giá trị thực tế cho tuần 17 trên biểu đồ. So sánh
một cột sai số chuẩn, bằng cách đánh dấu vào các ô thích
điều này với Hình 9.6 và bạn có thể thấy sự khác biệt.
hợp. Tuy nhiên, chúng tôi không khuyên bạn nên sử dụng biểu đồ
Hình 9.4
Bảng xếp hạng máy tính bảng hàng tuần
Bán máy tính
Machine Translated by Google
280
Chương 9 Kỹ thuật dự báo
Hình 9.5
Thực hiện Excel của
Dự báo trung bình động
Hình 9.6
Biểu đồ đơn vị đã bán và
Dự báo trung bình động
Hình 9.7
Công cụ trung bình động Excel
hộp thoại
XLMiner cũng cung cấp một công cụ để dự báo với các đường trung bình động. XLMiner
là một tiện ích bổ sung Excel có sẵn từ Frontline Systems, nhà phát triển của Nền tảng
bộ giải phân tích. Xem Lời nói đầu để biết hướng dẫn cài đặt. XLMiner sẽ được thảo
luận kỹ hơn trong Chương 10.
Machine Translated by Google
281
Chương 9 Kỹ thuật dự báo
Hình 9.8
Kết quả của Công cụ
trung bình động Excel (Lưu ý
sự sai lệch của các dự báo với
doanh số bán hàng thực tế
trong biểu đồ.)
VÍ DỤ 9.7 Dự báo trung bình động với XLMiner
Để sử dụng XLMiner cho dữ liệu Bán máy tính bảng, trước tiên hãy
bảng điều khiển, bạn có thể nhấp vào Cung cấp dự báo và nhập số
nhấp vào bất kỳ giá trị nào trong dữ liệu. Sau đó chọn Làm mịn
lượng dự báo sẽ tạo từ quy trình. Khi bạn bấm OK, XLMiner sẽ tạo
từ nhóm Chuỗi thời gian và chọn Trung bình trượt.
đầu ra trên một trang tính mới, như trong Hình 9.10. Dự đoán
Hộp thoại trong Hình 9.9 xuất hiện. Tiếp theo, di chuyển các biến
được hiển thị trong các hàng từ 24 đến 40 cùng với biểu đồ dữ
từ trường Biến trong dữ liệu đầu vào sang trường Biến thời gian
liệu và dự báo (không có khoảng thời gian ban đầu không có dự báo
và Biến được chọn bằng cách sử dụng mũi tên nhưng tấn (điều này
tương ứng). Dự báo cho tuần 18 được hiển thị ở dưới cùng của
đã được thực hiện trong Hình 9.9). trong các trọng lượng
hình. Chúng tôi thảo luận về các phần khác của đầu ra tiếp theo.
bảng điều khiển, hãy điều chỉnh giá trị của Khoảng thời gian—số chu
kỳ sẽ sử dụng cho đường trung bình động. Trong các tùy chọn đầu ra
Hình 9.9
Trung bình di chuyển XLMiner
hộp thoại
Machine Translated by Google
282
Chương 9 Kỹ thuật dự báo
Hình 9.10
XLMiner di chuyển
Kết quả trung bình
Số liệu lỗi và độ chính xác dự báo
Chất lượng của một dự báo phụ thuộc vào mức độ chính xác của nó trong việc dự đoán các giá trị
tương lai của một chuỗi thời gian. Trong mô hình trung bình động đơn giản, các giá trị khác nhau
của k sẽ tạo ra các dự báo khác nhau. Làm thế nào để chúng ta biết đó là giá trị tốt nhất cho k?
Lỗi hoặc phần dư trong dự báo là sự khác biệt giữa giá trị dự báo và giá trị thực tế của chuỗi
thời gian (khi đã biết). Trong Hình 9.6, sai số dự báo chỉ đơn giản là khoảng cách theo chiều
dọc giữa dự báo và dữ liệu trong cùng một khoảng thời gian.
Để phân tích hiệu quả của các mô hình dự báo khác nhau, chúng ta có thể xác định các số liệu
sai số, so sánh định lượng dự báo với các quan sát thực tế. Ba số liệu thường được sử dụng là
độ lệch tuyệt đối trung bình, sai số bình phương trung bình và sai số phần trăm tuyệt đối trung
bình. Độ lệch tuyệt đối trung bình (MAD) là chênh lệch tuyệt đối giữa giá trị thực tế và giá trị
dự báo, được tính trung bình trên một loạt các giá trị được dự báo:
N
Một Tại - Ft
ĐIÊN RỒ
t1
N
(9.1)
trong đó At là giá trị thực của chuỗi thời gian tại thời điểm t, Ft là giá trị dự báo cho thời
điểm t và n là số lượng giá trị dự báo (không phải số lượng điểm dữ liệu vì chúng tôi không có
giá trị dự báo được liên kết với giá trị dự báo đầu tiên k điểm dữ liệu). MAD cung cấp một thước
đo lỗi mạnh mẽ và ít bị ảnh hưởng bởi các quan sát cực đoan.
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
283
Lỗi bình phương trung bình (MSE) có lẽ là thước đo lỗi được sử dụng phổ biến nhất.
Nó xử phạt các lỗi lớn hơn vì bình phương các số lớn hơn có tác động lớn hơn so với bình
phương các số nhỏ hơn. Công thức cho MSE là
N
Một 1At - Ft22
t1
MSE
N
(9.2)
Một lần nữa, n đại diện cho số lượng giá trị dự báo được sử dụng để tính giá trị trung bình.
Đôi khi căn bậc hai của MSE, được gọi là lỗi bình phương trung bình gốc (RMSE), được sử dụng:
N
t1
1At - Ft22
(9.3)
N
RMSE H một
Lưu ý rằng không giống như MSE, RMSE được biểu thị theo cùng đơn vị với dữ liệu
(tương tự như sự khác biệt giữa độ lệch chuẩn và phương sai), cho phép so sánh thực
tế hơn.
Số liệu thứ tư thường được sử dụng là lỗi phần trăm tuyệt đối trung bình (MAPE).
MAPE là giá trị trung bình của sai số tuyệt đối chia cho giá trị quan sát thực tế.
N
Tại Ft a
BẢN ĐỒ
t1
Tại
N
* 100
(9.4)
Các giá trị của MAD và MSE phụ thuộc vào thang đo của dữ liệu chuỗi thời gian. Ví
dụ: dự báo lợi nhuận trong phạm vi hàng triệu đô la sẽ dẫn đến các giá trị MAD và MSE
rất lớn, ngay cả đối với các mô hình dự báo rất chính xác. Mặt khác, thị phần được đo
bằng tỷ lệ; do đó, ngay cả các mô hình dự báo xấu cũng sẽ có các giá trị nhỏ của MAD
và MSE. Do đó, các biện pháp này không có ý nghĩa gì ngoại trừ việc so sánh với các mô
hình khác được sử dụng để dự báo cùng một dữ liệu. Nói chung, MAD ít bị ảnh hưởng bởi
các quan sát cực đoan và thích hợp hơn MSE nếu các quan sát cực đoan như vậy được
coi là các sự kiện hiếm gặp và không có ý nghĩa đặc biệt. MAPE khác ở chỗ thang đo
được loại bỏ bằng cách chia sai số tuyệt đối cho giá trị dữ liệu chuỗi thời gian. Điều
này cho phép so sánh tương đối tốt hơn. Mặc dù những nhận xét này cung cấp một số
hướng dẫn, nhưng không có thỏa thuận chung nào về biện pháp nào là tốt nhất.
Lưu ý rằng đầu ra từ XLMiner trong Hình 9.10 tính toán phần dư cho fore
ép kiểu và cung cấp các giá trị của MAPE, MAD và MSE.
VÍ DỤ 9.8 Sử dụng số liệu lỗi để so sánh các dự báo trung bình động
Các số liệu mà chúng tôi đã mô tả có thể được sử dụng để
các lỗi và sau đó trung bình chúng. Đối với MSE, chúng tôi
so sánh các dự báo trung bình động khác nhau cho dữ liệu Bán
tính toán các lỗi bình phương và sau đó tìm giá trị trung
máy tính bảng. Một bảng tính hiển thị các dự đoán trước
bình. Đối với MAPE, chúng tôi tìm các giá trị tuyệt đối của
cũng như tính toán các số liệu sai số cho các mô hình trung
các lỗi chia cho quan sát thực tế nhân với 100 và sau đó
bình trượt hai, ba và bốn giai đoạn được đưa ra trong Hình
tính trung bình chúng. Kết quả cho thấy rằng mô hình trung
9.11. Lỗi là sự khác biệt giữa giá trị thực tế của các đơn
bình trượt hai kỳ cung cấp dự báo tốt nhất trong số các
vị đã bán và dự báo. Để tính toán MAD, trước tiên chúng ta
phương án này vì các số liệu sai số đều nhỏ hơn so với các
tính toán các giá trị tuyệt đối của
mô hình khác.
Machine Translated by Google
284
Chương 9 Kỹ thuật dự báo
Hình 9.11
Mô hình làm mịn hàm mũ
Thay thế số liệu lỗi
Một cách tiếp cận linh hoạt nhưng hiệu quả cao để dự báo tầm ngắn là làm trơn theo
Dự báo trung bình động
cấp số nhân đơn giản. Mô hình làm mịn hàm mũ đơn giản cơ bản là
Ft+1
11 - a2Ft + aAt
Ft + a1At - Ft2
(9,5)
trong đó Ft+1 là dự báo cho khoảng thời gian t + 1, Ft là dự báo cho khoảng thời gian t, At là giá
trị quan sát được trong khoảng thời gian t và a là hằng số nằm trong khoảng từ 0 đến 1 được gọi là
hằng số làm mịn. Để bắt đầu, đặt F1 và F2 bằng với quan sát thực tế trong giai đoạn 1, A1 .
Sử dụng hai dạng của phương trình dự báo vừa cho, chúng ta có thể diễn giải mô hình làm
trơn hàm mũ đơn giản theo hai cách. Trong mô hình đầu tiên, dự báo cho giai đoạn tiếp theo,
Ft+1 , là trung bình có trọng số của dự báo được thực hiện cho giai đoạn t, Ft và quan sát thực
tế trong giai đoạn t, At . Dạng thứ hai của mô hình, thu được bằng cách sắp xếp lại các số
hạng, nói rằng dự báo cho giai đoạn tiếp theo, Ft+1 , bằng dự báo cho giai đoạn trước, Ft ,
cộng với một phần a của sai số dự báo được thực hiện trong giai đoạn t, Tại - Ft . Do đó, để
đưa ra dự báo khi chúng ta đã chọn hằng số làm mịn, chúng ta chỉ cần biết dự báo trước đó và
giá trị thực tế. Bằng cách thay thế nhiều lần cho Ft trong phương trình, có thể dễ dàng chứng
minh rằng Ft+1 là trung bình gia quyền giảm dần của tất cả dữ liệu chuỗi thời gian trong quá
khứ. Do đó, dự báo thực sự phản ánh tất cả dữ liệu, với điều kiện là a hoàn toàn nằm trong khoảng từ 0 đến 1.
VÍ DỤ 9.9 Sử dụng Làm mịn Hàm mũ để Dự báo Doanh số Máy tính bảng
Đối với dữ liệu doanh số máy tính bảng, dự báo cho tuần
Quan sát thực tế tuần 3 là 60; do đó, dự báo cho tuần 4
2 là 88, quan sát thực tế cho tuần 1. Giả sử chúng ta
sẽ là
chọn A = 0,7; sau đó dự báo cho tuần 3 sẽ là
dự báo tuần 3 = (1
dự báo tuần 4 = (1
0,7)(57,2) + (0,7)(60) = 59,16
0,7)(88) + (0,7)(44) = 57,2
Bởi vì mô hình làm mịn hàm mũ đơn giản chỉ yêu cầu dự đoán trước đó và giá trị
chuỗi thời gian hiện tại, nên rất dễ tính toán; do đó, nó rất phù hợp với các môi
trường như hệ thống kiểm kê, nơi phải thực hiện nhiều dự báo.
Machine Translated by Google
285
Chương 9 Kỹ thuật dự báo
Hằng số làm mịn a thường được chọn bằng thực nghiệm giống như cách chọn số chu kỳ để
sử dụng trong mô hình trung bình động. Các giá trị khác nhau của a ảnh hưởng đến tốc độ
phản ứng của mô hình đối với những thay đổi trong chuỗi thời gian. Chẳng hạn, giá trị
bằng 0 sẽ chỉ lặp lại dự báo của giai đoạn trước, trong khi giá trị 1 sẽ đưa ra nhu
cầu thực tế của giai đoạn trước. A càng gần 1, mô hình phản ứng với những thay đổi
trong chuỗi thời gian càng nhanh, bởi vì nó đặt trọng số vào quan sát thực tế hiện tại
nhiều hơn so với dự báo. Tương tự như vậy, a càng gần 0 thì dự báo trước đó càng có
trọng số, vì vậy mô hình sẽ phản ứng với các thay đổi chậm hơn.
VÍ DỤ 9.10 Tìm Mô hình Làm mịn Hàm mũ Tốt nhất cho Doanh số Máy
tính Bảng
Một bảng tính Excel để đánh giá các mô hình làm mịn hàm mũ
không được bao gồm vì chúng tôi không có dự đoán cho giai
cho dữ liệu Bán máy tính bảng sử dụng các giá trị của A trong
đoạn đầu tiên, Tuần 1. Hằng số làm mịn là A = 0,6
khoảng từ 0,1 đến 0,9 được hiển thị trong Hình 9.12.
cung cấp lỗi thấp nhất cho cả ba số liệu.
Lưu ý rằng trong tính toán các biện pháp lỗi, hàng đầu tiên
Excel có một công cụ Phân tích dữ liệu để làm mịn hàm mũ.
VÍ DỤ 9.11 Sử dụng Công cụ Làm mịn Hàm mũ của Excel
Trong ví dụ về Bán máy tính bảng, từ Phân tích
điểm dữ liệu đầu tiên. Bạn cũng có các tùy chọn cho nhãn, đầu
nhóm, chọn Phân tích dữ liệu và sau đó làm mịn hàm mũ. Trong
ra biểu đồ và thu được các lỗi tiêu chuẩn. Trái ngược với
hộp thoại (Hình 9.13), giống như trong hộp thoại Trung bình
công cụ Đường trung bình trượt, biểu đồ được tạo bởi công cụ
trượt, bạn phải nhập Phạm vi đầu vào của dữ liệu chuỗi thời
này căn chỉnh chính xác các dự báo với dữ liệu thực tế, như
gian, Hệ số giảm chấn là (1 - A) không phải là hằng số làm
thể hiện trong Hình 9.14. Bạn có thể thấy rằng mô hình làm mịn
mịn như chúng ta đã định nghĩa—và là hằng số đầu tiên ô của
hàm mũ tuân theo mô hình của dữ liệu khá chặt chẽ, mặc dù nó
Phạm vi đầu ra, phải liền kề với
có xu hướng trễ với xu hướng ngày càng tăng của dữ liệu.
Hình 9.12
Làm mịn theo cấp số nhân
Dự báo cho máy tính bảng
Bán máy tính
Machine Translated by Google
286
Chương 9 Kỹ thuật dự báo
Hình 9.13
Công cụ làm mịn hàm mũ
hộp thoại
Hình 9.14
Dự báo làm mịn
hàm mũ của Excel cho
A = 0,6
XLMiner cũng có khả năng làm mịn theo cấp số nhân. Hộp thoại (xuất hiện khi Hàm mũ . . .
được chọn từ trình đơn Chuỗi thời gian/Làm mịn) tương tự như hộp thoại dành cho các đường
trung bình di động trong Hình 9.9. Tuy nhiên, trong ngăn Trọng số, nó cung cấp các tùy chọn để
nhập hằng số làm mịn, Cấp (Alpha) hoặc để chọn hộp Tối ưu hóa, hộp này sẽ tìm thấy giá trị tốt
nhất của hằng số làm mịn.
VÍ DỤ 9.12 Tối ưu hóa Dự báo Làm mịn Hàm mũ Sử dụng XLMiner
Chọn Làm mịn theo cấp số nhân từ menu Làm mịn trong XLMiner. Đối
hằng số làm mịn là 0,63. Bạn có thể thấy rằng giá trị này gần
với dữ liệu Doanh số máy tính bảng, hãy nhập dữ liệu (tương tự
với giá trị 0,6 mà chúng tôi đã ước tính trong Hình 9.12; các
như hộp thoại trong Hình 9.9) và chọn hộp Tối ưu hóa trong ngăn
thước đo lỗi hiển thị trong các hàng 48–50 thấp hơn một chút so
Trọng lượng. Hình 9.15 cho thấy kết quả. Trong hàng 16, chúng
với các thước đo trong Hình 9.12.
tôi thấy rằng tối ưu hóa
Các mô hình dự báo cho chuỗi thời gian với xu hướng tuyến tính
Đối với chuỗi thời gian có xu hướng tuyến tính nhưng không có thành phần theo mùa đáng kể,
các mô hình làm mịn hàm mũ và trung bình động kép sẽ phù hợp hơn so với việc sử dụng các mô
hình làm mịn hàm mũ hoặc trung bình trượt đơn giản. Cả hai phương pháp đều dựa trên phương
trình xu hướng tuyến tính:
Ft+k tại + btk
(9.6)
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
287
Hình 9.15
XLMiner lũy thừa
Kết quả làm mịn cho
Bán máy tính bảng
Nghĩa là, dự báo cho k giai đoạn trong tương lai từ giai đoạn t là một hàm của giá trị
cơ sở tại , còn được gọi là mức và xu hướng hoặc độ dốc, bt . Đường trung bình động
kép và làm mịn hàm mũ kép khác nhau ở cách sử dụng dữ liệu để đạt được các giá trị thích
hợp cho at và bt . Bởi vì các tính toán phức tạp hơn so với các mô hình làm mịn hàm mũ
và trung bình di chuyển đơn giản, nên việc sử dụng phần mềm dự báo sẽ dễ dàng hơn là
cố gắng triển khai các mô hình trực tiếp trên bảng tính. Do đó, chúng tôi không thảo luận
về lý thuyết hoặc các công thức nền tảng của các phương pháp. XLMiner không hỗ trợ quy
trình cho đường trung bình kép; tuy nhiên, nó cung cấp một để làm mịn hàm mũ kép.
Làm mịn hàm mũ kép
Trong phương pháp làm mịn hàm mũ kép, các ước tính của at và bt thu được từ các
phương trình sau:
tại aFt + 11 - a21at-1 + bt-1 2
bt b1at - at-1 2 + 11 - b2bt- 1
(9.7)
Về bản chất, chúng tôi đang làm mịn cả hai tham số của mô hình xu hướng tuyến tính. Từ phương
trình đầu tiên, ước tính mức trong khoảng thời gian t là trung bình có trọng số của giá trị
quan sát được tại thời điểm t và giá trị dự đoán tại thời điểm t, at-1 + bt-1 , dựa trên làm
mịn hàm mũ đơn giản. Đối với các giá trị lớn của a, giá trị quan sát được đặt trọng số hơn.
Các giá trị thấp hơn của một đặt trọng số hơn trên giá trị dự đoán được làm mịn. Tương tự,
từ phương trình thứ hai, ước tính của xu hướng trong giai đoạn t là trung bình có trọng số
của sự khác biệt về mức ước tính trong giai đoạn t và t - 1 và ước tính của mức trong giai đoạn t - 1.
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
288
Các giá trị lớn hơn của b đặt trọng số nhiều hơn vào sự khác biệt trong các mức, nhưng các giá trị
thấp hơn của b nhấn mạnh hơn vào ước tính trước đó về xu hướng. Các giá trị ban đầu được chọn cho a1
là A1 và b1 là A2 - A1 . Các phương trình (9.7) sau đó phải được sử dụng để tính toán at và bt cho
toàn bộ chuỗi thời gian để có thể tạo ra các dự báo trong tương lai.
Như với làm trơn hàm mũ đơn giản, chúng ta có thể tự do lựa chọn các giá trị của a và b.
Tuy nhiên, việc để XLMiner tối ưu hóa các giá trị này bằng dữ liệu lịch sử sẽ dễ dàng hơn.
VÍ DỤ 9.13 Làm mịn hàm mũ kép với XLMiner
Hình 9.16 cho thấy một phần của tệp Excel Sản xuất Than, cung
tương ứng. Các dự báo do XLMiner tạo ra trong 3 năm tới
cấp dữ liệu về tổng số tấn được sản xuất từ năm 1960 đến năm
(không được hiển thị trong Hình 9.17) là
2011. Dữ liệu dường như tuân theo một xu hướng tuyến tính.
Hộp thoại XLMiner tương tự như hộp thoại được sử dụng để
làm mịn hàm mũ đơn lẻ. Sử dụng tính năng tối ưu hóa để tìm
các giá trị tốt nhất của A và B, XLMiner tạo ra kết quả, một
phần của kết quả được thể hiện trong Hình 9.17. Chúng tôi
2012: 1.115.563.804
2013: 1.130.977.341
2014: 1.146.390.878
thấy rằng các giá trị tốt nhất của A và B là 0,684 và 0,00,
Dự báo dựa trên hồi quy cho chuỗi thời gian với xu
hướng tuyến tính
Phương trình 9.6 có thể trông quen thuộc từ hồi quy tuyến tính đơn giản. Chúng tôi đã giới thiệu hồi
quy trong chương trước như một phương tiện để phát triển mối quan hệ giữa biến phụ thuộc và biến
độc lập. Hồi quy tuyến tính đơn giản có thể được áp dụng để dự báo bằng cách sử dụng thời gian làm
biến độc lập.
VÍ DỤ 9.14 Dự báo Sử dụng Đường xu hướng
Đối với dữ liệu trong tệp Excel Sản xuất than, tuyến tính
đường xu hướng, được minh họa trong Hình 9.18, cho một R
2 giá trị 0,95
(mô hình được trang bị giả định rằng các năm được đánh số
từ 1 đến 52, không phải là ngày thực tế). mô hình là
tấn = 438.819.885,29 + 15.413.536,97 × năm
Hình 9.16
Một phần của tệp Excel
Sản xuất than
Như vậy, dự báo cho năm 2012 sẽ là
tấn = 438.819.885,29 + 15.413.536,97 × (53)
= 1.255.737.345
Tuy nhiên, lưu ý rằng mô hình tuyến tính không dự đoán
đầy đủ sự sụt giảm sản xuất gần đây sau năm 2008.
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
289
Hình 9.17
Một phần của XLMiner
Đầu ra cho Double
Làm mịn theo cấp số nhân
của dữ liệu sản xuất than
Hình 9.18
Dự báo dựa trên đường xu
hướng cho sản xuất than
Trong Chương 8, chúng ta đã lưu ý rằng một giả định quan trọng khi sử dụng phân tích
hồi quy là thiếu tự tương quan giữa các dữ liệu. Khi có hiện tượng tự tương quan, các
quan sát kế tiếp có tương quan với nhau; ví dụ, các quan sát lớn có xu hướng nối tiếp các
quan sát lớn khác và các quan sát nhỏ cũng có xu hướng nối tiếp nhau.
Điều này thường có thể được nhìn thấy bằng cách kiểm tra đồ thị còn lại khi dữ liệu được sắp xếp theo thời gian.
Hình 9.19 cho thấy biểu đồ phần dư được sắp xếp theo thời gian từ công cụ Hồi quy Excel
cho ví dụ sản xuất than. Phần dư dường như không phải là ngẫu nhiên; thay vào đó, liên tiếp
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
290
Hình 9.19
Âm mưu dư cho tuyến tính
Dự báo hồi quy
Người mẫu
quan sát dường như có liên quan với nhau. Điều này cho thấy hiện tượng tự tương quan, chỉ ra rằng các cách
tiếp cận khác, được gọi là mô hình tự hồi quy, phù hợp hơn. Tuy nhiên, đây là những cấp độ nâng cao hơn
trình độ của cuốn sách này và không được thảo luận ở đây.
Chuỗi thời gian dự báo với tính thời vụ
Khá thường xuyên, dữ liệu chuỗi thời gian thể hiện tính thời vụ, đặc biệt là trên cơ sở hàng năm. Chúng ta
đã thấy một ví dụ về điều này trong Hình 9.2. Khi chuỗi thời gian thể hiện tính thời vụ, các kỹ thuật khác
nhau sẽ cung cấp dự báo tốt hơn so với những kỹ thuật chúng tôi đã mô tả.
Mô hình dự báo theo mùa dựa trên hồi quy
Một cách tiếp cận là sử dụng hồi quy tuyến tính. Nhiều mô hình hồi quy tuyến tính với các biến phân loại có
thể được sử dụng cho chuỗi thời gian có tính thời vụ. Để làm được điều này, chúng tôi sử dụng các biến thực
thể giả mèo cho các thành phần theo mùa.
VÍ DỤ 9.15 Dự báo sử dụng khí tự nhiên dựa trên hồi quy
Với dữ liệu hàng tháng, như chúng ta có về việc sử dụng khí đốt tự nhiên
Sơ đồ mã hóa này dẫn đến ma trận dữ liệu được hiển thị trong Hình
trong tệp Gas & Electric Excel, chúng ta có một biến phân loại theo mùa
9.20. Mô hình này thu thập các xu hướng từ hệ số hồi quy theo thời gian
với k = 12 cấp độ. Như đã thảo luận trong Chương 8, chúng ta xây dựng
và tính thời vụ từ các biến giả cho mỗi tháng. Dự đoán cho tháng 1 tới sẽ
mô hình hồi quy sử dụng k
1 biến giả. Chúng tôi sẽ sử dụng tháng Giêng
làm tháng tham chiếu; do đó, biến này không xuất hiện trong mô hình:
là B0 + B1 (25). Các hệ số biến thiên (beta) cho từng tháng trong số 11
tháng còn lại sẽ hiển thị mức điều chỉnh so với tháng Giêng. Ví dụ: dự
báo cho tháng 2 tới sẽ là B0 + B1 (26) + B2 (1), v.v.
lượng gas sử dụng = B0 + B1 lần + B2 tháng 2 + B3 tháng 3
+ B4 Tháng 4 + B5 Tháng 5 + B6 Tháng 6 + B7 Tháng 7
+ B8 Tháng 8 + B9 Tháng 9 + B10 Tháng 10
+ B11 tháng 11 + B12 tháng 12
Hình 9.21 cho thấy kết quả của việc sử dụng Regression
công cụ trong Excel sau khi loại bỏ các biến không đáng kể (thời gian và
tháng hai). Bởi vì dữ liệu cho thấy không có xu hướng tuyến tính rõ ràng,
Machine Translated by Google
291
Chương 9 Kỹ thuật dự báo
thời gian thay đổi không thể giải thích bất kỳ sự thay đổi
lượng gas sử dụng = 236,75
đáng kể nào trong dữ liệu. Biến giả cho tháng 2 có lẽ không
tháng 4
đáng kể vì mức sử dụng gas lịch sử cho cả tháng 1 và tháng 2
208,25 tháng 7
rất gần nhau. 2 _
tháng 9
r
11
cho mô hình này là 0,971, rất tốt. Trận chung kết
mô hình hồi quy là
Hình 9.20
Ma trận dữ liệu theo mùa
Mô hình hồi quy
Hình 9.21
Mô hình hồi quy cuối cùng để dự báo mức sử dụng khí
36,75 tháng 3
192,25 tháng 5
99,25
203,25 tháng 6
209,75 tháng 8
196,75 tháng 10
43,25 tháng 12
208,25
149,75 tháng
Machine Translated by Google
292
Chương 9 Kỹ thuật dự báo
Dự báo Holt-Winters cho chuỗi thời gian theo mùa
Các phương pháp chúng tôi mô tả ở đây và trong phần tiếp theo dựa trên công trình của hai nhà
nghiên cứu, CC Holt, người đã phát triển phương pháp cơ bản và PR Winters, người đã mở rộng
công trình của Holt. Do đó, những cách tiếp cận này thường được gọi là mô hình Holt-Winters.
Các mô hình Holt-Winters tương tự như các mô hình làm trơn theo cấp số nhân ở chỗ các hằng số
làm trơn được sử dụng để làm phẳng các biến thể về mức độ và các mẫu theo mùa theo thời gian.
Đối với chuỗi thời gian có tính thời vụ nhưng không có xu hướng, XLMiner hỗ trợ phương pháp
Holt-Winters nhưng không có khả năng tối ưu hóa các tham số.
VÍ DỤ 9.16 Dự báo mức sử dụng khí đốt tự nhiên bằng mô hình không có xu
hướng Holt-Winters
Hình 9.22 hiển thị hộp thoại cho mô hình làm mịn Holt-Winters
phải thử nghiệm với các hằng số làm mịn A và G (gamma) áp
không có xu hướng đối với dữ liệu khí tự nhiên trong tệp Gas
dụng cho các yếu tố cấp độ và mùa vụ trong mô hình. Hình 9.23
& Electric Excel trong Hình 9.2. Trong ngăn Tham số, giá trị
cho thấy một phần của đầu ra.
của Thời gian là độ dài của mùa, trong trường hợp này là 12
Chúng tôi thấy rằng sự lựa chọn tham số này dẫn đến dự báo
tháng. Lưu ý rằng chúng tôi có hai mùa dữ liệu hoàn chỉnh.
khá sát với số liệu sai số thấp. Các dự báo ở dưới cùng của
Bởi vì quy trình không tối ưu hóa các tham số, nhìn chung
đầu ra cung cấp các ước tính điểm cùng với khoảng tin cậy.
bạn sẽ
Mô hình Holt-Winters để dự báo chuỗi thời gian theo mùa
và xu hướng
Nhiều chuỗi thời gian thể hiện cả xu hướng và tính thời vụ. Đó có thể là trường hợp tăng doanh
số bán hàng của một sản phẩm theo mùa. Những mẫu này kết hợp các yếu tố của cả mẫu xu hướng và
mẫu hàng hải. Hai loại mô hình làm mịn Holt-Winters thường được sử dụng.
Hình 9.22
XLMiner Holt-Winters
Làm mịn mô hình không có xu hướng
hộp thoại
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
293
Hình 9.23
Phần sản lượng của XLMiner để dự
báo khí thiên nhiên
Cách sử dụng
Mô hình cộng Holt-Winters dựa trên phương trình
Ft+1 at + bt + St-s+1
(9.8)
và mô hình nhân Holt-Winters là
Ft+1
1at + bt2St- s+1
(9.9)
Mô hình cộng áp dụng cho chuỗi thời gian có tính thời vụ tương đối ổn định, trong
khi mô hình nhân áp dụng cho chuỗi thời gian có biên độ tăng hoặc giảm theo thời gian.
Do đó, trước tiên nên xem biểu đồ chuỗi thời gian để xác định loại mô hình thích hợp
sẽ sử dụng. Ba tham số a, b và g được sử dụng để làm trơn các yếu tố mức độ, xu
hướng và mùa vụ trong chuỗi thời gian. XLMiner hỗ trợ cả hai mô hình.
VÍ DỤ 9.17 Dự báo doanh số bán ô tô mới bằng mô hình Holt-Winters
Hình 9.24 cho thấy một phần của tệp Excel Doanh số bán ô tô
Cũng như các quy trình khác, một số thử nghiệm là cần thiết
mới, chứa dữ liệu về doanh số bán lẻ hàng tháng trong 3 năm.
để xác định các tham số tốt nhất cho mô hình. Hộp thoại trong
Rõ ràng có một yếu tố thời vụ ổn định trong chuỗi thời gian,
Hình 9.25 hiển thị các giá trị mặc định. Trong các kết quả
cùng với xu hướng gia tăng; do đó, mô hình phụ gia Holt-
được hiển thị trong Hình 9.26, bạn có thể thấy rằng các
Winters có vẻ là phù hợp nhất. Trong XLMiner, chọn Smoothing/
phôi trước không theo dõi dữ liệu rất tốt. Điều này có thể
Holt-Winters/Additive từ nhóm Time-Series.
là do giá trị thấp của G được sử dụng để làm dịu yếu tố mùa vụ.
Chúng tôi để bạn thử nghiệm để tìm ra một mô hình tốt hơn.
Machine Translated by Google
294
Chương 9 Kỹ thuật dự báo
Hình 9.24
Một phần của tệp Excel mới
Bán ô tô
Hình 9.25
Làm mịn Holt-Winters
Hộp thoại Mô hình Phụ gia
Lựa chọn các mô hình dự báo dựa trên chuỗi thời gian phù hợp
Bảng 9.1 tóm tắt các lựa chọn phương pháp dự báo có thể được thực hiện bởi XLMiner
dựa trên các đặc điểm của chuỗi thời gian.
Bảng 9.1
Không có tính thời vụ
không có xu hướng
Lựa chọn mô hình dự báo
Xu hướng
tính thời vụ
Đường trung bình động đơn
Mô hình làm trơn không có xu hướng
giản hoặc làm mịn hàm mũ đơn giản
Holt-Winters hoặc hồi quy bội
Làm mịn theo cấp số
Phụ gia Holt-Winters hoặc mô hình nhân
nhân kép
Holt-Winters
Machine Translated by Google
295
Chương 9 Kỹ thuật dự báo
Hình 9.26
Mẫu kết quả Holt-Winters
Mô hình phụ gia cho
Dự báo doanh số bán xe mới
Dự báo hồi quy với các biến nhân quả
Trong nhiều ứng dụng dự báo, các biến độc lập khác ngoài thời gian, chẳng hạn như các chỉ số
kinh tế hoặc các yếu tố nhân khẩu học, có thể ảnh hưởng đến chuỗi thời gian. Ví dụ: một nhà
sản xuất thiết bị bệnh viện có thể bao gồm các biến số như chi tiêu vốn cho bệnh viện và những
thay đổi về tỷ lệ người trên 65 tuổi trong các mô hình xây dựng để dự đoán doanh số bán hàng
trong tương lai. Các mô hình giải thích/nhân quả, thường được gọi là các mô hình kinh tế
lượng, tìm cách xác định các yếu tố giải thích thống kê các mẫu quan sát được trong biến được
dự báo, thường là với phân tích hồi quy. Chúng tôi sẽ sử dụng một ví dụ đơn giản về dự báo
doanh số bán xăng để minh họa cho mô hình kinh tế lượng.
VÍ DỤ 9.18 Dự báo doanh số bán xăng sử dụng hồi quy
tuyến tính đơn giản
Hình 9.27 thể hiện doanh số bán xăng trong 10 tuần từ tháng 6 đến tháng 8
xu hướng, mặc dù R
2 là không cao lắm. Đường xu hướng là:
cùng với giá trung bình trên gal lon và biểu đồ chuỗi thời gian bán xăng
với đường xu hướng phù hợp (Tệp Excel Doanh số bán xăng). Trong những
tháng mùa hè, không có gì lạ khi thấy doanh số bán hàng tăng lên khi
doanh số = 4.790,1 + 812,99 tuần
Sử dụng mô hình này, chúng tôi sẽ dự đoán doanh số bán hàng cho tuần 11 là
nhiều người đi nghỉ hơn. Biểu đồ cho thấy một tuyến tính
doanh số = 4.790,1 + 812,99(11) = 13.733 gallon
Machine Translated by Google
Chương 9 Kỹ thuật dự báo
296
Hình 9.27
Dữ liệu bán hàng xăng dầu và
đường xu hướng
Trong dữ liệu bán xăng, chúng tôi cũng thấy rằng giá trung bình mỗi gallon thay đổi mỗi tuần
và điều này có thể ảnh hưởng đến doanh số bán hàng của người tiêu dùng. Do đó, xu hướng bán hàng
có thể không chỉ đơn giản là một yếu tố làm tăng nhu cầu đều đặn, mà nó còn có thể bị ảnh hưởng
bởi giá trung bình mỗi gallon. Giá trung bình cho mỗi gallon có thể được coi là một biến nhân quả.
Hồi quy tuyến tính bội cung cấp một kỹ thuật để xây dựng các mô hình dự báo kết hợp không chỉ
thời gian mà còn cả các biến nguyên nhân tiềm ẩn khác.
VÍ DỤ 9.19 Kết hợp các biến nhân quả trong mô hình dự báo dựa trên hồi quy
2
Đối với dữ liệu bán xăng, chúng ta có thể kết hợp giá/gallon
Chú ý rằng R
bằng cách sử dụng hai biến độc lập. Điều này dẫn đến mô hình
bao gồm, giải thích hơn 86% sự thay đổi trong dữ liệu. Nếu
hồi quy bội
giá trị cao hơn khi cả hai biến đều
công ty ước tính rằng giá trung bình trong tuần tới sẽ giảm
doanh số = B0 + B1 tuần + B2 giá gallon
Các kết quả được hiển thị trong Hình 9.28, và các hồi quy
mô hình sion là
xuống còn 3,8 đô la, thì mô hình sẽ dự báo doanh số bán hàng
cho tuần thứ 11 là
doanh số = 72333,08 + 508,67(11)
16463,2(3,80)
= 15,368 gallon
doanh số = 72333,08 + 508,67 tuần
16463,2 gallon giá
Thực hành dự báo
Các khảo sát về thực hành dự báo đã chỉ ra rằng cả phương pháp đánh giá và định lượng đều được
sử dụng để dự báo doanh số bán hàng của các dòng sản phẩm hoặc họ sản phẩm cũng như cho các dự
báo chung của công ty và ngành. Các mô hình chuỗi thời gian đơn giản được sử dụng để dự báo tầm
ngắn và trung bình, trong khi phân tích hồi quy là phương pháp phổ biến nhất để dự báo tầm xa.
Tuy nhiên, nhiều công ty dựa vào các phương pháp phán đoán nhiều hơn các phương pháp định
lượng và gần một nửa điều chỉnh các dự báo định lượng một cách phán đoán. Trong chương này,
chúng ta tập trung vào ba cách tiếp cận để dự báo.
Trong thực tế, các nhà quản lý sử dụng nhiều kỹ thuật dự báo định lượng và phán đoán khác
nhau. Chỉ riêng các phương pháp thống kê không thể giải thích được các yếu tố như khuyến mại,
xáo trộn môi trường bất thường, giới thiệu sản phẩm mới, đơn đặt hàng lớn một lần và
Machine Translated by Google
297
Chương 9 Kỹ thuật dự báo
Hình 9.28
Kết quả hồi quy cho
Bán xăng dầu
sớm. Nhiều nhà quản lý bắt đầu với một dự báo thống kê và điều chỉnh nó để tính đến các yếu tố
vô hình. Những người khác có thể phát triển các dự báo thống kê và phán đoán độc lập, sau đó kết
hợp chúng, một cách khách quan bằng cách lấy trung bình hoặc theo cách chủ quan. Điều quan trọng
là phải so sánh các dự báo được tạo ra một cách định lượng với các dự báo dựa trên phán đoán
để xem liệu phương pháp dự báo có làm tăng giá trị của một dự báo được cải thiện hay không.
Không thể đưa ra hướng dẫn chung về cách tiếp cận nào là tốt nhất, bởi vì chúng phụ thuộc vào
nhiều yếu tố, bao gồm sự hiện diện hay vắng mặt của các xu hướng và tính thời vụ, số lượng điểm
dữ liệu có sẵn, khoảng thời gian dự báo và kinh nghiệm và kiến thức của người dự báo. Thông
thường, các phương pháp định lượng sẽ bỏ lỡ những thay đổi quan trọng trong dữ liệu, chẳng hạn
như sự đảo ngược xu hướng, trong khi các dự báo định tính có thể nắm bắt được chúng, đặc biệt
khi sử dụng các chỉ số như đã thảo luận trước đó trong chương này.
Phân tích trong thực tế: Dự báo tại NBC Universal1
NBC Universal (NBCU), một công ty con của General Electric
2 đến 3 tuần. Giai đoạn bán hàng này được gọi là thị
Company (GE), là một trong những công ty truyền thông và
trường phía trước. Ngay sau khi công bố lịch trình
giải trí hàng đầu thế giới trong việc phân phối, sản
chương trình của họ, các mạng hoàn thiện dự báo xếp hạng
xuất và tiếp thị nội dung giải trí, tin tức và thông tin.
của họ và ước tính nhu cầu thị trường. Dự báo xếp hạng
Năm phát sóng truyền hình ở Hoa Kỳ bắt đầu vào tuần thứ ba
là dự đoán về số lượng người trong từng nhóm nhân khẩu
học dự kiến sẽ xem mỗi lần phát sóng các chương trình
của tháng 9. Các mạng phát sóng lớn thông báo lịch phát
trong lịch trình chương trình cho cả năm phát sóng.
sóng của họ cho năm phát sóng mới vào giữa tháng Năm.
Ngay sau đó, việc bán thời gian quảng cáo, tạo ra phần
Sau khi họ hoàn thành các dự đoán xếp hạng và ước tính
lớn doanh thu, bắt đầu. Các mạng phát sóng bán 60% đến 80%
nhu cầu thị trường, các mạng đặt thẻ giá có chứa giá cho
khoảng không quảng cáo thời gian phát sóng của họ trong
quảng cáo trên tất cả các chương trình của họ và phát
một khoảng thời gian ngắn bắt đầu từ cuối tháng 5 và kéo
triển chiến lược giá.
(còn tiếp)
dài
1Dựa trên Srinivas Bollapragada, Salil Gupta, Brett Hurwitz, Paul Miles và Rajesh Tyagi, “NBCUniversal Sử dụng Kỹ thuật Dự báo Định tính Mới để Dự đoán Nhu cầu Quảng cáo,”
Giao diện, 38, 2 (Tháng 3–Tháng 4 năm 2008): 103–111.
Machine Translated by Google
298
Chương 9 Kỹ thuật dự báo
Dự báo trước nhu cầu thị trường luôn là một thách
thức. NBCU ban đầu dựa vào các mẫu lịch sử, kiến thức
chuyên môn và trực giác để ước tính nhu cầu. Sau đó, nó
đã thử các mô hình dự báo chuỗi thời gian dựa trên nhu cầu
lịch sử và dữ liệu chỉ số kinh tế hàng đầu, đồng thời
triển khai các mô hình này trong hệ thống dựa trên M
icrosoft Excel. Tuy nhiên, những mô hình này tỏ ra không
đạt yêu cầu vì tính chất độc đáo của nhu cầu dân số của
NBCU. Các mô hình chuỗi thời gian có sai số phù hợp và dự
đoán trong khoảng từ 5% đến 12% dựa trên dữ liệu lịch
©
Sean
Pavone
|Dreamstime.com
sử. Những lỗi này được coi là hợp lý, nhưng các giám
đốc bán hàng đã miễn cưỡng sử dụng các mô hình vì các mô
hình không xem xét một số yếu tố định tính mà họ tin rằng
ảnh hưởng đến nhu cầu. Kết quả là họ không tin vào những
dự báo mà các mô hình này tạo ra; do đó, họ chưa bao giờ
sử dụng chúng. Nhân viên phân tích tại NBCU sau đó đã
và nhân viên tài chính tại NBCU đã sử dụng hệ thống này
quyết định phát triển một mô hình dự báo nhu cầu định
để hỗ trợ các quyết định bán hàng trong giai đoạn thị
tính thu thập kiến thức của các chuyên gia bán hàng.
trường trả trước khi NBCU ký các hợp đồng quảng cáo trị
giá hơn 4,5 tỷ USD. Hệ thống này cho phép NBCU bán và
Cách tiếp cận của họ kết hợp phương pháp Delphi và
“dự báo cơ sở”, dựa trên khái niệm hỏi những người gần
phân tích các kịch bản định giá trên tất cả các thuộc tính
truyền hình của NBCU một cách dễ dàng và tinh vi đồng
gũi với người tiêu dùng cuối, chẳng hạn như nhân viên
thời dự đoán nhu cầu với độ chính xác cao.
bán hàng, về kế hoạch mua hàng của khách hàng, cùng với
Các nhà lãnh đạo bán hàng của NBCU tin rằng hệ thống đã
dữ liệu lịch sử để phát triển dự báo. . Kể từ năm 2004,
mang lại cho họ một lợi thế cạnh tranh độc nhất.
hơn 200 doanh số
Điều khoản quan trọng
hiệu ứng chu kỳ
Độ lệch tuyệt đối trung bình (MAD)
phương pháp Delphi
Lỗi phần trăm tuyệt đối trung bình (MAPE)
Làm mịn theo cấp số nhân kép
Lỗi bình phương trung bình (MSE)
Đường trung bình kép
Lỗi bình phương trung bình gốc (RMSE)
mô hình kinh tế lượng
hiệu ứng theo mùa
phép loại suy lịch sử
Làm mịn hàm mũ đơn giản
Mô hình phụ gia Holt-Winters
Đường trung bình động đơn giản
mô hình Holt-Winters
Làm mịn liên tục
Mô hình nhân Holt-Winters
chuỗi thời gian tĩnh
Mục lục
Chuỗi thời gian
chỉ báo
Xu hướng
vấn đề và bài tập
1. Xác định một số ứng dụng kinh doanh trong đó đánh giá các kỹ
thuật dự báo tinh thần như phân tích lịch sử và phương pháp
Delphi sẽ hữu ích.
2. Tìm kiếm trang web của Conference Board để tìm các dự báo kinh
tế và báo cáo về hoạt động kinh doanh của họ
các chỉ số chu kỳ. Viết một báo cáo ngắn về những phát hiện
của bạn.
3. File Excel Sản xuất và tiêu thụ năng lượng
cung cấp dữ liệu về sản xuất, nhập khẩu, xuất khẩu và tiêu
dùng. Phát triển biểu đồ đường cho từng biến
Machine Translated by Google
299
Chương 9 Kỹ thuật dự báo
và xác định các đặc điểm chính của chuỗi thời gian (ví dụ:
xu hướng hoặc chu kỳ). Có bất kỳ chuỗi thời gian nào đứng
yên không? Khi dự báo tương lai, hãy thảo luận xem nên sử
dụng tất cả hay chỉ một phần dữ liệu.
4. Tệp Excel Tỷ lệ thất nghiệp cung cấp dữ liệu về tỷ lệ thất
nghiệp hàng tháng trong 4 năm. So sánh các dự báo trung bình
động 3 tháng và 12 tháng bằng cách sử dụng tiêu chí MAD.
Giải thích tại sao mô hình 3 tháng mang lại kết quả tốt hơn.
5. Tệp Excel Giá đóng cửa cổ phiếu cung cấp dữ liệu cho bốn cổ
phiếu và Chỉ số công nghiệp Dow Jones trong khoảng thời gian
1 tháng.
Một. Phát triển các mô hình bảng tính để dự báo từng giá cổ
phiếu bằng cách sử dụng đường trung bình động 2 kỳ đơn
giản và làm mịn hàm mũ đơn giản với hằng số làm mịn là
0,3.
8. Xét số liệu trong file Excel Giá tiêu dùng
Mục lục.
Một. Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu.
Dự đoán trong 2 năm tới sẽ như thế nào?
b. Sử dụng quy trình làm mịn hàm mũ kép trong XLMiner để
tìm dự báo cho 2 năm tới.
9. Xét dữ liệu trong file excel Nuclear Power.
Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu.
Dự đoán trong 3 năm tới sẽ như thế nào?
10. Phát triển một mô hình hồi quy bội với các biến phân loại
kết hợp tính thời vụ để dự đoán nhiệt độ ở Washington, DC,
sử dụng dữ liệu cho các năm 1999 và 2000 trong tệp Excel
Washington DC Weather. Sử dụng mô hình để tạo ra các dự báo
trong 9 tháng tới và so sánh các dự báo với các quan sát
thực tế trong dữ liệu của năm 2001.
b. So sánh kết quả của bạn với kết quả đầu ra từ các công cụ
Phân tích Dữ liệu của Excel.
c. Sử dụng MAD, MSE và MAPE làm hướng dẫn, tìm số chu kỳ
trung bình động tốt nhất và hằng số làm trơn tốt nhất
để làm trơn theo cấp số nhân.
11. Phát triển mô hình hồi quy bội với các biến phân loại kết
hợp tính thời vụ cho doanh số bán hàng dự đoán bằng cách
sử dụng dữ liệu ba năm qua trong tệp Excel Doanh số bán ô
tô mới.
đ. Sử dụng XLMiner để tìm số khoảng thời gian tốt nhất cho
dự báo trung bình động và hằng số làm mịn theo cấp số
nhân tối ưu.
6. Đối với dữ liệu trong file Excel Giá xăng dầu làm như sau:
12. Phát triển một mô hình hồi quy bội với các biến phân loại
kết hợp tính thời vụ cho việc bắt đầu xây dựng nhà đúc bắt
đầu từ tháng 6 năm 2006 bằng cách sử dụng dữ liệu trong tệp
Excel Bắt đầu xây dựng nhà ở.
13. Sử dụng mô hình không có xu hướng Holt-Winters để tìm mô
Một. Phát triển các mô hình bảng tính để dự báo giá bằng
cách sử dụng đường trung bình động đơn giản và làm mịn
hình tốt nhất dự báo lượng điện sử dụng trong năm tới trong
tệp Excel Gas & Electric.
hàm mũ đơn giản.
b. So sánh kết quả của bạn với kết quả đầu ra từ các công cụ
Phân tích Dữ liệu của Excel.
14. Sử dụng mô hình không có xu hướng Holt-Winters để tìm mô
hình tốt nhất để tìm dự báo cho 12 tháng tới trong tệp
Excel Housing Starts.
c. Sử dụng MAD, MSE và MAPE làm hướng dẫn, tìm số chu kỳ
trung bình động tốt nhất và hằng số làm trơn tốt nhất
để làm trơn theo cấp số nhân.
15. CD File Excel Lãi suất cung cấp lãi suất trung bình hàng năm
trên chứng chỉ tiền gửi có kỳ hạn 6 tháng. So sánh các mô
hình phụ gia Holt-Winters và nhiều mô hình sử dụng XLMiner
đ. Sử dụng XLMiner để tìm số khoảng thời gian tốt nhất cho
dự báo trung bình động và hằng số làm mịn theo cấp số
với các tham số mặc định và một mùa là 6 năm. Tại sao mô
hình nhân cung cấp kết quả tốt hơn?
nhân tối ưu.
7. Xem xét giá của DJ Industrials trong tệp Excel Giá đóng cửa
chứng khoán. Dữ liệu dường như có xu hướng tuyến tính
trong khoảng thời gian được cung cấp.
Một. Sử dụng hồi quy tuyến tính đơn giản để dự báo dữ liệu.
16. Tệp Excel Dữ liệu điền kinh Olympic cung cấp cự ly giành
huy chương vàng cho môn nhảy cao, ném đĩa và nhảy xa của
Thế vận hội Olympic hiện đại. Phát triển các mô hình dự báo
cho từng sự kiện. Mô hình của bạn dự đoán gì cho Thế vận
hội tiếp theo?
Dự báo trong 3 ngày tới sẽ như thế nào?
b. Sử dụng quy trình làm mịn hàm mũ kép trong XLMiner để
tìm dự báo cho 3 ngày tới.
17. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
Excel Tiêu thụ than và tìm
Machine Translated by Google
300
Chương 9 Kỹ thuật dự báo
mô hình dự báo tốt nhất. Giải thích cách bạn sẽ sử dụng mô
mô hình dự báo. Giải thích cách bạn sẽ sử dụng mô hình để
hình để dự báo và khoảng thời gian phù hợp để dự báo trong
dự báo và khoảng thời gian phù hợp để dự báo trong tương
tương lai.
lai.
18. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
Excel DJIA Tháng 12 Đóng và tìm mô hình dự báo tốt nhất.
22. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
Excel Tỷ suất lợi tức trái phiếu kho bạc và tìm mô hình dự
Giải thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng
báo tốt nhất. Giải thích cách bạn sẽ sử dụng mô hình để dự
thời gian phù hợp để dự báo trong tương lai.
báo và khoảng thời gian phù hợp để dự báo trong tương lai.
19. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
23. Dữ liệu trong File Excel Bộ vi xử lý Dữ liệu cho thấy nhu
Excel Tỷ lệ quỹ liên bang và tìm mô hình dự báo tốt nhất.
cầu đối với một loại chip dùng trong thiết bị công nghiệp
Giải thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng
từ một nhà sản xuất nhỏ.
thời gian phù hợp để dự báo trong tương lai.
Một. Xây dựng biểu đồ dữ liệu. Điều gì sẽ xảy ra khi một
con chip mới được giới thiệu?
20. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
Excel Tỷ lệ thế chấp và tìm mô hình dự báo tốt nhất. Giải
thích cách bạn sẽ sử dụng mô hình để dự báo và khoảng thời
gian phù hợp để dự báo trong tương lai.
b. Phát triển mô hình hồi quy nhân quả để dự báo nhu cầu
bao gồm cả thời gian và việc giới thiệu một con chip
mới dưới dạng các biến giải thích.
c. Dự báo cho tháng tới sẽ như thế nào nếu một con chip mới
được giới thiệu? Điều gì sẽ xảy ra nếu một con chip mới
21. Chọn một kỹ thuật dự báo thích hợp cho dữ liệu trong tệp
không được giới thiệu?
Excel Prime Rate và tìm ra phương án tốt nhất
Trường hợp: Hiệu suất Lawn Thiết bị
Một phần quan trọng của việc lập kế hoạch năng lực sản xuất là có
những thay đổi về thị phần. Cô ấy cũng muốn dự báo chi phí sản
một dự báo tốt về doanh số bán hàng. Elizabeth Burke quan tâm đến
xuất sẽ tăng trong tương lai. Phát triển các mô hình dự báo cho
việc dự báo doanh số bán máy cắt cỏ và máy kéo ở từng khu vực
những dữ liệu này và chuẩn bị một báo cáo kết quả của bạn với các
tiếp thị cũng như doanh số bán hàng của ngành để đánh giá tương lai
biểu đồ thích hợp và đầu ra từ Excel.
Machine Translated by Google
Giới thiệu về dữ liệu
CHƯƠNG
Khai thác mỏ
kensoh/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Định nghĩa khai thác dữ liệu và một số phương pháp phổ biến được sử
Áp dụng k-Láng giềng gần nhất, phân tích phân biệt và hồi quy
dụng trong khai thác dữ liệu.
logistic để phân loại bằng XLMiner.
Giải thích cách phân tích cụm được sử dụng để khám phá và
giảm dữ liệu.
Mô tả khai phá luật kết hợp và sử dụng nó trong phân
Áp dụng các kỹ thuật phân tích cụm bằng XLMiner.
tích rổ thị trường.
Giải thích mục đích của các phương pháp phân loại,
Sử dụng XLMiner để phát triển các luật kết hợp.
cách đo hiệu suất phân loại và việc sử dụng dữ liệu đào
Sử dụng phân tích tương quan cho mô hình nguyên nhân
tạo và xác nhận.
và kết quả
301
Machine Translated by Google
302
Chương 10 Giới thiệu về khai thác dữ liệu
Trong một bài báo trên tạp chí Analytics , Talha Omer đã quan sát thấy rằng việc sử dụng
điện thoại di động để thực hiện cuộc gọi thoại để lại một lượng dữ liệu đáng kể. “Nhà
cung cấp điện thoại di động biết tất cả những người bạn đã gọi, thời gian bạn nói chuyện,
thời gian bạn gọi và liệu cuộc gọi của bạn có thành công hay không. Nó cũng biết bạn đang
ở đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu, bạn đang hưởng ứng chương trình
khuyến mại nào, bạn đã mua hàng bao nhiêu lần, v.v..”1 Xem xét thực tế rằng đại đa số
mọi người ngày nay sử dụng điện thoại di động điện thoại, một lượng lớn dữ liệu về hành
vi của người tiêu dùng có sẵn. Tương tự, nhiều cửa hàng hiện nay sử dụng thẻ khách hàng
thân thiết. Tại siêu thị, nhà thuốc, cửa hàng bán lẻ và các cửa hàng khác, thẻ khách hàng
thân thiết cho phép người tiêu dùng tận dụng giá ưu đãi chỉ dành cho những người sử
dụng thẻ. Tuy nhiên, khi họ làm như vậy, các thẻ sẽ để lại một dấu vết dữ liệu kỹ thuật
số về các mẫu mua hàng. Làm thế nào một doanh nghiệp có thể khai thác những dữ liệu này?
Nếu họ có thể hiểu rõ hơn về các mẫu và mối quan hệ ẩn trong dữ liệu, họ không chỉ hiểu
thói quen mua hàng mà còn có thể tùy chỉnh quảng cáo, khuyến mãi, phiếu giảm giá, v.v.
cho từng khách hàng cá nhân và gửi tin nhắn văn bản và email chào hàng được nhắm mục
tiêu (chúng tôi không nói về thư rác ở đây, mà là những người đã đăng ký cho chúng
tôi, những người chọn tham gia các tin nhắn như vậy).
Khai thác dữ liệu là một lĩnh vực phân tích kinh doanh đang phát triển nhanh chóng,
tập trung vào việc hiểu rõ hơn các đặc điểm và mẫu giữa các biến trong cơ sở dữ liệu
lớn bằng nhiều công cụ thống kê và phân tích. Nhiều công cụ mà chúng ta đã nghiên cứu
trong các chương trước, chẳng hạn như trực quan hóa dữ liệu, tóm tắt dữ liệu,
PivotTable, phân tích tương quan và hồi quy, và các kỹ thuật khác, được sử dụng rộng
rãi trong khai thác dữ liệu. Tuy nhiên, khi lượng dữ liệu tăng theo cấp số nhân, nhiều
phương pháp thống kê và phân tích khác đã được phát triển để xác định mối quan hệ giữa
các biến trong tập dữ liệu lớn và hiểu các mẫu ẩn mà chúng có thể chứa.
Trong chương này, chúng tôi giới thiệu một số phương pháp phổ biến hơn và sử dụng
phần mềm XLMiner để triển khai chúng trong môi trường bảng tính. Nhiều quy trình khai
thác dữ liệu đòi hỏi kiến thức thống kê nâng cao để hiểu được lý thuyết cơ bản. Do đó,
trọng tâm của chúng tôi là về các ứng dụng đơn giản và hiểu mục đích cũng như ứng dụng
của các kỹ thuật hơn là nền tảng lý thuyết của chúng.2 Ngoài ra, chúng tôi lưu ý rằng
chương này không có ý định đề cập đến tất cả các khía cạnh của khai thác dữ liệu. Nhiều
kỹ thuật khác có sẵn trong XLMiner không được mô tả trong chương này.
1Talha Omer, “From Business Intelligence to Analytics,” Analytics (tháng 1/tháng 2 năm 2011): 20.
www.analyticsmagazine.com.
2Nhiều mô tả về các kỹ thuật được XLMiner hỗ trợ đã được điều chỉnh từ các tệp trợ giúp của
XLMiner. Xin lưu ý rằng ảnh chụp màn hình đầu ra ví dụ trong chương này sẽ khác với bản phát hành
XLMiner mới nhất.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
303
Phạm vi khai thác dữ liệu
Khai thác dữ liệu có thể được coi là một phần phân tích mô tả và một phần theo quy định. Trong
phân tích theo kịch bản, các công cụ khai thác dữ liệu giúp các nhà phân tích xác định các mẫu
trong dữ liệu. Ví dụ, biểu đồ Excel và PivotTable là những công cụ hữu ích để mô tả các mẫu và
phân tích các tập dữ liệu; tuy nhiên, họ yêu cầu can thiệp thủ công. Phân tích hồi quy và các mô
hình dự đoán giúp chúng ta dự đoán các mối quan hệ hoặc giá trị tương lai của các biến quan tâm.
Theo quan sát của một số nhà nghiên cứu, “ranh giới giữa dự đoán và mô tả không rõ ràng (một số mô
hình dự đoán có thể mô tả ở mức độ khó hiểu và ngược lại).”3 Trong hầu hết các ứng dụng kinh
doanh, mục đích của mô tả phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra các
quyết định tốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta có thể nói chung
rằng khai thác dữ liệu chủ yếu là một phương pháp phân tích dự đoán.
Một số cách tiếp cận phổ biến trong khai thác dữ liệu bao gồm:
Khám phá và giảm thiểu dữ liệu. Điều này thường liên quan đến việc xác định các nhóm
trong đó các phần tử của các nhóm giống nhau về mặt nào đó. Cách tiếp cận này thường
được sử dụng để hiểu sự khác biệt giữa các khách hàng và phân chia họ thành các nhóm
đồng nhất. Ví dụ, các cửa hàng bách hóa của Macy đã xác định bốn phong cách sống của
khách hàng: “Katherine,” một người ăn mặc cổ điển, truyền thống, không chấp nhận nhiều
rủi ro và thích chất lượng; “Julie,” tân truyền thống và sắc sảo hơn một chút nhưng
vẫn cổ điển; “Erin,” một khách hàng hiện đại yêu thích sự mới mẻ và mua sắm theo nhãn hiệu;
và “Alex”, khách hàng thời trang chỉ muốn những thứ mới nhất và tốt nhất (họ cũng có
phiên bản dành cho nam giới).4 Sự phân khúc như vậy rất hữu ích trong các hoạt động
thiết kế và tiếp thị để nhắm mục tiêu tốt hơn các sản phẩm. Những kỹ thuật này cũng đã
được sử dụng để xác định các đặc điểm của nhân viên thành công và cải thiện các hoạt
động tuyển dụng và tuyển dụng.
Phân loại. Phân loại là quá trình phân tích dữ liệu để dự đoán cách phân loại một phần
tử dữ liệu mới. Một ví dụ về phân loại là lọc thư rác trong ứng dụng e-mail. Bằng cách
kiểm tra các đặc điểm văn bản của thư (tiêu đề chủ đề, từ khóa, v.v.), thư có được
phân loại là rác hay không. Các phương pháp phân loại có thể giúp dự đoán liệu một
giao dịch thẻ tín dụng có gian lận hay không, liệu người xin vay có rủi ro cao hay
không hoặc liệu người tiêu dùng có phản ứng với quảng cáo hay không.
Sự kết hợp. Hiệp hội là quá trình phân tích cơ sở dữ liệu để xác định các hiệp hội tự
nhiên giữa các biến và tạo ra các quy tắc cho khuyến nghị tiếp thị hoặc mua hàng mục
tiêu. Ví dụ: Netflix sử dụng liên kết để hiểu loại phim mà khách hàng thích và đưa ra
đề xuất dựa trên dữ liệu.
Amazon.com cũng đưa ra các đề xuất dựa trên các giao dịch mua trước đây. Thẻ khách
hàng thân thiết Supermar ket thu thập dữ liệu về thói quen mua hàng của khách hàng và in
phiếu giảm giá tại điểm mua hàng dựa trên những gì hiện đang được mua.
Mô hình nhân quả. Mô hình nguyên nhân và kết quả là quá trình phát triển các mô hình
phân tích để mô tả mối quan hệ giữa các chỉ số thúc đẩy hiệu quả kinh doanh—ví dụ:
lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên. Hiểu các trình
điều khiển của hiệu suất có thể
3Usama Fayyad, Gregory Piatetsky-Shapiro, và Padhraic Smyth, “From Data Mining to Knowledge Discovery
in Databases,” Tạp chí AI, Hiệp hội Trí tuệ Nhân tạo Hoa Kỳ (Mùa thu 1996): 37–54.
4
“Đây là ông Macy,” Fortune (28 tháng 11 năm 2005): 139–142.
Machine Translated by Google
304
Chương 10 Giới thiệu về khai thác dữ liệu
dẫn đến các quyết định tốt hơn để cải thiện hiệu suất. Ví dụ, nhóm kiểm soát của Johnson
Controls, Inc., đã kiểm tra mối quan hệ giữa sự hài lòng và tỷ lệ gia hạn hợp đồng. Họ phát
hiện ra rằng 91% số lần gia hạn hợp đồng đến từ những khách hàng hài lòng hoặc rất hài lòng
và những khách hàng không hài lòng có tỷ lệ rời bỏ hợp đồng cao hơn nhiều. Mô hình của họ dự
đoán rằng mức tăng một điểm phần trăm trong điểm hài lòng tổng thể có giá trị 13 triệu đô la
trong việc gia hạn hợp đồng dịch vụ hàng năm. Kết quả là, họ đã xác định được các quyết định sẽ
cải thiện sự hài lòng của khách hàng.5
Phân tích hồi quy và tương quan là những công cụ chính cho mô hình nguyên nhân và kết
quả.
Khám phá và thu nhỏ dữ liệu
Một số kỹ thuật cơ bản trong khai thác dữ liệu liên quan đến việc khám phá dữ liệu và “giảm thiểu dữ liệu”—
nghĩa là chia nhỏ các tập hợp dữ liệu lớn thành các nhóm hoặc phân đoạn dễ quản lý hơn để cung cấp thông
tin chi tiết tốt hơn. Chúng ta đã thấy nhiều kỹ thuật trước đó trong cuốn sách này để khám phá dữ liệu và
giảm thiểu dữ liệu. Ví dụ: biểu đồ, phân phối tần suất và biểu đồ và thống kê tóm tắt cung cấp thông tin cơ
bản về các đặc điểm của dữ liệu. Đặc biệt, Pivot Tables rất hữu ích trong việc khám phá dữ liệu từ các
quan điểm khác nhau và để giảm thiểu dữ liệu.
XLMiner cung cấp nhiều công cụ và kỹ thuật để khám phá dữ liệu bổ sung hoặc mở rộng các khái niệm và
công cụ mà chúng ta đã nghiên cứu trong các chương trước. Chúng được tìm thấy trong nhóm Phân tích dữ
liệu của ruy-băng XLMiner, được hiển thị trong Hình 10.1.
Lấy mẫu
Khi xử lý các tập dữ liệu lớn và “dữ liệu lớn”, việc xử lý tất cả dữ liệu có thể tốn kém hoặc mất thời gian.
Thay vào đó, chúng ta có thể phải sử dụng một mẫu. Chúng tôi đã giới thiệu quy trình lấy mẫu trong Chương
6. XLMiner có thể lấy mẫu từ trang tính Excel hoặc từ cơ sở dữ liệu Microsoft Access.
VÍ DỤ 10.1 Sử dụng XLMiner để lấy mẫu từ một trang tính
Hình 10.2 cho thấy một phần Dữ liệu Rủi ro Tín dụng Tệp Excel.
phần Tùy chọn lấy mẫu; trong trường hợp này, chúng tôi đã
Mặc dù chắc chắn không phải là “dữ liệu lớn”, nhưng nó bao
chọn 20 mẫu (không thay thế trừ khi hộp Mẫu có thay thế được
gồm 425 bản ghi. Đầu tiên, nhấp vào bất kỳ đâu trong tập dữ
chọn—điều này tránh trùng lặp) bằng cách lấy mẫu ngẫu nhiên
liệu. Từ nhóm Phân tích dữ liệu trong dải băng XLMiner, nhấp
đơn giản. Bằng cách nhập một giá trị vào hộp Đặt hạt giống,
vào nút Mẫu và chọn Mẫu từ Trang tính.
bạn có thể nhận được kết quả tương tự vào thời điểm khác cho
Hình 10.3 hiển thị hộp thoại đã hoàn thành. Chọn tất cả các
mục đích kiểm soát; nếu không thì một mẫu ngẫu nhiên khác sẽ
biến trong ngăn cửa sổ bên trái và di chuyển chúng sang bên
được chọn. Hình 10.4 cho thấy kết quả.
phải bằng cách sử dụng nút # (chuyển thành dấu " nếu tất cả
Id Hàng trong cột B hiển thị các bản ghi cụ thể đã được lấy
các biến được di chuyển sang phải). Chọn các tùy chọn trong
mẫu.
5Steve Hoisington và Earl Naumann, “Con voi trung thành,” Tiến độ chất lượng (tháng 2 năm 2003): 33–41.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.1
Ruy băng XLMiner
Hình 10.2
Phần tín dụng tệp Excel
Dữ liệu rủi ro
Hình 10.3
Hộp thoại lấy mẫu XLMiner
305
Machine Translated by Google
306
Chương 10 Giới thiệu về khai phá dữ liệu
Hình 10.4
Kết quả lấy mẫu XLMiner
Trực quan hóa dữ liệu
XLMiner cung cấp nhiều biểu đồ để trực quan hóa dữ liệu. Chúng ta đã thấy nhiều trong số này,
chẳng hạn như biểu đồ thanh, đường và phân tán cũng như biểu đồ. Tuy nhiên, XLMiner cũng
có khả năng tạo các ô vuông, biểu đồ tọa độ song song, biểu đồ ma trận phân tán và biểu đồ
biến đổi. Chúng được tìm thấy từ nút Khám phá trong nhóm Phân tích dữ liệu.
Boxplots (đôi khi được gọi là biểu đồ hình hộp và râu) hiển thị bằng đồ họa năm số liệu
thống kê chính của một tập dữ liệu—tối thiểu, phần tư thứ nhất, trung vị, phần tư thứ ba và
VÍ DỤ 10.2 Biểu đồ hộp cho dữ liệu rủi ro tín dụng
Chúng tôi sẽ xây dựng một biểu đồ hộp cho số tháng được sử
hai bên của hộp để biểu thị các giá trị tối thiểu và tối đa
dụng cho mỗi giá trị tình trạng hôn nhân từ Dữ liệu Rủi ro
trong tập dữ liệu. Nếu bạn di con trỏ chuột qua bất kỳ ô nào,
Tín dụng. Đầu tiên, chọn Thuật sĩ Biểu đồ từ Khám phá
biểu đồ sẽ hiển thị các giá trị này. Râu rất dài gợi ý các
trong nhóm Phân tích dữ liệu trong tab XLMiner.
ngoại lệ có thể có trong dữ liệu.
Chọn Boxplot; trong hộp thoại thứ hai, chọn Số tháng được
Bạn có thể dễ dàng nhận thấy sự khác biệt trong dữ liệu giữa
tuyển dụng làm biến để vẽ biểu đồ trên trục tung. Trong hộp
những người độc thân so với những người đã kết hôn hoặc ly
thoại tiếp theo, chọn Tình trạng hôn nhân làm biến để vẽ biểu
hôn. Bạn cũng có thể lọc dữ liệu bằng cách chọn hoặc bỏ chọn
đồ trên trục hoành. Nhấp vào Kết thúc. Kết quả được thể hiện
các hộp trong ngăn bộ lọc để hiển thị các ô vuông chỉ cho
trong Hình 10.5. Phạm vi hộp hiển thị phần trăm thứ 25 và 75
một phần dữ liệu, chẳng hạn như để so sánh những dữ liệu có
(phạm vi liên vùng, IQR), đường liền nét trong hộp là trung
rủi ro tín dụng cao với những dữ liệu có phân loại rủi ro tín
vị và đường chấm trong hộp là giá trị trung bình. “Râu ria”
dụng thấp.
kéo dài
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
307
Hình 10.5
Boxplot cho tháng
Làm việc theo tình trạng hôn nhân
tối đa—và rất hữu ích trong việc xác định hình dạng của phân phối và các giá trị ngoại lai trong dữ
liệu.
Biểu đồ tọa độ song song bao gồm một tập hợp các trục dọc, một trục cho mỗi biến được chọn.
Đối với mỗi quan sát, một đường được vẽ nối các trục dọc. Điểm mà tại đó đường thẳng đi qua một
trục biểu thị giá trị cho biến đó. Biểu đồ tọa độ song song tạo ra một "hồ sơ đa biến" và giúp nhà
phân tích khám phá dữ liệu và đưa ra kết luận cơ bản.
VÍ DỤ 10.3 Biểu đồ tọa độ song song cho dữ liệu rủi ro tín dụng
Đầu tiên, chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong
chúng tôi chọn tô màu theo rủi ro tín dụng. Màu vàng thể hiện
nhóm Phân tích Dữ liệu trong tab XLMiner. Chọn Tọa độ song
rủi ro tín dụng thấp và màu xanh lam thể hiện mức cao. Chúng
song. Trong hộp thoại thứ hai, chọn Kiểm tra, Tiết kiệm, Số
tôi thấy rằng những cá nhân có số tháng làm việc thấp và độ
tháng Làm việc và Tuổi làm các biến cần đưa vào. Hình 10.6
tuổi thấp hơn có xu hướng gặp rủi ro tín dụng cao, thể hiện
cho thấy kết quả. Trong hộp thả xuống nhỏ ở trên cùng, bạn có
qua mật độ của các đường màu xanh lam. Như với các ô vuông,
thể chọn tô màu các đường theo một trong các biến; trong
bạn có thể dễ dàng lọc dữ liệu để khám phá các kết hợp khác
trường hợp này,
của các biến hoặc tập hợp con của dữ liệu.
Một ma trận biểu đồ phân tán kết hợp một số biểu đồ phân tán vào một bảng điều khiển, cho phép
người dùng để trực quan hóa mối quan hệ theo cặp giữa các biến.
Machine Translated by Google
308
Chương 10 Giới thiệu về khai phá dữ liệu
Hình 10.6
Ví dụ về song song
Lô tọa độ
VÍ DỤ 10.4 Ma trận phân tán cho dữ liệu rủi ro tín dụng
Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân
so với Tuổi. Lưu ý rằng tháng làm việc nằm trên trục x và
tích Dữ liệu trong tab XLMiner. Chọn Ma trận phân tán. Trong
tuổi trên trục y. Dữ liệu dường như có xu hướng tuyến tính
hộp thoại tiếp theo, hãy chọn các hộp cho Tháng khách hàng,
tăng nhẹ, cho thấy rằng những người lớn tuổi đã được tuyển
Tháng làm việc và Tuổi và nhấp vào Kết thúc. Hình 10.7 cho
dụng trong một thời gian dài hơn. Lưu ý rằng có hai biểu đồ
thấy kết quả. Dọc theo đường chéo là biểu đồ của các biến
cho mỗi cặp biến với các trục được đảo ngược.
riêng lẻ. Ngoài đường chéo là biểu đồ phân tán của các cặp
Ví dụ: biểu đồ ở hàng thứ hai và cột thứ ba giống như biểu
biến. Ví dụ: biểu đồ ở hàng thứ ba và cột thứ hai của hình
đồ mà chúng ta đã thảo luận, nhưng có tuổi trên trục x. Như
hiển thị biểu đồ phân tán của Số tháng được tuyển dụng
trước đây, bạn có thể dễ dàng lọc dữ liệu để tạo các dạng
xem khác nhau.
Cuối cùng, một biểu đồ biến chỉ đơn giản là vẽ một ma trận biểu đồ cho các biến được chọn.
VÍ DỤ 10.5 Một biểu đồ dữ liệu rủi ro tín dụng có thể thay đổi
Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân
Hình 10.8 cho thấy kết quả. Công cụ này dễ sử dụng hơn nhiều
tích Dữ liệu trong tab XLMiner. Chọn Biểu đồ biến. Trong hộp
so với công cụ Biểu đồ của Excel, đặc biệt đối với nhiều biến
thoại tiếp theo, hãy đánh dấu vào các hộp cho các biến bạn
trong một tập dữ liệu và bạn có thể dễ dàng lọc dữ liệu để
muốn đưa vào (chúng tôi giữ tất cả chúng) và nhấp vào Kết thúc.
tạo ra các phối cảnh khác nhau.
Dữ liệu bẩn
Không có gì lạ khi tìm thấy các tập dữ liệu thực có giá trị bị thiếu hoặc lỗi. Những bộ dữ liệu
như vậy được gọi là "bẩn" và cần được "làm sạch" trước khi phân tích chúng. Một số cách tiếp cận
Machine Translated by Google
Chương 10 Giới thiệu về khai phá dữ liệu
309
Hình 10.7
Ví dụ về biểu đồ phân tán
ma trận
Hình 10.8
Ví dụ về một âm mưu biến
được sử dụng để xử lý dữ liệu bị thiếu. Ví dụ: chúng ta có thể chỉ cần loại bỏ các bản ghi
chứa dữ liệu bị thiếu; ước tính các giá trị hợp lý cho các quan sát bị thiếu, chẳng hạn như
giá trị trung bình hoặc giá trị trung vị; hoặc sử dụng thủ tục khai thác dữ liệu để xử lý
chúng. XLMiner có khả năng xử lý dữ liệu bị thiếu trong menu Chuyển đổi trong nhóm Phân tích dữ liệu.
Chúng tôi khuyên bạn nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ giúp để biết thêm
thông tin. Trong mọi trường hợp, bạn nên cố gắng hiểu liệu dữ liệu bị thiếu chỉ đơn giản là
sự kiện ngẫu nhiên hay liệu có lý do hợp lý nào khiến chúng bị thiếu hay không. Việc loại bỏ
dữ liệu mẫu một cách bừa bãi có thể dẫn đến thông tin và kết luận sai lệch về dữ liệu.
Machine Translated by Google
310
Chương 10 Giới thiệu về khai thác dữ liệu
Lỗi dữ liệu thường có thể được xác định từ các ngoại lệ (xem phần thảo luận trong Chương
3). Một cách tiếp cận điển hình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem tác
động của chúng có làm thay đổi đáng kể các kết luận hay không và liệu có nên dành nhiều nỗ lực
hơn để cố gắng hiểu và giải thích chúng hay không.
Phân tích cluster
Phân tích cụm, còn được gọi là phân đoạn dữ liệu, là một tập hợp các kỹ thuật tìm cách nhóm
hoặc phân đoạn một tập hợp các đối tượng (nghĩa là các quan sát hoặc bản ghi) thành các tập hợp
con hoặc cụm, sao cho các đối tượng trong mỗi cụm có liên quan chặt chẽ với nhau hơn so với
các đối tượng gán cho các cụm khác nhau. Các đối tượng trong các cụm sẽ thể hiện mức độ tương
đồng cao, trong khi các đối tượng trong các cụm khác nhau sẽ không giống nhau.
Phân tích cụm là một kỹ thuật giảm thiểu dữ liệu theo nghĩa là nó có thể lấy một số lượng
lớn các quan sát, chẳng hạn như khảo sát khách hàng hoặc bảng câu hỏi, và giảm thông tin thành
các nhóm nhỏ hơn, đồng nhất có thể diễn giải dễ dàng hơn. Ví dụ, việc phân khúc khách hàng
thành các nhóm nhỏ hơn có thể được sử dụng để tùy chỉnh quảng cáo hoặc khuyến mại. Trái ngược
với nhiều kỹ thuật khai thác dữ liệu khác, phân tích cụm chủ yếu mang tính mô tả và chúng ta
không thể rút ra các suy luận thống kê về một mẫu bằng cách sử dụng nó. Ngoài ra, các cụm được
xác định không phải là duy nhất và phụ thuộc vào quy trình cụ thể được sử dụng; do đó, nó không
dẫn đến một câu trả lời dứt khoát mà chỉ cung cấp những cách nhìn mới về dữ liệu. Tuy nhiên, nó
là một kỹ thuật được sử dụng rộng rãi.
Có hai phương pháp phân cụm chính là phân cụm theo thứ bậc và phân cụm theo phương pháp
k-mean. Trong phân cụm theo cấp bậc, dữ liệu không được phân vùng thành một cụm cụ thể trong
một bước. Thay vào đó, một loạt các phân vùng diễn ra, có thể chạy từ một cụm chứa tất cả các
đối tượng đến n cụm, mỗi cụm chứa một đối tượng. Phân cụm theo thứ bậc được chia nhỏ thành
các phương pháp phân cụm kết tụ, tiến hành bằng một loạt các hợp nhất n đối tượng thành các
nhóm và các phương pháp phân cụm phân chia, phân tách n đối tượng liên tiếp thành các nhóm
tốt hơn. Hình 10.9 minh họa sự khác biệt giữa hai loại phương pháp này.
Các kỹ thuật kết tụ được sử dụng phổ biến hơn và đây là phương pháp được triển khai
trong XLMiner. Phân cụm theo thứ bậc có thể được biểu diễn bằng một không gian hai chiều
Hình 10.9
kết tụ so với
Phân cụm chia
Machine Translated by Google
311
Chương 10 Giới thiệu về khai phá dữ liệu
biểu đồ được gọi là chương trình dendro, minh họa sự kết hợp hoặc phân chia được thực hiện ở mỗi giai
đoạn phân tích kế tiếp.
Một quy trình phân cụm theo thứ bậc tổng hợp tạo ra một loạt các phân vùng dữ liệu, Pn , Pn-1 , c,
P1 . Pn bao gồm n cụm đối tượng đơn lẻ và P1 bao gồm một nhóm duy nhất chứa tất cả n quan sát. Ở mỗi
giai đoạn cụ thể, phương pháp này kết hợp hai cụm gần nhau nhất (giống nhau nhất). Ở giai đoạn đầu tiên,
điều này chỉ đơn giản là nối hai đối tượng gần nhau nhất lại với nhau. Các phương pháp khác nhau sử
dụng các cách khác nhau để xác định khoảng cách (hoặc độ tương tự) giữa các cụm.
Thước đo khoảng cách được sử dụng phổ biến nhất giữa các vật thể là khoảng cách Euclide. Đây là
phần mở rộng của cách tính khoảng cách giữa hai điểm trên một mặt phẳng như cạnh huyền của một tam giác
vuông (xem Hình 10.10). Khoảng cách Euclide đo giữa hai điểm (x1 , x2 ,
. . .
xn )
và (y1 , y2 , ,
21x1 - y1 22 + 1x2 - y2 22 + g + 1xn - yn 22
. . .
, y ) là
(10.1)
Một số phương pháp phân cụm sử dụng khoảng cách Euclide bình phương (nghĩa là không có căn bậc hai)
vì nó tăng tốc độ tính toán.
Một trong những phương pháp phân cụm theo thứ bậc kết tụ đơn giản nhất là phân cụm liên kết đơn,
còn được gọi là kỹ thuật lân cận gần nhất. Tính năng xác định của phương pháp là khoảng cách giữa các
nhóm được xác định là khoảng cách giữa cặp đối tượng gần nhất, trong đó chỉ các cặp bao gồm một đối
tượng từ mỗi nhóm được xem xét. Trong phương pháp liên kết đơn, khoảng cách giữa hai cụm, r và s,
D(r,s), được định nghĩa là khoảng cách tối thiểu giữa bất kỳ đối tượng nào trong cụm r và bất kỳ đối
tượng nào trong cụm s. Nói cách khác, khoảng cách giữa hai cụm được cho bởi giá trị của liên kết ngắn
nhất giữa các cụm. Ở mỗi giai đoạn phân cụm theo cấp bậc, chúng tôi tìm thấy hai cụm có khoảng cách tối
thiểu giữa chúng và hợp nhất chúng lại với nhau.
Một phương pháp khác về cơ bản ngược lại với phân cụm liên kết đơn được gọi là phân cụm liên kết
hoàn chỉnh. Trong phương pháp này, khoảng cách giữa các nhóm được định nghĩa là khoảng cách giữa cặp
đối tượng ở xa nhất, một đối tượng từ mỗi nhóm. Phương pháp thứ ba
Hình 10.10
Tính toán Euclide
Khoảng Cách Giữa Hai
điểm
Machine Translated by Google
312
Chương 10 Giới thiệu về khai thác dữ liệu
là cụm liên kết trung bình. Ở đây, khoảng cách giữa hai cụm được định nghĩa là giá trị trung
bình của khoảng cách giữa tất cả các cặp đối tượng, trong đó mỗi cặp được tạo thành từ một
đối tượng từ mỗi nhóm. Các phương pháp khác là phân cụm liên kết nhóm trung bình, sử dụng
các giá trị trung bình cho từng biến để tính toán khoảng cách giữa các cụm và phương pháp
phân cụm theo cấp bậc của Ward, sử dụng tiêu chí tổng bình phương. Các phương pháp khác
nhau thường mang lại kết quả khác nhau, vì vậy tốt nhất là thử nghiệm và so sánh kết quả.
VÍ DỤ 10.6 Phân cụm dữ liệu các trường đại học và cao đẳng
Đầu ra Các giai đoạn phân cụm trình bày chi tiết lịch
Hình 10.11 cho thấy một phần của tệp Excel Cao đẳng và Đại
học. Đặc điểm của các tổ chức này khác nhau khá nhiều. Giả sử
sử hình thành cụm, cho biết cách các cụm được hình thành ở
rằng chúng ta muốn phân nhóm chúng thành các nhóm đồng nhất
mỗi giai đoạn của thuật toán. Ở các giai đoạn khác nhau của
hơn dựa trên điểm SAT trung bình, tỷ lệ chấp nhận, chi tiêu/
quá trình phân cụm, có số lượng khác nhau của các cụm.
học sinh, tỷ lệ học sinh nằm trong top 10% của trường trung
Chương trình dendro cho phép bạn hình dung điều này. Điều
này được thể hiện trong Hình 10.16. Trục y đo khoảng cách giữa các cụm.
học và tỷ lệ tốt nghiệp.
Do quy mô của vấn đề, mỗi quan sát riêng lẻ không được hiển
Trong XLMiner, chọn Phân cụm theo cấp bậc từ menu Cụm
thị và một số trong số chúng đã được nhóm lại trong “các cụm
trong nhóm Phân tích dữ liệu. Trong hộp thoại được hiển thị
trong Hình 10.12, chỉ định phạm vi dữ liệu và di chuyển các
con”. ID cụm phụ được liệt kê dọc theo trục x, với chú thích
biến được quan tâm vào danh sách Các biến được chọn. Lưu ý
bên dưới. Ví dụ, trong thủ tục phân cụm, các phân cụm 1 và
rằng chúng tôi đang nhóm các biến số, vì vậy Trường học và
12 đã được hợp nhất; sau đó cụm con 11 (bao gồm quan sát 14)
Loại không được bao gồm. Sau khi nhấn Next, hộp thoại Step 2
được hợp nhất với nó. Ở đầu sơ đồ, chúng ta thấy rằng tất cả
xuất hiện (xem Hình 10.13). Đánh dấu vào ô Chuẩn hóa dữ liệu
các cụm được hợp nhất thành một cụm duy nhất. Nếu bạn vẽ một
đầu vào; điều này rất quan trọng để đảm bảo rằng khoảng cách
đường ngang qua dendogram ở bất kỳ giá trị nào của trục y,
đo chắc chắn phù hợp với trọng lượng bằng nhau cho từng biến;
bạn có thể xác định số cụm và các quan sát trong mỗi cụm. Ví
không có chuẩn hóa, biến có tỷ lệ lớn nhất sẽ chiếm ưu thế
dụ, vẽ đường ở giá trị khoảng cách là 2,5, bạn có thể thấy
trong phép đo. Phân cụm theo cấp bậc sử dụng khoảng cách
rằng chúng tôi có hai cụm; chỉ cần theo dõi các nhóm con ở
Euclidean làm thước đo độ tương tự cho dữ liệu số. Hai tùy
cuối các nhánh để xác định các quan sát riêng lẻ trong mỗi
chọn còn lại chỉ áp dụng cho dữ liệu nhị phân (0 hoặc 1).
nhóm.
Chọn phương pháp phân cụm mà bạn muốn sử dụng. Trong trường
hợp này, chúng tôi chọn liên kết nhóm trung bình. Trong hộp
Cụm Dự đoán hiển thị việc gán các quan sát cho số lượng
thoại cuối cùng (Hình 10.14), chọn số cụm. Phương pháp kết
cụm mà chúng tôi đã chỉ định trong hộp thoại nhập liệu, trong
tụ của phân cụm theo thứ bậc tiếp tục hình thành các cụm cho
trường hợp này là bốn (vẽ một đường qua biểu đồ den ở
đến khi chỉ còn lại một cụm. Tùy chọn này cho phép bạn dừng
khoảng cách 2 để thấy điều này). Điều này được thể hiện trong
quá trình tại một số cụm nhất định. Chúng tôi đã chọn bốn cụm.
Hình 10.17. Chẳng hạn, cụm 3 chỉ bao gồm ba trường, ID hàng
Đầu ra được lưu trên nhiều trang tính. Hình 10.15 hiển
4, 41 và 42; và cụm 4 chỉ bao gồm một quan sát, hàng ID 8.
thị tóm tắt các đầu vào. Bạn có thể sử dụng thanh Điều hướng
(Bạn có thể sắp xếp dữ liệu trong Excel để xem điều này dễ
đầu ra ở đầu trang tính để hiển thị các phần khác nhau của
dàng hơn.) Các trường này và dữ liệu của chúng được trích
đầu ra thay vì cố gắng tự mình điều hướng qua các trang tính.
xuất trong cơ sở dữ liệu sau:
chấp thuận
cụm trường
3
3
Kiểu
SAT trung bình
Tỷ lệ
chi tiêu/
Học sinh
Top 10% HS tốt nghiệp%
Berkeley
Trường đại học
1176
37%
$23,665
95
68
UCLA
Trường đại học
1142
43%
$26,859
96
61
3
UNC
Trường đại học
1109
32%
$19,684
82
73
4
Cal Tech
Trường đại học
1400
31%
$102,262
98
75
Chúng ta có thể thấy rằng các trường trong cụm 3 có hồ sơ khá giống nhau, trong khi Cal Tech nổi bật hơn hẳn so với các trường
khác.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.11
Một phần của File Excel Cao đẳng và Đại học
Hình 10.12
Phân cụm theo cấp bậc
Đối thoại, Bước 1
Hình 10.13
Phân cụm theo cấp bậc
Đối thoại, Bước 2
313
Machine Translated by Google
314
Hình 10.14
Phân cụm theo cấp bậc
Đối thoại, Bước 3
Hình 10.15
Phân cụm theo cấp bậc
Kết quả: Đầu vào
Hình 10.16
Phân cụm theo cấp bậc
Kết quả: Dendogram
Chương 10 Giới thiệu về khai phá dữ liệu
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
315
Hình 10.17
Phân cụm theo cấp bậc
Kết quả: Cụm dự đoán
phân loại
Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành một trong hai hoặc
nhiều loại dựa trên các thuộc tính dữ liệu khác nhau. Đối với mỗi bản ghi trong cơ sở dữ
liệu, chúng tôi có một biến phân loại được quan tâm (ví dụ: mua hay không mua, rủi ro cao
hay không rủi ro) và một số biến dự đoán bổ sung (tuổi, thu nhập, giới tính, giáo dục, tài
sản, v.v.) . Đối với một tập hợp các biến dự đoán nhất định, chúng tôi muốn gán giá trị tốt
nhất của biến phân loại. Chúng tôi sẽ minh họa các kỹ thuật phân loại khác nhau bằng cách sử
dụng cơ sở dữ liệu Excel Quyết định phê duyệt tín dụng.
Một phần của cơ sở dữ liệu này được hiển thị trong Hình 10.18. Trong cơ sở dữ liệu
này, biến phân loại quan tâm là quyết định phê duyệt hoặc từ chối đơn xin tín dụng. Các
biến ing còn lại là các biến dự đoán. Bởi vì chúng tôi đang làm việc với dữ liệu số,
Hình 10.18
Một phần của tệp Excel
Quyết định phê duyệt tín dụng
Machine Translated by Google
316
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.19
Tệp Excel đã sửa đổi với
Các biến được mã hóa bằng số
tuy nhiên, chúng ta cần mã hóa các trường Chủ nhà và Quyết định bằng số. Chúng tôi mã hóa thuộc
tính Chủ nhà “Y” là 1 và “N” là 0; tương tự, chúng tôi mã hóa thuộc tính Quyết định “Phê
duyệt” là 1 và “Từ chối” là 0. Hình 10.19 cho thấy một phần của cơ sở dữ liệu đã sửa đổi (Quyết
định phê duyệt tín dụng được mã hóa trong tệp Excel).
Một lời giải thích trực quan về phân loại
Để phát triển sự hiểu biết trực quan về phân loại, chúng tôi chỉ coi điểm tín dụng và số năm
lịch sử tín dụng là các biến dự đoán.
VÍ DỤ 10.7 Phân loại quyết định phê duyệt tín dụng theo trực giác
Hình 10.20 cho thấy biểu đồ điểm tín dụng và số năm lịch sử tín
dụng trong dữ liệu Quyết định phê duyệt tín dụng.
Một cách khác để phân loại các nhóm là sử dụng cả điểm tín
dụng và số năm lịch sử tín dụng bằng cách vẽ một đường thẳng
Biểu đồ vẽ điểm tín dụng của những người đăng ký khoản vay
để phân tách các nhóm, như trong Hình 10.21. Đường thẳng này
trên trục x và các năm lịch sử tín dụng trên trục y. Các bong
đi qua các điểm (763, 2) và (595, 18). Sử dụng một chút đại số,
bóng lớn đại diện cho những người nộp đơn bị từ chối đơn xin
chúng ta có thể tính phương trình của dòng như
tín dụng; các bong bóng nhỏ đại diện cho những bong bóng đã
được phê duyệt. Với một vài trường hợp ngoại lệ (các điểm ở
năm =
dưới cùng bên phải tương ứng với điểm tín dụng cao chỉ với
0,095 × điểm tín dụng + 74,66
một vài năm lịch sử tín dụng đã bị từ chối), dường như có sự
Do đó, chúng tôi có thể đề xuất một quy tắc phân loại khác: bất
phân chia điểm rõ ràng. Khi điểm tín dụng lớn hơn 640, đơn đăng
cứ khi nào số năm + 0,095 × điểm tín dụng " 74,66, đơn đăng ký
ký đã được chấp thuận, nhưng hầu hết các đơn đăng ký có điểm
sẽ bị từ chối; nếu không, nó sẽ được chấp thuận. Tuy nhiên, ở
tín dụng từ 640 trở xuống đều bị từ chối.
đây một lần nữa, chúng tôi thấy một số phân loại sai.
Do đó, chúng tôi có thể đề xuất một quy tắc phân loại đơn
giản: ap chứng minh đơn đăng ký có điểm tín dụng lớn hơn 640.
Mặc dù điều này dễ thực hiện bằng trực giác chỉ với hai biến dự đoán, nhưng sẽ khó thực
hiện hơn khi chúng ta có nhiều biến dự đoán hơn. Do đó, các thủ tục phức tạp hơn là cần thiết
như chúng ta sẽ thảo luận.
Đo lường hiệu suất phân loại
Như chúng ta đã thấy trong ví dụ trước, lỗi có thể xảy ra với bất kỳ quy tắc phân loại nào,
dẫn đến phân loại sai. Một cách để đánh giá tính hiệu quả của quy tắc phân loại là tìm xác suất
mắc lỗi phân loại sai và tóm tắt kết quả trong ma trận phân loại, ma trận này cho biết số trường
hợp được phân loại đúng hoặc sai.
Machine Translated by Google
317
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.20
Biểu đồ phê duyệt tín dụng
quyết định
Hình 10.21
Phê duyệt tín dụng thay thế
sơ đồ phân loại
VÍ DỤ 10.8 Ma trận phân loại cho các quy tắc phân loại phê duyệt tín dụng
Trong ví dụ về quyết định phê duyệt tín dụng, chỉ sử dụng điểm tín dụng để
Các phần tử ngoài đường chéo là tần số phân loại sai, trong khi các phần
phân loại các ứng dụng, chúng tôi thấy rằng trong hai trường hợp, các ứng
tử đường chéo là các số được phân loại chính xác. Do đó, xác suất phân
viên có điểm tín dụng vượt quá 640 đã bị từ chối, trong tổng số 50 điểm
loại sai là để bạn phát triển ma trận phân loại cho quy tắc thứ hai.
dữ liệu. Bảng 10.1 cho thấy một ma trận phân loại cho quy tắc điểm tín dụng
trong Hình 10.20.
2
50 , hoặc 0,04. Chúng tôi để nó như một bài tập
Machine Translated by Google
318
Chương 10 Giới thiệu về khai thác dữ liệu
Phân loại dự đoán
Bảng 10.1
Phân loại thực tế
Ma trận phân loại cho
Quy tắc điểm tín dụng
Quyết định = 1
Quyết định = 0
Quyết định = 1
23
2
0
0
25
Quyết định =
Sử dụng dữ liệu đào tạo và xác thực
Hầu hết các dự án khai thác dữ liệu sử dụng khối lượng lớn dữ liệu. Trước khi xây dựng một mô hình, chúng tôi
thường phân vùng dữ liệu thành tập dữ liệu huấn luyện và tập dữ liệu xác thực. Các tập dữ liệu huấn luyện đã
biết trước các kết quả và được sử dụng để “dạy” một thuật toán khai thác dữ liệu. Để có ước tính thực tế hơn
về cách mô hình sẽ hoạt động với dữ liệu không nhìn thấy, bạn cần dành một phần dữ liệu gốc thành tập dữ liệu
xác thực và không sử dụng dữ liệu đó trong quá trình đào tạo. Nếu bạn sử dụng tập dữ liệu huấn luyện để tính toán
độ chính xác của mức độ phù hợp của mô hình, bạn sẽ nhận được ước tính quá lạc quan về độ chính xác của mô
hình. Điều này là do quy trình đào tạo hoặc điều chỉnh mô hình đảm bảo rằng độ chính xác của mô hình đối với dữ
liệu đào tạo càng cao càng tốt—mô hình đặc biệt phù hợp với dữ liệu đào tạo.
Bộ dữ liệu xác thực thường được sử dụng để tinh chỉnh các mô hình. Khi một mô hình cuối cùng được chọn,
độ chính xác của mô hình với tập dữ liệu xác thực vẫn là một ước tính lạc quan về cách mô hình sẽ hoạt động
với dữ liệu không nhìn thấy. Điều này là do mô hình cuối cùng đã trở thành người chiến thắng trong số các mô
hình cạnh tranh dựa trên thực tế là độ chính xác của nó với tập dữ liệu xác thực là cao nhất.
Do đó, những người khai thác dữ liệu thường dành một phần dữ liệu khác, phần này không được sử dụng trong đào
tạo cũng như xác thực. Tập hợp này được gọi là tập dữ liệu thử nghiệm. Độ chính xác của mô hình trên dữ liệu
thử nghiệm đưa ra ước tính thực tế về hiệu suất của mô hình trên dữ liệu hoàn toàn không nhìn thấy được.
VÍ DỤ 10.8 Phân vùng tập dữ liệu trong XLMiner
Để phân vùng dữ liệu thành các bộ đào tạo và xác thực trong
2. Chỉ định tỷ lệ phần trăm: Bạn có thể chỉ định tỷ lệ phần
XLMiner, hãy chọn Phân vùng từ nhóm Khai thác dữ liệu rồi
trăm phân vùng cần thiết. Trong trường hợp tập dữ liệu
chọn Phân vùng tiêu chuẩn. Hộp thoại Phân vùng dữ liệu tiêu
lớn, XLMiner sẽ đề xuất tỷ lệ phần trăm tối đa có thể
chuẩn nhắc bạn về thông tin cơ bản; Hình 10.22 hiển thị hộp
cho tập huấn luyện, sao cho phân vùng huấn luyện nằm
thoại đã hoàn thành. Trước tiên, hộp thoại cho phép bạn chỉ
trong giới hạn đã chỉ định. Sau đó, nó sẽ phân bổ các
định phạm vi dữ liệu và liệu nó có chứa các tiêu đề trong tệp
bản ghi còn lại cho các bộ kiểm tra và xác thực theo tỷ
Excel hay không cũng như các biến để đưa vào phân vùng. Để
lệ 60:40. Bạn có thể thay đổi những điều này và chỉ
chọn một biến cho phân vùng, hãy nhấp vào biến đó rồi nhấp
định tỷ lệ phần trăm. XLMiner sẽ thực hiện các thông số
vào nút # (nút này chuyển thành nút " nếu tất cả các biến đã
kỹ thuật của bạn miễn là các giới hạn được đáp ứng.
được chuyển sang ngăn bên phải). Bạn có thể sử dụng phím
Ctrl để chọn nhiều biến. Số ngẫu nhiên hạt giống mặc định là
12345, nhưng điều này có thể được thay đổi.XLMiner cung cấp
ba tùy chọn:
1. Tự động: Nếu bạn chọn tùy chọn này, 60% tổng số bản ghi
3. Các bản ghi bằng nhau trong tập huấn luyện, xác nhận và kiểm
tra: XLMiner sẽ chia đều các bản ghi trong các tập huấn
luyện, xác nhận và kiểm tra. Nếu tập dữ liệu lớn, nó sẽ chỉ
định các bản ghi tối đa có thể cho quá trình huấn luyện sao
cho số lượng nằm trong giới hạn đã chỉ định cho phân vùng
trong tập dữ liệu được gán ngẫu nhiên cho tập huấn
huấn luyện và chỉ định tỷ lệ phần trăm tương tự cho các
luyện và phần còn lại cho tập hợp lệ. Nếu tập dữ liệu
tập hợp xác thực và kiểm tra. Điều này có nghĩa là tất cả
lớn, thì 60% có lẽ sẽ vượt quá giới hạn về số lượng
các bản ghi có thể không được cung cấp. Vì vậy, trong
bản ghi trong phân vùng huấn luyện. Trong trường hợp
trường hợp tập dữ liệu lớn, hãy chỉ định tỷ lệ phần trăm nếu cần.
đó, XLMiner sẽ phân bổ tỷ lệ phần trăm tối đa cho tập
huấn luyện nằm trong giới hạn. Sau đó, nó sẽ chỉ định
phần trăm còn lại cho bộ xác thực.
Hình 10.23 cho thấy một phần đầu ra của ví dụ Quyết định phê
duyệt tín dụng. 30 hàng đầu tiên (được xác định bằng Id hàng
của chúng trong tiêu đề ở hàng 18) là tập dữ liệu huấn luyện
và phần còn lại là tập dữ liệu xác thực.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
319
Hình 10.22
Phân vùng dữ liệu tiêu chuẩn
hộp thoại
Hình 10.23
Phần của phân vùng dữ liệu
đầu ra
XLMiner cung cấp hai cách phân vùng tiêu chuẩn: phân vùng ngẫu nhiên và phân vùng
do người dùng xác định. Phân vùng ngẫu nhiên sử dụng lấy mẫu ngẫu nhiên đơn giản,
trong đó mọi quan sát trong tập dữ liệu chính đều có xác suất được chọn cho tập dữ
liệu phân vùng như nhau. Ví dụ: nếu bạn chỉ định 60% cho tập dữ liệu huấn luyện, thì 60% của
Machine Translated by Google
320
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.24
Dữ liệu bổ sung trong
Phê duyệt tín dụng tệp Excel
Quyết định được mã hóa
tổng số quan sát sẽ được chọn ngẫu nhiên và sẽ bao gồm tập dữ liệu huấn luyện.
Phân vùng ngẫu nhiên sử dụng các số ngẫu nhiên để tạo mẫu. Bạn có thể chỉ định bất kỳ hạt
giống số ngẫu nhiên không âm nào để tạo mẫu ngẫu nhiên. Sử dụng cùng một hạt giống cho phép
bạn sao chép chính xác các phân vùng cho các lần chạy khác nhau.
Phân loại dữ liệu mới
Mục đích của việc phát triển một mô hình phân loại là để có thể phân loại dữ liệu mới. Sau khi
sơ đồ phân loại được chọn và mô hình tốt nhất được phát triển dựa trên dữ liệu hiện có,
chúng tôi sử dụng các biến dự đoán làm đầu vào cho mô hình để dự đoán đầu ra.
VÍ DỤ 10.9 Phân loại dữ liệu mới cho các quyết định tín dụng bằng cách sử dụng điểm
tín dụng và số năm lịch sử tín dụng
Các tệp Excel Quyết định phê duyệt tín dụng và Quyết định phê
cho các bản ghi đầu tiên, thứ ba và thứ sáu là 1 và phần còn lại là 0.
duyệt tín dụng được mã hóa bao gồm một tập hợp nhỏ dữ liệu mới
Nếu chúng ta sử dụng quy tắc được phát triển trong Ví dụ 10.7,
mà chúng tôi muốn phân loại trong bảng tính Dữ liệu bổ sung. Những
bao gồm cả điểm tín dụng và số năm trong lịch sử tín dụng—tức là,
dữ liệu này được thể hiện trong Hình 10.24. Nếu chúng tôi sử dụng
từ chối đơn đăng ký nếu số năm + 0,095 × điểm tín dụng " 74,66
quy tắc điểm tín dụng đơn giản từ Ví dụ 10.7 rằng cần có số điểm
thì các quyết định sẽ như sau:
trên 640 để phê duyệt đơn đăng ký, thì chúng tôi sẽ phân loại quyết định
Năm
Điểm tín dụng của chủ sở hữu nhà
quay vòng
Lịch sử tín dụng
1
700
0
520
1
1
650
0
602
Sự cân bằng
quay vòng
Năm + 0,095*Điểm tín dụng
Phán quyết
sử dụng
$21.000,00
15%
74,50
0
$4.000,00
90%
50,40
0
10
$8.500,00
25%
71,75
0
7
$16,300.00
70%
64.19
0
số 8
0
549
2
$2.500,00
90%
54.16
0
1
742
15
$16,700.00
18%
85,49
1
Chỉ hồ sơ cuối cùng sẽ được phê duyệt.
Kỹ thuật phân loại
Chúng tôi sẽ mô tả ba cách tiếp cận khai thác dữ liệu khác nhau được sử dụng để phân loại: kHàng xóm gần nhất, phân tích phân biệt và hồi quy logistic.
Machine Translated by Google
321
Chương 10 Giới thiệu về khai phá dữ liệu
k-Hàng xóm gần nhất (k-NN)
Thuật toán k-Láng giềng gần nhất (k-NN) là một sơ đồ phân loại cố gắng tìm các bản ghi trong cơ
sở dữ liệu tương tự với cơ sở dữ liệu mà chúng tôi muốn phân loại. Tính tương tự dựa trên “sự
gần gũi” của một bản ghi với các yếu tố dự đoán bằng số trong các bản ghi khác. Trong cơ sở dữ
liệu Quyết định phê duyệt tín dụng, chúng tôi có các yếu tố dự đoán Chủ sở hữu nhà, Điểm tín
dụng, Số năm Lịch sử tín dụng, Số dư quay vòng và Sử dụng quay vòng. Chúng tôi tìm cách phân
loại quyết định phê duyệt hoặc từ chối đơn xin cấp tín dụng.
Giả sử rằng giá trị của các bộ dự đoán của hai bản ghi X và Y được dán nhãn 1x1 , x2 , c,
xn 2 và 1y1 , y2 , c, xn 2. Chúng ta đo khoảng cách giữa hai bản ghi bằng khoảng cách Euclide
trong công thức (10.1). Bởi vì các yếu tố dự đoán thường có các thang đo khác nhau nên chúng
thường được chuẩn hóa trước khi tính toán khoảng cách.
Giả sử chúng ta có một bản ghi X mà chúng ta muốn phân loại. Láng giềng gần nhất với sợi
dây đó trong tập dữ liệu huấn luyện là sợi dây có khoảng cách nhỏ nhất với nó. Quy tắc 1-NN sau
đó phân loại bản ghi X trong cùng loại với hàng xóm gần nhất của nó. Chúng ta có thể mở rộng ý
tưởng này thành quy tắc k-NN bằng cách tìm k hàng xóm gần nhất trong tập dữ liệu huấn luyện cho
mỗi bản ghi mà chúng ta muốn phân loại và sau đó chỉ định phân loại là phân loại đa số của k
hàng xóm gần nhất. Sự lựa chọn của k là hơi tùy tiện. Nếu k quá nhỏ, việc phân loại một bản ghi
rất nhạy cảm với việc phân loại một bản ghi mà nó gần nhất. Giá trị k lớn hơn làm giảm khả năng
thay đổi này, nhưng việc làm cho k quá lớn sẽ dẫn đến sai lệch trong các quyết định phân loại.
Ví dụ: nếu k là số lượng của toàn bộ tập dữ liệu huấn luyện, tất cả các bản ghi sẽ được phân
loại theo cùng một cách. Giống như các hằng số làm mịn cho dự báo làm mịn trung bình động hoặc
hàm mũ, một số thử nghiệm là cần thiết để tìm giá trị tốt nhất của k nhằm giảm thiểu tỷ lệ phân
loại sai trong dữ liệu xác thực. Công cụ khai thác XL
cung cấp khả năng chọn giá trị tối đa cho k và đánh giá hiệu suất của thuật toán trên tất cả các
giá trị của k cho đến giá trị tối đa được chỉ định. Thông thường, các giá trị của k
từ 1 đến 20 được sử dụng, tùy thuộc vào kích thước của tập dữ liệu và các số lẻ thường được
sử dụng để tránh ràng buộc trong việc tính toán phân loại đa số của các lân cận gần nhất.
VÍ DỤ 10.10 Phân loại quyết định tín dụng bằng thuật toán k-NN
Đầu tiên, phân vùng dữ liệu trong Quyết định phê duyệt tín dụng
giá trị của k cho đến giá trị tối đa được chỉ định và việc chấm điểm được
Tệp Excel được mã hóa thành tập dữ liệu huấn luyện và xác thực, như được
thực hiện trên những mô hình tốt nhất này. Trong ví dụ này, chúng tôi đặt
mô tả trong Ví dụ 10.8. Tiếp theo, chọn Phân loại từ nhóm Khai thác dữ
k = 5 và đánh giá tất cả các mô hình từ k = 1 đến 5.
liệu XLMiner và chọn k-Hàng xóm gần nhất. Trong hộp thoại như trong Hình
Đầu ra của thuật toán k-NN được hiển thị trong một trang tính riêng
10.25, đảm bảo rằng trang tính Nguồn dữ liệu khớp với tên của trang tính
biệt (xem Hình 10.27) và các phần khác nhau của đầu ra có thể được điều
với phần dữ liệu, không phải dữ liệu gốc. Di chuyển các biến đầu vào (biến
hướng bằng cách sử dụng thanh Điều hướng đầu ra ở đầu trang tính bằng cách
dự đoán) và biến đầu ra (biến được phân loại) vào các ô thích hợp bằng cách
nhấp vào tiêu đề được đánh dấu. Nhật ký lỗi xác thực (xem các hàng 38–45)
sử dụng các nút mũi tên. Nhấp vào Tiếp theo để tiếp tục.
cho các k khác nhau liệt kê các lỗi phần trăm đối với tất cả các giá trị của
k đối với tập dữ liệu xác thực và huấn luyện và chọn giá trị đó là k tốt
nhất để xác thực lỗi phần trăm là nhỏ nhất.
Trong hộp thoại thứ hai (xem Hình 10.26), chúng tôi khuyên bạn nên
chọn hộp Chuẩn hóa dữ liệu đầu vào. Bình thường hóa dữ liệu là điều quan
Việc chấm điểm được thực hiện sau đó sử dụng giá trị tốt nhất này của k.
trọng để đảm bảo rằng phép đo khoảng cách mang lại trọng số bằng nhau cho
Quan tâm đặc biệt là báo cáo chấm điểm Dữ liệu đào tạo (hàng 48–62),
mỗi biến; không chuẩn hóa thì biến nào có thang đo lớn nhất sẽ chiếm ưu
báo cáo này kiểm tra các phân loại thực tế và được tính toán khi mô hình
thế trong phép đo. Trong trường bên dưới, nhập giá trị của k. Trong phần
được áp dụng cho dữ liệu đào tạo.
Tùy chọn chấm điểm, nếu bạn chọn Điểm trên giá trị được chỉ định của k như
Số lượng phân loại chính xác nằm dọc theo đường chéo từ phía trên bên
trên, đầu ra được hiển thị bằng cách cho điểm trên giá trị được chỉ định
trái xuống phía dưới bên phải trong Ma trận nhầm lẫn phân loại. Trong
của k. Nếu bạn chọn Điểm trên k tốt nhất giữa 1 và giá trị được chỉ định,
trường hợp này, có 2 lần phân loại sai, với tỷ lệ lỗi chung của phần Báo
XLMiner sẽ đánh giá các mô hình cho tất cả các giá trị
cáo.
2 hoặc 6,67% như trong Lỗi 30
Machine Translated by Google
322
Chương 10 Giới thiệu về khai phá dữ liệu
Hình 10.25
Hộp thoại k-NN, Bước 1/2
Hình 10.26
Hộp thoại k-NN, Bước 2/2
VÍ DỤ 10.11 Phân loại dữ liệu mới bằng k-NN
Chúng tôi sử dụng cơ sở dữ liệu Mã hóa quyết định phê duyệt
chọn trang tính Dữ liệu bổ sung trong Trang tính
tín dụng mà chúng tôi đã sử dụng trong Ví dụ 10.9 để phân loại
trường và đánh dấu phạm vi của dữ liệu mới trong trường Phạm
dữ liệu mới. Trước tiên, hãy phân vùng dữ liệu hoặc sử dụng
vi dữ liệu, bao gồm cả tiêu đề. Bởi vì chúng tôi sử dụng các
trang tính Data_Partition1 đã được phân tích trong ví dụ
tiêu đề giống nhau, hãy nhấp vào Khớp (các) biến có cùng tên;
trước. Ở Bước 2 của quy trình k-NN (xem Hình 10.26), chuẩn hóa
điều này dẫn đến hộp thoại như trong Hình 10.28. Bấm OK rồi
dữ liệu đầu vào và đặt số hàng xóm gần nhất (k) thành 2, vì
bấm Kết thúc trong hộp thoại Bước 2. Hình 10.29 cho thấy kết
đây là giá trị tốt nhất được xác định trong ví dụ trước.
quả. Hồ sơ thứ nhất, thứ ba và thứ sáu được phân loại là “Đã
Sau đó, nhấp vào In worksheet trong ngăn Score new data của
phê duyệt”.
hộp thoại. Trong hộp thoại Khớp các biến trong phạm vi mới,
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.27
Đầu ra k-NN
Hình 10.28
Kết hợp các biến trong cái mới
Hộp thoại phạm vi để chấm điểm
Dữ liệu mới
323
Machine Translated by Google
324
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.29
Thủ tục k-NN
Phân loại mới
Dữ liệu
Phân tích biệt thức
Phân tích phân biệt là một kỹ thuật để phân loại một tập hợp các quan sát thành các lớp
được xác định trước. Mục đích là để xác định lớp của một quan sát dựa trên một tập hợp
các biến dự báo. Dựa trên tập dữ liệu huấn luyện, kỹ thuật này xây dựng một tập hợp các
hàm tuyến tính của các yếu tố dự đoán, được gọi là hàm phân biệt, có dạng:
B1X1 + b2X2 + _
c
+ bnXn + c
(10.2)
trong đó bs là trọng số hoặc hệ số phân biệt, X là biến đầu vào hoặc yếu tố dự đoán và
c là hằng số hoặc hệ số chặn. Các trọng số được xác định bằng cách tối đa hóa phương
sai giữa các nhóm so với phương sai trong nhóm. Các hàm phân biệt này được sử dụng
để dự đoán danh mục của một quan sát mới. Đối với k loại, k chức năng phân biệt được
xây dựng. Đối với một quan sát mới, mỗi trong số k hàm phân biệt được đánh giá và
quan sát được gán cho lớp i nếu hàm phân biệt thứ i có giá trị cao nhất.
VÍ DỤ 10.12 Phân loại quyết định tín dụng sử dụng phân tích phân biệt
Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng được mã hóa,
trước tiên, hãy phân chia dữ liệu thành các tập huấn luyện và
xác nhận, như đã mô tả trước đó. Từ các tùy chọn XLMiner, chọn
2. Sử dụng xác suất trước bằng nhau. Tùy chọn này giả định
rằng tất cả các danh mục xảy ra với xác suất như nhau.
3. Xác suất trước do người dùng chỉ định. Tùy chọn này
Phân tích phân biệt từ menu Phân loại trong nhóm Khai thác dữ liệu.
chỉ khả dụng nếu biến đầu ra có hai loại.
Hộp thoại đầu tiên xuất hiện được hiển thị trong Hình 10.30.
Nếu bạn có thông tin về xác suất mà một quan sát sẽ thuộc
Đảm bảo trang tính được chỉ định là trang tính có phân vùng dữ
về một danh mục cụ thể (bất kể mẫu huấn luyện là gì) thì
liệu. Chỉ định các biến đầu vào và biến đầu ra.
bạn có thể chỉ định các giá trị xác suất cho hai danh mục.
Loại “thành công” tương ứng với giá trị kết quả mà bạn coi là
thành công—trong trường hợp này là phê duyệt khoản vay mà chúng
tôi đã chỉ định giá trị 1. Khả năng xác suất ngưỡng mặc định
là 0,5 và giá trị này thường được sử dụng.
Hộp thoại thứ hai được hiển thị trong Hình 10.31. dis
quy trình phân tích chất tạo tội phạm kết hợp các giả định
trước đó về tần suất xuất hiện của các loại khác nhau.
Ba tùy chọn có sẵn:
1. Theo sự xuất hiện tương đối trong dữ liệu huấn luyện.
Hộp thoại này cũng cho phép bạn chỉ định chi phí phân loại sai
khi có hai loại. Nếu chi phí của hai nhóm bằng nhau, thì phương
pháp này sẽ cố gắng phân loại sai số lượng quan sát ít nhất
trong tất cả các nhóm. Nếu chi phí phân loại sai là không bằng
nhau, XLMiner
xem xét các chi phí tương đối và cố gắng phù hợp với một mô
hình giúp giảm thiểu tổng chi phí của việc phân loại sai.
Hộp thoại thứ ba (Hình 10.32) cho phép bạn chỉ định các
Tùy chọn này giả định rằng xác suất gặp phải một danh
tùy chọn đầu ra. Chúng bao gồm một số thống kê nâng cao trong
mục cụ thể giống như tần suất xảy ra trong dữ liệu huấn
quá trình hình thành và các báo cáo chi tiết hơn; chúng tôi sẽ
luyện.
chỉ tạo các báo cáo tóm tắt cho dữ liệu đào tạo và xác thực.
Machine Translated by Google
325
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.33 cho thấy các chức năng phân loại (phân
biệt) cho hai loại. Đối với loại 1 (phê duyệt hồ sơ vay),
hàm phân biệt là
L(1) =
Ví dụ, đối với bản ghi đầu tiên trong cơ sở dữ liệu,
L(1) =
137,48 + 32,295 × chủ nhà + 0,286
× điểm tín dụng + 0,833 × lịch sử tín dụng +
0,00010274 × số dư quay vòng + 128,248 × sử dụng
quay vòng
137,48 + 32,295 × 1 + 0,286 × 725 + 0,833
× 20 + 0,00010274 × $11.320 + 128,248
× 0,25 = 152,05
L(0) =
157,2 + 30,747 × 1 + 0,289 × 725 + 0,473 × 20 +
0,0004716 × 11.320 + 167,7 × 0,25
= 139,80
Đối với loại 0 (từ chối đơn xin vay), hàm phân biệt là
Do đó, bản ghi này sẽ được gán cho loại 1.
L(0) =
liệu huấn luyện và xác nhận. Chúng tôi thấy rằng có một tỷ
Hình 10.34 hiển thị các báo cáo chấm điểm cho tập dữ
157,2 + 30,747 × chủ nhà + 0,289
× điểm tín dụng + 0,473 × lịch sử tín dụng +
0,0004716 × số dư quay vòng + 167,7 × sử dụng
quay vòng
Hình 10.30
Hộp thoại phân tích phân biệt đối xử,
Bước 1
Hình 10.31
Hộp thoại phân tích phân biệt đối xử,
Bước 2
lệ phân loại sai trên tất cả là 15%.
Machine Translated by Google
326
Hình 10.32
Hộp thoại phân tích phân biệt đối xử,
Bước 3
Hình 10.33
Phân tích biệt thức
Kết quả—Phân loại
Chức năng
Hình 10.34
Phân tích biệt thức
Kết quả—Đào tạo và
Dữ liệu xác thực
Chương 10 Giới thiệu về khai thác dữ liệu
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
327
VÍ DỤ 10.13 Sử dụng Phân tích Phân biệt để Phân loại Dữ liệu Mới
Chúng tôi sẽ sử dụng cơ sở dữ liệu Quyết định phê duyệt tín dụng
trường Phạm vi dữ liệu bao gồm các tiêu đề. Bởi vì chúng tôi sử dụng
được mã hóa mà chúng tôi đã giới thiệu trước đó để phân loại dữ liệu mới. các tiêu đề giống nhau, hãy nhấp vào Khớp (các) biến có cùng tên. Nhấp
Thực hiện theo quy trình tương tự như trong Ví dụ 10.12. Tuy nhiên,
vào OK và sau đó nhấp vào Kết thúc trong nhật ký bước 3. XLMiner tạo
trong hộp thoại cho Bước 3 (xem Hình 10.32), bấm vào Báo cáo chi
một trang tính mới có nhãn DA_New Score, được hiển thị trong Hình
tiết trong ngăn Điểm dữ liệu mới trong Bảng tính của hộp thoại. Hộp
10.35, cung cấp phân loại dự đoán cho mỗi bản ghi mới. Các hồ sơ 1,
thoại tương tự, Khớp các biến trong phạm vi mới, mà chúng ta đã thấy
3, 6 được xếp vào loại 1 (chấp nhận hồ sơ) và các hồ sơ còn lại
trong Ví dụ 10.11, xuất hiện (xem Hình 10.28). Chọn trang tính Dữ
được xếp vào loại 0 (từ chối hồ sơ).
liệu bổ sung trong trường Trang tính và đánh dấu phạm vi dữ liệu mới
trong
Giống như nhiều thủ tục thống kê, phân tích phân biệt đòi hỏi một số giả định nhất định,
chẳng hạn như tính quy tắc của các biến độc lập cũng như các giả định khác, để áp dụng đúng.
Giả định về tính quy tắc thường bị vi phạm trong thực tế, nhưng phương pháp này thường mạnh
mẽ đối với các vi phạm giả định. Kỹ thuật tiếp theo, được gọi là hồi quy logistic, không dựa
trên các giả định này, khiến nó được nhiều người thực hành phân tích ưa thích.
Hồi quy logistic
Trong Chương 8, chúng ta đã nghiên cứu về hồi quy tuyến tính, trong đó biến phụ thuộc là liên
tục và là số. Hồi quy logistic là một biến thể của hồi quy thông thường trong đó biến phụ thuộc
là phân loại. Các biến độc lập có thể là liên tục hoặc phân loại, như trong trường hợp hồi quy
tuyến tính thông thường. Tuy nhiên, trong khi hồi quy tuyến tính đa biến tìm cách dự đoán giá
trị bằng số của biến phụ thuộc Y
dựa trên giá trị của các biến phụ thuộc, hồi quy logistic tìm cách dự đoán xác suất mà biến đầu
ra sẽ rơi vào một danh mục dựa trên giá trị của các biến độc lập (bộ dự báo). Xác suất này
được sử dụng để phân loại một quan sát thành một danh mục.
Hồi quy logistic thường được sử dụng khi biến phụ thuộc là nhị phân—nghĩa là nhận hai giá
trị 0 hoặc 1, như trong ví dụ về quyết định phê duyệt tín dụng mà chúng ta đang sử dụng, trong
đó Y 1 nếu khoản vay được phê duyệt và Y 0 nếu nó bị từ chối. Tình huống này rất phổ biến trong
nhiều tình huống kinh doanh khác, chẳng hạn như khi chúng tôi muốn phân loại khách hàng là
người mua hay người không mua hoặc giao dịch thẻ tín dụng là gian lận hay không.
Hình 10.35
Phân tích biệt thức
Phân loại mới
Dữ liệu
Machine Translated by Google
328
Chương 10 Giới thiệu về khai thác dữ liệu
Để phân loại một quan sát bằng hồi quy logistic, trước tiên chúng tôi ước tính
xác suất p rằng nó thuộc loại 1, P1Y 12 và do đó, xác suất 1 - p rằng nó thuộc loại 0,
P1Y 02. Sau đó, chúng tôi sử dụng giá trị ngưỡng, thường là 0,5, để so sánh p và phân
loại quan sát thành một trong hai loại. Chẳng hạn, nếu p 7 0,5 thì quan sát được xếp
vào loại 1; nếu không nó sẽ được xếp vào loại 0.
Bạn có thể nhớ lại ở Chương 8 rằng một mô hình hồi quy tuyến tính bội có dạng
Y b0 + b1X1 + b2X2 + g+ bkXk . Trong hồi quy logistic, chúng tôi sử dụng một biến phụ
thuộc khác, được gọi là logit, là logarit tự nhiên của p 11 - p2. Như vậy, dạng của
một mô hình hồi quy logistic là
ln
P
b0 + b1X1 + b2X2 + g+ bkXk
1 - p
(10.3)
trong đó p là xác suất để biến phụ thuộc Y 1, và X1 , X2 , c, Xk là các biến độc lập
(các biến dự báo). Các tham số b0 , b1 , b2 ,c, bk là các hệ số hồi quy chưa biết,
phải được ước tính từ dữ liệu.
Tỷ lệ p 11 - p2 được gọi là tỷ lệ cược thuộc loại 1 1Y 12. Đây là một khái niệm
phổ biến trong cờ bạc. Ví dụ: nếu xác suất thắng một trò chơi là p 0,2, thì 1 - p
1
0,8, do đó, tỷ lệ thắng là 0,2 0,8 hoặc một phần tư. Nghĩa là, 4trung bình bạn sẽ thắng
một lần trong bốn lần bạn thua. Logit liên tục trong khoảng từ - ∞ đến + ∞ và từ
phương trình (10.3) là một hàm tuyến tính của các biến dự báo. Các giá trị của biến
dự đoán này sau đó được chuyển đổi thành các khả năng thăm dò bằng một hàm hậu cần:
P
1
1 + e-1b0+b1X1+b2X2+c+bkXk 2
(10.4)
VÍ DỤ 10.14 Phân loại Quyết định Phê duyệt Tín dụng Sử dụng
Hồi quy logistic
Trong cơ sở dữ liệu Quyết định phê duyệt tín dụng được mã hóa,
các biến độc lập không đáng kể. Hình 10.38 hiển thị hộp thoại. Một
trước tiên, hãy phân vùng dữ liệu thành các tập xác nhận và đào
số tùy chọn có sẵn cho quy trình lựa chọn mà thuật toán sử dụng để
tạo. Trong XLMiner, chọn Hồi quy logistic từ menu Phân loại trong
chọn các biến trong mô hình:
nhóm Khai thác dữ liệu. Hộp thoại như trong Hình 10.36 xuất hiện,
tại đây bạn cần chỉ định phạm vi dữ liệu, các biến đầu vào và biến
đầu ra.
Loại bỏ ngược: Các biến được loại bỏ từng biến một,
Lớp “thành công” tương ứng với giá trị kết quả mà bạn coi là thành
bắt đầu từ biến ít quan trọng nhất.
công—trong trường hợp này là phê duyệt khoản vay mà chúng tôi đã chỉ
Lựa chọn chuyển tiếp: Các biến được thêm vào từng biến
định giá trị 1.
Hộp thoại hồi quy logistic thứ hai được hiển thị trong Hình
một, bắt đầu với biến quan trọng nhất.
Tìm kiếm toàn diện: Tất cả các kết hợp của các biến
10.37. Bạn có thể chọn buộc số hạng không đổi bằng 0 và loại bỏ nó
được tìm kiếm cho phù hợp nhất (có thể khá tốn thời
khỏi hồi quy. Bạn cũng có thể thay đổi mức độ tin cậy cho khoảng tin
gian, tùy thuộc vào số lượng biến).
cậy được hiển thị trong kết quả cho tỷ lệ chênh lệch. Thông thường,
điều này được đặt thành 95%. Nút Nâng cao cho phép bạn thay đổi hoặc
Thay thế tuần tự: Đối với một số biến nhất định, các
chọn một số tùy chọn bổ sung; vì mục đích của chúng tôi, chúng tôi
biến được thay thế tuần tự và các thay thế cải thiện
để những thứ này một mình.
hiệu suất sẽ được giữ lại.
Nút Tập hợp con tốt nhất cho phép XLMiner đánh giá tất cả các
Lựa chọn từng bước: Giống như lựa chọn chuyển tiếp,
mô hình có thể có với tập hợp con của các biến độc lập. Điều này rất
nhưng ở mỗi giai đoạn, các biến có thể được loại bỏ
hữu ích trong việc lựa chọn các mô hình loại bỏ
hoặc thêm vào.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
329
Hình 10.36
Hồi quy logistic
Đối thoại, Bước 1
Mỗi tùy chọn có thể mang lại kết quả khác nhau, vì vậy, bạn nên
ables (cộng với hằng số). Chúng tôi có thể sử dụng bất kỳ mô hình
thử nghiệm với các tùy chọn khác nhau. Đối với mục đích của chúng
nào trong số này để phân tích thêm bằng cách nhấp vào liên kết
tôi, chúng tôi sẽ sử dụng các giá trị mặc định trong hộp thoại này.
“Chọn tập hợp con” tương ứng trong cột đầu tiên. Thao tác này
Hình 10.39 hiển thị hộp thoại thứ ba. Kiểm tra các tùy chọn
thích hợp. Đối với các vấn đề đơn giản, các báo cáo tóm tắt để cho
điểm dữ liệu đào tạo và xác nhận là đủ.
sẽ trả về trình tự các hộp thoại để phân loại dữ liệu huấn luyện
và xác thực chỉ sử dụng tập biến cụ thể đó.
Việc lựa chọn mô hình tốt nhất phụ thuộc vào giá trị tính
Đầu ra hồi quy logistic được hiển thị trên một trang tính
mới và bạn có thể sử dụng liên kết Bộ điều hướng đầu ra để hiển
toán của các giá trị lỗi khác nhau và xác suất.
RSS là tổng bình phương còn lại hoặc tổng bình phương độ lệch
thị các phần khác nhau của trang tính. Hình 10.40 cho thấy mô hình
giữa xác suất thành công được dự đoán và giá trị thực tế (1 hoặc
hồi quy và đầu ra tập hợp con tốt nhất. Đầu ra chứa các hệ số
0). Cp là thước đo sai số trong mô hình tập hợp con tốt nhất, liên
beta, sai số chuẩn của chúng, giá trị p, tỷ lệ chênh lệch cho từng
quan đến sai số kết hợp tất cả các biến. Các mô hình phù hợp là
biến (đơn giản là
những mô hình mà Cp
x, trong đó x là giá trị của hệ số) và confi
gần bằng với số lượng tham số trong mô hình (bao gồm cả hằng số)
dence khoảng thời gian cho các tỷ lệ cược. Thống kê tóm tắt ở bên
và/hoặc Cp ở mức tối thiểu.
phải cho thấy bậc tự do còn lại (số lượng quan sát
Xác suất là phép thử gần như giả thuyết của mệnh đề rằng một tập
số lượng
yếu tố dự đoán), thước đo loại độ lệch chuẩn (Độ lệch dư) cho mô
hợp con đã cho là chấp nhận được; nếu Xác suất * 0,05
hình (thường có phân phối chi-square), tỷ lệ phần trăm của thành
chúng ta có thể loại trừ tập hợp con đó. Trong ví dụ này, có rất ít
công (1 giây) trong dữ liệu huấn luyện, số lần lặp lại cần thiết để
sự khác biệt trong RSS, nhưng các giá trị của Cp và Xác suất có
phù hợp với mô hình và giá trị bình phương R bội.
thể khiến chúng ta chọn mô hình đầy đủ.
Nếu chúng tôi chọn tùy chọn tập hợp con tốt nhất, thì XLMiner
Các báo cáo tóm tắt đào tạo và xác nhận được hiển thị trong
hiển thị các biến được bao gồm trong các tập hợp con. Trong Hình
Hình 10.41. Chúng tôi thấy rằng tất cả các trường hợp đều được
10.40, chúng ta có tập con tốt nhất của một biến (cộng với hằng
phân loại chính xác cho dữ liệu đào tạo và có tỷ lệ lỗi trên tất
số), cho đến tập con tốt nhất cho cả năm biến
cả là 10% đối với dữ liệu xác thực.
Machine Translated by Google
330
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.37
Hộp thoại hồi quy logistic,
Bước 2
Hình 10.38
Hồi quy logistic tốt nhất
Hộp thoại lựa chọn tập hợp con
Hình 10.39
Hộp thoại hồi quy logistic,
Bước 3
VÍ DỤ 10.15 Sử dụng hồi quy logistic để phân loại dữ liệu mới
Chúng tôi sử dụng cơ sở dữ liệu Mã hóa quyết định phê duyệt
Thông tin trong hộp thoại Khớp (các) biến có cùng tên phải
tín dụng có chứa dữ liệu mới. Đầu tiên, phân vùng dữ liệu hoặc
giống như trong các ví dụ trước (xem Hình 10.28). Sau khi
sử dụng trang tính phân vùng dữ liệu hiện có đã được phân
bạn quay lại hộp thoại Bước 3, bấm Kết thúc. XLMiner tạo một
tích trong ví dụ trước. Trong Bước 3 của quy trình hồi quy
trang tính mới có tên là LR_NewScore được hiển thị trong
logistic (xem Hình 10.39), nhấp vào Trong trang tính trong
Hình 10.42 cung cấp phân loại dự đoán cho mỗi bản ghi mới.
ngăn Dữ liệu mới của hộp thoại.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
331
Hình 10.40
Mô hình hồi quy logistic và đầu ra tập hợp con tốt nhất
Hình 10.41
Hồi quy logistic
Dữ liệu đào tạo và xác nhận
tóm tắt
Khai thác quy tắc hiệp hội
Khai thác quy tắc kết hợp, thường được gọi là phân tích mối quan hệ, tìm cách phát hiện ra các mối
quan hệ thú vị như các mối quan hệ xã hội và/hoặc tương quan giữa các tập hợp dữ liệu lớn. Các quy tắc
kết hợp xác định các thuộc tính xuất hiện thường xuyên cùng nhau trong một tập dữ liệu nhất định. Một ví
dụ điển hình và được sử dụng rộng rãi về khai phá luật kết hợp là phân tích rổ thị trường. Ví dụ, các
siêu thị thường xuyên thu thập dữ liệu bằng máy quét mã vạch. Mỗi bản ghi liệt kê tất cả các mặt hàng đã mua
Machine Translated by Google
332
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.42
Hồi quy logistic
Phân loại mới
Dữ liệu
bởi một khách hàng cho một giao dịch mua một lần. Cơ sở dữ liệu như vậy bao gồm một số
lượng lớn các hồ sơ giao dịch. Các nhà quản lý sẽ muốn biết liệu một số nhóm mặt hàng
nhất định có được mua cùng nhau một cách nhất quán hay không. Họ có thể sử dụng những dữ
liệu này để điều chỉnh bố cục cửa hàng (đặt các mặt hàng một cách tối ưu so với nhau), để
bán chéo, khuyến mãi, thiết kế danh mục và để xác định phân khúc khách hàng dựa trên các
kiểu mua hàng. Ví dụ, khai thác quy tắc kết hợp là cách các công ty như Netflix và
Amazon.com đưa ra đề xuất dựa trên các lần thuê phim hoặc mua hàng trước đây.
VÍ DỤ 10.16 Cấu hình máy tính tùy chỉnh
Hình 10.43 cho thấy một phần của dữ liệu mua máy PC trong tệp
lựa chọn. Nếu nhà sản xuất có thể hiểu rõ hơn những loại linh
Excel. Dữ liệu đại diện cho các cấu hình cho một số lượng nhỏ
kiện nào thường được đặt hàng cùng nhau, thì nhà sản xuất có
đơn đặt hàng máy tính xách tay được đặt qua Web.
thể tăng tốc quá trình lắp ráp cuối cùng bằng cách đặt máy tính
Các tùy chọn chính mà khách hàng có thể chọn là loại bộ xử lý,
xách tay đã hoàn thiện một phần với các tổ hợp linh kiện phổ
kích thước màn hình, bộ nhớ và ổ cứng. “1” có nghĩa là một khách
biến nhất được định cấu hình trước khi đặt hàng, nhờ đó giảm
hàng đã chọn một
thời gian giao hàng và cải thiện sự hài lòng của khách hàng.
Hình 10.43
Một phần dữ liệu mua máy tính tệp Excel
Machine Translated by Google
333
Chương 10 Giới thiệu về khai thác dữ liệu
Các luật kết hợp cung cấp thông tin dưới dạng câu lệnh if-then. Các quy tắc này được
tính toán từ dữ liệu, nhưng không giống như các quy tắc logic nếu-thì, các quy tắc kết
hợp có bản chất xác suất. Trong phân tích liên kết, tiền đề (phần “nếu”) và hệ quả (phần
“thì”) là các tập hợp các phần tử (được gọi là các tập phần tử) rời rạc (không có bất kỳ
phần tử chung nào).
Để đo độ mạnh của liên kết, một luật kết hợp có hai con số thể hiện mức độ không chắc
chắn của luật. Số đầu tiên được gọi là độ hỗ trợ cho quy tắc (kết hợp). Độ hỗ trợ chỉ
đơn giản là số lượng giao dịch bao gồm tất cả các mục trong các phần trước và sau của
quy tắc. (Độ hỗ trợ đôi khi được biểu thị bằng tỷ lệ phần trăm của tổng số bản ghi trong
cơ sở dữ liệu.) Một cách nghĩ về độ hỗ trợ là xác suất mà một giao dịch được chọn ngẫu
nhiên từ cơ sở dữ liệu sẽ chứa tất cả các mục trong tiền đề và hậu quả. . Số thứ hai là
độ tin cậy của quy tắc (hiệp hội). Độ tin cậy là tỷ lệ giữa số lượng giao dịch bao gồm
tất cả các mục trong phần hậu quả cũng như phần trước (cụ thể là hỗ trợ) với số lượng
giao dịch bao gồm tất cả các phần tử trong phần trước. Độ tin cậy là xác suất có điều
kiện mà một giao dịch được chọn ngẫu nhiên sẽ bao gồm tất cả các mục trong hệ quả nếu
giao dịch đó bao gồm tất cả các mục trong tiền đề:
độ tin cậy P (tiền đề hệ quả)
P1 tiền đề và hậu quả2
P1tiền thân2
(10,5)
Độ tin cậy càng cao, chúng ta càng tin rằng luật kết hợp cung cấp thông tin hữu ích.
Một thước đo khác về sức mạnh của luật kết hợp là độ nâng, được định nghĩa là tỷ
lệ giữa độ tin cậy và độ tin cậy dự kiến. Độ tin cậy kỳ vọng là số lượng giao dịch bao
gồm hệ quả chia cho tổng số lượng giao dịch. Độ tin cậy kỳ vọng giả định sự độc lập giữa
hệ quả và tiền đề. Thang máy cung cấp thông tin về sự gia tăng xác suất của thì (hậu quả)
cho phần if (tiền đề). Tỷ lệ thang máy càng cao, quy tắc kết hợp càng mạnh; một giá trị
lớn hơn 1,0 thường là một mức tối thiểu tốt.
VÍ DỤ 10.17 Đo lường Độ bền của Liên kết
Giả sử rằng một cơ sở dữ liệu siêu thị có 100.000 giao dịch
800 giao dịch (tương đương 0,8% = 800 100.000) và độ tin
tại điểm bán hàng, trong đó 2.000 giao dịch bao gồm cả mặt
cậy là 40% (= 800 2.000). Giả sử tổng số giao dịch của C là
hàng A và B và 800 giao dịch trong số này bao gồm mặt hàng
5.000. Khi đó, độ tin cậy kỳ vọng là 5.000 100.000 = 5% và độ
C. Quy tắc kết hợp “Nếu A và B được mua theo đuổi, thì C
nâng = độ tin cậy Độ tin cậy kỳ vọng = 40% 5% = 8.
cũng được mua ” có sự hỗ trợ của
Tiếp theo, chúng tôi minh họa cách XLMiner được sử dụng cho dữ liệu mua PC.
Machine Translated by Google
334
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.44
Hộp thoại quy tắc hiệp hội
VÍ DỤ 10.18 Xác định quy tắc kết hợp cho dữ liệu mua máy tính
Trong XLMiner, chọn Quy tắc kết hợp từ menu Liên kết trong
các giá trị sẽ dẫn đến nhiều quy tắc có thể khó diễn giải.
nhóm Khai thác dữ liệu. Trong hộp thoại được hiển thị trong
Chúng tôi đã chọn 80%.
Hình 10.44, chỉ định phạm vi dữ liệu sẽ được xử lý, định
dạng dữ liệu đầu vào mong muốn và các yêu cầu của bạn về mức
Hình 10.45 cho thấy kết quả. Quy tắc 1 quy định rằng nếu
khách hàng mua màn hình 15 inch với bộ xử lý Intel Core i7,
độ hỗ trợ và quy tắc tin cậy phải được báo cáo.
thì ổ cứng 750 GB cũng được mua. Nếu bạn bấm vào bất kỳ đâu
Hai tùy chọn đầu vào có sẵn:
trong hàng cho một quy tắc, quy tắc đó sẽ được hiển thị
1. Dữ liệu ở định dạng ma trận nhị phân: Chọn tùy chọn này
nếu mỗi cột trong dữ liệu đại diện cho một mục riêng
biệt và dữ liệu được biểu thị bằng 0 và 1. Tất cả các
giá trị khác không được coi là 1 giây. Số 0 dưới tên
biến có nghĩa là mặt hàng đó không có trong giao dịch đó
và số 1 có nghĩa là mặt hàng đó có mặt.
2. Dữ liệu ở định dạng danh sách mặt hàng: Chọn tùy chọn này nếu mỗi
hàng dữ liệu bao gồm mã mặt hàng hoặc tên có mặt trong
giao dịch đó.
Trong ngăn Tham số, hãy chỉ định số lượng giao dịch tối
thiểu mà một bộ mục cụ thể phải xuất hiện để đủ điều kiện đưa
trong hộp phía trên bảng, như trong Hình 10.46.
Quy tắc cụ thể này có độ tin cậy 100%, nghĩa là những
người đã mua màn hình 15 inch và bộ xử lý core i7, tất cả
(100%) đều mua ổ cứng 750 GB. Giá trị trong cột Hỗ trợ (a) cho
biết nó hỗ trợ 5 giao dịch, nghĩa là 5 khách hàng đã mua màn
hình 15 inch và bộ xử lý core i7. Giá trị trong cột Hỗ trợ
(c) cho biết tổng số giao dịch liên quan đến việc mua quyền
chọn.
Giá trị trong cột Hỗ trợ 1a h c2 là số lượng giao dịch trong
đó màn hình 15 inch, Intel Core i7 và ổ cứng 750 GB đã được
vào quy tắc kết hợp trong trường Hỗ trợ tối thiểu (# giao
đặt hàng. Giá trị trong cột Tỷ lệ nâng cho biết khả năng chúng
dịch). Đối với tập dữ liệu nhỏ, như trong ví dụ này, chúng
tôi gặp phải giao dịch 750 GB cao hơn bao nhiêu nếu chúng
tôi đặt số này là 5. Trong trường Độ tin cậy tối thiểu (%) ,
tôi chỉ xem xét những giao dịch mua màn hình 15 inch và Intel
chỉ định ngưỡng độ tin cậy tối thiểu để tạo quy tắc. Nếu giá
Core i7, so với toàn bộ giao dịch.
trị này được đặt quá cao, thuật toán có thể không tìm thấy
bất kỳ luật kết hợp nào; thấp
Mô hình nhân quả
Các nhà quản lý luôn quan tâm đến kết quả, chẳng hạn như lợi nhuận, sự hài lòng và giữ chân
khách hàng, năng suất sản xuất, v.v. Các thước đo hoặc kết quả trễ cho biết điều gì đã xảy ra
và thường là kết quả kinh doanh bên ngoài, chẳng hạn như lợi nhuận, thị phần hoặc mức độ hài
lòng của khách hàng. Các thước đo hàng đầu (trình điều khiển hiệu suất) dự đoán điều gì sẽ xảy
ra và thường là các thước đo nội bộ, chẳng hạn như sự hài lòng của nhân viên, năng suất, doanh thu, v.v.
Machine Translated by Google
Chương 10 Giới thiệu về khai thác dữ liệu
335
Hình 10.45
Kết quả Hiệp hội cho PC
Dữ liệu mua hàng
Hình 10.46
Hiển thị Quy tắc #1
Ví dụ, kết quả hài lòng của khách hàng liên quan đến giao dịch bán hàng hoặc dịch vụ sẽ là thước đo
trễ; sự hài lòng của nhân viên, hành vi của đại diện bán hàng, tính chính xác của hóa đơn, v.v., sẽ
là những ví dụ về các thước đo hàng đầu có thể ảnh hưởng đến sự hài lòng của khách hàng. Nếu nhân
viên không hài lòng, hành vi của họ đối với khách hàng có thể bị ảnh hưởng tiêu cực và sự hài lòng
của khách hàng có thể thấp. Nếu điều này có thể được giải thích bằng cách sử dụng phân tích kinh
doanh, các nhà quản lý có thể thực hiện các bước để cải thiện sự hài lòng của nhân viên, dẫn đến sự
hài lòng của khách hàng được cải thiện. Do đó, điều quan trọng là phải hiểu những yếu tố có thể kiểm
soát nào ảnh hưởng đáng kể đến các biện pháp đo lường hiệu quả kinh doanh chính mà các nhà quản lý
không thể kiểm soát trực tiếp. Phân tích tương quan có thể giúp xác định những ảnh hưởng này và
dẫn đến sự phát triển của các mô hình nguyên nhân và kết quả có thể giúp các nhà quản lý đưa ra quyết
định tốt hơn hôm nay sẽ ảnh hưởng đến kết quả vào ngày mai.
Nhớ lại ở Chương 4 rằng tương quan là thước đo mối quan hệ tuyến tính giữa hai
biến. Giá trị cao của hệ số tương quan cho thấy mối quan hệ chặt chẽ giữa các biến.
Ví dụ sau đây cho thấy mối tương quan có thể hữu ích như thế nào trong mô hình
nguyên nhân và kết quả.
Machine Translated by Google
336
Chương 10 Giới thiệu về khai thác dữ liệu
VÍ DỤ 10.19 Sử dụng mối tương quan cho mô hình nguyên nhân và kết quả
Tệp Excel Khảo sát 10 năm cho thấy kết quả của 40 cuộc khảo sát
sự hài lòng của nhân viên với người giám sát của họ, và nhận
hàng quý được thực hiện bởi một nhà sản xuất thiết bị điện tử
thức của nhân viên về đào tạo và nâng cao kỹ năng.
lớn, một phần trong số đó được thể hiện trong Hình 10.47.6 . phe
hài lòng của nhân viên, sự hài lòng của nhân viên trong công việc,
Mặc dù phân tích tương quan không chứng minh được bất kỳ
nguyên nhân và kết quả nào, nhưng chúng ta có thể suy luận một
sự hài lòng của nhân viên với người giám sát của họ, và nhận thức
cách logic rằng có tồn tại mối quan hệ nhân quả. Dữ liệu chỉ ra
của nhân viên về đào tạo và nâng cao kỹ năng. Hình 10.48 cho thấy
rằng sự hài lòng của khách hàng, kết quả kinh doanh bên ngoài quan
ma trận tương quan. Tất cả các mối tương quan ngoại trừ mối
trọng, bị ảnh hưởng mạnh mẽ bởi các yếu tố bên trong thúc đẩy sự
tương quan giữa sự hài lòng trong công việc và sự hài lòng của
hài lòng của nhân viên. Về mặt logic, chúng ta có thể đề xuất mô
khách hàng đều tương đối mạnh, với mối tương quan cao nhất giữa
hình như trong Hình 10.49. Điều này cho thấy rằng nếu các nhà
sự hài lòng của nhân viên nói chung và sự hài lòng trong công việc
quản lý muốn cải thiện sự hài lòng của khách hàng, họ cần bắt
của nhân viên,
đầu bằng việc đảm bảo mối quan hệ tốt giữa người giám sát và
nhân viên của họ, đồng thời tập trung vào việc cải thiện đào tạo và kỹ năng.
Hình 10.47
Một phần dữ liệu khảo sát mười năm
Hình 10.48
Ma trận tương quan của dữ liệu khảo sát mười năm
6Dựa trên mô tả về một ứng dụng thực tế của Steven H. Hoisington và Tse-His Huang, “Customer Satisfaction
and Market Share: An Empirical Case Study of IBM's AS/400 Division,” trong Earl Naumann và Steven H.
Hoisington (eds.) Six Sigma lấy khách hàng làm trung tâm (Milwaukee, WI: ASQ Quality Press, 2001). Tuy
nhiên, dữ liệu được sử dụng trong ví dụ này là hư cấu.
Machine Translated by Google
337
Chương 10 Giới thiệu về khai thác dữ liệu
Hình 10.49
Sự thoả mãn với
Người giám sát
Mô hình nhân quả
Người lao động
Công việc
Sự hài lòng
Sự hài lòng
Khách hàng
Sự hài lòng
Đào tạo và Kỹ năng
Sự cải tiến
Phân tích trong thực tế: Các ứng dụng kinh doanh thành công
khai thác dữ liệu7
Nhiều công ty đã triển khai khai thác dữ liệu thành
công. Mặc dù những người sớm chấp nhận công nghệ này
có xu hướng tham gia vào các ngành sử dụng nhiều thông
tin như dịch vụ tài chính và tiếp thị qua thư trực tiếp,
khai thác dữ liệu đã tìm thấy ứng dụng trong bất kỳ công
ty nào muốn tận dụng kho dữ liệu lớn để quản lý tốt hơn
các mối quan hệ khách hàng của họ.
Hai yếu tố quan trọng để thành công với khai thác dữ
liệu là kho dữ liệu lớn, được tích hợp tốt và hiểu biết
rõ ràng về quy trình kinh doanh áp dụng khai thác dữ liệu
Hector
Almeida/
Shutterstock.com
(chẳng hạn như tìm kiếm khách hàng tiềm năng, giữ chân
khách hàng, quản lý chiến dịch, v.v.).
Một số lĩnh vực ứng dụng thành công của khai thác dữ
liệu bao gồm:
Một công ty dược phẩm phân tích hoạt động của lực
trong toàn tổ chức để được áp dụng trong các
lượng bán hàng gần đây và sử dụng kết quả của họ
tình huống bán hàng cụ thể.
để cải thiện việc nhắm mục tiêu các bác sĩ có
Một công ty thẻ tín dụng tận dụng kho dữ liệu
giá trị cao và xác định hoạt động tiếp thị nào sẽ
giao dịch khách hàng khổng lồ của mình để xác
có tác động lớn nhất trong tương lai gần. Các
định những khách hàng có nhiều khả năng quan tâm
kết quả được phân phối cho lực lượng bán hàng
đến một sản phẩm tín dụng mới. Bằng cách gửi
thông qua một mạng diện rộng cho phép những người
thư thử nghiệm nhỏ, các thuộc tính của khách
đại diện xem xét các khuyến nghị từ quan điểm của
hàng có thiện cảm với sản phẩm được xác định. Các dự
các thuộc tính quan trọng trong quá trình quyết
án gần đây đã chỉ ra rằng chi phí cho các chiến
định. Phân tích động, liên tục của kho dữ liệu cho
dịch gửi thư mục tiêu đã giảm hơn 20 lần so với
phép thực hành tốt nhất từ
các phương pháp truyền thống.
(còn tiếp)
7Dựa trên Kurt Thearling, “Giới thiệu về khai thác dữ liệu,” Sách trắng từ Thearling.com.
http://www.tearling.com/text/dmwhite/dmwhite.htm.
Machine Translated by Google
338
Chương 10 Giới thiệu về khai thác dữ liệu
Một công ty vận tải đa ngành với lực lượng bán hàng trực
các lô hàng và hoạt động của đối thủ cạnh tranh được sử
tiếp lớn sử dụng khai thác dữ liệu để xác định triển vọng tốt
dụng để hiểu lý do chuyển đổi thương hiệu và cửa hàng.
nhất cho các dịch vụ của mình. Sử dụng khai thác dữ liệu để
Thông qua phân tích này, nhà sản xuất có thể lựa chọn các
phân tích trải nghiệm khách hàng của chính mình, công ty này
chiến lược quảng cáo tiếp cận tốt nhất các phân khúc khách hàng
xây dựng một phân khúc duy nhất xác định các thuộc tính của
mục tiêu của họ.
khách hàng tiềm năng có giá trị cao.
Áp dụng cách phân khúc này vào cơ sở dữ liệu kinh doanh chung
Trong mỗi ví dụ này, các công ty đã tận dụng kiến thức của họ về khách
chẳng hạn như cơ sở dữ liệu do Dun & Bradstreet cung
hàng để giảm chi phí và nâng cao giá trị của các mối quan hệ khách
cấp có thể tạo ra danh sách khách hàng tiềm năng được ưu tiên
hàng. Giờ đây, các tổ chức này có thể tập trung nỗ lực vào những
theo khu vực.
khách hàng và khách hàng tiềm năng quan trọng nhất (có lợi nhuận),
Một công ty hàng tiêu dùng đóng gói lớn áp dụng khai
đồng thời thiết kế các chiến lược tiếp thị mục tiêu để tiếp cận họ
thác dữ liệu để cải thiện quy trình bán hàng của mình
một cách tốt nhất.
cho các nhà bán lẻ. Dữ liệu từ bảng người tiêu dùng,
Điều khoản quan trọng
Phương pháp phân cụm kết tụ
thuật toán k-hàng xóm gần nhất (k-NN)
Khai phá luật kết hợp
biện pháp tụt hậu
Phân cụm liên kết nhóm trung bình
Các biện pháp hàng đầu
Cụm liên kết trung bình
Thang máy
Boxplot
Hồi quy logistic
ma trận phân loại
Nhật ký
Phân tích cluster
Phân tích rổ thị trường
Hoàn thành cụm liên kết
tỷ lệ cược
Độ tin cậy của quy tắc (hiệp hội)
Biểu đồ tọa độ song song
Khai thác dữ liệu
Ma trận biểu đồ phân tán
biểu đồ
Cụm liên kết đơn
phân tích biệt thức
Hỗ trợ cho quy tắc (hiệp hội)
chức năng phân biệt
Tập dữ liệu huấn luyện
Phương pháp phân cụm chia
Tập dữ liệu xác thực
khoảng cách Euclide
cốt truyện biến
phân cụm theo thứ bậc
Phân cụm theo thứ bậc của Ward
vấn đề và bài tập
1. Sử dụng XLMiner để tạo một mẫu ngẫu nhiên đơn giản gồm 10 bản
ghi từ Dữ liệu ngân hàng tệp Excel.
2. Sử dụng file Excel Banking Data.
3. Xây dựng biểu đồ tọa độ song song cho Thu nhập trung bình, Giá
trị nhà trung bình, Tài sản hộ gia đình trung bình và Số dư
ngân hàng trung bình trong Dữ liệu ngân hàng tệp Excel. Bạn có
thể rút ra kết luận gì?
Một. Xây dựng một biểu đồ hộp cho Thu nhập trung bình, Giá trị
nhà trung bình, Tài sản hộ gia đình trung bình và Số dư
ngân hàng trung bình.
b. Bạn có thể quan sát những gì về những
dữ liệu?
4. Xây dựng ma trận biểu đồ phân tán cho Thu nhập trung bình, Giá
trị nhà trung bình, Tài sản hộ gia đình trung bình và Số dư
ngân hàng trung bình trong Dữ liệu ngân hàng tệp Excel. Bạn có
thể rút ra kết luận gì?
Machine Translated by Google
339
Chương 10 Giới thiệu về khai thác dữ liệu
5. Xây dựng biểu đồ biến cho tất cả các biến trong tệp Excel
Banking Data.
6. Tính khoảng cách Euclide giữa các
chỉ điểm tín dụng và số năm lịch sử tín dụng là biến đầu
vào.
16. Tệp Excel Dữ liệu rủi ro tín dụng cung cấp cơ sở dữ liệu
ing tập hợp các điểm:
thông tin về các đơn xin vay cùng với phân loại rủi ro tín
Một. (2,5) và (8,4)
dụng trong cột L. Chuyển đổi dữ liệu phân loại thành mã số
b. 12, -1, 32 và 18, 15, -52
7. Đối với tệp Excel Cao đẳng và Đại học, chuẩn hóa kích
phù hợp.
Lấy mẫu 200 bản ghi từ tập dữ liệu. Sau đó áp dụng thuật
toán k-NN để phân loại tập dữ liệu huấn luyện và xác thực
thước từng cột của dữ liệu số (nghĩa là tính điểm z cho
cũng như dữ liệu bổ sung trong tệp. Tóm tắt những phát
từng giá trị) rồi tính khoảng cách Euclide giữa các trường
hiện của bạn.
sau: Amherst, Cal Tech và Duke .
17. Tệp Excel Dữ liệu rủi ro tín dụng cung cấp cơ sở dữ liệu
thông tin về các đơn xin vay cùng với phân loại rủi ro tín
8. Đối với bốn cụm được xác định trong Ví dụ 10.6, hãy tìm
giá trị trung bình và độ lệch chuẩn của mỗi biến số đối
dụng trong cột L. Chuyển đổi dữ liệu phân loại thành mã số
phù hợp.
với các trường trong mỗi cụm và so sánh chúng với giá
Lấy mẫu 200 bản ghi từ tập dữ liệu. Sau đó áp dụng phân
trị trung bình và độ lệch chuẩn của toàn bộ tập dữ liệu.
tích phân biệt để phân loại tập dữ liệu huấn luyện và xác
Việc phân cụm có cho thấy sự khác biệt rõ rệt giữa các
thực cũng như dữ liệu mới trong tệp. Tóm tắt những phát
cụm không?
hiện của bạn.
9. Đối với dữ liệu Cao đẳng và Đại học, hãy sử dụng XLMiner
18. Tệp Excel Dữ liệu Rủi ro Tín dụng cung cấp cơ sở dữ liệu
để tìm bốn cụm bằng cách sử dụng từng phương pháp phân
thông tin về các đơn xin vay, cùng với phân loại rủi ro
cụm khác (xem Hình 10.13); so sánh kết quả với Ví dụ 10.6.
tín dụng trong cột L. Chuyển đổi dữ liệu phân loại thành
mã số phù hợp.
10. Áp dụng phân tích cụm cho dữ liệu số trong tệp Excel Quyết
định phê duyệt tín dụng. Phân tích các cụm và xác định xem
Sau đó, áp dụng hồi quy logistic để phân loại tập dữ liệu
đào tạo và xác thực cũng như dữ liệu mới trong tệp.
Tóm tắt những phát hiện của bạn.
phân tích cụm có phải là một phương pháp phân loại hữu
ích để phê duyệt hoặc từ chối các đơn xin vay hay không.
19. Đối với Dữ liệu mua PC, hãy xác định các quy tắc kết hợp
với các tham số đầu vào sau cho XLMiner
11. Áp dụng phân tích cụm cho Dữ liệu bán hàng tệp Excel, sử
dụng các biến đầu vào Phần trăm lợi nhuận gộp, Mã ngành và
Quy trình quy tắc kết hợp:
Một. hỗ trợ 3; tự tin 90,
Xếp hạng cạnh tranh. Tạo bốn cụm và rút ra kết luận về các
b. hỗ trợ 7; tự tin 90,
nhóm.
c. hỗ trợ 3; tự tin 70,
12. Nhóm các bản ghi trong Khảo sát Mười Năm của tệp Excel.
Tạo tối đa năm cụm và phân tích kết quả để đưa ra kết luận
đ. hỗ trợ 7; tự tin 70,
So sánh kết quả của bạn với kết quả trong Ví dụ 10.18.
về cuộc khảo sát.
13. Sử dụng thuật toán k-NN để phân loại dữ liệu mới trong tệp
Excel Quyết định phê duyệt tín dụng Được mã hóa chỉ sử
dụng điểm tín dụng và số năm lịch sử tín dụng làm biến đầu vào.
14. Sử dụng phân tích phân biệt để phân loại dữ liệu mới trong
20. Tệp Excel Tùy chọn ô tô cung cấp dữ liệu về các tùy chọn
được sắp xếp cùng nhau cho một kiểu xe ô tô cụ thể. Phát
triển phân tích rổ thị trường bằng quy trình quy tắc kết
hợp XLMiner với các tham số đầu vào hỗ trợ 6 và độ tin cậy
80.
tệp Excel Quyết định phê duyệt tín dụng được mã hóa
chỉ sử dụng điểm tín dụng và số năm lịch sử tín dụng làm
biến đầu vào.
15. Sử dụng hồi quy logistic để phân loại dữ liệu mới trong tệp
Excel Quyết định phê duyệt tín dụng Được mã hóa bằng cách sử dụng
21. Tệp Excel Myatt Steak House cung cấp dữ liệu trong 5 năm về
kết quả kinh doanh chính của một nhà hàng. Xác định các
biện pháp dẫn đầu và tụt hậu, tìm ma trận tương quan và
đề xuất mô hình nguyên nhân và kết quả bằng cách sử dụng
các mối tương quan mạnh nhất.
Machine Translated by Google
340
Chương 10 Giới thiệu về khai thác dữ liệu
Trường hợp: Hiệu suất Lawn Thiết bị
Bảng tính Khảo sát mua hàng trong cơ sở dữ liệu Performance Lawn
Mức độ sử dụng—bao nhiêu trong tổng số sản phẩm của công ty
Care cung cấp dữ liệu liên quan đến dự đoán mức độ kinh doanh
được mua từ PLE, được đo trên thang điểm 100, dao động từ 0%
(Mức độ sử dụng) thu được từ cuộc khảo sát của bên thứ ba đối
đến 100%
với người quản lý mua hàng của khách hàng Performance Lawn
Care.8 Bảy thuộc tính PLE được đánh giá bởi mỗi người trả lời là
Mức độ hài lòng—mức độ hài lòng của người mua với các giao
dịch mua trước đây từ PLE, được đo trên cùng thang đánh giá đồ
họa như nhận thức từ 1 đến 7
Tốc độ giao hàng—khoảng thời gian cần thiết để giao sản phẩm
sau khi đơn hàng được xác nhận
Dữ liệu cũng bao gồm bốn đặc điểm của các công ty phản hồi:
Mức giá—mức giá được cảm nhận bởi
làm ơn
Tính linh hoạt về giá—sự sẵn sàng nhận thức của các đại diện
PLE để thương lượng giá đối với tất cả các loại mua hàng
Hình ảnh nhà sản xuất—hình ảnh tổng thể của nhà sản xuất
Quy mô của công ty—quy mô tương đối so với các công ty khác trên thị
(0
bé nhỏ; 1
trường lớn)
Cơ cấu mua hàng—phương pháp mua hàng được sử dụng trong
một công ty cụ thể (1 mua sắm tập trung, 0
mua sắm phi tập trung)
Ngành—phân loại ngành của tư nhân người mua
Dịch vụ tổng thể—mức độ dịch vụ tổng thể cần thiết để duy
trì mối quan hệ hài lòng giữa
PLE và người mua
Hình ảnh lực lượng bán hàng—hình ảnh tổng thể về lực lượng bán
[1 bán lẻ (bán lại chẳng hạn như Home Depot), 0 (không
bán lại, chẳng hạn như nhà làm vườn)]
Loại mua—một biến có ba loại (1 lần mua mới, 2 lần mua lại
có điều chỉnh, 3 lần mua lại liên tiếp)
hàng của PLE
Chất lượng sản phẩm - mức chất lượng cảm nhận
Các câu trả lời cho bảy biến số này đã thu được bằng cách
Elizabeth Burke muốn hiểu những gì cô ấy học được từ những
dữ liệu này. Áp dụng các kỹ thuật khai thác dữ liệu thích hợp để
sử dụng thang xếp hạng đồ họa, trong đó một đường thẳng 10 cm
phân tích dữ liệu. Ví dụ, PLE có thể phân chia khách hàng thành
được vẽ giữa các điểm cuối có nhãn “kém” và “xuất sắc”.
các nhóm có nhận thức tương tự về công ty không? Các mô hình
Những người được hỏi cho biết nhận thức của họ bằng cách đánh
nguyên nhân và kết quả có thể cung cấp cái nhìn sâu sắc về các
dấu trên đường thẳng, được đo từ điểm cuối bên trái. Kết quả
yếu tố thúc đẩy sự hài lòng và mức độ sử dụng không?
là thang điểm từ 0 đến 10 được làm tròn đến một chữ số thập phân.
Tóm tắt kết quả của bạn trong một báo cáo cho cô Burke.
Hai biện pháp đã thu được phản ánh kết quả của mối quan
hệ mua hàng của người trả lời với PLE:
8Dữ liệu và mô tả về trường hợp này dựa trên ví dụ về HATCO ở trang 28–29 trong Joseph F. Hair, Jr., Rolph E. Anderson, Ronald L.
Tatham, và William C. Black, Multivariate Analysis, 5th ed. (Sông Thượng Saddle, NJ: Prentice Hall, 1998).
Machine Translated by Google
Lập mô hình và phân
tích bảng tính
CHƯƠNG
Rufous/Shutterstock.com
Mục tiêu học tập
Trình quản lý kịch bản
Tìm kiếm mục tiêu
phân tích
Nền tảng bộ giải
341
Machine Translated by Google
342
chương 11
muộn
Các chiến lược cho mô hình quyết định dự đoán
Xây dựng các mô hình quyết định là một nghệ thuật hơn là khoa học. Việc tạo ra các mô hình quyết định
tốt đòi hỏi sự hiểu biết vững chắc về các nguyên tắc kinh doanh cơ bản trong tất cả các lĩnh vực chức
năng, chẳng hạn như kế toán, tài chính, tiếp thị và vận hành, kiến thức về nghiên cứu và thực hành
kinh doanh cũng như các kỹ năng logic. Các mô hình thường phát triển từ đơn giản đến phức tạp và
từ tất định đến ngẫu nhiên (xem các định nghĩa trong Chương 1), do đó, tốt nhất là bắt đầu các mô
hình đơn giản và làm phong phú thêm khi cần thiết.
Xây dựng mô hình sử dụng toán học đơn giản
Đôi khi, một phép tính “sơ bộ” đơn giản có thể giúp các nhà quản lý đưa ra quyết định
tốt hơn và dẫn đến sự phát triển của các mô hình hữu ích.
VÍ DỤ 11.1 Giá trị kinh tế của một khách hàng
Rất ít công ty dành thời gian để ước tính giá trị của một
lợi nhuận sẽ là ($50)(6)(.40) = $120. Nếu 30% khách hàng
khách hàng tốt (và thường tốn ít công sức để giữ chân họ).
không quay lại mỗi năm, thì tuổi thọ trung bình của một khách
Giả sử rằng một khách hàng tại một nhà hàng chi trung bình 50
hàng là 1 0,3 = 3,33 năm. Do đó, lợi nhuận gộp chưa chiết
đô la cho mỗi lần ghé thăm và đến sáu lần mỗi năm.
khấu trung bình trong suốt thời gian tồn tại của khách hàng
Giả sử rằng nhà hàng nhận được lợi nhuận 40% trên hóa đơn
là $120(3,33) = $400.
trung bình cho thực phẩm và đồ uống, thì tổng doanh thu của họ
Machine Translated by Google
343
chương 11
Mặc dù ví dụ này đã tính toán giá trị kinh tế của một khách hàng cho một tình huống cụ thể,
nhưng những gì chúng tôi thực sự đã làm là tạo tiền đề cho việc xây dựng một mô hình quyết
định chung. Giả sử chúng ta định nghĩa các biến sau:
Doanh thu R trên mỗi lần mua
F tần suất mua theo số lượng mỗi năm (ví dụ: nếu khách hàng mua một lần
1
2
cứ sau 2 năm, thì F
0,5)
Tỷ suất lợi nhuận gộp M (được biểu thị dưới dạng phân số)
Tỷ lệ đào tẩu D (tỷ lệ khách hàng đào tẩu mỗi năm)
Khi đó, giá trị của một khách hàng trung thành, V, sẽ là
V
R * F * M
(11.1)
Đ.
Trong ví dụ trước, R +50, F 6, M 0,4 và D 0,3. Chúng ta có thể sử dụng mô hình này để đánh giá
các kịch bản khác nhau một cách có hệ thống.
Xây dựng mô hình sử dụng biểu đồ ảnh hưởng
Mặc dù có thể dễ dàng phát triển một mô hình từ các phép tính số đơn giản, nhưng như chúng
tôi đã minh họa trong ví dụ trước, hầu hết việc phát triển mô hình đều yêu cầu một cách tiếp
cận chính thức hơn. Biểu đồ ảnh hưởng đã được giới thiệu trong Chương 1, và là biểu diễn hợp
lý và trực quan về các mối quan hệ chính của mô hình, có thể được sử dụng làm cơ sở để phát
triển mô hình quyết định toán học.
VÍ DỤ 11.2 Phát triển Mô hình Quyết định Sử dụng Biểu đồ Ảnh hưởng
Chúng tôi sẽ phát triển một mô hình quyết định để dự đoán lợi nhuận
khi đối mặt với nhu cầu không chắc chắn trong tương lai. Để giúp
phát triển mô hình, chúng tôi sử dụng cách tiếp cận sơ đồ ảnh
hưởng. Chúng ta đều biết rằng lợi nhuận = doanh thu - chi phí. Sử
S = số lượng bán
Q = số lượng sản xuất
D = nhu cầu
dụng một chút logic “Kinh doanh 101”, doanh thu phụ thuộc vào đơn
Đầu tiên, lưu ý rằng chi phí bao gồm chi phí cố định (F ) cộng
giá và số lượng bán ra, còn chi phí phụ thuộc vào đơn giá, số
với chi phí biến đổi để sản xuất Q đơn vị (cQ):
lượng sản xuất và chi phí sản xuất cố định. Tuy nhiên, nếu nhu
C = F + cQ
cầu không chắc chắn, thì số lượng sản xuất có thể ít hơn hoặc lớn
hơn nhu cầu thực tế. Như vậy, số lượng bán ra phụ thuộc vào cả
Tiếp theo, doanh thu bằng đơn giá (p) nhân với số lượng
nhu cầu và số lượng sản xuất. Đặt những dữ kiện này lại với nhau,
bán (S):
chúng ta có thể xây dựng biểu đồ ảnh hưởng như trong Hình 11.1.
Bước tiếp theo là chuyển biểu đồ ảnh hưởng thành một
mô hình chính thức hơn. Định nghĩa
P = lợi nhuận
R = doanh thu
C = chi phí
R = pS
Tuy nhiên, số lượng bán phải nhỏ hơn nhu cầu (D) và số
lượng sản xuất (Q), hoặc
S = min5D, Q6
Do đó, R = pS = p*min5D, Q6. Thay những kết quả này vào công thức
cơ bản cho lợi nhuận P = R - C, chúng ta có
p = đơn giá
c = chi phí đơn vị
F = chi phí cố định
P = p*min5D, Q6
(F + cQ)
(11.2)
Machine Translated by Google
344
Chương 11 Lập mô hình và phân tích bảng tính
Hình 11.1
Lợi nhuận
Sự ảnh hưởng
Sơ đồ lợi nhuận
Doanh thu
đơn giá
Trị giá
Số lượng
Số lượng bán
sản xuất
Đơn giá
Chi phí cố định
Yêu cầu
Triển khai mô hình trên bảng tính
Chúng ta có thể áp dụng một cách sáng tạo các công cụ và khả năng khác nhau của Excel để cải thiện cấu
trúc và việc sử dụng các mô hình bảng tính. Trong phần này, chúng tôi thảo luận về các phương pháp để
phát triển các mô hình bảng tính tốt, hữu ích và chính xác. Các ứng dụng phân tích bảng tính tốt cũng
phải thân thiện với người dùng; nghĩa là, phải dễ dàng nhập hoặc thay đổi dữ liệu và xem các kết quả
chính, đặc biệt đối với những người dùng có thể không thành thạo trong việc sử dụng bảng tính. Thiết kế
tốt làm giảm khả năng mắc lỗi và hiểu sai thông tin, dẫn đến các quyết định sáng suốt hơn và kết quả tốt hơn.
Thiết kế bảng tính
Trong Chương 1, Ví dụ 1.7, chúng ta đã phát triển một mô hình quyết định đơn giản cho tình huống
phân tích hòa vốn. Nhớ lại rằng tình huống liên quan đến một nhà sản xuất có thể sản xuất một bộ
phận với giá 125 đô la/đơn vị với chi phí cố định là 50.000 đô la. Giải pháp thay thế là thuê
ngoài sản xuất cho một nhà cung cấp với chi phí đơn vị là $175. Chúng tôi đã phát triển các mô
hình toán học cho tổng chi phí sản xuất và tổng chi phí thuê ngoài như một hàm của khối lượng sản xuất, Q:
TC 1sản xuất2 +50.000 + +125 * Q
TC 1gia công2 +175 * Q
VÍ DỤ 11.3 Mô hình bảng tính cho quyết định thuê ngoài
Hình 11.2 thể hiện bảng tính thực hiện mô hình quyết định thuê
hoặc 0, thì hàm trả về “Sản xuất” là quyết định tốt nhất; nếu
ngoài (file Excel Outsourcing Decision Model). Dữ liệu đầu vào
không nó sẽ trả về "Outsource." Cũng quan sát sự tương ứng
bao gồm các chi phí liên quan đến việc sản xuất sản phẩm trong
giữa bảng tính cho công thức và mô hình toán học:
nhà hoặc mua sản phẩm từ nhà cung cấp bên ngoài và khối lượng
sản xuất. Mô hình tính toán tổng chi phí cho sản xuất và thuê
ngoài. Các đầu ra chính trong mô hình là sự khác biệt trong
các chi phí này và quyết định dẫn đến chi phí thấp nhất. Dữ
TC (sản xuất) = 50.000 USD + 125 USD × Q = B6 + B7*B12
TC (thuê ngoài) = $175 × Q = B12*B10
liệu được xếp hạng rõ ràng từ thành phần mô hình của bảng
Vì vậy, nếu bạn có thể viết một công thức bảng tính, bạn có
tính.
thể phát triển một mô hình toán học bằng cách thay thế các ký
hiệu hoặc số vào các công thức Excel.
Quan sát cách hàm IF được sử dụng trong ô B20 để xác
định quyết định tốt nhất. Nếu chênh lệch chi phí là âm
Machine Translated by Google
345
chương 11
Hình 11.2
Mô hình quyết định thuê ngoài
bảng tính
Vì các mô hình quyết định mô tả mối quan hệ giữa đầu vào và đầu ra, nên việc tách dữ
liệu, tính toán mô hình và đầu ra mô hình một cách rõ ràng khi thiết kế bảng tính là rất
hữu ích. Điều đặc biệt quan trọng là không sử dụng dữ liệu đầu vào trong công thức mô
hình mà phải tham chiếu đến các ô bảng tính chứa dữ liệu. Bằng cách này, nếu dữ liệu thay
đổi hoặc bạn muốn thử nghiệm mô hình, bạn không cần thay đổi bất kỳ công thức nào, điều
này rất dễ dẫn đến sai sót.
VÍ DỤ 11.4 Mô hình bảng quyết định giá
Một mô hình khác mà chúng tôi đã phát triển trong Chương 1 là
mô hình trong đó một công ty muốn xác định mức giá tốt nhất cho
doanh số =
2,9485 × giá + 3.240,9
tổng doanh thu = giá × doanh số
một trong các sản phẩm của mình để tối đa hóa doanh thu. Mô hình
= giá × (
được phát triển bằng cách kết hợp một phương trình bán hàng
=
vào tính toán tổng doanh thu:
2,9485 × giá + 3.240,9)
2,9485 × giá2 + 3.240,9 × giá
Hình 11.3 cho thấy một bảng tính để tính cả doanh thu và doanh
thu dưới dạng hàm giá.
Hình 11.3
Bảng tính quyết định giá
Người mẫu
Các mô hình toán học dễ thao tác; ví dụ, chúng tôi đã chỉ ra trong Chương 1 rằng có
thể dễ dàng tìm được điểm hòa vốn bằng cách đặt TC (sản xuất) TC (thuê ngoài) và giải
quyết Q. Ngược lại, sẽ khó tìm được mức hòa vốn hơn khi sử dụng thử và lỗi trên bảng
tính mà không biết một số công cụ và phương pháp nâng cao. Tuy nhiên,
Machine Translated by Google
346
chương 11
bảng tính có lợi thế là cho phép bạn dễ dàng sửa đổi các đầu vào mô hình và tính toán các kết
quả số. Chúng tôi sẽ sử dụng cả bảng tính và phương pháp lập mô hình phân tích trong các ứng
dụng xây dựng mô hình của mình—điều quan trọng là có thể “nói được cả hai ngôn ngữ”.
VÍ DỤ 11.5 Triển khai Bảng tính của Mô hình Lợi nhuận
Mô hình phân tích mà chúng tôi đã phát triển trong Ví dụ 11.2
hiểu rõ hơn về mô hình, nghiên cứu các mối quan hệ giữa các
có thể dễ dàng được triển khai trong bảng tính Excel để
công thức bảng tính, biểu đồ ảnh hưởng và mô hình toán học.
đánh giá lợi nhuận (Mô hình Lợi nhuận trong tệp Excel). Giả
Người quản lý có thể sử dụng bảng tính để đánh giá lợi nhuận
sử đơn giá = 40 đô la, chi phí đơn vị = 24 đô la, chi phí
dự kiến sẽ thay đổi như thế nào đối với các giá trị khác
cố định = 400.000 đô la và nhu cầu = 50.000. Biến quyết định
nhau của nhu cầu trong tương lai không chắc chắn và/hoặc
là số lượng sản xuất; với mục đích xây dựng mô hình bảng
số lượng được sản xuất, đây là một biến số quyết định mà
tính, chúng tôi giả định giá trị là 40.000 đơn vị. Hình 11.4
người quản lý có thể kiểm soát. Chúng tôi làm điều này sau
cho thấy một triển khai bảng tính của mô hình này. ĐẾN
trong chương này.
Chất lượng bảng tính
Xây dựng các mô hình bảng tính, thường được gọi là kỹ thuật bảng tính, là một phần nghệ thuật
và một phần khoa học. Chất lượng của một bảng tính có thể được đánh giá bằng cả độ chính xác
logic và thiết kế của nó. Bảng tính cần chính xác, dễ hiểu và thân thiện với người dùng.
Đầu tiên và quan trọng nhất, bảng tính phải chính xác. Xác minh là quá trình đảm bảo rằng
một mô hình là chính xác và không có lỗi logic. Lỗi bảng tính có thể gây ra sự cố. Một công ty
đầu tư lớn từng mắc lỗi 2,6 tỷ USD. Họ đã thông báo cho những người nắm giữ một quỹ tương hỗ để
mong đợi một khoản cổ tức lớn; may mắn thay, họ đã phát hiện ra lỗi trước khi gửi séc. Một nghiên
cứu về 50 bảng tính cho thấy rằng ít hơn 10% không có lỗi.1 Các lỗi nghiêm trọng trong kinh doanh
là do lỗi sao chép và dán, sắp xếp, nhập số và tham chiếu công thức bảng tính. Nghiên cứu trong
ngành đã phát hiện ra rằng hơn 90% bảng tính có hơn 150 hàng bị sai ít nhất 5%.
Có ba cách tiếp cận cơ bản đối với kỹ thuật bảng tính có thể cải thiện chất lượng bảng tính:
Hình 11.4
Thực hiện bảng tính của mô
hình lợi nhuận
1S. Powell, K. Baker và B. Lawson, “Errors in Operational Spreadsheets,” Journal of End User
Computing, 21 (Tháng 7–Tháng 9 năm 2009): 24–36.
Machine Translated by Google
Chương 11 Lập mô hình và phân tích bảng tính
347
1. Cải thiện thiết kế và định dạng của bảng tính. Sau khi đã hiểu rõ các mối quan hệ đầu vào,
đầu ra và mô hình chính, bạn nên phác thảo một thiết kế logic của bảng tính. Ví dụ: bạn có
thể muốn bảng tính giống với báo cáo tài chính để người quản lý dễ đọc hơn. Tốt nhất là
tách các đầu vào của mô hình khỏi chính mô hình đó và tham chiếu các ô đầu vào trong các công
thức của mô hình; theo cách đó, mọi thay đổi trong đầu vào sẽ tự động được phản ánh trong
mô hình. Chúng tôi đã làm điều này trong các ví dụ.
Một cách tiếp cận hữu ích khác là chia các công thức phức tạp thành các phần nhỏ hơn.
Điều này làm giảm các lỗi đánh máy, giúp kiểm tra kết quả của bạn dễ dàng hơn và cũng giúp
người dùng dễ đọc bảng tính hơn. Cuối cùng, điều quan trọng nữa là thiết lập bảng tính ở
dạng mà người dùng cuối—ví dụ, có thể là người quản lý tài chính—có thể dễ dàng diễn giải
và sử dụng. Ví dụ 11.6 minh họa những ý tưởng này.
2. Cải thiện quy trình được sử dụng để phát triển bảng tính. Nếu bạn đã phác thảo một thiết kế
khái niệm của bảng tính, hãy làm việc trên từng phần riêng lẻ trước khi chuyển sang các
phần khác để đảm bảo rằng mỗi phần đều chính xác. Khi bạn nhập công thức, hãy kiểm tra kết
quả bằng các số đơn giản (chẳng hạn như 1) để xác định xem chúng có hợp lý hay không hoặc
sử dụng đầu vào với kết quả đã biết. Hãy cẩn thận khi sử dụng Sao chép và Dán
các lệnh trong Excel, đặc biệt đối với các địa chỉ tương đối và tuyệt đối.
Sử dụng trình hướng dẫn hàm Excel ( nút fx trên thanh công thức) để đảm bảo rằng bạn đang
nhập đúng giá trị vào đúng trường của hàm.
3. Kiểm tra kết quả của bạn một cách cẩn thận và sử dụng các công cụ thích hợp có sẵn trong Excel.
Ví dụ: công cụ Kiểm tra Công thức Excel (trong tab Công thức) giúp bạn xác thực logic của
công thức và kiểm tra lỗi. Sử dụng tiền lệ Trace
và Trace Dependents, bạn có thể hiển thị trực quan những ô nào ảnh hưởng hoặc bị ảnh hưởng
bởi giá trị của một ô đã chọn, tương tự như biểu đồ ảnh hưởng. Các công cụ Kiểm tra Công
thức cũng bao gồm Kiểm tra Lỗi, kiểm tra các lỗi phổ biến xảy ra khi sử dụng công thức và
Đánh giá Công thức, giúp gỡ lỗi một công thức phức tạp bằng cách đánh giá từng phần của công
thức riêng lẻ. Chúng tôi khuyến khích bạn tìm hiểu cách sử dụng các công cụ này.
VÍ DỤ 11.6 Lập mô hình thu nhập ròng trên bảng tính
Việc tính toán thu nhập ròng dựa trên các công thức sau:
kết quả cuối cùng và, từ góc độ tài chính, cung cấp ít thông
tin cho người dùng cuối.
lợi nhuận gộp = doanh thu - giá vốn hàng bán
chi phí hoạt động = chi phí hành chính
+ chi phí bán hàng
+ chi phí khấu hao
thu nhập hoạt động ròng = lợi nhuận gộp - chi phí hoạt động
thu nhập trước thuế = thu nhập hoạt động ròng
- chi phí lãi vay
thu nhập ròng = thu nhập trước thuế
thuế
Chúng ta có thể phát triển một mô hình đơn giản để tính
thu nhập ròng bằng cách thay thế các công thức sau:
thu nhập ròng = doanh thu - giá vốn hàng bán - quản lý
chi phí
chi phí bán hàng
khấu hao
chi phí - chi phí lãi vay - thuế
Chúng ta có thể thực hiện mô hình này trên một bảng tính,
như trong Hình 11.5. Bảng tính này chỉ cung cấp
Một cách khác là chia nhỏ mô hình bằng cách viết các công
thức trước đó vào các ô riêng biệt trong bảng tính bằng cách
sử dụng định dạng mô hình dữ liệu, như trong Hình 11.6. Điều
này hiển thị rõ ràng các tính toán riêng lẻ và cung cấp thông
tin tốt hơn. Tuy nhiên, mặc dù cả hai mô hình này đều đúng về
mặt kỹ thuật, nhưng cả hai đều không phải là hình thức mà hầu
hết các nhân viên kế toán và tài chính đều quen thuộc.
Một giải pháp thay thế thứ ba là thể hiện các tính toán
dưới dạng báo cáo thu nhập theo quy ước sử dụng cấu trúc và
định dạng mà các kế toán viên đã quen sử dụng, như trong Hình
11.7. Mặc dù điều này có các tính toán tương tự như trong
Hình 11.6, lưu ý rằng việc sử dụng số tiền âm đòi hỏi phải thay
đổi công thức (nghĩa là cộng số tiền âm thay vì trừ số tiền
dương). Sổ làm việc Excel Mô hình Thu nhập Ròng chứa từng ví
dụ này trong các trang tính riêng biệt.
Machine Translated by Google
348
Hình 11.5
Mô hình bảng tính đơn giản cho
thu nhập ròng
Hình 11.6
Định dạng mô hình dữ liệu cho
Thu nhập ròng
Hình 11.7
Báo cáo thu nhập Pro Forma
Định dạng
chương 11
Machine Translated by Google
349
chương 11
Phân tích trong thực tế: Kỹ thuật bảng tính tại Procter & Gamble2
Vào giữa những năm 1980, Procter & Gamble (P&G) cần một cách
Ở cấp độ cơ bản, tất cả các trường đầu vào đều có nhận
dễ dàng và nhất quán để quản lý hàng tồn kho an toàn. Nhóm Phân
xét kèm theo; điều này phục vụ như một chức năng trợ giúp
tích Kinh doanh Tây Âu của P&G đã tạo ra một mô hình bảng tính
trực tuyến nhanh chóng cho các nhà lập kế hoạch. Đối với mỗi
mà cuối cùng đã phát triển thành một bộ mô hình hàng tồn kho
mô hình, họ cũng cung cấp một hướng dẫn sử dụng mô tả mọi đầu
toàn cầu. Mô hình được thiết kế để giúp các nhà hoạch định
vào và kết quả cũng như giải thích chi tiết các công thức. Các
chuỗi cung ứng hiểu rõ hơn về hàng tồn kho trong chuỗi cung
mẫu mô hình và tất cả tài liệu đã được đăng trên một trang
ứng và cung cấp một phương pháp nhanh chóng để thiết lập mức
mạng nội bộ mà tất cả nhân viên của P&G đều có thể truy cập
tồn kho an toàn.
được. Điều này đảm bảo rằng tất cả nhân viên đều có quyền
P&G cũng đã phát triển một số mô hình phụ dựa trên ứng dụng
truy cập vào các phiên bản cho thuê mới nhất của các mô hình,
này được sử dụng trên khắp thế giới.
tài liệu hỗ trợ và lịch trình đào tạo.
Khi thiết kế mô hình, các nhà phân tích đã sử dụng nhiều
nguyên tắc của kỹ thuật bảng tính. Ví dụ: họ đã tách các phần
đầu vào khỏi phần tính toán và kết quả bằng cách nhóm các ô
thích hợp và sử dụng các định dạng khác nhau. Điều này đã tăng
tốc quá trình nhập dữ liệu. Ngoài ra, bảng tính được thiết kế
để hiển thị tất cả dữ liệu liên quan trên một màn hình nên
người dùng không cần phải chuyển đổi giữa các phần khác nhau
của mô hình.
Các nhà phân tích cũng đã sử dụng kết hợp xác thực dữ
liệu và định dạng có điều kiện để làm nổi bật các lỗi trong dữ
liệu đầu vào. Họ cũng cung cấp một danh sách các cảnh báo và
lỗi mà người dùng nên giải quyết trước khi sử dụng kết quả
Lưu
trữ
ZUMA/
ZUMA
Press/
Newscom
của mô hình. Danh sách đánh dấu các lỗi rõ ràng như thời gian
vận chuyển âm và dữ liệu đầu vào có thể yêu cầu kiểm tra và dự
báo các lỗi nằm ngoài ranh giới của giá trị thống kê của mô
hình
Ứng dụng bảng tính trong phân tích kinh doanh
Một loạt các vấn đề thực tế trong phân tích kinh doanh có thể được mô hình hóa bằng bảng tính.
Trong phần này, chúng tôi trình bày một số ví dụ và họ các mô hình minh họa các ứng dụng khác
nhau. Một điều cần lưu ý là một mô hình bảng tính hữu ích không nhất thiết phải phức tạp;
thông thường, các mô hình đơn giản có thể cung cấp cho các nhà quản lý thông tin họ cần để
đưa ra quyết định đúng đắn. Ví dụ 11.7 được điều chỉnh từ một ứng dụng thực tế trong ngành ngân hàng.
VÍ DỤ 11.7 Một mô hình dự đoán về bố trí nhân sự3
Nhân sự là một lĩnh vực của bất kỳ doanh nghiệp nào mà việc thay
nhân viên mới có thể là 90 đến 180 ngày, vì vậy không phải lúc nào
đổi có thể tốn kém và tốn thời gian. Vì vậy, điều khá quan trọng
cũng có thể phản ứng nhanh với nhu cầu nhân sự. Do đó, lập kế hoạch
là phải hiểu rõ các yêu cầu về nhân sự trước. Trong nhiều trường
trước là rất quan trọng để các nhà quản lý có thể đưa ra quyết
hợp, thời gian thuê và đào tạo
định đúng đắn về việc làm thêm giờ hoặc cắt giảm công việc
2Dựa trên Ingrid Farasyn, Koray Perkoz, Wim Van de Velde, “Spreadsheet Models for Inventory Target
Setting at Procter & Gamble,” Interfaces, 38, 4 (Tháng 7–Tháng 8 năm 2008): 241–250.
3Tác giả mang ơn ông Craig Zielanzy của BlueNote Analytics, LLC, vì đã cung cấp ví dụ này.
Machine Translated by Google
350
chương 11
giờ, hoặc thêm hoặc bớt nhân viên tạm thời hoặc cố định. Lập kế
hoạch cho các yêu cầu về nhân sự là một lĩnh vực mà phân tích
có thể mang lại lợi ích to lớn.
Giả sử rằng người quản lý của bộ phận xử lý khoản vay
sản phẩm 4
sản phẩm 5
sản phẩm 6
12
5,50
9
4,00
9
3,00
6
2,00
2,00
muốn biết sẽ cần bao nhiêu nhân viên trong vài tháng tới để xử
sản phẩm 7
lý một số lượng hồ sơ vay nhất định mỗi tháng để cô ấy có thể
sản phẩm 8
5
sản phẩm 9
3
1,50
sản phẩm 10
1
3,50
3
3,00
lập kế hoạch năng lực tốt hơn. Cũng giả sử rằng có nhiều loại
sản phẩm khác nhau cần được xử lý. Một sản phẩm có thể là khoản
thế chấp có lãi suất cố định 30 năm, khoản vay 7/1 ARM, khoản
vay FHA hoặc khoản vay xây dựng. Mỗi loại khoản vay này có mức
linh tinh
độ phức tạp khác nhau và yêu cầu các cấp độ chứng từ khác nhau,
Tổng cộng
do đó, có thời gian hoàn thành khác nhau.
Người quản lý muốn dự đoán số lượng nhân viên toàn thời gian
Giả sử rằng người quản lý dự báo có 700 đơn xin vay vào tháng
Năm, 750 vào tháng Sáu, 800 vào tháng Bảy và 825 vào tháng
Tám. Mỗi nhân viên làm việc hiệu quả trong 6,5 giờ mỗi ngày và
có 22 ngày làm việc vào tháng 5, 20 vào tháng 6, 22 vào tháng 7
và 22 vào tháng 8. Người quản lý cũng biết, dựa trên dữ liệu
lịch sử cho vay, tỷ lệ phần trăm của từng loại sản phẩm và thời
gian xử lý một khoản vay của từng loại.
sản phẩm 1
22
3,50
sản phẩm 2
17
2,00
sản phẩm 3
13
1,50
Thực hiện
các khoản vay có thể được xử lý.
Hình 11.8 cho thấy một mô hình dự đoán đơn giản trên bảng
tính để tính FTE cần thiết (Mô hình Nhân sự trong tệp Excel).
Đối với mỗi tháng, chúng tôi lấy thông lượng mong muốn và
chuyển đổi thành số lượng tệp cho từng sản phẩm dựa trên tỷ lệ
phần trăm hỗn hợp sản phẩm. Bằng cách nhân với số giờ trên mỗi
phẩm. Cuối cùng, chúng tôi chia tổng số giờ cần thiết mỗi tháng
Sản phẩm Kết hợp sản phẩm (%) Giờ trên mỗi tệp
Bảng tính mô hình nhân sự
tương đương (FTE) cần thiết mỗi tháng để đảm bảo rằng tất cả
tệp, sau đó chúng tôi tính toán số giờ cần thiết cho mỗi sản
Những dữ liệu này được trình bày tiếp theo:
Hình 11.8
100
cho số giờ làm việc mỗi tháng (số giờ làm việc mỗi ngày * số
ngày trong tháng). Điều này mang lại số lượng FTE cần thiết.
Machine Translated by Google
351
chương 11
Hình 11.8
Bảng tính mô hình nhân sự
Thực hiện (tiếp theo)
Mô hình liên quan đến nhiều khoảng thời gian
Hầu hết các mô hình thực tế được sử dụng trong phân tích kinh doanh phức tạp hơn và
liên quan đến phân tích tài chính cơ bản tương tự như mô hình lợi nhuận. Một ví dụ
là quyết định tung ra một sản phẩm mới. Ví dụ, trong ngành dược phẩm, quá trình nghiên
cứu và phát triển là một quá trình lâu dài và gian khổ (xem Ví dụ 11.8); tổng chi phí
phát triển có thể đạt tới 1 tỷ USD.
Các mô hình cho các loại ứng dụng này thường kết hợp nhiều khoảng thời gian được liên kết với
nhau một cách hợp lý và khả năng phân tích dự đoán là rất quan trọng để đưa ra các quyết định kinh
doanh đúng đắn. Tuy nhiên, áp dụng một cách tiếp cận có hệ thống để sắp xếp các mảnh ghép lại với nhau
một cách logic thường có thể khiến một vấn đề có vẻ khó khăn trở nên dễ dàng hơn nhiều.
VÍ DỤ 11.8 Phát triển sản phẩm mới
Giả sử rằng Moore Pharmaceuticals đã phát hiện ra một loại thuốc
trên nhiều dữ liệu, ước tính và giả định đã biết. Nếu bạn kiểm
đột phá tiềm năng trong phòng thí nghiệm và cần quyết định xem
tra kỹ mô hình, bạn sẽ thấy rằng một số đầu vào trong mô hình
có nên tiếp tục tiến hành các thử nghiệm lâm sàng và tìm kiếm
có thể dễ dàng thu được từ kế toán doanh nghiệp (ví dụ: tỷ lệ
sự chấp thuận của FDA để tiếp thị loại thuốc đó hay không. Tổng
chiết khấu, doanh thu đơn vị và chi phí đơn vị) bằng cách sử
chi phí R&D dự kiến sẽ đạt 700 triệu USD và chi phí cho các
dụng dữ liệu lịch sử (ví dụ: chi phí dự án), dự báo hoặc đánh
thử nghiệm lâm sàng sẽ vào khoảng 150 triệu USD. Quy mô thị
giá các ước tính tinh thần dựa trên nghiên cứu thị trường sơ
trường cho thuê hiện tại được ước tính là 2 triệu người và
bộ hoặc kinh nghiệm trước đó (ví dụ: quy mô thị trường, thị
dự kiến sẽ tăng trưởng với tốc độ 3% mỗi năm. Trong năm đầu
phần và tốc độ tăng trưởng hàng năm). Bản thân mô hình này là
tiên, Moore ước tính sẽ giành được 8% thị phần, con số này
một ứng dụng đơn giản của logic kế toán và tài chính; bạn nên
được dự đoán sẽ tăng 20% mỗi năm. Khó có thể ước tính sau 5
kiểm tra các công thức Excel để xem mô hình được xây dựng như thế nào.
năm vì các đối thủ cạnh tranh mới dự kiến sẽ gia nhập thị
trường. Đơn thuốc hàng tháng dự kiến sẽ tạo ra doanh thu là
Các giả định được sử dụng đại diện cho các ước tính “rất
có thể” và bảng tính cho thấy rằng sản phẩm sẽ bắt đầu có lãi
130 đô la trong khi phát sinh chi phí biến đổi là 40 đô la. Tỷ
vào năm thứ tư. Tuy nhiên, mô hình này dựa trên một số giả định
lệ chiết khấu 9% được giả định để tính giá trị hiện tại ròng
khá mơ hồ về quy mô thị trường và tốc độ tăng trưởng thị phần.
của dự án. Công ty cần biết sẽ mất bao lâu để thu hồi chi phí
Trên thực tế, phần lớn dữ liệu được sử dụng trong mô hình là
cố định và giá trị hiện tại ròng trong 5 năm đầu tiên.
không chắc chắn và công ty sẽ thiếu sót nếu chỉ sử dụng kết quả
của một kịch bản này. Giá trị thực của mô hình sẽ nằm ở việc
phân tích nhiều tình huống sử dụng các giá trị thực thể khác
Hình 11.9 cho thấy một mô hình bảng tính cho tình huống
này (file Excel của Moore Pharmaceuticals). Mô hình dựa trên
nhau cho các giả định này.
Machine Translated by Google
352
Hình 11.9
Triển khai bảng tính của Moore
Pharmaceuticals
Người mẫu
chương 11
Machine Translated by Google
353
chương 11
Quyết định mua hàng trong một thời kỳ
Banana Republic, một bộ phận của Gap, Inc., đang cố gắng tạo dựng tên tuổi của mình trong giới thời
trang khi công ty mẹ Gap chuyển dòng sản phẩm của mình sang những sản phẩm cơ bản như quần cắt, quần
jean và kaki. Trong một mùa lễ gần đây, công ty đã đặt cược rằng màu xanh sẽ là màu bán chạy nhất
trong những chiếc áo len len merino co giãn. Họ đã sai; như chủ tịch công ty đã lưu ý, “Người bán
số 1 có màu xanh rêu. Chúng tôi không có đủ.”4
Tình huống này mô tả một trong nhiều tình huống thực tế trong đó phải đưa ra quyết định mua hàng
một lần khi đối mặt với nhu cầu không chắc chắn. Người mua ở cửa hàng bách hóa phải mua quần áo theo
mùa trước mùa mua hàng và cửa hàng kẹo phải quyết định số lượng hộp quà đặc biệt cho ngày lễ để lắp
ráp. Tình huống chung thường được gọi là bài toán người bán báo: Một người bán báo trên đường phố
bán báo hàng ngày và phải đưa ra quyết định về số lượng sẽ mua. Mua quá ít dẫn đến mất cơ hội tăng
lợi nhuận, nhưng mua quá nhiều dẫn đến thua lỗ vì phần thừa phải được loại bỏ vào cuối ngày.
Đầu tiên chúng ta phát triển một mô hình tổng quát cho vấn đề này và sau đó minh họa nó bằng một
ví dụ. Giả sử rằng mỗi mặt hàng có giá $C để mua và được bán với giá $R. Vào cuối khoảng thời gian, mọi
mặt hàng không bán được có thể được thanh lý với giá $S mỗi mặt hàng (giá trị cứu hộ). Rõ ràng, sẽ
hợp lý khi giả sử rằng R 7 C 7 S. Gọi D là số đơn vị được yêu cầu trong kỳ và Q là số lượng mua. Lưu
ý rằng D là đầu vào không kiểm soát được, trong khi Q là biến quyết định. Nếu biết trước nhu cầu, thì
quyết định tối ưu là hiển nhiên: Chọn Q D. Tuy nhiên, nếu không biết trước D, chúng ta có nguy cơ
mua quá nhiều hoặc không mua được. Nếu Q 6 D, thì chúng ta mất cơ hội nhận thêm lợi nhuận (vì chúng
ta cho rằng R 7 C) và nếu Q 7 D, chúng ta sẽ bị lỗ (vì C 7 S).
Lưu ý rằng chúng tôi không thể bán nhiều hơn mức tối thiểu của nhu cầu thực tế và số lượng
được sản xuất. Như vậy, số lượng bán theo giá thông thường là nhỏ hơn của D và Q.
Ngoài ra, số lượng thặng dư càng lớn trong 0 và Q - D. Lợi nhuận ròng được tính như sau:
lợi nhuận ròng R * số lượng bán + S * số lượng thặng dư - C * Q
(11.3)
Trên thực tế, nhu cầu D là không chắc chắn và có thể được mô hình hóa bằng cách sử dụng phân
phối xác suất dựa trên các phương pháp mà chúng tôi đã mô tả trong Chương 5. Hiện tại, chúng tôi
không giải quyết các mô hình liên quan đến phân phối xác suất (xây dựng các mô hình đã đủ là một thách
thức tại thời điểm này); tuy nhiên, chúng ta sẽ học cách đối phó với chúng trong chương tiếp theo.
Một ví dụ khác về ứng dụng phân tích dự đoán có liên quan đến phân phối xác suất là đặt trước quá nhiều.
VÍ DỤ 11.9 Mô hình quyết định mua hàng trong một giai đoạn
Giả sử rằng một cửa hàng kẹo nhỏ làm hộp quà tặng Ngày lễ tình
nhân có giá $12,00 và bán với giá $18,00. Trước đây, ít nhất
40 hộp đã được bán vào Ngày lễ tình nhân, nhưng số lượng thực
tế không chắc chắn và trước đây, chủ sở hữu thường thiếu hoặc
làm quá nhiều. Sau kỳ nghỉ lễ, bất kỳ hộp nào chưa bán được sẽ
được giảm giá 50% và bán hết.
Lợi nhuận ròng có thể được tính bằng công thức (11.3) cho
bất kỳ giá trị nào của Q và D:
lợi nhuận ròng = $18,00 × min5D, Q6 +$9,00 × max50, Q
D6
$12,00 × Q
Hình 11.10 cho thấy một bảng tính thực hiện
mô hình này giả định nhu cầu là 41 và số lượng mua là 44 (Mô
hình nhà cung cấp tin tức tệp Excel).
4Louise Lee, “Vâng, chúng tôi có một quả chuối mới,” BusinessWeek (31 tháng 5 năm 2004): 70–72.
Machine Translated by Google
354
chương 11
Hình 11.10
Triển khai bảng tính của mô
hình Newsvendor
Quyết định đặt trước quá nhiều
Một quyết định hoạt động quan trọng đối với các doanh nghiệp dịch vụ như khách sạn, hãng hàng
không và công ty cho thuê ô tô là số lượng đặt trước cần chấp nhận để lấp đầy công suất một cách
hiệu quả khi biết rằng một số khách hàng có thể không sử dụng đặt chỗ của họ hoặc thông báo cho
doanh nghiệp. Ví dụ, nếu một khách sạn giữ phòng cho những khách hàng không xuất hiện, họ sẽ mất
cơ hội doanh thu. (Ngay cả khi họ tính phí một đêm để đảm bảo, các phòng được giữ cho những ngày
tiếp theo có thể không được sử dụng.) Một thông lệ phổ biến trong các ngành này là đặt trước quá nhiều
đặt trước. Khi có nhiều khách hàng đến hơn mức có thể xử lý, doanh nghiệp thường phải chịu một
số chi phí để làm hài lòng họ (bằng cách đưa họ đến một khách sạn khác hoặc, đối với hầu hết các
hãng hàng không, cung cấp thêm khoản bồi thường như phiếu mua vé). Do đó, quyết định trở thành
đặt trước vượt mức bao nhiêu để cân bằng giữa chi phí đặt trước vượt mức và doanh thu bị mất do
sử dụng quá mức.
VÍ DỤ 11.10 Một mô hình đặt trước quá nhiều khách sạn
Hình 11.11 cho thấy một mô hình bảng tính (file Excel Mô hình
của những khách hàng quyết định hủy đặt phòng của họ. Trong
đặt phòng quá mức khách sạn) cho một khách sạn nghỉ dưỡng nổi
ví dụ này, chúng tôi giả định rằng chỉ có 6 trong số 310 đặt
tiếng có 300 phòng và thường được đặt kín chỗ. Khách sạn
chỗ bị hủy. Do đó, số lượng khách hàng đến thực tế (ô B15)
tính phí $120 mỗi phòng. Việc đặt trước có thể bị hủy trước
là sự khác biệt giữa số lượng đặt phòng được thực hiện và
hạn chót 6:00 chiều mà không bị phạt. Khách sạn đã ước tính
số lượng hủy bỏ. Nếu số lượng khách đến thực tế vượt quá
rằng chi phí đặt trước vượt mức trung bình là 100 đô la.
công suất của phòng, tình trạng overbooking xảy ra. Điều này
Logic của mô hình là đơn giản. Trong phần mô hình của
bảng tính, ô B12 biểu thị biến quyết định về số lượng đặt
được mô hình hóa bởi hàm MAX trong ô B17. Doanh thu thuần
được tính trong ô B18. Người quản lý có thể muốn sử dụng mô
trước để chấp nhận. Trong ví dụ này, chúng tôi giả định rằng
hình này để phân tích số lượng khách hàng đặt trước quá mức
khách sạn sẽ chấp nhận 310 đặt phòng; tức là đặt trước quá
và doanh thu thuần sẽ bị ảnh hưởng như thế nào bởi những
10 phòng. Ô B13 thể hiện nhu cầu thực tế của khách hàng (số
thay đổi về giới hạn đặt trước, nhu cầu của khách hàng và
lượng khách hàng muốn đặt chỗ trước). Ở đây chúng tôi giả
việc hủy đặt phòng.
định rằng có 312 khách hàng đã cố gắng đặt trước. Khách sạn
không thể chấp nhận đặt phòng nhiều hơn giới hạn định
trước, do đó, số lượng đặt phòng được thực hiện trong ô B13
Như với mô hình nhà cung cấp tin tức, nhu cầu của
khách hàng và số lượng hủy bỏ trong thực tế, chạy các biến
là số lượng đặt phòng nhỏ hơn nhu cầu của khách hàng và
dom mà chúng tôi không thể chỉ định một cách chắc chắn. Chúng
giới hạn đặt phòng. Ô B14 là số
tôi cũng chỉ ra cách kết hợp tính ngẫu nhiên vào mô hình trong
chương tiếp theo.
Machine Translated by Google
355
chương 11
Hình 11.11
Mô hình Overbooking khách sạn
bảng tính
Phân tích trong thực tế: Sử dụng mô hình đặt trước quá nhiều cho sinh viên
Phòng khám sức khoẻ
Dịch vụ Y tế Sinh viên (SHS) của Đại học East Carolina
(ECU) cung cấp các dịch vụ chăm sóc sức khỏe và giáo dục
sức khỏe cho các sinh viên đã đăng ký.5 Số lượng bệnh
nhân bao gồm hầu hết các cuộc hẹn đã lên lịch cho các nhu
cầu chăm sóc sức khỏe không khẩn cấp. Trong một năm kỷ
lục gần đây, 35.050 cuộc hẹn đã được lên lịch.
Bệnh nhân không đến trong hơn 10% các cuộc hẹn này. Vấn
đề vắng mặt không phải là duy nhất. Các nghiên cứu khác
nhau báo cáo rằng tỷ lệ vắng mặt của các nhà cung cấp
dịch vụ y tế thường dao động từ 30% đến 50%.
Để giải quyết vấn đề này, một nhóm cải thiện chất
lượng (QI) đã được thành lập để phân tích tùy chọn đăng
Kurhan/
Shutterstock.com
ký trước quá nhiều. Những nỗ lực của họ đã dẫn đến việc
phát triển một mô hình đặt trước vượt mức mới bao gồm
các tác động của tình trạng kiệt sức của nhân viên do
nhu cầu khám bệnh cho nhiều bệnh nhân hơn khả năng thông
thường cho phép. Mô hình cung cấp bằng chứng mạnh mẽ
dự đoán rằng trong 85% số ngày hoạt động mỗi tháng, không
có bệnh nhân nào nằm ngoài lịch trình; tối đa 16 bệnh
rằng mức đặt trước vượt quá 10% đến 15% tạo ra giá trị cao nhất.
Mô hình đăng ký trước quá nhiều cũng là công cụ giúp
nhân quá hạn hiếm khi xảy ra.
giảm bớt những lo ngại của nhân viên về sự gián đoạn và
áp lực do số lượng lớn bệnh nhân quá lịch trình. Với tỷ
lệ đặt trước vượt quá 5%, nhân viên đã yên tâm với kết
Dựa trên các dự đoán của mô hình, SHS đã triển khai
chính sách đặt trước vượt mức và đặt trước vượt mức
quả mô hình dự đoán 95% số ngày hoạt động mà không có
7,3% với kế hoạch tăng lên 10% trong các học kỳ tới. Giám
bệnh nhân nào bị quá lịch; trong trường hợp xấu nhất, 8
đốc SHS ước tính khoản tiết kiệm thực tế từ việc đặt
bệnh nhân sẽ bị xếp lịch quá hạn vài ngày mỗi tháng.
trước quá nhiều trong học kỳ đầu tiên triển khai sẽ vào
khoảng 95.000 USD.
Ngoài ra, với tỷ lệ đặt trước quá mức 10%, mô hình
5Dựa trên John Kros, Scott Dellana và David West, “Đặt trước quá nhiều giúp tăng khả năng tiếp cận của bệnh nhân tại Phòng
khám Dịch vụ Y tế Sinh viên của Đại học East Carolina,” Interfaces, Vol. 39, Số 3 tháng 5–tháng 6 năm 2009, trang 271–287.
Machine Translated by Google
356
chương 11
Giả định mô hình, độ phức tạp và chủ nghĩa hiện thực
Các mô hình không thể nắm bắt mọi chi tiết của vấn đề thực tế và các nhà quản lý phải hiểu những
hạn chế của các mô hình và các giả định cơ bản của chúng. Tính hợp lệ đề cập đến việc một mô
hình đại diện cho thực tế tốt như thế nào. Một cách tiếp cận để đánh giá tính hợp lệ của một mô
hình là xác định và kiểm tra các giả định được đưa ra trong một mô hình để xem chúng phù hợp
như thế nào với nhận thức của chúng ta về thế giới thực; thỏa thuận càng gần thì hiệu lực càng
cao. Một cách tiếp cận khác là so sánh kết quả mô hình với kết quả quan sát được; thỏa thuận
càng gần, mô hình càng hợp lệ. Một mô hình “hoàn hảo” tương ứng với thế giới thực ở mọi khía
cạnh; thật không may, không có mô hình nào như vậy đã từng tồn tại và sẽ không bao giờ tồn tại
trong tương lai, bởi vì không thể đưa mọi chi tiết của cuộc sống thực vào một mô hình. Để thêm
tính hiện thực hơn vào một mô hình thường đòi hỏi sự phức tạp hơn và các nhà phân tích phải
biết cách cân bằng những điều này.
VÍ DỤ 11.11 Mô hình hoạch định hưu trí
Xem xét mô hình hóa một kế hoạch nghỉ hưu điển hình. Giả sử
các biến sẽ thay đổi rõ ràng mỗi năm. Vấn đề giá trị thứ hai là
rằng một nhân viên bắt đầu làm việc sau khi tốt nghiệp đại học
cách mô hình tính toán lợi tức đầu tư. Mô hình trong Hình 11.12
ở tuổi 22 với mức lương khởi điểm là 50.000 USD. Cô mong đợi
giả định rằng lợi tức đầu tư được áp dụng cho số dư của năm
mức tăng lương trung bình 3% mỗi năm. Kế hoạch nghỉ hưu của
trước chứ không phải cho các khoản đóng góp của năm hiện tại
cô ấy yêu cầu cô ấy đóng góp 8% tiền lương của mình và người
(kiểm tra công thức được sử dụng trong ô E15). Một cách khác
sử dụng lao động của cô ấy cộng thêm 35% khoản đóng góp của cô
là tính toán tiền lãi đầu tư dựa trên số dư cuối năm, bao gồm
ấy. Cô dự đoán lợi nhuận hàng năm là 8% cho danh mục đầu tư hưu
các khoản đóng góp của năm hiện tại, sử dụng công thức =(E14 +
trí của mình.
C15 +D15)*(1+ $B$8) trong ô E15 và sao chép nó xuống bảng tính.
Hình 11.12 cho thấy một mô hình bảng tính các khoản đầu tư
Điều này sẽ tạo ra một kết quả khác.
hưu trí của bà cho đến năm 50 tuổi (Kế hoạch Hưu trí trong
tệp Excel). Có hai vấn đề hợp lệ với mô hình này. Tất nhiên, một
là liệu các giả định về tăng lương hàng năm và lợi tức đầu tư
Cả hai giả định này đều không hoàn toàn chính xác, vì các
có hợp lý hay không và liệu chúng có nên được giả định giống
khoản đóng góp thường được thực hiện hàng tháng. Để phản ánh
nhau hàng năm hay không. Giả sử tỷ lệ tăng lương và lợi tức
điều này sẽ cần một mô hình bảng tính lớn hơn và phức tạp hơn
đầu tư mỗi năm như nhau sẽ đơn giản hóa mô hình nhưng lại
nhiều. Do đó, việc xây dựng các mô hình thực tế đòi hỏi phải
làm mất đi tính thực tế bởi vì những điều này
suy nghĩ cẩn thận và sáng tạo, đồng thời có kiến thức tốt về
các khả năng của Excel.
Dữ liệu và Mô hình
Dữ liệu được sử dụng trong các mô hình có thể đến từ phán đoán chủ quan dựa trên kinh nghiệm trong
quá khứ, cơ sở dữ liệu hiện có và các nguồn dữ liệu khác, phân tích dữ liệu lịch sử hoặc khảo sát, thí
nghiệm và các phương pháp thu thập dữ liệu khác. Ví dụ: trong mô hình lợi nhuận, chúng tôi có thể truy
vấn hồ sơ kế toán để biết các giá trị của chi phí đơn vị và chi phí cố định. Các phương pháp thống
kê mà chúng tôi đã nghiên cứu thường được sử dụng để ước tính dữ liệu cần thiết trong các mô hình dự
đoán. Ví dụ: chúng tôi có thể sử dụng dữ liệu lịch sử để tính toán nhu cầu trung bình; chúng tôi cũng
có thể sử dụng phần tư hoặc phần trăm trong mô hình để đánh giá các kịch bản khác nhau. Tuy nhiên,
ngay cả khi không có sẵn dữ liệu, việc sử dụng một ước tính chủ quan tốt vẫn tốt hơn là hy sinh tính
đầy đủ của một mô hình có thể hữu ích cho các nhà quản lý.6
6Glen L. Urban, “Building Models for Decision Makers,” Interfaces, 4, 3 (tháng 5 năm 1974): 1–11.
Machine Translated by Google
357
chương 11
Hình 11.12
Phần của Kế hoạch Hưu trí
bảng tính
Hãy phát triển một ví dụ đơn giản dựa trên quyết định giảm giá bán lẻ mà chúng tôi
mô tả trong Ví dụ 1.1 ở Chương 1.
VÍ DỤ 11.12 Lập mô hình quyết định giảm giá bán lẻ
Một chuỗi cửa hàng bách hóa đang giới thiệu nhãn hiệu đồ tắm mới với
dự kiến bán 50 × 7 = 350 đơn vị với giá bán lẻ đầy đủ và kiếm được
giá 70 đô la. Mùa bán hàng chính là 50 ngày vào cuối mùa xuân và đầu
doanh thu là $70,00 × 350 = $24.500. 650 đơn vị còn lại sẽ được
mùa hè; sau đó, cửa hàng có đợt giảm giá thanh lý vào khoảng ngày 4
bán với giá 21 đô la, với doanh thu giải phóng mặt bằng là 13.650
tháng 7 và giảm giá 70% (còn 21 đô la), thường bán bất kỳ hàng tồn
đô la. Do đó, tổng doanh thu sẽ được dự đoán là $24.500 + $13.650
kho nào còn lại với giá thanh lý. Người mua hàng đã mua 1.000 chiếc
= $38.150.
và phân bổ cho các cửa hàng trước mùa bán hàng. Sau một vài tuần,
các cửa hàng báo cáo doanh số bán hàng trung bình là 7 đơn vị/ngày
Như một thử nghiệm, cửa hàng đã giảm giá xuống còn 49 đô la
cho một ngày cuối tuần và nhận thấy rằng doanh số bán hàng trung bình
và kinh nghiệm trước đây cho thấy mức doanh số bán hàng không đổi
hàng ngày là 32,2 đơn vị. Giả sử một mô hình xu hướng tuyến tính cho
này sẽ tiếp tục trong phần còn lại của mùa bán hàng.
doanh số là một hàm của giá, như trong Ví dụ 1.9,
doanh số hàng ngày = a
Như vậy, trong 50 ngày mùa sale, các cửa hàng sẽ
b × giá
(còn tiếp)
Machine Translated by Google
358
Chương 11 Lập mô hình và phân tích bảng tính
chúng ta có thể tìm thấy các giá trị cho a và b bằng cách giải
số đơn vị được bán giảm giá = doanh số hàng ngày × (50 - x) miễn
đồng thời hai phương trình này dựa trên dữ liệu mà cửa hàng thu được. là giá trị này nhỏ hơn hoặc bằng số lượng đơn vị còn lại trong
kho từ doanh số bán lẻ đầy đủ. Nếu không, con số này cần phải được
7 = a
b × $70,00
32,2 = a
b × $49,00
điều chỉnh.
Sau đó, chúng ta có thể tính doanh thu giảm giá là
Điều này dẫn đến mô hình nhu cầu tuyến tính:
doanh số hàng ngày = 91
doanh thu giảm giá = đơn vị đã bán x giá giảm giá
1,2 × giá
Chúng ta cũng có thể sử dụng các hàm SLOPE và INTERCEPT của
Excel để tìm hệ số góc và giao điểm của đường thẳng giữa hai điểm
Cuối cùng, số hàng tồn kho còn lại sau 50 ngày là
khoảng không quảng cáo thanh lý = 1000 - đơn vị bán lẻ đầy đủ
- các đơn vị được bán tại markdown
($70, 7) và ($49, 32,2); điều này được tích hợp vào mô hình Excel
= 1.000
sau đây.
7x
[91
× $70,00 × (100%
Bởi vì mô hình này gợi ý rằng doanh số bán hàng cao hơn có
× (50
thể được thúc đẩy bởi việc giảm giá, bộ phận tiếp thị có cơ sở để
1,2
y%)]
x)
Số tiền này được bán với giá $21,00, dẫn đến doanh thu là
đưa ra các quyết định giảm giá được cải thiện.
Chẳng hạn, giả sử họ quyết định bán với giá bán lẻ đầy đủ trong x
ngày và sau đó chiết khấu giá y% trong thời gian còn lại của mùa
bán hàng, sau đó là đợt bán thanh lý. Họ có thể dự đoán tổng doanh
doanh thu giá thanh lý = 31.000
7x
[91
1,2
× $70,00 × 1100%
thu là bao nhiêu?
× 150
Chúng ta có thể tính toán điều này một cách dễ dàng. Bán lẻ toàn bộ
y%2]
x2 4 × $21,00
Tổng doanh thu sẽ được tìm thấy bằng cách cộng các mô hình đã phát
giá cho x ngày mang lại doanh thu là
triển cho doanh thu giá bán lẻ đầy đủ, doanh thu giá chiết khấu
doanh thu giá bán lẻ đầy đủ = 7 đơn vị ngày × x ngày
× $70,00 = $490,00x
Giá giảm giá áp dụng cho 50
và doanh thu giá thanh lý.
Hình 11.13 cho thấy việc triển khai bảng tính của mô hình này
(Mô hình định giá Markdown trong tệp Excel). Bằng cách thay đổi
x ngày còn lại:
các giá trị trong các ô B7 và B8, người quản lý tiếp thị có thể dự
giá chiết khấu = $70(100%
y%)
đoán doanh thu có thể đạt được đối với các quyết định giảm giá
doanh số hàng ngày = a - b × giá giảm
= 91
Hình 11.13
đánh dấu
Mô hình định giá
bảng tính
1,2 × $70 x (100%
khác nhau.
y%)
Machine Translated by Google
359
chương 11
Phát triển các ứng dụng Excel thân thiện với người dùng
Sử dụng phân tích kinh doanh yêu cầu giao tiếp tốt giữa các nhà phân tích và khách hàng hoặc người
quản lý sử dụng các công cụ. Trong nhiều trường hợp, người dùng có thể không quen thuộc với Excel.
Do đó, việc phát triển các bảng tính thân thiện với người dùng là rất quan trọng để có được sự chấp nhận của các công cụ và
làm cho chúng trở nên hữu ích.
Xác nhận dữ liệu
Một công cụ Excel hữu ích là tính năng xác thực dữ liệu. Tính năng này cho phép bạn xác định các
giá trị đầu vào được chấp nhận trong bảng tính và đưa ra cảnh báo lỗi nếu một mục nhập không hợp
lệ được thực hiện. Điều này có thể giúp tránh các lỗi vô ý của người dùng. Điều này có thể được
tìm thấy trong Nhóm công cụ dữ liệu trong tab Dữ liệu trên dải băng Excel. Chọn phạm vi ô, bấm vào
Xác thực dữ liệu, sau đó chỉ định tiêu chí mà Excel sẽ sử dụng để gắn cờ dữ liệu không hợp lệ.
Tên phạm vi
Sử dụng tên ô và phạm vi để đơn giản hóa công thức và làm cho chúng thân thiện hơn với người
dùng. Ví dụ: giả sử rằng đơn giá được lưu trữ trong ô B13 và số lượng đã bán được lưu trữ trong
ô B14. Giả sử bạn muốn tính doanh thu trong ô C15. Thay vì viết công thức =B13*B14, bạn có thể xác
định tên của ô B13 trong Excel là “Đơn giá” và tên của ô B14 là “Số lượng đã bán”. Sau đó, trong
ô C15, bạn chỉ cần viết công thức =UnitPrice*QuantitySold. (Tuy nhiên, trong cuốn sách này, chúng
tôi sử dụng các tham chiếu ô để bạn có thể dễ dàng theo dõi các công thức trong các ví dụ hơn.)
VÍ DỤ 11.13 Sử dụng Xác thực Dữ liệu
Hãy để chúng tôi sử dụng bảng tính Mô hình quyết định thuê ngoài làm ví
$47,50 chẳng hạn, một số thập phân bị đặt sai vị trí sẽ dẫn đến kết quả
dụ. Giả sử rằng một nhân viên được yêu cầu sử dụng bảng tính để đánh
là $4,75 hoặc $475, rõ ràng là nằm ngoài phạm vi. Trong hộp thoại Data
giá các lựa chọn chi phí sản xuất và mua hàng cũng như các quyết định
Validation, bạn có thể chỉ định rằng giá trị phải là một số thập phân từ
tốt nhất cho một số lượng lớn các bộ phận được sử dụng trong hệ thống
10 đến 100 như trong Hình 11.14. Trên tab Cảnh báo Lỗi, bạn cũng có thể
lắp ráp ô tô. Cô ấy được cung cấp các danh sách dữ liệu mà kế toán chi
tạo một hộp cảnh báo bật lên khi một lần thử không hợp lệ được thực hiện
phí và quản lý mua hàng đã biên soạn và in ra, đồng thời phải tra cứu dữ
(xem Hình 11.15). Trên tab Thông báo đầu vào, bạn có thể tạo lời nhắc
liệu và nhập chúng vào bảng tính. Một quy trình thủ công như vậy để lại
để hiển thị nhận xét trong ô về định dạng đầu vào chính xác. Xác thực dữ
rất nhiều cơ hội cho lỗi.
liệu có các tùy chọn tùy chỉnh khác mà bạn có thể muốn khám phá.
Tuy nhiên, giả sử rằng chúng ta biết rằng chi phí đơn vị của bất kỳ mặt
hàng nào ít nhất là 10 đô la nhưng không quá 100 đô la. Nếu một chi phí là
Hình 11.14
Hộp thoại xác thực dữ liệu
Machine Translated by Google
360
chương 11
Hình 11.15
Ví dụ về Cảnh báo Lỗi
Điều khiển biểu mẫu
Điều khiển biểu mẫu là các nút, hộp và các cơ chế khác để nhập hoặc thay đổi dữ liệu trên bảng
tính một cách dễ dàng có thể được sử dụng để thiết kế bảng tính thân thiện với người dùng. Để
sử dụng các điều khiển biểu mẫu, trước tiên bạn phải kích hoạt tab Nhà phát triển trên dải băng.
Bấm vào tab Tệp, sau đó Tùy chọn, rồi Tùy chỉnh Ruy-băng. Bên dưới Tùy chỉnh Ruy-băng, đảm bảo
rằng các Tab Chính được hiển thị trong hộp thả xuống, rồi bấm vào hộp kiểm bên cạnh Nhà phát triển
(thường không được chọn trong bản cài đặt Excel tiêu chuẩn). Bạn sẽ thấy tab mới trong dải
băng Excel như trong Hình 11.16.
Nếu bạn nhấp vào nút Chèn trong nhóm Điều khiển, bạn sẽ thấy các điều khiển biểu mẫu có sẵn
(đừng nhầm lẫn các điều khiển này với Điều khiển Active X trong cùng một menu). kiểm soát hình
thức bao gồm
Cái nút
hộp tổ hợp
hộp kiểm
nút quay
hộp danh sách
Nút tùy chọn
hộp nhóm
Nhãn
Thanh cuộn
Những điều này cho phép người dùng giao tiếp dễ dàng hơn với các mô hình để nhập hoặc
thay đổi dữ liệu mà không có khả năng vô tình đưa ra lỗi trong công thức. Với các điều
khiển biểu mẫu, bạn có thể ẩn các bảng tính và làm cho chúng dễ sử dụng hơn, đặc biệt là
đối với những người không có nhiều kiến thức về bảng tính. Để chèn một điều khiển biểu mẫu,
bấm vào nút Chèn trong tab Điều khiển bên dưới menu Nhà phát triển, bấm vào điều khiển bạn
muốn sử dụng, rồi bấm vào bên trong trang tính của bạn. Ví dụ sau đây cho thấy cách sử dụng
cả nút xoay và thanh cuộn trong tệp Excel Mô hình quyết định thuê ngoài.
Hình 11.16
Tab Nhà phát triển Excel
Machine Translated by Google
361
chương 11
VÍ DỤ 11.14 Sử dụng Điều khiển Biểu mẫu cho Mô hình Quyết định Thuê ngoài
Chúng tôi sẽ thiết kế một giao diện bảng tính đơn giản để cho phép người
xem các giá trị bên cạnh các điều khiển biểu mẫu.) Giờ đây, bằng cách sử
dùng đánh giá các giá trị khác nhau của chi phí nhà cung cấp và khối lượng
dụng các điều khiển, bạn có thể dễ dàng xem kết quả đầu ra của mô hình thay
sản xuất trong bảng tính Mô hình quyết định thuê ngoài. Chúng tôi sẽ sử
đổi như thế nào mà không cần phải nhập các giá trị mới.
dụng một nút xoay cho chi phí đơn vị của nhà cung cấp (mà chúng tôi giả sử
có thể thay đổi trong khoảng từ 150 đô la đến 200 đô la với gia số là 5
Các điều khiển biểu mẫu chỉ cho phép tăng số nguyên, vì vậy chúng
ta phải thực hiện một số sửa đổi đối với bảng tính nếu chúng ta muốn thay
đô la) và một thanh cuộn cho khối lượng sản xuất (với gia số đơn vị từ
đổi một số thành một giá trị phân số. Ví dụ: giả sử rằng chúng tôi muốn
500 đến 3000 đơn vị). Bảng tính đã hoàn thành được hiển thị trong Hình
sử dụng nút xoay để thay đổi lãi suất trong ô B8 từ 0% thành 10% theo gia
11.17.
số 0,1% (tức là 0,001). Chọn một số ô trống, chẳng hạn như C8 và nhập giá
trị từ 0 đến 100 vào ô đó. Sau đó nhập công thức = C8/1000 vào ô B8. Lưu
Đầu tiên, bấm vào nút Chèn trong nhóm Điều khiển của tab Nhà phát
triển, chọn nút xoay, bấm vào nút đó, rồi bấm vào một nơi nào đó trong
trang tính. Nút xoay (và bất kỳ điều khiển biểu mẫu nào) có thể được thay
ý rằng nếu giá trị trong C8 = 40 chẳng hạn, thì giá trị trong ô B8 sẽ là
40/1000= 0,04 hoặc 4%. Sau đó, khi giá trị trong ô C8 thay đổi 1, thì giá
trị trong ô B8 thay đổi 1/1000 hoặc 0,1%.
đổi kích thước bằng cách kéo các núm điều khiển dọc theo cạnh và di
chuyển trong trang tính. Di chuyển nó đến một vị trí thuận tiện và nhập
tên bạn muốn sử dụng (chẳng hạn như Chi phí Đơn vị của Nhà cung cấp) bên
Trong hộp thoại Điều khiển định dạng, chỉ định giá trị tối thiểu là 0 và
cạnh nó. Tiếp theo, nhấp chuột phải vào nút xoay và chọn Điều khiển định
giá trị tối đa là 100 và liên kết nút với ô C8. Bây giờ khi bạn nhấp vào
dạng. Bạn sẽ thấy hộp thoại như trong Hình 11.18. Nhập các giá trị được
mũi tên lên hoặc xuống trên nút xoay, giá trị trong ô C8 thay đổi 1 và
hiển thị và nhấp vào OK. Bây giờ nếu bạn nhấp vào nút lên hoặc xuống, giá
giá trị trong ô B8 thay đổi 0,1%.
trị trong ô D3 sẽ thay đổi trong phạm vi đã chỉ định. Tiếp theo, lặp lại
quy trình này bằng cách chèn thanh cuộn bên cạnh khối lượng sản xuất
trong cột D. Bước tiếp theo là liên kết các giá trị trong cột D với mô
Các điều khiển biểu mẫu khác cũng có thể được sử dụng; chúng tôi
khuyến khích bạn thử nghiệm và xác định những cách sáng tạo để sử dụng chúng.
hình bằng cách thay thế giá trị trong ô B10 bằng =D3 và giá trị trong ô
Excel cũng có nhiều tính năng khác có thể được sử dụng để cải thiện việc
B12 với =D8. (Chúng ta có thể đã gán các tham chiếu liên kết ô trong hộp
thiết kế và triển khai các mô hình bảng tính. Nhà phân tích nghiêm túc nên
thoại Điều khiển Định dạng cho các ô B10 và B12, nhưng sẽ dễ dàng hơn nếu
xem xét việc học về ghi macro và Visual Basic for Applications (VBA),
nhưng những chủ đề này nằm ngoài phạm vi của cuốn sách này.
Hình 11.17
Mô hình quyết định thuê ngoài
Bảng tính có biểu mẫu
điều khiển
Machine Translated by Google
362
chương 11
Hình 11.18
Hộp thoại điều khiển định dạng
Phân tích sự không chắc chắn và giả định mô hình
Bởi vì các mô hình phân tích dự đoán dựa trên các giả định về tương lai và kết hợp các biến cụ thể mà
rất có thể sẽ không được biết một cách chắc chắn, điều quan trọng là phải điều tra xem các giả định và
sự không chắc chắn này ảnh hưởng như thế nào đến kết quả đầu ra của mô hình. Đây là một trong những hoạt
động quan trọng và có giá trị nhất đối với việc sử dụng các mô hình dự đoán để hiểu rõ hơn và đưa ra
quyết định đúng đắn. Trong phần này, chúng tôi mô tả một số cách tiếp cận khác nhau để thực hiện việc này.
Những gì nếu phân tích
Các mô hình bảng tính cho phép bạn dễ dàng đánh giá các câu hỏi giả sử—các quốc gia kết hợp đầu vào cụ
thể phản ánh các giả định chính sẽ ảnh hưởng như thế nào đến đầu ra của mô hình. Những gì nếu phân tích
dễ dàng như thay đổi giá trị trong bảng tính và tính toán lại kết quả đầu ra. Tuy nhiên, các phương
pháp tiếp cận có hệ thống làm cho quá trình này dễ dàng và hữu ích hơn.
Trong Ví dụ 11.2, chúng tôi đã phát triển một mô hình vì lợi nhuận và đề xuất cách người quản lý
có thể sử dụng mô hình này để thay đổi đầu vào và đánh giá các tình huống khác nhau. Một cách thông tin
hơn để đánh giá phạm vi kịch bản rộng hơn là xây dựng một bảng trong bảng tính để thay đổi đầu vào
hoặc các đầu vào mà chúng ta quan tâm trong một số phạm vi và tính toán đầu ra cho phạm vi giá trị
này. Ví dụ sau đây minh họa điều này.
VÍ DỤ 11.15 Sử dụng Excel để phân tích What-If
Trong mô hình lợi nhuận được sử dụng trong Ví dụ 11.2, chúng ta đã nói rằng
đề cập đến các ô trong mô hình; do đó, người dùng có thể thay đổi số lượng
nhu cầu là không chắc chắn. Một nhà quản lý có thể quan tâm đến câu hỏi sau:
được sản xuất hoặc bất kỳ đầu vào nào khác của mô hình mà vẫn có đánh giá chính
Với bất kỳ số lượng cố định nào được sản xuất, lợi nhuận sẽ thay đổi như
xác về lợi nhuận cho các giá trị nhu cầu này. Một trong những lợi thế của
thế nào khi nhu cầu thay đổi? Trong Hình 11.19, chúng ta đã tạo một bảng cho
việc đánh giá các câu hỏi giả sử cho một loạt các giá trị thay vì từng giá trị
các mức nhu cầu khác nhau và tính toán lợi nhuận. Điều này cho thấy rằng một
một là khả năng trực quan hóa các kết quả trong một biểu đồ, như trong Hình
khoản lỗ phát sinh đối với các mức nhu cầu thấp, trong khi lợi nhuận bị giới
11.20. Điều này cho thấy rõ ràng rằng lợi nhuận tăng lên khi nhu cầu tăng lên
hạn ở mức 240.000 đô la bất cứ khi nào nhu cầu vượt quá số lượng được sản
cho đến khi đạt đến giá trị của số lượng được sản xuất.
xuất, bất kể nó cao đến mức nào. Chú ý rằng công thức
Machine Translated by Google
chương 11
Hình 11.19
Bảng What-If cho
Nhu cầu không chắc chắn
Hình 11.20
Biểu đồ phân tích What-If
363
Machine Translated by Google
364
chương 11
Tiến hành phân tích what-if theo cách này có thể khá tẻ nhạt. May mắn thay, Excel cung cấp một
số công cụ—bảng dữ liệu, Trình quản lý Kịch bản và Tìm kiếm Mục tiêu—tạo điều kiện thuận lợi cho các
kiểu phân tích mô hình quyết định giả định và các kiểu khác. Chúng có thể được tìm thấy trong menu
Phân tích What-If trong tab Dữ liệu.
Bảng dữ liệu
Các bảng dữ liệu tóm tắt tác động của một hoặc hai đầu vào đối với một đầu ra xác định. Excel cho
phép bạn xây dựng hai loại bảng dữ liệu. Bảng dữ liệu một chiều đánh giá một biến đầu ra trên một
dải giá trị cho một biến đầu vào. Bảng dữ liệu hai chiều đánh giá một biến đầu ra trên một dải giá
trị cho hai biến đầu vào khác nhau.
Để tạo bảng dữ liệu một chiều, trước tiên hãy tạo một dải giá trị cho một số ô đầu vào trong
mô hình mà bạn muốn thay đổi. Các giá trị đầu vào phải được liệt kê xuống một cột (theo hướng cột)
hoặc trên một hàng (theo hướng hàng). Nếu các giá trị đầu vào được định hướng theo cột, hãy nhập
tham chiếu ô cho biến đầu ra trong mô hình của bạn mà bạn muốn đánh giá trong hàng phía trên giá
trị đầu tiên và một ô ở bên phải của cột giá trị đầu vào. Tham chiếu bất kỳ ô biến đầu ra nào khác ở
bên phải của công thức đầu tiên. Nếu các giá trị đầu vào được liệt kê trên một hàng, hãy nhập tham
chiếu ô của biến đầu ra vào cột bên trái của giá trị đầu tiên và một ô bên dưới hàng giá trị. Nhập
bất kỳ tham chiếu ô đầu ra bổ sung nào bên dưới ô đầu tiên. Tiếp theo, chọn phạm vi ô chứa cả công
thức và giá trị mà bạn muốn thay thế. Từ tab Dữ liệu trong Excel, chọn Bảng Dữ liệu trong Phân tích
What-If
thực đơn. Trong hộp thoại (xem Hình 11.21), nếu phạm vi đầu vào được định hướng theo cột, hãy nhập
tham chiếu ô cho ô đầu vào trong mô hình của bạn trong ô Ô đầu vào cột. Nếu phạm vi đầu vào được
định hướng theo hàng, hãy nhập tham chiếu ô cho ô đầu vào trong hộp Ô đầu vào hàng.
VÍ DỤ 11.16 Bảng dữ liệu một chiều cho nhu cầu không chắc chắn
Trong ví dụ này, chúng tôi tạo bảng dữ liệu một chiều về lợi nhuận
lợi nhuận) và chọn Bảng dữ liệu từ Phân tích What-If
cho các mức độ nhu cầu khác nhau. Đầu tiên, tạo một cột giá trị
thực đơn. Trong trường Ô nhập cột, nhập B8; điều này cho công cụ
nhu cầu trong cột E chính xác như chúng ta đã làm trong Ví dụ
biết rằng các giá trị trong cột E là các giá trị khác nhau của nhu
11.15. Sau đó, trong ô F3, hãy nhập công thức =C22. Điều này chỉ
cầu trong mô hình. Khi bạn nhấp vào OK, công cụ sẽ tạo ra kết quả
đơn giản là tham chiếu đầu ra của mô hình lợi nhuận. Đánh sáng
(mà chúng tôi đã định dạng là tiền tệ) được hiển thị trong Hình
phạm vi E3:F11 (lưu ý rằng phạm vi này bao gồm cả cột nhu cầu
11.22.
cũng như tham chiếu ô đến
Chúng tôi có thể đánh giá nhiều đầu ra bằng bảng dữ liệu một chiều.
VÍ DỤ 11.17 Bảng dữ liệu một chiều có nhiều đầu ra
Giả sử rằng chúng ta muốn kiểm tra tác động của nhu cầu không
và “Doanh thu” trong G2 để xác định kết quả. Sau đó, đánh dấu phạm
chắc chắn đối với doanh thu ngoài lợi nhuận. Chúng tôi chỉ cần
vi E3:G11 và tiến hành như được mô tả trong ví dụ trước. Quá
thêm một cột khác vào bảng dữ liệu. Trong trường hợp này, hãy
trình này cho kết quả là bảng dữ liệu như hình 11.23.
chèn công thức =C15 vào ô G3. Ngoài ra, hãy thêm nhãn “Lợi nhuận” trong F2
Hình 11.21
Hộp thoại bảng dữ liệu
Machine Translated by Google
chương 11
365
Hình 11.22
Bảng dữ liệu một chiều cho
Nhu cầu không chắc chắn
Hình 11.23
Bảng dữ liệu một chiều
với hai đầu ra
Để tạo bảng dữ liệu hai chiều, hãy nhập danh sách các giá trị cho một biến đầu
vào trong một cột và danh sách các giá trị đầu vào cho biến đầu vào thứ hai trong một
hàng, bắt đầu từ một hàng phía trên và một cột ở bên phải của danh sách cột . Trong ô
ở góc trên bên trái, ngay phía trên danh sách cột và bên trái danh sách hàng, hãy nhập
tham chiếu ô của biến đầu ra mà bạn muốn đánh giá. Chọn phạm vi ô có chứa tham chiếu ô
này và cả hàng và cột giá trị. Trên menu Phân tích What-If, bấm vào Bảng dữ liệu.
Trong ô đầu vào Hàng của hộp thoại, nhập tham chiếu cho ô đầu vào trong mô hình tương
ứng với các giá trị đầu vào trong hàng. Trong hộp ô nhập Cột,
VÍ DỤ 11.18 Bảng dữ liệu hai chiều cho mô hình lợi nhuận
Trong hầu hết các mô hình, các giả định được sử dụng cho dữ
tham chiếu đến lợi nhuận trong mô hình. Chọn phạm vi của
liệu đầu vào thường không chắc chắn. Ví dụ, trong mô hình
tất cả dữ liệu (không bao gồm tiêu đề mô tả) rồi chọn công
lợi nhuận, chi phí đơn vị có thể bị ảnh hưởng bởi sự thay
cụ bảng dữ liệu trong Phân tích What-If
đổi giá của nhà cung cấp và các yếu tố lạm phát. Tiếp thị
thực đơn. Trong hộp thoại Bảng dữ liệu, nhập B6 cho hàng
có thể đang xem xét điều chỉnh giá để đáp ứng mục tiêu lợi
trong ô đặt vì đơn giá tương ứng với ô B6 trong mô hình
nhuận. Chúng tôi sử dụng bảng dữ liệu hai chiều để đánh
và nhập B5 cho ô nhập Cột vì đơn giá tương ứng với ô B5.
giá tác động của việc thay đổi các giả định này. Đầu tiên,
Hình 11.24 cho thấy kết quả đã hoàn thành.
tạo một cột cho đơn giá bạn muốn đánh giá và một hàng cho
đơn giá dưới dạng ma trận. Ở góc trên bên trái, nhập công thức =C22,
Machine Translated by Google
366
chương 11
Hình 11.24
Bảng dữ liệu hai chiều
nhập tham chiếu cho ô đầu vào trong mô hình tương ứng với các giá trị đầu vào trong
cột. Sau đó bấm OK.
Các bảng dữ liệu hai chiều chỉ có thể đánh giá một biến đầu ra. Để đánh giá bội số
đặt các biến, bạn phải xây dựng nhiều bảng hai chiều.
Trình quản lý kịch bản
Công cụ Trình quản lý Kịch bản Excel cho phép bạn tạo các kịch bản—tập hợp các giá trị
được lưu và có thể được thay thế tự động trên trang tính của bạn. Các kịch bản rất
hữu ích để tiến hành phân tích what-if khi bạn có nhiều hơn hai biến đầu ra (mà bảng dữ
liệu không thể xử lý). Trình quản lý Kịch bản Excel được tìm thấy trong Phân tích What-If
menu trong nhóm Công cụ dữ liệu trên tab Dữ liệu. Khi công cụ được khởi động, hãy nhấp
vào nút Thêm để mở hộp thoại Thêm Kịch bản và xác định một kịch bản (xem Hình 11.25).
Nhập tên của kịch bản vào hộp Tên kịch bản. Trong hộp Thay đổi ô, hãy nhập các tham
chiếu, được phân tách bằng dấu phẩy, cho các ô trong mô hình mà bạn muốn đưa vào kịch
bản (hoặc giữ phím Ctrl và bấm vào các ô). Trong hộp thoại Giá trị kịch bản xuất hiện
tiếp theo, hãy nhập giá trị cho từng ô thay đổi. Nếu bạn đã đưa chúng vào bảng tính của
mình, bạn chỉ cần tham khảo chúng. Sau khi tất cả các kịch bản được thêm vào, chúng có
thể được chọn bằng cách nhấp vào tên của kịch bản và sau đó nhấp vào nút Hiển thị.
Excel sẽ thay đổi tất cả giá trị của các ô trong bảng tính của bạn để tương ứng với
giá trị được xác định bởi tình huống để bạn xem kết quả trong mô hình. Khi bạn nhấp
vào nút Tóm tắt trên hộp thoại Trình quản lý Kịch bản, bạn sẽ được nhắc nhập các ô kết
quả và chọn báo cáo tóm tắt hoặc báo cáo PivotTable. Trình quản lý kịch bản có thể xử
lý tối đa 32 biến.
Hình 11.25
Thêm hộp thoại kịch bản
Machine Translated by Google
367
chương 11
VÍ DỤ 11.19 Sử dụng Trình quản lý kịch bản cho Mô hình định giá Markdown
Trong bảng tính Mô hình định giá Markdown, giả sử rằng
ô B7 hoặc =E3 cho ô B8 đang thay đổi. Lặp lại quy
chúng ta muốn đánh giá bốn chiến lược khác nhau,
trình này cho từng kịch bản. Nhấp vào nút Tóm tắt.
được thể hiện trong Hình 11.26. Trong hộp thoại Thêm
Trong hộp thoại Tóm tắt tình huống xuất hiện tiếp theo,
kịch bản, nhập Ten/ten làm tên kịch bản và chỉ định
hãy nhập C33 (tổng doanh thu) làm ô kết quả. Trình
các ô thay đổi là B7 và B8 (nghĩa là số ngày ở mức giá
quản lý Kịch bản đánh giá mô hình cho từng tổ hợp giá
bán lẻ đầy đủ và mức giảm giá trung gian). Trong hộp
trị và tạo báo cáo tóm tắt như trong Hình 11.27. Kết
thoại Giá trị kịch bản, hãy nhập giá trị cho các biến
quả chỉ ra rằng lợi nhuận lớn nhất có thể thu được
này vào các trường thích hợp hoặc nhập công thức cho
bằng cách sử dụng chiến lược giảm giá hai mươi/hai mươi.
tham chiếu ô; ví dụ: nhập =E2 để thay đổi
Tìm kiếm mục tiêu
Nếu bạn biết kết quả mình muốn từ một công thức nhưng không chắc giá trị đầu vào mà công
thức cần để nhận được kết quả đó, hãy sử dụng tính năng Tìm kiếm Mục tiêu trong Excel. Goal
Seek chỉ hoạt động với một giá trị đầu vào thay đổi. Nếu bạn muốn xem xét nhiều hơn một giá
trị đầu vào hoặc muốn tối đa hóa hoặc giảm thiểu một số mục tiêu, bạn phải sử dụng phần bổ trợ
Bộ giải, phần bổ trợ này sẽ được thảo luận trong các chương khác. Trên tab Dữ liệu, trong
nhóm Công cụ dữ liệu, bấm vào Phân tích nếu-xảy ra, rồi bấm vào Tìm kiếm mục tiêu. Hộp thoại
như Hình 11.28 sẽ xuất hiện. Trong hộp Đặt ô, hãy nhập tham chiếu cho ô chứa công thức mà
bạn muốn giải quyết. Trong hộp Đến giá trị, hãy nhập kết quả công thức mà bạn muốn. Trong hộp
Bằng cách thay đổi ô, hãy nhập tham chiếu cho ô chứa giá trị mà bạn muốn điều chỉnh.
Hình 11.26
Mô hình định giá Markdown với các kịch bản
Hình 11.27
Tóm tắt kịch bản cho
Mô hình định giá Markdown
Hình 11.28
Hộp thoại tìm kiếm mục tiêu
Machine Translated by Google
368
chương 11
Hình 11.29
Phân tích hòa vốn bằng cách sử dụng
Tìm kiếm mục tiêu
VÍ DỤ 11.20 Tìm điểm hòa vốn trong mô hình thuê ngoài
Trong mô hình quyết định thuê ngoài mà chúng tôi đã giới
ume trong ô B12 mang lại giá trị bằng 0 trong ô B19. Trong
thiệu trong Chương 1 và phát triển một bảng tính trong Ví dụ
hộp thoại Tìm kiếm mục tiêu, nhập B19 cho ô Đặt, nhập 0 vào
11.3 tr. 352, chúng ta có thể muốn tìm điểm hòa vốn. Điểm
hộp Giá trị tới và nhập B12 vào ô Bằng cách thay đổi
hòa vốn là giá trị của lượng cầu mà tại đó tổng chi phí sản
hộp. Công cụ Goal Seek xác định rằng khối lượng hòa vốn là
xuất bằng tổng chi phí mua, hoặc tương đương, chênh lệch
1.000 và nhập giá trị này vào ô B12 trong mô hình, như trong
bằng không.
Hình 11.29.
Do đó, bạn tìm cách tìm giá trị sản xuất vol
Phân tích mô hình bằng Nền tảng bộ giải phân tích
Nền tảng bộ giải phân tích (xem phần trong Chương 2 về phần bổ trợ bảng tính) cung cấp khả năng phân
tích độ nhạy để khám phá mô hình bảng tính, đồng thời xác định và trực quan hóa các tham số đầu vào chính
có tác động lớn nhất đến kết quả mô hình.
Phân tích độ nhạy tham số
Phân tích độ nhạy tham số là thuật ngữ được sử dụng bởi Nền tảng bộ giải phân tích cho các phương
pháp phân tích giả định của hệ thống. Một tham số chỉ đơn giản là một phần dữ liệu đầu vào trong một mô hình.
Với Nền tảng bộ giải phân tích, bạn có thể dễ dàng tạo các bảng dữ liệu một chiều và hai chiều và một loại
biểu đồ đặc biệt, được gọi là biểu đồ lốc xoáy, cung cấp thông tin giả định hữu ích.
VÍ DỤ 11.21 Tạo bảng dữ liệu với Nền tảng bộ giải phân tích
Giả sử rằng chúng ta muốn tạo một bảng dữ liệu một chiều để
Thao tác này sẽ mở hộp thoại Đối số chức năng (Hình 11.31),
đánh giá lợi nhuận khi đơn giá trong ô B5 thay đổi từ 35
trong đó bạn chỉ định một tập hợp các giá trị hoặc một phạm
đô la đến 45 đô la trong mô hình lợi nhuận (xem Hình 11.4).
vi. Để tạo bảng dữ liệu, hãy chọn ô kết quả tương ứng với
Trước tiên, hãy xác định ô này làm tham số trong Nền tảng bộ
đầu ra của mô hình—trong trường hợp này là ô C22. Sau đó
giải phân tích. Chọn ô B5 rồi nhấp vào Tham số
nhấp vào nút Báo cáo và nhấp vào Phân tích tham số từ menu
trong ruy-băng (Hình 11.30) và chọn Độ nhạy.
Độ nhạy. Thao tác này sẽ hiển thị hộp thoại Báo cáo độ nhạy
Machine Translated by Google
369
chương 11
(Hình 11.32). Bạn có thể sử dụng các mũi tên để di chuyển các
như chi phí đơn vị. Với hai tham số, hãy nhớ đánh dấu vào ô
ô vào ô bên phải; điều này hữu ích nếu bạn đã xác định nhiều
Vary Parameters Independent gần cuối.
tham số đầu vào và muốn tiến hành các phân tích độ nhạy khác
Bạn cũng có thể tạo biểu đồ để trực quan hóa bảng dữ liệu
nhau. Nền tảng bộ giải phân tích sẽ tạo một trang tính mới
bằng cách chọn ô kết quả, bấm vào nút Biểu đồ, sau đó bấm vào
với bảng dữ liệu, như thể hiện trong Hình 11.33.
Phân tích tham số từ Độ nhạy
thực đơn. Hình 11.34 cho thấy một bảng dữ liệu hai chiều và
Để tạo bảng dữ liệu hai chiều, hãy xác định hai đầu vào là
một biểu đồ ba chiều khi cả đơn giá và chi phí đơn vị đều thay
tham số và trong hộp thoại Báo cáo độ nhạy. Ví dụ: chúng tôi
đổi. Chúng tôi khuyến khích bạn thay thế các tham chiếu ô
cũng có thể muốn thay đổi cả đơn giá
($B$5, $B$6 và $C$22) bằng các tên mô tả để dễ hiểu kết quả.
Hình 11.30
Nền tảng bộ giải phân tích
Ruy-băng
Hình 11.31
Bộ giải phân tích
Chức năng nền tảng
Đối số hộp thoại
Hình 11.32
Hộp thoại báo cáo độ nhạy
Machine Translated by Google
370
chương 11
Hình 11.33
Báo cáo phân tích độ nhạy—
Bảng dữ liệu một chiều
Hình 11.34
biểu đồ lốc xoáy
Như chúng ta đã thấy, biểu đồ, đồ thị và các công cụ hỗ trợ trực quan khác đóng vai trò quan trọng trong việc
phân tích Bảng và Biểu đồ Dữ liệu Hai chiều.
dữ liệu và mô hình. Một công cụ hữu ích là biểu đồ lốc xoáy. Biểu đồ cơn lốc xoáy cho thấy bằng đồ họa
tác động của sự thay đổi trong đầu vào mô hình đối với một số đầu ra trong khi giữ tất cả các đầu ra
khác không đổi. Thông thường, chúng tôi chọn một trường hợp cơ sở và sau đó thay đổi đầu vào theo một
số phần trăm tuổi, chẳng hạn như cộng hoặc trừ 10% hoặc 20%. Vì mỗi đầu vào đều khác nhau, chúng tôi ghi
lại các giá trị của đầu ra và lập biểu đồ phạm vi của đầu ra trong biểu đồ thanh theo thứ tự giảm dần.
Điều này thường dẫn đến hình dạng phễu, do đó có tên này.
Biểu đồ lốc xoáy cho thấy đầu vào nào có ảnh hưởng lớn nhất đến đầu ra và đầu vào nào ít ảnh hưởng
nhất. Nếu những yếu tố đầu vào này không chắc chắn, thì có lẽ bạn sẽ muốn nghiên cứu những yếu tố có ảnh
hưởng hơn để giảm bớt sự không chắc chắn và ảnh hưởng của nó đối với đầu ra. Nếu các tác động nhỏ, bạn
có thể bỏ qua bất kỳ sự không chắc chắn nào hoặc loại bỏ các tác động đó khỏi mô hình. Chúng cũng hữu ích
trong việc giúp bạn chọn đầu vào mà bạn muốn phân tích sâu hơn với bảng dữ liệu hoặc kịch bản.
VÍ DỤ 11.22 Tạo Biểu đồ Lốc xoáy trong Nền tảng Bộ giải Phân tích
Tạo biểu đồ lốc xoáy trong Nền tảng bộ giải phân tích cực kỳ
kết quả. Chúng tôi thấy rằng sự thay đổi 10% trong ô B5, đơn giá,
dễ thực hiện. Nền tảng bộ giải phân tích tự động xác định tất
ảnh hưởng nhiều nhất đến lợi nhuận, tiếp theo là chi phí đơn vị, số
cả các ô đầu vào dữ liệu mà ô đầu ra phụ thuộc vào đó và tạo
lượng sản xuất, chi phí cố định và nhu cầu. Nếu bạn không muốn thay
biểu đồ. Trong mô hình lợi nhuận
đổi tất cả các tham số theo cùng một tỷ lệ phần trăm, thì bạn có thể
bảng tính, chọn ô C22; sau đó nhấp vào Tham số
xác định các phạm vi theo cách tương tự như chúng tôi đã làm đối
và chọn Xác định. Hình 11.35 cho thấy
với các ví dụ về bảng dữ liệu.
Machine Translated by Google
chương 11
371
Hình 11.35
Độ nhạy lốc xoáy
Biểu đồ cho lợi nhuận
Người mẫu
Điều khoản quan trọng
Bảng dữ liệu
kịch bản
Xác nhận dữ liệu
kỹ thuật bảng tính
Điều khiển biểu mẫu
Biểu đồ lốc xoáy
vấn đề nhà cung cấp báo
Bảng dữ liệu hai chiều
Bảng dữ liệu một chiều
hiệu lực
Đặt trước quá nhiều
xác minh
Phân tích độ nhạy tham số
Những gì nếu phân tích
Báo cáo thu nhập chiếu lệ
vấn đề và bài tập
1. Xây dựng mô hình bảng tính cho kịch bản sử dụng xăng, Bài toán
thanh toán thế chấp hàng tháng phải chăng. Ngoài ra, các hướng
4 trong Chương 1, sử dụng dữ liệu được cung cấp. Áp dụng các
dẫn cũng đề xuất rằng tổng số khoản thanh toán nợ hàng tháng hợp
nguyên tắc của kỹ thuật bảng tính trong việc phát triển mô hình
túi tiền, bao gồm cả chi phí nhà ở, không được vượt quá 36%
của bạn.
2. Phát triển một mô hình bảng tính cho Bài toán 5 trong Chương
1. Áp dụng các nguyên tắc của kỹ thuật bảng tính trong việc
phát triển mô hình của bạn. Sử dụng bảng tính để tạo bảng cho
nhiều mức giá nhằm giúp bạn xác định mức giá mang lại doanh
thu tối đa.
3. Phát triển một mô hình bảng tính để xác định số tiền mà một
tổng thu nhập hàng tháng. Con số này được tính bằng cách lấy
36% tổng thu nhập hàng tháng trừ đi tổng chi phí nhà ở không
thế chấp và bất kỳ khoản nợ trả góp nào khác, chẳng hạn như
khoản vay mua ô tô, khoản vay sinh viên, nợ thẻ tín dụng, v.v.
Khoản thanh toán thế chấp hàng tháng hợp lý và tổng số khoản
thanh toán nợ hàng tháng hợp lý là khoản thế chấp hàng tháng
hợp lý. Để tính số tiền tối đa có thể được vay, hãy tìm khoản
thanh toán hàng tháng cho mỗi khoản thế chấp 1.000 đô la dựa
người hoặc một cặp vợ chồng có thể chi trả cho một ngôi nhà.7
trên lãi suất hiện tại và thời hạn của khoản vay. Chia số tiền
Hướng dẫn của bên cho vay đề xuất rằng chi phí nhà ở hàng
thế chấp hợp lý hàng tháng cho khoản thanh toán hàng tháng này
tháng có thể cho phép không được vượt quá 28% tổng thu nhập
để tìm khoản thế chấp hợp lý. Giả sử khoản thanh toán trước
hàng tháng. Từ đó, bạn phải trừ tổng chi phí nhà ở không thế
20%, giá tối đa của một ngôi nhà sẽ là khoản thế chấp hợp lý
chấp, bao gồm bảo hiểm và thuế bất động sản và bất kỳ chi phí
chia cho 0,8. Sử dụng
bổ sung nào khác. Điều này xác định
7Dựa trên Ralph R. Frasca, Tài chính cá nhân, tái bản lần thứ 8. (Boston: Hội trường Prentice, 2009).
Machine Translated by Google
chương 11
372
dữ liệu sau đây để kiểm tra mô hình của bạn: tổng thu nhập
gộp hàng tháng $6.500; chi phí nhà ở không thế chấp $350;
nợ trả góp hàng tháng $500; khoản thanh toán hàng tháng
cho mỗi khoản thế chấp $1.000 là $7,25.
4. MasterTech là một công ty phần mềm mới phát triển và tiếp
Một. Sử dụng thông tin này để vẽ sơ đồ ảnh hưởng bằng
cách nhận ra rằng cụm từ “A có liên quan đến B” ngụ
ý rằng A ảnh hưởng đến B trong mô hình.
b. Nếu chúng ta cho rằng cụm từ “A có liên quan đến B” có
thể được dịch sang thuật ngữ toán học là A kB, trong
thị phần mềm năng suất cho các ứng dụng của chính quyền
đó k là một hằng số nào đó, hãy phát triển một mô
thành phố. Khi phát triển báo cáo thu nhập của họ, các
hình toán học cho thông tin được cung cấp.
công thức sau đây được sử dụng:
lợi nhuận gộp doanh thu thuần - giá vốn hàng bán
lợi nhuận hoạt động thuần lợi nhuận gộp
- chi phí quản lý doanh nghiệp - chi phí bán hàng
Thu nhập ròng trước thuế Lợi nhuận thuần từ hoạt
động kinh doanh - Chi phí lãi vay
thu nhập ròng thu nhập ròng trước thuế - thuế
7. Một ban nhạc muốn tổ chức một buổi hòa nhạc. Đám đông dự
kiến là 3.000. Chi phí trung bình cho các ưu đãi là 15
đô la. Mỗi vé được bán với giá 10 đô la và lợi nhuận của
ban nhạc là 80% doanh thu tại cổng và nhượng quyền, trừ
đi chi phí cố định là 12.000 đô la. Phát triển một mô
hình toán học tổng quát và thực hiện nó trên một bảng tính
để tìm lợi nhuận kỳ vọng của họ.
Doanh thu thuần dự kiến là $1,250,000. Chi phí bán hàng
ước tính là $300,000. Chi phí bán hàng có thành phần cố
định ước tính là 90.000 USD và thành phần biến đổi ước
8. Radio Shop có bán 2 mẫu porta phổ biến
radio thể thao ble, model A và model B. Doanh số bán các
tính là 8% doanh thu thuần. Chi phí hành chính là $50,000.
sản phẩm này không độc lập với nhau (trong kinh tế học,
Chi phí lãi suất là 8.000 đô la. Công ty bị đánh thuế ở
chúng ta gọi đây là những sản phẩm có thể thay thế, bởi
mức 50%. Xây dựng mô hình bảng tính để tính thu nhập ròng.
vì nếu giá của một sản phẩm này tăng thì doanh số của sản
Thiết kế bảng tính của bạn bằng cách sử dụng các nguyên
phẩm kia sẽ tăng). Cửa hàng mong muốn thiết lập chính sách
tắc kỹ thuật bảng tính tốt.
giá để tối đa hóa doanh thu từ các sản phẩm này. Một
nghiên cứu về giá và dữ liệu bán hàng cho thấy các mối
quan hệ sau đây giữa số lượng bán (N) và giá (P) của từng
5. Một công ty đang cố gắng dự đoán thị phần dài hạn của một
kiểu máy:
sản phẩm khử mùi mới dành cho nam giới.8 Dựa trên các
nghiên cứu tiếp thị ban đầu, họ tin rằng 35% những người
mua hàng mới trên thị trường này cuối cùng sẽ thử nhãn hiệu này.
Họ tin rằng khoảng 60% khách hàng sẽ mua thương hiệu của
họ trong tương lai. Dữ liệu sơ bộ cũng cho thấy rằng
thương hiệu sẽ thu hút những người mua nặng hơn mức
trung bình, chẳng hạn như những người thường xuyên tập
thể dục và tham gia thể thao, và họ sẽ mua nhiều hơn
khoảng 20% so với người mua trung bình.
Một. Tính thị phần dài hạn mà công ty có thể dự kiến
theo các giả định này.
b. Phát triển một mô hình chung để dự đoán thị phần dài
hạn.
NA 20 - 0,62PA + 0,30PB
NB 29 + 0,10PA - 0,60PB
Một. Xây dựng một mô hình cho tổng doanh thu và triển
khai nó trên bảng tính.
b. Doanh thu dự đoán là bao nhiêu nếu PA +18 và PB +30?
Điều gì sẽ xảy ra nếu giá là PA +25
và PB +50?
9. Đối với một sản phẩm mới, doanh số bán hàng trong năm đầu
tiên ước tính là 80.000 chiếc và dự kiến sẽ tăng trưởng
với tốc độ 4% mỗi năm. Giá bán là $12 và sẽ tăng $0,5 mỗi
năm. Chi phí biến đổi trên mỗi đơn vị là 3 đô la và chi
phí cố định hàng năm là 400.000 đô la.
6. Một mô hình đơn giản hóa (rất nhiều) của nền kinh tế quốc
Chi phí cho mỗi đơn vị dự kiến sẽ tăng 5% mỗi năm.
gia có thể được mô tả như sau. Thu nhập quốc gia là tổng
Chi phí cố định dự kiến sẽ tăng 8% mỗi năm.
của ba thành phần: tiêu dùng, đầu tư và chi tiêu của chính
Xây dựng mô hình bảng tính để tính giá trị hiện tại ròng
phủ. Tiêu dùng có liên quan đến tổng thu nhập của tất cả
của lợi nhuận trong khoảng thời gian 3 năm, giả sử tỷ
các cá nhân và thuế mà họ phải trả cho thu nhập. Thuế phụ
lệ chiết khấu là 4%.
thuộc vào tổng thu nhập và thuế suất. Đầu tư cũng liên
quan đến quy mô của tổng thu nhập.
10. Một nhà môi giới chứng khoán kêu gọi các khách hàng tiềm năng
từ những người được giới thiệu. Đối với mỗi cuộc gọi, có 10%
cơ hội khách hàng sẽ quyết định đầu tư với công ty. Năm mươi lăm
8Dựa trên một ví dụ về mô hình Parfitt-Collins trong Gary L. Lilien, Philip Kotler, và K. Sridhar Moorthy, Các mô hình tiếp thị (Englewood
Cliffs, NJ: Prentice Hall, 1992): 483.
Machine Translated by Google
373
chương 11
phần trăm những người quan tâm bị phát hiện là không
thay đổi từ 10 đến 30 bản mỗi tháng. Phải bán bao nhiêu
đủ tiêu chuẩn, dựa trên tiêu chí sàng lọc của công ty
để ít nhất hòa vốn?
môi giới. Số còn lại đủ tiêu chuẩn. Trong số này, một
nửa sẽ đầu tư trung bình 5.000 đô la, 25% sẽ đầu tư
trung bình 20.000 đô la, 15% sẽ đầu tư trung bình 50.000
đô la và phần còn lại sẽ đầu tư 100.000 đô la.
Lịch hoa hồng như sau:
13. Koehler Vision Associates (KVA) chuyên về phẫu thuật
chỉnh sửa mắt bằng laser. Các bệnh nhân tương lai đặt
lịch hẹn khám sàng lọc trước để xác định khả năng ứng
cử của họ cho cuộc phẫu thuật: nếu họ đủ điều kiện,
khoản phí $250 sẽ được áp dụng như một khoản đặt cọc
cho thủ tục thực tế. Nhu cầu hàng tuần là 150 và khoảng
Hoa hồng số tiền giao dịch
12% bệnh nhân tương lai không đến hoặc hủy buổi khám
Lên đến 25.000 đô la
$50 + 0,5% số tiền
$25,001 đến $50,000
$75 + 0,4% số tiền
$50,001 đến $100,000
$125 + 0,3% số tiền
Người môi giới giữ một nửa hoa hồng. Xây dựng một bảng
tính để tính hoa hồng của nhà môi giới dựa trên số
lượng cuộc gọi được thực hiện mỗi tháng.
Hoa hồng dự kiến dựa trên việc thực hiện 600 cuộc gọi
là bao nhiêu?
phố cỡ trung của Mỹ đang lên kế hoạch cho chiến dịch gây quỹ
tiếp theo. Trong những năm gần đây, chương trình đã tìm được
tỷ lệ phần trăm người quyên góp và mức quà tặng như sau:
Số lượng quà tặng
mức quà tặng
Số lượng
trung bình
ân nhân
10.000 USD
3
nhà hảo tâm
5.000 USD
10
nhà sản xuất
$1,000
25
$500
50
Vòng tròn
nghệ sĩ độc tấu
đặt trước quá nhiều cuộc hẹn của mình để giảm doanh thu
bị mất liên quan đến việc hủy bỏ. Tuy nhiên, bất kỳ bệnh
nhân nào đặt trước quá hạn đều có thể lan truyền những
bình luận bất lợi về công ty; do đó, chi phí đặt trước
quá nhiều được ước tính là $125. Xây dựng mô hình bảng
tính doanh thu thuần. Tìm doanh thu thuần và số lượng
hiện.
14. Công viên Tanner là một công viên giải trí nhỏ cung cấp
nhiều trò chơi và hoạt động ngoài trời cho trẻ em và
thanh thiếu niên. Trong một mùa hè điển hình, số lượng
vé người lớn và trẻ em được bán lần lượt là 20.000 và
10.000. Giá vé người lớn là $18 và giá trẻ em là $10.
Doanh thu từ nhượng quyền thực phẩm và đồ uống ước
tính là 60.000 đô la và doanh thu hàng lưu niệm dự kiến
là 25.000 đô la. Chi phí biến đổi cho mỗi người (người
lớn hoặc trẻ em) là 3 đô la và chi phí cố định lên tới
150.000 đô la. Xác định khả năng sinh lời của hoạt động
Vòng tròn
Hiệu trưởng
lại phí sàng lọc trước trừ đi $25 phí xử lý. KVA có
thể xử lý 125 bệnh nhân mỗi tuần và đang xem xét việc
đã đặt trước nếu có 140 đến 150 cuộc hẹn được thực
11. Giám đốc của một công ty múa ba lê phi lợi nhuận ở một thành
Đạo diễn
vào phút cuối. Những bệnh nhân không có mặt được hoàn
kinh doanh này.
15. Với sự phát triển của nhiếp ảnh kỹ thuật số, một doanh
$100
7% lời gạ gẫm
nhân trẻ đang cân nhắc thành lập một doanh nghiệp mới,
$50
12% lời gạ gẫm
Cruz Wedding Photography. Anh ấy tin rằng số lượng đặt
tiệc cưới trung bình mỗi năm là 15. Một trong những
Phát triển một mô hình bảng tính để tính toán tổng số
biến số quan trọng trong việc phát triển kế hoạch kinh
tiền quyên góp dựa trên thông tin này nếu số lượng
doanh của anh ấy là tuổi thọ mà anh ấy có thể mong đợi
công ty liên hệ với 1000 người tiềm năng không quyên
từ một chiếc máy ảnh phản xạ ống kính đơn kỹ thuật số
góp ở mức 100 đô la trở xuống.
(DSLR) duy nhất trước khi cần phải thay thế. Do sử dụng
12. Một siêu thị nhỏ bán xăng đặt mua 25 bản tạp chí hàng
tháng. Tùy thuộc vào câu chuyện trang bìa, nhu cầu về
tạp chí khác nhau. Siêu thị nhỏ xăng dầu mua các tạp
chí với giá 1,50 đô la và bán chúng với giá 4,00 đô
la. Bất kỳ tạp chí nào còn sót lại vào cuối tháng đều
nhiều, tuổi thọ màn trập ước tính là 150.000 lần nhấp.
Đối với mỗi đặt phòng, số lượng ảnh trung bình được
chụp được giả định là 2.000. Xây dựng mô hình xác định
tuổi thọ của camera (tính bằng năm).
16. Ủy ban điều hành của Reder Electric Xe đang tranh luận
được tặng cho bệnh viện và các cơ sở chăm sóc sức khỏe
về việc có nên thay thế mẫu xe ban đầu của họ, REV-
khác. Sửa đổi bảng tính mẫu của nhà cung cấp tin tức
Touring, bằng một mẫu xe mới, REV-Sport, sẽ thu hút đối
để mô hình hóa tình huống này. Điều tra ý nghĩa tài
tượng trẻ hơn hay không. Bất cứ loại xe nào được chọn
chính của chính sách này nếu nhu cầu dự kiến
sẽ được sản xuất trong 4 năm tới,
Machine Translated by Google
chương 11
374
sau thời gian đó sẽ cần phải đánh giá lại.
20. Chèn một nút xoay trong Moore Pharmaceuticals
REV-Sport đã trải qua giai đoạn ý tưởng và thiết kế ban
mô hình để thay đổi tỷ lệ chiết khấu trong ô B8 từ 1%
đầu và sẵn sàng cho thiết kế và sản xuất cuối cùng. Chi
thành 10% với mức tăng 1/10.
phí phát triển cuối cùng được ước tính là 75 triệu đô
la và chi phí cố định mới cho công cụ và sản xuất được
ước tính là 600 triệu đô la.
REV-Sport dự kiến sẽ được bán với giá 30.000 USD. Doanh số
bán hàng năm đầu tiên của REV-Sport ước tính là 60.000
21. Đối với mô hình Báo cáo Thu nhập Pro Forma trong tệp
Excel. bảng tính. (Gợi ý: các giá trị cuộn phải nằm
trong khoảng từ 0 đến 30.000, vì vậy bạn sẽ cần sửa
đổi bảng tính để bảng tính hoạt động chính xác.)
chiếc, với mức tăng trưởng doanh số bán hàng trong những
năm tiếp theo là 6% mỗi năm. Chi phí biến đổi trên mỗi
phương tiện là không chắc chắn cho đến khi các quyết định
về thiết kế và chuỗi cung ứng được hoàn tất, nhưng ước
tính là 22.000 USD. Doanh số bán hàng trong năm tới của REVTouring được ước tính là 50.000 chiếc, nhưng doanh số bán
22. Tạo một bảng tính mới trong Retirement Portfolio
sách bài tập. Trong trang tính này, hãy thêm kiểm soát
hàng dự kiến sẽ giảm với tốc độ 10% cho mỗi năm trong vòng
biểu mẫu hộp danh sách để cho phép người dùng chọn một
3 năm tới. Giá bán là 28.000 USD. Chi phí biến đổi cho mỗi
trong các quỹ tương hỗ trên trang tính gốc và hiển
chiếc xe là $21,000. Vì mô hình đã được sản xuất nên chi
thị tóm tắt giá trị tài sản ròng, số lượng cổ phiếu và
phí cố định cho việc phát triển đã được thu hồi. Phát triển
tổng giá trị bằng cách sử dụng hàm VLOOKUP. (Gợi ý: hộp
mô hình 4 năm để đề xuất quyết định tốt nhất bằng cách sử
danh sách của bạn sẽ hiển thị tên quỹ, nhưng bạn sẽ
dụng tỷ lệ chiết khấu giá trị hiện tại ròng là 5%. Mức độ
cần sửa đổi bảng tính gốc để sử dụng VLOOKUP chính xác!)
nhạy cảm của kết quả đối với chi phí biến đổi ước tính của
REV Sport? Làm thế nào điều này có thể ảnh hưởng đến quyết định?
17. Bảo tàng Schoch đang bắt tay vào chiến dịch gây quỹ vui
23. Sử dụng ma trận khoảng cách giữa các thành phố trong
tệp Giải bóng chày Mỹ, thêm các điều khiển biểu mẫu
hộp danh sách để người dùng có thể chọn hai thành phố
vẻ kéo dài 5 năm. Là một tổ chức phi lợi nhuận, bảo
(sử dụng hai hộp danh sách) và tìm khoảng cách giữa chúng.
tàng gặp khó khăn trong việc tìm kiếm các nhà tài trợ
Bỏ qua phần mô hình trong trang tính. (Gợi ý: đặt liên
mới vì nhiều nhà tài trợ không đóng góp hàng năm. Giả
kết ô thành ô trống bất kỳ vì hộp danh sách trả về số
sử rằng bảo tàng đã xác định được một nhóm 8.000 nhà
của vị trí trong danh sách; sau đó sử dụng VLOOKUP để
tài trợ tiềm năng. Số lượng thực tế của các nhà tài
tìm khoảng cách.)
trợ trong năm đầu tiên của chiến dịch được ước tính
là 65% của nhóm này. Đối với mỗi năm tiếp theo, bảo
tàng hy vọng rằng 35% số nhà tài trợ hiện tại sẽ ngừng
đóng góp. Ngoài ra, bảo tàng hy vọng sẽ thu hút được
một số phần trăm các nhà tài trợ mới. Điều này được
24. Bài toán 15 trong Chương 1 đặt ra tình huống sau: Một
nhà sản xuất máy nghe nhạc mp3 đang chuẩn bị định giá
cho một mẫu mã mới. Nhu cầu được cho là phụ thuộc vào
giá cả và được đại diện bởi mô hình
D 2.500 - 3P
tổng hợp là 10% của nhóm. Khoản đóng góp trung bình
trong năm đầu tiên được giả định là $50 và sẽ tăng với
tốc độ 2,5%. Phát triển một mô hình để dự đoán tổng số
tiền sẽ được huy động trong khoảng thời gian 5 năm và
Bộ phận kế toán ước tính rằng tổng chi phí có thể được
đại diện bởi
C5.000 + 5D
điều tra tác động của các giả định tỷ lệ phần trăm
được sử dụng trong mô hình.
18. Áp dụng công cụ Data Validation cho President's Inn
Tệp Cơ sở dữ liệu khách có hộp thông báo cảnh báo lỗi để
đảm bảo rằng các ngày nằm trong tháng 12 và được nhập
chính xác cũng như số lượng khách đã nhập không lớn
hơn 6. Nhập một số dữ liệu bổ sung hư cấu để xác minh
rằng kết quả của bạn là chính xác.
19. Chèn một nút xoay và thanh cuộn trong Mô hình quyết định
Triển khai mô hình của bạn trên bảng tính và xây dựng
bảng dữ liệu một chiều để ước tính mức giá tối đa hóa
lợi nhuận.
25. Bài toán 16 ở Chương 1 đặt ra tình huống sau: Nhu cầu
đi lại bằng máy bay khá nhạy cảm với giá cả. Thông
thường, có một mối quan hệ nghịch đảo giữa nhu cầu và
giá cả; khi giá giảm thì lượng cầu tăng và ngược lại.
Một hãng hàng không lớn đã phát hiện ra rằng khi giá
thuê ngoài để cho phép người dùng dễ dàng thay đổi
(p) cho chuyến khứ hồi giữa Chicago và Los Angeles là
khối lượng sản xuất trong ô B12 từ 500 thành 3000.
600 đô la, nhu cầu (D) là 500 hành khách mỗi ngày. Khi
Cái nào dễ sử dụng hơn? Thảo luận về ưu và nhược điểm
giá giảm xuống còn 400 đô la, nhu cầu là 1.200 hành
của mỗi.
khách
Machine Translated by Google
375
chương 11
mỗi ngày. Bạn được yêu cầu phát triển một mô hình thích hợp.
b. Giả sử người quản lý đang xem xét giảm hoặc tăng giá hàng
Triển khai mô hình của bạn trên bảng tính và sử dụng bảng dữ liệu
tuần thêm 100 đô la. Lợi nhuận sẽ bị ảnh hưởng như thế
để ước tính mức giá tối đa hóa tổng doanh thu.
nào?
28. Đối với mô hình Koehler Vision Associates mà bạn đã phát triển
26. Sử dụng mô hình bảng tính Mô hình định giá Markdown và bảng dữ
trong Bài toán 13, hãy sử dụng các bảng dữ liệu để nghiên cứu
liệu hai chiều để tìm tổng doanh thu nếu số ngày bán lẻ đầy đủ
xem doanh thu bị ảnh hưởng như thế nào bởi những thay đổi về
thay đổi từ 20 đến 40 với gia số 5 và giảm giá trung gian thay đổi
số điểm cuộc hẹn được chấp nhận và nhu cầu của bệnh nhân.
từ 15% đến 50% với gia số 5 %.
29. Đối với mô hình môi giới chứng khoán mà bạn đã phát triển trong Bài toán
10, hãy sử dụng các bảng dữ liệu để cho biết tiền hoa hồng là một hàm số
27. Giá hàng tuần tại một khách sạn lưu trú dài hạn (thuê theo tuần
như thế nào đối với số lượng giao dịch được thực hiện.
cho khách doanh nhân) là 950 USD. Chi phí vận hành trung bình
30. Đối với mô hình gây quỹ của công ty múa ba lê phi lợi nhuận mà bạn
là 20.000 USD mỗi tuần, bất kể số lượng phòng được thuê. Xây dựng
đã phát triển trong Bài toán 11, hãy sử dụng bảng dữ liệu để cho
mô hình bảng tính để xác định lợi nhuận nếu 40 phòng được cho
biết số tiền thay đổi như thế nào dựa trên số lượng lời kêu gọi.
thuê.
Người quản lý đã quan sát thấy rằng số lượng phòng được thuê
trong bất kỳ tuần nào thay đổi trong khoảng từ 32 đến 50 (tổng
31. Đối với mô hình dải nhà để xe mà bạn đã phát triển trong Bài
số phòng có sẵn).
toán 7, hãy xác định và chạy một số tình huống hợp lý bằng cách
sử dụng Trình quản lý Kịch bản để đánh giá khả năng sinh lợi cho
Một. Sử dụng bảng dữ liệu để đánh giá lợi nhuận cho phạm vi cho
các tình huống sau:
thuê đơn vị này.
Các kịch bản cho Bài toán 31
đám đông dự kiến
Chi phí nhượng bộ
Chi phí cố định
Lạc quan Bi quan
Rất có thể
3000
4500
2500
$15
$20
$12,50
$8,500
$12,500
10.000 USD
32. Hãy nghĩ về bất kỳ nhà bán lẻ nào điều hành nhiều cửa hàng trên
đó sẽ được cho thuê trong 5 năm. Một mô hình Excel được cung
khắp đất nước, chẳng hạn như Old Navy, Hallmark Cards hoặc
cấp trong bảng tính Mô hình tài chính cửa hàng mới. Sử dụng
Radio Shack, đó chỉ là một vài ví dụ. Nhà bán lẻ thường tìm
Trình quản lý kịch bản để đánh giá dòng tiền chiết khấu lũy kế
cách mở các cửa hàng mới và cần đánh giá khả năng sinh lời của
cho năm thứ năm theo các tình huống sau:
một địa điểm được đề xuất
Các kịch bản cho Bài toán 32
Tỷ lệ lạm phát
Tình huống 1 Tình huống 2 Tình huống 3
1%
5%
3%
25%
30%
Chi phí nhân công
$150,000
$225,000
200.000 USD
Các chi phí khác
300.000 USD
$350,000
$325,000
Doanh thu bán hàng đầu năm
$600,000
$600,000
$800,000
Tăng trưởng doanh số năm 2
15%
22%
25%
Tăng trưởng doanh số năm 3
10%
15%
18%
Tăng trưởng doanh số năm 4
6%
11%
14%
Tăng trưởng doanh số năm 5
3%
5%
Giá vốn hàng bán (% trên doanh thu)
26%
số 8%
Machine Translated by Google
376
chương 11
33. Trung tâm Phẫu thuật Hyde Park chuyên về phẫu thuật tim
36. Giám đốc tuyển sinh của một trường cao đẳng kỹ thuật có
mạch có nguy cơ cao. Trung tâm cần dự báo khả năng sinh
học bổng trị giá 500.000 đô la mỗi năm từ khoản tài trợ
lời trong vòng 3 năm tới để có kế hoạch tăng vốn cho các
dành cho những ứng viên đạt thành tích cao. Giá trị của
dự án. Trong năm đầu tiên, bệnh viện dự kiến phục vụ 1.200
mỗi học bổng được cung cấp là 25.000 đô la (do đó, 20 học
bệnh nhân, dự kiến sẽ tăng 8%/năm. Dựa trên các công thức
bổng được cung cấp). Nhà hảo tâm đã cung cấp số tiền muốn
hoàn trả tiền thuê nhà hiện tại, mỗi bệnh nhân thanh toán
thấy tất cả số tiền đó được sử dụng hàng năm cho các sinh
trung bình 125.000 đô la, sẽ tăng 3% mỗi năm. Tuy nhiên,
viên mới. Tuy nhiên, không phải sinh viên nào cũng nhận
do chăm sóc được quản lý, trung tâm chỉ thu 25% hóa đơn.
tiền; một số nhận lời mời từ các trường cạnh tranh. Nếu
Chi phí biến đổi cho vật tư và thuốc được tính bằng 10%
họ đợi đến khi hết thời hạn nhập học để từ chối học bổng,
hóa đơn. Chi phí cố định cho tiền lương, tiện ích, v.v.
học bổng đó không thể được trao cho người khác vì bất kỳ
sẽ lên tới 20.000.000 đô la trong năm đầu tiên và được giả
sinh viên giỏi nào khác cũng đã cam kết tham gia các
định là tăng 5% mỗi năm. Xây dựng mô hình bảng tính để tính
chương trình khác. Do đó, giám đốc tuyển sinh đưa ra
giá trị hiện tại ròng của lợi nhuận trong 3 năm tới. Sử
nhiều tiền hơn mức có sẵn với dự đoán rằng một phần trăm
dụng tỷ lệ chiết khấu là 4%. Xác định ba kịch bản hợp lý mà
lời đề nghị sẽ bị từ chối. Nếu hơn 20 sinh viên chấp nhận
giám đốc trung tâm có thể muốn đánh giá và sử dụng Trình
đề nghị, trường đại học cam kết tôn vinh họ và số tiền bổ
quản lý kịch bản để so sánh chúng.
sung phải lấy từ ngân sách của trưởng khoa. Dựa trên câu
chuyện trước đây của anh ấy, tỷ lệ ứng viên chấp nhận lời
mời là khoảng 70%. Phát triển một mô hình bảng tính cho
tình huống này và áp dụng bất kỳ công cụ phân tích nào mà
34. Đối với mô hình dải nhà để xe trong Bài toán 7, hãy xây
dựng biểu đồ lốc xoáy và giải thích độ nhạy của từng tham số
bạn cho là phù hợp để giúp giám đốc tuyển sinh đưa ra quyết
định về số lượng học bổng sẽ cung cấp.
của mô hình đối với tổng lợi nhuận.
35. Đối với mô hình sản phẩm mới trong Bài toán 9, hãy xây dựng
biểu đồ lốc xoáy và giải thích độ nhạy của từng tham số của
Giải thích kết quả của bạn trong một bản ghi nhớ kinh doanh cho
giám đốc, ông P. Woolston.
mô hình đối với NPV của lợi nhuận.
Trường hợp: Hiệu suất Lawn Thiết bị
Phần 1: Cơ sở dữ liệu Thiết bị làm cỏ Hiệu suất chứa dữ liệu cần thiết để lập báo cáo thu nhập chiếu
lệ. Các đại lý bán sản phẩm PLE đều nhận được 18% doanh thu bán hàng cho phần kinh doanh của họ và
khoản này được hạch toán vào chi phí bán hàng. Thuế suất là 50%. Xây dựng bảng tính Excel để trích
xuất và tóm tắt dữ liệu cần thiết để lập báo cáo thu nhập cho năm 2014 và triển khai mô hình Excel
dưới dạng báo cáo thu nhập theo mẫu cho công ty.
Phần 2: Giám đốc tài chính của Performance Lawn Equipment, J. Kenneth Valentine, muốn có một
mô hình để dự đoán thu nhập ròng trong 3 năm tới. Để làm được điều này, bạn cần xác định xem các
biến số trong báo cáo thu nhập theo quy ước có thể sẽ thay đổi như thế nào trong tương lai. Sử
dụng các phép tính và bảng tính mà bạn đã phát triển cùng với các dữ liệu lịch sử khác trong cơ sở
dữ liệu, hãy ước tính tỷ lệ thay đổi hàng năm về doanh thu bán hàng, giá vốn hàng bán, chi phí hoạt
động và chi phí lãi vay. Sử dụng các tỷ lệ này để sửa đổi báo cáo thu nhập pro Forma để dự đoán thu
nhập ròng trong 3 năm tới.
Do các ước tính mà bạn thu được từ dữ liệu lịch sử có thể không đúng trong tương lai, hãy
tiến hành phân tích điều gì xảy ra nếu, kịch bản và/hoặc độ nhạy tham số thích hợp để điều tra xem
các dự đoán có thể thay đổi như thế nào nếu những giả định này không đúng. Xây dựng một biểu đồ lốc
xoáy để cho thấy các giả định tác động như thế nào đến thu nhập ròng trong mô hình của bạn. Tóm tắt
kết quả và kết luận của bạn trong một báo cáo cho ông Valentine.
Machine Translated by Google
Phân tích rủi ro và mô
CHƯƠNG
phỏng Monte Carlo
iQoncept/Shutterstock.com
Mục tiêu học tập
Sau khi nghiên cứu chương này, bạn sẽ có thể:
Giải thích khái niệm và tầm quan trọng của việc phân tích rủi ro
Giải thích tầm quan trọng của “lỗi của số trung bình.”
trong các quyết định kinh doanh.
Tiến hành mô phỏng Monte Carlo sử dụng dữ liệu lịch sử và kỹ thuật
Sử dụng bảng dữ liệu để tiến hành mô phỏng Monte Carlo đơn
lấy mẫu lại.
giản.
Sử dụng phân phối được trang bị để xác định các biến không chắc chắn trong
Sử dụng Nền tảng bộ giải phân tích để phát triển, triển khai và
một mô phỏng.
phân tích các mô hình mô phỏng Monte Carlo.
Xác định và sử dụng các bản phân phối tùy chỉnh ở Monte Carlo
Tính khoảng tin cậy cho giá trị trung bình của đầu ra trong mô hình
mô phỏng.
mô phỏng.
Tương quan các biến không chắc chắn trong một mô hình mô phỏng
Xây dựng và giải thích các biểu đồ độ nhạy, lớp phủ, xu hướng
sử dụng Nền tảng bộ giải phân tích.
và hộp râu cho một mô hình mô phỏng.
377
Machine Translated by Google
378
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Đối với nhiều mô hình quyết định dự đoán mà chúng ta đã phát triển trong Chương 11, tất
cả dữ liệu—đặc biệt là các đầu vào không kiểm soát được—được giả định là đã biết và không
đổi. Các mô hình khác, chẳng hạn như mô hình nhà cung cấp tin tức, đặt trước quá nhiều
và lập kế hoạch nghỉ hưu, kết hợp các yếu tố đầu vào không thể kiểm soát, chẳng hạn như
nhu cầu của khách hàng, hủy phòng khách sạn và lợi tức đầu tư hàng năm, những mô hình này
thể hiện hành vi ngẫu nhiên. Chúng ta thường giả sử các biến như vậy là không đổi đối với sim
khuếch đại mô hình và phân tích. Tuy nhiên, nhiều tình huống đòi hỏi tính ngẫu nhiên phải
được kết hợp rõ ràng vào các mô hình của chúng tôi. Điều này thường được thực hiện bằng
cách xác định các phân phối xác suất cho các đầu vào không kiểm soát thích hợp. Như chúng
tôi đã lưu ý trước đó trong cuốn sách này, các mô hình bao gồm tính ngẫu nhiên được gọi
là các mô hình ngẫu nhiên hoặc xác suất. Các loại mô hình này giúp đánh giá rủi ro liên
quan đến hậu quả không mong muốn và tìm ra các quyết định tối ưu trong điều kiện không chắc chắn.
Rủi ro là khả năng xảy ra một kết quả không mong muốn. Nó có thể được đánh giá bằng
cách đánh giá xác suất mà kết quả sẽ xảy ra cùng với mức độ nghiêm trọng của kết quả. Ví
dụ, một khoản đầu tư có xác suất thua lỗ cao sẽ rủi ro hơn khoản đầu tư có xác suất thua
lỗ thấp hơn. Tương tự như vậy, một khoản đầu tư có thể dẫn đến khoản lỗ 10 triệu đô la
chắc chắn rủi ro hơn khoản đầu tư chỉ có thể dẫn đến khoản lỗ 10.000 đô la. Khi đánh giá
rủi ro, chúng ta có thể trả lời các câu hỏi như, Xác suất mà chúng ta sẽ gánh chịu tổn
thất tài chính là gì? So sánh xác suất của các tổn thất tiềm năng khác nhau như thế nào?
Xác suất mà chúng tôi sẽ hết hàng tồn kho là gì? Cơ hội mà một dự án sẽ được hoàn thành
đúng hạn là gì?
Phân tích rủi ro là một cách tiếp cận để phát triển “sự hiểu biết và nhận thức toàn diện
về rủi ro liên quan đến một biến quan tâm cụ thể (có thể là thước đo hoàn trả, hồ sơ dòng
tiền hoặc dự báo kinh tế vĩ mô).”1 Hertz và Thomas trình bày một kịch bản đơn giản để minh
họa khái niệm phân tích rủi ro:
Các giám đốc điều hành của một công ty thực phẩm phải quyết định có nên tung ra một
gói ngũ cốc lâu năm mới hay không. Họ đã đi đến kết luận rằng năm yếu tố là các biến
số khai thác ngăn cản: chi phí quảng cáo và xúc tiến, tổng thị trường ngũ cốc, thị
phần của sản phẩm này, chi phí vận hành và vốn đầu tư mới. Trên cơ sở ước tính “rất
có thể” cho từng biến số này, bức tranh có vẻ rất tươi sáng—mức lợi nhuận hợp lý
30%, cho thấy giá trị hiện tại ròng kỳ vọng dương đáng kể. Tuy nhiên, tương lai
này phụ thuộc vào từng ước tính “rất có thể” trở thành sự thật trong trường hợp
thực tế. Ví dụ, nếu mỗi “dự đoán có tính toán” này có 60% cơ hội đúng, thì chỉ có 8%
cơ hội mà cả năm dự đoán sẽ đúng (0,60 * 0,60 * 0,60 * 0,60 * 0,60) nếu các yếu tố
được giả định được độc lập. Vì vậy, lợi nhuận "kỳ vọng" hoặc giá trị hiện tại
1David B. Hertz và Howard Thomas, Phân tích rủi ro và các ứng dụng của nó (Chichester, Vương quốc Anh: John Wiley
& Sons, Ltd., 1983): 1.
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
379
biện pháp, thực sự phụ thuộc vào một sự trùng hợp khá khó xảy ra. Người ra quyết định cần
biết nhiều hơn về các giá trị khác được sử dụng để thực hiện từng ước tính trong số năm
ước tính và về những gì anh ta được hoặc mất từ các kết hợp khác nhau của các giá trị
này.2
Do đó, phân tích rủi ro tìm cách kiểm tra các tác động của sự không chắc chắn trong các ước tính
và khả năng tương tác của chúng với nhau đối với biến đầu ra quan tâm. Hertz và Thomas cũng lưu
ý rằng thách thức đối với các nhà phân tích rủi ro là định hình kết quả của các quy trình phân
tích rủi ro theo cách có ý nghĩa đối với người quản lý và cung cấp cái nhìn sâu sắc rõ ràng về
vấn đề, cho thấy rằng mô phỏng có nhiều lợi thế.
Trong chương này, chúng ta thảo luận về cách xây dựng và phân tích các mô hình liên quan
đến sự không chắc chắn và rủi ro bằng cách sử dụng Excel. Sau đó, chúng tôi giới thiệu Nền tảng
bộ giải phân tích để thực hiện mô phỏng Monte Carlo. Chúng tôi muốn chỉ ra rằng chủ đề mô phỏng
có thể lấp đầy toàn bộ cuốn sách. Một lĩnh vực mô phỏng hoàn toàn khác mà chúng tôi không đề cập
đến trong cuốn sách này, đó là mô phỏng các hệ thống động, chẳng hạn như hàng đợi, hệ thống kiểm
kê, hệ thống sản xuất, v.v. Điều này đòi hỏi các công cụ triển khai và tạo mô hình khác nhau và
được tiếp cận tốt nhất bằng cách sử dụng phần mềm thương mại.
Mô phỏng hệ thống là một công cụ quan trọng để phân tích hoạt động, trong khi mô phỏng Monte
Carlo, như chúng tôi mô tả, tập trung nhiều hơn vào phân tích rủi ro tài chính.
Mô hình bảng tính với các biến ngẫu nhiên
Trong Chương 5, chúng tôi đã mô tả cách lấy mẫu ngẫu nhiên từ các phân phối xác suất và tạo các
biến ngẫu nhiên nhất định bằng cách sử dụng các công cụ và hàm Excel. Chúng tôi sẽ sử dụng các kỹ
thuật này để chỉ ra cách kết hợp sự không chắc chắn vào các mô hình quyết định.
VÍ DỤ 12.1 Kết hợp sự không chắc chắn trong Mô hình quyết định thuê ngoài
Tham khảo lại mô hình quyết định thuê ngoài mà chúng tôi đã
standard_deviation), như được mô tả trong Chương 5, để tạo
giới thiệu trong Chương 1 và chúng tôi đã phát triển một mô
ra các giá trị ngẫu nhiên của nhu cầu (Khối lượng Sản xuất)
hình Excel trong Chương 11. Mô hình này được hiển thị lại
bằng cách thay thế đầu vào trong ô B12 của bảng tính bằng
trong Hình 12.1. Giả sử rằng khối lượng sản xuất là không chắc chắn.
công thức =ROUND(NORM.INV (RAND(), 1000, 100), 0).
Chúng ta có thể lập mô hình nhu cầu như một biến ngẫu nhiên
Hàm ROUND được sử dụng để đảm bảo rằng các giá trị sẽ là số
có phân bố xác suất nào đó. Giả sử nhà sản xuất có đủ dữ liệu
nguyên. Bất cứ khi nào nhấn phím F9 (trên PC Windows) hoặc nút
và thông tin để cho rằng nhu cầu (khối lượng sản xuất) sẽ
Tính toán ngay được nhấp từ nhóm Tính toán trong tab Công
được phân phối chuẩn với giá trị trung bình là 1.000 và độ
thức, trang tính sẽ được tính toán lại và giá trị của nhu cầu
lệch chuẩn là 100. Chúng ta có thể sử dụng hàm Excel NORM.INV
sẽ thay đổi ngẫu nhiên.
(xác suất, giá trị trung bình,
Mô phỏng Monte Carlo
Mô phỏng Monte Carlo là quá trình tạo ra các giá trị ngẫu nhiên cho các đầu vào không chắc chắn
trong một mô hình, tính toán các biến đầu ra quan tâm và lặp lại quá trình này cho nhiều
2
Sđd., 24.
Machine Translated by Google
380
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.1
Mô hình quyết định thuê ngoài
bảng tính
thử nghiệm để hiểu sự phân bố của các kết quả đầu ra. Ví dụ, trong mô hình quyết định
thuê ngoài, chúng ta có thể tạo ngẫu nhiên khối lượng sản xuất và tính toán chênh lệch
chi phí và quyết định liên quan, sau đó lặp lại điều này cho một số thử nghiệm. Có thể
dễ dàng thực hiện mô phỏng Monte Carlo trên bảng tính bằng bảng dữ liệu.
VÍ DỤ 12.2 Sử dụng bảng dữ liệu để mô phỏng bảng tính Monte Carlo
Hình 12.2 cho thấy một mô phỏng Monte Carlo cho mô hình
Số lượng thử nghiệm nhỏ mà chúng tôi sử dụng trong ví
quyết định thuê ngoài (Mô hình mô phỏng quyết định thuê
dụ này khiến lỗi lấy mẫu trở thành một vấn đề quan trọng. Chúng
ngoài trong tệp Excel). Đầu tiên, xây dựng một bảng dữ
tôi có thể dễ dàng thu được các kết quả khác biệt đáng kể nếu
liệu (xem Chương 11) bằng cách liệt kê số lượng thử
chúng tôi lặp lại mô phỏng (bằng cách nhấn phím F9 trên PC
nghiệm trong một cột (ở đây chúng tôi sử dụng 20 thử
Windows). Ví dụ: các mô phỏng lặp đi lặp lại mang lại tỷ lệ
nghiệm) và tham chiếu các ô liên quan đến nhu cầu, sự khác
phần trăm sau đây cho việc thuê ngoài là quyết định tốt nhất:
biệt và quyết định trong các ô E3, F3 và G3, tương ứng
40%, 60%, 65%, 45%, 75%, 45% và 35%. Có sự thay đổi đáng kể
(nghĩa là công thức trong ô E3 là =B12; trong ô F3 là
trong kết quả, nhưng điều này có thể được giảm bớt bằng cách
=B19; và trong ô G3 là =B20). Chọn phạm vi của bảng (D3:G23)
sử dụng một số lượng lớn các thử nghiệm.
—và đây là mẹo—trong trường Ô đầu vào cột trong hộp thoại
Để hiểu rõ hơn về sự thay đổi này, chúng ta hãy
Bảng dữ liệu, hãy nhập bất kỳ ô trống nào trong bảng tính.
xây dựng một khoảng tin cậy cho tỷ lệ các quyết định
Điều này được thực hiện bởi vì số thử nghiệm không liên
dẫn đến khuyến nghị sản xuất với cỡ mẫu (số lượng thử
quan đến bất kỳ tham số nào trong mô hình; chúng tôi chỉ
nghiệm) n = 20 bằng cách sử dụng dữ liệu trong Hình
muốn lặp lại tính toán lại bảng tính một cách độc lập cho
12.2. Sử dụng công thức (6.4) từ Chương 6, khoảng
từng hàng của bảng dữ liệu, biết rằng nhu cầu sẽ thay đổi
tin cậy 95% cho tỷ lệ này là 0,55 1,96
mỗi lần do sử dụng hàm RAND trong công thức nhu cầu.
Như bạn có thể thấy từ kết quả, mỗi thử nghiệm có một
20
B 0.5510.452
= 0,55 0,22 hoặc [0,33, 0,77]. Bởi vì
nhu cầu được tạo ngẫu nhiên. Quá trình bảng dữ liệu thay thế
CI bao gồm các giá trị dưới và trên 0,5, điều này cho thấy rằng
các yêu cầu này vào ô B12 và tìm thấy quyết định và sự khác
chúng tôi có ít sự chắc chắn về quyết định tốt nhất. Tuy nhiên, nếu
biệt liên quan trong các cột F và G. Sự khác biệt trung bình
chúng tôi thu được tỷ lệ tương tự bằng cách sử dụng 1.000 thử nghiệm,
là $535 và 55% số thử nghiệm dẫn đến quyết định tốt nhất là
1000
thuê ngoài; biểu đồ cho thấy sự phân phối của các kết quả.
khoảng tin cậy sẽ là 0,55 1,96 B 0,5510,452
Những kết quả này có thể gợi ý rằng, mặc dù chưa biết nhu cầu
0,55 0,03 hoặc [0,52, 0,58]. Điều này cho thấy rằng chúng
trong tương lai, lựa chọn tốt nhất của nhà sản xuất có thể
tôi tin tưởng rằng thuê ngoài sẽ là quyết định tốt hơn
là thuê ngoài. Tuy nhiên, có một rủi ro là đây có thể không
trong hơn một nửa thời gian.
phải là quyết định tốt nhất.
=
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.2
Mô phỏng Monte Carlo của
Mô hình quyết định thuê ngoài
381
Mặc dù việc sử dụng bảng dữ liệu minh họa cách chúng ta có thể áp dụng mô phỏng Monte
Carlo cho mô hình quyết định, nhưng việc áp dụng cho các vấn đề phức tạp hơn là không thực tế.
Ví dụ, trong mô hình Moore Pharmaceuticals ở Chương 11, nhiều tham số của mô hình, chẳng
hạn như quy mô thị trường ban đầu, chi phí dự án, các yếu tố tăng trưởng quy mô thị
trường và tốc độ tăng trưởng thị phần, đều có thể không chắc chắn. Ngoài ra, chúng ta cần
có khả năng nắm bắt và lưu kết quả của hàng nghìn thử nghiệm để thu được kết quả thống kê
tốt và sẽ rất hữu ích nếu xây dựng biểu đồ kết quả và tính toán nhiều thống kê khác nhau
để tiến hành phân tích thêm. May mắn thay, hiện có các phương pháp tiếp cận phần mềm tinh
vi dễ dàng thực hiện các chức năng này. Phần còn lại của chương này tập trung vào việc
học cách sử dụng Nền tảng bộ giải phân tích
phần mềm để thực hiện mô phỏng Monte Carlo quy mô lớn. Chúng ta sẽ bắt đầu với mô hình
quyết định thuê ngoài đơn giản.
Mô phỏng Monte Carlo bằng Nền tảng bộ giải phân tích
Để sử dụng Nền tảng bộ giải phân tích, bạn phải thực hiện các bước sau:
1. Xây dựng mô hình bảng tính.
2. Xác định các phân phối xác suất mô tả các yếu tố đầu vào không chắc chắn trong
mô hình của bạn.
3. Xác định các biến đầu ra mà bạn muốn dự đoán.
4. Đặt số lần thử hoặc số lần lặp lại cho mô phỏng.
5. Chạy mô phỏng.
6. Diễn giải kết quả.
Xác định đầu vào mô hình không chắc chắn
Khi đầu vào mô hình không chắc chắn, chúng ta cần mô tả chúng bằng một số phân phối xác
suất. Đối với nhiều mô hình quyết định, dữ liệu thực nghiệm có thể có sẵn, hoặc trong hồ
sơ lịch sử của anh ấy hoặc được thu thập thông qua những nỗ lực đặc biệt. Ví dụ, hồ sơ bảo trì
Machine Translated by Google
382
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
có thể cung cấp dữ liệu về tỷ lệ hỏng máy và thời gian sửa chữa, hoặc những người quan sát có thể thu
thập dữ liệu về thời gian phục vụ tại ngân hàng hoặc bưu điện. Điều này cung cấp cơ sở thực tế để lựa
chọn phân bố xác suất phù hợp để mô hình hóa biến đầu vào. Chúng ta có thể xác định một phân phối phù hợp
bằng cách khớp dữ liệu lịch sử với một mô hình lý thuyết, như chúng ta đã minh họa trong Chương 5.
Trong các tình huống khác, dữ liệu lịch sử không có sẵn, và chúng ta có thể dựa trên các thuộc tính
của các phân phối xác suất chung và các ứng dụng điển hình mà chúng ta đã thảo luận trong Chương 5 để
giúp chọn một phân phối đại diện có hình dạng thể hiện hợp lý nhất sự hiểu biết của nhà phân tích về biến
không chắc chắn. Ví dụ, một phân phối bình thường là đối xứng, với một đỉnh ở giữa. Dữ liệu hàm mũ bị
sai lệch rất tích cực, không có giá trị âm. Phân phối tam giác có phạm vi giới hạn và có thể bị lệch theo
cả hai hướng.
Rất thường xuyên, phân phối đồng nhất hoặc tam giác được sử dụng trong trường hợp không có dữ liệu.
Những phân phối này phụ thuộc vào các tham số đơn giản mà người ta có thể dễ dàng xác định dựa trên kiến
thức và phán đoán của người quản lý. Ví dụ, để xác định phân phối đồng đều, chúng ta chỉ cần biết các
giá trị nhỏ nhất và lớn nhất có thể mà biến có thể nhận. Đối với phân phối tam giác, chúng tôi cũng bao
gồm giá trị có khả năng nhất.
Ví dụ, trong ngành xây dựng, những người giám sát có kinh nghiệm có thể dễ dàng cho bạn biết thời gian
nhanh nhất, khả dĩ nhất và chậm nhất để thực hiện một nhiệm vụ chẳng hạn như đóng khung nhà, có tính đến
thời tiết và sự chậm trễ có thể xảy ra đối với vật liệu, nhân công vắng mặt, v.v.
Có hai cách để xác định các biến không chắc chắn trong Nền tảng bộ giải phân tích. Một là sử dụng
các hàm Excel tùy chỉnh để tạo các mẫu ngẫu nhiên từ các phân phối xác suất mà chúng tôi đã mô tả trong
Bảng 5.1 ở Chương 5. Điều này tương tự như phương pháp mà chúng tôi đã sử dụng cho ví dụ gia công
phần mềm khi chúng tôi sử dụng hàm NORM.INV trong Monte Mô phỏng bảng tính Carlo. Ví dụ: hàm Nền tảng bộ
giải phân tích tương đương với NORM.INV(RAND(), trung bình, độ lệch chuẩn) là PsiNormal(trung bình, độ
lệch chuẩn).
VÍ DỤ 12.3 Sử dụng các hàm phân phối xác suất của nền tảng bộ giải tích
Đối với Mô hình quyết định thuê ngoài, chúng tôi giả định
phân phối khối lượng sản xuất trong mô hình quyết định thuê
rằng khối lượng sản xuất được phân phối chuẩn với giá trị
ngoài, chúng ta có thể sử dụng chức năng PsiNormal(mean,
trung bình là 1.000 và độ lệch chuẩn là 100, như trong ví dụ
stan dard độ lệch). Vì vậy, chúng ta có thể nhập công thức
trước. Tuy nhiên, chúng ta làm cho vấn đề trở nên phức tạp
=PsiNormal(1000, 100) vào ô B12. Để đảm bảo rằng kết quả là
hơn một chút bằng cách giả định rằng đơn giá mua hàng từ
một số nguyên, chúng ta có thể sửa đổi công thức thành
nhà cung cấp cũng không chắc chắn và có phân phối tam giác
=ROUND(PsiNormal(1000,100),0). Để lập mô hình đơn giá, chúng
với giá trị tối thiểu là 160 đô la, giá trị rất có thể là 175
ta có thể nhập công thức =PsiTriangular(160, 175, 200) vào ô
đô la và giá trị tối đa là 200 đô la. Để mô hình hóa
B10.
Cách thứ hai để xác định một biến không chắc chắn là sử dụng nút Phân phối trong dải băng Nền tảng
Bộ giải Phân tích. Đầu tiên, chọn ô trong bảng tính mà bạn muốn xác định phân phối. Nhấp vào nút Phân
phối như trong Hình 12.3.
Chọn một bản phân phối từ một trong các danh mục trong danh sách bật lên. Thao tác này sẽ hiển thị hộp
thoại trong đó bạn có thể xác định các tham số của phân phối.
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
383
Hình 12.3
Nền tảng bộ giải phân tích
Tùy chọn phân phối
VÍ DỤ 12.4 Sử dụng Nút Phân phối trong Nền tảng Bộ giải Phân tích
Trong bảng tính Mô hình Quyết định Gia công, chọn ô B12, khối lượng sản
nút Lưu ở đầu hộp thoại. Nền tảng bộ giải phân tích sẽ nhập hàm Psi chính
xuất. Nhấp vào Phân phối
xác vào ô trong bảng tính và bạn có thể đóng hộp thoại. Đối với chi phí đơn
trong dải băng Nền tảng bộ giải phân tích và chọn phân phối chuẩn từ danh
vị, hãy chọn ô B10 và chọn phân phối tam giác từ danh sách. Hình 12.5 hiển
mục Chung. Thao tác này sẽ hiển thị hộp thoại như trong Hình 12.4. Trong
thị hộp thoại đã hoàn thành sau khi nhập các tham số tối thiểu, khả năng
ngăn bên phải, thay đổi giá trị của giá trị trung bình và giá trị tiêu
và tối đa. Nếu bấm đúp vào một ô không chắc chắn, bạn có thể xuất hiện hộp
chuẩn trong Tham số để phản ánh phân phối mà bạn muốn lập mô hình; trong
thoại này để thực hiện chỉnh sửa bổ sung nếu cần.
trường hợp này, đặt giá trị trung bình là 1.000 và stdev là 100. Nhấp vào
Hình 12.4
Nền tảng bộ giải phân tích
Hộp thoại phân phối bình thường
Machine Translated by Google
384
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.5
Nền tảng bộ giải phân tích
Hộp thoại phân phối tam giác
Xác định các ô đầu ra
Để xác định một ô mà bạn muốn dự đoán và tạo phân phối các giá trị đầu ra từ mô hình của bạn
(mà Nền tảng bộ giải phân tích gọi là một ô hàm không chắc chắn), trước tiên hãy chọn ô đó,
rồi bấm vào nút Kết quả trong nhóm Mô hình mô phỏng trong Bộ giải phân tích Dải băng nền
tảng. Chọn tùy chọn Đầu ra và sau đó chọn Trong ô.
VÍ DỤ 12.5 Sử dụng Nút Kết quả trong Nền tảng Bộ giải Phân tích
Đối với Mô hình Quyết định Gia công phần mềm, hãy chọn ô B19
+PsiOutput( ) theo cách thủ công vào công thức ô để chỉ định
(giá trị chênh lệch chi phí) và sau đó chọn tùy chọn Trong
nó làm ô đầu ra. Tuy nhiên, bạn chỉ có thể chọn các ô đầu ra
ô, như chúng tôi đã mô tả. Hình 12.6 cho thấy quá trình này.
là số; do đó, bạn không thể chọn ô B20, ô hiển thị kết quả văn
Nền tảng bộ giải phân tích sửa đổi công thức trong ô thành =
bản.
B16
B17 + PsiOutput(). Bạn cũng có thể thêm
Chạy mô phỏng
Để chạy mô phỏng, trước tiên hãy nhấp vào nút Tùy chọn trong nhóm Tùy chọn trong dải băng
Nền tảng Bộ giải Phân tích. Thao tác này sẽ hiển thị một hộp thoại (xem Hình 12.7) trong đó
bạn có thể chỉ định số lần thử nghiệm và các tùy chọn khác để chạy mô phỏng (đảm bảo Mô phỏng
tab được chọn). Thử nghiệm trên mỗi Mô phỏng cho phép bạn chọn số lần mà Nền tảng bộ giải
phân tích sẽ tạo các giá trị ngẫu nhiên cho các ô không chắc chắn trong mô hình và tính toán
lại toàn bộ bảng tính. Bởi vì mô phỏng Monte Carlo về cơ bản là lấy mẫu thống kê, bạn sử
dụng số lượng thử nghiệm càng lớn thì kết quả sẽ càng chính xác. Trừ khi mô hình cực kỳ
phức tạp, nếu không thì một số lượng lớn các bản dùng thử sẽ không đánh thuế quá mức đối với
máy tính ngày nay, vì vậy chúng tôi khuyên bạn nên sử dụng ít nhất 5.000 bản dùng thử (phiên
bản dành cho giáo dục giới hạn mức này ở mức tối đa 10.000 bản dùng thử). Bạn nên sử dụng số
lượng thử nghiệm lớn hơn vì số lượng ô không chắc chắn trong mô hình của bạn tăng lên để
mô phỏng có thể tạo ra các mẫu đại diện từ tất cả các bản phân phối cho các giả định. Bạn
có thể chạy nhiều hơn một mô phỏng nếu bạn muốn kiểm tra sự thay đổi trong kết quả.
Quy trình mà Nền tảng bộ giải phân tích sử dụng sẽ tạo ra một luồng số ngẫu nhiên mà
từ đó các giá trị của đầu vào không chắc chắn được chọn từ xác suất của chúng
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
385
Hình 12.6
Nền tảng bộ giải phân tích
Tùy chọn kết quả
Hình 12.7
Nền tảng bộ giải phân tích
Hộp thoại Tùy chọn
phân phối. Mỗi khi bạn chạy mô hình, bạn sẽ nhận được kết quả hơi khác nhau do lỗi lấy
mẫu. Tuy nhiên, bạn có thể kiểm soát điều này bằng cách đặt giá trị cho Sim. Hạt giống ngẫu
nhiên trong hộp thoại. Nếu bạn chọn một số khác 0, thì cùng một chuỗi số ngẫu nhiên sẽ
được sử dụng để tạo các giá trị ngẫu nhiên cho các đầu vào không chắc chắn; điều này sẽ
đảm bảo rằng các giá trị giống nhau sẽ được sử dụng mỗi khi bạn chạy mô hình. Điều này hữu
ích khi bạn muốn thay đổi một biến có thể kiểm soát trong mô hình của mình và so sánh kết quả cho
Machine Translated by Google
386
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
các giá trị giả thiết giống nhau. Miễn là bạn sử dụng cùng một số, các giả định được tạo ra sẽ
giống nhau cho tất cả các mô phỏng.
Nền tảng Bộ giải Phân tích có các phương pháp lấy mẫu thay thế; hai cách phổ biến nhất là
lấy mẫu Monte Carlo và Latin Hypercube. Lấy mẫu Monte Carlo chọn các biến ngẫu nhiên độc lập trên
toàn bộ phạm vi giá trị có thể có của phân phối. Với lấy mẫu Latin Hypercube, phân phối xác suất
của biến không chắc chắn được chia thành các khoảng xác suất bằng nhau và tạo ra một giá trị ngẫu
nhiên trong mỗi khoảng.
Lấy mẫu Latin Hypercube dẫn đến phân phối các giá trị đầu ra đồng đều hơn vì nó lấy mẫu toàn bộ
phạm vi phân phối theo cách nhất quán hơn, do đó đạt được thống kê dự báo chính xác hơn (đặc
biệt là giá trị trung bình) cho một số thử nghiệm Monte Carlo cố định. Tuy nhiên, lấy mẫu Monte
Carlo mang tính đại diện hơn cho thực tế và nên được sử dụng nếu bạn quan tâm đến việc đánh giá
hiệu suất của mô hình theo các tình huống giả định khác nhau. Trừ khi bạn là người dùng nâng cao,
chúng tôi khuyên bạn nên để các tùy chọn khác ở giá trị mặc định của chúng.
Bước cuối cùng là chạy mô phỏng bằng cách nhấp vào nút Mô phỏng trong nhóm Hành động Giải
quyết. Khi quá trình mô phỏng kết thúc, bạn sẽ thấy thông báo “Quá trình mô phỏng kết thúc thành
công” ở góc dưới bên trái của cửa sổ Excel.
Xem và phân tích kết quả
Bạn có thể chỉ định xem bạn có muốn các biểu đồ đầu ra tự động xuất hiện sau khi chạy mô phỏng hay
không bằng cách bấm vào nút Tùy chọn trong dải băng Nền tảng Bộ giải Phân tích và chọn hoặc bỏ chọn
hộp Hiển thị biểu đồ sau khi mô phỏng trong tab Biểu đồ. Bạn cũng có thể xem kết quả mô phỏng bất
kỳ lúc nào bằng cách nhấp đúp vào ô đầu ra có chứa hàm PsiOutput() hoặc bằng cách chọn Mô phỏng từ
Báo cáo
trong nhóm Phân tích trong dải băng Nền tảng Bộ giải Phân tích. Điều này sẽ hiển thị một win dow
với các tab khác nhau hiển thị các biểu đồ khác nhau để phân tích kết quả.
VÍ DỤ 12.6 Phân tích kết quả mô phỏng cho Mô hình quyết định thuê ngoài
Hình 12.8 hiển thị tab Tần suất trong cửa sổ kết quả mô phỏng.
sự khác biệt. Từ biểu đồ, chúng ta thấy rằng có khoảng 59% khả
Đây là phân phối tần suất của chênh lệch chi phí cho 5.000 thử
năng xảy ra giá trị âm đối với gia công phần mềm, theo đó sản
nghiệm sử dụng phương pháp lấy mẫu Monte Carlo. Bạn có thể
xuất nội bộ sẽ là tốt nhất. Đường màu đỏ phân chia các vùng
thấy rằng sự phân phối hơi bị lệch một cách tiêu cực. trong
trong biểu đồ được gọi là đường đánh dấu. Bạn có thể di
thống kê
chuyển nó bằng chuột để tính toán các vùng xác suất khác nhau.
ở bên phải, chúng ta thấy rằng chênh lệch chi phí trung bình
Khi bạn làm như vậy, các giá trị trong phần Thống kê biểu đồ
là - 3.068 đô la, điều này cho thấy rằng, về trung bình, sẽ
sẽ thay đổi. Bạn có thể nhấp chuột phải vào một dòng đánh dấu
tốt hơn nếu tự sản xuất hơn là thuê bên ngoài. Chúng tôi
để xóa nó; bạn cũng có thể thêm các đường đánh dấu mới bằng
cũng thấy rằng chênh lệch chi phí tối thiểu là -43.222 đô la
cách nhấp chuột phải để hiển thị xác suất giữa các đường đánh
và chênh lệch tối đa là 24.367 đô la. Đây là ước tính về kết
dấu trong biểu đồ. Nếu bạn chỉ định cả giá trị Ngưỡng dưới
quả tốt nhất và xấu nhất có thể được mong đợi, cung cấp thêm
và Ngưỡng trên mỗi ngưỡng, các đường đánh dấu sẽ được thêm
bằng chứng cho thấy việc sản xuất nội bộ có thể tốt hơn.
vào ở cả hai giá trị và thống kê Khả năng xảy ra sẽ là xác
suất giữa chúng. Các tab khác trong cửa sổ kết quả hiển thị
Trong phần Thống kê biểu đồ của Thống kê
ngăn, bạn có thể chỉ định giá trị Ngưỡng dưới, Khả năng hoặc
phân phối tần số tích lũy và phân phối tần số tích lũy ngược,
cũng như biểu đồ độ nhạy và biểu đồ phân tán mà chúng ta sẽ
Ngưỡng trên. Các tùy chọn này giúp bạn phân tích biểu đồ tần
thảo luận trong các ví dụ khác. Cách tốt nhất để học cách phân
số. Ví dụ, nếu chúng ta đặt Upper Cutoff là 0, chúng ta sẽ có
tích các biểu đồ là thử nghiệm.
được biểu đồ như trong Hình 12.9. Điều này minh họa khả năng
xảy ra chi phí âm (cũng như dương)
Ngoài ra, bạn có thể thay đổi cách hiển thị ở khung bên
phải bằng cách chọn các tùy chọn khác trong menu thả xuống
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
387
Hình 12.8
Kết quả mô phỏng—
Chênh lệch chi phí
Tính thường xuyên
Phân bổ
Hình 12.9
xác suất của một
Chi phí âm
Sự khác biệt
bằng cách nhấp vào mũi tên xuống ở bên phải tiêu đề Statis
của phân phối tích lũy của đầu ra; ví dụ: phân vị thứ 10
tics. Các tùy chọn là Phần trăm, Loại biểu đồ, Tùy chọn biểu
trong các kết quả mô phỏng này là -$16.550 (không hiển thị).
đồ, Tùy chọn trục và Điểm đánh dấu. Tùy chọn Phần trăm phần
Điều này có nghĩa là 10% chênh lệch chi phí mô phỏng nhỏ
trăm hiển thị phần trăm kết quả mô phỏng và về cơ bản là
hơn hoặc bằng
một bảng số
Các tùy chọn khác chỉ đơn giản là để tùy chỉnh biểu đồ.
16.550 đô la.
Trong phần còn lại của chương này, chúng tôi trình bày một số ví dụ bổ sung về mô phỏng
Monte Carlo bằng cách sử dụng Nền tảng bộ giải phân tích. Chúng phục vụ để minh họa nhiều ứng
dụng trong đó phương pháp này có thể được sử dụng và cả các tính năng khác nhau của Nền tảng
bộ giải phân tích và các công cụ để phân tích các mô hình mô phỏng.
Machine Translated by Google
388
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Mô hình phát triển sản phẩm mới
Mô hình bảng tính của Moore Pharmaceuticals để hỗ trợ quyết định phát triển sản phẩm mới đã
được giới thiệu trong Chương 11; Hình 12.10 mô tả lại mô hình. Mặc dù các giá trị được sử
dụng trong bảng tính gợi ý rằng loại thuốc mới sẽ có lãi vào năm thứ tư, nhưng phần lớn dữ
liệu trong mô hình này là không chắc chắn. Vì vậy, chúng tôi có thể quan tâm đến việc đánh giá
rủi ro liên quan đến dự án. Ba câu hỏi chúng tôi có thể quan tâm như sau:
1. Giá trị hiện tại ròng trong 5 năm sẽ không dương là rủi ro gì?
2. Cơ hội để sản phẩm tạo ra lợi nhuận ròng tích lũy trong năm là bao nhiêu?
năm thứ ba?
3. Lợi nhuận tích lũy nào trong năm thứ năm mà chúng ta có khả năng nhận ra với xác
suất ít nhất là 0,90?
Giả sử rằng người quản lý dự án của Moore Pharmaceuticals đã xác định được các biến không
chắc chắn sau đây trong mô hình và các phân phối cũng như tham số mô tả chúng, như sau:
Quy mô thị trường: bình thường với trung bình 2.000.000 đơn vị và độ lệch chuẩn
400.000 đơn vị
Chi phí R&D: thống nhất giữa $600,000,000 và $800,000,000
Chi phí thử nghiệm lâm sàng: lognormal với giá trị trung bình là 150.000.000 USD và độ lệch chuẩn
là 30.000.000 USD
Yếu tố tăng trưởng thị trường hàng năm: hình tam giác với tối thiểu 2%, tối đa 6% và
rất có thể là 3%
Tốc độ tăng trưởng thị phần hàng năm: hình tam giác với tối
thiểu tối đa 25% và rất có thể là 20%
Hình 12.10
Dược phẩm Moore
Mô hình bảng tính
15%,
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
389
VÍ DỤ 12.7 Thiết lập mô hình mô phỏng cho Moore Pharmaceuticals
Như chúng ta đã biết trước đó, chúng ta có thể sử dụng chức năng Psi
Hệ số tăng trưởng thị trường hàng năm (các ô từ C18 đến F18):
hoặc các nút Phân phối trong dải băng Nền tảng Bộ giải Phân tích để chỉ
=PsiHình tam giác(2%, 3%, 6%)
định các biến không chắc chắn. Mặc dù kết quả là như nhau nhưng các hàm
Tốc độ tăng trưởng thị phần hàng năm (ô C20 đến
Psi thường dễ sử dụng hơn. Để lập mô hình quy mô thị trường, chúng ta
F20): =PsiHình tam giác(15%, 20%, 25%)
có thể sử dụng hàm PsiNormal(trung bình, độ lệch chuẩn). Vì vậy, chúng
ta có thể nhập công thức =PsiNormal(2000000, 400000) vào ô B5. Tương
tự, chúng ta có thể sử dụng các hàm sau cho các biến không chắc chắn còn
lại:
Bởi vì các yếu tố tăng trưởng thị trường hàng năm và tốc độ tăng trưởng
thị phần sử dụng cùng một cách phân phối, nên chúng ta chỉ cần nhập chúng
một lần rồi sao chép chúng sang các ô khác.
Chúng tôi xác định lợi nhuận ròng tích lũy cho mỗi năm (các ô từ B28
Chi phí R&D (ô B11): =PsiUniform(600000000, 800000000)
đến F28) và giá trị hiện tại ròng (ô B30) làm các ô đầu ra.
Chi phí thử nghiệm lâm sàng (ô B12):
=PsiLognormal(150000000, 30000000)
Bây giờ chúng ta chuẩn bị chạy mô phỏng và phân tích kết quả. Nếu mô hình mô phỏng
của bạn chứa nhiều hơn một hàm đầu ra, thì Biểu đồ biến thiên chứa đồ thị tần số của
tối đa 9 hàm đầu ra và các biến không chắc chắn sẽ xuất hiện như trong Hình 12.11.
Trong trường hợp này, Biểu đồ Biến số hiển thị các biểu đồ tần suất cho tất cả 6 hàm
không chắc chắn (ô B28:F28 và B30) và 3 đầu vào không chắc chắn (B5, B11 và B12) trong
mô hình Moore Pharmaceutical. Bạn có thể tùy chỉnh điều này bằng cách chọn hoặc bỏ
chọn các hộp trong ngăn Bộ lọc; ví dụ: bạn có thể loại bỏ các phân phối đầu vào không
chắc chắn và chỉ hiển thị sáu đầu ra. Như đã lưu ý trước đó trong chương này, bạn
cũng có thể chặn hiển thị tự động biểu đồ trong tab Biểu đồ sau khi nhấp vào nút Tùy chọn.
Trong ví dụ này, chúng tôi đã sử dụng 10.000 thử nghiệm. Chúng ta có thể sử dụng các biểu đồ tần suất trong các
kết quả mô phỏng để trả lời các câu hỏi phân tích rủi ro mà chúng ta đã đặt ra trước đó.
Hình 12.11
Biểu đồ biến cho mô phỏng
Kết quả
Machine Translated by Google
390
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
VÍ DỤ 12.8 Phân tích rủi ro đối với Moore Pharmaceuticals
1. Xác suất mà giá trị hiện tại ròng trong 5 năm sẽ không
dương là bao nhiêu? Bấm đúp vào ô B30 để hiển thị kết
3. Lợi nhuận tích lũy nào trong năm thứ năm mà chúng ta có
khả năng nhận ra với xác suất ít nhất là 0,90?
quả mô phỏng cho đầu ra giá trị hiện tại ròng. Nhập số
Một cách dễ dàng để trả lời câu hỏi này là xem kết quả
0 cho giá trị Upper Cutoff trong ngăn Thống kê. Kết quả
Phần Trăm (xem Hình 12.14). Do đó, chúng ta có thể mong
được thể hiện trong Hình 12.12; điều này cho thấy
đợi lợi nhuận ròng tích lũy khoảng 180.000 đô la trở lên
khoảng 18% khả năng NPV sẽ không dương.
với độ chắc chắn 90%. Một cách khác là đặt ngưỡng thấp
hơn trong trường Thống kê biểu đồ thành một số nhỏ hơn
2. Khả năng sản phẩm sẽ hiển thị một cu là bao nhiêu?
lợi nhuận ròng tăng trưởng trong năm thứ ba? Nhấp đúp vào
ô D28, lợi nhuận ròng tích lũy trong năm thứ 3. Nhập giá
trị 0 cho giá trị Lower Cutoff, như minh họa trong Hình
12.13. Điều này cho thấy xác suất thu được lợi nhuận
ròng tích lũy dương trong năm thứ ba chỉ khoảng 9%.
Hình 12.12
Xác suất của một không tích cực
Giá trị hiện tại ròng
Hình 12.13
Xác suất của một Non-Positive
Tích lũy ròng năm thứ ba
Lợi nhuận
giá trị tối thiểu và sau đó đặt khả năng thành 10%. Nền
tảng bộ giải phân tích
sẽ tính toán và vẽ một đường đánh dấu cho giá trị của
ngưỡng trên cung cấp độ chắc chắn nhỏ hơn ngưỡng trên
10% và do đó, độ chắc chắn lớn hơn 90% so với ngưỡng
trên.
Machine Translated by Google
391
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.14
Phần trăm cho năm thứ năm
Lợi nhuận ròng tích lũy
Khoảng tin cậy cho giá trị trung bình
Mô phỏng Monte Carlo thực chất là một thí nghiệm lấy mẫu. Mỗi khi bạn chạy một mô phỏng, bạn sẽ
nhận được các kết quả hơi khác nhau như chúng ta đã quan sát thấy trong Ví dụ 12.2 đối với mô hình
quyết định thuê ngoài. Do đó, các số liệu thống kê như giá trị trung bình là một quan sát đơn lẻ từ
một mẫu gồm n thử nghiệm từ một quần thể chưa biết nào đó. Trong Chương 6, chúng ta đã thảo luận
về cách xây dựng khoảng tin cậy cho trung bình tổng thể để đo lường sai số trong việc ước lượng
trung bình tổng thể thực. Chúng ta có thể sử dụng thông tin thống kê để xây dựng khoảng tin cậy cho
giá trị trung bình bằng cách sử dụng một biến thể của công thức (6.3) trong Chương 6:
x { za 2 1s 1n2
(12.1)
Bởi vì mô phỏng Monte Carlo nói chung sẽ có số lượng thử nghiệm rất lớn (chúng tôi đã sử
dụng 10.000), nên chúng tôi có thể sử dụng giá trị z chuẩn thông thường thay vì phân phối
t trong công thức khoảng tin cậy.
VÍ DỤ 12.9 Khoảng tin cậy cho giá trị hiện tại ròng trung bình
Chúng tôi sẽ xây dựng khoảng tin cậy 95% cho NPV trung bình
Điều này có nghĩa là nếu chúng ta chạy lại mô phỏng với các
bằng cách sử dụng kết quả mô phỏng từ ví dụ về Dược phẩm
đầu vào ngẫu nhiên khác nhau, chúng ta có thể mong đợi NPV
Moore. Từ số liệu thống kê ở hình 12.12, ta có
trung bình = $200,608,120
độ lệch chuẩn = $220,980,564
n = 10.000
Với khoảng tin cậy 95%, zA 2 = 1,96. Do đó, sử dụng công thức
(12.1), khoảng tin cậy 95% cho giá trị trung bình sẽ là
$200,608,120
1.961220.980.564 10.0002,
hoặc [$196.276.901, $204.939.339]
trung bình thường nằm trong khoảng này. Để giảm kích thước
của khoảng tin cậy, chúng ta cần chạy mô phỏng cho số lượng
thử nghiệm lớn hơn. Tuy nhiên, đối với hầu hết các ứng dụng
phân tích rủi ro, giá trị trung bình ít quan trọng hơn so
với phân phối thực tế của các kết quả.
Machine Translated by Google
392
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Biểu đồ độ nhạy
Tính năng biểu đồ độ nhạy cho phép bạn xác định ảnh hưởng của từng đầu vào mô hình không chắc chắn
đối với một biến đầu ra dựa trên mối tương quan của nó với biến đầu ra. Biểu đồ độ nhạy hiển thị
thứ hạng của từng biến không chắc chắn theo tác động của nó đối với một ô đầu ra dưới dạng biểu
đồ lốc xoáy. Biểu đồ độ nhạy cung cấp ba lợi ích:
1. Nó cho biết những biến không chắc chắn nào ảnh hưởng nhiều nhất đến các biến đầu ra và
sẽ được hưởng lợi từ các ước tính tốt hơn.
2. Nó cho biết những biến không chắc chắn nào ảnh hưởng ít nhất đến các biến đầu ra và
có thể bỏ qua hoặc loại bỏ hoàn toàn.
3. Bằng cách cung cấp hiểu biết về cách các biến không chắc chắn ảnh hưởng đến mô hình
của bạn, nó cho phép bạn phát triển các mô hình bảng tính thực tế hơn và cải thiện
độ chính xác của kết quả.
Có thể xem biểu đồ độ nhạy bằng cách nhấp vào tab Độ nhạy trong cửa sổ kết quả (xem Hình 12.15).
VÍ DỤ 12.10 Giải thích biểu đồ độ nhạy cho NPV
Hình 12.15 hiển thị biểu đồ độ nhạy và ô đầu ra giá trị hiện
ô biến bất định có ảnh hưởng không đáng kể. Điều này có nghĩa
tại ròng (B30). Các ô biến không chắc chắn được xếp hạng từ
là nếu bạn muốn giảm nhiều nhất sự thay đổi trong phân phối
trên xuống dưới, bắt đầu với ô có giá trị tương quan tuyệt
NPV, bạn cần thu thập thông tin tốt hơn về quy mô thị trường
đối cao nhất với NPV. Trong ví dụ này, chúng ta thấy rằng ô
ước tính và sử dụng phân phối xác suất có phương sai nhỏ
B5, quy mô thị trường, có tương quan khoảng 0,95 với NPV;
hơn. Mối tương quan nhỏ giữa NPV và các yếu tố tăng trưởng
chi phí R&D (ô B11) có tương quan âm 0,255 và chi phí thử
thị trường cho thấy rằng việc sử dụng các giá trị không đổi
nghiệm lâm sàng (ô B12) có tương quan âm 0,130 với NPV. Cái
thay vì phân phối xác suất không chắc chắn sẽ ít ảnh hưởng
khác
đến kết quả.
Biểu đồ lớp phủ
Nếu một mô phỏng có nhiều dự báo liên quan, thì tính năng biểu đồ lớp phủ cho phép bạn xếp chồng
các phân phối tần suất từ các dự báo đã chọn trên một biểu đồ để so sánh sự khác biệt và tương
đồng có thể không rõ ràng.
Hình 12.15
Biểu đồ độ nhạy cho Net
Giá trị hiện tại
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
393
VÍ DỤ 12.11 Tạo biểu đồ lớp phủ
Để tạo biểu đồ lớp phủ, hãy bấm vào nút Biểu đồ trong nhóm
tương ứng với lợi nhuận ròng lũy kế trong năm 1 và 5. Hình
Phân tích trong dải băng Nền tảng Bộ giải Phân tích.
12.17 cho thấy biểu đồ lớp phủ phân phối lợi nhuận ròng lũy
Nhấp vào Nhiều kết quả mô phỏng (không chọn Nhiều mô phỏng!)
kế trong năm 1 và 5.
rồi chọn Lớp phủ. Trong Báo cáo
Biểu đồ này cho thấy rõ ràng rằng giá trị trung bình của năm
hộp thoại xuất hiện, hãy chọn các ô biến đầu ra mà bạn muốn
1 nhỏ hơn so với năm 5 và phương sai trong năm 5 lớn hơn
đưa vào biểu đồ và di chuyển chúng sang bên phải của hộp
nhiều so với năm 1. Điều này có thể xảy ra vì có nhiều sự
thoại bằng cách sử dụng các nút mũi tên (xem Hình 12.16).
không chắc chắn hơn trong việc dự đoán xa hơn trong tương
Trong ví dụ này, chúng tôi đã chọn các ô B28 và F28,
lai , và mô hình nắm bắt điều này.
Hình 12.16
Hộp thoại báo cáo để chọn
Các ô đầu ra cho một lớp phủ
Đồ thị
Hình 12.17
Biểu đồ lớp phủ cho Năm 1 và
Lợi nhuận ròng tích lũy năm 5
Machine Translated by Google
394
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Biểu đồ xu hướng
Nếu một mô phỏng có nhiều biến đầu ra có liên quan với nhau (chẳng hạn như theo thời gian), bạn
có thể xem phân phối của tất cả các biến đầu ra trên một biểu đồ duy nhất, được gọi là biểu đồ
xu hướng. Trong Nền tảng bộ giải phân tích, biểu đồ xu hướng hiển thị các giá trị trung bình
cũng như các dải 75% và 90% (khoảng xác suất) xung quanh giá trị trung bình. Ví dụ: dải đại diện
cho dải 90% cho biết dải giá trị mà biến đầu ra có 90% khả năng rơi vào đó.
VÍ DỤ 12.12 Tạo biểu đồ xu hướng
Để tạo một biểu đồ xu hướng cho Moore Pharmaceuticals
biểu đồ và di chuyển chúng sang bên phải của hộp thoại bằng
dụ, hãy bấm vào nút Biểu đồ trong nhóm Phân tích trong dải
các nút mũi tên. Trong ví dụ này, chúng tôi đã chọn các ô từ
băng Nền tảng Bộ giải Phân tích. Nhấp vào Nhiều kết quả mô
B28 đến F28, tương ứng với lợi nhuận ròng tích lũy trong tất
phỏng rồi chọn Xu hướng. (Hãy cẩn thận để không nhầm lẫn
cả các năm. Hình 12.18 cho thấy một biểu đồ xu hướng cho các
giữa “Nhiều kết quả mô phỏng” với “Nhiều mô phỏng” trong menu
biến này. Chúng ta thấy rằng mặc dù lợi nhuận ròng tích lũy
thả xuống; đây là các tùy chọn khác nhau.) Trong hộp thoại
trung bình tăng theo thời gian, nhưng sự thay đổi cũng vậy,
Báo cáo xuất hiện, hãy chọn các ô biến đầu ra mà bạn muốn đưa
điều này cho thấy sự không chắc chắn trong việc dự báo tương
vào
lai cũng tăng theo thời gian.
Biểu đồ hình hộp
Cuối cùng, Nền tảng bộ giải phân tích có thể tạo các biểu đồ hình hộp để minh họa các đặc tính
thống kê của các phân phối biến đầu ra theo một kiểu thay thế. Biểu đồ hình hộp thể hiện các giá
trị tối thiểu, phần tư thứ nhất, trung bình, phần tư thứ ba và giá trị tối đa trong một tập dữ
liệu dưới dạng biểu đồ. Các phần tư thứ nhất và thứ ba tạo thành một hộp xung quanh trung vị,
hiển thị 50% dữ liệu ở giữa và các râu mở rộng đến các giá trị tối thiểu và tối đa. Chúng có thể
được tạo bằng cách nhấp vào nút Biểu đồ tương tự như biểu đồ lớp phủ và biểu đồ xu hướng. Hình
12.19 cho thấy một ví dụ về lợi nhuận ròng tích lũy trong mô phỏng Moore Pharmaceuticals.
Hình 12.18
Biểu đồ xu hướng tích lũy
Lợi nhuận ròng trong 5 năm
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
395
Hình 12.19
Ví dụ về bộ giải phân tích
Biểu đồ hộp -râu nền tảng
Báo cáo mô phỏng
Nền tảng bộ giải phân tích cho phép bạn tạo các báo cáo ở dạng trang tính Excel tóm tắt một mô phỏng. Để
thực hiện việc này, hãy bấm vào nút Báo cáo trong nhóm Phân tích trong dải băng Nền tảng Bộ giải Phân tích
và chọn Mô phỏng từ các tùy chọn xuất hiện. Báo cáo tóm tắt thông tin thống kê cơ bản về mô hình, các tùy
chọn mô phỏng, các biến không xác định và các biến đầu ra, hầu hết chúng ta đã thấy trong biểu đồ.
Sẽ rất hữu ích nếu cung cấp bản ghi mô phỏng để tham khảo nhanh.
người bán báo
Trong Chương 11, chúng ta đã phát triển mô hình nhà cung cấp tin tức để phân tích quyết định mua hàng
trong một khoảng thời gian. Ở đây, chúng tôi áp dụng mô phỏng Monte Carlo để dự đoán khả năng sinh lời của
các số lượng mua khác nhau khi nhu cầu trong tương lai không chắc chắn.
Chúng ta hãy giả sử rằng chủ cửa hàng đã lưu giữ hồ sơ trong 20 năm qua về số lượng hộp được bán với
giá gốc, như thể hiện trong bảng tính ở Hình 12.20 (Mô hình nhà cung cấp tin tức tệp Excel với Dữ liệu
Lịch sử). Việc phân phối doanh số bán hàng dường như là một số loại phân phối không theo phương thức sai
lệch tích cực.
Lỗ hổng của trung bình
Bạn có thể thắc mắc tại sao chúng ta không thể đơn giản sử dụng các giá trị trung bình cho các đầu vào
không chắc chắn trong mô hình quyết định và loại bỏ nhu cầu mô phỏng Monte Carlo. Hãy xem điều gì sẽ xảy ra
nếu chúng ta làm điều này cho mô hình nhà cung cấp tin tức.
VÍ DỤ 12.13 Sử dụng Giá trị Trung bình trong Mô hình Newsvendor
Nếu tìm giá trị trung bình của doanh số bán kẹo trước đây, chúng
xây dựng một bảng dữ liệu để đánh giá lợi nhuận cho từng giá trị
ta sẽ có 44,05 hoặc làm tròn thành một số nguyên, 44. Sử dụng
lịch sử (cũng được hiển thị trong Hình 12.21), chúng tôi thấy
giá trị này cho nhu cầu và số lượng mua, mô hình dự đoán lợi
rằng lợi nhuận trung bình chỉ là $255,00.
nhuận là $264 (xem Hình 12.21). Tuy nhiên, nếu chúng ta
Machine Translated by Google
396
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.20
Newsvendor Model với
Dữ liệu lịch sử
Hình 12.21
Ví dụ về lỗ hổng của
trung bình
Tiến sĩ Sam Savage, một người ủng hộ mạnh mẽ mô hình bảng tính, đã đặt ra thuật ngữ lỗ
hổng của các số trung bình để mô tả hiện tượng này. Về cơ bản, điều này nói lên rằng việc
đánh giá đầu ra của mô hình sử dụng giá trị trung bình của đầu vào không nhất thiết phải bằng
giá trị trung bình của đầu ra khi được đánh giá với từng giá trị đầu vào. Lý do điều này xảy
ra trong ví dụ về người bán báo là vì số lượng bán được giới hạn ở mức nhỏ hơn giữa nhu cầu
và số lượng mua, vì vậy ngay cả khi nhu cầu vượt quá số lượng mua, lợi nhuận vẫn bị hạn chế.
Sử dụng trung bình trong các mô hình có thể che giấu rủi ro và đây là một lỗi phổ biến đối với
những người sử dụng mô hình phân tích. Đây là lý do tại sao mô phỏng Monte Carlo lại có giá trị.
Mô phỏng Monte Carlo sử dụng dữ liệu lịch sử
Chúng ta có thể thực hiện mô phỏng Monte Carlo bằng cách lấy mẫu lại từ phân phối doanh số bán
hàng lịch sử—nghĩa là bằng cách chọn ngẫu nhiên một giá trị từ dữ liệu lịch sử làm nhu cầu
trong mô hình.
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
397
VÍ DỤ 12.14 Mô phỏng Mô hình nhà cung cấp báo bằng cách lấy mẫu lại
Trong Mô hình Newsvendor với dữ liệu lịch sử trải rộng
lợi nhuận ô B17 như một ô chức năng không chắc chắn, đặt các tùy
trang tính, chúng tôi có dữ liệu lịch sử được liệt kê trong phạm
chọn mô phỏng (chúng tôi đã chọn 5.000 thử nghiệm) và chạy mô phỏng.
vi D2:D21. Tất cả những gì chúng ta cần làm là xác định phân phối
Hình 12.22 cho thấy kết quả; với số lượng mua là 44, lợi nhuận
nhu cầu trong ô B11 bằng cách sử dụng hàm PsiDisUniform trong Nền
trung bình là $255,00. Biểu đồ tần số, cũng được thể hiện trong
tảng bộ giải phân tích. Hàm này sẽ lấy mẫu một giá trị từ dữ liệu
Hình 12.22, có vẻ hơi kỳ quặc. Tuy nhiên, hãy nhớ lại rằng nếu
lịch sử cho mỗi lần thử mô phỏng.
nhu cầu vượt quá số lượng mua, thì doanh số bán hàng chỉ giới hạn
Nhập công thức =PsiDisUniform(D2:D21) vào ô B11.
ở số lượng đã mua, điều này giải thích cho sự tăng đột biến lớn
Bây giờ, bạn có thể thiết lập mô hình mô phỏng bằng cách xác định
ở bên phải phân phối.
Mô phỏng Monte Carlo sử dụng phân phối được trang bị
Mặc dù việc lấy mẫu từ dữ liệu thực nghiệm rất dễ thực hiện, nhưng nó có một số nhược điểm. Đầu
tiên, dữ liệu thực nghiệm có thể không đại diện đầy đủ cho dân số cơ bản thực sự do lỗi lấy mẫu. Thứ
hai, việc sử dụng phân phối theo kinh nghiệm sẽ loại trừ các giá trị lấy mẫu nằm ngoài phạm vi của
dữ liệu thực tế. Do đó, thông thường nên điều chỉnh một phân phối và sử dụng nó cho biến không
chắc chắn. Chúng ta có thể làm điều này bằng cách khớp một phân phối với dữ liệu bằng cách sử dụng
các kỹ thuật mà chúng ta đã mô tả trong Chương 5.
VÍ DỤ 12.15 Sử dụng phân phối phù hợp cho mô phỏng Monte Carlo
Thực hiện theo các bước trong Ví dụ 5.42, trước tiên hãy tô sáng
nếu bạn muốn chấp nhận phân phối được trang bị. Nhấp vào Có và
phạm vi dữ liệu trong bảng tính Mô hình nhà cung cấp tin tức với
một cửa sổ bật lên sẽ cho phép bạn kéo và đặt hàm vào một ô trong
dữ liệu lịch sử và bấm vào Khớp từ nhóm Công cụ trong dải băng
bảng tính. Đặt hàm Psi cho phân phối nhị thức âm trong ô đầu tiên
Nền tảng bộ giải phân tích. Vì số lượng bán rời rạc, hãy chọn nút
của dữ liệu (ô D2).
radio Rời rạc trong hộp thoại Fit Options và nhấp vào Fit. Hình
Để sử dụng điều này cho mô phỏng, chỉ cần tham chiếu ô D2 trong ô
12.23 cho thấy phân phối phù hợp nhất, phân phối nhị thức âm. Khi
B11, tương ứng với nhu cầu trong mô hình. Hình 12.24 cho thấy các
bạn cố gắng đóng hộp thoại, Nền tảng bộ giải phân tích sẽ hỏi
kết quả, khá giống với các kết quả được tìm thấy bằng cách lấy
mẫu lại trong Ví dụ 12.14.
Hình 12.22
người bán báo
Kết quả mô phỏng sử dụng
Lấy mẫu lại để mua hàng
Số lượng = 44
Machine Translated by Google
398
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.23
Phân phối phù hợp nhất cho
Bán kẹo lịch sử
Hình 12.24
Mô phỏng nhà cung cấp tin tức
Kết quả sử dụng tiêu cực
Phân phối nhị thức cho
Số lượng mua = 44
Nền tảng bộ giải phân tích có một tính năng được gọi là Mô phỏng tương tác. Bất cứ khi nào nhấp
vào nút Mô phỏng, bạn sẽ nhận thấy rằng bóng đèn trong biểu tượng sẽ sáng. Nếu bạn thay đổi bất kỳ số
nào trong mô hình, Nền tảng bộ giải phân tích sẽ tự động chạy mô phỏng cho số đó; điều này giúp dễ
dàng tiến hành phân tích what-if. Ví dụ: thay đổi số lượng mua thành 50 sẽ cho kết quả như trong Hình
12.25. Lợi nhuận trung bình giảm xuống còn $246,05. Bạn có thể sử dụng phương pháp này để xác định số
lượng mua tốt nhất; tuy nhiên, một phương pháp có hệ thống hơn được mô tả trong Chương B bổ sung
trực tuyến.
Mô hình đặt trước quá nhiều
Trong Chương 11, chúng tôi đã phát triển một mô hình cho các quyết định đặt trước quá nhiều (Mô hình
đặt trước quá nhiều khách sạn). Trong bất kỳ tình huống đặt trước vượt mức thực tế nào, nhu cầu thực
tế của khách hàng cũng như số lần hủy sẽ là các biến ngẫu nhiên. Chúng tôi minh họa cách một mô hình
mô phỏng có thể giúp đưa ra quyết định đặt trước vượt mức tốt nhất và giới thiệu một loại phân phối
mới trong Nền tảng bộ giải phân tích, một phân phối tùy chỉnh.
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
399
Hình 12.25
Mô phỏng nhà cung cấp tin tức
Kết quả mua hàng
Số lượng = 50
Hình 12.26
Đặt trước quá nhiều khách sạn
Mô hình mô phỏng và
Phân phối nhu cầu
Phân phối tùy chỉnh trong Nền tảng bộ giải phân tích
Chúng ta hãy giả sử rằng dữ liệu lịch sử về nhu cầu đã được thu thập và tóm tắt theo
phân phối tần suất tương đối, nhưng dữ liệu thực tế không còn nữa. Những điều này
được thể hiện trong các cột D và E trong Hình 12.26 (Mô hình mô phỏng Đặt trước quá
nhiều khách sạn ở Monte Carlo trong tệp Excel với nhu cầu tùy chỉnh). Chúng tôi cũng
giả định rằng mỗi đặt phòng có xác suất bị hủy không đổi p 0,04; do đó, số lần hủy (ô
B14) có thể được lập mô hình bằng cách sử dụng phân phối nhị thức với n số lần đặt
trước được thực hiện và p xác suất hủy.
VÍ DỤ 12.16 Xác định Phân phối Tùy chỉnh trong Nền tảng Bộ giải Phân tích
Để sử dụng phân phối tần suất tương đối để xác định nhu cầu không
tương ứng với nhu cầu, sau đó nhấp vào Phân phối
chắc chắn trong Mô hình đặt trước quá nhiều khách sạn với tùy chỉnh
trong dải băng Nền tảng bộ giải phân tích và chọn Rời rạc từ
Nhu cầu (lưu ý rằng bảng tính này đã được hoàn thành; để theo
danh mục Tùy chỉnh. Trong hộp thoại, hãy chỉnh sửa phạm vi
dõi, hãy sao chép cột D và E vào bản gốc Khách sạn
cho “giá trị” và “trọng số” trong phần Tham số ở các trường
Overbooking Model worksheet) đầu tiên chọn ô B12 mà
bên phải. Giá trị tương ứng với phạm vi
(còn tiếp)
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
400
Hình 12.27
Phân phối rời rạc tùy chỉnh
hộp thoại
Hình 12.28
Hộp thoại phân phối nhị thức
của nhu cầu trong các ô D2:D13 và trọng số là tần suất hoặc
thử nghiệm phải là giá trị trong ô B13. Điều này rất quan
xác suất tương đối trong các ô E2:E13. Sau đó, hộp thoại sẽ
trọng trong ví dụ này, vì số lượng đặt trước được thực hiện
hiển thị hình thức phân phối thực tế, như trong Hình 12.27.
sẽ thay đổi, tùy thuộc vào nhu cầu của khách hàng trong ô B12.
Ngoài ra, bạn có thể sử dụng hàm =Psi
Do đó, trong phần Tham số của hộp thoại, chúng ta phải tham
Rời rạc($D$2:$D$13,$E$2:$E$13) trong ô B12.
chiếu ô B13 và không sử dụng giá trị hằng số, như trong Hình
Để lập mô hình số lần hủy trong ô B14, hãy chọn phân phối
12.28. Ngoài ra, chúng ta có thể sử dụng hàm =PsiBinomial(B13,
nhị thức từ danh mục Mèo rời rạc trong danh sách Phân phối.
0,04) trong ô B14. Xác định ô B17 và B18 là ô đầu ra và chạy
Lưu ý rằng số lượng
mô hình.
Hình 12.29 và 12.30 hiển thị biểu đồ tần suất của hai biến đầu ra—số lượng khách hàng đặt
trước vượt mức và doanh thu thuần—để chấp nhận 310 đặt phòng. Có khoảng 14% cơ hội đặt trước
quá nhiều cho ít nhất một khách hàng. Quan sát rằng dường như có hai phân phối khác nhau chồng
lên nhau trong phân phối tần suất doanh thu ròng. Bạn có thể giải thích tại sao điều này là như
vậy? Đối với vấn đề nhà cung cấp tin tức, chúng ta có thể dễ dàng thay đổi số lượng đặt trước
được thực hiện và khả năng Mô phỏng tương tác sẽ nhanh chóng chạy một mô phỏng mới và thay đổi
kết quả trong biểu đồ tần suất.
Mô hình ngân sách tiền mặt
Lập ngân sách tiền mặt là quá trình lập dự kiến và tóm tắt dòng tiền vào và dòng tiền ra dự kiến
của công ty trong khoảng thời gian lập kế hoạch, thường là từ 6 đến 12 tháng.3 Ngân quỹ tiền
mặt cũng cho biết số dư tiền mặt hàng tháng và bất kỳ khoản vay ngắn hạn nào được sử dụng để chi trả.
3Douglas R. Emery, John D. Finnerty, và John D. Stowe, Nguyên tắc quản lý tài chính (Upper Saddle
River, NJ: Prentice Hall, 1998): 652–654.
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
401
Hình 12.29
Biểu đồ tần suất về số lượng
khách hàng đặt trước quá nhiều
Hình 12.30
Biểu đồ tần số của Net
Doanh thu
thâm hụt tiền mặt. Dòng tiền dương có thể làm tăng tiền mặt, giảm dư nợ hoặc được sử dụng ở nơi
khác trong doanh nghiệp; dòng tiền âm có thể làm giảm tiền mặt sẵn có hoặc được bù đắp bằng khoản
vay bổ sung. Hầu hết các ngân sách tiền mặt được dựa trên dự báo bán hàng. Với sự không chắc chắn
cố hữu trong các dự báo như vậy, mô phỏng Monte Carlo là một công cụ thích hợp để phân tích ngân
sách tiền mặt.
Hình 12.31 cho thấy một ví dụ về bảng tính ngân sách tiền mặt (File Excel Mô hình ngân sách
tiền mặt). Các ô được đánh dấu đại diện cho các biến và đầu ra không chắc chắn mà chúng tôi muốn
dự đoán từ mô hình mô phỏng. Ngân sách bắt đầu vào tháng 4 (do đó, doanh số bán hàng cho tháng 4
và các tháng tiếp theo là không chắc chắn). Chúng được giả định là phân phối chuẩn với độ lệch
chuẩn là 10% giá trị trung bình. Ngoài ra, chúng tôi giả định rằng doanh số bán hàng trong các
tháng liền kề có tương quan với nhau, với hệ số tương quan là 0,6. Trung bình, 20% doanh thu
được thu trong tháng bán hàng, 50% trong tháng sau khi bán hàng và 30% trong tháng thứ hai sau
khi bán hàng. Tuy nhiên, những con số này không chắc chắn, do đó phân phối đồng đều được sử dụng
để lập mô hình cho hai giá trị đầu tiên (tương ứng là 15% đến 20% và 40% đến 50%), với giả định
rằng tất cả doanh thu còn lại được thu vào tháng thứ hai sau tháng thứ hai. doanh thu. mua là 60%
của
Machine Translated by Google
402
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.31
Mô hình ngân sách tiền mặt
bán hàng và được thanh toán 1 tháng trước khi bán hàng. Tiền công và tiền lương là 12%
doanh số bán hàng và được trả trong cùng tháng bán hàng. Tiền thuê $10,000 trả mỗi tháng.
Chi phí hoạt động bằng tiền mặt bổ sung là 30.000 đô la mỗi tháng sẽ phát sinh từ tháng 4
đến tháng 7, giảm xuống còn 25.000 đô la cho tháng 8 và tháng 9. Các khoản thanh toán thuế
$20.000 và $30.000 dự kiến lần lượt vào tháng 4 và tháng 7. Chi phí vốn là 150.000 đô la
sẽ xảy ra vào tháng 6 và công ty có khoản thanh toán thế chấp là 60.000 đô la vào tháng
5. Số dư tiền mặt vào cuối tháng 3 là 150.000 đô la và các nhà quản lý luôn muốn duy trì
số dư tiền mặt tối thiểu là 100.000 đô la. Công ty sẽ vay số tiền cần thiết để đảm bảo
đạt được số dư tối thiểu. Bất kỳ khoản tiền mặt nào trên mức tối thiểu sẽ được sử dụng
để thanh toán bất kỳ số dư khoản vay nào cho đến khi nó được loại bỏ. Số dư tiền mặt
khả dụng ở hàng 25 của bảng tính là các biến đầu ra mà chúng tôi muốn dự đoán.
VÍ DỤ 12.17 Mô phỏng Mô hình Ngân sách Tiền mặt không có Tương quan
Xây dựng mô hình mô phỏng cơ bản bằng cách xác định phân phối
phân phối thống nhất =PsiUniform(15%, 20%) và đối với tỷ lệ
cho từng biến không chắc chắn. Đầu tiên, chỉ định doanh số từ
thu tiền của tháng trước trong ô B8, hãy sử dụng
tháng 4 đến tháng 10 (ô E5:K5) được phân phối chuẩn với giá
=PsiUniform(40%, 50%). Xác định số dư khả dụng trong hàng 25
trị trung bình bằng giá trị trong bảng tính và độ lệch chuẩn
làm biến đầu ra trong mô hình mô phỏng. Tệp Excel Mô hình mô
bằng 10% giá trị trung bình.
phỏng ngân sách tiền mặt Monte Carlo cung cấp mô hình mô
Ví dụ: sử dụng hàm =PsiNormal(600000,60000) trong ô E5. Đối
phỏng đã hoàn thành.
với tỷ lệ thu thập hiện tại trong ô B7, hãy sử dụng
Hình 12.32 cho thấy kết quả của Ví dụ 12.17 dưới dạng biểu đồ xu hướng. Chúng tôi
nhận thấy khả năng cao là số dư tiền mặt trong 3 tháng đầu năm sẽ âm trước khi tăng lên.
Xem các biểu đồ tần suất và số liệu thống kê cho các tháng riêng lẻ sẽ cung cấp chi tiết
về phân phối số dư tiền mặt có khả năng và xác suất
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
403
Hình 12.32
Mô phỏng số dư tiền mặt
Biểu đồ xu hướng
yêu cầu các khoản vay. Ví dụ: vào tháng 4, xác suất số dư sẽ không vượt quá mức tối thiểu
100.000 USD và yêu cầu khoản vay bổ sung là khoảng 0,70 (xem Hình 12.33).
Điều này thực sự trở nên tồi tệ hơn vào tháng 5 và tháng 6 và trở thành 0 vào tháng 7.
Các biến không chắc chắn tương quan
Trừ khi bạn chỉ định khác, mô phỏng Monte Carlo giả định rằng mỗi biến không chắc chắn là
độc lập với tất cả các biến khác. Điều này có thể không phải là trường hợp. Trong mô hình
ngân sách tiền mặt, nếu doanh số bán hàng trong tháng 4 cao, thì doanh số bán hàng trong
tháng 5 cũng sẽ cao. Vì vậy, chúng ta có thể mong đợi một mối tương quan tích cực giữa các biến này.
Trong kịch bản này, chúng tôi giả định hệ số tương quan giữa doanh số bán hàng trong các
tháng liên tiếp là 0,6. Ví dụ sau đây cho thấy cách kết hợp giả định này vào mô hình mô
phỏng.
Hình 12.33
Khả năng không gặp nhau
Số dư tối thiểu trong tháng 4
Machine Translated by Google
404
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
VÍ DỤ 12.18 Kết hợp các mối tương quan trong Nền tảng bộ giải phân tích
Để tương quan các biến không chắc chắn trong Mô hình mô phỏng
không thỏa mãn tính chất này, nó sẽ hỏi bạn có muốn điều chỉnh
Ngân sách tiền mặt Monte Carlo, trước tiên hãy nhấp vào Tương quan
các mối tương quan để nó thỏa mãn hay không. Luôn chọn Có.
trong nhóm Mô hình Mô phỏng trong dải băng Nền tảng Bộ giải Phân
Nhấp vào nút Ma trận cập nhật (bạn có thể thực hiện các thay đổi
tích. Thao tác này làm xuất hiện hộp thoại Tạo ma trận tương
theo cách thủ công nhưng chúng tôi khuyên bạn chỉ nên thực hiện
quan mới như trong Hình 12.34 liệt kê các biến không chắc chắn
điều này cho người dùng nâng cao) rồi nhấp vào Chấp nhận cập
trong mô hình. Trong ví dụ này, chúng tôi chỉ tương quan hóa
nhật. Ma trận điều chỉnh được thể hiện trong Hình 12.37. Lưu ý
các biến trong phạm vi E5:K5. Trong ngăn bên trái, giữ phím Ctrl
rằng mối tương quan giữa các tháng kế tiếp gần bằng 0,6, nhưng
và nhấp vào từng bản phân phối trong phạm vi E5:K5 hoặc nhấp vào
ma trận hiện bao gồm một số mối tương quan nhỏ giữa các tháng
$E5$, giữ phím Shift và sau đó nhấp vào $K$5 để chọn chúng. Sau
khác. Điều này đảm bảo tính nhất quán toán học cần thiết để chạy
đó bấm vào mũi tên bên phải. (Mũi tên kép bên phải chọn tất cả
mô phỏng. Bây giờ bạn có thể đóng hộp thoại.
chúng, điều mà chúng ta không muốn trong ví dụ này.) Điều này tạo
Phạm vi ô của ma trận tương quan được sử dụng trong hàm
ra một ma trận tương quan ban đầu như trong Hình 12.35. Các giá
PsiCorrMatrix(phạm vi ô, vị trí, thế đứng), trong đó vị trí
trị số hiển thị các mối tương quan (ban đầu được đặt thành 0);
tương ứng với số biến không chắc chắn trong ma trận tương quan
các phân phối màu xanh lá cây là những phân phối được sử dụng
và thể hiện đề cập đến tên được đặt cho ma trận tương quan. Nền
trong các ô không chắc chắn và các biểu đồ phân tán màu xanh lam
tảng bộ giải phân tích thêm các chức năng này vào các bản phân
hiển thị các biểu diễn trực quan về mối tương quan giữa các
phối cho các biến không chắc chắn có tương quan với nhau. Ví
biến. Thay thế các số không bằng các mối tương quan mà bạn muốn
dụ: công thức trong ô E5 cho doanh số tháng 4 được thay đổi thành:
trong mô hình. Trong ví dụ này, chúng tôi sẽ giả sử mối tương
= PsiNormal (600000,60000,PsiCorrMatrix($B$33:$H$39,1, “Monthly
quan là 0,6 giữa mỗi tháng liên tiếp. Trong hộp 2 và 3, bạn có
Correlations”)). Công thức trong ô F5 cho doanh số tháng 5 được
thể đặt tên cho ma trận tương quan và chỉ định vị trí để đặt nó
thay đổi thành: =PsiNormal(700000,70000,PsiCorrMatrix
trong bảng tính. Điều này được thể hiện trong Hình 12.36.
($B$33:$H$39,2, “Monthly Correlations”)), v.v.
Bây giờ, điều rất quan trọng là phải đảm bảo rằng các mối
tương quan nhất quán với nhau về mặt toán học (một tính chất
toán học được gọi là nửa xác định dương). Bạn có thể chọn nút
Bây giờ thiết lập các tùy chọn mô phỏng và chạy mô hình. Tệp
Xác thực trong hộp thoại Quản lý tương quan hoặc Nền tảng bộ
Excel Mô hình mô phỏng ngân sách tiền mặt Monte Carlo với các mối
giải phân tích sẽ thực hiện kiểm tra tự động cho điều này khi bạn
tương quan cung cấp mô hình hoàn chỉnh cho ví dụ này.
cố gắng đóng hộp thoại. Nếu ma trận tương quan
Hình 12.34
Tạo mối tương quan mới
Hộp thoại ma trận
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Hình 12.35
Ma trận tương quan ban đầu
Hình 12.36
Hoàn thành tương quan
ma trận
Hình 12.37
Điều chỉnh tương quan
405
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
406
Bạn sẽ quan sát thấy một số khác biệt nhỏ trong kết quả khi các biến không chắc chắn
có mối tương quan với nhau. Ví dụ: độ lệch chuẩn cho số dư tháng 9 thấp hơn khi các mối
tương quan được đưa vào mô hình so với khi không có. Nói chung, việc đưa các mối
tương quan vào một mô hình mô phỏng có xu hướng làm giảm phương sai của các kết quả đầu
ra được dự đoán.
Phân tích trong thực tế: Triển khai Monte Carlo quy mô lớn
Mô hình bảng tính4
Việc triển khai các mô hình Monte Carlo quy mô lớn trong
bởi vì toàn bộ bảng tính phải được tính toán lại cho cả
bảng tính trong thực tế có thể là một thách thức. Ví dụ
mỗi lần lặp lại mô phỏng và từng tài sản riêng lẻ (hoặc
này cho thấy cách một công ty đã sử dụng mô phỏng Monte
giao dịch) trong danh mục đầu tư. Điều này đẩy các giới
Carlo để phân tích rủi ro tín dụng bất động sản thương
hạn của các mô hình Excel độc lập, ngay cả đối với một
mại nhưng phải phát triển các phương pháp tiếp cận mới
nội dung. Hơn nữa, vì ngân hàng thường quan tâm đến
để triển khai hiệu quả các phân tích bảng tính trong
việc phân tích toàn bộ danh mục đầu tư gồm hàng ngàn
toàn công ty.
tài sản của mình, nên trên thực tế, việc sử dụng Excel
Có trụ sở tại Stuttgart, Đức, Hypo Real Estate Bank
độc lập trở nên không thể thực hiện được.
Do đó, Hypo cần một cách để triển khai các phân tích
International (Hypo), với danh mục đầu tư lớn trong lĩnh
vực cho vay bất động sản thương mại, đảm nhận một số
mô phỏng phức tạp theo cách mà các văn phòng toàn cầu của
giao dịch bất động sản lớn nhất thế giới. Hypo đã phải đối
họ có thể sử dụng cho tất cả hàng nghìn khoản vay của họ.
mặt với thách thức tuân thủ các quy định ngân hàng Basel
Ngoài cường độ tính toán của các phân tích mô phỏng, tùy
II ở Châu Âu. Basel II là một quy định mới để thiết lập
chọn xây dựng toàn bộ khung mô phỏng trong Excel có thể
vốn tối thiểu được giữ trong dự trữ của các ngân hàng
dẫn đến lỗi do con người gây ra.
hoạt động quốc tế. Nếu một ngân hàng có thể tuân thủ các
yêu cầu khắt khe hơn của quy định, thì ngân hàng đó có
thể tiết kiệm được 20–E60 triệu E mỗi năm chi phí vốn.
Tuy nhiên, để đủ điều kiện, Hypo cần các mô hình rủi ro
và hệ thống báo cáo mới. Công ty cũng mong muốn nâng cấp
khung quản lý và báo cáo nội bộ để cung cấp các công cụ
phân tích tốt hơn cho các nhân viên cho vay, những người
chịu trách nhiệm cơ cấu các khoản vay mới và cung cấp cho
các nhà quản lý hiểu rõ hơn về rủi ro của danh mục đầu
tư tổng thể.
Mô phỏng Monte Carlo là phương pháp tiếp cận thực
tế duy nhất để phân tích các mô hình rủi ro mà ngân hàng
cần. Ví dụ: trong một ứng dụng bất động sản thương mại,
200 biến kinh tế vĩ mô và thị trường khác nhau thường
được mô phỏng trong hơn 20 năm. Quá trình mô hình hóa
dòng tiền có thể còn phức tạp hơn, đặc biệt nếu tác động
Vladitto/
Shutterstock.com
của tất cả các chi tiết phức tạp của giao dịch phải được
định lượng. Tuy nhiên, quá trình tính toán của mô phỏng
Monte Carlo đòi hỏi nhiều về số lượng
4Dựa trên Yusuf Jafry, Christopher Marrison và Ulrike Umkehrer-Neudeck, “Hypo International Tăng
cường Quản lý Rủi ro với Khuôn khổ Quản lý Bảng tính An toàn, Quy mô Lớn,” Interfaces, 38, 4
(Tháng 7–Tháng 8 năm 2008): 281–288.
Machine Translated by Google
407
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
họ gọi là rủi ro bảng tính. Rủi ro bảng tính mà Hypo muốn
giảm thiểu bao gồm:
Với những vấn đề tiềm ẩn này, Hypo coi giải pháp
Excel thuần túy là không thực tế. Thay vào đó, họ sử dụng
phần mềm độc quyền của một công ty tư vấn, được gọi là
Sự phổ biến của các mô hình bảng tính được
Hệ thống Tài chính Chuyên dụng (SFS), nhúng các bảng tính
lưu trữ trên máy tính để bàn của người dùng cá
vào một hệ thống dựa trên máy chủ, hiệu suất cao dành cho
nhân trong toàn tổ chức chưa được kiểm tra và thiếu
các ứng dụng doanh nghiệp. Điều này đã loại bỏ rủi ro về
dữ liệu phiên bản cũng như việc thao túng kết quả
bảng tính nhưng cho phép người dùng khai thác sức mạnh
tính toán bảng tính mà không được phép.
lập trình linh hoạt mà bảng tính mang lại, đồng thời mang
Khả năng xảy ra lỗi nghiêm trọng do lỗi đánh
lại sự tự tin và tin tưởng vào kết quả. Hệ thống mới đã
máy và lỗi “cắt và sao chép và dán” khi nhập dữ
cải thiện báo cáo quản lý và hiệu quả của các quy trình
liệu từ các ứng dụng hoặc bảng tính khác.
nội bộ, đồng thời cung cấp thông tin chi tiết về cơ cấu
Vô tình chấp nhận kết quả từ tính toán không đầy đủ.
các khoản vay mới để làm cho chúng ít rủi ro hơn và sinh
lãi nhiều hơn.
Lỗi liên quan đến việc chạy không đủ số lần lặp
Monte Carlo do hạn chế về dữ liệu hoặc thời gian.
Điều khoản quan trọng
Rủi ro
Biểu đồ hình hộp
Lỗi trung bình
phân tích rủi ro
vạch đánh dấu
Biểu đồ độ nhạy
Mô phỏng Monte Carlo
Biểu đồ xu hướng
biểu đồ lớp phủ
chức năng không chắc chắn
vấn đề và bài tập
1. Đối với mô hình thị phần trong Bài toán 5 của Chương 11, giả
doanh thu mà họ có thể mong đợi từ việc bán vé.
sử rằng ước tính tỷ lệ phần trăm người mua mới cuối cùng sẽ
Sân nhà, Sân vận động Dylan, có năm khu vực chỗ ngồi khác nhau
dùng thử nhãn hiệu là không chắc chắn và được giả định là
với các mức giá khác nhau. Thông tin chính được đưa ra dưới
phân phối chuẩn với trung bình là 35% và độ lệch chuẩn là 4%.
đây. Tất cả các nhu cầu đều được giả định là có phân phối
Sử dụng hàm NORM.INV và bảng dữ liệu một chiều để tiến hành mô
chuẩn.
phỏng Monte Carlo với 25 thử nghiệm nhằm tìm ra sự phân bổ của
thị phần trong dài hạn.
chỗ ngồi
Vùng
Đầu tiên
2. Đối với mô hình gara-band trong Bài toán 7 của Chương 11, giả
sử rằng đám đông dự kiến được phân phối chuẩn với trung bình
là 3.000 và độ lệch chuẩn là 200. Sử dụng hàm NORM.INV và bảng
dữ liệu một chiều để tiến hành một mô phỏng Monte Carlo với 25
thử nghiệm để tìm ra sự phân phối lợi nhuận dự kiến.
Một thành phần của ngân sách là
15.000
Vé
Giá
Nghĩa là
Yêu cầu
$100,00 14.500
Tiêu chuẩn
độ lệch
750
Mức độ
bên lề
Thứ hai
5.000
$90,00
4.750
500
10.000
$80,00
9.000
1.250
Mức độ
Đầu tiên
3. Một đội bóng chuyên nghiệp đang chuẩn bị ngân sách cho năm tới.
Ghế ngồi
Có sẵn
Mức độ
Vùng cuối
(còn tiếp)
Machine Translated by Google
408
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
chỗ ngồi
Vùng
Vé
Ghế ngồi
Giá
Có sẵn
Ngày thứ ba
Nghĩa là
21.000
Yêu cầu
$70,00 17.000
Tiêu chuẩn
độ lệch
2.500
chuẩn là $12. Tìm xác suất mà gia công phần mềm sẽ dẫn đến quyết
định tốt nhất.
7. Đối với Mô hình quyết định thuê ngoài, giả sử rằng lượng cầu
Mức độ
được phân phối logic với giá trị trung bình là 1.500 và độ lệch
bên lề
Ngày thứ ba
được phân phối chuẩn với giá trị trung bình là $175 và độ lệch
14.000
$60,00
8.000
3.000
chuẩn là 500. Sự phân bổ chênh lệch chi phí giữa sản xuất trong
nhà và mua hàng là gì? Quyết định nào bạn sẽ đề nghị? Xác định
Mức độ
cả chênh lệch chi phí và quyết định làm ô đầu ra. Vì các ô đầu
Vùng cuối
ra trong Nền tảng bộ giải phân tích phải là số, hãy thay thế
Xác định phân phối tổng doanh thu theo các giả định này bằng
cách sử dụng bảng dữ liệu Excel với 50 thử nghiệm mô phỏng.
công thức trong ô B20 bằng IF(B19< 0,1,0); nghĩa là, 1 đại diện
cho sản xuất và 0 đại diện cho gia công phần mềm.
Tóm tắt kết quả của bạn với một biểu đồ.
4. Đối với mẫu sản phẩm mới trong Bài toán 9 của Chương 11, giả sử
rằng doanh số bán hàng năm đầu tiên được phân phối chuẩn với
trung bình là 100.000 đơn vị và độ lệch chuẩn là 10.000. Sử
dụng hàm NORM.INV và bảng dữ liệu một chiều để tiến hành mô
phỏng Monte Carlo nhằm tìm phân phối lợi nhuận theo giá trị
hiện tại ròng trong khoảng thời gian 3 năm.
8. Giả sử rằng một số biến trong mô hình về giá trị kinh tế của một
khách hàng trong Ví dụ 11.1 trong Chương 11 là không chắc chắn.
Cụ thể, giả sử rằng doanh thu trên mỗi lần mua là bình thường
với giá trị trung bình là 50 đô la và độ lệch chuẩn là 5 đô la và
tỷ lệ bỏ trốn là đồng nhất trong khoảng từ 20% đến 40%. Tìm phân
phối của V bằng cách sử dụng Nền tảng bộ giải phân tích.
5. Các nhà phân tích tài chính thường sử dụng mô hình sau để
Đặc trưng cho sự thay đổi giá cổ phiếu:
Pt
p0 e
(m-0,5s2 )t+sZ2t
9. Đối với mô hình lợi nhuận được phát triển trong Ví dụ 11.2 trong
Chương 11 và mô hình Excel trong Hình 11.4, giả sử rằng nhu
cầu có dạng tam giác với giá trị tối thiểu là 35.000, tối đa
là 60.000 và rất có thể là 50.000; chi phí cố định là bình
Ở đâu
thường với giá trị trung bình là 400.000 đô la và độ lệch chuẩn
P0 giá cổ phiếu hiện tại
Giá Pt tại thời điểm t
m thay đổi trung bình (logarit) của giá cổ phiếu trên một
đơn vị thời gian s
(logarit) độ lệch chuẩn của thay đổi giá
Biến ngẫu nhiên chuẩn Z chuẩn
Mô hình này giả định rằng logarit của giá cổ phiếu là một biến
ngẫu nhiên có phân phối chuẩn (xem thảo luận về phân phối chuẩn
logic và lưu ý rằng số hạng đầu tiên của số mũ là giá trị trung
là 25.000 đô la; và chi phí đơn vị có dạng tam giác với giá trị
tối thiểu là $22,00, giá trị rất có thể là $24,00 và giá trị tối
đa là $30,00.
Một. Sử dụng Nền tảng bộ giải phân tích để tìm phân phối lợi
nhuận.
b. Lợi nhuận trung bình có thể được mong đợi là gì?
c. Bao nhiêu lợi nhuận có thể được mong đợi với xác suất ít nhất
là 0,7?
đ. Tìm khoảng tin cậy 95% cho mô phỏng 5.000 lần thử.
bình của phân phối chuẩn logic). Sử dụng dữ liệu lịch sử, chúng
ta có thể ước tính các giá trị cho m và s. Giả sử rằng thay
đ. Diễn giải biểu đồ độ nhạy.
đổi trung bình hàng ngày đối với một cổ phiếu là $0,003227 và
độ lệch chuẩn là 0,026154. Xây dựng bảng tính để mô phỏng giá cổ
phiếu trong 30 ngày tới nếu giá hiện tại là 53 đô la. Sử dụng
10. Đối với mô hình Moore Pharmaceuticals, giả sử rằng các nhà phân
tích đã đưa ra các giả định sau:
hàm Excel NORM.S.INV(RAND( )) để tạo giá trị cho Z. Tạo biểu đồ
Chi phí R&D: Hình tam giác ($500, $700, $800) tính bằng
thể hiện biến động của giá cổ phiếu.
triệu đô la
Chi phí thử nghiệm lâm sàng: Hình tam giác ($135, $150,
$160) tính bằng triệu đô la
6. Sử dụng Nền tảng Bộ giải Phân tích để mô phỏng Mô hình Quyết
định Gia công phần mềm theo các giả định rằng khối lượng sản
Quy mô thị trường: Bình thường (2000000, 250000)
Thị phần năm 1: Thống nhất (6%, 10%)
xuất sẽ có dạng tam giác với giá trị tối thiểu là 800, tối đa
Tất cả các dữ liệu khác được coi là không đổi. Phát triển và
là 1.700 và rất có thể là 1.400 và chi phí của nhà cung cấp đơn
chạy mô hình mô phỏng Monte Carlo để dự đoán giá trị hiện tại
vị
ròng và lợi nhuận ròng tích lũy cho mỗi
Machine Translated by Google
409
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
năm. Tóm tắt kết quả của bạn trong một bản ghi nhớ ngắn cho
Chi phí cố định được ước tính tuân theo phân phối sau:
giám đốc R&D.
11. Chụp ảnh đám cưới Cruz (xem Vấn đề 15 trong Chương 11) tin
Giá cố định
rằng số lượng đặt tiệc cưới trung bình mỗi năm có thể được
ước tính bằng phân phối tam giác với giá trị tối thiểu là
10, tối đa là 22 và giá trị rất có thể là 15. Một trong những
yếu tố chính trong việc phát triển kế hoạch kinh doanh của
xác suất
45.000 USD
0,20
50.000 USD
0,50
$55,000
0,30
anh ấy là tuổi thọ mà anh ấy có thể mong đợi từ một chiếc
máy ảnh phản xạ ống kính đơn kỹ thuật số (DSLR) duy nhất
Thử nghiệm với mô hình để xác định số lượng sản xuất tốt
trước khi cần phải thay thế nó. Do sử dụng nhiều, tuổi thọ
nhất để tối đa hóa lợi nhuận trung bình.
cửa trập được ước tính theo phân phối bình thường với
Bạn có kết luận rằng sản phẩm này là một khoản đầu tư tốt?
trung bình 150.000 lần nhấp với độ lệch chuẩn là 10.000. Đối
với mỗi lượt đặt trước, số lượng ảnh chụp trung bình được
giả định là phân phối chuẩn với giá trị trung bình là 2.000
với độ lệch chuẩn là 300. Phát triển một mô hình mô phỏng để
xác định phân phối tuổi thọ của máy ảnh (tính bằng năm).
15. Người quản lý khách sạn lưu trú dài hạn trong Bài toán 27
của Chương 11 tin rằng số phòng được thuê trong một tuần
nhất định có phân phối tam giác với tối thiểu là 32, rất có
thể là 38 và tối đa là 50. Giá theo tuần là 950 đô la và chi
phí hoạt động hàng tuần tuân theo phân phối chuẩn với giá trị
12. Sử dụng bảng tính Mô hình nhà cung cấp tin tức để thiết lập
và chạy mô phỏng Monte Carlo với giả định rằng nhu cầu là
trung bình là 20.000 đô la và độ lệch chuẩn là 25.000 đô la
nhưng với giá trị tối thiểu là 15.000 đô la (tham số ngưỡng
Poisson với giá trị trung bình là 45 nhưng giá trị tối thiểu
thấp hơn trong hộp thoại; điều này ngăn các giá trị nhỏ
là 40 (sử dụng tham số ngưỡng thấp hơn trong hộp thoại phân
hơn 15.000 đô la được tạo ra). Chạy mô phỏng để trả lời các
phối để cắt bớt phân phối và đảm bảo rằng không các giá trị
câu hỏi sau.
nhỏ hơn 40 được tạo ra trong quá trình mô phỏng). Tìm cách
phân phối lợi nhuận cho số lượng đặt hàng là 40, 45 và 50.
13. Mô phỏng mô hình nhà cung cấp báo cho trường hợp siêu thị
mini được mô tả trong Vấn đề 12 của Chương 11. Sử dụng
phân phối IntUniform trong Nền tảng Bộ giải Phân tích để lập
mô hình nhu cầu và tìm phân phối lợi nhuận cho số lượng đặt
Một. Xác suất mà lợi nhuận hàng tuần sẽ dương là gì?
b. Xác suất mà lợi nhuận hàng tuần sẽ vượt quá 20.000 đô la
là gì?
c. Xác suất mà lợi nhuận hàng tuần sẽ ít hơn 10.000 đô la là
gì?
hàng là 10, 15, 20, 25 , và 30.
14. Sử dụng mô hình lợi nhuận đã phát triển trong Chương 11, hãy
triển khai mô hình mô phỏng tài chính cho một đề xuất sản
phẩm mới và xác định phân phối lợi nhuận của nó bằng cách sử
dụng các phân phối riêng biệt bên dưới cho chi phí đơn vị,
nhu cầu và chi phí cố định. Giá được cố định ở mức 1.000 đô la.
Chi phí đơn vị không xác định và tuân theo phân phối:
Đơn giá
xác suất
$400
0,20
$600
0,40
$700
0,25
$800
0,15
Nhu cầu cũng có thể thay đổi và tuân theo phân phối sau:
16. Phát triển một mô hình mô phỏng Monte Carlo cho ga-ra-ban
nhạc trong Bài toán 7 trong Chương 11 với các giả định sau.
Đám đông dự kiến không được phân phối chính xác với giá trị
trung bình là 3.000 và độ lệch chuẩn 400 (cắt bớt phân phối
để có giá trị nhỏ nhất bằng 0). Chi phí trung bình cho
nhượng quyền cũng được phân phối chuẩn với giá trị trung
bình là 15 đô la, độ lệch chuẩn là 3 đô la và giá trị nhỏ
nhất bằng 0. Xác định lợi nhuận trung bình, lợi nhuận tối
thiểu quan sát được, lợi nhuận quan sát tối đa và xác suất
đạt được lợi nhuận ít nhất là 60.000 đô la. Phát triển và
giải thích khoảng tin cậy cho lợi nhuận trung bình cho mô
phỏng 5.000 thử nghiệm.
17. Công viên Tanner (xem Vấn đề 14 trong Chương 11) là một công
viên giải trí nhỏ cung cấp nhiều trò chơi và hoạt động ngoài
trời cho trẻ em và thanh thiếu niên. Trong một mùa hè điển
hình, số lượng vé người lớn bán ra có phân phối chuẩn với
Yêu cầu
xác suất
120
0,25
140
0,50
160
0,25
trung bình là 20.000 và độ lệch chuẩn là 2.000. Số vé trẻ
em bán ra có phân phối chuẩn với trung bình là 10.000 và độ
lệch chuẩn là 1.000. Giá vé người lớn là $18 và giá trẻ em
là $10.
Machine Translated by Google
410
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Doanh thu từ nhượng quyền thực phẩm và đồ uống được
dự kiến sẽ tạo ra dòng tiền khoảng 8.000 đô la mỗi năm
ước tính là từ 50.000 đến 100.000 đô la, với giá trị rất
trong 5 năm tới. Tuy nhiên, dòng tiền không chắc chắn và
có thể là 60.000 đô la. Tương tự như vậy, doanh thu quà
người quản lý ước tính rằng dòng tiền thực tế sẽ được
lưu niệm có giá trị tối thiểu là 20.000 đô la, rất có thể
phân phối chuẩn với giá trị trung bình là 8.000 đô la và
là 25.000 đô la và giá trị tối đa là 30.000 đô la.
độ lệch chuẩn là 500 đô la.
Chi phí biến đổi cho mỗi người là 3 đô la và chi phí cố
Tỷ lệ chiết khấu được đặt ở mức 8% và được giả định là
định lên tới 150.000 đô la. Hãy xác định khả năng sinh lợi
không đổi trong 5 năm tới. Công ty đánh giá các khoản
của hoạt động kinh doanh này. Xác suất để công viên bị
đầu tư vốn sử dụng giá trị hiện tại ròng.
thua lỗ trong bất kỳ mùa nào là bao nhiêu?
18. Cửa hàng kem Lily's Gourmet cung cấp nhiều loại kem và kem
lắc cho người sành ăn. Mặc dù Lily's cạnh tranh với
các cửa hàng kem và cửa hàng sữa chua đông lạnh khác,
Mức độ rủi ro của khoản đầu tư này như thế nào? Xây
dựng một mô hình mô phỏng phù hợp và tiến hành các thí
nghiệm và phân tích kết quả thống kê để trả lời câu hỏi này.
20. Nhà hát Kelly sản xuất các vở kịch và nhạc kịch cho khán
nhưng không cửa hàng nào cung cấp kem cho người sành ăn
giả trong khu vực. Đối với một buổi biểu diễn thông
với nhiều hương vị khác nhau. Cửa hàng cũng nằm trong
thường, nhà hát bán ít nhất 250 vé và đôi khi đạt đến
một khu vực cao cấp và do đó có thể yêu cầu giá cao
sức chứa 600 chỗ ngồi. Thông thường, khoảng 450 vé được
hơn. Chủ sở hữu là một sinh viên tốt nghiệp trường ẩm
bán. Chi phí cố định cho mỗi hiệu suất là bình thường
thực không có nhiều kinh nghiệm kinh doanh và đã thuê một
với giá trị trung bình là 2.500 đô la và độ lệch chuẩn là
trong những người bạn của cô ấy, người gần đây đã lấy
250 đô la. Giá vé dao động từ $30 đến $70 tùy theo vị trí
bằng MBA để hỗ trợ cô ấy phân tích tài chính của doanh
ghế ngồi. Trong số 600 ghế, 150 ghế có giá 70 đô la, 200
nghiệp và đánh giá khả năng sinh lời của việc giới thiệu
ghế có giá 55 đô la và số còn lại có giá 30 đô la.
một sản phẩm mới. Cửa hàng mở cửa vào mùa xuân và mùa hè,
Trong số tất cả các vé đã bán, vé $55 được bán hết trước
với doanh thu cao hơn vào mùa hè.
tiên. Nếu tổng nhu cầu ít nhất là 500, thì tất cả các chỗ
70 đô la sẽ bán hết. Nếu không, thì từ 50% đến 75% trong
Dựa trên quan sát trước đây, Lily đã xác định ba kịch
bản bán hàng cho sản phẩm mới.
Mùa hè:
số các giấy phép 70 đô la được bán, phần còn lại là các
giấy phép 30 đô la. Tuy nhiên, nếu tổng nhu cầu nhỏ hơn
hoặc bằng 350, thì số lượng vé $70 và $30 được bán
thường được chia đều. Nhà hát tổ chức 160 buổi biểu diễn
Cao—3.000 đơn vị
mỗi năm và phát sinh chi phí cố định hàng năm là 2 triệu
Khả thi nhất—2.500 đơn vị
đô la. Xây dựng mô hình mô phỏng để đánh giá khả năng sinh
Thấp—2.100 đơn vị
lời của rạp hát. Phân phối lợi nhuận ròng và rủi ro mất
tiền trong một năm là gì?
Mùa xuân:
21. Xây dựng mô hình mô phỏng phân tích tài chính tổng lợi
Cao—2.500 đơn vị
nhuận trong 3 năm dựa trên dữ liệu và thông tin sau.
Khả thi nhất—1.500 đơn vị
Doanh số bán hàng trong năm đầu tiên ước tính là 100.000
Thấp—1.000 đơn vị
chiếc và dự kiến sẽ tăng với tốc độ phân phối chuẩn với
Giá dự kiến là $3,00. Tuy nhiên, chi phí đơn vị là không
chắc chắn và được thúc đẩy bởi chi phí của các thành
phần mà cô ấy phải mua cho sản phẩm. Số tiền này được
ước tính là từ $1,40 đến $2,00, với giá trị rất có thể là
$1,50 vào mùa hè, nhưng vào mùa xuân, chi phí rất có thể
là $2,00 vì nguyên liệu khó kiếm hơn. Chi phí cố định
được ước tính là $2.600.
trung bình là 7% mỗi năm và độ lệch chuẩn là 4%. Giá bán
là 10 đô la và mức tăng giá được phân phối chuẩn với giá
trị trung bình là 0,5 đô la và độ lệch chuẩn là 0,05 đô
la mỗi năm. Chi phí biến đổi trên mỗi đơn vị là 3 đô la
và chi phí cố định hàng năm là 200.000 đô la. Chi phí
trên mỗi đơn vị dự kiến sẽ tăng theo một lượng phân
phối chuẩn với giá trị trung bình là 5% mỗi năm và độ
lệch chuẩn là 2%. Chi phí cố định dự kiến sẽ tăng theo
Một. Tìm phân phối lợi nhuận cho mỗi mùa và phân phối chung.
phân phối bình thường với trung bình là 10% mỗi năm và
b. Việc tăng giá 0,5 đô la vào mùa hè và giảm 0,5 đô la
phỏng, hãy tìm lợi nhuận tích lũy trung bình trong 3 năm.
độ lệch chuẩn là 3%. Dựa trên 10.000 thử nghiệm mô
vào mùa xuân ảnh hưởng đến kết quả như thế nào?
Tạo và biểu diễn rõ ràng biểu đồ xu hướng thể hiện lợi
nhuận ròng theo năm.
19. Một giám đốc nhà máy đang cân nhắc đầu tư vào một chiếc
máy mới trị giá 30.000 USD. Sử dụng máy mới là
22. Ủy ban điều hành của Reder Electric Xe (xem Vấn đề 16
trong Chương 11) đang tranh luận liệu
Machine Translated by Google
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
để thay thế mẫu ban đầu, REV-Touring, bằng một mẫu mới,
411
và 7% và độc lập với các năm khác. Tìm phân phối NPV của
REV-Sport, sẽ thu hút khán giả trẻ hơn. Bất kỳ phương
lợi nhuận trong thời hạn 3 năm và phân tích độ nhạy và
tiện nào được chọn sẽ được sản xuất trong 4 năm tới,
biểu đồ xu hướng. Summa rize kết luận của bạn.
sau thời gian đó sẽ cần phải đánh giá lại. REV-Sport đã
trải qua giai đoạn ý tưởng và thiết kế ban đầu và đã
sẵn sàng cho giai đoạn thiết kế và sản xuất cuối cùng.
Chi phí phát triển cuối cùng được ước tính là 75 triệu
đô la và chi phí cố định mới cho công cụ và sản xuất
được ước tính là 600 triệu đô la. REV-Sport dự kiến sẽ
được bán với giá 30.000 USD. Doanh số bán hàng năm đầu
tiên của REV-Sport ước tính được phân bổ bình thường
với mức trung bình là 60.000/năm và độ lệch chuẩn là
12.000/năm. Tăng trưởng doanh thu cho các năm tiếp theo
ước tính có phân phối chuẩn với trung bình là 6% và độ
lệch chuẩn là 2%. Chi phí biến đổi trên mỗi phương tiện
là không chắc chắn cho đến khi các quyết định về thiết
kế và chuỗi cung ứng được hoàn thiện nhưng được ước
tính là từ 20.000 đến 28.000 USD với giá trị có khả năng
nhất là 22.000 USD.
Doanh số bán hàng trong năm tới của REV-Touring được
ước tính là 50.000 chiếc với độ lệch chuẩn là 9.000
chiếc/năm, nhưng doanh số bán hàng dự kiến sẽ giảm với
tốc độ phân phối chuẩn với trung bình là 10% và độ lệch
chuẩn là 3,5% cho mỗi 3 năm tiếp theo.
Giá bán là 28.000 USD. Chi phí biến đổi không đổi ở mức
$21,000. Vì mô hình đã được sản xuất nên chi phí cố
định cho việc phát triển đã được phục hồi. Phát triển mô
25. Bảo tàng Schoch (xem Vấn đề 17 trong Chương 11) đang bắt
tay vào chiến dịch gây quỹ kéo dài 5 năm.
Là một tổ chức phi lợi nhuận, bảo tàng gặp khó khăn
trong việc thu hút các nhà tài trợ mới vì nhiều nhà tài
trợ không đóng góp hàng năm. Giả sử rằng bảo tàng đã
xác định được một nhóm 8.000 nhà tài trợ tiềm năng. Số
lượng nhà tài trợ thực tế trong năm đầu tiên của chiến
dịch được ước tính nằm trong khoảng từ 60% đến 75% của
nhóm này. Đối với mỗi năm tiếp theo, bảo tàng hy vọng
rằng một tỷ lệ phần trăm nhất định các nhà tài trợ hiện
tại sẽ ngừng đóng góp của họ. Con số này dự kiến nằm
trong khoảng từ 10% đến 60%, với giá trị rất có thể là
35%. Ngoài ra, bảo tàng hy vọng sẽ thu hút được một số
phần trăm các nhà tài trợ mới. Con số này được giả định
là từ 5% đến 40% số nhà tài trợ của năm hiện tại, với
giá trị rất có thể là 10%. Khoản đóng góp trung bình
trong năm đầu tiên được giả định là 50 đô la và sẽ tăng
với tốc độ từ 0% đến 8% mỗi năm tiếp theo, với mức tăng
nhiều khả năng nhất là 2,5%. Phát triển và phân tích một
mô hình để dự đoán tổng số tiền sẽ được huy động trong
khoảng thời gian 5 năm.
26. Xem lại tình huống lập kế hoạch nghỉ hưu được mô tả
trong Chương 11 (Ví dụ 11.11). Sửa đổi bảng tính để
hình mô phỏng Monte Carlo 4 năm để đề xuất quyết định
bao gồm các giả định rằng mức tăng lương hàng năm là
tốt nhất sử dụng suất chiết khấu giá trị hiện tại ròng
hình tam giác với mức tối thiểu là 1%, giá trị rất có thể
là 5%.
23. Phát triển và phân tích mô hình mô phỏng cho Koehler
Vision Associates (KVA) trong Bài toán 13 của Chương 11
với các giả định sau. Giả sử rằng nhu cầu thống nhất từ
110 đến 160 mỗi tuần và có khoảng từ 10% đến 20% bệnh
nhân tương lai không đến khám hoặc hủy buổi khám vào
phút cuối. Xác định phân phối lợi nhuận ròng (doanh thu
trừ chi phí đặt trước vượt mức) và số lượng đặt trước
vượt mức để lên lịch cho 133, 140 hoặc 150 bệnh nhân.
là 3% và giá trị tối đa là 5% và lợi tức đầu tư hàng năm
là hình tam giác với mức tối thiểu là 5% , giá trị rất có
thể là 8% và giá trị tối đa là 9%. Sử dụng nền tảng bộ
giải phân tích
để tìm sự phân phối của số dư quỹ hưu trí cuối kỳ theo
các giả định này. Làm thế nào để kết quả so sánh với
trường hợp cơ sở?
27. Mô hình lập kế hoạch nghỉ hưu được mô tả trong Chương
11 (Ví dụ 11.11) giả định rằng dữ liệu trong hàng 5–8
của bảng tính giống nhau cho mỗi năm của mô hình. Sửa
24. Đối với kịch bản của Trung tâm Phẫu thuật Hyde Park được
mô tả trong Bài toán 33 ở Chương 11, giả sử rằng các
giả định sau được thực hiện. Số lượng bệnh nhân phục
vụ năm đầu thống nhất từ 1.300 đến 1.700; tốc độ tăng
trưởng của các năm tiếp theo là tam giác với các tham số
(5%, 8%, 9%) và tốc độ tăng trưởng của năm thứ 2 không
đổi bảng tính để cho phép mức tăng lương hàng năm và
lợi tức đầu tư thay đổi độc lập mỗi năm và sử dụng công
thức trong Bài toán 26 để chạy mô hình mô phỏng.
So sánh kết quả của bạn với Bài toán 26.
28. Adam 24 tuổi và có kế hoạch 401(k) thông qua chủ của anh
phụ thuộc vào tốc độ tăng trưởng của năm thứ 3; hóa đơn
ấy, một tổ chức tài chính lớn. Công ty của anh ấy phù
trung bình là bình thường với giá trị trung bình là
hợp với 50% khoản đóng góp của anh ấy lên tới 6% tiền
150.000 đô la và độ lệch chuẩn là 10.000 đô la; và mức
lương của anh ấy. Anh ấy hiện đang đóng góp số tiền
tăng chi phí cố định hàng năm đều trong khoảng 5%
tối đa có thể. Trong tài khoản 401(k) của mình, anh ấy có ba quỹ.
Machine Translated by Google
412
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Đầu tư A là một quỹ chỉ số vốn hóa lớn, có mức tăng
tỷ lệ $0,109/kWh. Dựa trên phân tích hóa đơn tiền điện của
trưởng trung bình hàng năm trong 10 năm qua là 6,63% với
những năm trước, chi phí điện hàng năm dự kiến sẽ tăng
độ lệch chuẩn là 13,46%.
theo phân phối tam giác với giá trị có khả năng nhất là
Investment B là một quỹ chỉ số vốn hóa trung bình với mức
3%, tối thiểu là 2,5% và tối đa là 4%, bắt đầu từ năm đầu
tăng trưởng trung bình hàng năm trong 10 năm là 9,89% và
tiên. Chi phí vốn ước tính là 5%. Phát triển một mô hình
độ lệch chuẩn là 15,28%. Cuối cùng, Đầu tư C là một quỹ
mô phỏng để tìm giá trị hiện tại ròng của công nghệ trong
Chỉ số vốn hóa nhỏ với tốc độ tăng trưởng trung bình hàng
khoảng thời gian 10 năm, bao gồm cả hệ thống và chi phí
năm trong 10 năm là 8,55% và độ lệch chuẩn là 16,90%. 50%
lắp đặt. Xác suất mà hệ thống sẽ kinh tế là gì?
khoản đóng góp của anh ấy được chuyển đến Khoản đầu tư
A, 25% cho Khoản đầu tư B và 25% cho Khoản đầu tư C. Mức
lương hiện tại của anh ấy là 48.000 đô la và dựa trên
một cuộc khảo sát về thù lao của các tổ chức tài chính,
31. Tham khảo lại kịch bản giám đốc tuyển sinh đại học (Vấn đề
36 trong Chương 11). Phát triển một mô hình bảng tính và
anh ấy dự kiến mức tăng trung bình là 2,7% với độ lệch chuẩn
xác định các phân phối không chắc chắn mà bạn tin rằng sẽ
0,4% mỗi năm. Phát triển một mô hình mô phỏng để dự đoán
phù hợp để tiến hành mô phỏng Monte Carlo. Dựa trên mô
anh ta sẽ có bao nhiêu tiền ở tuổi 60.
hình và mô phỏng của bạn, hãy đưa ra đề xuất về số lượng
29. Phát triển một mô hình mô phỏng lập kế hoạch nghỉ hưu thực
tàu học giả sẽ cung cấp.
tế cho hoàn cảnh cá nhân của bạn. Nếu bạn hiện đang làm
việc, hãy sử dụng càng nhiều thông tin càng tốt mà bạn có
thể thu thập cho mô hình của mình, bao gồm khả năng tăng
32. Ngân hàng J&G nhận được một số lượng lớn đơn đăng ký thẻ
tín dụng mỗi tháng, trung bình là 30.000 với độ lệch chuẩn
lương, thăng chức, đóng góp và tỷ lệ hoàn vốn dựa trên số
là 4.000, phân phối chuẩn.
tiền thực tế mà bạn đầu tư. Nếu bạn chưa có việc làm,
Khoảng 60% trong số đó được phê duyệt, nhưng tỷ lệ này
hãy cố gắng tìm kiếm thông tin về mức lương trong ngành
thường dao động trong khoảng từ 50% đến 70%. Mỗi khách
mà bạn dự định làm việc và các phúc lợi khi nghỉ hưu mà
hàng tính tổng cộng 2.000 đô la, được phân phối bình
các công ty trong ngành đó cung cấp cho mô hình của bạn.
thường, với độ lệch chuẩn là 250 đô la, vào thẻ tín dụng
Ước tính tỷ lệ lợi nhuận dựa trên các quỹ tương hỗ phổ
của họ mỗi tháng. Khoảng 85% thanh toán toàn bộ số dư của
biến được sử dụng cho quỹ hưu trí hoặc hiệu suất trung
họ và phần còn lại trả phí tài chính hiện hành. Phí tài
bình của các chỉ số thị trường chứng khoán. Trình bày rõ
chính trung bình gần đây đã thay đổi từ 3% đến 4% mỗi
ràng các giả định của bạn và cách bạn đạt được chúng,
đồng thời phân tích và giải thích đầy đủ các kết quả mô hình của bạn.
30. Waring Solar Systems cung cấp các tấm pin mặt trời và các
tháng. Ngân hàng cũng nhận được thu nhập từ phí tính cho
các khoản thanh toán trễ và phí hàng năm liên quan đến thẻ
tín dụng. Đây là tỷ lệ phần trăm của tổng chi phí hàng
công nghệ tiết kiệm năng lượng khác cho các tòa nhà.
tháng và dao động trong khoảng từ 6,8% đến 7,2%. Ngân hàng
Đáp lại yêu cầu của khách hàng, công ty đang tiến hành một
phải trả 20 đô la cho mỗi đơn đăng ký, cho dù nó có được
nghiên cứu khả thi để xác định xem liệu các tấm pin mặt
chấp thuận hay không. Chi phí duy trì hàng tháng cho khách
trời có cung cấp đủ năng lượng để tự thanh toán trong thời
hàng sử dụng thẻ tín dụng được phân phối bình thường với
gian hoàn vốn hay không. Công suất được đo bằng MWh/năm
giá trị trung bình là 10 đô la và độ lệch chuẩn là 1,50 đô
(1000 kWh). Con số này được xác định bởi số lượng tấm pin
la. Cuối cùng, tổn thất do trừ tài khoản của khách hàng
được lắp đặt và lượng ánh sáng mặt trời mà tấm pin nhận
nằm trong khoảng từ 4,6% đến 5,4% tổng phí.
được mỗi năm. Tốc độ Ca có thể thay đổi rất nhiều do điều
kiện thời tiết, đặc biệt là mây và tuyết. Các kỹ sư đã
xác định rằng khách hàng này nên sử dụng hệ thống 80MWh/năm.
Một. Sử dụng các giá trị trung bình cho tất cả các yếu tố đầu vào không
chắc chắn, hãy phát triển một mô hình bảng tính để tính toán
tổng lợi nhuận hàng tháng của ngân hàng.
Chi phí của hệ thống và lắp đặt là $80,000.
Lượng điện năng mà hệ thống sẽ sản xuất được phân phối
chuẩn với độ lệch chuẩn là 10 MWh/năm. Các tấm pin mặt
trời trở nên kém hiệu quả hơn theo thời gian chủ yếu là
do lớp vỏ bảo vệ của chúng bị che phủ. Mức giảm hiệu quả
hàng năm thường được phân bổ với giá trị trung bình là
1% và độ lệch chuẩn là 0,2% và sẽ được áp dụng sau năm
đầu tiên. Khách hàng hiện đang nhận điện từ nhà cung cấp
của mình tại
b. Sử dụng mô phỏng Monte Carlo để phân tích khả năng sinh
lời của sản phẩm thẻ tín dụng. Sử dụng bất kỳ công cụ
nào của Nền tảng bộ giải phân tích khi thích hợp để
phân tích đầy đủ kết quả của bạn và cung cấp báo cáo
đầy đủ và hữu ích cho người quản lý bộ phận thẻ tín
dụng.
33. SPD Tax Service là một công ty khai thuế khu vực cạnh
tranh với các chuỗi quốc gia như H&R
Machine Translated by Google
413
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
Khối. Công ty đang xem xét việc mở rộng và cần một
chuyển đổi và bảo trì, trung bình 70% với độ lệch
mô hình tài chính để phân tích quyết định mở một cửa
chuẩn là 5%, điều này làm giảm công suất hàng tuần.
hàng mới. Các yếu tố chính ảnh hưởng đến quyết định
Sáu bộ phận chính được sản xuất và nhà máy có ba
này bao gồm nhân khẩu học của vị trí được đề xuất,
loại máy móc khác nhau để sản xuất từng bộ phận.
mức giá có thể đạt được trong thị trường mục tiêu
Các máy không thể hoán đổi cho nhau vì mỗi máy có
và khả năng tài trợ cho tiếp thị và quảng cáo. Chi
một chức năng cụ thể. Thời gian sản xuất từng bộ
phí vốn sẽ được bỏ qua vì thiết bị không sử dụng từ
phận trên mỗi máy khác nhau. Thời gian trung bình
các địa điểm khác thường có thể được chuyển đến
và độ lệch chuẩn (tính bằng giờ) để sản xuất từng
cửa hàng mới trong năm đầu tiên cho đến khi chúng có
bộ phận trên mỗi máy được hiển thị bên dưới:
thể được thay thế định kỳ thông qua ngân sách chi
phí cố định. Các thị trường mục tiêu của SPD đang
được xem xét là các cộng đồng có dân số từ 30.000
đến 50.000, được giả định là phân bố đồng đều.
thời gian trung bình
Loại bộ phận Máy A Máy B Máy C
1
3,5
2.6
2
3.4
2,5
3
1.8
3,5
12.6
khai thuế. Giả sử trung bình mỗi hộ gia đình có 2,5
4
2.4
5,8
12,5
người, điều này có thể được biểu thị bằng 0,15*dân
5
4.2
4.3
28
số/2,5. SPD ước tính rằng nhu cầu trong năm đầu tiên
6
4
4.3
28
Nhu cầu thị trường về dịch vụ kê khai thuế liên quan
trực tiếp đến số lượng hộ gia đình trên địa bàn;
ước tính khoảng 15% hộ gia đình sẽ sử dụng dịch vụ
8,9
số 8
của họ sẽ chiếm trung bình 5% tổng nhu cầu thị
trường và với mỗi đô la quảng cáo, trung bình sẽ
tăng 2%. Nhu cầu năm đầu tiên được giả định là bình
thường với độ lệch chuẩn là 20% nhu cầu trung bình.
Độ lệch chuẩn
Loại bộ phận Máy A Máy B Máy C
1
0,15
0,12
0,15
nhưng bị giới hạn ở mức 10% doanh thu hàng năm.
2
0,15
0,12
0,15
Nhu cầu tăng khá mạnh trong năm thứ hai và thứ ba và
3
0,1
0,15
0,25
Ngân sách quảng cáo 5.000 đô la đã được phê duyệt
được giả định là có phân phối tam giác với giá trị
tối thiểu là 20%, giá trị rất có thể là 35% và giá
trị tối đa là 40%. Sau năm thứ 3, mức tăng trưởng
nhu cầu nằm trong khoảng từ 5% đến 15%, với giá trị
rất có thể là 7%. Phí trung bình cho mỗi tờ khai
thuế là $175 và tăng theo tỷ lệ phân phối chuẩn với
4
0,15
0,15
0,25
5
0,15
0,15
0,5
6
0,15
0,15
0,5
Nhu cầu dự báo được hiển thị bên dưới
giá trị trung bình là 4% với độ lệch chuẩn là 1,0%
mỗi năm. Chi phí biến đổi trung bình là 15 đô la cho
Loại bộ phận Nhu cầu (Bộ phận/Tuần)
mỗi khách hàng và tăng hàng năm với tốc độ phân phối
1
42
chuẩn với giá trị trung bình là 3% với độ lệch chuẩn
2
18
là 1,5%. Chi phí cố định được ước tính là khoảng
3
6
35.000 đô la cho năm đầu tiên và tăng hàng năm với
tốc độ từ 1,5% đến 3%. Phát triển mô hình mô phỏng
Monte Carlo để tìm phân phối giá trị hiện tại ròng
của khả năng sinh lời của một cửa hàng mới trong
4
6
5
6
6
6
khoảng thời gian 5 năm với tỷ lệ chiết khấu là 5%.
Máy A và B chỉ cần một người chạy hai máy. Máy C
34. Sturgill Manufacturing, Inc. cần dự đoán số lượng
máy móc và nhân công cần thiết để sản xuất kế hoạch
sản xuất cho năm tới.
Nhà máy chạy ba ca liên tục trong tuần làm việc,
chỉ cần một người mỗi máy. Xây dựng mô hình mô phỏng
để xác định số lượng máy móc của mỗi loại và số
lượng nhân viên sẽ được yêu cầu để đáp ứng nhu cầu
dự báo.
với tổng công suất là 120 giờ mỗi tuần. Hiệu quả của
cửa hàng (phần trăm tổng thời gian có sẵn để sản
xuất), tính đến việc thiết lập,
35. O'Brien Chemicals sản xuất ba loại sản phẩm: tẩy rửa
công nghiệp, xử lý hóa chất và một số
Machine Translated by Google
414
Chương 12 Mô phỏng Monte Carlo và Phân tích Rủi ro
sản phẩm linh tinh. Mỗi chiếc được bán trong thùng 55
gallon. Giá bán và chi phí sản xuất đơn vị được hiển thị
dưới đây:
Yêu cầu
Tiêu chuẩn
độ lệch
Vệ Sinh Công Nghiệp
Chế tạo
Loại sản phẩm
Nghĩa là
Loại sản phẩm
Giá bán/trống Chi phí/trống
Vệ Sinh Công Nghiệp
100
Chất tẩy kiềm
5.000
Chất tẩy rửa axit
2.000
500
Chất tẩy rửa trung tính
5.000
350
Chất tẩy kiềm
$700,00
$275,00
Chất tẩy rửa axit
$600,00
$225,00
sắt photphat
5.500
250
Chất tẩy rửa trung tính
$450,00
$150,00
Zirconi
2.800
130
Kẽm phốt phát
4.350
300
$920,00
$400,00
Zirconi
$1.350,00
$525,00
chất bịt kín
8.000
350
Kẽm phốt phát
$1.400,00
$625,00
Chống gỉ
4.250
250
chất bịt kín
$850,00
$350,00
Chống gỉ
$600,00
$260,00
Xử lý hóa chất
sắt photphat
Xử lý hóa chất
Khác
Khác
Chi phí cố định được giả định là bình thường với giá trị
trung bình là 5 triệu đô la và độ lệch chuẩn là 20.000 đô la.
Tất cả các nhu cầu đều được giả định là được phân bổ
bình thường với các phương tiện và độ lệch chuẩn sau:
Người quản lý hoạt động phải xác định số lượng cần sản
xuất khi đối mặt với nhu cầu không chắc chắn.
Một lựa chọn đơn giản là tạo ra nhu cầu trung bình; tùy
thuộc vào nhu cầu thực tế, điều này có thể dẫn đến tình
trạng thiếu hàng (mất doanh số bán hàng) hoặc hàng tồn kho
dư thừa. Hai lựa chọn khác là sản xuất ở mức bằng 75%
hoặc 90% nhu cầu (nghĩa là tìm giá trị sao cho 75% hoặc
90% diện tích dưới phân phối chuẩn nằm bên trái). Sử dụng
mô phỏng Monte Carlo, đánh giá và so sánh ba chính sách
này và viết báo cáo cho người quản lý hoạt động tóm tắt
những phát hiện của bạn.
Trường hợp: Hiệu suất Lawn Thiết bị
Một trong những nhà máy sản xuất của PLE cung cấp các bộ phận
động cơ khác nhau cho các nhà sản xuất xe máy trên cơ sở đúng
Xây dựng mô hình bảng tính để mô phỏng 260 ngày làm việc (1
năm) và đếm số ca làm việc bổ sung được yêu cầu. Giả sử rằng
lúc. Công suất sản xuất theo kế hoạch cho một thành phần là 100
hàng tồn kho ban đầu là 100 đơn vị. Sử dụng các hàm Psi cho tất
đơn vị mỗi ca và nhà máy hoạt động một ca mỗi ngày. Tuy nhiên,
cả các ô không chắc chắn trong việc xây dựng mô hình của bạn. Sử
do sự biến động trong hoạt động lắp ráp của khách hàng, nhu cầu
dụng số ca làm việc bổ sung cần thiết làm ô đầu ra cho mô phỏng
dao động và trong lịch sử là từ 80 đến 130 chiếc mỗi ngày. Để
Monte Carlo, tìm phân phối số ca làm việc mà công ty có thể sẽ
duy trì đủ hàng tồn kho nhằm đáp ứng các cam kết đúng lúc, ban
cần trong năm tới. Giải thích và tóm tắt những phát hiện của bạn
quản lý của PLE đang xem xét chính sách chạy ca thứ hai vào ngày
trong một báo cáo cho người quản lý nhà máy và đưa ra khuyến
hôm sau nếu hàng tồn kho giảm xuống còn 50 hoặc thấp hơn vào
nghị về số lượng ca làm việc cần lập kế hoạch trong ngân sách
cuối ngày (sau khi biết nhu cầu hàng ngày). Đối với quy trình
năm tới.
lập kế hoạch ngân sách hàng năm, các nhà quản lý cần biết sẽ cần
thêm bao nhiêu ca làm việc. Phương trình cơ bản chi phối quá
trình này mỗi ngày là
tồn kho cuối kỳ tồn kho đầu kỳ + sản xuất nhu cầu
Download