Báo cáo project MAS291 Phần Description 1, Description Tập dữ liệu này ban đầu được lấy từ Viện Quốc gia về bệnh tiểu đường và các bệnh về tiêu hóa và thận. Mục tiêu của tập dữ liệu là dự đoán chẩn đoán xem một bệnh nhân có mắc bệnh tiểu đường hay không, dựa trên các phép đo chẩn đoán nhất định có trong tập dữ liệu. Một số ràng buộc đã được đặt ra khi lựa chọn trong số những trường hợp này từ một cơ sở dữ liệu lớn hơn. Đặc biệt, tất cả bệnh nhân ở đây đều là nữ từ 21 tuổi trở lên thuộc di sản Ấn Độ Pima. 2, các thuộc tính trong dữ liệu Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DPF Age Outcome Number of times pregnant Plasma glucose concentration a 2 hours in an oral glucose tolerance test Diastolic blood pressure (mm Hg) Triceps skin fold thickness (mm) 2-Hour serum insulin (mu U/ml) Body mass index (weight in kg/(height in m)^2) Diabetes pedigree function Age (years) Class variable (0 or 1) diabetes is 1, the others are 0 Mang thai Số lần mang thai Glucose Nồng độ glucose trong huyết tương sau 2 giờ trong xét nghiệm dung nạp glucose qua đường miệng Huyết áp Huyết áp tâm trương (mm Hg) Độ dày nếp gấp da Triceps Độ dày nếp gấp da (mm) Insulin Insulin trong huyết thanh 2 giờ (mu U / ml) BMI Chỉ số khối cơ thể (cân nặng tính bằng kg / (chiều cao tính bằng m) ^ 2) Chức năng phả hệ của bệnh tiểu đường DPF Tuổi Tuổi (năm) Biến Loại Kết quả (0 hoặc 1) bệnh tiểu đường là 1, các biến khác là 0 Và Dữ liệu được lấy từ Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S. (1988). Using the ADAP learning algorithm to forecast the onset of diabetes mellitus. In Proceedings of the Symposium on Computer Applications and Medical Care (pp. 261--265). IEEE Computer Society Press. https://www.kaggle.com/uciml/pima-indians-diabetes-database Quay sang phần Overview data Ta có Chứa 95% C.Is cho giá trị trung bình của tất cả các biến trong dữ liệu được thu thập (nếu có khả năng) Giải thích : Với khoảng tin cậy 95%, bạn có 5% khả năng sai. Với khoảng tin cậy 90%, bạn có 10% khả năng sai. Khoảng tin cậy 99% sẽ rộng hơn khoảng tin cậy 95% (đối với ví dụ: cộng hoặc trừ 4,5 phần trăm thay vì 3,5 phần trăm). Và chúng ta có dữ liệu từ các Dân số Tất cả phụ nữ trưởng thành trên thế giới cũng như là các sample this file này Sẽ có từng khoảng tin cậy của từng thuộc tính một Áp dụng công thức : Để tính ra từng khoảng tin cậy 1 và ta có dữ liệu của Upper value Lower value Của từng thuộc tính 1 VD : Pregnancies x̅(mean) s (standard diviation) tα/2,n-1 95% confidence interval for mean: α s 3,845 ± 1,963 ± 3,37/√768 = 4,084 ;3,606 Và mấy cái khác cũng như thế P1-> P5 : Các câu hỏi để chứng minh các hypothesis và các construct a confidence interval (lập luận của mình ) P1: Bài toán 1 : Một nghiên cứu cho biết rằng mức đường huyết bình thường ở người lớn, không mắc bệnh tiểu đường và sau khi làm xét nghiệm dung nạp đường uống trong 2 giờ, bằng hoặc thấp hơn 110 mg / dL. Bộ dữ liệu này có hỗ trợ cho tuyên bố không? Dữ liệu : Dân số Tất cả người lớn trên thế giới không phải là bệnh nhân tiểu đường Ho glucozơ bằng hoặc nhỏ hơn 110 H_1 Nếu không 𝜇 = 110 Ho H_1 𝜇 > 110 Glucose is equal or less than 110 Otherwise 𝛼 n �̅ s Max Error (E) C.I Test statistic right t-value 5% 500 109.980 26.141 2.297 112.277 -0.0171 acceptance region 1.6479 . Dựa vào số liệu ta có được lượng ước tính đó chính là 109.980 và value mà chúng ta định lượng được Độ lệch chuẩn với nguy đã cho đó chính là 112.277 -> ta sẽ tính được t-statistic bằng công thức đã cho ở trên T-statistic = 109.980- 112.277 / 26.141 √500 = 1.6479 -> Test statistic đó chính là 0,0171 và nó trong khu vực acceptance region - Thế nên nó sẽ Fail to reject Ho và cái data này nó cần phải được support theo yêu cầu Câu hỏi: Một nghiên cứu nói rằng chỉ số BMI của "đối tượng mắc bệnh tiểu đường được tìm thấy là khoảng 30 kg / m2". Tập dữ liệu này có hỗ trợ câu lệnh không? Dữ liệu : Dân số Tất cả phụ nữ trên thế giới là bệnh nhân tiểu đường Ho Diabetic subjects' BMI is 30 H_1 Otherwise 𝛼 n �̅ s Max Error (E) C.I Test statistic right t-value left t-value 5% 268 35.143 7.263 0.874 34.269 36.016 11.5913 critical region 1.9689 -1.9689 Reject Ho --> This data set does not support the claim --> From this data set, we can not confirm that diabetic subjects' BMI is around 30 kg/m2. Và cũng áp dụng công thức như trên ta sẽ tìm được test statistic đó chính là 11,5913 và nó sẽ nằm ở vùng critical region Nó sẽ bị reject h0 vì cái data nó không sp cái yêu cầu và chúng ta sẽ không confirm được cái subjects' BMI is around 30 kg/m2. P2: Câu hỏi: Có ý kiến cho rằng tỷ lệ mắc bệnh tiểu đường ở phụ nữ ở Ấn Độ là 11,9%. Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu không? Population Sample All female in India This file 𝑝 = 11.9% Ho Ratio is 11.9% 𝑝 ≠ 11.9% H_1 Otherwise 𝛼 n x 𝑃̂ p_0 5% 768 268 0.349 11.9% Max Error (E) 0.034 C.I 0.315 0.383 Test statistic 19.6820 critical region left z-value -1.96 right z-value 1.96 Reject Ho --> This data set does not support the claim 𝛼 P_value 3.0787E-86 < --> From this data set, we can say that the ratio of diabetes in women in India is not 11.9%. Câu hỏi: NIDDK, Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ cho biết tỷ lệ người thừa cân ở phụ nữ bằng hoặc dưới 66,9%. Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu không? Population Sample All female in the world This file 𝑝 = 66.9% Ho H_1 𝑝 > 66.9% 𝛼 n x 𝑃̂ p_0 5% 768 645 0.840 66.9% Max Error (E) 0.026 C.I 0.814 0.866 Test statistic 10.0613 critical region right z-value 1.64 Reject Ho --> This data set does not support the claim --> From this data set, we can say that the ratio of diabetes in women in India is not 𝛼 11.9%. P3: Câu hỏi: Có ý kiến cho rằng độ dày nếp gấp da cơ tam đầu trung bình của phụ nữ mắc bệnh tiểu đường bằng với người không mắc bệnh tiểu đường? Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu không? Population Sample Note: Ho H_1 All female in the world This file index 1 is mentioned to the non-diabetic index 2 is mentioned to the diabetic 𝜇1 = 𝜇2 𝜇1 ≠ 𝜇2 𝛼 n1 � ̅_1 n2 5% 500 19.664 268 Average thickness of diabetics female equals to the the other Otherwise � ̅_2 n s_1 s_2 pooled variance Max Error (E) C.I 22 768 14.890 17.680 423.125 2.366 -4.866 -0.135 critical Test statistic -1.605 region left t-value -1.963 right t-value 1.963 Fail to reject Ho --> This data set supports the claim --> From this data set, we can say that the average triceps skin fold thickness of the diabetic female equals t P4: Câu hỏi: Có ý kiến cho rằng tỷ lệ nữ mắc bệnh tiểu đường ở người trẻ (từ 21-44y.o) thấp hơn ở người già (từ 45y.o). Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu không? Population Sample Note: All female in the world This file index 1 is mentioned to the young index 2 is mentioned to the old Ho H_1 𝑝1 = 𝑝2 𝑝1 < 𝑝2 Proportion of the young is equal or greater than the old Otherwise 𝛼 n1 x1 n2 x2 p1 p2 pool proportion 5% 635 202 133 66 0.318 0.496 0.349 Max Error (E) 0.092 C.I -0.271 Test statistic -3.919 critical region left z-value -1.64 Reject Ho --> This data set supports the claim 𝛼 P_value 0.0000445 < --> From this data set, we can say that the the ratio of diatbetic female in young people (from 21-44y.o.) les Câu hỏi: Có ý kiến cho rằng tỷ lệ phụ nữ thừa cân sau khi mang thai lớn hơn người khác. Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu không? (Mang thai có gây béo phì không?) Population Sample Note: Ho H_1 All female in the world This file index 1 is mentioned to the women who has already got pregnant index 2 is mentioned to the other 𝑝1 = 𝑝2 𝑝1 > 𝑝2 𝛼 n1 5% 108 x1 n2 x2 p1 p2 pool proportion 94 649 557 0.870 0.858 0.860 Max Error (E) 0.069 C.I 0.081 Test statistic 0.336 acceptance region right z-value 1.64 Fail to reject Ho --> This data set does not support the claim 𝛼 P_value 0.3683 > --> From this data set, we can not say that the the percentage overweight women after getting pregnant is g P5: