Uploaded by Huy Nguyễn Nhật

Báo cáo project MAS291

advertisement
Báo cáo project MAS291
Phần Description
1, Description
Tập dữ liệu này ban đầu được lấy từ Viện Quốc gia về bệnh tiểu
đường và các bệnh về tiêu hóa và thận. Mục tiêu của tập dữ
liệu là dự đoán chẩn đoán xem một bệnh nhân có mắc bệnh
tiểu đường hay không, dựa trên các phép đo chẩn đoán nhất
định có trong tập dữ liệu. Một số ràng buộc đã được đặt ra khi
lựa chọn trong số những trường hợp này từ một cơ sở dữ liệu
lớn hơn. Đặc biệt, tất cả bệnh nhân ở đây đều là nữ từ 21 tuổi
trở lên thuộc di sản Ấn Độ Pima.
2, các thuộc tính trong dữ liệu
Pregnancies
Glucose
BloodPressure
SkinThickness
Insulin
BMI
DPF
Age
Outcome
Number of times pregnant
Plasma glucose concentration a 2 hours in an oral glucose tolerance
test
Diastolic blood pressure (mm Hg)
Triceps skin fold thickness (mm)
2-Hour serum insulin (mu U/ml)
Body mass index (weight in kg/(height in m)^2)
Diabetes pedigree function
Age (years)
Class variable (0 or 1) diabetes is 1, the others are 0
Mang thai Số lần mang thai
Glucose Nồng độ glucose trong huyết tương sau 2 giờ trong xét nghiệm dung nạp glucose qua đường
miệng
Huyết áp Huyết áp tâm trương (mm Hg)
Độ dày nếp gấp da Triceps Độ dày nếp gấp da (mm)
Insulin Insulin trong huyết thanh 2 giờ (mu U / ml)
BMI Chỉ số khối cơ thể (cân nặng tính bằng kg / (chiều cao tính bằng m) ^ 2)
Chức năng phả hệ của bệnh tiểu đường DPF Tuổi Tuổi (năm)
Biến Loại Kết quả (0 hoặc 1) bệnh tiểu đường là 1, các biến khác là 0
Và Dữ liệu được lấy từ
Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S.
(1988). Using the ADAP learning algorithm to forecast the onset of diabetes
mellitus. In Proceedings of the Symposium on Computer Applications and
Medical Care (pp. 261--265). IEEE Computer Society Press.
https://www.kaggle.com/uciml/pima-indians-diabetes-database
Quay sang phần Overview data
Ta có Chứa 95% C.Is cho giá trị trung bình của tất cả
các biến trong dữ liệu được thu thập (nếu có khả
năng)
Giải thích : Với khoảng tin cậy 95%, bạn có 5% khả
năng sai. Với khoảng tin cậy 90%, bạn có 10% khả
năng sai. Khoảng tin cậy 99% sẽ rộng hơn khoảng
tin cậy 95% (đối với ví dụ: cộng hoặc trừ 4,5 phần
trăm thay vì 3,5 phần trăm).
Và chúng ta có dữ liệu từ các Dân số Tất cả phụ nữ
trưởng thành trên thế giới cũng như là các sample
this file này
 Sẽ có từng khoảng tin cậy của từng thuộc tính
một
Áp dụng công thức :
Để tính ra từng khoảng tin cậy 1 và ta có dữ liệu của
Upper value
Lower value
Của từng thuộc tính 1
VD : Pregnancies
x̅(mean)
s (standard diviation)
tα/2,n-1
95% confidence interval for mean:
α
s
3,845 ± 1,963 ± 3,37/√768 = 4,084 ;3,606
Và mấy cái khác cũng như thế
P1-> P5 : Các câu hỏi để chứng minh các hypothesis và các
construct a confidence interval (lập luận của mình )
P1:
Bài toán 1 : Một nghiên
cứu cho biết rằng mức đường
huyết bình thường ở người lớn, không mắc bệnh
tiểu đường và sau khi làm xét nghiệm dung nạp
đường uống trong 2 giờ, bằng hoặc thấp hơn 110
mg / dL. Bộ dữ liệu này có hỗ trợ cho tuyên bố
không?
Dữ liệu : Dân số Tất cả người lớn trên thế giới không
phải là bệnh nhân tiểu đường
Ho glucozơ bằng hoặc nhỏ hơn 110
H_1 Nếu không
𝜇 = 110
Ho
H_1
𝜇 > 110
Glucose is equal or less than 110
Otherwise
𝛼
n
�̅
s
Max Error (E)
C.I
Test statistic
right t-value
5%
500
109.980
26.141
2.297
112.277
-0.0171 acceptance region
1.6479
.
Dựa vào số liệu ta có được lượng ước tính đó
chính là 109.980 và value mà chúng ta định
lượng được Độ lệch chuẩn với nguy đã cho đó
chính là 112.277 -> ta sẽ tính được t-statistic
bằng công thức đã cho ở trên

T-statistic = 109.980- 112.277 / 26.141
√500 = 1.6479 -> Test statistic đó chính là
0,0171 và nó trong khu vực acceptance
region
-
 Thế nên nó sẽ Fail to reject Ho và cái
data này nó cần phải được support theo
yêu cầu
Câu hỏi: Một nghiên cứu nói rằng chỉ số BMI của
"đối tượng mắc bệnh tiểu đường được tìm thấy là
khoảng 30 kg / m2". Tập dữ liệu này có hỗ trợ câu
lệnh không?
Dữ liệu : Dân số Tất cả phụ nữ trên thế giới là bệnh
nhân tiểu đường
Ho
Diabetic subjects' BMI is 30
H_1
Otherwise
𝛼
n
�̅
s
Max Error (E)
C.I
Test statistic
right t-value
left t-value
5%
268
35.143
7.263
0.874
34.269
36.016
11.5913 critical region
1.9689
-1.9689
Reject Ho --> This data set does not support the claim
--> From this data set, we can not confirm that diabetic subjects' BMI is around 30 kg/m2.
Và cũng áp dụng công thức như trên ta sẽ tìm được
test statistic đó chính là 11,5913 và nó sẽ nằm ở
vùng critical region
 Nó sẽ bị reject h0 vì cái data nó không sp cái
yêu cầu và chúng ta sẽ không confirm được cái
subjects' BMI is around 30 kg/m2.
P2:
Câu hỏi: Có ý kiến cho rằng tỷ lệ mắc bệnh tiểu
đường ở phụ nữ ở Ấn Độ là 11,9%. Tập dữ liệu này
có hỗ trợ xác nhận quyền sở hữu không?
Population
Sample
All female in India
This file
𝑝 = 11.9%
Ho
Ratio is 11.9%
𝑝 ≠ 11.9%
H_1
Otherwise
𝛼
n
x
𝑃̂
p_0
5%
768
268
0.349
11.9%
Max Error (E)
0.034
C.I
0.315
0.383
Test statistic
19.6820 critical region
left z-value
-1.96
right z-value
1.96
Reject Ho --> This data set does not support the claim
𝛼
P_value
3.0787E-86 <
--> From this data set, we can say that the ratio of diabetes in women in India is not 11.9%.
Câu hỏi: NIDDK, Bộ Y tế và Dịch vụ Nhân sinh Hoa Kỳ
cho biết tỷ lệ người thừa cân ở phụ nữ bằng hoặc
dưới 66,9%. Tập dữ liệu này có hỗ trợ xác nhận
quyền sở hữu không?
Population
Sample
All female in the world
This file
𝑝 = 66.9%
Ho
H_1
𝑝 > 66.9%
𝛼
n
x
𝑃̂
p_0
5%
768
645
0.840
66.9%
Max Error (E)
0.026
C.I
0.814
0.866
Test statistic
10.0613 critical region
right z-value
1.64
Reject Ho --> This data set does not support the claim
--> From this data set, we can say that the ratio of diabetes in women in India is not
𝛼
11.9%.
P3:
Câu hỏi: Có ý kiến cho rằng độ dày nếp gấp da cơ
tam đầu trung bình của phụ nữ mắc bệnh tiểu
đường bằng với người không mắc bệnh tiểu đường?
Tập dữ liệu này có hỗ trợ xác nhận quyền sở hữu
không?
Population
Sample
Note:
Ho
H_1
All female in the world
This file
index 1 is mentioned to the non-diabetic
index 2 is mentioned to the diabetic
𝜇1 = 𝜇2
𝜇1 ≠ 𝜇2
𝛼
n1
� ̅_1
n2
5%
500
19.664
268
Average thickness of diabetics female equals to the the other
Otherwise
� ̅_2
n
s_1
s_2
pooled variance
Max Error (E)
C.I
22
768
14.890
17.680
423.125
2.366
-4.866
-0.135
critical
Test statistic
-1.605 region
left t-value
-1.963
right t-value
1.963
Fail to reject Ho --> This data set supports the claim
--> From this data set, we can say that the average triceps skin fold thickness of the diabetic female equals t
P4:
Câu hỏi: Có ý kiến cho rằng tỷ lệ nữ mắc bệnh tiểu
đường ở người trẻ (từ 21-44y.o) thấp hơn ở người
già (từ 45y.o). Tập dữ liệu này có hỗ trợ xác nhận
quyền sở hữu không?
Population
Sample
Note:
All female in the world
This file
index 1 is mentioned to the young
index 2 is mentioned to the old
Ho
H_1
𝑝1 = 𝑝2
𝑝1 < 𝑝2
Proportion of the young is equal or greater than the old
Otherwise
𝛼
n1
x1
n2
x2
p1
p2
pool proportion
5%
635
202
133
66
0.318
0.496
0.349
Max Error (E)
0.092
C.I
-0.271
Test statistic
-3.919 critical region
left z-value
-1.64
Reject Ho --> This data set supports the claim
𝛼
P_value
0.0000445 <
--> From this data set, we can say that the the ratio of diatbetic female in young people (from 21-44y.o.) les
Câu hỏi: Có ý kiến cho rằng tỷ lệ phụ nữ thừa cân
sau khi mang thai lớn hơn người khác. Tập dữ liệu
này có hỗ trợ xác nhận quyền sở hữu không? (Mang
thai có gây béo phì không?)
Population
Sample
Note:
Ho
H_1
All female in the world
This file
index 1 is mentioned to the women who has already got pregnant
index 2 is mentioned to the other
𝑝1 = 𝑝2
𝑝1 > 𝑝2
𝛼
n1
5%
108
x1
n2
x2
p1
p2
pool proportion
94
649
557
0.870
0.858
0.860
Max Error (E)
0.069
C.I
0.081
Test statistic
0.336 acceptance region
right z-value
1.64
Fail to reject Ho --> This data set does not support the claim
𝛼
P_value
0.3683 >
--> From this data set, we can not say that the the percentage overweight women after getting pregnant is g
P5:
Download