Uploaded by Akiyama Yukina

Lecture 3- Describing data visually

advertisement
Prepared by Trịnh Ngọc Nhân
I) KEY CONCEPT
Cho bảng data như sau:
7
13
18
26
9
13
18
26
10
14
19
27
10
14
19
28
10
15
20
31
10
16
20
37
11
16
21
37
11
16
21
38
11
16
22
42
12
17
23
50
13
17
24
59
Stem-and-leaf plot visualize data method:
Cách làm:
Với STEM: lấy hàng chục ra. Sau đó đếm số lượng số có hàng chục.
Với LEAF: ghép số hàng chục với chữ số hàng đơn vị
Vd: Thông qua phương pháp Stem-and leaf plot, ta có thể dễ dàng thấy được có 2 số có hàng
chục bằng 0, 24 số có hàng chục bằng 1, 11 số có hàng chục bằng 2, 4 số có hàng chục bằng
3. 1 số hàng chục bằng 4, 2 số hàng chục bằng 5
Dot plots
=> Miền dữ liệu nằm từ 7- 59. Mỗi chấm nhỏ sẽ tương đương với một con số trong tập dữ
liệu nhé ^^
Frequency Distribution: is a table formed by classifying n data values into k classes called
bins
+ bin limits: define the values to be included in each bin. (“khoảng”. Vd: 20-25 tuổi, 26-30
tuổi, 31-35 tuổi, ….)
=> PROBLEMS: Phương pháp này sẽ chia dữ liệu thành các khoảng đều nhau. Nhưng trên
thực tế thì nó không quan tâm đến tính chất của dữ liệu
Vd: lớp 1,2,3,4,12,13 => 1 và 2 là một nhóm, 3 và 4 là một nhóm, lớp 12 và đại học năm nhất
1 nhóm => Sai lệch về trình độ học (Sai lệch tính chất của dữ liệu)
Các bước làm:
Prepared by Trịnh Ngọc Nhân
B1: Tìm giá trị lớn nhất và giá trị nhỏ nhất của data (trong trường hợp này là 7 và 59)
B2: Chọn số Bins theo công thức: k= 1+3.3*log(n) (n là số lượng phần tử trong tập dữ liệu)
Vd: k= 1+3.3*log(44)= 6.42 (bins). Các bạn có thể tùy chọn số bins là 6 hoặc 7 đều oke nha.
B3: Thiết lập Bins limit theo công thức
𝐵𝑖𝑛 𝑤𝑖𝑑𝑡ℎ =
𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛
𝑘
Trong trường hợp này, Bin width = (59-7)/6 = 8.67
Vì con số lẻ lẻ này nhìn hơi khó chịu nên mình sẽ làm tròn nó lên thành 10 nha.
B4: Đếm số lượng dữ liệu cho từng bins
B5: Thiết lập bảng
Histogram
Prepared by Trịnh Ngọc Nhân
Scatter plot
Các chart khác như là Pie chart, Line chart, … các bạn có thể coi kĩ hơn trong slides nhé!
II) EXERCISE
An executive’s telephone log showed the following data for the length of 65 calls initiated
during the last week of July.
(a) Prepare a dot plot.
(b) Prepare a frequency distribution and histogram (you may either specify the bins yourself
or use automatic bins).
(c) Describe the distribution, based on these displays
1
6
1
1
1
3
2
2
3
2
4
4
3
13
10
13
1
2
2
6
13
5
2
7
2
1
1
1
3
2
1
29
1
3
6
3
1
2
1
1
1
(Các bạn check solution trong textbook, bài 3.29 nhé)
2
26
3
1
1
1
20
3
1
1
6
5
1
1
2
8
1
1
1
3
12
5
2
18
Download