Uploaded by Akiyama Yukina

Lecture 2- Data collection

advertisement
Prepared by Trịnh Ngọc Nhân
I) Key concepts
- Observation (đối tượng quan sát): a single member of a collection of items that we want to
study, such as a person, firms, or region
- Variable (biến): is a characteristic of the subject or individual, such as an employee’s
income or an invoice amount
- Data set (tập dữ liệu) consists of all the values of all of the variables for all of the
observations we have chosen to observe
- Type of data (cực kì quan trọng vì cho thi mid nha mọi người :DD)
- Qualitative (categorical) data (dữ liệu định tính). Thống kê thông qua TÍNH CHẤT của
sự việc (đẹp, xấu, cao, thấp, đực cái, …) (ví dụ: Mình muốn khảo sát các bạn về độ khó của
môn Stat này. Mình sẽ phát cho các bạn mỗi người một tờ giấy để các bạn tự viết những cái
khó khăn mà mình gặp phải ra. Mình sẽ dựa vào đó để tổng hợp và giúp các bạn pass môn
này A+)
- Numerical data (Quantitative): Mô tả bằng số- thay vì dựa vào tính chất sự việc thì mình
sẽ dựa vào những CON SỐ để đánh giá (Vd nhé: Pass môn Statistic. Thay vì mình hỏi ý kiến
các bạn về độ khó môn Stat, mình sẽ căn cứ vào số điểm của các bạn (vd như số buổi đi học,
điểm quiz, điểm bonus, điểm mid, … -> Từ cơ sở này, mình sẽ đưa ra những giải pháp phù
hợp để hỗ trợ các bạn.)
+ Discrete data (dữ liệu rời rạc): Nhận những giá trị chắc chắn, rời rạc (có thể đếm được)
Vd: Con người có 2 mắt, 2 chân, 2 tay, 1 cái miệng, … Không thể nào mà con người có 2,5
cái chân được đúng hong mọi người =))))
+ Continuous data (dữ liệu liên tục): Có thể nhận các giá trị bất kỳ trong một khoảng xác
định.
Vd: Hiện tại cân nặng của mình là 61.2 kg, chiều cao của mình là 1m64 chẳng hạn (mình vd
thôi nhá)
Prepared by Trịnh Ngọc Nhân
=> Maybe các bạn sẽ bị mắc lỗi này. Ví dụ, trong một cuộc phỏng vấn khách hàng sử dụng
dịch vụ thanh toán của BIDV, các bạn hãy chọn một trong những cách thức sau bằng cách
chọn số:
1. Team “Tiền mặt”- Mình chỉ thích tiền mặt thôi
2. Team “Cheque”- Xài tiền mặt làm gì, cầm tờ giấy kí phát thôi. Chữ kí mình đẹp mà :PP
3. Team “Quẹt thẻ”- Quẹt cho lẹ để còn đi làm việc khác =)))
Hãy chọn số mà các bạn thích. Nếu các bạn phân loại dữ liệu này thành numerical thì xin
chúc mừng, bạn đã quay vào ô 0đ =))) Lưu ý mỗi con số là một cách đại diện cho mỗi cách
thanh toán, nên data type là Categorical data nhé!!
Time series data: If each observation in the sample represents a different equally spaced
point in time (years, months, days) (là những dữ liệu được thực hiện và thống kê trong
cùng một khoảng thời gian xác định)
Cross sectional data: each observation represents a different individual unit (e.g., a person,
firm, geographic area) at the same point in time (nghiên cứu thu thập dữ liệu chỉ một lần
duy nhất của các đối tượng ngay tại thời điểm đó)
Prepared by Trịnh Ngọc Nhân
Nominal data (thang đo danh nghĩa): chỉ dùng để đo tính chất, hay nó còn gọi là định tính á
:> Ví dụ: Nam, nữ, xấu, đẹp, … Một lần nữa thì tránh bị dính lỗi số hay tính chất nha mọi
người :D
Ordinal data (thang đo thứ bậc): Các bạn có thể dễ dàng phân biệt được sự hơn- kém, nhưng
không biết được khoảng cách thực sự giữa chúng.
Vd: Chọn một trong các số sau để làm rõ việc các bạn có trình độ đi học như thế nào?
1. Tiểu học
2. Trung học cơ sở
3. Trung học phổ thông
4. Đại học
Với câu hỏi này, các bạn rõ ràng phân biệt được là trình độ Đại học lớn hơn trình độ THPT
nhưng mà không cách nào phân biệt được là hơn bao nhiêu (đơn giản thì mọi người kiểu biết
nó cao hơn á, nhưng mà không thể nào rõ ràng được là nó cao hơn bao nhiêu).
Interval data (thang đo khoảng): Thông thường interval data có dạng là một dãy các chữ số
liên tục và đều đặn từ 1 đến 5 hoặc 1 đến 7. Đặc biệt là Điểm 0 ở thang đo này là vô nghĩa.
Vd nhé: các bạn hãy cho biết yếu tố nào tác động đến cuộc sống của một người:
Có nhiều sức
khỏe
Không quan
trọng
Không quá
quan trọng
Bình thường
Quan trọng
Cực kì quan
trọng
1
2
3
4
5
=> Interval data có thể được xem như là một dạng đặc biệt của ordinal data. Tuy nhiên thì
mọi người có thể dễ dàng hơn trong việc thấy được khoảng cách giữa các tính chất.
Ratio data (số 0 ở thang đo này là có nghĩa nhé): Có tất cả mọi tính chất của thang đo ở trên.
Vd: Các bạn vui lòng cho biết thu nhập hàng tháng của mình?
1. 15tr
2. 30tr
3. 60tr
=> Các bạn có thể dễ dàng kết luận là người chọn số 1 có thu nhập ít hơn 2 lần người chọn số
2, ít hơn 4 lần người chọn số 3.
Tips phân biệt:
B1: Nhận biết xem nó có rank hay không
B2: Xem ranking có ý nghĩa không. Nếu có -> ratio hoặc interval
B3: Nếu giá trị đó không thể dưới không -> Ratio. Nếu giá trị có thể xuống dưới 0 =>
interval
How to differentiate: reade note book
Prepared by Trịnh Ngọc Nhân
Sample vs census:
Sample là việc các bạn quan sát một vài đối tượng được chọn ra trong một population.
Census là việc các bạn nghiên cứu tất cả đối tượng trong một population.
II) Exercise
Question 1: A survey by an electric company contains questions on the following:
1. Age of household head.
2. Sex of household head.
3. Number of people in household.
4. Use of electric heating (yes or no).
5. Number of large appliances used daily.
6. Thermostat setting in winter.
7. Average number of hours heating is on.
8. Average number of heating days.
9. Household income.
10. Average monthly electric bill.
11. Ranking of this electric company as compared with two previous electricity suppliers.
Describe the variables implicit in these 11 items as quantitative or qualitative, and describe
the scales of measurement.
-> Sample solution
1. quantitative/ratio
2. qualitative/nominal
3. quantitative/ratio
4. qualitative/nominal
5. quantitative/ratio
6. quantitative/interval
7. quantitative/ratio
8. quantitative/ratio
9. quantitative/ratio
10. quantitative/ratio
11. quantitative/ordinal
Prepared by Trịnh Ngọc Nhân
Question 2: Below are 15 questions from a survey of MBA students. Answers were written
in the blank at the left of each question. For each question, state the data type (categorical,
discrete numerical, or continuous numerical) and measurement level (nominal, ordinal,
interval, ratio). Explain your reasoning. If there is doubt, discuss the alternatives
1) What is your gender? (Male 5 0, Female 5 1)
2) What is your approximate undergraduate college GPA? (1.0 to 4.0)
3) About how many hours per week do you expect to work at an outside job this semester?
4) What do you think is the ideal number of children for a married couple?
5) On a 1 to 5 scale, which best describes your parents?
1 = Mother clearly dominant ↔ 5 = Father clearly dominant
6) On a 1 to 5 scale, assess the current job market for your undergraduate major.
1 = Very bad ↔ 5 = Very good
7) During the last month, how many times has your schedule been disrupted by car trouble?
8) About how many years of college does the more-educated one of your parents have?
(years)
9) During the last year, how many traffic tickets (excluding parking) have you received?
10) Which political orientation most nearly fits you? (1 = Liberal, 2 = Middle-of-Road, 3 =
Conservative)
11) What is the age of the car you usually drive? (years)
12) About how many times in the past year did you attend formal religious services?
13) How often do you read a daily newspaper? (0 = Never, 1 = Occasionally, 2 = Regularly)
14) Can you conduct simple transactions in a language other than English? (0 = No, 1 = Yes)
15) How often do you exercise (aerobics, running, etc)? (0 = Not at All, 1 = Sometimes, 2 =
Regularly)
-> Solution tham khảo
1) Categorical, nominal
2) Continuous, ratio
3) Continuous, ratio
4) Discrete, ratio
5) Categorical, ordinal
6) Categorical, ordinal
Prepared by Trịnh Ngọc Nhân
7) Discrete, ratio
8) Continuous, ratio
9) Discrete, ratio
10) Categorical, ordinal
11) Continuous, ratio.
12) Discrete, ratio.
13) Categorical, ordinal.
14) Categorical, nominal.
15) Categorical, ordinal.
Question 3: Identify the following data as either time series or cross-sectional.
a. The number of rooms booked each night for the month of January 2014 at a Vail Resorts
hotel.
b. The amount spent on books at the start of this semester by each student in your statistics
class.
c. The number of Caesar salads sold for the week of April 19, 2014, at each Noodles &
Company restaurant.
d. The stock price of Coca-Cola Enterprises on May 1st for each of the last 10 years
=> Solution:
a. time series
b. cross-sectional
c. cross-sectional
d. time series
Download