model3 - F.Ramezani

advertisement
Computer Modeling
And
Simulation
F.Ramezani
Department of Computer Engineering
Islamic Azad University SARI Branch
Introduction to
Computer Modeling And Simulation
‫تعیین توزیع داده ها‬
‫‪‬‬
‫خالصه اطالعاتی از داده ها‬
‫مثال‪ :‬میانگین ‪ I / O‬دیسک به معنی ‪ ،13‬واریانس ‪.48‬‬
‫‪‬‬
‫به عالوه‪ ،‬توزیع داده برای مدل سازی شبیه سازی و یا تحلیل داده بسیار مفید است‪.‬‬
‫‪‬‬
‫چگونه می توانیم توزیع داده ها را تعیین کنیم؟‬
‫‪‬‬
‫هیستوگرام طرح‬
‫‪2‬‬
‫توزیع داده ها‬
plot

yi is observed, xi is theoretical

If distribution fits, will have line
qi = F(xi), or xi = F-1(qi)
Where F-1?
Sample
Quantile

Normal distribution:
xi = 4.91[qi0.14 – (1-qi)0.14]
Theoretical
Quantile
3
‫اندازه گیری ارزش های خاص‬
Accuracy
Mean of measured values
(sample mean)
Resolution
(determined by tools)
True value
(population mean)
4
‫مقایسه سیستم با استفاده از داده های نمونه‬
‫‪ ‬کلمه "نمونه" از همان ریشه کلمه "به عنوان مثال” می آید‬
‫‪ ‬به طور مشابه‪ ،‬یک نمونه یک نظریه را ثابت نمی کند‪ ،‬بلکه یک مثالی از‬
‫آن است‬
‫‪ ‬یک بیانیه قطعی می تواند در مورد ویژگی های یک سیستم قطعی ساخته‬
‫شده اطالعاتی بدهد‬
‫در عوض‪ ،‬بیانیه احتماالتی در مورد طیف وسیعی از اکثر سیستم ها حرف‬
‫میزند‬
‫‪‬‬
‫فاصله اطمینان‬
‫‪5‬‬
‫نمونه در مقابل جمعیت‬


Say we generate 1-million random numbers

mean  and stddev .

 is population mean
selecting n samples


Sample {x1, x2, …, xn} has mean x, stddev s
x is likely different than !

With many samples, x1 != x2!= …
‫بطور معمول میانگین داده ها شناخته شده نیست اما میتوان برای یک جمعیت نمونه محاسبه‬
‫کرد‬
6

‫فاصله اطمینان برای میانگین‬
‫‪‬‬
‫محاسبه احتمال میانگین در فاصله ]‪[c1,c2‬‬
‫‪‬‬
‫بطور معمول سطح اطمینان بین‪90%, 95% or 99%‬‬
‫‪Prob{c1 <  < c2} = 1-‬‬
‫فاصله اطمینان ‪ (c1, c2) is‬‬
‫سطح اهمیت ‪  is‬‬
‫سطح اطمینان ‪ 100(1- ) is‬‬
‫‪7‬‬
‫‪‬‬
‫قضیه حد مرکزی‬
‫به صورت حسی‪ ،‬قضیه حد مرکزی میگوید‬
‫که یک سری از چند متغیر تصادفی مستقل با توزیع یکسان در بینهایت‬
‫به سمت یک متغیر تصادفی مشخص میل میکنند‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ مجموع و میانگین مقادیر یک نمونه تصادفی‪ n‬تایی که از یک جامعه آماری انتخاب می شوند‬‫بطورتقریبی به یک توزیع نمونه گیری قرینه گرایش دارد‪.‬‬
‫ در قضیه حدمرکزی اگر یک نمونه تصادفی‪ n‬تایی که از یک جامعه غیرنرمال با میانگین‪ ‬و‬‫انحراف معیار‪‬انتخاب شود وقتی بزرگ باشد توزیع نمونه گیری تقریبا به صورت نرمال توزیع‬
‫خواهد شد و میانگین و انحراف معیار زیر را خواهد داشت‪:‬‬
‫‪x¯=x‬‬
‫‪‬‬
‫‪x¯=x/√n‬‬
‫‪‬‬
‫وقتی ‪n‬بزرگ شود غیر نرمال به نرمال تبدیل می شود‪.‬‬
‫در قضیه حد مرکزی هرگاه مجموع و یا متوسط مورد استفاده و اندازه نمونه به قدر کافی بزرگ باشد‬
‫انتظار می رود که تخمین زننده دارای یک توزیع نرمال (البته به طور تقریبی) در نمونه گیریهای‬
‫‪8‬‬
‫مکرر باشد‪.‬‬
‫‪ -1‬تخمین فاصله ای میانگین جامعه آماری‪x‬‬
‫‪‬‬
‫اگر از یک جامعه نامحدود نمونه گیری کنیم‪ ،‬خواهیم داشت‪:‬‬
‫‪‬‬
‫اگر جامعه نمونه گیری نرمال باشد ‪ ‬بدون توجه به اندازه نمونه ¯‪x‬دارای توزیع نرمال است‪.‬‬
‫‪x¯x‬‬
‫‪x¯=x/√n‬‬
‫‪‬‬
‫اگر جامعه نمونه گیری غیرنرمال باشد ‪ ‬طبق قضیه حد مرکزی اگر نمونه بزرگ باشد‬
‫خواهیم داشت‪:‬‬
‫‪x¯x‬‬
‫‪x¯=x/√n‬‬
‫‪‬‬
‫‪‬‬
‫تخمین فاصله ای یک پارامتر جامعه قاعده ای است که می گوید چگونه دو مقدار را بر پایه داده‬
‫های نمونه محاسبه کنیم تا ¯‪ x‬در وسط آن قرار گیرد‬
‫وقتی تخمین فاصله ای برای پارامتر جامعه آماری بکار رود ‪ ‬یک جفت عدد از تخمین زننده‬
‫بدست می آید ‪ ‬که به آن تخمین فاصله ای ( فاصله اطمینان ) برای پارامتر گویند‪.‬‬
‫ادامه تخمین فاصله ای میانگین جامعه آماری‪x‬‬
‫‪‬‬
‫تخمین فاصله ای ‪ x‬می شود‪:‬‬
‫‪±¯x‬‬
‫‪‬دقت برآورد ‪ :‬مقدار ثابتی است که به کمک آن حد باال و حد پایین‬
‫را می توان تعریف کرد‪.‬‬
‫ادامه تخمین فاصله ای میانگین جامعه آماری‪x‬‬
‫‪  ‬سطح اطمینان محقق ‪ :‬همان سطح احتمال تخمین زدن پارامتر‬
‫است و یا سطح دلخواه در یک توزیع آماری که ‪ x‬در آن قرار‬
‫می گیرد‪ .‬مثل سطح اطمینان ‪.%95‬‬
‫‪  ‬سطح خطا‬
‫‪‬‬
‫‪ ‬فاصله اطمینان خوب فاصله ای است که با کوچکترین عرض‬
‫برآورد در برگیرنده پارامتر باشد‪.‬‬
‫هرچه ‪n‬نمونه بزرگتر باشد ‪ ‬صحت و دقت در یک فاصله‬
‫اطمینان بیشتر و باالتر است‬
‫تحمین زن فاصله ای‬
‫‪‬‬
‫می خواهیم پارامتر ‪ ‬را آنچنان تخمین بزنیم که اختالف ‪ ‬و ˆ‪‬حد از اندازه ‪‬‬
‫کمتر باشد‪ .‬این حرف با اطمینان ‪ ‬همراه است‪ ،‬یعنی احتمال آن ‪ ‬است‪.‬‬
‫‪P(|1ˆ‬‬
‫بنابراین فاصله اطمینان در سطح ‪ ‬می شود‪:‬‬
‫‪ˆˆ‬‬
‫بنابراین حد باال و پایین عبارت خواهد بود از‪:‬‬
‫‪(Ļ , Ĺ) =ˆˆ‬‬
‫‪ ‬بطور کل در تخمین زن فاصله ای باید ‪ 4‬مرحله را انجام داد‪:‬‬
‫‪ -1‬احتمال قائل شدن برای تخمین زن‬
‫‪ -2‬خطای حدی‬
‫‪ -3‬فاصله اعتماد‬
‫‪ -4‬تخمین فاصله ای‬
Confidence Interval Example
(Sorted)
CPU Time
1.9
2.7
2.8
2.8
2.8
2.9
3.1
3.1
3.2
3.2
3.3
3.4
3.6
3.7
3.8
3.9
3.9
3.9
4.1
4.1
4.2
4.2
4.4
4.5
4.5
4.8
4.9
5.1
5.1
5.3
5.6
5.9


x = 3.90, stddev s=0.95, n=32
‫فاصله اطمینان‬:??
13
‫معنی فاصله اطمینان‬

f(x)
Sample
1
2
3
…
Includes ?
yes
yes
no
14
‫تعیین حجم نمونه‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫هرچه تعداد نمونه بیشتر ‪ ،‬نرخ اعتماد بیشتر خواهد بود‬
‫اما هرچه نمونه ها بیشتر باشند زمان بیشتری نیز نیاز میباشد‬
‫هدف این است که با کوچکترین اندازه مجموعه نمونه نرخ درستی بیشتری‬
‫داشته باشیم‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫مجموعه ای کوچک از اندازه گیری های اولیه‬
‫به منظور برآورد واریانس‬
‫برای تعیین حجم نمونه برای دقت بیشتر‬
‫‪15‬‬
‫‪Regression‬‬
‫‪‬‬
‫‪‬‬
‫اندازه گیری عملکرد در تمام مقادیر ورودی یک سیستم‪ ،‬گران (و گاهی اوقات غیر ممکن)‬
‫است‬
‫در عوض‪ ،‬اندازه گیری عملکرد برای ورودی های محدود و استفاده از بیش از طیف‬
‫وسیعی از مقادیر ورودی برای تولید مدل میتواند آسان باشد‬
‫‪‬‬
‫ساخت مدل رگرسیون‬
‫‪16‬‬
Linear Regression (1 of 2)





Captures linear relationship between input values and response
Of the form:
y = a + bx
Where x input, y response and we want to know a and b
If yi is measured for input xi, then each pair (xi, yi) can be written:
yi = a + bxi + ei
where ei is error for regression model
17
Linear Regression (2 of 2)


The sum of the errors squared:
SSE = ei2 = (yi - a - bxi)2
Find a and b that minimizes SSE
na + bxi = yi
axi + bxi2 = xiyi
 Solving for b gives:
b = nxiyi – (xi)(yi)
nxi2 – (xi)2
 Using (1) and solving for a:
a = y – bx
18
Linear Regression Example (1 of 3)
19
File Size Time
(bytes) (sec)
10
50
100
500
1000
5000
10000
3.8
8.1
11.9
55.6
99.6
500.2
1006.1
Develop linear regression model for
time to read file of size bytes
Linear Regression Example (2 of 3)
File Size
(bytes)
10
50
100
500
1000
5000
10000
Time
sec)
3.8
8.1
11.9
55.6
99.6
500.2
1006.1
Develop linear regression model for
time to read file of size bytes









xi = 16,660.0
yi = 1685.3
xiyi = 12,691,033.0
xi2 = 126,262,600.0
x = 2380
y = 240.76
b = (7)(12691033)(16660)(1685.3)
(7)(126262600)– (16660)2
a = 240.76–.1002(2380)
= 2.24
y = 2.24 + 0.1002x
20
Linear Regression Example (3 of 3)
21
File Size Time
(bytes) (sec)
10
50
100
500
1000
5000
10000
3.8
.1
11.9
55.6
99.6
500.2
1006.1
y = 2.24 + 0.1002x
Ex: predict time to read 3k file is 303 sec
‫ضریب تصمیم وضریب همبستگی‬

After developing regression model, useful to know how well the regression
equation fits the data


‫ضریب تصمیم‬
‫ضریب همبستگی‬
Coefficient of Determination




Earlier: SSE = Syy – bSxy
Let: SST = Syy and SSR = bSxy
Now: SST = SSR + SSE
 Total variation (SST) has two components
 SSR by regression (Sum of Squares Regression)
 SSE is model error (distance from line) (sum of squared residuals)
Fraction of total variation explained by model line:
r2 = SSR / SST = (SST – SSE) / SST


‫ضریب تصمیم‬
How “good” is the regression model? Roughly:
 0.8 <= r2 <= 1
strong
 0.5 <= r2 < 0.8
medium

0 <= r2 < 0.5
weak
‫ضریب همبستگی‬
Square root of coefficient of determination is the correlation coefficient. Or:
r = Sxy / sqrt(SxxSyy)
 Note, equivalently:
r = b sqrt(Sxx/Syy) = sqrt(SSR/SST)
 Where b = Sxy/Sxx is slope of regression model line
 Value of r ranges between –1 and +1
 +1 is perfect linear positive relationship
 Change in x provides corresponding change in y
 -1 is perfect linear negative relationship

Correlation Example

From Read Size vs. Time model, correlation:
r = b sqrt(Sxx/Syy)
= 0.1002 sqrt(86,611,800 / 869,922.4171)
= 0.9998

Coefficient of determination:
r2 = (0.9998)2 = 0.9996

So, 99.96% by the linear model
Correlation Visual Examples (1 of 2)
(http://peace.saumag.edu/faculty/Kardas/Courses/Statistics/Lectures/C4CorrelationReg.html)
Correlation Visual Examples (2 of 2)
r = 1.0
r = .85
r = -.94
r = .17
(http://www.psychstat.smsu.edu/introbook/SBK17.htm)
Download