Computer Modeling And Simulation F.Ramezani Department of Computer Engineering Islamic Azad University SARI Branch Introduction to Computer Modeling And Simulation تعیین توزیع داده ها خالصه اطالعاتی از داده ها مثال :میانگین I / Oدیسک به معنی ،13واریانس .48 به عالوه ،توزیع داده برای مدل سازی شبیه سازی و یا تحلیل داده بسیار مفید است. چگونه می توانیم توزیع داده ها را تعیین کنیم؟ هیستوگرام طرح 2 توزیع داده ها plot yi is observed, xi is theoretical If distribution fits, will have line qi = F(xi), or xi = F-1(qi) Where F-1? Sample Quantile Normal distribution: xi = 4.91[qi0.14 – (1-qi)0.14] Theoretical Quantile 3 اندازه گیری ارزش های خاص Accuracy Mean of measured values (sample mean) Resolution (determined by tools) True value (population mean) 4 مقایسه سیستم با استفاده از داده های نمونه کلمه "نمونه" از همان ریشه کلمه "به عنوان مثال” می آید به طور مشابه ،یک نمونه یک نظریه را ثابت نمی کند ،بلکه یک مثالی از آن است یک بیانیه قطعی می تواند در مورد ویژگی های یک سیستم قطعی ساخته شده اطالعاتی بدهد در عوض ،بیانیه احتماالتی در مورد طیف وسیعی از اکثر سیستم ها حرف میزند فاصله اطمینان 5 نمونه در مقابل جمعیت Say we generate 1-million random numbers mean and stddev . is population mean selecting n samples Sample {x1, x2, …, xn} has mean x, stddev s x is likely different than ! With many samples, x1 != x2!= … بطور معمول میانگین داده ها شناخته شده نیست اما میتوان برای یک جمعیت نمونه محاسبه کرد 6 فاصله اطمینان برای میانگین محاسبه احتمال میانگین در فاصله ][c1,c2 بطور معمول سطح اطمینان بین90%, 95% or 99% Prob{c1 < < c2} = 1- فاصله اطمینان (c1, c2) is سطح اهمیت is سطح اطمینان 100(1- ) is 7 قضیه حد مرکزی به صورت حسی ،قضیه حد مرکزی میگوید که یک سری از چند متغیر تصادفی مستقل با توزیع یکسان در بینهایت به سمت یک متغیر تصادفی مشخص میل میکنند. مجموع و میانگین مقادیر یک نمونه تصادفی nتایی که از یک جامعه آماری انتخاب می شوندبطورتقریبی به یک توزیع نمونه گیری قرینه گرایش دارد. در قضیه حدمرکزی اگر یک نمونه تصادفی nتایی که از یک جامعه غیرنرمال با میانگین وانحراف معیارانتخاب شود وقتی بزرگ باشد توزیع نمونه گیری تقریبا به صورت نرمال توزیع خواهد شد و میانگین و انحراف معیار زیر را خواهد داشت: x¯=x x¯=x/√n وقتی nبزرگ شود غیر نرمال به نرمال تبدیل می شود. در قضیه حد مرکزی هرگاه مجموع و یا متوسط مورد استفاده و اندازه نمونه به قدر کافی بزرگ باشد انتظار می رود که تخمین زننده دارای یک توزیع نرمال (البته به طور تقریبی) در نمونه گیریهای 8 مکرر باشد. -1تخمین فاصله ای میانگین جامعه آماریx اگر از یک جامعه نامحدود نمونه گیری کنیم ،خواهیم داشت: اگر جامعه نمونه گیری نرمال باشد بدون توجه به اندازه نمونه ¯xدارای توزیع نرمال است. x¯x x¯=x/√n اگر جامعه نمونه گیری غیرنرمال باشد طبق قضیه حد مرکزی اگر نمونه بزرگ باشد خواهیم داشت: x¯x x¯=x/√n تخمین فاصله ای یک پارامتر جامعه قاعده ای است که می گوید چگونه دو مقدار را بر پایه داده های نمونه محاسبه کنیم تا ¯ xدر وسط آن قرار گیرد وقتی تخمین فاصله ای برای پارامتر جامعه آماری بکار رود یک جفت عدد از تخمین زننده بدست می آید که به آن تخمین فاصله ای ( فاصله اطمینان ) برای پارامتر گویند. ادامه تخمین فاصله ای میانگین جامعه آماریx تخمین فاصله ای xمی شود: ±¯x دقت برآورد :مقدار ثابتی است که به کمک آن حد باال و حد پایین را می توان تعریف کرد. ادامه تخمین فاصله ای میانگین جامعه آماریx سطح اطمینان محقق :همان سطح احتمال تخمین زدن پارامتر است و یا سطح دلخواه در یک توزیع آماری که xدر آن قرار می گیرد .مثل سطح اطمینان .%95 سطح خطا فاصله اطمینان خوب فاصله ای است که با کوچکترین عرض برآورد در برگیرنده پارامتر باشد. هرچه nنمونه بزرگتر باشد صحت و دقت در یک فاصله اطمینان بیشتر و باالتر است تحمین زن فاصله ای می خواهیم پارامتر را آنچنان تخمین بزنیم که اختالف و ˆحد از اندازه کمتر باشد .این حرف با اطمینان همراه است ،یعنی احتمال آن است. P(|1ˆ بنابراین فاصله اطمینان در سطح می شود: ˆˆ بنابراین حد باال و پایین عبارت خواهد بود از: (Ļ , Ĺ) =ˆˆ بطور کل در تخمین زن فاصله ای باید 4مرحله را انجام داد: -1احتمال قائل شدن برای تخمین زن -2خطای حدی -3فاصله اعتماد -4تخمین فاصله ای Confidence Interval Example (Sorted) CPU Time 1.9 2.7 2.8 2.8 2.8 2.9 3.1 3.1 3.2 3.2 3.3 3.4 3.6 3.7 3.8 3.9 3.9 3.9 4.1 4.1 4.2 4.2 4.4 4.5 4.5 4.8 4.9 5.1 5.1 5.3 5.6 5.9 x = 3.90, stddev s=0.95, n=32 فاصله اطمینان:?? 13 معنی فاصله اطمینان f(x) Sample 1 2 3 … Includes ? yes yes no 14 تعیین حجم نمونه هرچه تعداد نمونه بیشتر ،نرخ اعتماد بیشتر خواهد بود اما هرچه نمونه ها بیشتر باشند زمان بیشتری نیز نیاز میباشد هدف این است که با کوچکترین اندازه مجموعه نمونه نرخ درستی بیشتری داشته باشیم مجموعه ای کوچک از اندازه گیری های اولیه به منظور برآورد واریانس برای تعیین حجم نمونه برای دقت بیشتر 15 Regression اندازه گیری عملکرد در تمام مقادیر ورودی یک سیستم ،گران (و گاهی اوقات غیر ممکن) است در عوض ،اندازه گیری عملکرد برای ورودی های محدود و استفاده از بیش از طیف وسیعی از مقادیر ورودی برای تولید مدل میتواند آسان باشد ساخت مدل رگرسیون 16 Linear Regression (1 of 2) Captures linear relationship between input values and response Of the form: y = a + bx Where x input, y response and we want to know a and b If yi is measured for input xi, then each pair (xi, yi) can be written: yi = a + bxi + ei where ei is error for regression model 17 Linear Regression (2 of 2) The sum of the errors squared: SSE = ei2 = (yi - a - bxi)2 Find a and b that minimizes SSE na + bxi = yi axi + bxi2 = xiyi Solving for b gives: b = nxiyi – (xi)(yi) nxi2 – (xi)2 Using (1) and solving for a: a = y – bx 18 Linear Regression Example (1 of 3) 19 File Size Time (bytes) (sec) 10 50 100 500 1000 5000 10000 3.8 8.1 11.9 55.6 99.6 500.2 1006.1 Develop linear regression model for time to read file of size bytes Linear Regression Example (2 of 3) File Size (bytes) 10 50 100 500 1000 5000 10000 Time sec) 3.8 8.1 11.9 55.6 99.6 500.2 1006.1 Develop linear regression model for time to read file of size bytes xi = 16,660.0 yi = 1685.3 xiyi = 12,691,033.0 xi2 = 126,262,600.0 x = 2380 y = 240.76 b = (7)(12691033)(16660)(1685.3) (7)(126262600)– (16660)2 a = 240.76–.1002(2380) = 2.24 y = 2.24 + 0.1002x 20 Linear Regression Example (3 of 3) 21 File Size Time (bytes) (sec) 10 50 100 500 1000 5000 10000 3.8 .1 11.9 55.6 99.6 500.2 1006.1 y = 2.24 + 0.1002x Ex: predict time to read 3k file is 303 sec ضریب تصمیم وضریب همبستگی After developing regression model, useful to know how well the regression equation fits the data ضریب تصمیم ضریب همبستگی Coefficient of Determination Earlier: SSE = Syy – bSxy Let: SST = Syy and SSR = bSxy Now: SST = SSR + SSE Total variation (SST) has two components SSR by regression (Sum of Squares Regression) SSE is model error (distance from line) (sum of squared residuals) Fraction of total variation explained by model line: r2 = SSR / SST = (SST – SSE) / SST ضریب تصمیم How “good” is the regression model? Roughly: 0.8 <= r2 <= 1 strong 0.5 <= r2 < 0.8 medium 0 <= r2 < 0.5 weak ضریب همبستگی Square root of coefficient of determination is the correlation coefficient. Or: r = Sxy / sqrt(SxxSyy) Note, equivalently: r = b sqrt(Sxx/Syy) = sqrt(SSR/SST) Where b = Sxy/Sxx is slope of regression model line Value of r ranges between –1 and +1 +1 is perfect linear positive relationship Change in x provides corresponding change in y -1 is perfect linear negative relationship Correlation Example From Read Size vs. Time model, correlation: r = b sqrt(Sxx/Syy) = 0.1002 sqrt(86,611,800 / 869,922.4171) = 0.9998 Coefficient of determination: r2 = (0.9998)2 = 0.9996 So, 99.96% by the linear model Correlation Visual Examples (1 of 2) (http://peace.saumag.edu/faculty/Kardas/Courses/Statistics/Lectures/C4CorrelationReg.html) Correlation Visual Examples (2 of 2) r = 1.0 r = .85 r = -.94 r = .17 (http://www.psychstat.smsu.edu/introbook/SBK17.htm)