Bayesian: Single Parameter Prof. Nur Iriawan, PhD. Statistika – FMIPA – ITS, SURABAYA 21 Februari 2006 Frequentist Vs Bayesian (Casella dan Berger, 1987) • Grup Frequentist – Grup yang mendasarkan diri pada cara klasik: MLE, Moment, UMVUE, MSE, dll – Pendekatan analitis selalu sebagai solusi • Grup Bayesian – Grup yang mendasarkan diri pada cara Bayesian – Pendekatan numerik serta komputasi secara intensif – Inference lebih didasarkan pada kemungkinan muncul terbesar Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 2 Teorema Bayes (Thomas Bayes, 1702-1761) P( A | Ei ) P( Ei ) P( Ei | A) P( A) k P( A) P( A | Ei ) P( Ei ) i 1 konstan P( Ei | A) P( A | Ei ) P( Ei ) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 3 Model Bayesian (Box dan Tiao, 1973), (Zellner, 1971), (Gelman, Stern, Carlin, dan Rubin, 1995) Mengacu pada bentuk proporsional P( Ei | A) P( A | Ei ) P( Ei ) Yang dibentuk sebagai Posterior Likelihood*Prior Bahwa data yang dibentuk sebagai likelihood digunakan sebagai bahan untuk meng-update informasi prior menjadi sebuah informasi posterior yang siap untuk digunakan sebagai bahan inferensi. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 4 Bayesian: Parameter juga diperlakukan sebagai variabel • Dalam Bayesian semua parameter dalam model diperlakukan sebagai variabel • Prinsip berfikir sebagai bentuk Full Conditional Distribution digunakan untuk mempelajari karakteristik setiap parameter • Dibedakan antara simbol penyajian likelihood data dan Full Conditional Distribution. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 5 Motivasi Bayesian • Theorema Bayes – Thomas Bayes P( B | A) P( A) P( A | B) P( B) P(B) adalah konstan – Pada bentuk lain jika x1 , x2 ,..., xn adalah suatu r.v yang independen dengan θ adalah parameternya, maka p( , x1 , x2 ,..., xn ) p ( | x1 , x2 ,..., xn ) p ( x1 , x2 ,..., xn ) p( ) p( x1 , x2 ,..., xn | ) p ( ) p( x1 , x2 ,..., xn | )d p ( ) p( x1 , x2 ,..., xn | ) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 6 Example: the Icy Road Case Ice: Is there an icy road? •Values {Yes, No} •Initial Probabilities (.7, .3) Watson: Does Watson have a car crash? •Values {Yes, No} •Probabilities (.8, .2) if Ice=Yes, (.1, .9) if Ice=No. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 7 Icy Road: Conditional Probabilities Ice Watson Yes No Yes .8 .2 No .1 .9 p(Watson=yes|Ice=yes) Nur Iriawan p(Watson=no|ice=yes) Bayesian Modeling, PENS – ITS - 2006 8 Icy Road: Likelihoods Note: 8/1 ratio Ice Watson Yes No Yes .8 .2 p(Watson=yes|Ice=yes) No .1 .9 p(Watson=yes|Ice=no) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 9 Icy Road: Bayes Theorem: If Watson = yes -- Before Normalizing Prior Ice Yes No * Likelihood Ice Watson Yes No .7 Yes .8 .2 .3 No .1 .9 Posterior Ice Yes .56 Yes No .03 Sum = .59. Need to divide through by this ‘normalizing constant’ to get probabilities. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 10 Icy Road: Bayes Theorem: If Watson = yes Prior Ice Yes No * Likelihood Ice Watson Yes No .7 Yes .8 .2 .3 No .1 .9 Posterior Ice Yes Ice Yes .56 Yes .95 Yes No .03 No .05 Posterior probabilities -- each term in the product divided through by the normalizing constant .59. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 11 Contoh pada kasus Normal • Representasi alami suatu distribusi – Normal(μ,σ2) atau N(μ,σ2) 2 1 1 x 2 f ( x | , ) exp 2 2 1 x 2 1 f ( x) exp 2 2 1 x 2 f ( x) exp 2 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 Mana representasi yang representatif ? 12 • Apa perbedaan antara penyajian berikut ini? 1 1 x 2 f ( x | , ) exp 2 2 2 2 1 1 x 2 f ( | , x) exp 2 2 2 1 1 x 2 f ( | , x) exp 2 2 2 1 1 x 2 f ( , | x) exp 2 2 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 13 Plot variabel x, μ dan σ dalam full conditional Normal μ x σ Nur Iriawan σ Bayesian Modeling, PENS – ITS - 2006 μ 14 Interval vs Highest Posterior Density (HPD) (Box dan Tiao, 1973),(Gelman et.al, 1995), (Iriawan, 2001) • Pembentukan interval konfidensi pada frequentist adalah sbb s s P x k x k 1 n n • Pembentukan interval konfidensi pada Bayesian didekati dengan HPD. P ( a b) 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 15 Representasi Kesamaan Densitas (Iriawan, 2001) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 16 Compromise dalam Control Chart Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 17 HPD pada Control Chart Individu Peta Kendali Nur Iriawan (1-) x 100% Batas Batas Kendali Kendali Bawah Atas 95,0 71,3953 109,481 97,5 64,4857 110,915 99,0 55,3356 112,775 Bayesian Modeling, PENS – ITS - 2006 18 Contoh Kasus pada Bernoulli • Seperti halnya pada Normal sebelumnya, x~Ber(x;p) disajikan sbb: P( x | p) p(1 p) dimana pada frequentist, p dianggap konstan • Bagaimana jika karena situasi dan tempat pengamatan yang berbeda dan diperoleh p berubahubah? Prinsip Bayesian, p akan diperlakukan menjadi sebuah variabel agar mempunyai kemampuan akomodatif pada keadaan seperti di atas. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 19 • Anggap p berubah sesuai dengan distribusi Beta(α,β), seperti berikut: 1 1 1 f p, p 1 p B , dengan B , p 1 0 1 1 p 1 dp 1 1 f p, p 1 p • apa yang akan terjadi? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 20 • Anggap satu pengamatan bernoulli telah dilakukan, maka posterior distribusinya adalah sbb: p 1 p 1 x x p x 1 0 p x 1 p 1 x 1 1 p 1 p 1 1 p 1 p dp 1 p 1 x x 1 0 p 1 p dp p Nur Iriawan x 1 x Bayesian Modeling, PENS – ITS - 2006 21 • Sesuai dengan spesifikasi fungsi Beta, maka penyebut dapat diproses sbb: 1 0 p x 1 1 p x 1 dp p 0 * 1 1 p * 1 dp where * x and * x 1 x x 1 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 22 • Sehingga distribusi posterior untuk p setelah satu observasi tersebut adalah 1 x x 1 1 p p x p x x 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 23 Estimator Bayes • Bayesian estimate dari p dapat diperoleh dengan meminimumkan loss function. Beberapa loss functions dapat digunakan, tetapi disini akan digunakan quadratic loss function yang konsisten dengan mean square errors (MSE) 2 ˆ Pˆ P 2 min E Pˆ E P P 2 E Pˆ P 0 ˆ P Pˆ E[ P] • Secara umum, estimasi θ dengan pendekatan Bayes sbb ((Carlin and Louis, 1996), and (Elfessi and Reineke, 2001)) : ˆ E[ | x ,..., x ] 1 n ( ) p( x | )d ( ) p( x | )d Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 24 • Dengan memperlakukan expektasi pada posterior distribution diperoleh 1 x x E p p 1 P dp 0 x x 1 1 1 x x p 1 p dp 0 x x 1 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 25 • Seperti sebelumnya, diselesaikan integral tersebut dengan membuat variabel baru *=+x+1 dan *=-x+1. Integralnya akan memberikan hasil sbb: 1 0 p 1 * 1 p * * * x 1 x 1 1 dp * * 2 1 x 1 x 1 E p 2 x x 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 26 – Dengan menggunakan penyederhanaan seperti berikut 1 – Maka, 1 x 1 1 x x 1 1 x 2 x x 1 – Atau E[ P] Nur Iriawan x 1 Ingat hasil ini kembali pada saat pembahaan Compromising Bayesian dengan Classical Approaches Bayesian Modeling, PENS – ITS - 2006 27 • Pengembangan hasil ini ke bentuk n buah percobaan Bernoulli akan menghasilkan sebanyak y sukses memberikan hasil n y n 1 y 1 1 p p y p y y n • Dimana y adalah jumlah sukses dari observasi setiap bernoulli x. Nilai taksiran y adalah sebagai berikut: Y ˆ P n Nur Iriawan Ingat hasil ini kembali pada saat pembahaan Compromising Bayesian dengan Classical Approaches Bayesian Modeling, PENS – ITS - 2006 28 Prior dan Metode Bayesian (Gelman et.al, 1995) Karena parameter diperlakukan sebagai variabel maka dalam Bayesian akan mempunyai nilai dalam domain , dengan densitas f (). Dan densitas inilah yang akan dinamakan sebagai distribusi prior dari . Dengan adanya informasi prior yang dipadukan dengan data / informasi saat itu, X, yang digunakan dalam membentuk posterior , maka penghitungan posteriornya akan semakin mudah, yaitu hanya dengan menghitung densitas bersyarat dari diberikan oleh X=x . Kritikan pada Bayesian biasanya terfokus pada “legitimacy dan desirability” untuk menggunakan sebagai random variabel dan ketepatan mendefinisikan/memilih distribusi prior-nya. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 29 Bentuk Prior, Likelihood, dan Posterior yang ideal Likelihood Proper/ conjugate Posterior Prior θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 30 Bagaimana jika pemilihan priornya seperti berikut ini? Pemilihan prior seperti ini akan Merupakan sebuah misleading prior, Sehingga posteriornya tidak akan Jelas bentuknya. Likelihood Posterior Prior θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 31 Prior yang serba sama densitasnya di semua domain Likelihood improper posterior prior θ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 32 Interpretasi distribusi Prior 1. Sebagai bentuk distribusi frequency 2. Sebagai bentuk representasi normatif dan objectif pada suatu parameter yang lebih rasional untuk dipercayai 3. Sebagai suatu representasi subjectifitas seseorang dalam memandang sebuah parameter menurut penilainnya sendiri Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 33 Prior sebagai representasi Frequensi Distribusi • Adakalanya nilai suatu parameter dibangkitkan dari modus pola data sebelumnya baik itu dari pola simetri ataupun tidak simetri • Dalam sebuah inspeksi dalam proses industri, data kerusakan pada batch sebelumnya biasanya akan digunakan sebagai estimasi informasi prior untuk keadaan batch selanjutnya • Prior biasanya mempunyai arti fisik sesuai dengan frequensi kejadian data-datanya Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 34 Interpretasi Normative/Objective dari suatu prior • Permasalahan pokok agar prior dapat interpretatif adalah bagaimana memilih distribusi prior untuk suatu parameter yang tidak diketahui namun sesuai dengan permasalahan fisik yang ada. • Jika hanya mempunyai nilai-nilai pada range yang tertentu saja, hal ini cukup beralasan jika digunakan prior yang mempunyai densitas serba sama (equally likelly / uniformly distributed). Interpretasinya adalah bahwa setiap kondisi diberi kesempatan yang sama untuk dapat terpilih sebagai suporter likelihood dalam membentuk posteriornya. • Prior dapat mempunyai arti yang sangat janggal jika salah dalam pemilihannya Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 35 Kasus prior dalam Continuous Parameters • Invariance arguments. – Hal ini akan dapat terjadi, sebagai contoh dalam kasus Normal mean , dapat diartikan bahwa semua titik dalam semua interval (a,a+h) harus mempunyai probabilitas prior untuk semua h dan a yang diketahui. Hal ini akan memberikan pengertian bahwa untuk semua titik dalam interval tersebut mempunyai kesempatan sama terpilih atau cenderung mempunyai uniform prior (“improper prior”) – Untuk parameter, , dalam interval (a,ka) akan mempunyai prior probabilitas yang sama, yang hal ini akan memberikan arti bahwa priornya akan proportional pada nilai 1/ .Lagi-lagi hal ini juga menghasilkan sebuah improper prior. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 36 Macam-macam Prior • Conjugate prior vs non-conjugate prior ((Box dan Tiao, 1973),(Gelman et.al, 1995), (Tanner, 1996), (Zellner, 1971)) – Prior terkait dengan pola model likelihood datanya • Proper prior vs Improper prior (Jeffreys prior) – Prior terkait pada pemberian pembobotan/ densitas di setiap titik, uniformly distributed atau tidak • Informative prior vs Non-Informative prior – Prior terkait dengan sudah diketahui pola/frekuensi distribusi dari datanya atau belum • Pseudo-prior (Carlin dan Chib, 1995) – Prior terkait dengan pemberian nilainya yang disetarakan dengan hasil elaborasi dari frequentist (misal regresi dengan OLS) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 37 Continuous Parameters • Biasanya digunakan uniform prior (at least if the parameter space is of finite extent) • Tetapi jika adalah uniform, maka suatu bentuk fungsi non-linear dari , g(), tidak akan uniform • Contoh jika p()=1, >0. Re-parameterisasi sebagai maka: dimana sehingga: • “ignorance about ” does not imply “ignorance about g.” The notion of prior “ignorance” may be untenable (mungkin dapat diperbolehkan)? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 38 • Turning this process around slightly, Bayesian analysis assumes that we can make some kind of probability statement about parameters before we start. The sample is then used to update our prior distribution. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 39 – Pertama, anggap bahwa prior yang digunakan dapat direpresentasikan sebagai probability density function () dengan adalah parameter yang akan dipelajari. – Berdasarkan pada sampel X (likelihood function) kita akan dapat meng-update distribusi priornya mengguankan Bayes rule X L X LX d Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 40 Beberapa Conjugate priors Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 41 The Jeffreys Prior (single parameter) • Jeffreys prior diberikan sebagai berikut: dimana adalah expected Fisher Information • This is invariant to transformation in the sense that all parametrizations lead to the same prior • Can also argue that it is uniform for a parametrization where the likelihood is completely determined (see Box and Tiao, 1973, Section 1.3) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 42 Contoh Jeffreys pada Binomial Hasil ini adalah suatu bentuk distribusi beta dengan parameters ½ and ½ Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 43 Contoh Jeffreys’ Priors yang lain Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 44 Improper Priors Trouble Posterior (sometimes) • Suppose Y1, .,Yn are independently normally distributed with constant variance 2 and with: • Suppose it is known that r is in [0,1], r is uniform on [0,1], and g, , and have improper priors • Then for any observations y, the marginal posterior density of r is proportional to where h is bounded and has no zeroes in [0,1]. This posterior is an improper distribution on [0,1]! Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 45 Improper prior usually proper posterior Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 46 Contoh lain: improper proper Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 47 Subjective Degrees of Belief • Probability represents a subjective degree of belief held by a particular person at a particular time • Various techniques for eliciting subjective priors. For example, Good’s device of imaginary results. • e.g. binomial experiment. beta prior with a=b. “Imagine” the experiment yields 1 tail and n-1 heads. How large should n be in order that we would just give odds of 2 to 1 in favor of a head occurring next? (eg n = 4 implies a=b=1) Y ˆ P n Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 48 Problems with Subjectivity • What if the prior and the likelihood disagree substantially? • The subjective prior cannot be “wrong” but may be based on a misconception • The model may be substantially wrong • Often use hierarchical models in practice: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 49 Hierarchical Model • Contoh pada kasus Binomial Gamma(c, d) Gamma(e, f) Poisson(λ) Gamma(g, h) Beta(a, b) Binomial(n, p) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 50 General Comments • Determination of subjective priors is difficult • Difficult to assess the usefulness of a subjective posterior • Don’t be misled by the term of “subjective”; all data analyses involve appreciable personal elements Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 51 Once again: An example with a continuous variable: A betabinomial example • The setup: We are flipping a biased coin, where the probability of heads could be anywhere between 0 and 1. We are interested in .We will have two sources of information: – Prior beliefs, which we will express as a beta distribution, and – Data, which will come in the form of counts of heads in 10 independent flips. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 52 An example with a continuous variable: A beta-binomial example--the Prior Distribution • The prior distribution: Let’s suppose we think it is more likely that the coin is close to fair, so is probably nearer to .5 than it is to either 0 or 1. We don’t have any reason to think it is biased toward either heads or tails, so we’ll want a prior distribution that is symmetric around .5. We’re not real sure about what might be--say about as sure as only 6 observations. This corresponds to 3 pseudo-counts of H and 3 of T, which, if we want to use a beta distribution to express this belief, corresponds to beta(4,4): b11[1] sample: 50000 3.0 2.0 1.0 0.0 0.0 Nur Iriawan 0.25 0.5 0.75 Bayesian Modeling, PENS – ITS - 2006 53 An example with a continuous variable: A beta-binomial example--the Prior Distribution • Beta. Defined on [0,1]. Conjugate prior for the probability parameter in Bernoulli & binomial models. PseudoCount of successes ~ dbeta(4,4) PseudoCount The variable: Mean(): 4 .5 44 Variance(): “success probability” 44 4 42 4 4 1 4 1 Mode(): .5 442 of failures p 4,4 41 1 41 .028 The failure probability Shape, or “prior sample info” The success probability Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 54 An example with a continuous variable: A beta-binomial example--the Likelihood • The likelihood: Next we will flip the coin ten times. Assuming the same true (but unknown to us) value of is in effect for each of ten independent trials, we can use the binomial distribution to model the probability of getting any number of heads: i.e., The variable Count of observed successes pr ,10 r 1 10r Count of observed failures The “success probability” parameter The failure probability The success probability Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 55 An example with a continuous variable: A beta-binomial example--the Likelihood • The likelihood: We flip the coin ten times, and observe 7 heads; i.e., r=7. The likelihood is obtained now using the same form as in the preceding slide, except now r is fixed at 7 and we are interested in the relative value of this function at different possible values of : p7 ,10 7 1 3 likelihood[1] sample: 100000 3.0 2.0 1.0 0.0 0.0 Nur Iriawan 0.25 0.5 0.75 1.0 Bayesian Modeling, PENS – ITS - 2006 56 An example with a continuous variable: Obtaining the posterior by Bayes Theorem posterior likelihood prior General form: p( y | x* ) p( x* | y) In our example, 7 plays the role of x*, and p plays the role of y. Before normalizing: p r 7 7 1 3 3 1 3 After normalizing: p( y ) 1 1 p r 7 z 1 z z 1 z z 7 3 7 3 3 3 3 3 z Now, how can we get an idea of what this means we believe about after combining our prior belief and our observations? Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 57 An example with a continuous variable: In pictures b11[1] sample: 50000 3.0 Prior 2.0 1.0 0.0 0.0 x 0.25 0.5 0.75 likelihood[1] sample: 100000 3.0 Likelihood 2.0 1.0 0.0 0.0 0.25 0.5 0.75 1.0 p sample: 50000 Posterior 4.0 3.0 2.0 1.0 0.0 0.0 Nur Iriawan 0.2 0.4 0.6 Bayesian Modeling, PENS – ITS - 2006 0.8 58 An example with a continuous variable: Using the fact that we have conjugate distributions Now p r 7 7 1 3 3 1 3 10 1 6 . This is just the kernel of a beta(11,7) distribution. This is rather special. The data were observed in accordance with a probability function which would have that same mathematical form as a likelihood once data are observed. We chose a prior distribution (in this case, a beta distribution) which would combine with the likelihood just so as to produce another distribution in the same parametric family (another beta distribution), just with updated parameters. We can work out its summary statistics: Mean(): prior was Nur Iriawan 11 .61 11 7 .5 Variance(): 11 7 11 7 11 7 1 2 11 1 .625 11 7 2 .013 Mode(): .028 Bayesian Modeling, PENS – ITS - 2006 .5 59 An example with a continuous variable: Using BUGS Now p r 7 7 1 3 3 1 3 10 1 6 . What BUGS does in this simple problem with one variable is to sample lots of values from the posterior distribution for ; that is, its distribution as determined first with information from the prior, but further conditional on the observed data. Here are the summary statistics from 50000 draws: Mean(): prior was Nur Iriawan 11 .61 11 7 .5 Variance(): 11 7 11 7 11 7 1 2 11 1 .625 11 7 2 .013 Mode(): .028 Bayesian Modeling, PENS – ITS - 2006 .11162~.0125 .5 60 An example with a continuous variable: Using BUGS • BUGS setup for this problem: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 61 Looking ahead to sampling-based approaches with many variables • BUGS = Bayesian-inference Using Gibbs Sampling • Basic idea: Model multi-parameter problem in terms of assemblies of distributions and functions for all data and all parameters (taking advantage of conditional dependence whenever possible). – E.g., p(Data|x,y) p(x|z) p(y) p(z). (*) • Observe Data*; Posterior p(x,y,z|Data*) is proportional to (*). Hard to evaluate normalizing constant, but ... Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 62 Looking ahead to sampling-based approaches with many variables • Can draw values from “full conditional” distributions: • Start with a possible value for each variable in cycle 0. • In cycle t+1, – Draw xt+1 from p(x|Y= yt,Z= zt,Data*) – Draw yt+1 from p(y|X= xt+1,Z= zt,Data*) – Draw zt+1 from p(z|X= xt+1,Y= yt+1,Data*) • Under suitable conditions, these series of draws will come to approximate draws from the actual true joint posterior for all the parameters. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 63 Inference in a chain Recursive representation: p(u,v,x,y,z) = p(z|y,x,v,u) p(y|x,v,u) p(x|v,u) p(v|u) p(u) = p(z|y) U V p(v|u) Nur Iriawan p(y|x) X p(x|v) p(x|v) p(v|u) p(u). Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 64 Inference in a chain Suppose we learn the value of X: Start here, by revising belief about X U V p(v|u) Nur Iriawan X p(x|v) Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 65 Inference in a chain Propagate information down the chain using conditional probabilities: From updated belief about X, use conditional probability to revise belief about Y U V p(v|u) Nur Iriawan X p(x|v) Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 66 Inference in a chain Propagate information down the chain using conditional probabilities: From updated belief about Y, use conditional probability to revise belief about Z U V p(v|u) Nur Iriawan X p(x|v) Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 67 Inference in a chain Propagate information up the chain using Bayes Theorem: From updated belief about X, use Bayes Theorem to revise belief about V U V p(v|u) Nur Iriawan X p(x|v) Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 68 Inference in a chain Propagate information up the chain using Bayes Theorem: From updated belief about V, use Bayes Theorem to revise belief about U U V p(v|u) Nur Iriawan X p(x|v) Y p(y|x) Bayesian Modeling, PENS – ITS - 2006 Z p(z|y) 69 Inference in singly-connected nets Singly connected: There is never more than one path from one variable to another variable. Chains and trees are singly connected. Can use repeated applications of Bayes theorem and conditional probability to propagate evidence. (Pearl, early 1980s) Nur Iriawan V U Bayesian Modeling, PENS – ITS - 2006 X Y Z 70 Posterior Summaries • Mean, median, mode, percentile, etc. • Central 95% interval versus highest posterior density region (normal mixture example…) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 71 Bayesian Confidence Intervals • Apart from providing an alternative procedure for estimation, the Bayesian approach provides a direct procedure for the formulation of parameter confidence intervals. • Returning to the simple case of a single coin toss, the probability density function of the estimator becomes: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 72 1 X X 1 1 P P X P X X 1 • As previously discussed, try to give ==1.4968, the Bayesian estimator of P is .6252. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 73 • However, using the posterior distribution function, we can also compute the probability that the value of p is less than .5 given a head: PP .5 .5 0 1 X P X 1 1 P dP .2976 X X 1 • Please verify this result! • Hence, we have a very formal statement of confidence intervals as P(0.3 < p < 0.7). Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 74 Prediction “Posterior Predictive Density” of a future observation binomial example, n=20, x=12, a=1, b=1 y Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 ~ y 75 Prediction for Univariate Normal Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 76 Prediction for Univariate Normal •Posterior Predictive Distribution is Normal Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 77 Prediction for a Poisson Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 78 On the Compromise of Bayesian to Classical Estimation (presented on South-East Asia Stat & Math Muslim Society Conference) Nur Iriawan Statistics Department of Institut Teknologi Sepuluh Nopember Jl. Arief Rahman Hakim Sukolilo, Surabaya 60111, Indonesia iriawann@sby.centrin.net.id Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 79 Example on Exponential Suppose x is exponentially distributed f ( x, ) exp( x), x 0, 0. The MLE of is n xi i 1 n Nur Iriawan 1 Bayesian Modeling, PENS – ITS - 2006 80 Using Bayesian approach with prior of is ( ) 1 exp( ), 0, 0, and . The likelihood would be n n 1 ( | x1 ,..., xn ) exp xi i 1 Then the posterior of given the data X is n n 1 ( | x1 ,..., xn ) exp xi i 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 81 The Bayes estimator for can be derived using ˆ E[ | x1 ,..., xn ] n n 1 xi d 0 exp i 1 n n 1 xi d 0 exp i 1 n n xi i 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 82 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 83 Numerical Calculation One thousand generated data from Exponential distribution, then The classical MLE give the result (using MINITAB) as follows Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 84 Using WinBUGS, the Bayes estimator is Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 85 Lihat kembali hasil dari Binomial Estimator Bayes diperoleh Y Pˆ n Y Pˆ n Bagaimana jika α = β = 0? Estimator Bayes akan menjadi sama dengan cara klasik. Demikian halnya jika nilai-nilai ini diterapkan pada prior beta, maka prior tersebut akan berubah menjadi sebuah Jeffreys’ prior. 1 1 f p, p 1 p Cara klasik memberikan hasil bahwa jika 0 dan 0, maka f p, 0 1 p 1 1 p 0 0 p 1 1 p 1 Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 86 Summary The Bayesian estimator reported as the posterior mean which is used here is generated from an improper prior distribution. It has been shown that when there is no information about the prior of the parameter of model, a constant or Jeffreys’ prior is used, the resulting estimator will give a compromise result between Bayesian and Classical estimator. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 87 Numerical Integration: Monte Carlo Method (Low dan Kelton, 2000) • Anggap kita akan menghitung integral berikut b I g ( x)dx a • Jika g(x) cukup kompleks maka nilai I akan cukup rumit. Dengan cara numerik seperti beriktu dapat diperoleh nilai I dengan cukup sederhana. • Caranya adalah sbb: Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 88 • Buat random variabel baru Y (b a) g ( x) dengan x bernilai uniform dalam interval (a,b), atau U(a,b). • Hitung ekspektasi Y dengan cara berikut E[Y ] E[(b a ) g ( x)] (b a ) E[ g ( x)] b (b a ) g ( x) f x ( x)dx a (b a ) b a g ( x)dx (b a ) I Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 89 • Diketahui bahwa E[Y ] Y (n) • Sehingga nilai integral I dapat didekati secara numerik oleh n n Y ( n) Y i i n (b a) g(x ) i i n • Berarti, bangkitkan data x1 , x2 ,..., xn yang mempunyai distribusi Uniform dan masukkan nilainya ke fungsi g(x) jumlahkan nilainya dan hitung rata-ratanya sebagai taksiran nilai integral yang sedang dicari. Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 90 • Berapa banyak data yang harus dibangkitkan? • Data harus dibangkitkan sebanyak mungkin sampai nilai rata-ratanya mencapai titik konvergen. 16 14 12 Rata-rata 10 8 6 4 2 0 1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 Iterasi Burn-in Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 91 Cara lain menghitung nilai estimasi integral dengan RNG • Macam Random Number Generator (RNG) – Transformasi Invers – Composisition – Convolution – Acceptance Rejection (AR) – Adaptive Acceptence Rejection (AAR) Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 92 Transformasi Invers • Syarat Transformasi Invers – Fungsi mempunyai CDF yang close form • Metodenya adalah sbb: F(x) 1 F ( x) 1 exp( x) u 1 exp( x) 1 u exp( x) u x 0 Nur Iriawan x Bayesian Modeling, PENS – ITS - 2006 1 1 ln(1 u ) ln(u ) 93 Composition (Mixture form) • Perhatikan bentuk fungsi berikut f(x) Half Normal I II Exponential f ( x) k1 f1 ( x) I ( ,0] k2 f 2 ( x ) I[0, ) Dimana data di daerah I dibangkitkan dengan Normal dan di daerah II dengan Exponential Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 94 Convolution • Misalkan sebuah fungsi Erlang(m ), maka cara pembangkitan datanya adalah dengan mengkonvolusikan data bangkitan Exponential( ). Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 95 Acceptance Rejection (AR) • Sangat bagus untuk fungsi yang tidak jelas pdf atau bukan • Dapat mengakomodasikan fungsi yang tidak mempunyai CDF close form • Caranya adalah sbb: tx f(x) rx Nur Iriawan Reject Accept Bayesian Modeling, PENS – ITS - 2006 96 Algoritma AR • Bangkitkan x ~ rx • Bangkitkan u ~ U(0,1) f ( x) • If u then t ( x) Accept x Else Reject x Nur Iriawan Bayesian Modeling, PENS – ITS - 2006 97