Pemrograman R untuk Distribusi Gamma-Normal Herlina Hanum1, Novi Rustiana Dewi2, Delia Paramitha3 1,2,3)Jurusan Matematika, Fakultas MIPA, Universitas Sriwijaya Jl. Raya Palembang – Prabumulih KM. 32 Indralaya Ogan Ilir 30662 Email: linhanum@gmail.com, novirustianadewi@unsri.ac.id, paramithadelia6@gmail.com ABSTRAK Distribusi Gamma-Normal (G-N) merupakan distribusi baru yang di bentuk dari dua distribusi kontinu yaitu gamma dan normal dengan pembentukan distribusi transformed-transformer(T-X).Distribusi G-N terbagi menjadi distribusi G-N dua parameter (gamma-normal standar) dengan μ=0 dan σ=1 dan empat parameter (gamma-normal). Software R adalah software yang bersifat open source dan cocok digunakan untuk distribusi G-N. Pada penelitian ini dibahas mengenai pembuatan pemrogram R untuk fungsi-fungsi khusus distribusi G-N. Program yang dibuat adalah program 1) pendugaan parameter yang diawali dengan menentukan nilai awal, 2) fkp, 3) fungsi kumulatif, 4) fungsi kuantil dan 5) pembangkitan peubah acak berdistribusi G-N. Uji coba program pada data Breaking stress of carbon fibersmemberikan hasil yang hampir sama dengan hasil analisis pada software SAS pada data tersebut. Untuk data tersebut diperoleh nilai AIC,MAPE, p-value KS masing-masingadalah 175,8405, 6,057551%, 0,9915 untuk dua parameter dan 178,9064, 4,855483%, 0,9915 untuk empat parameter distribusi G-N. Kata Kunci: Distribusi T-X, Distribusi G-N, dan Pemrograman R. ABSTRACT The Gamma-Normal Distribution (G-N) is a new distribution which is in the form of two continuous distributions of gamma and normal with the formation of transformer-transformer distributions (T-X). The G-N distribution is consist of G-N distributions of two parameters (gamma-standard normal) with μ = 0 and σ = 1 and four parameters (gamma-normal). Software R is software that is open source and suitable for the distribution of G-N. This study discussed the development of R programmers for special functions of G-N distribution. The program created is the program 1) parameter estimation that begins by determining the initial value, 2) pdf, 3) cumulative function, 4) the quantile function and 5) the generation of randomly distributed G-N variables. Testing the program on Breaking stress of carbon fibers data gives almost similar results for the analysis of SAS software on the data. For the data obtained the value of AIC, MAPE and p-value KS is 175.8405, 6.057551%, 0.9915 for two parameters and 178.9064, 4.855483%, 0.9915 for four parameters G-N distribution. Keywords: T-X distribution, G-N distribution, and R programming. 1. Pendahuluan Distribusi peluang baru sangat berpengaruh terhadap statistika inferensia karena jenis prosedur pengolahan data yang diterapkan. Sebuah metode dilakukan untuk menghasilkan distribusi baru yaitu dengan pembentukan distribusi transformedtransformer (T-X). Distribusi T-X pertama kali dipopulerkan oleh Alzaatreh et al.(2013), yang menjelaskan bahwa variabel acak X sebagai “transformator” digunakan untuk mengubah variabel acak T yang “ditransformasikan”. Pembentukan distribusi baru dapat dilakukan dengan beberapa distribusi peluang kontinu. Alzaatreh et al. (2014) menggunakan distribusi peluang kontinu gamma dan normal dalam pembentukan distribusi T-X yang dimana distribusi gamma sebagai variabel acak T dan distribusi normal sebagai variabel acak X, sehingga dinamakan distribusi Gamma-Normal (G-N). Penelitian sebelumnya, aplikasi dari distribusi G-Ntelah dilakukan oleh Alzaatreh et al. (2014) dengan menggunakan software SAS dan PROC NLMIXED (Procedure Non Linier Mixed) sebagai model dalam SAS yang digunakan untuk mencari penduga parameter G-N dua parameter (gamma-normal standar) dengan parameter μ=0 dan σ=1 dan G-N empat parameter (gamma-normal) yang semua parameternya tidak ditetapkan sebelumnya. Duningan (2011), menjelaskan PROC NLMIXED merupakan prosedur pada software SAS yang digunakan untuk menganalisis model regresi non linier yang mengandung lebih dari satu parameter yaitu parameter tetap dan acak. Penelitian ini, akan dibuat pemrograman untuk mencari nilai kemungkinan maksimum dengan menggunakan metode Maximum Likelihood Estimation (MLE) yang diperkirakan menghasilkan nilai yang hampir sama dan membuat fungsi (function) peluang distribusi G-N dengan menggunakan software Rstudio dikarenakan software R dinilai open source serta memiliki kapasitas memori yang lebih kecil dibandingkan dengan software SAS yang bersifat komersil serta memiliki kapasitas memori yang lebih besar. Script dengan program R ini juga memanfaatkan beberapa package yang harus diinstall telebih dahulu diantaranya package bbmle, stats4, MASS, zipfR, dan numDeriv. Data yang digunakan sebagai uji coba pemrograma yaitu data breaking stress of carbon fibers yang merupakan data tekanan pecahan serat karbon (Alzaatrehet al. 2014). Versi perangkat lunak yang digunakan adalah RStudio dengan versi 3.4.2. Uji kesesuaian distribusi yang digunakan adalah dengan plot kuantil, uji KS (Kolmogorov-Smirnov), MAPE (Mean Absolute Precentage Error) dan AIC (Akaike Information Criterion). 2. Metode Penelitian Data yang digunakan sebagai uji coba pemrograman adalah salah satu data dari penelitian Alzaatreh et al.(2014) yaitu data breaking stress of carbon fibers. Data Breaking stress of carbon fibers merupakan data tekanan pecahan serat karbon. Langkah-langkah dalam penelitian ini adalah sebagai berikut: 1. Menginstall package yang belum terdapat dalam software R yang diperlukan dalam pembuatan program yaitu package bbmle, stats4, MASS, zipfR dan numDeriv. 2. Menyimpan package yang diperlukan kedalam library. 3. Membuat pemrograman mencari nilai awal masing-masing parameter yaitu , , , . 4. Membuat pemrograman mencari nilai pendugaan parameter dengan memasukkan nilai awal parameter , , , yang telah diperolah dengan mengubah rumus loglikelihood( , , , ) berikut kedalam sintaks program R dan menjalankannya dengan menggunakan paket bbmle. 1 ( )− (2 ) − ( ) − ( − ) logL(α, β, μ, σ) = − − 2 2 +( − 1) (− 1− ( ) +( − 1) 1 − ( ) (1) 5. Mengubah fkp, fungsi kumulatif, fungsi kuantil G-N kedalam bentuk sintaks program R untuk mencari masing-masing nilai. Fungsi kepekatan peluang (fkp) ( )= ( (2) ( )) ( )[− log 1 − ( ) ] 1− ( ) Fungsi kumulatif ( ) ( , ( )= ( ) (3) Fungsi kuantil = exp − , ( ) (4) 6. Mengetahui kecocokan distribusi G-N pada data dengan plot kuantil, AIC, Kolmogorov-Smirnov, dan MAPE dengan menggunakan program R. Nilai MAPE ditentukan dengan rumus: MAPE = ∑ 100% 7. Membangkitkan data peubah acak dari distribusi G-N. 8. Menarik kesimpulan. 3. Hasil dan Pembahasan 3.1. Pemrograman Menentukan Nilai Awal Parameter , , , Nilai awal digunakan untuk mencari nilai maksimum pendugaan paramete α, β, μ dan σ. Parameter α dan β adalah parameter pada variabel acak Y yang mengikuti distribusi gamma pada variabel acak = (1 − ) pada distribusi G-X sehingga ( ) sampel acak = − 1− mengikuti distribusi gamma pada variabel acak = (1 − ) pada distribusi G-N diasumsikan = dan = dengan adalah rata-rata dari sampel acak Y dan adalah standar deviasinya. Dari pemrograman diperoleh nilai awal = 2,759545, = 0,8914525, = 1,027788, dan = 0,9633582. 3.2. Pemrograman Fungsi Pendugaan Parameter Distribusi G-N fungsi likelihood diubah kedalam sintaks program R dengan menuliskan ( , , , )adalah sebagai berikut : sintaksnya − +(n*log(gamma(alfa)))+(n*alfa*log(beta))+((n/2)*log(2*(22/7)))+(n*log(sd))+ ((1/(2*(sd^2)))*sum((x-mean)^2))-((alfa-1)*sum(log(-log(1-pnorm(x,mean,sd)))))(((beta^-1)-1)*sum(log(1-pnorm(x,mean,sd)))) Dengan menggunakan nilai awal parameter yang telah diperoleh sehingga dapat dituliskan fungsi untuk mendapatkan nilai kemungkinan maksimum yang diperoleh seperti yang terlihat pada Tabel. 1 berikut : Tabel.1 Hasil pemrograman pendugaan parameter Distribusi Pendugaan parameter G-N dua parameter = 4,797471 (0,80706 ) = 1,292847(0,22926) G-N empat parameter = 0,7536255(2,37552) = 0,6880634(2,42719) = 3,3389658(1,02498) = 0,9118493(1,59728) Log-likelihood -85,92 -85,45 AIC 175,8405 178,9064 3.3. Fungsi Kepekatan Peluang (FKP) Fkp G-N diubah kedalam bentuk sintaks program R sebagai berikut : (((beta^alfa)*gamma(alfa))^-1)*dnorm(x,mean,sd)*((-log((1pnorm(x,mean,sd))))^(alfa-1))*(((1-pnorm(x,mean,sd)))^((1/beta)-1)) hasil dari nilai fungsi tersebut diperoleh histogram pada Gambar 1 berikut : Gambar 1. Perbandingan fkp dan data keterangan pada gambar 1 adalah dalam plot fkp, fkp sebaran G-N dua dan empat parameter dapat mengikuti naik dan turunnya histogram dengan baik, Fungsi Kumulatif Fungsi kumulatif G-N diubah kedalam bentuk sintaks program R sebagai berikut : 3.3.1. ((gamma(alfa))^-1)*Igamma(alfa,log(1-pnorm(x,mean,sd))*(-beta^-1)) hasil dari nilai fungsi tersebut diperoleh plot fungsi kumulatif pada Gambar 2 berikut : Gambar 2. Perbandingan fungsi kumulatif dan data keterangan pada Gambar 2 adalah dalam plot fungsi kumulatif G-N dua dan empat parameter dapat mengikuti plot fungsi kumulatif data dengan baik, 3.4. Mengetahui Kecocokan Distribusi Untuk melihat kebaikan data juga dapat dilihat dari plot perbandingan nilai kuantil dan data pada Gambar 3. Gambar 3. perbandingan kuantil dan data Gambar 2. keterangannya dalam plot perbandingan nilai kuantil dan data juga dapat dilihat bahwa nilai kuantil yang dihasilkan juga mengikuti nilai dari data asli. Analisis lebih lanjut terhadap kesesuaian data yang digunakan dilakukan berdasarkan ukuran kebaikan suai. Penduga parameter untuk kedua distribusi beserta ukurannya kebaikannya disajikan dalam Tabel 1. Tabel 2. Penduga parameter untuk dua dan empat parameter G-N Distribusi Pendugaan parameter G-N dua parameter = 4,797471 (0,80706 ) = 1,292847(0,22926) G-N empat parameter = 0,7536255(2,37552) = 0,6880634(2,42719) = 3,3389658(1,02498) = 0,9118493(1,59728) Log-likelihood -85,92 -85,45 AIC 175,8405 178,9064 K-S 0,075758 0,075758 K-S p-value 0,9915 0,9915 MAPE (%) 6,057551 4,855483 Berdasarkan nilai MAPE, kedua distribusi sangat sesuai dengan data. Kesesuaian ini terlihat oleh nilai MAPE kurang dari 10%. Dari data distribusi empat parameter gamma-normsl memberikan nilai dugaan yang paling dekat dengan nilai amatan yang ditunjukkan oleh nilai MAPE yang lebih kecil dari distribusi dua parameter gamma-normal. Nilai-p uji KS menunjukkan bahwa kedua distribusi sesuai dengan data karena kedua nilai-p lebih besar dari taraf nyata 0,05 yaitu 0,9915. Nilai-p yang mendekati 1 menunjukkan bahwa sebaran data sangat sesuai. Untuk nilai AIC terlihat bahwa kessesuaian data dengan distribusi dua parameter gamma-normal lebih baik dibandingkan distribusi empat parameter gamma-normal. Nilai AIC yang lebih kecil mengindikasikan nilai pendugaan yang mendekati nilai sebenarnya. 3.5. Pemrograman Pembangkitkan Peubah Acak G-N Pembangkitan bilangan acak distribusi GN menggunakan nilai fungsi kuantil distribusi G-N sebagai nilai bilangan acak untuk distrubsi G-N . 4. Simpulan Dengan menggunakan program R diperoleh hasil yang hampir sama dengan dengan jurnal penelitian sebelumnya bahwa data tersebut cocok menggunakan distribusi gammanormal dilihat dari nilai MAPE yang kurang dari 10%. Sehingga program R dapat dijadikan sebuah aplikasi dalam mengelola data yang berdistribusi gamma-normal Daftar Pustaka 1. Alzaatreh, A., Famoye, F., and Lee, C. 2013. A New Method for Generating Families of Continuous Distributions. Metron 71: 63-79. 2. Alzaatreh, A., Famoye, F., and Lee, C. 2014. The Gamma-Normal Distribution: Properties and Application. Computational Statistics and Data Analysis 69 : 67-80. 3. Duningan, Keith. 2011. PROC NLMIXED for Basic Non-Linear Regression. Paper SA-10-2011.
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )