IMPUTATION OF ULTRAVIOLET RADIATION DATA FOR THE PURPOSE OF MODELING. Alexandre Boleira Lopo (PPGCC-UFRN, alexandrelopo@hotmail.com), Maria Helena Spyrides (PPGCC-UFRN, spyrides@ccet.ufrn.br) e Paulo Sergio Lúcio (PPGCC-UFRN, pslucio@ccet.ufrn.br) ABSTRACT The imputation is the method that performs the filling of missing data, ie, replace the values that were not recorded by imputed values (Little & Rubin, 2002). The objective of this study is to analyze imputation methods applied to the environmental variable Ultraviolet Radiation (UVR) for modeling and prediction. The second part of the study aims to determine the variability of UVR in northeastern Brazil and its implications on public health. The imputation methods are relevant because they predict the missing values to allow the use of techniques (HoltWinters and SARIMA) modeling and analysis of time series that require a complete data matrix. A method of charging can be categorized as simple or single (UI), which performs a single or multiple (MI). In IM missing values are replaced by a set of k plausible values. The data sets k filled k produce different sets of parameter estimates and standard errors, the estimates are combined to provide a single estimate of the parameters of interest, allowing the uncertainty is considered. The research methodology was applied to the IU called k nearest neighbor (imputation k-NN) and MI by Multivariate Imputation by Chained Equatoins (MICE) to data of surface UVR (2001-2009) the city Natal-RN-Brazil, provided by INPE-CRN. To perform the MI data were obtained from the NOAA (www.esrl.noaa.gov) dataset of variables: total cloud cover, total ozone, relative humidity, air temperature and solar radiant flux. The quality of the results was measured through metrics such as mean squared error, linear correlation and cross-validation. Early results indicated that multiple imputation allowed the study of time series of UVR and was above together with the analysis of missing data. Key-words: single imputation, multiple imputation, MICE, HoltWinters REFERENCES HORTON, N.J. and Lipsitz, S.R. Multiple imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables. Journal of the American Statistical Association, 55, 244-254, 2001 LITTLE, R.J.A. and RUBIN, D.B. Statistical analysis with missing data. 2nd ed. New York: Wiley, 2002. NUNES, L.N. Kluck, MM, FACHEL, JMG; Use of multiple imputation of missing data: a simulation using epidemiological data. Bull World Health Organ, vol.25, no2, Rio de Janeiro, 2009. RUBIN, D.B. Multiple imputation for Nonresponse in Surveys. New York: Wiley, 1987. VERONEZE, Rosana, Treatment of missing data using multiple imputation with biclusterização. Dissertation, UNICAMP, Campinas, 2011. IMPUTAÇÃO DE DADOS DE RADIAÇÃO ULTRAVIOLETA PARA FINS DE MODELAGEM. Alexandre Boleira Lopo (PPGCC-UFRN, alexandrelopo@hotmail.com), Maria Helena Spyrides (PPGCC-UFRN, spyrides@ccet.ufrn.br) e Paulo Sergio Lúcio (PPGCC-UFRN, pslucio@ccet.ufrn.br) RESUMO A Imputação é o método que realiza o preenchimento de dados faltantes, ou seja, substitui os valores que não foram registrados por valores imputados (Little & Rubin, 2002). O objetivo deste trabalho consiste em analisar métodos de imputação aplicados à variável ambiental Radiação Ultravioleta (RUV) para fins de modelagem e predição. A segunda parte do estudo visa verificar a variabilidade da RUV no litoral do Nordeste do Brasil e suas implicações na saúde da população. Os métodos de imputação são relevantes, pois ao predizer os valores ausentes permitem a utilização de técnicas (SARIMA e HoltWinters) de análise e modelagem de séries temporais que necessitam de uma matriz de dados completa. Um método de imputação pode ser classificado como simples ou única (IU), em que se realiza uma única imputação ou múltipla (IM). Na IM os valores ausentes são substituídos por um conjunto de k valores plausíveis. Os k conjuntos de dados preenchidos produzem k diferentes conjuntos de estimativas de parâmetros e erros padrões, as estimativas são combinadas para fornecer uma única estimativa dos parâmetros de interesse, permitindo que a incerteza seja considerada. A metodologia de pesquisa ocorreu com aplicação da IU chamada vizinho k mais próximo (imputação k-NN) e da IM denominada Multivariate Imputation by Chained Equatoins (MICE) aos dados de superfície de RUV (2001 a 2009) de Natal-RN-Brasil, fornecidos pelo CRN-INPE. Para realizar a IM obtiveram-se da NOAA (www.esrl.noaa.gov) dados do conjunto de variáveis: cobertura total de nuvens, coluna total de ozônio, umidade relativa, temperatura do ar e fluxo solar radiante. A qualidade dos resultados foi mensurada através das métricas como erro quadrado médio, correlação linear e validação cruzada. Os primeiros resultados indicaram que a imputação múltipla viabilizou o estudo da série temporal de RUV e se apresentou superior à análise do conjunto com dados faltantes. Palavras-chaves: Imputação única, Imputação múltipla, MICE, HoltWinters. ___________________________________________________________________________ NATAL-RN, BRAZIL – MAY 27TH – JUNE 1ST, 2012