Alexandre B.Lopo et al

advertisement
IMPUTATION OF ULTRAVIOLET RADIATION DATA FOR THE PURPOSE OF
MODELING.
Alexandre Boleira Lopo (PPGCC-UFRN, alexandrelopo@hotmail.com), Maria Helena
Spyrides (PPGCC-UFRN, spyrides@ccet.ufrn.br) e Paulo Sergio Lúcio (PPGCC-UFRN,
pslucio@ccet.ufrn.br)
ABSTRACT
The imputation is the method that performs the filling of missing data, ie, replace the values
that were not recorded by imputed values (Little & Rubin, 2002). The objective of this study
is to analyze imputation methods applied to the environmental variable Ultraviolet Radiation
(UVR) for modeling and prediction. The second part of the study aims to determine the
variability of UVR in northeastern Brazil and its implications on public health. The
imputation methods are relevant because they predict the missing values to allow the use of
techniques (HoltWinters and SARIMA) modeling and analysis of time series that require a
complete data matrix. A method of charging can be categorized as simple or single (UI),
which performs a single or multiple (MI). In IM missing values are replaced by a set of k
plausible values. The data sets k filled k produce different sets of parameter estimates and
standard errors, the estimates are combined to provide a single estimate of the parameters of
interest, allowing the uncertainty is considered. The research methodology was applied to the
IU called k nearest neighbor (imputation k-NN) and MI by Multivariate Imputation by
Chained Equatoins (MICE) to data of surface UVR (2001-2009) the city Natal-RN-Brazil,
provided by INPE-CRN. To perform the MI data were obtained from the NOAA
(www.esrl.noaa.gov) dataset of variables: total cloud cover, total ozone, relative humidity, air
temperature and solar radiant flux. The quality of the results was measured through metrics
such as mean squared error, linear correlation and cross-validation. Early results indicated that
multiple imputation allowed the study of time series of UVR and was above together with the
analysis of missing data.
Key-words: single imputation, multiple imputation, MICE, HoltWinters
REFERENCES
HORTON, N.J. and Lipsitz, S.R. Multiple imputation in Practice: Comparison of
Software Packages for Regression Models With Missing Variables. Journal of the
American Statistical Association, 55, 244-254, 2001
LITTLE, R.J.A. and RUBIN, D.B. Statistical analysis with missing data. 2nd ed. New
York: Wiley, 2002.
NUNES, L.N. Kluck, MM, FACHEL, JMG; Use of multiple imputation of missing data: a
simulation using epidemiological data. Bull World Health Organ, vol.25, no2, Rio de
Janeiro, 2009.
RUBIN, D.B. Multiple imputation for Nonresponse in Surveys. New York: Wiley, 1987.
VERONEZE, Rosana, Treatment of missing data using multiple imputation with
biclusterização. Dissertation, UNICAMP, Campinas, 2011.
IMPUTAÇÃO DE DADOS DE RADIAÇÃO ULTRAVIOLETA PARA FINS DE
MODELAGEM.
Alexandre Boleira Lopo (PPGCC-UFRN, alexandrelopo@hotmail.com), Maria Helena
Spyrides (PPGCC-UFRN, spyrides@ccet.ufrn.br) e Paulo Sergio Lúcio (PPGCC-UFRN,
pslucio@ccet.ufrn.br)
RESUMO
A Imputação é o método que realiza o preenchimento de dados faltantes, ou seja, substitui os
valores que não foram registrados por valores imputados (Little & Rubin, 2002). O objetivo
deste trabalho consiste em analisar métodos de imputação aplicados à variável ambiental
Radiação Ultravioleta (RUV) para fins de modelagem e predição. A segunda parte do estudo
visa verificar a variabilidade da RUV no litoral do Nordeste do Brasil e suas implicações na
saúde da população. Os métodos de imputação são relevantes, pois ao predizer os valores
ausentes permitem a utilização de técnicas (SARIMA e HoltWinters) de análise e modelagem
de séries temporais que necessitam de uma matriz de dados completa. Um método de
imputação pode ser classificado como simples ou única (IU), em que se realiza uma única
imputação ou múltipla (IM). Na IM os valores ausentes são substituídos por um conjunto de k
valores plausíveis. Os k conjuntos de dados preenchidos produzem k diferentes conjuntos de
estimativas de parâmetros e erros padrões, as estimativas são combinadas para fornecer uma
única estimativa dos parâmetros de interesse, permitindo que a incerteza seja considerada. A
metodologia de pesquisa ocorreu com aplicação da IU chamada vizinho k mais próximo
(imputação k-NN) e da IM denominada Multivariate Imputation by Chained Equatoins
(MICE) aos dados de superfície de RUV (2001 a 2009) de Natal-RN-Brasil, fornecidos pelo
CRN-INPE. Para realizar a IM obtiveram-se da NOAA (www.esrl.noaa.gov) dados do
conjunto de variáveis: cobertura total de nuvens, coluna total de ozônio, umidade relativa,
temperatura do ar e fluxo solar radiante. A qualidade dos resultados foi mensurada através das
métricas como erro quadrado médio, correlação linear e validação cruzada. Os primeiros
resultados indicaram que a imputação múltipla viabilizou o estudo da série temporal de RUV
e se apresentou superior à análise do conjunto com dados faltantes.
Palavras-chaves: Imputação única, Imputação múltipla, MICE, HoltWinters.
___________________________________________________________________________
NATAL-RN, BRAZIL – MAY 27TH – JUNE 1ST, 2012
Download