Previsão de passageiros em uma empresa de transporte metropolitano sobre trilhos de São Paulo Eng.Tiago Moreira Prof. Dr. Auberth Venson O contexto do transporte de passageiros sobre trilhos No Brasil * Benefícios trazidos pelo seu uso * • 21 sistemas urbanos em 11 estados e no distrito federal operados por 16 empresas, sendo 8 concessionárias privadas • Economia de 1 bilhão de litros de combustível fóssil • 1.130 km de malha • 47 linhas • Menos 2,1 milhões de toneladas de poluentes na atmosfera • 629 estações • Redução de 1,3 bilhão de horas nos deslocamentos • 2,3 bilhões de passageiros/ano • Menos R$ 379 milhões em custos com acidentes • 7,8 milhões de passageiros/dia • 38,2 mil trabalhadores • Presente em 53% das cidades com mais de 1 milhão de habitantes Fonte: https://anptrilhos.org.br/balanco-do-setor-2022/ • Economia de R$ 10 bilhões com a retirada de ônibus e carros São Paulo • 14 linhas operadas por 5 operadores, sendo 2 estatais e 3 com concessionários privados • 389 km de malha • 202 estações • 1,7 bilhão de passageiros/ano Fonte: https://anptrilhos.org.br/balanco-do-setor-2022/ A empresa • A empresa objeto de estudo está posicionada como uma das principais operadoras de transporte ferroviário na RMSP. • 57 estações • Atende 18 municípios • 442 mi passageiros/ano • 196 km de vias Figura 1 Fonte: https://www.cptm.sp.gov.br/a-companhia/Pages/a-companhia.aspx O problema • Nesse contexto, o objetivo deste trabalho foi estimar o número de passageiros pagantes. Para tanto, serão utilizados métodos quantitativos avançados, como o método de HoltWinters, o modelo preditivo AR, a fim de criar uma ferramenta de previsão precisa e eficaz (Hyndman e Athanasopoulos, 2018) Figura 2 Figura 3 Análise exploratória • Os dados compreendem uma série temporal com observações diárias abrangendo o período de jan. 2017 a jan. 2020 de uma empresa de transporte ferroviário de passageiros na RMSP. Figura 4 – amostragem diária Figura 5 – histograma diário Fonte: Resultados originais da pesquisa Análise exploratória • Os dados compreendem uma série temporal com observações diárias abrangendo o período de jan. 2017 a jan. 2020 de uma empresa de transporte ferroviário de passageiros na RMSP. Figura 6 – gráfico de autocorrelação para dados diários Fonte: Resultados originais da pesquisa Figura 7 – gráfico autocorrelação parcial para dados diários Dados com amostragem Semanal • A amostragem semanal permitiu uma diminuição da granularidade e com isso uma diminuição da variabilidade, melhor observação da tendência e sazonalidade bem como do comportamento das funções de autocorrelação. Figura 8 – amostragem semanal Figura 9 – histograma semanal Fonte: Resultados originais da pesquisa Dados com amostragem Semanal • A amostragem semanal permitiu uma diminuição da granularidade e com isso uma diminuição da variabilidade, melhor observação da tendência e sazonalidade bem como do comportamento das funções de autocorrelação. Figura 10 – gráfico autocorrelação Figura 11 – gráfico autocorrelação parcial Fonte: Resultados originais da pesquisa Identificação de outliers No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil. 1.400.000 1.200.000 pagantes_total 1.000.000 800.000 600.000 possíveis outliers 400.000 200.000 0 Mês/ano Figura 12 – gráfico de dispersão Fonte: Resultados originais da pesquisa Identificação de outliers No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil. Possíveis outliers Figura 13 – gráfico boxplot com outliers Fonte: Resultados originais da pesquisa Identificação de outliers No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil. 18 16 frequência 14 12 10 possíveis outliers 8 6 4 2 0 0,05 0,20 0,35 0,50 pagantes_total Figura 13 – gráfico histograma com outliers Fonte: Resultados originais da pesquisa 0,66 0,81 0,96 x106 1,12 1,27 Identificação de outliers Tabela 1 - Estatísticas descritivas Medida Observações Média Desvio Padrão Mínimo 25% 50% 75% Máximo Conforme suspeitávamos o dia 01 jan. 2017 foi classificado como Amplitude 161 1.102.259,00 148.811,9 45.326,26 1.062.715,00 1.126.656,00 1.192.172,00 1.314.440,00 Fonte: Resultados originais da pesquisa e início de janeiro. São as datas mais movimentadas nas linhas da empresa analisada e isso também impacta na média. Assim, esse aumento do movimento, aumenta a variabilidade e diante de valores que se distanciam um pouco mais da média nesse período, temos esses A tendência vem em uma crescente suave e sempre atinge seu pico Amplitude 9 852.607,42 45.326,26 no mês de dezembro, sendo este o mês no qual temos os picos de máximos de passageiros pagantes na empresa, sofrendo um afundamento logo no início do janeiro para somente depois retomar a direção observada Tabela 3 - Somas semanais que registraram outliers Dia 01 jan. 2017 05 mar. 2017 31 dez. 2017 07 jan. 2018 30 dez. 2018 06 jan. 2019 Paa Educação 29 dez. 2019 05 jan. 2020 26 jan. 2020 outros outliers registrados estão orbitando em torno do final de dezembro valores se apresentando como anormais. Tabela 2 - Quantidade de outliers e seus valores máximo e mínimo Medida Número de outliers Maior valor Menor valor outlier. Ainda, vemos que excetuando-se a data de 05 mar. 2017, todos os Amplitude 45.326,26 827.129,14 827129.14 783.122,32 783122.32 824.699,67 814.570,24 814570.24 767.390,36 767390.36 852.607,42 852607.42 232.067,09 412.943,62 nos outros anos. Conforme afirmado anteriormente, não removeremos os outliers, uma vez que entendemos que seu tratamento requer estudos mais aprofundados da dinâmica dos eventos que podem ter ocasionado tal anomalia nos registros semanais de passageiros. Decomposição da Série A decomposição da série confirma as suposições anteriores, de que existe tendência, neste caso de alta, e uma sazonalidade nos meses de junho/julho e dezembro/janeiro. Figura 14 – Decomposição da série Fonte: Resultados originais da pesquisa Testes de estacionariedade Tendo em vista o comportamento da série com tendência e sazonalidade, realizamos os testes de estacionariedade de Dickey-Fuller aumentado com tedência e intercepto, teste de KPSS e Phillips – Perron. Todos confimaram a estacionariedade. Tabela 4 - Resultados do teste ADF Especificações Estatística de Teste p-value Atrasos Observações Valor crítico a (1%) Valor crítico a (5%) Valor crítico a (10%) Valores -5.120294 0.000013 2 152 -3.472431 -2.880013 -2.576619 Tabela 5 - Resultados do teste KPSS Estatística de Teste p-value Atrasos Valor crítico a (10%) Valor crítico a (5%) Valor crítico a (2,5%) Valor crítico a (1%) Valores 0.124838 0.089188 3 0.119000 0.146000 0.176000 0.216000 Tabela 6 - Resultados do teste de Phillips-Perron Estatística de Teste p-value Atrasos Valor crítico a (10%) Valor crítico a (5%) Valor crítico a (1%) estacionariedade Fonte: Resultados originais da pesquisa Valores -12,781 1.44e-20 3 -3,14 -3,44 -4,02 A modelagem • Dado o observado a partir das análises gráficas somadas aos testes de estacionariedade, foram realizadas as previsões para o intervalo compreendido entre 17 nov. 2019 e 05 jan. 2020 e com isso procedemos ao modelamento propriamente dito. Tabela 6 – Métricas dos modelos Modelo SADTAD SADTM SMTAD SMTM AR - 2 Métrica Amplitude RMSE 122.790,39 RMSPE MAPE 1,60% 8,54% RMSE 116.360,54 RMSPE MAPE 1,52% 8,09% RMSE 63.851,94 RMSPE MAPE 0,84% 4,25% RMSE 65.987,94 RMSPE MAPE 0,87% 4,26% RMSE 58.860,77 RMSPE MAPE 0,77% 4,11% Fonte: Resultados originais da pesquisa Figura 15 – gráficos dos modelos testados Gráfico pagantes_total x teste x modelo 1600000 1400000 paganets_total 1200000 1000000 800000 600000 400000 200000 0 Mês/ano pagantes_total Figura 16 – Gráfico pagantes_total x teste x modelo AR(2) test AR2 - 2 lags Testes de autocorrelação dos resíduos Por fim, realizamos o teste de Ljung-Box para validação da escolha da estrutura AR 2 e conforme podemos observar o seu resultado na Tabela 7, a 95% de confiança, não rejeitamos a hipótese nula de não existência de autocorrelação dos resíduos até os cinco primeiros atrasos (Ferreira et al, 2018). Tabela 7 – Tabela de autocorrelação dos resíduos atraso 1 2 3 4 5 P-value 0.98984 0.98777 0.50865 0.61301 0.73886 Considerações Finais O trabalho atingiu o objetivo proposto e desenvolveu um modelo de previsão a partir de uma técnica de autorregressão com 2 atrasos e ainda foi capaz de identificar a tendência contínua de alta e um comportamento sazonal para o meio e final de ano. Este modelo apresentou MAPE de 4,11%. Para uma amostra com média semanal de 1.102.259,00 passageiros pagantes, daria um erro de 45.260,66 passageiros para mais ou para menos. O que se mostra muito bom, tendo em vista a não utilização de previsões por parte da empresa, uma vez que estas apresentavam resultados muito além do observado. Assim, a utilização do modelo AR-2, aqui desenvolvido, poderia trazer impactos importantes nas mais diversas áreas da empresa desde a manutenção de trens, passando pela alocação de pessoal, demanda de energia e outras diretamente ligadas à questão de disponibilização de recursos para a garantia das viagens com a continuidade requerida. Olhando para os trabalhos futuros, sugerimos o desenvolvimento de trabalhos voltados para o tratamento dos outliers encontrados, previsão de demanda de passageiros transportados, falhas nos equipamentos de manutenção e demanda de energia. Estes últimos, por exemplo, com a utilização de, inflados de zeros e modelos AR, respectivamente e com uma série histórica com maior quantidade de observações.