Uploaded by Tiago Marcilio Castro Moreira

Apresentação Tiago Moreira ESALQ DSA

advertisement
Previsão de passageiros em uma empresa de
transporte metropolitano sobre trilhos de São Paulo
Eng.Tiago Moreira
Prof. Dr. Auberth Venson
O contexto do transporte de passageiros sobre trilhos
No Brasil *
Benefícios trazidos pelo seu uso *
• 21 sistemas urbanos em 11 estados e no
distrito federal operados por 16 empresas,
sendo 8 concessionárias privadas
• Economia de 1 bilhão de litros de combustível fóssil
• 1.130 km de malha
• 47 linhas
• Menos 2,1 milhões de toneladas de poluentes na
atmosfera
• 629 estações
• Redução de 1,3 bilhão de horas nos deslocamentos
• 2,3 bilhões de passageiros/ano
• Menos R$ 379 milhões em custos com acidentes
• 7,8 milhões de passageiros/dia
• 38,2 mil trabalhadores
• Presente em 53% das cidades com mais
de 1 milhão de habitantes
Fonte: https://anptrilhos.org.br/balanco-do-setor-2022/
• Economia de R$ 10 bilhões com a retirada de ônibus
e carros
São Paulo
• 14 linhas operadas por 5 operadores, sendo 2 estatais e 3
com concessionários privados
• 389 km de malha
• 202 estações
• 1,7 bilhão de passageiros/ano
Fonte: https://anptrilhos.org.br/balanco-do-setor-2022/
A empresa
• A empresa objeto de estudo está
posicionada como uma das principais
operadoras de transporte ferroviário na
RMSP.
• 57 estações
• Atende 18 municípios
• 442 mi passageiros/ano
• 196 km de vias
Figura 1
Fonte: https://www.cptm.sp.gov.br/a-companhia/Pages/a-companhia.aspx
O problema
• Nesse contexto, o objetivo deste trabalho foi estimar o número de passageiros pagantes.
Para tanto, serão utilizados métodos quantitativos avançados, como o método de HoltWinters, o modelo preditivo AR, a fim de criar uma ferramenta de previsão precisa e
eficaz (Hyndman e Athanasopoulos, 2018)
Figura 2
Figura 3
Análise exploratória
• Os dados compreendem uma série temporal com observações diárias abrangendo o
período de jan. 2017 a jan. 2020 de uma empresa de transporte ferroviário de passageiros
na RMSP.
Figura 4 – amostragem diária
Figura 5 – histograma diário
Fonte: Resultados originais da pesquisa
Análise exploratória
• Os dados compreendem uma série temporal com observações diárias abrangendo o
período de jan. 2017 a jan. 2020 de uma empresa de transporte ferroviário de passageiros
na RMSP.
Figura 6 – gráfico de autocorrelação para dados diários
Fonte: Resultados originais da pesquisa
Figura 7 – gráfico autocorrelação parcial
para dados diários
Dados com amostragem Semanal
• A amostragem semanal permitiu uma diminuição da granularidade e com isso uma diminuição
da variabilidade, melhor observação da tendência e sazonalidade bem como do comportamento
das funções de autocorrelação.
Figura 8 – amostragem semanal
Figura 9 – histograma semanal
Fonte: Resultados originais da pesquisa
Dados com amostragem Semanal
• A amostragem semanal permitiu uma diminuição da granularidade e com isso uma diminuição
da variabilidade, melhor observação da tendência e sazonalidade bem como do comportamento
das funções de autocorrelação.
Figura 10 – gráfico autocorrelação
Figura 11 – gráfico autocorrelação parcial
Fonte: Resultados originais da pesquisa
Identificação de outliers
No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim
realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil.
1.400.000
1.200.000
pagantes_total
1.000.000
800.000
600.000
possíveis outliers
400.000
200.000
0
Mês/ano
Figura 12 – gráfico de dispersão
Fonte: Resultados originais da pesquisa
Identificação de outliers
No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim
realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil.
Possíveis outliers
Figura 13 – gráfico boxplot com outliers
Fonte: Resultados originais da pesquisa
Identificação de outliers
No histograma apresentado anteriormente, notamos a presença de possíveis outliers e assim
realizamos uma tentativa de sua identificação de forma gráfica e pelo intervalo interquartil.
18
16
frequência
14
12
10
possíveis outliers
8
6
4
2
0
0,05
0,20
0,35
0,50
pagantes_total
Figura 13 – gráfico histograma com outliers
Fonte: Resultados originais da pesquisa
0,66
0,81
0,96
x106
1,12
1,27
Identificação de outliers
Tabela 1 - Estatísticas descritivas
Medida
Observações
Média
Desvio Padrão
Mínimo
25%
50%
75%
Máximo
Conforme suspeitávamos o dia 01 jan. 2017 foi classificado como
Amplitude
161
1.102.259,00
148.811,9
45.326,26
1.062.715,00
1.126.656,00
1.192.172,00
1.314.440,00
Fonte: Resultados originais da pesquisa
e início de janeiro. São as datas mais movimentadas nas linhas da
empresa analisada e isso também impacta na média. Assim, esse
aumento do movimento, aumenta a variabilidade e diante de valores que
se distanciam um pouco mais da média nesse período, temos esses
A tendência vem em uma crescente suave e sempre atinge seu pico
Amplitude
9
852.607,42
45.326,26
no mês de dezembro, sendo este o mês no qual temos os picos de
máximos de passageiros pagantes na empresa, sofrendo um afundamento
logo no início do janeiro para somente depois retomar a direção observada
Tabela 3 - Somas semanais que registraram outliers
Dia
01 jan. 2017
05 mar. 2017
31 dez. 2017
07 jan. 2018
30 dez. 2018
06 jan. 2019
Paa Educação
29 dez. 2019
05 jan. 2020
26 jan. 2020
outros outliers registrados estão orbitando em torno do final de dezembro
valores se apresentando como anormais.
Tabela 2 - Quantidade de outliers e seus valores máximo e mínimo
Medida
Número de outliers
Maior valor
Menor valor
outlier. Ainda, vemos que excetuando-se a data de 05 mar. 2017, todos os
Amplitude
45.326,26
827.129,14
827129.14
783.122,32
783122.32
824.699,67
814.570,24
814570.24
767.390,36
767390.36
852.607,42
852607.42
232.067,09
412.943,62
nos outros anos.
Conforme afirmado anteriormente, não removeremos os outliers,
uma vez que entendemos que seu tratamento requer estudos mais
aprofundados da dinâmica dos eventos que podem ter ocasionado tal
anomalia nos registros semanais de passageiros.
Decomposição da Série
A decomposição da série confirma as suposições anteriores, de que existe
tendência, neste caso de alta, e uma sazonalidade nos meses de junho/julho
e dezembro/janeiro.
Figura 14 – Decomposição da série
Fonte: Resultados originais da pesquisa
Testes de estacionariedade
Tendo em vista o comportamento da série com tendência e sazonalidade, realizamos os testes de
estacionariedade de Dickey-Fuller aumentado com tedência e intercepto, teste de KPSS e Phillips
– Perron. Todos confimaram a estacionariedade.
Tabela 4 - Resultados do teste ADF
Especificações
Estatística de Teste
p-value
Atrasos
Observações
Valor crítico a (1%)
Valor crítico a (5%)
Valor crítico a (10%)
Valores
-5.120294
0.000013
2
152
-3.472431
-2.880013
-2.576619
Tabela 5 - Resultados do teste KPSS
Estatística de Teste
p-value
Atrasos
Valor crítico a (10%)
Valor crítico a (5%)
Valor crítico a (2,5%)
Valor crítico a (1%)
Valores
0.124838
0.089188
3
0.119000
0.146000
0.176000
0.216000
Tabela 6 - Resultados do teste de Phillips-Perron
Estatística de Teste
p-value
Atrasos
Valor crítico a (10%)
Valor crítico a (5%)
Valor crítico a (1%)
estacionariedade
Fonte: Resultados originais da pesquisa
Valores
-12,781
1.44e-20
3
-3,14
-3,44
-4,02
A modelagem
• Dado o observado a partir das análises gráficas somadas aos testes de estacionariedade, foram
realizadas as previsões para o intervalo compreendido entre 17 nov. 2019 e 05 jan. 2020 e com
isso procedemos ao modelamento propriamente dito.
Tabela 6 – Métricas dos modelos
Modelo
SADTAD
SADTM
SMTAD
SMTM
AR - 2
Métrica
Amplitude
RMSE
122.790,39
RMSPE
MAPE
1,60%
8,54%
RMSE
116.360,54
RMSPE
MAPE
1,52%
8,09%
RMSE
63.851,94
RMSPE
MAPE
0,84%
4,25%
RMSE
65.987,94
RMSPE
MAPE
0,87%
4,26%
RMSE
58.860,77
RMSPE
MAPE
0,77%
4,11%
Fonte: Resultados originais da pesquisa
Figura 15 – gráficos dos modelos testados
Gráfico pagantes_total x teste x modelo
1600000
1400000
paganets_total
1200000
1000000
800000
600000
400000
200000
0
Mês/ano
pagantes_total
Figura 16 – Gráfico pagantes_total x teste x modelo AR(2)
test
AR2 - 2 lags
Testes de autocorrelação dos resíduos
Por fim, realizamos o teste de Ljung-Box para validação da escolha da estrutura AR 2 e conforme
podemos observar o seu resultado na Tabela 7, a 95% de confiança, não rejeitamos a hipótese nula de
não existência de autocorrelação dos resíduos até os cinco primeiros atrasos (Ferreira et al, 2018).
Tabela 7 – Tabela de autocorrelação dos resíduos
atraso
1
2
3
4
5
P-value
0.98984
0.98777
0.50865
0.61301
0.73886
Considerações Finais
O trabalho atingiu o objetivo proposto e desenvolveu um modelo de previsão a partir de uma técnica de autorregressão
com 2 atrasos e ainda foi capaz de identificar a tendência contínua de alta e um comportamento sazonal para o meio e final
de ano. Este modelo apresentou MAPE de 4,11%. Para uma amostra com média semanal de 1.102.259,00 passageiros
pagantes, daria um erro de 45.260,66 passageiros para mais ou para menos. O que se mostra muito bom, tendo em vista a
não utilização de previsões por parte da empresa, uma vez que estas apresentavam resultados muito além do observado.
Assim, a utilização do modelo AR-2, aqui desenvolvido, poderia trazer impactos importantes nas mais diversas áreas da
empresa desde a manutenção de trens, passando pela alocação de pessoal, demanda de energia e outras diretamente
ligadas à questão de disponibilização de recursos para a garantia das viagens com a continuidade requerida. Olhando para
os trabalhos futuros, sugerimos o desenvolvimento de trabalhos voltados para o tratamento dos outliers encontrados,
previsão de demanda de passageiros transportados, falhas nos equipamentos de manutenção e demanda de energia. Estes
últimos, por exemplo, com a utilização de, inflados de zeros e modelos AR, respectivamente e com uma série histórica com
maior quantidade de observações.
Download