Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Impacto das características de automóveis na precificação de leilões Gabriel Hooper Moretti; Ricardo Limongi 1 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Impacto das características de automóveis na precificação de leilões Resumo O aumento do uso da tecnologia em conjunto com o incremento significativo do preço de automóveis devido ao cenário macroeconômico mundial alavancou a venda do setor de leilões focados em veículos automotores. Assim, esse trabalho avalia a influência das características de automóveis em sua precificação em um contexto de leilões. Foi feita uma raspagem de dados da internet utilizando a linguagem de programação Python e uma análise exploratória para entender os motivos da desvalorização dos automóveis em um contexto de leilões. Foram propostos modelos de aprendizagem de máquina não paramétricos e utilizadas técnicas de extração da importância das variáveis para compreender o comportamento do modelo que deteve a melhor métrica técnica de avaliação. Foi possível identificar que a idade do veículo, o valor de mercado e sua quilometragem influenciaram fortemente a desvalorização dos veículos com relação ao seu valor de mercado. Mesmo com o uso de poucos dados e limitados em informações foi possível obter um entendimento geral das características que influenciam a desvalorização de automóveis em leilões, permitindo o seu uso em um contexto tanto de consumidores, de leiloeiros quanto de agentes financeiros que utilizam os veículos como garantia de financiamento. Palavras-chave: machine learning, web scrapping, data wrangling 2 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Introdução A expansão e confiança dos consumidores no comércio eletrônico em conjunto com o aumento de preço dos automóveis novos fez com que houvesse um aumento nas buscas por veículos usados, conforme estudado por Nogueira et al. (2022), e consequentemente por leilões de carros. Entender o comportamento dos preços associados às características individuais de cada automóvel pode ser relevante para uma melhor precificação, que pode auxiliar o entendimento geral de todos os interessados nos leilões de veículos, desde a entidade financiadora que receberá o valor do bem arrematado e poderá avaliar com mais precisão o valor do bem como garantia até os compradores do lote que poderão ter mais uma ferramenta para garantir que estão efetuando um bom negócio. Estudar os critérios utilizados para determinar o preço dos veículos em leilões poderá também trazer um melhor entendimento sobre o mercado automotivo como um todo conforme aplicado por Franco (2016). Para realizar a análise baseada em dados a disponibilidade da informação é um dos requisitos básicos e em muitos casos são usadas técnicas de raspagem de dados, conhecidas como “web scraping", que tem por objetivo extrair informações disponíveis na internet de forma automatizada a partir de programas de computador e disponibilizá-las em um formato de fácil consumo por demais aplicações. Na prática de raspagem de dados é comum se observar se há alguma restrição nos termos de uso do site quanto à obtenção e uso dos dados. Muitos endereços da internet também utilizam de ferramentas chamadas de CAPTCHA para garantir que quem está acessando os dados é um humano, reduzindo as chances da obtenção indesejada das informações por terceiros. Há também um padrão utilizado pelos provedores de serviço de internet conhecido como robots.txt, um arquivo padronizado que deve estar na raiz do site e que visa informar aos serviços de raspagem de dados se há algum agente específico que não está autorizado e também se há recursos específicos que não podem ser obtidos. Material e Método Todos os métodos aplicados para a obtenção, transformação, exploração e aplicação de técnicas estatísticas nos dados foram feitos utilizando a linguagem de programação Python 3.7 em ambiente local utilizando Jupyter Notebook como interface de desenvolvimento (IDE). Os códigos estão disponíveis em repositório público: https://github.com/gabrielhooper/pq_leiloes_mba 3 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Para a realização do trabalho foi preciso a utilização de dados confiáveis e de qualidade de forma a dar robustez aos resultados obtidos, portanto, os dados foram obtidos a partir de técnicas de raspagem de dados através da internet por meio de web scrapping em site de leilões reais. As informações obtidas se restringem a informações de automóveis de pequeno porte de lotes já arrematados provenientes de site de leilão cuja empresa se situa em Brasília-DF O site referido não possui restrição de uso por robôs ou captchas, conforme descrito no arquivo robots.txt. A primeira etapa para obter os dados foi identificar a estrutura utilizada pelo site. Foi identificado que há uma ferramenta de busca interna do site que permite, fora da área autenticada, listar todos os leilões de veículos já realizados, sendo o ponto de partida para a exploração. Dentro da página de busca há múltiplas páginas, cada uma com 12 leilões. Cada Leilão possui um link específico para ele, assim como cada página da busca. Acessando cada leilão foi possível identificar que também está dividido em múltiplas páginas, cada uma com um certo número de lotes com os seus correspondentes links. Cada lote é equivalente a um veículo automotor. A estrutura do site pode ser observada na Figura 1. ● Buscar Leilões o Página de Busca 1 ▪ Leilão 1 ● ● Página de Leilão 1 o Lote 1 o Lote 2 o ... Página de Leilão 2 o ● ▪ o ... ... Página de Busca 2 ▪ o ... Leilão 2 ● ▪ ... ... ... Figura 1. Estrutura do site de leilões para busca das informações de cada lote Fonte: Dados originais da pesquisa Cada lote do leilão pode conter diferentes características do veículo e algumas delas são múltiplas para cada lote e para facilitar a extração de todas as informações relevantes de 4 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 cada lote, os dados foram gravados em arquivo local semiestruturado no formato JSON. As informações extraídas são tanto categóricas quanto contínuas como, por exemplo ,quilometragem que o carro já percorreu, marca e modelo, cor do veículo, tipo de câmbio, acessórios como alarme, direção hidráulica, tipo de câmbio, motorização e outros. Há também algumas informações que podem receber mais de um dado para cada veículo, como por exemplos os opcionais e os lances oferecidos para um determinado lote. A partir das informações individuais extraídas de cada veículo foi feito um processo de extração, transformação e carga de dados (ETL) para padronização em formato tabular, estrutura esperada para a exploração e posterior aplicação de técnicas de aprendizagem de máquina. Optou-se pela não inclusão de uma coluna identificadora do opcional na Tabela 4 para simplificar o ETL. O resultado foram os seguintes 4 arquivos no formato tabular csv conforme apresentado na Tabela 1. Tabela 1. Leilões. auctions.csv NOME DA COLUNA DESCRIÇÃO AUCTION_NUMBER Número do Leilão AUCTION_NAME Nome do Leilão AUCTION_CATEGOY Categoria do Leilão. Veículos. AUCTION_DATE Data do início do leilão AUCTION_STATUS Estado do leilão AUCTION_URL Link do Leilão AUCTION_EDITAL_URL EXECUTION_TS Link para o edital do Leilão Timestamp da obtenção do dado Fonte: Dados originais da pesquisa Tabela 2. Lotes dos leilões. itens.csv NOME DA COLUNA DESCRIÇÃO AUCTION_NUMBER Número do Leilão AUCTION_ITEM_LOTE Número do Lote AUCTION_ITEM_TYPE Tipo do Lote. Ex. Online, Presencial e etc AUCTION_ITEM_NAME Nome do lote AUCTION_ITEM_URL Link do lote AUCTION_ITEM_MIN_BID_VALUE AUCTION_ITEM_INCREMENT_VALUE AUCTION_ITEM_HIGHEST_BID Valor mínimo do lote, em Reais Incremento mínimo do lote, em Reais Maior oferta do lote, em Reais 5 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 AUCTION_ITEM_DATE_TEXT Data da descrição do lote AUCTION_ITEM_DESCRIPTION Descrição do lote. Pode conter informações sobre avarias e documentação AUCTION_ITEM_MODEL Modelo do lote AUCTION_ITEM_BRAND Marca do lote AUCTION_ITEM_MODEL_YEAR Ano do veículo AUCTION_ITEM_MARKET_PRICE Valor de mercado do lote no momento do leilão AUCTION_ITEM_COLOR AUCTION_ITEM_GAS_TYPE Cor do lote Tipo de combustível utilizado pelo lote AUCTION_ITEM_KM Quilometragem do lote AUCTION_ITEM_REFURBISHED Indicativo de sinistro EXECUTION_TS Horário da obtenção do dado Fonte: Dados originais da pesquisa Tabela 3. Lances do Leilão. bids.csv NOME DA COLUNA DESCRIÇÃO AUCTION_NUMBER Número do Leilão AUCTION_ITEM_LOTE Número do Lote AUCTION_ITEM_BID_VALUE Valor do Lance AUCTION_ITEM_BID_TYPE Tipo do Lance. Manual ou Automático AUCTION_ITEM_BID_DATETIME AUCTION_ITEM_BID_USER Horário do lance Usuário responsável pelo lance Fonte: Dados originais da pesquisa Tabela 4. Opcionais do lote. optionals.csv NOME DA COLUNA DESCRIÇÃO AUCTION_NUMBER Número do Leilão AUCTION_ITEM_LOTE Número do Lote AUCTION_ITEM_OPTIONALS EXECUTION_TS Opcionais Horário da obtenção do dado Fonte: Dados originais da pesquisa Com os dados no formato tabular foram extraídas novas informações a partir dos dados disponíveis de forma a enriquecer a análise descritiva e posterior aplicação de modelos de aprendizagem de máquina. O nome das marcas de automóveis (atributo auction_item_brand) foi padronizado a partir da identificação manual no uso de múltiplas grafias sendo utilizadas para referenciar a mesma marca. Como existem diversas marcas com poucos registros foi escolhido limitar as marcas com quantidade de veículos leiloados acima de 30, as demais marcas foram 6 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 referenciadas pelo nome de ‘outras’. O valor de mercado dos lotes, em reais, foi extraído a partir de uma cadeia de caracteres, assim como a data do leilão e a quilometragem do veículo. A idade do veículo no momento do leilão foi aproximada em anos a partir do ano do veículo e da data em que o lote foi arrematado. Informações extras também foram obtidas a partir do texto geral de descrição do lote, onde foi possível inferir se o veículo possui alguma avaria, se é fruto de roubo, se não possui chave e se é alvo de recall, indicando que o modelo em questão possui algum problema de fábrica. A Tabela 4 também foi utilizada para agregar as informações de quais opcionais o carro possui. Como cada lote pode possuir múltiplos opcionais, foi criada uma coluna para cada, indicando com uma variável binária a sua posse. Com o intuito de compreender melhor o que faz com que um veículo se desvalorize mais do que o outro em um contexto de leilão o uso do preço de arremate do lote como variável dependente não se mostra a mais adequada, já que por si só não representa nenhuma relação com o valor atual de mercado de um veículo usado nas mesmas condições. Por isso um novo dado relativo à precificação foi gerado combinando o valor de mercado (Vm) do lote e o seu respectivo valor de arremate (Va), que foi chamado de percentual de desvalorização (Pd) na Equação 1: 𝑃𝑑 = 𝑉𝑚−𝑉𝑎 𝑉𝑚 Equação (1) Com o percentual de desvalorização é possível estudar as características principais que fazem com que um veículo seja mais ou menos desvalorizado em um contexto de leilão, permitindo que haja uma melhor precificação por exemplo em financiamentos veiculares onde o veículo é utilizado como garantia na operação. O percentual de desvalorização foi explorado com relação à sua distribuição e também para identificar possíveis outliers e sazonalidades. Por se tratar de uma variável quantitativa contínua foram exploradas técnicas de regressão para o desenvolvimento do presente trabalho. Com os dados formatados foi feita uma análise exploratória univariada e multivariada para levantar as principais características dos carros e entender a correlação entre atributos, a distribuição dos seus valores, pontos fora da curva, dados faltantes e identificar variáveis que precisam passar por limpeza e transformações para que sejam aplicadas técnicas de aprendizagem de máquina. Após as análises os atributos qualitativos passaram pelo processo de criação de dummies, gerando uma nova coluna para cada categoria, exceto no caso das variáveis que já eram binárias. Com base nos estudos realizados foi possível identificar atributos que poderiam ser descartados por falta de dados ou pouca relevância, identificar limpezas necessárias na base de dados e também identificar possíveis informações passíveis de serem utilizadas como alvo na aplicação de técnicas de “machine learning”. Foram aplicadas diversas técnicas de 7 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 aprendizagem de máquina incluindo técnicas que combinam várias previsões fracas em um modelo forte para que possa ser encontrado o modelo vencedor como boosting (Freund e Schapire 1996) , em que a ideia é ajustar iterativamente o modelo para que ele dê um peso maior aos resultados incorretos repetidas vezes, com a adição de novos modelos treinados em cada iteração, e ensembles, onde vários modelos são combinados para melhorar a precisão e robustez das previsões como proposto em Dietterich, T. G. 2000. As técnicas utilizadas foram ferramentas modernas que se destacaram em um período recente em competições “online” de aprendizagem de máquina (Nielsen 2016 e Zhang e Gong 2020) após serem utilizadas em diversas soluções ganhadoras, sendo elas: Random Forest, XGBoost e LightGBM. Para definir o modelo que mais se adequa ao objetivo proposto foi necessária a definição da métrica de avaliação dos modelos para que fosse possível a comparação justa entres eles. Por se tratar de base de dados comum a todos os modelos e por ser um problema de regressão a métrica escolhida foi o R2, conhecido por coeficiente de determinação, que é uma métrica que indica o quão bem o modelo se ajusta aos dados observados, medindo a proporção da variância total da variável dependente (Y) que é explicada pelo modelo de regressão. Os modelos não foram avaliados diretamente e sim em bases de dados separadas das que foram utilizadas no treinamento, utilizando técnica de “cross-validation” com o objetivo de avaliar a capacidade do modelo de generalizar para novos dados que não foram utilizados no treinamento. Em conjunto com o “cross-validation” foi utilizada a técnica de k-fold onde os dados são separados em k partes iguais em tamanho e em cada iteração uma das partes é utilizada como conjunto de teste e as k-1 partes restantes são utilizadas como conjunto de treinamento. Foi utilizado um valor de 5 para o K para combinar a robustez e velocidade no treinamento do modelo e também permitir que a base de teste não seja muito pequena. O uso da técnica de validação cruzada foi utilizada junto com uma busca definida de hiperparâmetros conhecida como grid search, que consiste em determinar um conjunto de valores definidos para cada hiperparâmetro considerados relevante do modelo e treinar e avaliar o modelo em todas as combinações possíveis desses valores. A definição dos hiperparâmetros utilizados para o “grid search” e os valores de busca para cada técnica implementada foi feita com base em estudo de overfitting comparando o resultado da métrica R2 entre os dados de treino e teste. Para validar o resultado do melhor modelo obtido pela técnica de cross validation com grid search foi separada uma base contendo 30% dos dados originais que não foram utilizados no treino e nem no teste. O resultado dos modelos nessa base de validação foi utilizado para comparar os modelos treinados e chegar no de melhor performance, o modelo campeão. Utilizando o modelo campeão foram aplicadas técnicas de interpretabilidade de modelos para 8 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 uma compreensão dos impactos das variáveis que foram mais importantes para a precificação dos automóveis. Para isso foi utilizada as importâncias já fornecidas pelos algoritmos (Štrumbelj e Kononenko 2014), o método de shapley onde são criadas várias combinações de variáveis para avaliar a contribuição de cada uma delas no modelo e o método de permutação de atributos que envolve a avaliação da performance do modelo após a permutação aleatória de cada variável, medindo o impacto dessa permutação na precisão do modelo seguindo os métodos dispostos em Altmann et al. (2010). Resultados e Discussão Durante a obtenção dos dados foi identificado que a plataforma de leilões apenas fornecia os últimos lances fornecidos a um veículo, não constando todo o histórico de lances, e por esse motivo os dados referenciados na Tabela 3 não foram utilizados. Após a obtenção dos dados e transformação dos mesmos para um formato tabular e posterior ao incremento de atributos de cada lote em uma base única de dados onde cada registro corresponde a um lote de um leilão foram geradas diversas visualizações considerando apenas os dados válidos cujos valores financeiros não são nulos. Para compreender como os dados estão temporalmente distribuídos foi analisada a quantidade de lotes e a desvalorização média na Figura 2. Observou-se que havia apenas 21 lotes válidos antes de novembro de 2021, mesmo período em que há uma mudança súbita na desvalorização média. Esse resultado foi interpretado como uma falta de dados válidos nos leilões desse período e, portanto, decidiu-se utilizar apenas dados posteriores a novembro de 2021 nas análises seguintes. O percentual médio de desvalorização geral ficou em 34.77% dentro dos 3093 lotes considerados válidos na análise. O histograma da variável dependente foi analisado para a identificação de possíveis padrões nos dados. Conforme Figura 3 é possível observar que a distribuição possui uma forma semelhante à distribuição normal. Apesar de no presente trabalho serem utilizados apenas algoritmos não paramétricos e que não tomam por premissa nenhuma distribuição específica da variável dependente foi realizado o teste de normalidade proposto por Shapiro e Wilk (1965), resultando em um p-value abaixo de 0.05, indicando a aderência à normalidade com um nível de significância de 95%. 9 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 2. Desvalorização e quantidade de lotes no tempo Fonte: Resultados originais da pesquisa Figura 3. Distribuição do percentual de desconto Fonte: Resultados originais da pesquisa Algumas características dos automóveis foram retiradas da análise por serem fortemente correlacionadas com outras, como por exemplo o câmbio mecânico que possui correlação negativa de -0.95 com a variável de câmbio automático, o que era esperado pois cada lote só pode possuir um tipo de câmbio. Essa correlação não foi perfeita pois alguns lotes não possuem indicativo de qual câmbio possuem. A característica de freio abs também foi retirada pelo mesmo motivo, com correlação de 0.83 com o opcional “airbag”. Dessa forma restaram 11 opcionais e demais características específiaos que foram analisadas pelos modelos cuja quantidade presente na base está demonstrada na Figura 4. 10 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 4. Quantidade de ocorrência das características nos veículos Fonte: Resultados originais da pesquisa Com a limitação imposta para a análise de ao menos 30 ocorrências para uma marca ser utilizada na base de dados foi obtido um total de 17 possíveis valores, a Figura 5 mostra o resultado final com a quantidade de ocorrência de cada marca na base de dados. A marca “outros” engloba todas as marcas que não alcançaram o requisito mínimo. Figura 5. Quantidade de ocorrência de cada marca Fonte: Resultados originais da pesquisa As cores dos veículos também foram estudadas, algumas delas que tinham baixa ocorrência foram agrupadas, foi estipulado o mínimo de 50 aparições, caso contrário foi categorizado como “outros”, conforme Figura 6. 11 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 6. Quantidade de ocorrência de cores Fonte: Resultados originais da pesquisa Os modelos dos automóveis também sofreram modificações, já que há uma variedade muito grande e alguns com baixíssima ocorrência, foi estipulado um valor de corte de 20 aparições, demais veículos foram classificados como “outros”. A categoria “outros” ocupou o primeiro lugar na quantidade de ocorrências com 1209 ocorrências. As demais categorias estão apresentadas na Figura 7. Figura 7. Quantidade de ocorrência de cada modelo de veículo Fonte: Resultados originais da pesquisa 12 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 8. Histograma do preço de mercado em Reais (tabela Fipe) , preço mínimo do lote em reais, quilometragem do veículo e idade do veículo em anos Fonte: Resultados originais da pesquisa Para compreender melhor as variáveis quantitativas foram utilizados histogramas, que permitiu uma melhor compreensão dos dados de preço de mercado, preço mínimo do lote, quilometragem e idade do veículo (Figura 8). O histograma da idade dos veículos nos mostra a existência de dois momentos em que veículos possuem maior chances de participarem de leilões, quando possuem uma idade baixa por volta de 2 a 3 anos e também quando possuem uma idade mais elevada ao redor dos 10 anos. Isso traz a hipótese de que a origem da ida do veículo para o leilão pode ser fruto do financiamento de veículos novos e veículos usados. A relação da desvalorização dos veículos relativa às suas características também foram estudadas na forma de análise bivariada. Na Figura 9 está demonstrada a relação entre as cores dos veículos e sua desvalorização por meio de um box-plot, indicando que a desvalorização dos carros não podem ser distinguidos facilmente apenas pela sua cor com desvalorização mediana semelhante. Apenas a cor preta com desvalorização superior e a cor azul com desvalorização abaixo das demais se destacam. 13 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 9. Desvalorização baseada na cor do veículo Fonte: Resultados originais da pesquisa A Figura 10 indica a desvalorização percebida na base de dados por marca de automóveis. Algumas marcas popularmente conhecidas por ter uma desvalorização geral abaixo do mercado também apresentaram uma desvalorização mediana relativa ao seu preço de mercado no contexto do leilão abaixo de outras, como foi o caso da Toyota e Honda. Outras marcas também se destacaram em sua baixa desvalorização, como foi o caso de Jeep, Yamaha e Hyunday, enquanto outras ficaram no lado oposto, como Citroen, JAC e as marcas categorizadas como “outros”. Levando em consideração que veículos de leilões tem uma percepção mais acentuada com relação aos seus custos futuros de manutenção, era esperado que veículos considerados com custo de manutenção acima da média do mercado possuíssem uma desvalorização média superior no contexto estudado. Para estudar a desvalorização de acordo com o modelo do veículo foi feito um gráfico de “boxplot”, indicado na Figura 11. A desvalorização se mostrou variável entre os modelos em um grau mais elevado do que com relação à marca. 14 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 10. Desvalorização por marca de veículo Fonte: Resultados originais da pesquisa Figura 11. Desvalorização com relação aos modelos dos veículos Fonte: Resultados originais da pesquisa 15 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 As características binárias dos veículos, como a presença de avarias, se possuem câmbio automático e demais foram estudadas por meio de gráfico de boxplot separando a desvalorização quando há a presença da característica (1) e quando não há (0). O resultado pode ser observado na Figura 12, onde é possível perceber que avarias, trincas, veículos sem chave ou a presença de sinistro aumentam a desvalorização dos veículos, enquanto a presença de itens de segurança e amenidades reduz a desvalorização. Figura 12. Desvalorização relativa às características dos veículos Fonte: Resultados originais da pesquisa A desvalorização em relação ao preço de mercado também foi estudada com relação ao hodômetro dos veículos, possuindo uma ligeira tendência de alta conforme o aumento da quilometragem, como exposto na Figura 13. Esse fato indica que as pessoas estão menos propensas a dar lances mais altos em veículos com maior uso. A correlação de Pearson entre a quilometragem e desvalorização foi de 0.32, sendo estatisticamente significante com um nível de confiança de 95%. 16 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 13. Desvalorização por quilometragem Fonte: Resultados originais da pesquisa A relação entre a desvalorização e o preço de mercado é negativa com uma correlação de -0,27, enquanto a correlação com o preço mínimo do lote ficou em -0,17, ambas estatisticamente significativas com um nível de significância de 95%. Ambas as figuras 14 e 15 possuem formatos semelhantes, e indicam que quanto maior o preço há a tendência da desvalorização ser menor. Figura 14. Desvalorização pelo preço de mercado Fonte: Resultados originais da pesquisa Figura15. Desvalorização pelo preço mínimo do lote Fonte: Resultados originais da pesquisa 17 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 A desvalorização com relação a idade do veículo pode ser observada na Figura 16, onde é possível observar que há uma tendência de alta da desvalorização com o aumento da idade do veículo, possuindo uma correlação positiva de 0,27. Figura 16. Desvalorização pela idade do veículo Fonte: Resultados originais da pesquisa Após os estudos relativos à desvalorização foi feita uma análise da relação entre cada um dos atributos da base de dados. Foi identificado que há uma clara relação linear entre o lance mínimo estipulado pelo leiloeiro e o seu valor de mercado. Um ponto que é ressaltado ao observar a Figura 17 é a presença de algumas linhas marcantes com constante angular bem definidas. Isso indica que provavelmente, no processo de precificação do leiloeiro, há múltiplas formas de cálculo em que há um valor fixo com relação ao preço de mercado para se chegar ao lance mínimo do leilão. Durante a exploração dos dados não foi possível se chegar a qual fator influencia essa escolha, possivelmente sendo um critério subjetivo. Figura 17. Precificação do Lance mínimo Fonte: Resultados originais da pesquisa 18 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Para um entendimento mais amplo entre os atributos foi gerada uma matriz de correlações entre todos os elementos quantitativos da base de dados. O resultado está presente na Figura 18. Figura 18. Correlação entre atributos Fonte: Resultados originais da pesquisa A partir da exploração dos dados nas análises univariada e bivariada foi possível concluir que os atributos de entrada possuem relação com a variável dependente e que a aplicação de modelos de aprendizagem de máquina pode ser feita sem entraves. Tabela 5. Resultado modelos treinados Técnica R2 Treino R2 Teste R2 Validação Tempo de Treinamento (ms) LightGbm 0.895 0.631 0.678 9.18 XGBoost 0.962 0.653 0.684 8.38 RandomForest 0.941 0.654 0.69 21.13 Fonte: Resultados originais da pesquisa Com base na métrica de R2 como decisor da escolha do modelo vencedor a técnica de “Random Forest” foi considerada a campeã, apesar das demais técnicas possuírem resultados muito semelhantes e tempo de treinamento inferior, conforme Tabela 5. 19 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Os hiperparâmetros testados para o modelo de floresta randômica foram o número de árvores, o número máximo de folhas e a profundidade máxima das árvores, por serem considerados os que mais teriam impacto no resultado do treinamento. Para escolher valores a serem testados no “gridsearch” foi feito um estudo de overfit comparando os resultados da métrica de treino e teste conforme a Figura 19. Observando os gráficos foram escolhidos valores próximos ao ponto em que os resultados do teste chegaram a um valor quase constante: ● Número de árvores: 20, 40, 60 e 80 ● Número máximo de folhas: 100 , 250 e 500 ● Profundidade máxima das árvores: 8, 12,16, 20 Figura 19. Overfitting do modelo “Random Forest” variando cada um dos parâmetros desejados Fonte: Resultados originais da pesquisa 20 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 O modelo vencedor foi composto por 80 estimadores, com profundidade máxima de 20 e número máximo de folhas de 500. O resultado das predições do modelo vencedor foi condizente com as desvalorizações observadas nos registros, conforme pode ser observado na Figura 20 que expõe o valor predito contra o valor real. O gráfico indica que houveram poucas observações em que o modelo teve um erro elevado, mantendo a maioria dos registros em torno da reta com coeficiente angular de 1. Figura 20. Predições do modelo RandomForest em função da desvalorização real Fonte: Resultados originais da pesquisa Foram analisadas as importâncias de cada atributo no resultado do modelo campeão. Enquanto a Figura 21 indica a importância de cada variável na tomada de decisão nas ramificações das árvores que compõem a floresta randômica, a Figura 22 demonstra a dimensão do impacto de cada variável no resultado final de cada uma das predições após a permutação de cada variável independentemente. Foram expostos apenas os 20 principais atributos de cada análise. Em ambos os casos os 5 atributos mais relevantes foram os mesmos, mas em ordem diferente. A idade do veículo foi a variável mais importante para a diferenciação dos caminhos de decisão tomadas, se sobrepondo às demais com ao menos o dobro da importância, já o valor mínimo do lote e o valor de mercado do veículo foram as variáveis que mais impactaram o valor final do resultado das predições, com impacto muito acima das demais variáveis. 21 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 21. Importância das variáveis do modelo vencedor a partir das ramificações das árvores de decisão Fonte: Resultados originais da pesquisa Figura 22. Importância das variáveis do modelo campeão baseado na permutação dos valores dos atributos Fonte: Resultados originais da pesquisa Com a análise do “Shap Values” da Figura 23 dos resultados finais da predição do modelo campeão foi possível ter uma visão geral mais clara da dimensão do impacto de cada atributo, deixando claro que a idade do veículo, sua quilometragem, preço de mercado e preço mínimo do lance são as variáveis mais importantes na composição da desvalorização do veículo. É interessante notar também o comportamento de variáveis binárias, como a indicação de presença de sinistro, quase não oferece impacto quando está ausente, mas obtém impacto significativo quando o veículo possui indicação de que já foi alvo de reparos. 22 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 Figura 23. Impacto dos valores de cada coluna nos resultados do modelo vencedor utilizando a técnica de Shapley Fonte: Resultados originais da pesquisa Conclusões Com o trabalho foi possível atestar a utilidade das técnicas de raspagem de dados de fontes disponíveis na internet para obter informações e chegar a inspirações valiosas. A facilidade da coleta automatizada permitiu que os dados fossem obtidos de forma rápida e eficiente dando suporte a toda a análise realizada. O resultado do modelo campeão ter sido o de Random Forest, que comparado com os demais é considerado menos complexo, mesmo que por pouca diferença, mostra que os modelos complexos que são conhecidos pelos campeonatos de aprendizagem de ciência de dados nem sempre se sobrepõe a técnicas mais tradicionais e com maior interpretabilidade. A importância das variáveis financeiras na desvalorização dos automóveis que vão a leilão já era esperada e foi demonstrada em todas as técnicas utilizadas para interpretar o modelo e se destacou como sendo as que mais impactam as métricas quando alteradas. O resultado desse trabalho também nos permitiu entender que a quilometragem e idade do veículo são fatores chave na sua desvalorização, enquanto as variáveis binárias apesar de não possuírem uma importância geral elevada no resultado final do modelo, podem impactar fortemente registros individuais como é o caso da presença de sinistro ou indicação de veículo sem chave. Com o modelo desenvolvido e o entendimento gerado é possível aprimorar a tomada de decisão de instituições financeiras na precificação de veículos como garantia de operações de financiamento e também para o consumidor que tem mais uma ferramenta para auxiliar na conclusão de um bom negócio 23 Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics – 2023 As diferentes formas de interpretar as contribuições dos atributos do modelo campeão no resultado final se mostraram complementares e demonstraram que para uma visão holística do modelo não é possível utilizar apenas uma técnica. Referências Altmann, A.; Toloşi, L.; Sander, O.; Lengauer T. 2010 .Permutation importance: a corrected feature importance measure Bioinformatics, Volume 26, Issue 10, Pages 1340– 1347, https://doi.org/10.1093/bioinformatics/btq134 Dietterich, T. G. 2000. Ensemble methods in machine learning. In Multiple classifier systems (pp. 1-15). Springer Berlin Heidelberg. Franco, P. 2016. Uma análise empírica do Mercado de revenda de carros usando raspagem de dados da internet. Universidade de Brasília, Departamento de Economia, Brasília Freund, Y., & Schapire, R. E. 1996. Experiments with a new boosting algorithm. In Machine learning: proceedings of the thirteenth international conference (pp. 148-156). Morgan Kaufmann Publishers Inc. Nielsen, D. 2016. Tree Boosting With XGBoost. Dissertação de Mestrado de Ciência em Física e Matemática. Universidade Norueguesa de Ciência e Tecnologia, Trondheim, Noruega. Disponível em: <http://pzs.dstu.dp.ua/DataMining/boosting/bibl/Didrik.pdf>. Acesso em 23 mar. 2023. Nogueira, G.; Mendes, A. S.; Serbaro, P. H. 2022. Análise da demanda por veículos usados durante a pandemia de Covid-19. Anhembi Morumbi, São Paulo. Shapiro, S. S. & Wilk, M.B 1965. An analysis of variance test for normality (complete samples), Biometrika, Vol. 52, pp. 591-611. Štrumbelj, E., & Kononenko, I. 2014. Explaining prediction models and individual predictions with feature contributions. Knowledge and information systems, 41(3), 647-665. Zhang, D.; Gong, Y. 2020. A comparação entre análises do fator de acoplamento de LightGBM e XGBoost e pré-diagnóstico de insuficiência hepática aguda. IEEE Access 8: 220990 – 221003; Disponível em: <doi.org/10.1109/ACCESS.2020.3042848>. Acesso em 23 mar. 2023. 24