Uploaded by Gabriel Hooper

Precificação de Leilões de Carros: Análise de Ciência de Dados

advertisement
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Impacto das características de automóveis na precificação de leilões
Gabriel Hooper Moretti; Ricardo Limongi
1
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Impacto das características de automóveis na precificação de leilões
Resumo
O aumento do uso da tecnologia em conjunto com o incremento significativo do preço
de automóveis devido ao cenário macroeconômico mundial alavancou a venda do setor de
leilões focados em veículos automotores. Assim, esse trabalho avalia a influência das
características de automóveis em sua precificação em um contexto de leilões. Foi feita uma
raspagem de dados da internet utilizando a linguagem de programação Python e uma análise
exploratória para entender os motivos da desvalorização dos automóveis em um contexto de
leilões. Foram propostos modelos de aprendizagem de máquina não paramétricos e utilizadas
técnicas de extração da importância das variáveis para compreender o comportamento do
modelo que deteve a melhor métrica técnica de avaliação. Foi possível identificar que a idade
do veículo, o valor de mercado e sua quilometragem influenciaram fortemente a
desvalorização dos veículos com relação ao seu valor de mercado. Mesmo com o uso de
poucos dados e limitados em informações foi possível obter um entendimento geral das
características que influenciam a desvalorização de automóveis em leilões, permitindo o seu
uso em um contexto tanto de consumidores, de leiloeiros quanto de agentes financeiros que
utilizam os veículos como garantia de financiamento.
Palavras-chave: machine learning, web scrapping, data wrangling
2
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Introdução
A expansão e confiança dos consumidores no comércio eletrônico em conjunto com o
aumento de preço dos automóveis novos fez com que houvesse um aumento nas buscas por
veículos usados, conforme estudado por Nogueira et al. (2022), e consequentemente por
leilões de carros.
Entender o comportamento dos preços associados às características individuais de
cada automóvel pode ser relevante para uma melhor precificação, que pode auxiliar o
entendimento geral de todos os interessados nos leilões de veículos, desde a entidade
financiadora que receberá o valor do bem arrematado e poderá avaliar com mais precisão o
valor do bem como garantia até os compradores do lote que poderão ter mais uma ferramenta
para garantir que estão efetuando um bom negócio.
Estudar os critérios utilizados para determinar o preço dos veículos em leilões poderá
também trazer um melhor entendimento sobre o mercado automotivo como um todo conforme
aplicado por Franco (2016).
Para realizar a análise baseada em dados a disponibilidade da informação é um dos
requisitos básicos e em muitos casos são usadas técnicas de raspagem de dados, conhecidas
como “web scraping", que tem por objetivo extrair informações disponíveis na internet de
forma automatizada a partir de programas de computador e disponibilizá-las em um formato
de fácil consumo por demais aplicações.
Na prática de raspagem de dados é comum se observar se há alguma restrição nos
termos de uso do site quanto à obtenção e uso dos dados. Muitos endereços da internet
também utilizam de ferramentas chamadas de CAPTCHA para garantir que quem está
acessando os dados é um humano, reduzindo as chances da obtenção indesejada das
informações por terceiros. Há também um padrão utilizado pelos provedores de serviço de
internet conhecido como robots.txt, um arquivo padronizado que deve estar na raiz do site e
que visa informar aos serviços de raspagem de dados se há algum agente específico que não
está autorizado e também se há recursos específicos que não podem ser obtidos.
Material e Método
Todos os métodos aplicados para a obtenção, transformação, exploração e aplicação
de técnicas estatísticas nos dados foram feitos utilizando a linguagem de programação Python
3.7 em ambiente local utilizando Jupyter Notebook como interface de desenvolvimento (IDE).
Os
códigos
estão
disponíveis
em
repositório
público:
https://github.com/gabrielhooper/pq_leiloes_mba
3
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Para a realização do trabalho foi preciso a utilização de dados confiáveis e de
qualidade de forma a dar robustez aos resultados obtidos, portanto, os dados foram obtidos
a partir de técnicas de raspagem de dados através da internet por meio de web scrapping em
site de leilões reais. As informações obtidas se restringem a informações de automóveis de
pequeno porte de lotes já arrematados provenientes de site de leilão cuja empresa se situa
em Brasília-DF O site referido não possui restrição de uso por robôs ou captchas, conforme
descrito no arquivo robots.txt.
A primeira etapa para obter os dados foi identificar a estrutura utilizada pelo site. Foi
identificado que há uma ferramenta de busca interna do site que permite, fora da área
autenticada, listar todos os leilões de veículos já realizados, sendo o ponto de partida para a
exploração. Dentro da página de busca há múltiplas páginas, cada uma com 12 leilões. Cada
Leilão possui um link específico para ele, assim como cada página da busca. Acessando cada
leilão foi possível identificar que também está dividido em múltiplas páginas, cada uma com
um certo número de lotes com os seus correspondentes links. Cada lote é equivalente a um
veículo automotor.
A estrutura do site pode ser observada na Figura 1.
●
Buscar Leilões
o
Página de Busca 1
▪
Leilão 1
●
●
Página de Leilão 1
o
Lote 1
o
Lote 2
o
...
Página de Leilão 2
o
●
▪
o
...
...
Página de Busca 2
▪
o
...
Leilão 2
●
▪
...
...
...
Figura 1. Estrutura do site de leilões para busca das informações de cada lote
Fonte: Dados originais da pesquisa
Cada lote do leilão pode conter diferentes características do veículo e algumas delas
são múltiplas para cada lote e para facilitar a extração de todas as informações relevantes de
4
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
cada lote, os dados foram gravados em arquivo local semiestruturado no formato JSON. As
informações extraídas são tanto categóricas quanto contínuas como, por exemplo
,quilometragem que o carro já percorreu, marca e modelo, cor do veículo, tipo de câmbio,
acessórios como alarme, direção hidráulica, tipo de câmbio, motorização e outros. Há também
algumas informações que podem receber mais de um dado para cada veículo, como por
exemplos os opcionais e os lances oferecidos para um determinado lote.
A partir das informações individuais extraídas de cada veículo foi feito um processo de
extração, transformação e carga de dados (ETL) para padronização em formato tabular,
estrutura esperada para a exploração e posterior aplicação de técnicas de aprendizagem de
máquina. Optou-se pela não inclusão de uma coluna identificadora do opcional na Tabela 4
para simplificar o ETL. O resultado foram os seguintes 4 arquivos no formato tabular csv
conforme apresentado na Tabela 1.
Tabela 1. Leilões. auctions.csv
NOME DA COLUNA
DESCRIÇÃO
AUCTION_NUMBER
Número do Leilão
AUCTION_NAME
Nome do Leilão
AUCTION_CATEGOY
Categoria do Leilão. Veículos.
AUCTION_DATE
Data do início do leilão
AUCTION_STATUS
Estado do leilão
AUCTION_URL
Link do Leilão
AUCTION_EDITAL_URL
EXECUTION_TS
Link para o edital do Leilão
Timestamp da obtenção do dado
Fonte: Dados originais da pesquisa
Tabela 2. Lotes dos leilões. itens.csv
NOME DA COLUNA
DESCRIÇÃO
AUCTION_NUMBER
Número do Leilão
AUCTION_ITEM_LOTE
Número do Lote
AUCTION_ITEM_TYPE
Tipo do Lote. Ex. Online, Presencial e etc
AUCTION_ITEM_NAME
Nome do lote
AUCTION_ITEM_URL
Link do lote
AUCTION_ITEM_MIN_BID_VALUE
AUCTION_ITEM_INCREMENT_VALUE
AUCTION_ITEM_HIGHEST_BID
Valor mínimo do lote, em Reais
Incremento mínimo do lote, em Reais
Maior oferta do lote, em Reais
5
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
AUCTION_ITEM_DATE_TEXT
Data da descrição do lote
AUCTION_ITEM_DESCRIPTION
Descrição do lote. Pode conter informações sobre
avarias e documentação
AUCTION_ITEM_MODEL
Modelo do lote
AUCTION_ITEM_BRAND
Marca do lote
AUCTION_ITEM_MODEL_YEAR
Ano do veículo
AUCTION_ITEM_MARKET_PRICE
Valor de mercado do lote no momento do leilão
AUCTION_ITEM_COLOR
AUCTION_ITEM_GAS_TYPE
Cor do lote
Tipo de combustível utilizado pelo lote
AUCTION_ITEM_KM
Quilometragem do lote
AUCTION_ITEM_REFURBISHED
Indicativo de sinistro
EXECUTION_TS
Horário da obtenção do dado
Fonte: Dados originais da pesquisa
Tabela 3. Lances do Leilão. bids.csv
NOME DA COLUNA
DESCRIÇÃO
AUCTION_NUMBER
Número do Leilão
AUCTION_ITEM_LOTE
Número do Lote
AUCTION_ITEM_BID_VALUE
Valor do Lance
AUCTION_ITEM_BID_TYPE
Tipo do Lance. Manual ou Automático
AUCTION_ITEM_BID_DATETIME
AUCTION_ITEM_BID_USER
Horário do lance
Usuário responsável pelo lance
Fonte: Dados originais da pesquisa
Tabela 4. Opcionais do lote. optionals.csv
NOME DA COLUNA
DESCRIÇÃO
AUCTION_NUMBER
Número do Leilão
AUCTION_ITEM_LOTE
Número do Lote
AUCTION_ITEM_OPTIONALS
EXECUTION_TS
Opcionais
Horário da obtenção do dado
Fonte: Dados originais da pesquisa
Com os dados no formato tabular foram extraídas novas informações a partir dos
dados disponíveis de forma a enriquecer a análise descritiva e posterior aplicação de modelos
de aprendizagem de máquina.
O nome das marcas de automóveis (atributo auction_item_brand) foi padronizado a
partir da identificação manual no uso de múltiplas grafias sendo utilizadas para referenciar a
mesma marca. Como existem diversas marcas com poucos registros foi escolhido limitar as
marcas com quantidade de veículos leiloados acima de 30, as demais marcas foram
6
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
referenciadas pelo nome de ‘outras’. O valor de mercado dos lotes, em reais, foi extraído a
partir de uma cadeia de caracteres, assim como a data do leilão e a quilometragem do veículo.
A idade do veículo no momento do leilão foi aproximada em anos a partir do ano do veículo e
da data em que o lote foi arrematado.
Informações extras também foram obtidas a partir do texto geral de descrição do lote,
onde foi possível inferir se o veículo possui alguma avaria, se é fruto de roubo, se não possui
chave e se é alvo de recall, indicando que o modelo em questão possui algum problema de
fábrica. A Tabela 4 também foi utilizada para agregar as informações de quais opcionais o
carro possui. Como cada lote pode possuir múltiplos opcionais, foi criada uma coluna para
cada, indicando com uma variável binária a sua posse.
Com o intuito de compreender melhor o que faz com que um veículo se desvalorize
mais do que o outro em um contexto de leilão o uso do preço de arremate do lote como
variável dependente não se mostra a mais adequada, já que por si só não representa
nenhuma relação com o valor atual de mercado de um veículo usado nas mesmas condições.
Por isso um novo dado relativo à precificação foi gerado combinando o valor de mercado (Vm)
do lote e o seu respectivo valor de arremate (Va), que foi chamado de percentual de
desvalorização (Pd) na Equação 1:
𝑃𝑑 =
𝑉𝑚−𝑉𝑎
𝑉𝑚
Equação (1)
Com o percentual de desvalorização é possível estudar as características principais
que fazem com que um veículo seja mais ou menos desvalorizado em um contexto de leilão,
permitindo que haja uma melhor precificação por exemplo em financiamentos veiculares onde
o veículo é utilizado como garantia na operação. O percentual de desvalorização foi explorado
com relação à sua distribuição e também para identificar possíveis outliers e sazonalidades.
Por se tratar de uma variável quantitativa contínua foram exploradas técnicas de regressão
para o desenvolvimento do presente trabalho.
Com os dados formatados foi feita uma análise exploratória univariada e multivariada
para levantar as principais características dos carros e entender a correlação entre atributos,
a distribuição dos seus valores, pontos fora da curva, dados faltantes e identificar variáveis
que precisam passar por limpeza e transformações para que sejam aplicadas técnicas de
aprendizagem de máquina. Após as análises os atributos qualitativos passaram pelo processo
de criação de dummies, gerando uma nova coluna para cada categoria, exceto no caso das
variáveis que já eram binárias.
Com base nos estudos realizados foi possível identificar atributos que poderiam ser
descartados por falta de dados ou pouca relevância, identificar limpezas necessárias na base
de dados e também identificar possíveis informações passíveis de serem utilizadas como alvo
na aplicação de técnicas de “machine learning”. Foram aplicadas diversas técnicas de
7
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
aprendizagem de máquina incluindo técnicas que combinam várias previsões fracas em um
modelo forte para que possa ser encontrado o modelo vencedor como boosting (Freund e
Schapire 1996) , em que a ideia é ajustar iterativamente o modelo para que ele dê um peso
maior aos resultados incorretos repetidas vezes, com a adição de novos modelos treinados
em cada iteração, e ensembles, onde vários modelos são combinados para melhorar a
precisão e robustez das previsões como proposto em Dietterich, T. G. 2000. As técnicas
utilizadas foram ferramentas modernas que se destacaram em um período recente em
competições “online” de aprendizagem de máquina (Nielsen 2016 e Zhang e Gong 2020) após
serem utilizadas em diversas soluções ganhadoras, sendo elas: Random Forest, XGBoost e
LightGBM.
Para definir o modelo que mais se adequa ao objetivo proposto foi necessária a
definição da métrica de avaliação dos modelos para que fosse possível a comparação justa
entres eles. Por se tratar de base de dados comum a todos os modelos e por ser um problema
de regressão a métrica escolhida foi o R2, conhecido por coeficiente de determinação, que é
uma métrica que indica o quão bem o modelo se ajusta aos dados observados, medindo a
proporção da variância total da variável dependente (Y) que é explicada pelo modelo de
regressão.
Os modelos não foram avaliados diretamente e sim em bases de dados separadas
das que foram utilizadas no treinamento, utilizando técnica de “cross-validation” com o objetivo
de avaliar a capacidade do modelo de generalizar para novos dados que não foram utilizados
no treinamento. Em conjunto com o “cross-validation” foi utilizada a técnica de k-fold onde os
dados são separados em k partes iguais em tamanho e em cada iteração uma das partes é
utilizada como conjunto de teste e as k-1 partes restantes são utilizadas como conjunto de
treinamento. Foi utilizado um valor de 5 para o K para combinar a robustez e velocidade no
treinamento do modelo e também permitir que a base de teste não seja muito pequena.
O uso da técnica de validação cruzada foi utilizada junto com uma busca definida de
hiperparâmetros conhecida como grid search, que consiste em determinar um conjunto de
valores definidos para cada hiperparâmetro considerados relevante do modelo e treinar e
avaliar o modelo em todas as combinações possíveis desses valores. A definição dos
hiperparâmetros utilizados para o “grid search” e os valores de busca para cada técnica
implementada foi feita com base em estudo de overfitting comparando o resultado da métrica
R2 entre os dados de treino e teste.
Para validar o resultado do melhor modelo obtido pela técnica de cross validation com
grid search foi separada uma base contendo 30% dos dados originais que não foram utilizados
no treino e nem no teste. O resultado dos modelos nessa base de validação foi utilizado para
comparar os modelos treinados e chegar no de melhor performance, o modelo campeão.
Utilizando o modelo campeão foram aplicadas técnicas de interpretabilidade de modelos para
8
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
uma compreensão dos impactos das variáveis que foram mais importantes para a precificação
dos automóveis. Para isso foi utilizada as importâncias já fornecidas pelos algoritmos
(Štrumbelj e Kononenko 2014), o método de shapley onde são criadas várias combinações
de variáveis para avaliar a contribuição de cada uma delas no modelo e o método de
permutação de atributos que envolve a avaliação da performance do modelo após a
permutação aleatória de cada variável, medindo o impacto dessa permutação na precisão do
modelo seguindo os métodos dispostos em Altmann et al. (2010).
Resultados e Discussão
Durante a obtenção dos dados foi identificado que a plataforma de leilões apenas
fornecia os últimos lances fornecidos a um veículo, não constando todo o histórico de lances,
e por esse motivo os dados referenciados na Tabela 3 não foram utilizados. Após a obtenção
dos dados e transformação dos mesmos para um formato tabular e posterior ao incremento
de atributos de cada lote em uma base única de dados onde cada registro corresponde a um
lote de um leilão foram geradas diversas visualizações considerando apenas os dados válidos
cujos valores financeiros não são nulos.
Para compreender como os dados estão temporalmente distribuídos foi analisada a
quantidade de lotes e a desvalorização média na Figura 2. Observou-se que havia apenas 21
lotes válidos antes de novembro de 2021, mesmo período em que há uma mudança súbita na
desvalorização média. Esse resultado foi interpretado como uma falta de dados válidos nos
leilões desse período e, portanto, decidiu-se utilizar apenas dados posteriores a novembro de
2021 nas análises seguintes. O percentual médio de desvalorização geral ficou em 34.77%
dentro dos 3093 lotes considerados válidos na análise.
O histograma da variável dependente foi analisado para a identificação de possíveis
padrões nos dados. Conforme Figura 3 é possível observar que a distribuição possui uma
forma semelhante à distribuição normal. Apesar de no presente trabalho serem utilizados
apenas algoritmos não paramétricos e que não tomam por premissa nenhuma distribuição
específica da variável dependente foi realizado o teste de normalidade proposto por Shapiro
e Wilk (1965), resultando em um p-value abaixo de 0.05, indicando a aderência à normalidade
com um nível de significância de 95%.
9
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 2. Desvalorização e quantidade de lotes no tempo
Fonte: Resultados originais da pesquisa
Figura 3. Distribuição do percentual de desconto
Fonte: Resultados originais da pesquisa
Algumas características dos automóveis foram retiradas da análise por serem
fortemente correlacionadas com outras, como por exemplo o câmbio mecânico que possui
correlação negativa de -0.95 com a variável de câmbio automático, o que era esperado pois
cada lote só pode possuir um tipo de câmbio. Essa correlação não foi perfeita pois alguns
lotes não possuem indicativo de qual câmbio possuem. A característica de freio abs também
foi retirada pelo mesmo motivo, com correlação de 0.83 com o opcional “airbag”.
Dessa forma restaram 11 opcionais e demais características específiaos que foram
analisadas pelos modelos cuja quantidade presente na base está demonstrada na Figura 4.
10
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 4. Quantidade de ocorrência das características nos veículos
Fonte: Resultados originais da pesquisa
Com a limitação imposta para a análise de ao menos 30 ocorrências para uma marca
ser utilizada na base de dados foi obtido um total de 17 possíveis valores, a Figura 5 mostra
o resultado final com a quantidade de ocorrência de cada marca na base de dados. A marca
“outros” engloba todas as marcas que não alcançaram o requisito mínimo.
Figura 5. Quantidade de ocorrência de cada marca
Fonte: Resultados originais da pesquisa
As cores dos veículos também foram estudadas, algumas delas que tinham baixa
ocorrência foram agrupadas, foi estipulado o mínimo de 50 aparições, caso contrário foi
categorizado como “outros”, conforme Figura 6.
11
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 6. Quantidade de ocorrência de cores
Fonte: Resultados originais da pesquisa
Os modelos dos automóveis também sofreram modificações, já que há uma variedade
muito grande e alguns com baixíssima ocorrência, foi estipulado um valor de corte de 20
aparições, demais veículos foram classificados como “outros”. A categoria “outros” ocupou o
primeiro lugar na quantidade de ocorrências com 1209 ocorrências. As demais categorias
estão apresentadas na Figura 7.
Figura 7. Quantidade de ocorrência de cada modelo de veículo
Fonte: Resultados originais da pesquisa
12
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 8. Histograma do preço de mercado em Reais (tabela Fipe) , preço mínimo do lote em
reais, quilometragem do veículo e idade do veículo em anos
Fonte: Resultados originais da pesquisa
Para compreender melhor as variáveis quantitativas foram utilizados histogramas, que
permitiu uma melhor compreensão dos dados de preço de mercado, preço mínimo do lote,
quilometragem e idade do veículo (Figura 8).
O histograma da idade dos veículos nos mostra a existência de dois momentos em
que veículos possuem maior chances de participarem de leilões, quando possuem uma idade
baixa por volta de 2 a 3 anos e também quando possuem uma idade mais elevada ao redor
dos 10 anos. Isso traz a hipótese de que a origem da ida do veículo para o leilão pode ser
fruto do financiamento de veículos novos e veículos usados.
A relação da desvalorização dos veículos relativa às suas características também
foram estudadas na forma de análise bivariada.
Na Figura 9 está demonstrada a relação entre as cores dos veículos e sua
desvalorização por meio de um box-plot, indicando que a desvalorização dos carros não
podem ser distinguidos facilmente apenas pela sua cor com desvalorização mediana
semelhante. Apenas a cor preta com desvalorização superior e a cor azul com desvalorização
abaixo das demais se destacam.
13
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 9. Desvalorização baseada na cor do veículo
Fonte: Resultados originais da pesquisa
A Figura 10 indica a desvalorização percebida na base de dados por marca de
automóveis. Algumas marcas popularmente conhecidas por ter uma desvalorização geral
abaixo do mercado também apresentaram uma desvalorização mediana relativa ao seu preço
de mercado no contexto do leilão abaixo de outras, como foi o caso da Toyota e Honda. Outras
marcas também se destacaram em sua baixa desvalorização, como foi o caso de Jeep,
Yamaha e Hyunday, enquanto outras ficaram no lado oposto, como Citroen, JAC e as marcas
categorizadas como “outros”.
Levando em consideração que veículos de leilões tem uma percepção mais acentuada
com relação aos seus custos futuros de manutenção, era esperado que veículos considerados
com custo de manutenção acima da média do mercado possuíssem uma desvalorização
média superior no contexto estudado.
Para estudar a desvalorização de acordo com o modelo do veículo foi feito um gráfico
de “boxplot”, indicado na Figura 11. A desvalorização se mostrou variável entre os modelos
em um grau mais elevado do que com relação à marca.
14
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 10. Desvalorização por marca de veículo
Fonte: Resultados originais da pesquisa
Figura 11. Desvalorização com relação aos modelos dos veículos
Fonte: Resultados originais da pesquisa
15
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
As características binárias dos veículos, como a presença de avarias, se possuem
câmbio automático e demais foram estudadas por meio de gráfico de boxplot separando a
desvalorização quando há a presença da característica (1) e quando não há (0). O resultado
pode ser observado na Figura 12, onde é possível perceber que avarias, trincas, veículos sem
chave ou a presença de sinistro aumentam a desvalorização dos veículos, enquanto a
presença de itens de segurança e amenidades reduz a desvalorização.
Figura 12. Desvalorização relativa às características dos veículos
Fonte: Resultados originais da pesquisa
A desvalorização em relação ao preço de mercado também foi estudada com relação
ao hodômetro dos veículos, possuindo uma ligeira tendência de alta conforme o aumento da
quilometragem, como exposto na Figura 13. Esse fato indica que as pessoas estão menos
propensas a dar lances mais altos em veículos com maior uso. A correlação de Pearson entre
a quilometragem e desvalorização foi de 0.32, sendo estatisticamente significante com um
nível de confiança de 95%.
16
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 13. Desvalorização por quilometragem
Fonte: Resultados originais da pesquisa
A relação entre a desvalorização e o preço de mercado é negativa com uma correlação
de -0,27, enquanto a correlação com o preço mínimo do lote ficou em -0,17, ambas
estatisticamente significativas com um nível de significância de 95%. Ambas as figuras 14 e
15 possuem formatos semelhantes, e indicam que quanto maior o preço há a tendência da
desvalorização ser menor.
Figura 14. Desvalorização pelo preço de mercado
Fonte: Resultados originais da pesquisa
Figura15. Desvalorização pelo preço mínimo do lote
Fonte: Resultados originais da pesquisa
17
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
A desvalorização com relação a idade do veículo pode ser observada na Figura 16,
onde é possível observar que há uma tendência de alta da desvalorização com o aumento da
idade do veículo, possuindo uma correlação positiva de 0,27.
Figura 16. Desvalorização pela idade do veículo
Fonte: Resultados originais da pesquisa
Após os estudos relativos à desvalorização foi feita uma análise da relação entre cada
um dos atributos da base de dados. Foi identificado que há uma clara relação linear entre o
lance mínimo estipulado pelo leiloeiro e o seu valor de mercado. Um ponto que é ressaltado
ao observar a Figura 17 é a presença de algumas linhas marcantes com constante angular
bem definidas. Isso indica que provavelmente, no processo de precificação do leiloeiro, há
múltiplas formas de cálculo em que há um valor fixo com relação ao preço de mercado para
se chegar ao lance mínimo do leilão. Durante a exploração dos dados não foi possível se
chegar a qual fator influencia essa escolha, possivelmente sendo um critério subjetivo.
Figura 17. Precificação do Lance mínimo
Fonte: Resultados originais da pesquisa
18
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Para um entendimento mais amplo entre os atributos foi gerada uma matriz de
correlações entre todos os elementos quantitativos da base de dados. O resultado está
presente na Figura 18.
Figura 18. Correlação entre atributos
Fonte: Resultados originais da pesquisa
A partir da exploração dos dados nas análises univariada e bivariada foi possível
concluir que os atributos de entrada possuem relação com a variável dependente e que a
aplicação de modelos de aprendizagem de máquina pode ser feita sem entraves.
Tabela 5. Resultado modelos treinados
Técnica
R2 Treino
R2 Teste
R2 Validação
Tempo de Treinamento (ms)
LightGbm
0.895
0.631
0.678
9.18
XGBoost
0.962
0.653
0.684
8.38
RandomForest
0.941
0.654
0.69
21.13
Fonte: Resultados originais da pesquisa
Com base na métrica de R2 como decisor da escolha do modelo vencedor a técnica
de “Random Forest” foi considerada a campeã, apesar das demais técnicas possuírem
resultados muito semelhantes e tempo de treinamento inferior, conforme Tabela 5.
19
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Os hiperparâmetros testados para o modelo de floresta randômica foram o número de
árvores, o número máximo de folhas e a profundidade máxima das árvores, por serem
considerados os que mais teriam impacto no resultado do treinamento. Para escolher valores
a serem testados no “gridsearch” foi feito um estudo de overfit comparando os resultados da
métrica de treino e teste conforme a Figura 19. Observando os gráficos foram escolhidos
valores próximos ao ponto em que os resultados do teste chegaram a um valor quase
constante:
●
Número de árvores: 20, 40, 60 e 80
●
Número máximo de folhas: 100 , 250 e 500
●
Profundidade máxima das árvores: 8, 12,16, 20
Figura 19. Overfitting do modelo “Random Forest” variando cada um dos parâmetros
desejados
Fonte: Resultados originais da pesquisa
20
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
O modelo vencedor foi composto por 80 estimadores, com profundidade máxima de
20 e número máximo de folhas de 500.
O resultado das predições do modelo vencedor foi condizente com as desvalorizações
observadas nos registros, conforme pode ser observado na Figura 20 que expõe o valor
predito contra o valor real. O gráfico indica que houveram poucas observações em que o
modelo teve um erro elevado, mantendo a maioria dos registros em torno da reta com
coeficiente angular de 1.
Figura 20. Predições do modelo RandomForest em função da desvalorização real
Fonte: Resultados originais da pesquisa
Foram analisadas as importâncias de cada atributo no resultado do modelo campeão.
Enquanto a Figura 21 indica a importância de cada variável na tomada de decisão nas
ramificações das árvores que compõem a floresta randômica, a Figura 22 demonstra a
dimensão do impacto de cada variável no resultado final de cada uma das predições após a
permutação de cada variável independentemente. Foram expostos apenas os 20 principais
atributos de cada análise.
Em ambos os casos os 5 atributos mais relevantes foram os mesmos, mas em ordem
diferente. A idade do veículo foi a variável mais importante para a diferenciação dos caminhos
de decisão tomadas, se sobrepondo às demais com ao menos o dobro da importância, já o
valor mínimo do lote e o valor de mercado do veículo foram as variáveis que mais impactaram
o valor final do resultado das predições, com impacto muito acima das demais variáveis.
21
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 21. Importância das variáveis do modelo vencedor a partir das ramificações das
árvores de decisão
Fonte: Resultados originais da pesquisa
Figura 22. Importância das variáveis do modelo campeão baseado na permutação dos valores
dos atributos
Fonte: Resultados originais da pesquisa
Com a análise do “Shap Values” da Figura 23 dos resultados finais da predição do
modelo campeão foi possível ter uma visão geral mais clara da dimensão do impacto de cada
atributo, deixando claro que a idade do veículo, sua quilometragem, preço de mercado e preço
mínimo do lance são as variáveis mais importantes na composição da desvalorização do
veículo.
É interessante notar também o comportamento de variáveis binárias, como a indicação
de presença de sinistro, quase não oferece impacto quando está ausente, mas obtém impacto
significativo quando o veículo possui indicação de que já foi alvo de reparos.
22
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
Figura 23. Impacto dos valores de cada coluna nos resultados do modelo vencedor utilizando
a técnica de Shapley
Fonte: Resultados originais da pesquisa
Conclusões
Com o trabalho foi possível atestar a utilidade das técnicas de raspagem de dados de
fontes disponíveis na internet para obter informações e chegar a inspirações valiosas. A
facilidade da coleta automatizada permitiu que os dados fossem obtidos de forma rápida e
eficiente dando suporte a toda a análise realizada.
O resultado do modelo campeão ter sido o de Random Forest, que comparado com os
demais é considerado menos complexo, mesmo que por pouca diferença, mostra que os
modelos complexos que são conhecidos pelos campeonatos de aprendizagem de ciência de
dados nem sempre se sobrepõe a técnicas mais tradicionais e com maior interpretabilidade.
A importância das variáveis financeiras na desvalorização dos automóveis que vão a
leilão já era esperada e foi demonstrada em todas as técnicas utilizadas para interpretar o
modelo e se destacou como sendo as que mais impactam as métricas quando alteradas.
O resultado desse trabalho também nos permitiu entender que a quilometragem e
idade do veículo são fatores chave na sua desvalorização, enquanto as variáveis binárias
apesar de não possuírem uma importância geral elevada no resultado final do modelo, podem
impactar fortemente registros individuais como é o caso da presença de sinistro ou indicação
de veículo sem chave.
Com o modelo desenvolvido e o entendimento gerado é possível aprimorar a tomada
de decisão de instituições financeiras na precificação de veículos como garantia de operações
de financiamento e também para o consumidor que tem mais uma ferramenta para auxiliar na
conclusão de um bom negócio
23
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2023
As diferentes formas de interpretar as contribuições dos atributos do modelo campeão
no resultado final se mostraram complementares e demonstraram que para uma visão
holística do modelo não é possível utilizar apenas uma técnica.
Referências
Altmann, A.; Toloşi, L.; Sander, O.; Lengauer T. 2010 .Permutation importance: a corrected
feature importance measure Bioinformatics, Volume 26, Issue 10, Pages 1340–
1347, https://doi.org/10.1093/bioinformatics/btq134
Dietterich, T. G. 2000. Ensemble methods in machine learning. In Multiple classifier systems
(pp. 1-15). Springer Berlin Heidelberg.
Franco, P. 2016. Uma análise empírica do Mercado de revenda de carros usando raspagem
de dados da internet. Universidade de Brasília, Departamento de Economia, Brasília
Freund, Y., & Schapire, R. E. 1996. Experiments with a new boosting algorithm. In Machine
learning: proceedings of the thirteenth international conference (pp. 148-156). Morgan
Kaufmann Publishers Inc.
Nielsen, D. 2016. Tree Boosting With XGBoost. Dissertação de Mestrado de Ciência em Física
e Matemática. Universidade Norueguesa de Ciência e Tecnologia, Trondheim, Noruega.
Disponível em: <http://pzs.dstu.dp.ua/DataMining/boosting/bibl/Didrik.pdf>. Acesso em 23
mar. 2023.
Nogueira, G.; Mendes, A. S.; Serbaro, P. H. 2022. Análise da demanda por veículos usados
durante a pandemia de Covid-19. Anhembi Morumbi, São Paulo.
Shapiro, S. S. & Wilk, M.B 1965. An analysis of variance test for normality (complete samples),
Biometrika, Vol. 52, pp. 591-611.
Štrumbelj, E., & Kononenko, I. 2014. Explaining prediction models and individual predictions
with feature contributions. Knowledge and information systems, 41(3), 647-665.
Zhang, D.; Gong, Y. 2020. A comparação entre análises do fator de acoplamento de LightGBM
e XGBoost e pré-diagnóstico de insuficiência hepática aguda. IEEE Access 8: 220990 –
221003; Disponível em: <doi.org/10.1109/ACCESS.2020.3042848>. Acesso em 23 mar.
2023.
24
Download