PCS5012 - Metodologia de Pesquisa Científica em Engenharia de Computação
Nome: Danillo Araújo Feitosa
Nº USP: 11178851
Análise Crítica e Comparativa entre Bases de Dados Científicas: WoS, Scopus,
Google Scholar.
A crescente complexidade do sistema científico contemporâneo exige ferramentas
robustas para monitorar, avaliar e interpretar a produção científica mundial. Dentre
essas ferramentas, as bases de dados ocupam lugar central, uma vez que fornecem
os insumos primários para análises bibliométricas, informétricas e, mais
amplamente, cientométricas. A ideia por trás deste trabalho é propor uma análise
crítica e comparativa entre as principais bases utilizadas na atualidade para
pesquisa e avaliação científica: Web of Science (WoS), Scopus, Google Scholar,
CrossRef. Cada uma dessas fontes bases possui características próprias,
vantagens e limitações, e a escolha dela afeta diretamente os resultados obtidos
nas análises quantitativas e qualitativas da produção científica.
1. Cobertura e abrangência
Durante as décadas de 1990 e 2000 aumentou em muito a disponibilidade e
cobertura dos bancos de dados de citações, onde o Web Of Science passou incluir
muito mais periódicos, surgiu concorrentes como Scopus e o Google Scholar.
Para avaliar a relevância dessas bases, um dos critérios mais relevantes é a
cobertura das mesmas.
O WoS é notoriamente seletivo, priorizando periódicos de alto fator de impacto e
aplicando critérios rigorosos para indexação. Sua cobertura é extensa, mas
relativamente limitada quando comparada a outras bases como o Google Scholar
e Scopus, por sua vez, é mais abrangente do que o WoS, cobrindo uma maior
diversidade de periódicos, especialmente em áreas aplicadas como ciências
sociais e engenharia. Em contrapartida, o Google Scholar é amplamente
reconhecido por sua cobertura massiva e inclusiva, indexando não apenas artigos
revisados por pares, mas também teses, dissertações, capítulos de livros, préprints e até materiais não revisados, o que o torna valioso para captar a diversidade
da produção científica, mas ao mesmo tempo suscita questões sobre qualidade e
controle. Isso acontece no Google Scholar por que diferentemente do WoS, ele
busca documentos que contenham referências a artigos e livros, em vez de
importar dados diretamente de períodicos.
2. Qualidade dos dados e controle editorial
A qualidade dos dados varia significativamente entre as bases. O WoS e o Scopus
mantêm altos padrões de controle editorial, o que garante consistência nos
metadados, qualidade na categorização dos campos e confiabilidade na contagem
de citações. Essa rigidez metodológica torna essas bases particularmente úteis em
avaliações institucionais, rankings e comparações internacionais. Por outro lado, o
Google Scholar, por sua natureza automatizada, apresenta problemas recorrentes
de duplicação, erros na contagem de citações e inconsistência nos metadados, o
que compromete a replicabilidade das análises. Além disso, sua opacidade em
relação ao processo de indexação dificulta o escrutínio metodológico.
Para se ter uma ideia, García-Pérez (2010) estudou artigos de psicólogos nas bases
WoS, GS (Google Scholar) e PsycINFO, e registrou-se que 16,5% das citações eram
incorretas no GS, e apenas 1% ou menos em outras fontes. Muitos dos erros eram
sobre links inutilizáveis, citações fantamas, links duplicados apontando o mesmo
artigo entre outros.
3. Métricas e indicadores
O uso de indicadores para avaliar impacto é uma prática consolidada na
cientometria, mas sujeita a críticas importantes. O WoS utiliza métricas como o JCR
e o índice h, além de ser a base dos indicadores normalizados como MNCS (Mean
Normalized Citation Score). No entanto, a dependência de médias em distribuições
altamente enviesadas tem sido criticada (Gingras, 2014), assim como a rigidez de
suas categorias de campo (Ruiz-Castillo & Waltman, 2014). O Scopus responde a
algumas dessas críticas ao incorporar o SJR (Scimago Journal Rank) e o SNIP
(Source Normalized Impact per Paper), que tentam considerar o prestígio das
fontes citantes e a variabilidade entre áreas.
Google Scholar, por outro lado, utiliza uma contagem mais inclusiva de citações,
favorecendo autores com grande volume de produção e presença em diversas
mídias. Embora isso ofereça uma visão mais ampla, o risco de inflacionamento e
manipulação é maior. O Scholar também carece de métricas normalizadas por
campo ou período, o que dificulta comparações robustas.
Em uma comparação entre o WoS e GS é que numa análise apresentada pelo artigo,
o número de artigos publicados no WoS em comparação com GS é semelhante, no
entanto o número de citações de fontes usando o GS é quase 4 vezes maior. As
inconsistências em registros bibliométricos como exportação de dados, autor,
título do artigo, número de paginas, entre outras, no GS foram 14%, no WoS 5,4% e
no Scopus apenas 0,4%.
4. Transparência, replicabilidade e sofisticação
A cientometria, ao longo de seu desenvolvimento, passou a empregar métodos
cada vez mais sofisticados para mensurar a produção e o impacto da ciência. Essa
sofisticação trouxe consigo avanços importantes, como a normalização por área
do conhecimento, o uso de percentis, contagens fracionadas e métricas que
incorporam o prestígio das fontes citantes (como o SJR). Contudo, esse avanço
técnico também gerou um paradoxo central para a área: quanto mais sofisticadas
se tornam as métricas, menos transparentes e replicáveis elas tendem a ser. Ou
seja. Métricas como o SJR ou o MNCS dependem de algoritmos complexos e
categorização de áreas que muitas vezes não são públicos ou acessíveis ao usuário
final. Essa opacidade metodológica compromete a transparência científica e
dificulta auditorias independentes.
Bases como o WoS e o Scopus têm avançado na divulgação de suas metodologias,
mas ainda mantêm aspectos proprietários. O Google Scholar, em contraste, é
completamente fechado: não revela critérios de indexação, algoritmos de busca ou
formas de contagem de citações.
5. Presença nas altmetrics e implicações sociais
As altmetrics representam um movimento emergente de avaliação que tenta
capturar o impacto social e midiático da produção científica. Bases como Google
Scholar têm papel central nesse cenário. A maioria dos artigos ainda apresenta
pouca presença em redes sociais, e as altmetrics enfrentam uma série de desafios,
como manipulação de métricas (compra de curtidas e tweets), ausência de teorias
robustas explicando como e por que essas métricas são geradas, e problemas de
representatividade (sobretudo para artigos antigos ou de áreas menos populares).
Apesar disso, as altmetrics oferecem uma perspectiva complementar às citações
tradicionais. Elas são particularmente úteis para analisar a difusão de
conhecimento para além do ambiente acadêmico, dialogando com os estudos de
ciência e tecnologia, que se interessam pela circulação social do saber.
6. Considerações teóricas
A cientometria é o campo de estudo que analisa quantitativamente a ciência, suas
práticas, estruturas, dinâmicas e impactos. Seu principal foco está na medição da
produção científica, muitas vezes por meio da análise de citações, autores,
periódicos, colaborações e métricas de impacto, no entanto enfrenta um dilema:
por um lado, temos uma vertente quantitativa e pós-positivista, voltada para a
modelagem de padrões e quantificação de eventos; por outro, uma abordagem
mais interpretativa e construtivista, interessada no comportamento de citação,
práticas de autoria e construção social do conhecimento. A escolha da base de
dados influencia diretamente essa dilema.
A teoria de sistemas sociais autopoiéticos de Luhmann (1995, 1996), aplicada à
comunicação científica por Leydesdorff, oferece uma perspectiva útil: os artigos
científicos seriam eventos comunicativos compostos por informação, enunciação
e compreensão. As citações, então, representam compreensões futuras dessas
comunicações. Bases como o WoS e o Scopus medem essas compreensões de
forma estruturada; o Google Scholar captura compreensões difusas, sociais e
descentralizadas.
A cientometria, portanto, precisa trabalhar essas duas possibilidades: entender os
mecanismos geradores do comportamento de citação e, simultaneamente,
observar os padrões emergentes a partir desses eventos. As bases de dados são o
solo sobre o qual esse edifício analítico se sustenta, e sua escolha nunca é neutra:
ela orienta hipóteses, molda resultados e influencia políticas públicas.
7. Conclusão
A análise crítica e comparativa entre WoS, Scopus, Google Scholar mostra que não
há base perfeita, e sim adequada a determinados objetivos. O WoS e o Scopus são
ideais para estudos bibliométricos rigorosos, comparações internacionais e
avaliações institucionais. O Google Scholar oferece amplitude e capta o "lado B" da
produção científica, mas com menos confiabilidade.
Em um campo tão dinâmico quanto a cientometria, o pesquisador deve estar
atento às implicações de suas escolhas metodológicas. A pluralidade de fontes,
aliada à triangulação de métodos, parece ser o caminho mais promissor para uma
compreensão rica e multifacetada da ciência contemporânea.