Uploaded by gogoso2194

TCC Informática Final Banca

advertisement
INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO
ESPÍRITO SANTO
LICENCIATURA EM INFORMÁTICA
LUÍS SALVADOR POLDI GUIMARÃES
PROPOSTA DE IMPLANTAÇÃO DE RECONHECIMENTO DE IMAGEM E
BANCO DE DADOS UTILIZANDO REDES NEURAIS ARTIFICIAIS E SUA
APLICABILIDADE NA EDUCAÇÃO
CACHOEIRO DE ITAPEMIRIM-ES
2022
LUÍS SALVADOR POLDI GUIMARÃES
PROPOSTA DE IMPLANTAÇÃO DE RECONHECIMENTO DE IMAGEM E
BANCO DE DADOS UTILIZANDO REDES NEURAIS ARTIFICIAIS E SUA
APLICABILIDADE NA EDUCAÇÃO
Trabalho de Conclusão de Curso
apresentado à Coordenadoria do Curso de
Licenciatura em Informática do Instituto
Federal do Espirito Santo, Campus
Cachoeiro e Itapemirim, como requisito
parcial para a obtenção do titulo de
professor Licenciado em Informática.
Orientador: Prof.
Ventorim Nunes
CACHOEIRO DE ITAPEMIRIM-ES
2022
MSc.
Daniel
José
LUÍS SALVADOR POLDI GUIMARÃES
PROPOSTA DE IMPLANTAÇÃO DE RECONHECIMENTO DE IMAGEM E
BANCO DE DADOS UTILIZANDO REDES NEURAIS ARTIFICIAIS E SUA
APLICABILIDADE NA EDUCAÇÃO
Monografia apresentada à Coordenadoria
do Curso de Licenciatura em Informática
do Instituto Federal do Espirito Santo,
Campus Cachoeiro de Itapemirim, como
requisito parcial para a obtenção do título
de professor Licenciado em Informática
Aprovado em 26 de abril de 2022.
COMISSÃO EXAMINADORA
____________________________________________
Me. Daniel José Ventorim Nunes
Instituto federal do Espírito Santo –
Cachoeiro de Itapemirim
Orientador
____________________________________________
Dr. Edmundo Rodrigues Junior
Instituto federal do Espírito Santo –
Cachoeiro de Itapemirim
____________________________________________
Dr. Raul de Souza Brandão
Instituto federal do Espírito Santo –
Cachoeiro de Itapemirim
MINISTÉRIO DA EDUCAÇÃO
INSTITUTO FEDERAL DO ESPÍRITO SANTO
SISTEMA INTEGRADO DE PATRIMÔNIO, ADMINISTRAÇÃO E
CONTRATOS
FOLHA DE ASSINATURAS
Emitido em 28/04/2022
FOLHA DE APROVAÇÃO-TCC Nº 3/2022 - CAI-CCLI (11.02.18.01.08.02.06)
(Nº do Protocolo: NÃO PROTOCOLADO)
(Assinado digitalmente em 28/04/2022 15:14 )
DANIEL JOSE VENTORIM NUNES
(Assinado digitalmente em 28/04/2022 18:19 )
EDMUNDO RODRIGUES JUNIOR
PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO
CAI-CCLI (11.02.18.01.08.02.06)
Matrícula: 1918045
PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO
CAI-CCTI (11.02.18.01.08.02.07)
Matrícula: 1670128
(Assinado digitalmente em 28/04/2022 15:52 )
RAUL DE SOUZA BRANDAO
PROFESSOR DO ENSINO BASICO TECNICO E TECNOLOGICO
CAI-CCSI (11.02.18.01.08.02.13)
Matrícula: 2764324
Para verificar a autenticidade deste documento entre em https://sipac.ifes.edu.br/documentos/ informando seu
número: 3, ano: 2022, tipo: FOLHA DE APROVAÇÃO-TCC, data de emissão: 28/04/2022 e o código de
verificação: 72d139eeb7
RESUMO
A identificação de imagens por fotografia junto a um banco de dados é uma
atividade complexa como material de análise. Faz-se necessário, então, o uso de
ferramentas computacionais e matemáticas para abordar o problema de maneira
satisfatória. Neste contexto, o objetivo deste trabalho é avaliar a eficiência na
aplicação de redes neurais artificiais como forma de prever e resolver esse
problema. Futuramente, caso o estudo se apresente satisfatório, vislumbra-se a
possibilidade de desenvolvimento de um equipamento de análise para ser
direcionado para a Educação, com o qual a sua utilização poderá ser realizada
diretamente na escola ou mesmo no campo de pesquisa de maneira portátil e com
baixo custo, agregando mobilidade e agilidade à execução dessa tarefa através de
analogias biológicas educacionais. Qual seja, a comparação de pixel de imagem
com as imagens retidas nos bancos de dados somados a testes estatísticos de
previsão e correlação. Por exemplo, ao se avistar uma jabuticabeira o cérebro
humano nos informa que aquela visão trata-se de um pé de jabuticaba. E que o pé
de jabuticaba não se confunde com um pé de goiabeira. Como o cérebro identifica
estas formas? É o que se deseja fazer com as redes neurais só que agora de forma
artificial e não biológica. Como se pode notar a pesquisa deve se direcionar para
uma área da heurística, da topologia e da teoria de grupos. Que vão formar o
grande grupo denominado de neurocomputação com foco nas técnicas de
reconhecimento de padrões, processamento de imagens, sistemas de controle,
robótica, análise estatística e identificação e previsão de eventos que vão formar
sistemas. A identificação de uma pessoa é mais fácil quando se tem acesso às
suas características, cor de olhos, formato de cabeça. No entanto, esse trabalho
torna-se menos complexo quando se aplica o seu foco para a educação. Mesmo
técnicos especializados possuem dificuldades em distinguir um estudante de outro,
visto a enorme variedade de pessoas e caráter existentes. Em geral, no processo
de identificação, são analisadas as características macroscópicas (olhos,
habilidade da escrita, uso de palavras técnicas, domínio de idiomas etc.) e
microscópicas composição dos tatos, tipo e disposição das cabeças, presença de
tatuagens, detalhes da pupila entre outras características de silhuetas, exigindo do
especialista tempo e conhecimento. Dentre as novas tecnologias que estão sendo
utilizadas na identificação de alunos há a comparação de imagens através de
imagem de seu rosto, olhos, detalhes, a qual pode fornecer um conjunto de
informações de pixels para uma determinada faixa de área.
Palavras-chave: Ferramentas computacionais, tratamento de imagens, Rede
Neurais Artificiais.
ABSTRACT
The identification of images by photography in a database is a complex activity as an analysis
material. It is therefore necessary to use computational and mathematical tools to satisfactorily
address the problem. In this context, the objective of this work is to evaluate the efficiency in the
application of artificial neural networks as a way to predict and solve this problem. In the future, if
the study proves to be satisfactory, the possibility of developing an analysis equipment to be
directed to Education is envisaged, with which its use can be carried out directly at school or even
in the field of research in a portable and with low cost, adding mobility and agility to the execution
of this task through educational biological analogies. That is, the comparison of the image pixel with
the images held in the databases added to statistical tests of prediction and correlation. For
example, when seeing a jabuticaba tree, the human brain informs us that that vision is a jabuticaba
tree. And that the jabuticaba tree is not to be confused with a guava tree. How does the brain
identify these shapes? This is what we want to do with neural networks, only now in an artificial
and not biological way. As can be seen, the research should be directed to an area of heuristics,
topology and group theory. That will form the large group called neurocomputing with a focus on
pattern recognition techniques, image processing, control systems, robotics, statistical analysis and
identification and prediction of events that will form systems. Identifying a person is easier when
you have access to their characteristics, eye color, head shape. However, this work becomes less
complex when its focus is applied to education. Even specialized technicians have difficulties in
distinguishing one student from another, given the enormous variety of people and character that
exist. In general, in the identification process, macroscopic characteristics (eyes, writing skills, use
of technical words, language skills, etc.) and microscopic composition of tacts, type and
arrangement of heads, presence of tattoos, pupil details are analyzed. among other characteristics
of silhouettes, demanding time and knowledge from the specialist. Among the new technologies
that are being used in the identification of students there is the comparison of images through the
image of their face, eyes, details, which can provide a set of pixel information for a given area range.
Keywords: Computational tools, image processing, Artificial Neural Networks.
SUMÁRIO
1 INTRODUÇÃO ..................................................................................................... 9
1.1 A APRESENTAÇÃO DO PROBLEMA .............................................................. 9
1.2 OBJETIVOS DO TRABALHO .......................................................................... 10
1.2.1 Objetivo Geral ............................................................................................. 10
1.2.2 Objetivos Específicos ................................................................................ 10
1.3 JUSTIFICATIVA .............................................................................................. 11
2 REDES NEURAIS ARTIFICIAIS ........................................................................ 12
2.1 O NEURÔNIO ARTIFICIAL ............................................................................. 13
2.2 APRENDIZADO ............................................................................................... 15
2.2.1 Aprendizado Supervisionado .................................................................... 16
2.2.2 Aprendizado não-supervisionado............................................................. 17
3 PROCESSAMENTO DE IMAGENS ................................................................... 17
3.1 MÉTODOS DE ANÁLISE DE NITIDEZ ........................................................... 27
4 A APLICAÇÃO NA EDUCAÇÃO ....................................................................... 29
5 RESULTADOS ESPERADOS ........................................................................... 30
REFERÊNCIAS ..................................................................................................... 32
9
1 INTRODUÇÃO
1.1 A APRESENTAÇÃO DO PROBLEMA
A correta identificação de pessoas é importante em várias áreas, como na indústria,
na construção civil, no comércio, na preservação ambiental, na educação entre
outras. Ainda hoje, o reconhecimento é feito por especialistas através de exame
manual o que pode ser uma tarefa com alto grau de dificuldade e subjetividade.
Dessa forma, a aplicação de ferramentas computacionais para otimizar e minimizar
o tempo e apresentar dados confiáveis desse processo tornam-se atraentes para
abordar este tipo de problema.
A área de visão computacional estuda o desenvolvimento de sistemas cuja meta é
analisar e interpretar imagens, visando a obtenção de informações relevantes e
confiáveis a partir destas. É uma área ainda em desenvolvimento e que encontra
ainda algumas dificuldades para a resolução do problema em pauta. O
reconhecimento do grau de curvaturas das lentes usadas nos óculos por sistemas
computacionais envolve infinitos problemas, como a dificuldade de obtenção de
uma base de imagens; o alto custo de equipamentos para aquisição e análise de
amostras; escassez de técnicas computacionais eficientes no reconhecimento de
alunos, na correção automática das provas, nas possibilidades estatísticas
referentes a notas. No que tange à obtenção de uma base de dados, a escassez
de amostras de cada espécie, dada a enorme diversidade, representa um entrave
para formar os conjuntos necessários de imagens para treinamento, teste e
validação do software. Além disso, estes são geralmente obtidos a partir de
equipamentos de alto custo e pouca mobilidade, dificultando, ou mesmo impedindo
que amostras sejam adquiridas diretamente em campo. Visando contribuir nessa
área de pesquisa, o presente trabalho pretende empregar recursos de visão
computacional e redes neurais artificiais para avaliar sua eficiência na resolução do
problema no tocante a educação.
Procura-se com a descrição deste texto fornecer uma visão geral da área de PDI,
tendo como um dos objetivos despertar, por parte de pesquisadores brasileiros de
10
nível técnico e superior, o interesse pela área. Outro objetivo foi o de permitir uma
reciclagem ou um primeiro contato de profissionais dos diferentes setores da
educação, cujas atividades envolvam alguma informação baseada em imagens e
banco de dados. Por se tratar de uma área bastante ampla, não foi possível incluir
todos os possíveis tópicos relevantes, mas procurou-se fornecer um mínimo de
detalhes associados a cada etapa de processamento em um sistema típico de PDI,
da aquisição à classificação. Para aqueles interessados em se aprofundar nos
tópicos pouco explorados, e.g. segmentação, extração de características e
classificação, ou em outros tópicos igualmente importantes que não puderam ser
incluídos neste documento por restrições de espaço, e.g. transformações
geométricas, representação no domínio da frequência (transformada de Fourier e
Wavelets), técnicas de compressão, dentre muitos outros.
1.2 OBJETIVOS DO TRABALHO
Verificar se a utilização de redes neurais artificiais como técnica de reconhecimento
de imagens pode ser útil na identificação ou discriminação no tocante a educação
através da análise do perfil de cada aluno.
1.2.1 Objetivo Geral
Utilizar redes neurais como ferramenta de identificação de alunos procurando
selecionar
e
agrupá-los
por
agentes
psicológicos.
Separando-os
por
comportamentos: agressivos, calmo, inteligente, com dificuldades, uso da visão e
óculos, audição, altura, postura entre outras variáveis.
1.2.2 Objetivos Específicos
Analisar e comparar o desempenho de diferentes implementações de rede neurais
artificiais para classificação dos alunos, como sexo, presença de tatuagens,
pircings, e aspectos neurais: inteligência, assiduidade, medição do tempo de
concentração de cada um, testes de agilidade e motricidade;
Futuramente desenvolver equipamento de baixo custo e alta mobilidade para
minimizar o tempo e o custo de análise.
11
1.3 JUSTIFICATIVA
Ao presenciar um Conselho de Classe percebi quanta informação são lançadas
fora. O professor traça uma anamnese do aluno e esses dados não são registrados
através de um banco de dados. Características de comportamento, assiduidade,
percepção, inquietude, indisciplinas entre outros nada disso é registrado num banco
de dados escolar. A Escola oferece um ambiente para uma anamnese completa.
Juntando todas estas informações num banco de dados têm-se infinitas variáveis
para análise futura de um caráter. Quais as características de um gênio? De um
psicopata, de um engenheiro de um médico? Perde-se tudo isto por não se dispor
de um banco de dados e um banco de imagens na Escola.
Imagine se tivesse todos os dados do Bolsonaro num banco de dados? Poder-seia estudar o perfil de um aluno que teria chance de ser um Presidente do Brasil.
Obter maior agilidade no auxílio à identificação de alunos. Tipo ágeis, mole,
espertos, atenciosos, educados, relação com os pais entre outros.
Embora a rede neural possa não ser capaz de dar uma resposta exata, uma
aproximação, já facilita a análise ao indicar uma maior probabilidade de que uma
amostra de alunos possa ser agrupados de acordo com alguma característica. Seja
de determinado grupo ético seja de pais separados, pais casados direitinhos, pais
empregados, uso de drogas. Destacar semelhanças/padrões entre as amostras
analisadas. E como se investiga também a possibilidade de utilização em
computadores portáteis para serem usados dentro da sala de aula. Em conjunto
com equipamentos que não necessitem de tratamento da amostra, conferindo
agilidade na análise bem como mobilidade do instrumental através da aplicação de
redes neurais, já que uma RNA possui capacidade de adquirir experiência e
aperfeiçoar seu desempenho, baseando-se em dados reais para gerar um modelo
genérico, objetivando a identificação de padrões nesses dados.
12
2 REDES NEURAIS ARTIFICIAIS
A área de redes neurais artificiais (RNAs), também conhecidas como conexionismo
ou sistemas de processamento paralelo e distribuído é uma forma de computação
não algorítmica e caracteriza-se por sistemas que aparentam a estrutura do cérebro
humano. RNAs são sistemas paralelos distribuídos compostos por unidades de
processamento simples (neurônios artificiais) que calculam determinadas funções
matemáticas. Tais unidades são dispostas em uma ou mais camadas e interligadas
por um grande número de conexões, geralmente unidirecionais. Na maioria dos
modelos essas conexões estão associadas a pesos, os quais armazenam o
conhecimento adquirido pelo modelo e servem para ponderar a entrada recebida
por cada neurônio da rede.
Tipicamente, uma RNA é organizada de modo que uma camada seja a de entrada,
que recebe entradas a serem classificadas. Essas entradas provocam a ativação
de alguns neurônios na camada de entrada e estes neurônios, por sua vez, enviam
sinais aos neurônios aos quais estão conectados, alguns dos quais também ativam
e assim em diante. Deste modo, um padrão complexo de ativações é organizado
pela rede, resultando finalmente, na ativação de alguns neurônios na camada de
saída.
As conexões entre os neurônios são ponderadas e, ao modificar estes pesos, a
rede neural pode ser organizada para realizar tarefas de classificação
extremamente complexas, tais como análise de caligrafia e reconhecimento de
imagens. A solução de problemas por meio de RNAs é bastante atrativa, pois da
forma que estes são representados internamente pela rede e o paralelismo natural
inerente à arquitetura das RNAs apresentam a possibilidade de um desempenho
superior ao de modelos convencionais. Em RNAs, o procedimento usual na solução
de problemas se inicia por uma fase de aprendizagem, na qual um conjunto de
exemplos é apresentado para a rede, que extrai as características necessárias para
representar a informação fornecida.
Posteriormente, estas características são utilizadas para gerar respostas para o
problema. As RNAs são capazes de extrair informações não apresentadas de forma
explícita através dos exemplos. Além disso, são capazes de atuar como
13
mapeadores universais de funções multivariáveis, com custo computacional que
cresce apenas linearmente com o número de variáveis. Outra importante
característica é a capacidade de auto-organização e de processamento temporal.
Todas estas características fazem das RNAs uma ferramenta computacional
atrativa para a solução de problemas complexos.
Como se pode então observar dos enunciados acima uma Rede Neural Artificial é
um modelo matemático inspirado na neurobiologia, cujo objetivo é representar a
cognição humana ou o neurônio biológico de forma generalizada. Considera-se
generalização o fato da RNA produzir saídas adequadas para entradas que não
estavam presentes no seu treinamento (fase de aprendizagem). Sua principal
propriedade é a capacidade de aprender a partir do meio e de aperfeiçoar o seu
desempenho de forma ordenada, a fim de atingir um objetivo estabelecido. O
processo de aprendizagem ocorre de forma iterativa e consiste nos ajustes
aplicados aos pesos sinápticos e níveis de bias, que são análogos às intensidades
dos sinais de sinapses dos neurônios biológicos. Esses ajustes fazem com que a
rede torne-se mais instruída sobre seu ambiente após cada iteração do algoritmo
de aprendizagem. De forma genérica pode-se dizer que aprendizagem é um
procedimento onde os pesos e bias são adaptados através de estímulos oriundos
do ambiente ao qual a rede está inserida, sendo que o tipo de aprendizagem é
determinado pelo modo como ocorre a modificação desses parâmetros (OLIVEIRA
et al, 2015).
2.1 O NEURÔNIO ARTIFICIAL
As RNAs tentam reproduzir as funções das redes neurais biológicas, buscando
implementar seu comportamento funcional e sua dinâmica. Como características
comuns entre estes dois tipos de redes, pode-se citar que ambos são baseados em
unidades de computação paralela e distribuída que se comunicam por meio de
conexões sinápticas, possuem detectores de características, redundâncias, e
modularização das conexões.
Essas características comuns permitem às RNAs reproduzir com fidelidade várias
funções cognitivas e motoras dos seres humanos. O neurônio artificial é um modelo
14
simplificado do neurônio biológico. Tais modelos inspirados a partir da análise da
geração e propagação de impulsos elétricos pela membrana celular dos neurônios.
São modelo não-lineares, fornecem saídas tipicamente contínuas, e realizam
funções simples, como coletar sinais existentes em suas entradas, agregá-los de
acordo com a sua função de ativação.
Sinais de entrada { X1, X2, …, Xn }: São os sinais externos normalmente
normalizados para incrementar a eficiência computacional dos algoritmos de
aprendizagem.
Pesos sinápticos { W1, W2, …, Wn }: São valores para ponderar os sinais de cada
entrada da rede.
Combinador linear { Σ }: Agregar todos sinais de entrada que foram ponderados
pelos respectivos pesos sinápticos afim de produzir um potencial de ativação.
Limiar de ativação { Θ }: Especifica qual será o patamar apropriado para que o
resultado produzido pelo combinador linear possa gerar um valor de disparo de
ativação.
Potencial de ativação { u }: É o resultado obtido pela diferença do valor produzido
entre o combinador linear e o limiar de ativação. Se o valor for positivo, ou seja, se
u ≥ 0 então o neurônio produz um potencial excitatório; caso contrário, o potencial
será inibitório.
Função de ativação { g }: Seu objetivo é limitar a saída de um neurônio em um
intervalo de valores.
Sinal de saída { y }: É o valor final de saída podendo ser usado como entrada de
outros neurônios que estão sequencialmente interligados.
15
2.2 APRENDIZADO
Uma das características mais importantes das RNAs é sua capacidade de aprender
por meio de exemplos. Na abordagem conexionista, o conhecimento não é
adquirido através de regras explícitas como na Inteligência Artificial simbólica, mas
através de ajuste das intensidades das conexões entre os neurônios. A etapa de
aprendizado consiste em um processo iterativo de ajuste de parâmetros da rede,
os pesos das conexões, que guardam, ao final do processo, o conhecimento que a
rede adquiriu do ambiente externo.
Uma definição geral do que vem a ser aprendizado pode ser expresso da seguinte
forma [MM70]: Aprendizado é o processo pelo qual os parâmetros livres de uma
rede neural são ajustados por meio de uma forma continuada de estímulo pelo
ambiente externo, sendo o tipo específico de aprendizado definido pala maneira
particular como ocorrem os ajustes dos parâmetros livres.
É importante ressaltar que o conceito de aprendizado está relacionado com a
melhoria do desempenho da rede segundo algum critério estabelecido. O erro
quadrático médio da resposta da rede em relação ao conjunto de dados fornecido
pelo ambiente, por exemplo, é utilizado como critério de desempenho pelos
algoritmos de correção de erros. Assim quando esses algoritmos são utilizados nos
treinamentos de RNAs, espera-se que o erro diminua à medida que o aprendizado
prossiga.
Os algoritmos de aprendizado diferem basicamente na forma como o ajuste dos
pesos é calculado. Há vários algoritmos diferentes para treinamento de redes
neurais, podendo os mesmos serem agrupados em dois paradigmas principais:
aprendizado supervisionado e aprendizado não-supervisionado.
16
2.2.1 Aprendizado Supervisionado
Redes de aprendizado supervisionado aprendem ao serem apresentadas a dados
de treinamento pré-classificados. A aprendizagem se dá ao serem modificados os
pesos das conexões de suas redes, para classificar mais precisamente os dados
de treinamento.
Deste modo, em muitas situações, redes neurais são capazes de generalizar, com
grande grau de precisão, a partir de um conjunto de dados de treinamento,
chegando ao conjunto completo de entradas possíveis. Um dos métodos mais
comumente usados para o aprendizado supervisionado é retropropagação.
Aprendizado supervisionado exige a existência de um supervisor, ou professor
externo, o qual é responsável por estimular as entradas da rede por meio de
padrões de entrada e ao observar a saída calculada pela mesma, comparando-a
com a saída desejada. Como a resposta da rede é função dos valores atuais do
seu conjunto de pesos, estes são ajustados de forma a aproximar a saída da rede
da saída desejada. Para cada padrão de entrada, a rede tem sua saída corrente
comparada com a saída desejada pelo supervisor, que fornece informações sobre
a direção de ajuste dos pesos.
A minimização da diferença é incremental, já que pequenos ajustes são feitos nos
pesos a cada etapa de treinamento, de tal forma que caminhem, se houver solução
possível, para uma solução. O aprendizado supervisionado se aplica a problemas
em que se deseja obter um mapeamento entre padrões de entrada e saída. Os
exemplos mais conhecidos de algoritmos para aprendizado supervisionado são a
regra delta [WH60] e a sua generalização para redes de múltiplas camadas, o
algoritmo back-propagation [RHW86].
O aprendizado supervisionado pode ser implementado basicamente de duas
formas: off-line e on-line. Para treinamento off-line, os dados do conjunto de
treinamento não mudam, e, uma vez obtida uma solução para a rede, esta deve
permanecer fixa. Caso novos dados sejam adicionados, um novo treinamento,
envolvendo também os dados anteriores, deve ser realizado para se evitar
interferência no treinamento anterior. Por sua vez, no aprendizado on-line o
17
conjunto de dados muda continuamente, e a rede deve estar em um contínuo
processo de adaptação.
2.2.2 Aprendizado não-supervisionado
Métodos de aprendizado não-supervisionado aprendem sem qualquer intervenção
humana, não há um professor ou supervisor externo para acompanhar o processo
de aprendizado. Neste esquema de treinamento somente os padrões de entrada
estão disponíveis para a rede, ao contrário do aprendizado supervisionado, cujo
conjunto de treinamentos possui pares de entrada e saída. Durante o processo de
aprendizado os padrões de entrada são apresentados continuamente à rede, e a
existência de regularidades nesses dados faz com que o aprendizado seja possível.
Regularidade e redundância nas entradas são características essenciais para
haver aprendizado não-supervisionado.
O aprendizado não-supervisionado se aplica a problemas que visam a descoberta
de características estatisticamente relevantes nos dados de entrada, em que estes
precisem ser classificados ou agrupados em um conjunto de classificações que não
são conhecidas previamente.
No entanto, neste tipo de aprendizado não existe um supervisor externo, sendo o
ajuste dos pesos feito independentemente de qualquer critério de desempenho da
resposta da rede, por meio de um mecanismo local às sinapses.
3 PROCESSAMENTO DE IMAGENS
Nos últimos anos as RNAs ganharam popularidade como ferramenta alternativa e
às vezes complementar as técnicas clássicas de reconhecimento de imagens.
Nessa área, a aplicação das RNAs envolvem reconhecimento de caracteres
escritos à mão, compactação de dados, análise de componentes independentes,
codificação, entre outros. Em reconhecimento de imagens, os problemas requerem
o tratamento de imagens de alta definição com uma grande quantidade de
informação adicional, como coloração e posicionamento no espaço tridimensional.
O tratamento desses problemas com RNAs frequentemente requer a utilização de
técnicas convencionais de processamento de imagens para pré-processar os
18
dados e então apresentá-los de uma maneira tratável para a rede. A visão
computacional que utiliza RNAs encontra aplicações nas mais diversas áreas: o
reconhecimento de faces para sistemas de identificação criminal, e o controle de
qualidade em linhas de produção são dois exemplos.
Embora abordagens em que a imagem completa é analisada têm sido bastante
utilizadas com RNAs, surge o problema da dimensionalidade. Cottrel e Fleming
(1990 in CARLOS JÚNIOR, 2011), em seu trabalho utilizam imagens de 64 por 64
pixels, resultando em RNAs com 4.096 entradas. E o número de entradas da RNA
cresce de forma quadrática com as dimensões das imagens de entrada. Isso se
torna um problema crítico em resoluções mais altas, o que restringe a utilização de
RNAs a situações em que há um pré-processamento, para redução de dimensão
da informação de entrada. Este é o caso, por exemplo, de abordagens como a de
projeção em escala de cinza.
Boçois (2012 in OLIVEIRA, 2013) desenvolveu uma Rede Neural com arquitetura
de Kohonen para a identificação de seis doenças dermatológicas (Impetigo,
Cromoblastomicose, Esporotricose, Herpes Labial, Larva Migrans Cutânea e
Leishmaniose Tegumentar) a partir das características da lesão apresentada pelo
paciente. Para a identificação dos agrupamentos foi utilizado o método de
visualização da U-matriz e o sistema descritor RGB. A rede obteve um acerto geral
de 94,5% no conjunto de testes. Demonstrando que o emprego de redes neurais
são viáveis para o reconhecimento de sistemas por fotografias.
Paula Filho (2012) também elaborou um protocolo comparativo entre diversos
métodos de classificação, não necessariamente fazendo uso de Redes Neurais,
mediante a análise de imagens macroscópicas de madeira cortada. Foram
construídas duas bases de imagens (obtidas em campo e em laboratório) a partir
de amostras de madeira de espécies florestais encontradas no território nacional.
Os atributos extraídos, de acordo com o protocolo proposto, foram avaliados por
técnicas como análise de cor, Gray-level Co-occurrence Matrices, histograma de
borda, Fractais e filtro Gabor. Os resultados foram de 95,82% de acerto para
imagens colhidas em campo e 99,49% para as imagens obtidas em laboratório.
Estes resultados demonstram que se pode confiar nos resultados informáticos
19
assistidos por computadores no tocante a reconhecimento de imagens de
parênquimas.
Pinto Junior et al. (2006) proporam uma RNA para identificar classes de defeitos de
madeira serrada de eucalipto em imagens digitais, utilizando-se como
características os percentuais das bandas do vermelho, verde e azul detectados
por uma câmera especial dotada de filtro RGB. Os resultados variam de 76,6% a
83,1% de acerto, dependendo do tamanho dos blocos de madeira analisados.
Labati et al. (2009 in OLIVEIRA, 2013) desenvolveram um mecanismo para
classificação de alguns tipos de madeira, utilizadas na fabricação de painéis, a
partir dos espectros de infravermelho captados por filtros ópticos de baixo custo
acoplados a um conjunto de fotodetectores. A ideia é treinar uma rede para
identificar se a madeira utilizada é adequada para a fabricação de painéis e juntála a um sistema de reconhecimento eletrônico. Faz-se incidir um feixe de laser
sobre a amostra e fotodetectores com filtros nas cores vermelho, verde e azul
captam as frequências de infravermelho associadas. Dentre as duas situações de
teste propostas, o melhor desempenho atingiu precisão, no reconhecimento,
superior a 97%.
Esteban et al. (2009 IN oliveira, 2013) foi utilizada uma Rede Neural do tipo
Perceptron
com
Backpropagation
com
regularização
Bayesiana
para
a
identificação de dois tipos de madeira de árvores nativas das Ilhas Canárias,
Juniperus cedrus e J. phoenicea. Como essas duas espécies apresentam
características anatômicas similares, a ideia da rede desenvolvida foi utilizar, em
conjunto, atributos biométricos e anatômicos para classificação. O percentual de
sucesso atingido no reconhecimento foi de 92%.
Packianather e Drake (2000 in OLIVEIRA, 2013) aplicaram uma RNA com o
objetivo de identificação de falhas em madeira laminada colada (em inglês plywood)
produzidas por uma indústria de beneficiamento. A ideia é que um sistema
computadorizado possa fazer a identificação de 12 tipos de falhas poupando
recursos humanos para tal tarefa. O trabalho resultou numa precisão de 86,5% e
numa diminuição no tempo de identificação se comparado com classificadores
humanos.
20
Jordan et al. (1998) utilizou as respostas elásticas, devido à excitação ultrassônica
da madeira, para treinar uma RNA com o objetivo de classificar sua origem entre
os quatro diferentes espécimes de árvores utilizadas. Foi utilizada uma RNA do tipo
MLP (Multilayer Perceptron) com 3 camadas. O modelo teve desempenho
aproximado de 97% na classificação das espécies.
Bremananth et al. (2009) as diferenças nas características presentes nas cascas
de espécies distintas de árvores foram utilizadas para treinar uma RNA como
ferramenta de classificação. As informações para treinamento da rede foram
obtidas pela análise da imagem das suas cascas mediante técnicas como Graylevel Cooccurrence Matrices (GLCM) e passaram por um tratamento estatístico
com PCA (Principal Component Analisys). Quatro espécies de árvores, nativas da
América do Norte, foram utilizadas no trabalho. O resultado atingiu 97% de
precisão.
Em fim, de acordo com as várias citações acima se pode concluir que o
Processamento Digital de Imagens (PDI) não é uma tarefa simples, na realidade
envolve um conjunto de tarefas interconectadas. Tudo se inicia com a captura de
uma imagem, a qual, normalmente, corresponde à iluminação que é refletida na
superfície dos objetos, realizada através e um sistema de aquisição. Após a captura
por um processo de digitalização, uma imagem precisa ser representada de forma
apropriada para tratamento computacional. Imagens podem ser representadas em
duas ou mais dimensões. O primeiro passo efetivo de processamento é comumente
conhecido como pré-processamento, o qual envolve passos como a filtragem de
ruídos introduzidos pelos sensores e a correção de distorções geométricas
causadas pelo sensor.
Concluído esta etapa de processamento de imagens que incorpora fundamentos
de várias ciências, como Física, Computação, Matemática. Conceitos como Óptica,
Física do Estado Sólido, Projeto de Circuitos, Teoria dos Grafos, Álgebra,
Estatística, dentre outros, são comumente requeridos no projeto de um sistema de
processamento de imagens. Existe também uma interseção forte entre PDI e outras
disciplinas como Redes Neurais, Inteligência Artificial, Percepção Visual, Ciência
Cognitiva. Há igualmente um número de disciplinas as quais, por razões históricas,
21
se desenvolveram de forma parcialmente independente do PDI, como
Fotogrametria, Sensoriamento Remoto usando imagens aéreas e de satélite,
Astronomia e Imageamento Médico (QUEIROZ; GOMES, 2001).
Uma imagem monocromática é uma função bidimensional contínua f (x,y), na qual
x e y são coordenadas espaciais e o valor de f em qualquer ponto (x,y) é
proporcional à intensidade luminosa (brilho ou nível de cinza) no ponto considerado.
Como os computadores não são capazes de processar imagens contínuas, mas
apenas arrays de números digitais, é necessário representar imagens como
arranjos bidimensionais de pontos. Cada ponto na grade bidimensional que
representa a imagem digital é denominado elemento de imagem ou pixel. É comum
para o armazenamento de imagens a notação matricial usual para a localização de
um pixel no arranjo de pixels de uma imagem bidimensional. O primeiro índice
denota a posição da linha, m, na qual o pixel se encontra, enquanto o segundo, n,
denota a posição da coluna. Se a imagem digital contiver M linhas e N colunas, o
índice m variará de 0 a M-1, enquanto n variará de 0 a N-1. Observe-se o sentido
de leitura (varredura) e a convenção usualmente adotada na representação
espacial de uma imagem digital.
Ainda segundo os autores Queiros e Gomes (2001) existem vários modelos de
sistemas para processamento de imagens que têm sido propostos e
comercializados no mundo inteiro nas duas últimas décadas. Entre meados das
décadas de 80 e 90, com a progressiva redução nos custos das tecnologias de
hardware, as tendências de mercado voltaram-se para placas projetadas, segundo
padrões industriais, para uso em computadores pessoais e estações de trabalho.
Assim, surgiram diversas empresas que se especializaram no desenvolvimento de
software dedicado ao processamento de imagens. Nos dias de hoje, o extenso uso
dos sistemas para processamento de imagens desta natureza ainda é um fato,
sobretudo em aplicações de sensoriamento remoto (processamento de produtos
aerofotogramétricos e orbitais) e imageamento biomédico (processamento de
imagens geradas a partir de MR, CT, PET/ SPEC, tomografia óptica, ultrasonografia e raios X). Todavia, tendências recentes apontam para a miniaturização
e integração do hardware especializado para processamento de imagens a
computadores de pequeno porte de uso geral.
22
A classificação somada a recuperação de imagens por conteúdos têm forte relação
com as áreas de sistemas de informação e banco de dados. Uma consulta
tradicional a um banco de dados normalmente envolve a utilização de chaves
primárias ou estrangeiras textuais ou numéricas como parte de expressões
relacionais e lógicas. O próximo passo lógico é justamente incluir campos e
operações (e.g. classificação, segmentação, etc.) sobre imagens na consulta.
Atualmente existem vários sistemas de banco de dados comerciais (e.g. Oracle) e
não-comercias
(e.g.
Postgres)
SQL,
Apache
que
permitem
algumas
funcionalidades envolvendo imagens. Um sistema para a classificação de imagens
coletadas da Web em duas classes semânticas, gráficos e fotografias. O sistema
pode utilizar um método de classificação baseado em árvores de decisão (ID 3, um
algoritmo de indução de árvores de decisão a partir de exemplos, popular na área
de IA). Onde pode ser identificado um conjunto de características adequadas à
separação entre as duas classes semânticas escolhidas. Características marcantes
de fotografias identificadas no trabalho foram:
a) existências de objetos reais com uma tendência a texturas e ausência de
regiões com cores constantes;
b) pequenas diferenças na proporção (altura x largura);
c) poucas ocorrências de regiões com alta saturação de cores;
d) presença de um grande número de cores utilizadas.
As características identificadas como marcantes de gráficos foram:
a) presença de objetos artificiais com bordas bem definidas bem como a
presença de regiões cobertas com cores saturadas;
b) grandes diferenças na proporção e tendência a serem menores em
tamanho do que fotografias. Assim, foram definidas métricas sobre o número de
cores, a cor predominante, o vizinho mais distante, a saturação, o histograma de
cores, o histograma do vizinho mais distante, a proporção das dimensões e a menor
dimensão.
23
Ao ser digitalizada a imagem assume um tamanho adimensional, em pixels. Mas,
pode-se conhecer uma medida de qualidade da amostragem, conhecendo-se a
razão entre o número de pixels obtido e o tamanho da imagem real no filme ou
equivalente. A isso chama-se de resolução da imagem. Em geral, é medida em
pontos por polegada ou DPI (dots per inch), mas pode ser também em pontos por
centímetro ou DPC, ou ainda em qualquer outra unidade equivalente. Também é
simples estabelecer a relação: número de pixels = resolução x tamanho real. Para
entender melhor isso, pode-se fazer a seguinte questão: Dado o tamanho da
imagem, quantos valores discretos vão ser tomados? Escolhendo-se a resolução a
resposta é dada pela equação acima. Veja algumas resoluções típicas: Monitor
Comum - 72 DPI; Scanner - 1200 DPI; Impressora Jato de Tinta Popular - 600 DPI.
Como se trabalha em duas dimensões, pode-se definir uma resolução horizontal e
uma vertical. Quando nada se diz a respeito disso, quer dizer que são iguais (a
grande maioria das vezes), caso contrário são necessários dois valores. Uma vez
que são diferentes, a razão de aspectos da área entre um pixel e outro não é 1:1 e,
portanto não é um quadrado. Isso gera algumas confusões, pois no monitor a razão
é 1:1 e esta imagem quando visualizada aparecerá deformada (SCURI, 2002).
A utilização da visão computacional para o reconhecimento de imagens de madeira
emprega como características relevantes as de cor e textura da imagem. Cada
espécie contém um padrão único de textura seja em sua casca ou no plano de corte
da madeira. Khalid et al. (KHALID et al., 2008 in: PAULA FILHO, 2012) propuseram
um sistema de reconhecimento de espécies de madeira. Foram utilizadas imagens
adquiridas em laboratório, utilizando câmeras monocromáticas de padrão industrial
e lentes e iluminação apropriadas. O pré-processamento consistiu em um filtro
passa-alta e ajustes de contraste e equalização do histograma da imagem. Foi
aplicado o método GLCM – Gray-Level Co-ocurrence Matrices para a extração das
características de segundo momento angular, contraste, correlação, entropia e
momento diferencial inverso. Esses atributos foram aplicados em uma RNA – Rede
neural artificial, que classificou 20 espécies diferentes. As taxas de acerto
chegaram a 95%.
Em (BREMANANTH et al., 2009 IN: PAULA FILHO, 2012) os autores apresentam
outro sistema de reconhecimento de espécies de madeira. Inicialmente, foi
24
realizado um pré-processamento para a conversão das imagens coloridas para tons
de cinza e redimensionamento para um tamanho padrão. A análise de textura foi
utilizada para a extração de características únicas de cada imagem e o método
utilizado foi o GLCM. Com o GLCM foram extraídas as características de energia,
entropia, homogeneidade, momento diferencial inverso e segundo momento
angular. O GLCM é gerado acumulando o número total de pixels cinzas pares da
imagem. Na classificação foi utilizada a co-relação da textura, através do GLCM, e
as taxas de acerto foram satisfatórias para a classificação de 10 tipos de espécies
de madeira.
No trabalho de (TOU et al., 2007 in: PAULA FILHO, 2012), é explorada a
possibilidade de desenvolver um sistema capaz de reconhecer tipos de madeira
baseado em sua anatomia utilizando redes neurais artificiais (RNA). O método
GLCM foi utilizado para a extração das características e a rede neural do tipo MLP
– Multi Layer Perceptron. A matriz GLCM foi gerada em quadro direções (0o, 45 o,
90 o, 135 o) e as características de textura extraídas foram contraste, co-relação,
energia, homogeneidade e entropia. O contraste é utilizado
para medir as
variações locais da imagem, a co-relação mede a probabilidade da ocorrência de
um par específico de pixels, energia pode ser traduzida como a uniformidade do
segundo momento angular que é a soma do quadrado dos elementos da matriz
GLCM e homogeneidade é a medida da distribuição dos elementos na matriz
GLCM relacionando a diagonal e as medidas de entropia. Assim, com as 5
características analisadas nas quatro direções obteve-se 20 características para
serem extraídas de cada imagem. No primeiro experimento, essas 20
características foram introduzidas em uma RNA que utilizou 20 neurônios na
camada oculta e cinco neurônios na camada de saída e obteve 72% de precisão,
sendo que para duas espécies obtiveram 100%. No segundo experimento, a
diferença foi que a característica de energia foi retirada nas quatro direções,
resultando em 16 neurônios na camada de entrada. Os resultados foram de 60% e
uma espécie obteve o reconhecimento de 100% das amostras. Esses experimentos
mostraram que as técnicas GLCM e MLP são eficientes para o reconhecimento de
madeira. Outra conclusão desse trabalho foi que a característica de entropia não
se mostrou muito útil para o reconhecimento das amostras. Resultados importantes
que subsidiam esta pesquisa, pois indicou dois métodos que deram resultados
25
satisfatório e desencorajou, nesta pesquisa, o uso das caracterísitcas de entropia
no processamento de imagens de parênquimas de madeira.
Ainda em Tou et al. (TOU et al., 2009 in: PAULA FILHO, 20012) foi proposto um
estudo comparativo de técnicas de classificação de textura para o reconhecimento
de madeira, continuando o trabalho proposto em (TOU et al., 2007 já anteriormente
citado). Os testes foram realizados para a identificação de seis espécies, utilizando
100 imagens de cada espécie, das quais 90% utilizadas para treinamento e 10%
para testes. O classificador escolhido foi o classificador supervisionado dos k
vizinhos mais próximos – k-NN. Cinco experimentos foram realizados, utilizando
como método de extração de características GLCM, filtros Gabor, combinação
GLCM e Gabor, matriz de covariância e verification-based recognition. No
experimento usando atributos GLCM a melhor taxa de acerto foi de 76,67% e foram
extraídas as características de contraste, correlação, energia, entropia e
homogeneidade, nas oito direções, para garantir invariância de rotação. No
experimento usando filtros Gabor, o número de características extraídas foi
reduzido através do método SVD – Single Value Decomposition, e obteve uma taxa
de acerto de 73,33%. Na combinação dos métodos GLCM e filtro Gabor a taxa
obtida foi de 76,67%. A matriz de covariância foi gerada utilizando os filtros Gabor
e nesse método foi 85% de acerto, a melhor taxa entre os métodos abordados
nesse estudo. No último experimento onde foi empregado o método verificationbased recognition usando quatro matrizes de co-ocorrência com distância de 1 pixel
em oito tons de cinza, foi obtido 78,33% de taxa de acerto.
Em (OLIVEIRA, 2013), foi proposto um método para a detecção de defeitos em
tábuas de madeira de Pinus utilizando visão computacional. A otimização do corte
de matéria necessita da detecção dos defeitos para maximizar a produção dessa
área. O método foi composto por duas câmeras do tipo line scan, computador,
iluminação baseada em leds e um transportador. As tábuas percorrem o
transportador e a imagem de ambas as faces são capturadas pelas câmeras, que
estão sincronizadas com a velocidade do transportador. As imagens são
processadas utilizando a extração de características de dois conjuntos principais.
O primeiro é baseado em características de cor e utiliza histogramas de percentis
cada canal de cor Red, Green e Blue do sistema RGB. Foram extraídas 10
26
características de percentis para cada um dos três canais. O segundo conjunto,
relativo à textura das imagens, emprega o método da matriz de co-ocorrência
(GLCM) que representa a relação entre os pixels dentro de uma região. Foram
escolhidas as características de contraste, energia, entropia e co-relação. Para
minimizar o impacto da seleção incorreta de características, como características
co-relacionadas e interdependências, foi utilizado o algoritmo genético multiobjetivo NSGA - Non-Dominated Sorting Algorithm. Na fase de classificação foram
utilizados os paradigmas de aprendizagem de máquina SVM – Support Vector
Machines e RNA do tipo MLP. Utilizando as características de cor, a melhor taxa
de acerto com a RNA foi de 98,1% e com a SVM a taxa foi de 98,7%. Obtendo as
características través da matriz de co-ocorrência, as melhores taxas foram de
97,5% e 98,0 para RNA e SVM, respectivamente. Foi possível observar que tanto
as características de cor quanto as características de textura apresentaram
resultados similares.
Em (YU et al., 2009) é apresentado um método de recuperação de imagens de
madeira que integra as características de cor, textura e informação espacial,
baseado nas técnicas de extração de características: HSV, GLCM, modelos LRE,
wavelets e algoritmos fractais. Destas técnicas foram extraídas as características:
matiz, saturação, valor, contraste, segundo momento angular, soma das variâncias,
LRE, dimensão fractal e proporção wavelet de energia horizontal. Para as
características relativas a cor, usou-se o modelo HSV – Hue, Saturation, Value, e
através do método GLCM foram extraídos contraste, segundo momento angular e
soma das variâncias. No aspecto da textura, foi calculado o LRE - long run
emphasis, através das técnicas de wavelet foi calculada a proporção de energia da
baixa frequência horizontal e por fim foi obtida a dimensão fractal. Foram realizados
três experimentos. No primeiro somente as características do modelo HSV foram
utilizadas, e propuseram um método de divisão espacial não igualitário descrito em
(YU et al., 2009b), no qual o canal H é dividido em nove blocos, e os canais S e V
em quatro blocos cada. No final, o vetor de características foi transformado em um
histograma unidimensional de 164 elementos para simplificar a complexidade
computacional. No segundo experimento foram usadas características de textura.
Concluiu-se que o uso de características de cor, ou de textura isoladas não foram
suficientes para um resultado satisfatório, o que levou ao último experimento que
27
combinou ambas características. Após o terceiro experimento, concluiu que para o
reconhecimento de imagens de madeira, a cor e a textura são as características
visuais mais importantes e que apenas uma das mesmas não pode construir uma
ferramenta de reconhecimento que tenha resultado satisfatório, e que para um bom
índice de precisão deve-se combinar tanto atributos de cor quanto de textura.
3.1 MÉTODOS DE ANÁLISE DE NITIDEZ
Em (PECH-PACHECO et al., 2000 IN: barros, 2013) a avaliação de nitidez em
imagens é apresentada. A nitidez se refere a clareza de detalhes e é composta pela
capacidade da percepção humana e fórmulas matemáticas para dispositivos
digitais. Assim, não se constitui tarefa trivial combinar aspectos subjetivos e
objetivos para se obter uma avaliação de nitidez. Métricas para quantificar a nitidez
fazem análise das bordas dos objetos presentes nas imagens através de algoritmos
de detecção de bordas. Utilizando medidas de foco Tenengrad, uma imagem bem
focada deve apresentar bordas nítidas. Assim, o uso de imagens de gradiente
podem ser utilizadas como um instrumento para determinar uma medida confiável
de foco.
Em (ANAICE, 2010) os autores propõem quatro métricas de nitidez: Tenengrad e
variância do operador Sobel – baseadas no cálculo do gradiente e Operador
Laplaciano e Variância do Operador Laplaciano - baseadas no cálculo do
Laplaciano. Essas quatro métricas foram usadas no estudo juntamente com os
métodos no Reference Blur Metric Gx, No Reference Blur Metric Gy e Global
Sharpness. Para se comparar cada métrica é necessário usar de artifícios
matemáticos para o estudo da nitidez. Existe uma dificuldade em atribuir um valor
que represente quão nítida é uma imagem, visto que essa medida pode ser
subjetiva, porém pode-se através da degradação artificial da máscara da média
estabelecer uma escala de nitidez relativa. Essa escala não se aplica a
degradações reais que são mais complexas, porém pode ser utilizada com ponto
inicial para o estudo de métricas em uma base com essa escala. O estudo se
baseou em imagens simples nos quesitos contraste, conteúdo e fundo. As imagens
foram geradas artificialmente. O uso de imagens reais foi evitado devido as
mesmas serem complexas podendo ter diversos objetos diferenciados entre si, e
28
tipos de fundo variados e heterogêneos em contraste e textura. A base foi composta
com 15 imagens e para cada uma foi gerada máscaras onde as mesmas foram
sendo borradas. No total foram utilizadas 105 imagens. O classificador utilizado foi
o k-NN e foram executados dois experimentos sendo o primeiro para medir a nitidez
e o outro para medir a falta de nitidez. De acordo com os testes, a métrica de
Tenengrad foi a que obteve a melhor taxa de acerto com 81,25% para o
reconhecimento das imagens que apresentavam total nitidez. Outra conclusão
desse trabalho foi que a taxa de reconhecimento da falta de nitidez foi baixa,
portanto o reconhecimento de nitidez foi o que obteve taxas mais promissoras.
O foco de uma imagem determina sua qualidade, bem como desempenha um papel
significativo em aplicações de visão computacional em diversas áreas, tais como
fotografia digital, visão robótica e microscopia (WEE, 2006 in: BARROS, 2013).
A percepção da nitidez de uma imagem está relacionada com a clareza de detalhes
e as definições das bordas de uma imagem (CAVIEDES, 2002 in: BARROS, 2013).
A visão humana é capaz de perceber uma imagem com detalhes, e as áreas de
baixa nitidez podem ser identificadas de forma relativamente fácil. Porém ao
capturar essa imagem com dispositivos eletrônicos, essa tarefa não é trivial (VU,
2012 in: BARROS, 2013), bem como alguns elementos da mesma podem não ficar
claramente visíveis, contendo áreas desfocadas (CHOUDHURY, 2011 in:
BARROS, 2013). Assim, identificar essas áreas é uma tarefa necessária e que pode
melhorar o reconhecimento dessas imagens através de técnicas computacionais.
Métricas de nitidez podem ser utilizadas como parâmetro para a aplicação de
algoritmos de melhoria de nitidez, bem como podem ser também utilizadas para
estimar o ruído ocasionado na nitidez de uma imagem por alguns algoritmos de
compressão (FERZLI, 2009 in: BARROS, 2013). Imagens desfocadas, ou pouco
nítidas, tendem a possuir menos informações do que imagens mais nítidas. A
qualidade do foco de uma imagem afeta as bordas dos objetos de uma imagem.
Uma imagem com bom foco deve possuir bordas bem definidas, assim, o uso de
gradientes são instrumentos para determinar uma medida de foco (PECHPACHECO et al., 2000 in: BARROS, 2013).
29
4 A APLICAÇÃO NA EDUCAÇÃO
De início vai-se incrementar o banco de dados com as informações sobre o aluno.
Inclusive as variáveis psicológicas: grau de beleza, altura, modo de se vestir,
tatuagens, pircings, vaidade, situação financeira, pais casados ou separados.
Quanto mais variáveis melhor, como nome, data de nascimento, altura, peso,
religião, alergias, doenças, grau dos óculos entre outros.
Também usar-se-á dados psicológicos do aluno: agressão, comportamento,
assiduidade, dificuldade de aprendizagem, entre outros.
Também usar-se-á dados familiares: Número de irmãos, religião, incidência de
problemas familiares, tudo que o professor detectar ele deve introduzir como
variáveis no problema. Como já se disse ao descrever o aluno o ideal é iniciar com
uma única variável e a medida que for lecionando o professor vai ampliando as
variáveis do banco de dados.
Num momento mais evoluído do processo pode-se relacionar o banco de dados
escolar com o banco de dados hospitalar, bancos de dados de presídios. E cruzar
e avaliar estas informações.
Tudo o que for registrado no Conselho de classe pode ser transformado em
característica de estudo, imagens são também interessantes. Porque permite
avaliar peso, estatura, saúde mental, saúde física entre outros.
O ideal é alimentar também com os feedbacks. No futuro este aluno ficou rico, ficou
pobre, viveu até que idade, quais os destaques, os problemas encontrados em sua
vida. Qual a sua profissão? Foi bem sucedido ou mal sucedido na vida. Quanto
tempo viveu? Quanto filhos teve? Quantas vezes se casou?
Dados alimentares quanto ao tipo de alimento consumido, hábitos alimentares,
quais doenças o aluno desenvolveu após a saída da escola.
Saber dos medicamentos que o aluno faz uso, e, deixar o software, através da
inteligência artificial agrupando os alunos com o uso das redes neurais.
30
Que matéria teve as maiores dificuldades? Que matéria alcançou o melhor
resultado. Qual foi o desenvolvimento do aluno em relação aos colegas de sala, e,
qual foi a evolução deste aluno durante os anos escolares.
O banco de dados em conjunto com o banco de imagens. Tipo o aluno é bonito? É
gordo, é desajeitado? É inteligente? Tem alguma habilidade especial? O professor
vai dando notas nestes quesitos e enriquecendo o banco de dados.
De posse destes dados a pesquisa está completa e os resultados serão infinitos.
Tem-se um diagnóstico completo da vida do aluno. E assim vamos avaliando toda
a evolução do aluno.
Digamos que num futuro um aluno se torne um estuprador. Quem sabe a
inteligência artificial possa identificar ainda na escola uma característica dos
estupradores. Poderia se intervir antes que um fenômeno como esse pudesse
disparar na consciência de uma criança. Extrapolando esses resultados poder-se
ia ter um mundo melhor no futuro.
5 RESULTADOS ESPERADOS
Espera-se que este trabalho confirme a eficiência da utilização de redes neurais
como ferramenta para identificação futura de alunos através da análise de suas
características obtidas de dados sobre sua vida escolar. Com a obtenção de
resultados favoráveis, pretende-se proceder no desenvolvimento de equipamento
de baixo custo e alta mobilidade que permita maior facilidade e agilidade nos
procedimentos de análise, bem como minimizar seus custos.
No caso de montar uma Seleção Brasileira para qualquer esporte. Dispondo-se de
um banco de dados de todas as escolas brasileiras. Pode-se escolher os alunos
com maior potencial em termos de Brasil, localizá-los e identificá-los através de
uma consulta inteligente ao banco de dados. Percebam como o Banco de Dados é
altamente necessário numa desta situação.
Desejo escolher, por exemplo, crianças para participar de uma orquestra ou
representar o Brasil em um concurso musical. Não existe um banco de dados para
31
eu selecionar o melhor perfil para esta aptidão, que raramente é trabalhada nas
escolas.
Deseja-se estudar o perfil de tendência psicopata ou suicida. Não se tem um banco
de dados para se fazer uma correlação de que perfil social e psicológico de um
indivíduo com estas tendência, esta informação bem analisada poderia salvar
muitas vidas.
Imagine um banco de dados com todos os estudantes brasileiros, com todas as
informações inerentes. Podendo ser analisados por inteligência artificial. As
possibilidades de inferências tornam-se infinitas.
32
REFERÊNCIAS
ANAICE, R.; FACON, J. Avaliação de Nitidez em Imagens por Aprendizagem.
SIBGRAPI – Conferência Gráfica de Modelos e Imagens, 2010.
BARROS, L. G. Impacto da Análise de Nitidez em Métodos de Classificação de
Imagens de madeiras. Dissertação de Pós-Graduação. Universidade Federal de
Ponta grossa, 2013.
BRAGA, Antônio de Pádua. Redes Neurais Artificiais: teoria e aplicações
/Antônio de Pádua Braga, André Carlos Ponce de Leon Ferreira de Carvalho,
Teresa Bernarda Ludemir. 2ª ed. - Rio de Janeiro: LTC, 2012.
BREMANANTH R., B. Nithya, e R. Saipriya. Wood species recognition system.
International Journal of Computer Systems Science and Engineering, 4 : 1:54
– 60, 2009.
CARLOS JÚNIOR, F. M. Reconhecimento Facial Utilizando Redes Neurais.
Dissertação de Graduação. Universidade de Marília, São Paulo, 2011.
ESTEBAN, L. G.; FERNÁNDEZ, F. G.; PALACIOS, P. P.; ROMERO, R. M.; CANO,
N. N. Artificial neural networks in wood identification: the case of two
Juniperus species from the canary islands. IAWA Journal, Leiden, p. 87-94.
2009.
FERREIRA, L. D. Técnicas de Aprendizado de Máquina Aplicadas à
Identificação de Perfis de Aprendizado em um Ambiente Real de Ensino.
Dissertação de Mestrado. ICMC-USP, São Paulo, 2006.
FORD, N. Expert systems and artificial intelligence: an information manager´s
guide. London: Library Association Publishing, 1991.
GLÓRIA, B. A.; GUERREIRO, S. M. C. Anatomia Vegetal. Edt. UFV, Viçosa, 2006.
JORDAN, R.; FEENEY, F.; NESBITT, N.; EVERTSEN, A. J.. Classification of
wood species by neural network analysis of ultrasonic signals. Journal
Ultrasonics, v. 36, p. 219-222, 1998. ISSN 0041-624X/98.
LABATI, R. D.; GAMASSI, M.; PIURI, V.; SCOTTI, F. A Low-cost Neural-based
Approach for Wood Types Classification. CIMSA - International Conference
on Computational Intelligence for Measurement Systems and Applications. p.
12- 16, Hong Kong, 13 nov. 2009.
MATSUMOTO, Élia Yathie. MATLAB® 7: Fundamentos 1. ed. São Paulo: Érica,
2004.
MOZER, M.C. Inductive information retrieval using parallel distributed
computation. San Diego: University of California, 1984. (ICS Technical Report
8406).
KHALID, Marzuki; LEE, E. Lew Yi ; YUSOF Rubiyah. Design of an intelligent
wood species recognition system. IJSSST, 9:9–19, 2008.
OLIVEIRA, A. A. et al. Identificação de Madeiras utilizando a Espectrometria no
Infravermelho Próximo e Redes Neurais Artificiais. UFSC vol.16 nº.
2 May/Aug. 2016.
33
OLIVEIRA, A. A. Identificação de Madeiras utilizando a Espectrometria no
Infravermelho Próximo e Redes Neurais com a Heurística de LevembergMarquardt. Dissertação de Pós-Graduação. UFPN, Curitiba, 2013.
PACKIANATHER, M. S.; DRAKE, P. R. Neural Networks for Classifying Images
of Wood Veneer. International Journal Advanced Manufacturing Technology.
p. 424-433. London, out. 2000.
PAULA FILHO, P. L. Reconhecimento de espécies florestais através de
imagens macroscópicas. 116 f. Tese (Doutorado em Ciência da Computação).
Universidade Federal do Paraná, 2012.
PINTO JÚNIOR, J. E. Aspectos socioeconômicos, ambientais e legais da
eucaliptocultura. Sistemas de Produção, v. 4, n. 2, p. 15-25, agosto 2010. ISSN
ISSN 1678-8281.
QUEIROZ, José Eustáquio Rangel de; GOMES, Herman Martins Gomes.
Introdução ao Processamento Digital de Imagens. UFCG, Revista Rita, Volume
VIII, Nº 1, 2001.
SCURI, Antonio Escaño. Fundamentos da Imagem Digital. PUC RIO, Rio de
Janeiro, 2002.
TOU, J. Y., P. Y. Lau, e Y. H. Tay. Computer vision-based wood recognition
system. Proceedings of International Workshop on Advanced Image
Technology (IWAIT 2007), páginas 197–202, 2007.
YU, Haipeng; CAO, Cao, Yixing Liu, e LUO,Wei. Non equal spacing division of
hsv components for wood image retrieval. 2nd International Congress on Image
and Signal Processing, 6:1–3, 2009.
Download