Aplicações de visão computacional: Imagens como dados visuais

Alex Barros
5 min readNov 27, 2021

Já existem muitas novas aplicações em diversos negócios que utilizam visão computacional. Você já conhece essas?

As imagens vem sendo capturadas em formato digital desde os anos 70, mas só recentemente com os avanços em cloud computing e com processadores especializados que tivemos a expansão das aplicações de negócio. Hoje temos um crescente desenvolvimento de modelos de classificação de imagens saindo das universidades e já sendo usado na indústria.

Os computadores ganharam a habilidade de realmente entender e extrair conhecimento das imagens, que do ponto de vista técnico é uma coleção de pixels com altura, largura e profundidade, além de um valor representando a intensidade da cor. As imagens de hoje em dia possuem uma alta resolução e precisam de alto poder computacional e escalabilidade para processar em tempo razoável e conseguir uma acurácia alta para os problemas de classificação de imagens.

Por exemplo, em 2006 pouco mais da metade dos telefones tinham camêras integradas. Agora, há mais camêras e outros sensores que o total número de pessoas no planeta.

Para termos uma idéia de como os dados visuais possuem uma escala gigante, em fevereiro de 2020, mais de 500 horas de videos eram carregados para o Youtube a cada minuto. Isso equivale a aproximadamente 30.000 horas de novos conteúdos por hora.

Já para as imagens, um relatório do Google indicou que em 2020, aproximadamente 28 nilhões de fotos e videos foram carregados por semana, e já possuem mais de 4 trilhões de fotos armazenadas no total.

Isso é incrível, não é?

Vamos ver como algumas organizações estão aplicando visão computacional ou modelos de classificação de imagens aos seus negócios.

Aplicações de Visão Computacional

Nuvens ou neve?

Airbus já está usando classificação de imagens e técnicas de reconhecimento para diferenciar entre nuvens e cobertura de neve em imagens. Esse recurso tem sido muito importante para o planejamento de rotas seguras de voo e rastreamento de padrões de clima.

Observe as imagens abaixo, você consegue dizer qual das manchas brancas são nuvens e quais são neve?
As nuvens estão marcadas de vermelho no lado superior direito da imagem da direita. Será que nós humanos conseguiríamos diferenciá-las na imagem da esquerda?

Batatas para bebês

Vamos ver outro exemplo. A empresa japonesa Kewpie utiliza machine learning para diferenciar entre batatas boas e batatas estragadas enquanto produz comidas para bebês.

O mais interessante é que eles utilizam modelos do TensorFlow com imagens de batatas cortadas, não precisam utilizar nem imagens inteiras das batatas.

Depois do treinamento, o modelo foi capaz de separar as batatas fora do padrão de qualidade com uma acurácia quase perfeita. Essa ferramenta reduziu drasticamente o volume dos casos em que os trabalhadores da fábrica precisavam avaliar em relação a descarte de produtos.

Claro que a qualidade e sucesso do modelo dependem das imagens rotuladas utilizadas no treinamento e esses rótulos foram feitos por um time de trabalhadores experientes da fábrica. Eles rotularam imagens de alta qualidade com batatas cortadas boas e ruins. A partir desses dados que o modelo de machine learning conseguiu criar as regras e classificá-las.

Previsão de indicadores econômicos — Rastreamento de Navios

Esse exemplo não é tão comum para a maioria das pessoas. Existem algumas empresas especializadas em previsão de indicadores econômicos, essas empresas utilizam imagens de satélite para rastrear a frota global de navios de containers. Estimando a quantidade de cargo sendo transportada de um porto para outro, essas empresas são capazes de ajustar modelos de previsão econômica em dias ou meses a frente dos números oficiais.

Existem muitos serviços para realizar o track de navios, as empresas podem utilizar informações publicas e privadas nesses modelos.

Aplicações Médicas

Visão computacional está se tornando uma ferramenta fundamental para ajudar médicos a classificar imagens médicas. É possível utilizarmos esse recurso, por exemplo, para identificar patologias na retina logo no inicio da doença, facilitando o tratamento e evitando a cegueira.

Uma dessas patologias está relacionada a diabetes, sendo uma das maiores causadoras de cegueira nos últimos anos. Existem algo próximo de 415 milhões de pacientes com esse risco no mundo, quando tratado logo no inicio dos sintomas e danos, o problema pode ser revertido.

O time do Google já demonstrou diversos resultados nessa área, a utilização de algoritmos em conjunto com oftalmologistas vem ajudando no diagnóstico e tratamento não só dessa doença como muitas outras.

Recentemente, em algumas áreas de aplicações médicas, esses algoritmos já vem conseguindo resultados melhores que dos humanos. No futuro, serão responsáveis por salvar muitas vidas.

Existem outras aplicações que vem ganhando espaço como a geração de legendas para descrever imagens e videos, assim como projeção de pose para treinamento de atletas de alto rendimento. Um dos mais recentes é a utilização para processamento de dados de tempo real relacionado a carros autônomos. Esse campo específico deve avançar muito na próxima década e mudar a forma que interagimos com a cidade e com a mobilidade urbana.

Você já está preparado para essas novas realidades?

Mais conteúdo em @aprendadatascience e https://aprendadatascience.com ;

Referências:

--

--

Alex Barros

Engenheiro da Computação. Mestre e Doutorando em Computação Aplicada. Coordenador do Escritório de Projetos e Processos no TRT8.