Pesquisa realizada no DCC UFMG por perito criminal federal propõe método para detecção de imagens de pornografia infantojuvenil

As redes neurais convolucionais, inspiradas no funcionamento do córtex visual humano, constituem um dos recursos mais eficientes na área de aprendizado de máquinas. Elas estão na base de método destinado à detecção de pornografia infantojuvenil em imagens proposto em pesquisa realizada por João José de Macedo Neto, no Programa de Pós-graduação em Ciência da Computação da UFMG. Macedo é perito da Polícia Federal, que tem utilizado o método, em fase de avaliação.

Em seu trabalho de mestrado, João Macedo desenvolveu uma técnica que combina métodos de classificação de pornografia e de detecção facial, já existentes, com outro de estimativa de idade por meio de análise de faces, concebido ao longo da pesquisa. Em testes efetuados em um conjunto de dados restrito à PF, a nova abordagem registrou quase 80% de acurácia. “Na área forense, a estimativa de idade agrega informação importante para a tipificação de crimes ligados à pornografia infantil e constitui grande diferencial em relação às alternativas existentes”, explica o pesquisador.

Na análise de uma imagem, o primeiro aspecto observado é a presença potencial de pornografia. Se a imagem for considerada pornográfica, as faces são extraídas e classificadas pelo módulo de estimativa de idade – como adultos ou crianças, por gênero e faixa etária.

Parâmetros
Os três módulos – para detecção de pornografia, de faces e para estimativa de idade – são baseados em redes neurais convolucionais (CNN, de convolutional neural networks), categoria de redes neurais com grande aplicação em tarefas de classificação de imagens e vídeos, processamento de linguagem natural, entre outras.

Assim como as redes neurais, as CNN possuem em sua arquitetura neurônios associados a pesos, ou parâmetros, que são aprendidos durante a fase de treinamento. Além disso, as redes neurais possuem uma estrutura computacional e matemática associada a uma função de perda, que tem papel central no aprendizado.

“Na fase de treinamento é utilizada uma grande quantidade de dados rotulados ou conhecidos, que servem como exemplos para o aprendizado”, explica João Macedo. “Para cada exemplo ou grupo de exemplos processados pela rede, a função de perda é utilizada para registrar os erros e determinadas propriedades desejáveis da rede. Em seguida, esses valores são utilizados para ajustar os pesos, aprimorando o aprendizado. O processo é repetido até que a rede atinja nível de resposta adequado.”

Ainda de acordo com o pesquisador, diferentemente do que ocorre com as redes neurais comuns, as CNN possuem um mecanismo de compartilhamento de pesos por diversos neurônios. Essa característica, associada à sua arquitetura peculiar e a outras particularidades, possibilita explorar as relações espaciais dos dados de imagens, o que, em parte, justifica sua utilização extensiva em tarefas de classificação de imagens e vídeos, entre outras.

A análise de cada arquivo de imagem dura cerca de 0,4 segundo (0,06s para classificação de pornografia, 0,32s para detecção de faces e 0,02s para estimativa de idade). A aplicação do método de detecção em vídeos se dá por meio de processo de amostragem e classificação de quadros, resultando na seleção dos quadros mais significativos para o propósito da investigação.

Segundo João Macedo, o método de estimativa de idade desenvolvido atualmente classifica as faces em faixas de idade, como a de 15 a 22 anos. “No futuro, chegaremos a uma estimativa mais precisa, com idades mais próximas ao limite da restrição legal para a tipificação de crime”, prevê o pesquisador, acrescentando que o foco da técnica estará também na identificação com base na análise de partes do corpo – é comum, nesse tipo de imagem, a oclusão dos rostos.

Tema sensível
Para o orientador da pesquisa, professor Jefersson Alex dos Santos, a importância do trabalho desenvolvido por um policial federal deve-se, entre outras razões, ao fato de tratar-se de material inacessível a pesquisadores. Segundo ele, outros estudos já foram feitos no DCC sobre o tema da pornografia, mas agora foi possível testar um método em situações reais que envolvem crianças e adolescentes.

“Foi gerado um conjunto de dados que contempla diversas situações e tipos diferentes de dificuldades, criadas, por exemplo, além da oclusão, por imagens de qualidade inferior, frequentes nesse universo.” Um desafio, a partir de agora, ele diz, é enriquecer ainda mais o conjunto de dados com o objetivo de melhorar o aprendizado do sistema.

João Macedo lembra que o combate à distribuição de pornografia infantil envolve agências policiais, organizações não governamentais e empresas em todo o mundo. “A automatização é importante porque é enorme a quantidade de dados que podem ser armazenados nos celulares e outros dispositivos”, afirma o pesquisador. Segundo ele, a realização de boa parte desse trabalho pela máquina, além de poupar tempo, contribui para reduzir o forte impacto psicológico e o estresse causados pela exposição de profissionais a material pornográfico com crianças.

Dissertação: Detecção de pedofilia baseada em estimativa de idade de faces 
Autor: João José de Macedo Neto
Orientador: Jefersson Alex dos Santos
Defesa: 12 de março de 2019, no Programa de Pós-graduação em Ciência da Computação

Itamar Rigueira Jr.

Fonte

Assessoria de Imprensa UFMG

Serviço

Pesquisa sobre detecção de pedofilia baseada em estimativa de idade de faces