Pesquisa da UFMG desenvolve software que utiliza inteligência artificial para agilizar investigação de violência sexual infantil
Trabalho de pesquisadores do DCC-UFMG é realizado em parceria com a Polícia Federal e a Universidade Estadual de Campinas (Unicamp)
Pesquisa desenvolvida no Departamento de Ciência da Computação (DCC) da Universidade Federal de Minas Gerais (UFMG) propôs soluções para auxiliar o trabalho das polícias e demais órgãos nos métodos investigativos relacionados aos crimes de abuso sexual infantil. O estudo é realizado pela doutoranda Camila Laranjeira, em parceria com o também doutorando João Macedo, ambos do laboratório Pattern Recognition and Earth Observation (Patreo), vinculado ao DCC-UFMG, além dos professores Sandra Avila, do Instituto de Computação da Universidade Estadual de Campinas (Unicamp), e Jefersson Alex dos Santos, do DCC-UFMG.
O compartilhamento e as visualizações on-line de imagens relativas a abuso infantil (Child Sexual Abuse Material – CSAM) estão crescendo rapidamente. Nos últimos dois anos, até março de 2022, segundo dados da Secretaria de Estado de Justiça e Segurança Pública (Sejusp) de Minas Gerais, ocorreram mais de 5.700 crimes contra a dignidade sexual de crianças de zero a 11 anos e, no mesmo período, mais de 8.700 contra adolescentes (12 a 17 anos).
Nesse contexto, os pesquisadores da UFMG, em conjunto com os da Unicamp, criaram um software que analisa, de forma mais efetiva, materiais compartilhados e visualizados de abuso sexual infantil (CSAM). Hoje, a maioria dos métodos é baseada no hash - identificadores únicos que estão em uma grande base de hashes de arquivos previamente conhecidos e não possibilita, portanto, a detecção de imagens não catalogadas ou que tenham sofrido mínimas modificações) - e na detecção de cor de pele que gera um grande número de falsos positivos.
Decorre dessas limitações a necessidade de pesquisa e desenvolvimento de métodos de detecção mais eficientes e capazes de identificar novos arquivos relacionados a este tipo de crime, independentemente de um catálogo prévio. “Este é um campo de pesquisa desafiador, em grande parte devido à inacessibilidade dos dados de destino que são – e devem ser para sempre – privados e de posse exclusiva dos órgãos investigativos. Assim, extrair insights de dados não vistos e fornecer com segurança maior compreensão das imagens CSAM é primordial, inclusive para que a justiça seja acionada e tais crimes sejam reprimidos”, afirma a doutoranda Camila Laranjeira.
Para investigar os casos, os órgãos responsáveis precisam analisar e classificar um grande número de materiais por meio da inspeção visual de imagens e vídeos encontrados em computadores ou em celulares dos investigados. O projeto desenvolvido pelos pesquisadores das duas universidades visa revelar, de forma agregada, características gerais de imagens CSAM, independentemente de catálogo prévio. Para isso, foi concebido um modelo de análise que vai além das estatísticas do conjunto de dados e respectivos rótulos. O modelo se baseia em características extraídas das imagens de forma automática. Tais características, ou sinais automáticos, são obtidas através de métodos de aprendizado de máquina pré-treinados para indicar, por exemplo, quais categorias de objetos (cadeira, mesa, óculos, carro, etc.) estão presentes numa dada imagem, ou ainda se a imagem possui ou não conteúdo pornográfico.
Também são utilizados métodos para obter características mais genéricas das imagens, como luminância e nitidez. “Apenas estatísticas agregadas de sinais esparsos são fornecidas para garantir o anonimato das crianças e adolescentes vitimados. O pipeline [canalização de processos e etapas a serem seguidos] permite filtrar os dados, aplicando limiares a cada sinal especificado, e fornece a distribuição de tais sinais dentro do subconjunto, correlações entre sinais, bem como uma avaliação de viés. Assim, demonstramos nossa proposta no conjunto de dados de pornografia infantil anotado e baseado em região (Region-based annotated Child Pornography Dataset – RCPD), um dos poucos benchmarks de CSAM na literatura, composto por mais de 2.000 amostras, entre imagens regulares e CSAM, produzidas em parceria com a Polícia Federal do Brasil”, explica Camila.
A doutoranda relata ainda que, embora sejam ruidosos e limitados em vários sentidos, os sinais automáticos podem destacar aspectos importantes da distribuição geral dos dados, o que se torna valioso para bancos de dados que não podem ser divulgados. Além da parceria da Polícia Federal, outros órgãos públicos investigativos já tiveram acesso aos resultados da pesquisa e já começam a utilizar esses dados.
De acordo com João Macedo que, além de doutorando da UFMG, é perito da Polícia Federal, o trabalho é uma grande contribuição para esta área de pesquisa e preenche uma importante lacuna. “Esse trabalho possibilita que pesquisadores conheçam características desse tipo de dado sem ter acesso direto a eles. Além disso, permite a visualização de tendências e vieses em uma base de dados representativa desse universo, o que é decisivo para a produção de modelos de detecção mais eficientes e capazes de identificar imagens não conhecidas previamente”, acrescenta.
Os resultados da pesquisa serão apresentados na trilha principal da conferência sobre ética na utilização de inteligência artificial, a ACM Conference on Fairness, Accountability, and Transparency (Conferência sobre Justiça, Responsabilidade e Transparência), que acontecerá de 21 a 24 de junho, em Seul, na Coreia do Sul.