Sistema desenvolvido na UFMG ajuda computadores a entender e interpretar a linguagem humana

Tese premiada pela Capes e pela UFMG é tema do episódio do programa “Aqui tem ciência”, da Rádio UFMG Educativa

Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial (IA) que ajuda computadores a entender, interpretar e manipular a linguagem humana. A capacidade de representar palavras de maneira significativa e eficiente é crucial para as aplicações de PLN, pois isso afeta de forma significativa os métodos de machine learning (aprendizado de máquina).

O cientista de dados Felipe Augusto Resende Viegas projetou uma nova representação de documentos que agrupa palavras semanticamente relacionadas, as CluWords, para mitigar interpretações equivocadas de sentenças que podem prejudicar o aprendizado de máquina. O estudo, realizado no Programa de Pós-graduação em Ciência da Computação da UFMG, foi o vencedor do Prêmio Capes de Tese 2024, promovido pela Comissão de Aperfeiçoamento de Pessoal de Nível Superior, e do Grande Prêmio UFMG de Teses.

Estado da arte

Conceitualmente, as CluWords são construídas de meio de sistemas de filtragem e esquemas de ponderação, mecanismos para remover ruídos da mensagem. A solução desenvolvida constrói uma representação de dados mais específica com base em componentes capazes de melhorar a eficácia na detecção de tópicos relevantes.

Os experimentos demonstram que as CluWords são o estado da arte em modelagem de tópicos (busca de termos que representam determinado texto) e modelagem de tópicos hierárquicos (afunilamento dos tópicos, de forma ainda mais detalhada). No contexto da análise de sentimento, abordagem que analisa a polaridade dos textos, os testes mostram que a filtragem e a ponderação são capazes de mitigar erros na atribuição dos sentidos das palavras. 

A pesquisa evidencia que as CluWords auxiliam no processo de acessar, analisar e extrair informações, sendo diretamente usadas pelos computadores no processamento da linguagem humana, como em chatbots ou no ChatGPT. Esses programas computacionais simulam conversas, possibilitando que as pessoas interajam com dispositivos digitais.

Saiba mais sobre a pesquisa no novo episódio do Aqui tem ciência, programa da Rádio UFMG Educativa. Ouça aqui.

Raio-x da pesquisa

Título: On the role of semantic word clusters — CluWords — in natural language processing (NLP) tasks

O que é: tese que descreve uma nova representação de documentos chamada CluWords, método para aprendizado de máquina que agrupa palavras semanticamente relacionadas, a fim de mitigar ruídos semânticos.

Autor: Felipe Augusto Resende Viegas

Programa de Pós-graduação: Ciência da Computação

Orientador: Marcos André Gonçalves

Coorientador: Leonardo Chaves Dutra da Rocha

Ano de defesa: 2023

Aqui tem ciência

O episódio 190 do Aqui tem ciência tem produção e apresentação de Júlia Rhaine, edição de Alessandra Ribeiro e trabalhos técnicos de Cláudio Zazá. O programa é uma pílula radiofônica sobre estudos realizados na UFMG e abrange todas as áreas do conhecimento. A cada semana, a equipe da emissora apresenta os resultados de uma pesquisa desenvolvida na Universidade. O programa vai ao ar na frequência 104,5 FM e na página da emissora, às segundas-feiras, às 11h, com reprises às sextas-feiras, às 20h, e pode ser ouvido também em plataformas de áudio como Spotify e Amazon Music.

Assessoria de Imprensa UFMG

Fonte

Assessoria de Imprensa UFMG