Pesquisa aborda processamento de Língua Natural, via redes neurais
São Carlos
Laboratório da UFSCar atua com Inteligência Computacional, Tradução Automática e Aprendizado de Máquina
Atualmente, com a disponibilização cada vez maior de informação na Internet, o processamento e a recuperação de dados (textuais e visuais) são atividades essenciais na geração automática de conhecimento. Como a maior parte da informação é composta de texto em Língua Natural e de imagens, processá-los de modo "inteligente" envolve a interpretação do significado que ambos transmitem. Foi pensando nisso que pesquisadores do Laboratório de Linguística e Inteligência Computacional (LALIC), do Departamento de Computação (DC) da UFSCar, desenvolveram o projeto "MMeaning - Representação semântica distribuída multimodal", que conta com o financiamento da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp).
Uma das formas mais utilizadas para representação do conteúdo semântico é a semântica distribuída, a qual está baseada na hipótese distribucional que estabelece que o sentido de uma palavra é dado por seu contexto de ocorrência. Embora a fonte principal para extração de conhecimento usando essa hipótese seja o texto, outras fontes de informação extralinguísticas, como imagens, também devem ser levadas em consideração. A combinação de múltiplas fontes de informação na geração de representações semânticas é denominada representação semântica distribuída multimodal.
Dessa forma, o projeto objetiva investigar o uso de fontes diversas de conhecimento, como textos paralelos/comparáveis e imagens, na modelagem semântica distribuída de textos em Língua Natural a fim de enriquecer as informações utilizadas em aplicações de Processamento de Língua Natural e Recuperação de Informação. "Em termos práticos significa que, por meio do processamento multimodal, a inteligência computacional combina corpus textual e imagens, de forma a deixar o material informativo mais rico", explica Helena de Medeiros Caseli, coordenadora do LALIC.
Para atingir esse objetivo, o projeto, iniciado em 2016, utiliza modelos de representação distribuída baseados em redes neurais, também conhecidos como modelos de aprendizado profundo (deep learning). Esses modelos também são usados na terceira geração na tradução automática por meio da inteligência computacional, ou Inteligência Artificial. A primeira, datada da década de 1950, era baseada na definição de regras por parte de especialistas em tradução, o que a tornava de alto custo e demorada. A segunda, aplicada entre os anos de 1990 e 2015, era baseada em corpus, com métodos estatísticos que definiam a melhor tradução com base em probabilidade. A terceira, que se tornou o estado da arte a partir de 2016, é baseada no princípio da rede neural biológica, em que a informação em uma Língua passa por uma estrutura com unidades de processamento inspiradas em nossos neurônios biológicos e que transportam a informação, de neurônio a neurônio, até gerar a tradução desejada em outra Língua. "Os neurônios são treinados a partir de corpus paralelos contendo sentenças em uma Língua (por exemplo, o Português) e suas traduções em outra Língua (por exemplo, o Inglês), até aprenderem a fazer a tradução", resume Caseli.
O LALIC é um dos laboratórios de pesquisa integrante do Núcleo Interinstitucional de Linguística Computacional (NILC), com sede no Instituto de Ciências Matemáticas e de Computação (ICMC), da Universidade de São Paulo (USP), em São Carlos. Criado em 1993, o NILC desenvolve estudos sobre o processamento computacional de linguagens naturais e a construção de recursos, ferramentas e aplicações. O grupo realiza pesquisas em diversas áreas, entre elas: tradução automática, sumarização de textos, simplificação de texto, ferramentas de auxílio à leitura e escrita, criação de léxico/dicionários e criação de corpus, linguística de corpus, ferramentas de análise para variados níveis linguísticos (sintaxe, semântica e discurso), avaliação automatizada, terminologia computacional, processamento de fala e aplicação de técnicas de aprendizado de máquina para processamento de linguagem natural e detecção de fake news.
Debate na TV
A coordenadora do LALIC, Helena de Medeiros Caseli, participou do programa "Conversa com Bial" (Rede Globo), exibido no dia 14 de maio, cujo tema discutido foi o futuro da tradução literária. A pesquisadora da UFSCar, que é especialista em Tradução Automática, Aprendizado de Máquina e Processamento de Língua Natural, explicou como os tradutores automáticos funcionam. Também participaram do debate Caetano Galindo, responsável pela versão em Português de "Ulisses", de James Joyce; e Alison Entrekin, tradutora da obra "Grande Sertão: Veredas", de Guimarães Rosa, para o Inglês. O programa na íntegra pode ser conferido aqui.
Uma das formas mais utilizadas para representação do conteúdo semântico é a semântica distribuída, a qual está baseada na hipótese distribucional que estabelece que o sentido de uma palavra é dado por seu contexto de ocorrência. Embora a fonte principal para extração de conhecimento usando essa hipótese seja o texto, outras fontes de informação extralinguísticas, como imagens, também devem ser levadas em consideração. A combinação de múltiplas fontes de informação na geração de representações semânticas é denominada representação semântica distribuída multimodal.
Dessa forma, o projeto objetiva investigar o uso de fontes diversas de conhecimento, como textos paralelos/comparáveis e imagens, na modelagem semântica distribuída de textos em Língua Natural a fim de enriquecer as informações utilizadas em aplicações de Processamento de Língua Natural e Recuperação de Informação. "Em termos práticos significa que, por meio do processamento multimodal, a inteligência computacional combina corpus textual e imagens, de forma a deixar o material informativo mais rico", explica Helena de Medeiros Caseli, coordenadora do LALIC.
Para atingir esse objetivo, o projeto, iniciado em 2016, utiliza modelos de representação distribuída baseados em redes neurais, também conhecidos como modelos de aprendizado profundo (deep learning). Esses modelos também são usados na terceira geração na tradução automática por meio da inteligência computacional, ou Inteligência Artificial. A primeira, datada da década de 1950, era baseada na definição de regras por parte de especialistas em tradução, o que a tornava de alto custo e demorada. A segunda, aplicada entre os anos de 1990 e 2015, era baseada em corpus, com métodos estatísticos que definiam a melhor tradução com base em probabilidade. A terceira, que se tornou o estado da arte a partir de 2016, é baseada no princípio da rede neural biológica, em que a informação em uma Língua passa por uma estrutura com unidades de processamento inspiradas em nossos neurônios biológicos e que transportam a informação, de neurônio a neurônio, até gerar a tradução desejada em outra Língua. "Os neurônios são treinados a partir de corpus paralelos contendo sentenças em uma Língua (por exemplo, o Português) e suas traduções em outra Língua (por exemplo, o Inglês), até aprenderem a fazer a tradução", resume Caseli.
O LALIC é um dos laboratórios de pesquisa integrante do Núcleo Interinstitucional de Linguística Computacional (NILC), com sede no Instituto de Ciências Matemáticas e de Computação (ICMC), da Universidade de São Paulo (USP), em São Carlos. Criado em 1993, o NILC desenvolve estudos sobre o processamento computacional de linguagens naturais e a construção de recursos, ferramentas e aplicações. O grupo realiza pesquisas em diversas áreas, entre elas: tradução automática, sumarização de textos, simplificação de texto, ferramentas de auxílio à leitura e escrita, criação de léxico/dicionários e criação de corpus, linguística de corpus, ferramentas de análise para variados níveis linguísticos (sintaxe, semântica e discurso), avaliação automatizada, terminologia computacional, processamento de fala e aplicação de técnicas de aprendizado de máquina para processamento de linguagem natural e detecção de fake news.
Debate na TV
A coordenadora do LALIC, Helena de Medeiros Caseli, participou do programa "Conversa com Bial" (Rede Globo), exibido no dia 14 de maio, cujo tema discutido foi o futuro da tradução literária. A pesquisadora da UFSCar, que é especialista em Tradução Automática, Aprendizado de Máquina e Processamento de Língua Natural, explicou como os tradutores automáticos funcionam. Também participaram do debate Caetano Galindo, responsável pela versão em Português de "Ulisses", de James Joyce; e Alison Entrekin, tradutora da obra "Grande Sertão: Veredas", de Guimarães Rosa, para o Inglês. O programa na íntegra pode ser conferido aqui.
24/05/2018
13:00:00
16/06/2018
23:59:00
Fabricio Mazocco
Não
Não
Estudante, Docente/TA, Pesquisador, Visitante
Laboratório da UFSCar atua na área de Linguística e Inteligência Computacional (Imagem: Pixabay)
10713