Aprendizagem de categorias de palavras por análise distribucional resultados adicionais para Português Brasileiro

Uma criança adquirindo a língua deve descobrir quais são as categorias sintáticas em sua língua e atribuir palavras a uma ou mais delas. A questão que nos propomos a responder aqui é o quanto dessa aprendizagem pode ser realizada através da análise distribucional de enunciados. Para este fim, uma r...

Full description

Bibliographic Details
Main Author: Pablo Faria
Format: Article
Language:English
Published: Centro de Estudos Humanísticos da Universidade do Minho 2019-12-01
Series:Diacrítica
Subjects:
Online Access:https://revistas.uminho.pt/index.php/diacritica/article/view/5063
Description
Summary:Uma criança adquirindo a língua deve descobrir quais são as categorias sintáticas em sua língua e atribuir palavras a uma ou mais delas. A questão que nos propomos a responder aqui é o quanto dessa aprendizagem pode ser realizada através da análise distribucional de enunciados. Para este fim, uma re-implementação do modelo computacional de Redington, Chater e Finch (1998) foi conduzida e aplicada a dados do Português Brasileiro, obtidos de corpora disponíveis publicamente, tanto com fala dirigida à criança, quanto com fala entre adultos. Os resultados de todos os experimentos são apresentados e discutidos. Estes experimentos investigam mais variáveis e aspectos envolvidos nesta tarefa de aprendizagem: tipos de contextos distribucionais, o número de palavras-alvo e de contexto assumidas, o valor da informação distribucional para as diferentes categorias, tamanho do corpus etc. Uma comparação entre a fala dirigida à criança e a fala entre adultos também é feita. Em geral, nossos resultados dão suporte aos de Redington et al. (1998), embora tenhamos encontrado algumas diferenças possivelmente importantes e até contraditórias. Também avaliamos a medida cosseno, comparando a performance obtida com ela à performance obtida com a correlação de Spearman usada no estudo de Redington et al. (1998). Esta última parece produzir melhor performance. Neste artigo, focamos numa análise quantitativa dos nossos resultados.
ISSN:0870-8967
2183-9174