Sobre a constituição de corpora para línguas com poucos recursos

O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesqui...

Full description

Bibliographic Details
Main Author: Lílian Teixeira de Sousa
Format: Article
Language:Portuguese
Published: Universidade Federal do Rio de Janeiro 2020-04-01
Series:Revista Linguística
Subjects:
Online Access:https://revistas.ufrj.br/index.php/rl/article/view/31709
Description
Summary:O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesquisa linguística, o conceito de corpus foi se tornando mais específico e elementos como amplitude e referência, além de legibilidade por máquina e tamanho finito, passaram a se tornar fundamentais para a composição de amostras na área. Ao mesmo tempo, no entanto, foram surgindo corpora menores e bem menos amplos constituídos com objetivos bastante distintos, como, por exemplo, para a realização de documentação de línguas ameaçadas. Partindo disso, o presente artigo tem por objetivo discutir as diferenças entre corpora “prototípicos” criados segundo os pressupostos da Linguística de Corpus, e os corpora de línguas com pouca presença digital (less-resourced languages). Mostro que os corpora de línguas com pouco recursos tendem a ser mais especializados e, dificilmente, cumprem todos os critérios exigidos de um corpus amplo e representativo de uma língua. Apesar dos limites impostos por questões específicas de cada língua, concluo que a constituição de corpora para línguas com poucos recursos, ainda que não cumpram todos os critérios propostos pela Linguística de Corpus, devem ser realizados, e os resultados devem ser aproveitados de diversas formas, seja gerando novas tecnologias, servindo de suporte empírico para teorias linguísticas ou promovendo a língua na comunidade.
ISSN:1808-835X
2238-975X