Sobre a constituição de corpora para línguas com poucos recursos
O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesqui...
Main Author: | |
---|---|
Format: | Article |
Language: | Portuguese |
Published: |
Universidade Federal do Rio de Janeiro
2020-04-01
|
Series: | Revista Linguística |
Subjects: | |
Online Access: | https://revistas.ufrj.br/index.php/rl/article/view/31709 |
Summary: | O uso de corpora em estudos linguísticos é bastante antigo, já a área da Linguística de Corpus é relativamente nova, tendo sua origem vinculada à ampliação do acesso a computadores e, consequentemente, ao Processamento de Linguagem Natural (PLN). À medida que a área foi ganhando influência na pesquisa linguística, o conceito de corpus foi se tornando mais específico e elementos como amplitude e referência, além de legibilidade por máquina e tamanho finito, passaram a se tornar fundamentais para a composição de amostras na área. Ao mesmo tempo, no entanto, foram surgindo corpora menores e bem menos amplos constituídos com objetivos bastante distintos, como, por exemplo, para a realização de documentação de línguas ameaçadas. Partindo disso, o presente artigo tem por objetivo discutir as diferenças entre corpora “prototípicos” criados segundo os pressupostos da Linguística de Corpus, e os corpora de línguas com pouca presença digital (less-resourced languages). Mostro que os corpora de línguas com pouco recursos tendem a ser mais especializados e, dificilmente, cumprem todos os critérios exigidos de um corpus amplo e representativo de uma língua. Apesar dos limites impostos por questões específicas de cada língua, concluo que a constituição de corpora para línguas com poucos recursos, ainda que não cumpram todos os critérios propostos pela Linguística de Corpus, devem ser realizados, e os resultados devem ser aproveitados de diversas formas, seja gerando novas tecnologias, servindo de suporte empírico para teorias linguísticas ou promovendo a língua na comunidade. |
---|---|
ISSN: | 1808-835X 2238-975X |