JSON UMA ALTERNATIVA PARA CORPUS LINGUÍSTICO ANOTADO EM PADRÃO XML

Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados...

Full description

Bibliographic Details
Main Authors: Aline Silva Costa, Bruno Silvério Costa, Romenito Pereira Damaceno, Cristiane Namiuti, Jorge Viana Santos
Format: Article
Language:Spanish
Published: Universidade Estadual do Sudoeste da Bahia 2019-07-01
Series:Revista Binacional Brasil - Argentina
Subjects:
Online Access:http://periodicos2.uesb.br/index.php/rbba/article/view/5590/4220
Description
Summary:Para as investigações em Linguística nas Humanidades Digitais, sobretudo para a formulação de hipóteses sobre gramáticas nos estudos de Linguística Histórica, necessita-se de um grande volume de dados, fato que intensificou a construção e implementação de corpora anotados que crescem em tamanho exigindo maior grau de escalabilidade. Neste artigo discute-se a viabilidade técnica de uma solução computacional alternativa à linguagem XML (eXtensible Markup Language) para corpora linguísticos anotados.A linguagem XML tem sido utilizada em vários corpora que se baseiam no Corpusanotado do português histórico Tycho Brahe (CTB), como o Corpusde Documentos Oitocentistas de Vitória da Conquista (DOViC) e o CorpusEletrônico de Documentos Históricos do Sertão (CE-DOHS). A linguagem XML pode apresentar problemas de performance para grande volume de dados, além de alto custo de memória. O crescimento de bancos de dados não relacionais, com características de alta flexibilidade e performance, associado aos potenciais problemas de desempenho da anotação XML, motivou uma pesquisa de viabilidade técnica de uma solução computacional alternativa para representação e armazenamento atual dos textos do corpus DOViC em um banco de dados NoSQLno formato JSON (JavaScript Object Notation) (MONGODB, 2008). A pesquisa aqui apresentada verifica a viabilidade da representação,compara a performance obtida em buscas morfossintáticas feitas na anotação proposta (Banco de dados NoSQL e formato JSON) com a anotação e armazenamento atual do corpus DOViC (Sistema de arquivos e formato XML), e faz uma análisede outros aspectos da proposta. Os resultados obtidos no tocante à performance da proposta JSON indicam viabilidade técnica dessa vertente computacional.. Não obstante, para além da performance, oXML apresenta maiores vantagens de interoperabilidade por ser amplamente aceita como padrão para anotação de corpora.
ISSN:2316-1205