AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN

RESUMO: A diversidade dos recursos de linguagem, que possibilita a construção de aplicações em Processamento de Linguagem Natural, provoca a necessidade da criação de ferramentas que sejam igualmente flexíveis. Além disso, essas ferramentas devem ser tão amigáveis quanto úteis, a fim de reduzir o es...

Full description

Bibliographic Details
Main Authors:	Cláudia Aparecida Fonseca, Rafael Santiago de Souza Netto, Marcus Vinícius Carvalho Guelpeli, Adriana Nascimento Bodolay
Format:	Article
Language:	English
Published:	Universidade Federal de Minas Gerais 2018-12-01
Series:	Texto Livre: Linguagem e Tecnologia
Subjects:	Processamento de Linguagem Natural gênero textual anotador textual anotação de corpus
Online Access:	https://periodicos.ufmg.br/index.php/textolivre/article/view/16811

_version_	1818890472682160128
author	Cláudia Aparecida Fonseca Rafael Santiago de Souza Netto Marcus Vinícius Carvalho Guelpeli Adriana Nascimento Bodolay
author_facet	Cláudia Aparecida Fonseca Rafael Santiago de Souza Netto Marcus Vinícius Carvalho Guelpeli Adriana Nascimento Bodolay
author_sort	Cláudia Aparecida Fonseca
collection	DOAJ
description	RESUMO: A diversidade dos recursos de linguagem, que possibilita a construção de aplicações em Processamento de Linguagem Natural, provoca a necessidade da criação de ferramentas que sejam igualmente flexíveis. Além disso, essas ferramentas devem ser tão amigáveis quanto úteis, a fim de reduzir o esforço para usuários iniciantes e, ao mesmo tempo, promover um eficiente desempenho para usuários avançados. O presente artigo apresenta o AnoTex, que é um anotador textual capaz de executar a filtragem de dados estruturados do gênero artigo científico, coletados dos arquivos disponíveis na base de dados da Biblioteca Eletrônica SciELO – Scientific Electronic Library On-line. Como produto do processo de extração, obteve-se uma base de dados com as informações filtradas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para uso em várias ferramentas e aplicações. São apresentadas outras ferramentas de anotação de textos, atualmente existentes, e argumenta-se que o AnoTex é o primeiro a combinar um bom nível de facilidade de uso com recursos estruturados, constitutivos do gênero, de alta qualidade linguística. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, por meio de sua representação em bancos de árvore, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Essas características podem indicar novas estratégias de uso para as marcações coletadas, de modo a atender às necessidades no melhoramento do acesso e da recuperação da informação proporcionados pelo uso das ferramentas de processamento de texto. PALAVRAS-CHAVE: Processamento de Linguagem Natural; gênero textual; anotador textual; anotação de corpus. ABSTRACT: The diversity of language resources, which enables the construction of applications in Natural Language Processing, causes the need to create tools that are equally flexible. In addition, these tools should be as user-friendly as useful, in order to reduce the effort for new users and at the same time promote efficient performance for expert users. This article presents the AnoTex, which is a textual annotator capable of performing the filtering of structured data of the textual genre scientific article, collected from the available archives in the database of SciELO – Scientific Electronic Library Online. As a product of the extraction process, we have obtained a database structured in the XML format that delimit and identify the markings of the genre under analysis, available for use in various tools and applications. Other textual annotation tools are currently available, and it is argued that AnoTex is the first to combine a good level of ease-of-use with structured, basic text-based features of high linguistic quality. The results demonstrate how the categorization of the constituent elements of the genre, through its representation in tree banks, can concentrate the information available in a hierarchical and dynamic way. These features may indicate new usage strategies for the collected tags to meet the needs for improvement in the access and retrieval of information through the use of word processing tools. KEYWORDS: Natural Language Processing; textual genre; textual annotator; annotation of corpus.
first_indexed	2024-12-19T17:25:28Z
format	Article
id	doaj.art-2a0db5a9baeb48cebc3683ac77aa0b60
institution	Directory Open Access Journal
issn	1983-3652
language	English
last_indexed	2024-12-19T17:25:28Z
publishDate	2018-12-01
publisher	Universidade Federal de Minas Gerais
record_format	Article
series	Texto Livre: Linguagem e Tecnologia
spelling	doaj.art-2a0db5a9baeb48cebc3683ac77aa0b602022-12-21T20:12:34ZengUniversidade Federal de Minas GeraisTexto Livre: Linguagem e Tecnologia1983-36522018-12-01113AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLNCláudia Aparecida Fonseca0Rafael Santiago de Souza Netto1Marcus Vinícius Carvalho Guelpeli2Adriana Nascimento Bodolay3Universidade Federal dos Vales do Jequitinhonha e mucuri-UFVJMCentro Universitário de Barra MansaUniversidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJMUniversidade Federal dos Vales do Jequitinhonha e Mucuri - UFVJMRESUMO: A diversidade dos recursos de linguagem, que possibilita a construção de aplicações em Processamento de Linguagem Natural, provoca a necessidade da criação de ferramentas que sejam igualmente flexíveis. Além disso, essas ferramentas devem ser tão amigáveis quanto úteis, a fim de reduzir o esforço para usuários iniciantes e, ao mesmo tempo, promover um eficiente desempenho para usuários avançados. O presente artigo apresenta o AnoTex, que é um anotador textual capaz de executar a filtragem de dados estruturados do gênero artigo científico, coletados dos arquivos disponíveis na base de dados da Biblioteca Eletrônica SciELO – Scientific Electronic Library On-line. Como produto do processo de extração, obteve-se uma base de dados com as informações filtradas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para uso em várias ferramentas e aplicações. São apresentadas outras ferramentas de anotação de textos, atualmente existentes, e argumenta-se que o AnoTex é o primeiro a combinar um bom nível de facilidade de uso com recursos estruturados, constitutivos do gênero, de alta qualidade linguística. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, por meio de sua representação em bancos de árvore, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Essas características podem indicar novas estratégias de uso para as marcações coletadas, de modo a atender às necessidades no melhoramento do acesso e da recuperação da informação proporcionados pelo uso das ferramentas de processamento de texto. PALAVRAS-CHAVE: Processamento de Linguagem Natural; gênero textual; anotador textual; anotação de corpus. ABSTRACT: The diversity of language resources, which enables the construction of applications in Natural Language Processing, causes the need to create tools that are equally flexible. In addition, these tools should be as user-friendly as useful, in order to reduce the effort for new users and at the same time promote efficient performance for expert users. This article presents the AnoTex, which is a textual annotator capable of performing the filtering of structured data of the textual genre scientific article, collected from the available archives in the database of SciELO – Scientific Electronic Library Online. As a product of the extraction process, we have obtained a database structured in the XML format that delimit and identify the markings of the genre under analysis, available for use in various tools and applications. Other textual annotation tools are currently available, and it is argued that AnoTex is the first to combine a good level of ease-of-use with structured, basic text-based features of high linguistic quality. The results demonstrate how the categorization of the constituent elements of the genre, through its representation in tree banks, can concentrate the information available in a hierarchical and dynamic way. These features may indicate new usage strategies for the collected tags to meet the needs for improvement in the access and retrieval of information through the use of word processing tools. KEYWORDS: Natural Language Processing; textual genre; textual annotator; annotation of corpus.https://periodicos.ufmg.br/index.php/textolivre/article/view/16811Processamento de Linguagem Naturalgênero textualanotador textualanotação de corpus
spellingShingle	Cláudia Aparecida Fonseca Rafael Santiago de Souza Netto Marcus Vinícius Carvalho Guelpeli Adriana Nascimento Bodolay AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN Texto Livre: Linguagem e Tecnologia Processamento de Linguagem Natural gênero textual anotador textual anotação de corpus
title	AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN
title_full	AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN
title_fullStr	AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN
title_full_unstemmed	AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN
title_short	AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN
title_sort	anotex rotina de filtragem de dados estruturados do genero artigo cientifico como contribuicao para o pln
topic	Processamento de Linguagem Natural gênero textual anotador textual anotação de corpus
url	https://periodicos.ufmg.br/index.php/textolivre/article/view/16811
work_keys_str_mv	AT claudiaaparecidafonseca anotexrotinadefiltragemdedadosestruturadosdogeneroartigocientificocomocontribuicaoparaopln AT rafaelsantiagodesouzanetto anotexrotinadefiltragemdedadosestruturadosdogeneroartigocientificocomocontribuicaoparaopln AT marcusviniciuscarvalhoguelpeli anotexrotinadefiltragemdedadosestruturadosdogeneroartigocientificocomocontribuicaoparaopln AT adriananascimentobodolay anotexrotinadefiltragemdedadosestruturadosdogeneroartigocientificocomocontribuicaoparaopln

AnoTex: rotina de filtragem de dados estruturados do gênero artigo científico como contribuição para o PLN

Similar Items