Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados

Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais p...

Full description

Bibliographic Details
Main Author: Rosana de Barros Silva e Teixeira
Format: Article
Language:Portuguese
Published: Universidade de São Paulo 2011-12-01
Series:TradTerm
Subjects:
Online Access:https://www.revistas.usp.br/tradterm/article/view/36765
_version_ 1798016714104897536
author Rosana de Barros Silva e Teixeira
author_facet Rosana de Barros Silva e Teixeira
author_sort Rosana de Barros Silva e Teixeira
collection DOAJ
description Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas.
first_indexed 2024-04-11T15:53:57Z
format Article
id doaj.art-ccdeae7794bc464683ca159f3bb87641
institution Directory Open Access Journal
issn 0104-639X
2317-9511
language Portuguese
last_indexed 2024-04-11T15:53:57Z
publishDate 2011-12-01
publisher Universidade de São Paulo
record_format Article
series TradTerm
spelling doaj.art-ccdeae7794bc464683ca159f3bb876412022-12-22T04:15:13ZporUniversidade de São PauloTradTerm0104-639X2317-95112011-12-0118Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dadosRosana de Barros Silva e Teixeira0Pontifícia Universidade Católica de São Paulo (PUC-SP)Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas.https://www.revistas.usp.br/tradterm/article/view/36765TerminologiaLinguística de CorpusFerramentas computacionaisExtração automática de candidatos a termo.
spellingShingle Rosana de Barros Silva e Teixeira
Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
TradTerm
Terminologia
Linguística de Corpus
Ferramentas computacionais
Extração automática de candidatos a termo.
title Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
title_full Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
title_fullStr Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
title_full_unstemmed Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
title_short Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
title_sort analise do desempenho de extratores automaticos de candidatos a termos proposta metodologica para tratamento de filtragem dos dados
topic Terminologia
Linguística de Corpus
Ferramentas computacionais
Extração automática de candidatos a termo.
url https://www.revistas.usp.br/tradterm/article/view/36765
work_keys_str_mv AT rosanadebarrossilvaeteixeira analisedodesempenhodeextratoresautomaticosdecandidatosatermospropostametodologicaparatratamentodefiltragemdosdados