Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais p...
Main Author: | |
---|---|
Format: | Article |
Language: | Portuguese |
Published: |
Universidade de São Paulo
2011-12-01
|
Series: | TradTerm |
Subjects: | |
Online Access: | https://www.revistas.usp.br/tradterm/article/view/36765 |
Summary: | Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas. |
---|---|
ISSN: | 0104-639X 2317-9511 |