Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados
Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais p...
Main Author: | |
---|---|
Format: | Article |
Language: | Portuguese |
Published: |
Universidade de São Paulo
2011-12-01
|
Series: | TradTerm |
Subjects: | |
Online Access: | https://www.revistas.usp.br/tradterm/article/view/36765 |
_version_ | 1798016714104897536 |
---|---|
author | Rosana de Barros Silva e Teixeira |
author_facet | Rosana de Barros Silva e Teixeira |
author_sort | Rosana de Barros Silva e Teixeira |
collection | DOAJ |
description | Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas. |
first_indexed | 2024-04-11T15:53:57Z |
format | Article |
id | doaj.art-ccdeae7794bc464683ca159f3bb87641 |
institution | Directory Open Access Journal |
issn | 0104-639X 2317-9511 |
language | Portuguese |
last_indexed | 2024-04-11T15:53:57Z |
publishDate | 2011-12-01 |
publisher | Universidade de São Paulo |
record_format | Article |
series | TradTerm |
spelling | doaj.art-ccdeae7794bc464683ca159f3bb876412022-12-22T04:15:13ZporUniversidade de São PauloTradTerm0104-639X2317-95112011-12-0118Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dadosRosana de Barros Silva e Teixeira0Pontifícia Universidade Católica de São Paulo (PUC-SP)Este artigo pretende apresentar um aspecto da dissertação de mestrado intitulada Termos de (Onco)mastologia: uma abordagem mediada por corpus (2011). Nesta ocasião, explorarei um dos objetivos que norteou a pesquisa, qual seja, a verificação do índice de acerto de quatro ferramentas computacionais para extração automática de candidatos a termo: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos e ZExtractor. Dois corpora prestaram-se à investigação: o de estudo (MAMAtex), que totaliza 563.482 palavras, e o de referência (Banco de Português 1.0), com 125.927.624 palavras. O primeiro, especializado, é composto de alguns dos gêneros dos discursos científico, de divulgação científica e instrucional da (Onco)mastologia, enquanto o segundo, de linguagem geral, compreende gêneros discursivos variados. Para subsidiar a análise do ponto de vista teórico-metodológico, foram eleitas duas abordagens, a Teoria Comunicativa da Terminologia (CABRÉ 1993) e a Linguística de Corpus (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). Conforme apontam os dados, o Corpógrafo 4.0 lidera o ranking, com 27,56% de acerto, seguido, respectivamente, pelo ZExtractor (26,05%), WordSmith Tools 3.0 (21,77%) e e-Termos (14,44%). Com vistas a tornar factível o exame dos candidatos, posto que as listas geradas pelos programas abrangiam milhares de palavras, foi desenvolvida uma metodologia com o auxílio do Microsoft Office Excel 2007 para filtragem dos candidatos comuns entre todas as ferramentas e exclusivos de cada uma. Esse recorte nos dados funcionou como um “atalho metodológico” possivelmente viável no sentido de otimizar a seleção de candidatos a termo a partir de listas processadas por dois ou mais programas.https://www.revistas.usp.br/tradterm/article/view/36765TerminologiaLinguística de CorpusFerramentas computacionaisExtração automática de candidatos a termo. |
spellingShingle | Rosana de Barros Silva e Teixeira Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados TradTerm Terminologia Linguística de Corpus Ferramentas computacionais Extração automática de candidatos a termo. |
title | Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados |
title_full | Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados |
title_fullStr | Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados |
title_full_unstemmed | Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados |
title_short | Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados |
title_sort | analise do desempenho de extratores automaticos de candidatos a termos proposta metodologica para tratamento de filtragem dos dados |
topic | Terminologia Linguística de Corpus Ferramentas computacionais Extração automática de candidatos a termo. |
url | https://www.revistas.usp.br/tradterm/article/view/36765 |
work_keys_str_mv | AT rosanadebarrossilvaeteixeira analisedodesempenhodeextratoresautomaticosdecandidatosatermospropostametodologicaparatratamentodefiltragemdosdados |