FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL

RESUMO Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros atrav...

Full description

Bibliographic Details
Main Authors: Jean Carlos Borges Brito, Dalton Lopes Martins
Format: Article
Language:Portuguese
Published: Universidade Federal de Minas Gerais, Escola de Ciência da Informação 2023-12-01
Series:Perspectivas em Ciência da Informação
Subjects:
Online Access:http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362023000100218&tlng=pt
_version_ 1797375591722254336
author Jean Carlos Borges Brito
Dalton Lopes Martins
author_facet Jean Carlos Borges Brito
Dalton Lopes Martins
author_sort Jean Carlos Borges Brito
collection DOAJ
description RESUMO Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro de Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.
first_indexed 2024-03-08T19:26:37Z
format Article
id doaj.art-8d625776f4294a2cbb4eb76afb4beb0c
institution Directory Open Access Journal
issn 1981-5344
language Portuguese
last_indexed 2024-03-08T19:26:37Z
publishDate 2023-12-01
publisher Universidade Federal de Minas Gerais, Escola de Ciência da Informação
record_format Article
series Perspectivas em Ciência da Informação
spelling doaj.art-8d625776f4294a2cbb4eb76afb4beb0c2023-12-26T08:32:00ZporUniversidade Federal de Minas Gerais, Escola de Ciência da InformaçãoPerspectivas em Ciência da Informação1981-53442023-12-012810.1590/1981-5344/46629FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITALJean Carlos Borges Britohttps://orcid.org/0000-0001-7421-1642Dalton Lopes Martinshttps://orcid.org/0000-0002-6244-6791RESUMO Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro de Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362023000100218&tlng=ptGeração Automática de AssuntosIndexaçãoColeçõesRepositório DigitalBusca Facetada
spellingShingle Jean Carlos Borges Brito
Dalton Lopes Martins
FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
Perspectivas em Ciência da Informação
Geração Automática de Assuntos
Indexação
Coleções
Repositório Digital
Busca Facetada
title FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
title_full FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
title_fullStr FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
title_full_unstemmed FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
title_short FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL
title_sort framework generico para geracao automatica de assuntos e indexacao em repositorio digital
topic Geração Automática de Assuntos
Indexação
Coleções
Repositório Digital
Busca Facetada
url http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413-99362023000100218&tlng=pt
work_keys_str_mv AT jeancarlosborgesbrito frameworkgenericoparageracaoautomaticadeassuntoseindexacaoemrepositoriodigital
AT daltonlopesmartins frameworkgenericoparageracaoautomaticadeassuntoseindexacaoemrepositoriodigital