An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento

Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the...

Full description

Bibliographic Details
Main Authors: Márcio de Souza Dias, Ariani Di Felippo, Amanda Pontes Rassi, Paula Cristina Figueira Cardoso, Fernando Antônio Asevedo Nóbrega, Thiago Alexandre Salgueiro Pardo
Format: Article
Language:English
Published: Universidade Federal de Minas Gerais 2021-03-01
Series:Revista de Estudos da Linguagem
Subjects:
Online Access:http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/16831
_version_ 1818417020449849344
author Márcio de Souza Dias
Ariani Di Felippo
Amanda Pontes Rassi
Paula Cristina Figueira Cardoso
Fernando Antônio Asevedo Nóbrega
Thiago Alexandre Salgueiro Pardo
author_facet Márcio de Souza Dias
Ariani Di Felippo
Amanda Pontes Rassi
Paula Cristina Figueira Cardoso
Fernando Antônio Asevedo Nóbrega
Thiago Alexandre Salgueiro Pardo
author_sort Márcio de Souza Dias
collection DOAJ
description Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados. Palavras-chave: sumarização automática; sumário multidocumento; problema linguístico; anotação de corpus.
first_indexed 2024-12-14T12:00:08Z
format Article
id doaj.art-d388050ff761404f8226797ea0921862
institution Directory Open Access Journal
issn 0104-0588
2237-2083
language English
last_indexed 2024-12-14T12:00:08Z
publishDate 2021-03-01
publisher Universidade Federal de Minas Gerais
record_format Article
series Revista de Estudos da Linguagem
spelling doaj.art-d388050ff761404f8226797ea09218622022-12-21T23:02:01ZengUniversidade Federal de Minas GeraisRevista de Estudos da Linguagem0104-05882237-20832021-03-0129285990710.17851/2237-2083.29.2.859-90711790An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumentoMárcio de Souza Dias0Ariani Di Felippo1Amanda Pontes Rassi2Paula Cristina Figueira Cardoso3Fernando Antônio Asevedo Nóbrega4Thiago Alexandre Salgueiro Pardo5Universidade Federal de GoiásUniversidade Federal de São CarlosRedação Nota 1000 Ltda.Universidade Federal de LavrasSamsungUniversidade de São PauloAbstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados. Palavras-chave: sumarização automática; sumário multidocumento; problema linguístico; anotação de corpus.http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/16831automatic summarizationmulti-document summarylinguistic problemcorpus annotationsumarização automáticasumário multidocumentoproblema linguísticoanotação de corpus.
spellingShingle Márcio de Souza Dias
Ariani Di Felippo
Amanda Pontes Rassi
Paula Cristina Figueira Cardoso
Fernando Antônio Asevedo Nóbrega
Thiago Alexandre Salgueiro Pardo
An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
Revista de Estudos da Linguagem
automatic summarization
multi-document summary
linguistic problem
corpus annotation
sumarização automática
sumário multidocumento
problema linguístico
anotação de corpus.
title An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
title_full An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
title_fullStr An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
title_full_unstemmed An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
title_short An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
title_sort investigation of linguistic problems in automatic multi document summaries uma investigacao de problemas linguisticos em sumarios automaticos multidocumento
topic automatic summarization
multi-document summary
linguistic problem
corpus annotation
sumarização automática
sumário multidocumento
problema linguístico
anotação de corpus.
url http://www.periodicos.letras.ufmg.br/index.php/relin/article/view/16831
work_keys_str_mv AT marciodesouzadias aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT arianidifelippo aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT amandapontesrassi aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT paulacristinafigueiracardoso aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT fernandoantonioasevedonobrega aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT thiagoalexandresalgueiropardo aninvestigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT marciodesouzadias investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT arianidifelippo investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT amandapontesrassi investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT paulacristinafigueiracardoso investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT fernandoantonioasevedonobrega investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento
AT thiagoalexandresalgueiropardo investigationoflinguisticproblemsinautomaticmultidocumentsummariesumainvestigacaodeproblemaslinguisticosemsumariosautomaticosmultidocumento