Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales

En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámic...

Full description

Bibliographic Details
Main Authors: Carlos-Emiliano González-Gallardo, Juan-Manuel Torres-Moreno, Azucena Montes Rendón, Gerardo Sierra
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2016-07-01
Series:Linguamática
Subjects:
Online Access:http://linguamatica.com/index.php/linguamatica/article/view/227
_version_ 1811321716814643200
author Carlos-Emiliano González-Gallardo
Juan-Manuel Torres-Moreno
Azucena Montes Rendón
Gerardo Sierra
author_facet Carlos-Emiliano González-Gallardo
Juan-Manuel Torres-Moreno
Azucena Montes Rendón
Gerardo Sierra
author_sort Carlos-Emiliano González-Gallardo
collection DOAJ
description En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.
first_indexed 2024-04-13T13:22:35Z
format Article
id doaj.art-38d7b83d4f2147e28fd9f7bcb30126d0
institution Directory Open Access Journal
issn 1647-0818
language Catalan
last_indexed 2024-04-13T13:22:35Z
publishDate 2016-07-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj.art-38d7b83d4f2147e28fd9f7bcb30126d02022-12-22T02:45:16ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182016-07-0181Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesCarlos-Emiliano González-GallardoJuan-Manuel Torres-MorenoAzucena Montes Rendón0Gerardo Sierra1CENIDETGIL - UNAMEn este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.http://linguamatica.com/index.php/linguamatica/article/view/227Minería de textosAprendizaje automáticoClasificaciónn-gramasBlogsTweets
spellingShingle Carlos-Emiliano González-Gallardo
Juan-Manuel Torres-Moreno
Azucena Montes Rendón
Gerardo Sierra
Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
Linguamática
Minería de textos
Aprendizaje automático
Clasificación
n-gramas
Blogs
Tweets
title Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_fullStr Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_full_unstemmed Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_short Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
title_sort perfilado de autor multilingue en redes sociales a partir de n gramas de caracteres y de etiquetas gramaticales
topic Minería de textos
Aprendizaje automático
Clasificación
n-gramas
Blogs
Tweets
url http://linguamatica.com/index.php/linguamatica/article/view/227
work_keys_str_mv AT carlosemilianogonzalezgallardo perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales
AT juanmanueltorresmoreno perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales
AT azucenamontesrendon perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales
AT gerardosierra perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales