Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales
En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámic...
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | Catalan |
Published: |
Universidade do Minho & Universidade de Vigo
2016-07-01
|
Series: | Linguamática |
Subjects: | |
Online Access: | http://linguamatica.com/index.php/linguamatica/article/view/227 |
_version_ | 1811321716814643200 |
---|---|
author | Carlos-Emiliano González-Gallardo Juan-Manuel Torres-Moreno Azucena Montes Rendón Gerardo Sierra |
author_facet | Carlos-Emiliano González-Gallardo Juan-Manuel Torres-Moreno Azucena Montes Rendón Gerardo Sierra |
author_sort | Carlos-Emiliano González-Gallardo |
collection | DOAJ |
description | En este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.).
El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%. |
first_indexed | 2024-04-13T13:22:35Z |
format | Article |
id | doaj.art-38d7b83d4f2147e28fd9f7bcb30126d0 |
institution | Directory Open Access Journal |
issn | 1647-0818 |
language | Catalan |
last_indexed | 2024-04-13T13:22:35Z |
publishDate | 2016-07-01 |
publisher | Universidade do Minho & Universidade de Vigo |
record_format | Article |
series | Linguamática |
spelling | doaj.art-38d7b83d4f2147e28fd9f7bcb30126d02022-12-22T02:45:16ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182016-07-0181Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticalesCarlos-Emiliano González-GallardoJuan-Manuel Torres-MorenoAzucena Montes Rendón0Gerardo Sierra1CENIDETGIL - UNAMEn este artículo presentamos un algoritmo que combina las características estilísticas representadas por los n-gramas de caracteres y los n-gramas de etiquetas gramaticales (POS) para clasificar documentos multilengua de redes sociales. En ambos grupos de n-gramas se aplicó una normalización dinámica dependiente del contexto para extraer la mayor cantidad de información estilística posible codificada en los documentos (emoticonos, inundamiento de caracteres, uso de letras mayúsculas, referencias a usuarios, ligas a sitios externos, hashtags, etc.). El algoritmo fue aplicado sobre dos corpus diferentes: los tweets del corpus de entrenamiento de la tarea Author Profiling de PAN-CLEF 2015 y el corpus de "Comentarios de la Ciudad de México en el tiempo" (CCDMX). Los resultados presentan una exactitud muy alta, cercana al 90%.http://linguamatica.com/index.php/linguamatica/article/view/227Minería de textosAprendizaje automáticoClasificaciónn-gramasBlogsTweets |
spellingShingle | Carlos-Emiliano González-Gallardo Juan-Manuel Torres-Moreno Azucena Montes Rendón Gerardo Sierra Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales Linguamática Minería de textos Aprendizaje automático Clasificación n-gramas Blogs Tweets |
title | Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales |
title_full | Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales |
title_fullStr | Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales |
title_full_unstemmed | Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales |
title_short | Perfilado de autor multilingüe en redes sociales a partir de n-gramas de caracteres y de etiquetas gramaticales |
title_sort | perfilado de autor multilingue en redes sociales a partir de n gramas de caracteres y de etiquetas gramaticales |
topic | Minería de textos Aprendizaje automático Clasificación n-gramas Blogs Tweets |
url | http://linguamatica.com/index.php/linguamatica/article/view/227 |
work_keys_str_mv | AT carlosemilianogonzalezgallardo perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales AT juanmanueltorresmoreno perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales AT azucenamontesrendon perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales AT gerardosierra perfiladodeautormultilingueenredessocialesapartirdengramasdecaracteresydeetiquetasgramaticales |