Detección de Idioma en Twitter (Language Detection on Twitter)
Resumen El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilizació...
Main Authors: | , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Cátedra UNESCO en Gestión de Información en las Organizaciones (La Habana)
2014-08-01
|
Series: | GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología |
Subjects: | |
Online Access: | https://www.upo.es/revistas/index.php/gecontec/article/view/1081 |
_version_ | 1828044264548859904 |
---|---|
author | Yudivián Almeida-Cruz Suilan Estévez-Velarde Alejandro Piad-Morffis |
author_facet | Yudivián Almeida-Cruz Suilan Estévez-Velarde Alejandro Piad-Morffis |
author_sort | Yudivián Almeida-Cruz |
collection | DOAJ |
description | Resumen
El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas.
Abstract
The paper presents an alternative to identify languages on Twitter without having to use training sets or aggregated information. Such alternative is based on trigram recognition algorithms and small words techniques. The use of these algorithms is evaluated both on their own and in a model of composition. Also, the incidence of pre-processing of tweets in the accuracy of identifying the language is discussed. Finally, after a process of experimentation, the best alternative, out of those studied, is determined. |
first_indexed | 2024-04-10T17:54:20Z |
format | Article |
id | doaj.art-b76482fb96844b138a571f271c13e97b |
institution | Directory Open Access Journal |
issn | 2255-5684 |
language | English |
last_indexed | 2024-04-10T17:54:20Z |
publishDate | 2014-08-01 |
publisher | Cátedra UNESCO en Gestión de Información en las Organizaciones (La Habana) |
record_format | Article |
series | GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología |
spelling | doaj.art-b76482fb96844b138a571f271c13e97b2023-02-02T19:37:02ZengCátedra UNESCO en Gestión de Información en las Organizaciones (La Habana)GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología2255-56842014-08-0123Detección de Idioma en Twitter (Language Detection on Twitter)Yudivián Almeida-CruzSuilan Estévez-VelardeAlejandro Piad-MorffisResumen El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas. Abstract The paper presents an alternative to identify languages on Twitter without having to use training sets or aggregated information. Such alternative is based on trigram recognition algorithms and small words techniques. The use of these algorithms is evaluated both on their own and in a model of composition. Also, the incidence of pre-processing of tweets in the accuracy of identifying the language is discussed. Finally, after a process of experimentation, the best alternative, out of those studied, is determined.https://www.upo.es/revistas/index.php/gecontec/article/view/1081Detección de Idiomasn-gramastrigramassmall wordsTwitterLanguage detection |
spellingShingle | Yudivián Almeida-Cruz Suilan Estévez-Velarde Alejandro Piad-Morffis Detección de Idioma en Twitter (Language Detection on Twitter) GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología Detección de Idiomas n-gramas trigramas small words Language detection |
title | Detección de Idioma en Twitter (Language Detection on Twitter) |
title_full | Detección de Idioma en Twitter (Language Detection on Twitter) |
title_fullStr | Detección de Idioma en Twitter (Language Detection on Twitter) |
title_full_unstemmed | Detección de Idioma en Twitter (Language Detection on Twitter) |
title_short | Detección de Idioma en Twitter (Language Detection on Twitter) |
title_sort | deteccion de idioma en twitter language detection on twitter |
topic | Detección de Idiomas n-gramas trigramas small words Language detection |
url | https://www.upo.es/revistas/index.php/gecontec/article/view/1081 |
work_keys_str_mv | AT yudivianalmeidacruz detecciondeidiomaentwitterlanguagedetectionontwitter AT suilanestevezvelarde detecciondeidiomaentwitterlanguagedetectionontwitter AT alejandropiadmorffis detecciondeidiomaentwitterlanguagedetectionontwitter |