Detección de Idioma en Twitter (Language Detection on Twitter)

Resumen El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilizació...

Full description

Bibliographic Details
Main Authors: Yudivián Almeida-Cruz, Suilan Estévez-Velarde, Alejandro Piad-Morffis
Format: Article
Language:English
Published: Cátedra UNESCO en Gestión de Información en las Organizaciones (La Habana) 2014-08-01
Series:GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
Subjects:
Online Access:https://www.upo.es/revistas/index.php/gecontec/article/view/1081
_version_ 1828044264548859904
author Yudivián Almeida-Cruz
Suilan Estévez-Velarde
Alejandro Piad-Morffis
author_facet Yudivián Almeida-Cruz
Suilan Estévez-Velarde
Alejandro Piad-Morffis
author_sort Yudivián Almeida-Cruz
collection DOAJ
description Resumen El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas. Abstract The paper presents an alternative to identify languages on Twitter without having to use training sets or aggregated information. Such alternative is based on trigram recognition algorithms and small words techniques. The use of these algorithms is evaluated both on their own and in a model of composition. Also, the incidence of pre-processing of tweets in the accuracy of identifying the language is discussed. Finally, after a process of experimentation, the best alternative, out of those studied, is determined.
first_indexed 2024-04-10T17:54:20Z
format Article
id doaj.art-b76482fb96844b138a571f271c13e97b
institution Directory Open Access Journal
issn 2255-5684
language English
last_indexed 2024-04-10T17:54:20Z
publishDate 2014-08-01
publisher Cátedra UNESCO en Gestión de Información en las Organizaciones (La Habana)
record_format Article
series GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
spelling doaj.art-b76482fb96844b138a571f271c13e97b2023-02-02T19:37:02ZengCátedra UNESCO en Gestión de Información en las Organizaciones (La Habana)GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología2255-56842014-08-0123Detección de Idioma en Twitter (Language Detection on Twitter)Yudivián Almeida-CruzSuilan Estévez-VelardeAlejandro Piad-MorffisResumen El trabajo presenta una alternativa para identificar idiomas en Twitter sin que sea necesario utilizar conjuntos de entrenamiento o información agregada. En dicha alternativa se utilizan técnicas basadas en los algoritmos de reconocimiento de trigramas y small words. Se valora la utilización de estos algoritmos por sí solos y en un modelo de composición. Asimismo, se analiza la incidencia del pre-procesamiento de los tweets en la precisión de la identificación de los idiomas. Finalmente, después de un proceso de experimentación, se determina la mejor alternativa de las estudiadas. Abstract The paper presents an alternative to identify languages on Twitter without having to use training sets or aggregated information. Such alternative is based on trigram recognition algorithms and small words techniques. The use of these algorithms is evaluated both on their own and in a model of composition. Also, the incidence of pre-processing of tweets in the accuracy of identifying the language is discussed. Finally, after a process of experimentation, the best alternative, out of those studied, is determined.https://www.upo.es/revistas/index.php/gecontec/article/view/1081Detección de Idiomasn-gramastrigramassmall wordsTwitterLanguage detection
spellingShingle Yudivián Almeida-Cruz
Suilan Estévez-Velarde
Alejandro Piad-Morffis
Detección de Idioma en Twitter (Language Detection on Twitter)
GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
Detección de Idiomas
n-gramas
trigramas
small words
Twitter
Language detection
title Detección de Idioma en Twitter (Language Detection on Twitter)
title_full Detección de Idioma en Twitter (Language Detection on Twitter)
title_fullStr Detección de Idioma en Twitter (Language Detection on Twitter)
title_full_unstemmed Detección de Idioma en Twitter (Language Detection on Twitter)
title_short Detección de Idioma en Twitter (Language Detection on Twitter)
title_sort deteccion de idioma en twitter language detection on twitter
topic Detección de Idiomas
n-gramas
trigramas
small words
Twitter
Language detection
url https://www.upo.es/revistas/index.php/gecontec/article/view/1081
work_keys_str_mv AT yudivianalmeidacruz detecciondeidiomaentwitterlanguagedetectionontwitter
AT suilanestevezvelarde detecciondeidiomaentwitterlanguagedetectionontwitter
AT alejandropiadmorffis detecciondeidiomaentwitterlanguagedetectionontwitter