IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO

This paper presents a feature based on out-of-vocabulary word statistics that complements the information sources used in the decision by state-of-the-art spam filters. The experiments included freely available spam filters as reference, SpamAssassin, Bogofilter, SpamBayes and SpamProbe, as well as...

Full description

Bibliographic Details
Main Authors: Pablo Daniel Agüero, Jorge Castiñeira Moreira, Monica Liberatori, Juan Carlos Bonadero, Juan Carlos Tulli
Format: Article
Language:English
Published: Universidad de Tarapacá 2009-12-01
Series:Ingeniare: Revista Chilena de Ingeniería
Subjects:
Online Access:http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052009000300012
_version_ 1811316906923130880
author Pablo Daniel Agüero
Jorge Castiñeira Moreira
Monica Liberatori
Juan Carlos Bonadero
Juan Carlos Tulli
author_facet Pablo Daniel Agüero
Jorge Castiñeira Moreira
Monica Liberatori
Juan Carlos Bonadero
Juan Carlos Tulli
author_sort Pablo Daniel Agüero
collection DOAJ
description This paper presents a feature based on out-of-vocabulary word statistics that complements the information sources used in the decision by state-of-the-art spam filters. The experiments included freely available spam filters as reference, SpamAssassin, Bogofilter, SpamBayes and SpamProbe, as well as a Naive Bayes classifier. The results show that the decision based on the proposed feature improves the performance of all spam filters under study.<br>Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) que complementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentos incluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe, así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característica propuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
first_indexed 2024-04-13T11:58:36Z
format Article
id doaj.art-bbd07b5649c745abae9c7aa30b0cc66b
institution Directory Open Access Journal
issn 0718-3291
0718-3305
language English
last_indexed 2024-04-13T11:58:36Z
publishDate 2009-12-01
publisher Universidad de Tarapacá
record_format Article
series Ingeniare: Revista Chilena de Ingeniería
spelling doaj.art-bbd07b5649c745abae9c7aa30b0cc66b2022-12-22T02:47:52ZengUniversidad de TarapacáIngeniare: Revista Chilena de Ingeniería0718-32910718-33052009-12-01173386392IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIOPablo Daniel AgüeroJorge Castiñeira MoreiraMonica LiberatoriJuan Carlos BonaderoJuan Carlos TulliThis paper presents a feature based on out-of-vocabulary word statistics that complements the information sources used in the decision by state-of-the-art spam filters. The experiments included freely available spam filters as reference, SpamAssassin, Bogofilter, SpamBayes and SpamProbe, as well as a Naive Bayes classifier. The results show that the decision based on the proposed feature improves the performance of all spam filters under study.<br>Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) que complementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentos incluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe, así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característica propuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052009000300012Spamfiltradopalabras desconocidasSpamfilteringout-of-vocabulary
spellingShingle Pablo Daniel Agüero
Jorge Castiñeira Moreira
Monica Liberatori
Juan Carlos Bonadero
Juan Carlos Tulli
IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
Ingeniare: Revista Chilena de Ingeniería
Spam
filtrado
palabras desconocidas
Spam
filtering
out-of-vocabulary
title IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
title_full IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
title_fullStr IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
title_full_unstemmed IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
title_short IMPROVING THE PERFORMANCE OF ANTI-SPAM FILTERS USING OUT-OF-VOCABULARY STATISTICS MEJORA DEL DESEMPEÑO DE FILTROS ANTI-SPAM USANDO ESTADÍSTICAS DE PALABRAS FUERA DE VOCABULARIO
title_sort improving the performance of anti spam filters using out of vocabulary statistics mejora del desempeno de filtros anti spam usando estadisticas de palabras fuera de vocabulario
topic Spam
filtrado
palabras desconocidas
Spam
filtering
out-of-vocabulary
url http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-33052009000300012
work_keys_str_mv AT pablodanielaguero improvingtheperformanceofantispamfiltersusingoutofvocabularystatisticsmejoradeldesempenodefiltrosantispamusandoestadisticasdepalabrasfueradevocabulario
AT jorgecastineiramoreira improvingtheperformanceofantispamfiltersusingoutofvocabularystatisticsmejoradeldesempenodefiltrosantispamusandoestadisticasdepalabrasfueradevocabulario
AT monicaliberatori improvingtheperformanceofantispamfiltersusingoutofvocabularystatisticsmejoradeldesempenodefiltrosantispamusandoestadisticasdepalabrasfueradevocabulario
AT juancarlosbonadero improvingtheperformanceofantispamfiltersusingoutofvocabularystatisticsmejoradeldesempenodefiltrosantispamusandoestadisticasdepalabrasfueradevocabulario
AT juancarlostulli improvingtheperformanceofantispamfiltersusingoutofvocabularystatisticsmejoradeldesempenodefiltrosantispamusandoestadisticasdepalabrasfueradevocabulario