Enfoque Combinado de Word2Vec y 2-grams para la Recuperación de Avisos Clasificados Inmobiliarios Semánticamente Relacionados

La publicación de avisos clasificados de inmuebles se ha convertido en el medio de publicidad preferido tanto  para particulares como empresas inmobiliarias. Esto ha provocado un crecimiento importante en la cantidad de avisos, tornando difícil la búsqueda un inmueble adecuado, mucho más si la búsqu...

Full description

Bibliographic Details
Main Author: José Federico Medrano
Format: Article
Language:English
Published: Universidad Tecnologica Nacional 2020-12-01
Series:Tecnología y Ciencia
Subjects:
Online Access:http://rtyc.utn.edu.ar/index.php/rtyc/article/view/799
Description
Summary:La publicación de avisos clasificados de inmuebles se ha convertido en el medio de publicidad preferido tanto  para particulares como empresas inmobiliarias. Esto ha provocado un crecimiento importante en la cantidad de avisos, tornando difícil la búsqueda un inmueble adecuado, mucho más si la búsqueda es en una gran ciudad. Este trabajo propone un enfoque basado en técnicas de minería de textos y procesamiento del lenguaje natural para la recuperación de avisos clasificados semánticamente relacionados. Para tal propósito se recolectaron los avisos publicados por el sitio web lavoz.com.ar, mediante un scraper. El título y la descripción de estos avisos fueron empleados para conformar un corpus textual modelado mediante Word2Vec, evaluando la similitud por medio de Word Mover’s Distance. El empleo de 2-grams (bigramas) frente a otros esquemas de agrupación de términos ofrecieron los mejores resultados comparando los resultados con búsquedas sintácticas
ISSN:1666-6933