基于容忍因子的近似最近邻混合查询算法

近似最近邻搜索(ANNS)是计算机领域中一种重要的高效相似度搜索技术,可用于在大规模数据集中进行快速信息检索。随着人们对高精度信息检索的需求不断增长,同时使用结构化信息和非结构化信息进行混合查询的方式也得到了广泛应用。然而,基于近邻图的过滤贪心算法在混合查询时可能会因结构化约束条件的影响导致连通性降低,进而损害搜索精度。为此,提出了一种基于容忍因子的过滤贪心算法,通过容忍因子控制不满足结构化约束条件的顶点参与路由,在不改变索引结构的前提下维持原有近邻图的连通性,克服了结构化约束条件对检索精度的负面影响。实验结果证明,新算法可以在不同结构化约束强度下实现ANNS的高精度搜索,同时保持检索效率。该...

Full description

Bibliographic Details
Main Author: 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗
Format: Article
Language:zho
Published: China InfoCom Media Group 2024-01-01
Series:大数据
Subjects:
Online Access:https://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2024010
_version_ 1797269090966962176
author 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗
author_facet 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗
author_sort 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗
collection DOAJ
description 近似最近邻搜索(ANNS)是计算机领域中一种重要的高效相似度搜索技术,可用于在大规模数据集中进行快速信息检索。随着人们对高精度信息检索的需求不断增长,同时使用结构化信息和非结构化信息进行混合查询的方式也得到了广泛应用。然而,基于近邻图的过滤贪心算法在混合查询时可能会因结构化约束条件的影响导致连通性降低,进而损害搜索精度。为此,提出了一种基于容忍因子的过滤贪心算法,通过容忍因子控制不满足结构化约束条件的顶点参与路由,在不改变索引结构的前提下维持原有近邻图的连通性,克服了结构化约束条件对检索精度的负面影响。实验结果证明,新算法可以在不同结构化约束强度下实现ANNS的高精度搜索,同时保持检索效率。该研究解决了基于近邻图的ANNS在混合查询场景中的问题,为大规模数据集的快速混合查询信息检索提供了一种有效的解决方案。
first_indexed 2024-03-08T05:30:37Z
format Article
id doaj.art-1afb649a2c7e4137beed52a23ba111ed
institution Directory Open Access Journal
issn 2096-0271
language zho
last_indexed 2024-04-25T01:42:51Z
publishDate 2024-01-01
publisher China InfoCom Media Group
record_format Article
series 大数据
spelling doaj.art-1afb649a2c7e4137beed52a23ba111ed2024-03-08T00:50:17ZzhoChina InfoCom Media Group大数据2096-02712024-01-01101173410.11959/j.issn.2096-0271.2024010基于容忍因子的近似最近邻混合查询算法贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗近似最近邻搜索(ANNS)是计算机领域中一种重要的高效相似度搜索技术,可用于在大规模数据集中进行快速信息检索。随着人们对高精度信息检索的需求不断增长,同时使用结构化信息和非结构化信息进行混合查询的方式也得到了广泛应用。然而,基于近邻图的过滤贪心算法在混合查询时可能会因结构化约束条件的影响导致连通性降低,进而损害搜索精度。为此,提出了一种基于容忍因子的过滤贪心算法,通过容忍因子控制不满足结构化约束条件的顶点参与路由,在不改变索引结构的前提下维持原有近邻图的连通性,克服了结构化约束条件对检索精度的负面影响。实验结果证明,新算法可以在不同结构化约束强度下实现ANNS的高精度搜索,同时保持检索效率。该研究解决了基于近邻图的ANNS在混合查询场景中的问题,为大规模数据集的快速混合查询信息检索提供了一种有效的解决方案。https://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2024010混合查询向量检索最近邻搜索过滤搜索
spellingShingle 贺广福, 薛源海, 陈翠婷, 俞晓明, 刘欣然, 程学旗
基于容忍因子的近似最近邻混合查询算法
大数据
混合查询
向量检索
最近邻搜索
过滤搜索
title 基于容忍因子的近似最近邻混合查询算法
title_full 基于容忍因子的近似最近邻混合查询算法
title_fullStr 基于容忍因子的近似最近邻混合查询算法
title_full_unstemmed 基于容忍因子的近似最近邻混合查询算法
title_short 基于容忍因子的近似最近邻混合查询算法
title_sort 基于容忍因子的近似最近邻混合查询算法
topic 混合查询
向量检索
最近邻搜索
过滤搜索
url https://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2024010
work_keys_str_mv AT hèguǎngfúxuēyuánhǎichéncuìtíngyúxiǎomíngliúxīnránchéngxuéqí jīyúróngrěnyīnzidejìnshìzuìjìnlínhùnhécháxúnsuànfǎ