milvus-logo
LFAI
首页
  • 概念

GPU 索引

Milvus 支持各种 GPU 索引类型,以加快搜索性能和效率,尤其是在高吞吐量和高调用场景中。本主题概述了 Milvus 支持的 GPU 索引类型、适合的使用案例和性能特点。有关使用 GPU 建立索引的信息,请参阅《使用 GPU 建立索引》。

值得注意的是,与使用 CPU 索引相比,使用 GPU 索引并不一定能减少延迟。如果想完全最大化吞吐量,则需要极高的请求压力或大量的查询向量。

performance 性能

Milvus 的 GPU 支持由 NvidiaRAPIDS团队贡献。以下是 Milvus 目前支持的 GPU 索引类型。

GPU_CAGRA

GPU_CAGRA 是为 GPU 优化的基于图的索引,与使用昂贵的训练级 GPU 相比,使用推理级 GPU 运行 Milvus GPU 版本可以获得更高的成本效益。

  • 索引构建参数

    参数说明默认值
    intermediate_graph_degree通过在剪枝之前确定图的度数来影响召回率和构建时间。推荐值为3264128
    graph_degree通过设置剪枝后图形的度数来影响搜索性能和召回率。这两个度数之间的差值越大,构建时间就越长。其值必须小于intermediate_graph_degree 的值。64
    build_algo选择剪枝前的图形生成算法。可能的值:
    IVF_PQ:提供更高的质量,但构建时间较慢。
    NN_DESCENT提供更快的生成速度,但召回率可能较低。
    IVF_PQ
    cache_dataset_on_device决定是否在 GPU 内存中缓存原始数据集。可能的值
    “true”:缓存原始数据集,通过细化搜索结果提高召回率。
    “false”不缓存原始数据集,以节省 GPU 内存。
    “false”
  • 搜索参数

    参数说明默认值
    itopk_size决定搜索过程中保留的中间结果的大小。较大的值可能会提高召回率,但会降低搜索性能。它至少应等于最终的 top-k(极限)值,通常是 2 的幂次(例如 16、32、64、128)。
    search_width指定搜索过程中进入 CAGRA 图的入口点数量。增加该值可以提高召回率,但可能会影响搜索性能(如 1、2、4、8、16、32)。
    min_iterations /max_iterations控制搜索迭代过程。默认设置为0 ,CAGRA 会根据itopk_sizesearch_width 自动确定迭代次数。手动调整这些值有助于平衡性能和准确性。0
    team_size指定用于在 GPU 上计算度量距离的 CUDA 线程数。常用值是 2 的幂次,最高可达 32(例如 2、4、8、16、32)。它对搜索性能影响不大。默认值为0 ,Milvus 会根据向量维度自动选择team_size0
  • 搜索限制

    参数范围
    limit (顶-K)<= 1024
    limit (top-K)<=max((itopk_size + 31)// 32,search_width)* 32

GPU_IVF_FLAT

IVF_FLAT 类似,GPU_IVF_FLAT 也是将向量数据划分为nlist 聚类单元,然后比较目标输入向量与每个聚类中心之间的距离。根据系统设置查询的簇数(nprobe ),相似性搜索结果仅根据目标输入与最相似簇中向量的比较结果返回--大大缩短了查询时间。

通过调整nprobe ,可以在特定情况下找到准确性和速度之间的理想平衡。IVF_FLAT 性能测试结果表明,随着目标输入向量数 (nq) 和要搜索的簇数 (nprobe) 的增加,查询时间也会急剧增加。

GPU_IVF_FLAT 是最基本的 IVF 索引,每个单元中存储的编码数据与原始数据一致。

在进行搜索时要注意,针对 GPU_IVF_FLAT 索引的 Collections 进行任何搜索时,都可以将 top-K 设置为最多 256。

  • 索引建立参数

    参数说明范围默认值
    nlist群组单位数[1, 65536]128
    cache_dataset_on_device决定是否在 GPU 内存中缓存原始数据集。可能的值
    “true”:缓存原始数据集,通过细化搜索结果提高召回率。
    “false”不缓存原始数据集,以节省 GPU 内存。
    "true" "flase""false"
  • 搜索参数

    • 普通搜索

      参数说明范围默认值
      nprobe要查询的单位数[1,nlist]8
  • 搜索限制

    参数范围
    limit (top-K)<=2048

GPU_IVF_PQ

PQ (乘积量化)将原始高维向量空间均匀分解为 低维向量空间的笛卡尔乘积,然后对分解后的低维向量空间进行量化。乘积量化不需要计算目标向量与所有单元中心的距离,而是能够计算目标向量与每个低维空间聚类中心的距离,大大降低了算法的时间复杂度和空间复杂度。m

IVF_PQ 先进行 IVF 索引聚类,然后再对向量的乘积进行量化。其索引文件比 IVF_SQ8 更小,但在搜索向量时也会造成精度损失。

索引建立参数和搜索参数随 Milvus Distributed 分布而异。请先选择您的 Milvus Distributed。

在进行搜索时,请注意针对 GPU_IVF_FLAT 索引 Collections 的任何搜索都可以将 top-K 设置为 8192。

  • 索引建立参数

    参数说明范围默认值
    nlist群组单位数[1, 65536]128
    m乘积量化因子数、dim mod m or = 00
    nbits[可选项] 每个低维向量的存储位数。[1, 16]8
    cache_dataset_on_device决定是否在 GPU 内存中缓存原始数据集。可能的值:
    “true”:缓存原始数据集,通过细化搜索结果提高召回率。
    “false”不缓存原始数据集,以节省 GPU 内存。
    "true" "false""false"
  • 搜索参数

    • 普通搜索

      参数说明范围默认值
      nprobe要查询的单位数[1,nlist]8
  • 搜索限制

    参数范围
    limit (top-K)<=1024

GPU_BRUTE_FORCE

GPU_BRUTE_FORCE 专为对召回率要求极高的情况定制,通过将每个查询与数据集中的所有向量进行比较,保证召回率为 1。它只需要度量类型 (metric_type) 和 top-k (limit) 作为索引构建和搜索参数。

对于 GPU_BRUTE_FORCE,不需要额外的索引建立参数或搜索参数。

结论

目前,Milvus 会将所有索引加载到 GPU 内存中,以便进行高效的搜索操作。可加载的数据量取决于 GPU 内存的大小:

  • GPU_CAGRA:内存使用量约为原始向量数据的 1.8 倍。
  • GPU_IVF_FLATGPU_BRUTE_FORCE:需要与原始数据大小相等的内存。
  • GPU_IVF_PQ:占用内存较少,具体取决于压缩参数设置。

翻译自DeepLogo

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?