支持 MMap 的数据存储
在 Milvus 中,内存映射文件允许将文件内容直接映射到内存中。这一功能提高了内存效率,尤其是在可用内存稀缺但完全加载数据不可行的情况下。这种优化机制可以增加数据容量,同时在一定限度内确保性能;但当数据量超出内存太多时,搜索和查询性能可能会严重下降,因此请根据情况选择打开或关闭此功能。
配置内存映射
从 Milvus 2.4 开始,您可以灵活调整静态配置文件,在部署前为整个集群配置默认内存映射设置。此外,您还可以动态更改参数,以微调群集和索引级别的内存映射设置。展望未来,未来的更新将把内存映射功能扩展到字段级配置。
群集部署前:全局配置
在部署群集之前,群集级设置会在整个群集中应用内存映射。这将确保所有新对象自动遵循这些配置。需要注意的是,修改这些设置需要重新启动群集才能生效。
要调整群集的内存映射设置,请编辑configs/milvus.yaml
文件。在该文件中,你可以指定是否默认启用内存映射,并确定存储内存映射文件的目录路径。如果未指定路径(mmapDirPath
),系统默认将内存映射文件存储在{localStorage.path}/mmap
中。有关详细信息,请参阅本地存储相关配置。
# This parameter was set in configs/milvus.yaml
...
queryNode:
mmap:
# Set memory mapping property for whole cluster
mmapEnabled: false | true
# Set memory-mapped directory path, if you leave mmapDirPath unspecified, the memory-mapped files will be stored in {localStorage.path}/ mmap by default.
mmapDirPath: any/valid/path
....
群集运行期间:动态配置
在群集运行期间,可以在集合或索引级别动态调整内存映射设置。
在集合级别,内存映射会应用到集合内所有未索引的原始数据,不包括主键、时间戳和行 ID。这种方法特别适用于大型数据集的综合管理。
要在数据集中动态调整内存映射设置,可使用set_properties()
方法。在这里,你可以根据需要在True
或False
之间切换mmap.enabled
。
# Get existing collection
collection = Collection("test_collection") # Replace with your collection name
# Set memory mapping property to True or Flase
collection.set_properties({'mmap.enabled': True})
对于索引级设置,内存映射可专门应用于向量索引,而不会影响其他数据类型。对于需要优化向量搜索性能的集合来说,这一功能非常宝贵。
要为集合中的索引启用或禁用内存映射,可调用alter_index()
方法,在index_name
中指定目标索引名称,并将mmap.enabled
设置为True
或False
。
collection.alter_index(
index_name="vector_index", # Replace with your vector index name
extra_params={"mmap.enabled": True} # Enable memory mapping for index
)
在不同部署中自定义存储路径
内存映射文件默认存放在localStorage.path
中的/mmap
目录中。以下是在不同部署方法中自定义此设置的方法:
- 对于使用 Helm Chart 安装的 Milvus:
# new-values.yaml
extraConfigFiles:
user.yaml: |+
queryNode:
mmap:
mmapEnabled: true
mmapDirPath: any/valid/path
helm upgrade <milvus-release> --reuse-values -f new-values.yaml milvus/milvus
- 对于使用 Milvus Operator 安装的 Milvus:
# patch.yaml
spec:
config:
queryNode:
mmap:
mmapEnabled: true
mmapDirPath: any/valid/path
kubectl patch milvus <milvus-name> --patch-file patch.yaml
- 对于使用 Docker 安装的 Milvus:
# A new installation script is provided to enable mmap-related settings.
限制
无法为已加载的集合启用内存映射,请确保在启用内存映射前已释放集合。
DiskANN 或 GPU 级索引不支持内存映射。
常见问题
建议在哪些情况下启用内存映射?启用此功能后有哪些权衡?
内存有限或性能要求适中时,建议使用内存映射。启用此功能可提高数据加载能力。例如,在配置 2 个 CPU 和 8 GB 内存的情况下,启用内存映射可使加载的数据量比不启用内存映射多 4 倍。对性能的影响各不相同:
在内存充足的情况下,预期性能与只使用内存的情况类似。
如果内存不足,预期性能可能会下降。
集合级配置和索引级配置之间的关系是什么?
集合级和索引级不是包含关系,集合级控制原始数据是否启用 mmap,而索引级只针对向量索引。
有没有推荐用于内存映射的索引类型?
有,建议使用 HNSW 启用毫米映射。我们曾测试过 HNSW、IVF_FLAT、IVF_PQ/SQ 系列索引,IVF 系列索引的性能下降严重,而 HNSW 索引启用毫米映射后的性能下降仍在预期之内。
内存映射需要什么样的本地存储?
高质量的磁盘可以提高性能,NVMe 驱动器是首选。
标量数据能否进行内存映射?
内存映射可应用于标量数据,但不适用于基于标量字段建立的索引。
如何确定不同级别内存映射配置的优先级?
在 Milvus 中,当跨多个级别明确定义内存映射配置时,索引级和集合级配置共享最高优先级,然后是集群级配置。
如果我从 Milvus 2.3 升级并配置了内存映射目录路径,会发生什么情况?
如果从 Milvus 2.3 升级并配置了内存映射目录路径 (
mmapDirPath
),您的配置将被保留,启用内存映射的默认设置 (mmapEnabled
) 将是true
。迁移元数据以同步现有内存映射文件的配置非常重要。有关详细信息,请参阅迁移元数据。