过滤说明

Milvus 提供强大的过滤功能,可精确查询数据。过滤表达式允许你针对特定的标量字段,用不同的条件细化搜索结果。本指南介绍如何在 Milvus 中使用过滤表达式,并以查询操作符为例。您还可以在搜索和删除请求中应用这些过滤器。

基本操作符

Milvus 支持几种用于过滤数据的基本操作符:

  • 比较操作符==,!=,>,<,>=, 和<= 允许基于数字或文本字段进行筛选。

  • 范围过滤器INLIKE 可帮助匹配特定的值范围或集合。

  • 算术操作符+,-,*,/,%, 和** 用于涉及数字字段的计算。

  • 逻辑操作符AND,OR, 和NOT 将多个条件组合成复杂的表达式。

  • IS NULL 和 IS NOT NULL 操作符IS NULLIS NOT NULL 操作符用于根据字段是否包含空值(无数据)来筛选字段。有关详细信息,请参阅基本操作符

示例按颜色筛选

要在标量字段color 中查找具有三原色(红色、绿色或蓝色)的实体,请使用以下过滤表达式:

filter='color in ["red", "green", "blue"]'

示例:按颜色过滤过滤 JSON 字段

Milvus 允许在 JSON 字段中引用键。例如,如果您有一个带有键pricemodel 的 JSON 字段product ,并想查找具有特定模型且价格低于 1,850 的产品,请使用此过滤表达式:

filter='product["model"] == "JSN-087" AND product["price"] < 1850'

示例:过滤数组字段

如果有一个数组字段history_temperatures ,其中包含自 2000 年以来各观测站报告的平均气温记录,要查找 2009 年(第 10 次记录)气温超过 23°C 的观测站,请使用此表达式:

filter='history_temperatures[10] > 23'

有关这些基本操作符的更多信息,请参阅基本操作符

过滤表达式模板

使用中日韩字符进行筛选时,由于字符集较大且编码不同,处理过程可能会更加复杂。这会导致性能变慢,尤其是使用IN 操作符时。

Milvus 引入了过滤表达式模板,以优化处理中日韩字符时的性能。通过将动态值从过滤器表达式中分离出来,查询引擎能更有效地处理参数插入。

示例

要查找居住在 "北京"(北京)或 "上海"(上海)的 25 岁以上的个人,请使用以下模板表达式:

filter = "age > 25 AND city IN ['北京', '上海']"

为提高性能,可使用这种带参数的变体:

filter = "age > {age} AND city in {city}",
filter_params = {"age": 25, "city": ["北京", "上海"]}

这种方法可减少解析开销,提高查询速度。更多信息,请参阅过滤器模板

特定数据类型操作符

Milvus 为特定数据类型(如 JSON、ARRAY 和 VARCHAR 字段)提供高级过滤操作符。

特定于 JSON 字段的操作符

Milvus 为查询 JSON 字段提供高级操作符,可在复杂的 JSON 结构中进行精确过滤:

JSON_CONTAINS(identifier, jsonExpr):检查字段中是否存在 JSON 表达式。

# JSON data: {"tags": ["electronics", "sale", "new"]}
filter='json_contains(tags, "sale")'

JSON_CONTAINS_ALL(identifier, jsonExpr):确保 JSON 表达式的所有元素都存在。

# JSON data: {"tags": ["electronics", "sale", "new", "discount"]}
filter='json_contains_all(tags, ["electronics", "sale", "new"])'

JSON_CONTAINS_ANY(identifier, jsonExpr):筛选 JSON 表达式中至少存在一个元素的实体。

# JSON data: {"tags": ["electronics", "sale", "new"]}
filter='json_contains_any(tags, ["electronics", "new", "clearance"])'

有关 JSON 操作符的更多详情,请参阅JSON 操作符

ARRAY 字段特定操作符

Milvus 为数组字段提供了高级过滤操作符,如ARRAY_CONTAINS,ARRAY_CONTAINS_ALL,ARRAY_CONTAINS_ANY, 和ARRAY_LENGTH ,可对数组数据进行精细控制:

ARRAY_CONTAINS:过滤包含特定元素的实体。

filter="ARRAY_CONTAINS(history_temperatures, 23)"

ARRAY_CONTAINS_ALL:过滤包含列表中所有元素的实体。

filter="ARRAY_CONTAINS_ALL(history_temperatures, [23, 24])"

ARRAY_CONTAINS_ANY:过滤包含列表中任何元素的实体。

filter="ARRAY_CONTAINS_ANY(history_temperatures, [23, 24])"

ARRAY_LENGTH:根据数组长度进行筛选。

filter="ARRAY_LENGTH(history_temperatures) < 10"

有关数组操作符的更多详情,请参阅ARRAY Operators

VARCHAR 字段专用操作符

Milvus 提供专门的操作符,用于对 VARCHAR 字段进行基于文本的精确搜索:

TEXT_MATCH 操作符

TEXT_MATCH 操作符允许根据特定查询词精确检索文档。它对于结合标量过滤器和向量相似性搜索的过滤搜索特别有用。与语义搜索不同,文本匹配侧重于精确的术语出现。

Milvus 使用 Tantivy 支持倒排索引和基于术语的文本搜索。过程包括

  1. 分析器:标记化和处理输入文本。

  2. 索引:创建将唯一标记映射到文档的倒排索引。

有关详细信息,请参阅文本匹配

PHRASE_MATCH 操作符Compatible with Milvus 2.6.x

PHRASE_MATCH操作符可根据精确的短语匹配结果精确检索文档,同时考虑查询词的顺序和相邻关系。

更多详情,请参阅短语匹配

想要更快、更简单、更好用的 Milvus SaaS服务 ?

Zilliz Cloud是基于Milvus的全托管向量数据库,拥有更高性能,更易扩展,以及卓越性价比

免费试用 Zilliz Cloud
反馈

此页对您是否有帮助?