Длина
Фильтр length
удаляет лексемы, не соответствующие заданным требованиям по длине, позволяя контролировать длину лексем, сохраняемых при обработке текста.
Конфигурация
Фильтр length
- это пользовательский фильтр в Milvus, задаваемый параметром "type": "length"
в конфигурации фильтра. Вы можете настроить его как словарь внутри analyzer_params
для определения ограничений длины.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "length", # Specifies the filter type as length
"max": 10, # Sets the maximum token length to 10 characters
}],
}
Фильтр length
принимает следующие настраиваемые параметры.
Параметр | Описание |
---|---|
| Устанавливает максимальную длину токена. Токены, превышающие эту длину, удаляются. |
Фильтр length
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр length
обрабатывает текст.
Пример текста.
"The length filter allows control over token length requirements for text processing."
Ожидаемый результат (с max: 10
).
["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]