Остановка
Фильтр stop
удаляет заданные стоп-слова из токенизированного текста, помогая устранить распространенные и менее значимые слова. Список стоп-слов можно настроить с помощью параметра stop_words
.
Конфигурация
Фильтр length
- это пользовательский фильтр в Milvus. Чтобы использовать его, укажите "type": "stop"
в конфигурации фильтра, а также параметр stop_words
, который предоставляет список стоп-слов.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
Фильтр stop
принимает следующие настраиваемые параметры.
Параметр | Описание |
---|---|
| Список слов, которые должны быть удалены при токенизации. По умолчанию используется предопределенный список |
Фильтр stop
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр stop
обрабатывает текст.
Исходный текст.
"The stop filter allows control over common stop words for text processing."
Ожидаемый результат (с stop_words: ["the", "over", "_english_"]
).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]