Расщепитель
Фильтр decompounder
разделяет сложные слова на отдельные компоненты на основе заданного словаря, облегчая поиск частей сложных терминов. Этот фильтр особенно полезен для языков, в которых часто используются сложные слова, например, для немецкого.
Конфигурация
Фильтр decompounder
- это пользовательский фильтр в Milvus. Чтобы использовать его, укажите "type": "decompounder"
в конфигурации фильтра, а также параметр word_list
, который предоставляет словарь компонентов слов для распознавания.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "decompounder", # Specifies the filter type as decompounder
"word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
}],
}
Фильтр decompounder
принимает следующие настраиваемые параметры.
Параметр | Описание |
---|---|
| Список компонентов слов, используемых для разделения сложных терминов. Этот словарь определяет, как составные слова разлагаются на отдельные термины. |
Фильтр decompounder
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр decompounder
обрабатывает текст.
Исходный текст.
"dampfschifffahrt brotbackautomat"
Ожидаемый результат (с word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"]
).
["dampf", "schiff", "fahrt", "brotbackautomat"]