🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Фильтры

  • Cncharonly

Cncharonly

Фильтр cncharonly удаляет токены, содержащие любые некитайские символы. Этот фильтр полезен, когда вы хотите сосредоточиться исключительно на китайском тексте, отфильтровывая любые токены, содержащие другие шрифты, цифры или символы.

Конфигурация

Фильтр cncharonly встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter в разделе analyzer_params.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cncharonly"],
}

Фильтр cncharonly работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.

Пример вывода

Вот пример того, как фильтр cncharonly обрабатывает текст.

Исходный текст.

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

Ожидаемый результат.

["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?