🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Встроенные анализаторы

  • Китайский

Китайский

Анализатор chinese разработан специально для работы с китайским текстом, обеспечивая эффективную сегментацию и токенизацию.

Определение

Анализатор chinese состоит из.

  • Токенизатор: Использует токенизатор jieba для сегментации китайского текста на лексемы, основанные на словарном запасе и контексте. Дополнительную информацию см. в разделе Jieba.

  • Фильтр: Использует фильтр cnalphanumonly для удаления лексем, содержащих некитайские символы. Дополнительные сведения см. в разделе Cnalphanumonly.

Функциональность анализатора chinese эквивалентна следующей пользовательской конфигурации анализатора.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Конфигурация .

Чтобы применить анализатор chinese к полю, просто установите type на chinese в analyzer_params.

analyzer_params = {
    "type": "chinese",
}

Анализатор chinese не принимает никаких дополнительных параметров.

Пример вывода

Вот как анализатор chinese обрабатывает текст.

Исходный текст.

"Milvus 是一个高性能、可扩展的向量数据库!"

Ожидаемый результат.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]
Содержание

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?