🚀 Попробуйте Zilliz Cloud, полностью управляемый Milvus, бесплатно — ощутите 10-кратное увеличение производительности! Попробовать сейчас>

milvus-logo
LFAI
Главная
  • Руководство пользователя
  • Home
  • Docs
  • Руководство пользователя

  • Схема и поля данных

  • Анализатор

  • Встроенные анализаторы

  • Английский язык

Английский

Анализатор english в Milvus предназначен для обработки английского текста, применяя специфические для данного языка правила токенизации и фильтрации.

Определение

Анализатор english использует следующие компоненты.

  • Токенизатор: Использует standard tokenizer для разбиения текста на отдельные единицы слов.

  • Фильтры: Включает несколько фильтров для комплексной обработки текста.

    • lowercase: : Преобразовывает все лексемы в строчные буквы, что позволяет осуществлять поиск без учета регистра.

    • stemmer: : Сокращает слова до их корневой формы для поддержки более широкого соответствия (например, "running" становится "run").

    • stop_words: Удаляет распространенные английские стоп-слова, чтобы сосредоточиться на ключевых терминах в тексте.

Функциональность анализатора english эквивалентна следующей пользовательской конфигурации анализатора.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

Конфигурация .

Чтобы применить анализатор english к полю, просто установите type на english в analyzer_params, и включите дополнительные параметры по мере необходимости.

analyzer_params = {
    "type": "english",
}

Анализатор english принимает следующие необязательные параметры:

Параметр

Описание

stop_words

Массив, содержащий список стоп-слов, которые будут удалены при токенизации. По умолчанию используется _english_, встроенный набор распространенных английских стоп-слов.

Пример конфигурации с пользовательскими стоп-словами.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.

Пример вывода

Вот как анализатор english обрабатывает текст.

Исходный текст.

"The Milvus vector database is built for scale!"

Ожидаемый результат.

["milvus", "vector", "databas", "built", "scale"]
Содержание

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать
Обратная связь

Была ли эта страница полезной?