О Милвусе
Начать
Концепции
Руководство пользователя
- База данных
- Коллекции
- Схема и поля данных
  - Объяснение схемы
  - Основное поле и автоидентификатор
  - Плотный вектор
  - Двоичный вектор
  - Разреженный вектор
  - Строковое поле
  - Числовое поле
  - JSON-поле
  - Поле массива
  - Массив структур
  - Поле геометрии
  - Поле TIMESTAMPTZ
  - Динамическое поле
  - Нулевые поля
  - Значения по умолчанию
  - Анализатор
    Обзор анализатора
    Встроенные анализаторы
    Токенизаторы
    Стандарт
    Белое пространство
    Цзеба
    Lindera
    ОТДЕЛЕНИЕ ИНТЕНСИВНОЙ ТЕРАПИИ
    Идентификатор языка
    Фильтры
    Многоязычные анализаторы
    Выберите подходящий анализатор для вашего случая использования
    Управление файловыми ресурсами
  - Изменить поле коллекции
  - Добавление полей в существующую коллекцию
  - Лучшие практики
- Вставка и удаление
- Индексы
- Поиск
- Вывод функций и моделей
- Оптимизация хранения
- Снимки
Импорт данных
Инструменты искусственного интеллекта
Руководство по администрированию
Инструменты
Интеграции
Учебники
Вопросы и ответы
API Reference

Home
Docs
Руководство пользователя
Схема и поля данных
Анализатор
Токенизаторы
Цзеба

Jieba

Токенизатор jieba обрабатывает китайский текст, разбивая его на составляющие слова.

Токенизатор jieba сохраняет знаки препинания как отдельные лексемы в выходных данных. Например, "你好！世界。" превращается в ["你好", "！", "世界", "。"]. Чтобы удалить эти отдельные знаки препинания, воспользуйтесь фильтром removepunct фильтр.

Конфигурация

Milvus поддерживает два подхода к конфигурации токенизатора jieba: простую конфигурацию и пользовательскую конфигурацию.

Простая конфигурация

При простой конфигурации вам нужно только установить токенизатор на "jieba". Например:

Python Java NodeJS Go cURL

# Simple configuration: only specifying the tokenizer name
analyzer_params = {
    "tokenizer": "jieba",  # Use the default settings: dict=["_default_"], mode="search", hmm=True
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");

const analyzer_params = {
    "tokenizer": "jieba",
};

analyzerParams = map[string]any{"tokenizer": "jieba"}

# restful
analyzerParams='{
  "tokenizer": "jieba"
}'

Эта простая конфигурация эквивалентна следующей пользовательской конфигурации:

Python Java NodeJS Go cURL

# Custom configuration equivalent to the simple configuration above
analyzer_params = {
    "type": "jieba",          # Tokenizer type, fixed as "jieba"
    "dict": ["_default_"],     # Use the default dictionary
    "mode": "search",          # Use search mode for improved recall (see mode details below)
    "hmm": True                # Enable HMM for probabilistic segmentation
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("type", "jieba");
analyzerParams.put("dict", Collections.singletonList("_default_"));
analyzerParams.put("mode", "search");
analyzerParams.put("hmm", true);

// javascript

analyzerParams = map[string]any{"type": "jieba", "dict": []any{"_default_"}, "mode": "search", "hmm": true}

# restful

Подробнее о параметрах см. в разделе Пользовательская конфигурация.

Пользовательская конфигурация

Для большего контроля можно создать пользовательскую конфигурацию, которая позволит указать пользовательский словарь, выбрать режим сегментации, а также включить или отключить скрытую марковскую модель (HMM). Например:

Python Java NodeJS Go cURL

# Custom configuration with user-defined settings
analyzer_params = {
    "tokenizer": {
        "type": "jieba",           # Fixed tokenizer type
        "dict": ["customDictionary"],  # Custom dictionary list; replace with your own terms
        "mode": "exact",           # Use exact mode (non-overlapping tokens)
        "hmm": False               # Disable HMM; unmatched text will be split into individual characters
    }
}

Map<String, Object> analyzerParams = new HashMap<>();                                                                          
analyzerParams.put("tokenizer", new HashMap<String, Object>() {{
  put("type", "jieba");                                                                                                      
  put("dict", Arrays.asList("customDictionary"));             
  put("mode", "exact");
  put("hmm", false);
}});

// javascript

analyzerParams := map[string]interface{}{
  "tokenizer": map[string]interface{}{
      "type": "jieba",
      "dict": []string{"customDictionary"},
      "mode": "exact",
      "hmm":  false,
  },
}

# restful

Параметр	Описание	Значение по умолчанию
`type`	Тип токенизатора. Это фиксированное значение `"jieba"`.	`"jieba"`
`dict`	Список словарей, которые анализатор будет загружать в качестве источника словарного запаса. Встроенные опции: `"_default_"`: Загружает встроенный в движок упрощенно-китайский словарь. Подробности см. в файле dict.txt. `"_extend_default_"`: Загружает все, что есть в `"_default_"`, плюс дополнение к традиционно-китайскому. Подробности см. в файле dict.txt.big. Вы также можете смешивать встроенный словарь с любым количеством пользовательских словарей. Пример: `["_default_", "结巴分词器"]`.	`["_default_"]`
`mode`	Режим сегментации. Возможные значения: `"exact"`: Пытается сегментировать предложение наиболее точным образом, что делает его идеальным для анализа текста. `"search"`: : Развивает точный режим, дополнительно разбивая длинные слова для улучшения запоминания, что делает его подходящим для токенизации в поисковых системах. Для получения дополнительной информации обратитесь к проекту Jieba на GitHub.	`"search"`
`hmm`	Булевский флаг, указывающий, следует ли включить скрытую марковскую модель (HMM) для вероятностной сегментации слов, не найденных в словаре.	`true`

Чтобы загрузить большой пользовательский словарь из внешнего файла, а не вставлять его через dict, смотрите раздел "Пользовательская конфигурация с файлом словаря" ниже.

Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.

Пользовательская конфигурация с помощью файла словаряCompatible with Milvus 3.0.x

Для больших пользовательских словарей - глоссариев доменов, терминологии продуктов или списков собственных существительных - храните слова в файле и регистрируйте его как удаленный файловый ресурс, а затем ссылайтесь на него в токенизаторе через параметр extra_dict_file. Анализатор загружает эти слова в свой словарный запас поверх встроенного словаря.

Файл представляет собой обычный текст в формате UTF-8 с одним термином в строке. Например:

结巴分词器
向量数据库

Загрузите файл в хранилище объектов, на которое настроен ваш кластер Milvus, а затем зарегистрируйте его:

Python Java NodeJS Go cURL

from pymilvus import MilvusClient

client = MilvusClient(uri="http://localhost:19530")

# Register the uploaded file under a name you'll reference from analyzer configs.
client.add_file_resource(
    name="zh_terms",
    path="file/zh_terms.txt",    # full S3 object key, including the rootPath prefix
)

// java

// nodejs

// go

# restful

Ссылайтесь на зарегистрированный ресурс в токенизаторе через extra_dict_file:

Python Java NodeJS Go cURL

analyzer_params = {
    "tokenizer": {
        "type": "jieba",
        "dict": ["_default_"],             # keep the built-in dictionary
        "mode": "exact",
        "hmm": False,
        "extra_dict_file": {
            "type": "remote",
            "resource_name": "zh_terms",
            "file_name": "zh_terms.txt",
        },
    },
}

client.run_analyzer(["milvus结巴分词器中文测试"], analyzer_params)
# → [['milvus', '结巴', '分词器', '中文', '测试']]

// java

// nodejs

// go

# restful

Параметр extra_dict_file принимает объект со следующими полями:

Поле	Описание
`type`	Тип ресурса. Используйте `"remote"` для файла, зарегистрированного через `add_file_resource`. Вариант `"local"`, используемый в самостоятельных развертываниях, см. в разделе Управление файловыми ресурсами.
`resource_name`	Имя, использованное при регистрации файла с помощью `add_file_resource`.
`file_name`	Часть имени файла в пути к объектному хранилищу зарегистрированного ресурса (например, `"zh_terms.txt"`, если ресурс был зарегистрирован с помощью `path="file/zh_terms.txt"`).

Слова, добавленные через extra_dict_file, объединяются со встроенным словарем, поэтому алгоритм сегментации jieba видит их рядом с существующими записями. Появится ли конкретный термин в качестве отдельной лексемы, зависит от вероятностно-взвешенного выбора DAG в jieba - длинный пользовательский термин, такой как 向量数据库, может быть разделен на 向量 + 数据库, если эти более короткие записи имеют более высокую частоту во встроенном словаре.

Примеры

Перед применением конфигурации анализатора к вашей схеме коллекции проверьте ее поведение с помощью метода run_analyzer.

Конфигурация анализатора

Python Java NodeJS Go cURL

analyzer_params = {
    "tokenizer": {
        "type": "jieba",
        "dict": ["结巴分词器"],
        "mode": "exact",
        "hmm": False
    }
}

Map<String, Object> analyzerParams = new HashMap<>();                                                                          
analyzerParams.put("tokenizer", new HashMap<String, Object>() {{
  put("type", "jieba");                                                                                                      
  put("dict", Arrays.asList("结巴分词器"));                   
  put("mode", "exact");
  put("hmm", false);
}});

// javascript

analyzerParams := map[string]interface{}{
  "tokenizer": map[string]interface{}{
      "type": "jieba",
      "dict": []string{"结巴分词器"},
      "mode": "exact",
      "hmm":  false,
  },
}

# restful

Проверка с помощью `run_analyzer`

Python Java NodeJS Go cURL

from pymilvus import (
    MilvusClient,
)

client = MilvusClient(
    uri="http://localhost:19530",
    token="root:Milvus"
)

# Sample text to analyze
sample_text = "milvus结巴分词器中文测试"

# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;
import io.milvus.v2.service.vector.request.RunAnalyzerReq;
import io.milvus.v2.service.vector.response.RunAnalyzerResp;

ConnectConfig config = ConnectConfig.builder()
        .uri("http://localhost:19530")
        .token("root:Milvus")
        .build();
MilvusClientV2 client = new MilvusClientV2(config);

List<String> texts = new ArrayList<>();
texts.add("milvus结巴分词器中文测试");

RunAnalyzerResp resp = client.runAnalyzer(RunAnalyzerReq.builder()
        .texts(texts)
        .analyzerParams(analyzerParams)
        .build());
List<RunAnalyzerResp.AnalyzerResult> results = resp.getResults();

// javascript

import (
    "context"
    "encoding/json"
    "fmt"

    "github.com/milvus-io/milvus/client/v2/milvusclient"
)

client, err := milvusclient.New(ctx, &milvusclient.ClientConfig{
    Address: "localhost:19530",
    APIKey:  "root:Milvus",
})
if err != nil {
    fmt.Println(err.Error())
    // handle error
}

bs, _ := json.Marshal(analyzerParams)
texts := []string{"milvus结巴分词器中文测试"}
option := milvusclient.NewRunAnalyzerOption(texts).
    WithAnalyzerParams(string(bs))

result, err := client.RunAnalyzer(ctx, option)
if err != nil {
    fmt.Println(err.Error())
    // handle error
}

# restful

Ожидаемый результат

['milvus', '结巴分词器', '中', '文', '测', '试']

Содержание

Jieba
Конфигурация
Простая конфигурация
Пользовательская конфигурация
Пользовательская конфигурация с помощью файла словаряCompatible with Milvus 3.0.x
Примеры
Конфигурация анализатора
Проверка с помощью run_analyzer
Ожидаемый результат

Попробуйте Managed Milvus бесплатно

Zilliz Cloud работает без проблем, поддерживается Milvus и в 10 раз быстрее.

Начать

Обратная связь

Была ли эта страница полезной?

Jieba

Конфигурация

Простая конфигурация

Пользовательская конфигурация

Пользовательская конфигурация с помощью файла словаряCompatible with Milvus 3.0.x

Примеры

Конфигурация анализатора

Проверка с помощью run_analyzer

Ожидаемый результат

Содержание

Попробуйте Managed Milvus бесплатно

Обратная связь

Проверка с помощью `run_analyzer`