Cncharonly
Фильтр cncharonly удаляет токены, содержащие любые некитайские символы. Этот фильтр полезен, когда вы хотите сосредоточиться исключительно на китайском тексте, отфильтровывая любые токены, содержащие другие шрифты, цифры или символы.
Конфигурация
Фильтр cncharonly встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter в разделе analyzer_params.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
const analyzer_params = {
"tokenizer": "jieba",
"filter": ["cncharonly"],
};
analyzerParams = map[string]any{"tokenizer": "jieba", "filter": []any{"cncharonly"}}
# restful
analyzerParams='{
"tokenizer": "jieba",
"filter": [
"cncharonly"
]
}'
Фильтр cncharonly работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором. Список токенайзеров, доступных в Milvus, см. на странице Jieba и ее дочерних страницах.
Определив analyzer_params, вы можете применить их к полю VARCHAR при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Примеры
Прежде чем применять конфигурацию анализатора к схеме коллекции, проверьте его работу с помощью метода run_analyzer.
Конфигурация анализатора
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cncharonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");
analyzerParams.put("filter", Collections.singletonList("cncharonly"));
// javascript
analyzerParams = map[string]any{"tokenizer": "jieba", "filter": []any{"cncharonly"}}
# restful
Проверка с помощью run_analyzerCompatible with Milvus 2.5.11+
from pymilvus import (
MilvusClient,
)
client = MilvusClient(uri="http://localhost:19530")
# Sample text to analyze
sample_text = "Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
# Run the jieba tokenizer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Analyzer output:", result)
import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;
import io.milvus.v2.service.vector.request.RunAnalyzerReq;
import io.milvus.v2.service.vector.response.RunAnalyzerResp;
ConnectConfig config = ConnectConfig.builder()
.uri("http://localhost:19530")
.build();
MilvusClientV2 client = new MilvusClientV2(config);
List<String> texts = new ArrayList<>();
texts.add("Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。");
RunAnalyzerResp resp = client.runAnalyzer(RunAnalyzerReq.builder()
.texts(texts)
.analyzerParams(analyzerParams)
.build());
List<RunAnalyzerResp.AnalyzerResult> results = resp.getResults();
// javascript
import (
"context"
"encoding/json"
"fmt"
"github.com/milvus-io/milvus/client/v2/milvusclient"
)
client, err := milvusclient.New(ctx, &milvusclient.ClientConfig{
Address: "localhost:19530",
APIKey: "root:Milvus",
})
if err != nil {
fmt.Println(err.Error())
// handle error
}
bs, _ := json.Marshal(analyzerParams)
texts := []string{"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"}
option := milvusclient.NewRunAnalyzerOption(texts).
WithAnalyzerParams(string(bs))
result, err := client.RunAnalyzer(ctx, option)
if err != nil {
fmt.Println(err.Error())
// handle error
}
# restful
Ожидаемый результат
['是', '下的一个开源项目', '以', '许可发布']