RegexCompatible with Milvus 2.5.11+
Der Filter regex ist ein Filter mit regulären Ausdrücken: Jedes vom Tokenizer erzeugte Token wird nur dann beibehalten, wenn es mit dem von Ihnen angegebenen Ausdruck übereinstimmt; alles andere wird verworfen.
Konfiguration
Der regex Filter ist ein benutzerdefinierter Filter in Milvus. Um ihn zu verwenden, geben Sie "type": "regex" in der Filterkonfiguration an, zusammen mit einem expr Parameter, um die gewünschten regulären Ausdrücke anzugeben.
analyzer_params = {
"tokenizer": "standard",
"filter": [{
"type": "regex",
"expr": "^(?!test)" # keep tokens that do NOT start with "test"
}]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
Arrays.asList(new HashMap<String, Object>() {{
put("type", "regex");
put("expr", "^(?!test)");
}})
);
// node
analyzerParams = map[string]any{"tokenizer": "standard",
"filter": []any{map[string]any{
"type": "regex",
"expr": "^(?!test)",
}}}
# curl
Der regex Filter akzeptiert die folgenden konfigurierbaren Parameter.
Parameter |
Beschreibung |
|---|---|
|
Ein Muster für reguläre Ausdrücke, das auf jedes Token angewendet wird. Übereinstimmende Token werden beibehalten, nicht übereinstimmende werden verworfen. Details zur Regex-Syntax finden Sie unter Syntax. |
Der Filter regex wirkt auf die vom Tokenizer erzeugten Terme und muss daher in Kombination mit einem Tokenizer verwendet werden.
Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analysators für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.
Beispiele
Bevor Sie die Analyzer-Konfiguration auf Ihr Sammelschema anwenden, überprüfen Sie das Verhalten mit der Methode run_analyzer.
Analyzer-Konfiguration
analyzer_params = {
"tokenizer": "standard",
"filter": [{
"type": "regex",
"expr": "^(?!test)"
}]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
Collections.singletonList(new HashMap<String, Object>() {{
put("type", "regex");
put("expr", "^(?!test)");
}}));
// node
analyzerParams = map[string]any{"tokenizer": "standard",
"filter": []any{map[string]any{
"type": "regex",
"expr": "^(?!test)",
}}}
# curl
Überprüfung mit run_analyzer
from pymilvus import (
MilvusClient,
)
client = MilvusClient(uri="http://localhost:19530")
# Sample text to analyze
sample_text = "testItem apple testCase banana"
# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)
import io.milvus.v2.client.ConnectConfig;
import io.milvus.v2.client.MilvusClientV2;
import io.milvus.v2.service.vector.request.RunAnalyzerReq;
import io.milvus.v2.service.vector.response.RunAnalyzerResp;
ConnectConfig config = ConnectConfig.builder()
.uri("http://localhost:19530")
.build();
MilvusClientV2 client = new MilvusClientV2(config);
List<String> texts = new ArrayList<>();
texts.add("testItem apple testCase banana");
RunAnalyzerResp resp = client.runAnalyzer(RunAnalyzerReq.builder()
.texts(texts)
.analyzerParams(analyzerParams)
.build());
List<RunAnalyzerResp.AnalyzerResult> results = resp.getResults();
// node
import (
"context"
"encoding/json"
"fmt"
"github.com/milvus-io/milvus/client/v2/milvusclient"
)
client, err := milvusclient.New(ctx, &milvusclient.ClientConfig{
Address: "localhost:19530",
APIKey: "root:Milvus",
})
if err != nil {
fmt.Println(err.Error())
// handle error
}
bs, _ := json.Marshal(analyzerParams)
texts := []string{"testItem apple testCase banana"}
option := milvusclient.NewRunAnalyzerOption(texts).
WithAnalyzerParams(string(bs))
result, err := client.RunAnalyzer(ctx, option)
if err != nil {
fmt.Println(err.Error())
// handle error
}
# curl
Erwartete Ausgabe
['apple', 'banana']