Padrão
O analisador standard
é o analisador predefinido no Milvus, que é aplicado automaticamente aos campos de texto se não for especificado um analisador. Utiliza a tokenização baseada na gramática, o que o torna eficaz para a maioria das línguas.
Definição
O analisador standard
é composto por.
Tokenizador: Usa o tokenizador
standard
para dividir o texto em unidades de palavras discretas com base em regras gramaticais. Para obter mais informações, consulte Padrão.Filtro: Usa o filtro
lowercase
para converter todos os tokens em minúsculas, permitindo pesquisas sem distinção entre maiúsculas e minúsculas. Para obter mais informações, consultelowercase filter
.
A funcionalidade do analisador standard
é equivalente à seguinte configuração de analisador personalizado.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Configuração
Para aplicar o analisador standard
a um campo, basta definir type
para standard
em analyzer_params
, e incluir parâmetros opcionais conforme necessário.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
O analisador standard
aceita os seguintes parâmetros opcionais:
Parâmetro | Descrição |
---|---|
| Uma matriz que contém uma lista de palavras de paragem, que serão removidas da tokenização. A predefinição é |
Exemplo de configuração de palavras de parada personalizadas.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Depois de definir analyzer_params
, pode aplicá-las a um campo VARCHAR
ao definir um esquema de coleção. Isto permite que o Milvus processe o texto nesse campo utilizando o analisador especificado para uma tokenização e filtragem eficientes. Para mais informações, consulte Exemplo de utilização.
Exemplo de saída
Veja como o analisador standard
processa o texto.
Texto original.
"The Milvus vector database is built for scale!"
Saída esperada.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]