표준
standard
분석기는 Milvus의 기본 분석기로, 분석기를 지정하지 않으면 텍스트 필드에 자동으로 적용됩니다. 문법 기반 토큰화를 사용하므로 대부분의 언어에 효과적입니다.
정의
standard
분석기는 다음으로 구성됩니다.
토큰화 도구:
standard
토큰화 도구를 사용하여 문법 규칙에 따라 텍스트를 개별 단어 단위로 분할합니다. 자세한 내용은 표준을 참조하세요.필터:
lowercase
필터를 사용하여 모든 토큰을 소문자로 변환하여 대소문자를 구분하지 않고 검색할 수 있도록 합니다. 자세한 내용은 다음을 참조하세요.lowercase filter
.
standard
분석기의 기능은 다음 사용자 지정 분석기 구성과 동일합니다.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
구성
standard
분석기를 필드에 적용하려면 analyzer_params
에서 type
을 standard
으로 설정하고 필요에 따라 선택적 매개변수를 포함하면 됩니다.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
standard
분석기는 다음과 같은 선택적 매개변수를 허용합니다:
매개변수 | 설명 |
---|---|
| 토큰화에서 제거할 중지 단어 목록이 포함된 배열입니다. 기본값은 기본 제공되는 일반적인 영어 중지 단어 집합인 |
사용자 정의 중지 단어의 구성 예시.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
analyzer_params
을 정의한 후 컬렉션 스키마를 정의할 때 VARCHAR
필드에 적용할 수 있습니다. 이렇게 하면 Milvus가 효율적인 토큰화 및 필터링을 위해 지정된 분석기를 사용하여 해당 필드의 텍스트를 처리할 수 있습니다. 자세한 내용은 사용 예시를 참조하세요.
예제 출력
다음은 standard
분석기가 텍스트를 처리하는 방법입니다.
원본 텍스트.
"The Milvus vector database is built for scale!"
예상 출력입니다.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]