영어
Milvus의 english
분석기는 영어 텍스트를 처리하도록 설계되어 토큰화 및 필터링에 대한 언어별 규칙을 적용합니다.
정의
english
분석기는 다음 구성 요소를 사용합니다.
토큰화 도구: 를 사용하여
standard tokenizer
를 사용하여 텍스트를 개별 단어 단위로 분할합니다.필터: 포괄적인 텍스트 처리를 위한 여러 필터가 포함되어 있습니다.
lowercase
: 모든 토큰을 소문자로 변환하여 대소문자를 구분하지 않고 검색할 수 있도록 합니다.stemmer
: 더 광범위한 검색을 지원하기 위해 단어를 어근 형태로 축소합니다(예: "running"이 "run"이 됨).stop_words
: 텍스트의 주요 용어에 집중하기 위해 일반적인 영어 중단어를 제거합니다.
english
분석기의 기능은 다음과 같은 사용자 정의 분석기 구성과 동일합니다.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
구성
english
분석기를 필드에 적용하려면 analyzer_params
에서 type
을 english
으로 설정하고 필요에 따라 선택적 매개변수를 포함하면 됩니다.
analyzer_params = {
"type": "english",
}
english
분석기는 다음과 같은 선택적 매개변수를 허용합니다:
매개변수 | 설명 |
---|---|
| 토큰화에서 제거할 중지 단어 목록이 포함된 배열입니다. 기본값은 기본 제공되는 일반적인 영어 중지 단어 집합인 |
사용자 정의 중지 단어를 사용한 구성 예시.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
analyzer_params
을 정의한 후 컬렉션 스키마를 정의할 때 VARCHAR
필드에 적용할 수 있습니다. 이렇게 하면 Milvus가 효율적인 토큰화 및 필터링을 위해 지정된 분석기를 사용하여 해당 필드의 텍스트를 처리할 수 있습니다. 자세한 내용은 사용 예시를 참조하세요.
예제 출력
다음은 english
분석기가 텍스트를 처리하는 방식입니다.
원본 텍스트.
"The Milvus vector database is built for scale!"
예상 출력.
["milvus", "vector", "databas", "built", "scale"]