Stop
stop
필터는 토큰화된 텍스트에서 지정된 중지 단어를 제거하여 의미가 덜한 일반적인 단어를 제거하는 데 도움을 줍니다. stop_words
매개변수를 사용하여 중지 단어 목록을 구성할 수 있습니다.
구성
length
필터는 Milvus의 사용자 지정 필터입니다. 이 필터를 사용하려면 필터 구성에 "type": "stop"
을 stop_words
매개변수와 함께 지정하여 중지 단어 목록을 제공합니다.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # Specifies the filter type as stop
"stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
}],
}
stop
필터는 다음과 같은 구성 가능한 매개변수를 허용합니다.
매개변수 | 설명 |
---|---|
| 토큰화에서 제거할 단어 목록입니다. 기본적으로 일반적인 영어 중지 단어가 포함된 미리 정의된 |
stop
필터는 토큰화 도구에서 생성된 용어에 대해 작동하므로 토큰화 도구와 함께 사용해야 합니다.
analyzer_params
을 정의한 후 컬렉션 스키마를 정의할 때 VARCHAR
필드에 적용할 수 있습니다. 이렇게 하면 Milvus가 지정된 분석기를 사용하여 해당 필드의 텍스트를 처리하여 효율적인 토큰화 및 필터링을 수행할 수 있습니다. 자세한 내용은 사용 예시를 참조하세요.
예제 출력
다음은 stop
필터가 텍스트를 처리하는 방법의 예입니다.
원본 텍스트.
"The stop filter allows control over common stop words for text processing."
예상 출력 ( stop_words: ["the", "over", "_english_"]
포함).
["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]