Arm 아키텍처 기반 RAG 구축
Arm CPU는 기존의 머신 러닝(ML) 및 인공 지능(AI) 사용 사례를 포함하여 광범위한 애플리케이션에서 광범위하게 활용되고 있습니다.
이 튜토리얼에서는 Arm 기반 인프라에서 검색 증강 세대(RAG) 애플리케이션을 빌드하는 방법을 알아봅니다. 벡터 스토리지의 경우, 완전 관리형 Milvus 벡터 데이터베이스인 Zilliz Cloud를 활용합니다. Zilliz Cloud는 AWS, GCP, Azure와 같은 주요 클라우드에서 사용할 수 있습니다. 이 데모에서는 AWS에 배포된 Zilliz Cloud를 Arm 머신과 함께 사용합니다. LLM의 경우, llama.cpp
을 사용하는 AWS Arm 기반 서버 CPU에서 Llama-3.1-8B
모델을 사용합니다.
전제 조건
이 예제를 실행하려면 Arm 기반 서버에서 ML 워크로드를 비용 효율적으로 실행할 수 있는 방법을 제공하는 AWS Graviton을 사용하는 것이 좋습니다. 이 노트북은 우분투 22.04 LTS 시스템에서 AWS Graviton3 c7g.2xlarge
인스턴스에서 테스트되었습니다.
이 예제를 실행하려면 최소 4개의 코어와 8GB의 RAM이 필요합니다. 디스크 스토리지를 32GB 이상으로 구성합니다. 동일하거나 더 나은 사양의 인스턴스를 사용하는 것이 좋습니다.
인스턴스를 시작한 후 인스턴스에 연결하고 다음 명령을 실행하여 환경을 준비합니다.
서버에 파이썬을 설치합니다:
$ sudo apt update
$ sudo apt install python-is-python3 python3-pip python3-venv -y
가상 환경을 만들고 활성화합니다:
$ python -m venv venv
$ source venv/bin/activate
필요한 파이썬 종속성을 설치합니다:
$ pip install --upgrade pymilvus openai requests langchain-huggingface huggingface_hub tqdm
오프라인 데이터 로드
컬렉션 생성
우리는 벡터 데이터를 저장하고 검색하기 위해 AWS에 배포된 Zilliz Cloud와 Arm 기반 머신을 사용합니다. 빠르게 시작하려면 Zilliz Cloud에 무료로 계정을 등록하기만 하면 됩니다.
Zilliz Cloud 외에도 자체 호스팅 Milvus도 (설정이 조금 더 복잡한) 옵션입니다. 또한 ARM 기반 머신에 Milvus Standalone 및 Kubernetes를 배포할 수도 있습니다. Milvus 설치에 대한 자세한 내용은 설치 설명서를 참조하세요.
질리즈 클라우드에서 uri
및 token
을 퍼블릭 엔드포인트 및 API 키로 설정합니다.
from pymilvus import MilvusClient
milvus_client = MilvusClient(
uri="<your_zilliz_public_endpoint>", token="<your_zilliz_api_key>"
)
collection_name = "my_rag_collection"
컬렉션이 이미 존재하는지 확인하고 존재하는 경우 삭제합니다.
if milvus_client.has_collection(collection_name):
milvus_client.drop_collection(collection_name)
지정된 파라미터로 새 컬렉션을 생성합니다.
필드 정보를 지정하지 않으면 기본 키인 id
필드와 벡터 데이터를 저장할 vector
필드가 자동으로 생성됩니다. 예약된 JSON 필드는 스키마에 정의되지 않은 필드와 그 값을 저장하는 데 사용됩니다.
milvus_client.create_collection(
collection_name=collection_name,
dimension=384,
metric_type="IP", # Inner product distance
consistency_level="Strong", # Strong consistency level
)
기본 메트릭 유형으로는 내적 곱 거리를 사용합니다. 거리 유형에 대한 자세한 내용은 유사성 메트릭 페이지를 참조하세요.
데이터 준비
저희는 Milvus 문서 2.4.x의 FAQ 페이지를 RAG의 비공개 지식으로 사용하며, 이는 간단한 RAG 파이프라인을 위한 좋은 데이터 소스입니다.
zip 파일을 다운로드하고 milvus_docs
폴더에 문서를 압축 해제합니다.
$ wget https://github.com/milvus-io/milvus-docs/releases/download/v2.4.6-preview/milvus_docs_2.4.x_en.zip
$ unzip -q milvus_docs_2.4.x_en.zip -d milvus_docs
milvus_docs/en/faq
폴더에서 모든 마크다운 파일을 로드합니다. 각 문서에 대해 "#"를 사용하여 파일의 내용을 구분하기만 하면 마크다운 파일의 각 주요 부분의 내용을 대략적으로 구분할 수 있습니다.
from glob import glob
text_lines = []
for file_path in glob("milvus_docs/en/faq/*.md", recursive=True):
with open(file_path, "r") as file:
file_text = file.read()
text_lines += file_text.split("# ")
데이터 삽입
텍스트를 임베딩 벡터로 변환할 수 있는 간단하지만 효율적인 임베딩 모델인 all-MiniLM-L6-v2를 준비합니다.
from langchain_huggingface import HuggingFaceEmbeddings
embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
텍스트 줄을 반복하여 임베딩을 생성한 다음 데이터를 Milvus에 삽입합니다.
다음은 컬렉션 스키마에 정의되지 않은 필드인 새 필드 text
입니다. 이 필드는 상위 수준에서 일반 필드로 취급할 수 있는 예약된 JSON 동적 필드에 자동으로 추가됩니다.
from tqdm import tqdm
data = []
text_embeddings = embedding_model.embed_documents(text_lines)
for i, (line, embedding) in enumerate(
tqdm(zip(text_lines, text_embeddings), desc="Creating embeddings")
):
data.append({"id": i, "vector": embedding, "text": line})
milvus_client.insert(collection_name=collection_name, data=data)
Creating embeddings: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [00:18<00:00, 3.91it/s]
Arm에서 LLM 서비스 시작
이 섹션에서는 Arm 기반 CPU에서 llama.cpp
서비스를 빌드하고 실행해 보겠습니다.
Llama 3.1 모델 및 llama.cpp
Meta의 Llama 3.1-8B 모델은 Llama 3.1 모델 제품군에 속하며 연구 및 상업적 목적으로 무료로 사용할 수 있습니다. 모델을 사용하기 전에 Llama 웹사이트를 방문하여 양식을 작성하여 액세스를 요청하세요.
llama.cpp는 로컬과 클라우드 모두에서 다양한 하드웨어에서 효율적인 LLM 추론을 가능하게 하는 오픈 소스 C/C++ 프로젝트입니다. llama.cpp
을 사용하여 Llama 3.1 모델을 편리하게 호스팅할 수 있습니다.
llama.cpp 다운로드 및 빌드
다음 명령을 실행하여 소스에서 llama.cpp를 빌드하는 데 필요한 make, cmake, gcc, g++ 및 기타 필수 도구를 설치합니다:
$ sudo apt install make cmake -y
$ sudo apt install gcc g++ -y
$ sudo apt install build-essential -y
이제 빌드를 시작할 준비가 되었습니다 llama.cpp
.
llama.cpp의 소스 리포지토리를 복제합니다:
$ git clone https://github.com/ggerganov/llama.cpp
기본적으로 llama.cpp
은 Linux 및 Windows에서 CPU 용으로만 빌드됩니다. 실행하는 Arm CPU용으로 빌드하기 위해 추가 스위치를 제공할 필요는 없습니다.
make
을 실행하여 빌드합니다:
$ cd llama.cpp
$ make GGML_NO_LLAMAFILE=1 -j$(nproc)
도움말 명령을 실행하여 llama.cpp
가 올바르게 빌드되었는지 확인합니다:
$ ./llama-cli -h
llama.cpp
가 올바르게 빌드되었다면 도움말 옵션이 표시됩니다. 출력 스니펫은 다음과 같습니다:
example usage:
text generation: ./llama-cli -m your_model.gguf -p "I believe the meaning of life is" -n 128
chat (conversation): ./llama-cli -m your_model.gguf -p "You are a helpful assistant" -cnv
이제 huggingface cli를 사용하여 모델을 다운로드할 수 있습니다:
$ huggingface-cli download cognitivecomputations/dolphin-2.9.4-llama3.1-8b-gguf dolphin-2.9.4-llama3.1-8b-Q4_0.gguf --local-dir . --local-dir-use-symlinks False
llama.cpp 팀에서 도입한 GGUF 모델 형식은 압축 및 양자화를 사용하여 가중치 정밀도를 4비트 정수로 줄여 계산 및 메모리 요구량을 크게 줄이고 Arm CPU를 LLM 추론에 효과적으로 사용할 수 있도록 합니다.
모델 가중치 재정량화
다시 정량화하려면 다음을 실행합니다.
$ ./llama-quantize --allow-requantize dolphin-2.9.4-llama3.1-8b-Q4_0.gguf dolphin-2.9.4-llama3.1-8b-Q4_0_8_8.gguf Q4_0_8_8
그러면 새 파일 dolphin-2.9.4-llama3.1-8b-Q4_0_8_8.gguf
이 출력되며, 여기에는 재구성된 가중치가 포함되어 llama-cli
이 SVE 256 및 MATMUL_INT8 지원을 사용할 수 있도록 합니다.
이 리퀀트화는 특히 Graviton3에 최적입니다. Graviton2의 경우 Q4_0_4_4
형식의 리퀀타이제이션을 수행해야 하며, Graviton4의 경우 Q4_0_4_8
형식이 리퀀타이제이션에 가장 적합합니다.
LLM 서비스 시작
llama.cpp 서버 프로그램을 활용하고 OpenAI 호환 API를 통해 요청을 보낼 수 있습니다. 이를 통해 LLM을 반복적으로 시작하고 중지할 필요 없이 여러 번 상호 작용하는 애플리케이션을 개발할 수 있습니다. 또한 네트워크를 통해 LLM이 호스팅되는 다른 컴퓨터에서 서버에 액세스할 수도 있습니다.
명령줄에서 서버를 시작하면 포트 8080에서 수신 대기합니다:
$ ./llama-server -m dolphin-2.9.4-llama3.1-8b-Q4_0_8_8.gguf -n 2048 -t 64 -c 65536 --port 8080
'main: server is listening on 127.0.0.1:8080 - starting the main loop
실행된 LLM의 파라미터를 조정하여 서버 하드웨어에 맞게 조정하여 이상적인 성능을 얻을 수도 있습니다. 자세한 매개변수 정보는 llama-server --help
명령을 참조하세요.
이 단계를 수행하는 데 어려움이 있는 경우 공식 문서를 참조하여 자세한 내용을 확인할 수 있습니다.
Arm 기반 CPU에서 LLM 서비스를 시작하셨습니다. 다음으로 OpenAI SDK를 사용하여 서비스와 직접 상호 작용합니다.
온라인 RAG
LLM 클라이언트 및 임베딩 모델
LLM 클라이언트를 초기화하고 임베딩 모델을 준비합니다.
LLM의 경우, OpenAI SDK를 사용하여 이전에 실행된 라마 서비스를 요청합니다. 실제로는 로컬 llama.cpp 서비스이므로 API 키를 사용할 필요가 없습니다.
from openai import OpenAI
llm_client = OpenAI(base_url="http://localhost:8080/v1", api_key="no-key")
테스트 임베딩을 생성하고 해당 차원과 처음 몇 개의 요소를 인쇄합니다.
test_embedding = embedding_model.embed_query("This is a test")
embedding_dim = len(test_embedding)
print(embedding_dim)
print(test_embedding[:10])
384
[0.03061249852180481, 0.013831384479999542, -0.02084377221763134, 0.016327863559126854, -0.010231520049273968, -0.0479842908680439, -0.017313342541456223, 0.03728749603033066, 0.04588735103607178, 0.034405000507831573]
쿼리에 대한 데이터 검색
Milvus에 대해 자주 묻는 질문을 지정해 보겠습니다.
question = "How is data stored in milvus?"
컬렉션에서 해당 질문을 검색하고 시맨틱 상위 3개 일치 항목을 검색합니다.
search_res = milvus_client.search(
collection_name=collection_name,
data=[
embedding_model.embed_query(question)
], # Use the `emb_text` function to convert the question to an embedding vector
limit=3, # Return top 3 results
search_params={"metric_type": "IP", "params": {}}, # Inner product distance
output_fields=["text"], # Return the text field
)
쿼리의 검색 결과를 살펴봅시다.
import json
retrieved_lines_with_distances = [
(res["entity"]["text"], res["distance"]) for res in search_res[0]
]
print(json.dumps(retrieved_lines_with_distances, indent=4))
[
[
" Where does Milvus store data?\n\nMilvus deals with two types of data, inserted data and metadata. \n\nInserted data, including vector data, scalar data, and collection-specific schema, are stored in persistent storage as incremental log. Milvus supports multiple object storage backends, including [MinIO](https://min.io/), [AWS S3](https://aws.amazon.com/s3/?nc1=h_ls), [Google Cloud Storage](https://cloud.google.com/storage?hl=en#object-storage-for-companies-of-all-sizes) (GCS), [Azure Blob Storage](https://azure.microsoft.com/en-us/products/storage/blobs), [Alibaba Cloud OSS](https://www.alibabacloud.com/product/object-storage-service), and [Tencent Cloud Object Storage](https://www.tencentcloud.com/products/cos) (COS).\n\nMetadata are generated within Milvus. Each Milvus module has its own metadata that are stored in etcd.\n\n###",
0.6488019824028015
],
[
"How does Milvus flush data?\n\nMilvus returns success when inserted data are loaded to the message queue. However, the data are not yet flushed to the disk. Then Milvus' data node writes the data in the message queue to persistent storage as incremental logs. If `flush()` is called, the data node is forced to write all data in the message queue to persistent storage immediately.\n\n###",
0.5974207520484924
],
[
"What is the maximum dataset size Milvus can handle?\n\n \nTheoretically, the maximum dataset size Milvus can handle is determined by the hardware it is run on, specifically system memory and storage:\n\n- Milvus loads all specified collections and partitions into memory before running queries. Therefore, memory size determines the maximum amount of data Milvus can query.\n- When new entities and and collection-related schema (currently only MinIO is supported for data persistence) are added to Milvus, system storage determines the maximum allowable size of inserted data.\n\n###",
0.5833579301834106
]
]
LLM을 사용하여 RAG 응답 얻기
검색된 문서를 문자열 형식으로 변환합니다.
context = "\n".join(
[line_with_distance[0] for line_with_distance in retrieved_lines_with_distances]
)
Define system and user prompts for the Language Model. This prompt is assembled with the retrieved documents from Milvus.
SYSTEM_PROMPT = """
Human: You are an AI assistant. You are able to find answers to the questions from the contextual passage snippets provided.
"""
USER_PROMPT = f"""
Use the following pieces of information enclosed in <context> tags to provide an answer to the question enclosed in <question> tags.
<context>
{context}
</context>
<question>
{question}
</question>
"""
LLM을 사용하여 프롬프트에 따라 응답을 생성합니다. model
파라미터는 llama.cpp 서비스에 대한 중복 파라미터이므로 not-used
으로 설정했습니다.
response = llm_client.chat.completions.create(
model="not-used",
messages=[
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": USER_PROMPT},
],
)
print(response.choices[0].message.content)
Milvus stores data in two types: inserted data and metadata. Inserted data, including vector data, scalar data, and collection-specific schema, are stored in persistent storage as incremental log. Milvus supports multiple object storage backends such as MinIO, AWS S3, Google Cloud Storage (GCS), Azure Blob Storage, Alibaba Cloud OSS, and Tencent Cloud Object Storage (COS). Metadata are generated within Milvus and each Milvus module has its own metadata that are stored in etcd.
축하합니다! Arm 기반 인프라 위에 RAG 애플리케이션을 구축했습니다.