🚀 완전 관리형 Milvus인 Zilliz Cloud를 무료로 체험해보세요—10배 더 빠른 성능을 경험하세요! 지금 체험하기>>

milvus-logo
LFAI
  • Home
  • Blog
  • 밀버스와 패들패들을 결합하여 추천 시스템에서 후보 생성 가속화하기

밀버스와 패들패들을 결합하여 추천 시스템에서 후보 생성 가속화하기

  • Scenarios
November 26, 2021
Yunmei

추천 시스템을 개발한 경험이 있다면 다음 중 적어도 한 가지 이상의 문제를 겪어보셨을 것입니다:

  • 엄청난 양의 데이터 집합으로 인해 시스템에서 결과를 반환하는 속도가 매우 느립니다.
  • 새로 삽입된 데이터를 검색이나 쿼리를 위해 실시간으로 처리할 수 없습니다.
  • 추천 시스템 배포가 어렵습니다.

이 글에서는 오픈소스 벡터 데이터베이스인 Milvus와 딥러닝 플랫폼인 PaddlePaddle을 함께 사용하는 상품 추천 시스템 프로젝트를 소개함으로써 위에서 언급한 문제를 해결하고 인사이트를 제공하는 것을 목표로 합니다.

이 글에서는 추천 시스템의 최소한의 워크플로우에 대해 간략하게 설명합니다. 그런 다음 이 프로젝트의 주요 구성 요소와 구현 세부 사항을 소개합니다.

추천 시스템의 기본 워크플로

프로젝트 자체에 대해 자세히 알아보기 전에 먼저 추천 시스템의 기본 워크플로우에 대해 살펴보겠습니다. 추천 시스템은 사용자의 고유한 관심사와 필요에 따라 개인화된 결과를 반환할 수 있습니다. 이러한 개인화된 추천을 위해 시스템은 후보 생성 및 순위 지정의 두 단계를 거칩니다.

2.png 2.png

첫 번째 단계는 후보 생성으로, 사용자 프로필과 일치하는 제품이나 동영상 등 가장 관련성이 높거나 유사한 데이터를 반환합니다. 후보를 생성하는 동안 시스템은 사용자 특성을 데이터베이스에 저장된 데이터와 비교하여 유사한 특성을 검색합니다. 그런 다음 순위를 매기는 동안 시스템은 검색된 데이터에 점수를 매기고 순서를 다시 지정합니다. 마지막으로 목록 상단에 있는 결과가 사용자에게 표시됩니다.

상품 추천 시스템의 경우, 먼저 사용자 프로필과 인벤토리에 있는 상품의 특성을 비교하여 사용자의 니즈에 맞는 상품 목록을 필터링합니다. 그런 다음 시스템은 사용자 프로필과의 유사성을 기준으로 제품의 점수를 매기고 순위를 매긴 다음 최종적으로 상위 10개 제품을 사용자에게 반환합니다.

3.png 3.png

시스템 아키텍처

이 프로젝트의 상품 추천 시스템은 세 가지 구성 요소를 사용합니다: 마인드, 패들렉, 밀버스.

MIND

MIND는"다중 관심 네트워크와 동적 라우팅을 통한 티몰 추천"의 줄임말로, 알리바바 그룹에서 개발한 알고리즘입니다. MIND가 제안되기 전에는 추천을 위해 널리 사용되는 대부분의 AI 모델은 사용자의 다양한 관심사를 표현하기 위해 단일 벡터를 사용했습니다. 그러나 단일 벡터로는 사용자의 정확한 관심사를 표현하기에 충분하지 않습니다. 따라서 사용자의 다양한 관심사를 여러 개의 벡터로 변환하는 MIND 알고리즘이 제안되었습니다.

특히, MIND는 후보 생성 단계에서 한 사용자의 여러 관심사를 처리하기 위해 동적 라우팅이 가능한 다중 관심사 네트워크를 채택합니다. 다중 관심사 네트워크는 캡슐 라우팅 메커니즘을 기반으로 구축된 다중 관심사 추출기의 계층입니다. 사용자의 과거 행동과 여러 관심사를 결합하여 정확한 사용자 프로필을 제공하는 데 사용할 수 있습니다.

다음 다이어그램은 MIND의 네트워크 구조를 보여줍니다.

4.png 4.png

사용자의 특성을 표현하기 위해 MIND는 사용자 행동과 사용자 관심사를 입력으로 받은 다음 이를 임베딩 레이어에 공급하여 사용자 관심사 벡터와 사용자 행동 벡터를 포함한 사용자 벡터를 생성합니다. 그런 다음 사용자 행동 벡터를 다중 관심사 추출기 레이어에 공급하여 사용자 관심사 캡슐을 생성합니다. 사용자 관심사 캡슐을 사용자 행동 임베딩과 연결하고 여러 ReLU 레이어를 사용하여 변환한 후, MIND는 여러 사용자 표현 벡터를 출력합니다. 이 프로젝트에서는 MIND가 궁극적으로 4개의 사용자 표현 벡터를 출력하도록 정의했습니다.

반면에 제품 특성은 임베딩 레이어를 거쳐 희소 항목 벡터로 변환됩니다. 그런 다음 각 항목 벡터는 풀링 레이어를 거쳐 고밀도 벡터가 됩니다.

모든 데이터가 벡터로 변환되면 학습 과정을 안내하기 위해 추가적인 레이블 인식 주의 계층이 도입됩니다.

PaddleRec

PaddleRec은 추천을 위한 대규모 검색 모델 라이브러리입니다. Baidu PaddlePaddle 에코시스템의 일부입니다. 패들렉은 개발자가 쉽고 빠르게 추천 시스템을 구축할 수 있는 통합 솔루션을 제공하는 것을 목표로 합니다.

5.png 5.png

첫 문단에서 언급했듯이, 추천 시스템을 개발하는 엔지니어는 종종 사용성이 떨어지고 시스템 배포가 복잡해지는 문제에 직면하게 됩니다. 하지만 패들렉은 다음과 같은 측면에서 개발자에게 도움을 줄 수 있습니다:

  • 사용의 용이성: PaddleRec은 후보 생성, 랭킹, 재랭킹, 멀티태스킹 등의 모델을 포함하여 업계에서 널리 사용되는 다양한 모델을 캡슐화한 오픈 소스 라이브러리입니다. PaddleRec을 사용하면 모델의 효과를 즉시 테스트하고 반복을 통해 효율성을 개선할 수 있습니다. PaddleRec은 뛰어난 성능으로 분산 시스템을 위한 모델을 쉽게 훈련할 수 있는 방법을 제공합니다. 희소 벡터의 대규모 데이터 처리에 최적화되어 있습니다. PaddleRec은 수평적으로 쉽게 확장하고 컴퓨팅 속도를 가속화할 수 있습니다. 따라서 PaddleRec을 사용하여 Kubernetes에서 빠르게 교육 환경을 구축할 수 있습니다.

  • 배포 지원: PaddleRec은 모델을 위한 온라인 배포 솔루션을 제공합니다. 모델은 교육 후 즉시 사용할 수 있으며 유연성과 고가용성이 특징입니다.

Milvus

Milvus는 클라우드 네이티브 아키텍처를 갖춘 벡터 데이터베이스입니다. GitHub에서 오픈 소스로 제공되며 심층 신경망 및 기타 머신 러닝(ML) 모델에서 생성된 대규모 임베딩 벡터를 저장, 색인화 및 관리하는 데 사용할 수 있습니다. Milvus는 Faiss, NMSLIB, Annoy를 비롯한 여러 최고 수준의 근사 근사 이웃(ANN) 검색 라이브러리를 캡슐화합니다. 필요에 따라 Milvus를 확장할 수도 있습니다. Milvus 서비스는 고가용성이며 통합 배치 및 스트림 처리를 지원합니다. Milvus는 비정형 데이터 관리 프로세스를 간소화하고 다양한 배포 환경에서 일관된 사용자 경험을 제공하기 위해 최선을 다하고 있습니다. 다음과 같은 특징이 있습니다:

  • 대규모 데이터 세트에서 벡터 검색을 수행할 때 뛰어난 성능.

  • 다국어 지원과 도구 체인을 제공하는 개발자 우선 커뮤니티.

  • 클라우드 확장성 및 장애 발생 시에도 높은 안정성.

  • 스칼라 필터링과 벡터 유사도 검색을 결합하여 하이브리드 검색을 실현합니다.

시스템 안정성을 유지하면서 잦은 데이터 업데이트 문제를 해결할 수 있어 이 프로젝트에서 벡터 유사도 검색과 벡터 관리에 Milvus를 사용했습니다.

시스템 구현

이 프로젝트에서 상품 추천 시스템을 구축하려면 다음 단계를 거쳐야 합니다:

  1. 데이터 처리
  2. 모델 학습
  3. 모델 테스트
  4. 상품 아이템 후보 생성
    1. 데이터 저장: 학습된 모델을 통해 아이템 벡터를 획득하여 Milvus에 저장합니다.
    2. 데이터 검색: MIND에서 생성된 4개의 사용자 벡터가 Milvus에 제공되어 벡터 유사도 검색을 수행합니다.
    3. 데이터 랭킹: 4개의 벡터 각각에 top_k 유사한 항목 벡터가 있고, 4개의 top_k 벡터 세트의 순위를 매겨 top_k 가장 유사한 벡터의 최종 목록을 반환합니다.

이 프로젝트의 소스 코드는 Baidu AI Studio 플랫폼에서 호스팅됩니다. 다음 섹션에서는 이 프로젝트의 소스 코드에 대해 자세히 설명합니다.

1단계 데이터 처리

원본 데이터 세트는 ComiRec에서 제공하는 아마존 도서 데이터 세트에서 가져옵니다. 하지만 이 프로젝트에서는 PaddleRec에서 다운로드하여 처리한 데이터를 사용합니다. 자세한 내용은 PaddleRec 프로젝트의 AmazonBook 데이터 세트를 참조하세요.

훈련용 데이터 세트는 다음과 같은 형식으로 표시되며, 각 열은 다음을 나타냅니다:

  • Uid: 사용자 ID.
  • item_id: 사용자가 클릭한 제품 항목의 ID.
  • Time: 타임스탬프 또는 클릭 순서.

테스트용 데이터 세트는 다음과 같은 형식으로 표시되며 각 열은 다음을 나타냅니다:

  • Uid: 사용자 ID.

  • hist_item: 과거 사용자 클릭 행동에서 제품 항목의 ID입니다. hist_item 이 여러 개 있는 경우 타임스탬프에 따라 정렬됩니다.

  • eval_item: 사용자가 제품을 클릭한 실제 순서입니다.

2단계. 모델 학습

모델 학습은 이전 단계에서 가공된 데이터를 활용하여 PaddleRec에 구축된 후보 생성 모델인 MIND를 도입합니다.

1. 모델 입력

dygraph_model.py 에서 다음 코드를 실행하여 데이터를 처리하고 모델 입력으로 전환합니다. 이 과정은 원본 데이터에서 동일한 사용자가 클릭한 항목을 타임스탬프에 따라 정렬하고, 이를 조합하여 하나의 시퀀스를 형성합니다. 그런 다음 시퀀스에서 item``_``idtarget_item 으로 임의로 선택하고 target_item 앞의 10개 항목을 추출하여 hist_item 으로 모델 입력에 사용합니다. 시퀀스의 길이가 충분하지 않은 경우 0으로 설정할 수 있습니다. seq_lenhist_item 시퀀스의 실제 길이가 되어야 합니다.

def create_feeds_train(self, batch_data):
    hist_item = paddle.to_tensor(batch_data[0], dtype="int64")
    target_item = paddle.to_tensor(batch_data[1], dtype="int64")
    seq_len = paddle.to_tensor(batch_data[2], dtype="int64")
    return [hist_item, target_item, seq_len]

원본 데이터셋을 읽어오는 코드는 /home/aistudio/recommend/model/mind/mind_reader.py 스크립트를 참조하세요.

2. 모델 네트워킹

다음 코드는 net.py 에서 발췌한 것입니다. class Mind_Capsual_Layer 은 관심사 캡슐 라우팅 메커니즘에 구축된 다중 관심사 추출기 계층을 정의합니다. label_aware_attention() 함수는 MIND 알고리즘에서 레이블 인식 관심도 기법을 구현합니다. class MindLayerforward() 함수는 사용자 특성을 모델링하고 해당 가중치 벡터를 생성합니다.

class Mind_Capsual_Layer(nn.Layer):
    def __init__(self):
        super(Mind_Capsual_Layer, self).__init__()
        self.iters = iters
        self.input_units = input_units
        self.output_units = output_units
        self.maxlen = maxlen
        self.init_std = init_std
        self.k_max = k_max
        self.batch_size = batch_size
        # B2I routing
        self.routing_logits = self.create_parameter(
            shape=[1, self.k_max, self.maxlen],
            attr=paddle.ParamAttr(
                name="routing_logits", trainable=False),
            default_initializer=nn.initializer.Normal(
                mean=0.0, std=self.init_std))
        # bilinear mapping
        self.bilinear_mapping_matrix = self.create_parameter(
            shape=[self.input_units, self.output_units],
            attr=paddle.ParamAttr(
                name="bilinear_mapping_matrix", trainable=True),
            default_initializer=nn.initializer.Normal(
                mean=0.0, std=self.init_std))
                
class MindLayer(nn.Layer):

    def label_aware_attention(self, keys, query):
        weight = paddle.sum(keys * query, axis=-1, keepdim=True)
        weight = paddle.pow(weight, self.pow_p)  # [x,k_max,1]
        weight = F.softmax(weight, axis=1)
        output = paddle.sum(keys * weight, axis=1)
        return output, weight

    def forward(self, hist_item, seqlen, labels=None):
        hit_item_emb = self.item_emb(hist_item)  # [B, seqlen, embed_dim]
        user_cap, cap_weights, cap_mask = self.capsual_layer(hit_item_emb, seqlen)
        if not self.training:
            return user_cap, cap_weights
        target_emb = self.item_emb(labels)
        user_emb, W = self.label_aware_attention(user_cap, target_emb)

        return self.sampled_softmax(
            user_emb, labels, self.item_emb.weight,
            self.embedding_bias), W, user_cap, cap_weights, cap_mask

MIND의 구체적인 네트워크 구조는 /home/aistudio/recommend/model/mind/net.py 스크립트를 참조하세요.

3. 모델 최적화

이 프로젝트는 아담 알고리즘을 모델 최적화 도구로 사용합니다.

def create_optimizer(self, dy_model, config):
    lr = config.get("hyper_parameters.optimizer.learning_rate", 0.001)
    optimizer = paddle.optimizer.Adam(
        learning_rate=lr, parameters=dy_model.parameters())
    return optimizer

또한, 패들렉은 config.yaml 에 하이퍼파라미터를 작성하므로 이 파일을 수정하면 두 모델의 효율성을 명확하게 비교하여 모델 효율을 높일 수 있습니다. 모델을 학습할 때 모델 효과가 좋지 않은 것은 모델 과소적합 또는 과적합으로 인해 발생할 수 있습니다. 따라서 훈련 횟수를 수정하여 이를 개선할 수 있습니다. 이 프로젝트에서는 config.yaml 에서 매개변수 epochs만 변경하면 완벽한 훈련 횟수를 찾을 수 있습니다. 또한 모델 최적화 도구인 optimizer.class 또는 learning_rate 에서 디버깅을 위해 변경할 수도 있습니다. 다음은 config.yaml 의 일부 파라미터를 보여줍니다.

runner:
  use_gpu: True
  use_auc: False
  train_batch_size: 128
  epochs: 20
  print_interval: 10
  model_save_path: "output_model_mind"

# hyper parameters of user-defined network
hyper_parameters:
  # optimizer config
  optimizer:
    class: Adam
    learning_rate: 0.005

자세한 구현 방법은 /home/aistudio/recommend/model/mind/dygraph_model.py 스크립트를 참조하세요.

4. 모델 훈련

다음 명령을 실행하여 모델 학습을 시작합니다.

python -u trainer.py -m mind/config.yaml

모델 학습 프로젝트는 /home/aistudio/recommend/model/trainer.py 을 참조하세요.

3단계. 모델 테스트

이 단계에서는 테스트 데이터 세트를 사용하여 학습된 모델의 리콜률 등의 성능을 검증합니다.

모델 테스트 중에는 모델에서 모든 항목 벡터를 로드한 다음 오픈 소스 벡터 데이터베이스인 Milvus로 가져옵니다. /home/aistudio/recommend/model/mind/mind_infer_reader.py 스크립트를 통해 테스트 데이터 세트를 읽습니다. 이전 단계에서 모델을 로드하고 테스트 데이터 세트를 모델에 입력하여 사용자의 관심사 벡터 4개를 얻습니다. Milvus에서 4개의 관심사 벡터와 가장 유사한 50개의 항목 벡터를 검색합니다. 반환된 결과를 사용자에게 추천할 수 있습니다.

다음 명령을 실행하여 모델을 테스트합니다.

python -u infer.py -m mind/config.yaml -top_n 50

모델 테스트 중에 시스템은 모델 효과를 평가하기 위한 여러 가지 지표(예: Recall@50, NDCG@50, HitRate@50)를 제공합니다. 이 문서에서는 하나의 매개변수만 수정하는 방법을 소개합니다. 그러나 자체 애플리케이션 시나리오에서는 더 나은 모델 효과를 위해 더 많은 에포크를 학습시켜야 합니다. 또한 다른 최적화 프로그램을 사용하고, 다른 학습 속도를 설정하고, 테스트 횟수를 늘려서 모델 효과를 개선할 수도 있습니다. 서로 다른 효과를 가진 여러 모델을 저장한 다음 가장 성능이 우수하고 애플리케이션에 가장 적합한 모델을 선택하는 것이 좋습니다.

4단계. 상품 아이템 후보 생성

상품 후보 생성 서비스를 구축하기 위해 이 프로젝트에서는 이전 단계에서 학습된 모델을 Milvus와 함께 사용합니다. 후보 생성 중에는 인터페이스를 제공하기 위해 FASTAPI가 사용됩니다. 서비스가 시작되면 curl 을 통해 터미널에서 직접 명령을 실행할 수 있습니다.

다음 명령을 실행하여 예비 후보를 생성합니다.

uvicorn main:app

이 서비스는 네 가지 유형의 인터페이스를 제공합니다:

  • 삽입: 다음 명령을 실행하여 모델에서 항목 벡터를 읽고 Milvus의 컬렉션에 삽입합니다.
curl -X 'POST' \
  'http://127.0.0.1:8000/rec/insert_data' \
  -H 'accept: application/json' \
  -d ''
  • 예비 후보를 생성합니다: 사용자가 상품을 클릭하는 순서를 입력하고, 사용자가 클릭할 수 있는 다음 상품을 찾아냅니다. 다음 명령의 hist_item 은 2차원 벡터이며, 각 행은 사용자가 과거에 클릭한 상품의 시퀀스를 나타냅니다. 시퀀스의 길이를 정의할 수 있습니다. 반환되는 결과도 2차원 벡터의 집합이며, 각 행은 사용자에게 반환된 item id을 나타냅니다.
curl -X 'POST' \
  'http://127.0.0.1:8000/rec/recall' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
  "top_k": 50,
  "hist_item": [[43,23,65,675,3456,8654,123454,54367,234561],[675,3456,8654,123454,76543,1234,9769,5670,65443,123098,34219,234098]]
}'
  • 제품 품목수를 쿼리합니다: 다음 명령을 실행하여 Milvus 데이터베이스에 저장된 총 품목 벡터 수를 반환합니다.
curl -X 'POST' \
  'http://127.0.0.1:8000/rec/count' \
  -H 'accept: application/json' \
  -d ''
  • 삭제: 다음 명령을 실행하여 Milvus 데이터베이스에 저장된 모든 데이터를 삭제합니다.
curl -X 'POST' \
  'http://127.0.0.1:8000/qa/drop' \
  -H 'accept: application/json' \
  -d ''

로컬 서버에서 후보 생성 서비스를 실행하는 경우 127.0.0.1:8000/docs 에서도 위의 인터페이스에 액세스할 수 있습니다. 네 가지 인터페이스를 클릭하고 매개변수 값을 입력하여 사용해 볼 수 있습니다. 그런 다음 '사용해 보기'를 클릭하면 추천 결과를 확인할 수 있습니다.

6.png 6.png

7.png 7.png

요약

이 문서에서는 주로 추천 시스템을 구축할 때 후보를 생성하는 첫 번째 단계에 중점을 두고 있습니다. 또한 Milvus와 MIND 알고리즘 및 PaddleRec을 결합하여 이 프로세스를 가속화하는 솔루션을 제공함으로써 첫 단락에서 제안한 문제를 해결했습니다.

엄청난 양의 데이터셋으로 인해 시스템이 결과를 반환할 때 매우 느리다면 어떻게 해야 할까요? 오픈 소스 벡터 데이터베이스인 Milvus는 수백만, 수십억, 심지어 수조 개의 벡터가 포함된 고밀도 벡터 데이터 세트에서 초고속 유사도 검색을 위해 설계되었습니다.

새로 삽입된 데이터를 검색이나 쿼리를 위해 실시간으로 처리할 수 없다면 어떻게 해야 할까요? 통합 배치 및 스트림 처리를 지원하고 새로 삽입된 데이터를 실시간으로 검색 및 쿼리할 수 있는 Milvus를 사용하면 됩니다. 또한, MIND 모델은 새로운 사용자 행동을 실시간으로 변환하여 사용자 벡터를 Milvus에 즉시 삽입할 수 있습니다.

복잡한 배포가 너무 부담스럽다면 어떻게 해야 할까요? 패들패들 생태계에 속하는 강력한 라이브러리인 패들렉은 추천 시스템이나 기타 애플리케이션을 쉽고 빠르게 배포할 수 있는 통합 솔루션을 제공할 수 있습니다.

저자 소개

Zilliz 데이터 엔지니어인 리윤메이는 화중과학기술대학교에서 컴퓨터 공학을 전공했습니다. Zilliz에 입사한 이후 오픈 소스 프로젝트 Milvus의 솔루션을 탐색하고 사용자가 실제 시나리오에서 Milvus를 적용할 수 있도록 지원하는 일을 하고 있습니다. 그녀의 주요 관심 분야는 자연어 처리와 추천 시스템이며, 앞으로 이 두 분야에 더욱 집중하고 싶습니다. 혼자 시간을 보내는 것과 독서를 좋아합니다.

더 많은 리소스를 찾고 계신가요?

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started

Like the article? Spread the word

계속 읽기