Milvus
Zilliz
  • Home
  • Blog
  • HPE Alletra Storage MP + MilvusでGenAI向け高性能RAGを強化

HPE Alletra Storage MP + MilvusでGenAI向け高性能RAGを強化

  • Engineering
November 10, 2025
Denise Ochoa-Mendoza

この投稿はHPE Communityに掲載されたもので、許可を得てここに再掲載しています。

HPE Alletra Storage MP X10000とMilvusは、スケーラブルで低レイテンシーのRAGを実現し、LLMがGenAIワークロード向けに高性能なベクトル検索で正確でコンテキストリッチなレスポンスを提供できるようにします。

ジェネレーティブAIでは、RAGはLLM以上のものを必要とします。

コンテキストは、ジェネレーティブAI(GenAI)と大規模言語モデル(LLM)の真の力を解き放ちます。LLMがその応答を方向付ける適切なシグナルを持つとき、正確で、適切で、信頼できる回答を提供することができる。

例えば、GPS装置を持っているが衛星信号がない密林に落とされたとしよう。画面には地図が表示されるが、現在位置がわからなければナビゲーションとしては役に立たない。逆に、強力な衛星信号を持つGPSは、単に地図を表示するだけでなく、ターン・バイ・ターンで案内してくれる。

これがLLMの検索支援型生成(RAG)だ。モデルはすでに地図(事前に学習された知識)を持っているが、方向(あなたのドメイン固有のデータ)は持っていない。RAGのないLLMは、知識は満載だがリアルタイムの方向がわからないGPSデバイスのようなものだ。RAGは、モデルがどこにいてどこに行くべきかを伝える信号を提供する。

RAGは、ポリシー、製品ドキュメント、チケット、PDF、コード、音声トランスクリプト、画像など、独自のドメイン固有のコンテンツから引き出された、信頼できる最新の知識でモデルの応答を根拠づける。RAGを大規模に機能させることは困難です。検索プロセスは、ユーザーエクスペリエンスをシームレスに保つのに十分速く、最も関連性の高い情報を返すのに十分正確で、システムが高負荷状態にある場合でも予測可能である必要があります。これは、大量のクエリ、継続的なデータ取り込み、インデックス構築のようなバックグラウンドタスクを、パフォーマンスを低下させることなく処理することを意味します。数枚のPDFでRAGパイプラインをスピンアップするのは比較的簡単です。しかし、数百のPDFにスケールアップする場合は、かなり難しくなります。すべてをメモリ上に保持することはできませんので、埋め込み、インデックス、検索パフォーマンスを管理するために、堅牢で効率的なストレージ戦略が不可欠になります。RAGは、ベクターデータベースと、同時実行とデータ量の増加に対応できるストレージレイヤーを必要とします。

ベクトルデータベースがRAGを動かす

RAGの核心はセマンティック検索であり、正確なキーワードではなく意味によって情報を見つけることである。そこで登場するのがベクトル・データベースである。ベクトルデータベースは、テキスト、画像、その他の非構造化データの高次元埋め込みデータを格納し、クエリに最も関連するコンテキストを検索する類似検索を可能にします。Milvusはその代表的な例であり、10億規模の類似検索のために構築されたクラウドネイティブのオープンソース・ベクターデータベースである。Milvusはハイブリッド検索をサポートし、ベクトル類似度とキーワードやスカラーフィルタを組み合わせて精度を高め、GPUを意識した最適化オプションで高速化を図りながら、コンピュートとストレージの独立したスケーリングを提供します。Milvusはまた、スマートセグメントライフサイクルによってデータを管理し、HNSWやDiskANNなどのコンパクションや複数の近似最近傍(ANN)インデックスオプションによって、成長セグメントから密封セグメントへと移行し、RAGのようなリアルタイムAIワークロードのパフォーマンスとスケーラビリティを確保します。

隠れた課題:ストレージのスループットとレイテンシ

ベクトル検索ワークロードは、システムのあらゆる部分に負荷をかけます。これらのワークロードは、インタラクティブなクエリに対して低レイテンシの検索を維持しながら、高同時インジェストを要求します。同時に、インデックス構築、コンパクション、データ再ロードなどのバックグラウンド処理は、ライブパフォーマンスを中断することなく実行されなければなりません。従来のアーキテクチャにおけるパフォーマンスのボトルネックの多くは、ストレージに起因しています。入出力(I/O)の制限、メタデータ・ルックアップの遅延、同時実行の制約などです。予測可能なリアルタイムのパフォーマンスを大規模に提供するためには、ストレージレイヤーはベクトルデータベースの要求に対応しなければなりません。

HPE Alletra Storage MP X10000は、フラッシュに最適化されたオールNVMeのS3互換オブジェクトストレージプラットフォームであり、規模に応じたリアルタイムパフォーマンスを実現するように設計されています。従来の容量重視のオブジェクトストアとは異なり、HPE Alletra Storage MP X10000は、ベクトル検索のような低レイテンシー、高スループットのワークロード向けに設計されています。ログ構造化されたキーバリューエンジンとエクステントベースのメタデータにより、高度に並列な読み取りと書き込みが可能になり、GPUDirect RDMAによりゼロコピーのデータパスが提供されるため、CPUのオーバーヘッドが削減され、GPUへのデータ移動が高速化されます。また、GPUDirect RDMAは、CPUのオーバーヘッドを削減し、GPUへのデータ移動を高速化するゼロコピーデータパスを提供します。このアーキテクチャは、容量とパフォーマンスを独立して成長させることができる分割スケーリングをサポートし、暗号化、役割ベースのアクセス制御(RBAC)、不変性、データ耐久性などのエンタープライズグレードの機能を備えています。HPE Alletra Storage MP X10000は、クラウドネイティブな設計と相まって、Kubernetes環境とシームレスに統合され、Milvus導入に理想的なストレージ基盤となります。

HPE Alletra Storage MP X10000とMilvus: RAGのスケーラブルな基盤

HPE Alletra Storage MP X10000とMilvusは、互いに補完し合うことで、高速で予測可能、かつ拡張が容易なRAGを実現します。図1は、スケーラブルなAIユースケースとRAGパイプラインのアーキテクチャを示しており、コンテナ化された環境に展開されたMilvusコンポーネントが、HPE Alletra Storage MP X10000の高性能オブジェクトストレージとどのように相互作用するかを示している。

Milvusはコンピュートとストレージを明確に分離し、HPE Alletra Storage MP X10000はベクトルワークロードに追従する高スループット、低レイテンシーのオブジェクトアクセスを提供します。この2つを組み合わせることで、予測可能なスケールアウト性能が実現します:Milvusはクエリをシャード全体に分散し、HPE Alletra Storage MP X10000のフラクショナルな多次元スケーリングは、データとQPSが増加してもレイテンシを一定に保ちます。簡単に言えば、必要なときに必要な容量やパフォーマンスを追加できる。HPE Alletra Storage MP X10000のエンタープライズ機能(暗号化、RBAC、不変性、堅牢な耐久性)は、強力なデータ主権と一貫したサービスレベル目標(SLO)を備えたオンプレミスまたはハイブリッド展開をサポートします。

ベクトル検索が大規模化すると、取り込み、圧縮、検索に時間がかかるとしてストレージが非難されることがよくあります。MilvusをHPE Alletra Storage MP X10000に搭載することで、このような状況は一変します。このプラットフォームの全NVMe、ログ構造化アーキテクチャ、およびGPUDirect RDMAオプションは、一貫性のある超低レイテンシのオブジェクトアクセスを実現します。実際には、RAGパイプラインはストレージに縛られるのではなく、計算に縛られたままです。コレクションが増え、クエリ量が急増しても、Milvusは応答性を維持し、HPE Alletra Storage MP X10000はI/Oヘッドルームを維持するため、ストレージを再設計することなく、予測可能でリニアなスケーラビリティを実現します。これは、RAGの導入規模が初期の概念実証段階を超え、本番環境に移行する際に特に重要になります。

エンタープライズ対応のRAG:スケーラブルで予測可能、そしてGenAIのために構築されている

RAGとリアルタイムのGenAIワークロードのために、HPE Alletra Storage MP X10000とMilvusを組み合わせることで、自信を持って拡張できる将来対応可能な基盤が実現します。この統合ソリューションは、パフォーマンスや管理性に妥協することなく、高速で弾力性があり、セキュアなインテリジェントシステムの構築を可能にします。Milvusは、モジュール式スケーリングによりGPUアクセラレーションによる分散型ベクトル検索を提供し、HPE Alletra Storage MP X10000は、エンタープライズグレードの耐久性とライフサイクル管理により、超高速かつ低レイテンシーのオブジェクトアクセスを実現します。また、HPE Alletra Storage MP X10000は、エンタープライズグレードの耐久性とライフサイクル管理を備えた超高速で低レイテンシーのオブジェクトアクセスを実現します。リアルタイムのレコメンデーションサービス、セマンティック検索、数十億のベクトルにわたるスケーリングなど、このアーキテクチャはRAGパイプラインの応答性、コスト効率、クラウド最適化を維持します。KubernetesとHPE GreenLakeクラウドへのシームレスな統合により、統合管理、消費ベースの価格設定、ハイブリッドクラウドやプライベートクラウド環境への柔軟な展開が可能になります。HPE Alletra Storage MP X10000とMilvus: 最新のGenAIの需要に合わせて構築された、スケーラブルで高性能なRAGソリューション。

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    続けて読む