オーディオ類似検索
このチュートリアルでは、オープンソースのベクトルデータベースであるMilvusを使って、オーディオ類似度検索システムを構築する方法を示します。
使用したMLモデルとサードパーティソフトウェアは以下の通りです:
- PANNs (大規模事前学習済みオーディオニューラルネットワーク)
- MySQL
- Towhee
音声、音楽、効果音、その他の種類の音声検索により、膨大な量の音声データを素早く照会し、類似する音を浮上させることが可能になる。オーディオ類似検索システムのアプリケーションには、類似のサウンドエフェクトの特定、IP 侵害の最小化などがあります。音声検索は、オンラインメディアをリアルタイムで検索・監視し、知的財産権の侵害を取り締まるために使用できます。また、オーディオデータの分類や統計分析においても重要な役割を担っています。
このチュートリアルでは、類似したサウンドクリップを返すオーディオ類似検索システムの構築方法を学びます。アップロードされたオーディオクリップは、PANNを使ってベクトルに変換されます。これらのベクトルはMilvusに保存され、各ベクトルに固有のIDが自動的に生成されます。ユーザはMilvusでベクトル類似度検索を行い、Milvusが返す一意のベクトルIDに対応するオーディオクリップのデータパスを問い合わせることができる。
Audio_search Audio_search_demo