🚀 免费试用 Zilliz Cloud,完全托管的 Milvus,体验 10 倍的性能提升!立即试用>

milvus-logo
LFAI

2023:人工智能年

    January 05, 2024
    James Luan

    This image is generated by AI. 该图像由人工智能生成。

    本文章由 James Luan 在 ChatGPT 的帮助下撰写。詹姆斯主要负责撰写提示,并对人工智能生成的内容进行审核和润色。

    2023:人工智能年

    2023 年是人工智能(AI)的一个关键转折点。大型语言模型(LLMs)已经成为舞台的中心,其卓越的自然语言处理能力获得了广泛认可。这一流行趋势极大地扩展了机器学习应用的可能性,使开发人员能够构建更加智能和交互式的应用。

    在这场革命中,向量数据库作为LLMs的长期存储器,已成为一个至关重要的组成部分。Retrieval-Augmented Generation(RAG)模型、智能代理和多模态检索应用程序的兴起,证明了向量数据库在提高多模态数据检索效率、减少 LLMs 中的幻觉和补充领域知识方面的巨大潜力。

    LLM 的发展也催化了嵌入技术的长足进步。根据 HuggingFace 上的大规模文本嵌入基准(MTEB)排行榜,UAE、VoyageAI、CohereV3 和 Bge 等领先的嵌入模型都是在 2023 年发布的。这些进步增强了 Milvus 等各种向量搜索技术的向量检索效果,为人工智能应用提供了更精准、更高效的数据处理能力。

    然而,随着向量数据库的日益普及,关于专业化解决方案必要性的争论也随之而来。数十家初创公司纷纷进入向量数据库领域。许多传统的关系型数据库和 NoSQL 数据库开始将向量作为一种重要的数据类型,许多人声称能够在各种情况下替代专门的向量数据库。

    在我们进入 2024 年之际,这是一个反思整个向量数据库行业的明智时刻,我们要特别关注 Milvus--这个在这一格局中脱颖而出的产品。

    2023 年的 Milvus:数字不会说谎

    Milvus于 2019 年首次推出,开创了向量数据库的概念,并始终保持着高可靠性、可扩展性、搜索质量和性能的声誉。2023年,Milvus取得了令人瞩目的成绩,并发生了重大转变,这主要是由LLMs的快速进步和AIGC应用的蓬勃发展所推动的。以下是最能代表 Milvus 在 2023 年进步的一些关键数据。

    滚动升级期间零停机

    对于那些刚接触向量数据库的人来说,他们主要关注的中心是功能而不是操作维护。与事务型数据库相比,许多应用程序开发人员对向量数据库稳定性的关注也较少,因为他们的应用程序通常处于早期探索阶段。但是,如果要在生产环境中部署 AIGC 应用程序并获得最佳用户体验,稳定性就变得不可或缺。

    Milvus 的与众不同之处在于,它不仅将功能性放在首位,还将操作的稳定性放在首位。从 2.2.3 版开始,我们为 Milvus 增加了滚动升级功能。经过不断改进,该功能可确保升级期间零停机,而不会中断业务流程。

    在生产环境中提高 3 倍性能

    提升向量搜索性能需要成为向量数据库的首要目标。许多向量搜索解决方案都选择以调整HNSW算法为基础,以便快速进入市场;不幸的是,这导致它们在实际生产环境中面临巨大挑战,尤其是在高度过滤搜索(超过 90%)和频繁删除数据的情况下。Milvus 从一开始就考虑了性能问题,在开发的任何阶段都能出色地优化性能,特别是在生产环境中,实现了搜索性能的三倍提升,尤其是在过滤搜索和流式插入/搜索情况下。

    为了进一步帮助向量数据库社区,我们去年推出了开源基准测试工具VectorDBBench。该工具对于在不同条件下对向量数据库进行早期评估至关重要。与传统的评估方法不同,VectorDBBench 使用真实世界的数据(包括超大数据集或与实际 Embeddings 模型数据近似的数据集)对数据库进行评估,为用户做出明智决策提供更具洞察力的信息。

    在 Beir 数据集上的召回率提高了 5

    虽然密集嵌入在向量搜索中被证明是有效的,但在搜索名称、对象、缩写和简短查询上下文时,它们必须迎头赶上。针对它们的局限性,Milvus 推出了一种混合查询方法,将密集嵌入式与稀疏嵌入式整合在一起,以提高搜索结果的质量。这种混合解决方案与 Rerankers 模型的协同作用使 Beir 数据集上的召回率大幅提高了 5%,我们的测试也验证了这一点。

    除了搜索质量的提高,Milvus 还推出了为稀疏嵌入量身定制的基于图的检索解决方案,其性能超过了 WAND 等传统搜索算法。

    在 2023 年的 NeurIPS BigANN 比赛上,Zilliz 公司的天才工程师王梓豪展示了Pyanns,这是一种搜索算法,在稀疏嵌入搜索赛道上表现出明显优于其他参赛作品的性能。这一突破性解决方案是我们用于生产环境的稀疏嵌入搜索算法的先驱。

    在大型数据集上节省 10 倍内存

    检索增强生成(RAG)是 2023 年向量数据库最流行的用例。然而,RAG 应用带来的向量数据量的增加给这些应用带来了存储挑战。当转换后的向量量超过原始文档块的量时,这种挑战尤其明显,有可能使内存使用成本上升。例如,将文档划分成块后,由 500 个标记块(约 1kb)转化而来的 1536 维 float32 向量(约 3kb)的大小要大于 500 个标记块。

    Milvus 是首个支持基于磁盘的索引的开源向量数据库,带来了 5 倍的显著内存节省。到 2023 年年底,我们推出了Milvus 2.3.4,使标量和向量数据/索引能够使用内存映射文件(MMap)加载到磁盘上。与传统的内存索引相比,这一进步可将内存使用量减少 10 倍以上。

    20 个 Milvus 版本

    2023 年,Milvus 经历了具有重大里程碑意义的转型之旅。在这一年中,我们发布了 20 个版本,这证明了 300 多名社区开发人员的奉献精神,以及我们在开发过程中实现用户驱动方法的承诺。

    例如,Milvus 2.2.9 引入了动态 Schema,标志着从优先考虑性能到提高可用性的重要转变。在此基础上,Milvus 2.3引入了 Upsert、范围搜索、余弦度量等关键功能,所有这些功能都是由用户社区的特定需求和反馈驱动的。这种迭代开发过程凸显了我们不断使 Milvus 符合用户不断变化的需求的承诺。

    单个卡斯特中的 1,000,000 个租户

    实施多租户对于开发 RAG 系统、人工智能 Agents 和其他 LLM 应用程序至关重要,可满足用户对数据隔离的更高要求。对于 B2C 企业来说,租户数量可能会激增到数百万,这使得用户数据的物理隔离变得不切实际(举例来说,不可能有人会在关系数据库中创建数百万个表)。Milvus 引入了 Partition Key 功能,可以根据分区键实现高效的逻辑隔离和数据过滤,这在大规模使用时非常方便。

    相反,习惯于处理数以万计租户的 B2B 企业则受益于涉及物理资源隔离的更细致策略。最新的 Milvus 2.3.4 带来了增强的内存管理、例行程序处理和 CPU 优化,使在单个集群内创建数万张表变得更加容易。这一增强功能还能满足 B2B 企业的需求,提高效率和控制力。

    拉取 10,000,000 个 Docker 映像

    2023 年即将过去,Milvus 达到了一个令人印象深刻的里程碑,Docker 拉取下载量达到1000 万次。这一成就标志着开发者社区对 Milvus 的迷恋与日俱增,也凸显了其在向量数据库领域不断提升的重要性。

    作为世界上第一个云原生向量数据库,Milvus 可以与 Kubernetes 和更广泛的容器生态系统无缝集成。展望未来,人们不禁会思考不断发展的向量数据库领域的下一个焦点。这会是无服务器服务的兴起吗?

    单个 Collections 中的 100 亿个实体

    虽然可扩展性目前可能不会成为人工智能现象中的焦点,但它肯定扮演着举足轻重的角色,而不仅仅是一个配角。Milvus 向量数据库可以无缝扩展,容纳数十亿的向量数据,而不会让人捏一把汗。以我们的一位 LLM 客户为例。Milvus 毫不费力地帮助这位客户存储、处理和检索了惊人的 100 亿个数据点。但是,在处理如此海量的数据时,如何平衡成本和性能呢?请放心,Mivus 有各种能力帮助您应对这一挑战并提升您的体验。

    数字之外:向量数据库的新见解

    除了数字上的里程碑,2023 年还丰富了我们的宝贵见解。我们深入研究了向量数据库的错综复杂,超越了单纯的统计数据,掌握了向量搜索技术的细微差别和不断发展的动态。

    LLM 应用程序仍处于早期阶段。

    回想移动互联网蓬勃发展的早期,许多开发者创建了手电筒或天气预报等简单的应用程序,这些应用程序最终被集成到智能手机操作系统中。去年,大多数人工智能原生应用,如在GitHub上迅速获得10万颗星的AutoGPT,并没有带来实际价值,而只是代表着有意义的实验。对于向量数据库应用来说,目前的用例可能只是 AI Native 转型的第一波,我热切期待更多的杀手级用例出现。

    向量数据库走向多样化。

    与数据库演变为 OLTP、OLAP 和 NoSQL 等类别类似,向量数据库也呈现出明显的多元化趋势。与传统的在线服务不同,离线分析获得了显著的发展。2023 年发布的开源语义缓存GPTCache 就是这种转变的另一个显著例子。它通过存储和检索语言模型生成的响应,提高了基于 GPT 的应用程序的效率和速度。

    我们希望并期待在未来一年见证向量数据库更加多样化的应用和系统设计。

    向量操作符正变得越来越复杂。

    虽然支持近似近邻(ANN)搜索是向量数据库的一个决定性特征,但它并不是孤立存在的。人们普遍认为,仅仅保持近似邻域搜索就足以将数据库归类为向量或人工智能原生数据库,这种想法过于简化了向量操作的复杂性。除了混合标量过滤和向量搜索的基本功能外,为人工智能原生应用定制的数据库还应支持更复杂的语义功能,如 NN 过滤、KNN 连接和集群查询。

    弹性可扩展性对人工智能原生应用至关重要。

    人工智能应用的指数级增长(如 ChatGPT 在两个月内就积累了超过 1 亿的月活跃用户)超越了以往任何商业轨迹。一旦企业的发展步入正轨,迅速从 100 万个数据点扩展到 10 亿个数据点就变得至关重要。人工智能应用开发人员受益于 LLM 提供商设定的 "即用即付 "服务模型,从而大幅降低了操作成本。同样,存储符合这种定价模型的数据也证明对开发人员有利,使他们能够将更多注意力转移到核心业务上。

    与语言模型(LLMs)和其他各种技术系统不同,向量数据库是以有状态的方式操作的,其功能需要持久的数据存储。因此,在选择向量数据库时,优先考虑弹性和可扩展性至关重要。这种优先级可确保与不断发展的人工智能应用的动态需求保持一致,从而突出了无缝适应不断变化的工作负载的必要性。

    在向量数据库中利用机器学习可以产生非凡的效果。

    2023 年,我们在 AI4DB(人工智能数据库)项目上的大量投资取得了显著成效。作为努力的一部分,我们为全面管理的 Milvus 解决方案Zilliz Cloud 引入了两项举足轻重的功能:1)AutoIndex,一种植根于机器学习的自动参数调整索引;2)基于数据聚类的数据分区策略。这两项创新在显著提升 Zilliz Cloud 的搜索性能方面发挥了至关重要的作用。

    开源与闭源

    目前,OpenAI 的 GPT 系列和 Claude 等闭源 LLMs 占据领先地位,由于缺乏可比的计算和数据资源,开源社区处于劣势。

    不过,在向量数据库中,开源最终将成为用户的首选。选择开源会带来许多优势,包括更多样化的使用案例、加速迭代和培养更强大的生态系统。此外,数据库系统错综复杂,无法承受通常与 LLMs 相关的不透明性。用户在选择最合理的使用方法之前,必须彻底了解数据库。此外,开放源码所具有的透明度使用户能够根据自己的需要自由定制数据库。

    后记--新的开始!

    2023 年在变革中悄然过去,向量数据库的故事才刚刚开始。我们与 Milvus 向量数据库一起走过的历程,除了迷失在 AIGC 的炒作中,还有其他意义。相反,我们专注于精心开发我们的产品,识别和培养符合我们优势的应用案例,并坚定不移地为我们的用户提供服务。我们致力于开源,目的是在我们与用户之间架起一座桥梁,让他们即使远隔千山万水,也能感受到我们的专注和匠心。

    2023 年还见证了许多人工智能初创企业的成立和首轮融资。看到这些开发者的创新,我感到非常兴奋,这也让我想起了当初为什么要从事 VectorDB 开发。2024年将是所有这些创新应用获得真正牵引力的一年,吸引的不仅仅是资金,还有真正的付费客户。客户收入将给这些开发人员带来不同的要求,因为构建一个完全可扩展、几乎没有停机时间的解决方案是最重要的。

    让我们在 2024 年创造非凡!

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    扩展阅读