智东西(公众号:zhidxcom)
编辑 | 程茜
Scaling Law的时代,真的结束了。
最先发出警告的,来自ChatGPT背后的头号功臣Ilya Sutskever。
路透社的官方采访中他直言不讳“ results from scaling up pre-training – the phase of training an AI model that uses a vast amount of unlabeled data to understand language patterns and structures – have plateaued.”
——大数据训练,带来的AI智能程度提升已达阶段性瓶颈。
但“Scaling the right thing matters more now than ever.”
——选对正确的方向,比过去任何时代,都要更加重要与迫切。但是,风向突变,未来大模型到底要Scaling什么?
不同于技术前沿的恐慌四处弥漫,相比寻找最顶级的大模型,业界已经早早将目光转向了通往智能的另一条捷径——向量数据库。
一、源起:AI时代的数据库机会
“如果说算力是火箭的机体,那么算法是控制系统,数据是燃料,虽然每一轮计算机技术的革命都是从硬件开始,然后是算法的进步,但数据才是最核心、最有价值的资源。”“未来这个赛道,将跑出估值至少百亿美金的公司。”
说话的是星爵,向量数据库创业公司Zilliz的创始人。
2017大模型开山之作Transformer 在论文《Attention is All You Need》中提出的同期,在Oracle工作了七年之久的他开启了人生中的第一次创业——面向未来,做一款专属于AI时代的数据库产品。
那是在大模型还没等来ChatGPT的漫长蛰伏期,传统CV、NLP却在一轮轮天价融资与迟迟不见踪影的市场化夹缝中,慢慢走向泡沫破裂的时刻。
生存环境变得恶劣,遭遇的拷问也越来越严苛:数据库是巨头的游戏,创业公司凭什么参与?AI时代,为什么需要新的数据库?这个数据库,又与传统数据库有什么区别?
回答这一切问题的前提,是对产业发展趋势进行足够清晰的梳理。
首先,AI时代,我们使用的数据本身有了什么变化?
答案是从结构化数据,向非结构化演变。相比传统的结构化数据,其格式更加不固定,有图片、有音频、有视频、有文本、日志……而他们共同的特点,就是数据结构不规则或不完整,没有预定义的数据类型,难以用数据库二维表来表现。与此同时,这些数据本身所涵盖的信息密度更大,但如何提取背后隐含的信息,往往需要特殊的处理与分析,相对应的如何对其进行检索与描述也是行业面临的困境之一。此外,伴随移动互联网的发展,IDC统计发现,非结构化数据的数量正在飞速增长,占据了全人类数据总量的80%之多。
痛点众多,但需求同样迫切。算力和算法是大模型通往终局的耀眼明珠,但数据的质量、规模和多样性,则直接决定了所能挖掘到的信息的价值深度和广度。如何满足这一市场需求,这是面向AI时代的数据库的机会,也是创业公司挑战巨头的底气所在。
但这个产品应该如何建构呢?星爵脑中冒出了一个前所未有的形态——向量数据库。
早在20世纪70年代末至90年代中期,人工智能浪潮尚在第二阶段,那时的产业就已经有了初步的非结构化数据利用思路,将文本、图片利用算法,进行特征提取,然后将其转化为空间中的不同向量维度进行表示。比如一朵玫瑰花的照片,在向量空间中,可以被描述为:图片格式、植物、红色、爱情、保质期短、花卉等几百上千个维度,这些维度全部以数字与代码的形式呈现给计算机,在此基础上,人工智能通过暴力的学习,进而掌握玫瑰花的图片识别能力。
如果将这一过程进行产品化升级,也就奠定了向量数据库的产品雏形。由此,在星爵的带领下,Zilliz敲下了全世界向量数据库的第一行代码,全世界第一个向量数据库产品Milvus正式诞生了。
在此之后,2019年10月15日,Zilliz正式宣布将 Milvus在GitHub上开源,用户只需一台服务器,区区十行代码,就可以轻松实现十亿图库的以图搜图,响应时间仅为数百毫秒。
在此之后以图搜图、视频搜索、企业知识库构建相继爆火,Milvus在Github上的star短短三年,就突破了一万的数量,但此时距离向量数据库真正在大众范围内出圈,还差一把火。
二、爆发:LLM阴云笼罩,RAG外挂破局
如果科技产业有自己的编年体史书,关于2022-2024这三年的疯狂,大概可以被这样概括:
2022年年终,ChatGPT横空出世,大模型火遍全球。
2023年,百模齐发,英伟达称王;然而,如何解决大模型幻觉,却始终是围绕在大模型头顶,一朵挥之不去的阴云。
2024年,OpenAI内乱,Scaling Law触顶成为大模型落地的第二朵阴云,大模型的本质是有损压缩的观点被越来越多的人认同。
如何破局?
RAG成为业内公认的解决方案。
但什么是RAG?
翻译成中文,就是检索增强生成。
具体来说,一个典型的RAG框架可以分为检索器(Retriever)和生成器(Generator)两部分,检索过程包括为数据(如Documents)做切分、嵌入向量(Embedding)、并构建索引(Chunks Vectors),再通过向量检索以召回相关结果,而生成过程则是利用基于检索结果(Context)增强的Prompt来激活LLM以生成回答(Result)。
其中,检索系统通过将特定领域知识、实时更新信息等大模型所不具备的内容进行向量化并存储,可以以“外挂”的形式补足了大模型的知识短板;而生成模型则能够灵活地构建回答,并融入更广泛的语境和信息。
而作为RAG检索系统的核心,向量数据库也从2023年起,成为各大企业大模型落地过程中的基础应用工具。甚至就连Open AI,也是向量数据库的资深拥趸,早在2023年3月,OpenAI就官宣, 通过chatgpt-retrieval-plugin 插件集成向量数据库,是大模型产品形成长期记忆一个必不可少的环节。
也是自这一天起,向量数据库平静已久的市场瞬间沸腾,成为大模型产业最重要的基础设施之一:不仅这一年的OpenAI 发布会与英伟达GTC大会上,老牌玩家Zilliz先后被列入官方插件库并受邀上台演讲,仅仅一个多月,数十亿热钱就在一级市场涌入向量数据库赛道。追随热度,一度有企业靠着概念就将公司估值推升至 数十亿,魔改ClickHouse 、 HNSWlib加上向量检索封装就紧急推出向量数据库产品的玩家更是多如过江之鲫。而Zilliz2019年开源的向量数据库Milvus在GitHub的Star数,也在2023至2024年期间,迅速从一万增长至三万。
但向量数据库之于大模型,能力仅限于此吗?
答案是否定的。
在解决了大模型的幻觉问题之后,大模型的第二朵阴云,在2024年悄然浮现。
这一年,以Ilya Sutskever为代表,一众大模型顶级研发大牛逐渐发觉,大模型的Scaling Law效率正逐渐变得越来越低,与此同时,如果保持如今的参数膨胀效率,预计在 2028 年左右,全世界公域互联网中的数据储量将被全部利用完。
大模型几乎将所有公域的知识学习殆尽,但为什么还未实现真正意义上的通用人工智能?
大模型刚刚兴起之时,业内一度对大模型的认知是大模型是现实世界的无损压缩编码,因此只要大模型学习足够多的知识,就能还原真实的世界,像现实世界中的人类一样聪明,甚至通过还原真实世界,可以发掘其背后潜在的运行规律。
如今,随着Scaling Law放缓,越来越多的人开始意识到,大模型的压缩本质,是一种有损压缩。在学习互联网的各种信息之时,大模型往往只能通过内容的组合方式、语法规则等维度,去对信息进行高度的凝练与规则提取,而这个压缩过程,往往伴随的,就是细节的丢失,知识体系的简化、以及长尾知识的空白。如果以这种缺失细节与深度逻辑的算法去进行推理,结果就会类似我们古代成语中的“按图索骥”,以抽象的高额头、大眼睛、粗四肢为特征,最终找到的可能不是千里马,而是完全符合标准的蛤蟆。
答案依旧是向量数据库与RAG。向量数据库不仅支持对数据的更多维度解构,同时也可以对细节进行更高程度的还原,并对长尾知识进行存储,基于此构建的RAG,可以很好的弥补大模型对真实世界有损压缩带来的缺陷。比如在图像领域,今年爆火的ColPali RAG、iRAG、VisRAG,都是其中代表。
也是因此,今年年底,在Menlo Ventures对600家美国企业进行调研之后发现,企业 AI 的部署落地中,RAG占比从2023年的31%,到2024年上升到 51%,与之形成鲜明对比,生产环境中,仅有9%的生产模型采用微调方式进行模型部署。
向量数据库与RAG,几乎成为了大模型落地的默认最强外挂。
但不同于C端用户可以在office办公套件与国产的WPS之间灵活切换;由于关系到企业隐私数据的管理,以及顶层业务的搭建,B端对数据库的选择往往慎之又慎,企业一旦找到合适的产品,就会受限于数据迁移成本高、与现有系统集成紧密、运维和管理成本高等综合因素,在很长一段时间内不会进行更换。数据库一用四十年,产品生命周期比程序员职业周期还长的情况,在这一行业并不罕见。
举个简单例子,在金融赛道,大模型除了需要掌握公开的知识,还需要大规模、多样化、高质量、实时的用户交易记录、信用记录、消费行为等数据,才能准确预测客户的信用风险和投资偏好,并基于此为投资者提供更全面、准确的投资建议;在医疗行业,在疾病诊断中,向量数据库能够提供准确详细的病历数据、检验检查结果等数据,是大模型准确判断疾病类型、严重程度和制定治疗方案的关键。
也是因此,如何选择合适的向量数据库,也成为了困扰无数大模型应用开发者的头疼问题。
三、激战:向量数据库的琅琊榜
不久前,全球知名独立研究机构Forrester发布《2024年第三季度向量数据库供应商Wave报告》,正式对向量数据库市场的江湖座次,用一张琅琊榜给出了自己的评判。
在这份报告中,Forrester选择了14家向量数据库供应商,对其产品能力、商业策略、市场表现为核心的25项评估标准进行打分,参赛选手既包括AWS等知名大厂,也有甲骨文、MangoDB等老牌数据库玩家,以及Zilliz等向量数据库代表玩家。
在这张表中,横轴代表玩家的战略(strategy),对应企业的战略创新能力,纵轴代表当前产品的能力(current offering),圆圈的大小代表企业的市场份额(market presence)。三个半圆的象限,则是Forrester报告设定的领导者(leaders)、表现强劲(strong performers)、竞争者(contenders)三大玩家梯队。
通过这张表,不难发现,一方面AWS等云服务巨头掌握了市场相当一部分用户数,但与此同时,Zilliz为代表的创业公司,也首次冲进领导者象限,成为这个市场在产品以及技术创新方向的领头羊。紧随其后,第二梯队玩家同样表现强劲,这也是所含企业最多的层级,包括甲骨文等7家供应商。但相比于领导者,这些供应商在某些方面存在明显不足,如微软缺乏高级向量功能、甲骨文的解决方案尚未成熟……第三梯队的竞争者相比上述两类,综合表现较弱,其产品大多不成熟或者缺少部分重要功能。
更具体拆解来看,报告中认为,企业在选择向量数据库时应该重点关注三个主要方面:支持广泛的核心向量功能、简化向量的数据管理、以高效形式实现性能与规模的交付。
而想要做到这些,向量数据库需要构建包括向量索引、元数据管理、向量搜索和混合搜索等在内的全面功能,同时为了保证企业交互友好、便利,向量数据库需要兼顾广泛数据管理功能和简化部署、快速开发的能力。此外,面对不断膨胀的大模型规模,向量数据库在存储和处理数千万到上亿个向量时,还应能保证查询速度,并根据工作负载要求进行弹性扩展和收缩。
以此次领导者向量数据库企业Zilliz为例,在具体得分上,Forrester在向量维度、向量索引、性能、可扩展性方面给这家企业打出了高分,指出其不仅擅长管理大量向量数据,同时兼具优化的存储、高效管理和搜索功能。
比如在可扩展性层面,通过这份公开的产品对比不难发现,相比传统数据库玩家,Milvus通过支持磁盘索引,可以实现更轻松扩展和更合理的资源分配。通常来说,磁盘索引可以将部分数据存储在磁盘上,仅在需要时加载到内存中;支持Partition/Namespace/逻辑分组,则可以将数据按照特定的规则或属性进行划分,同时根据重要性或访问频率分配不同资源。
此外,Milvus支持的索引类型多达11种,这也使其更能适应不同数据特点,并提升查询准确性。
▲Milvus和MongoDB向量数据库产品可扩展性对比
那么一个新的问题来了,一家创业公司,如何在巨头的包围中层层突围,打造大模型时代的新型基础设施?
四、突围:创业公司如何打造大模型时代的新型基础设施
一定程度上,Zilliz的成功,是一个大模型时代,创业公司从巨头射程突围,野蛮生长的范例。这背后,既有历史进程的助推,同样离不开企业自身技术远见与长期主义坚持。
于时代背景而言,2022年底发布的ChatGPT,是这家企业从低调蛰伏到一鸣惊人的拐点。大模型的普及,加速让非结构化数据的处理成为主流,向量数据库自此闯入聚光灯下。
恰逢其时,传统的数据库企业,尽管拥有更好的技术基础、数据资源与客户基础,然而其为传统倒排索引而构建的的产品形态,对于需要基于密集向量检索、数据规模极速膨胀的大模型而言,原本的优势被重新翻译为在向量检索上的搜索与性能不足。与之形成对比,专业向量数据库不仅能够在毫秒级时间内完成上亿个目标的检索与召回;更能通过分布式架构与先进存储技术,可以在不影响系统性能的前提下,实现从处理小规模向量数据,到支持百亿甚至千亿级向量数据的平滑过渡。
而与同行的专业向量数据库玩家相比,Zilliz最大的优势则在于时间积累起的生态护城河。与多数玩家2023年才赶鸭子上架式一股脑涌入向量数据库不同,Zilliz是唯一一家在2019年就推出产品化开源向量数据库的玩家。而对于数据库这样一个强调生态效应的市场,五年足以构建起一堵足够宽厚的技术与行业认知组建起的铜墙铁壁。在对手还在使用开源算法进行产品封装之时,Zilliz不仅有Github 3W star的开源向量数据库Milvus,同时还推出了商业化产品Zilliz Cloud,为用户提供百亿级向量数据毫秒级检索能力、开箱即用的向量数据库服务。
与此同时,大模型的快速普及,也为无数Zilliz这样的中间层玩家,带来了前所未有的全球化机遇。不同于老一代互联网企业的出海叙事,亦或是copy to China、copy from China,Zilliz从成立第一天,就面向全球市场,其商业化进程也通过借助AWS这样的云服务巨头,实现了全球化扩张,让用户可以基于Bedrock+Zilliz Cloud构建一整套完整的RAG应用、以图搜图系统、算法推荐系统等,加速企业的大模型落地。
在这一过程中,Zilliz不仅在全球范围内积累了上万企业级用户,产品更是被广泛应用于图片检索、视频分析、自然语言理解、推荐系统、定向广告、个性化搜索、智能客服、欺诈检测、网络安全和新药发现等各个领域,完成从新兴玩家到大模型基础设施的进化。
当时代的风口来临,参与其中,每个人都能听到风的声音,但真正穿越周期,走出巨头与时代突围,长期主义才是唯一的答案。