繼云廠商、模型商、開發(fā)者后,數(shù)據(jù)庫玩家入局大模型。
ChatGPT「漲不動了」?
最近,ChatGPT 用戶增長放緩的消息刷屏科技圈,環(huán)比增長率從一月份的 131% 降至五月份 2%。
數(shù)據(jù)的背后,是一次業(yè)界焦點(diǎn)的大轉(zhuǎn)移:從對 AIGC 大模型技術(shù)的狂熱,轉(zhuǎn)移到對商業(yè)化落地效果的審視。
生產(chǎn)力工具是目前大模型落地的重要方向。但面向垂域應(yīng)用,僅依靠大模型自身的訓(xùn)練數(shù)據(jù)集做支撐,難以達(dá)到生產(chǎn)可用的效果。
圍繞這一問題,也形成了兩大流派,傳統(tǒng)流派將垂域/私域內(nèi)容補(bǔ)充至訓(xùn)練集,即單模型架構(gòu);新興流派引入向量數(shù)據(jù)庫為大模型提供長短期記憶,集成領(lǐng)域知識庫,即 ChatGPT + VectorDB + Prompt (CVP) 架構(gòu)。
CVP 架構(gòu)的興起讓向量數(shù)據(jù)庫這個(gè)新的數(shù)據(jù)庫品類站上了風(fēng)口浪尖。
全球最火的開源向量數(shù)據(jù)庫項(xiàng)目 Milvus 在 Github 的標(biāo)星已經(jīng)突破 2 萬,官方顯示,目前 Milvus 已經(jīng)擁有超過 1000+ 中大型企業(yè)用戶。
作為 Milvus 的原廠,Zilliz 已經(jīng)完成 1.13 億美元融資,并全面啟動商業(yè)化步伐,為大模型落地提供向量數(shù)據(jù)庫全棧產(chǎn)品與服務(wù)。
我們聯(lián)系到 Zilliz 合伙人兼產(chǎn)品負(fù)責(zé)人郭人通博士,和他一同探討向量數(shù)據(jù)庫所帶來的大模型應(yīng)用變革。
郭人通博士表示,CVP 架構(gòu)相比單模型架構(gòu)在靈活性、可擴(kuò)展性、實(shí)時(shí)性、成本四個(gè)維度都有明顯優(yōu)勢。最關(guān)鍵的原因是在 CVP 架構(gòu)中,領(lǐng)域知識以數(shù)據(jù)入庫的形式進(jìn)行更新,而非重新訓(xùn)練或微調(diào)模型。
目前,國內(nèi)大模型的綜合能力與 GPT-4 還有代差,但現(xiàn)在已經(jīng)走到了產(chǎn)業(yè)落地的早期,業(yè)界真正關(guān)心的是業(yè)務(wù)效果。
Zilliz 的團(tuán)隊(duì)研究發(fā)現(xiàn),CVP 架構(gòu)中哪怕僅使用 GPT3.5 或一些頭部開源模型,其端到端效果也明顯優(yōu)于 GPT-4。
在這個(gè)框架下,除了要拼模型能力,更要拼知識庫的構(gòu)建能力、模型與知識庫的集成水平,這也為國產(chǎn)化大模型提供了一次在落地階段彎道超車的機(jī)會。
在不更改原意的基礎(chǔ)上,我們對郭人通博士的交流內(nèi)容進(jìn)行了梳理,希望能為大家?guī)硪恍┧伎蓟驅(qū)嵺`上的幫助。
1 ChatGPT is NOT all you need
提問:向量數(shù)據(jù)庫對很多用戶和開發(fā)者還是一個(gè)比較新的概念,能否講一下向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫的關(guān)鍵差異?
郭人通:傳統(tǒng)數(shù)據(jù)庫應(yīng)用中,需要把業(yè)務(wù)側(cè)的數(shù)據(jù)結(jié)構(gòu)化成數(shù)值、字符串,但目前業(yè)務(wù)側(cè)沉淀下來的數(shù)據(jù)超過八成是非結(jié)構(gòu)化的,例如長文本、圖片、視頻、音頻、社交關(guān)系等,我們要應(yīng)用這些「新」數(shù)據(jù),主要手段是通過深度神經(jīng)網(wǎng)絡(luò)對這些數(shù)據(jù)進(jìn)行「理解」,把語義信息編碼成向量。
向量數(shù)據(jù)庫是以向量為核心數(shù)據(jù)類型的新型數(shù)據(jù)庫系統(tǒng),支持大規(guī)模向量數(shù)據(jù)的存儲、分析、查詢?nèi)蝿?wù),同時(shí)兼顧面向數(shù)值、字符串的混合查詢分析能力。圍繞向量化的數(shù)據(jù)表示,向量數(shù)據(jù)庫提供了一套統(tǒng)一的非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用技術(shù),使我們的數(shù)據(jù)應(yīng)用不再局限于數(shù)值和字符串所能表達(dá)的語義范圍。
提問:為什么 CVP 架構(gòu)相比單模型架構(gòu)有更強(qiáng)的落地優(yōu)勢?
郭人通:目前有兩個(gè)流派,傳統(tǒng)流派希望模型具有端到端的能力,并將業(yè)務(wù)相關(guān)的數(shù)據(jù)補(bǔ)充至訓(xùn)練數(shù)據(jù)集。這在小模型時(shí)代成本還可以接受,但在大模型時(shí)代,想找到一種途徑將垂域、私域、或?qū)崟r(shí)知識更新到模型參數(shù)中,同時(shí)成本可控,是相當(dāng)困難的。基于這個(gè)考慮,領(lǐng)先的大模型廠商,如 OpenAI 和 Google Bard 等,都選擇了向量數(shù)據(jù)庫為大模型提供長短期記憶的CVP技術(shù)路線。
在 CVP 架構(gòu)中,我們通過向量數(shù)據(jù)庫為大模型補(bǔ)充一個(gè)外部記憶體。其中 C 作為運(yùn)算單元,提供邏輯分析和自然語言對接的能力,V 作為存儲單元,提供穩(wěn)定準(zhǔn)確、高容量、高可擴(kuò)展的知識,P 在前兩者的基礎(chǔ)上,提供面向具體業(yè)務(wù)的適配能力。這和我們?nèi)四X工作模式比較類似,我們不會去試圖記憶所有知識,書本作為知識載體比記憶更可靠,同時(shí)人腦以查詢書面知識的方式完成任務(wù)。
提問:目前向量數(shù)據(jù)庫在大模型時(shí)代有哪些典型的應(yīng)用場景?
郭人通:早期看最有潛力的是生產(chǎn)力工具這個(gè)方向,B端和C端都有不少實(shí)際的場景:
1.文本創(chuàng)作。
這是直接關(guān)聯(lián)的一類應(yīng)用,典型場景包括:文書生成,社交媒體 UGC,SEO 廣告,游戲任務(wù)劇本創(chuàng)作等。所有這些場景都需要在垂類細(xì)分中追求差異化優(yōu)勢,同時(shí)業(yè)務(wù)中積累的內(nèi)容也可以直接轉(zhuǎn)化為知識庫層面的資產(chǎn)。
2.聊天機(jī)器人。
可以確定,ChatGPT 為代表的 LLM 一定會徹底革新現(xiàn)有的聊天機(jī)器人系統(tǒng)。典型場景包括:客服,虛擬人,個(gè)人助手,游戲NPC 等。在 CVP 框架下構(gòu)建的聊天機(jī)器人不再需要樹狀問題分類規(guī)則,而是最自然的問答形式。比較典型的是客服系統(tǒng),人工客服的問答會持續(xù)地向知識庫積累,最終機(jī)器人的能力會向所有客服能力總和的位置收斂。
3.搜索引擎。
這個(gè)方向的沖擊毋庸置疑,微軟通過一套組合拳已經(jīng)向谷歌發(fā)起挑戰(zhàn)。除了大型搜索引擎,傳統(tǒng)的文檔搜索也會進(jìn)行一次升級。基于關(guān)鍵字匹配的搜索會升級至以語義匹配為基礎(chǔ),同時(shí)兼顧圖文等多模態(tài)檢索能力。這也是 Milvus 與 ElasticSearch 的典型賦能差異。
4.專業(yè)領(lǐng)域。
這個(gè)方向的工具主要解決專業(yè)領(lǐng)域菜鳥速成老鳥,以及老鳥生產(chǎn)力翻倍的問題。包括法律政策、知識產(chǎn)權(quán)保護(hù)、保險(xiǎn)、金融投資、醫(yī)療、教育等。相比上述幾類場景,這類場景更加低頻,且更加需要精準(zhǔn)可靠的專業(yè)知識加持。否則就會出現(xiàn)前些日子美國律師使用 ChatGPT,導(dǎo)致引用杜撰的案件等問題。
提問:CVP 框架下的實(shí)踐工作目前處于什么階段?對國內(nèi)大模型落地的機(jī)會如何?
郭人通:我關(guān)注到的類似的探索活動最早在去年6月份就有了,主要是在學(xué)術(shù)界。目前工業(yè)界的實(shí)踐還在很早期的階段,OpenAI 的動作是從今年3月份才開始的,提供了一套插件機(jī)制集成外部知識。在應(yīng)用方面,現(xiàn)在的 CVP 主要以單輪知識召回為主,很類似傳統(tǒng)推薦系統(tǒng),差異點(diǎn)在于末尾加了大模型的能力做內(nèi)容總結(jié)。
關(guān)于效果,我們團(tuán)隊(duì)在近期推出的 OSSChat 項(xiàng)目(一個(gè)面向開源社區(qū)的文檔知識庫)中進(jìn)行過實(shí)踐論證。由 CVP 框架加成的 GPT-3.5 端到端應(yīng)用效果可以輕松擊敗 GPT-4 單模型能力。這意味著應(yīng)用開發(fā)者可以在 CVP 框架中探索兩個(gè)關(guān)鍵問題的答案:
如何解決國產(chǎn)大模型與 GPT-4 的代差問題。
如何使用小成本模型或多模型混合降低數(shù)據(jù)應(yīng)用的綜合成本。
業(yè)界真正關(guān)心的是業(yè)務(wù)效果。在這個(gè)框架下,除了要拼模型能力,更要拼知識庫的構(gòu)建能力、模型與知識庫的集成水平,這也為國產(chǎn)化大模型提供了一次在落地階段彎道超車的機(jī)會。
多階段賦能應(yīng)用落地
提問:Zilliz 作為 Milvus 的原廠,同時(shí)提供了開源和商業(yè)化解決方案,可以簡單介紹一下兩者定位的差異嗎?
郭人通:Zilliz 向開發(fā)者與用戶提供了開源與云服務(wù)多重解決方案,全面覆蓋不同場景的需求。從 AIGC 個(gè)人應(yīng)用開發(fā)到大型企業(yè)向量數(shù)據(jù)平臺,從國內(nèi)業(yè)務(wù)到跨境業(yè)務(wù),從成本優(yōu)先到性能優(yōu)先,Zilliz 都提供了最專業(yè)的解決方案。
Milvus 支持三種部署規(guī)模:MilvusLite 面向本地原型快速構(gòu)建,pip install 一鍵安裝,算法工程師友好。Milvus Standalone 面向單物理機(jī)服務(wù)部署,維護(hù)便捷,適合小規(guī)模服務(wù)。Milvus Cluster 面向大規(guī)模集群部署,適合大型企業(yè)用戶在私有環(huán)境構(gòu)建向量數(shù)據(jù)搜索平臺。
相比開源方案,云服務(wù)提供了多重關(guān)鍵能力:
云服務(wù)采用商業(yè)版引擎,性能超越開源版 3 倍以上。同等的高 QPS 場景,所需硬件成本降至開源方案的 1/3 到 1/5。
99.9% 高可用,穩(wěn)定支持 10 億及以上規(guī)模向量數(shù)據(jù)。
軟硬件高度適配,提供性能型、容量型、經(jīng)濟(jì)型三類實(shí)例類型,滿足不同維度的業(yè)務(wù)需求。
AutoIndex 智能索引,面向負(fù)載與數(shù)據(jù)分布自動化性能調(diào)優(yōu),進(jìn)一步提升性能一倍以上,免去手工系統(tǒng)調(diào)優(yōu)之苦。
Zilliz Cloud 面向 AIGC 個(gè)人開發(fā)者或小型團(tuán)隊(duì)量身打造了 Starter Plan。Zilliz 關(guān)注到 AIGC 開發(fā)者數(shù)量已經(jīng)到達(dá)千萬量級,為了支撐 AIGC 應(yīng)用在孵化期對于快速驗(yàn)證、快速迭代的需求,Zilliz 為每位用戶提供一個(gè)免費(fèi)的 Serverless 實(shí)例,服務(wù)開箱即用,可支持百萬向量規(guī)模的知識庫檢索。上手門檻與成本甚至低于 MilvusLite。
Zilliz Cloud 同樣提供 PaaS 服務(wù),適合注重?cái)?shù)據(jù)隱私、數(shù)據(jù)安全與合規(guī)的企業(yè)。用戶可以在其虛擬私有云(VPC)上部署全托管的 Zilliz Cloud 向量數(shù)據(jù)庫服務(wù)。
提問:目前有大量的用戶在使用開源的 Milvus 系統(tǒng),大家可能比較關(guān)心的問題是,在 Zilliz 商業(yè)化階段,Milvus 的開源路線是否會有變化?
郭人通:「好的系統(tǒng)和產(chǎn)品不是設(shè)計(jì)出來的,而是用出來的。」 是 Zilliz 在開發(fā)產(chǎn)品過程中一以貫之的最重要的原則。我對這條原則的解釋是「與開發(fā)者接觸面積最大化」。
Milvus 堅(jiān)定的走開源路線,是該原則的重要實(shí)踐。5年的時(shí)間,Zilliz 團(tuán)隊(duì)與幾千家企業(yè)用戶,上萬名開發(fā)者建立了深度的聯(lián)系。憑借來自眾多行業(yè)社區(qū)用戶的廣泛反饋,Milvus 已成為全球迭代速度最快、最成熟的的開源向量數(shù)據(jù)庫系統(tǒng)。
在商業(yè)化產(chǎn)品中,Zilliz Cloud 為每一位用戶提供免費(fèi)的 Serverless 實(shí)例,可穩(wěn)定支持百萬量級向量數(shù)據(jù)。根據(jù)我們對用戶數(shù)據(jù)的統(tǒng)計(jì),該容量可支撐超過 90% 的早期用戶需求。Zilliz 團(tuán)隊(duì)在商業(yè)化路線中貫穿「與開發(fā)者接觸面積最大化」、「社區(qū)共建最快速產(chǎn)品迭代」 這一理念。對于一個(gè)數(shù)據(jù)庫系統(tǒng)的演進(jìn)旅程,5年尚早,Zilliz 還將繼續(xù)和社區(qū)一道,進(jìn)行向量數(shù)據(jù)庫技術(shù)與產(chǎn)品領(lǐng)域的前沿探索,不斷刷新最佳實(shí)踐。
提問:在 CVP 框架中,向量數(shù)據(jù)庫與大模型是互生的關(guān)系,在C-V兩側(cè)生態(tài)對接方面有什么動作嗎?
郭人通:為了進(jìn)一步降低應(yīng)用構(gòu)建成本,提供標(biāo)準(zhǔn)化組件,Zilliz 已與全球頭部大模型生態(tài)完成了 C-V 間對接。2023 年 3 月,Zilliz 作為 OpenAI 首批向量數(shù)據(jù)庫合作伙伴,完成了 Milvus 與 Zilliz Cloud 插件化集成,作為官方推薦的向量數(shù)據(jù)庫插件提供給廣大應(yīng)用開發(fā)者。此外,Zilliz 還與 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等熱門項(xiàng)目進(jìn)行了深度集成。與國產(chǎn)大模型的對接工作正在進(jìn)行中,預(yù)期會在近一個(gè)月開放。
3 量身定制的 AIGC 特性支持
提問:Zilliz Cloud 近期發(fā)布了 2.0 版本,同時(shí) Milvus 發(fā)布了 2.3 版本,在這些最近的版本中,有哪些面向 AIGC 應(yīng)用的新特性?
郭人通:Zilliz Cloud 在近期的重要版本更新中,添加了一系列面向 AIGC 應(yīng)用構(gòu)建的關(guān)鍵特性。涵蓋數(shù)據(jù)的靈活表示、面向 ToC 業(yè)務(wù)用戶粒度知識庫的支持、更高效的混合查詢與過濾等。
動態(tài) schema 。此前向量數(shù)據(jù)庫采用靜態(tài) schema 的方式,需要開發(fā)者在建表時(shí)根據(jù)業(yè)務(wù)定義數(shù)據(jù)的 schema。這對于大型企業(yè)的成熟業(yè)務(wù)是一種常見的方式。然而,當(dāng)下 AIGC 應(yīng)用多處于早期快速迭代階段,面向業(yè)務(wù)效果,需要頻繁調(diào)整向量數(shù)據(jù)庫內(nèi)的字段,對于這類需求,反復(fù)重建 schema 結(jié)構(gòu)以及頻繁的數(shù)據(jù)重導(dǎo)入會嚴(yán)重影響產(chǎn)品的迭代速度。因此,Zilliz Cloud 引入動態(tài) schema 的能力,支持用戶根據(jù)迭代需要,動態(tài)靈活的進(jìn)行字段插入。
Partition Key。Partition Key 特性是原有 Milvus partition 功能的升級,邏輯 partition 的數(shù)量不再受到限制。在業(yè)務(wù)層面,目前大量 AIGC 應(yīng)用是 ToC 的,因此一些業(yè)務(wù)需要為每一個(gè)用戶建立一個(gè)獨(dú)立的知識庫(例如問答歷史)。在先前的方案中,需要為每個(gè)用戶建立獨(dú)立的向量數(shù)據(jù)庫表以及索引,成本上基本無法滿足要求。在新的方案中,用戶可以將所有用戶數(shù)據(jù)放置于同一張表,并為每個(gè)用戶賦予不同的 Partition Key,在表內(nèi)實(shí)現(xiàn)用戶分桶隔離。相比單獨(dú)建表方案,綜合成本可下降兩到三個(gè)數(shù)量級。除了這類場景,用戶還可以通過 Partition Key 實(shí)現(xiàn)數(shù)據(jù)按時(shí)間區(qū)間或類別分組,并在此基礎(chǔ)上有效降低數(shù)據(jù)的查詢范圍,實(shí)現(xiàn)高效的查詢與過濾。
JSON 類型的支持。JSON 是目前最流行且最靈活的數(shù)據(jù)表示方式之一。目前,Zilliz 團(tuán)隊(duì)將半個(gè) Mongo 的能力搬進(jìn)了向量數(shù)據(jù)庫,用戶在 Zilliz Cloud 可以將 JSON 與 embedding 這兩種超強(qiáng)能力相結(jié)合,實(shí)現(xiàn)基于 JSON 與 embedding 向量的混合數(shù)據(jù)表示以及復(fù)雜的業(yè)務(wù)邏輯。
提問:在接下來的版本中,會有哪些相關(guān)的重磅特性發(fā)布?
郭人通:在接下來的版本更新中,Zilliz Cloud 會大幅增強(qiáng)向量表示與混合查詢能力:
稀疏向量。目前,Milvus 與 Zilliz Cloud 僅支持稠密向量表示,接下來會支持稀疏向量。稀疏向量可以更直接的表示離散化特征分量,并支持在具體特征集合上的向量化分析與查詢。這對于傳統(tǒng)ML的應(yīng)用,或傳統(tǒng)ML與深度學(xué)習(xí)相結(jié)合的應(yīng)用至關(guān)重要。
多向量混合查詢。對于同一對象具有多模態(tài),或同模態(tài)多角度描述的數(shù)據(jù)應(yīng)用來講,需要對同一對象構(gòu)建多個(gè)向量進(jìn)行語義描述。多向量混合查詢能力可以在同時(shí)面向多個(gè)模態(tài)或多個(gè)角度對應(yīng)的向量進(jìn)行分析查詢,從而提升業(yè)務(wù)效果。
向量數(shù)組。這類向量化數(shù)據(jù)表示主要面向序列數(shù)據(jù),如音頻、視頻、長文本。通常需要對這些數(shù)據(jù)進(jìn)行分片處理,如每一秒采集一個(gè)關(guān)鍵幀獲得 embedding 向量,或從文本的一個(gè)分片獲得 embedding 向量。每一條序列數(shù)據(jù)都對應(yīng)的表示為一個(gè)有序的(或 bag of vectors)向量數(shù)組。數(shù)據(jù)的分析與查詢同樣在數(shù)組這個(gè)粒度進(jìn)行,因此可以在業(yè)務(wù)中更好的引入序列數(shù)據(jù)的整體語義。
4 國內(nèi)的服務(wù)覆蓋計(jì)劃
郭人通:目前國內(nèi) AIGC 大模型與應(yīng)用發(fā)展的如火如荼,但遺憾的是,目前仍然缺乏專業(yè)的向數(shù)據(jù)庫服務(wù)。用戶要么需要基于開源方案自建,要么需要使用北美的云服務(wù),兩種方式都帶來的較高的綜合成本。
Zilliz Cloud 云服務(wù)已覆蓋 AWS,GCP。從 2023 年 7 月開始,向量數(shù)據(jù)庫服務(wù)會在國內(nèi)公有云全面鋪開。7 月初即將發(fā)布的版本中,將支持阿里云、百度云、騰訊云以及金山云。預(yù)期價(jià)格相比北美服務(wù)會有較大幅度的下調(diào),致力于為國內(nèi)用戶提供具有最高專業(yè)度及最高性價(jià)比的全托管向量數(shù)據(jù)庫服務(wù)。Zilliz Cloud 國內(nèi)云服務(wù)目前已支持企業(yè)用戶 PoC 申請(申請聯(lián)系方式見文末)。
提問:目前國內(nèi) CVP 框架實(shí)踐還都在早期,Zilliz 團(tuán)隊(duì)有相應(yīng)的用戶支持計(jì)劃嗎?
郭人通:為了加速打磨業(yè)界最佳實(shí)踐,我們即將啟動「CVP 實(shí)踐之星」 活動,Zilliz 將聯(lián)合國內(nèi)頭部大模型廠商一同甄選應(yīng)用場景, 由雙方提供向量數(shù)據(jù)庫與大模型頂級技術(shù)專家為用戶賦能,一同打磨應(yīng)用效果。如果你的應(yīng)用也適合 CVP 框架,且正在為應(yīng)用效果發(fā)愁,可直接申請參與活動。
編輯:黃飛
評論
查看更多