當(dāng)?shù)貢r(shí)間 6 月 28 日,美國知名數(shù)據(jù)平臺(tái) Databricks 舉辦了自己的年度大會(huì)——數(shù)據(jù)與人工智能峰會(huì)。會(huì)上,Databricks 公布了 LakehouseIQ、Lakehouse AI、Databricks Marketplace 、 Lakehouse Apps 等一系列重要新品。
無論是從峰會(huì)的名稱,還是新產(chǎn)品的命名,都能看出這家知名數(shù)據(jù)平臺(tái),正在趁著大語言模型的東風(fēng),加速向 AI 轉(zhuǎn)變的腳步。
Databricks 公司 CEO Ali Ghodsi 所說的數(shù)據(jù)和 AI 普惠化|Databricks
「Databricks 要實(shí)現(xiàn)的是『數(shù)據(jù)普惠』和 AI 普惠,前者讓數(shù)據(jù)通向每一個(gè)雇員,后者讓 AI 進(jìn)入每一個(gè)產(chǎn)品�!笵atabricks 公司 CEO Ali Ghodsi 在臺(tái)上說出了團(tuán)隊(duì)的使命。
就在大會(huì)開始之前,Databricks 剛剛宣布以 13 億美元收購 AI 領(lǐng)域的新生力量 MosaicML,創(chuàng)下了當(dāng)前 AI 領(lǐng)域收購紀(jì)錄,可見公司在 AI 轉(zhuǎn)型上的力度和決心。
正在前方參會(huì)的 PingCAP 創(chuàng)始人兼 CEO 劉奇告訴極客公園,Databricks 平臺(tái)剛剛上線 AI 的企業(yè)級(jí)應(yīng)用,就已經(jīng)有超過 1500 家公司在上面進(jìn)行模型訓(xùn)練,「數(shù)字超出預(yù)期」。同時(shí),他認(rèn)為 Databricks 由于之前在數(shù)據(jù)+ AI 方面的積累,讓公司能在 AI 大火之際,迅速在之前平臺(tái)基礎(chǔ)上加入新產(chǎn)品,就能快速給出和大模型相關(guān)的服務(wù)。
「最關(guān)鍵的就是速度�!箘⑵嬲f道,在大模型時(shí)代,如何用更快的速度讓大模型和現(xiàn)有產(chǎn)品整合,解決用戶的痛點(diǎn),可能是當(dāng)下所有數(shù)據(jù)公司*的挑戰(zhàn),同時(shí)也是*的機(jī)會(huì)。
Talking points
通過交互界面的升級(jí),不是數(shù)據(jù)分析師的普通人,也可以直接使用自然語言查詢和分析數(shù)據(jù)。
企業(yè)將大模型部署到云端數(shù)據(jù)庫將越來越容易,直接使用成品大模型工具分析數(shù)據(jù),也將變得更加簡單。
隨著AI的進(jìn)展,數(shù)據(jù)的價(jià)值還將越來越高,數(shù)據(jù)潛力將被進(jìn)一步釋放。
01
數(shù)據(jù)庫迎來自然語言交互
在會(huì)上,Databricks 推出了全新的「神器」LakehouseIQ。LakehouseIQ 承載著 Databricks 近期*的發(fā)力方向之一——數(shù)據(jù)分析普惠化,即不掌握 Python 和 SQL 的普通人也能輕輕松松接入公司數(shù)據(jù),用自然語言就能進(jìn)行數(shù)據(jù)分析。
為達(dá)到這個(gè)目的,LakehouseIQ 被設(shè)計(jì)為一個(gè)功能合集,既可以被普通終端用戶使用,也可以被開發(fā)者使用,針對(duì)不同的用戶設(shè)計(jì)了不同的功能。
LakehouseIQ 產(chǎn)品圖|Databricks
對(duì)于開發(fā)者方面,發(fā)布了 LakehouseIQ in Notebooks,這項(xiàng)功能中,LakehouseIQ 可以利用大語言模型幫助開發(fā)人員完成、生成和解釋代碼,以及進(jìn)行代碼修復(fù)、調(diào)試和報(bào)告生成。
而對(duì)于普通的非程序員群體,Databricks 則提供了可以直接用自然語言交互的界面,背后由大語言模型驅(qū)動(dòng),可以直接用自然語言來搜索和查詢數(shù)據(jù)。同時(shí),該功能與 Unity Catalog 集成,讓公司可以對(duì)數(shù)據(jù)的搜索和查詢進(jìn)行訪問權(quán)限控制,只返回提問者被授權(quán)查看的數(shù)據(jù)。
自大模型推出以來,用自然語言對(duì)數(shù)據(jù)進(jìn)行查詢和分析,其實(shí)一直是一個(gè)數(shù)據(jù)分析方向的熱點(diǎn),許多公司在此方向都有所布局。包括 Databricks 的老對(duì)手 Snowflake,剛剛宣布的 Document AI 功能也是主打這個(gè)方向。
LakehouseIQ 自然語言查詢界面|Databricks
不過 Databricks 宣稱,LakehouseIQ 做到了更好的功能。它提到,通用大語言模型在理解特定客戶數(shù)據(jù)、內(nèi)部術(shù)語和使用模式方面擁有局限性。而 Databricks 的技術(shù),能夠利用客戶自己的模式(schema)、文檔、查詢、受歡迎程度、線程、筆記本和商業(yè)智能儀表盤來獲取智能,回答更多查詢。
Databricks 的功能與 Snowflake 的功能還有一個(gè)差別,Snowflake 平臺(tái)的 Document AI 功能,僅限于對(duì)文檔中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢,而 LakehouseIQ 適用于結(jié)構(gòu)化的 Lakehouse 數(shù)據(jù)和代碼。
02
從機(jī)器學(xué)習(xí)到 AI
Databricks 與 Snowflake 在發(fā)布會(huì)上的相似之處還不局限于此。
此次發(fā)布會(huì)中,Databricks 發(fā)布了 Databricks Marketplace 和 Lakehouse AI,這與 Snowflake 這兩天大會(huì)的重點(diǎn)也完全吻合,二者都主打?qū)⒋笳Z言模型部署到數(shù)據(jù)庫環(huán)境中。
在 Databricks 的設(shè)想中,Databricks 未來既可以協(xié)助客戶部署大模型,也提供成品的大模型工具。
Databricks 過去就有 Databricks Machine Learning 的品牌,在此次發(fā)布會(huì)上,Databricks 對(duì)其進(jìn)行品牌全面的重新定位,升級(jí)為 Lakehouse AI,主打協(xié)助客戶部署大模型。
Databricks 上線了 Databricks Marketplace。
在 Databricks Marketplace 中,用戶可以接入經(jīng)過篩選的開源大語言模型集合,包括 MPT-7B、Falcon-7B 和 Stable Diffusion,還可以發(fā)現(xiàn)和獲取數(shù)據(jù)集、數(shù)據(jù)資產(chǎn)。Lakehouse AI 還包括一些大語言模型操作能力(LLMOps)。
Lakehouse AI 架構(gòu)圖|Databricks
Snowflake 也在對(duì)此進(jìn)行積極部署,其相似功能由 Nvidia NeMo、Nvidia AI Enterprise、Dataiku 和 John Snow Labs 提供()。
在協(xié)助客戶部署大模型方向,Snowflake 與 Databricks 顯現(xiàn)出了分歧。Snowflake 選擇積極地與合作伙伴進(jìn)行合作,而 Databricks 則試圖將該功能作為其核心平臺(tái)的本地特性添加進(jìn)去。
而在提供成品工具方面,Databricks 宣布 Databricks Marketplace 未來還將可以提供 Lakehouse Apps。Lakehouse Apps 將直接在客戶的 Databricks 實(shí)例上運(yùn)行,它們可以與客戶的數(shù)據(jù)集成,使用和擴(kuò)展 Databricks 服務(wù),并使用戶能夠通過單點(diǎn)登錄體驗(yàn)進(jìn)行互動(dòng)。數(shù)據(jù)永遠(yuǎn)不需要離開客戶的實(shí)例,沒有數(shù)據(jù)移動(dòng)和安全/訪問問題。
這點(diǎn)則與 Snowflake 公司的產(chǎn)品從命名到功能上都直接撞車。Snowflake 公司與之相似的 Snowflake Marketplace 和 Snowflake Native App 已經(jīng)上線,是其發(fā)布會(huì)的重點(diǎn)之一。彭博社就在 Snowflake 的大會(huì)上宣布了一個(gè)由彭博社提供的 Data License Plus (DL+) APP,允許客戶在云端用幾分鐘時(shí)間就能配置一個(gè)隨時(shí)可用的環(huán)境,內(nèi)部設(shè)有完全建模的彭博訂閱數(shù)據(jù)和來自多供應(yīng)商的 ESG 內(nèi)容。
03
數(shù)據(jù)平臺(tái)迎來新變革
開幕式主旨演講上,Databricks 公布了一個(gè)數(shù)字:過去 30 天,已經(jīng)在 Databricks 平臺(tái)上訓(xùn)練 Transformer 模型的客戶超過 1500 家。
在談及這個(gè)令人印象深刻的數(shù)字時(shí),PingCAP 劉奇認(rèn)為,這說明企業(yè)應(yīng)用 AI 的速度比預(yù)期的要快得多,「應(yīng)用模型不一定要去訓(xùn)練模型,所以如果訓(xùn)練的都有 1500 家,那應(yīng)用的肯定要比這個(gè)(數(shù)字)大的多得多�!�
另一方面,這也表明 Databricks 在 AI 這個(gè)領(lǐng)域的布局相對(duì)完整�!杆F(xiàn)在不僅僅是一個(gè) Data Warehouse(數(shù)據(jù)倉庫),一個(gè) Datalake(數(shù)據(jù)湖)�,F(xiàn)在它還提供:AI 的 training(訓(xùn)練)、AI 的 serving(服務(wù)),模型的管理等一整套�!�
Ali Ghodsi 以計(jì)算和互聯(lián)網(wǎng)的革命,類比大模型之于機(jī)器學(xué)習(xí)的變革|Databricks
也就是說,底層模型可以通過 Databricks 的平臺(tái)去訓(xùn)練,「*層的模型改改參數(shù)就能訓(xùn)練」。在這個(gè)模型之上所需要的 AI 服務(wù),Databricks 也布局了相應(yīng)的基礎(chǔ)設(shè)施——今天發(fā)布了 vector search(向量搜索)和 feature store(特征庫)。
Databricks 全面向大模型升級(jí)。
過去,Databricks 在 AI 方面有很多積累,比如在建索引、查數(shù)據(jù)、預(yù)測(cè)工作負(fù)載等方面,用小模型來提高效率、降低時(shí)延。但是,以如此快的速度補(bǔ)上大模型的能力,還是讓不少人意外。
在今天峰會(huì)全面展示的 AI 布局之前,Databricks 收購了 Okera(AI 數(shù)據(jù)治理),推出了自家的開源大模型 Dolly 2.0,又以 13 億美元并購了 MosaicML,一連串的動(dòng)作一氣呵成。
對(duì)此,硅谷徐老師 Howie 認(rèn)為,Databricks 和 Snowflake 這兩個(gè)大會(huì)都可以比較明確地看出:兩家公司的創(chuàng)始人認(rèn)為,基于數(shù)據(jù)庫、數(shù)據(jù)湖他們所做的行動(dòng)、接下來會(huì)面臨根本性的改變。按照一年前他們?cè)谧龅乃悸�,在未來幾年行不通�?/strong>
相應(yīng)地,快速補(bǔ)齊大模型的能力,也意味著可以獲得由于大模型帶來的增量市場(chǎng)。
劉奇認(rèn)為,沒有大模型之前,很多的需求可能都不存在,但有了大模型之后,有了很多新增需求�!敢�?yàn)橹挥心P蜎]有數(shù)據(jù),干不了什么事情,特別是沒有辦法做出差異化。如果大家都是一個(gè)大模型,那你跟別人可能也沒有差別�!�
但比起大模型,峰會(huì)現(xiàn)場(chǎng)的觀眾似乎更關(guān)注小模型,因?yàn)樾∧P偷膸讉(gè)優(yōu)勢(shì):速度、成本、安全性。劉奇表示,基于自己獨(dú)有的數(shù)據(jù),做出差異化的模型,模型要足夠小才能滿足這三條:足夠便宜、足夠快、足夠安全。
值得注意的是,Databricks 和 Snowflake 在日前都公布了它的營收數(shù)據(jù),平臺(tái)年?duì)I收增長在 60% 以上。相比整個(gè)市場(chǎng)軟件支出放緩的大背景,這樣的增長速度反映了數(shù)據(jù)越來越被關(guān)注。這次 Databricks 峰會(huì)的主題也是數(shù)據(jù)加 AI,但有了大模型,數(shù)據(jù)的價(jià)值還將越來越高。
大模型的到來,讓數(shù)據(jù)自動(dòng)生成成為可能,可以預(yù)見,數(shù)據(jù)量將指數(shù)級(jí)增長。怎么輕松地訪問數(shù)據(jù)、怎么支持不同的數(shù)據(jù)格式、挖掘數(shù)據(jù)背后的價(jià)值,會(huì)成為越來越頻繁的需求。
另一方面,今天很多企業(yè)還在還在探索觀望將大模型接入企業(yè)軟件,但考慮到安全、隱私、成本,敢直接用的,還很少。一旦通過將大模型直接部署到企業(yè)數(shù)據(jù)上,無需移動(dòng)數(shù)據(jù),部署大模型的門檻將被進(jìn)一步降低,數(shù)據(jù)被消費(fèi)的數(shù)量和速度都將被進(jìn)一步釋放。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...