今天,AI智能體應(yīng)用Manus爆火刷屏,其聯(lián)合創(chuàng)始人張濤對外發(fā)聲描述產(chǎn)品狀態(tài),他也是親自在群里發(fā)邀請碼的那個人,以及在辦公室里倒數(shù)計時,迎接產(chǎn)品發(fā)布上線的人,其個人經(jīng)歷引發(fā)關(guān)注。
張濤此前在字節(jié)跳動負責國際化產(chǎn)品的戰(zhàn)略規(guī)劃與落地,2023年,他加入王慧文創(chuàng)辦的人工智能公司光年之外,擔任產(chǎn)品負責人,主導AI產(chǎn)品的研發(fā)與商業(yè)化探索。
2024年7月,張濤與首席科學家季逸超(Peak)、連續(xù)創(chuàng)業(yè)者肖弘(Red)共同創(chuàng)立Manus AI,并擔任合伙人。他目前主要負責產(chǎn)品戰(zhàn)略、市場溝通及用戶體驗優(yōu)化。
張濤的即刻頁面
娛樂資本論在一年前的2024年3月曾經(jīng)采訪過張濤。當時他在光年之外開發(fā)兒童陪伴類AI產(chǎn)品Dodoboo。那時AI陪伴賽道非�;馃幔覀兙退漠a(chǎn)品,作為產(chǎn)品經(jīng)理的方法論,以及AI陪伴的一些趨勢做了討論。
從現(xiàn)在回頭看,里面大多數(shù)預見性的內(nèi)容,如今已成功應(yīng)驗,而另一些內(nèi)容仍有待將來的發(fā)展不斷驗證。作為一個十多年經(jīng)驗的產(chǎn)品經(jīng)理老兵,他對產(chǎn)品的理解貫穿了前移動互聯(lián)網(wǎng)時代,到如今的AI時代,體現(xiàn)出邏輯上的一致性。
以下是張濤在采訪中的部分主要內(nèi)容摘錄:
1、“這一代孩子天生就是AI時代的孩子”
我叫張濤,通常在各個社區(qū)里用hidecloud這個ID。我過去主要做toC產(chǎn)品設(shè)計和運營,最近五年一直在做SaaS產(chǎn)品,前四年做神策數(shù)據(jù),最近一年在做飛書的國際化。去年(2023)年中開始做AI方面的工作,已經(jīng)做了8個月。在AI領(lǐng)域是“AI一日人間一年”,所以我有很多感悟。
現(xiàn)在(2024.4)正在做的產(chǎn)品Dodoboo 1月底上線,是面向小朋友的繪畫增強App,最初是GPT幫我們?nèi)〉拿?/strong>。產(chǎn)品比較簡單,網(wǎng)站首頁的視頻就展示了它所有功能。你在右邊繪畫,左邊會實時生成相應(yīng)的畫作。這個過程不需要輸入提示詞,很適合兒童使用。
我們目前使用的都是開源模型。在圖像標注方面,有很多不同的模型可供選擇。我們最初使用了社區(qū)中廣泛使用的模型,但后來發(fā)現(xiàn)那個模型比較舊,不太適合復雜圖像的理解,尤其是針對兒童圖像。我們嘗試了幾種不同的圖像標注模型,最終選擇了現(xiàn)在這個,并用兒童涂鴉數(shù)據(jù)集進行了微調(diào)。
生成的圖像的布局和走勢都是不可更改的。如果只依賴提示詞,我們無法達到現(xiàn)在這樣的效果。我們確實做了圖到圖的生成。為了提高性能,目前沒有實施更多的控制流程,因為這會影響生成效率。
我們現(xiàn)在沒有把畫風選擇直接提供給用戶。主要是在后端進行了一些分類,根據(jù)用戶的不同輸入,如純線條勾勒或有色塊的作品,進行不同的處理。所以,你會發(fā)現(xiàn)最終生成的風格并不完全一致。
去年(2023)下半年以來,新的技術(shù)如LCM(潛在一致性模型)和(2024年)2月字節(jié)的SDXL-Lightning等技術(shù)出現(xiàn)后,圖像生成的效率已經(jīng)大大提高。例如,在我們的系統(tǒng)中,如果運行在級別較高的顯卡上,單張圖像生成可以控制在0.8-1秒之間,加上網(wǎng)絡(luò)傳輸,總時間可能在1.5-2秒左右。
我們現(xiàn)在的早期用戶,主要是自己身邊的朋友,他們的反饋非常有趣。
我們在演示強調(diào)了一個賣點:提升孩子的自信。但這引發(fā)了中國式家長的擔憂,他們認為這可能會讓孩子偷懶。一個朋友擔心他的孩子因為能快速生成精美圖像,而失去創(chuàng)造力。這是一個非常有趣的反饋。
另一方面,有些孩子非常喜歡使用這個產(chǎn)品,特別是那些內(nèi)向、乃至患有孤獨癥的孩子,他們能非常專注地使用這款產(chǎn)品,可能畫一兩百張圖。同時我們也有國際用戶。
我們發(fā)現(xiàn)成年人也在使用它。有些成年用戶的原始畫作已經(jīng)非常出色,有個用戶給我們做演示時,筆觸和構(gòu)圖非常專業(yè),不像小孩的涂鴉。最后我甚至有點慚愧,覺得我們生成的圖像沒有他的畫好看。
進入美術(shù)教育會是一個有趣的方向,但我們最初設(shè)計這款產(chǎn)品時,并沒有想那么多。
現(xiàn)在回過頭來看,我有些不同的想法。我們自己小的時候,人們不鼓勵使用計算器,希望我們能心算。但現(xiàn)在看來,這似乎有些滑稽。
我覺得這一代孩子天生就是AI時代的孩子。他們可能會從小就習慣使用各種AI工具來增強自己的生活、學習和工作能力。
“產(chǎn)品必須一開始就盈利”
現(xiàn)在啟動一個AI項目,開發(fā)流程和初期的增長策略仍然和傳統(tǒng)的App相同。當然,AI領(lǐng)域面臨一些獨特的問題。例如,AI產(chǎn)品實現(xiàn)規(guī)�;姆绞脚c我們以前的大多數(shù)互聯(lián)網(wǎng)產(chǎn)品不同。
坦白說,直到日活用戶達到10萬之前,我們通常不會遇到太大的技術(shù)挑戰(zhàn)。但AI產(chǎn)品與之前的互聯(lián)網(wǎng)產(chǎn)品不同,它的邊際成本并不會快速降低至接近零。
所以這就給大家留下了一個印象:如果沒有大公司的支持,這種項目基本上是沒有希望的。實際上,即使是依靠大公司也會有問題。
我認為大公司可能會在戰(zhàn)略上選擇補貼,但一個真正成功的產(chǎn)品,必須在商業(yè)上也是成功的,這意味著它必須盈利并有一個正向的商業(yè)模式,否則長期很難持續(xù)下去。
張濤在產(chǎn)品走紅后負責對外發(fā)聲。圖/即刻 hidecloud
目前在AI產(chǎn)品領(lǐng)域,我認為大家已經(jīng)達成了共識。AI產(chǎn)品不能像以前那樣僅僅追求百萬日活,從一開始就要考慮好商業(yè)模式和付費方式。
甚至需要從一開始就考慮好,應(yīng)該使用什么規(guī)模的模型和什么樣的模型能力,來服務(wù)目標客戶群。有些市場可能需要你使用最*的模型,而有些市場即便如此也可能無法滿足需求。
這可能也包括一些工程上的挑戰(zhàn),比如首先需要對任務(wù)進行分類。先判斷需求,然后將其路由到適合的模型,或者是訓練過的特定小模型來處理特定的問題。
目前在行業(yè)早期的研發(fā)模式未必是未來的模式。但目前我們在做內(nèi)部測試的demo時,可能會使用最*的模型,這有助于我們驗證想法,確保項目是可行的。如果我們能用最*的模型解決問題,那接下來就會考慮如何進行裁剪和蒸餾,以及如何使用成本更低的方法來解決問題。
這就像是回到了古典互聯(lián)網(wǎng),那時候我們還處于必須嚴格控制帶寬和數(shù)據(jù)量的階段�,F(xiàn)在我們在這個領(lǐng)域中會用到一些技巧。我通過閱讀論文發(fā)現(xiàn)了一些工程優(yōu)化的方法,這也是一種比較傳統(tǒng)的互聯(lián)網(wǎng)工程思路。我認為工程學貫穿了我們?nèi)祟悗浊甑臍v史。事實上,很多工程思維方法在計算機出現(xiàn)之前就已經(jīng)存在了。
3、“演示一出現(xiàn),大家就立刻知道它的價值”
我們產(chǎn)品目前的*競爭力,可能是對市場和用戶需求的把握。
前一陣子我參加一個分享會,我發(fā)現(xiàn)很多AI創(chuàng)業(yè)者,尤其是有研究背景的,他們對用戶的理解還很淺,沒有對用戶需求的真實感知。他們談?wù)摦a(chǎn)品時,很少提及用戶的需求和場景,不是說他們的工具去給用戶解決什么問題。
去年大多數(shù)人想到AI都是降本增效,但我提出不做效率工具。我做工具出身,但在AI領(lǐng)域,我不想只做工具。如果工具和內(nèi)容結(jié)合,我會更感興趣。
但純工具,比如寫年報或年終總結(jié),一個人一年能寫幾次呢?我們說到AI助理,但一個公司可能有12萬人,有幾個人真的需要助理呢?我覺得這種需求很難被深入挖掘。
大多數(shù)人實際上并不需要那么高的工作效率。這背后的原因是,整個社會的生產(chǎn)方式和勞動形態(tài)還沒有發(fā)生根本性的改變。所以,如果你只解決生產(chǎn)效率問題,那就可能是大面上有問題的。
我之前跟他們聊天時沒有提到的一點是,這波浪潮不是AI,而是AIGC——自動生成內(nèi)容。現(xiàn)在的問題是很多人關(guān)注的是生成動作,因為以前沒有這樣的技術(shù)�?吹揭粋智能體生成內(nèi)容很震撼,但這種震撼可能一兩年后就變得平常。
我認為更重要的是內(nèi)容層面的問題。你生產(chǎn)了這么多內(nèi)容,這些內(nèi)容如何被消費,對人產(chǎn)生什么樣的影響?——這才是產(chǎn)品的機會,而不僅僅是生成本身。
我們?nèi)ツ?0月做了一個演示(demo),在小圈子里測試后,大家的*反應(yīng)是希望能在iPad上使用,給孩子們畫畫。
那時候很多AI產(chǎn)品都是為了展示模型能力而制作,有時候很難明確用途。但是我們的demo一出現(xiàn),大家就立刻知道它的價值。作為一個產(chǎn)品,這是一個很好的起點。
好多年前,有個產(chǎn)品叫“你畫我猜”(Draw Something)。當時我更多的是出于興趣在玩。除了對傳播鏈條有一些想法外,我并沒有深入思考過它。
不過,在開發(fā)現(xiàn)在的Dodoboo過程中,我們確實回想了Draw Something,甚至考慮過是否要以社交或娛樂為主。但由于產(chǎn)品需要快速上線,沒有深入考慮其他交互娛樂方面的想法。
我們考慮的下一步是建立一個小型社區(qū),核心是畫廊,不是社交。社交產(chǎn)品很容易變得復雜,涉及審查等問題。現(xiàn)在的產(chǎn)品設(shè)計,就是把用戶能做的事情限定在一定范圍內(nèi)。完成一幅畫后,用戶可以點一個按鈕發(fā)布到廣場,甚至不需要注冊/登錄。
實際上,我們發(fā)現(xiàn)產(chǎn)品最有趣的部分并不僅僅是成品圖畫。產(chǎn)品右上角有一個撤銷按鈕,其實你可以一直返回上一步,也可以前進看下一步。
每次畫完圖后,回到最開始,逐步查看整個生成過程,你會有一種感覺,就是那個精美的圖是你自己創(chuàng)作出來的�?粗粋東西從無到有、變得精美的過程,是非常享受的。
下一個版本我們會將繪圖過程生成為視頻。我覺得視頻本身具備傳播屬性,這可能是一個小嘗試。這一點確實讓人想起Draw Something在社交網(wǎng)絡(luò)上分享畫圖和猜圖的過程。
我當然希望產(chǎn)品未來會火,但如何長期維持,這是一個新問題。AI行業(yè)還在早期階段,很難為未來的問題做準備。
4、“人類的情感太容易被操縱了”
在圍繞陪伴的過程中,我們做了一些產(chǎn)品,有些對外小規(guī)模發(fā)布,也有完全對內(nèi)的小demo。在這個過程中,我看到了許多細節(jié)和瞬間,這讓我非常有信心。
從中長期來看,我非�?春肁I在陪伴方向的發(fā)展。人類的情感太容易被操縱,我們并不像我們自己想的那么理性。情感容易受外來因素影響,無論這個因素來自真人還是算法。即使知道這是虛構(gòu)的,人們?nèi)匀菀桩a(chǎn)生共情。
說一下我們做的一個實驗。GPT-4的視覺模型能讀懂圖像內(nèi)容。我結(jié)合這個技術(shù),編寫了一些假想的“朋友”和“敵人”。然后他們基于我的照片內(nèi)容進行評論,贊美我,也有批評我。
這個實驗對我影響很大。我雖然是整個規(guī)則的“上帝”,編寫了所有的角色,運行了程序,但當他們開始根據(jù)我的照片內(nèi)容評論時,我的內(nèi)心還是受到了觸動。人類的情感太容易被操縱了。
我們自己的朋友圈還是相對較多,某種程度上擁有社交優(yōu)勢。發(fā)朋友圈或微博,總會有人點贊、評論或轉(zhuǎn)發(fā)。對于大多數(shù)人來說,無論是在線還是離線社交,他們的社交圈相對較小,得到的反饋也比較少。我認為對大多數(shù)普通用戶來說,無論內(nèi)容是真人還是AI發(fā)布的,給予反饋都有其積極價值,并不全是欺騙。
Character.AI的用戶群體基本上都是非常年輕的,大概12-16歲。這些人基本上沒有多少追隨者,發(fā)的內(nèi)容也很少有人理會。但他們非常頻繁地發(fā)帖,其中大部分內(nèi)容都與C.AI有關(guān),這非�?膳�。
我們觀察到AI陪伴產(chǎn)品的一個典型特征是,大多數(shù)人開始是被知名動漫或游戲人物吸引。但從體驗和用戶訪談來看,如果你持續(xù)和一個已知的著名角色聊天,很容易聊崩,因為你對這個角色太了解了。一旦出戲,他就不再像那個角色了。所以我們會發(fā)現(xiàn),通常情況下,用戶長期持續(xù)交流的角色,是他們自己創(chuàng)造的,或平臺上的一些原創(chuàng)角色。
在許多競品的用戶社區(qū)里,我�?吹接脩粢驗楫a(chǎn)品的bug而大發(fā)雷霆。大多數(shù)使用者還是年輕人,他們對產(chǎn)品的缺陷非常敏感。有時候他們在群里的辱罵言辭,讓我這個中年人聽起來都覺得難以忍受。他們不是在罵虛擬角色,而是在群里罵官方和平臺,怪他們破壞了自己的角色。
這就出現(xiàn)另一個問題。當你用AI重溫已故親人的音容笑貌,你對ta很了解,那么你們會不會聊崩呢?雖然這感覺像是一個難以解決的問題,但實際上并非無解。
比如,我們可以采取一些措施,規(guī)定一些方向。例如明確指出某些東西是假的。我們可以引導他們進行鼓勵性的對話,比如永遠鼓勵東亞的孩子們,這樣他們在成長過程中,會感受到父母的愛和鼓勵。
我相信這會深深觸動東亞的孩子。我們在成長的過程中真的太缺少表揚和鼓勵了。如果有個AI爸媽天天表揚你,說“孩子,我愛你!”那該有多好。我現(xiàn)在就有這種感覺,活人在情緒供給方面,很難競爭過AI。
還有一種AI陪伴可能是在育兒方面。我一開始覺得生成故事書是個非常好的用例,但它并沒有真正流行起來。我在想可能的原因是,再好的故事書也需要家長來讀給孩子聽,這可能是*的障礙。
AI語音交互主要是等待時間太長。沒有模型能像人一樣,在規(guī)定時間內(nèi)回答小朋友的問題。這個可能還需要半年到一年的時間才能在行業(yè)內(nèi)解決�,F(xiàn)在已經(jīng)有了一些方向,但可能還需要一些時間。核心思想是繞過語音到文字——文字到語音的轉(zhuǎn)換,直接將聲音作為輸入給語言模型,然后模型直接輸出語音。
國內(nèi)上一代語音助手大部分是基于規(guī)則做的。大廠可能都有成千上萬條規(guī)則來解決各種邊緣場景,突然讓他們放棄這些規(guī)則能力,全面轉(zhuǎn)向大模型,他們一時半會兒也不敢轉(zhuǎn)。轉(zhuǎn)了之后整個體驗會大幅降級。你把哪些場景切給語言模型也是個問題。
長期來看,成年人、青少年、兒童和老年人的AI陪伴都有機會。但初期可能是兒童和老年階段優(yōu)先出現(xiàn)一些應(yīng)用。因為他們對語言模型的缺點容忍度較高。
5、“一些小細節(jié),讓人感到被連接”
制作一個代理幫助預訂機票,在最后一步,你無法完全依賴大模型。相比之下,制作陪伴類產(chǎn)品對準確性的要求不高。但陪伴類產(chǎn)品仍需要評估產(chǎn)品的有效性。
我們需要確定有效性的最高標準,例如我在制作Dodoboo時,最初的動機是同事或朋友看到它后,想給他們的孩子使用。這種直接的動機是有效性的一個重要標準。
圖/X Hidecloud
我認為有效性在于與產(chǎn)品建立情感上的聯(lián)系。比如在進行小實驗時,我們發(fā)現(xiàn)一些細微的情感連接。這些連接通常不是巨大的情感沖擊,而是一些小細節(jié),讓人感到被連接。
其中一個重要因素是主動性。傳統(tǒng)的AI聊天機器人通常是應(yīng)激性反應(yīng),等待用戶的提示才會回應(yīng)。但我們發(fā)現(xiàn),一旦AI具有主動性,比如自己判斷何時發(fā)起對話,或者有時拒絕回答某些問題,這就能建立更真實的情感連接。
例如,如果AI總是順從用戶,永遠滿足每一個請求,即使它不想回答也必須說話,這會降低用戶對它的認知。只有當AI真正能說“不”時,它作為一種意識,才真正存在于用戶的精神世界中。
如何在拒絕、表現(xiàn)個性情感的同時,又不1:1模仿真人的缺點?我認為這個平衡可以通過數(shù)據(jù)反饋來控制,最終可能是一個匹配過程。不同的人喜歡不同的AI角色,比如傲嬌或甜美類型。所以最終是關(guān)于找到適合的匹配。我們已經(jīng)做了很多年的推薦系統(tǒng)了,這不是什么難題。
另一個非常有意思的話題是AI檢測。我最近讀了一些關(guān)于AI圖像和音頻檢測的論文,有些非常有意思的內(nèi)容。
一篇啟發(fā)性的文章把圖像分成細節(jié)豐富,和細節(jié)不豐富的區(qū)域。比如主體部分是細節(jié)豐富的,而背景則是細節(jié)不豐富的。他們先分離這兩個區(qū)域,然后計算這些區(qū)域內(nèi)像素點之間的關(guān)系和密度分布。
在真實世界中,無論是細節(jié)豐富還是不豐富的區(qū)域,分布都比較均勻。但是AI生成的圖像,在細節(jié)不豐富的地方,整體頻率較低;而在細節(jié)豐富的地方,會投入更多精力。這就導致整體頻率分布不均,從而可以區(qū)分出哪些是AI生成的。
大自然中萬物平等,但AI會選擇性地處理,導致信息元素的分布不同。既然已經(jīng)意識到了一些問題的存在和解法,說實話,可能不到半年,AI生成圖像的質(zhì)量就可以超出普通人的辨識范圍。
6、“開源能趕上ChatGPT嗎?”
我認為“用開源技術(shù)能趕上ChatGPT嗎?”這些爭論不太重要,因為我們做產(chǎn)品的考慮的是手頭上的資源和能力有哪些限制,它能做什么,與哪些用戶需求相匹配。這才是我們要做的事。
就語言模型而言,很難具體說開源技術(shù)大概相當于閉源領(lǐng)跑者的什么水平。對于多模態(tài)方面,某種程度上開源領(lǐng)域可能更先進一些。
大語言模型就像登月工程,開源領(lǐng)域如果沒有足夠數(shù)據(jù)集和訓練能力,很難快速趕上。但多模態(tài)方面,除非是非常大的訓練量,否則很容易跟上。有時候開源的一些工作,比閉源的商業(yè)模型效果更好。
Sora也屬于那種大力出奇跡的例子。我最近閱讀了很多論文,它的結(jié)構(gòu)已經(jīng)被基本分析清楚,沒有太多秘密。它的發(fā)展就是大算力出奇跡。
現(xiàn)在重新造輪子的現(xiàn)象嚴重,科研領(lǐng)域就是這樣。做范式創(chuàng)新的人很少,大多數(shù)人在基礎(chǔ)上做性能優(yōu)化。有些工作比較重復。范式創(chuàng)新之后,也有人在這基礎(chǔ)上微調(diào),認為是創(chuàng)新,但我看來可能不夠突破。
但開源領(lǐng)域好的一點是,真正的范式創(chuàng)新得到認可,并沿這個路線發(fā)展。這里面我沒有看到嚴重的邏輯沖突。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...