昨日,OpenAI發(fā)布可實(shí)時(shí)進(jìn)行音頻、視覺和文本推理的新一代AI模型GPT-4o引發(fā)廣泛關(guān)注。今日,360集團(tuán)創(chuàng)始人、董事長周鴻祎發(fā)表視頻分享了自己對于GPT-4o技術(shù)原理的理解和潛在的社會影響。
在談及GPT-4o的技術(shù)原理時(shí),周鴻祎指出,據(jù)OpenAI發(fā)布會上簡短的技術(shù)原理介紹,區(qū)別于傳統(tǒng)將把語音先翻譯成文字處理后再翻譯成語音的做法,這次的技術(shù)是直接把語音進(jìn)行了處理,形成了一個(gè)整合的大模型引擎,實(shí)現(xiàn)對語音輸入的直接理解——包括把語音中飽含的情緒、感情、語調(diào)、口音這些細(xì)節(jié)都進(jìn)行了理解,同時(shí)是直接輸出語音。
“這就帶來了一個(gè)全新的體驗(yàn),就是時(shí)延大概只有300毫秒左右,達(dá)到了人類和人類談話的響應(yīng)速度,這樣不僅能聽得懂你話里的情緒,在輸出回答的時(shí)候也可以伴隨著高興、悲傷、失望、興奮或者是更復(fù)雜的感情。”周鴻祎表示。
周鴻祎還指出,除了語音處理層面帶來的驚艷之外,有一個(gè)容易被忽視的地方是,實(shí)際上GPT-4o的還可以直接打開手機(jī)攝像頭,直接通過手機(jī)攝像頭賦予它更強(qiáng)大的眼睛的能力。這個(gè)可能還比不上Sora,但是它比GPT-4.5的版本可以輸入圖片輸入表格的能力又提升了一步。“所以總結(jié)來講就是,GPT-4.0相當(dāng)于給人工智能賦予了對知識理解的能力,相當(dāng)于有了一個(gè)大腦,然后GPT-4.5相當(dāng)于給了一些初級的看見的能力,而GPT-4o實(shí)際上是給它增加了真正能看懂這個(gè)世界的眼睛,和能聽明白人說話的耳朵,而且嘴巴還能夠自由自在地表達(dá)自己情緒和情感的能力。”。
在周鴻祎看來,有些人會對此次發(fā)布OpeanAI沒有推出GPT-5.0覺得比較失望,但是通向通用人工智能不僅是要在超級的推理能力、知識能力、邏輯能力上要趕超人類,更重要的能力還包括跟人交互的能力。所以,當(dāng)AI能通過無論是手機(jī)攝像頭還是無處不在的物聯(lián)網(wǎng)攝像頭更看明白這個(gè)世界,而且能以跟人一樣的響應(yīng)速度進(jìn)行交互的時(shí)候,這件事就變得非�?膳铝�,“也就是它就讓人工智能真正的更像人了”。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...