來源:天天炫技
本文來自微信公眾號(hào):APPSO (ID:appsolution),作者:黃智健,原文標(biāo)題:《Google 下一款 ChatGPT 競(jìng)品曝光:投入或超GPT-4,AlphaGo 成秘密武器》,題圖來自:《變形金剛2》
(資料圖)
ChatGPT 的大火,可把 Google 急壞了。
要知道 ChatGPT 中的“T”表示的是 Transformer 模型,出自于 Google 研究團(tuán)隊(duì),而現(xiàn)在這一技術(shù)在競(jìng)爭(zhēng)對(duì)手 OpenAI 的手上發(fā)光發(fā)熱,這令 Google 頗感尷尬。
為應(yīng)對(duì)這一挑戰(zhàn),Google 迅速推出了自己的聊天機(jī)器人Bard,并且開始整合 AI 資源,合并了兩大研究團(tuán)隊(duì) Google Brain 和 DeepMind,創(chuàng)建了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 領(lǐng)導(dǎo)。
Hassabis 表示 Google 有 80% 或 90% 的 AI 創(chuàng)新都出自于這兩個(gè)團(tuán)隊(duì)。
在 上個(gè)月的 Google I/O 大會(huì)上,Google CEO Sundar Pichai 官宣了一個(gè)重磅消息:Google DeepMind 正在研究一個(gè)全新的大語(yǔ)言模型,代號(hào)為 Gemini(雙子座),這也是這兩只團(tuán)隊(duì)合并后首次合作的項(xiàng)目。
近日,Demis Hassabis 在接受 Wired 的采訪了透露了更多與 Gemini 有關(guān)的消息,這可能是 Google 向 OpenAI 反擊的關(guān)鍵戰(zhàn)役。
正在追趕的 Google
此前大家猜測(cè),Gemini 和 GPT 模型類似,都是有著出色文本處理能力的大語(yǔ)言模型,兩者的差異可能會(huì)體現(xiàn)在訓(xùn)練參數(shù)的規(guī)模上,模型規(guī)模越大,處理能力可能就會(huì)越強(qiáng)。
然而 Hassabis 表示,Gemini 有很多不太一樣的地方,例如 Google DeepMind 團(tuán)隊(duì)正在將 AlphaGo 中使用的技術(shù)結(jié)合語(yǔ)言模型,以賦予更強(qiáng)的規(guī)劃或解決問題能力等等。這可能會(huì)成為 Gemini 的“殺手锏”技能。
抽象點(diǎn)說,你可以將 Gemini 看作是將 AlphaGo 型系統(tǒng)的一些優(yōu)點(diǎn)與大模型的語(yǔ)言能力相結(jié)合。我們還有一些新的創(chuàng)新,這將非常有趣。
2016 年,橫空出世的 AlphaGo 擊敗了圍棋冠軍李世石,讓全世界第一次真切地感受到 AI 技術(shù)的震撼。
AlphaGo 的技術(shù)基于一種名為“強(qiáng)化學(xué)習(xí)”的訓(xùn)練方法,通過反復(fù)試驗(yàn)和反饋來學(xué)習(xí)如何解決問題,它還使用了一種稱為樹搜索的方法,探索并記住可能的走法。
Google DeepMind 團(tuán)隊(duì)希望將這些技術(shù)應(yīng)用到語(yǔ)言模型中,使它們能夠在互聯(lián)網(wǎng)和計(jì)算機(jī)上執(zhí)行更多任務(wù)。
DeepMind 在機(jī)器學(xué)習(xí)和強(qiáng)化學(xué)習(xí)有著豐富的經(jīng)驗(yàn),開展過多項(xiàng)重要的研究,包括:
AlphaGo:第一個(gè)擊敗人類世界冠軍的圍棋程序。AlphaGo的成功標(biāo)志著AI在處理復(fù)雜策略游戲方面的重大突破。
AlphaZero:AlphaZero 是一個(gè)通用的強(qiáng)化學(xué)習(xí)算法,可以在沒有任何先驗(yàn)知識(shí)的情況下,僅通過自我對(duì)弈學(xué)習(xí)如何玩棋類游戲。AlphaZero已經(jīng)證明了其在國(guó)際象棋、將棋和圍棋等游戲中的超強(qiáng)實(shí)力。
AlphaFold:AlphaFold 是一個(gè)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的深度學(xué)習(xí)系統(tǒng)。這個(gè)系統(tǒng)的準(zhǔn)確性在生物學(xué)領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗梢詭椭茖W(xué)家更好地理解疾病,并加速藥物的發(fā)現(xiàn)和開發(fā)。
WaveNet:WaveNet 是一個(gè)深度生成模型,用于生成自然 sounding 的語(yǔ)音。它已經(jīng)被廣泛應(yīng)用于語(yǔ)音合成和音樂生成等領(lǐng)域。
MuZero:MuZero 是一個(gè)無(wú)模型強(qiáng)化學(xué)習(xí)算法,它可以在沒有環(huán)境模型的情況下,通過預(yù)測(cè)其動(dòng)作的結(jié)果來學(xué)習(xí)策略和價(jià)值函數(shù)。MuZero 已經(jīng)在多個(gè)任務(wù)和游戲中表現(xiàn)出了超強(qiáng)的性能。
DeepMind 在強(qiáng)化學(xué)習(xí)方面的深厚經(jīng)驗(yàn),可能會(huì)為 Gemini 帶來超越 ChatGPT 的新能力。
Hassabis 表示,Gemini 模型仍在開發(fā)中,這個(gè)過程將需要幾個(gè)月的時(shí)間,可能花費(fèi)數(shù)千萬(wàn)或者上億美元。作為對(duì)比 OpenAI CEO Sam Altman 在四月份表示,創(chuàng)建 GPT-4 的成本超過了 1 億美元。
Gemini 不僅僅是對(duì) ChatGPT 做出的防御之舉,還將是 Google 未來部署搜索等產(chǎn)品的技術(shù)基礎(chǔ)。
Hassabis 表示,AI 的非凡潛在益處,例如健康或氣候等領(lǐng)域的科學(xué)發(fā)展,人類必須不停地發(fā)展這項(xiàng)技術(shù)。如果運(yùn)用恰當(dāng)?shù)脑?,AI 將是對(duì)人類最有益的技術(shù)。
“我們必須大膽且勇敢地去追求那些東西?!彼f。
Google 不為人知的“護(hù)城河”
在 AI 研究方面,Google 還有一張蓋住的王牌——全球最大的視頻網(wǎng)站 YouTube。
視頻是個(gè)非常多元的內(nèi)容載體,我們可以把它分解成圖像、音頻和文字記錄。Google 擁有 YouTube,也就意味著擁有最豐富的圖像、音頻訓(xùn)練內(nèi)容。
根據(jù) The information 報(bào)道,有內(nèi)部人士透露 OpenAI 早已經(jīng)悄悄地使用 YouTube 上的內(nèi)容來訓(xùn)練其人工智能模型。
Google 自然不會(huì)忽視這座“金山”,The Information 繼續(xù)爆料稱 Google 的研究團(tuán)隊(duì)也在利用 YouTube 訓(xùn)練 Gemini 模型,并且 Google 能夠比競(jìng)爭(zhēng)對(duì)手們獲得更完整的內(nèi)容數(shù)據(jù)。
對(duì)于大語(yǔ)言模型來說,高質(zhì)量的訓(xùn)練數(shù)據(jù)比黃金還要寶貴。
由于 YouTube 很多都是真實(shí)的對(duì)話,Google 可以利用 YouTube 視頻的音頻文本或描述作為訓(xùn)練 Gemini 的另一個(gè)文本來源,從而提高它的語(yǔ)言理解能力,并產(chǎn)生更加真實(shí)的對(duì)話反饋。
利用 YouTube 的視頻內(nèi)容,Google 還可以開發(fā)出類似于 Runway 用文本生成視頻的多模態(tài)功能,用戶只需要輸入他們的描述就能生成出一條精美的視頻。
除了制作視頻,多模態(tài)模型還可以有更多的可能性,例如可以根據(jù) YouTube 視頻直接總結(jié)出球賽的亮點(diǎn),或者根據(jù)視頻幫助機(jī)械師診斷汽車修理問題。
OpenAI 在發(fā)布 GPT-4 模型時(shí),曾展示過從草圖生成網(wǎng)站代碼的功能,這也是多模態(tài)模型的一個(gè)重要應(yīng)用領(lǐng)域。
前 YouTube 高管 Shishir Mehrotra 表示,對(duì) Google 來說,YouTube 視頻簡(jiǎn)直就是一座數(shù)據(jù)金礦。
這不僅僅是因?yàn)橐曨l的存在,而是因?yàn)橐曨l存在于一個(gè)生態(tài)系統(tǒng)中。
YouTube 上的視頻向 AI 展現(xiàn)了人類是如何進(jìn)行對(duì)話,這和書面化的文本有很大的不同,可以幫助模型更好的理解人類對(duì)話的邏輯,并生成更恰當(dāng)?shù)姆答仭?/p>
不僅如此,Google 還收集大量的用戶互動(dòng)數(shù)據(jù),清楚用戶對(duì)視頻的哪些部分最感興趣、哪些部分容易跳出、哪些內(nèi)容會(huì)吸引用戶評(píng)論等等。
據(jù)統(tǒng)計(jì),YouTube 每分鐘就有 500 小時(shí)的視頻上傳到網(wǎng)站上,Google 可以說是坐在了一座會(huì)源源不斷生產(chǎn)金子的金山上,這或許會(huì)成為 Google 真正的護(hù)城河。
多模態(tài)才是未來
隨著多模態(tài)模型越來越受到重視,未來會(huì)有更多的開發(fā)人員選擇用視頻訓(xùn)練語(yǔ)言模型。AI 教父、Meta AI 首席研究員 Yann LeCun 在近日一條推文中稱:“通過視覺學(xué)習(xí)世界如何運(yùn)轉(zhuǎn)的系統(tǒng),將對(duì)現(xiàn)實(shí)有更深刻的理解”,并稱贊了 Meta 在這一領(lǐng)域的研究成果。
著名風(fēng)投機(jī)構(gòu) A16Z 在最近采訪了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和創(chuàng)始人,探討出生成式 AI 當(dāng)前最需要突破的四個(gè)方向,分別是操控、記憶、四肢(訪問瀏覽器等)和多模態(tài)。
這四項(xiàng)關(guān)鍵創(chuàng)新將主導(dǎo) AI 在未來 6-12 個(gè)月的發(fā)展,這也會(huì)影響公司和開發(fā)者改變構(gòu)建產(chǎn)品的方式。
Cohere 的 CEO Aidan Gomez(著名論文《Attention is all you need》的主要作者之一)表示,AI 系統(tǒng)的能力終究是有限的,因?yàn)椴⒎撬械膬?nèi)容都是文本形式,因此多模態(tài)能力對(duì)于大語(yǔ)言模型來說是個(gè)重要的發(fā)展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等模型已經(jīng)在處理和生成圖像、音頻等內(nèi)容。
“我們現(xiàn)在的模型確實(shí)是字面意義上的‘盲人’,這需要改變?!盇idan Gomez 在采訪中總結(jié)道。
多模態(tài)模型能夠極大地拓寬 AI 的應(yīng)用場(chǎng)景,例如可以用在自動(dòng)駕駛汽車或其他需要與物理世界實(shí)時(shí)交互的場(chǎng)景上。此前,Google 在 I/O 大會(huì)發(fā)布的 Med-PalM-2 模型便展示過可以分析 X 光照片的能力。
這也讓人更加期待,更強(qiáng)大的 Gemini 能在多模態(tài)領(lǐng)域給我們帶來多大的驚喜。現(xiàn)在看來,暫時(shí)取得領(lǐng)先的 OpenAI,遠(yuǎn)沒有到停下來休息的時(shí)刻。
本文來自微信公眾號(hào):APPSO (ID:appsolution),作者:黃智健
關(guān)鍵詞:
熱點(diǎn)在線丨大宗交易:三元生物成交4396.3萬(wàn)元,折價(jià)22.32%(06-29)
2023年6月29日,三元生物發(fā)生了1筆大宗交易,總成交萬(wàn)股,成交金額萬(wàn)元
影馳推出 B760 金屬大師 D5 主板:白色 PCB、三 PCIe 4.0 SSD
IT之家6月29日消息,影馳在今年初推出了B760金屬大師主板,黑白雙色,
國(guó)家林草局華東院實(shí)施“碳中和”相關(guān)技術(shù)能力提升行動(dòng)
人民網(wǎng)北京6月29日電(記者楊曦)據(jù)國(guó)家林草局消息,近日,國(guó)家林草局
出包王女第三季ova無(wú)修版在線 出包王女第三季ova
1、第三季ova一共7集前6集是第三季的故事第7集是第四季的故事因?yàn)榈谌?
靜謐舒適的意思_舒適的意思_熱文
1、開車?yán)锏氖孢m是車沒有噪音(如果有噪音對(duì)耳朵是很難忍受的的。2、讓
關(guān)于我們 加入我們 聯(lián)系我們 商務(wù)合作 粵ICP備2022077823號(hào)
創(chuàng)氪網(wǎng) www.m.cn-everich.com 版權(quán)所有 技術(shù)支持:廣州中創(chuàng)互聯(lián)網(wǎng)信息服務(wù)有限公司
投稿投訴聯(lián)系郵箱:317 493 128 @qq.com