国产精选污视频在线观看,色综合a在线视频,国产吧在线视频,亚洲男女天堂

您的位置:首頁>智東西 >

當前動態(tài):中國通用AI創(chuàng)新,通向何方?

來源:不二科技精選  

本文來自微信公眾號:明亮公司(ID:suchbright),作者:羅賓,嘉賓:周健工(未盡研究創(chuàng)始人),原文標題:《對話未盡研究周健工:通用AI將推動中國垂直模型應用,訂閱制模式將更普遍》,題圖來自:明亮公司(圖為周健工)


【資料圖】

ChatGPT在2022年底發(fā)布,開啟了通用人工智能的時代。大模型在互聯(lián)網(wǎng)和數(shù)字技術的基礎之上,成為一種通用技術。今年5月初,未盡研究發(fā)布了《通用AI,通用技術,通向何方》報告(下稱“報告”);近日,明亮公司對話了未盡研究創(chuàng)始人周健工,他分享了通用AI的未來和大模型的中國之路。

報告指出,中美在AI領域整體的差距本來并不是很大。但自從GPT-3不再開源之后,中國在生成式人工智能和語言大模型領域變成了追隨者。而中國科技企業(yè)趕超美國的機會,目前并不在通用語言大模型方面,而是在通用大模型的能力邊界之外進行創(chuàng)新,如多模態(tài)的技術創(chuàng)新,以及中國比美國更大的應用與市場空間。

報告顯示,中國目前可用于大模型訓練的悟道語料庫,包括文本、圖文和對話數(shù)據(jù)集,最大的僅5TB,其中開源的文本部分僅為200GB。另外一個開源的中文本數(shù)據(jù)集CLUECorps為100G。相比之下,GPT-3的訓練數(shù)據(jù)量,以英語為主,達到了45TB。

中國的數(shù)據(jù)要素市場逐步形成,定制和加工語料數(shù)據(jù)的企業(yè)大量出現(xiàn)。中國的大模型和AI訓練,需要更豐富通用的開源語料庫。以漢語為主的通用語料庫,同時獲取英語的開源和授權使用的數(shù)據(jù)集,才能建立起立足中國、匯集全人類智慧的大模型。

“人工智能正在吃掉軟件?!?/strong>周健工表示,幾乎所有的互聯(lián)網(wǎng)應用都產(chǎn)生了重新做一遍的機會。特別是移動端的未來,或許變革會比桌面端更激烈,涉及到智能手機的未來由誰定義。在智能手機中部署個性定制化的大模型是未來的一種趨勢,這就需要手機從底層芯片、操作系統(tǒng)到應用程序的改變和創(chuàng)新。

周健工還指出,對于中國通用AI企業(yè)的商業(yè)化方向,投資機構目前更看好將合適的場景、成熟的業(yè)務深度和豐富的數(shù)據(jù)積累和大模型結合起來的應用領域。同時,提供大模型訓練和應用中間態(tài)服務的公司,包括數(shù)據(jù)質量與標注、向量化數(shù)據(jù)庫、模型及計算優(yōu)化等,在中國也將有很高商業(yè)價值。

在創(chuàng)辦未盡研究之前,周健工曾擔任第一財經(jīng)CEO、福布斯中文版總編輯,還著有《橫越未知:從無限勞動力到無限計算力》。

以下系精編整理的對話節(jié)選(Q:明亮公司,A:周健工):

中國科技企業(yè)的投入集中于性價比高的創(chuàng)新階段,OpenAI的股權投資形式無法在中國復制

Q:報告提到中國企業(yè)在通用型AI大模型面臨的幾項挑戰(zhàn):算力限制、中文語料數(shù)據(jù)等等,其中一項是資金的投入與“巨頭有較大落差”,如何理解這種落差和公司商業(yè)模式、核心競爭力之間的關系?除了營利能力之外,對于中國的大公司來說,是否有其他因素限制了對于技術的投入?

A:ChatGPT從1到4所需的累計投入量是巨大的,從以往的數(shù)十億美元到今年初微軟的百億美元,當然其中一些投入是以算力交付的。OpenAI先是以非營利組織的形式而存在,而在這個階段就能長期大量投入于技術,沒有任何一家中國企業(yè)可以做到。中國企業(yè)不會在一個非常不確定的、信仰級別的技術路線上有這種級別的投入。

OpenAI一邊研究ChatGPT這樣的模型,一邊尋找應用場景,所以微軟開始投資聯(lián)手。我認為這也是微軟的一項很精明的投資。微軟CEO納德拉認定未來科技公司都會轉向人工智能的競爭,但谷歌一直以來引領了人工智能的變革,且凝聚了AI領域最好的人才。由于微軟清晰的戰(zhàn)略,它敢于投入大量資金,而且它商業(yè)中的精明體現(xiàn)在它投入的很多是算力,它可以借助OpenAI開發(fā)大模型而圍繞AI所需的高級算力重構微軟的云服務。

年初至今,作為萬億市值的上市公司,微軟市值漲幅仍有約20~30%,說明它的投入已經(jīng)被資本市場認可,被給予高估值。GPT-4推出后,微軟將其應用在各個產(chǎn)品線中,體現(xiàn)出微軟的思路非常清晰。從商業(yè)回報看,微軟100億美元的投入對應了千億美元市值的擴大,回報率也足夠高。但是VC、PE們所謂的估值體系、投資邏輯、交易結構等完全不適用于OpenAI的LP。所以第一點,從中國巨頭企業(yè)到初創(chuàng)公司,都沒辦法按照OpenAI的股權投資協(xié)議模式進行投入。

第二,如果將中國科技巨頭和美國巨頭對比,我們也在3年間跟蹤了全球研發(fā)2500強企業(yè),每年的研發(fā)支出上,谷歌、亞馬遜等美國科技巨頭靠前,中國除了華為外,其他公司雖然支出也不少,但與美國還有很大差距。

第三,除了研發(fā)支出,還有幾點是中國科技企業(yè)無法與美國相比的,美國巨頭的云做得很強大,很多都有自己的操作系統(tǒng),另外很多也做了自己的硬件系統(tǒng),做了芯片和基礎軟件,垂直整合程度很高。中國巨頭主要是在自己的應用里做社交、電商、視頻等業(yè)務擴展,而圍繞技術和生態(tài)布局比較欠缺。當一波技術浪潮來的時候,其實一直在做準備的企業(yè)才能接得住。

Q:除了是否能長期大量投入、商業(yè)模式區(qū)別,中國公司相比美國受到更多政策限制,是否導致了中美公司發(fā)展空間不同?

A:我認為不完全是政策的原因。相反,在中國的互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代,創(chuàng)新環(huán)境是比較好的,只是前兩年開始的整頓,平臺經(jīng)濟仍然在調(diào)整適應新常態(tài)之中。而且中國科技巨頭的崛起,既受益于當時的美元基金,還受益于國內(nèi)相對有利的保護,谷歌、Facebook當時都退出了中國市場。

Q:中國科技企業(yè)的研發(fā)投入和創(chuàng)新都是跟隨型的,這里有哪些主要原因?

A:中國還是處于應用創(chuàng)新階段,它的特點就是性價比是最好的,因為引領創(chuàng)新的成本巨大,更別說其中有很多創(chuàng)新的嘗試是失敗的。對中國來說最大的好處在于它的不確定性和試錯成本都大幅降低了。GPT-2公開之后,你能大概知道它是怎么做的,成本多少,而且我們也知道1000億參數(shù)以上就會“涌現(xiàn)”出一些泛化和通用的智能,跟著做就行了。

大模型在C端有望開辟新的商業(yè)模式,尤其是訂閱制付費

Q:平臺經(jīng)濟的科技公司這兩年處于逆風狀態(tài),現(xiàn)在它們也紛紛做了自己的大模型,哪些公司更容易走出來?

A:我認為對這件事看得比較有耐心的是騰訊和字節(jié),除了已經(jīng)發(fā)布了大模型應用的大廠之外,這兩家比較值得期待,甚至可以期待做出世界級的應用產(chǎn)品。

Q:騰訊的價值邏輯是什么?

A:大家能想到的一些非常值得期待的應用,都能跟騰訊的產(chǎn)品有聯(lián)系,比如未來每個人都會有一個定制的模型或機器人去為他提供服務,那么微信就自帶這種場景;企業(yè)服務方面AI化的空間很大。

第二,在數(shù)據(jù)量角度看,中國在開源數(shù)據(jù)上有一個短板,目前僅憑漢語的公開數(shù)據(jù),無法訓練出GPT-3.5/4這樣的大模型。但國內(nèi)非公開、非開源的數(shù)據(jù)是不缺的,比如電商、知乎、小紅書、B站、微信公眾號、QQ生態(tài)及騰訊的一些游戲生態(tài)數(shù)據(jù),這些構成了非常有價值的語料和多模態(tài)數(shù)據(jù)庫。

第三,騰訊有自己的云,有十多億級用戶群,有應用場景。而且騰訊非常善于做產(chǎn)品,C端對AI產(chǎn)品目前還有一定的寬容度,所以只要騰訊推出大家能接受的產(chǎn)品,并在爭議和反饋中去快速迭代,產(chǎn)品體驗就可能會越來越好。

Q:字節(jié)除了視頻,還有什么優(yōu)勢?

A:首先,它正在獲取一流人才,原阿里達摩院大模型M6帶頭人楊紅霞加入了字節(jié),她可能是中國最好的語言生成模型科學家。另外,字節(jié)有得天獨厚的產(chǎn)品閉環(huán)。它的整個產(chǎn)品都建立在算法基礎之上,本身就是非常先進的人工智能。

字節(jié)已經(jīng)是國內(nèi)平臺公司中最大的云服務用戶,最近TikTok上開始推出抖索機器人;而現(xiàn)在很多人做多模態(tài)的文字生成圖片或文字生成視頻,就是為了放在抖音或TikTok上,字節(jié)的產(chǎn)品就是有些多模態(tài)生成式AI應用的歸宿。相比之下,其他公司花很大成本打磨技術、產(chǎn)品,但并沒有弄清楚用在哪里能掙錢。

Q:它們需不需要單獨考慮模型的商業(yè)模式,還是只是作為入口或免費應用?

A:我覺得這兩家公司優(yōu)先考慮的可能還是把大模型應用有效地集成到平臺上。就像谷歌這樣的大公司一樣,雖然它有技術,而且技術參數(shù)不比ChatGPT差,但它還是很慎重。

而且其實有人計算過,大模型的推理和搜索結合起來的成本很高,比如當GPT-4和Bing結合起來,體現(xiàn)為為每個搜索用戶提供免費的聊天機器人功能,每個query的成本可能會是提供單一搜索功能的5~10倍,所以谷歌推出了縮小版的聊天機器人Bard。縮小版是因為它也在測試,因為不確定聊天機器人服務帶來的成本,對搜索業(yè)務會帶來多少沖擊。

OpenAI已將Bing作為ChatGPT的默認搜索引擎,但Bing的流量增長最近也開始放緩了,所以微軟的搜索+聊天機器人的模式是否能顛覆現(xiàn)有搜索市場還需繼續(xù)觀望?,F(xiàn)在谷歌的搜索市場份額還不能被撼動。

Q:中國的用戶對ChatGPT這樣的產(chǎn)品不一定有付費習慣,我們應該把它理解為一個SaaS還是搜索類的免費工具?

A:B端收費提供API調(diào)用,大家都理解了。C端會跟免費搜索有不同的模式,免費搜索會面臨廣告越來越多,帶來不好的用戶體驗?,F(xiàn)在ChatGPT作為與搜索并列的應用已經(jīng)有幾個新方式出現(xiàn)了,ChatGPT對C端用戶有免費版和Plus版,API也有不少個人用戶。如果它再提供多模態(tài)功能,或者還有agent平臺的功能,能管理更復雜的任務,其實它也構成了一個SaaS訂閱模式,可以說是開辟了新的商業(yè)模式,我覺得大家也是可以接受的。所以向C端收費的模式,其實也可以做得起來。

Q:在垂直領域出現(xiàn)了像幻方AI這樣做大模型和算力儲備的公司,它們可能遇到的問題是什么?

A:幻方做得怎么樣,細節(jié)我們并不清楚,但是金融領域我們分析過一個典型的彭博的例子。彭博有很大的金融類數(shù)據(jù)量,它可以用自己的數(shù)據(jù)來訓練獨有的模型,但彭博又做了一個通用大模型,我們稱之為一種防守反擊策略。也就是它防止別人基于GPT-4來侵入它的金融模型;同時,它的用戶進入其生態(tài),如果希望用通用的大模型,它也可以滿足這種需求。彭博現(xiàn)在還在不斷優(yōu)化。與彭博相比,幻方并沒有這么大的數(shù)據(jù)量,如果用自己的算力優(yōu)勢進行高通量的高頻交易,它會面臨監(jiān)管問題。

用大模型能做好的主要是提升投研的效率,因為知識密集型的勞動對自動化的要求很高。第二,它還可以建立一些策略,因為它可以用生成式人工智能的方法去做一些預測。但這跟彭博的大模型是有所不同的。獨有的數(shù)據(jù)量是一個關鍵問題。當然,如果幻方囤卡不少,硬做通用大模型,那是另外一回事。

手機移動端的“認知階段”,移動端的定制化大模型將催生硬件創(chuàng)新

Q:除了數(shù)據(jù)量,算力會成為挑戰(zhàn)嗎?

A:中國已經(jīng)出現(xiàn)了“百模大戰(zhàn)”,其實AI算力是很緊張的,北京市政府印發(fā)的《促進通用人工智能創(chuàng)新發(fā)展的若干措施》,第一條主要內(nèi)容就是提升算力資源統(tǒng)籌供給能力。從我們遇到的案例看,有大型國有金融機構,要為它的保險經(jīng)紀業(yè)務引入生成式人工智能,比如有場景是每個保險代理配一個虛擬機器人,以提升服務體驗和效率。他們找能夠訓練大模型的科技公司幫助訓練模型,但是遇到了算力瓶頸。由此,這種算力瓶頸會從基礎大模型延伸到應用領域。

Q:算力缺口還是整體存在的。

A:大模型的訓練包含訓練和推理兩個部分,訓練的部分更好解決,它不是低延時高并發(fā)的,訓練是一個月還是兩個月完成的時間問題,不行大家還可以排隊。還有一種方式是利用分布式算力訓練,通過東數(shù)西算等統(tǒng)籌算力方式也可以幫助解決。

但如果你都訓練和部署好了,上百個大模型開始大規(guī)模應用,這時推理的并發(fā)又滿足不了。所以在推理階段,大家的使用量如果上來了,對算力的要求更高。中國的算力雖然整體不缺,但結構上有問題,也就是圍繞人工智能的推理的高性能算力比重較小。

Q:相比于算力、算法和數(shù)據(jù),中國公司對于具體應用場景的理解能力和技術應用商業(yè)化能力都更突出,但對于通用型AI來說,這種“技術+應用”的路徑和此前移動互聯(lián)網(wǎng)時代最大的區(qū)別是什么?

A:人工智能和移動互聯(lián)網(wǎng)的發(fā)展并不能割裂來看。因為移動互聯(lián)網(wǎng)產(chǎn)生的自然語言數(shù)據(jù)、云計算模式等都是大模型訓練的基礎。以智能手機來看,雖然它已經(jīng)實現(xiàn)了很多功能,但手機聯(lián)網(wǎng)加初步的感知智能,過去其實還處于感知的階段,而現(xiàn)在我們進入到認知階段,智能手機要變得真正智能,值得“再做一遍”。

Q:所以硬件整合是通用AI應用于移動端的一個必然選項?

A:我們最近看了些資料,其中一些觀點值得探討:1)手機上所有的應用都可能是一個垂直領域的大模型;2)很多人都希望自己的手機能部署一個定制化的大模型,那就需要硬件來支撐,但現(xiàn)有的硬件是不支持的,我們又需要硬件的創(chuàng)新,這包括手機從底層芯片到操作系統(tǒng)、到應用程序的改變。所以我們說再做一遍是極有可能的。而基于AI的通用技術,手機和電腦上的任務,未來都可以打通應用自動化地完成。

除了手機,在移動端還有物聯(lián)網(wǎng)將對硬件產(chǎn)生創(chuàng)新。物聯(lián)網(wǎng)是更典型的感知形式。未來分布在各地的傳感器把感知到的物理世界的信息搜集好,在云、邊、端的不同層面的大模型去調(diào)用,物聯(lián)網(wǎng)也會進入認知時代。

Q:你看到的中國公司中,哪些商業(yè)化方向大家能形成共識、哪些大家存在爭議?

A:在我接觸到的企業(yè)投資機構那里,我感覺越往應用層,大家共識越大。

第一,在有較多共識的創(chuàng)意、電商、企業(yè)服務、專業(yè)服務等領域,大家已經(jīng)比較堅定地看好和使用生成式AI。

第二,投資機構比較看重的是有好的場景、成熟的業(yè)務深度和豐富的數(shù)據(jù)積累和大模型結合起來的應用領域。大家都在尋找?!吧弦淮比斯ぶ悄芄救缯Z音識別和圖像識別的公司有很多并沒有殺出來,主要是它們雖然看似在任何一個場景都能通用,但業(yè)務深度還不夠,所以現(xiàn)在有的公司開始聚焦,譬如醫(yī)療健康等場景中的某些環(huán)節(jié),或者在語音、視覺等領域用生成式人工智能加持。

第三類是大模型訓練和應用的中間態(tài)公司,是所謂的“賣鏟子”的公司,中國還不多,但我相信未來會有這樣的公司浮出水面,它們的價值很大。其中包括數(shù)據(jù)標注、數(shù)據(jù)的向量化、模型算法的優(yōu)化等等,標注更初級一些,而數(shù)據(jù)向量化公司在美國的估值現(xiàn)在很高,因為大模型訓練后,尤其對多模態(tài)數(shù)據(jù),向量化是必須進行的一步。

基礎層的大模型,國內(nèi)的幾家科技巨頭自己在做,仍然是跟著美國的幾個大模型在走,雖然現(xiàn)在很多產(chǎn)品在接近GPT-3.5的水平,但國內(nèi)進步的同時國外也在進步,差距依然存在,所以反而有些基礎模型,尤其是對C端的應用,引起了不少爭議。

備注

在人工智能領域,涌現(xiàn)(Emergence)指的是在計算機系統(tǒng)或人工智能模型中,通過簡單的規(guī)則或局部交互產(chǎn)生出復雜的整體行為或屬性的現(xiàn)象。

在人工智能中,涌現(xiàn)是指在模型或系統(tǒng)中,通過對輸入數(shù)據(jù)進行處理、學習和推理等過程,產(chǎn)生出超出預期的、復雜的、新穎的行為或特征。這些行為或特征并沒有被顯式地編碼或設計,而是通過模型的內(nèi)部機制自發(fā)地涌現(xiàn)出來。

涌現(xiàn)在人工智能中可以表現(xiàn)為以下幾個方面:

高級的智能行為:通過大規(guī)模的數(shù)據(jù)訓練和模型優(yōu)化,人工智能系統(tǒng)可以表現(xiàn)出對語言、圖像、音頻等多種輸入數(shù)據(jù)的理解和處理能力。這包括自然語言處理、圖像識別、語音識別等任務,在其中涌現(xiàn)出了復雜的智能行為。

新穎的解決方案:在人工智能系統(tǒng)中,通過學習和優(yōu)化的過程,模型可以發(fā)現(xiàn)新穎的解決方案和方法,超出了傳統(tǒng)編程所能預先設定的范圍。例如,生成對抗網(wǎng)絡(GAN)可以生成逼真的圖像和音頻,這種能力是通過模型內(nèi)部的對抗訓練過程涌現(xiàn)出來的。

自適應和自學習:人工智能系統(tǒng)具有自適應和自學習的能力,通過與環(huán)境的交互和反饋,系統(tǒng)可以調(diào)整自身的參數(shù)和策略,以適應不斷變化的情況。這種自適應和自學習的能力涌現(xiàn)出了系統(tǒng)在新任務和環(huán)境中的適應性和智能性。

涌現(xiàn)在人工智能中是一種有益的現(xiàn)象,它展示了模型在處理復雜問題時具有的自發(fā)性、創(chuàng)造性和適應性。通過利用涌現(xiàn)現(xiàn)象,人工智能系統(tǒng)可以更好地應對復雜任務和現(xiàn)實世界的挑戰(zhàn)。但是對于涌現(xiàn)的科學機制還需要進一步研究。一些專家認為涌現(xiàn)也可能導致大模型應用在對話中產(chǎn)生幻覺。

(備注部分來源:ChatGPT,經(jīng)過核實編輯)

本文來自微信公眾號:明亮公司(ID:suchbright),作者:羅賓,嘉賓:周健工(未盡研究創(chuàng)始人)

關鍵詞:

最新文章