來源:今日熱點網(wǎng)
11月12日,由成都市經(jīng)信局市新經(jīng)濟(jì)委主辦,雨前顧問承辦的2024人工智能產(chǎn)業(yè)CEO大會暨人工智能賦能新型工業(yè)化供需對接活動在成都舉行。
大會上,清華大學(xué)教授、人工智能研究院視覺智能研究中心主任鄧志東以“AI源動力·解析產(chǎn)業(yè)發(fā)展新趨勢”為題進(jìn)行了精彩的演講,其中特別對如何聚焦大模型應(yīng)用、發(fā)展具身智能面臨的挑戰(zhàn)以及L4自動駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)等,闡述了自己的思考。
鄧志東強(qiáng)調(diào),大模型的價值在于其實際應(yīng)用。大模型只有在多樣化的實際應(yīng)用場景中賦能智能經(jīng)濟(jì)與智能社會的發(fā)展,才能找到真正的產(chǎn)業(yè)價值,也才能成就大模型自身性能的迭代演進(jìn)。在大模型與智能體的應(yīng)用及落地過程中,我國在應(yīng)用場景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢,才會充分體現(xiàn)出來,形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式,以此重建我們在AI大模型時代下的新優(yōu)勢。
鄧志東還認(rèn)為,生成式人工智能正從數(shù)字領(lǐng)域拓展至真實物理世界,賦能智能制造、自動駕駛、人形機(jī)器人、智能座艙、無人機(jī)、個人電腦及手機(jī)等物理系統(tǒng),強(qiáng)力推動制造業(yè)與實體經(jīng)濟(jì)的發(fā)展。
以下為鄧志東演講精華版:
一、聚焦大模型應(yīng)用,形成中國人工智能發(fā)展新優(yōu)勢
人工智能的發(fā)展路徑經(jīng)歷了從單模態(tài)的文本大型語言模型,迭代到如今快速發(fā)展的多模態(tài)大型語言模型,再到多模態(tài)的具身智能,這里的具身是指增加了移動與操作等動作能力。最后會進(jìn)一步發(fā)展到交互式的通用人工智能,增加與世界的交互。在這個發(fā)展路徑中,最重要的問題是要通過大模型的實際應(yīng)用來發(fā)展。
大模型的價值在于其實際應(yīng)用。只有通過多樣化的應(yīng)用場景,賦能智能經(jīng)濟(jì)與智能社會的發(fā)展,才能找到大模型真正的產(chǎn)業(yè)價值,同時也才能成就大模型自身的迭代演進(jìn)。生成式人工智能目前正在從數(shù)字空間或互聯(lián)網(wǎng)空間走向真實的物理世界,賦能包括智能制造、自動駕駛、人形機(jī)器人、智能座艙、無人機(jī)、個人電腦、手機(jī)等在內(nèi)的真實物理系統(tǒng),從聊天問答等互聯(lián)網(wǎng)空間的任務(wù)走到真實的世界里,可以助力制造業(yè)與實體經(jīng)濟(jì)的發(fā)展。
大模型應(yīng)用有三條較為現(xiàn)實的實現(xiàn)路徑。一是大模型的應(yīng)用需要不斷提升基座大型語言模型,特別是多模態(tài)通用大語言模型的能力上限,同時聚焦行業(yè)原生多模態(tài)大模型的發(fā)展,實現(xiàn)原始創(chuàng)新。但這需要巨頭企業(yè)的長期持續(xù)投入,原因是基礎(chǔ)與通用大模型需要超大規(guī)模的數(shù)據(jù)和算力支撐。
二是大模型的應(yīng)用需要特別關(guān)注利用現(xiàn)有的高性能多模態(tài)通用大型語言模型進(jìn)行微調(diào)。通過不斷的微調(diào)和產(chǎn)業(yè)部署,用較小的AI算力,構(gòu)建針對特定任務(wù)的專用模型,從而解決成千上萬種不同類型的任務(wù)。人工智能的核心在于完成一個個從簡單到復(fù)雜的具體任務(wù)。因此,我們需要選擇合適的高性能多模態(tài)通用大型語言模型,并掌握各種高效的微調(diào)方法。具體而言,微調(diào)方法包括監(jiān)督微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)和AI反饋強(qiáng)化學(xué)習(xí)(RLAI)等,也根據(jù)范式的不同,一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。我們需要根據(jù)不同的任務(wù)挑戰(zhàn)性,選擇合適的高效微調(diào)方法。
三是大模型的應(yīng)用需要聚焦智能體新技術(shù)新范式新導(dǎo)向的發(fā)展。例如,通過積極的創(chuàng)新實踐和產(chǎn)業(yè)落地,利用性能先進(jìn)的原生多模態(tài)通用大模型,探索智能體一體化端到端的新范式,比如自動駕駛、通用人形機(jī)器人,就在不斷創(chuàng)新實踐這些新范式,也必將進(jìn)一步增強(qiáng)制造業(yè)的競爭能力。
通過這些路徑,推動人工智能賦能新型工業(yè)化,形成新應(yīng)用、新業(yè)態(tài)、新優(yōu)勢。大模型應(yīng)用既需要頭部企業(yè)直接發(fā)展行業(yè)原生多模態(tài)大語言模型,形成基礎(chǔ)能力,同時更需要眾多制造企業(yè)或中小型創(chuàng)新企業(yè),面向垂域或特定任務(wù),基于現(xiàn)有的多模態(tài)通用大模型微調(diào)訓(xùn)練出專用模型,大力推動千行百業(yè)垂域?qū)S媚P偷漠a(chǎn)業(yè)落地,從而通過場景應(yīng)用創(chuàng)新與產(chǎn)品研發(fā),打造國際一流的大模型應(yīng)用生態(tài),賦能智能制造與新型工業(yè)化的發(fā)展。
在大模型的應(yīng)用落地過程中,我國在應(yīng)用場景多樣性、應(yīng)用落地速度、數(shù)據(jù)的豐富程度以及商業(yè)模式構(gòu)建上的優(yōu)勢,才會充分體現(xiàn)出來,形成可持續(xù)發(fā)展的大模型新應(yīng)用、新業(yè)態(tài)、新模式,以此重建我們在AI大模型時代下的新優(yōu)勢。
從更大尺度上看,人工智能可分成弱人工智能-通用人工智能-強(qiáng)人工智能-超級人工智能等不同的演化階段,目前我們正處于通用人工智能的早期階段,全球范圍的大模型應(yīng)用,一切才剛剛開始!
二、挑戰(zhàn)與機(jī)遇:賦能智能制造的具身智能體
聚焦具身智能發(fā)展面臨的挑戰(zhàn),尤其是如何通過具身智能賦能智能制造,我想在這里分享一下我的看法。
首先是實現(xiàn)路徑的選擇。具身智能的實現(xiàn)路徑已經(jīng)從單純的感知空間或觀察空間,進(jìn)一步延伸到了動作空間,尤其是感知空間與動作空間之間的相互關(guān)系和相互作用。這就涉及到從感知空間到動作空間的決策推理能力,涉及到所謂的單段式一體化具身智能體研發(fā)范式。
具體來說,通過對兩大空間、三大任務(wù)的模型微調(diào),可賦予具身智能體聽、說等感知與理解能力,決策推理能力以及移動與操作能力。換句話說,首先要進(jìn)行具身的理解,然后進(jìn)行具身的推理,最后進(jìn)行具身的動作生成。有了這三大微調(diào)模型,可以進(jìn)一步生成更多的下游微調(diào)模型。顯然這里的核心能力是決策或邏輯推理能力。微調(diào)的訓(xùn)練方法需要選擇合適的技術(shù)路線,主要包括監(jiān)督微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)和人工智能大模型反饋學(xué)習(xí)(RLAI)。此外,根據(jù)不同的范式,高效微調(diào)方法一般分為提示微調(diào)和參數(shù)微調(diào)兩大類。提示微調(diào)既有以自然語言方式進(jìn)行的,如思維鏈(CoT),也有在連續(xù)隱含空間基于學(xué)習(xí)方式進(jìn)行的,而參數(shù)微調(diào)則對模型的全部或部分參數(shù)進(jìn)行微小調(diào)整,目前研究更多更深入。
其次是物理AI面臨的技術(shù)挑戰(zhàn)。大模型在實際應(yīng)用中可能會遇到一些技術(shù)難題。具身智能在完成任務(wù)時,不僅有成功率的問題,還會出現(xiàn)幻覺現(xiàn)象。這包括事實性幻覺和上下文不一致幻覺。事實性幻覺?是指大模型生成的內(nèi)容不符合常識,甚至捏造信息;上下文不一致幻覺是指大模型生成的回復(fù)或下文與用戶上文的指令不一致,也就是答非所問。
對于具身智能而言,這些幻覺可能會導(dǎo)致時空錯亂,特別是在自動駕駛和人形機(jī)器人等實際應(yīng)用場景中,可能會給用戶帶來安全風(fēng)險。目前這一領(lǐng)域正迎來新的發(fā)展,各種方法層出不窮。但大模型的幻覺或許只能緩解,不能說已經(jīng)完全消滅了。
為了緩解幻覺問題,可以采取以下三種措施:一是提高訓(xùn)練數(shù)據(jù)的質(zhì)量?。在預(yù)訓(xùn)練和微調(diào)階段通過數(shù)據(jù)清洗和篩選,確保數(shù)據(jù)的準(zhǔn)確性和一致性,但制造業(yè)中高質(zhì)量訓(xùn)練數(shù)據(jù)的采集效率,是一個較大的技術(shù)挑戰(zhàn)。二是引入糾錯機(jī)制?。在大模型的生成過程中需要加入糾錯機(jī)制,以防止錯誤信息的傳播與積累。三是優(yōu)化模型結(jié)構(gòu)?。通過不斷改進(jìn)模型結(jié)構(gòu),使其能夠更好地處理各種復(fù)雜任務(wù)和多種輸入類型?。
最后是改變研發(fā)范式的新機(jī)遇。我們看到了具身智能體在新范式和新導(dǎo)向方面的一些重要機(jī)遇。第一個機(jī)遇是從視覺-(文本)語言模型(VLM)發(fā)展到視覺-語言-動作模型(VLA)。傳統(tǒng)的VLM主要依賴視覺和文本語言,而現(xiàn)在的VLA不僅增添了深度視覺和語音能力,還增加了動作能力,也就是從感知空間或觀察空間延伸到了動作空間。這種擴(kuò)展使模型能夠真正基于高級的決策推理,從而更好地賦能落地應(yīng)用與產(chǎn)業(yè)發(fā)展。具體來說,智能體的輸入端包括一幀一幀的圖像和(文本)任務(wù)要求;輸出端則是各種動作。例如在自動駕駛中,輸入是圖像幀與本體感知,而大模型與智能體可以直接生成方向盤的轉(zhuǎn)角、油門的開度和剎車的制動量。這些都特別像人類的大腦跟小腦的關(guān)系,所以也稱之為大腦模型與小腦模型。這里大腦皮層模型負(fù)責(zé)視覺與體感處理,擁有類似人類的視覺通路和本體感知。本體感知是指智能體對自己狀態(tài)的感知,包括導(dǎo)航信息等。通過視覺與本體感知獲取多模態(tài)信息后,智能體會在前額葉進(jìn)行決策推理,然后將決策結(jié)果輸入到運動皮層,運動皮層再將信號傳遞給小腦模型。小腦模型負(fù)責(zé)維持具身智能體的精細(xì)平衡和協(xié)調(diào),對應(yīng)于我們這里的動作空間。
第二個機(jī)遇是從多段式方法向單段式方法的轉(zhuǎn)變。傳統(tǒng)的多段式方法將感知、預(yù)測、決策、規(guī)劃和控制人為地分段處理,以此構(gòu)成多個閉環(huán)。然而,最新的發(fā)展范式不再采用人為分段的方式,而是采用單段式方法,就像人的大腦一樣,一個大腦可以解決所有問題,最多與小腦合體,成為一個一體化的單一模型。這種最新的智能體范式被稱為自動駕駛2.0,其特點是引入了基于學(xué)習(xí)的決策與規(guī)劃。
三、產(chǎn)業(yè)發(fā)展新趨勢:L4自動駕駛與通用人形機(jī)器人的協(xié)同演進(jìn)
人工智能產(chǎn)業(yè)的發(fā)展新趨勢在于通用與泛化,這是所有具身智能體追求的最高目標(biāo)?!巴ㄓ谩币馕吨軌驊?yīng)對各種環(huán)境與任務(wù)的變化,而不是局限于固定的操作對象與某一特定任務(wù)。人是這方面的最高標(biāo)桿。泛化則指跨場景、跨領(lǐng)域的廣泛應(yīng)用,能夠在任何環(huán)境中適應(yīng)和可靠運作。本質(zhì)上這是一個什么問題呢?其實就是一個環(huán)境的適應(yīng)性和自主性問題,也就是什么樣的環(huán)境都可以自主適應(yīng)。時空大變化之后,如何提高智能體的復(fù)雜邏輯推理能力是當(dāng)前研究的重點。這里需要研究各種增強(qiáng)技術(shù),如提示增強(qiáng)、檢索增強(qiáng)(RAG)、知識增強(qiáng)和邏輯增強(qiáng)技術(shù)等,以提升多模態(tài)大模型與智能體的性能。
通用人形機(jī)器人與L4自動駕駛是典型的具身智能代表,二者可以相互協(xié)同演進(jìn)。我們看到像Cybercab(特斯拉無人駕駛出租車)與Optimus(特斯拉人形機(jī)器人)的問世,至少表明了目前最新發(fā)展的這種單段式的或者叫單模型的端到端的自動駕駛技術(shù)在真實世界的成功實踐,證明了這條路徑是可以走得通的。未來能夠完全進(jìn)行大規(guī)模產(chǎn)業(yè)落地,我相信只是一個時間的問題。
首先是高級別的自動駕駛的規(guī)?;涞貞?yīng)用,即大模型+自動駕駛。采用徹底的端到端解決方案,基于視覺大模型VLA,通過少量編程,實現(xiàn)類似人類的駕駛技巧學(xué)習(xí)。其次是高級別自動駕駛的降維應(yīng)用,也就是大模型+通用機(jī)器人。把大語言模型帶入通用人形機(jī)器人,必將加速通用人形機(jī)器人的大發(fā)展,后者的產(chǎn)業(yè)化應(yīng)用,也會反過來助推L4自動駕駛的技術(shù)進(jìn)步。更多的人形機(jī)器人會首先走向制造業(yè)的生產(chǎn)線,實現(xiàn)無人化的自動化車間與工廠,即所謂的“黑燈工廠”,也就是可實現(xiàn)完全無人化生產(chǎn)的工廠。另外自動駕駛的大規(guī)模商業(yè)化落地,可望推動人形機(jī)器人的加速發(fā)展,催生人類-機(jī)器人共融社會的形成與演進(jìn),為未來智能生產(chǎn)與智能生活的發(fā)展,構(gòu)建出新的無限可能。
總之,應(yīng)該說我們現(xiàn)在的大模型應(yīng)用其實做的事情就是在模仿學(xué)習(xí)。模仿人類,把人類所有寫的小說、產(chǎn)生的圖像都作為一個標(biāo)桿來模仿,模仿以后進(jìn)行所謂的強(qiáng)化學(xué)習(xí)。長上眼睛了,長上耳朵了,有了手,有了腳,就可以進(jìn)入到生產(chǎn)與生活的實踐角色之中。進(jìn)入這些社會角色后,通過與環(huán)境、與其他智能體和與人類進(jìn)行交互式學(xué)習(xí),就可以催生出超強(qiáng)的交互式多模態(tài)智能體,就可能產(chǎn)生出“青出于藍(lán)而勝于藍(lán)”這么一個效果?;旧衔覀儸F(xiàn)在看人工智能的發(fā)展,這個路徑就是在模仿學(xué)習(xí)的基礎(chǔ)之上,利用深度強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法,在虛實平行世界中實現(xiàn)更高效率的自主探索學(xué)習(xí),獲得接近或?qū)R人類智能的能力,從而實現(xiàn)人-機(jī)共融,賦能智能經(jīng)濟(jì)與智能社會的大發(fā)展。
關(guān)鍵詞:
創(chuàng)2007年以來最低值!人民幣怎么了,還能漲回來嗎?
文 邱牧子進(jìn)入9月份,人民幣對美元匯率走勢又起波瀾。以在岸人民幣為例
老公醉酒出上聯(lián):“抱貂蟬,遇貴妃,問昭君,想西施”,老婆下聯(lián)牛
?圖片源于網(wǎng)絡(luò)如有侵權(quán)請及時聯(lián)系文末點擊在看感謝支持??
魔獸世界德魯伊變熊任務(wù)攻略 魔獸世界德魯伊變熊任務(wù)
1、放棄是可以再接的,你看你放棄的是哪一步,就去找哪一步給任務(wù)的那
張九齡詩《西江夜行》楷書全文,切切故鄉(xiāng)情。
西江夜行張九齡〔唐〕遙夜人何在,澄潭月里行。悠悠天宇曠,切切故
打破開發(fā)商壟斷的“集資建房”模式,為何如此難以落地?
打破開發(fā)商壟斷的“集資建房”模式,為何如此難以落地?,住宅,開發(fā)商,
關(guān)于我們 加入我們 聯(lián)系我們 商務(wù)合作 粵ICP備2022077823號
創(chuàng)氪網(wǎng) www.m.cn-everich.com 版權(quán)所有 技術(shù)支持:廣州中創(chuàng)互聯(lián)網(wǎng)信息服務(wù)有限公司
投稿投訴聯(lián)系郵箱:317 493 128 @qq.com