Meta7月19日在其官網宣布大語言模型Llama2正式發布,這是Meta大語言模型的最新版本,也是Meta首個開源商用的大語言模型,同時,微軟Azure也宣布了將與Llama2深度合作。
根據Meta的官方數據,Llama 2 相較于上一代其訓練數據提升了40%,包含了70億、130億和700億參數 3個版本。Llama 2 預訓練模型接受了 2 萬億個 tokens 的訓練,上下文長度是 Llama 1 的兩倍,其微調模型已經接受了超過 100 萬個人類注釋的訓練。
【資料圖】
其性能據說比肩GPT-3.5,也被稱為開源最優的大模型。消息一經發布,媒體與業界甚至給出了Llama2開源商用,即將改變大模型領域競爭格局的論斷。這件事的影響究竟有多大?即將給產業帶來什么樣的影響?我們邀請兩位業界人士聊了聊,一位是利歐集團數字科技有限公司產品研發中心副總經理周崧弢,他帶領團隊幾乎評測了國內外主流的大部分大模型;另外一位是安信元宇宙研究院院長焦娟,多年一直深度觀察國內外的科技產業生態。
以下為兩位的主要觀點:
① Llama2在模型參數、時間消耗、算力消耗等方面綜合考慮,與GPT-3.5對比是有底氣的。
② 生成式人工智能會給整個開源體系帶來天翻地覆的變化。
③ 未來一段時間內,開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。
④ Llama2的商用開源不一定會降低創業者使用大模型的成本,但是有可能引起大模型服務商開始打價格戰,這對于應用者和創業者來說是個好消息。
⑤ 海外巨頭在AI領域的競爭,已經不太像是發展第二曲線這么簡單,競爭激烈而決絕,甚至有點保命的味道,背后的原因值得深思。
以下為對話內容精選:
騰訊科技:從行業從業者或應用者角度,如何去評測一個大模型?
周崧弢:國際上用的比較多的大模型評測框架是MMLU,它考慮了57個學科,從人文到社科到理工多個大類的綜合知識能力,我們大多數情況也是基于這個框架來評測。但是我們的行業是廣告業,基于廣告業的屬性,會增加一些其它的評測項目。
我們在集團的管理會上也說過,廣告業的重點不在于創造力,而在于控制。生成的結果一定要和廣告主、它的產品性能、外觀、logo等,有100%的還原。在這些還原達成之后,才能有發散和想象的空間。所以我們會針對于大模型的幻覺的控制,去做單獨的測試。但是絕大多數市面上的大語言模型及圖片生成的擴散模型,都很難百分百滿足廣告主的需求。通用大模型被發布之后,離完全商用還有很長一段路要走。
另外,我們考慮的最重要的就是成本問題:閉源模型有直接的報價體系,我們一般會衡量千Token的費用。對于開源模型來說,要測算的環節更多,從部署到精調到最后上線進行推理,算力消耗成有多少,維護開源模型投入的開發成本、數據成本有多少。
大模型質量反饋加上成本的估算,我們就能形成一個對模型的評價,簡單一句話就是,性價比越高,越受歡迎。
焦娟:從我們的角度來講,更看重的是如何去定義一些垂直方向的需求。因為全球范圍來講的話,不管是硬科技公司還是互聯網公司,真正有能力去定義需求的可能不會特別多,所以這個命題就可以轉換成——大模型公司自己能不能去定一些垂類的細分方向的需求,如果不能的話,能否聯合生態合作伙伴探索出比較好的垂類方向。當然,如果某些公司自己能夠在特定的方向中有自身的數據積累、經驗積累那會更好。這是我們的視角,從應用、定義垂類細分行業需求的角度。
騰訊科技:Llama2在性能上真的可以超越或比肩GPT-3.5嗎?
周崧弢: 針對Llama2的大模型還在評測中,大約需要2周的時間。但是從我們對于論文的學習,和目前已經進行的一些簡單的評測中,可以講一些大概的比較。
在預訓練的階段和GPT原來的模式有幾點不同,而且這些改變,之前其它模型公司都沒有做過。首先就是在預訓練階段,將傳統Transformer的多頭注意力機制,改變為分片群組的機制。有點類似或模仿我們原來在做大數據處理的時候,處理大規模并行數據的時候,所用的分片的技術。把大量的Attention需要的Query(請求)一組一組成組起來,每個組放到一個訓練單元里面去,這樣并行的效率和速度,理論上是會大幅提升。這部分我覺得是Meta在之前大規模并行處理經驗上,做出的一個新的改變。
基于這個改變,我覺得他們理論上在算力的需求和時間消耗上,比現有的大模型要提升很多倍。我預估Llama2按照他們的說法,是一月份就開始做,按照發布時間來計算,比Llama1的預訓練時間應該要短,因為它的參數量比Llama1要大。這樣的話,多輪訓練的可能的這個周期是被壓縮的。這和論文中所提到的GQA密切相關。在這一點上,應該是超過了GPT4的,雖然我們不知道GPT-4具體是多少,但是根據外界猜測,GPT-4是遠高于GPT-3和GPT-3.5的。
對GQA,我們目前覺得,GQA的處理方式對于有足夠算力卡,特別是有GPU并行算力資源的用戶來說,的確可以提高訓練速度。不過測試和同行測評發現這個功能對算力池規模和硬件要求很高,因為眾所周知的原因,中國內地的開發者擁有大規模GPU并行算力資源的少,所以GQA可能會對我們來說是雞肋。
另外第二點,在調整階段,我們知道GPT體系在歸一化的時候,都做了層化的數據處理,使得數據訓練的結果很精確,但是也非常消耗算力。但是Llama2用了不一樣的方案,就是在分層處理的基礎上又加了權重系數,這樣對于效率的提升和準確度維持是很有幫助的,對算力的節約也是有幫助的。這兩點是在預訓練階段所做的優化。
另外論文中也提到,Llama1的Embedding位置是固定的,不能修改。但是在Llama2中,這是可以動態調整的,這也是一個亮點。這個我們也很感興趣,想知道究竟能產生什么樣的實際效果。
除了這些,Llama2很明顯吸收了Llama1及GPT系列的一些工程化經驗,就是在RHLF階段的成功經驗都復用了,應該會有很大的改善。
最后就是比參數,目前看到的就是它自己在官網上公開的那些參數。包括它的人工強化反饋的參數大概有100多萬,精調的部分達到十幾萬。這些參數的話,他敢放出來就意味著,Meta在模型參數、時間消耗、算力消耗等方面綜合考慮,是有底氣的。
騰訊科技:為什么商用開源的門檻設定到了月活躍用戶數不超過七個億?
焦娟:開個玩笑,我覺得這個規定還是“很敞亮的”——Meta打出了一張明牌,既然防不住別人去研究,那就干脆放開。本質上是內部博弈的一種結果。Meta的財務指標從2021年初就不是太好了,所以一直也在尋找第二增長曲線。2021年10月Meta改名,All in 元宇宙,但是并沒有看到太實質的起色。它推出現在的大模型,是可以與自身的硬件融為一體的。相當于打出來一張明牌,既要硬件、又要軟件、又要操作系統,希望能在AI時代有自己的一席之地,但是開源的同時,也不希望能夠太有利于競爭對手。大家可以看到,7億月活的產品有YouTube 25億、蘋果 18億、微軟 14億、三星 10億、領英 9億、Snapchat 7.5億等。
騰訊科技:商用開源和研究授權究竟有什么本質不同?對開源生態可能會有什么不同的影響?
周崧弢: 大語言模型爆發之后,開源這件事情也變得很復雜,大家對于開源的定義和這個規則做了很多的調整。會涉及到你是算法本身開源、數據研究開源等等。對于現在新的語言模型或者是生成式模型的整體的開源的判斷:第一是要看它的算法代碼是不是開源,然后看它的訓練數字集會不會開源出來。第三看基于開源算法,如果我做了精調或者是其它處理,你的授權政策會有什么樣的約束。第四就是使用你的模型推理出來的結果,模型方是不是有控制權。我們一般從這幾個方向來判斷,這個模型的“開源”對我們是否真的有應用價值。
關于研究開源和商業開源,我記得最典型的例子就是Stability AI這家公司,我記得LLama2開源前的兩周,StabilityAI的XL那個版本也發布了,就是只有研究授權開源,明確規定,可以用模型和數據去做研究,比如你是研究員或者是屬于某所高校,但是如果用這個模型去做商業化,是完全禁止的,需要單獨申請授權才有可能使用。
大模型的開源授權,我覺得和原來開源的那套邏輯已經有很大變化,環節和流程設置得非常細,有可能生成式人工智能會給整個開源體系帶來天翻地覆的變化。
騰訊科技:Llama2的商用開源,會對大模型的競爭格局造成什么樣的影響呢?
焦娟:海外巨頭的競爭中,有一個風格,就是要讓自己的產品和服務有辨識度,所以Meta叫元宇宙,蘋果一定要叫新宇宙,別人閉源,我就要占領開源。過去的開源,可能是有自由情懷的極客去做的事情,思路也比較簡單。而現在如此大的商業體去主導這件事,更多還是商業利益上的考慮。
周崧弢:我認為整個生成式人工智能這個體系競爭格局的三要素——算力、算法、模型,還是沒變。其實模型只占三分之一的競爭因素,模型改變的話,最多只能改變三分之一或者比三分之一多一點,我估計樂觀一點,可能到45%左右。
國內和國外的格局還是不太一樣,國外算法層面的格局比較明顯。國外的數據基本是被清洗過和被矢量化過的,訓練數據集已經很充分了,在數據方面的競爭優勢不明顯,除非你具有某個行業的專有數據。算力也不是國外巨頭能拉開差距的地方,巨頭其實都有實力去拼算力。
首先,國內擁有核心底層算法的公司其實很有限;第二,國內的數據,被清洗程度、矢量化程度其實是不高的。早期如果投入大量的力量做數據的結構化處理的公司,其實它可以彌補在算力、在算法上面的不足。第三,國內其實是短期之內是缺算力的。所以LLama2開源對于國內的格局的影響,目前來講并不好判斷。
再說回國外,整個生成式人工智能里面,谷歌才是真正的先驅,然后他差點就被搞成先烈了。就是因為整個生成式人工智能的源出論文就是《Attention is all you need》,然后包括最早的開源模型T5其實都是谷歌的。曾經谷歌也是笑傲群雄。不料后來殺進了一匹黑馬OpenAI,最早GPT-1、GPT-2都是開源的,GPT-3開源之后又閉源了。當OpenAI進場的時候,開源才是整個生成式人工智能的主流。
OpenAI這個時候找到了微軟,也擁有了很貴的算力,成了谷歌強有力的競爭對手。2022年開始,生成式人工智能這個市場,就開始進入到閉源的體系中。OpenAI從掌握算法,加上微軟的算力、數據,閉源打造產品,產品又成了現象級的爆款,微軟和OpenAI都從中獲益。我認為Meta開始決定進入到這個領域的時候,估計也是從頭開始仔細研究了發展歷史,既然看到了OpenAI從開源領域撤回到閉源,那我還是用開源的方式,再重新打敗你的魔法。
在這之前,Meta也看到了幾家小公司開源之后的生命力,特別是Stability AI,這家公司并沒有深厚的根基,要錢沒錢、要技術沒技術,突然之間殺出來的,雖然這家公司現在還是有很多的爭議。
我記得Llama1是3月份就是對外宣布開源,當時還說是“不小心開源的”,然后Stability AI也說我是不小心把代碼泄露了,所以也開源了。整體路徑是,谷歌奠定了開源的基調,然后OpenAI和微軟又把它折回到閉源的體系里面,然后Meta和Stability AI又把它又放到了開源里面,我覺得未來一段時間內,開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。
騰訊科技:Meta開源Llama2是迫不得已還是主動戰略選擇?
焦娟:肯定是主動戰略選擇,因為本身Meta、微軟、谷歌三家在AR領域主要的三個競爭對手,混戰了大概有十幾年。Meta很快地推出了LLama2,至少比谷歌要快。開源和閉源的選擇,都不會脫離掉本質的一些利益訴求,所以說徹底改變競爭格局,我覺得可能意義沒那么大。第二就是國內的情況不太一樣,所以國內的競爭格局要再觀察一下。
不管是開源還是閉源,本質上就是全球這幾家公司彼此之間在新的大機遇面前的戰略選擇。在發力布局眼前的時候,還希望盡可能去攻占比爾呢的腹地。海外巨頭的競爭,都已經不太像是發展第二或第N增長曲線這么簡單。競爭激烈而決絕,甚至有點保命的味道。
我覺得這點才是最值得大家去探討的:他們這些行為的背后到底是什么樣的大環境或者大背景,讓他們一定以這樣決絕的方式、軍備競賽一樣的方式去做這件事情。
最近也有一些值得關注的事情發生,馬斯克的X-AI這家公司的成立,它要重新理解現實物理世界,所有巨頭都在盯著AGI的真正實現。這個版圖越來越大。然而,新的商業世界和新的商業版圖,總需要有一些新的爆款應用和爆款產品來做牽引,這在2023年實現可能還有點難。我們可以把希望放到2024年,也許蘋果的MR眼鏡會是一個新的契機。
騰訊科技:我們還看到另外兩家海外巨頭,馬斯克和蘋果,并沒有高調宣布自己在大模型領域的進展,這點怎么看?
焦娟:他們只是暫時按兵不動,而且可以肯定的是,他們推出的東西,肯定不會再叫大模型。我覺得我們可以再去關注下一層,具身智能。在這個方向,馬斯克是最不用擔心的。而蘋果最大的優勢在于軟硬結合。
周崧弢:我們自己也大概測了一下,M2的芯片在浮點算力上面是可以和英偉達的卡去抗衡。蘋果有可能走的是軟硬件一體化,它其實是超越大模型目前的競爭格局。
具身智能,我覺得有可能是未來整個通用人工智能發展的一個新的里程碑,因為一旦你擁有了強大的推理能力,一定會擴展到物理世界,而控制物理世界的核心點,就是要嵌入身體或者是嵌入到物理世界的傳感器中,那這就是變成具身智能的體系。就如剛剛周老師所說,這個是反而又變成了馬斯克的一系列公司。
當我們把軟件和硬件重新結合在一起去看整個通用人工智能的時候,你就會發現,競爭格局又發生改變了,已經不是Google、Meta和open AI這幾家在競爭,而是有可能會有更多的硬件公司加入進來。
騰訊科技:Llama2的商用開源,是不是有可能把大模型創業的成本打下來?
周崧弢: 這塊我現在不確定,因為雖然是省了租用API的開銷,但是你會發現6月15號OpenAI大降價之后幾乎是一折促銷,所以閉源模型也在打價格戰。反而是說,如果用開源模型的話,需要多少硬件成本、算力成本、數據成本?隱含成本不好估算。單純從LLama2的開源來說,我覺得對于創業來說的話,不見得是一個節約成本的路徑。
針對推理成本,我們目前測的和結合國外測試者的評價文章,發現一些特定類型的推理任務,比如分類或者langchain的工作流,Llama2的推理效率和時間消耗是減少了,但是其他類型的任務,如果和GPT-3.5-turbo-0615的快照版本相比,不一定會便宜(僅僅是推理算力消耗方面);還有就是現在的原廠版本對中文理解非常流暢和準確,但是中文表達幾乎是0,所以中國的創業者想要完全用上Llama2必須花大的代價解決中文表達的精調或者引導,或者等開源社區提供中文的表達版提供……這個成本不低。
另外,Llama2的商用開源,確實有可能引起大模型服務商開始打價格戰,這對于應用者和創業者來說是個好消息。
焦娟:坦率講,在國內我還是比較期待一些行業模型或垂類模型。我自己挑了大概幾家看好的公司,特征是一直在這個行業內做的很扎實,有持續的數據積累和平臺建設的經驗。另外就是,我覺得這輪并不是一個船票貴不貴的一個問題,而是你不管貴不貴,大家都面臨著轉型。
編輯/lambor