Meta商用開源最牛大模型背后：巨頭保命式競爭，馬斯克、蘋果另辟蹊徑

來源：富途牛牛發布時間：2023-08-04 19:45:21

Meta7月19日在其官網宣布大語言模型Llama2正式發布，這是Meta大語言模型的最新版本，也是Meta首個開源商用的大語言模型，同時，微軟Azure也宣布了將與Llama2深度合作。

根據Meta的官方數據，Llama 2 相較于上一代其訓練數據提升了40%，包含了70億、130億和700億參數 3個版本。Llama 2 預訓練模型接受了 2 萬億個 tokens 的訓練，上下文長度是 Llama 1 的兩倍，其微調模型已經接受了超過 100 萬個人類注釋的訓練。

【資料圖】

其性能據說比肩GPT-3.5，也被稱為開源最優的大模型。消息一經發布，媒體與業界甚至給出了Llama2開源商用，即將改變大模型領域競爭格局的論斷。這件事的影響究竟有多大？即將給產業帶來什么樣的影響？我們邀請兩位業界人士聊了聊，一位是利歐集團數字科技有限公司產品研發中心副總經理周崧弢，他帶領團隊幾乎評測了國內外主流的大部分大模型；另外一位是安信元宇宙研究院院長焦娟，多年一直深度觀察國內外的科技產業生態。

以下為兩位的主要觀點：

① Llama2在模型參數、時間消耗、算力消耗等方面綜合考慮，與GPT-3.5對比是有底氣的。

② 生成式人工智能會給整個開源體系帶來天翻地覆的變化。

③ 未來一段時間內，開源和閉源一定是互相搖擺，在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。

④ Llama2的商用開源不一定會降低創業者使用大模型的成本，但是有可能引起大模型服務商開始打價格戰，這對于應用者和創業者來說是個好消息。

⑤ 海外巨頭在AI領域的競爭，已經不太像是發展第二曲線這么簡單，競爭激烈而決絕，甚至有點保命的味道，背后的原因值得深思。

以下為對話內容精選：

騰訊科技：從行業從業者或應用者角度，如何去評測一個大模型？

周崧弢：國際上用的比較多的大模型評測框架是MMLU，它考慮了57個學科，從人文到社科到理工多個大類的綜合知識能力，我們大多數情況也是基于這個框架來評測。但是我們的行業是廣告業，基于廣告業的屬性，會增加一些其它的評測項目。

我們在集團的管理會上也說過，廣告業的重點不在于創造力，而在于控制。生成的結果一定要和廣告主、它的產品性能、外觀、logo等，有100%的還原。在這些還原達成之后，才能有發散和想象的空間。所以我們會針對于大模型的幻覺的控制，去做單獨的測試。但是絕大多數市面上的大語言模型及圖片生成的擴散模型，都很難百分百滿足廣告主的需求。通用大模型被發布之后，離完全商用還有很長一段路要走。

另外，我們考慮的最重要的就是成本問題：閉源模型有直接的報價體系，我們一般會衡量千Token的費用。對于開源模型來說，要測算的環節更多，從部署到精調到最后上線進行推理，算力消耗成有多少，維護開源模型投入的開發成本、數據成本有多少。

大模型質量反饋加上成本的估算，我們就能形成一個對模型的評價，簡單一句話就是，性價比越高，越受歡迎。

焦娟：從我們的角度來講，更看重的是如何去定義一些垂直方向的需求。因為全球范圍來講的話，不管是硬科技公司還是互聯網公司，真正有能力去定義需求的可能不會特別多，所以這個命題就可以轉換成——大模型公司自己能不能去定一些垂類的細分方向的需求，如果不能的話，能否聯合生態合作伙伴探索出比較好的垂類方向。當然，如果某些公司自己能夠在特定的方向中有自身的數據積累、經驗積累那會更好。這是我們的視角，從應用、定義垂類細分行業需求的角度。

騰訊科技：Llama2在性能上真的可以超越或比肩GPT-3.5嗎？

周崧弢: 針對Llama2的大模型還在評測中，大約需要2周的時間。但是從我們對于論文的學習，和目前已經進行的一些簡單的評測中，可以講一些大概的比較。

在預訓練的階段和GPT原來的模式有幾點不同，而且這些改變，之前其它模型公司都沒有做過。首先就是在預訓練階段，將傳統Transformer的多頭注意力機制，改變為分片群組的機制。有點類似或模仿我們原來在做大數據處理的時候，處理大規模并行數據的時候，所用的分片的技術。把大量的Attention需要的Query（請求）一組一組成組起來，每個組放到一個訓練單元里面去，這樣并行的效率和速度，理論上是會大幅提升。這部分我覺得是Meta在之前大規模并行處理經驗上，做出的一個新的改變。

基于這個改變，我覺得他們理論上在算力的需求和時間消耗上，比現有的大模型要提升很多倍。我預估Llama2按照他們的說法，是一月份就開始做，按照發布時間來計算，比Llama1的預訓練時間應該要短，因為它的參數量比Llama1要大。這樣的話，多輪訓練的可能的這個周期是被壓縮的。這和論文中所提到的GQA密切相關。在這一點上，應該是超過了GPT4的，雖然我們不知道GPT-4具體是多少，但是根據外界猜測，GPT-4是遠高于GPT-3和GPT-3.5的。

對GQA，我們目前覺得，GQA的處理方式對于有足夠算力卡，特別是有GPU并行算力資源的用戶來說，的確可以提高訓練速度。不過測試和同行測評發現這個功能對算力池規模和硬件要求很高，因為眾所周知的原因，中國內地的開發者擁有大規模GPU并行算力資源的少，所以GQA可能會對我們來說是雞肋。

另外第二點，在調整階段，我們知道GPT體系在歸一化的時候，都做了層化的數據處理，使得數據訓練的結果很精確，但是也非常消耗算力。但是Llama2用了不一樣的方案，就是在分層處理的基礎上又加了權重系數，這樣對于效率的提升和準確度維持是很有幫助的，對算力的節約也是有幫助的。這兩點是在預訓練階段所做的優化。

另外論文中也提到，Llama1的Embedding位置是固定的，不能修改。但是在Llama2中，這是可以動態調整的，這也是一個亮點。這個我們也很感興趣，想知道究竟能產生什么樣的實際效果。

除了這些，Llama2很明顯吸收了Llama1及GPT系列的一些工程化經驗，就是在RHLF階段的成功經驗都復用了，應該會有很大的改善。

最后就是比參數，目前看到的就是它自己在官網上公開的那些參數。包括它的人工強化反饋的參數大概有100多萬，精調的部分達到十幾萬。這些參數的話，他敢放出來就意味著，Meta在模型參數、時間消耗、算力消耗等方面綜合考慮，是有底氣的。

騰訊科技：為什么商用開源的門檻設定到了月活躍用戶數不超過七個億？

焦娟：開個玩笑，我覺得這個規定還是“很敞亮的”——Meta打出了一張明牌，既然防不住別人去研究，那就干脆放開。本質上是內部博弈的一種結果。Meta的財務指標從2021年初就不是太好了，所以一直也在尋找第二增長曲線。2021年10月Meta改名，All in 元宇宙，但是并沒有看到太實質的起色。它推出現在的大模型，是可以與自身的硬件融為一體的。相當于打出來一張明牌，既要硬件、又要軟件、又要操作系統，希望能在AI時代有自己的一席之地，但是開源的同時，也不希望能夠太有利于競爭對手。大家可以看到，7億月活的產品有YouTube 25億、蘋果 18億、微軟 14億、三星 10億、領英 9億、Snapchat 7.5億等。

騰訊科技：商用開源和研究授權究竟有什么本質不同？對開源生態可能會有什么不同的影響？

周崧弢: 大語言模型爆發之后，開源這件事情也變得很復雜，大家對于開源的定義和這個規則做了很多的調整。會涉及到你是算法本身開源、數據研究開源等等。對于現在新的語言模型或者是生成式模型的整體的開源的判斷：第一是要看它的算法代碼是不是開源，然后看它的訓練數字集會不會開源出來。第三看基于開源算法，如果我做了精調或者是其它處理，你的授權政策會有什么樣的約束。第四就是使用你的模型推理出來的結果，模型方是不是有控制權。我們一般從這幾個方向來判斷，這個模型的“開源”對我們是否真的有應用價值。

關于研究開源和商業開源，我記得最典型的例子就是Stability AI這家公司，我記得LLama2開源前的兩周，StabilityAI的XL那個版本也發布了，就是只有研究授權開源，明確規定，可以用模型和數據去做研究，比如你是研究員或者是屬于某所高校，但是如果用這個模型去做商業化，是完全禁止的，需要單獨申請授權才有可能使用。

大模型的開源授權，我覺得和原來開源的那套邏輯已經有很大變化，環節和流程設置得非常細，有可能生成式人工智能會給整個開源體系帶來天翻地覆的變化。

騰訊科技：Llama2的商用開源，會對大模型的競爭格局造成什么樣的影響呢？

焦娟：海外巨頭的競爭中，有一個風格，就是要讓自己的產品和服務有辨識度，所以Meta叫元宇宙，蘋果一定要叫新宇宙，別人閉源，我就要占領開源。過去的開源，可能是有自由情懷的極客去做的事情，思路也比較簡單。而現在如此大的商業體去主導這件事，更多還是商業利益上的考慮。

周崧弢：我認為整個生成式人工智能這個體系競爭格局的三要素——算力、算法、模型，還是沒變。其實模型只占三分之一的競爭因素，模型改變的話，最多只能改變三分之一或者比三分之一多一點，我估計樂觀一點，可能到45%左右。

國內和國外的格局還是不太一樣，國外算法層面的格局比較明顯。國外的數據基本是被清洗過和被矢量化過的，訓練數據集已經很充分了，在數據方面的競爭優勢不明顯，除非你具有某個行業的專有數據。算力也不是國外巨頭能拉開差距的地方，巨頭其實都有實力去拼算力。

首先，國內擁有核心底層算法的公司其實很有限；第二，國內的數據，被清洗程度、矢量化程度其實是不高的。早期如果投入大量的力量做數據的結構化處理的公司，其實它可以彌補在算力、在算法上面的不足。第三，國內其實是短期之內是缺算力的。所以LLama2開源對于國內的格局的影響，目前來講并不好判斷。

再說回國外，整個生成式人工智能里面，谷歌才是真正的先驅，然后他差點就被搞成先烈了。就是因為整個生成式人工智能的源出論文就是《Attention is all you need》，然后包括最早的開源模型T5其實都是谷歌的。曾經谷歌也是笑傲群雄。不料后來殺進了一匹黑馬OpenAI，最早GPT-1、GPT-2都是開源的，GPT-3開源之后又閉源了。當OpenAI進場的時候，開源才是整個生成式人工智能的主流。

OpenAI這個時候找到了微軟，也擁有了很貴的算力，成了谷歌強有力的競爭對手。2022年開始，生成式人工智能這個市場，就開始進入到閉源的體系中。OpenAI從掌握算法，加上微軟的算力、數據，閉源打造產品，產品又成了現象級的爆款，微軟和OpenAI都從中獲益。我認為Meta開始決定進入到這個領域的時候，估計也是從頭開始仔細研究了發展歷史，既然看到了OpenAI從開源領域撤回到閉源，那我還是用開源的方式，再重新打敗你的魔法。

在這之前，Meta也看到了幾家小公司開源之后的生命力，特別是Stability AI，這家公司并沒有深厚的根基，要錢沒錢、要技術沒技術，突然之間殺出來的，雖然這家公司現在還是有很多的爭議。

我記得Llama1是3月份就是對外宣布開源，當時還說是“不小心開源的”，然后Stability AI也說我是不小心把代碼泄露了，所以也開源了。整體路徑是，谷歌奠定了開源的基調，然后OpenAI和微軟又把它折回到閉源的體系里面，然后Meta和Stability AI又把它又放到了開源里面，我覺得未來一段時間內，開源和閉源一定是互相搖擺，在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。

騰訊科技：Meta開源Llama2是迫不得已還是主動戰略選擇？

焦娟：肯定是主動戰略選擇，因為本身Meta、微軟、谷歌三家在AR領域主要的三個競爭對手，混戰了大概有十幾年。Meta很快地推出了LLama2，至少比谷歌要快。開源和閉源的選擇，都不會脫離掉本質的一些利益訴求，所以說徹底改變競爭格局，我覺得可能意義沒那么大。第二就是國內的情況不太一樣，所以國內的競爭格局要再觀察一下。

不管是開源還是閉源，本質上就是全球這幾家公司彼此之間在新的大機遇面前的戰略選擇。在發力布局眼前的時候，還希望盡可能去攻占比爾呢的腹地。海外巨頭的競爭，都已經不太像是發展第二或第N增長曲線這么簡單。競爭激烈而決絕，甚至有點保命的味道。

我覺得這點才是最值得大家去探討的：他們這些行為的背后到底是什么樣的大環境或者大背景，讓他們一定以這樣決絕的方式、軍備競賽一樣的方式去做這件事情。

最近也有一些值得關注的事情發生，馬斯克的X-AI這家公司的成立，它要重新理解現實物理世界，所有巨頭都在盯著AGI的真正實現。這個版圖越來越大。然而，新的商業世界和新的商業版圖，總需要有一些新的爆款應用和爆款產品來做牽引，這在2023年實現可能還有點難。我們可以把希望放到2024年，也許蘋果的MR眼鏡會是一個新的契機。

騰訊科技：我們還看到另外兩家海外巨頭，馬斯克和蘋果，并沒有高調宣布自己在大模型領域的進展，這點怎么看？

焦娟：他們只是暫時按兵不動，而且可以肯定的是，他們推出的東西，肯定不會再叫大模型。我覺得我們可以再去關注下一層，具身智能。在這個方向，馬斯克是最不用擔心的。而蘋果最大的優勢在于軟硬結合。

周崧弢：我們自己也大概測了一下，M2的芯片在浮點算力上面是可以和英偉達的卡去抗衡。蘋果有可能走的是軟硬件一體化，它其實是超越大模型目前的競爭格局。

具身智能，我覺得有可能是未來整個通用人工智能發展的一個新的里程碑，因為一旦你擁有了強大的推理能力，一定會擴展到物理世界，而控制物理世界的核心點，就是要嵌入身體或者是嵌入到物理世界的傳感器中，那這就是變成具身智能的體系。就如剛剛周老師所說，這個是反而又變成了馬斯克的一系列公司。

當我們把軟件和硬件重新結合在一起去看整個通用人工智能的時候，你就會發現，競爭格局又發生改變了，已經不是Google、Meta和open AI這幾家在競爭，而是有可能會有更多的硬件公司加入進來。

騰訊科技：Llama2的商用開源，是不是有可能把大模型創業的成本打下來？

周崧弢: 這塊我現在不確定，因為雖然是省了租用API的開銷，但是你會發現6月15號OpenAI大降價之后幾乎是一折促銷，所以閉源模型也在打價格戰。反而是說，如果用開源模型的話，需要多少硬件成本、算力成本、數據成本？隱含成本不好估算。單純從LLama2的開源來說，我覺得對于創業來說的話，不見得是一個節約成本的路徑。

針對推理成本，我們目前測的和結合國外測試者的評價文章，發現一些特定類型的推理任務，比如分類或者langchain的工作流，Llama2的推理效率和時間消耗是減少了，但是其他類型的任務，如果和GPT-3.5-turbo-0615的快照版本相比，不一定會便宜（僅僅是推理算力消耗方面）；還有就是現在的原廠版本對中文理解非常流暢和準確，但是中文表達幾乎是0，所以中國的創業者想要完全用上Llama2必須花大的代價解決中文表達的精調或者引導，或者等開源社區提供中文的表達版提供……這個成本不低。

另外，Llama2的商用開源，確實有可能引起大模型服務商開始打價格戰，這對于應用者和創業者來說是個好消息。

焦娟：坦率講，在國內我還是比較期待一些行業模型或垂類模型。我自己挑了大概幾家看好的公司，特征是一直在這個行業內做的很扎實，有持續的數據積累和平臺建設的經驗。另外就是，我覺得這輪并不是一個船票貴不貴的一個問題，而是你不管貴不貴，大家都面臨著轉型。

編輯/lambor

標簽：

分享到：QQ空間新浪微博騰訊微博人人網微信

上一篇：AI魅力多大？回購“失寵”，美國上市公司資本支出大增，二季度中位值增長15%

下一篇：最后一頁