久久精品免费看国产成人,四虎国产精品亚洲一区久久,伊人精品久久久7777,成人欧美一区二区三区在线,99精品国产福利一区二区,亚洲精品成人毛片久久久,久久精品99精品免费观看 ,99热久久这里只有精品免费,久久精品免费一区二区三区

Meta商用開源最牛大模型背后:巨頭保命式競爭,馬斯克、蘋果另辟蹊徑
來源:富途牛牛 發布時間:2023-08-04 19:45:21

Meta7月19日在其官網宣布大語言模型Llama2正式發布,這是Meta大語言模型的最新版本,也是Meta首個開源商用的大語言模型,同時,微軟Azure也宣布了將與Llama2深度合作。

根據Meta的官方數據,Llama 2 相較于上一代其訓練數據提升了40%,包含了70億、130億和700億參數 3個版本。Llama 2 預訓練模型接受了 2 萬億個 tokens 的訓練,上下文長度是 Llama 1 的兩倍,其微調模型已經接受了超過 100 萬個人類注釋的訓練。


【資料圖】

其性能據說比肩GPT-3.5,也被稱為開源最優的大模型。消息一經發布,媒體與業界甚至給出了Llama2開源商用,即將改變大模型領域競爭格局的論斷。這件事的影響究竟有多大?即將給產業帶來什么樣的影響?我們邀請兩位業界人士聊了聊,一位是利歐集團數字科技有限公司產品研發中心副總經理周崧弢,他帶領團隊幾乎評測了國內外主流的大部分大模型;另外一位是安信元宇宙研究院院長焦娟,多年一直深度觀察國內外的科技產業生態。

以下為兩位的主要觀點:

① Llama2在模型參數、時間消耗、算力消耗等方面綜合考慮,與GPT-3.5對比是有底氣的。

② 生成式人工智能會給整個開源體系帶來天翻地覆的變化。

③ 未來一段時間內,開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。

④ Llama2的商用開源不一定會降低創業者使用大模型的成本,但是有可能引起大模型服務商開始打價格戰,這對于應用者和創業者來說是個好消息。

⑤ 海外巨頭在AI領域的競爭,已經不太像是發展第二曲線這么簡單,競爭激烈而決絕,甚至有點保命的味道,背后的原因值得深思。

以下為對話內容精選:

騰訊科技:從行業從業者或應用者角度,如何去評測一個大模型?

周崧弢:國際上用的比較多的大模型評測框架是MMLU,它考慮了57個學科,從人文到社科到理工多個大類的綜合知識能力,我們大多數情況也是基于這個框架來評測。但是我們的行業是廣告業,基于廣告業的屬性,會增加一些其它的評測項目。

我們在集團的管理會上也說過,廣告業的重點不在于創造力,而在于控制。生成的結果一定要和廣告主、它的產品性能、外觀、logo等,有100%的還原。在這些還原達成之后,才能有發散和想象的空間。所以我們會針對于大模型的幻覺的控制,去做單獨的測試。但是絕大多數市面上的大語言模型及圖片生成的擴散模型,都很難百分百滿足廣告主的需求。通用大模型被發布之后,離完全商用還有很長一段路要走。

另外,我們考慮的最重要的就是成本問題:閉源模型有直接的報價體系,我們一般會衡量千Token的費用。對于開源模型來說,要測算的環節更多,從部署到精調到最后上線進行推理,算力消耗成有多少,維護開源模型投入的開發成本、數據成本有多少。

大模型質量反饋加上成本的估算,我們就能形成一個對模型的評價,簡單一句話就是,性價比越高,越受歡迎。

焦娟:從我們的角度來講,更看重的是如何去定義一些垂直方向的需求。因為全球范圍來講的話,不管是硬科技公司還是互聯網公司,真正有能力去定義需求的可能不會特別多,所以這個命題就可以轉換成——大模型公司自己能不能去定一些垂類的細分方向的需求,如果不能的話,能否聯合生態合作伙伴探索出比較好的垂類方向。當然,如果某些公司自己能夠在特定的方向中有自身的數據積累、經驗積累那會更好。這是我們的視角,從應用、定義垂類細分行業需求的角度。

騰訊科技:Llama2在性能上真的可以超越或比肩GPT-3.5嗎?

周崧弢: 針對Llama2的大模型還在評測中,大約需要2周的時間。但是從我們對于論文的學習,和目前已經進行的一些簡單的評測中,可以講一些大概的比較。

在預訓練的階段和GPT原來的模式有幾點不同,而且這些改變,之前其它模型公司都沒有做過。首先就是在預訓練階段,將傳統Transformer的多頭注意力機制,改變為分片群組的機制。有點類似或模仿我們原來在做大數據處理的時候,處理大規模并行數據的時候,所用的分片的技術。把大量的Attention需要的Query(請求)一組一組成組起來,每個組放到一個訓練單元里面去,這樣并行的效率和速度,理論上是會大幅提升。這部分我覺得是Meta在之前大規模并行處理經驗上,做出的一個新的改變。

基于這個改變,我覺得他們理論上在算力的需求和時間消耗上,比現有的大模型要提升很多倍。我預估Llama2按照他們的說法,是一月份就開始做,按照發布時間來計算,比Llama1的預訓練時間應該要短,因為它的參數量比Llama1要大。這樣的話,多輪訓練的可能的這個周期是被壓縮的。這和論文中所提到的GQA密切相關。在這一點上,應該是超過了GPT4的,雖然我們不知道GPT-4具體是多少,但是根據外界猜測,GPT-4是遠高于GPT-3和GPT-3.5的。

對GQA,我們目前覺得,GQA的處理方式對于有足夠算力卡,特別是有GPU并行算力資源的用戶來說,的確可以提高訓練速度。不過測試和同行測評發現這個功能對算力池規模和硬件要求很高,因為眾所周知的原因,中國內地的開發者擁有大規模GPU并行算力資源的少,所以GQA可能會對我們來說是雞肋。

另外第二點,在調整階段,我們知道GPT體系在歸一化的時候,都做了層化的數據處理,使得數據訓練的結果很精確,但是也非常消耗算力。但是Llama2用了不一樣的方案,就是在分層處理的基礎上又加了權重系數,這樣對于效率的提升和準確度維持是很有幫助的,對算力的節約也是有幫助的。這兩點是在預訓練階段所做的優化。

另外論文中也提到,Llama1的Embedding位置是固定的,不能修改。但是在Llama2中,這是可以動態調整的,這也是一個亮點。這個我們也很感興趣,想知道究竟能產生什么樣的實際效果。

除了這些,Llama2很明顯吸收了Llama1及GPT系列的一些工程化經驗,就是在RHLF階段的成功經驗都復用了,應該會有很大的改善。

最后就是比參數,目前看到的就是它自己在官網上公開的那些參數。包括它的人工強化反饋的參數大概有100多萬,精調的部分達到十幾萬。這些參數的話,他敢放出來就意味著,Meta在模型參數、時間消耗、算力消耗等方面綜合考慮,是有底氣的。

騰訊科技:為什么商用開源的門檻設定到了月活躍用戶數不超過七個億?

焦娟:開個玩笑,我覺得這個規定還是“很敞亮的”——Meta打出了一張明牌,既然防不住別人去研究,那就干脆放開。本質上是內部博弈的一種結果。Meta的財務指標從2021年初就不是太好了,所以一直也在尋找第二增長曲線。2021年10月Meta改名,All in 元宇宙,但是并沒有看到太實質的起色。它推出現在的大模型,是可以與自身的硬件融為一體的。相當于打出來一張明牌,既要硬件、又要軟件、又要操作系統,希望能在AI時代有自己的一席之地,但是開源的同時,也不希望能夠太有利于競爭對手。大家可以看到,7億月活的產品有YouTube 25億、蘋果 18億、微軟 14億、三星 10億、領英 9億、Snapchat 7.5億等。

騰訊科技:商用開源和研究授權究竟有什么本質不同?對開源生態可能會有什么不同的影響?

周崧弢: 大語言模型爆發之后,開源這件事情也變得很復雜,大家對于開源的定義和這個規則做了很多的調整。會涉及到你是算法本身開源、數據研究開源等等。對于現在新的語言模型或者是生成式模型的整體的開源的判斷:第一是要看它的算法代碼是不是開源,然后看它的訓練數字集會不會開源出來。第三看基于開源算法,如果我做了精調或者是其它處理,你的授權政策會有什么樣的約束。第四就是使用你的模型推理出來的結果,模型方是不是有控制權。我們一般從這幾個方向來判斷,這個模型的“開源”對我們是否真的有應用價值。

關于研究開源和商業開源,我記得最典型的例子就是Stability AI這家公司,我記得LLama2開源前的兩周,StabilityAI的XL那個版本也發布了,就是只有研究授權開源,明確規定,可以用模型和數據去做研究,比如你是研究員或者是屬于某所高校,但是如果用這個模型去做商業化,是完全禁止的,需要單獨申請授權才有可能使用。

大模型的開源授權,我覺得和原來開源的那套邏輯已經有很大變化,環節和流程設置得非常細,有可能生成式人工智能會給整個開源體系帶來天翻地覆的變化。

騰訊科技:Llama2的商用開源,會對大模型的競爭格局造成什么樣的影響呢?

焦娟:海外巨頭的競爭中,有一個風格,就是要讓自己的產品和服務有辨識度,所以Meta叫元宇宙,蘋果一定要叫新宇宙,別人閉源,我就要占領開源。過去的開源,可能是有自由情懷的極客去做的事情,思路也比較簡單。而現在如此大的商業體去主導這件事,更多還是商業利益上的考慮。

周崧弢:我認為整個生成式人工智能這個體系競爭格局的三要素——算力、算法、模型,還是沒變。其實模型只占三分之一的競爭因素,模型改變的話,最多只能改變三分之一或者比三分之一多一點,我估計樂觀一點,可能到45%左右。

國內和國外的格局還是不太一樣,國外算法層面的格局比較明顯。國外的數據基本是被清洗過和被矢量化過的,訓練數據集已經很充分了,在數據方面的競爭優勢不明顯,除非你具有某個行業的專有數據。算力也不是國外巨頭能拉開差距的地方,巨頭其實都有實力去拼算力。

首先,國內擁有核心底層算法的公司其實很有限;第二,國內的數據,被清洗程度、矢量化程度其實是不高的。早期如果投入大量的力量做數據的結構化處理的公司,其實它可以彌補在算力、在算法上面的不足。第三,國內其實是短期之內是缺算力的。所以LLama2開源對于國內的格局的影響,目前來講并不好判斷。

再說回國外,整個生成式人工智能里面,谷歌才是真正的先驅,然后他差點就被搞成先烈了。就是因為整個生成式人工智能的源出論文就是《Attention is all you need》,然后包括最早的開源模型T5其實都是谷歌的。曾經谷歌也是笑傲群雄。不料后來殺進了一匹黑馬OpenAI,最早GPT-1、GPT-2都是開源的,GPT-3開源之后又閉源了。當OpenAI進場的時候,開源才是整個生成式人工智能的主流。

OpenAI這個時候找到了微軟,也擁有了很貴的算力,成了谷歌強有力的競爭對手。2022年開始,生成式人工智能這個市場,就開始進入到閉源的體系中。OpenAI從掌握算法,加上微軟的算力、數據,閉源打造產品,產品又成了現象級的爆款,微軟和OpenAI都從中獲益。我認為Meta開始決定進入到這個領域的時候,估計也是從頭開始仔細研究了發展歷史,既然看到了OpenAI從開源領域撤回到閉源,那我還是用開源的方式,再重新打敗你的魔法。

在這之前,Meta也看到了幾家小公司開源之后的生命力,特別是Stability AI,這家公司并沒有深厚的根基,要錢沒錢、要技術沒技術,突然之間殺出來的,雖然這家公司現在還是有很多的爭議。

我記得Llama1是3月份就是對外宣布開源,當時還說是“不小心開源的”,然后Stability AI也說我是不小心把代碼泄露了,所以也開源了。整體路徑是,谷歌奠定了開源的基調,然后OpenAI和微軟又把它折回到閉源的體系里面,然后Meta和Stability AI又把它又放到了開源里面,我覺得未來一段時間內,開源和閉源一定是互相搖擺,在這個領域會形成相當長一段時間的互相的博弈和競爭的格局。

騰訊科技:Meta開源Llama2是迫不得已還是主動戰略選擇?

焦娟:肯定是主動戰略選擇,因為本身Meta、微軟、谷歌三家在AR領域主要的三個競爭對手,混戰了大概有十幾年。Meta很快地推出了LLama2,至少比谷歌要快。開源和閉源的選擇,都不會脫離掉本質的一些利益訴求,所以說徹底改變競爭格局,我覺得可能意義沒那么大。第二就是國內的情況不太一樣,所以國內的競爭格局要再觀察一下。

不管是開源還是閉源,本質上就是全球這幾家公司彼此之間在新的大機遇面前的戰略選擇。在發力布局眼前的時候,還希望盡可能去攻占比爾呢的腹地。海外巨頭的競爭,都已經不太像是發展第二或第N增長曲線這么簡單。競爭激烈而決絕,甚至有點保命的味道。

我覺得這點才是最值得大家去探討的:他們這些行為的背后到底是什么樣的大環境或者大背景,讓他們一定以這樣決絕的方式、軍備競賽一樣的方式去做這件事情。

最近也有一些值得關注的事情發生,馬斯克的X-AI這家公司的成立,它要重新理解現實物理世界,所有巨頭都在盯著AGI的真正實現。這個版圖越來越大。然而,新的商業世界和新的商業版圖,總需要有一些新的爆款應用和爆款產品來做牽引,這在2023年實現可能還有點難。我們可以把希望放到2024年,也許蘋果的MR眼鏡會是一個新的契機。

騰訊科技:我們還看到另外兩家海外巨頭,馬斯克和蘋果,并沒有高調宣布自己在大模型領域的進展,這點怎么看?

焦娟:他們只是暫時按兵不動,而且可以肯定的是,他們推出的東西,肯定不會再叫大模型。我覺得我們可以再去關注下一層,具身智能。在這個方向,馬斯克是最不用擔心的。而蘋果最大的優勢在于軟硬結合。

周崧弢:我們自己也大概測了一下,M2的芯片在浮點算力上面是可以和英偉達的卡去抗衡。蘋果有可能走的是軟硬件一體化,它其實是超越大模型目前的競爭格局。

具身智能,我覺得有可能是未來整個通用人工智能發展的一個新的里程碑,因為一旦你擁有了強大的推理能力,一定會擴展到物理世界,而控制物理世界的核心點,就是要嵌入身體或者是嵌入到物理世界的傳感器中,那這就是變成具身智能的體系。就如剛剛周老師所說,這個是反而又變成了馬斯克的一系列公司。

當我們把軟件和硬件重新結合在一起去看整個通用人工智能的時候,你就會發現,競爭格局又發生改變了,已經不是Google、Meta和open AI這幾家在競爭,而是有可能會有更多的硬件公司加入進來。

騰訊科技:Llama2的商用開源,是不是有可能把大模型創業的成本打下來?

周崧弢: 這塊我現在不確定,因為雖然是省了租用API的開銷,但是你會發現6月15號OpenAI大降價之后幾乎是一折促銷,所以閉源模型也在打價格戰。反而是說,如果用開源模型的話,需要多少硬件成本、算力成本、數據成本?隱含成本不好估算。單純從LLama2的開源來說,我覺得對于創業來說的話,不見得是一個節約成本的路徑。

針對推理成本,我們目前測的和結合國外測試者的評價文章,發現一些特定類型的推理任務,比如分類或者langchain的工作流,Llama2的推理效率和時間消耗是減少了,但是其他類型的任務,如果和GPT-3.5-turbo-0615的快照版本相比,不一定會便宜(僅僅是推理算力消耗方面);還有就是現在的原廠版本對中文理解非常流暢和準確,但是中文表達幾乎是0,所以中國的創業者想要完全用上Llama2必須花大的代價解決中文表達的精調或者引導,或者等開源社區提供中文的表達版提供……這個成本不低。

另外,Llama2的商用開源,確實有可能引起大模型服務商開始打價格戰,這對于應用者和創業者來說是個好消息。

焦娟:坦率講,在國內我還是比較期待一些行業模型或垂類模型。我自己挑了大概幾家看好的公司,特征是一直在這個行業內做的很扎實,有持續的數據積累和平臺建設的經驗。另外就是,我覺得這輪并不是一個船票貴不貴的一個問題,而是你不管貴不貴,大家都面臨著轉型。

編輯/lambor

標簽:

猜你喜歡

Meta商用開源最牛大模型背后:巨頭保命式競爭,馬

Meta7月19日在其官網宣布大語言模型Llama2正式發布,這是Meta大語言模更多

2023-08-04 19:45:21

AI魅力多大?回購“失寵”,美國上市公司資本支出

面對AI熱潮和政府支持清潔能源等刺激,美國企業選擇加大資本支出。高盛更多

2023-08-04 19:53:27

業績日期權指南 | 熱門Meme股業績集中來襲!Pal

期權的隱含變動,是市場預期某一股票在業績日的價格變動幅度,也是期權更多

2023-08-04 19:51:01

科技巨頭重金開打AI大戰,Q2資本開支近400億美金

隨著蘋果、亞馬遜陸續交卷,本季度五大科技巨頭的財報季也落下帷幕。整更多

2023-08-04 19:56:13

巴菲特“狂買”短期美債,阿克曼回應:和我做空不

對沖基金大鱷比爾·阿克曼周四回應了巴菲特正大舉買入美國短期國債的消更多

2023-08-04 18:51:48

本周美股牛股 | 績前搶跑,理想汽車市值逼近500

編者按:《本周港美股牛股》欄目每周緊跟市場動態,盤點港美股市場周度更多

2023-08-04 18:57:45

又押對了!巴菲特青睞的日本商社公布超預期利潤

受沃倫?巴菲特青睞的日本貿易公司上季度盈利強勁,盡管同期大宗商品價更多

2023-08-04 17:46:14

每日期權追蹤 | 亞馬遜、蘋果績后走勢分化,看

編者按:本欄目聚焦美股期權市場,涵蓋熱門個股、股指、ETF以及高波動更多

2023-08-04 17:49:08

業績救星?新iPhone有望9月14日發布,新一代Apple

8月4日消息,據外媒報道,隨著秋季的臨近,有關蘋果今年秋季將推出的新更多

2023-08-04 17:51:07

巴菲特出手,狂買1400億!蘋果大動作曝光,涉及印

美國信用評級近日被下調,引發美國市場巨震,巴菲特最新表態稱,伯克希更多

2023-08-04 17:57:44