來源:量子位作者:楊凈
【資料圖】
又一家國內(nèi)企業(yè)大模型產(chǎn)品發(fā)布。
不是別的,而是已擁有4億用戶的最大中文問答社區(qū)知乎。
而且官宣即內(nèi)測——
不光有首個大語言模型「知海圖AI」,首款產(chǎn)品也將應用于熱榜。
情理之中,意料之外。
一方面,知乎擁有天然的大模型優(yōu)勢,有場景有應用,最關鍵的還有天然大規(guī)模、高質(zhì)量的中文數(shù)據(jù)池。NewBing也將其視作中文數(shù)據(jù)源之一,一時間股價暴漲近50%。
這種優(yōu)勢放眼國內(nèi)并不多見,此次產(chǎn)品發(fā)布也算是千呼萬喚始出來。
但另一方面,在眾多尤其科研工作者認知中,知乎作為知識問答分享平臺,每一次技術革命爆發(fā)都在這里圍觀與見證。
正如ChatGPT相關話題就已打破當年AlphaGo討論熱度,瀏覽量達4億,討論量近24萬。
至于知乎背后相關AI技術和布局,并不被大多數(shù)人所知。
現(xiàn)在,知乎主動分享了一切。
而且隨著產(chǎn)品的發(fā)布,知乎在大語言模型上的布局也首次浮出水面。
知乎大模型產(chǎn)品官宣即內(nèi)測
在發(fā)布會現(xiàn)場,知乎也釋出了「熱榜摘要」的產(chǎn)品形態(tài)最新Demo,讓正在等待內(nèi)測的朋友們先來一睹為快~
可以看到的是,“看山”小助手會出現(xiàn)在熱榜的問題下方。
然后它會抓取那些優(yōu)質(zhì)問答的重要觀點,經(jīng)過AI算法整理、聚合、潤色后,將回答梗概展現(xiàn)給用戶。
這樣一來,看熱門問題的同時就能獲取關鍵信息,效率直接拉滿。
而這背后的大語言模型CPM-Bee,來自當下飽受市場關注的清華系大模型創(chuàng)業(yè)公司面壁智能。
據(jù)知乎聯(lián)合創(chuàng)始人、CTO李大海介紹,CPM-Bee是目前視野范圍內(nèi)表現(xiàn)最好的中文大語言模型。
面壁智能聯(lián)合創(chuàng)始人兼CEO曾國洋,也給出了官方內(nèi)測表現(xiàn):
內(nèi)容聚合場景下,在41個問題中,有28個問題表現(xiàn)持平。與GPT-4相比基本持平。
作為國內(nèi)最早開展相關研究和探索的公司之一,創(chuàng)始團隊來自清華計算機系自然語言處理與社會人文計算實驗室(THUNLP),劉知遠、孫茂松、劉洋多位教授分別是他們的聯(lián)合創(chuàng)始人和顧問。因此在大模型學研轉(zhuǎn)化、開發(fā)落地等方面都有豐富的經(jīng)驗。
產(chǎn)學研轉(zhuǎn)化這塊,團隊曾最早提出由知識指導的預訓練模型ERNIE,圍繞模型預訓練、提升學習、參數(shù)高效微調(diào)等這些大模型熱門議題,他們也在國際頂會上發(fā)表了數(shù)十篇論文。
他們也曾開發(fā)開源多個大模型,比如:國內(nèi)首個中文大模型CPM-1、高效易用大模型CPM-2、可控持續(xù)大模型CPM-3……
除此之外,法律、生物醫(yī)學等垂直領域也開發(fā)了專有專用大模型。成立伊始,就與法律、汽車、家電、傳媒等行業(yè)龍頭客戶達成合作,以及完成近千萬種子輪融資。
而就在最近,面壁智能剛獲由知乎領投、智譜AI跟投的天使輪融資。據(jù)雙方消息,此次投資合作旨在實現(xiàn)雙方優(yōu)勢資源的價值共創(chuàng),共同探索大規(guī)模語言模型的上層應用。
由此看來,知乎大模型布局也浮出水面:投資大模型公司, 共同打造大模型應用。
據(jù)透露,與面壁智能之間屬于是深度融合的關系, 每天都要見一面的那種。
接下來,在CPM-Bee基礎上,隨著更多的反饋和迭代,新模型有了更強的邏輯推理能力和更快的訓練和推理速度之后,將逐步應用到知乎更多場景中去。
比如創(chuàng)作、討論場、信息獲取等。
事實上這種路徑也并不陌生,正如微軟與OpenAI。微軟的產(chǎn)品矩陣完美貼合ChatGPT的落地場景,應用的同時又能反哺迭代大模型的能力。于是乎,正是兩者技術與應用的深度融合,才有了震撼全球的搜索引擎、生產(chǎn)力和生產(chǎn)生活的變革,讓企業(yè)、個人都能享受到AIGC帶來的潛力和可能。
隨之而來的問題是——
為什么走這樣一條路?
當前國內(nèi)大模型的發(fā)展,已經(jīng)遠不能用火熱來形容。這個被認為是比以往任何變革都大十倍的機會,任何企業(yè)和機構都不愿意輕易錯過,這幾周接踵而至的新進展就可見一斑。
不可否認的是,知乎此時布局大模型,選擇了一條最適合自己的路——
用知乎CEO周源的話說,是AI時代新生產(chǎn)力的開發(fā)者、以及新場景的創(chuàng)建者。
個中緣由得從國內(nèi)大模型發(fā)展開始拆解。
首份《中國AIGC產(chǎn)業(yè)全景報告》顯示,國內(nèi)大模型發(fā)展大致可以分為三種路徑:基礎設施層、模型層以及應用層。
其中,模型層成為當前發(fā)展的關鍵卡口,在一定程度上限制了上下層級(基礎設施層、應用層)的發(fā)展。
至于模型層發(fā)展好與不好,歸根結底,主要來自算力和數(shù)據(jù)這兩方面:算力是支撐背后大語言模型訓練的硬件基礎,而數(shù)據(jù)則是直接影響模型能力強弱甚至生成質(zhì)量的關鍵。
尤其是中文數(shù)據(jù)這塊,一方面本質(zhì)原因,中文相對英文復雜,技術難度高;另一方面,國外英文數(shù)據(jù)集更豐富,且質(zhì)量較高。但國內(nèi)的中文語料并不完善,必要時還需要各家公司來清洗,耗費人力財力。
而這恰好與知乎區(qū)別于其他平臺的獨特優(yōu)勢有關。
我們都知道,模型效果的好壞,既取決于數(shù)據(jù)的數(shù)量,也取決于質(zhì)量。這一點知乎似乎能做到兩者兼?zhèn)洹?/p>
在數(shù)量方面,2022第三季度財報顯示,知乎社區(qū)內(nèi)的內(nèi)容量已累計超5.79億條。2022年年度財報顯示,問答量已累計到了5.06億條,覆蓋超1000個垂直領域。
尤其在一些專業(yè)問題上,更是表現(xiàn)明顯。
知乎戰(zhàn)略副總裁、社區(qū)業(yè)務負責人張寧透露這樣一組關鍵數(shù)據(jù):
站內(nèi)從事科研學習和工作的人群總數(shù)高達544萬人。僅科研互聯(lián)網(wǎng)領域,就日均圖文生產(chǎn)量兩萬多篇。
在數(shù)學、物理、天文、人工智能等多個領域的回答、文章和視頻數(shù)都超過了100萬篇。
而除了數(shù)量之外,數(shù)據(jù)的質(zhì)量也是尤為關鍵。
在ChatGPT發(fā)布之初,經(jīng)常會出現(xiàn)一些離譜、錯誤的答案。「一本正經(jīng)地胡說八道」是ChatGPT留給大家的初印象。
這背后其實正是與訓練數(shù)據(jù)的質(zhì)量有關,數(shù)據(jù)集中摻雜了諸多魚龍混雜的內(nèi)容。
而在知乎,諸多專業(yè)人士的探討、問答機制的篩選構成了內(nèi)容數(shù)據(jù)的高質(zhì)量,甚至有的知乎內(nèi)容已經(jīng)直接成冊出書。
前段時間,NewBing剛出爐,諸多網(wǎng)友發(fā)現(xiàn)一些回答來源正是來自于知乎。
周源這樣拆分AI時代的生產(chǎn)力要素,主要分為三層:應用場景、專有數(shù)據(jù)以及基礎模型。基于問答的討論場,是天然的應用場景。這當中不斷產(chǎn)生的內(nèi)容、關系和知識圖譜,則是獨一無二專有數(shù)據(jù)。
而以GPT為代表的基礎模型層在快速發(fā)展,再結合知乎的應用場景和專有數(shù)據(jù),可推動大模型快速的應用落地。與此同時知乎的專業(yè)場景,還能反哺大模型技術迭代。
事實上,李大海也透露,知乎也正在與各種類型的公司合作,利用自身獨特優(yōu)勢,助推國內(nèi)大模型的發(fā)展。
除了應時之勢的考量,這背后也是回歸本質(zhì)順其自然的選擇。
在知乎發(fā)現(xiàn)大會上,周源再次談及知乎社區(qū)一直以來「獲得感」的內(nèi)容價值觀——
讓每個人更好的分享知識、經(jīng)驗與見解,找到自己的解答。
他認為,AI終將服務于人,賦能于人,是人類能力的擴增。
于是具體到知乎這一場景下,人機共創(chuàng)就可以幫助創(chuàng)作者更好地發(fā)揮創(chuàng)造力、提高內(nèi)容創(chuàng)作的效率和質(zhì)量,從而讓更多用戶得到幫助、開闊眼界。
大模型浪潮下,諸多應用場景被提及。知乎也作為新場景的創(chuàng)建者躬身入局,探索更多價值。
回顧以往每一次的技術變革更迭,國內(nèi)百萬從業(yè)者們通過問答、話題、圓桌、想法、專欄、直播等方式在這里學習與探討、回應和激辯。
因此從某種程度上來說,知乎作為關鍵媒介,在國內(nèi)前沿科技發(fā)展進程中起到了不容忽視的作用。
尤其在這場全球ChatGPT風暴里,體會尤為明顯,相關話題瀏覽量達4億,討論量超23.9萬。
吳恩達老師在這里周更博客,呼吁大家理性看待這個浪潮;被王慧文收購、正處風口浪尖的一流科技創(chuàng)始人袁進輝在知乎中尋找著答案……
諸多ChatGPT衍生產(chǎn)品在這里首發(fā)誕生:北大團隊推出的ChatExcel、首個公開對標ChatGPT開源項目ChatRWKV 、以及首個國內(nèi)ChatGPT檢測器……背后的開發(fā)者們也現(xiàn)身回應,親自解答網(wǎng)友的疑惑。
一群科研人員、創(chuàng)業(yè)者、從業(yè)者在這里匯集聯(lián)結,打破時間與空間的壁壘,第一時間探尋前沿動向,進而去推動國內(nèi)前沿科技的發(fā)展。
只是現(xiàn)在及未來,知乎將利用自己積累的優(yōu)勢,以更顯性的方式為中國大模型的發(fā)展貢獻力量。
編輯/hoten