首頁(yè) > 財(cái)經(jīng) > 國(guó)內(nèi) >

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億LLaMA拉跨，被2.5億Codex吊打

來(lái)源：富途牛牛發(fā)布時(shí)間：2023-06-07 19:33:01

國(guó)外計(jì)算機(jī)科學(xué)家自測(cè)LLM代碼生成，結(jié)果竟然是這樣！

最近，Matthias Plappert的一篇推文點(diǎn)燃了LLMs圈的廣泛討論。

(資料圖)

Plappert是一位知名的計(jì)算機(jī)科學(xué)家，他在HumanEval上發(fā)布了自己對(duì)AI圈主流的LLM進(jìn)行的基準(zhǔn)測(cè)試結(jié)果。

他的測(cè)試偏向代碼生成方面。

結(jié)果令人大為不震撼，又大為震撼。

意料之內(nèi)的是，GPT-4毫無(wú)疑問(wèn)霸榜，摘得第一。

意料之外的是，OpenAI的text-davinci-003異軍突起，拿了個(gè)第二。

Plappert表示，text-davinci-003堪稱一個(gè)「寶藏」模型。

而耳熟能詳?shù)腖LaMA在代碼生成方面卻并不出色。

OpenAI霸榜

Plappert表示，GPT-4的性能表現(xiàn)甚至比文獻(xiàn)中的數(shù)據(jù)還要好。

論文中GPT-4的一輪測(cè)試數(shù)據(jù)是67%的通過(guò)率，而Plappert的測(cè)試則達(dá)到了73%。

在分析成因時(shí)，他表示，數(shù)據(jù)上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測(cè)試的時(shí)候好上那么一些。

另一個(gè)原因是，他猜測(cè)論文在測(cè)試GPT-4的時(shí)候模型的溫度（temperature）不是0。

「溫度」是一個(gè)用于調(diào)整模型生成文本時(shí)創(chuàng)造性和多樣性的參數(shù)。「溫度」是一個(gè)大于0的數(shù)值，通常在 0 到 1 之間。它影響模型生成文本時(shí)采樣預(yù)測(cè)詞匯的概率分布。

當(dāng)模型的「溫度」較高時(shí)（如 0.8、1 或更高），模型會(huì)更傾向于從較多樣且不同的詞匯中選擇，這使得生成的文本風(fēng)險(xiǎn)性更高、創(chuàng)意性更強(qiáng)，但也可能產(chǎn)生更多的錯(cuò)誤和不連貫之處。

而當(dāng)「溫度」較低時(shí)（如 0.2、0.3 等），模型主要會(huì)從具有較高概率的詞匯中選擇，從而產(chǎn)生更平穩(wěn)、更連貫的文本。

但此時(shí)，生成的文本可能會(huì)顯得過(guò)于保守和重復(fù)。

因此在實(shí)際應(yīng)用中，需要根據(jù)具體需求來(lái)權(quán)衡選擇合適的「溫度」值。

接下來(lái)，在點(diǎn)評(píng)text-davinci-003時(shí)，Plappert表示這也是OpenAI旗下一個(gè)很能打的模型。

雖然不比GPT-4，但是一輪測(cè)試有62%的通過(guò)率還是能穩(wěn)穩(wěn)拿下第二名的寶座。

Plappert強(qiáng)調(diào)，text-davinci-003最好的一點(diǎn)是，用戶不需要使用ChatGPT的API。這意味著給prompt的時(shí)候能簡(jiǎn)單一點(diǎn)。

此外，Plappert也給予了Anthropic AI的claude-instant模型比較高的評(píng)價(jià)。

他認(rèn)為這個(gè)模型的性能不錯(cuò)，比GPT-3.5能打。GPT-3.5的通過(guò)率是46%，而claude-instant是54%。

當(dāng)然，Anthropic AI的另一個(gè)LLM——claude，沒(méi)有claude-instant能打，通過(guò)率只有51%。

Plappert表示，測(cè)試兩個(gè)模型用的prompt都一樣，不行就是不行。

除了這些耳熟能詳?shù)哪Ｐ停琍lappert也測(cè)試了不少開(kāi)源的小模型。

Plappert表示，自己能在本地運(yùn)行這些模型，這點(diǎn)還是不錯(cuò)的。

不過(guò)從規(guī)模上看，這些模型顯然沒(méi)有OpenAI和Anthropic AI的模型大，所以硬拿它們對(duì)比有點(diǎn)以大欺小了。

LLaMA代碼生成？拉胯

當(dāng)然，Plappert對(duì)LLaMA的測(cè)試結(jié)果并不滿意。

從測(cè)試結(jié)果來(lái)看，LLaMA在生成代碼方面表現(xiàn)很差勁。可能是因?yàn)樗麄冊(cè)趶腉itHub收集數(shù)據(jù)時(shí)采用了欠采樣的方法（under-sampling）。

就算和Codex 2.5B相比，LLaMA的性能也不是個(gè)兒。（通過(guò)率10% vs. 22%）

最后，他測(cè)試了Replit的3B大小的模型。

他表示，表現(xiàn)還不錯(cuò)，但和推特上宣傳的數(shù)據(jù)相比差點(diǎn)意思（通過(guò)率16% vs. 22%）

Plappert認(rèn)為，這可能是因?yàn)樗跍y(cè)試這個(gè)模型時(shí)所用的量化方式讓通過(guò)率掉了幾個(gè)百分比。

在測(cè)評(píng)的最后，Plappert提到了一個(gè)很有意思的點(diǎn)。

某位用戶在推特上發(fā)現(xiàn)，當(dāng)使用Azure平臺(tái)的Completion API（補(bǔ)全API）（而不是Chat API）時(shí)，GPT-3.5-turbo的性能表現(xiàn)更好。

Plappert認(rèn)為這種現(xiàn)象具有一定合理性，因?yàn)橥ㄟ^(guò)Chat API輸入prompt可能會(huì)相當(dāng)復(fù)雜。

編輯/lambor

標(biāo)簽：

分享到：QQ空間新浪微博騰訊微博人人網(wǎng)微信

上一篇：速看：火遍全網(wǎng)！蘋果Vision Pro亮相引熱議，華爾街大行怎么看？

下一篇：最后一頁(yè)

OpenAI霸榜前二！大模型代碼

速看：火遍全網(wǎng)！蘋果Vision Pro亮相引熱議，華爾街大行怎么看？

48小時(shí)點(diǎn)擊排行

圖片新聞

沒(méi)有穩(wěn)定工作也可以進(jìn)行貸款買車嗎具體規(guī)定你知道嗎？

OpenAI霸榜

LLaMA代碼生成？拉胯

猜你喜歡

OpenAI霸榜前二！大模型代碼生成排行榜出爐，70億

速看：火遍全網(wǎng)！蘋果Vision Pro亮相引熱議，華

當(dāng)前消息！美股到年底將漲20%？Fundstrat：這三個(gè)

一圖讀懂 | 美股期權(quán)隱含波動(dòng)率排行榜 (6.7)

?iPhone 15 會(huì)有哪些新功能？WWDC透露了些線索

全球聚焦：北水加倉(cāng)快手、中芯國(guó)際，賣出美團(tuán)超3

焦點(diǎn)資訊：乘聯(lián)會(huì)：初步統(tǒng)計(jì)5月乘用車市場(chǎng)零售175

別人恐懼我貪婪？“木頭姐”進(jìn)場(chǎng)抄底Coinbase

天天熱門:多家大行6月8日起下調(diào)人民幣存款利率，3

每日期權(quán)追蹤 | 特斯拉股價(jià)八連漲！看漲期權(quán)持

速看：火遍全網(wǎng)！蘋果Vision Pro亮相引熱議，華爾街大行怎么看？

加拿大要求剝離在加鋰礦資產(chǎn) 中礦資源等三家公司回應(yīng)：影響不大

2023電信日|思特奇以科技創(chuàng)新為翼，攜手運(yùn)營(yíng)商數(shù)字生態(tài)共飛騰

5月出口增速轉(zhuǎn)負(fù)：汽車出口延續(xù)高位，全球需求趨緩仍是挑戰(zhàn) 世界微動(dòng)態(tài)

業(yè)績(jī)快報(bào)信息披露不準(zhǔn)確震有科技被出具警示函

深圳紡織服裝出口快速增長(zhǎng) 前三季度民營(yíng)企業(yè)出口紡織服裝333.7億元

輕松集團(tuán)、中國(guó)平安、伊利等品牌入選“2023向上品牌100榜單”

建設(shè)綠色未來(lái)！比亞迪參與巴西太陽(yáng)能建設(shè) 生產(chǎn)光伏組件超200萬(wàn)塊

48小時(shí)點(diǎn)擊排行

圖片新聞

沒(méi)有穩(wěn)定工作也可以進(jìn)行貸款買車嗎具體規(guī)定你知道嗎？

安徽人民幣各項(xiàng)存款余額增速全國(guó)第三企業(yè)融資成本穩(wěn)中有降

中信銀行上饒分行因員工行為管理不到位被罰50萬(wàn)

多家銀行近期宣布暫停智能投顧業(yè)務(wù)申購(gòu) 投資者該怎么辦？

關(guān)于我們

聯(lián)系方式

供稿服務(wù)

版權(quán)聲明

廣告服務(wù)