久久精品免费看国产成人,四虎国产精品亚洲一区久久,伊人精品久久久7777,成人欧美一区二区三区在线,99精品国产福利一区二区,亚洲精品成人毛片久久久,久久精品99精品免费观看 ,99热久久这里只有精品免费,久久精品免费一区二区三区

人類數(shù)據(jù)告急,微軟OpenAI開始用AI喂AI,奧特曼放話:未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)
來源:富途牛牛 發(fā)布時間:2023-08-14 14:49:46

人類數(shù)據(jù)缺缺缺,AI被迫開始吃AI生產(chǎn)的數(shù)據(jù)了!


(資料圖)

這是微軟、OpenAI等一眾AI前沿公司面臨的現(xiàn)狀。

他們從維基百科、電子書、新聞網(wǎng)站、博客、推特和Reddit等平臺和論壇中搜羅了大量數(shù)據(jù),然后現(xiàn)在……這些數(shù)據(jù)快被用完了。

BUT,要訓練更好的大模型,多少數(shù)據(jù)都不夠。

據(jù)《金融時報》介紹,不少公司正把大模型生成的結(jié)果、也就是所謂的合成數(shù)據(jù)(Synthetic data),喂給參數(shù)量更小的大模型吃,發(fā)現(xiàn)效果還不錯。

對于使用合成數(shù)據(jù),OpenAI的CEO Sam Altman不僅不介意,還放話“未來所有數(shù)據(jù)都將變成合成數(shù)據(jù)”。

估值20億美元的大模型初創(chuàng)公司Cohere同樣在用合成數(shù)據(jù)。公司CEO、經(jīng)典大模型Transformer論文作者之一Aidan Gomez甚至認為:

合成數(shù)據(jù)可能加速通往“超級智能”AI系統(tǒng)的道路。

所以,究竟哪些大模型已經(jīng)在用合成數(shù)據(jù)了,這些合成數(shù)據(jù)又是從何而來?

大AI合成數(shù)據(jù),小AI吃

這些所謂的合成數(shù)據(jù),本質(zhì)上是用當前表現(xiàn)較好的大模型生成的數(shù)據(jù),經(jīng)過人工調(diào)整后,再喂給稍微小一點的大模型。

例如Cohere公司就嘗試使用了兩個大模型進行“角色扮演”對話,并將它們生成的結(jié)果做成合成數(shù)據(jù)。

這兩個大模型分別扮演“數(shù)學老師”和“學生”,正在進行一堂虛擬的數(shù)學教學。同時,Cohere安排一個人類員工在旁邊監(jiān)督對話生成。

一旦對話出現(xiàn)錯誤,人類員工就會插手對文本進行修正。

盡管確實還需要人力,但這比聘請科學、醫(yī)學和商業(yè)方面的專家來撰寫文本要便宜得多。

那么,什么樣的大模型會用到這些合成數(shù)據(jù)呢?

微軟研究院最近有研究表明,合成數(shù)據(jù)可以用于訓練比GPT-4或PaLM-2稍微小一點的語言模型。

以用GPT-4生成的一個“四歲兒童小說”數(shù)據(jù)集TinyStories為例,這個數(shù)據(jù)集被證明雖然只包含4歲小孩能理解的單詞,但用于訓練一個大模型之后,同樣可以生成語法正確、閱讀體驗流暢的故事:

對于使用合成數(shù)據(jù)的理由,Cohere的CEO Aidan Gomez認為:

能從網(wǎng)上獲取數(shù)據(jù)當然更好,但網(wǎng)絡(luò)數(shù)據(jù)太雜亂了,完全無法滿足需求。相比之下,合成數(shù)據(jù)已經(jīng)非常多了,即使它還沒被廣泛傳播。

背后產(chǎn)業(yè)鏈已出現(xiàn)

目前,包括Scale AI、Gretel.ai等企業(yè),已經(jīng)開始給外界提供合成數(shù)據(jù)服務(wù)。

先是Scale AI,旗下就推出了一款合成數(shù)據(jù)產(chǎn)品Scale Synthetic,用于給企業(yè)提供合成數(shù)據(jù)服務(wù)。

而在之前一篇SemiAnalysis爆料GPT-4“大花邊”的新聞中,還提到GPT-4的數(shù)據(jù)集中,有數(shù)百萬行是來自Scale AI和內(nèi)部的指令微調(diào)數(shù)據(jù)。

至于合成數(shù)據(jù)平臺Gretel.ai,從官網(wǎng)來看,它已經(jīng)和谷歌、拳頭游戲、匯豐銀行等不同企業(yè)進行了合作,以生成更多合成的數(shù)據(jù)提供給其他開發(fā)者使用。

Gretel.ai的CEO Ali Golshan認為,合成數(shù)據(jù)的好處在于,它保留了數(shù)據(jù)集中所有個人的隱私,同時仍然保持其統(tǒng)計學意義上的完整性(statistical integrity)。

但并非所有人都接受合成數(shù)據(jù)這種“神奇操作”,目前各方的看法主要分成兩波。

一部分贊同使用合成數(shù)據(jù)。包括Cohere等AI公司在內(nèi),有不少搞大模型的企業(yè)仍然堅持這一做法,并認為它可能生成更好的AI,甚至從中誕生出“超級智能”。

另一部分則認為,合成數(shù)據(jù)終將讓AI“自食其果”。

例如一篇來自牛津大學、劍橋大學、帝國理工學院、多倫多大學、愛丁堡大學和Vector Institute多家機構(gòu)的研究表明:

使用合成數(shù)據(jù)訓練,會讓模型出現(xiàn)不可逆轉(zhuǎn)的缺陷:

忘記那些“不可能發(fā)生的事件”,最終被自己生成的數(shù)據(jù)毒害。

有網(wǎng)友認為,這些合成數(shù)據(jù)最后會變成一灘“無法使用的污泥”——然后人們不得不被迫雇傭數(shù)據(jù)科學家來對它進行清洗。

還有網(wǎng)友調(diào)侃,這聽起來就像是“AI近親繁殖”一樣。

你認為AI需要使用合成數(shù)據(jù)嗎?

編輯/lambor

標簽:

猜你喜歡

人類數(shù)據(jù)告急,微軟OpenAI開始用AI喂AI,奧特曼放

人類數(shù)據(jù)缺缺缺,AI被迫開始吃AI生產(chǎn)的數(shù)據(jù)了!這是微軟、OpenAI等一眾更多

2023-08-14 14:49:46

亞馬遜股價大漲背后:頭部基金二季度上演“買買買

今年二季度,美國對沖基金B(yǎng)aupost集團以及共同基金巨頭富達基金等多家更多

2023-08-14 13:58:36

機構(gòu):Q2印度成為全球第五大iPhone市場

TechInsights指出,$蘋果(AAPL US)$iPhone該季度出貨量在印度同比增長更多

2023-08-14 12:57:01

醫(yī)藥領(lǐng)域行業(yè)整治影響如何,哪些細分板塊將受益?

7月21日國家衛(wèi)健委等10部門聯(lián)合召開視頻會議,部署開展為期一年的全國更多

2023-08-14 12:46:39

港股午評 | 港股全線走低,科指跌超3%;汽車股

富途資訊8月14日消息,港股三大指數(shù)震蕩下行,恒指跌2 41%,科指跌3 09更多

2023-08-14 12:53:20

手握兩大“候選藥王”,禮來要做第一個萬億藥廠!

在達成5000億美元市值目標后,$禮來(LLY US)$希望憑借阿爾茨海默癥和減更多

2023-08-14 12:45:52

一圖前瞻 | 騰訊業(yè)績重磅來襲,機構(gòu)料宏觀復蘇

本周明星中概股陸續(xù)發(fā)布財報,作為港股科網(wǎng)股龍頭,$騰訊控股(00700 HK更多

2023-08-14 12:46:37

暑期檔3部影片票房破20億,機構(gòu)看好爆款潛力影片

據(jù)燈塔專業(yè)版數(shù)據(jù)顯示,截至8月13日,2023年暑期檔已有3部影片累計票房更多

2023-08-14 11:50:51

摩根大通:維持阿里巴巴-SW“增持”評級,目標價

摩根大通發(fā)布研究報告稱,在內(nèi)地消費疲軟、市場競爭的負面影響及電商投更多

2023-08-14 11:45:53

放大招!特斯拉Model Y國內(nèi)又降價,新能源車降價

造車新勢力紛紛降價,“卷王”特斯拉也在第一時間跟上了降價步伐。8月1更多

2023-08-14 11:47:24