久久精品免费看国产成人,四虎国产精品亚洲一区久久,伊人精品久久久7777,成人欧美一区二区三区在线,99精品国产福利一区二区,亚洲精品成人毛片久久久,久久精品99精品免费观看 ,99热久久这里只有精品免费,久久精品免费一区二区三区

最火的幾個大語言模型都愛“胡說八道”,誰的“幻覺”問題最糟?
來源:富途牛牛 發布時間:2023-08-18 07:48:43

總部位于紐約的人工智能初創公司和機器學習監控平臺Arthur AI于8月17日周四發布最新研報,比較了$微軟(MSFT.US)$支持的OpenAI、“元宇宙”$Meta Platforms(META.US)$、$谷歌-A(GOOGL.US)$/$谷歌-C(GOOG.US)$支持的Anthropic,以及英偉達支持的生成式AI獨角獸Cohere等公司大語言模型(LLM)“產生幻覺”(AKA胡說八道)的能力。


(資料圖片僅供參考)

Arthur AI會定期更新上述被稱為“生成式AI測試評估”的研究計劃,對行業領導者及其他開源LLM模型的優缺點進行排名。

最新測試選取了來自OpenAI 的GPT-3.5(包含1750億個參數)和GPT-4(1.76萬億參數)、來自Anthropic的Claude-2(參數未知)、來自Meta的Llama-2(700億參數),以及來自Cohere的Command(500億參數),并從定量和定性研究上對這些頂級LLM模型提出具有挑戰性的問題。

在“人工智能模型幻覺測試”中,研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察不同LLM模型給出的答案,“旨在包含導致LLM犯錯的關鍵因素,即它們需要對信息進行多個推理步驟。”

研究發現,整體而言,OpenAI的GPT-4在所有測試的模型中表現最好,產生的“幻覺”問題比之前版本GPT-3.5要少,例如在數學問題類別上的幻覺減少了33%到50%。

同時,Meta的Llama-2在受測五個模型中整體表現居中,Anthropic的Claude-2表現排名第二,僅次于GPT-4。而Cohere的LLM模型最能“胡說八道”,而“非常自信地給出錯誤答案”。

具體來看,在復雜數學問題中,GPT-4表現位居第一,緊隨其后的是Claude-2;在美國總統問題中,Claude-2的準確性排名第一,GPT-4位列第二;在摩洛哥政治問題中,GPT-4重歸榜首,Claude-2和Llama 2幾乎完全選擇不回答此類問題。

研究人員還測試了人工智能模型會在多大程度上用不相關的警告短語來“對沖”它們的答案,以求避免風險,常見短語包括“作為一個人工智能模型,我無法提供意見”。

GPT-4比GPT-3.5的對沖警告語相對增加了50%,報告稱,這“量化了用戶們所提到GPT-4使用起來更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個問題中完全沒有提供對沖。

相比之下,Anthropic的Claude-2在“自我意識”方面最可靠,即能夠準確地衡量自己知道什么、不知道什么,并且只回答有訓練數據支持的問題。

Arthur  AI的聯合創始人兼首席執行官Adam Wenchel指出,這是業內首份“全面了解人工智能模型幻覺發生率的報告”,并非僅僅提供單一數據來說明不同LLM的排名先后:

“這種測試對用戶和企業來說,最重要的收獲是可以測試確切工作負載,了解LLM如何執行你想要完成的任務至關重要。此前許多基于LLM的衡量標準并不是實際生活中它們被使用的方式。”

在上述研報發表同日,Arthur公司還推出了開源的AI模型評估工具Arthur Bench,可用于評估和比較多種LLM的性能和準確性,企業可以添加定制標準來滿足各自的商業需求,目標是幫助企業在采用人工智能時做出明智的決策。

“AI幻覺”(hallucinations)指的是聊天機器人完全捏造信息,并表現成滔滔不絕講述事實的樣子來回應用戶的提示語問題。

谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中,對詹姆斯·韋伯太空望遠鏡做出了不真實的陳述。今年6月,ChatGPT在紐約聯邦法院的一份文件中引用了“虛假”案例,提交該文件的涉案律師可能面臨制裁。

OpenAI研究人員曾在6月初發布報告稱找到了解決“AI幻覺的辦法”,即訓練AI模型在推理出答案的每個正確步驟上給予自我獎勵,而不僅僅是等到推理出正確的最終結論時才給予獎勵。這種“過程監督”的策略將鼓勵AI模型按照更類似人類的“思考”方式進行推理。

OpenAI在報告中承認:

“即使是最先進的AI模型也容易生成謊言,它們在不確定的時刻會表現出捏造事實的傾向。這些幻覺在需要多步驟推理的領域尤其是個問題,因為一個邏輯錯誤就足以破壞一個更大的解決方案。”

投資大鱷索羅斯也曾在6月發表專欄文章稱,人工智能在當下最能加重世界面臨的多重危機(Polycrisis),理由之一便是AI幻覺的嚴重后果:

“人工智能摧毀了這個簡單的模式(華爾街見聞注:即利用事實來明辨是非),因為它與現實完全無關。人工智能創造了自己的現實,當人造現實無法與現實世界相對應時(這種情況經常發生),就產生了AI幻覺。

這讓我幾乎本能地反對人工智能,并且我完全同意專家們指出的人工智能需要受到監管。但AI法規必須在全球范圍內強制執行,因為作弊的動機太大,那些逃避法規的人將獲得不公平的優勢。不幸的是,全球監管是無法實現的。

人工智能的發展速度非常快,普通人類智能不可能完全理解它。沒有人能預測它將把我們帶向何方。……這就是為什么我本能地反對AI,但我不知道如何才能阻止它。

美國將于2024年舉行總統大選,英國也很可能舉行大選,人工智能無疑將發揮重要作用,而除了危險之外,不會產生任何其他作用。

人工智能非常擅長制造虛假信息和深度造假,并且會有很多惡意行為者。對此我們能做些什么呢? 我沒有答案。”

此前,被視為“人工智能教父”且從谷歌離職的杰弗里·辛頓(Geoffrey Hinton)多次公開批評AI帶來的風險,甚至可能摧毀人類文明,并預言“人工智能僅需5到20年就能超越人類智能”。

編輯/tolk

標簽:

猜你喜歡

最火的幾個大語言模型都愛“胡說八道”,誰的“幻

總部位于紐約的人工智能初創公司和機器學習監控平臺ArthurAI于8月17日更多

2023-08-18 07:48:43

成交額TOP20 | 特斯拉跌近3%,傳下個月生產改款

周四美股成交額第1名特斯拉收跌2 83%,成交268 92億美元。第2名英偉達更多

2023-08-18 07:49:16

次貸危機“大空頭”,又“all in”做空!

大空頭,開始做空了!而且是大手筆做空!根據公開信息顯示,電影《大空更多

2023-08-18 05:51:24

Wedbush分析師:蘋果應該以500億美元收購迪士尼旗

新浪科技訊北京時間8月17日晚間消息,據報道,投行Wedbush分析師DanIve更多

2023-08-18 05:54:06

把握市場——如何在機會出現時就已經做好準備

01投資人持有的是資產不是股價,股價是為我們所利用的。低股價你用它,更多

2023-08-18 05:51:25

越南造車新勢力VinFast來勢洶洶,但先別急著“上

越南電動汽車初創公司$VinFastAuto(VFS US)$周二(8月15日)在納斯達克更多

2023-08-17 22:53:57

B站財報分析:Q2營收同比增長8%超預期,調整后凈

B站二季度營收超預期,廣告業務收入同比增長36%,直播收入同比增長32%更多

2023-08-17 22:47:06

美股早盤 | 美股高開低走,特斯拉跌近2%,思科

北京時間17日晚,美股周四小幅高開。市場繼續評估美聯儲關于未來可能繼更多

2023-08-17 22:45:06

勞動力市場韌性十足! 美國初請失業金數創五周最

美國首次申請失業救濟金的人數創下五周以來的最大降幅,表明美國經濟的更多

2023-08-17 21:54:03

美股三大指數開盤上漲,熱門中概股普漲,小鵬汽車

美股開盤,道指漲0 27%,納指漲0 38%,標普500指數漲0 33%;明星科技股更多

2023-08-17 21:52:13