欧美日韩天天草你懂的,欧美激情一区二区,精品国产一区二区三区在线观看

最火的幾個大語言模型都愛“胡說八道”，誰的“幻覺”問題最糟？

來源：富途牛牛發布時間：2023-08-18 07:48:43

總部位于紐約的人工智能初創公司和機器學習監控平臺Arthur AI于8月17日周四發布最新研報，比較了$微軟(MSFT.US)$支持的OpenAI、“元宇宙”$Meta Platforms(META.US)$、$谷歌-A(GOOGL.US)$/$谷歌-C(GOOG.US)$支持的Anthropic，以及英偉達支持的生成式AI獨角獸Cohere等公司大語言模型（LLM）“產生幻覺”（AKA胡說八道）的能力。

(資料圖片僅供參考)

Arthur AI會定期更新上述被稱為“生成式AI測試評估”的研究計劃，對行業領導者及其他開源LLM模型的優缺點進行排名。

最新測試選取了來自OpenAI 的GPT-3.5（包含1750億個參數）和GPT-4（1.76萬億參數）、來自Anthropic的Claude-2（參數未知）、來自Meta的Llama-2（700億參數），以及來自Cohere的Command（500億參數），并從定量和定性研究上對這些頂級LLM模型提出具有挑戰性的問題。

在“人工智能模型幻覺測試”中，研究人員用組合數學、美國總統和摩洛哥政治領導人等不同類別的問題考察不同LLM模型給出的答案，“旨在包含導致LLM犯錯的關鍵因素，即它們需要對信息進行多個推理步驟。”

研究發現，整體而言，OpenAI的GPT-4在所有測試的模型中表現最好，產生的“幻覺”問題比之前版本GPT-3.5要少，例如在數學問題類別上的幻覺減少了33%到50%。

同時，Meta的Llama-2在受測五個模型中整體表現居中，Anthropic的Claude-2表現排名第二，僅次于GPT-4。而Cohere的LLM模型最能“胡說八道”，而“非常自信地給出錯誤答案”。

具體來看，在復雜數學問題中，GPT-4表現位居第一，緊隨其后的是Claude-2；在美國總統問題中，Claude-2的準確性排名第一，GPT-4位列第二；在摩洛哥政治問題中，GPT-4重歸榜首，Claude-2和Llama 2幾乎完全選擇不回答此類問題。

研究人員還測試了人工智能模型會在多大程度上用不相關的警告短語來“對沖”它們的答案，以求避免風險，常見短語包括“作為一個人工智能模型，我無法提供意見”。

GPT-4比GPT-3.5的對沖警告語相對增加了50%，報告稱，這“量化了用戶們所提到GPT-4使用起來更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個問題中完全沒有提供對沖。

相比之下，Anthropic的Claude-2在“自我意識”方面最可靠，即能夠準確地衡量自己知道什么、不知道什么，并且只回答有訓練數據支持的問題。

Arthur AI的聯合創始人兼首席執行官Adam Wenchel指出，這是業內首份“全面了解人工智能模型幻覺發生率的報告”，并非僅僅提供單一數據來說明不同LLM的排名先后：

“這種測試對用戶和企業來說，最重要的收獲是可以測試確切工作負載，了解LLM如何執行你想要完成的任務至關重要。此前許多基于LLM的衡量標準并不是實際生活中它們被使用的方式。”

在上述研報發表同日，Arthur公司還推出了開源的AI模型評估工具Arthur Bench，可用于評估和比較多種LLM的性能和準確性，企業可以添加定制標準來滿足各自的商業需求，目標是幫助企業在采用人工智能時做出明智的決策。

“AI幻覺”（hallucinations）指的是聊天機器人完全捏造信息，并表現成滔滔不絕講述事實的樣子來回應用戶的提示語問題。

谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中，對詹姆斯·韋伯太空望遠鏡做出了不真實的陳述。今年6月，ChatGPT在紐約聯邦法院的一份文件中引用了“虛假”案例，提交該文件的涉案律師可能面臨制裁。

OpenAI研究人員曾在6月初發布報告稱找到了解決“AI幻覺的辦法”，即訓練AI模型在推理出答案的每個正確步驟上給予自我獎勵，而不僅僅是等到推理出正確的最終結論時才給予獎勵。這種“過程監督”的策略將鼓勵AI模型按照更類似人類的“思考”方式進行推理。

OpenAI在報告中承認：

“即使是最先進的AI模型也容易生成謊言，它們在不確定的時刻會表現出捏造事實的傾向。這些幻覺在需要多步驟推理的領域尤其是個問題，因為一個邏輯錯誤就足以破壞一個更大的解決方案。”

投資大鱷索羅斯也曾在6月發表專欄文章稱，人工智能在當下最能加重世界面臨的多重危機（Polycrisis），理由之一便是AI幻覺的嚴重后果：

“人工智能摧毀了這個簡單的模式（華爾街見聞注：即利用事實來明辨是非），因為它與現實完全無關。人工智能創造了自己的現實，當人造現實無法與現實世界相對應時（這種情況經常發生），就產生了AI幻覺。

這讓我幾乎本能地反對人工智能，并且我完全同意專家們指出的人工智能需要受到監管。但AI法規必須在全球范圍內強制執行，因為作弊的動機太大，那些逃避法規的人將獲得不公平的優勢。不幸的是，全球監管是無法實現的。

人工智能的發展速度非常快，普通人類智能不可能完全理解它。沒有人能預測它將把我們帶向何方。……這就是為什么我本能地反對AI，但我不知道如何才能阻止它。

美國將于2024年舉行總統大選，英國也很可能舉行大選，人工智能無疑將發揮重要作用，而除了危險之外，不會產生任何其他作用。

人工智能非常擅長制造虛假信息和深度造假，并且會有很多惡意行為者。對此我們能做些什么呢？我沒有答案。”

此前，被視為“人工智能教父”且從谷歌離職的杰弗里·辛頓（Geoffrey Hinton）多次公開批評AI帶來的風險，甚至可能摧毀人類文明，并預言“人工智能僅需5到20年就能超越人類智能”。

編輯/tolk

標簽：

分享到：QQ空間新浪微博騰訊微博人人網微信

上一篇：成交額TOP20 | 特斯拉跌近3%，傳下個月生產改款Model 3；業績超預期！思科漲超3%

下一篇：最后一頁

最火的幾個大語言模型都愛“

成交額TOP20 | 特斯拉跌近3%，傳下個月生產改款Model 3；業績超預期！思科漲超3%

48小時點擊排行

圖片新聞

猜你喜歡

最火的幾個大語言模型都愛“胡說八道”，誰的“幻

成交額TOP20 | 特斯拉跌近3%，傳下個月生產改款

次貸危機“大空頭”，又“all in”做空！

Wedbush分析師：蘋果應該以500億美元收購迪士尼旗

把握市場——如何在機會出現時就已經做好準備

越南造車新勢力VinFast來勢洶洶，但先別急著“上

B站財報分析：Q2營收同比增長8%超預期，調整后凈

美股早盤 | 美股高開低走，特斯拉跌近2%，思科

勞動力市場韌性十足! 美國初請失業金數創五周最

美股三大指數開盤上漲，熱門中概股普漲，小鵬汽車

成交額TOP20 | 特斯拉跌近3%，傳下個月生產改款Model 3；業績超預期！思科漲超3%

加拿大要求剝離在加鋰礦資產中礦資源等三家公司回應：影響不大

2023電信日|思特奇以科技創新為翼，攜手運營商數字生態共飛騰

今年已有25家藥企IPO終止銷售費用成問詢重點

業績快報信息披露不準確震有科技被出具警示函

深圳紡織服裝出口快速增長前三季度民營企業出口紡織服裝333.7億元

中國華融：筑牢主業向上之基服務實體經濟高質量發展

建設綠色未來！比亞迪參與巴西太陽能建設生產光伏組件超200萬塊

48小時點擊排行

圖片新聞

沒有穩定工作也可以進行貸款買車嗎具體規定你知道嗎？

安徽人民幣各項存款余額增速全國第三企業融資成本穩中有降

中信銀行上饒分行因員工行為管理不到位被罰50萬

多家銀行近期宣布暫停智能投顧業務申購投資者該怎么辦？

關于我們

聯系方式

供稿服務

版權聲明

廣告服務