久久精品免费看国产成人,四虎国产精品亚洲一区久久,伊人精品久久久7777,成人欧美一区二区三区在线,99精品国产福利一区二区,亚洲精品成人毛片久久久,久久精品99精品免费观看 ,99热久久这里只有精品免费,久久精品免费一区二区三区

《人工智能大模型體驗報告2.0》發(fā)布,這幾家性能排名前三!
來源:今報在線 發(fā)布時間:2023-08-14 11:09:11

ChatGPT 崛起引發(fā)新一輪生成式AI熱潮,國內(nèi)科技企業(yè)紛紛布局。據(jù)不完全統(tǒng)計,截至目前,國內(nèi)大模型數(shù)量已達上百個。在這些大模型中,誰的表現(xiàn)最好,智能性最高,用戶體驗最強?8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》(以下簡稱報告)給出了答案。

報告顯示,與2023年6月相比,當前中國大模型產(chǎn)品進步顯著。

具體來看,訊飛星火在工作提效方面優(yōu)勢明顯,百度文心一言基礎能力表現(xiàn)出色,商湯商量則在情商方面表現(xiàn)優(yōu)秀。

落實到基礎能力、智商能力、情商能力和工具提效四大能力綜合得分上,當前國內(nèi)各主流大模型中,排名前五的分別為科大訊飛星火、百度文心一言、商湯商量、智譜ChatGLM和360智腦。

其中科大訊飛得分1013,僅比人類答案落后1分;百度文心一言1010分,商湯商量983分,智譜ChatGLM和360智腦分別為983分、951分。

據(jù)了解,此次測評為保證結(jié)果的客觀公平性,無論是在題目設計上、對標Benchmark(人類)上,還是打分權重、專家測評團隊上,相對于6月份的《人工智能大模型體驗報告》,均進行了全面升級。

其中,在題目設計方面,測評題目由300道擴展至500道,并進一步完善了題目分類;

在對標Benchmark方面,本次測評將接受過高等教育的人類作為對照,來考評大模型真實能力;

在打分標準上,本次測評根據(jù)對產(chǎn)業(yè)、生活的實際價值,對基礎能力、智商能力、情商能力和工具提效四大測評維度進行了權重設計;

在測評團隊方面,本次測評特邀北京大學文化與傳播研究所及其他產(chǎn)界、學界專家全程參與。

此外,本次測評還設置了用戶體驗項目,抓取了7月31日—8月4日數(shù)據(jù),通過人機互動提問等形式,對國內(nèi)主流大模型進行使用體驗評測,旨在為科技企業(yè)調(diào)整努力方向提供參考。

報告顯示,在智商評估方面,人類在智商方面仍然具有明顯優(yōu)勢。

課題組分別從常識知識(20%)、邏輯能力(50%)和專業(yè)知識(30%)方面對科技企業(yè)大模型進行考量。

結(jié)果顯示,訊飛星火、智譜AI-ChatGLM表現(xiàn)突出,百度文心一言、昆侖萬維天工表現(xiàn)優(yōu)良。

在工作效率提升方面,課題組重點在工具提效(50%)和生成創(chuàng)新(50%)方面進行考量。

結(jié)果顯示,訊飛星火表現(xiàn)最為搶眼,百度文心一言、商湯商量、智譜AI-ChatGLM表現(xiàn)優(yōu)良。

在情商方面,AI與人類之間的差距最為明顯。人類在情緒理解和處理方面通常具有更強的優(yōu)勢,和更靈活的處理能力。

通過對處理日常事項(35%)、一語雙關(30%)、人際關系(35%)問題進行分析發(fā)現(xiàn),科技企業(yè)大模型中,商湯商量表現(xiàn)亮眼,百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現(xiàn)優(yōu)良。

標簽:

猜你喜歡