久久精品免费看国产成人,四虎国产精品亚洲一区久久,伊人精品久久久7777,成人欧美一区二区三区在线,99精品国产福利一区二区,亚洲精品成人毛片久久久,久久精品99精品免费观看 ,99热久久这里只有精品免费,久久精品免费一区二区三区

人類數據耗盡怎么辦? 外灘大會熱議數據技術新趨勢
來源:東方網 發布時間:2024-09-06 11:32:32

9月5日,在2024 Inclusion·外灘大會上,由螞蟻集團、上海交通大學、復旦大學聯合主辦的“從DATA for AI到AI for DATA”見解論壇召開,產學研代表深入探討了在AI時代數據價值的轉變,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民,昆侖萬維 & 天工智能首席科學家、新加坡工程院院士顏水成參會,分享了數據技術的變化趨勢及與AI技術的融合。

(圖說:9月5日,2024 Inclusion·外灘大會“從DATA for AI到AI for DATA”見解論壇召開。)

大模型拉動數據與AI全面對齊

數據一定程度上決定了智能的上限,這使得大模型的技術越要突破,數據技術越要與其“對齊”,大模型對數據利用的“貪婪程度”,也影響了數據的存儲、生產、加工、流通、消費各個環節的技術走向。

在存儲環節,中國工程院院士、清華大學計算機科學與技術系教授鄭緯民表示,大模型生命周期的每一環節都與存儲系統有關,在數據獲取階段,需要處理海量多模態小文件,在數據預處理時,則要頻繁、隨機小樣本讀取,訓練時,檢查點文件讀寫對存儲系統提出新的需求,推理時,加載模型參數以及保存中間結果尤為關鍵,這些挑戰也催生了新的技術方案誕生。

大數據時代,數據的價值還沒來得及充分挖掘,AI時代一到,數據卻面臨著消耗過快的挑戰,這使得合成數據技術成了熱門領域。據研究機構Epoch AI在6月發布的報告顯示,從2026年起,人類產生的新數據量將比模型學習的新數據量要少,預估到2028年大語言模型將耗盡人類數據。

昆侖萬維 & 天工智能首席科學家、新加坡工程院院士顏水成認為,模型結構還會繼續升級,大模型目前推理能力不夠等眾多的遺留問題,最好的解決途徑可能是用合成數據,但做法不同,不應是根據原來的數據合成新的數據,而是通過大模型之間相互的對話、討論、評價,最后產生出更好、更高質量的數據,這些數據將會大大去提升大模型的效能。

基礎數據庫也在加強與AI的融合。國產分布式數據庫OceanBase CTO楊傳輝介紹了如何通過一套系統同時支持SQL+AI,支持向量數據庫,并通過AI技術優化數據庫開發和管理工具。

螞蟻技術研究院院長陳文光提出,向AI“對齊”需要從底層系統角度出發,包括硬件的結構和對應的編程語言、編譯系統等。他介紹了在人工智能、科學計算與大數據處理(FABS:Fused AI, Big Data and Science)融合的計算模式思考。

探索AI時代的數據戰略與實踐

(圖說:螞蟻集團臺技術事業群副總裁駱驥展望新一代智能數據體系,他認為數據正在向價值中心轉變。)

從大數據時代到AI時代,數據體系正在從成本和效率中心向價值中心轉變,螞蟻集團臺技術事業群副總裁駱驥認為,在AI時代,數據資產本身的規模、多樣性、品質等是決定智能化效果的關鍵因素。數據更加直接地影響到智能化應用的效果,這就意味著,從數據資產的生產、加工與服務、消費與應用等各個環節都需要圍繞數據的價值化這一全新的視角去構建相應的體系與技術能力。

駱驥分享了基于螞蟻集團業務場景下,AI時代的螞蟻智能數據體系探索與實踐。

他表示,在過去的兩年里,螞蟻集團一直在構建一個圍繞融合數據湖、能提供各種數據驅動的智能化應用服務與能力的數據體系,其底層基于全模態存儲與計算引擎,上層能支持豐富的智能化業務應用場景。

在底層,螞蟻構建了行列混存,以及面向新搜索、新交互的向量數據庫能力,并且為大模型訓練打造了極致的全模態緩存加速的新型存儲技術產品。

在核心的融合數據湖里,螞蟻致力于將結構化數據、半結構化數據與非結構化數據充分融合。除了傳統的數據管理與治理、端云/跨云的數據融合和隱私保護之外,還重點關注統一元數據、支持三線一致和Single Source of Truth,以及特別針對非結構化數據的安全可信與品質保障能力等幾大關鍵要素。

在上層的數據應用中,包含了高價值數據的生產(包括數據引入、數據感知、數據標注、數據合成)、全模態的數據研發和面向機器與智能體的新特征服務,以及圍繞數據的分析與科學實驗工程體系等。

“數據技術領域也正在飛奔進入一個全新的歷史階段。”駱驥說。


標簽:

猜你喜歡