近日,喜馬拉雅的“單田芳大師聲音重現”項目在2022年度工業和信息化部新聞宣傳中心(人民郵電報社)“ICT優秀案例”征集活動中,榮獲“超卓互聯網應用”榮譽稱號,這肯定了喜馬拉雅通過技術不斷創新內容生產方式、賦能音頻行業發展所作出的努力。喜馬拉雅已成為音頻領域AIGC的先行者,推動著音頻行業的技術革新。
喜馬拉雅始終堅持以科技賦能文化,通過AI技術,賦能創作者、服務用戶。如今,喜馬拉雅正在現有的“UGC+PGC+PUGC”內容生態之外,探索多模態AIGC的更多可能性。單田芳大師聲音重現項目是喜馬拉雅AIGC的標桿項目,喜馬拉雅通過TTS(文字轉語音)技術完美還原已逝的單田芳先生的聲音,首次將單田芳先生的AI合成音全新演繹聽眾耳熟能詳的經典之作。截至目前,喜馬拉雅已上線100多張運用單老AI合成音制作的AIGC專輯,總播放量超過1億。其中,有15張專輯播放量破百萬,例如,《民國四大家族》播放量近730萬,《十二金錢鏢》播放量近700萬,《臥虎藏龍全集》播放量超390萬。
這一項目所使用的TTS技術由喜馬拉雅珠峰智能實驗室自主研發,該實驗室定位于新一代數字出版平臺技術研發,長期專注于語音合成、識別、語音信號處理、編解碼以及智能音效的研究和開發,由喜馬拉雅首席科學家盧恒博士帶領。目前,這一實驗室已在多種技術的研究和應用上取得了突破。
喜馬拉雅自研的TTS前端文本處理分析模塊已經能夠高精度、全自動地對文本進行多音字識別、韻律預測和風格分類,并已開發出可以實現多情感、多風格、多語種聲音的TTS技術模型,不僅可以演繹不同情緒的文字,還可以自動區分旁白、對白,并支持英文,極大地豐富了TTS能表達的情感和韻律,這讓單田芳先生聲音的重現成為可能。為了最大程度保留單老那蒼勁、沙啞的獨特嗓音以及情感充沛、跌宕起伏的評書腔調,喜馬拉雅珠峰智能實驗室還通過自主設計單獨的韻律提取模塊,讓單老的AI合成音仿佛本尊再現。
喜馬拉雅成多情感、多風格、多語種聲音的TTS技術模型可廣泛運用于圖書、期刊、報紙、新媒體等多種內容的數字出版、語音修復、語音再現等。另外,AIGC制作速度快、成本低,這極大地革新了音頻行業的內容生產方式,讓內容生產更高效。
目前,喜馬拉雅已經與近百家網絡平臺和出版機構合作,運用TTS技術上線近6萬張AIGC專輯。不僅為上游出版產業數字化轉型提供技術平臺支持,通過數字化分發提高其經濟效益,也讓下游用戶能更便捷地享受邊聽邊看的內容消費體驗。
同時,喜馬拉雅也通過AIGC也進一步賦能創作者,幫助其高效生產音頻內容,推動創作者布局音頻,讓作家、撰稿人、主播等內容創作者能更輕松地將內容通過聲音帶到用戶耳邊。
目前,喜馬拉雅已申請了20多項語音技術相關專利,其中有10多項TTS語音合成相關專利, 還有兩項語音技術成果先后被世界頂尖學術會議“2022年IEEE國際音頻、語音與信號處理會議”收錄。除了TTS技術,喜馬拉雅在其他技術領域也成果頗豐。2022年8月,喜馬拉雅ASR技術在SpeechIO TIOBE評測中獲得第一名。 同時,喜馬拉雅還通過AI文稿、喜馬拉雅專屬音效、全景聲長音頻內容打造、喜韻音坊AI剪輯工具等,賦能創作者、服務用戶,讓內容生產提效,讓內容體驗增值。未來,我們將有望看到更多AI技術在喜馬拉雅平臺上落地生根,推動著音頻行業不斷發展。