“中文語音技術(shù)要由中國人做到最好,中文語音產(chǎn)業(yè)要掌握在我們自己手上?!倍嗄昵?,正是憑借這股不屈不撓的信念,科大訊飛在劉慶峰的帶隊下艱難創(chuàng)業(yè),闖出了在中文語音產(chǎn)業(yè)的一片天。2024年開年,科大訊飛賦能語音產(chǎn)業(yè)再進(jìn)一步,科大訊飛正式發(fā)布星火語音大模型,實現(xiàn)了語音技術(shù)與大模型技術(shù)的協(xié)同共振,開啟了萬物互聯(lián)時代以語音大模型賦能千行百業(yè)的無限可能。
1月30日,科大訊飛在合肥總部正式發(fā)布星火語音大模型,其諸多亮點引發(fā)行業(yè)關(guān)注。根據(jù)發(fā)布會披露的信息,星火語音大模型效果驚艷,根據(jù)開源Fleurs集、語音交互實際應(yīng)用場景構(gòu)建測試集SPMASR-EVAL-V1.0對星火語音大模型和OpenAI Whisper V3的橫向測試結(jié)果顯示,星火語音大模型在首批37個主流語種的效果均保持勝出;而在多語種語音合成方面,星火語音大模型的首批40個語種平均MOS分絕對提升0.25,擬人度超83%。這充分說明,科大訊飛不僅有能力在中文語音領(lǐng)域做到最好,在多語種技術(shù)實力方面也是國際領(lǐng)先水平。
“大模型帶來了語音技術(shù)發(fā)展的全新機會?!眲c峰在發(fā)布會上強調(diào)。星火語音大模型的重磅發(fā)布,是對智能語音技術(shù)的一次革新??拼笥嶏w作為人工智能領(lǐng)域的先行者,致力于讓機器“能聽會說,能理解會思考”,而有了領(lǐng)先的多語種語音合成和超擬人語音合成技術(shù),機器的聲音也可以像人類那樣繪聲繪色、情緒飽滿,充滿激情或溫度。劉慶峰表示:“借助大模型,我們讓一段語音具備更加豐富的屬性,有語種、有內(nèi)容、有韻律、有音色,還有情緒?!?/p>
得益于星火語音大模型讓機器更“聲情并茂”地表達(dá),使得它在千行百業(yè)能夠發(fā)揮出“1+1>2”的加持作用。在發(fā)布會上,劉慶峰宣布星火語音大模型全面賦能汽車、客服、陪伴機器人、家庭等更多場景應(yīng)用。
以大家熟知的汽車領(lǐng)域為例,目前中國正處于燃油車到新能源汽車的轉(zhuǎn)型期,汽車電動化、智能化與網(wǎng)聯(lián)化成為大勢所趨。科大訊飛率先將自主可控的星火大模型深入融合汽車座艙系統(tǒng),讓汽車根據(jù)語音意圖快速處理復(fù)雜的任務(wù),使得汽車語音交互不僅限于指令下達(dá),還可以自由聊天與知識提問,全方位解決用戶不同用車環(huán)境下的各類情景問題,真正做到只需動口不動手。而隨著星火語音大模型的發(fā)布,在助力車機實現(xiàn)更清晰、自然與情感化的語音合成功能基礎(chǔ)上,還大幅強化了海外語音能力。據(jù)悉,目前包括奇瑞、廣汽、長城、長安在內(nèi)的多家頭部車企與訊飛星火展開了合作,助力中國汽車“出?!边h(yuǎn)征,暢銷全球!
此外在客服領(lǐng)域,憑借星火大模型超擬人對話和更深刻的理解能力,“數(shù)字客服”能更準(zhǔn)確理解用戶真實需求與意圖,并通過不同的情緒表達(dá)與用戶交流,讓用戶感覺是在跟“人”對話,而不是冰冷的機器。當(dāng)然,星火語音大模型還可以在心理咨詢、輔助問診、旅游導(dǎo)覽等領(lǐng)域發(fā)揮重大作用。
在發(fā)布會上,星火語音大模型面向開發(fā)者正式全面開放。劉慶峰稱:“全新的語音大模型會賦能整個行業(yè),我相信萬物互聯(lián)時代一定會在新技術(shù)推動下加速到來,訊飛星火V3.5和語音大模型的聯(lián)動會極大地推動產(chǎn)業(yè)升級”。顯然,星火語音大模型將為智能技術(shù)的應(yīng)用、推廣和擴展提供更堅實的基座,加速萬物互聯(lián)的時代的產(chǎn)業(yè)升級,成為引爆智能語音技術(shù)革新的“奇點”。