智能語音技術自上世紀末開始在廣播產業中應用,隨著深度學習算法的普及而有了強大的技術支撐。目前,智能語音在廣播產業中有四種應用,即廣播內容采集、廣播內容生成、廣播內容傳播、廣播內容管理,本文對此做簡單梳理,以明確下一步工作的推進。
1997年,比利時萊爾努豪斯派(Lernout&Hauspie)公司發布了Naturally Speaking軟件的1.0版本并大受好評,這是第一款為世界所知的消費級智能語音軟件產品。人們驚嘆于它的連續語音識別能力和準確度,并愿意為此付費,這讓該公司很快取得了商業上的成功。
Naturally Speaking的成功直接啟發了其他公司或組織對于加快智能語音應用的思考。彼時,NaturallySpeaking的愿景是為專業人士分擔工作,用語音識別的方式幫助他們完成文檔、報告、郵件、表格、日程安排等工作。但是,很快人們就將智能語音的應用場景從個人辦公拓寬到汽車、醫療、通信、家電等行業應用中,智能語音技術在廣播產業中的應用也是從這一時期起步的。比如:日本電報電話公司(NTT,Nippon Telegraph&Tel Corp)自行研發了一套實驗性的語音交互系統,用于廣播和數字通信中的語音轉錄與信息提取(1997年);美國麻省理工學院媒體實驗室為廣播電臺設計了一款廣播內容分析軟件,可以基于興趣偏好為用戶匹配類似的音頻新聞故事(2000年);日本放送協會(NHK,Nippon hoso kyokai)在自己的廣播電視新聞節目中使用一套字幕實時轉錄系統,解決了鍵盤輸人新聞字幕速度跟不上播音語速的同題(2000年);歐洲的葡萄牙及很多其他葡萄牙語國家則應用了一套名為AUDIMUS的語音識別引擎,用以進行廣播播出監控和音頻數據自動轉錄,可以實現低誤差和后期4倍加速效果。
當然,當時的智能語音技術在廣播產業的這些應用存在著非常大的局限性:一是基本只有智能語音中的語音識別技術得到了應用,缺乏與其他技術的聯動,應用的場景非常有限,多數用于廣播節目的后期轉錄存檔。二是應用的范圍有限。因為當時語音識別軟件的穩定性、應性還存在一些問題,所以這種應用只能在廣播播出間、編輯室中展開。三是很多智能語音系統還處在實驗性階段,大部分不甚成熟且造價較高,故這種應用基本上只在一些發達國家的規模較大的廣播電臺中存在。
智能語音技術在廣播產業中的應用水平是以智能語音技術發展水平為前提的,2006年之后,隨著深度學習算法在智能語音研究領域中的普及,智能語音的技術水平才迅速發展。智能語音在廣播產業中的應用也迅速鋪展開來,同時開始向縱深推進。
一、智能語音在廣播內容采集中的應用
傳統廣播內容采編,主要依靠記者在現場通過錄音筆、電腦以及紙筆進行記錄,而整理采訪資料時經常需要重復聽錄音,費時費力。智能語音的出現為這個問題提供了一種解決方法。
2015年,原中央人民廣播電臺和中國科學院簽署協議,決定共建中國廣播云平臺,其中一項重要內容就是建立國內廣播電臺全媒體采編系統,實現人工智能時代廣播新聞采編的進化。在全媒體采編系統中,記者可以通過手機采編客戶端將采訪錄音實時轉化為文字,辨識正確率在95%以上,并且可以進行語義修改,基本上達到了即采即發的標準,極大地提高了新聞采編的效率。這套系統支持蒙古族、藏族、維吾爾族、哈薩克族、朝鮮族等5個少數民族語言和中、英、俄、法、日、韓等多國語言,可在采訪錄音時通過智能語音引擎將上述語言實時翻譯為中文,突破了記者個人能力的限制,將“不可能的采訪”變成了可能。
不過,這套全媒體采編系統仍然存在局限,比如需要依賴手機進行錄音,在嘈雜的采訪環境或現場遠距離采訪中效果就不甚理想;還需要依賴手機網絡信號,遇到復雜網絡場景(如大型發布會現場)或者無網絡場景(如偏遠山區)時,語音轉化能力也大打折扣,語音翻譯則基本不可用。
眾多的智能語音公司嘗試為新聞記者生產專門的智能語音采訪設備來解決這些問題,科大訊飛股份有限公司就是其中的先行者。其在2018年推出了專門針對媒體工作者的專業轉寫設備“訊飛M1轉寫助手”,并將之提供給一些中央級媒體進行全國兩會采訪使用。這款設備能夠有效拾取十米范圍內的聲音并進行數字降噪,實現遠距離無損錄音;同時內置離線智能語音數據,可以實現無網絡條件下的轉寫和翻譯。2019年,科大訊飛股份有限公司又推出面向會議采訪的語音轉寫移動工作站訊飛轉寫機,除了能夠精準拾取與識別會議、講座、發布會的語音內容并實現語音轉文字和即時翻譯之外,還能夠識別不同聲源,智能區分不同說話者的聲音,并按照人物將文字稿分類排布。目前訊飛轉寫機由于售價昂貴,尚未在記者群體中普及,但在不少大型會議現場已經可以見到它的身影,主辦方主要使用訊飛轉寫機進行現場雙語字幕直播,同時為記者提供現場語音和文字實錄。其通過“語音+圖像”同步智能識別技術,能夠自動查找、識別演講者投影屏幕中的關鍵詞匯,并將其自動添加到語音識別引擎中,實時生效,大幅提升了專業詞匯的識別效果,減輕了記者后期文字編輯的工作量,也降低了可能出現的專業知識紕漏。
類似的專業智能語音設備其實還有很多,比如瑞典Anoto公司生產的Livescribe智能筆,它支持記者在采訪時邊錄音邊用智能筆寫下關鍵信息,并將錄音與文字同步到云端,在采訪結束后,在手機應用中點擊相關文字時,將會播放當時的實況錄音,這將有利于音頻資料的查詢與廣播節目制作。還有北京搜狗公司推出的搜狗智能錄音筆C1,它在基本的語音轉文字功能的基礎上,還完善了自動分段、語氣詞過濾、關鍵詞優化、在線編輯、重點標記等功能。
隨著越來越多的廣播電臺都開始為記者配備這些體積小巧、功能完善的專業級智能語音采訪設備,智能語音技術正在廣播內容采集中發揮越來越大的作用。
二、智能語音在廣播內容生成中的應用
盡管最早的CRT示波器在1897年就已經出現,但示波技術被廣泛應用在廣播內容制作上卻是20世紀60年代之后的事情,它讓廣播采集的內容變為“視覺可見”。盡管這是廣播內容制作的一個巨大飛躍,但是它也存在著“可見卻難以理解”的原生缺陷,節目制作者往往需要花費大量時間反復聆聽來確認具體內容,故而效率也是無法保持的。要解決這一問題,必須使廣播由“視覺可見”變為“視覺可理解”,而智能語音恰恰能夠滿足這一點。
2017年7月,江蘇省廣播電視總臺面向內部推出了一套內容編譯系統,用于廣播節目的后期制作。這套系統能夠通過智能語音將廣播音頻文件轉化為文字,并將音頻內容與文字內容一一對應、說話者聲音與特定顏色一一對應。這套系統可以實現以下功能:一是支持通過文字進行音頻尋址,這讓編輯可以快速找到所需音頻片段并進行剪輯;二是支持預設敏感詞,并對含有敏感詞匯的廣播內容進行特定顏色標注,這將有利于編輯進行節目審核;三是支持視頻內容字幕制作,為廣播電臺在新媒體平臺上的聲音、文字、視頻融合傳播提供便捷。觀察這套系統的運行邏輯,我們會發現,智能語音是其實現眾多功能的核心,它通過聲音與文本的內容轉化,將音頻波形編輯轉變成文檔編輯甚至圖形編輯,從根本上打破了媒介編輯的界限,改變了傳統廣播內容后期制作的方式,在極大程度上提高了廣播內容制作效率。應當說,江蘇省廣播電視總臺的這套系統是智能語音技術在廣播內容制作中后臺編譯方面的成功應用,但這一系統目前還未推廣開來,無論是國內還是國外,類似的嘗試還比較少見。
與此同時,智能語音技術在廣播內容制作中的另一種應用卻較為廣泛地出現在了各大廣播電臺中,這就是擬人化的智能語音角色參與到節目前臺播報之中。最具代表性的是由微軟(亞洲)互聯網工程院研發的“小冰”智能語音技術,從2017年北京廣播電視臺青年廣播FM98.2、湖南廣播電視臺音樂之聲FM89.3、中央廣播電視總臺國廣HitFM FM88.7三家廣播頻率開始,到2019年8月1日,“小冰”已經在國內主持了63檔電臺和電視臺的節目。在這些節目中,“小冰”或與真人主持人搭檔,或自己全程主持,所表現出的主持水準令人贊嘆。對于廣播內容制作來說,“小冰”的加人所帶來的益處是顯而易見的:一是能夠讓廣播電臺真正實現全天候、不間斷地高質量播出,充分保證了廣播節目制作和播出的持續性。二是能夠確保提供精確信息。因為“小冰”知識儲備非常豐富,且不會出現口播差錯,保證了廣播節目制作和播出的穩定性。三是通過了解聽眾喜好,“小冰”能夠因人而變,實時為用戶提供精準的內容服務,這提升了廣播節目制作和播出的針對性。四是能夠豐富廣播節目樣態。“小冰”除了可以做主播,還可以做新聞評論員、歌手、詩人等,它能應聽眾之邀不時地在廣播節目中唱上幾句或者評論一下時事,或為某個來電聽眾寫首藏頭詩,這些功能是普通真人主持人所難以一人兼具的。因為“小冰”的出色表現,正有越來越多的國內廣播電臺向它發出邀請。
三、智能語音在廣播內容傳播中的應用
2019年6月,美國國家公共廣播電臺(NPR,National Public Radio)與美國愛迪生研究公司(EdisonResearch)布了一份《智能語音報告》,報告顯示,在美國18歲以上的成年人中,21%的人擁有一臺智能音箱,擁有人數達到5300萬,而2018年這一數字是1400萬,其增長率高達378.6%。在擁有智能音箱的被調查對象中,有42%的人會使用智能音箱來獲取新聞,37%的人會聽AM/FM廣播,55%的人則認為他們在擁有智能音箱之后聽了更多的音頻內容,還有74%和66%的人表示他們會在做家務或者下廚的時候使用智能音箱。
盡管這份報告表征的是美國智能音箱的使用現狀,但它是具有代表性的,至少說明了智能語音在廣播內容傳播中的幾個重要作用:一是擴展了用戶的廣播收聽渠道。這讓廣播在傳統廣播收音機、智能手機之外,有了更多傳播渠道的可能。在中國,智能音箱2019年在中國市場的用戶規模已經達到了2370萬臺,相較2018年的257萬臺提升了近8倍。
在英國,2018年智能音箱已經有950萬用戶,比2017年增長98.6%,而這一數字在2019年將會再增長31.6%,達到1260萬人。二是增加了用戶的廣播收聽頻率。人們樂于通過簡單的喚醒詞打開智能音箱,并使用便捷的語音交互選擇自己喜歡的廣播頻率,讓它伴隨性地播放。三是使廣播重新進入家庭。在客廳中,智能音箱越來越成為和電視一樣的必備家電,它使一家人聚在一起共同聆聽廣播,就仿若在美國上世紀30年代一家人通過收音機聆聽羅斯福的“爐邊談話”一般。
智能語音技術為廣播的內容傳播開辟了新市場,并吸引著越來越多的廣播電臺將自己的頻率與智能音箱連接,以便觸達更多用戶。早在2014年,美國國家公共廣播電臺便與亞馬遜Echo智能音箱合作,成為其默認新聞提供商,而后又人駐谷歌Home智能音箱和蘋果Homepod智能音箱,為它們提供廣播音頻內容;美國NBC環球集團的消費者新聞與商業頻道(CNBC,Consumer News and Business Channel)則從2016年12月起開始為亞馬遜Echo智能音箱提供新聞服務;英國廣播公司(BBC)也在2017年12月宣布,亞馬遜Echo智能音箱的用戶可以在這一平臺上收聽英國廣播公司56個廣播頻率的內容,同時還將《阿澈一家》《女性時間》等熱門節目搬到了上面。同時,值得關注的是,由于進駐了這些智能語音平臺,廣播公司所生產的內容可以被用戶以語音控制的方式無障礙地發現。
上述應用非常重要,雖然這種連接,本質上還只是廣播內容傳播的渠道延伸。其實,在智能語音這樣一個新的聲音消費平臺上,業界更關注的是探索一種與廣播電臺、網絡電臺完全不同的聲音傳播與消費形式,這是智能語音為廣播內容傳播所帶來的新思考。
責任編輯:YYX
-
智能語音
+關注
關注
10文章
781瀏覽量
48714 -
智能音箱
+關注
關注
31文章
1783瀏覽量
78511
發布評論請先 登錄
相關推薦
評論