国产人成午夜电影,免费va国产高清不卡大片,国产精品人人爽人人做,99视频国产热精品视频

-01-

視頻處理架構(gòu)與畫質(zhì)帶寬優(yōu)化

首先，大家對小紅書的印象是什么呢？

小紅書最初主要面向消費場景，比如美妝產(chǎn)品的分享和購買攻略。經(jīng)過近幾年的發(fā)展，小紅書已經(jīng)變成了一個綜合的 UGC 分享社區(qū)，在“衣食住行玩”各方面都有大量的用戶真實分享，提供很多有價值的信息。同時用戶群體也發(fā)生了較大的變化，性別以及各年齡段的用戶比例變得更加均衡。

另一個顯著的變化是：小紅書以前主要是圖文筆記分享，隨著視頻成為用戶分享生活的重要載體，小紅書也響應趨勢提出視頻戰(zhàn)略，目前用戶刷小紅書可以發(fā)現(xiàn)視頻筆記占了很大的比例。當前每日新增視頻達到了百萬級別，直播消費側(cè)業(yè)務也在穩(wěn)步提升。

那么，PUGC 點播及直播業(yè)務背后涉及的關(guān)鍵技術(shù)有哪些？

這里展示一張架構(gòu)圖，整個鏈路主要包含生產(chǎn)端、云端和消費端，用戶在生產(chǎn)端進行內(nèi)容創(chuàng)作、編輯和推流；然后將內(nèi)容發(fā)布到后臺云端進行處理，主要包括多檔位視頻轉(zhuǎn)碼、內(nèi)容審核與理解、以及視頻搜索與推薦；消費端則是用戶實際體驗的場景，用戶體驗來自兩方面，一方面是視頻推薦內(nèi)容的體驗，另一方面是視頻畫質(zhì)及播放流暢度的體驗，后者也是我們在音視頻處理中需要關(guān)注和優(yōu)化的目標。從這張圖可以看到，音視頻處理橫跨三端，也是整個上層視頻業(yè)務及應用的基礎(chǔ)設施，我們需要保障整條視頻鏈路的穩(wěn)定和通暢、關(guān)注用戶體驗以及降低成本（帶寬、計算、存儲等）。

回歸本次分享的主題：如何對畫質(zhì)與帶寬進行優(yōu)化？

在論述這個話題前，先簡單介紹一下背景。

小紅書成立專業(yè)的音視頻團隊還不到 2 年，如果是正常的研發(fā)路徑，應該是先提升體驗，容許增加一些成本。但是在疫情之后，全行業(yè)進入降本增效主題，降成本也成為我們重要目標之一。而提升體驗是建立這個專業(yè)團隊的初衷，在不犧牲用戶體驗的前提下來換取技術(shù)成本的節(jié)省，唯一的手段就是提升技術(shù)和優(yōu)化策略。

因此，我們算是跑步進入了“深水區(qū)”，比較幸運的是，一方面我們是站在行業(yè)經(jīng)驗的肩膀上；另一方面，我們也有后發(fā)優(yōu)勢，并結(jié)合自己的思考可以進一步改進和優(yōu)化。所以如何兼顧體驗和成本？下面分三個層面說說我的理解。

1、模塊級優(yōu)化

首先，大家熟知的是編碼標準的迭代和升級，每一代標準相比前一代標準在畫質(zhì)基本不變前提下可以節(jié)省 30%~50% 的碼率。當前小紅書大規(guī)模部署的是 H.265 標準，目前達到比較高的覆蓋率。在研主要標準是 AV1，H.266 未來也可能會跟進。

新一代標準大規(guī)模落地還需要一些時間，當前主要挑戰(zhàn)是計算復雜度比較高。對于點播來說，云端可以用計算成本來換，而在播放端，當前硬解 AV1 和 H.266 的設備非常少，因此需要配套部署經(jīng)過極致優(yōu)化的軟解。

2、跨技術(shù)方向融合

編碼考慮的是用最少的碼率最大程度地代表原視頻，因此視頻質(zhì)量的上限就是原視頻。而 UGC 創(chuàng)作的視頻質(zhì)量非常多樣，如果能用畫質(zhì)增強及修復算法提升原視頻的質(zhì)量，那么對應消費側(cè)的轉(zhuǎn)碼視頻質(zhì)量也能隨之提升。比如一個帶噪視頻經(jīng)過去噪算法后再編碼，不僅畫質(zhì)有提升，還能進一步節(jié)省碼率。當然并不是所有畫質(zhì)算法都能帶來這種 double 的收益。比如在云端做超分，畫質(zhì)提升的同時碼率也會增加。

其次，當前的編碼框架還是比較傳統(tǒng)，缺乏對視頻內(nèi)容的理解，固定的編碼參數(shù)以及碼控算法并不是最優(yōu)的。因此，通過對視頻場景的分類以及增加對內(nèi)容和語義的理解，可以進一步提升編碼效果和效率。另外從主觀感受來講，對于感興趣區(qū)域提升編碼質(zhì)量可以更有效地提升實際觀看體驗，而對于非感興趣區(qū)域降低編碼質(zhì)量，不太影響觀看體驗但有助于節(jié)省碼率。

視頻分析、處理以及內(nèi)容自適應編碼技術(shù)整體形成了智能轉(zhuǎn)碼方案，涉及到 high level 圖像分析、low level 圖像處理、編碼技術(shù)的融合。據(jù)我了解，各家廠商在這部分都有自己的一些方案，但是智能程度（包括效果和自動化程度兩個方面）還有待提升，隨著智能化程度的提升，收益及效率也會越來越高。

此外，學術(shù)界也有一些顛覆性的前沿探索，比如端到端的深度學習視頻編碼，不過總的來說更偏中長期才有機會大規(guī)模落地。

3、全局系統(tǒng)優(yōu)化

轉(zhuǎn)碼是音視頻處理最重要的一個任務，而它也只是云端處理的重要一環(huán)。全局來看，音視頻處理是一個從生產(chǎn)端到消費端的視頻處理鏈路。局部優(yōu)化往往帶來局部最優(yōu)，站在全局視角，可以發(fā)現(xiàn)很多技術(shù)優(yōu)化不再矛盾，比如前文提到云端超分，提升畫質(zhì)但是會增加碼率，理論上會增加帶寬成本，但如果全局分析，我們可以發(fā)現(xiàn) CDN 通常是根據(jù)高峰期來收費，在非高峰期下發(fā)超分后的高碼率視頻并不會增加帶寬成本。

另外，如果能夠在播放端做好畫質(zhì)增強，就可以下發(fā)更低碼率和更低分辨率的視頻，從而實現(xiàn)顯著的帶寬節(jié)省，后面要講的端云結(jié)合超分就是一個典型例子。

站在更大的視角，用戶體驗包含畫質(zhì)體驗和內(nèi)容體驗，音視頻處理的結(jié)果是提升大盤視頻整體質(zhì)量，而視頻推薦能結(jié)合視頻質(zhì)量評估，就可以給用戶推薦感興趣且高質(zhì)的視頻。

從編碼標準迭代到全局優(yōu)化，我認為在兼顧體驗和成本的優(yōu)化上還有不少可以挖掘的點，且在單一技術(shù)點上其實也還有很大空間，給出這樣的判斷基于兩個主要原因：一是音視頻系統(tǒng)的智能化程度還比較低，更高的智能化意味著能夠更好地兼顧體驗和成本；此外，我們發(fā)現(xiàn)在音視頻系統(tǒng)里落地的算法效果離學術(shù)界上限還有一定距離，客觀原因是學術(shù) idea 通常在很小的數(shù)據(jù)集上驗證，而在億級視頻消費和展現(xiàn)上會有很多問題，但好的一面是，未來如果我們能利用好這些最新 idea 且解決泛化及性能問題，就會產(chǎn)生可觀的收益。

從模塊優(yōu)化到全局優(yōu)化的演進過程中，我認為最重要且最基礎(chǔ)的能力升級是質(zhì)量評估。如果只是優(yōu)化編碼，可以用 PSNR/SSIM/VMAF 等有參考指標。而當構(gòu)建智能轉(zhuǎn)碼時，這些有參考質(zhì)量評估方法不再適用，比如經(jīng)過畫質(zhì)增強的視頻比原視頻看著更好。此外，站在全局視角來看，很多處理節(jié)點也沒有參考視頻可用，相對質(zhì)量評估方法也無法使用。因此質(zhì)量評估需要升級為以人眼感知質(zhì)量為基礎(chǔ)，并且評估視頻的絕對質(zhì)量。

-02-

基于人眼感知的質(zhì)量評估指標 RedVQA

下面介紹小紅書自研的質(zhì)量評估指標 RedVQA，它是一個基于深度學習的無參考視頻質(zhì)量評估算法。

回到這張架構(gòu)圖，我們希望 RedVQA 能做什么？

首先，我們希望它能對整個視頻鏈路任一節(jié)點的視頻質(zhì)量做評估，包括拍攝視頻的原始質(zhì)量、經(jīng)過編輯和特效處理后的質(zhì)量、經(jīng)過轉(zhuǎn)碼下發(fā)到消費端的質(zhì)量。

其次，我們希望它可以指導優(yōu)化畫質(zhì)及編碼算法。

最后，我們希望它能夠輔助上層視頻業(yè)務和應用。

基于上面的分析，我總結(jié)下 RedVQA 的研發(fā)目標與挑戰(zhàn)。

第一個目標是能夠捕捉拍攝或上傳視頻的多種視頻質(zhì)量問題；挑戰(zhàn)是如何盡量多地覆蓋到各種 UGC 質(zhì)量問題（比如模糊、過曝欠曝、噪聲、顏色不自然、過銳等）。

第二個目標是能夠捕捉視頻處理鏈路中的降質(zhì)和升質(zhì)變化，要求我們能夠識別和理解整個視頻鏈路的升質(zhì)和降質(zhì)操作，并且把這些因素融入到算法和數(shù)據(jù)集設計中。舉個例子，低碼率編碼會引入降質(zhì)，畫質(zhì)問題表現(xiàn)為：細節(jié)丟失、清晰度下降、平坦區(qū)出現(xiàn)塊效應、邊緣和紋理區(qū)域出現(xiàn)振鈴效應/蚊式噪聲。另外值得注意的是，視頻壓縮相比圖像壓縮在碼率分配上更加復雜，會使得視頻質(zhì)量在空域和時域上不是均勻分布，這也對算法的智能識別能力提出了更高的要求。畫質(zhì)增強算法通常可以提升畫質(zhì)，常見的超分、去模糊、去壓縮損失、HDR 等算法有助于改善細節(jié)、清晰度、噪聲、亮度/色彩等方面的畫質(zhì)體驗。

第三個目標是與人眼主觀感受質(zhì)量一致，要求算法智能且泛化強。比如大光圈拍的照片會產(chǎn)生背景虛化效果，人眼覺得 ok、有美感，而算法有可能把虛化的背景誤判為模糊問題。

在自研數(shù)據(jù)集前，我們收集了質(zhì)量評估領(lǐng)域的幾個主要數(shù)據(jù)集，通過分析和總結(jié)得出一些結(jié)論：a. 相比 CV 任務，開源質(zhì)量評估數(shù)據(jù)集規(guī)模很小；b. 數(shù)據(jù)來源可能和我們線上不太一致，包括用戶設備和拍攝專業(yè)程度等；c. 開源數(shù)據(jù)集缺少經(jīng)過業(yè)務視頻鏈路處理的數(shù)據(jù)，如小紅書特有的編碼/畫質(zhì)處理、特效模板處理；d. 我們也測試了使用開源數(shù)據(jù)集訓練的算法在業(yè)務測試集上的準確率，結(jié)果比開源數(shù)據(jù)集低很多。

因此，我們決定自研構(gòu)建 RedVQA 數(shù)據(jù)集。數(shù)據(jù)集構(gòu)建中非常關(guān)鍵的是視頻收集，主要思考的問題是如何通過有限的數(shù)據(jù)集來代表相對無限的大數(shù)據(jù)，使得訓練出來的算法具有很強的泛化能力。實踐中，我們分為三個步驟：首先是視頻初篩，這一步根據(jù)線上視頻的標簽、垂類和基礎(chǔ)視頻信息進行篩選，比如主要的分辨率要覆蓋到，包含不同的碼率、轉(zhuǎn)碼質(zhì)量的視頻。第二步，我們需要在候選數(shù)據(jù)集內(nèi)采樣一批盡可能場景豐富和質(zhì)量多樣的視頻子集，我們利用了一些場景分類以及不同畫質(zhì)維度的檢測指標作為判斷標準。通過指標采樣，希望采集到的數(shù)據(jù)集在各指標上更加均衡或者符合預期。經(jīng)過前面兩步，仍然會缺失一些低質(zhì)視頻，因為有些問題視頻占比很少，很難從線上篩選出來。通過對整個視頻鏈路的理解和分析，需要人工補充或構(gòu)造一些低質(zhì)視頻。

在數(shù)據(jù)標注和清洗上主要參照 ITU-T P.910 標準，通過流程規(guī)范來保證數(shù)據(jù)標注質(zhì)量。質(zhì)量分的定義也比較重要，由于美學具有很強的個體主觀性，我們主要考慮畫質(zhì)維度，而不同畫質(zhì)維度的優(yōu)先級主要參考了小紅書的用戶調(diào)研。

算法設計上，重點是如何有效提取質(zhì)量特征，這里需要對質(zhì)量問題的產(chǎn)生過程有充分的認知，比如視頻鏈路中編輯和轉(zhuǎn)碼會如何影響質(zhì)量，我總結(jié)了 3 個關(guān)鍵點：

1、在時空采樣中，全局構(gòu)圖和局部紋理信息都很重要。質(zhì)量感知特征體現(xiàn)在局部紋理上，而劣化程度在于全局感知；

2、網(wǎng)絡設計要能夠捕捉大范圍時空信息及依賴關(guān)系，人眼對質(zhì)量的感知涉及到整體語義理解、關(guān)注區(qū)域、創(chuàng)作意圖理解等，很多視頻處理操作會在較大的時空范圍內(nèi)影響質(zhì)量，比如碼率分配、ROI 編碼；

3、質(zhì)量評估數(shù)據(jù)集的量級和完備程度遠低于分類識別等 CV 任務，而質(zhì)量特征又非常復雜，因此需要某種顯式地輔助質(zhì)量特征提取的手段。一種方法是通過添加有序的質(zhì)量樣本或者利用質(zhì)量評估的代理任務，進行數(shù)據(jù)增強及質(zhì)量特征自監(jiān)督學習。

接下來是算法驗證。首先介紹下質(zhì)量評估領(lǐng)域的幾個評價指標，PLCC 表示相關(guān)性，SRCC/KRCC 反映保序性，RMSE 反映絕對誤差。RedVQA 的相關(guān)性在 0.9 左右，達到了可用的狀態(tài)。此外，我們也驗證了算法對質(zhì)量劣化的敏感程度，首先需要構(gòu)造一批質(zhì)量保序的樣本。我們通過編碼參數(shù)的配置得到一系列不同分辨率和碼率的樣本，實際線上轉(zhuǎn)碼服務也是基于不同分辨率以及不同的編碼參數(shù)來設計轉(zhuǎn)碼檔位，這也貼合了線上的視頻處理方式。上圖可以看到，隨著質(zhì)量控制參數(shù) CRF 的增大，質(zhì)量分逐漸減小，符合預期，說明算法可以在一定程度上捕捉一些細微的質(zhì)量損失。其次，我們也看到，同一個視頻的不同分辨率版本，高分辨率質(zhì)量整體優(yōu)于低分辨率，這也符合預期。

基于 RedVQA，我們實現(xiàn)了一個大盤質(zhì)量監(jiān)控看板，按照不同的維度統(tǒng)計視頻的質(zhì)量分。通過這些數(shù)據(jù)，有助于了解大盤整體的視頻質(zhì)量以及各拆分維度的質(zhì)量。在有了數(shù)據(jù)后，后續(xù)的優(yōu)化動作變得有據(jù)可依。圖中展示了不同垂類的視頻質(zhì)量分，不同分位數(shù)的質(zhì)量統(tǒng)計使得我們對生產(chǎn)側(cè)視頻的質(zhì)量分布有了全局的掌握。右邊上圖是按照分辨率拆分的生產(chǎn)側(cè)視頻質(zhì)量統(tǒng)計，右邊下圖是不同編輯方式的統(tǒng)計。

除了生產(chǎn)側(cè)質(zhì)量監(jiān)控，消費側(cè)視頻質(zhì)量監(jiān)控更加重要，這決定了小紅書對用戶呈現(xiàn)的整體質(zhì)量。消費側(cè)比生產(chǎn)側(cè)更復雜，一方面為了應對網(wǎng)速變化、成本控制以及端設備計算能力不同，每個上傳視頻都需要轉(zhuǎn)碼成不同的檔位，通過播放控制來決策下發(fā)檔位；另一方面，推薦系統(tǒng)會極大影響用戶看到的視頻內(nèi)容，因此消費側(cè)質(zhì)量監(jiān)控除了有助于了解實際用戶看到的視頻質(zhì)量，也有助于我們對轉(zhuǎn)碼檔位、播放以及推薦策略的優(yōu)化。

-03-

基于人眼感知質(zhì)量的端云結(jié)合超分

下面介紹端云結(jié)合超分，也是今年我們降本增效的重點項目。

超分這個課題在學術(shù)界和工業(yè)界研究了很多年。但面向不同的業(yè)務場景和集成系統(tǒng)，端側(cè)超分技術(shù)在業(yè)務目標和技術(shù)方向上存在很明顯的區(qū)別。

比如面向一款新的硬件設備，只需要基于它的硬件加速器定制化地設計和優(yōu)化算法即可。

對于視頻業(yè)務和 APP，需要關(guān)注什么，如何獲得顯著收益，下面分享下我們的理解與實踐。

對于視頻 APP 來說，一個算法能不能落地，除了離線評測外，AB 實驗數(shù)據(jù)是最終量化指標。我們希望獲得 QoS 技術(shù)指標和 QoE 業(yè)務指標的正向收益，對于降本增效任務來說，帶寬節(jié)省也是最重要的一個指標。而播放端視頻算法落地，算法性能有極大的影響，算法耗時長可能引起卡頓、集成方式不對可能導致播放失敗率和首幀時長增加。此外，用戶設備機型及性能多種多樣，通常在高端機上部署算法比較容易，如果想進一步覆蓋到中低端機會非常困難。

最近兩年業(yè)界在端側(cè)超分大規(guī)模部署上有所突破，效果和覆蓋率的進一步提升是大家都關(guān)注的問題。但我們也發(fā)現(xiàn)另一個問題待解決：通常算法效果驗證是離線驗證，而上線后很難再對畫質(zhì)算法效果進行量化，有沒有 badcase 并不知道。而 QoE 指標是后驗指標，而且從定義可以看到它不完全受到畫質(zhì)一個因素影響，因此 QoE 數(shù)據(jù)的好與壞，并不直接對應超分效果，也沒法對算法后續(xù)迭代有指導作用。

還要說明的是，如果犧牲一部分收益，落地也會更簡單，比如當我們針對一款高端機來設計端側(cè)超分時，可以按照其計算性能打滿算法復雜度從而提升效果，但在大盤上的收益就會非常有限。

為了獲取最大的收益，我們設計了一個基于人眼感知質(zhì)量的端云結(jié)合超分方案來解決上述挑戰(zhàn)，主要分為云端媒體處理和端側(cè)播放兩部分。用戶在看視頻時，對應的云端視頻是有多個檔位的，而不同的檔位對應不同的決策。對超分來說，端側(cè)超分算法部署在播放端解碼之后，同時我們在云端為端側(cè)超分定制化了的一個超分檔位，定制化的目的是為了精細化控制超分開啟策略且補償最終端側(cè)超分的效果。首先，我們通過帶寬高峰期預測來控制超分檔位下發(fā)的時間段；其次，我們通過質(zhì)量&碼率收益評估來更好地平衡用戶體驗與帶寬收益，動態(tài)精細地量化出每個視頻的質(zhì)量問題及收益，避免超分效果不佳的視頻產(chǎn)生超分檔位，這里用到的質(zhì)量評估即是前文提到的 RedVQA。

當我們設計超分算法時，首先要保證的是 QoS 數(shù)據(jù)無負向，要求開啟超分后的各項技術(shù)指標不會顯著劣化。而為了達到比較高的覆蓋率，需要在中低端機上也能流暢的運行，這對于算法的性能提出了更高的要求。我們對算法的性能目標有個經(jīng)驗性的判斷：計算復雜度應該在 GFLOPS 以內(nèi)，耗時在 10ms 以內(nèi)，功耗在 100mAh 以內(nèi)，這樣開啟超分后的影響可能比較小。

在部署層面，因為 CPU 通常被多任務共享，如果算法過多占用 CPU 和內(nèi)存也會引起 APP 崩潰，因此我們也要求算法盡量少占用 CPU 和內(nèi)存。避免“碎片化”部署的意思是，我們不希望設計多個算法，以及針對多個處理器做優(yōu)化，主要原因還是我們希望第一版算法能夠快速驗證和部署，盡快帶來收益。當然我們后續(xù)也計劃對部分機型設計更優(yōu)的算法進行迭代。

下面的表格是一些算法調(diào)研總結(jié)，可以看到，公開文獻中輕量深度學習超分算法 (SCSRN) 仍然有比較大的計算量，盡管網(wǎng)絡模型看起來已經(jīng)非常小了，而在VeriSilicon NPU 上的耗時是 19ms，如果在更通用的處理器上耗時會更大。給出一個計算量級的對比，5x5 高斯濾波的計算量大概在 100Mflops。

雖然可以進一步對上述算法進行模型壓縮，不過我們總體判斷在極輕量算法設計中，有圖像理論指導的 low level 圖像算法會比深度學習更高效，因此我們把目光投向超分領(lǐng)域更早的文獻。這里列出一篇 Google 發(fā)表的很有啟發(fā)意義的文獻，被用于節(jié)省圖片下發(fā)帶寬。總體來說，這是一個 two-stage 算法，推理時先對圖片 patch 進行模式分類，選出濾波 kernel，然后用這個 kernel 進行濾波，可以認為是一個內(nèi)容自適應的濾波算法。在訓練階段，通過將相同分類的輸入 patch 及對應的 ground truth pixel 集合在一起形成訓練集，求解出 kernel。需要說明的是，這個算法的 kernel 求解不是通過梯度后向傳播訓練出來的，而是直接求的解析解。從左下圖可以看到，這個算法在當時還是非常高效的，可以達到實時。

我們認識到這個算法的計算復雜度還是有點高，并且難以直接滿足我們的性能目標，所以借鑒它的思路做了進一步的優(yōu)化。下面幾個點值得探究和改進：

1、模式分類還是有點復雜，為了降低復雜度，需要通過實驗找到最有代表性的特征；

2、當前的 kernel 是解析解，效果上與 L2 loss 相當，且是線性濾波，如果能引入可導梯度學習，就可以引入非線性濾波以及多種 loss；

3、當前算法是 Patch-to-pixel 映射，如果改成 Patch-to-patch 映射，可能計算會更高效；

4、最后推理結(jié)果可能出現(xiàn)一些畫質(zhì)問題，考慮加一些低計算復雜度后處理方法。

盡管在端側(cè)超分算法上做了精心設計，但受限于其本身的計算量，能實現(xiàn)的效果還是有限。如果是一款終端產(chǎn)品研發(fā)，似乎也沒有更好的辦法。而在我們的視頻處理架構(gòu)中，端側(cè)超分的輸入視頻或者下發(fā)的超分檔位是由云端轉(zhuǎn)碼而來。通過定制化超分檔位，可以有效提升和補償端側(cè)超分效果。實踐中，我們基于 RedVQA 把原視頻分成高質(zhì)和低質(zhì)。對于高質(zhì)視頻，可以通過云端增強算法有效提升超分后的紋理細節(jié)；對于低質(zhì)視頻，重點在于去除一些壓縮損失，避免 artifact 放大。

下面是整套方案的離線評測。上圖是性能數(shù)據(jù)，對于一個 60fps 540P 的視頻，開關(guān)超分幀率降得不多，GPU 占用增加 20%，內(nèi)存增加 8M 左右（在撰寫本文時，GPU 及內(nèi)存占用經(jīng)算法及性能優(yōu)化后進一步降低），基本沒有發(fā)熱問題。下表是超分檔位的碼率和 RedVQA 質(zhì)量分數(shù)據(jù)，其中超分檔位是一個 540P 檔位，我們用了自適應銳化以及深度學習增強來生成超分檔位，對比的檔位是一個 720P 檔位，考慮計算時效以及計算成本，這個檔位只帶了自適應銳化。可以看到超分檔位相比 720P 檔位有 40% 的碼率節(jié)省，平均質(zhì)量分會小一點，而經(jīng)過端側(cè)超分后，平均質(zhì)量分也超過了 720P 檔位。進一步看下超分結(jié)果和 720P 視頻的質(zhì)量分差值分布，會發(fā)現(xiàn)并不是每個超分后視頻質(zhì)量分都高于 720P 視頻。總的來說，RedVQA 提供了一種規(guī)模量化視頻質(zhì)量的方式，目前在畫質(zhì)優(yōu)化方向上的準召率上還沒有非常精細，不過實踐中我們可以做一些權(quán)衡和策略來彌補。

以上是兩個畫質(zhì)優(yōu)化的例子。上圖超分檔位碼率節(jié)省 45%，RedVQA 提升 0.529；下圖碼率節(jié)省 32%，RedVQA 提升 0.275。從這兩個例子可以看到，超分視頻同時兼具了畫質(zhì)收益和帶寬收益。

再看兩個劣化 case。上圖超分檔位碼率節(jié)省 45%，RedVQA 降低 0.09；下圖碼率節(jié)省 46%，RedVQA 降低 0.13。我們也發(fā)現(xiàn)，并不是所有 RedVQA 降低都是畫質(zhì)劣化，但當碼率節(jié)省過大時，比如這兩個 case 都超過了 40% 的平均碼率節(jié)省，判定為畫質(zhì)劣化的準確率就會提升。如前面所述，我們通過質(zhì)量&碼率收益評估可以更好的平衡用戶體驗與帶寬成本，避免一些極端的劣化 case 影響用戶體驗。

我們也做了 AB 實驗佐證大盤上的表現(xiàn)。實驗條件是基于 iPhone XR/XS 及以上開啟超分，在帶寬高峰 3 小時下發(fā)超分檔位。實驗結(jié)果還比較正向，QoE 數(shù)據(jù)整體波動，說明超分整體效果基本沒大的問題，QoS 數(shù)據(jù)在卡頓率、啟播失敗率等技術(shù)指標上有顯著優(yōu)化，下發(fā)碼率及帶寬節(jié)省也比較顯著。

-04-

總結(jié)與展望

最后做下總結(jié)。在降本增效的大背景下，如何兼顧體驗和成本是大家都很關(guān)注的問題。但對于音視頻處理來說，體驗和成本一直都是音視頻處理的“一體兩面”，而算法研發(fā)以及技術(shù)的迭代就是為了實現(xiàn)“既要又要”。從技術(shù)角度來說，我更關(guān)注如何提升音視頻系統(tǒng)智能化這個話題，智能化的目標之一就是實現(xiàn)“既要又要”，另一個目標是實現(xiàn)更高的系統(tǒng)自動化程度及效率。另外，更好的跨方向技術(shù)融合以及全局系統(tǒng)優(yōu)化能力可能是構(gòu)建更智能音視頻系統(tǒng)的有效途徑，而基于人眼感知的質(zhì)量評估是支撐音視頻系統(tǒng)智能化的關(guān)鍵技術(shù)。最后，端側(cè)超分部署面臨性能要求苛刻、部署覆蓋率低、難規(guī)模量化等挑戰(zhàn)，我們設計了一個基于人眼感知質(zhì)量的端云結(jié)合超分來解決這些挑戰(zhàn)。

對于未來的展望，我們希望達到更智能的質(zhì)量評估，在細粒度質(zhì)量評估上有所提升，期待在畫質(zhì)優(yōu)化方面發(fā)揮更好的作用。另外，未來我們會持續(xù)優(yōu)化云端“窄帶高清”視頻轉(zhuǎn)碼，“窄帶高清”的效果和收益會隨著轉(zhuǎn)碼智能化程度的提升而持續(xù)擴大，但同時我們判斷，整體收益提升的同時可能會伴隨著畫質(zhì)分布方差也變大，融合了多種技術(shù)的“窄帶高清”碼流也對質(zhì)量評估的準確性和泛化能力提出了更高的要求。

端云結(jié)合超分是一個非常有價值和可探索的方向，總的目標我們希望端云能夠深度協(xié)同提升端側(cè)超分后效果，從而無論在畫質(zhì)提升或帶寬節(jié)省目標上帶來更大的收益，這里說的“深度協(xié)同”包括整體方案端云劃分合理、超分與編解碼技術(shù)配合、端側(cè)計算與播放策略適配等多個層面。具體來說，可以迭代更優(yōu)的超分轉(zhuǎn)碼檔位，設計更具表征能力和利用 Metadata 的超分模型，以及探索超分與編碼的融合方案。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

編碼器

編碼器

+關(guān)注

關(guān)注
45

文章
3600

瀏覽量
134189
圖像處理器

圖像處理器

+關(guān)注

關(guān)注
1

文章
103

瀏覽量
15485
編碼技術(shù)

編碼技術(shù)

+關(guān)注

關(guān)注
1

文章
35

瀏覽量
11043
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5493

瀏覽量
120990
HDR技術(shù)

HDR技術(shù)

+關(guān)注

關(guān)注
0

文章
22

瀏覽量
6323

原文標題：基于人眼感知質(zhì)量的端云結(jié)合畫質(zhì)及帶寬優(yōu)化實踐

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+介紹基礎(chǔ)硬件算法模塊

可能面臨無模塊可買、無高端技術(shù)可用的窘境；另一方面，著對較為復雜的核心設計進行攻關(guān)，產(chǎn)品生產(chǎn)廠商也對國產(chǎn)自主研發(fā)芯片有更大的包容度和替代意愿。斷供和提價的壓力。于是形成了一

發(fā)表于 11-21 17:05

Pure path studio內(nèi)能否自己創(chuàng)建一個component，來實現(xiàn)特定的算法，例如LMS算法？

TLV320AIC3254EVM-K評估模塊， Pure path studio軟件開發(fā)環(huán)境。問題：1.Pure path studio 內(nèi)能否自己創(chuàng)建一個component，來實現(xiàn)特定的

發(fā)表于 11-01 08:25

如何評估 Llama 3 的輸出質(zhì)量

評估Llama 3（假設這是一個虛構(gòu)的人工智能模型或系統(tǒng)）的輸出質(zhì)量，可以通過以下幾個步驟來進行：定義質(zhì)量標準：在開始

發(fā)表于 10-27 14:32 ?265次閱讀

如何評估AIGC內(nèi)容的質(zhì)量和效果

評估AIGC（人工智能生成內(nèi)容）的質(zhì)量和效果是一個復雜的過程，因為它涉及到多個維度，包括內(nèi)容的準確性、相關(guān)性、創(chuàng)造性、一致性、可讀性以及用戶

發(fā)表于 10-25 16:02 ?428次閱讀

如何評估AI大模型的效果

評估AI大模型的效果是一個復雜且多維度的過程，涉及多個方面的考量。以下是一些關(guān)鍵的評估方法和步驟

發(fā)表于 10-23 15:21 ?433次閱讀

基于FPA的軟件工作量綜合評估研究與實踐

種方法基于軟件系統(tǒng)工作量估算法的融合，基于FPA評估法與專家經(jīng)驗估算相結(jié)合，綜合評估軟件系統(tǒng)工作量，并將該方法實踐于多個項目中，結(jié)果得到了用戶的認可，表明了綜合

發(fā)表于 10-15 10:45 ?0次下載

計算機視覺技術(shù)的AI算法模型

計算機視覺技術(shù)作為人工智能領(lǐng)域的一個重要分支，旨在使計算機能夠像人類一樣理解和解釋圖像及視頻中的信息。為了實現(xiàn)這一目標，計算機視覺技術(shù)依賴于

發(fā)表于 07-24 12:46 ?638次閱讀

平衡創(chuàng)新與倫理：AI時代的隱私保護和算法公平

成了一把雙刃劍，其銳利的一面正逐漸指向我們的核心價值。面對這些挑戰(zhàn)，制定一套有效的AI治理框架和隱私保護機制變得迫在眉睫。確保AI決策

發(fā)表于 07-16 15:07

如何對無標識貼片電容的容量估算、檢測和代換?

沒有標識的貼片電容要怎么估算它的容量，怎么進行檢測以及怎樣應用代換呢? 一、如何對無標識貼片電容的容量估算 1)用于開關(guān)電源電路的供電輸出端及IC電路的供電輸入端的貼片電容。如下圖：

發(fā)表于 07-11 14:42 ?430次閱讀

STM32F4用來作為計算單元的時候，如何評估算法或應用的時間性能？

STM32F4用來作為計算單元的時候，如何評估算法或應用的時間性能？能不能通過配置使之具備計時功能？精度達到us級別就足夠了。關(guān)于計時，在debug狀態(tài)下，通過states的計數(shù)值可以計算時間性能，但必須是debug設置斷點，如果是系統(tǒng)實時應用，有沒有別的辦法？

發(fā)表于 05-16 06:37

阿里云視頻生成技術(shù)創(chuàng)新！視頻生成使用了哪些AI技術(shù)和算法

照片就能讓 EMO 合成演戲唱歌視頻。 ? 阿里云在視頻生成領(lǐng)域的創(chuàng)新 ? EMO（Emote Portrait Alive）是一個由阿里巴巴集團智能計算研究院開發(fā)的框架，

發(fā)表于 05-08 00:07 ?3326次閱讀

【RTC程序設計：實時音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

至關(guān)重要的作用，編解碼器的主要目標是通過去除冗余信息和壓縮視頻數(shù)據(jù)來減少文件的大小，同時還要保持高質(zhì)量的視頻圖像編碼器負責壓縮解碼器則負責還原，編解碼器都是基于一些特定的

發(fā)表于 04-28 21:04

DC電源模塊的質(zhì)量控制與品牌評估

BOSHIDA DC電源模塊的質(zhì)量控制與品牌評估 質(zhì)量控制是確保DC電源模塊符合一定標準的過程。品牌評估是對品牌形象、市場認可度和用戶滿意度

發(fā)表于 03-11 15:52 ?355次閱讀

Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具

近日，業(yè)界領(lǐng)先的AI技術(shù)公司Stability AI與中國AI創(chuàng)業(yè)公司Morph AI達成重要合作。雙方宣布共同推出一款革新性的all-in

發(fā)表于 03-05 10:44 ?846次閱讀

探索OpenAI Sora視頻AI生成技術(shù)及其應用如何使用指南

OpenAI的Sora現(xiàn)已擴展其能力范圍，進入視頻生成領(lǐng)域，標志著人工智能技術(shù)在多媒體內(nèi)容創(chuàng)作上的一個重大突破。Sora的視頻AI功能使得用

發(fā)表于 02-20 12:01 ?1402次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

一個基于AI的無參考視頻質(zhì)量評估算法RedVQA

評論

【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+介紹基礎(chǔ)硬件算法模塊

Pure path studio內(nèi)能否自己創(chuàng)建一個component，來實現(xiàn)特定的算法，例如LMS算法？

如何評估 Llama 3 的輸出質(zhì)量

如何評估AIGC內(nèi)容的質(zhì)量和效果

如何評估AI大模型的效果

基于FPA的軟件工作量綜合評估研究與實踐

計算機視覺技術(shù)的AI算法模型

平衡創(chuàng)新與倫理：AI時代的隱私保護和算法公平

如何對無標識貼片電容的容量估算、檢測和代換?

STM32F4用來作為計算單元的時候，如何評估算法或應用的時間性能？

阿里云視頻生成技術(shù)創(chuàng)新！視頻生成使用了哪些AI技術(shù)和算法

【RTC程序設計：實時音視頻權(quán)威指南】音視頻的編解碼壓縮技術(shù)

DC電源模塊的質(zhì)量控制與品牌評估

Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具

探索OpenAI Sora視頻AI生成技術(shù)及其應用如何使用指南