基于Q-learning的碼率控制算法
近年來,各界對多媒體內容傳輸特別是視頻流服務越來越重視。在盡力交付的互聯網上支持可靠視頻流傳輸,基于HTTP的自適應流(HAS,HTTP adaptive streaming)已經成為視頻業務技術的發展趨勢。
HAS采用碼流切換技術動態調整碼率,整個過程由自適應算法負責。可用帶寬估算和碼率選擇是客戶端碼率自適應算法的2個核心功能。根據媒體片段的TCP平均下載吞吐量估算網絡帶寬。碼率決策從視頻碼率集中選擇低于估算網絡可用帶寬的最大碼率等級。這種碼率選擇方法易造成視頻碼率的頻繁切換,給觀看者帶來不舒適的體驗,且設定硬編碼的碼率選擇策略靈活性偏低,無法應對變化多樣的網絡配置和網絡帶寬。
將自適應視頻流的傳輸建模成優化控制問題可以提升碼率決策的靈活性。增強學習通過早期離線訓練,學習最優的控制策略,然后將策略應用在實時自適應控制中,能夠提升客戶端碼率決策機制的靈活性和自適應性。
本文設計基于Q一1eaming的碼率決策,設計合適數量的環境狀態組成元素,根據可用帶寬和實時緩存數據填充量進行環境狀態建模;從HTTP視頻流服務質量的角度考慮,選擇與用戶體驗質量(OoE)相關的3個方面:視頻質量等級高低、視頻播放期間切換帶來的損失及緩存區數據溢出危險性來構建新的回報函數。實驗結果表明,在HAS自適應算法的碼率決策部分引入本文提出的Q—le鋤ing算法,增強了碼率決策的靈活性,視頻碼率切換的穩定性優于未結合機器學習方法的算法。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%