基于分段聚類壓縮和Hash recoding壓縮方法
大小:0.95 MB 人氣: 2017-11-24 需要積分:0
今日頭條的服務器每天都會產生規模龐大的訓練數據,為方便進行訓練,這些數據都具有特定的格式和分布特征。使用不同類型的通用壓縮算法(字典類型及非字典類型)進行測試,發現單獨任何一種算法都無法在滿足業務需求(速率需求和CPU占比等)的同時獲得較為可觀的壓縮比。針對今日頭條的訓練數據,提出了分段聚類壓縮和Hash recoding壓縮兩種策略。實驗結果表明,分段聚類壓縮方式在更好地保證了壓縮率的同時提高了壓縮速率的目的;Hash recoding壓縮方式則更好地達到了以少量壓縮速率的損失換取更可觀的壓縮率的目的。分段聚類方式搭配Gzip壓縮算法的組合能使壓縮速率提高300%以上;Hash recoding方式匹配Snappy壓縮算法能使壓縮率縮小50%以上。根據實際需求,不論選擇哪種策略,對于降低今日頭條的運營成本,提升業務處理的效率,提供更好的用戶體驗,都有一定意義。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
基于分段聚類壓縮和Hash recoding壓縮方法下載
相關電子資料下載
- 新能源汽車空調壓縮機三相全橋SiC MOSFET方案 41
- 垃圾壓縮處理設備數據采集遠程監控系統 119
- 產線自動化改造,智能化空調壓縮機中的工業RFID技術應用 63
- 從燃油車到電動汽車,空調壓縮機也在“新能源化” 4858
- 變頻空調和普通空調有什么區別? 544
- 集成32GB HBM2e內存,AMD Alveo V80加速卡助力傳感器處理、存儲壓縮等 1753
- 第三講:單片機STC89C52+RA8889驅動控制彩屏 代碼的壓縮(Keil編譯器) 183
- 威靈汽車獲得ISO 26262 ASIL-D汽車功能安全流程認證證書 902
- 壓縮空氣儲能與抽水蓄能的區別 289
- 壓縮空氣儲能與液化空氣儲能的區別 280