精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用Flood多維索引技術實現優化數據存儲布局

牽手一起夢 ? 來源:學術頭條 ? 作者:佚名 ? 2020-09-22 16:38 ? 次閱讀

在多維索引表格(multi-dimensional table)上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術。為了對這些操作進行優化,數據庫常建立起聚類的索引結構(indexes),如R-Trees,Z-ordering等,然而這些索引結構在不同的數據集以及查詢集合(query workload)下很難進行統一優化。在本篇論文中,提出了名為Flood的多維學習索引結構。通過同時優化索引結構以及存儲布局,這種結構自動地調整自身以適應具體數據集和查詢集合。該工作用來為端到端學習型數據庫系統構建索引模塊。

論文背景

在多維索引表格上進行掃描和篩選是現代分析型數據庫引擎的關鍵技術之一。如果數據完全根據其中某一個屬性(attribute)進行組織,即不會涉及到多個屬性同時被訪問的情況,那么通過建立平衡樹或者進行簡單二分搜索的方法已經足夠。然而,如果數據需要通過不同屬性進行篩選,那么通過建立多層索引的方法是不足以解決問題的。多層索引所帶來的存儲代價是的這項技術只能被應用在很小的范圍內。另一種解決方案是建立起多維索引(multi-dimensional indexes)對數據進行組織管理。如Redshift以及Spark-SQL使用Z-ordering技術來對數據進行布局,一些空間數據庫則嘗試使用R-tree來進行索引。然而,現有的多維索引技術有著顯著的缺點。首先,這些技術都非常難以根據實際的數據集進行優化。其次,沒有一項方案可以作為所有問題的統一解決方法。不同的數據集以及查詢集合將會決定使用不同的多維索引技術。

為了解決上述缺點,本文提出了名為Flood的基于內存的學習多維索引。該索引方案的重點在于自動地同時優化數據存儲布局以及索引的結構,以此來獲得優于其他所有多維索引的索引速度。Flood框架有以下兩個重點idea:

1. 使用一個下采樣的查詢集合,即一小部分查詢樣例構成的查詢集合樣本,以此來學習不同維度屬性在查詢過程中的使用頻率?;谠?a target="_blank">信息,Flood框架自動地調節數據存儲布局,以此優化索引性能。

2. 使用一個累計分布函數CDF(Calculative Distribution Function)模型來將多維上可能的傾斜數據映射到一個均勻空間中。這個平滑(Flatten)過程使得每一個存儲的存儲單元儲存的數據量基本一致。以此更快地進行索引。

Flood框架的主要貢獻有三:

1. 提出了第一個學習型多維索引,Flood框架。Flood從一個篩選斷言集合,即一個下采樣的查詢集合中學習查詢集合的分布函數,以此調節數據存儲布局。

2. 使用三個真實數據集評估了多個不同的多維索引結構,實驗顯示Flood框架大大優于其他的多維索引結構。

3. 實驗顯示出Flood框架在不同的Filter Predicates上都實現了搜索加速,其索引結構的建立速度與其他多維索引的建立速度相當。

論文模型

如何利用Flood多維索引技術實現優化數據存儲布局

多維索引查詢的難點在于同時對Y和Z兩個屬性進行篩選,對其中某一個維度進行排序的二分搜索無法順利完成該任務。

數據布局

如果把整個多維空間看作一個歐幾里得空間的話,不同于單維數據,多維數據不可以基于一個維度,或者屬性進行排序,這導致很多單維上可以使用的索引方法在多維索引上并不適用。但是如果將整個空間分成一個個小的格子,在單獨一個格子內使用統一維度進行排序,則在訪問該格子內的數據中就可以通過使用單維索引技術加速索引。

模型基本操作

1. 映射查找存儲塊(Projection):通過查詢中的篩選條件得到需要遍歷的數據網格,并且將索引范圍約束在這些網格當中。

2. 凝練查找范圍(Refinement):對按照某一維度進行排序的網格數據進行進一步篩選,根據查找篩選條件對排序維度的限制進一步縮小檢索的范圍。

3. 進行搜索。

網格優化

網格分割需要決定每一個維度所應該分割的子空間個數。Flood框架可以通過學習選擇合適的網格個數以及決定哪一個維度作為排序維度,即在網格內對數據進行排序的維度。

數據學習優化索引結構

1. 數據平滑化

根據CDF模型,對空間進行不均勻的劃分,達到每一個網格的數據點數量基本一致。實驗顯示當數據量方差較小時,索引的速度有所加快。

2. 快速查找范圍凝練(使用機器學習方法)

在凝練搜索范圍的過程中,通過使用學習索引模型,RMI(Recursive Model Index),這一個多層線性回歸模型的索引結構,加速范圍索引的速度。論文中稱之為piecewise linear model。

實驗

本文在Sales,OSM,Perform三個真實數據上進行了試驗。

同時,還驗證了數據扁平化等優化方法在提升索引速度上的有效性。

責任編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 內存
    +關注

    關注

    8

    文章

    2999

    瀏覽量

    73883
  • 數據庫
    +關注

    關注

    7

    文章

    3765

    瀏覽量

    64275
  • 引擎
    +關注

    關注

    1

    文章

    360

    瀏覽量

    22531
收藏 人收藏

    評論

    相關推薦

    SMT流水線布局優化技巧

    在電子制造領域,SMT(表面貼裝技術)流水線的布局優化對于提高生產效率、降低成本和提升產品質量至關重要。一個合理的流水線布局可以減少物料搬運時間,提高設備
    的頭像 發表于 11-14 09:11 ?228次閱讀

    如何優化emc存儲性能

    在當今的數據中心環境中,存儲性能對于業務連續性和數據訪問速度至關重要。EMC作為領先的存儲解決方案提供商,其產品線涵蓋了從入門級到企業級的存儲
    的頭像 發表于 11-01 15:57 ?201次閱讀

    優化TPS546xx的布局實現熱性能

    電子發燒友網站提供《優化TPS546xx的布局實現熱性能.pdf》資料免費下載
    發表于 10-12 10:31 ?0次下載
    <b class='flag-5'>優化</b>TPS546xx的<b class='flag-5'>布局</b>以<b class='flag-5'>實現</b>熱性能

    全球視野下的國外IP節點布局優化策略

    在當今全球化的數字時代,國外IP節點的布局優化已成為企業拓展國際市場、提升用戶體驗、保障數據安全與加速數據傳輸的關鍵要素。
    的頭像 發表于 10-10 08:11 ?202次閱讀

    如何利用三種 SOT-563 封裝實現共同布局

    電子發燒友網站提供《如何利用三種 SOT-563 封裝實現共同布局.pdf》資料免費下載
    發表于 09-10 14:25 ?0次下載
    如何<b class='flag-5'>利用</b>三種 SOT-563 封裝<b class='flag-5'>實現</b>共同<b class='flag-5'>布局</b>

    MATLAB中的矩陣索引

    對矩陣進行索引是從矩陣中選擇或修改部分元素的一種方式。MATLAB 有幾種索引樣式,它們不僅功能強大、靈活,而且可讀性強、表現力強。矩陣是 MATLAB 用來組織和分析數據的一個核心組件,索引
    的頭像 發表于 09-05 09:28 ?386次閱讀
    MATLAB中的矩陣<b class='flag-5'>索引</b>

    一文了解MySQL索引機制

    的呢?一起靜下心來,耐心看完這篇文章吧,干貨不啰嗦,相信你一定會有所收獲。 一、索引模型 模型也就是數據結構,常見的三種模型分別是哈希表、有序數組和搜索樹。 了解MySQL的朋友已經知道,現在MySQL默認使用的是InnoDB存儲
    的頭像 發表于 07-25 14:05 ?240次閱讀
    一文了解MySQL<b class='flag-5'>索引</b>機制

    ClickHouse內幕(3)基于索引的查詢優化

    ClickHouse索引采用唯一聚簇索引的方式,即Part內數據按照order by keys有序,在整個查詢計劃中,如果算子能夠有效利用輸入數據
    的頭像 發表于 06-11 10:46 ?937次閱讀
    ClickHouse內幕(3)基于<b class='flag-5'>索引</b>的查詢<b class='flag-5'>優化</b>

    佰維存儲RAID固件優化,助力數據中心強化效能與安全

    人工智能和物聯網等先進技術的普及將推動對數據存儲的需求升級,企業將需要更快、更安全、更密集的SSD,以實現各種高性能計算。隨著固態硬盤技術
    發表于 04-16 18:18 ?416次閱讀
    佰維<b class='flag-5'>存儲</b>RAID固件<b class='flag-5'>優化</b>,助力<b class='flag-5'>數據</b>中心強化效能與安全

    FPGA布局布線優化技術

    寄存器排序是布局工具把多位寄存器的相鄰位分組放進單個邏輯元件所利用的方法。大多數基于單元的邏輯元件有不止一個觸發器,因此,相鄰位放置在一起,時序可以被優化。
    發表于 03-29 11:30 ?345次閱讀
    FPGA<b class='flag-5'>布局</b>布線<b class='flag-5'>優化</b><b class='flag-5'>技術</b>

    數據存儲技術未來發展趨勢與前景展望

    數據存儲對于數據挖掘與分析、數據整合與共享、智能決策支持、業務模式創新以及優化資源配置等方面具有重要作用。按照
    發表于 02-27 09:29 ?3266次閱讀
    <b class='flag-5'>數據</b><b class='flag-5'>存儲</b><b class='flag-5'>技術</b>未來發展趨勢與前景展望

    谷歌搜索引優化的各個方面和步驟

    谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一,為了使你的網站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌搜索引優化的步驟。 使用關鍵字研究工具,如Google AdWords
    的頭像 發表于 01-25 10:29 ?833次閱讀

    Mysql索引是什么東西?索引有哪些特性?索引是如何工作的?

    作為開發人員,碰到了執行時間較長的 sql 時,基本上大家都會說” 加個索引吧”。但是索引是什么東西,索引有哪些特性,下面和大家簡單討論一下。
    的頭像 發表于 12-24 16:20 ?1206次閱讀
    Mysql<b class='flag-5'>索引</b>是什么東西?<b class='flag-5'>索引</b>有哪些特性?<b class='flag-5'>索引</b>是如何工作的?

    磁盤中RocketMQ構建的索引結構

    下,消息索引存儲是基于數據庫系統或者基于本地文件系統實現的,受限于磁盤容量,很難滿足海量數據的寫入訴求。 在云原生場景下,對象
    的頭像 發表于 12-22 10:43 ?378次閱讀
    磁盤中RocketMQ構建的<b class='flag-5'>索引</b>結構

    如何優化晶振布局與連接?

    如何優化晶振布局與連接 晶振是電子設備中常見的元件之一,用于提供時鐘信號和穩定的頻率參考。在進行晶振布局和連接時,需要考慮一系列的因素以確保其工作穩定可靠。本文將詳細介紹如何優化晶振
    的頭像 發表于 12-18 14:09 ?848次閱讀