精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MySQL單表數據量限制:為何2000萬行成為瓶頸?

馬哥Linux運維 ? 來源:cnblogs ? 2024-02-27 10:38 ? 次閱讀

最近看到一篇《我說MySQL每張表最好不要超過2000萬數據,面試官讓我回去等通知》的文章,非常有趣。

文中提到,他朋友在面試的過程中說,自己的工作就是把用戶操作信息存到MySQL里,因為數據量超大(5000萬條左右),需要每天定時生成3張表,然后將數據取模分別存到這三張表里。

下面是兩人的對話:

面試后續暫且不論,不過,互聯網江湖上的確流傳著一個說法:單表數據量超過500萬行時就要進行分表分庫,已經超過2000萬行時MySQL的性能就會急劇下降。

那么,MySQL一張表最多能存多少數據?

今天我們就從技術層面剖析一下,MySQL單表數據不能過大的根本原因是什么?

猜想一:是索引深度嗎?

很多人認為:數據量超過500萬行或2000萬行時,引起B+tree的高度增加,延長了索引的搜索路徑,進而導致了性能下降。事實果真如此嗎?

我們先理一下關系,MySQL采用了索引組織表的形式組織數據,葉子節點存儲數據,非葉子節點存儲主鍵與頁面號的映射關系。若用戶的主鍵長度是8字節時,MySQL中頁面偏移占4個字節,在非葉子節點的時候實際上是8+4=12個字節,12個字節表示一個頁面的映射關系。

MySQL默認是16K的頁面,拋開它的配置header,大概就是15K,因此,非葉子節點的索引頁面可放15*1024/12=1280條數據,按照每行1K計算,每個葉子節點可以存15條數據。同理,三層就是15*1280*1280=24576000條數據。只有數據量達到24576000條時,深度才會增加為4,所以,索引深度沒有那么容易增加,詳細數據可參考下表:

a548a84e-d488-11ee-a297-92fbcf53809c.jpg

搜索路徑延長導致性能下降的說法,與當時的機械硬盤和內存條件不無關系。

之前機械硬盤的IOPS在100左右,而現在普遍使用的SSD的IOPS已經過萬,之前的內存最大幾十G,現在服務器內存最大可達到TB級。

因此,即使深度增加,以目前的硬件資源,IO也不會成為限制MySQL單表數據量的根本性因素。

那么,限制MySQL單表不能過大的根本性因素是什么?

猜想二:是SMO無法并發嗎?

我們可以嘗試從MySQL所采用的存儲引擎InnoDB本身來探究一下。

大家知道InnoDB引擎使用的是索引組織表,它是通過索引來組織數據的,而它采用B+tree作為索引的數據結構。

B+Tree操作非原子,所以當一個線程做結構調整(SMO,Struction-Modification-Operation)時一般會涉及多個節點的改動。

SMO動作過程中,此時若有另一個線程進來可能會訪問到錯誤的B+Tree結構,InnoDB為了解決這個問題采用了樂觀鎖和悲觀鎖的并發控制協議。

InnoDB對于葉子節點的修改操作如下:

方式一,先采用樂觀鎖的方式嘗試進行修改

對根節點加S鎖(shared lock,叫共享鎖,也稱讀鎖),依次對非葉子節點加S鎖。

如果葉子節點的修改不會引起B+Tree結構變動,如分裂、合并等操作,那么只需要對葉子節點進行加X鎖(exclusive lock,叫排他鎖,也稱為寫鎖)即可完成修改。如下圖中所示 :

a56208de-d488-11ee-a297-92fbcf53809c.png

方式二,采用悲觀鎖的方式

如果對葉子結點的修改會觸發SMO,那么會采用悲觀鎖的方式。

采用悲觀鎖,需要重新遍歷B+Tree,對根節點加全局SX鎖(SX鎖是行鎖),然后從根節點到葉子節點可能修改的節點加X鎖。

在整個SMO過程中,根節點始終持有SX鎖(SX鎖表示有意向修改這個保護的范圍,SX鎖與SX鎖、X鎖沖突,與S鎖不沖突),此時其他的SMO則需要等待。

a5770ab8-d488-11ee-a297-92fbcf53809c.png

因此,InnoDB對于簡單的主鍵查詢比較快,因為數據都存儲在葉子節點中,但對于數據量大且改操作比較多的TP型業務,并發會有很嚴重的瓶頸問題。

在對葉子節點的修改操作中,InnoDB可以實現較好的1與1、1與2的并發,但是無法解決2的并發。因為在方式2中,根節點始終持有SX鎖,必須串行執行,等待上一個SMO操作完成。這樣在具有大量的SMO操作時,InnoDB的B+Tree實現就會出現很嚴重的性能瓶頸。

解決方案

目前業界有一個更好的方案B-Link Tree,與B+Tree相比,B-Link Tree優化了B+Tree結構調整時的鎖粒度,只需要逐層加鎖,無需對root節點加全局鎖。因此,可以做到在SMO過程中寫操作的并發執行,保持高并發下性能的穩定。

B-Link Tree主要改進點有2個:

1.中間節點增加link指針,指向右兄弟節點;

2.每個節點內增加字段high key,存儲該節點中最大的key值。

新增的link指針是為了解決SMO過程中并發寫的問題,在SMO過程中,B-Link Tree對修改節點逐層加鎖,修改完一層即可放鎖,然后去加上一層節點的鎖繼續修改。這樣在InnoDB引擎中被SMO阻塞的寫操作可以有機會在SMO操作過程中并發進行。

如下圖所示,在節點2分裂為節點2和4的過程中,只需要在最后一步將父節點1指向新節點4時,對父節點1加鎖,其他操作均無需對父節點加鎖,更無需對root節點加鎖,因此,大大提升了SMO過程中寫操作的并發度。

a58a7ee0-d488-11ee-a297-92fbcf53809c.png

由此可見,與B+Tree全局加鎖對比,B-Link Tree在高并發操作下的性能是顯著優于B+Tree的。GaussDB當前采用的就是B-Link Tree索引數據結構。

InnoDB的索引組織表更容易觸發SMO

索引組織表的葉子節點,存儲主鍵以及應對行的數據,InnoDB默認頁面為16K,若每行數據的大小為1000字節,每個葉子節點僅能存儲16行數據。

在索引組織表中,當葉子節點的扇出值過低時,SMO的觸發將更加頻繁,進而放大了SMO無法并發寫的缺陷。

目前業界有一個堆組織表的數據組織方案,也是華為云數據庫GaussDB采用的方案。它的葉子節點存儲索引鍵以及對應的行指針(所在的頁面編號及頁內偏移),堆組織表葉子節點可以存更多的數據,分析可得在同樣的數據量與業務并發量下,堆組織表會比索引組織表發生SMO概率低許多。

性能對比

在8U32G的兩臺服務器分別搭建了MySQL(B+Tree和索引組織表)與GaussDB(B-Link Tree和堆組織表)的環境,進行了如下性能驗證:

實驗場景:在基礎表的場景上,測試增量隨機插入性能。

1.基礎表總大小10G,包含主鍵隨機分布的1000w行數據,每行數據1k;

2.插入主鍵隨機分布的1000w行數據,每行數據大小1k,測試并發插入性能。

結論:隨著并發數的上升,GaussDB能穩步提升系統的TPS,而MySQL并發數的提高并不能帶來TPS的顯著提升。

a59785ea-d488-11ee-a297-92fbcf53809c.jpg

綜上所述,MySQL無法支持大數據量下并發修改的根本原因,是由于其索引并發控制協議的缺陷造成的,而MySQL選擇索引組織表,又放大了這一缺陷。所以,開源MySQL數據庫更適用于主鍵查詢為主的簡單業務場景,如互聯網類應用,對于復雜的商業場景限制比較明顯。

相比之下 ,采用B-Link Tree和堆組織表的GaussDB數據庫在性能和場景應用方面更勝一籌。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 服務器
    +關注

    關注

    12

    文章

    9029

    瀏覽量

    85207
  • 數據庫
    +關注

    關注

    7

    文章

    3767

    瀏覽量

    64279
  • 指針
    +關注

    關注

    1

    文章

    480

    瀏覽量

    70512
  • MySQL
    +關注

    關注

    1

    文章

    802

    瀏覽量

    26452

原文標題:為什么MySQL單表不能超過2000萬行?

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    誰說MySQL行數不要超過2000W?

    網上看了一篇文章《為什么說MySQL行數不要超過2000w》,親自實踐了一下,跟原作者有不同的結論。原文的結論是2000W左右性能會成指
    的頭像 發表于 12-15 10:02 ?997次閱讀
    誰說<b class='flag-5'>MySQL</b><b class='flag-5'>單</b><b class='flag-5'>表</b>行數不要超過<b class='flag-5'>2000</b>W?

    MySQL分區類型及介紹

    分區是將一個數據按照一定規則水平劃分成不同的邏輯塊,并分別進行物理存儲,這個規則就叫做分區函數,可以有不同的分區規則。通過show plugins語句查看當前MySQL是否支持
    發表于 06-29 16:31

    談分布式數據庫中間件之分庫分   

    讀寫分離策略,也可以很好的解決性能問題。    數據量在1000以上的,建議分片。將數據
    發表于 08-02 20:19

    800萬行代碼的鴻蒙系統,在世界上處于什么水平?

    “800萬行的代碼量,讓鴻蒙一躍成為人類有史以來第4大代碼量的移動操作系統。要知道當前2.0版本僅包含大屏、手表和車機系統,等到今年12 月手機系統發布后,鴻蒙系統的代碼量估計可超過1000萬行。而這么龐大的工作量,華為僅用2年
    發表于 09-29 16:04

    【HarmonyOS】800萬行代碼的鴻蒙系統,在世界上處于什么水平?

    互聯網服務加起來,更是達到了驚人的200億!注:以上數據,應該是沒有將我國的軟件/系統統計入內。800萬行的代碼量,讓鴻蒙系統2.0版本一躍成為人類有史以來第4大代碼量的移動操作系統
    發表于 10-27 10:25

    RoHS金屬物質含量限制參考

    RoHS金屬物質含量限制參考:RoHS 六大類有害物質含量標準物質名稱 用途與適用條件 零件允許 PPM 值 零件禁 止含有 期限試用法規 測試方法包裝材料(紙箱,緩衝材,PE 袋,膠
    發表于 08-12 10:05 ?56次下載

    量限制

    量限制器 IC1連接成倒相
    發表于 09-08 16:51 ?855次閱讀
    音<b class='flag-5'>量限制</b>器

    基于Power圖求解容量限制P種植問題建模

    針對稠密需求下連續域上的容量P一中值問題,提出基于質心的容量限制Power圖(CCCPD)理論,對連續P一中值問題進行近似建模,并加快計算過程。擴展Balzer試位法構造Power圖,施加質心限制
    發表于 01-09 19:22 ?0次下載

    阿里巴巴推出每秒撰寫2萬行廣告文案的AI新工具

    北京時間7月5日下午消息,中國電子商務巨頭阿里巴巴發布一項人工智能工具,可以每秒寫入2萬行廣告文案。
    的頭像 發表于 07-07 10:48 ?3029次閱讀

    B+樹索引如何對Mysql數據量造成影響

    我們說 Mysql 適合存儲的最大數據量,自然不是說能夠存儲的最大數據量,如果是說能夠存儲的最大量,那么,如果你使用自增 ID,最大就可
    的頭像 發表于 04-16 08:08 ?1586次閱讀
    B+樹索引如何對<b class='flag-5'>Mysql</b><b class='flag-5'>單</b><b class='flag-5'>表</b><b class='flag-5'>數據量</b>造成影響

    濤思數據開源TDengine,10多萬行C代碼,登頂GitHub!

    7月12日,濤思數據宣布將TDengine開源,10多萬行C代碼,包括最核心的存儲引擎和計算引擎都上傳到了GitHub上。
    的頭像 發表于 07-31 16:07 ?1.3w次閱讀

    MySQL數據最大不要超過多少

    ? 1、背景 2、實驗 3、量限制 4、空間 5、頁的數據結構 6、索引的數據結構 7、
    的頭像 發表于 06-02 15:30 ?597次閱讀
    <b class='flag-5'>MySQL</b><b class='flag-5'>單</b><b class='flag-5'>表</b><b class='flag-5'>數據</b>最大不要超過多少<b class='flag-5'>行</b>

    為什么 MySQL 不能超過 2000 萬行

    ,因為數據量超大(5000 條左右),需要每天定時生成 3 張,然后將數據取模分別存到這三張表里。 接下來是兩人的對話: 面試后續暫且不論,不過,互聯網江湖上的確流傳著一個說法:
    的頭像 發表于 06-29 16:48 ?678次閱讀
    為什么 <b class='flag-5'>MySQL</b> <b class='flag-5'>單</b><b class='flag-5'>表</b>不能超過 <b class='flag-5'>2000</b> <b class='flag-5'>萬行</b>?

    mysql一個能存多少數據

    數據備份和還原、處理海量數據等功能,因此成為廣泛應用的數據庫管理系統。 當我們使用MySQL進行數據
    的頭像 發表于 08-28 17:15 ?968次閱讀

    如何提高Mysql數據庫的訪問瓶頸

    為了提高Mysql數據庫的訪問瓶頸,常用的方法有如下兩個: 在服務器端增加緩存服務器緩存常用的數據(例如redis) 增加連接池,來提高MYsql
    的頭像 發表于 11-08 16:22 ?1009次閱讀
    如何提高<b class='flag-5'>Mysql</b><b class='flag-5'>數據</b>庫的訪問<b class='flag-5'>瓶頸</b>