精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌突然遭遇全球大面積故障 到底是哪里出了問題

ss ? 來源:常言道 ? 作者:丁常彥 ? 2020-12-22 15:27 ? 次閱讀

自動配額管理系統出現故障,屬于典型的運維問題。

據彭博社報道,美國太平洋時間12月14日凌晨3點47分左右,谷歌突然遭遇全球大面積故障,導致旗下的YouTube、Gmail、Google Drive、Google Search等服務出現異常,用戶無法正常使用,全球多個國家及地區用戶均受到影響。直到當地時間早上8點左右,谷歌的大多數服務才恢復正常。

這已經是谷歌5個月內第三次“掉鏈子”了。今年8月20日,谷歌旗下多項服務出現異常,涉及美國、印度、日本等多個地區,官方搶修5小時后才恢復正常;今年9月25日,谷歌系統癱瘓多半集中在美國東岸Gmail、YouTube、Google云端在系統死機時,不斷有用戶持續嘗試進入,但都無法順利使用。

到底是哪里出了問題?

對于12月14日這次全球大面積癱瘓,谷歌的工程師們連夜奮戰,反應不可謂不迅速。但相比較危機之后的迅速反應,用戶更希望谷歌能夠提前做出預判,避免問題發生。

12月15日,谷歌官方出具的一份調查報告顯示,導致宕機的原因是“internal storage quota issue”,即內部存儲配額問題。具體來說就是:“我們的自動配額管理系統出現了問題,降低了谷歌中央身份管理系統的容量,導致其在全球范圍內返回錯誤。因此,我們無法驗證用戶請求是否經過認證,并向用戶提供錯誤。”

自動配額管理?這概念根本不理解啊,小編趕緊去咨詢了華為存儲的專家,經過專家解釋,小編終于明白了。原來數據要寫入到存儲中,需要將數據存放在一個池中,每個要存進來的數據都要在對應的空間內存放,業務能寫多少數據到池中,則需要“配額”來管理。

這就類似于倉庫管理一樣,貨物來了要想入庫,必須先讓倉庫管理員給指定位置。而自動配額管理出了問題,就相當于來了一卡車貨,倉庫管理員只給了幾平米的空間,倉庫管理員又沒有及時調整地方,貨物根本無法入庫,不報錯才怪。

華為存儲的專家認為,自動配額管理系統出現故障,屬于典型的運維問題;配額的出發點是希望限制應用對存儲資源的無節制使用,但凡事總有例外,如果有突發情況,自動配額管理系統不能及時調整配額或者給出了錯誤的配額,就會導致谷歌這樣的問題出現。

搞清楚了問題根源,以后如何徹底避免類似問題出現呢?專家建議,運維工作不僅僅在存儲池即將寫滿的時候報警,如果能做到提前預測,在存儲池即將寫滿的幾個月之前就能發出預警,提前擴容來避免自動配額管理系統“罷工”。

存儲的智能運維該怎么做?

調查顯示,隨著全球數據規模的爆炸式增長,企業數據中心的故障中,與存儲設備有關的故障占到70%以上。尤其在新技術和新應用層出不窮的今天,運維工作日趨復雜。傳統運維高度依賴人的經驗,如何借助AI等技術的應用,實現智能運維已經成為行業發展的大勢所趨。

谷歌自動配額管理系統出現問題無疑給智能運維提出了更高要求,企業必須選擇更先進的存儲容量預測和管理解決方案,以應對在智能運維上可能遇到的風險。為此,華為存儲也在逐步構建起面向智能運維的AI能力,圍繞客戶關心的設備異常、容量預警等關鍵場景,逐步發布多個重量級AI特性,為客戶業務的正常運行保駕護航。

DME(Data Management Engine,數據管理引擎DME)是華為數據基礎設施智能運維平臺,該平臺通過與存儲設備內置的設備AI以及云端AI(eService)實現三層AI協同,并通過融合統一的管理界面、自動化的閉環機制以及開放的API、旨在使能數據存儲的“規劃、建設、運維、優化”全生命周期場景的管理與運維自動化,幫助客戶簡化存儲管理,提升數據中心的運營效率。

在容量預測方面,如果客戶能夠提前預知存儲設備或存儲池,甚至是更細粒度對象的容量變化趨勢,那么容量配額不足導致服務宕機的發生可能性則會大大降低。華為提供的云上+本地聯動運維能力,基于時序預測等關鍵技術,能夠向客戶提供未來最長365天的容量趨勢預測,并能夠提前預警80%配額,提醒用戶提前擴容。

在風險盤預測方面,華為硬盤異常檢測模型服務依托華為自身在硬件領域的技術及經驗積累,基于S.M.A.R.T.(Self-Monitoring Analysis and Reporting Technology)等硬盤關鍵數據信息構建機器學習模型,每日采集數據中心硬盤數據(硬盤ID、SN、硬盤非安全斷電次數、通電時長),從歷史數據中識別硬盤不同屬性的突變模式對當前狀態進行預測。

結合用戶反饋數據,定期執行模型自優化,持續提升預測精度,可以為數據中心硬盤提供主動運維。截至目前,華為硬盤異常檢測模型服務已經覆蓋200多家企業數據中心,可幫助客戶提前14天識別硬盤故障或風險,其中查全率達80%,誤報率低于0.1%。

在存儲性能異常預測管理方面,華為可以圍繞存儲性能相關問題提供全面分析處理方案。其中,基于時間序列預測等關鍵技術的性能預測特性以及基于閾值觸發的性能潮汐預警,能夠讓客戶預知設備關鍵性能指標變化趨勢,如時延、IOPS、塊帶寬等,從而提早發現設備性能瓶頸點,輔助客戶盡早規避可能發生的異常。

基于機器學習的關鍵性能KPI異常檢測及根因定界特性,無監督自學習的異常檢測模型能夠實時檢測設備時延是否異常,現網數據驗證,異常檢測準確率近90%;存儲設備內置基于多集成樹算法融合模型,外加皮爾遜相關性關聯分析算法,實現異常根因的定界分析,基于現網數據的驗證結果,根因定界Top3命中準確率近83%,提升客戶發現性能問題、定位問題邊界的效率。

未來,華為存儲將基于領先的三層AI架構,通過與客戶的聯合創新,逐步推動產業邁向數據基礎設施的“自動駕駛”時代,實現異常場景的快速自愈等L3級特性,不斷降低客戶運維門檻和運維成本,實時保障客戶業務不受干擾。

數據基礎設施進入AIOps時代

AIOps的概念最早出現在Gartner的報告上,即將人工智能應用于運維領域,基于已有的運維數據(日志、監控信息、應用信息等),通過機器學習的方式來進一步解決自動化運維沒辦法解決的問題。簡單地說,過去需要花費數個小時、數天甚至數周才能完成的故障診斷和修復工作,AIOps可能只需要花幾秒鐘,而且判斷更加精準。

Gartner相關報告預測,AIOps的全球部署率將從2017年的10%增加到2020年的50%。到了2022年,部署AIOps平臺的大型企業數量將2017年的不足5%,迅速提升到40%左右。如今,AIOps主要應用于電信、互聯網、金融等多個涉及的IT運維領域,涉及網絡、存儲等多個層面。

尤其在數據基礎設施層面,AIOps的應用不僅可以提升其自動化運維、故障處理和數據管理等能力,還可以進一步推動數據基礎設施的智能管理,從而幫助存儲管理員從繁瑣、復雜的工作中解放出來。

華為DME作為融合AIOps理念的產品,正在開啟數據基礎設施運維自動化時代。以某全國性商業銀行為例,該銀行基于華為DME數據管理引擎,在融合管理、業務變更以及統一運維等場景引入安全可控的自動化以及智能能力,顯著提升了運維效率及業務敏捷水平。

其中,在業務變更方面,傳統方式下,銀行為了確保零失誤,往往采用堆人堆時間的方式,每一個具體任務都由運維工程師出具一個設計腳本,單任務腳本往往需要45分鐘,而通過華為DME的應用,單任務腳本準備時間從45分鐘降低到10分鐘。在變更執行階段,通過自動化能力的引入,變更前預審時間從20分鐘直接減少到半分鐘;不僅如此,DME還能夠實現所有任務的并發執行,大大減少人力投入,變更任務越重,效率提升越明顯。

而在性能分析方面,通過華為DME的引入,相較之前的逐段分析,通過端到端的拓撲呈現以及快速關聯分析,性能問題的定位時間從小時級銳減到分鐘級。

從谷歌的此次全球宕機事件,我們可以看出,在數據基礎設施的運維層面,擁有強大的AIOps能力,才能在短時間內完成故障診斷和自動修復,對于保障業務連續性意義重大。正因為如此,華為也在通過DME與自身存儲產品的融合,致力于為企業實現AIOps提供軟硬搭配的全方位解決方案,為企業的數字化轉型提供有力支撐。

責任編輯:xj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6142

    瀏覽量

    105116
  • 智能化
    +關注

    關注

    15

    文章

    4831

    瀏覽量

    55267
  • 運維
    +關注

    關注

    1

    文章

    253

    瀏覽量

    7544
收藏 人收藏

    評論

    相關推薦

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1

    破解大面積場景清潔難題,普渡推出AI智能掃地機器人PUDU MT1 9月10日,全球服務機器人領導者普渡機器人發布了全新AI智能掃地機器人,PUDU MT1。PUDU MT1是全球首款面向大場
    的頭像 發表于 09-12 14:37 ?419次閱讀

    功放和運放到底是什么區別?

    想請問一下功放和運放到底是什么區別,感覺只要接一個小負載,運放的輸出電流也可以很大啊?到底有什么區別啊
    發表于 09-10 07:00

    運放的輸入電容到底是什么?

    我想請問一下運放的輸入電容到底是什么?
    發表于 09-04 06:52

    LMH6502的輸入電壓到底是多少?

    LMH6502的輸入電壓到底是多少,我稍微給如大一點點的信號,放大不行還能接受,我衰減都失真,
    發表于 08-27 07:02

    大面積燒結銀AS9387成為碳化硅功率器件封裝的首選

    大面積燒結銀AS9387成為碳化硅功率器件封裝的首選
    的頭像 發表于 08-09 18:15 ?688次閱讀
    <b class='flag-5'>大面積</b>燒結銀AS9387成為碳化硅功率器件封裝的首選

    日本旭化成氮化鋁基板技術突破:邁向更大面積與實用化

    全球半導體科技日新月異的大背景下,日本旭化成株式會社在功率半導體等應用領域取得了令人矚目的技術突破。該公司近日宣布,其氮化鋁基板技術已實現了可使用面積的顯著擴大,這一進步為功率半導體的發展注入
    的頭像 發表于 06-15 16:48 ?656次閱讀

    對于STM8的固件庫,到底是怎么對文件進行配置的?

    對于STM8的固件庫,到底是怎么對文件進行配置的?
    發表于 05-17 15:59

    共享單車到底是什么通信原理

    我們經常騎的共享單車到底是什么通信原理,有人了解過嗎? 一、智能車鎖 共享單車最核心的硬件是智能車鎖,主要用于實現控制和定位功能。
    發表于 04-09 10:33 ?814次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理

    輸入捕獲實驗是如何判斷他溢出了呢?

    請問,在剛剛捕獲上升沿的時候,如果溢出了,在我圈的最后一行里會出現STA++,表示溢出了一次,可是,他到底是如何判斷他溢出了呢?上面只是寫了,捕獲到高電平后,如果,STA還能存放數據,
    發表于 04-08 07:10

    共享單車到底是什么通信原理?

    我們經常騎的共享單車到底是什么通信原理,有人了解過嗎?下面寶藍小編就帶大家了解下。
    的頭像 發表于 02-25 10:32 ?1345次閱讀
    共享單車<b class='flag-5'>到底是</b>什么通信原理?

    帶負荷調壓時變壓器跳閘故障診斷分析

    故障現象:在運行幾年后,帶負荷進行電壓調節,在此過程中變壓器突然跳閘,導致大面積停電。
    的頭像 發表于 01-18 09:50 ?648次閱讀

    功放pcb大面積覆銅的好處有哪些呢?

    功放pcb大面積覆銅的好處有哪些呢? 功放(功率放大器)是一種用于放大電信號的電子設備,主要用于音頻系統、通信系統、測量儀器等領域。作為功放的關鍵組成部分之一,功放PCB的設計和制造對于整個功放
    的頭像 發表于 01-17 16:50 ?761次閱讀

    請問M487KMCAN的SRAM到底是128KB還是160K?

    M487KMCAN的SRAM到底是128 KB 還是160K
    發表于 01-16 07:18

    去耦濾波電容怎么布局擺放,到底是先大后小還是先小后大?

    去耦濾波電容怎么布局擺放,到底是先大后小還是先小后大?
    的頭像 發表于 12-04 15:43 ?2304次閱讀
    去耦濾波電容怎么布局擺放,<b class='flag-5'>到底是</b>先大后小還是先小后大?

    請問AD9684最低采樣率到底是多少?

    關于AD9684最低采樣率,數據手冊有兩處描述,但是不一致。請問AD9684最低采樣率到底是多少?
    發表于 12-04 06:34