精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

阿里云出現重大技術故障損失過億,阿里云故障真正原因是什么?

馬哥Linux運維 ? 來源:未知 ? 作者:易水寒 ? 2018-07-17 15:16 ? 次閱讀

昨天,技術圈又出了攪動全技術人的一次重大技術故障。記得上一次是攜程2015年癱瘓了11小時,損失高達7000W+。

阿里云是國內最大的云服務商,服務著制造、金融、政務、交通、醫療、電信、能源等眾多領域的領軍企業,包括中國聯通、12306、中石化、中石油、飛利浦、華大基因等大型企業客戶,以及微博、知乎、錘子科技等明星互聯網公司。在天貓雙11全球狂歡節、12306春運購票等極富挑戰的應用場景中,阿里云保持著良好的運行紀錄。

6月27日下午,阿里云出現重大技術故障,故障于北京時間2018年6月27日,16:21左右開始,16:50分開始陸續恢復。官方給出的故障時間大概持續30分鐘,陸續恢復時間有一個小時多。

在6月27日凌晨時分,阿里云給了官方說明,最后官方給出的說明是:“我們在運維上的一個操作失誤,導致一些客戶訪問阿里云官網控制臺和使用部分產品功能出現問題。”引發了大量吐槽。

對于此故障的原因,網上傳的各種版本都有,傳的最多的是以下2個版本:

網上流傳故障原因版本一

網上流傳故障原因版本二

小編邀請原美團點評運維架構師&馬哥教育聯合創始人張sir對本次故障解讀:

“至于實習生誤刪登陸服務之說,應該是不存在的,一方面,大型互聯網公司尤其是阿里云這樣的公司,對工程師權限有著極為嚴格的控制,因為阿里云數十萬臺服務器,支撐了全國各行各業千億以上規模的線上業務,不可能讓實習生不熟悉的情況下,給予過高的管理權限。這是極其不專業的做法"

”對于版本二的說法,說的比較含糊和籠統,我通過內部了解到原因:”

"這個說法跟阿里云官方通告是比較符合的,本次故障的嚴重程度是非常高的,故障級別定義在S1級別,整個阿里集團的核心業務,以及依托阿里云的公司,很多都受了影響。"

"對于企業來說,上線都是開發-測試-上線大致都是以下這樣的流程,通常開發會開發出來程序,然后交給測試工程師,測試工程師測試完成后,后提交給運維工程師進行線上服務配置以及業務上線。"

“本次故障,阿里官方說明:工程師團隊,在上線一次自動化運維新功能的時候,執行了一項變更驗證操作,這一項功能在測試環境驗證中未出現問題,上線生產環境中,觸發了一個未知的bug。這個bug后來通過阿里的同學證實:具體原因是一個核心的應用在拉VIP列表的時候,返回了空列表,這就會導致上千VIP被禁用了。VIP = Virtual IP Address,虛擬IP地址,主要作用為集群的負載均衡的入口地址,可通過一個VIP的地址,實現一組業務的訪問,通常也叫集群負載均衡技術。VIP是集群業務的入口,如果數千個VIP被禁用了,可能后端上萬臺的服務、應用、數據庫等將直接無法訪問,本次故障盲點,是測試通過了,在生產環境觸發了一個未知bug,導致核心應用在拉取VIP列表時,為空了,導致內部的上千臺負載均衡不可用,從而后端的應用也不可達。”

"如圖所示,對于大型互聯網公司,運維技術架構都是多層機構。在內部負載均衡上配置的VIP如果不可達的話,后端的service層和數據庫等內容,都是不可達的,這也是為什么故障的時候,頁面能打開,但是報錯為502故障,502錯誤一般常為后端服務器不可用,這也說明了故障的根源所在。阿里的運維團隊故障響應還是比較給力的,數千個VIP配置錯誤,在半小時內從發現,到定位,到故障排除,以及解決,還是挺快的。”

“在一個龐大復雜的架構體系中,會涉及到成千上萬的配置以及幾十種技術的應用,有時候可能因為一條配置的錯誤,會導致整個服務崩盤。而出故障時,一位優秀的運維工程師,可為公司挽回巨大損失。運維工程師目前已經是各家互聯網公司必不可少的重要崗位,是要求有極高的技術能力和心理素質(當出現故障時,耽誤一分鐘損失上百萬的時候,那種壓力是常人無法理解的),所以這也是,為什么業內優秀的運維工程師是比較稀缺的。一個優秀的運維工程師或者云計算工程師,是需要不斷的提升和學習,因為公司的業務需要不斷的完善架構體系,保障服務正常運行,以及服務性能和工作效率不斷的優化和改進。”

阿里云對于本次故障,還是非常坦誠的:

"對于這次故障,沒有借口,我們不能也不該出現這樣的失誤!我們將認真復盤改進自動化運維技術和發布驗證流程,敬畏每一行代碼,敬畏每一份托付。"

此次阿里云重大故障,網友們紛紛討論,運維都要背鍋啦。其實,運維工程師這個群體,比你想象的要厲害,如果不是他們為互聯網的業務保駕護航,可能故障遠不止此。所以,對于錯誤,我們應該包容,錯誤是成長的必經之路,更何況,人非圣賢孰能無過?

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 互聯網
    +關注

    關注

    54

    文章

    11015

    瀏覽量

    102087
  • 阿里云
    +關注

    關注

    3

    文章

    922

    瀏覽量

    42780
  • 運維
    +關注

    關注

    1

    文章

    230

    瀏覽量

    7497

原文標題:1000+公司業務癱瘓,損失過億,阿里云故障真正原因竟是這樣

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    學習阿里架構選擇哪家培訓機構好?

    認可的阿里技術證書,并可對接阿里人才庫,全國5000多家企業任您選擇,高薪職位唾手可得!  老男孩教育
    發表于 12-20 15:31

    阿里1682背后的協同研發——效公共正式商業化

    提供了單個工作任務的多種操作,也支持整個項目和項目集合管理,使得用戶可以更加便捷跟進工作。通過移動效進行項目管理阿里巴巴資深技術專家葉渡表示:“研發效能已經成為軟件企業發展非常核心的競爭力。
    發表于 12-25 12:02

    阿里方式大匯總

    摘要:前不久,阿里發布了一款遷神器,即 阿里工具,使用該遷
    發表于 12-25 14:33

    無邊界,阿里混合數據同步發布

    ,當業務中心出現故障時,快速將業務切換到容災中心,秒級恢復業務。3、業務彈性擴展因為的靈活性、可擴展性及低成本,業務在大促等突發流量時,可以在阿里
    發表于 04-02 15:35

    阿里全球首次互聯網8K直播背后的技術解讀

    ,及時發現卡頓原因并解決。阿里巴巴杭州西溪園區,距離深圳云棲大會的會場1300公里,如何保證這么遠距離的大數據量穩定傳輸,又是一個難題。如圖所示,通過專線,把直播現場(阿里巴巴杭州西溪園區)連接到
    發表于 04-08 10:55

    阿里財報:計算年度營收133,季度營收連續12個季度翻番

    摘要: 北京時間5月4日晚間,阿里巴巴集團公布2018財年第四季度和全年財報,該季度內(2018年1月至3月底)阿里營收43.85元,同比增長103%;2018財年(2017年4月
    發表于 05-07 14:50

    阿里免費使用及手冊

    自己使用阿里服務器搭建的一個個人知識分享博客網站,基于網站搭建過程,分享一些經驗。先對阿里服務器大體介紹下,后續有時間再分享技術方面的東
    發表于 05-10 21:17

    上拍客梨視頻 基于阿里技術實踐分享

    摘要: 梨視頻大部分的業務都選擇了阿里,其中一個主要原因是阿里提供基于釘釘群構建的24貼身技術
    發表于 06-28 16:13

    阿里 APM 解決方案地圖

    ,取決于用戶是否進一步使用容器技術來優化開發和運維。應用還會直接依賴各類的PaaS/SaaS服務,如OSS,OTS, MQ, RDS等,對應用提供響應平臺服務,簡化應用的運維成本。阿里
    發表于 07-05 16:54

    阿里平臺操作

    一、阿里平臺操作??首先我們要知道BC26連接阿里是連接阿里上的某個設備,因此首先需要在
    發表于 08-03 06:43

    Fibocom 公有阿里 技術資料

    Fibocom 公有阿里 技術資料內容如下:1、阿里連接教程2、
    發表于 01-05 15:03

    阿里嚴重故障,全線產品受影響(已恢復)

    故障原因與某個底層服務組件有關,工程師正在緊急處理中 。 官方通告顯示,阿里全線產品受影響。 18:20 更新,官方回應: 2023-11-
    的頭像 發表于 11-13 00:26 ?797次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>嚴重<b class='flag-5'>故障</b>,全線產品受影響(已恢復)

    阿里故障是一次意外還是一次危機?

    和影響。 2023 年 4 月 8 日,阿里發生了一次史詩級的故障,導致多個區域的服務器、數據庫、存儲、網絡等服務出現不可用或性能下降的
    的頭像 發表于 11-13 00:28 ?229次閱讀

    阿里全球宕機:從阿里故障看企業 IT 挑戰

    2023 年 11 月 12 日晚,阿里遭遇了一場全球性故障,導致其全產品線全部崩潰,包括阿里盤、釘釘、淘寶、閑魚等服務。這次
    的頭像 發表于 11-13 00:28 ?332次閱讀

    阿里崩了:企業未來該怎么選擇廠商?

    出現大規模故障,也成為政企們熱議的話題,大家關心的問題在于:公有到底還安全嗎?是否還能繼續上?未來應該采取哪些措施來保障穩定可靠? 不要動搖“上
    的頭像 發表于 11-23 10:18 ?291次閱讀
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企業未來該怎么選擇<b class='flag-5'>云</b>廠商?