運維的組織定位
騰訊內部是按事業群進行劃分,其中互動娛樂運營負責所有騰訊游戲的技術支撐。整個互動娛樂事業群差不多有1萬員工,如果單獨拆分出去是一個非常大的公司。涉及游戲、影視文學、電競、動漫等文化產業領域,其中游戲是主營業務。
游戲主要分兩塊,除了本身自己開發的,如王者榮耀、天天酷跑和消除類等游戲。另外一塊是一個團隊會到全球各地采購各類覺得會火的或者是會有非常大潛力的游戲拿過來。所有的游戲拿過來之后都是由我們團隊運維支撐,目前運維大概差不多有300人,整個運維行業幾乎可以說是在全中國,甚至可以說在全球最大的運維團隊。目前我們支撐的服務器量差不多有20萬臺以上,在全球各地。另外我們整個支撐的業務量大概有400款游戲以上。在這里我們從2003年開始做游戲,一直到現在,已經累計了14年了,整個這塊我們在做運維支撐這塊積累了很多的經驗。當然同時我們這幾年也會把我們的技術或者是平臺的能力去對外分享,甚至可能把我們的經驗跟工信部去制定運維行業的標準。
基于云PaaS的移動運維。云分三層:一是IaaS層,基礎設施層,像現在做很多公有云、OpenStack還有Docker容器,像傳統企業以往需要去搭建你的IDC,這塊對你來講,你只需要到公有云或者虛擬云的平臺點擊申請,所有基礎設施都生成。在IaaS層之上叫PaaS層,PaaS層是平臺級服務,平臺級服務主要做兩件事,一個是幫助你運行托管所有的應用。第二件事是能支持你快速定制開發。三是SaaS,直接面向我們的使用對象,比如說我們有一個點餐系統就是SaaS,運維有非常多的發布或者是變更各式各樣的系統,這是我們的SaaS。
目前很多的企業,包括BAT都開始做云。這些公司都是基于Docker做一些創業,Docker技術的興起,這兩年受到了非常多投資商的青睞,所以整個這塊他們做得涌現出很多的公司。
騰訊內部我們怎么做運維支撐?左邊這側是基于傳統的模式,傳統模式都是這么做的。下面最下的層是IaaS,上面是你所有的應用系統,在上面支撐你的業務,每個企業,不管是大還是小,現在傳統企業慢慢、慢慢都在做互聯網化。這個企業都需要這樣一些運維支撐系統去支撐。左邊這塊都是傳統去做的,跟業務場景綁得很死。騰訊內部,我們做游戲支撐,我們所有的游戲,除了我們研發的,還有來自全球各地的,這些游戲拿過來之后,已經是成型了。相當于要支撐一個銀行或者支撐一個建筑公司,或者餐飲類的企業,整個這塊把我們的平臺和業務場景剝離出來,整個這塊可以適配各式各樣的業務系統,就比如說我們在2015年,那個時候滴滴打車和58同城被騰訊投資,他們的業務量陡增,需要搬遷到騰訊內部,這時候就需要一套運維支撐平臺支撐他們。按照原來傳統的做法沒有辦法在1-2個月內對他們支撐,通過右側的PaaS和場景解耦合的方式,可以非常短時間內支撐他們。
今天我和大家講的有點偏技術,我是工程師出身,但是這塊代表我們整個行業里的運維。我會從四方面講:一是運維的組織定位,就是運維做什么的。二是整個運維體系的演進。三是應用運維的邊界。四是講我們在去做運維支撐, 我們其實也是對外輸出能力和平臺產品,做的一些生態方面的事情。
身邊的運維們,每個公司現在都有,不管公司大還是小,都有一些IT支撐系統或者信息支撐部門,他們平時都是要干這些事,要執行腳本或者執行命令,去操控他們業務系統的發布,或者維護他們企業內部的一些IaaS系統或者是其他的。
運維的職責,我們抽象為三類:一是發布,你的業務系統可能要做一些更新,要把你的版本發布到你的線上去,讓你的用戶使用。二是變更,變更就非常多,比如剛才講到電信這塊,你們經常會講到他們切割或者IDC做變更,網絡基礎設施整個這塊,還有物理機整個這塊的變更。三是故障處理,運維經常要處理各種各樣的故障,企業系統里面某些東西用不了,比如銀行,網上銀行出什么問題,這塊都是要通過運維處理。或者基礎設施不能用,要修復,要通過運維做。
運維的分類,按工種分三類:一是IDC運維,這是以前有的,80、90年代的運維,那時候大機、小機,去IOE之后是X86,因為當時是沒有云的概念,每個企業都會去運營商那邊租用IDC或者自建IDC,它需要運維拉網線,把服務器搬到基站上去。那時候這些運維干這些事情。隨著云的發展起來,這部分工種對企業來講需求會越來越少,因為我們的服務器、我們的網絡,說白了,要到公有云上點擊購買就可以了。我們向公有云廠商集中。二是IaaS層以上,操作系統層,我們叫系統管理員,系統管理員做的是操作系統,比如Windows等,你需要進行調優或者內核的小的改造,甚至系統安全性的布置,這是SA。這塊也慢慢的被云廠商集成進來,比如阿里云、騰訊云購買云主機的時候,都可以看到它可以根據你的企業定制你的OS層,所以你這個操作系統需要做一些個性化的配置,它可以支撐你直接定制好,然后生成進項,點擊購買,你需要購買的云主機或者存儲都按照你的格式做。三是應用運維,比如我現在做游戲的運維,如果大家玩游戲王者榮耀,你可能玩著、玩著卡了,或者買不了某個道具,你投訴到騰訊,或者直接在論壇上罵帖,我們的客服拿到這些信息就告訴運維,我馬上來處理。首先這個運維,做運維必須要對整個游戲本身非常熟悉,在哪個地方買什么道具或者什么卡,我應該知道業務模塊是哪個地方出了問題,各個進程之間的通信或者模塊之間的架構是什么樣的。這塊對于業務運維來講,其實工種的技術要求會越來越高。
運維的層次,在騰訊內部做了一些分類,我們是分三個層次:一是運營保障,每個企業都要有IDC運維或者是ICE運維,這些人做的事情是保證業務系統7×24小時不掛,掛了之后,以最快的速度修好。做這樣事情的人,你只有苦勞,沒有功勞。你做好了是你應該的,沒有做好就不及格,就會被老板罵。二是運營工程層,你需要通過你的PaaS的能力去構建你的工具。三是運營決策,大家可能知道整個所有業務系統,你在面向最終,都是一些用戶,那用戶需要讓業務系統會更流暢,甚至可以說體驗更好,或者對游戲來講,你要讓它的收入能不能變得更高,傳統的模式是通過我們的非技術人員的經驗,就屁股決定腦袋來說我們要做什么事,能給我們的業務帶來多大的收入。他們其實沒有這樣的數據決策,整個這塊我們作為運維,我們擁有整個所有運行網絡環境里面的所有數據,通過這種手段我們可以把所有的數據集合起來,根據我們對這個業務的理解,能夠做出非常精準的決策,去指導我們這個業務去運行的更好。
運維體系的演進
運維體系的演進,我們按三個層次:一是自動化,我們和很多傳統行業交流的時候,發現他們在做的事情都是通過手工做的,效率非常低。企業里面可能有5、6個運維,可能維護一個系統,不管出什么事情都是通過手工做的。我們的目標是通過自動化的手段能夠把所有的這些原來手動做的事情,通過系統自動去做。當我們把這些手動做的事情通過系統自動做之后,那我們所有運維人員他們就把自己給解放出來了,我們平時不需要再做以前重復、低價值密度的工作。再接下來我們可能要做更上層的事情,就叫數據化,其實前面已經提到了,怎么通過技術手段以及現在所擁有的全部運營環境里面的數據做一些精準的決策,拉伸業務價值的事情。我們的數據化做到一定程度之后,你會發現做數據化的時候,非常多的手段其實是沒辦法覆蓋所謂的場景,而且很多時候數據本身都有一些局限性,這個時候我們就需要通過智能化,AI的技術去提升我們整個精準決策的靈敏度以及預測未來的能力。
剛才講到PaaS,傳統的各種云和創業廠商做的事情是平臺和場景綁在一起,整個這塊是一個單體,我們在平臺和場景方面我們是做了非常大的分離,相當于我們在下面根據你這個企業會有很多的各式各樣的平臺或者我們給你們提供對應的平臺,在平臺之上,通過IPaaS,就是集成平臺,它能實現企業內部各式各樣的周邊系統或者是平臺也好,他們之間的互聯互通,在上層構建我們的運維支撐工具,整個按這個模式來走。在騰訊內部通過IPaaS的能力,把整個公司內部的所有平臺或者能力全部都集成起來,這可以類比到傳統企業里,這個企業可能購買了IBM、惠普等,以前賣的很多的系統,發布系統或者監控系統,各種各樣的系統,這個系統有一個特點,一個是特別貴,可能上百萬甚至上千萬。另外一個特點是他們之間是沒有信息互通的,他們都是孤島。如果企業需要做一些IT自動化的流程,它會發現非常艱難,而且他想改變這種局勢是沒有辦法做的。
在運維這塊有很多的平臺,一個是配置平臺,在業界叫CMBD,所有的企業要做運維首先需要有一個CMDB管理企業內部的資產,另外你整個ID資產上面跑的是你的業務系統,所有的業務系統也需要一個地方來對它進行統一的管理。二是作業平臺,作業平臺是針對每個企業里面所有的腳本自動化,甚至像你的版本發布,都是要通過這樣的平臺去做。容器管理平臺,這兩年容器比較火,企業內部來講,很多的業務或者是新興的業務開始嘗試,通過容器的技術去實現他們的企業內部IT交互的敏捷,通過這樣的方式我們有容器管理平臺能實現它整個容器的生成到銷毀到運行實施的管理,資源的申請等等這些。數據平臺,我們要做數據化,必須要數據平臺,傳統的數據平臺基本上每個企業可能現在都說要做數據平臺,大量的數據平臺他們其實是針對商業分析或者是用戶畫像的這塊做的,實際上在運維這個領域,其實也有需要這樣的數據平臺做一些體驗實時的分析或者干預或者決策的事情。一個是需要你能夠支持海量的數據采集;二是需要支持數據的完整性;三是支持非常大的數據的輸入。數據挖掘平臺,挖掘技術在整個互聯網,其實已經變得非常時髦,我們要基于AI技術、人工智能、機器學習,這些技術需要統一到我們的挖掘平臺里面來,而通過引擎去針對這樣的可能以人肉或者普通的算法沒有辦法去把這個東西規則找出來的,通過這樣的挖掘平臺生成。
應用運維的邊界
應用運維的邊界,運維的邊界分四個層面講:一是運維開發,企業系統里面有各式各樣的系統,這些系統都是花了很多錢買過來的,而且這些系統他們都跑在IaaS上面,這時候就需要人去進行維護。我們試想一下,除了維護公司內部的業務系統之外,我們還需要維護這些支撐系統,這是不合理的。這時候有一種技術叫PaaS技術,PaaS能把所有的支撐系統的維護全都給你托管,你不需要再維護這樣的支撐系統本身。
各個企業做自動化要開發一些系統,比如CRM或者OA系統,整個這塊我們傳統的開發模式可能需要熟悉你這個需求本身,我做一個CRM要怎么做,可能要畫一個圓形出來,畫好圓形之后,要準備這樣一些資源,準備服務器搭建CRM系統,然后再構建一個環境,就要跑CRM,如果公司用JAVA或者什么語言寫的話,你需要部署這些環境。部署環境之后你可能需要對外提供服務,需要一些公共組件,比如說前端接入,然后在這個里面去開發CRM的系統,開發好之后,需要把這個系統部署上去,部署上去之后,你還要對這個系統本身做監控,如果某天都在用CRM系統或者OA系統,如果掛了就用不了,這時候我作為系統開發方必須要實時知道,這塊需要有一個監控。如果你做監控,你可能要做一些日志,通過日志查詢,在這個圈子里面要不斷迭代開發OA系統,通過PaaS的開發模式,幫你省很多事情,只需要做兩件事:一是整個要開發工具本身的需求要清楚,這是沒有人能幫你做的。比如我要開發微信,你應該知道我要開發哪些東西,你要能描述出來。
第二個事情是開發本身,比如我們做一個網站要開發前端,大家經常登錄一些網站,網站點,那些頁面怎么做出來的,通過傳統方式,你可能要寫很多的代碼,學計算機的都知道,HTMCS,各種樣式,往上面堆。這塊前端會花非常多的時間。如果PaaS,你可以直接在我們這個PaaS里面有一個叫拖拽生成。原來讀過大學,網頁三劍客的工具,可以把頁面拖拽生成,不需要編碼。前端頁面,比如登錄一個網站要點擊登錄,要點購買什么東西,這涉及到后臺數據的交互,后臺數據交互,整個后臺還有一個邏輯相關的處理,這個后臺傳統的方式也是需要對它進行編寫代碼,而且代碼非常大。代碼非常大,我們通過框架能力把底層的平臺集成進去,以組件的方式集成進去,通過API的方式直接調用函數,非技術人員拿過來的時候,可能只需要去按照你的說明把這個函數弄過來,直接拼裝成后臺。我們開發一個OA系統或者開發網站,它會變得非常便捷,而且成本也非常低。我們曾經在內部,針對騰訊校招的畢業生進來,他們進來的第一件事,是通過PaaS開發對應的工具,我們給他們的時間就是三個星期,如果三個星期做不出來運維工具,你可能不符合騰訊的標準。目前運行5年,最后只有一位不合適,去了建設銀行。
另外我們還針對我們企業內部的運維人員都做了一些體系化的培訓,比如他原來是傳統進來的,甚至腳本不會寫,甚至點一些頁面,我們會開夜校的方式,手把手教他們,怎么在后臺組裝函數,也是一個月左右,一個星期一到兩個小時,他們慢慢也能夠學會在PaaS上構建他們的工具。這樣他們也把他們以前非常痛苦的,以前沒辦法,只能自己做,通過手點、執行的東西,以工具的形式做出來,做出來可以交到對應的對他提出需求的崗位,讓他們自己做。比如這個產品讓我提取數據或者更改東西,我做一個工具給你以后,就不要再來找我,我把自己解放出來。這就是PaaS的好處。這是我們剛剛講的,開發一個網站、開發一個工具,你的前端可以通過PaaS拖拽出來。后臺會有一個框架,這個代碼大家可能看不懂,如果你們到我這邊來培訓一下,可能不到一個星期,你們也知道怎么往里面填。我們告訴你哪一步該填什么東西,然后往里面填,慢慢開發你整個的工具。包括頁面上有前后臺聯動的,做運維,這些東西都可以在上面以一個函數的形式提出來,比如執行流程,比如在上面購買購物車,購物車有什么東西,然后退貨,這是邏輯性單元的,在上面有函數就可以生成這樣的功能。
我們最主要做的目的,一是專注于讓我們的相關人員用我們的PaaS是專注于SaaS流程拼裝,像搭積木一樣做工具,我們叫SaaS。另外一塊是通過這種模式大大降低SaaS的構建成本。大家知道,針對這樣一些運維工具,我們大家都想要用一些通用的工具,其實它的應用性很差,成本很低,比如IBM做了通用的,像發布管理系統或者是流程管理系統,賣給很多企業,比如賣給銀行或者建筑類或者餐飲類,每個企業都要有一套流程的東西,通過這種模式做,這個是統一鋪開給別人賣,應用性是很差的。企業構建系統的時候,不具備這種能力,所以必須要這樣做。第二個是定制,大家想的是如果我現在告訴你,你是A企業,我給你定制一個系統,你提需求,我給你做進去,你用,你一定覺得這個體驗很好。你對系統本身的信賴很高。隨之而來,如果我是做2B的企業,如果每家企業做定制,那我可能人力就跟不上,一個企業要派兩個人。這不可能。如果有通用的方式,我們提供定制的體驗,同時我們把這個工具本身的應用性也做到非常好,低成本很高,通過這樣的方式通過PaaS做。
第二個是運維邊界DevOps,不知道大家對運維領域有沒有感興趣,DevOps這幾年,比如說大數據、DevOps、多容器這些詞都很火,DevOps也會非?;?。甚至像有些培訓機構幾萬塊一節課,都是非?;鸬摹evOps說白了就是為了提升你這個企業內部各個崗位之間,你這個企業內部有開發,企業內部有運維,企業內部有測試,各個崗位之間,他們很早都存在一道墻的,他們之間工作不順暢,他們整個流程跑下去,經常會有非常多的隔閡。通過DevOps的理念把企業IT的交互流程以最敏捷的方式能夠執行下去。整個表現最突出的是CI/CD,整個企業內部,各個應用系統或者持續集成,就說你的開發應用系統部署到你的線上去,還有整個發布或者變更,我們通過PaaS可以直接把DevOps以及你這個企業內部所有的需求或者是維護,全部可以通過PaaS來實現。通過這樣的模式,我們通過運維借助PaaS去構建各式各樣的工具或者系統。
騰訊內部,我們通過這樣的PaaS去開展這樣工具的構建,通過PaaS層,我們做運維,以前說白了,就是一個打雜的,很多企業的運維都是來打雜的,騰訊內部這種運維可以和各式各樣的崗位提供工具給他們。比如這個公司的運營或者產品或者策劃或者測試,都可以提供各式各樣的工具給他們。騰訊游戲大概有500次發布,這個發布怎么做?通過這個工具做,通過PaaS開發出來的,500多次。還有一塊是監控。這些SaaS都非常多,針對運維整個這塊。比如故障治愈,企業故障都可以通過SaaS來直接快速的通過系統方式集成好。這是持續集成,基于Docker容器里面的持續集成。
我們還在對外嘗試的體系化,非自己崗位內的,企業內部要開會,可能有些會議紀要要做,如果需要一個人記錄會議紀要發出來要三四個小時,你直接開會,通過PaaS層來做可能只有幾分鐘。Supercell,騰訊收購Supercell,他們的游戲發行,要查看網絡質量,通過這個提供工具給他們,讓美國人或者歐洲人通過這樣的工具來看到他們的東西。這是我們針對玩家的騰訊游戲,所有的外網用戶,你們需要做用戶體驗的實施監測。我們通過PaaS支撐400多個業務,分布在全球各地,大概有600個SaaS,每個SaaS都可以做非常多的應用場景的支撐。另外是數據運維,舉一個簡單的例子,玩游戲,你們需要下載客戶端,甚至像一些端游,比如英雄聯盟,可能5、6G的客戶端,你們下載過程中會覺得網絡太慢,你可能等待不了就直接叉了。對于騰訊來講我們流失了一個用戶,我們需要通過一些手段進行干預,讓用戶下載過程中不要叉掉,這個場景通過運維的手段來做。我們根據下載的通道、渠道或者其他的方式,來對它進行分析。
下載的時候,你可能就說這次是40級,下次馬上升41級,這個過程中,你說需要一個禮包,這樣你用一個禮包可以直接升級。通過這種用戶心理,我們可能在你下載升級的時候給你發禮包,你覺得我有興趣往下玩。類似這種方式,比如我們怎么發,發給誰,比如什么情況下發禮包給他。比如下載進度下載到10%、20%的時候,我們什么時間點可以發。還有發什么樣的禮包,發什么禮包勾起他的欲望繼續等待。我們根據這樣的方式,我們需要對數據進行抓取,同時針對這樣的數據進行計算,通過各種各樣的函數對它進行分析。通過這樣一些數據的計算之后,會得出我們的玩家在下載過程中,你們取消它的概率,得出它的一些概率。當我們知道它會取消,就會看我們該給它發什么樣的道具,就要對用戶進行分析。我們針對各種標簽,針對他們做一些標簽,會得出一些結論。比如下載速度多少的時候,你當前進度是多少的時候,你下載完成率5%,或者下載10分鐘,你不能再等了,我們應該給你發什么東西,通過這樣的模式挽回你。通過這樣的方式我們得到很多的對比,我們會針對他的下載時長或者完成率做對比。另外是智能運維,智能運維有非常多的運維整合,我們從模式訓練到數據整合的提取到整個公司的應用,這塊我們挖掘這塊去做。
生態建設
生態,我們在內部支撐騰訊游戲,這兩年騰訊不斷對外開放我們的一些能力,最突出的點是騰訊云,這是騰訊對外2B的窗口,整個產品都是支撐2C業務非常優秀的產品。我們在這塊也是做得非常不錯,我們根據自己在整個運維行業或者PaaS的理念或者技術能力,然后在行業里面有非常多的運維的企業,他們做代維,比如他們一直跟IBM、惠普和BMC,幫他們做工作,這時候都是非常傳統的。以前的方式成本很高,利潤又很低,我們能不能有一種方式把以前運維集成和沉淀輸出給他們,讓他們針對這個行業做非常多的場景、應用。最好的方式我們認為是這樣的,頂級互聯網公司,把技術能力傳輸給我們的傳統的代維公司,他們通過這樣的能力去服務企業客戶,這些企業客戶拿到產品,我們剛剛知道這是PaaS,PaaS具備二次開發或者定制能力,我們也會把這樣的能力交付給企業客戶。非常多的傳統企業,他們以前買的很多系統或者平臺都是二進制包,拿過來部署好,出任何問題都改不了,必須找IBM或者原廠的人來改,通過這種模式給他們的東西有具備能力做一些小修改或者一些定制。
這是我們目前已經做對外的開放,我們會把我們所有支撐內部騰訊的經驗,以產品的形式對外開放,我們首先對外開放的免費版本,叫社區版,目前大概有六七千家的企業客戶,他們的運維部署下來,到內部支撐他們的業務系統。整個我們還對外開放了SaaS的市場,基于PaaS開發出來非常多的SaaS,你們可以到SaaS市場里面直接下載應用,然后安裝到你們的企業內部的PaaS平臺上,這樣就可以自動支撐企業內部的體系運營。我們對外也做一些生態,我們剛剛講了,有些技術類的公司,他們做運維這塊,我們把我們的平臺給他們。另外我們和很多培訓機構,他們這塊就培訓專門的運維人員,這些運維人員最后都會分散到各個企業內部做運維支撐。他們了解這個平臺,再把平臺了解到企業去。另外我們結合非常多的品牌類項目,比如說做CICD做得非常專業,在全球做得很好的品牌,他們的品牌直接集成到PaaS平臺,以這樣的全鏈路的生態服務這樣的企業客戶。另外跟工信部制定運維標準,像PaaS的運維標準,有了這個標準之后,比如銀行或者是其他的行業,他們在采購運維系統的時候,他們會看工信部或者國家部委有沒有一些標準,他們的招標書都是按照這個寫的,通過這樣的模式,就讓他們自然而然的往我們的PaaS平臺靠齊。這是我們對外做的生態,一個是開源,我們的能力會對外進行開源,另外產品還有服務、行業和渠道,渠道通過非常多的組織,把這樣的渠道對外開放,去分享,給他們做技術咨詢。另外技術這塊,現在行業目前非?;?,像大數據、智能運維、DevOps,我們都有技術的輸出。
-
騰訊
+關注
關注
7文章
1644瀏覽量
49400 -
PaaS
+關注
關注
2文章
131瀏覽量
21426
原文標題:【華創通信】云計算基于PASS層未來發展趨勢
文章出處:【微信號:shuxiaofengtx,微信公眾號:通信海峰】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論