精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

8種主流數據遷移工具技術選型

jf_ro2CN3Fa ? 來源:蘇三說技術 ? 2023-04-20 17:57 ? 次閱讀

前言

最近有些小伙伴問我,ETL數據遷移工具該用哪些。

ETL(是Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對于企業應用來說,我們經常會遇到各種數據的處理、轉換、遷移的場景。

今天特地給大家匯總了一些目前市面上比較常用的ETL數據遷移工具,希望對你會有所幫助。

1.Kettle

Kettle是一款國外開源的ETL工具,純Java編寫,綠色無需安裝,數據抽取高效穩定 (數據遷移工具)。

Kettle 中有兩種腳本文件,transformation 和 job,transformation 完成針對數據的基礎轉換,job 則完成整個工作流的控制。

Kettle 中文名稱叫水壺,該項目的主程序員 MATT 希望把各種數據放到一個壺里,然后以一種指定的格式流出。

17508ce0-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 這個 ETL 工具集,它允許你管理來自不同數據庫的數據,通過提供一個圖形化的用戶環境來描述你想做什么,而不是你想怎么做。

1774c2b8-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 家族目前包括 4 個產品:Spoon、Pan、CHEF、Kitchen。

SPOON:允許你通過圖形界面來設計 ETL 轉換過程(Transformation)。

PAN:允許你批量運行由 Spoon 設計的 ETL 轉換 (例如使用一個時間調度器)。Pan 是一個后臺執行的程序,沒有圖形界面。

CHEF:允許你創建任務(Job)。任務通過允許每個轉換,任務,腳本等等,更有利于自動化更新數據倉庫的復雜工作。任務通過允許每個轉換,任務,腳本等等。任務將會被檢查,看看是否正確地運行了。

KITCHEN:允許你批量使用由 Chef 設計的任務 (例如使用一個時間調度器)。KITCHEN 也是一個后臺運行的程序。

2.Datax

DataX是阿里云 DataWorks數據集成的開源版本,在阿里巴巴集團內被廣泛使用的離線數據同步工具/平臺。

DataX 是一個異構數據源離線同步工具,致力于實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。

17960cb6-d3ef-11ed-bfe3-dac502259ad0.png

設計理念:為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。

當前使用現狀:DataX在阿里巴巴集團內被廣泛使用,承擔了所有大數據的離線同步業務,并已持續穩定運行了6年之久。目前每天完成同步8w多道作業,每日傳輸數據量超過300TB。

DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中。

17af668e-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0 開源版本支持單機多線程模式完成同步作業運行,本小節按一個DataX作業生命周期的時序圖,從整體架構設計非常簡要說明DataX各個模塊相互關系。

17bfd262-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0六大核心優勢:

可靠的數據質量監控

豐富的數據轉換功能

精準的速度控制

強勁的同步性能

健壯的容錯機制

極簡的使用體驗

3.DataPipeline

DataPipeline采用基于日志的增量數據獲取技術( Log-based Change Data Capture ),支持異構數據之間豐富、自動化、準確的語義映射構建,同時滿足實時與批量的數據處理。

可實現 Oracle、IBM DB2、MySQL、MS SQL Server、PostgreSQL、GoldenDB、TDSQL、OceanBase 等數據庫準確的增量數據獲取。

平臺具備“數據全、傳輸快、強協同、更敏捷、極穩定、易維護”六大特性。

在支持傳統關系型數據庫的基礎上,對大數據平臺、國產數據庫、云原生數據庫、API 及對象存儲也提供廣泛的支持,并在不斷擴展。

DataPipeline 數據融合產品致力于為用戶提供企業級數據融合解決方案,為用戶提供統一平臺同時管理異構數據節點實時同步與批量數據處理任務,在未來還將提供對實時流計算的支持。

采用分布式集群化部署方式,可水平垂直線性擴展的,保證數據流轉穩定高效,讓客戶專注數據價值釋放。

17dda512-d3ef-11ed-bfe3-dac502259ad0.png

產品特點:

全面的數據節點支持:支持關系型數據庫、NoSQL數據庫、國產數據庫、數據倉庫、大數據平臺、云存儲、API等多種數據節點類型,可自定義數據節點。

高性能實時處理:針對不同數據節點類型提供TB級吞吐量、秒級低延遲的增量數據處理能力,加速企業各類場景的數據流轉。

分層管理降本增效:采用“數據節點注冊、數據鏈路配置、數據任務構建、系統資源分配”的分層管理模式,企業級平臺的建設周期從三到六個月減少為一周。

無代碼敏捷管理:提供限制配置與策略配置兩大類十余種高級配置,包括靈活的數據對象映射關系,數據融合任務的研發交付時間從2周減少為5分鐘。

極穩定高可靠:采用分布式架構,所有組件均支持高可用,提供豐富容錯策略,應對上下游的結構變化、數據錯誤、網絡故障等突發情況,可以保證系統業務連續性要求。

全鏈路數據可觀測:配備容器、應用、線程、業務四級監控體系,全景駕駛艙守護任務穩定運行。自動化運維體系,靈活擴縮容,合理管理和分配系統資源。

4.Talend

Talend (踏藍) 是第一家針對的數據集成工具市場的 ETL (數據的提取 Extract、傳輸 Transform、載入 Load) 開源軟件供應商。

18019d28-d3ef-11ed-bfe3-dac502259ad0.png

Talend 以它的技術和商業雙重模式為 ETL 服務提供了一個全新的遠景。它打破了傳統的獨有封閉服務,提供了一個針對所有規模的公司的公開的,創新的,強大的靈活的軟件解決方案。

5.DataStage

DataStage,即IBM WebSphere DataStage,是一套專門對多種操作數據源的數據抽取、轉換和維護過程進行簡化和自動化,并將其輸入數據集市或數據倉庫目標數據庫的集成工具,可以從多個不同的業務系統中,從多個平臺的數據源中抽取數據,完成轉換和清洗,裝載到各種系統里面。

其中每步都可以在圖形化工具里完成,同樣可以靈活地被外部系統調度,提供專門的設計工具來設計轉換規則和清洗規則等,實現了增量抽取、任務調度等多種復雜而實用的功能。其中簡單的數據轉換可以通過在界面上拖拉操作和調用一些 DataStage 預定義轉換函數來實現,復雜轉換可以通過編寫腳本或結合其他語言的擴展來實現,并且 DataStage 提供調試環境,可以極大提高開發和調試抽取、轉換程序的效率。

Datastage 操作界面

181d0a86-d3ef-11ed-bfe3-dac502259ad0.png

對元數據的支持:Datastage 是自己管理 Metadata,不依賴任何數據庫。

參數控制:Datastage 可以對每個 job 設定參數,并且可以 job 內部引用這個參數名。

數據質量:Datastage 有配套用的 ProfileStage 和 QualityStage 保證數據質量。

定制開發:提供抽取、轉換插件的定制,Datastage 內嵌一種類 BASIC 語言,可以寫一段批處理程序來增加靈活性。

修改維護:提供圖形化界面。這樣的好處是直觀、傻瓜式的;不好的地方就是改動還是比較費事(特別是批量化的修改)。

Datastage 包含四大部件:

Administrator:新建或者刪除項目,設置項目的公共屬性,比如權限。

Designer:連接到指定的項目上進行 Job 的設計;

Director:負責 Job 的運行,監控等。例如設置設計好的 Job 的調度時間。

Manager:進行 Job 的備份等 Job 的管理工作。

6.Sqoop

Sqoop 是 Cloudera 公司創造的一個數據同步工具,現在已經完全開源了。

目前已經是 hadoop 生態環境中數據遷移的首選 Sqoop 是一個用來將 Hadoop 和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 :MySQL ,Oracle ,Postgres 等)中的數據導入到 Hadoop 的 HDFS 中,也可以將 HDFS 的數據導入到關系型數據庫中。

183b24ee-d3ef-11ed-bfe3-dac502259ad0.png

他將我們傳統的關系型數據庫 | 文件型數據庫 | 企業數據倉庫 同步到我們的 hadoop 生態集群中。

同時也可以將 hadoop 生態集群中的數據導回到傳統的關系型數據庫 | 文件型數據庫 | 企業數據倉庫中。

那么 Sqoop 如何抽取數據呢?

1867472c-d3ef-11ed-bfe3-dac502259ad0.png

首先 Sqoop 去 rdbms 抽取元數據。

當拿到元數據之后將任務切成多個任務分給多個 map。

然后再由每個 map 將自己的任務完成之后輸出到文件。

7.FineDataLink

FineDataLink是國內做的比較好的ETL工具,FineDataLink是一站式的數據處理平臺,具備高效的數據同步功能,可以實現實時數據傳輸、數據調度、數據治理等各類復雜組合場景的能力,提供數據匯聚、研發、治理等功能。

FDL擁有低代碼優勢,通過簡單的拖拽交互就能實現ETL全流程。

1881bdbe-d3ef-11ed-bfe3-dac502259ad0.png

FineDataLink——中國領先的低代碼/高時效數據集成產品,能過為企業提供一站式的數據服務,通過快速連接、高時效融合多種數據,提供低代碼Data API敏捷發布平臺,幫助企業解決數據孤島難題,有效提升企業數據價值。

8.canal

canal [k?'n?l],譯意為水道/管道/溝渠,主要用途是基于 MySQL 數據庫增量日志解析,提供增量數據訂閱和消費。

18a6279e-d3ef-11ed-bfe3-dac502259ad0.png

早期阿里巴巴因為杭州和美國雙機房部署,存在跨機房同步的業務需求,實現方式主要是基于業務 trigger 獲取增量變更。從 2010 年開始,業務逐步嘗試數據庫日志解析獲取增量變更進行同步,由此衍生出了大量的數據庫增量訂閱和消費業務。

基于日志增量訂閱和消費的業務包括:

數據庫鏡像

數據庫實時備份

索引構建和實時維護(拆分異構索引、倒排索引等)

業務 cache 刷新

帶業務邏輯的增量數據處理

當前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x。

18bf22e4-d3ef-11ed-bfe3-dac502259ad0.png

MySQL master 將數據變更寫入二進制日志( binary log, 其中記錄叫做二進制日志事件binary log events,可以通過 show binlog events 進行查看)。

MySQL slave 將 master 的 binary log events 拷貝到它的中繼日志(relay log)。

MySQL slave 重放 relay log 中事件,將數據變更反映它自己的數據。

canal 工作原理

canal 模擬 MySQL slave 的交互協議,偽裝自己為 MySQL slave ,向 MySQL master 發送dump 協議

MySQL master 收到 dump 請求,開始推送 binary log 給 slave (即 canal )

canal 解析 binary log 對象(原始為 byte 流)







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ETL
    ETL
    +關注

    關注

    0

    文章

    20

    瀏覽量

    9391
  • JAVA語言
    +關注

    關注

    0

    文章

    138

    瀏覽量

    20076
  • HDFS
    +關注

    關注

    1

    文章

    30

    瀏覽量

    9570
  • 調度器
    +關注

    關注

    0

    文章

    98

    瀏覽量

    5239

原文標題:8 種主流數據遷移工具技術選型,yyds!

文章出處:【微信號:芋道源碼,微信公眾號:芋道源碼】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    MySQL數據遷移的流程介紹

    本文介紹了一次 MySQL 數據遷移的流程,通過方案選型、業務改造、雙寫遷移最終實現了億級數據遷移
    的頭像 發表于 11-25 09:20 ?63次閱讀
    MySQL<b class='flag-5'>數據</b><b class='flag-5'>遷移</b>的流程介紹

    VCOP Kernel-C到C7000遷移工具用戶指南

    電子發燒友網站提供《VCOP Kernel-C到C7000遷移工具用戶指南.pdf》資料免費下載
    發表于 11-20 13:45 ?0次下載
    VCOP Kernel-C到C7000<b class='flag-5'>遷移</b><b class='flag-5'>工具</b>用戶指南

    emc數據遷移工具的使用指南

    在當今快速發展的信息技術領域,數據遷移成為了企業IT戰略中不可或缺的一部分。隨著數據量的激增和業務需求的變化,企業需要將數據從一個存儲系統
    的頭像 發表于 11-01 15:55 ?199次閱讀

    云計算遷移的步驟與注意事項

    評估,確保其能滿足業務需求。 制定遷移計劃 :包括時間表、任務分解、責任分配等,確保遷移過程有條不紊。 備份數據 :使用專業備份軟件或工具,對原有
    的頭像 發表于 10-24 09:20 ?364次閱讀

    精準選型,高效設計 —— 賽盛LC濾波工具介紹

    SESOnlineLC濾波電路參數選型、插損頻率曲線LC濾波電路是一由電感(L)和電容(C)組成的濾波器,用于選擇或抑制特定頻率的信號。根據配置不同,LC濾波電路可分為低通、高通、帶通和帶阻等類型
    的頭像 發表于 10-13 08:05 ?365次閱讀
    精準<b class='flag-5'>選型</b>,高效設計 —— 賽盛LC濾波<b class='flag-5'>工具</b>介紹

    8位單片機選型五大要點你知多少?

    恩的技術小編就跟大家分享一下大家在電子產品選型8位單片機選型五大要點:一、性能需求匹配度:首先,明確項目對單片機的性能需求是基礎。考慮因素包括CPU主頻、RAM與ROM容量、I/O端
    發表于 09-25 10:16

    STM8到MSPM0遷移指南

    電子發燒友網站提供《STM8到MSPM0遷移指南.pdf》資料免費下載
    發表于 08-23 08:31 ?0次下載
    STM<b class='flag-5'>8</b>到MSPM0<b class='flag-5'>遷移</b>指南

    業界首個一云多芯遷移標準 中國信通院聯合浪潮云海發布

    技術架構下遷移各環節相關工具產品及服務的能力建設,同時也為遷移應用方提供驗收測評的考核依據,以及為產品選型提供參考。 《一云多芯
    的頭像 發表于 05-13 17:16 ?340次閱讀
    業界首個一云多芯<b class='flag-5'>遷移</b>標準 中國信通院聯合浪潮云海發布

    數據中臺工具選型要點

    數據中臺工具扮演著舉足輕重的角色。想要全面理解數據中臺工具的意義、作用以及應用方式,就必須深入探討這一概念以及相關實踐。
    的頭像 發表于 04-24 15:07 ?289次閱讀

    鴻蒙OS 跨設備遷移

    的 Page 請求遷移。 HarmonyOS 處理遷移任務,并回調設備 A 上 Page 的保存數據方法,用于保存遷移必須的數據。 Harm
    的頭像 發表于 01-31 15:47 ?1103次閱讀

    一分鐘,自動完成Redis數據遷移

    NineData提供了高效、安全的Redis不停機數據遷移方案。與傳統遷移方案相比,NineData具備簡單易用、強勁性能和高可靠性的優勢。通過優化核心技術,NineData的
    的頭像 發表于 01-08 11:34 ?399次閱讀
    一分鐘,自動完成Redis<b class='flag-5'>數據</b><b class='flag-5'>遷移</b>

    聊一聊消息隊列技術選型的7消息場景

    我們在做消息隊列的技術選型時,往往會結合業務場景進行考慮。今天來聊一聊消息隊列可能會用到的 7 消息場景。
    的頭像 發表于 12-09 17:50 ?1322次閱讀
    聊一聊消息隊列<b class='flag-5'>技術</b><b class='flag-5'>選型</b>的7<b class='flag-5'>種</b>消息場景

    合泰半導體全新發布MCU Selector Web選型工具

    為滿足不同用戶需求,合泰半導體繼推出MCU Selector App選型工具后,近日再推出MCU Selector Web選型工具,為廣大客戶提供更為全面且容易操作的
    的頭像 發表于 12-08 14:49 ?589次閱讀

    還在為數據遷移煩惱?五高效方案幫你解決!

    數據遷移是許多企業在數字化轉型過程中不可避免的任務。然而,面對市面上眾多的數據遷移工具,我們可能會陷入糾結。今天,我將介紹五
    的頭像 發表于 12-06 17:05 ?4565次閱讀
    還在為<b class='flag-5'>數據</b>庫<b class='flag-5'>遷移</b>煩惱?五<b class='flag-5'>種</b>高效方案幫你解決!

    MySQL5.7數據導入8.0版本,這3款工具值得收藏!

    將MySQL 5.7數據遷移到MySQL 8.0可以使用NineData、MySQL Shell、Percona XtraBackup和Liquibase等工具。每個工具都有自己的優
    的頭像 發表于 11-29 16:47 ?2669次閱讀
    MySQL5.7<b class='flag-5'>數據</b>導入8.0版本,這3款<b class='flag-5'>工具</b>值得收藏!