无码精品人妻一区二区三区久久|99久久免费中文字幕精品|国产日本精品视频在线观看|亚洲日韩激情无码一区

前言

我們公司有個項目的數據量高達五千萬，但是因為報表那塊數據不太準確，業務庫和報表庫又是跨庫操作，所以并不能使用 SQL 來進行同步。當時的打算是通過 mysqldump 或者存儲的方式來進行同步，但是嘗試后發現這些方案都不切實際：

mysqldump：不僅備份需要時間，同步也需要時間，而且在備份的過程，可能還會有數據產出（也就是說同步等于沒同步）

存儲方式：這個效率太慢了，要是數據量少還好，我們使用這個方式的時候，三個小時才同步兩千條數據…

后面在網上查看后，發現 DataX 這個工具用來同步不僅速度快，而且同步的數據量基本上也相差無幾。

一、DataX 簡介

DataX 是阿里云 DataWorks 數據集成的開源版本，主要就是用于實現數據間的離線同步。 DataX 致力于實現包括關系型數據庫（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等 各種異構數據源（即不同的數據庫） 間穩定高效的數據同步功能。

為了 解決異構數據源同步問題，DataX 將復雜的網狀同步鏈路變成了星型數據鏈路 ，DataX 作為中間傳輸載體負責連接各種數據源；

當需要接入一個新的數據源時，只需要將此數據源對接到 DataX，便能跟已有的數據源作為無縫數據同步。

1.DataX3.0 框架設計

DataX 采用 Framework + Plugin 架構，將數據源讀取和寫入抽象稱為 Reader/Writer 插件，納入到整個同步框架中。

角色	作用
Reader（采集模塊）	負責采集數據源的數據，將數據發送給 Framework。
Writer（寫入模塊）	負責不斷向 Framework 中取數據，并將數據寫入到目的端。
Framework（中間商）	負責連接 Reader 和 Writer，作為兩者的數據傳輸通道，并處理緩沖，流控，并發，數據轉換等核心技術問題。

2.DataX3.0 核心架構

DataX 完成單個數據同步的作業，我們稱為 Job，DataX 接收到一個 Job 后，將啟動一個進程來完成整個作業同步過程。DataX Job 模塊是單個作業的中樞管理節點，承擔了數據清理、子任務切分、TaskGroup 管理等功能。

DataX Job 啟動后，會根據不同源端的切分策略，將 Job 切分成多個小的 Task (子任務)，以便于并發執行。

接著 DataX Job 會調用 Scheduler 模塊，根據配置的并發數量，將拆分成的 Task 重新組合，組裝成 TaskGroup（任務組）

每一個 Task 都由 TaskGroup 負責啟動，Task 啟動后，會固定啟動 Reader --> Channel --> Writer 線程來完成任務同步工作。

DataX 作業運行啟動后，Job 會對 TaskGroup 進行監控操作，等待所有 TaskGroup 完成后，Job 便會成功退出（異常退出時 值非 0 ）

DataX 調度過程：

首先 DataX Job 模塊會根據分庫分表切分成若干個 Task，然后根據用戶配置并發數，來計算需要分配多少個 TaskGroup；

計算過程：Task / Channel = TaskGroup，最后由 TaskGroup 根據分配好的并發數來運行 Task（任務）

二、使用 DataX 實現數據同步

準備工作：

JDK（1.8 以上，推薦 1.8）

Python（2，3 版本都可以）

Apache Maven 3.x（Compile DataX）（手動打包使用，使用 tar 包方式不需要安裝）

主機名	操作系統	IP 地址	軟件包
MySQL-1	CentOS 7.4	192.168.1.1	jdk-8u181-linux-x64.tar.gz datax.tar.gz
MySQL-2	CentOS 7.4	192.168.1.2

安裝 JDK：

需要創建 Oracle 賬號

[root@MySQL-1 ~]# ls
anaconda-ks.cfg  jdk-8u181-linux-x64.tar.gz
[root@MySQL-1 ~]# tar zxf jdk-8u181-linux-x64.tar.gz 
[root@DataX ~]# ls
anaconda-ks.cfg  jdk1.8.0_181  jdk-8u181-linux-x64.tar.gz
[root@MySQL-1 ~]# mv jdk1.8.0_181 /usr/local/java
[root@MySQL-1 ~]# cat <> /etc/profile
export JAVA_HOME=/usr/local/java
export PATH=$PATH:"$JAVA_HOME/bin"
END
[root@MySQL-1 ~]# source /etc/profile
[root@MySQL-1 ~]# java -version

因為 CentOS 7 上自帶 Python 2.7 的軟件包，所以不需要進行安裝。

1.Linux 上安裝 DataX 軟件

[root@MySQL-1 ~]# wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
[root@MySQL-1 ~]# tar zxf datax.tar.gz -C /usr/local/
[root@MySQL-1 ~]# rm -rf /usr/local/datax/plugin/*/._*# 需要刪除隱藏文件 (重要)

當未刪除時，可能會輸出：[/usr/local/datax/plugin/reader/._drdsreader/plugin.json] 不存在. 請檢查您的配置文件.

驗證：

[root@MySQL-1 ~]# cd /usr/local/datax/bin
[root@MySQL-1 ~]# python datax.py ../job/job.json# 用來驗證是否安裝成功

輸出：

2021-12-13 1928.828 [job-0] INFO  JobContainer - PerfTrace not enable!
2021-12-13 1928.829 [job-0] INFO  StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes | Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.060s |  All Task WaitReaderTime 0.068s | Percentage 100.00%
2021-12-13 1928.829 [job-0] INFO  JobContainer - 
任務啟動時刻                    : 2021-12-13 1918
任務結束時刻                    : 2021-12-13 1928
任務總計耗時                    :                 10s
任務平均流量                    :          253.91KB/s
記錄寫入速度                    :          10000rec/s
讀出記錄總數                    :              100000
讀寫失敗總數                    :                   0

2.DataX 基本使用

查看 streamreader --> streamwriter 的模板：

[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py -r streamreader -w streamwriter

輸出：

DataX(DATAX-OPENSOURCE-3.0),FromAlibaba!
Copyright(C)2010-2017,AlibabaGroup.AllRightsReserved.


Pleaserefertothestreamreaderdocument:
https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md

Pleaserefertothestreamwriterdocument:
https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md

Pleasesavethefollowingconfigurationasajsonfileanduse
python{DATAX_HOME}/bin/datax.py{JSON_FILE_NAME}.json
torunthejob.

{
"job":{
"content":[
{
"reader":{
"name":"streamreader",
"parameter":{
"column":[],
"sliceRecordCount":""
}
},
"writer":{
"name":"streamwriter",
"parameter":{
"encoding":"",
"print":true
}
}
}
],
"setting":{
"speed":{
"channel":""
}
}
}
}

根據模板編寫 json 文件

[root@MySQL-1~]#cat<test.json
{
"job":{
"content":[
{
"reader":{
"name":"streamreader",
"parameter":{
"column":[#同步的列名(*表示所有)
{
"type":"string",
"value":"Hello."
},
{
"type":"string",
"value":"河北彭于晏"
},
],
"sliceRecordCount":"3"#打印數量
}
},
"writer":{
"name":"streamwriter",
"parameter":{
"encoding":"utf-8",#編碼
"print":true
}
}
}
],
"setting":{
"speed":{
"channel":"2"#并發(即sliceRecordCount*channel=結果)
}
}
}
}

輸出：（要是復制我上面的話，需要把 # 帶的內容去掉）

3.安裝 MySQL 數據庫

分別在兩臺主機上安裝：

[root@MySQL-1 ~]# yum -y install mariadb mariadb-server mariadb-libs mariadb-devel   
[root@MySQL-1 ~]# systemctl start mariadb# 安裝 MariaDB 數據庫
[root@MySQL-1 ~]# mysql_secure_installation# 初始化
NOTE: RUNNING ALL PARTS OF THIS SCRIPT IS RECOMMENDED FOR ALL MariaDB
      SERVERS IN PRODUCTION USE!  PLEASE READ EACH STEP CAREFULLY!

Enter current password for root (enter for none):     # 直接回車
OK, successfully used password, moving on...
Set root password? [Y/n] y                         # 配置 root 密碼
New password: 
Re-enter new password: 
Password updated successfully!
Reloading privilege tables..
 ... Success!
Remove anonymous users? [Y/n] y                 # 移除匿名用戶
 ... skipping.
Disallow root login remotely? [Y/n] n             # 允許 root 遠程登錄
 ... skipping.
Remove test database and access to it? [Y/n] y      # 移除測試數據庫
 ... skipping.
Reload privilege tables now? [Y/n] y                  # 重新加載表
 ... Success!

1）準備同步數據（要同步的兩臺主機都要有這個表）

MariaDB [(none)]> create database `course-study`;
Query OK, 1 row affected (0.00 sec)

MariaDB [(none)]> create table `course-study`.t_member(ID int,Name varchar(20),Email varchar(30));
Query OK, 0 rows affected (0.00 sec)

因為是使用 DataX 程序進行同步的，所以需要在雙方的數據庫上開放權限：

grant all privileges on *.* to root@'%' identified by '123123';
flush privileges;

2）創建存儲過程：

DELIMITER $$
CREATE PROCEDURE test()
BEGIN
declare A int default 1;
while (A < 3000000)do
insert into `course-study`.t_member values(A,concat("LiSa",A),concat("LiSa",A,"@163.com"));
set A = A + 1;
END while;
END $$
DELIMITER ;

3）調用存儲過程（在數據源配置，驗證同步使用）：

call test();

4.通過 DataX 實 MySQL 數據同步

1）生成 MySQL 到 MySQL 同步的模板：

[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py -r mysqlreader -w mysqlwriter
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",# 讀取端
                    "parameter": {
                        "column": [], # 需要同步的列 (* 表示所有的列)
                        "connection": [
                            {
                                "jdbcUrl": [], # 連接信息
                                "table": []# 連接表
                            }
                        ], 
                        "password": "", # 連接用戶
                        "username": "", # 連接密碼
                        "where": ""# 描述篩選條件
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter",# 寫入端
                    "parameter": {
                        "column": [], # 需要同步的列
                        "connection": [
                            {
                                "jdbcUrl": "", # 連接信息
                                "table": []# 連接表
                            }
                        ], 
                        "password": "", # 連接密碼
                        "preSql": [], # 同步前. 要做的事
                        "session": [], 
                        "username": "",# 連接用戶 
                        "writeMode": ""# 操作類型
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""# 指定并發數
            }
        }
    }
}

2）編寫 json 文件：

[root@MySQL-1 ~]# vim install.json
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "username": "root",
                        "password": "123123",
                        "column": ["*"],
                        "splitPk": "ID",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc//192.168.1.1:3306/course-study?useUnicode=true&characterEncoding=utf8"
                                ], 
                                "table": ["t_member"]
                            }
                        ]
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "column": ["*"], 
                        "connection": [
                            {
                                "jdbcUrl": "jdbc//192.168.1.2:3306/course-study?useUnicode=true&characterEncoding=utf8",
                                "table": ["t_member"]
                            }
                        ], 
                        "password": "123123",
                        "preSql": [
                            "truncate t_member"
                        ], 
                        "session": [
                            "set session sql_mode='ANSI'"
                        ], 
                        "username": "root", 
                        "writeMode": "insert"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "5"
            }
        }
    }
}

3）驗證

[root@MySQL-1 ~]# python /usr/local/datax/bin/datax.py install.json

輸出：

2021-12-15 1615.120 [job-0] INFO  JobContainer - PerfTrace not enable!
2021-12-15 1615.120 [job-0] INFO  StandAloneJobContainerCommunicator - Total 2999999 records, 107666651 bytes | Speed 2.57MB/s, 74999 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 82.173s |  All Task WaitReaderTime 75.722s | Percentage 100.00%
2021-12-15 1615.124 [job-0] INFO  JobContainer - 
任務啟動時刻                    : 2021-12-15 1632
任務結束時刻                    : 2021-12-15 1615
任務總計耗時                    :                 42s
任務平均流量                    :            2.57MB/s
記錄寫入速度                    :          74999rec/s
讀出記錄總數                    :             2999999
讀寫失敗總數                    :                   0

你們可以在目的數據庫進行查看，是否同步完成。

上面的方式相當于是完全同步，但是當數據量較大時，同步的時候被中斷，是件很痛苦的事情；

所以在有些情況下，增量同步還是蠻重要的。

5.使用 DataX 進行增量同步

使用 DataX 進行全量同步和增量同步的唯一區別就是：增量同步需要使用 where 進行條件篩選。 （即，同步篩選后的 SQL）

1）編寫 json 文件：

[root@MySQL-1~]#vimwhere.json
{
"job":{
"content":[
{
"reader":{
"name":"mysqlreader",
"parameter":{
"username":"root",
"password":"123123",
"column":["*"],
"splitPk":"ID",
"where":"ID<=?1888",
????????????????????????"connection":?[
????????????????????????????{
????????????????????????????????"jdbcUrl":?[
????????????????????????????????????"jdbc//192.168.1.1:3306/course-study?useUnicode=true&characterEncoding=utf8"
????????????????????????????????],?
????????????????????????????????"table":?["t_member"]
????????????????????????????}
????????????????????????]
????????????????????}
????????????????},?
????????????????"writer":?{
????????????????????"name":?"mysqlwriter",?
????????????????????"parameter":?{
????????????????????????"column":?["*"],?
????????????????????????"connection":?[
????????????????????????????{
????????????????????????????????"jdbcUrl":?"jdbc//192.168.1.2:3306/course-study?useUnicode=true&characterEncoding=utf8",
????????????????????????????????"table":?["t_member"]
????????????????????????????}
????????????????????????],?
????????????????????????"password":?"123123",
????????????????????????"preSql":?[
????????????????????????????"truncate?t_member"
????????????????????????],?
????????????????????????"session":?[
????????????????????????????"set?session?sql_mode='ANSI'"
????????????????????????],?
????????????????????????"username":?"root",?
????????????????????????"writeMode":?"insert"
????????????????????}
????????????????}
????????????}
????????],?
????????"setting":?{
????????????"speed":?{
????????????????"channel":?"5"
????????????}
????????}
????}
}

需要注意的部分就是：where（條件篩選）和 preSql（同步前，要做的事）參數。

2）驗證：

[root@MySQL-1 ~]# python /usr/local/data/bin/data.py where.json

輸出：

2021-12-16 1738.534 [job-0] INFO  JobContainer - PerfTrace not enable!
2021-12-16 1738.534 [job-0] INFO  StandAloneJobContainerCommunicator - Total 1888 records, 49543 bytes | Speed 1.61KB/s, 62 records/s | Error 0 records, 0 bytes |  All Task WaitWriterTime 0.002s |  All Task WaitReaderTime 100.570s | Percentage 100.00%
2021-12-16 1738.537 [job-0] INFO  JobContainer - 
任務啟動時刻                    : 2021-12-16 1706
任務結束時刻                    : 2021-12-16 1738
任務總計耗時                    :                 32s
任務平均流量                    :            1.61KB/s
記錄寫入速度                    :             62rec/s
讀出記錄總數                    :                1888
讀寫失敗總數                    :                   0

目標數據庫上查看：

3）基于上面數據，再次進行增量同步：

主要是 where 配置："where": "ID > 1888 AND ID <= 2888"# 通過條件篩選來進行增量同步

同時需要將我上面的 preSql 刪除(因為我上面做的操作時 truncate 表)

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

FTP

FTP

+關注

關注
0

文章
108

瀏覽量
40595
python

python

+關注

關注
56

文章
4782

瀏覽量
84453
MYSQL數據庫

MYSQL數據庫

+關注

關注
0

文章
95

瀏覽量
9381
HDFS

HDFS

+關注

關注
1

文章
30

瀏覽量
9570

原文標題：阿里的又一款數據高效同步工具DataX，真香！

文章出處：【微信號：芋道源碼，微信公眾號：芋道源碼】歡迎添加關注！文章轉載請注明出處。

求合作開發一款數字卡拉OK效果器

求高手合作開發一款數字卡拉OK效果器我的手機 ***QQ138781723

發表于 07-07 20:55

docker運行datax實現數據同步方案

docker運行datax實現數據同步方案 --docker commit方式測試

發表于 04-21 15:07

LTC3104是一款高效率的單片同步降壓轉換器

演示電路1754A采用LTC3104，這是一款高效率的單片同步降壓轉換器，采用電流模式架構，能夠提供300mA的輸出電流。該IC采用1.2MHz的固定頻率振蕩器工作

發表于 05-28 11:51

一款同步降壓轉換器NCP/NCV6323介紹

NCV6323 3MHz，2A同步降壓轉換器的典型應用高效率，低紋波，可調節輸出電壓。 NCP / NCV6323是一款同步降壓轉換器，經過優化，可為

發表于 07-25 11:12

請問怎么設計一款數字音頻功率放大器？

怎么設計一款數字音頻功率放大器？數字音頻功率放大器電路是如何構成的？數字功放處理芯片的工作原理是什么？主要技術指標有哪些？

發表于 04-12 07:06

怎么設計一款數控跳頻濾波器計算機輔助測試系統？

數控跳頻濾波器是什么工作原理？怎么設計一款數控跳頻濾波器計算機輔助測試（CAT）系統？

發表于 04-14 07:03

如何采用FPGA設計一款數字視頻接口轉換設備？

本文從實際應用的角度出發，采用FPGA作為主控芯片，設計了一款數字視頻接口轉換設備，該設備針對于MT9M111這款數字圖像傳感器產生的ITU-R BT.656格式數據進行采集、色彩空間變換、分辨率

發表于 04-28 06:38

緊跟老板思維，這款數據可視化工具神了

可視化工具就是這么一款神奇的BI工具，能隨時緊跟老板思維變化，靈活高效地深度分析挖掘、直觀呈現數據。奧威BI

發表于 08-22 13:46

一款數字脈沖式超聲波發射接收儀介紹

一款數字脈沖式超聲波發射接收儀，頻率范圍廣，計算機控制使用

發表于 02-26 10:57 ?14次下載

mongodb可視化工具如何使用_介紹一款好用 mongodb 可視化工具

RockMongo是一個MongoDB管理工具，連接數據庫的時候，輸入相應的地址用戶名和密碼就好了，一些小伙伴想知道mongodb可視化工具

發表于 02-07 09:31 ?7320次閱讀

介紹一款有源濾波器的設計工具

　　濾波器分為有源濾波器和無源濾波。有源濾波器主要有，Sallen-Key和Multiple Feedback濾波器。現在介紹一款有源濾波器的設計工具，這是一款ADI自帶的設計

發表于 11-23 16:06 ?4477次閱讀

阿里又開源一款數據同步工具DataX，穩定又高效，好用到爆！

DataX 是阿里云 DataWorks 數據集成的開源版本，主要就是用于實現數據間的離線同步。 DataX 致力于實現包括關系型

發表于 05-18 10:52 ?3973次閱讀

介紹一款適用于汽車和工業場合的高效同步SEPIC控制器

LT8711是一款直流-直流控制器，支持同步降壓、升壓、SEPIC、ZETA和非同步降壓-升壓等拓撲。

發表于 06-21 18:14 ?344次閱讀

一款數據庫自動化提權工具

一款用Go語言編寫的數據庫自動化提權工具，支持Mysql、MSSQL、Postgresql、Oracle、Redis數據庫提權、命令執行、爆破以及ssh連接等等功能。

發表于 07-19 14:57 ?652次閱讀

精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

搜索歷史

介紹一款數據高效同步工具DataX

評論

求合作開發一款數字卡拉OK效果器

datax概述與使用

docker運行datax實現數據同步方案

LTC3104是一款高效率的單片同步降壓轉換器

一款同步降壓轉換器NCP/NCV6323介紹

請問怎么設計一款數字音頻功率放大器？

怎么設計一款數控跳頻濾波器計算機輔助測試系統？

如何采用FPGA設計一款數字視頻接口轉換設備？

緊跟老板思維，這款數據可視化工具神了

一款數字脈沖式超聲波發射接收儀介紹

mongodb可視化工具如何使用_介紹一款好用 mongodb 可視化工具

介紹一款有源濾波器的設計工具

阿里又開源一款數據同步工具DataX，穩定又高效，好用到爆！

介紹一款適用于汽車和工業場合的高效同步SEPIC控制器

一款數據庫自動化提權工具