2023年11月29日发(作者:)

datax底层原理_datax原理解析和性能优化

datax简介

datax是阿⾥开源的⽤于异构数据源之间的同步⼯具,由于其精巧的设计和抽象,数据同步效率极⾼,在很多公司数据部门都有⼴泛的使

⽤。本司基于datax在阿⾥云普通版的rds服务器上实现了通过公⽹,从阿⾥云杭州到美国西部俄勒冈aws emr集群峰值30M以上带宽的传

输效率。全量传输上亿条记录、⼤⼩30G的数据,最快不到30分钟。要知道如果拉跨洋专线的话,1M带宽每个⽉⾄少需要1千⼤洋呢。⾛

private static String RUNTIME_MODE;

*/

}

private AbstractScheduler initStandaloneScheduler(Configuration configuration) {

} catch (InterruptedException e) {

Communication taskCommunication = ue();

TaskExecutor taskExecutor = new TaskExecutor(taskConfigForRun);

private Thread writerThread;

从上⾯总体流程中可以看到JobContainer通过线程池调度起所有的TaskGroupContainer,然后轮训TaskGroupContainer的运⾏状态。

try {

throw XException(

}

configuration, mmunication,

kGroupId(taskGroupId);

.getLogger();

();

ortOneRecord(recordSender, rs,

eStartWrite(lineReceiver,SliceConfig, me,

throw XException(_DOWN_TASK, "");

}