今天在线上使用mysqldump将数据表从一个库导入到另外一个库,结果速度特别慢,印象中有个多线程的数据导入导出工具Mydumper,于是简单的调查和测试一下。
下午导数据的过程中,这个表是没有更新的,因此不需要确保多个数据之间的一致性,就简单的写个shell脚本启动多个mysqldumper来导数据,这样有几个问题:- 需要处理表数据大小不均匀的问题,有的会很快结束,有的会比较慢。
- 如果需要保证多个导出之间的一致性时,则无法保证。
是一个使用c语言编写的多线程导出导入工具,并且能够保证多个表之间的一致性。Mydumper已经好几篇blog在讨论: , 。通过 的测试,我们看到不是线程越多越好,6个线程的时候速度最快(这个肯定跟机器的配置等诸多因素有关,只能作为一个经验值而不是绝对值,机器好的时候,线程越多越好)。
一、原理
Mydumper如何保证数据的一致性?下面是官方给出的解答,摘抄如下,主要是使用flush tables with read lock和start transaction with consistent snapshot,在flush tables with read lock时开启所有的线程,并且通过show master status和show slave status获得当前的position(便于使用Mydumper重建slave以及确保多个表之间的数据一致性)。
- Global write lock is acquired (“FLUSH TABLES WITH READ LOCK”)
- Various metadata is read (“SHOW SLAVE STATUS”,”SHOW MASTER STATUS”)
- Other threads connect and establish snapshots (“START TRANSACTION WITH CONSISTENT SNAPSHOT”),On pre-4.1.8 it creates dummy InnoDB table, and reads from it.
- Once all worker threads announce the snapshot establishment, master executes “UNLOCK TABLES” and starts queueing jobs.
二、安装
- 下载源码,https://launchpad.net/mydumper
- 阅读README,根据不同的OS,安装不同的依赖
- cmake .
- make
三、使用
Mydumper不能读取/etc/my.cnf中配置文件,需要手工制定用户名、密码等等
mydumper -P 3306 -u admin -p '***' -h db23 -B meituan -T test1,test2,test3,test4,test5 -o ./ myloader -v 3 --threads=6 -P 3306 -u admin -p '***' -h 127.0.0.1 -S /opt/tmp/mysql3306.sock -B test -d ./ |
四、测试
对mysqldump和Mydumper做了一个简单测试,测试结果如下(测试结果受环境影响,结果仅供参考):
5张表,每张表600M。
导出:
远程进行,导出两遍,取最小值。
mysqldump 37s
Mydumper 21s
导入:
mysqldump 14m4s
mydumper 9m4s
五、结论
结论:Mydumper在导出导入过程因为可以多线程进行,因此速度上肯定是优于mysqldump,可以用来替换mysqldump;Mydumper不能读取/etc/my.cnf中的配置文件,这个挺麻烦的,必须进行指定。