sqoop export导出 map100% reduce0% 卡住的多种原因及解决

我称这种bug是一个典型的“哈姆雷特”bug，就是指那种“报错情况相同但网上却会有各种五花缭乱解决办法”的bug，让我们不知道哪一个才是症结所在。

先看导入命令：

[root@host25 ~]# 
sqoop export --connect "jdbc:mysql://172.16.xxx.xxx:3306/dbname?useunicode=true&characterencoding=utf-8" 
--username=root --password=xxxxx --table rule_tag --update-key rule_code 
--update-mode allowinsert 
--export-dir /user/hive/warehouse/lmj_test.db/rule_tag --input-fields-terminated-by '\t' 
--input-null-string '\\n' --input-null-non-string '\\n' -m1

这个导入命令语法上其实是完全没问题的。

接下来是报错：

#截取部分
19/06/11 09:39:57 info mapreduce.job: the url to track the job: http://dthost25:8088/proxy/application_1554176896418_0537/
19/06/11 09:39:57 info mapreduce.job: running job: job_1554176896418_0537
19/06/11 09:40:05 info mapreduce.job: job job_1554176896418_0537 running in uber mode : false
19/06/11 09:40:05 info mapreduce.job: map 0% reduce 0%
19/06/11 09:40:19 info mapreduce.job: map 100% reduce 0%
19/06/11 09:45:34 info mapreduce.job: task id : attempt_1554176896418_0537_m_000000_0, status : failed
attemptid:attempt_1554176896418_0537_m_000000_0 timed out after 300 secs
19/06/11 09:45:36 info mapreduce.job: map 0% reduce 0%
19/06/11 09:45:48 info mapreduce.job: map 100% reduce 0%
19/06/11 09:51:04 info mapreduce.job: task id : attempt_1554176896418_0537_m_000000_1, status : failed
attemptid:attempt_1554176896418_0537_m_000000_1 timed out after 300 secs
19/06/11 09:51:05 info mapreduce.job: map 0% reduce 0%
19/06/11 09:51:17 info mapreduce.job: map 100% reduce 0%
19/06/11 09:56:34 info mapreduce.job: task id : attempt_1554176896418_0537_m_000000_2, status : failed
attemptid:attempt_1554176896418_0537_m_000000_2 timed out after 300 secs
19/06/11 09:56:35 info mapreduce.job: map 0% reduce 0%
19/06/11 09:56:48 info mapreduce.job: map 100% reduce 0%
19/06/11 10:02:05 info mapreduce.job: job job_1554176896418_0537 failed with state failed due to: task failed task_1554176896418_0537_m_000000
job failed as tasks failed. failedmaps:1 failedreduces:0
19/06/11 10:02:05 info mapreduce.job: counters: 9
 job counters 
 failed map tasks=4
 launched map tasks=4
 other local map tasks=3
 data-local map tasks=1
 total time spent by all maps in occupied slots (ms)=2624852
 total time spent by all reduces in occupied slots (ms)=0
 total time spent by all map tasks (ms)=1312426
 total vcore-seconds taken by all map tasks=1312426
 total megabyte-seconds taken by all map tasks=2687848448
19/06/11 10:02:05 warn mapreduce.counters: group filesystemcounters is deprecated. use org.apache.hadoop.mapreduce.filesystemcounter instead
19/06/11 10:02:05 info mapreduce.exportjobbase: transferred 0 bytes in 1,333.3153 seconds (0 bytes/sec)
19/06/11 10:02:05 warn mapreduce.counters: group org.apache.hadoop.mapred.task$counter is deprecated. use org.apache.hadoop.mapreduce.taskcounter instead
19/06/11 10:02:05 info mapreduce.exportjobbase: exported 0 records.
19/06/11 10:02:05 error tool.exporttool: error during export: export job failed!
time taken: 1340 s 
task ide_task_ade56470-b5a3-4303-ea75-44312ff8aa0c_20190611093945147 is complete.

可以看到，导入任务在info mapreduce.job: map 100% reduce 0%时停住了，停了5分钟，然后任务自动重跑，又卡住停了5分钟，最后任务报了个超时的错误。

很显然，任务失败的直接原因是超时，但是超时的原因是因为导入过程的mapreduce任务卡住了，那mapreduce为什么会卡住呢？这个报错日志中并没有提到，这就是查原因时最麻烦的地方。

先说一下结果，最后查了很久才发现，是因为有一行的数据长度，超过了mysql设定的字段长度。也就是在往varchar(50)的字段里导入字符串“字符串很长很长很长很长很长很长很长很长很长”时，任务就阻塞住了。

在这里也跟大家汇总一下网上的各种原因，大家可以逐个检查

在map 100% reduce 0%时卡住的可能原因：(以往mysql导出为例)

1、长度溢出。导入的数据超过了mysql表的字段设定长度

解决办法：重设字段长度即可

2、编码错误。导入的数据不在mysql的编码字符集内

解决办法：其实在mysql数据库中对应utf-8字符集的不是utf8编码，而是utf8mb4编码。所以当你的导入数据里有若如emoji表情或者一些生僻汉字时，就会导不进去造成阻塞卡住。所以你需要注意两点：

(1)导入语句中限定useunicode=true&characterencoding=utf-8，表示以utf-8的格式导出；

(2)mysql建表语句中有engine=innodb default charset=utf8mb4；

3、内存不足。导入数据量可能过大，或者分配内存太少

解决办法：要么分批导入，要么给任务分配更多内存

4、主机名错误。

解决办法：这个好像是涉及到主机名的配置问题

5、主键重复。

解决办法：这是因为你导入的数据中有重复的主键值，要针对性处理一下数据

补充：sqoop从数据库到处数据到hdfs时mapreduce卡住不动解决

在sqoop时从数据库中导出数据时，出现mapreduce卡住的情况

经过百度之后好像是要设置yarn里面关于内存和虚拟内存的配置项．我以前没配置这几项，也能正常运行。但是这次好像运行的比较大。出现此故障的原因应该是，在每个docker分配的内存和cpu资源太少，不能满足hadoop和hive运行所需的默认资源需求。

解决方案如下：

在yarn-site.xml中加入如下配置：

<property> 
 <name>yarn.nodemanager.resource.memory-mb</name> 
 <value>20480</value> 
</property> 
<property> 
 <name>yarn.scheduler.minimum-allocation-mb</name> 
 <value>2048</value> 
</property> 
<property> 
 <name>yarn.nodemanager.vmem-pmem-ratio</name> 
 <value>2.1</value> 
</property>

关闭yarn重启就好了！！！

以上为个人经验，希望能给大家一个参考，也希望大家多多支持www.887551.com。如有错误或未考虑完全的地方，望不吝赐教。

sqoop export导出 map100% reduce0% 卡住的多种原因及解决

在map 100% reduce 0%时卡住的可能原因：(以往mysql导出为例)

解决方案如下：

相关推荐