从一张已有的Hive Table中创建新表及Partition出现如下问题
- 原有Hive Table中有160g数据(为三个月中所有应用和服务器的用户访问记录)
- 新表选取需要字段,并按照应用/服务器Ip/访问时间创建Partition
-
//创建table set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; CREATE TABLE IF NOT EXISTS app_trace( trace_id string, client_ip string, user_device string, user_id string, user_account string, org_id string, org_name string, org_path string, org_parent_id string, url string, completed boolean, cost int, create_time bigint, parameters map<string,string>, subtrace array<string> ) PARTITIONED BY (app_id int,server_ip string,create_date string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' COLLECTION ITEMS TERMINATED BY '\$' MAP KEYS TERMINATED BY '\:' STORED AS SEQUENCEFILE //加载数据 insert OVERWRITE table app_trace partition(app_id,server_ip,craete_date) select trace_id, client_ip, user_device, user_id, user_account, org_id, org_name, org_path, org_parent_id, url, completed, cost, create_time, parameters, subtrace, app_id, server_ip, create_date from user_trace;
-
Hive错误信息 写道Task with the most failures(4):
-----
Task ID:
task_1418272031284_0203_r_000071
URL:
http://HADOOP-5-101:8088/taskdetails.jsp?jobid=job_1418272031284_0203&tipid=task_1418272031284_0203_r_000071
-----
Diagnostic Messages for this Task:
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in InMemoryMerger - Thread to merge in-memory shuffled map-outputs
at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:167)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1557)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)
Caused by: org.apache.hadoop.fs.FSError: java.io.IOException: No space left on device
at org.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileOutputStream.write(RawLocalFileSystem.java:221)
at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82)
at java.io.BufferedOutputStream.write(BufferedOutputStream.java:126)
at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.write(FSDataOutputStream.java:58)
at java.io.DataOutputStream.write(DataOutputStream.java:107)
at org.apache.hadoop.mapred.IFileOutputStream.write(IFileOutputStream.java:88)
at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.write(FSDataOutputStream.java:58)
at java.io.DataOutputStream.write(DataOutputStream.java:107)
at org.apache.hadoop.mapred.IFile$Writer.append(IFile.java:250)
at org.apache.hadoop.mapred.Merger.writeFile(Merger.java:208)
at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl$InMemoryMerger.merge(MergeManagerImpl.java:476)
at org.apache.hadoop.mapreduce.task.reduce.MergeThread.run(MergeThread.java:94)
Caused by: java.io.IOException: No space left on device
at java.io.FileOutputStream.writeBytes(Native Method)
at java.io.FileOutputStream.write(FileOutputStream.java:345)
at org.apache.hadoop.fs.RawLocalFileSystem$LocalFSFileOutputStream.write(RawLocalFileSystem.java:219)
... 11 more
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
MapReduce Jobs Launched:
Job 0: Map: 282 Reduce: 80 Cumulative CPU: 12030.1 sec HDFS Read: 79178863622 HDFS Write: 15785449373 FAIL
Total MapReduce CPU Time Spent: 0 days 3 hours 20 minutes 30 seconds 100 msec
经过排查,发现
-
HDFS存储正常[jyzx@HADOOP-5-101 main_disk]$ hdfs dfs -df -h
Filesystem Size Used Available Use%
hdfs://HADOOP-5-101:8020 8.9 T 625.9 G 7.8 T 7% -
DataNode本地存储异常[jyzx@HADOOP-5-101 main_disk]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/VolGroup-lv_root
50G 46G 837M 99% /
tmpfs 7.8G 56K 7.8G 1% /dev/shm
/dev/cciss/c0d0p1 485M 32M 428M 7% /boot -
具体出现问题的目录/hadoop/yarn/local/usercache
[root@HADOOP-6-199 local]# du -h --max-depth=1
4.0K ./usercache_DEL_1411698127772
4.0K ./usercache_DEL_1411700964513
4.0K ./usercache_DEL_1411713191383
4.0K ./usercache_DEL_1418272057670
4.0K ./usercache_DEL_1411699568217
628K ./filecache
4.0K ./usercache_DEL_1411713338641
7.2G ./usercache
4.0K ./usercache_DEL_1411698079868
4.0K ./usercache_DEL_1411713240205
104K ./nmPrivate
7.2G . -
/hadoop/yarn/local/usercache是yarn的node-manager本地目录
yarn.nodemanager.local-dirs=/hadoop/yarn/local/usercache
解决方法
- 只需要修改yarn的配置yarn.nodemanager.local-dirs,指定到更大的存储上即可
- yarn.nodemanager.local-dirs=/mnt/disk1/hadoop/yarn/local/usercache
- 重启yarn集群
相关推荐
windows中使用yarn-cluster模式提交spark任务,百度找不着的啦,看我这里。另外spark的版本要使用正确哦 更简单的方式参考: https://blog.csdn.net/u013314600/article/details/96313579
Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在...Hive也不提供资源调度系统,默认由Hadoop集群中的YARN集群来调度。 Hive可以将结构化的数据映射为一张数据库表,并提供HQL(HiveSQL)查询功能。
一键启动HDFS集群、YARN集群、Hive服务脚本
一键停止HDFS集群、YARN集群、Hive服务脚本
npm install -g yarn yarn install 安装失败,使用官方下载的yarn.lock文件
文章目录一、Hive使用本地模式执行操作(Hive使用资源大于20M的时候还是会采用集群yarn的方式运行)具体设置方法1、设置临时的2、修改hive配置文件(hive-site.xml),永久有效二、 一、Hive使用本地模式执行操作...
YARN HA 测试Job YARN HA 测试Job 序号 任务名称 任务一 准备MapReduce输入文件 任务二 将输入文件上传到HDFS 任务三 运行MapReduce程序测试Job 任务一 准备MapReduce输入文件 在master主节点,使用 root 用户登录,...
yarn任务邮件监控及linux进程邮件监控,定时检查 ,本人在生产环境使用的,可以监控yarn任务,各种进程 如namenode ,java jar进程,如果不明白可以留言或者联系我(文档里面有联系方式)
yarn 前端打包工具指定配置文件
5.安装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下 如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行) mysql -uroot -p #(执行下面的语句 *.*:所有库下的所有表 %:任何IP地址...
mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载
任务一 YARN组件参数配置 编辑 yarn-site.xml 配置文件(yarn参数配置文件) <configuration> <name>yarn.nodemanager.aux-services <value>mapreduce_shuffle </property> <name>yarn.resourcemanager.hostname...
在前面Fayson介绍了《如何使用Cloudera Manager设置使用YARN队列的ACL》和《如何在Cloudera Manager中配置Yarn放置规则》。通过放置策略可以自动的将用户分的作业分配到对应的资源池,如果用户手动指定资源池则也...
端口 作用 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 ...50100 dfs.namenode.backup.address ...8032 yarn.resourcemanager.address
spark 2.3.1 支持Hive Yarn Hadoop 2.7 已编译版本 可以直接使用
hadoop&hive安装配置。3台机器,master做为namenonde,将slave1和slave2做为datanode。
大数据平台实践 六.HDFS数据迁移和yarn运行任务
YARN的任务调度 Yarn任务调度机制 1 FIFO Scheduler 2 Capacity Scheduler 3 Fair Scheduler 4 目 录 一、Yarn任务调度机制 现实生产环境当中资源往往是非常紧张的,尤其是在一个很繁忙的集群,一个应用资源的请求...
java提交spark任务到yarn平台的配置讲解共9页.pdf.zip
Hadoop Yarn’s API和Hadoop MapReduce’s API使用总结