问题描述:
在使用idea调试spark时报错:
原因分析:
在代码中开启了lzo压缩,而在windows本地环境中找不到lzo压缩的配置。
def main(args: Array[String]): Unit = {
// 设置执行用户
System.setProperty("HADOOP_USER_NAME", "hive")
val conf: SparkConf = new SparkConf()
// 使用kryo序列化
.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
// 开启动态分区
.set("spark.hadoop.hive.exec.dynamic.partition", "true")
// 设置为非严格模式
.set("spark.hadoop.hive.exec.dynamic.partition.mode", "nonstrict")
// 开启压缩
.set("mapred.output.compress", "true")
.set("spark.hadoop.hive.exec.compress.output", "true")
// 使用lzo压缩
.set("io.compression.codec.lzo.class", "com.hadoop.compression.lzo.LzoCodec")
.set("mapred.output.compression.codec", "com.hadoop.compression.lzo.LzopCodec")
}
解决方案:
在Windows本地环境配置lzo读取所需要的相关文件
具体内容如上图,包括gplcompression.dll、lzo2.dll、hadoop-lzo-0.4.21-SNAPSHOT.jar
将gplcompression.dll、lzo2.dll 放到 C:\Windows\System32 目录下
配置文件下载链接:https://pan.baidu.com/s/1dIPfum_IvgbvMFeS07HStA 提取码:tusq
好文链接
发表评论