hadoop 数据仓库 hive优化

1.使用分区裁剪、列裁剪

分区裁剪：只读取所需要的分区列裁剪：只读取所需要的列，尽量避免使用select * ，将where过滤提前

2.count distinct&group by 尽量使用group by 代替 distinct

比如：select count(distinct order_no) from order_snap 会将所有的order_no集中到一个reduce里。正确写法：select count(order_no) from order_snap group by order_no 通过group by 均衡分步，所以效率很高

3.谓词下推

提前执行过滤，以减少map到reduce的传输数量

4.分区&分桶

按照表的某列分为多个分区，避免全局扫描。尽量避免使用动态分区，因为它会把每一个分区分配到reduce数量里，当分区数量特别多的时候，reduce的数量也是成倍往上增加。分桶是对列值取hash，相同列桶进行join操作就可以了

5.mr优化

如果是少量大文件减少mapper数，如果是大量非小文件就增加mapper数，提高并行度。

6.减少job数

先union 再聚合，划分的stage少，效率高

7.数据倾斜优化

倾斜字段打散，null值异常处理生成随机数，先局部聚合再整体聚合

文章链接

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

大家都在看：

hadoop 数据仓库 Hive 的并行执行和优化器

一、并行执行 Hive 是建立在 Hadoop 之上的一个数据仓库工具，它使用了 MapReduce 框架进行数据处理。Hive 的并行执行是指在执行查询时，将查询分成多个任务并行执行，以提高查询的...

hadoop 数据仓库大数据 Hive on Tez 性能优化

优化Hive on Tez查询永远不能以一种万能的方法来完成。查询的性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试期间，要评估和验证配置参数和任何SQL修改。建议在工作负...

mapreduce hadoop 数据仓库 Hive优化的基本思路

一、开头好好理解Map-Reduce过程，多看看执行计划【explain 查询语句】，就会更帮帮地理解咯二、Hive-SQL语句转化成MapReduce 1）Join的实现原理 2）Group B...

hive big data 数据仓库 hadoop 大数据 ClickHouse-优化（建表、配置）

1.数据类型 1.1时间字段的类型建表时能用数值型或日期时间型表示的字段就不要用字符串，全 String 类型在以 Hive为中心的数仓建设中常见，但 ClickHouse 环境不应受此影响...

hadoop学习---基于Hive的数据仓库相关函数机制及其优化方案

Hive相关函数（部分）： if函数: 作用: 用于进行逻辑判断操作语法: if(条件, true返回信息,false返回信息) 注意: if函数支持嵌套使用 nvl函数: ...

hadoop 数据仓库 HIVE Statistics(Hive 统计信息) 的说明和查询优化详解

本文从普通用户的角度讲述 Hive 统计信息，源代码角度请参考。统计信息的分类有两种统计信息，第1种为表和分区的统计信息，第2种为分区的统计信息。表和分区的统计信息表的统计信息包括如下内容：...

hadoop 数据仓库 hive中的join相关的优化

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join. 整个过程包含Map、Shuffle、Red...

hadoop 数据仓库 hive企业级调优策略之Join优化

测试所用到的数据参考：原文链接：https://blog.csdn.net/m0_52606060/article/details/135080511 本教程的计算环境为Hive on MR。计算资...

hadoop 数据仓库 hive企业级调优策略之分组聚合优化

测试用表准备 hive企业级调优策略测试数据 (阿里网盘下载链接)：https://www.alipan.com/s/xsqK6971Mrs 订单表(2000w条数据) 表结构建表语句 ...

hadoop 数据仓库详述Hive企业级优化

一、问题背景 hive离线数仓开发，一个良好的数据任务，它的运行时长一般是在合理范围内的，当发现报表应用层的指标数据总是产出延迟，排查定位发现是有些任务执行了超10小时这样肯定是不合理的，此时就该想想...

夸智网

hadoop 数据仓库 hive优化

SQL Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言，用于处理大规模的结构化数据

javascript vue.js elementui 前端框架使用vue中的el-date-picker日期选择器,用户不手动选择时,默认显示当天日期和往后或者往前的时间

发表评论取消回复

夸智网

hadoop 数据仓库 hive优化

SQL Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言，用于处理大规模的结构化数据

javascript vue.js elementui 前端框架 使用vue中的el-date-picker日期选择器,用户不手动选择时,默认显示当天日期和往后或者往前的时间

相关文章

发表评论取消回复

javascript vue.js elementui 前端框架使用vue中的el-date-picker日期选择器,用户不手动选择时,默认显示当天日期和往后或者往前的时间