oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景

数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。

转换

exist 转换为 left sime join，left sime join不会因为右表有重复而数据增加。
from table1, table2，table3 转为 inner join ，使用join 会更清晰的分辨表连接是否充分，以免笛卡尔积引起集群资源浪费。
decode（）转为 case when
在使用union all 时 ,sql编译出错，需要指定数据类型如: cast(abe001 as double)
分清count（columnName）意义 ,尽量使用sum替换count
oracle form前的子查询必须放在join 之后
时间格式请使用”yyyy-MM-dd HH:mm:ss”，YYYY表示当天所在的周的年份可能结果不是想要的，hh是12小时制，在对时间做计算是会出错。
在对字符串的数字做比较是请转为 int或 double型，如果数据中与非数字字符或导致按字符串的方式比较大小。
sql对大数经行字符处理时，注意可以会被转成科学计数法。
x. 在对字符或时间做处理时，请先使用select 查看处理结果，以免出现不想要的结果。

数据倾斜

数据倾斜报错

通常数据倾斜有以下几种现象：

java.util.concurrent.TimeoutException: Futures timed out after [300 seconds]
spark监控有一个或几个task始终执行不完
有execute 报内存溢出
表连接不足，产生笛卡尔积

优化SQl点

1.检查group by 字段是否全为一个值或空，从group中移除只用一个值得字段
2. sql使用大表反复关联小表如:

) a
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘AAC004‘) c
on a.AAC004 = c.aaa102
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘AAC011‘) d
on a.aac011 = d.aaa102
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘YAB019‘) e
on a.yab019 = e.aaa102
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘AAB019‘) f
on a.aab019 = f.aaa102
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘YAB003‘) g
on a.aab301 = g.aaa102
left join (select m.aaa102,m.aaa103 from database.aa11 m where m.aaa100 = ‘AAB301‘) h
on a.yac145 = h.aaa102

默认小于150M的表会广播（broacast），如上处理后将不能被广播，修改为:

) a
left join  database.aa11  c
on a.AAC004 = c.aaa102 and c.aaa100 = ‘AAC004‘
left join database.aa11  d
on a.aac011 = d.aaa102 and d.aaa100 = ‘AAC011‘
left join database.aa11  e
on a.yab019 = e.aaa102 and  e.aaa100 = ‘YAB019‘
left join database.aa11  f
on a.aab019 = f.aaa102 and f.aaa100 = ‘AAB019‘
left join database.aa11 g
on a.aab301 = g.aaa102 and  g.aaa100 = ‘YAB003‘
left join database.aa11 h
on a.yac145 = h.aaa102 and h.aaa100 = ‘AAB301‘

Or 复制条件语句最好拆分成 union
使用 join 单表连接排查连接条件

oracleSQL 转 SPARKSQL（hiveSql） 及常用优化

背景

转换

数据倾斜

数据倾斜报错

优化SQl点

oracleSQL 转 SPARKSQL（hiveSql）及常用优化