科创网 关注科创领域的新机会

hivesql解决数据倾斜

Hive SQL 解决数据倾斜

数据过滤与拆分 :如果发现某些极端值导致数据倾斜,可以考虑在数据预处理阶段将这些极端值的数据单独处理。例如,在处理订单数据时,如果有少数大客户的订单量占比极高,可以将这些大客户的数据单独提取出来,作为一个小数据集进行特殊处理,剩下的数据作为正常数据集进行处理。 对于数据量差异极大的类别,可以将其拆分成多个子类别,使得每个子类别的数据量相对均匀。比如,在处理商品销售数据时,将热门商品和冷门商品分别划分到不同的类别中进行后续处理。

版权说明:文章均为账号作者发布,不代表本网站观点与立场,如有侵权请联系我们删除