spark SQL读取ORC文件从Driver启动到开始执行Task(或stage)间隔时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案
具体请参考:https://blog.csdn.net/aijiudu/article/details/78616064补充:如果以上方式并不能大幅缩短时间,可确认下是否ORC文件个数过多,如果太多的话建议通过合并处理减少ORC文件个数,这样能大幅减少等待时间(可能跟spark读取ORC头文件信息有关,如果个数太多,时间肯定会长)...
·
具体请参考:https://blog.csdn.net/aijiudu/article/details/78616064
补充:如果以上方式并不能大幅缩短时间,可确认下是否ORC文件个数过多,如果太多的话建议通过合并处理减少ORC文件个数,这样能大幅减少等待时间(可能跟spark读取ORC头文件信息有关,如果个数太多,时间肯定会长)
更多推荐
所有评论(0)