spark2 对比spark1
1. 流处理的对比spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。2.切入点spark2 引入sparkSession 统一了sqlcontext和hivecontext3.spark2兼容spark1的所有算子,将DF整合到了dataset4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准...
·
1. 流处理的对比
spark2引入structStreaming,在流表上统一了sql api,但是受限比较大。
2.切入点
spark2 引入sparkSession 统一了sqlcontext和hivecontext
3.spark2兼容spark1的所有算子,将DF整合到了dataset
4.在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有2-10倍的提升。
5.mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。
6.较spark1.6稳定性稍低,小版本差异带来的依赖问题偏多。
7.集群提交
spark2-submit --class com.........
更多推荐
所有评论(0)