pyspark上配置孤立森林算法
1. 安装maven2. 安装pyspark==2.4.03. 按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作
·
开发环境
本人是用hadoop集群+pyspark 2.4.0进行开发。driver端使用的是docker。
在pyspark 2.4.0里并没有集成孤立森林算法,需要单独配置。
本文不讲孤立森林算法的原理,只是描述下配置的流程。
配置流程
1. 在driver端按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作
安装maven, 参考:https://blog.csdn.net/qq_29695701/article/details/90705181
note, maven的安装包更新为:
2. 集群端的master和worker里也要安装jar包。
8e0b、e83a、d3d1分别是几个worker的容器号。
更多推荐
所有评论(0)