开发环境

本人是用hadoop集群+pyspark 2.4.0进行开发。driver端使用的是docker。

在pyspark 2.4.0里并没有集成孤立森林算法,需要单独配置。

本文不讲孤立森林算法的原理,只是描述下配置的流程。

 

配置流程

1. 在driver端按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作

安装maven, 参考:https://blog.csdn.net/qq_29695701/article/details/90705181

note, maven的安装包更新为:

https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

 

2. 集群端的master和worker里也要安装jar包。

8e0b、e83a、d3d1分别是几个worker的容器号。

 

 

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐