pyspark上配置孤立森林算法

1. 安装maven2. 安装pyspark==2.4.03. 按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作

euler1983

842人浏览 · 2020-08-19 18:00:46

euler1983 · 2020-08-19 18:00:46 发布

开发环境

本人是用hadoop集群+pyspark 2.4.0进行开发。driver端使用的是docker。

在pyspark 2.4.0里并没有集成孤立森林算法，需要单独配置。

本文不讲孤立森林算法的原理，只是描述下配置的流程。

配置流程

1. 在driver端按照github: https://github.com/titicaca/spark-iforest里提示的两部进行操作

安装maven, 参考：https://blog.csdn.net/qq_29695701/article/details/90705181

note, maven的安装包更新为：

https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

2. 集群端的master和worker里也要安装jar包。

8e0b、e83a、d3d1分别是几个worker的容器号。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

cover

动物识别系统 python实现+UI

腾讯云开发者社区

Linux下安装MySQL8.0(超详细)

Linux下安装MySQL8.0(超详细)

腾讯云开发者社区

cover

光模块问题查看并保证光模块收发功率

腾讯云开发者社区

所有评论(0)

查看更多评论

euler1983

已为社区贡献5条内容