HNU数据挖掘实验手册

Morr0w

674人浏览 · 2024-04-08 01:10:16

Morr0w · 2024-04-08 01:10:16 发布

数据挖掘实验手册

实验一

实验要求：在Linux平台下安装、配置python环境和相关软件。具体如下：

安装虚拟机和Linux平台，熟悉Ubuntu环境。
在Linux平台上搭建Python平台，并安装Python环境工具anaconda.
掌握Anaconda下的Python环境安装，创建名称为emoji的python3.7环境.
熟练安装pycharm和jupyter notebook。
掌握pip和conda命令安装常用软件包。比如numpy、pandas、tensorflow、 h5py、mygene matplotlib、seaborn、umap-learn等。

实验操作：

已有真机archlinux，只叙述可行操作，安装qemu和KVM创建虚拟机，从iso启功即可
```
paru -S qemu KVM
```
python是Linux核心组件，都有python程序，安装anaconda即可
```
paru -S anaconda
```
激活conda环境，最后参数为用户，默认当前用户；创建emoji虚拟环境
```
source /opt/anaconda/bin/activate root
conda create -n emoji python=3.7
```
安装pycharm，版本自定
```
paru -S pycharm
```

通过pip或conda安装软件包

conda install [package name]
pip install [package name]

实验二

实验要求：在Linux平台下emogi环境中，进行数据降维与可视化。具体如下：

熟悉基本的数据预处理方法，对数据进行初步降维，降维到500-1000之内，降维方法可以自由选择。
熟练掌握无监督数据降维方法，比如PCA，ICA、UMap等
在不同的维度下面对数据进行数据分布分析及可视化比较。
实现数据的可视化，并进行适当的对比分析。

实验操作：

通过方差阈值对行进行筛选，降至500-1000即可

# 设置方差阈值
variance_threshold = 0.032  # 根据需要调整阈值

通过PCA对数据进行降维

n_components = 25  # 选择要降维到的维度
pca = PCA(n_components=n_components)
data_reduced = pca.fit_transform(data)

画出数据对应的柱状图和点状图

data_mean = data.mean()
data_mean.index = data.columns
data_mean.plot(kind='bar')
plt.xlabel('Data Category')
plt.ylabel('Mean Value')
plt.title('Comparison of Mean Values')
plt.xticks(rotation=90)
plt.show()

plt.scatter(data_reduced[0, :], data_reduced[1, :], alpha=0.5)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Projection')
plt.show()

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git