数据挖掘实验手册

实验一

**实验要求:**在Linux平台下安装、配置python环境和相关软件。具体如下:
  1. 安装虚拟机和Linux平台,熟悉Ubuntu环境。

  2. 在Linux平台上搭建Python平台,并安装Python环境工具anaconda.

  3. 掌握Anaconda下的Python环境安装,创建名称为emoji的python3.7环境.

  4. 熟练安装pycharm和jupyter notebook。

  5. 掌握pip和conda命令安装常用软件包。比如numpy、pandas、tensorflow、 h5py、mygene matplotlib、seaborn、umap-learn等。

实验操作:
  1. 已有真机archlinux,只叙述可行操作,安装qemu和KVM创建虚拟机,从iso启功即可

    paru -S qemu KVM
    
  2. python是Linux核心组件,都有python程序,安装anaconda即可

    paru -S anaconda
    
  3. 激活conda环境,最后参数为用户,默认当前用户;创建emoji虚拟环境

    source /opt/anaconda/bin/activate root
    conda create -n emoji python=3.7
    
  4. 安装pycharm,版本自定

    paru -S pycharm
    
  5. 通过pip或conda安装软件包

    conda install [package name]
    pip install [package name]
    

实验二

实验要求:在Linux平台下emogi环境中,进行数据降维与可视化。具体如下:
  1. 熟悉基本的数据预处理方法,对数据进行初步降维,降维到500-1000之内,降维方法可以自由选择。

  2. 熟练掌握无监督数据降维方法,比如PCA,ICA、UMap等

  3. 在不同的维度下面对数据进行数据分布分析及可视化比较。

  4. 实现数据的可视化,并进行适当的对比分析。

实验操作:
  1. 通过方差阈值对行进行筛选,降至500-1000即可
# 设置方差阈值
variance_threshold = 0.032  # 根据需要调整阈值
  1. 通过PCA对数据进行降维
n_components = 25  # 选择要降维到的维度
pca = PCA(n_components=n_components)
data_reduced = pca.fit_transform(data)
  1. 画出数据对应的柱状图和点状图
data_mean = data.mean()
data_mean.index = data.columns
data_mean.plot(kind='bar')
plt.xlabel('Data Category')
plt.ylabel('Mean Value')
plt.title('Comparison of Mean Values')
plt.xticks(rotation=90)
plt.show()

plt.scatter(data_reduced[0, :], data_reduced[1, :], alpha=0.5)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Projection')
plt.show()
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐