西电数据挖掘实验：分类技术——二分网络上的链路预测

对于A矩阵，所有用户—所有电影都赋予一个值，即行：all_users_size，列：movies_size，首先给all_user、movies进行编号排序:all_uid_idx，mid_inx，每次从数据得到的用户、电影需要映射到序列函数中，得到其编号，如下图for循环中A[all_uid_idx[rating.userId], mid_inx[rating.movieId]]已知k_user

林蓊蓊

528人浏览 · 2023-09-25 21:39:17

林蓊蓊 · 2023-09-25 21:39:17 发布

代码：experiments/数据挖掘 at main · ShutongLinn/experiments (github.com)

一、实验内容

基于网络结构的链路预测算法被广泛的应用于信息推荐系统中。算法不考虑用户和产品的内容特征，把它们看成抽象的节点，利用用户对产品的选择关系构建二部图。为用户评估它从未关注过的产品，预测用户潜在的消费倾向。

本实验依托ml-latest-small.zip中包括700个用户对9000部电影的100000条评价数据，对用户—电影进行建模，预测用户潜在的感兴趣的电影。

二、分析与设计


	A

	W

	f

	r
总体流程图

三、详细实现

1、构建二部图A

二部图A

2、计算资源配额矩阵W

矩阵运算原理

资源配额矩阵W

3、预测f

预测f

4、准确度r

Li：对于用户i，有Li个产品未被选上；已知k_users[i]表示用户i的度，即Li = all_user_size – k_users[i]

Rij:测试集中用户i选择的电影j，而电影j依据向量被排在第Rij位；建立升序索引，那f_sorted[I, index[i][j]排在第movies – j位

R（f_sorted）

如果在测试集中用户i选择的电影j，计算相对位置：

B为测试集评分>3的矩阵

5、绘制ROC

四、实验结果

输出结果

r_aver = 0.003573…

AUC = 0.873259…

ROC曲线

运行警告：除数矩阵中存在元素0

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git