随着互联网的快速发展,使用网络查看新闻成为了人们获取信息的主要渠道之一。为了更好的让用户查看最近热点新闻,开发了基于spark的新闻推荐系统。该系统利用python语言、mysql数据库以及hadoop、spark等大数据技术,对海量新闻数据进行处理和分析,并生成对图表数据。系统是一个可视化显示web界面,首先通过爬虫技术获取到对应的新闻、转发数和评论等数据,考虑数据量较大,系统首先通过pandas进行文本的保存和读取,进而通过hadoop分布式保存到mysql数据库管理系统中,使用spark进行分布式计算,最后通过Django框架结合vue框架进行界面展示。本研究的意义在于,通过对今日头条新闻平台上的新闻用户评论信息、转发信息、点赞信息等进行分析,为用户提供实时热点新闻信息。此外,本研究也为其他新闻平台或者社交媒体平台的推荐系统的设计提供了有益的参考和借鉴。

图4.2系统功能模块图

 图5.4系统主界面图

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐