1. 数据分析说明
1.1 项目背景与目标
本次数据分析的目标是通过大众点评平台的数据,深入了解消费者对餐厅服务、环境和菜品的评价,为商家提供改进和优化的依据,并帮助营销平台制定更有效的推广策略。

1.2 数据来源与权重分配
数据来源主要包括:

爬取的茶点.csv文件
大众点评评论数据.csv文件
权重分配如下:

环境 : 菜品 : 服务 = 2 : 5 : 3
1.3 技术栈
数据集收集:Python系统
数据清洗:Python Jupyter
数据可视化:Python Jupyter
方案建议:Python
1.4 用户故事
1.4.1 消费者群体
What:根据系统推荐的餐厅,筛选和查找适合自己的餐厅。
Why:了解餐厅的服务质量和菜品品质,以便做出更好的选择。
How:通过用户的评论数据集,对店铺商家进行基本评估、产品评估和服务评估。
1.4.2 商家群体
What:查看用户对餐厅的评论和评分。
Why:改进和优化菜品和服务,提高用户满意度。
How:通过用户的评论数据集,对店铺商家进行基本评估、产品评估和服务评估,并对关键词进行相关性分析。
1.4.3 营销平台
What:制定营销策略和推广活动,提高平台的用户量和用户满意度。
Why:吸引更多的用户和商家,促进业务增长。
How:利用大众点评平台提供的数据,通过可视化分析工具和用户评论词云进行分析。
2. 数据整理
2.1 数据爬取采集
数据获取采用了requests爬虫技术,收集所需数据。所采集的数据集为茶点.csv文件。

采集过程
数据源:大众点评平台
采集工具:Python requests库
数据格式:JSON
采集信息:店铺名、店铺均分、评价人数、商圈位置、经纬度等信息
2.2 数据预处理与清洗
数据格式展示
使用Python-jieba库对评价内容进行拆解分析,发现了一些问题,如“好不好”可能会被拆分为“好”和“不好”。

数据清洗
导入数据:使用Pandas库导入数据并添加列名。
预览数据:使用sample()方法随机抽取5个样本数据预览。
删除重复数据:使用drop_duplicates()方法删除重复记录。
缺失值处理:使用fillna()方法填充缺失值。
3. 数据分析
3.1 描述性统计
查看基本统计量,计算相关系数,并绘制回归图。结果显示,人均消费与店铺评分具有正相关性,评论人数与店铺评分亦具有正相关性。

统计结果
基本统计量:使用df.describe()查看
相关系数:使用df.corr()计算
3.2 相关性分析
通过相关系数回归图,我们发现当数据量较小时,这种相关性不明显。具体的相关系数如图所示。

回归图展示
人均消费与店铺评分
评论人数与店铺评分
3.3 评价分布
根据饼图展示,低分评价不多,大部分为中评和好评。

3.4 时间序列分析
15、16年的评价数量最多,但基于当前需求,这部分数据更加注重于评价内容的分析。

3.5 热度排行
通过对同一家店铺所获得的评价总数进行加总,排序后得出热度排行,点都德位列第一。

3.6 店铺类型统计
茶点类中最多的是粤式茶点,但高分店铺并非仅限于粤式茶点,需进一步扩大样本量分析。

3.7 地区分析
各地区的平均评分大多呈现正态分布,符合常规。大部分店铺评分在3.5以上,少数评分较低的店铺需进一步探究原因。

3.8 人均消费分析
沙面为广州富人区,人均消费高,人均消费是运营中的重要参考指标。筛选人均消费大于100元的店铺,发现评分相对较高,物有所值。这类商家可通过增加广告宣传,打造更广泛的品牌影响力。

3.9 商圈分布
通过经度和纬度参数,发现大部分茶点店铺集中于白云区、增城区、番禺区、海珠区、荔湾区等靠近中心的位置。

4. 数据可视化和分析
采用可视化技术对分析的数据集进行呈现并进行相关分析,例如柱状图、词云、饼图等。

视觉展示
评价星级比例:低分评价不多,大部分为中评和好评。
不同时间评价数量:15、16年的评价数量最多。
不同店铺热度:点都德排名第一。
不同店铺类型店铺数量:粤式茶点最多。
不同店铺类型评分均分:高分店铺并非仅限于粤式茶点。
各地区平均评分:呈现正态分布。
不同评分店铺数量比:大部分店铺评分在3.5以上。
不同商圈评分情况:沙面人均消费高,筛选人均消费大于100元的店铺评分相对较高。
各地区人均消费:沙面人均消费高。
人均过百的店铺:评分相对较高,物有所值。
不同店铺类型评论人数:评论人数较多,样本群体较大。
广州茶点分布:大部分集中于中心区域。
词云展示:直观呈现热门搜索店铺。
5. 情感分析
5.1 数据预处理
抽取餐厅的总体评论和评论内容,使用Python进行数据清洗和过滤处理。

预处理步骤
数据加载:使用transfer()方法读取GBK编码的数据。
字段提取:使用map()方法提取需要的字段。
数据过滤:使用filter()方法过滤无效数据。
5.2 统计数据基本信息
打印1到5分数据的数量,发现五分数据最多,其次是四分、三分、二分和一分。

5.3 生成训练数据集
将好评和差评数据进行平衡处理,生成训练数据集。

6. 总结
6.1 消费者行为洞察
从用户评论的角度来看,消费者对餐厅的服务、环境和口味非常关注。在评论中,服务质量与口味是最受关注的方面。性价比也是很重要的一个因素。消费者在评论中经常会提到餐厅的价格是否合理,以及是否能够得到物有所值的感受。

6.2 商家改进措施
高评分店铺:加强品牌建设,提高曝光率和知名度;提供增值服务和更好的推广策略,增加店铺的人气和客流量;加强与店家的沟通和反馈,了解他们的经营状况和需求。
低评分店铺:帮助其改善服务,提升客户体验和口碑,提供营销方案、培训、顾问等增值服务;从数据层面入手,分析评分低的原因,制定相应的改善方案。
6.3 营销策略建议
高评分商圈:制定精准营销策略,如发布优惠促销信息,提供特价菜品,推出团购特惠等,吸引更多顾客。
低评分商圈:加强品牌建设和口碑管理,提高店铺的曝光度和知名度;加强对客户的反馈和沟通,及时针对消费者的点评进行改善,提高客户满意度和口碑。
6.4 竞争分析
对于商圈内的餐饮店,了解其竞争对手,并对竞争对手进行分析,制定对策来提高自己的服务质量、价格优势等,进一步提高自己的商圈评分。

6.5 服务体验优化
合理采纳用户的反馈,并及时调整服务信息,提高对用户服务满意度。时刻关注用户的需求变化,优化服务内容,进一步提高商家经营效益。

报告内容为个人原创,未经许可不可转载,内容供参考,无水印报告+ppt+数据集csv+源码请关注

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐