老鱼Python数据分析——篇六：使用selenium获取动态数据

现在很多页面上的数据都是动态加载，所以使用scrapy来爬取页面，只能得到页面HTML的布局代码，而不能获得数据。而且对于新手，上路就使用scrapy爬动态数据比较困难，所以使用selenium来打开浏览器，再加载页面获得数据。需求：统计每天大盘收盘后的汇总数据。找到了一个网站https://xuangubao.cn/dingpan，每天收盘后的数据都在该页面上。下...

十方上下

6462人浏览 · 2019-04-11 16:12:33

十方上下 · 2019-04-11 16:12:33 发布

现在很多页面上的数据都是动态加载，所以使用scrapy来爬取页面，只能得到页面HTML的布局代码，而不能获得数据。

而且对于新手，上路就使用scrapy爬动态数据比较困难，所以使用selenium来打开浏览器，再加载页面获得数据。

需求：统计每天大盘收盘后的汇总数据。

找到了一个网站https://xuangubao.cn/dingpan，每天收盘后的数据都在该页面上。

下面，使用selenium爬取页面上的汇总数据。

第一步，安装selenium

第二步，安装对应浏览器驱动，我使用的谷歌浏览器，所以我安装的chromedriver。注意版本问题。

驱动下载地址：https://chromedriver.storage.googleapis.com/index.html

第三步，安装beautifulsoup4和lxml

第四步，分析页面结构。

数据都在class为“ban-cart”的DIV中的SPAN标签中。

第五步，实现代码：

# 先安装selenium，再安装chromeDriver
from selenium import webdriver
from bs4 import BeautifulSoup
import time

browser = webdriver.Chrome()
browser.get("https://xuangubao.cn/dingpan")
page = browser.page_source
soup = BeautifulSoup(page,"lxml")

# 得到日期
# today = soup.find("div", attrs={"class", "ban-chart-date-container"}).find_all("p")
# print(today[0].get_text().strip(),today[1].get_text().strip(),"日")
date = time.strftime('%Y-%m-%d',time.localtime(time.time()))
print(date)
# 查询涨跌数据
spans = soup.find("div", attrs={"class":"ban-chart"}).find_all("span")
up = spans[3].get_text().strip()
down = spans[4].get_text().strip()
limitUp = spans[6].get_text().strip()
limitDown = spans[7].get_text().strip()
bomb = spans[8].get_text().strip()
print("涨：",up)
print("跌：",down)
print("涨停：",limitUp)
print("跌停：",limitDown)
print("炸板率：", bomb)

# 连板个股
listCount = []  # 连板个数
guList = soup.find("table", attrs={"class", "table hit-pool__table"}).find_all("tr")
for gu in guList[1:]:
    tds = gu.find_all("td")
    guName = tds[1].find_all("span")[0].get_text().strip()
    guCode = tds[1].find_all("a")[0].get_text().strip()[-6:]
    # print(guName,"(",guCode,")","：",tds[12].get_text().strip())
    listCount.append(tds[12].get_text().strip())  # 将连接数据保存到list

# 显示不同连板的个数
for i in set(listCount):
    print("数据{0}在list中的个数为：{1}".format(i, listCount.count(i)))

browser.close()

爬到的数据效果如下：

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git