获取晋江优质小说（按章节数量选择、python多进程）

使用工具获取xpath路径查看网页编码筛选依据一个重要的原因是如果这本小说写得不好的话，那么作者很可能没有更新动力，也就写不了太多章节。第二嘛小说章节太少多半是没写下去了或则情节太简单、设计不成熟。所以先用晋江的筛选工具筛选第一次，若然后留下的小说就可以用本部分代码选择章节数量超过设置数值的小说。步骤1进入手机版，页面如下，复制url2根据口味和一般这类小说的章节数量设置阈值比如我喜欢的《毒系女配

VFAing

2390人浏览 · 2022-03-25 20:34:41

VFAing · 2022-03-25 20:34:41 发布

使用工具

获取xpath路径

查看网页编码

对进程使用方法

pool需要引入的函数才能使用，页面内的函数不能使用。

from get_jinjian import get_text,get_seg,novel_dir,compare_word2vc,get_seg_hanlp

url='https://m.jjwxc.net/book2/4543143'
urls_list, title=novel_dir(url)#
main_url='https://m.jjwxc.net'


urls=[main_url+i for i in urls_list]
num_process=10
with multiprocessing.Pool(processes=num_process) as pool:
    results=pool.map(get_text,urls)
pool.close()
string=''.join(results)#results是每一章节的内容的list

筛选依据

一个重要的原因是如果这本小说写得不好的话，那么作者很可能没有更新动力，也就写不了太多章节。第二嘛小说章节太少多半是没写下去了或则情节太简单、设计不成熟。所以先用晋江的筛选工具筛选第一次，若然后留下的小说就可以用本部分代码选择章节数量超过设置数值的小说。

步骤

1进入手机版，页面如下，复制url

2根据口味和一般这类小说的章节数量设置阈值

比如我喜欢的《毒系女配修魔录》，章节213，我就把阈值设置为150.

3代码

#获取小说的目录最大数
#url='https://m.jjwxc.net/book2/3212757'
def novel_dir2(url=None):
    if url==None:
        return print('None')
    url="%s?more=0&whole=1"%(url)
    r=requests.get(url)
    r.encoding='gb18030'
    
    data=etree.HTML(r.text)
    p=data.xpath("//div/a/span[1]/text()")
    
    try:
        p1=int(re.findall(r"\d+",p[-1])[0])
    except:
        p1=0

    return p1

#url='https://m.jjwxc.net/assort?fw0=0&fbsj2020=2020&fbsj2019=2019&fbsj2018=2018&yc1=1&xx3=3&mainview0=0&sd2=2&sd3=4&lx0=0&fg0=0&bq=&removebq=&sortType=0&collectiontypes=ors&isfinish=2&searchkeywords=&page=%s'
url='https://m.jjwxc.net/assort?fw0=0&fbsj2020=2020&fbsj2019=2019&fbsj2018=2018&yc1=1&xx5=5&mainview2=2&sd2=2&sd3=4&lx0=0&fg0=0&collectiontypes=ors&notlikecollectiontypes=ors&bq=&removebq=&searchkeywords=&page=%s'
def maxtexts(url):
    r=requests.get(url)
    r.encoding='gb18030'
    #print(r.text.encode('gb18030').decode('utf-8'))
    data=etree.HTML(r.text)
    p=data.xpath("//tr/td/a[1]/@href")
    titles=data.xpath("//tr/td/a[1]/text()")
    pp=['https://m.jjwxc.net'+i for i in p]
    
    
    pcon=[novel_dir2(i) for i in pp]
    ppp=pd.DataFrame({'title':titles,'pp':pp,'pcon':pcon})
    
    ppp=ppp.drop_duplicates()
    ppp=ppp.sort_values('pcon',ascending=False)
    con1=[]
    con2=[]
    for i,j in zip(ppp['title'],ppp['pcon']):
        #print(i)
        if j>150:
            print(i,j)
            con1.append(i)
            con2.append(j)
            
    return con1,con2
#到第10页需要登录，十页之后不再爬取，之后小说太烂
con1,con2=maxtexts(url%(1))

两页结果示例

百草记年 642
不做贤惠女（快穿） 546
我要当女帝，谁反对，谁赞成？ 516
我立于亿万生命之上 451
第一女军侯 387
快穿之云微游记 358
胜者为王[快穿] 297
画风清奇[快穿] 278
仙路温陶（修真） 264
快穿之炮灰人生 245
路人甲只想暴富（快穿） 228
女主她就是不恋爱[快穿] 218
毒系女配修魔录 213
动物世界直播中 213
龙族今天也在种菜 198
听说我是坏人（快穿） 195
佛系团宠[快穿] 191
深渊之主[无限流] 181
魔改文明 167
完美陪训 [快穿] 165
我是一棵许愿树（快穿） 164
玩家靠开马甲一统天下 158
女神成长手册[快穿] 157
养老攻略（快穿） 154
寻仙 685
当咸鱼大巫穿越异界 244
公主公主 231
成为超人后我破产了 192
快穿之颤抖吧！白眼狼 186
反派的自我修养 184
女配威武（快穿） 163
高门主母快穿系统 162
快穿之改造二十四孝 155
谈恋

爱不如搞事业[快穿] 152

总结

书慌时候能大海寻珠，日常阅读也能锁定优质内容。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

AI 浪潮下的锚与帆：工程师文化的变与不变 | 架构师夜生活

腾讯云开发者社区

腾讯云架构师技术沙龙 · 长沙站圆满落幕，共话AI驱动下的技术架构与前沿应用

人工智能已成为推动技术创新与产业变革的重要引擎，开发者正身处一场前所未有的技术变革之中。通过本次腾讯云架构师技术沙龙，各位专家深入分享前沿技术洞察，探讨 AI 落地的应用路径与实践经验，为架构师的职业发展指明方向。腾讯云架构师长沙同盟和腾讯云架构师技术同盟长沙地区理事会正式成立。未来，腾讯云架构师长沙同盟将凝心聚力，打造属于本地架构师的学习与成长的家园，助力中国架构的蓬勃发展。未来已来，让我们携手

腾讯云开发者社区

从具身智能到行业应用，腾讯云携业界专家共话 AI 新趋势

在热烈的讨论气氛下，本次活动圆满落幕。与会专家实地参观大模型创新生态社区“模速空间”，体验 AI 前沿创新应用落地。来自工业制造、数字化、AI领域的专家分享最新 AI 落地实践与思考，共同探讨从认知智能到物理交互的前沿先进路径，让我们看到AI在各行业释放出的巨大潜力。在头脑风暴环节，各位专家从不同角度深入探讨 AI 技术发展路径，提出诸多具有建设性的观点与建议，提供创新思路与方向，开启智能新时代的