下你所需,载你所想!
汇集开发技术源码资料

小说html解析模块,采用xpath表达式

:248.978KB :1 :2020-10-22 15:54:26

部分简介

封装了一些处理小说站点html网页信息的子程序,
可以利用本模块来轻松制作一个可换源的阅读软件。
2.模块子程序自定义类型数据介绍以及制作阅读软件简单设计思路
这里将处理小说站点html信息的采集规则叫书源
书源的成员大致可分为以下几大类(具体成员名参见附件里面的【说明文件.txt】)
书源名称、书源网址、搜索网址、搜索页处理规则,书籍介绍页处理规则,目录页处理规则,章节内容页处理规则

目前采用json格式文本保存书源。(参见附件里面的【书源default.txt】)

首先在解析html前需要导入书源
也就是调用书源初始化()
通过组合框根据站点名切换书源
然后在软件搜索框输入关键字
程序根据当前书源的搜索网址,通过搜索页处理()得到搜索页信息(具体成员名参见附件里面的【说明文件.txt】)
然后双击选择某本书籍通过书籍页处理()得到书籍页,同时通过目录页处理()得到目录页信息(也就是章节名称和章节链接)
最后根据章节链接进行内容页处理()可以变成纯净的在线阅读或者根据章节链接直接下载(比如鱼刺多线程下载)

热门推荐

相关文章