文章分页采集-pg电子试玩免费

采集规则示例

有些文章内容太长会采用分页模式来显示

首先我们在“采集器设置»获取内容»内容页分页”中开启分页,文章一般都是正文有分页,我们将“正文”字段添加为“分页内容字段”

以文章 为例,文章页面图片:

图中我们可以看到有4种分页形式:完整分页、上下分页、完整分页js模式和上下分页js模式

分页连接的格式为:article/news/pg/id/数字.html?page=数字

通过“测试»分析网页”功能获取到各个分页区域的xpath:

  • 完整分页://*[@id="page_list"]/li[1]
  • 上下分页://*[@id="page_list"]/li[3]
  • 完整分页js模式://*[@id="page_list"]/li[2]
  • 上下分页js模式://*[@id="page_list"]/li[4]

以上xpath值可以在“内容页分页»获取分页区域”中设置以获取固定区域的分页链接,否则将获取整个页面的分页链接

分页链接规则:

完整分页和上下分页直接通过a标签获取链接即可:

http://www.skycaiji.com/rule/100113

网站地图