• 公章形状岂是为民服务“绊脚石” 2019-05-26
  • 西部网(陕西新闻网)www.cnwest.com 2019-05-25
  • 张德江:必须毫不动摇坚持、与时俱进完善人民代表大会制度 2019-05-24
  • 小户型这样设计,瞬间高!大!上! 2019-05-24
  • 双杀火箭的神队终拿第1高帅富开刀?为卖他宁愿出4号签 2019-05-22
  • 朔州:为母亲河清淤化污 重还塞上绿洲美丽 2019-05-22
  • 你才是“蠢货”!土地是自然存在的地球的一部分,并不是人类劳动成果,哪来价值?土地不是劳动成果,没有价值,正如空气和阳光不是劳动成果,没有价值一样。懂吗... 2019-05-13
  • 仙居:美丽经济 助农增收 2019-05-13
  • 把群众来信当家书 把来访群众当家人 把群众事情当家事 用心用情用力做好信访工作 2019-05-10
  • 坚守一条红线 维护生态安全(在习近平新时代中国特色社会主义思想指引下——新时代新作为新篇章) 2019-05-06
  • 国家中医药管理局加强对中医养生类节目指导 2019-05-06
  • 新版人民网首页吉林IP定向--吉林频道--人民网 2019-05-02
  • 图解:中央批复了雄安规划纲要!“干货”一览 2019-04-24
  • 【学习时刻】管清友:归本源、化风险、促改革,让金融成为经济发展的重要动力 2019-04-24
  • 我相信“交警雨中护送高考生”是真,“交警雨中护送高考生”反被该高考生家长投诉是假。 2019-04-23
  • 代理加盟 2019全新代理计划 赚钱+省钱双管齐下,独立平台,丰厚利润!

    您现在的位置: 11选五开奖结果走势图 > 织梦大学 > ??椴寮?/a> >

    北京十一选五开奖结果:火车头列表页分页采集获取案例

    来源:未知 发布时间:2019-01-08热度: ℃我要评论
    对于设置列表分页,下图设置是最常见也是最常用的。 现在教大家另外一个获取分页的办法,就是通过列表页分页采集获取功能来自动获取分页。 使用这个功能,起始页就只需要把首页地址添加进去就...

    11选五开奖结果走势图 www.dwxy9.com

    对于设置列表分页,下图设置是最常见也是最常用的。

    clip_image004

    现在教大家另外一个获取分页的办法,就是通过列表页分页采集获取功能来自动获取分页。

    使用这个功能,起始页就只需要把首页地址添加进去就可以了如下图:

    clip_image006

    分页设置是在 “多级网址获取”里的“列表分页获取”如下图:

    clip_image008

    上图“从该区域中提取列表分页网址”这里就是找到源代码里面分页开始和结束,中间包含的地址就分页地址。

    对于那种分页全部列出来的,设置好这一步就可以了,但是很多情况下分页都不是完全列出来的,中间会有省略号代替如下图:

    clip_image010

    现在针对全部列出,和不是全部列出这2种情况,做一个都适用的设置,我一直都是用这种方式获取,几乎解决所有的网站。

    我们重要的是要找到当前页源代码的特点。我是用//news.qq.com/newsgn/zhxw/shizhengxinwen.htm 这个列表页来做说明的。

    我们看下第一页分页源代码的情况如下图:

    clip_image012

    再看下第二页源代码的情况如下图:

    clip_image014

    然后我们不再一页一页看随便看一页,查看源代码我这里选第五页如下图:

    clip_image016

    通过红色标注,大家看到规律了没有?当前页都是<strong></strong>这个代码后面紧接着一个<a >就是下一页地址。

    也就是说我们是要通过当前页获取下一页,这样一级一级的向下获取,直至把所有分页获取到。

    那么放到采集器里面的表示就是从<div class="pageNav">开始,中间我不管是什么用(*)表示,然后遇到第一个<strong>(*)strong>,因为页码也是变化的所以中间我用(*)表示变化的。
    然后到再到第一次出现</a> 做为结束,中间包含的就是下一页地址。

    而且分页地址也有一个规律<a href="//news.qq.com/newsgn/zhxw/shizhengxinwen_6.htm"> 变化的是页码数字,变化的用参数来替代,其他是不变化的,那么我们只要获取变化

    的就可以了。

    原理就是这样,在我遇到的分页都是有这样的规律的,源代码肯定是不一样的,但是规律是一样的,大家要会举一反三,不要死脑筋。这里告诉的是方法?。。?!

    写到采集器里面如下图:

    clip_image018

    我们可以通过上图“最多获取分页数”来设置要获取多少页,0为全部获取。

    右侧“组合生成列表页分页”我们做了设置的,上图的“自动识别分页”就不需要勾选了。最好不要勾选,有时候会出错。

    我上面的截图都是勾选上的,默认是勾选的,设置好规则了,就把这个勾选取消。

    本文地址://www.dwxy9.com/dedecms_mk/1068.html

      相关阅读

      发表评论

      评论列表(条)

      • 公章形状岂是为民服务“绊脚石” 2019-05-26
      • 西部网(陕西新闻网)www.cnwest.com 2019-05-25
      • 张德江:必须毫不动摇坚持、与时俱进完善人民代表大会制度 2019-05-24
      • 小户型这样设计,瞬间高!大!上! 2019-05-24
      • 双杀火箭的神队终拿第1高帅富开刀?为卖他宁愿出4号签 2019-05-22
      • 朔州:为母亲河清淤化污 重还塞上绿洲美丽 2019-05-22
      • 你才是“蠢货”!土地是自然存在的地球的一部分,并不是人类劳动成果,哪来价值?土地不是劳动成果,没有价值,正如空气和阳光不是劳动成果,没有价值一样。懂吗... 2019-05-13
      • 仙居:美丽经济 助农增收 2019-05-13
      • 把群众来信当家书 把来访群众当家人 把群众事情当家事 用心用情用力做好信访工作 2019-05-10
      • 坚守一条红线 维护生态安全(在习近平新时代中国特色社会主义思想指引下——新时代新作为新篇章) 2019-05-06
      • 国家中医药管理局加强对中医养生类节目指导 2019-05-06
      • 新版人民网首页吉林IP定向--吉林频道--人民网 2019-05-02
      • 图解:中央批复了雄安规划纲要!“干货”一览 2019-04-24
      • 【学习时刻】管清友:归本源、化风险、促改革,让金融成为经济发展的重要动力 2019-04-24
      • 我相信“交警雨中护送高考生”是真,“交警雨中护送高考生”反被该高考生家长投诉是假。 2019-04-23
      • 高频彩不能提现 重庆时时彩手机APP 四川金7乐官网下载苹果版 捕鱼游戏机 时时彩缩水工具手机 2017039福彩开奖 重庆百变王牌官方网站 2017年体彩p3开奖查询 湖南幸运赛车网上买 群英会开奖结果查询 体彩混合过关中奖规则 彩票中奖 重庆福彩中奖领取 快乐时时彩官网下载手机版下载 飞艇开奖直播网站 快速时时彩开奖网址