最全的八爪鱼循环提取网页数据方法.docx
- 文档编号:16931770
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:8
- 大小:247.29KB
最全的八爪鱼循环提取网页数据方法.docx
《最全的八爪鱼循环提取网页数据方法.docx》由会员分享,可在线阅读,更多相关《最全的八爪鱼循环提取网页数据方法.docx(8页珍藏版)》请在冰点文库上搜索。
最全的八爪鱼循环提取网页数据方法
最全的八爪鱼循环提取网页数据方法
在八爪鱼中,创建循环列表有两种方式,适用于列表信息采集、列表及详情页采集,是由八爪鱼自动创建的。
当手动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。
循环的高级选项中,有5大循环方式:
URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。
一、URL循环
适用情况:
在多个同类型的网页中,网页结构和要采集的字段相同。
示例网址:
操作演示:
具体请看此教程:
二、文本循环
适用情况:
在搜索框中循环输入关键词,采集关键词搜索结果的信息。
实现方式:
通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。
示例网址:
操作演示:
具体请看此教程:
注意事项:
有的网页,点击搜索按钮后,页面会发生变化,只能采集到第一个关键词的数据,则打开网页步骤需放在文本循环内。
例:
如图,如果将打开网页步骤,放在循环外,则只能提取到第一个关键词的搜索结果文本,不能提取到第二个关键词的搜索结果文本,文本循环流程不能正常执行。
经过调整,将打开网页步骤,放到循环内,则可以提取到两个关键词的搜索结果文本,文本循环流程可正常执行。
具体情况此教程:
:
三、单个元素循环
适用情况:
需循环点击页面内的某个按钮。
例如:
循环点击下一页按钮进行翻页。
实现方式:
通过单个元素循环方式,达到循环点击下一页按钮进行翻页目的。
定位方式:
使用xpath定位,始终定位到下一页按钮。
示例网址:
操作示例:
具体请看此教程:
四、固定元素列表循环
适用情况:
网页上要采集的元素是固定数目的。
实现方式:
通过固定因素列表循环,循环页面内的固定元素。
定位方式:
使用xpath定位,一条xpath对应循环列表中的一个元素。
示例网址:
操作示例:
操作说明:
示例中,我们通过“选中页面内第一个链接”,选择“选中全部”,继续选择“循环点击每个链接”,建立了一个循环点击元素的循环,自动生成的循环方式是:
固定元素列表。
打开固定元素列表查看,20条循环xpath,对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。
这里涉及了xpath相关内容,可参考此xpath教程:
xpath入门1:
五、不固定元素列表循环
适用情况:
网页上要采集的元素不是固定数目。
实现方式:
通过不固定因素列表循环,循环页面内的不固定元素。
定位方式:
使用xpath定位,一条xpath对应循环列表中的多个元素。
示例网址:
操作示例:
操作说明:
通过观察八爪鱼固定元素列表循环中生成的xpath:
//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]
//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]
......
//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]
20条xpath具有相同的特征:
只有LI后面的数字不同。
根据这个特征,我们可以写一条通用xpath:
//UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1]。
将循环方式改为“不固定元素列表循环”,并将xpath填充进去,同样对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。
启动采集看一下,20条数据被正常采集下来。
这里涉及了xpath相关内容,可参考此xpath教程:
相关采集教程:
循环翻页爬取网页数据
特殊翻页操作
模拟登录并识别验证码抓取数据
网页列表详情页采集方法教程
八爪鱼7.0基本排错详细教程
八爪鱼单网页信息采集方法(7.0版本)
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:
无需技术背景,会上网就能采集。
完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:
对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。
配置好采集任务后可关机,任务可在云端执行。
庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。
免费版具备所有功能,能够满足用户的基本采集需求。
同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 八爪鱼 循环 提取 网页 数据 方法
![提示](https://static.bingdoc.com/images/bang_tan.gif)