博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
webmagic循环爬取
阅读量:5059 次
发布时间:2019-06-12

本文共 933 字,大约阅读时间需要 3 分钟。

1.第一个小爬虫只能爬取指定的列表页的文章,接下来要自动爬取每一列表页的文章
2.循环爬取process是会循环运行的。其中的循环并不是for循环,而是利用if
public void process(Page page) {    //列表页    if (page.getUrl().regex(URL_LIST).match()) {        System.out.println("列表页"); /*从页面发现后续的url地址来抓取.xpath("//@href")  //提取链接.regex(".*blog.*") //正则匹配过滤*/page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex(URL _POST).all());        page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all());        //文章页    }else {        System.out.println("文章页");//抓取文章页内容        page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));     }

 

3.PageProcess中的site方法是抓取网站的相关配置,包括编码、抓取间隔、重试次数等
.me().setDomain("www.ccgp-hebei.gov.cn").setSleepTime(3000).setUserAgent(        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

 

转载于:https://www.cnblogs.com/wf1647790534/p/9802882.html

你可能感兴趣的文章
【原】UIWebView加载本地pdf、doc等文件
查看>>
iOS中ARC内部原理
查看>>
【bzoj1029】[JSOI2007]建筑抢修
查看>>
synchronized
查看>>
你不得不了解的应用容器引擎---Docker
查看>>
easyui datagrid 弹出页面会出现两个上下滚动条处理办法!
查看>>
迭代器和生成器
查看>>
MYSQL分区表功能测试简析
查看>>
codevs 1080 线段树练习
查看>>
JS模块化库seajs体验
查看>>
Android内核sysfs中switch类使用实例
查看>>
POJ2288 Islands and Bridges(TSP:状压DP)
查看>>
POJ3250 Bad Hair Day(单调栈)
查看>>
[No0000195]NoSQL还是SQL?这一篇讲清楚
查看>>
IOS开发UI篇--UITableView的自定义布局==xib布局
查看>>
【深度学习】caffe 中的一些参数介绍
查看>>
Python-Web框架的本质
查看>>
Unrecognized Windows Sockets error: 0: JVM_Bind 异常解决办法
查看>>
struts2中<s:form>的应用
查看>>
QML学习笔记之一
查看>>