作者:等号拖轮_496 | 来源:互联网 | 2023-08-08 18:33
我们在百度中搜索http:shixin.court.gov.cn,会有一个内嵌的查询页面:这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。通过Firefox的F
我们在百度中搜索http://shixin.court.gov.cn/ ,会有一个内嵌的查询页面:
这个是通过ajax技术加载的,因为是js渲染,所以页面源代码中并不包含这些信息。
通过Firefox的Firebug监视网络请求,发现是向百度opendata请求的,结果返回一个包含100条数据的json
这样,通过分析请求字符串的参数,自定义请求,可以通过爬虫直接爬取的数据。
有了数据之后需要解析,每次请求会返回100条数据,现在需要把这100条数据全部解除出来并存入Mongodb数据库中。
爬虫使用webmagic:https://github.com/code4craft/webmagic
数据库Mongodb驱动使用 https://github.com/mongodb/mongo-java-driver
maven坐标:
us.codecraft
webmagic-extension
0.5.2
org.mongodb
mongo-java-driver
2.7.3
webmagic爬虫框架使用参考:http://webmagic.io/docs/zh/
我在爬取时候自定义了PageProcessor,在这里将数据解析并存入Mongodb,并且使用了爬虫框架自带的FilePipeline将数据持久化到磁盘文件。
每次请求返回的是100条数据,需要通过分析,将这100条分离成一个个独立的json字符串,然后一条条插入。
插入数据的时候,还要判断数据是否重复。
json格式字符串可以直接存入数据库。
Mongo mOngo= new Mongo();
DB db = mongo.getDB("shixinTest");
DBCollection q=db.getCollection("shixinTest1");
// new BasicDBObject();
// 通过JSON.parse构造DBObject
DBObject query = (BasicDBObject) JSON.parse(JsonString)
q.save(query);
json字符串存入mongodb数据库:
爬虫实现部分在:抓取网络json数据并存入mongodb(2)