爬虫 | linpingta's blog

爬虫

我分析系统的数据源来自58的租房版块和链家的租房信息，实际上也对我爱我家的租房信息做了简单爬取，但是因为这些数据源的爬虫从技术角度并没有革新（不存在AJAX动态加载的数据），过多的数据源只是工程量上的重复（加载哪个div中的数据），因此并没有做过多的扩展。

我采用Java的crawler4j作为爬虫框架，jsoup作为html解析工具。因为这些网站比较规则，同时我也是入门级的爬虫学习者，因此关于爬虫和html解析本身并没有很多可以说明的东西，基本上照着API文档去做就可以了。

爬虫数据必须按照数据库中的规范导入数据库，因此我的url解析包含以下两个模块：

html parser
database store

二者通过dict联系

参考58数据：
Count: 1 max_floor 3
Count: 2 greent_rate
Count: 3 open_company
Count: 4 pay_num 1
Count: 5 service_company
Count: 6 direction 南
Count: 7 space_num 1
Count: 8 info_source 58
Count: 9 city 北京
Count: 10 size 20
Count: 11 curr_floor 2
Count: 12 open_time 0000-00-00
Count: 13 loan_num 1
Count: 14 wash_num 1
Count: 15 agent_tel
Count: 16 Price 500
Count: 17 houseDetailDesc 暖气热18度土桥地铁张家湾中心小学高档公寓独立卫浴出租
Count: 18 local 梨园
Count: 19 district 通州
Count: 20 agent_name
Count: 21 room_num 1
Count: 22 local_detail 芳草园

详细代码可参考这里

当时随手写下的一些遇到的问题: