租房信息数据分析
租房信息数据分析
租房问题特点
1. 有比较广泛的应用需求
2. 存在独家房源 (整合多个房源的原因)
3. 一锤子买卖 (价格和对应条件可视为唯一的影响因素)
系统设计目标
1. 包含来自多源租房网站信息的数据分析
2. 结合地图应用进行数据展示
3. 累积时间性数据,进行时间趋势分析
4. 由于数据可能的不准确性,自动机器人询问中介功能
5. 结合文本分析功能,回答用户的查询问题
数据来源:
1. 58同城 http://bj.58.com/zufang/15912026565766x.shtml
2. 链家 http://beijing.homelink.com.cn/zufang/BJCY86776038.shtml
数据特点:
优点
1. 数据更新快,可以提供更充足的数据,时间相关性强使得数据更市场化
2. 数据来源广泛
3. 数据含义明确,存在简单的验证机制(中关村总比天通苑的租金高)
缺点
实际上租房信息并非足够好,因为两点:
1. 网上信息可能不准确,中介给出陈旧信息,garbage-in,garbage-out,相比餐馆,住宿,
在租房市场上这个问题尤为严重
此问题可以通过目标4进行采用格式化的询问处理
2. 评论很少,不同于”旅游类网站“,评论信息几乎不可用,而这点恰巧是最多被参考的信息
系统设计内容
1. 数据表设计
2. 爬虫
3. ODS到WH的转换
4. 地图应用
5. 可视化
6. 数据分析
7. Django网站
实现效果
完成设计目标中1,2,3部分
4,5是更高级的应用,需要更多的时间
为什么不做二手房市场的分析
1. 数据爬取的方法一致,可以迁移
2. 避免重复操作,毕竟不是专业的精力有限
3. 我有租房的需求,没有买房的需求