租房信息数据分析

租房信息数据分析

租房问题特点

1. 有比较广泛的应用需求 
2. 存在独家房源 (整合多个房源的原因)
3. 一锤子买卖 (价格和对应条件可视为唯一的影响因素)

系统设计目标

1. 包含来自多源租房网站信息的数据分析
2. 结合地图应用进行数据展示
3. 累积时间性数据,进行时间趋势分析
4. 由于数据可能的不准确性,自动机器人询问中介功能
5. 结合文本分析功能,回答用户的查询问题

数据来源:

1. 58同城 http://bj.58.com/zufang/15912026565766x.shtml
2. 链家 http://beijing.homelink.com.cn/zufang/BJCY86776038.shtml

数据特点:

优点

1. 数据更新快,可以提供更充足的数据,时间相关性强使得数据更市场化
2. 数据来源广泛
3. 数据含义明确,存在简单的验证机制(中关村总比天通苑的租金高)

缺点

实际上租房信息并非足够好,因为两点:
1. 网上信息可能不准确,中介给出陈旧信息,garbage-in,garbage-out,相比餐馆,住宿,
在租房市场上这个问题尤为严重

此问题可以通过目标4进行采用格式化的询问处理

2. 评论很少,不同于”旅游类网站“,评论信息几乎不可用,而这点恰巧是最多被参考的信息

系统设计内容

1. 数据表设计
2. 爬虫
3. ODS到WH的转换
4. 地图应用
5. 可视化
6. 数据分析
7. Django网站

实现效果

完成设计目标中1,2,3部分    
4,5是更高级的应用,需要更多的时间

为什么不做二手房市场的分析

1. 数据爬取的方法一致,可以迁移
2. 避免重复操作,毕竟不是专业的精力有限
3. 我有租房的需求,没有买房的需求