图表与数据初步调研

我们经常说,一图胜千言。即使从广告这个狭义角度看,广告创意中图片好坏对用户的影响远远大于广告文案的影响(这里指的是类似Facebook Newsfeed中title/body的部分,并非图片中的文案),以至于我们在分析时经常采用图片维度,而不是创意维度。 图表的形式本身有很多,常用基本的包括折线图(散点图),饼图,柱状图,复杂的包括Bubble, HeadMap,之前在MicroStrategy的时候可视化应用图片应该更多。。怎么做图是问题的一方面,之前接触过一些d3.js,最近又打算看看python的matplotlib库效果(嗯是对matlab的模拟,所以matlab本身也有很多图可做),但问题的另外一方面:什么场景该用什么样的图表,或者是否不应该用图片来解释数据,是这篇博客想要调研的。

这篇博客的工作背景实际是我在项目里对有权限的Facebook账户做了数据收集,这些数据本来是打算用于模型学习和训练的,但在模型处理之前,我们想输出一些简单的数据结果给用户(另外一方面,模型本身也需要一些data explore),我想借机学习下matplotlib的应用。但是,作为输出给用户的内容,我想除了了解代码上怎么作图之外,同样重要的是该在何种场景下以何种形式表达数据:)

  1. 表格(Table):表格并不是一种图,但它却是数据使用非常常用的方式,比如常见的excel表格。表格通常用于包含大量数据和它们的精确值,它的优点在于有助于用户准备的了解数据,但它的缺点也很明显:它不适于表达趋势,不适于比较 (想想90天的股价走势,如果画出折线图可以一眼看出峰谷,如果是表格,再有几位小数)。
  2. 折线图(Line):用于表达趋势,通常横轴是时间,表达某个变量随时间变化发生的变化,比如产品的CPA随天发生的变化。
  3. 柱状图(Chart/Bar):用于比较,比如几个国家的CPM,横轴是国家,纵轴是CPM,可以直接看出在不同国家的竞争激烈程度。

    • 水平柱状图 vs 垂直柱状图:通常前者更适合表达大小差异
  4. 饼图(Pie):用于表达份额,比如设备只有ios和Android两种,用饼图可以更好的表示二者的比例。相比柱状图,饼图更多的在于表示百分比,而柱状图更适于表示精确值。
  5. 区域图(Area):通常用于表达几个变量的份额随时间变化的情况,比如不同浏览器的占比,如果只用饼图,那么不能表达时间的因素,通过Area可以同时表达总体市场大小以及各个细分取值的占比变化情况
  6. 散点图:用于表达数据的相似和分离关系,比如图表上位置相近的点可能有类似的属性,远离的点则相反
  7. 气泡图:很像散点图,但它的价值在于通过自身大小增加了一个数据维度,比如同样是使用安卓,投放游戏的产品,用气泡大小表示花费量级
  8. 其它图:
    1. 维恩图:用于表达变量间的共同和私有关系
    2. 直方图:变量统计,我能想到的是图像直方图用于表达灰度分布

看起来是非常简单的一个介绍(貌似写之前我自己也没有预估),但我想我目前会用到的几种图形场景应该都是涵盖其中了,so,end ~