会撒谎的统计数字和统计图表


对于统计数据,我们似乎对其有着某种天然的信任感,认为其代表着客观公正,数据不会说谎乃至成为了我们的潜意识,在许多时候成为了我们评判事物好坏与否的标准。

xVVorWIX56RKGV8jAZPO.jpeg

但现实的悖论在于,许多聪明的人或机构就是抓住了我们对于数据的这种天然的信任感做起了文章,通过各种统计手段得出各种或好或坏的各种数据,进而影响普通消费者的判断。统计数字和统计图表撒谎的手段通常有:采用不同统计口径的统计数据、忽略规模基数的统计数据和图表扩大化造就视觉误差等。


对抗新冠肺炎疫情 数据科学大有可为


2019年暴发的新型冠状病毒绝不仅仅是一个数据科学问题,更是一个严峻的公共卫生问题,疫情夺去了无数人的生命,也让我们沉痛地去反思一些重要的社会议题:医疗服务的供给与定价、劳工权利乃至出行自由。

e023-isyparh7207610.png

但是,作为一名数据科学家,我发自内心地认为应当从数据科学的角度去审视这一问题。我们都曾在Twitter上看到用Excel绘制出的各种图表,不论是指数型增长的,还是压低了疫情高峰的平滑曲线,我们可能因此感到安心或者恐惧,或者会怀疑这些图表的可信性。这就是一个数据科学问题。除此之外,此次疫情中还有许许多多其他的数据科学问题,我将在本文中一一探讨,希望借此启发大家去思考数据,并从中获得更多力量,以明确当下恰当的应对措施。


15种数据分析方法


数据分析是指用适当的统计分析技术和方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。将数据分析商业化、信息化,从而实现商业价值的企业信息化建设过程称为商业智能

data-analysis-methods.png

现代商业数据分析技术和数据分析方法是两个概念,《16种常用的数据分析技术汇总》对前者有详细介绍,本文则关注数据分析方法。


复盘Power BI 的形状地图可视化(自定义地图)


Microsoft Power BI 是微软发布的一套商业分析工具。其功能整合了Excel 中的Power Query、Power Pivot、Power View、Power Map 插件,并加入了社交分享、云服务等功能。更多基础知识可参考《Power BI 知识框架(Excel、Power BI、Power Query、Power Pivot、M语言、DAX语言)》和《Excel 的数据分析工具》。

2157781e5cd693dd0309b3d6c53db37d.jpeg

以下复盘Power BI 的形状地图可视化(自定义地图)的操作。