数据科学十大清单


Mojeed Abisiga, Data Scientist & Machine Learning Engineer的《The List of Top 10 Lists in Data Science》一文为您提供了数据科学家所需的关键信息,这样您就可以有效地利用时间,灵活地探索数据科学的职业道路,帮助您找到穿越数据科学迷宫的方法。

site-logo.png

在这份列表中,作者多次提到Kaggle——Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一事实,即有众多策略可以用于解决几乎所有预测建模的问题,而研究者不可能在一开始就了解什么方法对于特定问题是最为有效的。各种公司或平台将需要解决的问题挂在Kaggle平台上,通过悬赏找出最佳方案。对那些研究数据分析、机器学习领域的人来说,Kaggle就是一场“华山论剑”。


从一本书认识AI的学习路径


AI领域综合了众多知识,其中编程语言、机器学习和深度学习是其核心。举个例子,我们可以从《跟着迪哥学Python数据分析与机器学习实战》一书来认识Python数据分析与机器学习的基本知识结构,从而初步了解AI的学习路径。

d426504110cd3a61.jpg

本书结合了机器学习、数据分析和Python语言,通过案例以通俗易懂的方式讲解了如何将算法应用到实际任务。


深度学习入门教材


编写Grokking Deep Learning旨在帮助您为深度学习奠定基础,以便您可以掌握主要的深度学习框架。它从关注神经网络的基础开始,然后切换其重点以提供对高级层和体系结构的深入了解。

Trask_GDL_hires.png

如果您已经通过了高中数学并掌握了Python的知识,那么您就可以开始学习本书了。


会撒谎的统计数字和统计图表


对于统计数据,我们似乎对其有着某种天然的信任感,认为其代表着客观公正,数据不会说谎乃至成为了我们的潜意识,在许多时候成为了我们评判事物好坏与否的标准。

xVVorWIX56RKGV8jAZPO.jpeg

但现实的悖论在于,许多聪明的人或机构就是抓住了我们对于数据的这种天然的信任感做起了文章,通过各种统计手段得出各种或好或坏的各种数据,进而影响普通消费者的判断。统计数字和统计图表撒谎的手段通常有:采用不同统计口径的统计数据、忽略规模基数的统计数据和图表扩大化造就视觉误差等。


对抗新冠肺炎疫情 数据科学大有可为


2019年暴发的新型冠状病毒绝不仅仅是一个数据科学问题,更是一个严峻的公共卫生问题,疫情夺去了无数人的生命,也让我们沉痛地去反思一些重要的社会议题:医疗服务的供给与定价、劳工权利乃至出行自由。

e023-isyparh7207610.png

但是,作为一名数据科学家,我发自内心地认为应当从数据科学的角度去审视这一问题。我们都曾在Twitter上看到用Excel绘制出的各种图表,不论是指数型增长的,还是压低了疫情高峰的平滑曲线,我们可能因此感到安心或者恐惧,或者会怀疑这些图表的可信性。这就是一个数据科学问题。除此之外,此次疫情中还有许许多多其他的数据科学问题,我将在本文中一一探讨,希望借此启发大家去思考数据,并从中获得更多力量,以明确当下恰当的应对措施。


15种数据分析方法


数据分析是指用适当的统计分析技术和方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。将数据分析商业化、信息化,从而实现商业价值的企业信息化建设过程称为商业智能

data-analysis-methods.png

现代商业数据分析技术和数据分析方法是两个概念,《16种常用的数据分析技术汇总》对前者有详细介绍,本文则关注数据分析方法。