cds 发布的文章

对抗新冠肺炎疫情 数据科学大有可为


2019年暴发的新型冠状病毒绝不仅仅是一个数据科学问题,更是一个严峻的公共卫生问题,疫情夺去了无数人的生命,也让我们沉痛地去反思一些重要的社会议题:医疗服务的供给与定价、劳工权利乃至出行自由。

e023-isyparh7207610.png

但是,作为一名数据科学家,我发自内心地认为应当从数据科学的角度去审视这一问题。我们都曾在Twitter上看到用Excel绘制出的各种图表,不论是指数型增长的,还是压低了疫情高峰的平滑曲线,我们可能因此感到安心或者恐惧,或者会怀疑这些图表的可信性。这就是一个数据科学问题。除此之外,此次疫情中还有许许多多其他的数据科学问题,我将在本文中一一探讨,希望借此启发大家去思考数据,并从中获得更多力量,以明确当下恰当的应对措施。


15种数据分析方法


数据分析是指用适当的统计分析技术和方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。将数据分析商业化、信息化,从而实现商业价值的企业信息化建设过程称为商业智能

data-analysis-methods.png

现代商业数据分析技术和数据分析方法是两个概念,《16种常用的数据分析技术汇总》对前者有详细介绍,本文则关注数据分析方法。


复盘Power BI 的形状地图可视化(自定义地图)


Microsoft Power BI 是微软发布的一套商业分析工具。其功能整合了Excel 中的Power Query、Power Pivot、Power View、Power Map 插件,并加入了社交分享、云服务等功能。更多基础知识可参考《Power BI 知识框架(Excel、Power BI、Power Query、Power Pivot、M语言、DAX语言)》和《Excel 的数据分析工具》。

2157781e5cd693dd0309b3d6c53db37d.jpeg

以下复盘Power BI 的形状地图可视化(自定义地图)的操作。


首部高中教材《人工智能基础》出版


2018年4月28日,由华东师范大学出版社、商务印书馆、商汤科技、华东师范大学国际慕课研究中心共同主办的“人工智能教育研讨会暨《人工智能基础(高中版)》教材发布会”在华东师范大学隆重举行。

0.jpg

这是我国首部高中教材《人工智能基础》出版,华东师范大学第二附属中学、上海交通大学附中、清华大学附属中学、上海市市西中学等全国40所学校成为首批“人工智能教育实验基地学校”。


面向新冠疫情的数据可视化分析与模拟预测


导言

2019年在武汉爆发的新型冠状病毒肺炎(国家卫健委简称NCP)传播迅猛,已被世界卫生组织(WHO)定为“国际关注的突发公共卫生事件”。对疫情的控制,自1月24日武汉宣布封城之后,各个省市也陆续通过启动重大突发公共卫生事件一级响应来控制人口流动;同时,各省市医疗队伍驰援武汉,武汉的防控措施也急速加强;但全国疫情,特别是湖北省的状况依然让人揪心。公众非常关心疫情的发展趋势,期待“拐点”的出现;疫情防控部门希望不断总结经验教训,评估现有措施的有效性。该疫情的发展成为了涉及到我国政治经济民生的一件大事。

ca_wuhan_coronavirus_infraredthermometer_gettyimages.jpg

此次病毒的传播到底如何从武汉向外传播?不同省市疫情的发展呈现怎样的差别?封城、社区化隔离等一系列措施对减缓疾病传播起到了多大的作用;更为重要的是,拐点何时出现?

我们的报告首先从已有数据的可视化来展示疫情传播特点,然后通过建立传染病动力学模型,评估疫情防控措施,提出建议并预警,同时预测疫情疾病走势,给疫情防控决策和大众行为作为参考。


应对 2019-nCoV 疫情的数据科学预测


武汉市2019年12月起爆发不明原因肺炎疫情,病原体初判为新型冠状病毒,联合国世界卫生组织(WHO)已命名为2019-nCoV(2019新型冠状病毒)。中国宣布新型冠状病毒感染的肺炎暂命名为“新型冠状病毒肺炎”,简称“新冠肺炎”,英文名为“Novel Coronavirus Pneumonia”(简称NCP)。

3601430574.jpg

冠状病毒的流行何时会达到高峰以及缓解?很难预测,但是研究人员使用统计和数学模型来尝试了解和预测疫情的进展,他们包括医学、生物学及数据学专家。以下介绍通过搜索趋势大数据和使用R语言进行Logistic回归分析的应对 2019-nCoV 疫情的数据科学预测结果。


疫情拐点何时出现——基于数学模型的新冠病毒传播预测


前言

截止到2020年2月2日24:00,我国确诊的新型冠状病毒患者已超过1.4万人,短短一个来月时间确诊病例数已经远超2003年“非典”疫情的全部确诊数,目前每日新增的确诊数仍在攀升,疫情的传播速度超过了大多数人的预期。科学客观地评估新冠肺炎的传染性强弱以及预测患病人数规模和峰值时间,对决策者实施必要的防控措施、评估对经济的影响以及投资者如何应对都具有重要的现实意义。

1_GnsELOyyfLGvrB1vH6yEDQ.png

作为数学建模的爱好者,而非流行病学的专业人员,作者通过搜集和学习海内外文献,对经典的流行病传播模型(SEIR)有了较准确的理解,通过适当的简化,较直观地向读者介绍模型的原理和各参数的意义。对于经典且成熟的模型来说,输出结果的可靠性完全由输入参数的准确性决定,因此本文从新冠病毒的具体情况入手,着重从多个角度来评估、检验和校正模型的输入值,提高模型输出结果的可靠性。