数据科学(英语:data science)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。
数据科学通过运用各种相关的数据来帮助非专业人士理解问题。数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学、社会科学、人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助。
历史
1960年代,Peter Naur 就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。
1997年11月,吴建福为密歇根大学(University of Michigan)的H. C. Carver教授职位任命就职演说,题为“统计=数据科学?”。 在本讲座中,他将统计工作描述为数据收集,数据建模和分析以及决策的三部曲。 在他的结论中,他开创了现代非计算机科学的“数据科学”一词的用法,并提倡将统计数据更名为数据科学,而统计学家则改为数据科学家。后来,他发表了名为“统计=数据科学?”的演讲。 作为他1998年的P.C. 马哈拉诺比斯纪念演讲。这些演讲向印度科学家,统计学家,印度统计研究所的创始人Prasanta Chandra Mahalanobis致敬。
2001 年,William S. Cleveland 提议将其设立为一个新的学科,吸收“计算在数据方面取得的进展”作为统计学的延伸。《数据科学(Data Science Journal )》及《The Journal of Data Science》分别于 2002 年与 2003 年发行;2005 年,国家科学委员会发表了《数字数据收集万岁:促进二十一世纪的研究与教育》,文中将数据科学家定义为“讯息与计算机科学家,资料库与软体工程师及程序员,学科专家,成功管理数字数据收集的关键人物。”
2008年Jeff Hamerbatcher与DJ Patil circa分别在FACEBOOK、Linkedin领导全球第一支数据科学团队,全球首次有“数据科学”的概念出现。至此数据科学越来越被广泛流行,并应用到公卫、市场、金融、社会等各个领域。
数据科学集合了计算机科学/信息技术、数学、机器学习、数学/统计学、软件开发、商科以及传统研究方法等等领域,是一门非常综合且实用的学科。
数据科学家
数据科学家这个职位的头衔则是 2009 年由 Natahn Yau 首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并提供某些可供非数据专家使用的东西的人。
2009 年 1 月,数位化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky 从中了解到“数据科学家”这个词,认为该词是自己所从事工作的最好描述。
数据科学家被《哈佛商业评论》称为《二十一世纪最性感的职业》后,数据科学逐渐成为一个时髦术语(英语:Buzzword)。
数据科学家在美欧的需求巨大,麦肯锡公司宣布全世界上此职业人才短缺超过二十万工人。《The Data Incubator》国际企业,在硅谷纽约成立,提供国际大数据和数据科学培训服务。
数据科学专业
以UC Berkeley 2018年刚刚成功确立开设的B.A. in Data Science本科项目为例,学校官方对该项目的解释为:
数据科学学位项目结合了计算推理与推导,以某些现实生活中的数据为基础得到结论。数据科学家来源于社会中的所有领域,所有的研究范畴和各种不同的背景。他们通过数学和科学的思维以及计算编程的力量去理解并解决商业和社会方向的问题。
数据科学专业使得学生从字面上的数据,通过统计推导的知识,计算编程的过程,数据管理策略,相关领域知识和理论,去获得在工作学习中得到结论的能力。数据科学和计算机科学的最大差别在于:前者不是比谁的代码写得好,而是比谁的方案最适合解决问题。
数据科学以及一些其他的衍生专业(如Business Analytics,Information Science等)无疑是在数学,计算机科学,亦或统计学的基础上,为学生们提供了一个性价比更高,更省时省力,更 Hands-on 的一个选择。
数据科学家的梯队
- Research Scientist,这个梯队更偏向于科学家,研究者,就必须要有很强的研究元素在里面。
- Data engineer,使Research Scientist的设计方案从技术层面上得以实现。
- Analytics Advisory/Non-IT Data Scientist,也就是分析咨询师,比起编程能力更需要的是交际能力。
- Data Analyst(数据分析师)/Business Analyst(商业分析员)/Business Intelligence Developer(商业智能工程师),关注数据集整合,数据传输等方面。
顶级大厂如何使用数据科学
谷歌是迄今为止最大的公司,它在招聘训练有素的数据科学家。由于Google如今主要受数据科学,人工智能和机器学习的推动,因此它为员工提供了最好的数据科学薪酬之一。
亚马逊是全球电子商务和云计算巨头,正在大规模招聘数据科学家。他们需要数据科学家找出客户的心态,并增强电子商务和云域的地理覆盖范围以及其他以业务为驱动力的目标。
Visa是大多数公司的在线金融门户,一天之内进行的交易额就达数亿美元。因此,Visa对于数据科学家的需求非常大,以产生更多收入,检查欺诈性交易以及根据客户要求定制产品和服务等。
👍
- Intellipaat在线课程:What is Data Science?
- Intellipaat是全球认证课程的领先提供商,提供有关大数据、区块链、Python、数据科学、数字营销等技能的培训。
- 全球知名网络教育平台如Udemy、Udacity、vlurn、Coursera、Intellipaat、Sterio.me全球在线教育估价2438亿美元,并有5%的年复合增长率增长。
楼主残忍的关闭了评论