学习数据科学的100天教程

数据科学 2020-10-12 990 次浏览 0 条评论 次点赞

100.JPG

Sharan 是一位数据科学专业人士,在高级分析和应用机器学习方面拥有十年的经验。他写了两本书。《掌握社交媒体挖掘》(Mastering Social Media Mining with R)是关于使用各种社交媒体API来获取数据并开发有趣的分析用例的,而《数据科学要领》(R Data Science Essentials)则是关于数据分析中必不可少的概念和技术的。How to Learn Data Science (A Step-by-Step Guide) 介绍学习数据科学的分步指南。

要成为一名数据科学家,你需要从以下条目中学到足够多的知识:

Python或R编程的基础知识
如果选择Python,那么像panda和Numpy这样的库
可视化库,如ggplot、Seaborn和Plotly。
统计数据
SQL编程
数学,尤指线性代数和微积分

下面是使用Python学习数据科学的逐日计划。

第一天:安装工具

如果选择Python则安装Anaconda,其中还会安装IDEs Jupyter笔记本和Spyder。如果你选择' R ',然后安装RStudio。

第2天到第7天:数据科学的基础编程

创建变量
字符串数据类型和通常在字符串数据类型上执行的操作
数值数据类型、布尔值和运算符
集合数据类型列表、元组、集合和字典——理解它们之间的唯一性和差异非常重要。
If-Then-Else条件,For循环和While循环实现
函数和Lambda函数-它们各自的优点和区别

第8天到第17天: Pandas 库

创建数据帧,从文件读取数据,并将数据帧写入文件
从数据框架中索引和选择数据
迭代和排序
聚合和分组
缺失值和缺失值的处理
Pandas 的重命名和替换
在数据帧中连接、合并和连接
总结分析,交叉表格,和枢轴
数据,分类和稀疏数据

第18天到第22天:Numpy Library

数组的创建
索引和切片
数据类型
连接与分离
搜索和排序
过滤所需的数据元素

第23天到第25天:可视化

花一些时间来理解和使用一些关键的可视化库,比如ggplot、Plotly和Seaborn。使用示例数据集并尝试不同的可视化,如柱状图、线形/趋势图、盒状图、散点图、热图、饼状图、柱状图、气泡图和其他有趣的或交互式可视化。

第26天到第35天:统计、实现和用例

F-test
ANOVA
卡方测试
T-Test
Z-Test

第36天到第40天:用于数据分析的SQL

从表中选择数据
基于键连接来自不同表的数据
对数据执行分组和聚合功能
使用case语句和筛选条件

第41 - 50天:探索性数据分析(EDA)

了解线性代数和微积分是重要的。

第51天到第70天:监督学习和项目实施

线性回归和逻辑回归
决策树/随机森林
支持向量机(SVM)

第71天到第90天:无监督学习和项目实施

聚类算法-用于在数据集中识别聚类
关联分析——用于识别数据中的模式
主成分分析——用于减少属性的数量
推荐系统-用于识别相似的用户/产品并进行推荐

第91天到第100天:自然语言处理基础

学习使用API从公共源获取数据
执行一些基本的情绪分析——可以使用来自twitter API的数据来提取特定标签的tweet,然后可以计算这些tweet背后的情绪和情绪
主题建模——当有大量的文档,并且您想要将它们分组到不同的类别时,这种方法非常有用

开始吧,跟随Sharan Learn Data Science in 100 Days

👍

本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以共同推动STEM公益教育!

楼主残忍的关闭了评论