本文是《5 Solved end-to-end Data Science Projects in Python》的节选,介绍 5 个优秀的数据科学项目,既有适合初学者的项目,也有高级项目,它们都是运用Python实现的,通过这些项目你可以充分了解数据科学对于企业的价值所在。

f02bad2626804e24ac742739440ea2a3.jpg

No:1. 情绪分析

c3bcf06b95e64d0a818d7e062fd50af8.jpg

这个清单的第一个项目是建立一个机器学习模型,预测电影评论的情绪。情绪分析是一种NLP技术,用于确定数据是积极的、消极的还是中立的。它对企业确实有帮助,因为它有助于了解客户的整体意见。

在这个项目中,你将使用IMDB数据集,其中包含5万条电影评论,有2个字段(评论和情绪)。我们的目标是建立最好的机器学习模型,预测电影评论中的情绪。为了使这个项目对初学者友好,你只需要预测一个电影评论是正面还是负面的。这被称为二进制文本分类,因为只有两种可能的结果。

  • 库(包括指南):Pandas, Scikit-learn
  • 源代码:Sentiment Analysis in Python (Text Classification)

这个第一个项目的特别之处在于,你将探索scikit-learn库,同时从头开始建立一个基本的机器学习模型。

检测项目

有许多 "检测 "项目你可以用Python做。我将按照我用Python实现的那些项目的难度来列举,而不是只点名一个。

No:2. 虚假新闻检测

da9419221b7e468b9648e10d1b43369a.jpg

最适合初学者的检测项目可能是假新闻检测。虚假新闻在互联网上到处传播。这在人群中产生了混乱和恐慌。这就是为什么识别信息的真实性很重要。幸运的是,我们可以使用Python来解决这个数据科学项目。

  • 库(包括指南):Pandas, Matplolib, Scikit-learn, Machine Learning Algorithms (XGBoost, Random forest, KNN, Logistic regression, SVM, 和 Decision tree )
  • 源代码:Detecting Fake News

这个项目的目标是将真正的新闻与假新闻分开。为此,我们将使用sklearn的工具,如TfidfVectorizer和PassiveAggressiveClassifier。

No:3. 信用卡欺诈检测

09a450ddb3434e7a840f5c358b1b80c4.jpg

如果你想让这种项目更有挑战性,你可以试试信用卡欺诈检测。信用卡欺诈给消费者和公司带来了数十亿美元的损失,而欺诈者则不断试图寻找新的方法来实施这些非法行为。这就是为什么欺诈检测系统已经成为银行最大限度地减少损失的关键。

在这个项目中,你应该从包含交易历史的数据集中分析客户的消费行为。地点等变量将帮助你识别欺诈性交易。

  • 库(包括指南):Pandas, Matplolib, Scikit-learn, Machine Learning Algorithms (XGBoost, Random forest, KNN, Logistic regression, SVM, 和 Decision tree )
  • 源代码: Credit Card Fraud Detection With Machine Learning in Python

No:4. 聊天机器人

3d64380eb7e044a9a3be49a2ce45820f.jpg

聊天机器人只是一个通过语音命令或文本聊天来模拟人类对话的程序。先进的聊天机器人是使用人工智能建立的,并用于你手机上的大多数信息传递应用程序。

虽然创建像Siri和Alexa这样的语音助手过于复杂,但我们仍然可以使用Python和深度学习创建一个基本的聊天机器人。在这个项目中,你必须使用数据科学技术用数据集来训练聊天机器人。随着这些聊天机器人处理更多的互动,它们的智能和准确度也会提高。

  • 软件包:Keras, NLTK, Numpy
  • 源代码:How To Create A Chatbot with Python & Deep Learning In Less Than An Hour

建立一个简单的聊天机器人将使你接触到数据科学和编程的各种有用技能

No:5. 客户流失预测

客户流失率是指客户停止与公司做生意的比率。这代表了在特定时间段内停止订阅的用户的百分比。

这是一个测试你的数据科学技能的好项目。我甚至要在黑客马拉松中解决它!

这个项目的主要目标是对一个客户是否会流失进行分类。要做到这一点,你将使用一个数据集,其中有关于银行客户的财务数据。诸如信用评分、任期、产品数量和估计工资等信息将被用来建立这个预测模型。

  • 软件包: Pandas, Matplolib, Scikit-learn, Machine Learning Algorithms (XGBoost, Random forest, KNN, Logistic regression, SVM, and Decision tree)(XGBoost, Random forest, KNN, Logistic regression, SVM, and Decision Tree)
  • 源代码:Bank Customer Churn Prediction

这个项目和信用卡欺诈检测项目是本文中列出的最完整的数据科学项目。它包括探索性数据分析、特征工程、数据准备、模型拟合和模型选择。

就这样吧! 希望在完成所有这些项目后,你能更好地理解迄今为止你所学到的关于数据科学的一切。

原文列出了一些可以用Python实现的端到端数据科学项目,这些项目是按难度排列的,简单的在开头,高级项目在最后。但对于真正的初学者,作者坚持建议应从基本的 Python 项目开始,便是作者的另一篇文章《6 Python Projects You Can Finish in a Weekend》。

另外,对原文的源代码链接已作采集处理,将打包本地提供。

via Frank Andrade,5 Solved end-to-end Data Science Projects in Python


本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以让我们持续关注中国学子的STEAM旅程!

还不快抢沙发

添加新评论