课程名称: Fundamentals of Scalable Data Science
课程主页: https://www.coursera.org/learn/ds
所在平台: Coursera
课程类别: 机器学习
大学或机构: IBM
讲师: Romeo Kienzler
授课语言: 英语
提供字幕: 英文
课程文件大小: 179MB
课程介绍: 可扩展数据科学的基础知识:Apache Spark是用于大规模数据处理的事实上的标准。这是面向IBM Advanced Data Science Specialization的系列课程中的第一门课程。我们坚信,这对于成功开始学习可扩展的数据科学平台至关重要,因为在构建高级机器学习模型时,内存和CPU限制是最大的限制因素。
在本课程中,我们教您使用python和pyspark的Apache Spark基础知识。我们将在前两周内介绍Apache Spark,并在后两周内学习如何将其用于计算基本的探索性和数据预处理任务。通过本练习,还将向您介绍最基本的统计量度和数据可视化技术。 这为您提供了足够的知识,可以在任何现代环境中担任数据工程师的角色。但这也为您迈向数据科学的职业提供了基础。
如果您选择参加本课程并获得Coursera课程证书,那么您还将获得IBM数字徽章。要查找有关IBM数字徽章的更多信息,请访问ibm.biz/badging链接。 完成本课程后,您将能够:
•描述如何使用基本统计量来揭示数据中的模式
•识别数据特征,模式,趋势,偏差或不一致以及潜在的异常值。
•确定用于处理大数据的有用技术,例如降维和特征选择方法
•使用高级工具和图表库来: o通过分区和并行分析提高大数据分析效率 o以多种2D和3D格式(箱形图,运行图,散点图,帕累托图和多维缩放)可视化数据 为了成功完成课程,建议满足以下先决条件:
•python的基本编程技巧 •基础数学 •基本SQL(如果需要,可以从https://www.coursera.org/learn/sql-data-science轻松获得) 为了完成本课程,将使用以下技术: (这些技术在课程中会根据需要进行介绍,因此不需要任何先验知识。)
•Jupyter笔记本(IBM Watson Studio免费提供给您)
•ApacheSpark(IBM Watson Studio免费提供给您)
•Python 这门课程需要四个星期,每周4-6小时
本课程属于 Advanced Data Science with IBM Specialization/专项课程 中的第1门课程。
课程压缩包下载地址(度盘链接 解压密码:xuebuyan.org):
友情提醒:
评论前必须登录!
注册