课程名称: Scalable Machine Learning on Big Data using Apache Spark
课程主页: https://www.coursera.org/learn/machine-learning-big-data-apache-spark
所在平台: Coursera
课程类别: 机器学习
大学或机构: IBM
讲师: Romeo Kienzler
授课语言: 英语
提供字幕: 英文
课程文件大小: 268MB
课程介绍: 本课程将使您掌握使用Apache Spark在大数据集上扩展数据科学和机器学习(ML)任务的技能。大多数现实世界的机器学习工作都涉及非常大的数据集,这些数据集超出了单台计算机的CPU,内存和存储限制。
Apache Spark是一个开放源代码框架,该框架利用群集计算和分布式存储以高效且经济高效的方式处理超大型数据集。因此,与Apache Spark一起工作的应用知识对于机器学习工程师而言是一项巨大的资产,并且可能成为差异化因素。
完成本课程后,您将能够:
-获得对Apache Spark的实践理解,并将其用于解决涉及小数据和大数据的机器学习问题
-了解如何编写可在数千个CPU上运行的并行代码。
-利用Apache SparkML Pipelines使用大型计算集群将机器学习算法应用于PB级数据。
-消除了传统机器学习框架在数据无法容纳在计算机主存储器中时产生的内存不足错误
-并行测试成千上万种不同的ML模型,以找到性能最佳的模型-许多成功的Kaggler都使用了该技术
-(可选)使用Apache SparkSQL和Apache Spark DataFrame API在非常大的数据集上运行SQL语句。
现在注册以学习使用大数据的机器学习技术,这些技术已被阿里巴巴,苹果,亚马逊,百度,eBay,IBM,NASA,三星,SAP,TripAdvisor,Yahoo!,Zalando等许多公司成功应用。
注意:您将在课程中免费练习由IBM免费提供的Apache Spark集群上的运行机器学习任务,以后您可以继续使用。
先决条件:
-基本的python编程
-基本的机器学习(本课程还提供可选的介绍视频)
-可选内容的基本SQL技能
本课程属于 IBM AI Engineering Professional Certificate/专业证书 中的第2门课程。
最近更新:2020年6月15日。
课程压缩包下载地址(度盘链接 解压密码:xuebuyan.org):
友情提醒:
评论前必须登录!
注册