课程名称: Big Data Analysis with Scala and Spark
课程主页: https://www.coursera.org/learn/scala-spark-big-data
所在平台: Coursera
课程类别: 计算机科学
大学或机构: 洛桑联邦理工学院
讲师: Prof. Heather Miller
授课语言: 英语
提供字幕: 英文
课程文件大小: 994MB
课程介绍: 使用功能概念来操纵分布在集群上的大数据在行业中十分普遍,并且可以说是功能性想法最早在工业上广泛使用的一种。 MapReduce和Hadoop以及最近发布的Apache Spark(一种用Scala编写的快速的内存中分布式集合框架)的流行证明了这一点。在本课程中,我们将了解如何始终使用Spark将数据并行范例扩展到分布式案例。我们将详细介绍Spark的编程模型,并仔细了解它与熟悉的编程模型(例如共享内存并行集合或顺序Scala集合)之间的区别和时机。通过Spark和Scala中的动手示例,我们将学习何时应考虑与分发有关的重要问题,例如延迟和网络通信,以及如何有效解决这些问题以提高性能。
学习成果。在本课程结束时,您将能够:
-从持久性存储中读取数据并将其加载到Apache Spark中,
-使用Spark和Scala处理数据,
-以功能形式表达用于数据分析的快速算法,
-了解如何避免在Spark中进行混洗和重新计算,
推荐背景:您应具有至少一年的编程经验。精通Java或C#是理想的选择,但具有其他语言(如C / C ++,Python,Javascript或Ruby)的经验也足够。您应该对命令行有所了解。本课程打算在并行编程之后进行:https://www.coursera.org/learn/parprog1。
本课程属于Functional Programming in Scala Specialization/专项课程中的第4门课程。
最近更新:2020年4月26日。
课程压缩包下载地址(度盘链接 解压密码:xuebuyan.org):
友情提醒:
评论前必须登录!
注册