课程名称: Distributed Computing with Spark SQL
课程主页: https://www.coursera.org/learn/spark-sql
所在平台: Coursera
课程类别: 数据分析
大学或机构: 加州大学戴维斯分校
讲师: Brooke Wenig,Conor Murphy
授课语言: 英语
提供字幕: 英文
课程文件大小: 316MB
课程介绍: 本课程是为有SQL经验的学生开设的,现在他们想进一步熟悉使用Spark的分布式计算。学生将了解什么时候使用Spark,以及Spark作为一个引擎如何将数据和人工智能技术大规模地结合起来。这四个模块相互构建,在课程结束时,学生将理解:Spark架构、Spark数据框架、优化读/写数据以及如何构建机器学习模型。第一个模块将介绍Spark,包括Spark如何与分布式计算一起工作,以及什么是Spark数据框架。模块2涵盖了Spark的核心概念,如存储与计算、缓存、分区和Spark用户界面。第三个模块着眼于工程数据管道,包括连接数据库、模式和类型、文件格式和编写好的数据。最后一个模块将通过业务用例,对什么是机器学习的简短介绍,构建和应用模型,以及最后的课程总结,来看一下Spark在机器学习中的应用。通过了解何时使用Spark,或者在模型或数据太大而无法在单台机器上处理时进行扩展,或者需要简单地加快速度以获得更快的结果,学生们将磨练自己的SQL技能,成为一名更熟练的数据科学家。
本课程属于 Learn SQL Basics for Data Science Specialization/专项课程 中的第3门课程。
最近更新:2020年7月7日。
课程压缩包下载地址(度盘链接 解压密码:xuebuyan.org):
友情提醒:
评论前必须登录!
注册