我要报名
适用人群
主要针对理工科背景,希望以后从事数据科学相关工作的学员。通过完成业界典型的spark项目,学员能够掌握大数据时代下一个数据科学项目所需要的技能和思维方式,极大提升自己申请和求职的竞争力
你将收获
完成一个大数据机器学习项目
掌握spark的基本操作和核心逻辑
北美求职的竞争力
甲骨文导师提供的推荐信
你将学习的技能
spark数据处理
spark文本处理和机器学习
数据分析
课题介绍
近年来,全球掀起了一场前所未有的大数据革命。在一个日活用户超过1亿的互联网公司,常见的pandas和scikit-learn已经无法满足日常需求,而spark已经成为当下最热门的大数据处理框架。业界对spark人才需求越来越大,但spark在学校的课程里并不常见。本课程将会从基本概念开始,一步一步带领学生完成第一个完整的spark项目。同时我们也会分享业界最常用的操作技巧和思维方式,使你更好的理解处理大数据的核心逻辑。
课程大纲
项目总时长为四周,第一周导师与学生线上沟通,介绍基本概念,学习spark数据处理;第二周学习spark文本处理和机器学习相关操作,并完成一个简单的情感分析模型。最后两周将应用所学知识,使用spark完成一个实战项目。该项目基于yelp数据,同时使用用户数据和评论文本来搭建一个虚假评论检测系统
1
Introduction to Big Data & Spark
考察:spark基本概念
授课1小时; 学习1小时
2
Data manipulation using PySpark
考察:使用spark处理结构化数据
授课2小时; 学习4小时
3
Spark Machine Learning and NLP
考察:使用spark处理文本数据,完成一个情感分析模型
授课3小时; 学习6小时
4
Project – Build a spark-based end to end anti-fraud system using Yelp dataset
考察:spark实战经验
授课5小时; 学习10小时
5
Spark FAQ in interview, Advanced spark topics, Summary
考察:Q&A
授课1小时; 学习1小时
课程导师
Joey

经历

甲骨文数据科学家(美国)
惠普机器学习工程师(美国)

教育

宾夕法尼亚大学数据科学硕士