大数据平台架构与分布式系统实战
累计咨询人数
3171
免费咨询送福利!
扫码并添加二维码,就可安排获得硅谷导师免费10分钟咨询
价值$100的留学咨询+$200的求职咨询
同时,您还有机会获得更多福利(免费简历修改,在线项目旁听,名企内推直推)
适用人群
主要针对留学想申请软件工程、计算机网络等方向大型分布式系统的开发,由浅入深了解常用的分布式系统架构
项目简介
随着5G时代和云时代的到来,数据的爆炸性增长迫切需要区别于以往的强大的数据后台处理平台。本课程将带你认识大数据平台的理念,学习各种工具的基本结构, 领略企业级平台构建的案例。通过对分布式系统和平台架构的学习,利用AWS,做一套完整的大数据处理的pipeline
课题开展流程
(1)开题准备
本项目内容主要包括基本的后端架构知识: 详细介绍常用分布式、实时或者离线计算框架:Hadoop, Spark, Kafka, DataLake, Lambda, AWS等等。此外还会介绍一些工业界中经典的大数据Saas架构实例,根据产品的需求和特点,分析架构设计的原因,熟练掌握各个工具的使用原理
(2)项目实施
项目要求学生有基本的编程概念, 操作系统知识,总时长为16课时,基于每周一次的理论学习与实践编程。学员会在导师的指导下利用AWS的服务,完成一个大数据平台的架构设计和开发
(3)结题成果
项目结题时,学生能对分布式系统,大数据平台有基本认识, 能够独立根据需求自己的idea设计出基本的后端大数据架构,并利用所学工具实现开发。学员会收获硅谷导师的推荐信和内推帮助,助力申请
项目大纲
  • 专题内容
  • 项目考察
  • 授课时长
  • 学习时间
  • Intro to Big Data Platform, Distributed System and Micro Services
  • Q&A
  • 2 hours
  • 2 hours
  • Intro to Hadoop Architecture
  • Q&A
  • 2 hours
  • 2 hours
  • Serverless Function: AWS Lambda + Setup AWS account
  • AWS Lambda实战,开始从开源API抓取数据
  • 2 hours
  • 4 hours
  • Distributed Storage: DataLake, Database, Datawarehouse
  • AWS RDS, S3实战,Lambda将抓取的数据存储在这些地方
  • 2 hours
  • 4 hours
  • Message Queue: Kafka, Kinesis, Kafka Streams
  • AWS Kinesis 实战,利用Kinesis作为连接各个部件的message queue
  • 2 hours
  • 2 hours
  • Distributed Computing: MapReduce + Spark Session I
  • Spark 实战,从S3读取数据,build batch processing app
  • 2 hours
  • 4 hours
  • Distributed Computing: Spark Session II
  • Spark 实战,build app,将结果存回S3,deploy到AWS EMR
  • 2 hours
  • 4 hours
  • Big Data Architecture case study: ETL/ELT pipeline, Micro Services, Saas.
  • Q&A 学员有能力根据自己的idea设计出基本的后端架构
  • 2 hours
  • 4 hours