干货大数据学习路线,如何学好大数据精华

1.Linux基础和分布式集群技术

学完此阶段可掌握的核心能力:

熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;

学完此阶段可解决的现实问题:

搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;

学完此阶段可拥有的市场价值:

具备初级程序员必要具备的Linux服务器运维能力。

1.内容介绍:

在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。

2.案例:搭建互联网高并发、高可靠的服务架构。

2.离线计算系统课程阶段

1.离线计算系统课程阶段

HADOOP核心技术框架

1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握HIVE数据仓库工具的工作原理及应用开发。

1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;

具备企业数据部初级应用开发人员的能力

1.1HADOOP快速入门

1.1.1hadoop知识背景

什么是hadoop、hadoop产生背景、hadoop在大数据云计算中的位置和关系、国内hadoop的就业情况分析及课程大纲介绍

国内外hadoop应用案例介绍

分布式系统概述、hadoop生态圈及各组成部分的简介

1.1.2HIVE快速入门

hive基本介绍、hive的使用、数据仓库基本知识

1.1.3数据分析流程案例

web点击流日志数据挖掘的需求分析、数据来源、处理流程、数据分析结果导出、数据展现

1.1.4hadoop数据分析系统集群搭建

集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态测试

HIVE的配置安装、HIVE启动、HIVE使用测试

1.2HDFS详解

1.2.1HDFS的概念和特性

什么是分布式文件系统、HDFS的设计目标、HDFS与其他分布式存储系统的优劣势比较、HDFS的适用场景

1.2.2HDFS的shell操作

HDFS命令行客户端启动、HDFS命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍

1.2.3HDFS的工作机制

HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程

NAMENODE工作机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工作机制、DATANODE动态增减、全局数据负载均衡

1.2.4HDFS的java应用开发

搭建开发环境、获取api中的客户端对象、HDFS的java客户端所具备的常用功能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统

1.3MAPREDUCE详解

1.3.1MAPREDUCE快速上手

为什么需要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式

1.3.2MAPREDUCE程序的运行机制

MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的


转载请注明:http://www.aierlanlan.com/rzfs/2342.html