网站首页  英汉词典  古诗文  美食菜谱  电子书下载

请输入您要查询的图书:

 

书名 企业级大数据平台构建(架构与实现)/大数据技术丛书
分类
作者 朱凯
出版社 机械工业出版社
下载 抱歉,不提供下载,请购买正版图书。
简介
试读章节

1.4 平台辅助工具

大数据平台作为一个技术支撑平台,它面向的用户群体至少包括应用开发、平台运维和数据分析这三类用户群体。这三类用户因为自身的工作职责不同导致其关注平台的视角也会不同。应用开发的职责是基于技术平台开发应用,基于平台编写程序,所以他们更关注的是开发SDK、程序调试跟踪的方式;平台运维的职责是保障大数据平台的正常稳定运行,所以他们关注的是平台的各种监控指标。而数据分析的职责是基于平台数据做数据分析,所以他们关注的是如何使用机器学习相关算法,用最快的速度验证自己的想法并得出反馈。

通过前面的介绍,我们可以知道大数据平台的基本能力从底层技术角度已经覆盖了这三类用户的需求,但是这样将赤裸裸的底层技术直接拿出来给用户使用,对于用户来说体验真是太糟糕了。所以大数据平台需要一层纽带将原始的底层技术能力和终端活生生的人联系起来。这层纽带便是由众多辅助平台使用的工具所组成的,它们可以大幅度降低大数据平台的使用门槛,并增强平台的易用性和友好性。

1.开发套件

相比于传统的软件编程方式,大数据领域的程序开发会复杂很多。为了迎合分治思想,同时能够使程序以最大的并行度执行,我们的程序都会以多线程的方式分布式地运行在多台服务器之上,这就使程序的开发和调试难度陡增。除此之外,在程序的设计思路上,大数据领域也和传统领域有着显著的不同,例如大数据领域的存储技术可以突破传统关系型数据库的诸多限制,使得一张单表拥有上千列和数亿行成为可能。这就使得我们可以使用与以往软件完全不同的设计思路去实现一些功能。

所以大数据平台应该拥有与之适配的一套SDK开发套件,将底层的复杂逻辑进行封装从而对上层应用屏蔽,同时提供一套简单易用的开发接口和一系列辅助开发和调试的工具。

2.任务管理与调度

得益于单一集群架构,集群内的所有服务器资源现在可以由一个统一的资源调度系统进行整合使用。因此,我们开发的数据导人、离线计算等程序都需要以任务的形式提交到调度系统。于是便有了对各种任务进行提交、状态跟踪、日志查询和执行周期性调度等需求。

所以大数据平台应该能提供一个可视化的任务管理与系统对内部对所有应用任务进行控制和监管。

3.自助式数据探索分析

数据分析、数据挖掘可以说是一个循环往复的过程。不断地通过抛出假设、建立模型、验证假设、修正模型这样一个循环过程渐进明细。这些步骤通常需要专业的大数据开发工程师以代码编程的形式进行实现。然而,我们必须面对这样一个不幸的事实,专业的程序开发工程师通常不善于数据分析的理论和算法,而专业的数据科学家又不精通程序开发。能够同时精通数据分析和程序开发的人可谓是风毛麟角。

所以大数据平台应该能够提供一个可视化的数据分析系统,可以让数据科学家使用类似SQL这样简单易学的方式进行自助式的数据分析,从而可以在不需要编写任何程序的情况下直接进行多种方式的数据探索与分析。

1.5 本章小结

通过本章的介绍,我们了解到了在一个企业之中,如果缺乏统一的大数据平台会出现的诸多问题,例如资源浪费、数据孤岛、服务孤岛和安全隐患等。那么,如果能够化零为整,在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台,通过引入单一集群架构的概念去整合资源与服务,就能解决上述的种种问题,从而能够体现诸如资源共享、数据共享和服务共享的优势。

为了落实这样一个统一的大数据平台,我提出了一些平台应该具备的最基本的能力需求。

数据接入:在大数据的应用领域,自始至终都是围绕着数据在做文章。所以首先需要面对的是如何把海量数据接人到平台的问题。结合大数据来源多、类型杂、体量大的特征,可以得知大数据平台需要能够对接各种来源和各种类型的海量数据。

数据存储与查询:在数据接人进来之后,就需要开始考虑如何将数据持久化存储并提供数据查询能力的问题了。为了应对不同的业务场景,平台需要提供多种不同的存储媒介以满足千奇百怪的存储与查询需求,所以平台需要提供诸如关系型模型、非关系型模型以及文档模型的存储系统。

数据计算:在数据接人并存储下来之后,还需对数据进行进一步的加工、分析和挖掘,这就是数据计算的范畴了。这里包括离线批处理、实时计算、机器学习、多维分析和全文搜索等场景。

平台安全与管理:作为一个企业级大数据平台产品,安全问题自然不容小视。平台需要解决诸如用户管理、数据隔离与访问授权、访问控制和集群服务安全等问题。

平台辅助工具:大数据领域相比传统的企业及应用,在平台运维和程序研发等方面都显得更为复杂和困难。所以为了提高平台的易用性并降低平台的使用门槛,这里还需要提供一些平台的辅助工具,诸如程序开发套件、任务管理与调度系统、自助式数据探索分析系统等。

在下一章中,我们会了解到基于Hadoop生态体系去搭建一个具备上述能力的企业级大数据平台所需要用到的技术栈。

P12-14

书评(媒体评论)

大数据已经成为数据分析领域的基石,而众多的技术栈使得用户无从下手,业界急需一本由浅入深,从企业实际需求出发,讲述大数据平台构建核心技术和规划的书。很高兴看到作者基于自己的实践将相关经验整理成书,为业界带来了这样一部难得的好作品。

——韩卿  Apache Kylin 联合创建者、PMC Chair/Kyligence 联合创始人兼 CEO

以横向视角构建以Hadoop为基础的大数据平台,涉及需要考量的集群管理、平台安全性、SSO等,深入浅出,实战味道浓厚,推荐阅读。

——于君泽 蚂蚁金服高级技术专家 

本书是作者多年大数据平台实战经验的结晶,是一本难得的横向拉通大数据技术体系的好书。对于想快速构建一个好用又安全的企业级大数据平台的读者来说,本书不可错过。

——鲁静 远光软件区块链事业部总经理

本书围绕构建企业级大数据平台的背景、方法和扩展思路三个方面进行讲解。从理论入手,配有实战讲解,深入浅出。目前国内市场上这样以横向视角来阐述大数据的书籍并不多见,可以说本书填补了这方面的空白,故将本书推荐给大家。

——李根 祺曜互娱资深技术专家

目录

推荐序 思者常新,厚积薄发

前言

第1章 浅谈企业级大数据平台的重要性

1.1 缺乏统一大数据平台的问题

1.1.1 资源浪费

1.1.2 数据孤岛

1.1.3 服务孤岛

1.1.4 安全存疑

1.1.5 缺乏可维护性和可扩展性

1.1.6 缺乏可复制性

 1.2 构建统一大数据平台的优势

 1.3 企业级大数据平台需要具备的基本能力

1.3.1 集群管理与监控

1.3.2 数据接入

1.3.3 数据存储与查询

1.3.4 数据计算

1.3.5 平台安全与管理

 1.4 平台辅助工具

 1.5 本章小结

第2章 企业级大数据平台技术栈介绍

 2.1 HDFS

2.1.1 概述

2.1.2 RAID技术

2.1.3 核心设计目标

2.1.4 命名空间

2.1.5 数据模型

2.1.6 Namenode和Datanode

2.1.7 使用场景

 2.2 Zookeeper

2.2.1 概述

2.2.2 核心特性

2.2.3 命名空间

2.2.4 数据模型

2.2.5 节点状态监听

2.2.6 原子消息广播协议

2.2.7 使用场景

 2.3 HBase

2.3.1 概述

2.3.2 数据模型

2.3.3 Regions

2.3.4 HBase Master

2.3.5 Region Server

2.3.6 MemStore与HFile

2.3.7 使用场景

 2.4 YARN

2.4.1 概述

2.4.2 资源模型和Container

2.4.3 ResourceManager

2.4.4 ApplicationMaster

2.4.5 NodeManager

2.4.6 单一集群架构

2.4.7 工作流程

2.4.8 使用场景

 2.5 Spark

2.5.1 概述

2.5.2 数据模型

2.5.3 编程模型和作业调度

2.5.4 依赖

2.5.5 容错

2.5.6 集群模式

2.5.7 使用场景

 2.6 本章小结

第3章 使用Ambari安装Hadoop集群

 3.1 概述

 3.2 集群设计

3.2.1 主控节点

3.2.2 存储与计算节点

3.2.3 安全认证与管理节点

3.2.4 协同管理与其他节点

 3.3 Ambari的安装、配置与启动

3.3.1 安装前的准备

3.3.2 安装Ambari-Server

3.3.3 Ambari-Server目录结构

3.3.4 配置Ambari-Server

3.3.5 启动Ambari-Server

 3.4 新建集群

3.4.1 设置集群名称并配置HDP安装包

3.4.2 配置集群

 3.5 Ambari控制台功能简介

3.5.1 集群服务管理

3.5.2 集群服务配置

3.5.3 辅助工具

 3.6 本章小结

第4章 构建企业级平台安全方案

 4.1 浅谈企业级大数据平台面临的安全隐患

4.1.1 缺乏统一的访问控制机制

4.1.2 缺乏统一的资源授权策略

4.1.3 缺乏Hadoop服务安全保障

 4.2 初级安全方案

4.2.1 访问控制

4.2.2 数据授权与管理

 4.3 本章小结

第5章 Hadoop服务安全方案

 5.1 Kerberos协议简介

 5.2 使用FreeIPA安装Kerberos和LDAP

5.2.1 安装FreeIPA

5.2.2 IPA-Server管理控制台功能介绍

5.2.3 IPA CLI功能介绍

 5.3 开启Ambari的Kerberos安全选项

5.3.1 集成前的准备

5.3.2 集成IPA

5.3.3 测试Kerberos认证

 5.4 本章小结

第6章 单点登录与用户管理

 6.1 集成单点登录

6.1.1 CAS简介

6.1.2 安装CAS-Server

6.1.3 集成Knox网关与CAS-Server

6.1.4 集成Ranger与CAS-Server

6.1.5 集成Ambari与CAS-Server

 6.2 实现统一的用户管理系统

 6.3 使用Java程序调用脚本

 6.4 创建Ranger扩展用户

 6.5 本章小结

第7章 搭建平台管理端RESTful服务

 7.1 搭建RESTful服务框架

 7.2 用户查询

7.2.1 引入LDAP模块

7.2.2 配置LDAP

7.2.3 实现持久层

7.2.4 实现服务层

7.2.5 实现RESTful服务

7.2.6 整合用户管理

 7.3 RESTful服务安全认证

7.3.1 用户登录服务

7.3.2 使用JWT认证

7.3.3 创建用户登录RESTful服务

7.3.4 认证过滤器

7.3.5 测试服务安全认证

 7.4 数据仓库数据查询

7.4.1 创建JDBC连接

7.4.2 Kerberos登录

7.4.3 使用JDBC协议查询

7.4.4 实现服务层与RESTful服务

7.4.5 测试查询

 7.5 数据仓库元数据查询

7.5.1 使用query服务查询数仓元数据

7.5.2 引入JdbcTemplate模块

7.5.3 增加Hive元数据库配置

7.5.4 实现元数据持久层

7.5.5 实现元数据服务层与RESTful服务

7.5.6 测试元数据查询

 7.6 本章小结

第8章 Spark任务与调度服务

 8.1 提交Spark任务的3种方式

8.1.1 使用Spark-Submit脚本提交

8.1.2 使用Spark Client提交

8.1.3 使用YARN RESTful API提交

 8.2 查询Spark日志

 8.3 任务调度

8.3.1 引入Quartz模块

8.3.2 增加Quartz配置

8.3.3 编写调度任务

8.3.4 改进空间

 8.4 本章小结

附录A Hadoop简史

附录B Hadoop生态其他常用组件一览

附录C 常用组件配置说明

序言

思者常新,厚积薄发

相比以BAT为引领的互联网公司的天生“数质”(业务高度数字化,技术更具创新性和开放性),大多数传统集团企业经过之前ERP时代积累了海量的业务数据。但是由于业务的复杂性与新老技术升级变革的压力,面对汹涌而来的大数据浪潮,这些企业却依旧停留在探索技术如何稳步更替升级、分散在不同部门的数据如何更有效地集中统一、数据本身以及数据技术如何有效形成企业级治理体系等一系列“知易行难”的问题当中。

相比两年前全民热捧大数据概念的疯狂,数据本身和大数据主流技术显然已经稳步度过了“过高期望的峰值期”和“泡沫化的低谷期”,正式进入“稳步爬升的光明期”。正因为这样,在这个黎明前的时期,传统企业如何平稳完成数字化变革带来的技术架构变迁,找到去伪存真的企业级大数据实战指南就显得尤为重要了。

最近十年,我一直在远光软件从事电力企业信息化相关的工作,组织、带领了包括企业大数据平台、企业新一代敏捷BA平台与能源BDaas平台在内的研发团队。电力企业在国内正是信息化水平较高,但业务运营和技术管控模式最为复杂的一类企业。正是意识到“生于互联网的大数据技术对于集团企业的大数据应用支撑不足”这一事实,我们很早就开始孵化相关的团队、探索相关的应用。直到我们在公司正式组建第一支“企业大数据产品商业化团队”的时候,本书作者通过“普通社招”成为第一批加入的开发工程师之一。在短短的半年时间内,他就在如何快速学习新技术、实践新架构方面展现出高于常人、高于前辈的能力和素养。

四年的时间,我们的大数据产品EDT、创新数字化平台产品Realinsight相继诞生,我们和用户一起完成了一个又一个企业大数据解决方案实战。用户数屡创新高、嘉奖年年不断,获得了市场和行业的肯定。当年那支由20人组成的产品团队,一年一个台阶发展为如今公司的一级产品事业部,当年那个“普通开发工程师”也当仁不让地成为我们整个大数据产品线中最为核心的系统架构师和技术布道师。

在此过程中,本书作者和各个技术同仁、产品经理、业务部门同事紧密合作,而这本著作就融入了他在这些实战项目中所积累的丰富经验。所以,本书最大的闪光点在于,它的内容不局限于技术本身,而是考虑到了在不同企业应用场景下,这些技术如何得到更合理地应用。除此之外,作者文艺青年的背景让这本书读起来极其顺畅,他的钻研精神又让这本书在理论上更具深度。因此,本书除了适合集团企业的技术管理人员通读外,也非常适合从事大数据产品相关工作的设计者、产品经理或者架构师阅读。我想,对于希望利用大数据技术解决业务痛点的读者而言,本书更是不可或缺的良师益友。  当得知朱凯有出书的打算时,我们都很兴奋。谁会比他更能胜任这件事呢?毫无疑问,这会是国内企业大数据技术领域的一本不可多得的图书。“思者常新,厚积薄发”正是我对本书作者这几年状态的一个真实表述,但同时也是对于正走向真正落地的企业大数据时代的共勉。数字经济时代已经到来,作为这个时代积极的参与者,我们渴望和更多的思考者共同分享、一起创造,实现企业大数据技术应用的爆发。

远光软件大数据事业部总经理 解来甲

内容推荐

《企业级大数据平台构建:架构与实现》是一部教你如何从0到1架构与实现一个企业级大数据平台的著作,是作者在大数据和系统架构领域工作超过20000小时的经验总结。

作者朱凯从横向视角出发,手把手教你如何拉通Hadoop体系技术栈,以此搭建一个真实可用、安全可靠的大数据平台。通过阅读本书,大家一定能找到灵感和思路来应对实际工作中面对的问题。

本书在逻辑上分为三大部分:

背景篇(第1~2章):简单阐述了企业级大数据平台的重要性,并指出了作为一个企业级大数据平台应当具备的能力。接着抛砖引玉介绍了通过Hadoop生态体系去构建一个企业级大数据平台可以使用的技术栈的核心概念,如HDFS、HBase、Spark等。

方法篇(第3~6章):详细讲解了集群服务、安全网关、服务授权、Kerberos认证、单点登录和集群用户整合等各个方面的背景知识与配置整合步骤。

扩展篇(第7~8章):介绍了如何用编写Restful服务的形式进一步扩展平台功能的一些思路,以便提高平台的易用性和可用性。

编辑推荐

《企业级大数据平台构建:架构与实现》是作者朱凯多年大数据平台实战经验的结晶,是一本难得的横向拉通大数据技术体系的好书。围绕构建企业级大数据平台的背景、方法和扩展思路三个方面进行讲解。以横向视角构建以Hadoop为基础的大数据平台,涉及需要考量的集群管理、平台安全性、SSO等,从理论入手,配有实战讲解,深入浅出。

随便看

 

Fahrenheit英汉词典电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 frnht.com All Rights Reserved
更新时间:2025/11/22 6:36:14