Spark学习（二）Spark是什么

最新推荐文章于 2021-10-29 16:59:18 发布

工紫新波

最新推荐文章于 2021-10-29 16:59:18 发布

阅读量351

点赞数

分类专栏： Spark 文章标签：大数据

本文链接： https://blog.csdn.net/qq_30589271/article/details/85458196

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Spark是什么

Spark从2012年诞生，在2016年飞速的火了起来，抢占了很多Hadoop的市场份额，其主要的竞争核心就是优于MapReduce，所以让我们开始了解一下Spark吧～

Spark框架

Spark是内部是一个完整的生态系统：

1、Spark Core

处于底层，用于支持不同应用场景的组件

2、Spark SQL

对关系型数据库进行存储

3、Spark Streaming

对流数据进行存储

4、Mlib

封装了机器学习的包，可对数据进行机器学习分析

5、Graphx

图计算

Spark生态系统

Spark不仅可以和Hadoop中的组件（HDFS、HBase、Hiv等）进行组合使用，同时也可以和非关系型数据库进行组合使用。

Spark和Hadoop的优缺点对比

表达能力有限：MapReduce 所有的操作都是Map、Reduce两个函数所以，表达能力有限。
磁盘I/O开销大：因为很多机器学习是迭代的过程，在磁盘中进行运算会对磁盘的开销大大增加。
延迟高：因为reduce要等待MapReduce操作完成后再进行作用，所以等待时间导致延迟增加。

立减 ¥

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

什么是SPARK

Wxh_bai的博客

04-06

841

Spark是一款基于内存计算的开源分布式计算框架，支持批处理、流处理和机器学习等各种计算模式。它可以在Hadoop集群中运行，也可以独立运行。

Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解

08-25

"Spark学习笔记（二）Spark2.3 HA集群的分布式安装图文详解" 本文主要介绍了Spark2.3 HA集群的分布式安装，结合图文与实例形式详细分析了Spark2.3 HA集群分布式安装具体下载、安装、配置、启动及执行spark程序等...

参与评论您还未登录，请先登录后发表或查看评论

什么是Spark？

weixin_34356555的博客

06-01

108

什么是Spark Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加高速。Spark很小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码仅仅有63个Scala文件。很短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境，可是两者之间还存在一些不同之处。这些实用的不同之处使 ...

二：Spark是什么？

玉汝于成

12-23

4549

（本人初次接触spark可能有些地方理解的不够到位，希望各位读者多多指正，对于不恰当的地方也会进行改进）一、spark:快速通用的大规模数据处理引擎。（想对spark的定义和特点有较具体的认识可参考其官方网站：http://spark.apache.org/）官方文档：二、spark的特点： 1、速度快在上篇文章中已经提到过spark的计算速度快是基于两原因：一是：spar

什么是Spark

Froger的博客

03-01

866

一、Spark是什么？简单来说，Spark是一个通用计算框架，是一个用来实现快速而通用的集群计算的平台，是一个大一统的软件栈(Spark 项目包含多个紧密集成的组件)。 Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎，有着速度快和通用的特点，支持为各种不同应用场景专门设计的高级组件，比如 SQL 和机器学习等。

什么是spark

你还有好多未完成的梦，你有什么理由停下？

08-12

1470

什么是spark？分布式计算框架， Mapreduce也是分布式计算框架，但是Spark要多加2个字，分布式内存计算框架，牛就牛在内存这块。MR分布式计算框架比较会偷懒，干活干着干着就把活放着休息（写到磁盘），而Spark则不偷懒，一直干不停（数据都在内存），随叫随到，从不犹豫，并且Spark干活也比较有方法，爱动脑子（DAG）。所以和它的堂兄MapRedcue比起来，有如哪些不同点...

Spark机器学习案例实战.pdf

07-25

spark-shell对于快速测试和学习Spark应用非常有用。它将SparkSession作为默认上下文，用户不需要显式创建即可直接使用。 8. Spark Standalone模式 Spark Standalone模式是指Spark自己的集群管理器，它允许用户在...

spark学习资料

03-31

总的来说，Spark学习资料包括对Spark核心概念、RDD操作、Spark SQL、Spark Streaming和MLlib的全面学习，无论你是Scala还是Python开发者，都能通过这些资料深入理解和掌握Spark技术，从而在大数据处理和分析领域提升...

spark学习笔记一

01-20

一.spark与hadoop比较 Spark是一个计算框架相当于Hadoop的MapReduce。Hadoop中是包含计算框架MapReduce和分布式文件系统HDFS，更广泛的讲是还包含其生态系统上的其他系统比如Hbase和Hive等。 Spark相比MapReduce的...

Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学

最新发布

05-15

Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

Spark是什么

Chris_MZJ的博客

11-11

395

Spark是什么? 引用官网(官方网址：http://spark.apache.org/)的一段话： Apache Spark™ is a fast and general engine for large-scale data processing. Apache Spark is an open source cluster computing system that aims to mak...

带你深入浅出，彻底了解什么是Spark？

大数据梦想家

02-18

9667

大数据专业，或者人工智能，深度学习方向的小伙伴们一定对Spark这个名词不陌生吧~不认识也没有关系，今天Alice为大家带来关于Spark的一个详细介绍。文章目录激动人心的Spark发展史Spark为什么流行？1：优秀的数据模型和计算抽象2：完善的生态圈3.Spark VS HadoopSpark使...

Spark是什么？

Vulpes corsac

08-24

599

Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。 Spark拥有多种语言的函数式编程API，提供了除map和reduce之外更多的运算符，这些操作是通过一个称作弹性分布式数据集(resilient distributed datasets, RDDs)的分布式数据框架进行的。RDD 是指能横跨集群所有节点进行并行计算的分区...

一Spark是什么

hwm的专栏

12-04

469

Spark是什么？ 1、All in One。上层受益。上层的所有组件都是基于底层的Spark Core的，那么上层的所有应用都可以中底层中获益，比如我的底层速度加快了，那么上层应用的速度也会随着加快。 2、Spark集成了sql、streaming、mklib、GraphX。大大减少了运维成本。 3、Spark sql、streaming、mklib、GraphX都是基于底层的...

（一）spark是什么？