Spark学习(二)Spark是什么
Spark是什么
Spark从2012年诞生,在2016年飞速的火了起来,抢占了很多Hadoop的市场份额,其主要的竞争核心就是优于MapReduce,所以让我们开始了解一下Spark吧~
Spark框架
Spark是内部是一个完整的生态系统:
1、Spark Core
处于底层,用于支持不同应用场景的组件
2、Spark SQL
对关系型数据库进行存储
3、Spark Streaming
对流数据进行存储
4、Mlib
封装了机器学习的包,可对数据进行机器学习分析
5、Graphx
图计算
Spark生态系统
Spark不仅可以和Hadoop中的组件(HDFS、HBase、Hiv等)进行组合使用,同时也可以和非关系型数据库进行组合使用。
Spark和Hadoop的优缺点对比
表达能力有限:MapReduce 所有的操作都是Map、Reduce两个函数所以,表达能力有限。
磁盘I/O开销大:因为很多机器学习是迭代的过程,在磁盘中进行运算会对磁盘的开销大大增加。
延迟高:因为reduce要等待MapReduce操作完成后再进行作用,所以等待时间导致延迟增加。
m0_67782259: 请问其他部分的演示文稿在哪里找呀
weixin_42701531: 终于解决报错了
不劈扣篮筐不改名: 博主,我最近也在搞这个,而且我们很有可能看的是同一篇文章,可以加个联系方式交流一下吗
CSDN-Ada助手: 推荐 Python入门 技能树:https://edu.csdn.net/skill/python?utm_source=AI_act_python
骑着蜗牛追火箭๑: 感谢大佬