大数据学习(24)-spark on hive和hive on spark的区别

news/2024/7/24 10:21:44 标签: 大数据, 学习, spark

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


1)Spark on Hive
Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤如下:

通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息;
获取到Hive的元数据信息之后可以拿到Hive表的数据;
通过SparkSQL来操作Hive表中的数据。

2)Hive on Spark
Hive on Spark是Hive既作为存储又负责sql的解析优化,Spark负责执行。这里Hive的执行引擎变成了Spark,不再是MR,这个要实现比Spark on Hive麻烦很多, 必须重新编译你的
spark和导入jar包,不过目前大部分使用的确实是spark on hive。

Hive默认使用MapReduce作为执行引擎,即Hive on MapReduce。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多。因此,Hive on Spark也会比Hive on MapReduce快。由于Hive on MapReduce的缺陷,所以企业里基本上很少使用了。

Spark on Hive和Hive on Spark的区别主要体现在以下三个方面:

  1. 数据源:Spark on Hive的数据源是Hive,它从Hive中获取数据,然后对数据进行SparkSQL操作。而Hive on Spark的数据源是Hive本身。
  2. 执行引擎:Spark on Hive底层运行的还是Spark RDD。而Hive on Spark则是将Hive查询从MapReduce操作替换为Spark RDD操作。
  3. 实现方式:Spark on Hive通过SparkSQL加载Hive的配置文件,获取Hive的元数据信息,然后就可以获取Hive的所有表的数据,并对其进行SparkSQL操作。而Hive on Spark则需要重新编译Spark和导入jar包才能实现。

http://www.niftyadmin.cn/n/5216230.html

相关文章

第六题-红和蓝【第六届传智杯程序设计挑战赛解题分析详解复盘】(JavaPythonC++实现)

🚀 欢迎来到 ACM 算法题库专栏 🚀 在ACM算法题库专栏,热情推崇算法之美,精心整理了各类比赛题目的详细解法,包括但不限于ICPC、CCPC、蓝桥杯、LeetCode周赛、传智杯等等。无论您是刚刚踏入算法领域,还是经验丰富的竞赛选手,这里都是提升技能和知识的理想之地。 ✨ 经典…

Vue+SpringBoot项目前端如何获取本地磁盘路径的照片

一、问题 今日项目中遇到的问题: 在页面想要展示本地磁盘路径的照片,但是一直无法显示出来 原因:可能是vue无法直接读取本地磁盘的照片(本人盲猜) 1.解决思路 1.后端进行静态资源映射 2.前端调用 2.实现步骤一 在后端的…

RabbitMQ之延迟消息实战

RabbitMQ之延迟消息实战 使用死信交换机实现延迟消息 使用死信交换机的过期时间以及没有消费者进行消费,时间到了就会到死信队列中,由此可以实现延迟消息使用延迟消息插件 前提:需要mq配置插件 延时信息案例实战 把一个30分钟的延迟消息可以…

【Java】实现一个自己的定时器

上文讲了怎样使用Java自带的定时器【Java】定时器的简单应用 这篇博客就来讲如何来编写一个自己实现的定时器 1、代码框架 由定时器的使用方法得知,我们在使用定时器的时候会添加一个任务timerTask类,而timer类则是我们行使任务的类,因此可…

MyBatis-Plus简介和入门操作

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

皮尔逊相关性分析的matlab实现,简介和实例

皮尔逊相关性分析(Pearson correlation analysis)是一种常用的统计方法,用于衡量两个变量之间的线性关系强度和方向。它通过计算两个变量之间的协方差和标准差来衡量它们之间的相关性。皮尔逊相关系数的取值范围为 -1 到 1,其中 -…

【Android】Android Framework系列--Launcher3各启动场景源码分析

Android Framework系列–Launcher3各启动场景源码分析 Launcher3启动场景 Launcher3是Android系统提供的默认桌面应用(Launcher),它的源码路径在“packages/apps/Launcher3/”。 Launcher3的启动场景主要包括: 开机后启动:开机时&#xff…

Java中wait()方法在synchronized方法中调用的奥秘

作为一名Java程序员,我们深知synchronized关键字和wait()方法在多线程编程中的重要性。 在本文中,我们将探讨为什么wait()方法需要在synchronized方法中调用,以及它们是如何协同工作的。 首先,让我们了解一下synchronized关键字和…