Spark | 免费资源部落

【Spark】标签文章列表

免费空间精品导读

Docker：BlueMix、Google Container、DaoCloud、TenxCloud

玩转空间：MyOwnFreeHost 阿里百川TAE、新浪云SAE Github

spark-streaming-kafka怎样通过KafkaUtils.createDirectStream的方式处理数据阅读全文»

spark-streaming-kafka怎样通过KafkaUtils.createDirectStream的方式处理数据，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。packagehgs.spark.streamingimportorg.apache.spark.SparkConfimportorg.apache.spark.Spa

日期：2024年05月20日 | 分类：免费建站

spark on k8s与spark on k8s operator的对比是怎样的阅读全文»

这期内容当中小编将会给大家带来有关spark on k8s与spark on k8s operator的对比是怎样的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。对于目前基于k8s的的spark应用，主要采用两种方式运行spark原生支持的 spark on k8s基于k8s的operator的 spark on k8s operator前者是spark社区支持

日期：2024年05月20日 | 分类：免费建站

Spark 3.0 AQE及CBO的示例分析阅读全文»

这篇文章给大家介绍Spark 3.0 AQE及CBO的示例分析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。Spark3.0已经发布半年之久，这次大版本的升级主要是集中在性能优化和文档丰富上，其中46%的优化都集中在Spark SQL上，SQL优化里最引人注意的非Adaptive Query Execution莫属了。Adaptive Query Execution(AQE)

日期：2024年05月20日 | 分类：免费建站

大数据开发中如何进行Spark闭包的理解分析阅读全文»

这篇文章将为大家详细讲解有关大数据开发中如何进行Spark闭包的理解分析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。1.从Scala中理解闭包闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数：valmultiplier=(i:Int)=>i*1

日期：2024年05月20日 | 分类：免费建站

选择Parquet for Spark SQL 的 5 大原因分别是什么阅读全文»

这篇文章给大家介绍选择Parquet for Spark SQL 的 5 大原因分别是什么，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。列式存储 (columnar storage) 在处理大数据的时候可以有效地节省时间和空间。例如，与使用文本相比，Parquet 让 Spark SQL 的性能平均提高了 10 倍，这要感谢初级的读取器过滤器、高效的执行计划，以及 Spark

日期：2024年05月20日 | 分类：免费建站

Spark On MaxCompute如何访问Phonix数据阅读全文»

本篇文章为大家展示了Spark On MaxCompute如何访问Phonix数据，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。一、购买Hbase1.1并设置对应资源1.1购买hbasehbase主要版本为2.0与1.1，这边选择对应hbase对应的版本为1.1 Hbase与Hbase2.0版本的区别 HBase1.1版本 1.1版本基于HBase社区1.

日期：2024年05月19日 | 分类：免费建站

Spark 3.0内置支持GPU调度的示例分析阅读全文»

这篇文章将为大家详细讲解有关Spark 3.0内置支持GPU调度的示例分析，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用 GPU、FPGA 或 TPU 来加速计算。在 Apache Hadoop 3.1 版本里面已经开始内置原生支持 GPU

日期：2024年05月19日 | 分类：免费建站

Spark2.2.0中Spark系统架构及任务提交流程是怎样的阅读全文»

本篇文章给大家分享的是有关Spark2.2.0中Spark系统架构及任务提交流程是怎样的，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。在讲解Spark系统架构之前，先给大家普及一些比较重要的概念：术语描述ApplicationSpark的应用程序，包含一个Driver、多个ExecutorSparkContxtspark应用程序入口，

日期：2024年05月19日 | 分类：免费建站

怎么解析SPARK foreach循环中的变量问题阅读全文»

怎么解析SPARK foreach循环中的变量问题，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。原因在spark算子中引用的外部变量，其实是变量的副本，在算子中对其值进行修改，只是改变副本的值，外部的变量还是没有变。通俗易懂的讲就是foreach里的变量带不出来的，除非用map，将结果作为rdd返回解决方案：1、使用广播变量ob

日期：2024年05月19日 | 分类：免费建站

怎么附加Spark的源代码阅读全文»

这篇文章将为大家详细讲解有关怎么附加Spark的源代码，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。由Wang，Jerry创建，最后一次修改于2015年8月27日关于怎么附加Spark的源代码就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

日期：2024年05月19日 | 分类：免费建站

怎么应对Spark-Redis行海量数据插入、查询作业时碰到的问题阅读全文»

今天就跟大家聊聊有关怎么应对Spark-Redis行海量数据插入、查询作业时碰到的问题，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。由于redis是基于内存的数据库，稳定性并不是很高，尤其是standalone模式下的redis。于是工作中在使用Spark-Redis时也会碰到很多问题，尤其是执行海量数据插入与查询的场景中。海量数据查询Re

日期：2024年05月19日 | 分类：免费建站

Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件的示例分析阅读全文»

这篇文章给大家介绍Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件的示例分析，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。首先说一下，这里解决的问题应用场景：sparksql处理Hive表数据时，判断加载的是否是分区表，以及分区表的字段有哪些？再进一步限制查询分区表必须指定分区？这里涉及到两种情况：select SQL查询和加载Hive表路径的方式

日期：2024年05月19日 | 分类：免费建站

EMR Spark引擎是如何做到在存算分离下写性能提升10倍以上的阅读全文»

这篇文章给大家介绍EMR Spark引擎是如何做到在存算分离下写性能提升10倍以上的，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。引言随着大数据技术架构的演进，存储与计算分离的架构能更好的满足用户对降低数据存储成本，按需调度计算资源的诉求，正在成为越来越多人的选择。相较 HDFS，数据存储在对象存储上可以节约存储成本，但与此同时，对象存储对海量文件的写性能也会差很多。MapR

日期：2024年05月19日 | 分类：免费建站

如何解析Spark集群和任务执行过程阅读全文»

本篇文章给大家分享的是有关如何解析Spark集群和任务执行过程，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。Spark集群组件 Spark是典型的Master/Slave架构，集群主要包括以下4个组件：Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRA

日期：2024年05月19日 | 分类：免费建站

怎样浅谈Spark的多语言支持阅读全文»

怎样浅谈Spark的多语言支持，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Spark 设计上的优秀无容置疑，甫一出道便抢了 Hadoop 的 C 位，在开源大数据的黄金十年里一时风头无两，在人工智能时代的当下仍然能够与时俱进，不可谓不牛逼。架构和设计上的卓越，不遑多言，美中不足之处自然也有不少，比如调度模型跟 MapReduce

日期：2024年05月19日 | 分类：免费建站

Rainbond怎样实现部署Spark Standalone 集群阅读全文»

这期内容当中小编将会给大家带来有关Rainbond怎样实现部署Spark Standalone 集群，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。Standalone 是 Spark 自身提供的一种主从集群部署模式。本文讲述一个常规1主多从的集群部署模式，该模式下master服务依靠Rainbond平台监控保障其可用性，支持重新调度重启。 worker服务可以根

日期：2024年05月19日 | 分类：免费建站

spark高层通用调优是怎样进行的阅读全文»

这期内容当中小编将会给大家带来有关spark高层通用调优是怎样进行的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。一，并行度如果并行度设置的不足，那么就会导致集群浪费。Spark自动会根据文件的大小，是否可分割等因素来设置map的数目(后面会详细讲解输入格式，同时详细讲解各种输入的map数的决定)。对于分布式reduce操作，例如groupbykey和reduc

日期：2024年05月19日 | 分类：免费建站

如何进行Spark性能调优中的RDD算子调优阅读全文»

这篇文章将为大家详细讲解有关如何进行Spark性能调优中的RDD算子调优，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。Spark调优之RDD算子调优不废话，直接进入正题！1. RDD复用在对RDD进行算子时，要避免相同的算子和计算逻辑之下对RDD进行重复的计算，如下图所示： RDD的重复计算对上图中的RDD计算架构进行修改，得到如下图所示的优化结

日期：2024年05月19日 | 分类：免费建站

spark jobserver源码的示例分析阅读全文»

小编给大家分享一下spark jobserver源码的示例分析，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！spark jobserver的特征：1.“SparkasService”：针对job和contexts的各个方面提供了REST风格的api接口进行管理2.支持SparkSQL、Hive、StreamingCont

日期：2024年05月19日 | 分类：免费建站