spark - 文章中心

2016-02-24 21:55:57

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。我们的应用场景是分析用户使用手机App的行为，描述如下所示：手机客户端会收集用户的行为事件（我们以点击事件为例），将数据

分类：Spark | 阅读(3869) | 评论(0)

Kafka+SparkStreaming实现实时统计

2016-02-24 10:53:41

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。实时统计需求以60秒为间隔，统计60秒内的pv,ip数,uv 最终结果包括：时间点：pv：ips：uv 原始日志格式 2015-11-11T14:59:59|~|xxx

分类：Spark | 阅读(3720) | 评论(0)

基于Spark的电影推荐系统

2016-02-22 16:48:56

基于Mahout的电影推荐系统详见 http://www.php3.cn/a/178.html 下载示例数据本工程所用到的数据来源于此处 http://grouplens.org/datasets/movielens/ 有100k到10m的数据都有。我们这里选择100k的数据。对下载的数据解压之后，会出现很多文件，我们需要使用u.data和u.user文件。详细的数据说明可以参见READ

分类：Spark | 阅读(4104) | 评论(0)

Spark Mlib介绍

2016-02-22 15:09:34

MLlib 是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维，当然也包括调优的部分 Data types Basic statistics (基本统计) summary statistics 概括统计 correlations 相关性

分类：Spark | 阅读(3155) | 评论(0)

Spark实例TopN

2016-02-18 16:34:47

TopN操作网上经常见到的问题：给定一个大文件，求里面Ip出现最多次数的前N个Ip地址和出现次数。 bin/spark-shell #进入spark-shell scala> val data = sc.textFile("/dw/spark/log.txt") #加载文件 14/05/14 17:23:33 INFO MemoryStore: ensureFreeS

分类：Spark | 阅读(3240) | 评论(0)

Spark的Map和Reduce

2016-02-02 14:02:00

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。如何创建RDD？ RDD可以从普通数组创建出来，也可以从文件系统或者

分类：Spark | 阅读(2909) | 评论(0)

Spark History Server配置使用

2016-01-28 11:19:55

Spark History Server的作用在运行Spark应用程序的时候，driver会提供一个webUI用于展现应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口。也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程序在运行完应用程序之后，将应用程序的运

分类：Spark | 阅读(4126) | 评论(0)

Spark SQL详解

2016-01-25 17:18:52

1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型，并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”（类似关系表的字段定义）所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建：结构化数据文件，hive的表，外部数据库，或者RDDs, S

分类：Spark | 阅读(4611) | 评论(0)

Spark Streaming详解

2016-01-25 16:49:33

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习算法、图算法包来处理数据。它的工

分类：Spark | 阅读(3951) | 评论(0)

Spark 操作实例

2016-01-19 19:30:38

Spark shell提供了一个简单方式去学习API，它也是一个交互式分析数据的强大工具。你既可以使用Scala(运行在JVM之上，所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令: ./bin/spark-shell Spark最主要的一个抽象出来的概念就是分布式的数据集合，也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以

分类：Spark | 阅读(3441) | 评论(0)

Spark三种部署方式比较

2015-12-18 13:44:01

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一个集群资源，最大的好处是降低运维成本

分类：Spark | 阅读(2535) | 评论(0)

Spark原理分析

2015-12-17 14:29:19

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Ap

分类：Spark | 阅读(3073) | 评论(0)