文章中心 - 晨浪网

2016-02-24 21:55:57

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。我们的应用场景是分析用户使用手机App的行为，描述如下所示：手机客户端会收集用户的行为事件（我们以点击事件为例），将数据

分类：Spark | 阅读(3674) | 评论(0)

Kafka+SparkStreaming实现实时统计

2016-02-24 10:53:41

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。实时统计需求以60秒为间隔，统计60秒内的pv,ip数,uv 最终结果包括：时间点：pv：ips：uv 原始日志格式 2015-11-11T14:59:59|~|xxx

分类：Spark | 阅读(3674) | 评论(0)

基于Spark的电影推荐系统

2016-02-22 16:48:56

基于Mahout的电影推荐系统详见 http://www.php3.cn/a/178.html 下载示例数据本工程所用到的数据来源于此处 http://grouplens.org/datasets/movielens/ 有100k到10m的数据都有。我们这里选择100k的数据。对下载的数据解压之后，会出现很多文件，我们需要使用u.data和u.user文件。详细的数据说明可以参见READ

分类：Spark | 阅读(4002) | 评论(0)

Spark Mlib介绍

2016-02-22 15:09:34

MLlib 是spark的可以扩展的机器学习库，由以下部分组成：通用的学习算法和工具类，包括分类，回归，聚类，协同过滤，降维，当然也包括调优的部分 Data types Basic statistics (基本统计) summary statistics 概括统计 correlations 相关性

分类：Spark | 阅读(3076) | 评论(0)

机器学习简介

2016-02-22 14:47:04

1 机器学习强调三个关键词：算法、经验、性能，其处理过程如下图所示。上图表明机器学习是数据通过算法构建出模型并对模型进行评估，评估的性能如果达到要求就拿这个模型来测试其他的数据，如果达不到要求就要调整算法来重新建立模型，再次进行评估，如此循环往复，最终获得满意的经验来处理其他的数据。 1.2 机器学习的分类机器学习分为监督学习（Supervised learning）、无监督学习（Unsupervise

分类：人工智能&大数据 | 阅读(2086) | 评论(0)

基于Mahout的电影推荐系统

2016-02-22 11:30:42

基于Spark的电影推荐系统详见 http://www.php3.cn/a/180.html 1、简介 Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括协同过滤、聚类、分类等等。 Taste 是 Apache Mahout 提供的

分类：人工智能&大数据 | 阅读(2656) | 评论(0)

Mahout简介、安装、测试

2016-02-19 11:02:18

一、Mahout简介查了Mahout的中文意思——驭象的人，再看看Mahout的logo，（就是他，骑在象头上的那个Mahout） Apache Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类(Classificatio

分类：人工智能&大数据 | 阅读(1633) | 评论(0)

协同过滤算法实现分析

2016-02-19 10:38:55

在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密，后续将给出基于 Apache Mahout 的协同过滤算法的高效实现。推荐中的协同过滤算法简单说明下：首先，通过分

分类：人工智能&大数据 | 阅读(1368) | 评论(0)

推荐算法分析

2016-02-18 18:09:19

1、推荐算法的条件推荐算法从92年开始，发展到现在也有20年了，当然，也出了各种各样的推荐算法，但是不管怎么样，都绕不开几个条件，这是推荐的基本条件根据和你共同喜好的人来给你推荐根据你喜欢的物品找出和它相似的来给你推荐根据你给出的关键字来给你推荐，这实际上就退化成搜索算法了根据上面的几种条件组合起来给你推荐实际上，现有的条件就这些啦，至于怎么发挥这些条件

分类：人工智能&大数据 | 阅读(2370) | 评论(0)

Spark实例TopN

2016-02-18 16:34:47

TopN操作网上经常见到的问题：给定一个大文件，求里面Ip出现最多次数的前N个Ip地址和出现次数。 bin/spark-shell #进入spark-shell scala> val data = sc.textFile("/dw/spark/log.txt") #加载文件 14/05/14 17:23:33 INFO MemoryStore: ensureFreeS

分类：Spark | 阅读(3161) | 评论(0)

Spark的Map和Reduce

2016-02-02 14:02:00

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。如何创建RDD？ RDD可以从普通数组创建出来，也可以从文件系统或者

分类：Spark | 阅读(2849) | 评论(0)

使用 sbt 打包 Scala 程序

2016-01-29 17:10:06

安装 sbt Spark 中没有自带 sbt，需要手动安装 sbt(下载)，我们选择安装在 /usr/local/sbt 中： mkdir /usr/local/sbt cp sbt-launch.jar /usr/local/sbt touch sbt #输入以下内容 #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadi

分类：Spark | 阅读(3489) | 评论(0)