登录 |  注册 |  繁體中文

文章中心
2016-02-22 11:30:42
基于Spark的电影推荐系统 详见  http://www.php3.cn/a/180.html 1、简介 Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括协同过滤、聚类、分类等等。 Taste 是 Apache Mahout 提供的
2016-02-19 11:02:18
一、Mahout简介 查了Mahout的中文意思——驭象的人,再看看Mahout的logo,(就是他,骑在象头上的那个Mahout)         Apache Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类(Classificatio
2016-02-19 10:38:55
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,后续将给出基于 Apache Mahout 的协同过滤算法的高效实现。 推荐中的协同过滤算法简单说明下:      首先,通过分
2016-02-18 18:09:19
1、推荐算法的条件 推荐算法从92年开始,发展到现在也有20年了,当然,也出了各种各样的推荐算法,但是不管怎么样,都绕不开几个条件,这是推荐的基本条件 根据和你共同喜好的人来给你推荐 根据你喜欢的物品找出和它相似的来给你推荐 根据你给出的关键字来给你推荐,这实际上就退化成搜索算法了 根据上面的几种条件组合起来给你推荐 实际上,现有的条件就这些啦,至于怎么发挥这些条件
2016-02-18 16:34:47
TopN操作 网上经常见到的问题: 给定一个大文件,求里面Ip出现最多次数的前N个Ip地址和出现次数。 bin/spark-shell #进入spark-shell scala> val data = sc.textFile("/dw/spark/log.txt") #加载文件 14/05/14 17:23:33 INFO MemoryStore: ensureFreeS
2016-02-02 14:02:00
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。 如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者
2016-01-29 17:10:06
安装 sbt Spark 中没有自带 sbt,需要手动安装 sbt(下载),我们选择安装在 /usr/local/sbt 中: mkdir /usr/local/sbt cp sbt-launch.jar /usr/local/sbt touch sbt #输入以下内容 #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadi
2016-01-28 11:19:55
Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运
2016-01-26 15:09:05
方案一:用Eclipse自带的Export功能 步骤1:准备主清单文件 “MANIFEST.MF”, 由于是打包引用了第三方jar包的Java项目,故需要自定义配置文件MANIFEST.MF,在该项目下建立文件MANIFEST.MF,内容如下: Manifest-Version: 1.0 Class-Path: lib/commons-codec.jar lib/commons-ht
2016-01-25 17:18:52
1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”(类似关系表的字段定义)所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建:结构化数据文件,hive的表,外部数据库,或者RDDs,  S
2016-01-25 16:49:33
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。   它的工
2016-01-25 16:31:14
需要先安装gnuplot  yum install gnuplot   cd opentsdb ./build.sh  #创建   配置环境变量,并创始建hbase表 env COMPRESSION=none HBASE_HOME=/usr/local/hbase/ /usr/local/opentsdb/src/create_table.s
25页/总39页  共457条记录  首页 上一页 下一页 尾页

回到顶部