文章存档
      文章中心
      2016-02-22 14:47:04
              1 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。
	
	上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。
	1.2 机器学习的分类
	机器学习分为监督学习(Supervised learning)、无监督学习(Unsupervise
              
              
          2016-02-22 11:30:42
              基于Spark的电影推荐系统 详见  http://www.php3.cn/a/180.html
	1、简介
	Apache Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括协同过滤、聚类、分类等等。
	Taste 是 Apache Mahout 提供的
              
              
          2016-02-19 11:02:18
              一、Mahout简介
	查了Mahout的中文意思——驭象的人,再看看Mahout的logo,(就是他,骑在象头上的那个Mahout) 
	 
	 
	
		   Apache Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类(Classificatio
              
              
          2016-02-19 10:38:55
              在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,后续将给出基于 Apache Mahout 的协同过滤算法的高效实现。
	推荐中的协同过滤算法简单说明下:
	     首先,通过分
              
              
          2016-02-18 18:09:19
              1、推荐算法的条件
	推荐算法从92年开始,发展到现在也有20年了,当然,也出了各种各样的推荐算法,但是不管怎么样,都绕不开几个条件,这是推荐的基本条件
	
		根据和你共同喜好的人来给你推荐
	
		根据你喜欢的物品找出和它相似的来给你推荐
	
		根据你给出的关键字来给你推荐,这实际上就退化成搜索算法了
	
		根据上面的几种条件组合起来给你推荐
	实际上,现有的条件就这些啦,至于怎么发挥这些条件
              
              
          2016-02-18 16:34:47
              TopN操作
	
		网上经常见到的问题: 给定一个大文件,求里面Ip出现最多次数的前N个Ip地址和出现次数。
	
 bin/spark-shell  #进入spark-shell
scala> val data = sc.textFile("/dw/spark/log.txt") #加载文件
14/05/14 17:23:33 INFO MemoryStore: ensureFreeS
              
              
          2016-02-02 14:02:00
              RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。
如何创建RDD?
RDD可以从普通数组创建出来,也可以从文件系统或者
              
              
          2016-01-29 17:10:06
              安装 sbt
	Spark 中没有自带 sbt,需要手动安装 sbt(下载),我们选择安装在 /usr/local/sbt 中:
mkdir /usr/local/sbt
cp sbt-launch.jar /usr/local/sbt
touch sbt #输入以下内容
#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadi
              
              
          2016-01-28 11:19:55
              Spark History Server的作用
	在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运
              
              
          2016-01-26 15:09:05
              方案一:用Eclipse自带的Export功能
	步骤1:准备主清单文件 “MANIFEST.MF”,
	由于是打包引用了第三方jar包的Java项目,故需要自定义配置文件MANIFEST.MF,在该项目下建立文件MANIFEST.MF,内容如下:
	
Manifest-Version: 1.0
Class-Path: lib/commons-codec.jar lib/commons-ht
              
              
          2016-01-25 17:18:52
              1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”(类似关系表的字段定义)所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。
	DataFrame可以通过多种来源创建:结构化数据文件,hive的表,外部数据库,或者RDDs, 
	S
              
              
          2016-01-25 16:49:33
              Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。
	它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。
	
	 
	它的工
              
              
          
