文章中心 - 晨浪网

2015-12-31 08:47:10

step 1 创建sqoop job a.配置sqoop metastore服务修改sqoop/conf/sqoop-site.xml文件相关属性： sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享（shared)met

分类：人工智能&大数据 | 阅读(2386) | 评论(0)

php浮点数精确运算

2015-12-21 14:11:38

bc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale]，比如string bcadd(string $left_operand, string $right_operand[, int $scale])，如果scale没有提供，就用bcscale的缺省值。这里大数直接用一个由0-9组成的string表示，计算结果返回的也是一个 string。 bcadd &m

分类：php | 阅读(2797) | 评论(0)

Spark三种部署方式比较

2015-12-18 13:44:01

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一个集群资源，最大的好处是降低运维成本

分类：Spark | 阅读(2606) | 评论(0)

Spark原理分析

2015-12-17 14:29:19

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Ap

分类：Spark | 阅读(3143) | 评论(0)

Spark 安装

2015-12-17 11:09:32

1. 安装 1.1 Spark的运行依赖于jvm ，所以需要先安装 JDK 1.7, 不需要安装Scala 1.2 下载预编译好的Spark 解压 $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz 3 单机运行 ./

分类：Spark | 阅读(3422) | 评论(0)

Scala基础语法

2015-12-17 10:42:08

Scala基础语法如果有很好的了解Java语言，那么将很容易学习Scala。 Scala和Java间的最大语法的区别在于;行结束符是可选的。考虑Scala程序它可以被定义为通过调用彼此方法进行通信的对象的集合。现在，简要地看看什么叫做类，对象，方法和临时变量。对象 - 对象有状态和行为。例如：

分类：Spark | 阅读(2254) | 评论(0)

hbase shell 命令详解

2015-12-16 19:39:29

HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是 Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bi

分类：hbase | 阅读(2188) | 评论(0)

大数据分析实例

2015-12-15 17:36:18

流程：数据的处理过程包括数据收集，数据清理，数据存储，数据分析，数据展现。在这里数据的收集由flume负责，定期从web server中收集log相关信息，对于实时数据的处理，将数据直接发送到kafka，然后交给后面的storm处理（这个没有做），对于离线部分，经过简单的mr处理后存储到hdfs上，然后使用hive操作。总的架构图：

分类：人工智能&大数据 | 阅读(1569) | 评论(0)

ZooKeeper原理及实例

2015-12-15 13:44:07

ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫 Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper提供的 Client API的使用，第三部分介绍一些ZooKeeper典型的应用场景。 ZooKeeper基本原理

分类：人工智能&大数据 | 阅读(2167) | 评论(0)

Zookeeper 安装和配置

2015-12-09 14:26:58

ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式Zo

分类：人工智能&大数据 | 阅读(2014) | 评论(0)

Jvm内存管理

2015-11-27 15:06:07

一、Jvm内存描述 Jvm管理的内存大致包括三种不同类型的内存区域：Permanent Generation space（永久保存区域）、Heap space(堆区域)、Java Stacks(Java栈）。 1， Permanent Generation space（永久保存区域）主要存放Class（类），Meta的信息，Class第一次被Load的时候，Class需要存储的内容主要包括方法和静态属性。 2， Heap

分类：其它 | 阅读(1976) | 评论(0)

Hadoop YARN架构设计要点

2015-11-26 16:44:07

YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以

分类：人工智能&大数据 | 阅读(2077) | 评论(0)