登录 |  注册 |  繁體中文

文章中心
2015-12-31 08:47:10
step 1 创建sqoop job a.配置sqoop metastore服务 修改sqoop/conf/sqoop-site.xml文件 相关属性: sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享(shared)met
2015-12-21 14:11:38
bc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string $left_operand, string $right_operand[, int $scale]),如果scale没有提供,就用bcscale的缺省值。这里大数直接用一个由0-9组成的string表示,计算结果返回的也是一个 string。 bcadd &m
2015-12-18 13:44:01
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN, 其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个 通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本
2015-12-17 14:29:19
什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Ap
2015-12-17 11:09:32
1.  安装      1.1  Spark的运行依赖于jvm ,所以需要先安装 JDK 1.7, 不需要安装Scala    1.2 下载预编译好的Spark  解压 $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz 3 单机运行   ./
2015-12-17 10:42:08
Scala基础语法     如果有很好的了解Java语言,那么将很容易学习Scala。 Scala和Java间的最大语法的区别在于;行结束符是可选的。考虑Scala程序它可以被定义为通过调用彼此方法进行通信的对象的集合。现在,简要地看看什么叫做类,对象,方法和临时变量。 对象 - 对象有状态和行为。例如:
2015-12-16 19:39:29
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是 Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bi
2015-12-15 17:36:18
流程:数据的处理过程包括数据收集,数据清理,数据存储,数据分析,数据展现。在这里数据的收集由flume负责,定期从web server中收集log相关信息,对于实时数据的处理,将数据直接发送到kafka,然后交给后面的storm处理(这个没有做),对于离线部分,经过简单的mr处理后存储到hdfs上,然后使用hive操作。 总的架构图:
2015-12-15 13:44:07
ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫 Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介绍ZooKeeper提供的 Client API的使用,第三部分介绍一些ZooKeeper典型的应用场景。 ZooKeeper基本原理
2015-12-09 14:26:58
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式Zo
2015-11-27 15:06:07
一、Jvm内存描述 Jvm管理的内存大致包括三种不同类型的内存区域:Permanent Generation space(永久保存区域)、Heap space(堆区域)、Java Stacks(Java栈)。 1, Permanent Generation space(永久保存区域)主要存放Class(类),Meta的信息,Class第一次被Load的时候,Class需要存储的内容主要包括方法和静态属性。 2, Heap
2015-11-26 16:44:07
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已 经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序 也需要借助YARN的资源管理功能,你也可以实现YARN提供的编程API,将你的应用程序运行于YARN之上,将资源的分配与回收统一交给YARN去管 理,可以
25页/总37页  共440条记录  首页 上一页 下一页 尾页

回到顶部