登录 |  注册 |  繁體中文

文章中心
2016-01-25 16:04:05
之前安装集群,现在介绍安装伪分布式。 hbase的配置,相比hadoop的配置还是比较简单的,伪分式的配置只需二步,第一步需要配置hbase-env.sh,第二步需要配置hbase-site.xml,下面给出配置。 hbase-env.sh里的配置内容: export JAVA_HOME=/data/app/jdk1.7  export HBASE_MANAGES_ZK=true
2016-01-19 19:30:38
Spark shell提供了一个简单方式去学习API,它也是一个交互式分析数据的强大工具。 你既可以使用Scala(运行在JVM之上,所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令: ./bin/spark-shell Spark最主要的一个抽象出来的概念就是分布式的数据集合, 也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以
2016-01-07 10:57:53
过滤器的介绍,详见 http://www.php3.cn/a/163.html   过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务 1 HBase 提供了枚举类型的变量来表示这些抽象的操作符: LESS LESS_OR_EQUAL EQUAL NOT_EQUAL
2016-01-06 16:44:52
1 过滤器 HBase 不仅提供了增、删、改、查等简单的查询,而且提供了更加高级的过滤器(Filter)来查询。 过滤器可以根据列 族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务,带有过滤器条件的 RPC 查询请求会把过滤器分发到各个 RegionServer(这是一个服务端过滤器),这样也可以降低网络传输的压力。&nb
2016-01-06 16:36:55
HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 下面一幅图是Hbase在Hadoop Ecosystem中的位置。 二、逻辑视图 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row fam
2015-12-31 08:47:10
step 1 创建sqoop job a.配置sqoop metastore服务 修改sqoop/conf/sqoop-site.xml文件 相关属性: sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享(shared)met
2015-12-21 14:11:38
bc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string $left_operand, string $right_operand[, int $scale]),如果scale没有提供,就用bcscale的缺省值。这里大数直接用一个由0-9组成的string表示,计算结果返回的也是一个 string。 bcadd &m
2015-12-18 13:44:01
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN, 其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个 通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本
2015-12-17 14:29:19
什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Ap
2015-12-17 11:09:32
1.  安装      1.1  Spark的运行依赖于jvm ,所以需要先安装 JDK 1.7, 不需要安装Scala    1.2 下载预编译好的Spark  解压 $ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz 3 单机运行   ./
2015-12-17 10:42:08
Scala基础语法     如果有很好的了解Java语言,那么将很容易学习Scala。 Scala和Java间的最大语法的区别在于;行结束符是可选的。考虑Scala程序它可以被定义为通过调用彼此方法进行通信的对象的集合。现在,简要地看看什么叫做类,对象,方法和临时变量。 对象 - 对象有状态和行为。例如:
2015-12-16 19:39:29
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是 Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bi
26页/总39页  共457条记录  首页 上一页 下一页 尾页

回到顶部