登录 |  注册 |  繁體中文

文章中心
2016-02-02 14:02:00
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。 如何创建RDD? RDD可以从普通数组创建出来,也可以从文件系统或者
2016-01-29 17:10:06
安装 sbt Spark 中没有自带 sbt,需要手动安装 sbt(下载),我们选择安装在 /usr/local/sbt 中: mkdir /usr/local/sbt cp sbt-launch.jar /usr/local/sbt touch sbt #输入以下内容 #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadi
2016-01-28 11:19:55
Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运
2016-01-26 15:09:05
方案一:用Eclipse自带的Export功能 步骤1:准备主清单文件 “MANIFEST.MF”, 由于是打包引用了第三方jar包的Java项目,故需要自定义配置文件MANIFEST.MF,在该项目下建立文件MANIFEST.MF,内容如下: Manifest-Version: 1.0 Class-Path: lib/commons-codec.jar lib/commons-ht
2016-01-25 17:18:52
1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”(类似关系表的字段定义)所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建:结构化数据文件,hive的表,外部数据库,或者RDDs,  S
2016-01-25 16:49:33
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。   它的工
2016-01-25 16:31:14
需要先安装gnuplot  yum install gnuplot   cd opentsdb ./build.sh  #创建   配置环境变量,并创始建hbase表 env COMPRESSION=none HBASE_HOME=/usr/local/hbase/ /usr/local/opentsdb/src/create_table.s
2016-01-25 16:04:05
之前安装集群,现在介绍安装伪分布式。 hbase的配置,相比hadoop的配置还是比较简单的,伪分式的配置只需二步,第一步需要配置hbase-env.sh,第二步需要配置hbase-site.xml,下面给出配置。 hbase-env.sh里的配置内容: export JAVA_HOME=/data/app/jdk1.7  export HBASE_MANAGES_ZK=true
2016-01-19 19:30:38
Spark shell提供了一个简单方式去学习API,它也是一个交互式分析数据的强大工具。 你既可以使用Scala(运行在JVM之上,所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令: ./bin/spark-shell Spark最主要的一个抽象出来的概念就是分布式的数据集合, 也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以
2016-01-07 10:57:53
过滤器的介绍,详见 http://www.php3.cn/a/163.html   过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务 1 HBase 提供了枚举类型的变量来表示这些抽象的操作符: LESS LESS_OR_EQUAL EQUAL NOT_EQUAL
2016-01-06 16:44:52
1 过滤器 HBase 不仅提供了增、删、改、查等简单的查询,而且提供了更加高级的过滤器(Filter)来查询。 过滤器可以根据列 族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务,带有过滤器条件的 RPC 查询请求会把过滤器分发到各个 RegionServer(这是一个服务端过滤器),这样也可以降低网络传输的压力。&nb
2016-01-06 16:36:55
HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 下面一幅图是Hbase在Hadoop Ecosystem中的位置。 二、逻辑视图 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row fam
24页/总37页  共440条记录  首页 上一页 下一页 尾页

回到顶部