登录 |  注册 |  繁體中文

文章中心
2016-01-28 11:19:55
Spark History Server的作用 在运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,Spark Application运行完(成功/失败)后,将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运
2016-01-26 15:09:05
方案一:用Eclipse自带的Export功能 步骤1:准备主清单文件 “MANIFEST.MF”, 由于是打包引用了第三方jar包的Java项目,故需要自定义配置文件MANIFEST.MF,在该项目下建立文件MANIFEST.MF,内容如下: Manifest-Version: 1.0 Class-Path: lib/commons-codec.jar lib/commons-ht
2016-01-25 17:18:52
1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”(类似关系表的字段定义)所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建:结构化数据文件,hive的表,外部数据库,或者RDDs,  S
2016-01-25 16:49:33
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。 它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。   它的工
2016-01-25 16:31:14
需要先安装gnuplot  yum install gnuplot   cd opentsdb ./build.sh  #创建   配置环境变量,并创始建hbase表 env COMPRESSION=none HBASE_HOME=/usr/local/hbase/ /usr/local/opentsdb/src/create_table.s
2016-01-25 16:04:05
之前安装集群,现在介绍安装伪分布式。 hbase的配置,相比hadoop的配置还是比较简单的,伪分式的配置只需二步,第一步需要配置hbase-env.sh,第二步需要配置hbase-site.xml,下面给出配置。 hbase-env.sh里的配置内容: export JAVA_HOME=/data/app/jdk1.7  export HBASE_MANAGES_ZK=true
2016-01-19 19:30:38
Spark shell提供了一个简单方式去学习API,它也是一个交互式分析数据的强大工具。 你既可以使用Scala(运行在JVM之上,所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令: ./bin/spark-shell Spark最主要的一个抽象出来的概念就是分布式的数据集合, 也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以
2016-01-07 10:57:53
过滤器的介绍,详见 http://www.php3.cn/a/163.html   过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务 1 HBase 提供了枚举类型的变量来表示这些抽象的操作符: LESS LESS_OR_EQUAL EQUAL NOT_EQUAL
2016-01-06 16:44:52
1 过滤器 HBase 不仅提供了增、删、改、查等简单的查询,而且提供了更加高级的过滤器(Filter)来查询。 过滤器可以根据列 族、列、版本等更多的条件来对数据进行过滤,基于 HBase 本身提供的三维有序(行键,列,版本有序),这些过滤器可以高效地完成查询过滤的任务,带有过滤器条件的 RPC 查询请求会把过滤器分发到各个 RegionServer(这是一个服务端过滤器),这样也可以降低网络传输的压力。&nb
2016-01-06 16:36:55
HBase中的表一般有这样的特点: 1 大:一个表可以有上亿行,上百万列 2 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 3 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 下面一幅图是Hbase在Hadoop Ecosystem中的位置。 二、逻辑视图 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row fam
2015-12-31 08:47:10
step 1 创建sqoop job a.配置sqoop metastore服务 修改sqoop/conf/sqoop-site.xml文件 相关属性: sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享(shared)met
2015-12-21 14:11:38
bc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string $left_operand, string $right_operand[, int $scale]),如果scale没有提供,就用bcscale的缺省值。这里大数直接用一个由0-9组成的string表示,计算结果返回的也是一个 string。 bcadd &m
26页/总39页  共462条记录  首页 上一页 下一页 尾页

回到顶部