文章中心 - 晨浪网

2016-01-28 11:19:55

Spark History Server的作用在运行Spark应用程序的时候，driver会提供一个webUI用于展现应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口。也就是说，Spark Application运行完(成功/失败)后，将无法查看Application的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程序在运行完应用程序之后，将应用程序的运

分类：Spark | 阅读(4113) | 评论(0)

eclipse打包jar(含第三方jar)

2016-01-26 15:09:05

方案一：用Eclipse自带的Export功能步骤1：准备主清单文件 “MANIFEST.MF”，由于是打包引用了第三方jar包的Java项目，故需要自定义配置文件MANIFEST.MF，在该项目下建立文件MANIFEST.MF，内容如下： Manifest-Version: 1.0 Class-Path: lib/commons-codec.jar lib/commons-ht

分类：其它 | 阅读(1632) | 评论(0)

Spark SQL详解

2016-01-25 17:18:52

1、Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型，并且可被视为一个分布式的SQL查询引擎。DataFrame是由“命名列”（类似关系表的字段定义）所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建：结构化数据文件，hive的表，外部数据库，或者RDDs, S

分类：Spark | 阅读(4597) | 评论(0)

Spark Streaming详解

2016-01-25 16:49:33

Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源，使用简单的api函数比如 map, reduce, join, window等操作，还可以直接使用内置的机器学习算法、图算法包来处理数据。它的工

分类：Spark | 阅读(3936) | 评论(0)

openTsdb安装及使用

2016-01-25 16:31:14

需要先安装gnuplot yum install gnuplot cd opentsdb ./build.sh #创建配置环境变量,并创始建hbase表 env COMPRESSION=none HBASE_HOME=/usr/local/hbase/ /usr/local/opentsdb/src/create_table.s

分类：人工智能&大数据 | 阅读(2078) | 评论(0)

Hbase 单机伪分布式安装

2016-01-25 16:04:05

之前安装集群，现在介绍安装伪分布式。 hbase的配置，相比hadoop的配置还是比较简单的，伪分式的配置只需二步，第一步需要配置hbase-env.sh，第二步需要配置hbase-site.xml,下面给出配置。 hbase-env.sh里的配置内容： export JAVA_HOME=/data/app/jdk1.7 export HBASE_MANAGES_ZK=true

分类：hbase | 阅读(2062) | 评论(0)

Spark 操作实例

2016-01-19 19:30:38

Spark shell提供了一个简单方式去学习API，它也是一个交互式分析数据的强大工具。你既可以使用Scala(运行在JVM之上，所以可以使用众多的Java库),也可以使用Python。运行Spark文件夹下的的命令: ./bin/spark-shell Spark最主要的一个抽象出来的概念就是分布式的数据集合，也就是弹性分布式数据集Resilient Distributed Dataset (RDD). RDD可以

分类：Spark | 阅读(3425) | 评论(0)

HBase java api 过滤器

2016-01-07 10:57:53

过滤器的介绍，详见 http://www.php3.cn/a/163.html 过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤，基于 HBase 本身提供的三维有序（行键，列，版本有序），这些过滤器可以高效地完成查询过滤的任务 1 HBase 提供了枚举类型的变量来表示这些抽象的操作符： LESS LESS_OR_EQUAL EQUAL NOT_EQUAL

分类：hbase | 阅读(2669) | 评论(0)

HBase shell 过滤器操作

2016-01-06 16:44:52

1 过滤器 HBase 不仅提供了增、删、改、查等简单的查询，而且提供了更加高级的过滤器（Filter）来查询。过滤器可以根据列族、列、版本等更多的条件来对数据进行过滤，基于 HBase 本身提供的三维有序（行键，列，版本有序），这些过滤器可以高效地完成查询过滤的任务，带有过滤器条件的 RPC 查询请求会把过滤器分发到各个 RegionServer（这是一个服务端过滤器），这样也可以降低网络传输的压力。&nb

分类：hbase | 阅读(2770) | 评论(0)

HBase存储结构

2016-01-06 16:36:55

HBase中的表一般有这样的特点： 1 大：一个表可以有上亿行，上百万列 2 面向列:面向列(族)的存储和权限控制，列(族)独立检索。 3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。下面一幅图是Hbase在Hadoop Ecosystem中的位置。二、逻辑视图 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row fam

分类：hbase | 阅读(1971) | 评论(0)

sqoop的job详解

2015-12-31 08:47:10

step 1 创建sqoop job a.配置sqoop metastore服务修改sqoop/conf/sqoop-site.xml文件相关属性： sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享（shared)met

分类：人工智能&大数据 | 阅读(2323) | 评论(0)

php浮点数精确运算

2015-12-21 14:11:38

bc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale]，比如string bcadd(string $left_operand, string $right_operand[, int $scale])，如果scale没有提供，就用bcscale的缺省值。这里大数直接用一个由0-9组成的string表示，计算结果返回的也是一个 string。 bcadd &m

分类：php | 阅读(2736) | 评论(0)