文章存档
文章中心
2015-11-13 19:51:22
合理地选择Job中 Tasks数的大小能显著的改善Hadoop执行的性能。增加task的个数会增加系统框架的开销,但同时也会增强负载均衡并降低任务失败的开销。一个极 端是1个map、1个reduce的情况,这样没有任务并行。另一个极端是1,000,000个map、1,000,000个reduce的情况,会由于 框架的开销过大而使得系统资源耗尽。
Map任务的数量
Map的数量经常 是由输入数 据中的DFS块的数量来决定的
2015-11-13 09:12:58
滴滴和快的、58 和赶集、美团和点评,“合并”是今年中国互联网创业公司的关键词。
每一次合并,双方都会宣布双 CEO 执政、保持独立运营。但成长阶段的公司极少有这样运作的例子,最终来自滴滴的程维主导了新公司滴滴出行。更早的优酷土豆合并后,土豆的 CEO 王微很快便离开新公司。
现在轮到美团和点评了,本周大众点评 CEO 张涛宣布不再担任联席 CEO,转为
2015-11-12 21:26:10
在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口。使用下面命令进行开启:
$HIVE_HOME/bin/hiveserver2
OR
hive -service hiveserver2 &
#注意,1.0版本以后,用的是hiveserver2
hive server 1的driver classname是org.apache.h
2015-10-28 20:24:12
今天我们再谈谈Hive中的三种不同的数据导出方式。
根据导出的地方不一样,将这些方式分为三种:
(1)、导出到本地文件系统;
(2)、导出到HDFS中;
(3)、导出到Hive的另一个表中。
为了避免单纯的文字,我将一步一步地用命令进行说明。
一、导出到本地文件系统
hive> insert overwrite local directory /home/wyp/wyp
>
2015-10-28 20:17:44
几种常见数据导入Hive表
这里介绍四种:
(1)、从本地文件系统中导入Hive表;
(2)、从HDFS上导入到Hive表;
(3)、从别的表中查询出相应的数据并导入到Hive表中;
(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。
LOAD DATA官方语法为:
LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] I
2015-10-28 14:45:30
1.什么是Sqoop
Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,是hadoop与关系型数据库的桥梁,它支持关系型数据库和hive、hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入。
Sqoop充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,Sqoop1和Sqoop
2015-10-27 11:01:22
这里用到的nginx日志是网站的访问日志,比如:
180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "http://www.iteblog.com/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) App
2015-10-16 16:06:34
rowkey 行键
应避免使用时序或单调行键。因为当数据到来时,HBASE首先需要根据记录的行键来确定存储位置,即Region的位置。如果使用时序或单调 行建,那么连续到来的数据将会被分配到同一个Region当中,而此时系统化中的其他Region/RegionServer将处于空闲状态,这是分布式 系统最不希望看到的。
数字rowkey的从大到小排序:原生hbase只支持从小到大的排序,这样就对于排行榜一类的
2015-10-16 15:55:16
使用HBase存储此类数据时,有以下两种常用的方案:
1、多行单列
表结构设计
Row Key:用户标识ID + (Long.MAX_VALUE - timestamp)
Column Family:’cf’
Column Qualifier:’’
Value:宝贝、URL等
2015-10-14 16:53:32
HBase的表结构
HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。
Row Key
column-family1
column-family2
2015-10-10 11:05:52
1. Kafka集群partition replication默认自动分配分析
下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示:
(1)
(2)当集群中新增2节点,Partition增加到6个时分布情况如下:
副本分配逻辑规则如下:
在Kafka集群中,
2015-10-10 10:29:05
1. Broker主要配置
每个kafka broker中配置文件server.properties默认必须配置的属性如下:
broker.id=0
num.network.threads=2
num.io.threads=8
socket.send.buffer.bytes=1048576
socket.receive.buffer.bytes=1048576
socket.request.max.bytes=