文章中心 - 晨浪网

2015-10-28 20:17:44

几种常见数据导入Hive表这里介绍四种：（1）、从本地文件系统中导入Hive表；（2）、从HDFS上导入到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。 LOAD DATA官方语法为： LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] I

分类：人工智能&大数据 | 阅读(2617) | 评论(0)

sqoop的安装与使用

2015-10-28 14:45:30

1.什么是Sqoop Sqoop即 SQL to Hadoop ，是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具，是hadoop与关系型数据库的桥梁，它支持关系型数据库和hive、hdfs，hbase之间数据的相互导入，可以使用全表导入和增量导入。 Sqoop充分利用MapReduce并行特点以批处理的方式加快数据传输，发展至今主要演化了二大版本，Sqoop1和Sqoop

分类：人工智能&大数据 | 阅读(2817) | 评论(0)

用Hive分析nginx日志

2015-10-27 11:01:22

　　这里用到的nginx日志是网站的访问日志，比如： 180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "http://www.iteblog.com/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) App

分类：人工智能&大数据 | 阅读(2397) | 评论(0)

Hbase 表设计注意事项

2015-10-16 16:06:34

rowkey 行键应避免使用时序或单调行键。因为当数据到来时，HBASE首先需要根据记录的行键来确定存储位置，即Region的位置。如果使用时序或单调行建，那么连续到来的数据将会被分配到同一个Region当中，而此时系统化中的其他Region/RegionServer将处于空闲状态，这是分布式系统最不希望看到的。数字rowkey的从大到小排序：原生hbase只支持从小到大的排序，这样就对于排行榜一类的

分类：hbase | 阅读(2481) | 评论(0)

Hbase 存储用户行为记录

2015-10-16 15:55:16

使用HBase存储此类数据时，有以下两种常用的方案： 1、多行单列表结构设计 Row Key：用户标识ID + (Long.MAX_VALUE - timestamp) Column Family：’cf’ Column Qualifier：’’ Value：宝贝、URL等

分类：hbase | 阅读(4144) | 评论(0)

hbase 数据历史版本号规则

2015-10-14 16:53:32

HBase的表结构 HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(column family)。 Row Key column-family1 column-family2

分类：hbase | 阅读(7128) | 评论(0)

Kafka集群partition replication 分析

2015-10-10 11:05:52

1. Kafka集群partition replication默认自动分配分析下面以一个Kafka集群中4个Broker举例，创建1个topic包含4个Partition，2 Replication；数据Producer流动如图所示： (1) (2)当集群中新增2节点，Partition增加到6个时分布情况如下：副本分配逻辑规则如下：在Kafka集群中，

分类：人工智能&大数据 | 阅读(2852) | 评论(0)

Kafka 配置文件参数说明

2015-10-10 10:29:05

1. Broker主要配置每个kafka broker中配置文件server.properties默认必须配置的属性如下： broker.id=0 num.network.threads=2 num.io.threads=8 socket.send.buffer.bytes=1048576 socket.receive.buffer.bytes=1048576 socket.request.max.bytes=

分类：人工智能&大数据 | 阅读(4245) | 评论(0)

Kafka文件存储机制

2015-10-10 09:23:13

Kafka文件存储机制基础知识就不说了，详见 Kafka基本知识及安装配置 Kafka部分名词解释如下： Broker：消息中间件处理结点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。 Topic：一类消息，例如page view日志、click日志等都可以以topic的形式存在，Kafka集群能够同时负责多个topic的分发。

分类：人工智能&大数据 | 阅读(2705) | 评论(0)

Apache Kafka详解

2015-09-29 16:32:02

Apache Kafka可以帮助你解决在发布/订阅架构中遇到消费数百万消息的问题。 Kafka是一个实时消息传输的解决方案，可处理大量实时信息，并把这些信息快速路由到各种消费者。Kafka提供了信息生产者和消费者之间的无缝集成，无需对生产者的信息进行阻塞，也无需告诉生产者那些消费者的位置。 Apache Kafka是一个开源、分布式的消息发布/订阅系统，其主要设计特性如下： 1）消息持久化要从大数据中获

分类：人工智能&大数据 | 阅读(3210) | 评论(0)

php declare详解

2015-08-21 11:19:56

declare和ticks可以用来做调试或性能测试。一般用法是 declare(ticks=N); 拿declare(ticks=1)来说，这句主要作用有两种： 1、Zend引擎每执行1条低级语句就去执行一次 register_tick_function() 注册的函数。可以粗略的理解为每执行一句php代码（例如:$num=1;）就去执行下已经注册的tick函数。一个用途就是控制某段代码执行时间，例如下面的

分类：php | 阅读(3625) | 评论(0)

美国是如何减羊毛！

2015-08-19 22:10:13

美国之所以称霸全世界，是因为它有两个拳头：一个是军事，一个是货币。这两个拳头打出的组合拳，几乎所向披靡，KO了一个又一个对象。接下来轮到中国上擂台了，但中国打的却是太极，讲究以柔克刚、四两拔千斤…… OK，在好戏上演之前，我们不妨先见招拆招，看看乔良将军如何拆解美国的组合拳，看清他的招数！一、金融帝国崛起 1944年7月，美国为了从大英帝国手中接过货币霸权，由罗斯福总统推动建立了三

分类：随笔 | 阅读(2823) | 评论(0)