人工智能&大数据 - 文章中心

2016-01-25 16:31:14

需要先安装gnuplot yum install gnuplot cd opentsdb ./build.sh #创建配置环境变量,并创始建hbase表 env COMPRESSION=none HBASE_HOME=/usr/local/hbase/ /usr/local/opentsdb/src/create_table.s

分类：人工智能&大数据 | 阅读(2056) | 评论(0)

sqoop的job详解

2015-12-31 08:47:10

step 1 创建sqoop job a.配置sqoop metastore服务修改sqoop/conf/sqoop-site.xml文件相关属性： sqoop.metastore.server.location sqoop.metastore.server.port sqoop.metastore.client.autoconnect.url 上面三个参数是为了实现共享（shared)met

分类：人工智能&大数据 | 阅读(2298) | 评论(0)

大数据分析实例

2015-12-15 17:36:18

流程：数据的处理过程包括数据收集，数据清理，数据存储，数据分析，数据展现。在这里数据的收集由flume负责，定期从web server中收集log相关信息，对于实时数据的处理，将数据直接发送到kafka，然后交给后面的storm处理（这个没有做），对于离线部分，经过简单的mr处理后存储到hdfs上，然后使用hive操作。总的架构图：

分类：人工智能&大数据 | 阅读(1480) | 评论(0)

ZooKeeper原理及实例

2015-12-15 13:44:07

ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫 Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper提供的 Client API的使用，第三部分介绍一些ZooKeeper典型的应用场景。 ZooKeeper基本原理

分类：人工智能&大数据 | 阅读(2047) | 评论(0)

Zookeeper 安装和配置

2015-12-09 14:26:58

ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式Zo

分类：人工智能&大数据 | 阅读(1913) | 评论(0)

Hadoop YARN架构设计要点

2015-11-26 16:44:07

YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以

分类：人工智能&大数据 | 阅读(1965) | 评论(0)

Yarn 内存分配管理机制及相关参数配置

2015-11-26 15:09:41

理解Yarn的内存管理与分配机制，对于我们搭建、部署集群，开发维护应用都是尤为重要的，对于这方面我做了一些调研供大家参考。一、相关配置情况 1.1 RM的内存资源配置, 配置的是资源调度相关 RM1：yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存 RM2：yarn.scheduler.maximum-

分类：人工智能&大数据 | 阅读(2113) | 评论(0)

设置Hadoop及Hbase集群pid文件位置

2015-11-26 13:40:59

有时候，我们对运行几天或者几个月的hadoop或者hbase集群做停止操作，会发现，停止命令不管用了，为什么呢？因为基于java开发的程序，想要停止程序，必须通过进程pid来确定，而hadoop和hbase默认的情况下，会把pid文件存储在Linux上的/tmp目录的某个目录下，进程名命令规则一般是框架名-用户名-角色名.pid，而默认情况下，linux的tmp里面的东西，一天会删除一次，所以

分类：人工智能&大数据 | 阅读(1874) | 评论(0)

hive修改表，修改分区

2015-11-23 14:13:52

参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable%2FPartitionStatements 这里主要列一些常用操作。添加分区 ALTER TABLE table_name ADD PARTITION (partCol = '

分类：人工智能&大数据 | 阅读(2077) | 评论(0)

MapReduce实例

2015-11-18 22:30:18

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示：

分类：人工智能&大数据 | 阅读(1405) | 评论(0)

MapReduce理论简介

2015-11-18 20:14:55

1 MapReduce编程模型 MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是 TaskTracker，J

分类：人工智能&大数据 | 阅读(1430) | 评论(0)

hadoop中map和reduce的数量设置问题

2015-11-13 19:51:22

合理地选择Job中 Tasks数的大小能显著的改善Hadoop执行的性能。增加task的个数会增加系统框架的开销，但同时也会增强负载均衡并降低任务失败的开销。一个极端是1个map、1个reduce的情况，这样没有任务并行。另一个极端是1,000,000个map、1,000,000个reduce的情况，会由于框架的开销过大而使得系统资源耗尽。 Map任务的数量 Map的数量经常是由输入数据中的DFS块的数量来决定的

分类：人工智能&大数据 | 阅读(3296) | 评论(0)