登录 |  注册 |  繁體中文

人工智能&大数据
2015-12-15 17:36:18
流程:数据的处理过程包括数据收集,数据清理,数据存储,数据分析,数据展现。在这里数据的收集由flume负责,定期从web server中收集log相关信息,对于实时数据的处理,将数据直接发送到kafka,然后交给后面的storm处理(这个没有做),对于离线部分,经过简单的mr处理后存储到hdfs上,然后使用hive操作。 总的架构图:
2015-12-15 13:44:07
ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫 Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介绍ZooKeeper提供的 Client API的使用,第三部分介绍一些ZooKeeper典型的应用场景。 ZooKeeper基本原理
2015-12-09 14:26:58
ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式Zo
2015-11-26 16:44:07
YARN是开源项目Hadoop的一个资源管理系统,最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题,但是现在它已 经是一个更加通用的资源管理系统,可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上,通过YARN来管理资源。如果你的应用程序 也需要借助YARN的资源管理功能,你也可以实现YARN提供的编程API,将你的应用程序运行于YARN之上,将资源的分配与回收统一交给YARN去管 理,可以
2015-11-26 15:09:41
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。 一、相关配置情况 1.1  RM的内存资源配置, 配置的是资源调度相关 RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存 RM2:yarn.scheduler.maximum-
2015-11-26 13:40:59
有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢?   因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录下,进程名命令规则一般是  框架名-用户名-角色名.pid,而默认情况下,linux的tmp里面的东西,一天会删除一次,所以
2015-11-23 14:13:52
参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable%2FPartitionStatements 这里主要列一些常用操作。   添加分区 ALTER TABLE table_name ADD PARTITION (partCol = '
2015-11-18 22:30:18
1、数据去重    "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。   对数据文件中的数据进行去重。数据文件中的每行都是一个数据。   样例输入如下所示:     
2015-11-18 20:14:55
1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是 TaskTracker,J
2015-11-13 19:51:22
合理地选择Job中 Tasks数的大小能显著的改善Hadoop执行的性能。增加task的个数会增加系统框架的开销,但同时也会增强负载均衡并降低任务失败的开销。一个极 端是1个map、1个reduce的情况,这样没有任务并行。另一个极端是1,000,000个map、1,000,000个reduce的情况,会由于 框架的开销过大而使得系统资源耗尽。 Map任务的数量 Map的数量经常 是由输入数 据中的DFS块的数量来决定的
2015-11-12 21:26:10
在使用 JDBC 开发 Hive 程序时,  必须首先开启 Hive 的远程服务接口。使用下面命令进行开启: $HIVE_HOME/bin/hiveserver2 OR hive -service hiveserver2 & #注意,1.0版本以后,用的是hiveserver2 hive server 1的driver classname是org.apache.h
2015-10-28 20:24:12
今天我们再谈谈Hive中的三种不同的数据导出方式。 根据导出的地方不一样,将这些方式分为三种: (1)、导出到本地文件系统; (2)、导出到HDFS中; (3)、导出到Hive的另一个表中。 为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统 hive> insert overwrite local directory /home/wyp/wyp >
5页/总7页  共74条记录  首页 上一页 下一页 尾页

回到顶部