- How did it all start- huge data on the web!
- Nutch built to crawl this web data
- Huge data had to saved- HDFS was born!
- How to use this data?
- Map reduce framework built for coding and running analytics – java, any language-streaming/pipes
- How to get in unstructured data – Web logs, Click streams, Apache logs, Server logs – fuse,webdav, chukwa, flume, Scribe
- Hiho and sqoop for loading data into HDFS – RDBMS can join the Hadoop band wagon!
- High level interfaces required over low level map reduce programming– Pig, Hive, Jaql
- BI tools with advanced UI reporting- drilldown etc- Intellicus
- Workflow tools over Map-Reduce processes and High level languages
- Monitor and manage hadoop, run jobs/hive, view HDFS – high level view- Hue, karmasphere, eclipse plugin, cacti, ganglia
- Support frameworks- Avro (Serialization), Zookeeper (Coordination)
- More High level interfaces/uses- Mahout, Elastic map Reduce
- OLTP- also possible – Hbase
出处:http://indoos.wordpress.com/2010/08/16/hadoop-ecosystem-world-map/
分享到:
相关推荐
海量数据处理-Hadoop生态系统和成功案例
《Hadoop生态系统》
简单介绍hadoop生态系统、spark、scala
第1周 Hadoop生态系统以及版本演化
hadoop大数据生态,大数据分布式引擎数据分析,思维导图,知识点总结,快速掌握,包括hadoop spark hive elasticsearch kafka
主要描述Hadoop生态系统特点概述以及各个版本演化过程
本文是HADOOP生态系统的基础教程,介绍HADOOP主要组件如HIVE,HDFS,HBASE, ZOOKEEPER ,MAPREDUCE, PIG, MAHOUT的概念,特点,运行流程等。
这是一个Hadoop生态系统及其版本演化,对刚入门了解云计算与大数据的同学有很大的帮助,欢迎大家下载
Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。
详细介绍了hadoop生态圈,包括 基础介绍 HDFS, HDFS 2 MapReduce, YARN 以下简要介绍 Pig Hive Hbase, HOYA Mahout 其它
然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia...
本人写的大数据平台搭建教程,包含基于hive的离线分析、基于storm的实时分析、包含solrcloud和hbase的搜索架构等基础组件的配置及整合
Apache Hadoop和Hadoop生态系统.pdf 学习资料 复习资料 教学资源
Hadoop生态系统图1
Hadoop生态系统基本介绍(60张幻灯片,包含大量图).pptx
第一章 大数据概况及Hadoop生态系统
Hadoop生态系统及其版本演化.zip
该文档来自阿帕奇2015中国路演。卢亿雷发表了题为“Hadoop生态系统分析”的主题演讲,欢迎下载!
构建于Hadoop生态系统的一体化云计算平台研究与建设.pdf
Buildoop:Hadoop生态系统构建器1.0版 Hadoop生态系统构建器-Buildoop-提供可互操作的工具,元数据和流程,可实现基于Linux Hadoop系统的快速,可重复的开发。 使用Buildoop,您可以基于RPM或DEB软件包构建完整的...