LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 414|回复: 0

Hadoop是怎么工作的

[复制链接]
发表于 2024-1-1 17:21:24 | 显示全部楼层 |阅读模式
Apache Hadoop 工作原理:

输入数据被划分成若干个128MB(默认值)的块,然后把它们移动到不同的节点。
在多个 datanode 存储完所有数据块之后,用户才能处理这些数据。
接着,master 把用户提交的程序调度到独立的节点上。
等所有节点处理完数据之后,输出计算结果并写回 HDFS。
Hadoop生态下的组件介绍
在本节我们会涉及到 Hadoop 生态下的各种组件。先看看 Hadoop 生态下有哪些组件:

Hadoop HDFS:Hadoop 分布式存储系统。
Yarn:Hadoop 2.x版本开始才有的资源管理系统。
MapReduce:并行处理框架。
HBase:基于 HDFS 的列式存储数据库,它是一种 NoSQL 数据库,非常适用于存储海量的稀疏的数据集。
Hive:Apache Hive 是一个数据仓库基础工具,它适用于处理结构化数据。它提供了简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。
Pig:它是一种高级脚本语言。利用它不需要开发 Java 代码就可以写出复杂的数据处理程序。
Flume:它可以从不同数据源高效实时的收集海量日志数据。
Sqoop:适用于在 Hadoop 和关系数据库之间抽取数据。
Oozie:这是一种 Java Web 系统,用于 Hadoop 任务的调度,例如设置任务的执行时间和执行频率等。
Zookeeper:用于管理配置信息,命名空间。提供分布式同步和组服务。
Mahout:可扩展的机器学习算法库。

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表