Hadoop是怎么工作的

一起看海 · 发表于 2024-1-1 17:21:24

Apache Hadoop 工作原理：

输入数据被划分成若干个128MB（默认值）的块，然后把它们移动到不同的节点。
在多个 datanode 存储完所有数据块之后，用户才能处理这些数据。
接着，master 把用户提交的程序调度到独立的节点上。
等所有节点处理完数据之后，输出计算结果并写回 HDFS。
Hadoop生态下的组件介绍
在本节我们会涉及到 Hadoop 生态下的各种组件。先看看 Hadoop 生态下有哪些组件：

Hadoop HDFS：Hadoop 分布式存储系统。
Yarn：Hadoop 2.x版本开始才有的资源管理系统。
MapReduce：并行处理框架。
HBase：基于 HDFS 的列式存储数据库，它是一种 NoSQL 数据库，非常适用于存储海量的稀疏的数据集。
Hive：Apache Hive 是一个数据仓库基础工具，它适用于处理结构化数据。它提供了简单的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。
Pig：它是一种高级脚本语言。利用它不需要开发 Java 代码就可以写出复杂的数据处理程序。
Flume：它可以从不同数据源高效实时的收集海量日志数据。
Sqoop：适用于在 Hadoop 和关系数据库之间抽取数据。
Oozie：这是一种 Java Web 系统，用于 Hadoop 任务的调度，例如设置任务的执行时间和执行频率等。
Zookeeper：用于管理配置信息，命名空间。提供分布式同步和组服务。
Mahout：可扩展的机器学习算法库。

		自动登录	找回密码
密码			注册

Hadoop是怎么工作的

浏览过的版块