<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
  <channel>
    <title>LinuxSir.cn，穿越时空的Linuxsir! - 大数据|集群运算</title>
    <link>http://linuxsir.cn/forum.php?mod=forumdisplay&amp;fid=203</link>
    <description>Latest 20 threads of 大数据|集群运算</description>
    <copyright>Copyright(C) LinuxSir.cn，穿越时空的Linuxsir!</copyright>
    <generator>Discuz! Board by Comsenz Inc.</generator>
    <lastBuildDate>Wed, 15 Apr 2026 17:33:25 +0000</lastBuildDate>
    <ttl>60</ttl>
    <image>
      <url>http://linuxsir.cn/static/image/common/logo_88_31.gif</url>
      <title>LinuxSir.cn，穿越时空的Linuxsir!</title>
      <link>http://linuxsir.cn/</link>
    </image>
    <item>
      <title>启动集群</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398984</link>
      <description><![CDATA[格式化namenode节点
hdfs namenode -format

成功安装好hadoop之后，使用该命令将会把HDFS里面的数据全部删除。

启动HDFS服务
start-dfs.sh

启动Yarn服务
start-yarn.sh

检查在运行的Hadoop服务
dataflair@ubuntu:~$ jps
NameNode
DataNode
ResourceManager
NodeMana ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:26:16 +0000</pubDate>
    </item>
    <item>
      <title>安装Hadoop</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398983</link>
      <description><![CDATA[下载Hadoop
可以通过下面链接下载到 hadoop2.0 版本：
http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.2.tar.gz

下载完成后，把它上传到虚拟机，并放在home目录下：

mv Desktop/hadoop-2.5.0-cdh5.3.2.tar.gz /home/dataflair/

解压tar包
tar xzf hado ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:25:51 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop Ubuntu 安装 Hadoop 2.0（伪分布式）</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398982</link>
      <description><![CDATA[本节教程主要介绍了如何在 Ubuntu 16.0.4 操作系统上安装 Hadoop 2.0 单机器集群，也叫伪分布式模式。

准备
软件版本
操作系统：Ubuntu 16.04 及以上版本，其他 Linux 系统也可以，如 CentOS，RedHat 等。
Hadoop：Cloudera 公司发布的Hadoop版本 CDH5.x，你也可以使用 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:25:26 +0000</pubDate>
    </item>
    <item>
      <title>Yarn</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398981</link>
      <description><![CDATA[Yarn 一个资源管理系统，其作用就是把资源管理和任务调度/监控功分割成不同的进程。Yarn 有一个全局的资源管理器叫 ResourceManager，每个 application 都有一个 ApplicationMaster 进程。一个 application 可能是一个单独的 job 或者是 job 的 DAG （有向无环图）。

 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:23:59 +0000</pubDate>
    </item>
    <item>
      <title>MapReduce</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398980</link>
      <description><![CDATA[MapReduce 是 Hadoop 生态下的海量数据计算框架。利用它可以快速开发出处理海量数据的应用程序，并且应用程序是以并行的方式运行在由价格低廉的机器组成的大规模集群之上的。

MapReduce 任务由 Map 任务和 Reduce 任务组成。每个任务负责计算一部分数据，这样将会把工 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:23:27 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop架构</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398979</link>
      <description><![CDATA[Hadoop 有一个主从拓扑网络，在这个拓扑里面，有一个 master 节点和多个 slave 节点。master 节点的功能就是把任务分配到多个 slave 节点和管理资源。这些 slave 节点是真正运行计算代码和存储数据的机器。而 Master 节点存储的是元数据（即关于数据的数据），元数据包 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Tue, 02 Jan 2024 08:22:30 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop 工作原理</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398926</link>
      <description><![CDATA[在大数据领域，Hadoop 已经成为一种流行的解决方案。Hadoop 的设计考虑到了很多方面，比如故障容错性，海量数据处理，数据本地化，跨异构硬件和软件平台的可移植性等等。本节课程详细介绍了 Hadoop 的3个重要的组件。


 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Mon, 01 Jan 2024 09:22:25 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop是怎么工作的</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398925</link>
      <description><![CDATA[Apache Hadoop 工作原理：

输入数据被划分成若干个128MB（默认值）的块，然后把它们移动到不同的节点。
在多个 datanode 存储完所有数据块之后，用户才能处理这些数据。
接着，master 把用户提交的程序调度到独立的节点上。
等所有节点处理完数据之后，输出计算结果并 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Mon, 01 Jan 2024 09:21:24 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop 守护进程</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398924</link>
      <description><![CDATA[守护进程是一种运行在后台的进程。Hadoop 主要有4个守护进程。

NameNode ：它是HDFS运行在Master节点守护进程。

DataNode：它是 HDFS 运行在Slave节点守护进程。
ResourceManager：它是 Yarn 运行在 Master 节点守护进程。
NodeManager：它是 Yarn 运行在 Slave 节点 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Mon, 01 Jan 2024 09:20:33 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop组件</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398923</link>
      <description><![CDATA[在本教程，我们将会学习到 HDFS，MapReduce 和Yarn 这3大重要组件。

HDFS是什么
HDFS 即 Hadoop 分布式文件系统（Hadoop Distribute File System），以分布式存储的方式存储数据。

在 Hadoop 架构里面，master 节点上会运行一个叫做 namenode 的守护进程，每个 slave  ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Mon, 01 Jan 2024 09:18:04 +0000</pubDate>
    </item>
    <item>
      <title>Hadoop 教程</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398922</link>
      <description><![CDATA[什么是Hadoop
Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache 的开源框架。 Hadoop 框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop 是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Mon, 01 Jan 2024 09:17:24 +0000</pubDate>
    </item>
    <item>
      <title>整合 Kafka Sink</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398855</link>
      <description><![CDATA[3.1 addSink
Flink 提供了 addSink 方法用来调用自定义的 Sink 或者第三方的连接器，想要将计算结果写出到 Kafka，需要使用该方法来调用 Kafka 的生产者 FlinkKafkaProducer，具体代码如下：

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getEx ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Sat, 30 Dec 2023 07:55:30 +0000</pubDate>
    </item>
    <item>
      <title>Streaming Connectors</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398854</link>
      <description><![CDATA[除了上述 API 外，Flink 中还内置了系列的 Connectors 连接器，用于将计算结果输入到常用的存储系统或者消息中间件中，具体如下：

Apache Kafka (支持 source 和 sink)
Apache Cassandra (sink)
Amazon Kinesis Streams (source/sink)
Elasticsearch (sink)
Hadoop Fil ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Sat, 30 Dec 2023 07:54:26 +0000</pubDate>
    </item>
    <item>
      <title>Data Sinks</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398853</link>
      <description><![CDATA[在使用 Flink 进行数据处理时，数据经 Data Source 流入，然后通过系列 Transformations 的转化，最终可以通过 Sink 将计算结果进行输出，Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个较为简单的 Sink API 用于日常的开发，具体如下：

1.1 wr ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Sat, 30 Dec 2023 07:54:03 +0000</pubDate>
    </item>
    <item>
      <title>Azkaban 和 Oozie</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398852</link>
      <description><![CDATA[Azkaban 和 Oozie 都是目前使用最为广泛的工作流调度程序，其主要区别如下：

功能对比
两者均可以调度 Linux 命令、MapReduce、Spark、Pig、Java、Hive 等工作流任务；
两者均可以定时执行工作流任务。
工作流定义
Azkaban 使用 Properties(Flow 1.0) 和 YAML(Flow 2.0 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Sat, 30 Dec 2023 07:52:54 +0000</pubDate>
    </item>
    <item>
      <title>Azkaban简介</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398851</link>
      <description><![CDATA[一、Azkaban 介绍
1.1 背景
一个完整的大数据分析系统，必然由很多任务单元 (如数据收集、数据清洗、数据存储、数据分析等) 组成，所有的任务单元及其之间的依赖关系组成了复杂的工作流。复杂的工作流管理涉及到很多问题：

如何定时调度某个任务？
如何在某个任务执行 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Sat, 30 Dec 2023 07:52:25 +0000</pubDate>
    </item>
    <item>
      <title>Flink 改造</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398818</link>
      <description><![CDATA[一、变换分类
Flink 的转换操作主要用于将一个和多个数据流转换成新的数据流。它主要分为以下三类：

DataStream Transformations：进行数据流相关转换操作；
物理分区：物理分区。Flink 提供了底层的 API，允许用户定义数据的分区规则；
任务链和资源组：任务链和资源 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Fri, 29 Dec 2023 14:20:45 +0000</pubDate>
    </item>
    <item>
      <title>Flink数据源自定义数据源</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398797</link>
      <description><![CDATA[2.1 源函数
除了内置的数据源之外，用户还可以使用addSource方法来添加自定义的数据源。自定义的数据源必须要实现 SourceFunction 接口，这里以产生 [0 , 1000) 区间内的数据为例，代码如下：

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getE ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Fri, 29 Dec 2023 08:11:17 +0000</pubDate>
    </item>
    <item>
      <title>Flink数据源内置数据源</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398796</link>
      <description><![CDATA[Flink 数据源用于定义 Flink 程序的数据来源，Flink 官方提供了多种数据快速获取方法，用于帮助开发者简单地具体构建输入流，如下：

1.1 基于文件构建
1. readTextFile(path)：按照TextInputFormat格式读取文本文件，并将其内容以字符串的形式返回。示例如下：

env.re ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Fri, 29 Dec 2023 08:10:31 +0000</pubDate>
    </item>
    <item>
      <title>弗林克接收器</title>
      <link>http://linuxsir.cn/forum.php?mod=viewthread&amp;tid=398795</link>
      <description><![CDATA[一、数据接收器
在使用 Flink 进行数据处理时，数据通过 Data Source 流入，然后通过一系列 Transformations 的转化，最终可以通过 Sink 将计算结果进行输出，Flink Data Sinks 就是用于定义数据流最终的输出位置。Flink 提供了几个比较简单的 Sink API 用于日常的开发 ...]]></description>
      <category>大数据|集群运算</category>
      <author>一起看海</author>
      <pubDate>Fri, 29 Dec 2023 08:09:26 +0000</pubDate>
    </item>
  </channel>
</rss>