成立后不久,它就变成了一个顶级 Apache 项目,并采用开源许可发布。Hadoop 的目的是作为一个通用的分布式处理平台,它包含一组特定的组件:Hadoop 分布式文件系统 (HDFS);Yet Another Resource Negotiator (YARN),用于管任务;Hadoop Common,提供通用 Java 库;以及 MapReduce,用于并行处理数据的算法。
Hadoop 是用 Java 构建的,可以通过多种编 就业数据库 程语言(例如 Python)访问。 应用程序可以通过连接到 NameNode 的 API 将数据放入 Hadoop 集群,NameNode 会跟踪文件目录结构和每个添加文件的“块”位置,然后将它们复制到 DataNode 上。然后,管理员可以创建 MapReduce 作业来针对分布在节点上的数据运行查询。
每个 Map 任务都在每个节点上运行,并使用 Reducer 来聚合和组织查询输出。 大数据框架比较 什么是 Spark? Spark 于 2012 年在加州大学伯克利分校的 AMPLab 开始研发,现在已成为顶级 Apache 项目。Spark 专注于在集群中并行处理数据。尽管 Spark 和 Hadoop 有着相似的目标,但两者之间还是存在着很大的差异——速度。