数据湖是一个巨大的存储池,里用的数据。这些数据通常以对象 blob 或文件的形式存储,并且几乎没有任何组织结构(如果有的话)。 数据湖可以存储结构化和非结构化数据,并且可以以任何规模进行存储。因此,无论您拥有少量数据还是大量数据,数据湖都可以为您提供服务。 但是,数据湖存储在集中式存储库中。请记住,数据网格的关键组成部分之一是它是去中心化的,这使得这两个想法截然不同。
数据湖通常将数据存储在同一网络上的单个机器或机器集群上,而数据网新西兰电报放映格将数据存储在遍布互联网的机器和网络上。 数据湖的优势 数据湖的优点包括: 速度——创建和分析数据的速度 低成本——可以使用消费级硬件和开源技术。 减少浪费——数据湖节省资源,因为大部分数据在使用之前将保持闲置状态。 数据湖的特征 可以使用来自多种来源的关系数据库和非关系数据库(例如物联网、网站、移动应用程序、社交媒体和传统应用程序) 读取时模式,这意味着所有内容都是在分析时写入的 更快的查询结果 原始数据支持 非常适合数据科学、数据开发和业务分析 支持机器学习、预测分析、数据发现和分析 支持从单一位置对大数据和小数据进行全面分析 极低的延迟 数据分析可以随时进行。
数据网格和数据湖之间的另一个巨大区别是,数据网格是将数据分发到公司不同部门、分支机构和地点的理想设置。使用数据湖,您无法获得这种灵活性或对不同数据管道的控制。 如何为您的企业选择最佳方案 需要记住的是,这并不是一个非此即彼的命题。例如,如果您的公司已经使用数据湖,则可以添加数据网格以将分散的、特定于领域的数据管道集成到组合中。