什么是数据湖?

产业问答 (4297) 发布于:2023-07-07 更新于:2023-07-07
项目申报

数据湖是一个以原始格式存储数据的存储库或系统,最早由一个大数据厂商提出。数据湖通过使用可向外扩展的廉价存储硬件,来实现数据的扩展性,通常用于承载大量的不同类型的数据,包括结构化数据,半结构化数据,非结构化数据和二进制数据。它按原样存储数据,无需事先对数据进行结构化处理,被认为是新一代的大数据基础设施。

一般来说,数据湖具有保真性、灵活性、可管理、可追溯等特点。

1.保真性:数据湖中存储的数据保持原始状态,是一份原始数据的副本,不被修改和加工。

2.灵活性:数据湖可以存储多种类型的数据,包括结构化数据、半结构化数据和非结构化数据等。这种灵活性使得数据湖特别适用于创新性企业,可以在不同的业务场景下提供不同的服务接口,以满足不同的需求。

3.可管理性:数据湖中的数据需要被有效地管理,包括数据的来源、连接、格式、模式和权限等方面。这需要数据湖具备足够的数据管理能力,以确保数据的安全和可靠性。

4.可追溯性:数据湖需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。数据湖需要能够追踪数据的存储和处理过程,以便能够清楚地重现数据完整的产生过程和流动过程。

THE END

温馨提示:

本站部分信息来源于互联网,如有侵权请联系删除。
新媒体服务
链接链接链接链接汤姆首页入口怪汉网链接链接