数据湖是一个以原始格式存储数据的存储库或系统,最早由一个大数据厂商提出。数据湖通过使用可向外扩展的廉价存储硬件,来实现数据的扩展性,通常用于承载大量的不同类型的数据,包括结构化数据,半结构化数据,非结构化数据和二进制数据。它按原样存储数据,无需事先对数据进行结构化处理,被认为是新一代的大数据基础设施。
一般来说,数据湖具有保真性、灵活性、可管理、可追溯等特点。
1.保真性:数据湖中存储的数据保持原始状态,是一份原始数据的副本,不被修改和加工。
2.灵活性:数据湖可以存储多种类型的数据,包括结构化数据、半结构化数据和非结构化数据等。这种灵活性使得数据湖特别适用于创新性企业,可以在不同的业务场景下提供不同的服务接口,以满足不同的需求。
3.可管理性:数据湖中的数据需要被有效地管理,包括数据的来源、连接、格式、模式和权限等方面。这需要数据湖具备足够的数据管理能力,以确保数据的安全和可靠性。
4.可追溯性:数据湖需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。数据湖需要能够追踪数据的存储和处理过程,以便能够清楚地重现数据完整的产生过程和流动过程。