数据科学是指与数据系统和数据处理有关的研究领域,以数据为研究对象,特别是大数据,是一个跨学科领域,包含了三个重要的概念:统计,机器学习,和数据挖掘/分析。
数据科学结合了统计学、信息科学和计算机科学的科学方法、系统和过程,通过结构化或非结构化数据提供对现象的洞察,数据科学家综合利用一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据,然后采取行动,实现数据的价值。
数据科学使用广泛的面向数据的技术,包括 SQL、Python、R和 Hadoop等,也广泛使用统计分析、数据可视化、分布式架构等来从集合中提取意义数据,旨在维护数据并从中推导出数据蕴含的意义,利用数据对实际现象进行“理解和分析”。它揭示趋势并产生见解,通过数据科学应用程序提取的信息可用于指导业务流程并实现组织目标,企业可以利用这些信息做出更好的决策并推出更多创新产品和服务。