艾科思移动BI数据湖是存储结构化和非结构化数据的地方,也是组织来自不同来源的大量高度多样化数据的方法。
随着人们,尤其是商业和技术人员想要进行广泛的数据探索和发现,数据湖变得越来越重要。将数据集中到一个地方或大部分数据在一个地方可能对此有用。
数据湖可以处理许多数据结构,例如非结构化和多结构化的数据,它可以帮助您从数据中获取价值。
使数据湖与数据仓库不同的是什么?
数据湖和数据仓库之间的主要区别在于数据湖往往很快获取数据,并在人们访问数据时随时准备。另一方面,对于数据仓库,您在数据仓库中将数据放入数据仓库之前,需要非常小心地过滤数据。在数据湖中,您希望尽可能快地获取数据,以便具有运营用例的公司(特别是运营报告,分析和业务监控)拥有最新的数据,以便在运行多个流程时在一个工作日内,他们实际上可以看到操作中发生的最新事件。
另外,通过数据湖,您通常会以原始形式摄取数据,而不会改变数据。为什么?其中一个原因是,在许多形式中,高级分析实际上取决于详细的源数据。这将是基于任何类型挖掘的分析,无论是:
·文本挖掘
·数据挖掘
·统计分析
·涉及聚类的任何事情
·图表分析
正如您所看到的,许多这些分析形式都需要详细的源数据,这与报告所需的数据非常不同。这就是为什么数据湖往往成为分析数据的宝库,至少对于高级分析来说。
Hadoop和数据湖
现在要清楚的是,Hadoop并没有取代任何东西。它与关系数据库混合在一起,在当今的现代化仓库中,Hadoop被投入混合。我们在那里看到它可以帮助数据仓库更好地扩展。
但是,用户设计仓库的方式也不同,许多人主要将仓库设计为不同形式报告的数据仓库,无论是传统报告还是新颖的报告方法(如仪表板,记分卡等)。在这些情况下,您的仓库可能会或可能不会成为大量分析需要的详细源数据的最佳环境。这就是为什么要引入Hadoop来处理大量详细资源的原因。所以你可以看到,这只是使用扩展数据仓库的数据湖的一种方式。
数据湖的使用案例
供应链数据湖
数字供应链是一个同样多样化的数据环境,数据湖可以起到很大的作用,特别是当数据湖在Hadoop上时。Hadoop在很大程度上是一个基于文件的系统,因为它最初是为来自Web服务器的非常大且数量众多的日志文件而设计的。在供应链中,您还可以获得大量基于文件的数据。从EDI系统和XML中思考基于文件和基于文档的数据,当然今天JSON在数字供应链中的应用非常强大。这是非常不同的信息。
另外你有内部信息。如果您是制造商,那么您可能拥有来自车间的数据,包括运输和结算,这与供应链高度相关。该湖可以帮助您将这些数据集中在一起,并以文件为基础进行管理。
物联网数据湖
物联网几乎每天都在一些公司创建新的数据源。当然,由于这些来源多样化,他们创造了更多的数据。这是因为越来越多的机器上越来越多的传感器。例如,每辆铁路货运或卡车货运车辆都有大量的传感器,因此除了运行方式外,您还可以通过空间和时间追踪该车辆。它是否安全运行?它是否以相对于燃料消耗的最佳方式运行?巨大数量的信息来自这些地方,数据湖非常受欢迎,因为它为所有数据提供了存储库。
单个数据湖
现在,这些是在某些部门或IT计划中相当有针对性地使用数据湖的例子,但是不同的方法是使中央IT部门能够提供一个多租户的大型数据湖。它可以被许多不同的部门,业务单位和技术计划使用。
随着人们习惯于数据湖,他们会考虑如何针对不同的用途和运营,分析甚至合规性对其进行优化。
单数据湖也可以支持多种技术功能。
不同类型的Data Lake平台
数据湖可以用很多种方式使用,而且它也有许多可以在其下使用的平台。Hadoop是最常见但不是唯一的平台。
Hadoop的
Hadoop很有吸引力。它已被证明具有线性可扩展性。与关系数据库相比,它的可扩展性成本较低。但Hadoop不仅仅是便宜的存储。它也是一个强大的处理平台。如果您尝试进行算法分析,那么Hadoop可能非常有用。
关系数据库管理系统
关系数据库管理系统也可以成为数据湖的平台,因为有些人拥有大量的数据,他们想要将这些数据放入结构化且相关的湖中。因此,如果您的数据具有固有的关系性,那么数据湖的DBMS方法将非常合理。另外,如果你有用例来执行关系型功能,比如SQL,复杂的表连接等等,那么RDBMS就非常合理。
云端
趋势是朝向基于云的系统,尤其是基于云的存储。云的巨大好处是弹性可扩展性。随着工作负载的扩大,他们可以封送服务器资源和其他资源。与许多内部系统相比,云可以是低成本的。部分原因是因为没有系统集成。