Discuz! Board 门户 企业产品 智慧能源管理 查看内容
大数据管理技术
随着存储信息数量的增长,数据存储一直都是首要问题。这是任何与数据打交道的系统的基础——有许多技术可以存储海量的原始数据,这些原始数据可以来自传统的数据源,比如 OLTP 数据库,也可以来自更新的、更非结构化的数据源,比如日志文件、传感器、网站分析数据、文档档案数据和媒体档案数据。如你所见,这些领域差异巨大,有着各自的领域特点,而我们需要从所有这些领域收集数据。

第一件重要的事情就是用于存储数据的格式,如何将其存储结构最优化以及如何最优地存储这些数据。当然,在此时你会想到大数据领域的常见格式,例如 Parquet、CSV、Avro。另外,也可以考虑使用压缩工具,例如 Bzip2、Snappy、Lzo 等等。此外,优化工作基本上要么涉及适当的分区,要么是一些存储特定的东西。

支撑数据层的主要技术,当然是具有 HDFS 的 Hadoop——一个非常经典的大规模文件系统。因为它的持久性和在传统设备上无限的扩容能力,它已经非常流行了。然而,最近越来越多的数据被存储在云端,或者至少是混合云——企业正在从过时的本地存储系统迁移到类似 AWS S3、GCP GCS 或者是 Azure Blob 这样的托管服务。

对于 SQL 的解决方案,最流行的应用是 Hive 或者 Presto,或者是更有趣的数据仓库解决方案。我认为它们位于基础的 SQL 引擎之上。我们稍后会详细讨论。

对于 NoSQL 的解决方案,它要么是支持 ACID 的 Cassandra、文档数据模型且数据大小可管理的 MongoDB 或者是用于可伸缩解决方案的 AWS DynamoDB(如果你在 AWS Cloud 上)。

对于图数据库,我只能想起 Neo4j。它非常适用于存储图数据或者相关信息,比如一群人和他们之间的关系。对这类信息在传统的 SQL 数据库建模会是非常困难且低效的。
数据湖是一个公司的集中存储库,它可以存储所有关于业务的结构化和非结构化的数据。在数据湖中,我们按数据的原样来存储数据,而不进行结构化处理,然后在此之上进行不同类型的分析。

当今的数字化转型实际上是将数据驱动的方案应用于业务的各个层面,从而创造竞争优势。这也是为什么越来越多的公司希望构建自己的数据湖解决方案的原因。这种趋势仍在继续,这些技能还是被市场需要的。

在数据湖领域,最流行的的工具仍然是用于本地化方案的 HDFS,以及各类来自 AWS GCP 和 Azure 的云数据存储方案。除此之外,还有一些数据平台正在尝试填补一些细分市场并且创建集成解决方案
数据仓库可以被描述成用于存储已经处理好的业务数据的传统数据库,但它针对聚合请求作出了优化。无论如何,它还是和数据湖一样,都是构建分析和数据驱动决策的基础。它与数据湖之间并不排斥,而是相互补充。

数据集市是旨在满足某种特定的业务功能要求而设计的数据仓库解决方案的最后一层。数据集市具有从不同的数据源提取数据的能力,这使它成为数据仓库领域的一种增长趋势。

流行的数据仓库解决方案包括 Teradata、Snowflake、BigQuery 和 AWS Redshift。
内存内处理(In-Memory)

由于内存变得越来越便宜,并且企业依赖于实时处理的结果,因此内存计算使得他们能够拥有更丰富和更具有交互性的数据仪表板,这些仪表板能提供最新的数据并且随时都可以几乎实时地提供报告。通过在内存(而非硬盘)中分析数据,他们可以即时查看数据,并且对数据快速做出决策。

在大多数情况下,所有已知的解决方案都已经使用或者尝试使用这种方法。这里还是同样地,Spark 是最容易理解的例子,同时还有数据网格的实现,例如 Apache Ignite。

Apache Arrow 结合了列式数据格式和内存计算的优点。它提供了这些现代技术的性能优势的同时也提供了复杂数据和动态模式的灵活性。实际上,我不知道还有没有其他类似的格式。

管理上的挑战

这是另一个知识领域,它基本上位于一个稍微有所不同的平面,但与数据直接相关。管理上的挑战涉及隐私、安全、治理和数据/元数据管理。

搜索与信息获取

信息检索系统是一个算法网络,用于根据用户需要来搜索相关数据或者文档。

为了对海量数据进行有效的搜索,通常建议不要执行简单的扫描——然后就出现了各种工具和解决方案。我认为其中最常用的一个工具是 ElasticSearch。它被用于互联网搜索、日志分析和大数据分析。ElasticSearch 之所以受欢迎,是因为它易于安装、无需其他软件便可扩展至上百个节点、并由于其内置的 REST API 而易于使用。

安全

不断增加的数据量对防止入侵、泄漏和网络工具的保护措施造成了额外的挑战,因为数据保护的水平与数据、供应商和人员的增长不同步。全面的、端到端的数据保护措施不仅仅包括在整个生命周期(无论是在静止状态还是在传输状态)对数据进行加密,还需要从项目的一开始就对其进行保护。如你所见,这可能影响到我们在本文中提到的所有领域和方面。并且,和信息安全的所有内容一样,这类对策很难正确地实施。

诸如 GDPR、CCPA、LGPD 之类的隐私法规的出现对违规行为制定了严重的惩罚措施。企业必须考虑数据的机密性,并且在这些领域的专家也变得越来越重要。数据分析与业务智能是一种用于制定数据驱动的决策的一种方法,它提供了有助于业务发展的信息。利用这个层面的技术,你可以启动查询来回答某个业务相关的问题,对数据进行切片与切块,构建数据仪表板并创建清晰的可视化结果。