大数据管理技术

admin · 发表于 2022-5-18 17:48:10

随着存储信息数量的增长，数据存储一直都是首要问题。这是任何与数据打交道的系统的基础——有许多技术可以存储海量的原始数据，这些原始数据可以来自传统的数据源，比如 OLTP 数据库，也可以来自更新的、更非结构化的数据源，比如日志文件、传感器、网站分析数据、文档档案数据和媒体档案数据。如你所见，这些领域差异巨大，有着各自的领域特点，而我们需要从所有这些领域收集数据。

第一件重要的事情就是用于存储数据的格式，如何将其存储结构最优化以及如何最优地存储这些数据。当然，在此时你会想到大数据领域的常见格式，例如 Parquet、CSV、Avro。另外，也可以考虑使用压缩工具，例如 Bzip2、Snappy、Lzo 等等。此外，优化工作基本上要么涉及适当的分区，要么是一些存储特定的东西。

支撑数据层的主要技术，当然是具有 HDFS 的 Hadoop——一个非常经典的大规模文件系统。因为它的持久性和在传统设备上无限的扩容能力，它已经非常流行了。然而，最近越来越多的数据被存储在云端，或者至少是混合云——企业正在从过时的本地存储系统迁移到类似 AWS S3、GCP GCS 或者是 Azure Blob 这样的托管服务。

对于 SQL 的解决方案，最流行的应用是 Hive 或者 Presto，或者是更有趣的数据仓库解决方案。我认为它们位于基础的 SQL 引擎之上。我们稍后会详细讨论。

Discuz! Board › 交流论坛 › Discuz! › 图文贴 › 大数据管理技术

大数据管理技术

本帖子中包含更多资源

关注微信公众号