大数据管理技术
查看: 628|回复: 0
收起左侧

大数据管理技术

[复制链接]

41

主题

50

帖子

265

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
265
发表于 2022-5-18 17:48:10 | 显示全部楼层 |阅读模式

随着存储信息数量的增长,数据存储一直都是首要问题。这是任何与数据打交道的系统的基础——有许多技术可以存储海量的原始数据,这些原始数据可以来自传统的数据源,比如 OLTP 数据库,也可以来自更新的、更非结构化的数据源,比如日志文件、传感器、网站分析数据、文档档案数据和媒体档案数据。如你所见,这些领域差异巨大,有着各自的领域特点,而我们需要从所有这些领域收集数据。

第一件重要的事情就是用于存储数据的格式,如何将其存储结构最优化以及如何最优地存储这些数据。当然,在此时你会想到大数据领域的常见格式,例如 Parquet、CSV、Avro。另外,也可以考虑使用压缩工具,例如 Bzip2、Snappy、Lzo 等等。此外,优化工作基本上要么涉及适当的分区,要么是一些存储特定的东西。

支撑数据层的主要技术,当然是具有 HDFS 的 Hadoop——一个非常经典的大规模文件系统。因为它的持久性和在传统设备上无限的扩容能力,它已经非常流行了。然而,最近越来越多的数据被存储在云端,或者至少是混合云——企业正在从过时的本地存储系统迁移到类似 AWS S3、GCP GCS 或者是 Azure Blob 这样的托管服务。

对于 SQL 的解决方案,最流行的应用是 Hive 或者 Presto,或者是更有趣的数据仓库解决方案。我认为它们位于基础的 SQL 引擎之上。我们稍后会详细讨论。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则