OLAP 如何选型

发表于 2021-11-30 | 分类于 Hadoop

字数统计: 9.6k | 阅读时长 ≈ 34

一、OLAP 简介OLAP，也叫联机分析处理（Online Analytical Processing）系统，有的时候也叫DSS决策支持系统，就是我们说的数据仓库。与此相对的是OLTP（on-line transaction processing）联机事务处理系统。联机分析处理 (OLAP) 的概念 ...

阅读全文 »

Apache Druid 联机分析处理(OLAP)

发表于 2021-11-24 | 分类于 Hadoop

字数统计: 14.2k | 阅读时长 ≈ 54

一、简介Apache Druid 是一个实时分析数据库，专为大型数据集进行快速的查询分析（OLAP 查询）而设计。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景。Druid也通常被用来助力分析型应用的图形化界面，或者当做需要快速聚合的高并发后端API，Druid最适合 ...

阅读全文 »

ClickHouse 联机分析处理(OLAP)

发表于 2021-11-19 | 分类于 Hadoop

字数统计: 13k | 阅读时长 ≈ 49

ClickHouse 的全称是Click Stream，Data WareHouse，简称ClickHouse，是俄罗斯 Yandex 公司于2016年开源的列式存储数据库（DBMS)，主要用于联机分析处理查询（OLAP），能够使用SQL 查询实时生成分析数据报告。一、OLAP和列式存储1.1 什么 ...

阅读全文 »

Presto 分布式SQL查询引擎

发表于 2021-11-16 | 分类于 Hadoop

字数统计: 6.4k | 阅读时长 ≈ 26

Presto 是由 Facebook 推出的一个基于Java开发的开源分布式SQL查询引擎，数据量支持GB到TB字节，presto本身不存数据，但是可以接入很多数据源，它使得用SQL访问任何数据源成为可能，而且支持跨数据源的级联查询。你可以使用Presto通过水平扩展查询处理的方式来查询大型数据集。 ...

阅读全文 »

大数据主流流计算Flink及Storm、Spark比较

发表于 2021-11-16 | 分类于 Hadoop

字数统计: 1.9k | 阅读时长 ≈ 6

一、有限数据集和无限数据集有限数据集：数据大小有限（固定大小，比如固定的文件），用于批处理，这一类数据主要用于mr，hive，pig，spark等批计算引擎。无限数据集：数据持续增长（属于无限大小，比如kafka中的日志数据，总是有新数据进入，并且不知道什么时候结束或者是永远不结束），用于流式处理， ...

阅读全文 »

Flink 常用的几种模式部署

发表于 2021-11-16 | 分类于 Hadoop

字数统计: 2.1k | 阅读时长 ≈ 10

一、Flink local 模式1.1 配置jdk环境123456[hadoop@hadoop1 ~]$ tar xf downloads/jdk-8u301-linux-x64.tar.gz[hadoop@hadoop1 ~]$ vim .bash_profileexport JAVA_HOME= ...

阅读全文 »

Hadoop 计算引擎Flink

发表于 2021-11-12 | 分类于 Hadoop

字数统计: 6.2k | 阅读时长 ≈ 22

Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。一、Flink 特点1.1 无界和有界数据任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或 ...

阅读全文 »

Spark 常用的几种模式部署

发表于 2021-11-11 | 分类于 Hadoop

字数统计: 2.6k | 阅读时长 ≈ 14

Spark 支持本地运行模式（Local 模式）、独立运行模式（Standalone 模式）、Mesos、YARN（Yet Another Resource Negotiator）、Kubernetes 模式等。一、Spark Local 模式1.1 下载解压 Spark123456789[hado ...

阅读全文 »

Hadoop 计算引擎Spark

发表于 2021-11-04 | 分类于 Hadoop

字数统计: 5.7k | 阅读时长 ≈ 21

一、简介Apache Spark 是用于大规模数据处理的统一分析引擎。它提供了 Java、Scala、Python 和 R 中的高级 API，以及优化的引擎，该引擎支持用于数据分析的通用计算图。它还支持丰富的高级工具集，包括用于 SQL 和 DataFrames 的 Spark SQL，用于机器 ...

阅读全文 »

Hadoop 流式计算引擎Storm

发表于 2021-11-01 | 分类于 Hadoop

字数统计: 4.8k | 阅读时长 ≈ 19

一、简介Apache Storm 是开源的分布式、高容错的实时计算系统，擅长处理海量数据，适用于数据实时处理而非批处理。经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。二、Apache Storm核心概念Stream：Storm中被处理的数据流，一条消息称为一个Tuple。 ...

阅读全文 »