凡间的精灵

凡尘落素一精灵


  • 首页

  • 归档

  • 分类

  • 标签

  • 站点地图

  • 搜索

OLAP 如何选型

发表于 2021-11-30 | 分类于 Hadoop
字数统计: 9.6k | 阅读时长 ≈ 34
一、OLAP 简介OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。联机分析处理 (OLAP) 的概念 ...
阅读全文 »

Apache Druid 联机分析处理(OLAP)

发表于 2021-11-24 | 分类于 Hadoop
字数统计: 14.2k | 阅读时长 ≈ 54
一、简介Apache Druid 是一个实时分析数据库,专为大型数据集进行快速的查询分析(OLAP 查询)而设计。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景。Druid也通常被用来助力分析型应用的图形化界面,或者当做需要快速聚合的高并发后端API,Druid最适合 ...
阅读全文 »

ClickHouse 联机分析处理(OLAP)

发表于 2021-11-19 | 分类于 Hadoop
字数统计: 13k | 阅读时长 ≈ 49
ClickHouse 的全称是Click Stream,Data WareHouse,简称ClickHouse,是俄罗斯 Yandex 公司于2016年开源的列式存储数据库(DBMS),主要用于联机分析处理查询(OLAP),能够使用SQL 查询实时生成分析数据报告。一、OLAP和列式存储1.1 什么 ...
阅读全文 »

Presto 分布式SQL查询引擎

发表于 2021-11-16 | 分类于 Hadoop
字数统计: 6.4k | 阅读时长 ≈ 26
Presto 是由 Facebook 推出的一个基于Java开发的开源分布式SQL查询引擎,数据量支持GB到TB字节,presto本身不存数据,但是可以接入很多数据源,它使得用SQL访问任何数据源成为可能,而且支持跨数据源的级联查询。你可以使用Presto通过水平扩展查询处理的方式来查询大型数据集。 ...
阅读全文 »

大数据主流流计算Flink及Storm、Spark比较

发表于 2021-11-16 | 分类于 Hadoop
字数统计: 1.9k | 阅读时长 ≈ 6
一、有限数据集和无限数据集有限数据集:数据大小有限(固定大小,比如固定的文件),用于批处理,这一类数据主要用于mr,hive,pig,spark等批计算引擎。无限数据集:数据持续增长(属于无限大小,比如kafka中的日志数据,总是有新数据进入,并且不知道什么时候结束或者是永远不结束),用于流式处理, ...
阅读全文 »

Flink 常用的几种模式部署

发表于 2021-11-16 | 分类于 Hadoop
字数统计: 2.1k | 阅读时长 ≈ 10
一、Flink local 模式1.1 配置jdk环境123456[hadoop@hadoop1 ~]$ tar xf downloads/jdk-8u301-linux-x64.tar.gz[hadoop@hadoop1 ~]$ vim .bash_profileexport JAVA_HOME= ...
阅读全文 »

Hadoop 计算引擎Flink

发表于 2021-11-12 | 分类于 Hadoop
字数统计: 6.2k | 阅读时长 ≈ 22
Apache Flink 是一个框架和分布式处理引擎,用于在 无边界 和 有边界 数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。一、Flink 特点1.1 无界和有界数据任何类型的数据都可以形成一种事件流。信用卡交易、传感器测量、机器日志、网站或 ...
阅读全文 »

Spark 常用的几种模式部署

发表于 2021-11-11 | 分类于 Hadoop
字数统计: 2.6k | 阅读时长 ≈ 14
Spark 支持本地运行模式(Local 模式)、独立运行模式(Standalone 模式)、Mesos、YARN(Yet Another Resource Negotiator)、Kubernetes 模式等。一、Spark Local 模式1.1 下载解压 Spark123456789[hado ...
阅读全文 »

Hadoop 计算引擎Spark

发表于 2021-11-04 | 分类于 Hadoop
字数统计: 5.7k | 阅读时长 ≈ 21
一、简介Apache Spark 是用于大规模数据处理的统一分析引擎。 它提供了 Java、Scala、Python 和 R 中的高级 API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于 SQL 和 DataFrames 的 Spark SQL,用于机器 ...
阅读全文 »

Hadoop 流式计算引擎Storm

发表于 2021-11-01 | 分类于 Hadoop
字数统计: 4.8k | 阅读时长 ≈ 19
一、简介Apache Storm 是开源的分布式、高容错的实时计算系统,擅长处理海量数据,适用于数据实时处理而非批处理。经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。二、Apache Storm核心概念Stream:Storm中被处理的数据流,一条消息称为一个Tuple。 ...
阅读全文 »
Prev1…567…38Next
Zhongzhou Chen

Zhongzhou Chen

371 日志
89 分类
188 标签
RSS
0%
© 2023 Zhongzhou Chen | Site words total count: 863.9k