滕王阁 让我们一起摇摆🥳🥳🥳

大数据项目 在线教育实时数仓-01-用户行为采集平台

一、前言 这个学期大数据项目是实训要求搭建一个电商数仓,我看老师发的资料好像是直接把尚硅谷的教程直接拿来用了🤔。 记录一下搭建过程吧🐔。 简介 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 数据仓库的输入数据通常包括:

Ezekielx 发布于 2026-05-25

Hive 环境搭建(基于 Hadoop + MySQL)

一、前言 上课直接做项目好无聊,写篇文章磨洋工😗。 Apache Hive 是一个分布式、容错的数据仓库系统,支持大规模分析,并利用 SQL 支持分布式存储中的 PB 级数据的读写和管理。 Hive 可以理解成把你写的 SQL,翻译成对大数据文件的处理任务的一个工具。 比如你把数据放在 HDFS

Ezekielx 发布于 2026-04-07

Hadoop 伪分布式集群环境配置

一、虚拟机下载 虚拟机选择 VMware Workstation Pro,这是官网下载地址:Fusion and Workstation | VMware 。 随便吐槽一下,我不知道把下载链接藏这么深是何意味😕?而且你不登录还下载(下载链接会验证你是否登录)不了,本来网站就在国外,没有梯子网站都打

Ezekielx 发布于 2026-03-11

FlumeKafkaSqoop Chapter 3:Kafka Advanced Features and Applications(Kafka 的高级特性与应用)

一、Kafka Producer Kafka Producer 是一个向 Kafka 集群发送消息的客户端程序。它负责以消息的形式将数据流发布到指定的主题中。 1、Working Principle of Kafka Producer(Kafka Producer 的工作原理) Producer 以

Ezekielx 发布于 2025-12-01

Hive Chapter 3:HQL Syntax(HQL 语法)

一、HQL Syntax(HQL 语法) Hive 提供了一种机制,可以在 Hadoop 中的数据之上投射结构,并使用一种类似 SQL 的语言——HiveQL (HQL) 来查询这些数据。 之所以使用 Hive,是因为 Hive 中的表与关系型数据库中的表非常相似。如果你熟悉 SQL,那么使用 Hi

Ezekielx 发布于 2025-11-24

FlumeKafkaSqoop Chapter 2:Getting Started with Apache Kafka(Apache Kafka 入门)

一、Kafka Core Concepts(Kafka 核心概念) Apache Kafka 的核心是一个基于 **分区(Partition)**和 **多副本(Replication)**的分布式消息引擎,由 Zookeeper 协调管理。 在 Kafka 中,每条消息也被称为一条 记录(Reco

Ezekielx 发布于 2025-11-10

FlumeKafkaSqoop Chapter 1:Log Collection and Data Transmission Technology(日志采集与数据传输技术)

一、Log collection and data transmission in big data ecology(大数据生态中的日志采集与数据传输) 随着大数据技术的快速发展,一个完整而多样化的大数据生态系统已经形成。这个生态系统通常可描述为由数据采集层、数据计算层和数据应用层组成的三层架构。每

Ezekielx 发布于 2025-11-07

Spark Chapter 3:Scala Foundation(Scala 基础)

Spark Chapter 3:Scala Foundation(Scala 基础) 一、Basic Scala Concept(Scala 基本概念) Scala 结合了面向对象和函数式编程,是一种简洁的高级语言。 Scala 的静态类型系统有助于在复杂应用中避免错误,它既能运行在 JVM 上,也

Ezekielx 发布于 2025-10-16

Spark Chapter 2:Operation Modes in Spark(Spark 的运行模式)

一、Introduction of Spark Running Mode(Spark 运行模式介绍) Spark 可以在多种模式下运行,可以在单机上以本地模式或伪分布式模式运行。当在集群中以分布式模式运行时,底层的资源调度可以使用 Mesos、YARN,或者 Spark 自带的 Standalone

Ezekielx 发布于 2025-09-18

Hive Chapter 1:Introduction to Hive(Hive 简介)

一、Spark Introduction(Spark 简介) Apache Hive 是一个开源的数据仓库软件,用于读取、写入和管理存储在 Apache Hadoop 分布式文件系统(HDFS)或其他数据存储系统(如 Apache HBase)中的大型数据集文件。Hive 允许 SQL 开发人员编写

Ezekielx 发布于 2025-09-17
上一页 下一页