项目

大数据项目在线教育实时数仓-01-用户行为采集平台

一、前言这个学期大数据项目是实训要求搭建一个电商数仓，我看老师发的资料好像是直接把尚硅谷的教程直接拿来用了🤔。记录一下搭建过程吧🐔。简介数据仓库（ Data Warehouse ），是为企业制定决策，提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。数据仓库的输入数据通常包括：

发布于 2026-05-25

Hive

Hive 环境搭建（基于 Hadoop + MySQL）

一、前言上课直接做项目好无聊，写篇文章磨洋工😗。 Apache Hive 是一个分布式、容错的数据仓库系统，支持大规模分析，并利用 SQL 支持分布式存储中的 PB 级数据的读写和管理。 Hive 可以理解成把你写的 SQL，翻译成对大数据文件的处理任务的一个工具。比如你把数据放在 HDFS

发布于 2026-04-07

Hadoop

Hadoop 伪分布式集群环境配置

一、虚拟机下载虚拟机选择 VMware Workstation Pro，这是官网下载地址：Fusion and Workstation | VMware 。随便吐槽一下，我不知道把下载链接藏这么深是何意味😕？而且你不登录还下载（下载链接会验证你是否登录)不了，本来网站就在国外，没有梯子网站都打

发布于 2026-03-11

Kafka

FlumeKafkaSqoop Chapter 3：Kafka Advanced Features and Applications（Kafka 的高级特性与应用）

一、Kafka Producer Kafka Producer 是一个向 Kafka 集群发送消息的客户端程序。它负责以消息的形式将数据流发布到指定的主题中。 1、Working Principle of Kafka Producer（Kafka Producer 的工作原理） Producer 以

发布于 2025-12-01

Hive

Hive Chapter 3：HQL Syntax（HQL 语法）

一、HQL Syntax（HQL 语法） Hive 提供了一种机制，可以在 Hadoop 中的数据之上投射结构，并使用一种类似 SQL 的语言——HiveQL (HQL) 来查询这些数据。之所以使用 Hive，是因为 Hive 中的表与关系型数据库中的表非常相似。如果你熟悉 SQL，那么使用 Hi

发布于 2025-11-24

Kafka

FlumeKafkaSqoop Chapter 2：Getting Started with Apache Kafka（Apache Kafka 入门）

一、Kafka Core Concepts（Kafka 核心概念） Apache Kafka 的核心是一个基于 **分区（Partition）**和 **多副本（Replication）**的分布式消息引擎，由 Zookeeper 协调管理。在 Kafka 中，每条消息也被称为一条记录（Reco

发布于 2025-11-10

Flume

FlumeKafkaSqoop Chapter 1：Log Collection and Data Transmission Technology（日志采集与数据传输技术）

一、Log collection and data transmission in big data ecology（大数据生态中的日志采集与数据传输）随着大数据技术的快速发展，一个完整而多样化的大数据生态系统已经形成。这个生态系统通常可描述为由数据采集层、数据计算层和数据应用层组成的三层架构。每

发布于 2025-11-07

Spark

Spark Chapter 3：Scala Foundation（Scala 基础）

Spark Chapter 3：Scala Foundation（Scala 基础）一、Basic Scala Concept（Scala 基本概念） Scala 结合了面向对象和函数式编程，是一种简洁的高级语言。 Scala 的静态类型系统有助于在复杂应用中避免错误，它既能运行在 JVM 上，也

发布于 2025-10-16

Spark

Spark Chapter 2：Operation Modes in Spark（Spark 的运行模式）

一、Introduction of Spark Running Mode（Spark 运行模式介绍） Spark 可以在多种模式下运行，可以在单机上以本地模式或伪分布式模式运行。当在集群中以分布式模式运行时，底层的资源调度可以使用 Mesos、YARN，或者 Spark 自带的 Standalone

发布于 2025-09-18

Hive

Hive Chapter 1：Introduction to Hive（Hive 简介）

一、Spark Introduction（Spark 简介） Apache Hive 是一个开源的数据仓库软件，用于读取、写入和管理存储在 Apache Hadoop 分布式文件系统（HDFS）或其他数据存储系统（如 Apache HBase）中的大型数据集文件。Hive 允许 SQL 开发人员编写

发布于 2025-09-17

菜单

大数据项目在线教育实时数仓-01-用户行为采集平台

Hive 环境搭建（基于 Hadoop + MySQL）

Hadoop 伪分布式集群环境配置

FlumeKafkaSqoop Chapter 3：Kafka Advanced Features and Applications（Kafka 的高级特性与应用）

Hive Chapter 3：HQL Syntax（HQL 语法）

FlumeKafkaSqoop Chapter 2：Getting Started with Apache Kafka（Apache Kafka 入门）

FlumeKafkaSqoop Chapter 1：Log Collection and Data Transmission Technology（日志采集与数据传输技术）

Spark Chapter 3：Scala Foundation（Scala 基础）

Spark Chapter 2：Operation Modes in Spark（Spark 的运行模式）

Hive Chapter 1：Introduction to Hive（Hive 简介）

code-server：浏览器上远程运行的 Visual Studio Code 的搭建与使用

科幻世界(2020年-2025年) 正刊 + 译文版 PDF

WakeUP 课程表最后一个无拍照搜题的历史版本 6.0.30

使用 frp 通过低性能云服务器来实现内网穿透进行我的世界服务器在本地计算机搭建

Linux-CentOS Stream 换源以及 [Couldn't open file etcpkirpm-gpgRPM-GPG-KEY-centosofficial] 解决方案

MobaXterm：强大的远程网络工具，SSH 远程连接功能的使用

Linux-红帽认证 RHCSA-03-使用 DNF 包管理器载、安装、更新和管理软件包

VMWare Linux 虚拟机 CentOS Stream 系统磁盘扩容

Linux-红帽认证 RHCSA-13-重置 root 密码

统计质数数量的简单高效方法 - 埃氏筛