一、前言 这个学期大数据项目是实训要求搭建一个电商数仓,我看老师发的资料好像是直接把尚硅谷的教程直接拿来用了🤔。 记录一下搭建过程吧🐔。 简介 数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。 数据仓库的输入数据通常包括:
一、前言 上课直接做项目好无聊,写篇文章磨洋工😗。 Apache Hive 是一个分布式、容错的数据仓库系统,支持大规模分析,并利用 SQL 支持分布式存储中的 PB 级数据的读写和管理。 Hive 可以理解成把你写的 SQL,翻译成对大数据文件的处理任务的一个工具。 比如你把数据放在 HDFS
一、虚拟机下载 虚拟机选择 VMware Workstation Pro,这是官网下载地址:Fusion and Workstation | VMware 。 随便吐槽一下,我不知道把下载链接藏这么深是何意味😕?而且你不登录还下载(下载链接会验证你是否登录)不了,本来网站就在国外,没有梯子网站都打
一、Kafka Producer Kafka Producer 是一个向 Kafka 集群发送消息的客户端程序。它负责以消息的形式将数据流发布到指定的主题中。 1、Working Principle of Kafka Producer(Kafka Producer 的工作原理) Producer 以
一、HQL Syntax(HQL 语法) Hive 提供了一种机制,可以在 Hadoop 中的数据之上投射结构,并使用一种类似 SQL 的语言——HiveQL (HQL) 来查询这些数据。 之所以使用 Hive,是因为 Hive 中的表与关系型数据库中的表非常相似。如果你熟悉 SQL,那么使用 Hi
一、Kafka Core Concepts(Kafka 核心概念) Apache Kafka 的核心是一个基于 **分区(Partition)**和 **多副本(Replication)**的分布式消息引擎,由 Zookeeper 协调管理。 在 Kafka 中,每条消息也被称为一条 记录(Reco
一、Log collection and data transmission in big data ecology(大数据生态中的日志采集与数据传输) 随着大数据技术的快速发展,一个完整而多样化的大数据生态系统已经形成。这个生态系统通常可描述为由数据采集层、数据计算层和数据应用层组成的三层架构。每
Spark Chapter 3:Scala Foundation(Scala 基础) 一、Basic Scala Concept(Scala 基本概念) Scala 结合了面向对象和函数式编程,是一种简洁的高级语言。 Scala 的静态类型系统有助于在复杂应用中避免错误,它既能运行在 JVM 上,也
一、Introduction of Spark Running Mode(Spark 运行模式介绍) Spark 可以在多种模式下运行,可以在单机上以本地模式或伪分布式模式运行。当在集群中以分布式模式运行时,底层的资源调度可以使用 Mesos、YARN,或者 Spark 自带的 Standalone
一、Spark Introduction(Spark 简介) Apache Hive 是一个开源的数据仓库软件,用于读取、写入和管理存储在 Apache Hadoop 分布式文件系统(HDFS)或其他数据存储系统(如 Apache HBase)中的大型数据集文件。Hive 允许 SQL 开发人员编写