大数据 Apache StreamPark系列教程第一篇——安装和体验

Lyoune 博客 2023-11-07 1 0

一、StreamPark介绍

实时即未来,在实时处理流域 Apache Spark 和 Apache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案

框架介绍 | Apache StreamPark (incubating)

二、安装快速体验

官网提供了jar包安装和docker安装，本文先简单使用docker 安装来快速体验StreamPark

首先机器上需要安装docker和docker compose，可以先参考下官网下载相关文件

Docker 快速使用教程 | Apache StreamPark (incubating)

默认是h2数据库，如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)

确保Flink和StreamPark都能访问正常，需要配置Flink Home信息

Flink Home路径填写：/StreamPark/flink/flink14.5/ 其他不用修改参考上图

集群配置信息

地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图

修改Application里面自带的Flink SQL demo 任务，即可成功运行

修改完成之后点击release(发布作业)然后start(启动作业)，任务即可启动成功。

备注：Flink SQL demo会运行一段时间之后自动结束，因为代码里面设置自动生成数据是增量数据，如果想任务一直运行

去掉自增设置同时改为最小和最大值成为随机数

'fields.f_sequence.min'='1',

'fields.f_sequence.max'='500',

这样job就能一直运行起来，而不会运行一段时间就停止了。

原文链接：

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2023-11-07 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/712099033.html

夸智网

大数据 Apache StreamPark系列教程第一篇——安装和体验

YARN任务调度 YARN架构 YARN命令 YARN任务提交流程 YARN 资源配置【Hadoop】Apache Hadoop YARN

log4j apache java程序正确的打印日志

发表评论取消回复

夸智网

大数据 Apache StreamPark系列教程第一篇——安装和体验

YARN任务调度 YARN架构 YARN命令 YARN任务提交流程 YARN 资源配置 【Hadoop】Apache Hadoop YARN

log4j apache java程序正确的打印日志

相关文章

发表评论取消回复

YARN任务调度 YARN架构 YARN命令 YARN任务提交流程 YARN 资源配置【Hadoop】Apache Hadoop YARN