windows 【Flink Sink 流数据批量写入数据库】

大胃刻薄飞儿博客 2024-02-21 2 0

概要

Flink流数据常常存在写入数据库的场景，一般是通过继承RichSinkFunction来实现对数据的写入。如果sink之前不做优化处理，写入时都是单条写入。单条写入有许多弊端： 1、写入频繁造成数据库压力大 2、写入速度慢、效率低，造成反压所以需要使用批量写入的方式，本文通过开窗window定时缓存周期数据形成批，下发给sink节点，本文通过大数据量生产环境验证，不仅实现了批量写入，还在防止数据倾斜支持并行等方面做了优化，乃呕心之作。

批量写入功能实现

主函数

KeyedStream keyedStream=sinkStream.keyBy(new HashModKeySelector(keyIndexList,paralleSize));

winStream=keyedStream.window(TumblingProcessingTimeWindows.of(Time.milliseconds(windowSize))) .process(new RowProcessWindowFunction(keyIndexList));

DataStreamSink sink=winStream.addSink(new DbSinkFunction(conf,writeSql));

1、对业务数据进行分组HashModKeySelector

public class HashModKeySelector implements KeySelector {

private static final Logger logger = LoggerFactory.getLogger(HashModKeySelector2.class);

private static final long serialVersionUID = 1L;

/**

* key在row中的索引

private List keyIndexList=null;

private Integer paralleSize;

private Map md5Map = new ConcurrentHashMap<>();

public HashModKeySelector2(List keyIndexList, Integer paralleSize) {

this.keyIndexList=keyIndexList;

this.paralleSize=paralleSize;

}

@Override

public String getKey(Row value) {

int size=keyIndexList.size();

Row keyRow=new Row(size);

for(int i=0;i

int index=keyIndexList.get(i);

keyRow.setField(i, value.getField(index));

}

int keyHash=keyRow.hashCode()%paralleSize;

String strKey=String.valueOf(keyHash);

String md5Value = md5Map.get(strKey);

if(StringUtils.isBlank(md5Value)){

md5Value=md5(strKey);

md5Map.put(strKey,md5Value);

}

return md5Value;

}

public static String md5(String key) {

String result="";

try {

// 创建MD5消息摘要对象

MessageDigest md = MessageDigest.getInstance("MD5");

// 计算消息的摘要

byte[] digest = md.digest(key.getBytes());

// 将摘要转换为十六进制字符串

String hexString = bytesToHex(digest);

result=hexString;

} catch (Exception e) {

logger.error("计算{}md5值失败:",key,e);

return key;

}

return result;

}

public static String bytesToHex(byte[] bytes) {

StringBuilder hexString = new StringBuilder();

for (byte b : bytes) {

String hex = Integer.toHexString(0xff & b);

if (hex.length() == 1) {

hexString.append('0');

}

hexString.append(hex);

}

return hexString.toString();

}

2、使用滚动窗口缓存数据，将单条数据放入集合中，发送到下游

public class RowProcessWindowFunction extends ProcessWindowFunction{

private static final Logger LOG = LoggerFactory.getLogger(RowProcessWindowFunction.class);

/**

* key在row中的索引

private List keyIndexList;

public RowProcessWindowFunction(List keyIndexList) {

if(keyIndexList==null||keyIndexList.size()==0) {

LOG.error("keyIndexList is empty");

throw new RuntimeException("keyIndexList is empty");

}

this.keyIndexList=keyIndexList;

}

@Override

public void process(String key, Context context, Iterable inRow, Collector out) throws Exception {

List rowList=new ArrayList<>();

for (Row row : inRow) {

rowList.add(row);

}

int size=rowList.size();

Row[] rows=new Row[size];

int index=0;

for(Row tmpRow:rowList) {

rows[index]=tmpRow;

index=index+1;

}

out.collect(rows);

}

3、批量写入

public class DbSinkFunction extends RichSinkFunction {

private static final Logger LOG = LoggerFactory.getLogger(DbSinkFunction.class);

private String driver = null;

private String sql = null;

DbConnectionPool pool = null;

private Integer laodRate;

private int columnTypes[];

public DbSinkFunction(String dbDriver, String dmlSql) {

this.driver = dbDriver;

this.sql = dmlSql;

}

@Override

public void open(Configuration parameters) throws Exception {

super.open(parameters);

//创建连接池

pool = new DbConnectionPool(conf, driver);

}

@Override

public void close() throws Exception {

//关闭资源、释放资源

super.close();

//关闭连接池

pool.close();

}

/**

* 写入数据库

@Override

public void invoke(I record, Context context) throws Exception {

PreparedStatement ps = null;

Boolean isBatch = false;

String logSql = sql.substring(0,sql.toUpperCase().indexOf("VALUES"));

int length=1;

Connection connection =null;

try {

connection =pool.getConnection();

ps = connection.prepareStatement(sql);

//如果是批量数据

if (record instanceof Row[]) {

isBatch = true;

connection.setAutoCommit(false);

Row[] rowArray = (Row[]) record;

length=rowArray.length;

LOG.info("Row array:{}",length);

int no=0;

for(int i=1;i<=length;i++) {

Row row=rowArray[i-1];

fillPreparedStatement(ps, row);

ps.addBatch();

if(i%3000==0) {

ps.executeBatch();

connection.commit();

ps.clearBatch();

no=0;

}

no=no+1;

}

if(no>0) {

ps.executeBatch();

connection.commit();

ps.clearBatch();

}

} else if (record instanceof Row) {

//单条数据

isBatch = false;

Row row = (Row) record;

fillPreparedStatement(ps, row);

ps.execute();

} else {

throw new RuntimeException("不支持的数据类型 " + record.getClass());

}

} catch (SQLException e) {

connection.rollback();

if (isBatch) {

doOneInsert(sql, connection, (Row[]) record);

}

} catch (Exception e) {

LOG.error("写入失败", e);

} finally {

closeDBResources(ps,connection);

}

/**

* 批量失败时单条写入

* @param sql

* @param connection

* @param rowArray

protected void doOneInsert(String sql, Connection connection, Row[] rowArray) {

PreparedStatement ps = null;

String logSql = sql.substring(0,sql.toUpperCase().indexOf("VALUES"));

try {

Integer allSize = rowArray.length;

Integer errCount = 0;

connection.setAutoCommit(true);

ps = connection.prepareStatement(sql);

for (Row row : rowArray) {

try {

fillPreparedStatement(ps, row);

ps.execute();

} catch (SQLException e) {

errCount++;

} finally {

ps.clearParameters();

}

} catch (Exception e) {

LOG.error(e.getMessage(), e);

} finally {

closeDBResources(ps,null);

}

private void closeDBResources(Statement stmt, Connection conn) {

try {

if (!(null== stmt||stmt.isClosed())) {

stmt.close();

}

if (!(null == conn||conn.isClosed())) {

conn.close();

}

} catch (SQLException e) {

}

参考文章

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-02-21 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713322247.html

0赞

上一篇
智能机器人焊机展览会

下一篇
大数据分布式 Flink与Kafka集成

相关文章

后端 html java Autoxjs 实践-Spring Boot 集成 WebSocket

柚子快报激活码奖励一直有吗778899分享：pdf处理命令合集

数据结构算法 c语言双链表（超详细）

SPL學習之SplDoublyLinkedList

云计算全文检索论文笔记 2024年大数据、区块链与物联网国际会议（ICBDBLT 2024）

开发语言 linux如何查看编译器支持的C++版本（支持C++11、支持C++14、支持C++17、支持C++20）（编译时不指定g++版本，默认使用老版本编译）

前端 vue.js Vue25-内置指令02：v-text指令

android linux 驱动开发嵌入式硬件 arm开发 RK3588和RK3588S芯片介绍

发表评论取消回复

0赞 微信新浪微博QQ空间QQ

TA的新帖
区块链大数据人工智能加密货币初创企业指南：如何寻找代币与市场的契合点
2024-06-13
开发语言 Qt 图片预览（等比例显示、放大、缩小、平移图像）显示
2024-06-13
pcb工艺【立创EDA-PCB设计基础】3.网络表概念解读+板框绘制
2024-06-13
llama text2sql：SQLCoder的简介、安装、使用方法之详细攻略
2024-06-13
Linux 报错解决：Ubuntu插入硬盘不能挂载，Error mounting /dev/sdb1 at /media/×××/×××: unknown filesystem type ‘exfat’
2024-06-13
【Java8新特性】关于Java8中的日期时间API，你需要掌握这些！！
2024-06-13
热门文章
素材公社官网 - 专业设计素材网-高清图片网站
2024-06-13
LogoStoreAI - AI Logo免费在线生成设计工具
2024-06-13
魔界村(日版)
2024-06-12
三国志：英杰传[Amonwang](繁)(JP)
2024-06-13
米鱼网官网_米鱼素材库：抖音视频素材网-短视频无水印素材资源下载
2024-06-12
FreePD官网：可免费商用、无版权的mp3音乐下载音频素材网站
2024-06-13
v0.dev ：用户界面设计在线AI生成工具
2024-06-12
优波设计 - 设计师必备网址导航 ubuuk.com
2024-06-13
NFL美式足球
2024-06-12
DataEye-专业移动产品商业分析平台
2024-06-13
PNGPIX-免费下载高质量的PNG图片
2024-06-13
玛克纳姆危机一发
2024-06-12
RemovePhotos ：一键抠图/在线抠图/图片去除背景
2024-06-13
VCG音乐库-在线、正版、背景、纯音乐下载、音乐版权购买-音乐素材
2024-06-13
彩云小梦 - 智能写作AI助手
2024-06-13
有图官网入口-有图动图视频制作工具-动图视频和MG动画视频制作发布平台
2024-06-13
游戏王
2024-06-12
家庭训练者3 ：健美操演播室(美版)
2024-06-12
稿定设计 - 做图做视频必备_在线设计神器_海量版权素材模板
2024-06-12
Excel Formularizer - AI人工智能Excel处理工具,智能生成Excel和谷歌表格的公式
2024-06-12
Mybatis-Plus的QueryWrapper获取自定义SQL 简化自定义XML复杂情况${ew.customSqlSegment}
2024-06-13
npm 前端 Node.js16.15.1的一个报错及解决方案
2024-06-13
继续教育坚持人民至上生命至上，统筹发展和安全
2024-06-12
harmonyos 华为鸿蒙报错Compile error occurred. Fix it based on the above message.
2024-06-12
LVGL移植触摸屏【快速入门 LVGL】-- 1、STM32 工程移植 LVGL
2024-06-13
android 开发语言 visual studio code 前端【PHP【实战项目】系统性教学】——使用最精简的代码完成用户的登录与退出
2024-06-13
大数据 linux CentOS 7.9下载
2024-06-12
劳乐思AI版怎么远程遥控
2024-06-12
一米阳光AI智能机器人怎么联网
2024-06-12
intellij-idea idea创建spring boot项目，java版本只能选择17和21
2024-06-13
热评文章
Mybatis-Plus的QueryWrapper获取自定义SQL 简化自定义XML复杂情况${ew.customSqlSegment}
2024-06-13
npm 前端 Node.js16.15.1的一个报错及解决方案
2024-06-13
android 开发语言 visual studio code 前端【PHP【实战项目】系统性教学】——使用最精简的代码完成用户的登录与退出
2024-06-13
fpga开发 FPGA-（Win11）USB-Blaster无法在此设备上加载驱动解决
2024-06-12
ChatGPT具有颠覆性吗
2024-06-12
[zt]摄像机标定(Camera calibration)笔记
2024-06-12
[LeetCode] 847. Shortest Path Visiting All Nodes 访问所有结点的最短路径
2024-06-13
深度学习基于LSTM、BP神经网络实现电力系统负荷预测（Python代码实现）
2024-06-12
java~springcloud微服务目录索引
2024-06-12
机器学习 BP神经网络预测回归MATLAB代码（代码完整可直接用，注释详细，可供学习）
2024-06-12
chrome selenium入门超详细教程——网页自动化操作
2024-06-13
【源码】校园小情书小程序最新版校园小程序开发微信情书小程序校园小情书小程序源代码
2024-06-13
柚子快报怎么注册不了778899分享：【区块链】truffle测试
2024-06-13
区块链 $MPC 登录MEXC，加速Partisia Blockchain 生态市场进程
2024-06-13
后端 java Spring Boot整合Knife4j-3.0.3
2024-06-13
金融汇凯金业：上海黄金交易所简介
2024-06-13
前端 python pyqt QlineEdit内部增加按钮方法
2024-06-13
spring boot 后端 java SpringBoot项目解决跨域问题
2024-06-13
自动化 Python单元测试框架：unittest与pytest的深度对比
2024-06-13
区块链大数据人工智能加密货币初创企业指南：如何寻找代币与市场的契合点
2024-06-13
数据安全数据存储区块链简要介绍及运用的技术
2024-06-13
分布式 SpringBoot集成：搭建kafka集群 + zookeeper集群
2024-06-13
oracle Sqlite数据库基本使用
2024-06-13
vue css3 5、搭建前端项目
2024-06-13
java 后端 3、Spring之Bean生命周期~合并BeanDefinition
2024-06-13
开发语言 ARMV7架构知识点记录
2024-06-13
arm开发正点原子[第二期]ARM（I.MX6U）裸机篇学习笔记-1.2
2024-06-13
嵌入式硬件 ARM单片机如何通过共模滤波器解决天线去感问题
2024-06-13
鸿蒙面试学习 OpenHarmony如何将public-SDK替换为full-SDK，以支持更高系统API
2024-06-13
arm开发 ARM SocRates 1.7.7 基础架构设计学习-1
2024-06-13

夸智网——用心陪伴AI人工智能技术共同成长
AI工具 AI教程 ChatGPT教程
浙ICP备15009899号-3
本站部分信息来自互联网收集，仅供学习和交流，如有侵权、后门、不妥之处，请联系我们进行删除处理。

夸智网

windows 【Flink Sink 流数据批量写入数据库】

智能机器人焊机展览会

大数据 分布式 Flink与Kafka集成

相关文章

发表评论取消回复

大数据分布式 Flink与Kafka集成