深度学习 CNN+LSTM+Attention实现时间序列预测

甜水一博客 2024-04-21 17 0

本文设计并实现的基于Attention机制的CNN-LSTM模型(以下简称为CLATT模型)一共分为五层，具体结构与原理如图所示。第一层是输入层。规定输入数据的格式（批大小，时间步数，特征维度），将批大小默认为１，时间步数记为ｔ，特征维度记为ｎ，则一条样本可表示为一个实数序列矩阵Ｒｔ×ｎ，记ｘｉ为Ｒｔ×ｎ中第ｉ个时间步数据的向量表示。第二层是卷积神经网络层（CNN 层）。CNN 层可以提取数据中不同特征值之间的空间联系，进而弥补ＬＳＴＭ无法捕获数据空间分量的缺点，同时它提取出的特征仍然具有时序性。样本数据进入ＣＮＮ层中会依次进行卷积、池化和节点展开（降维）操作。针对序列数据，本模型采取一维卷积，卷积核只按照单一的时域方向进行卷积。卷积核数目为ｒ，尺寸设置为ｋ，则ｘｉ：ｉ＋ｋ－１为Ｒｔ×ｎ中第ｉ个时间步到第ｉ＋ｋ－１个时间步的实数矩阵，滑动步长为１。权重矩阵Ｗ１是一个ｋ×ｎ的实数矩阵。对每ｋ个时间步的序列向量进行一次特征提取，得到一个特征ｏｉ，计算公式如下：

ｏｉ＝ｆ（Ｗ１ ⊗ｘｉ：ｉ＋ｋ－１＋ｂ１）

ｆ是非线性的激活函数，ｂ１ ∈Ｒ是一个偏置。当一个卷积核提取完一条样本的序列数据后，会得到一个（ｔ－ｋ＋１）×１形状的特征图ｏ，计算公式如下：

ｏ＝［ｏ１，ｏ２，…，ｏｔ－ｋ＋１］T

CNN 共有ｒ个卷积核，因此最终会得到ｒ个特征图。卷积后再进行最大池化操作，池化尺寸为２，滑动步长为２，得到ｒ个［（ｔ－ｋ＋１）／２］×１形状的特征图ｏ，计算公式如下：

ｏ＝ｍａｘ｛ｏｉ，ｏｉ＋１}（ｉ＝１，３，５，…，ｔ－ｋ)

这ｒ个特征图即为 CNN 层提取的特征，将其降维成一个长度为 r*(t-k+1)/2 的实数向量，该向量中保存了样本数据中不同特征值之间的空间联系，再输入LSTM 层中继续处理。第三层是多层 LSTM。 LSTM具有记忆功能，可以提取建筑冷热负荷非线性数据的时序变化信息。它引入了输入门、遗忘门、输出门，同时还添加了候选态、细胞态和隐状态。细胞态存储长期记忆，可以缓解梯度消失，隐状态存储短期记忆。本模型采用了多层 LSTM，上一层 LSTM 的输出是下一层的输入，一层一层往下传递，最后一层 LSTM 隐藏层的输出会进入注意力层进一步处理。第四层是注意力层。注意力可以提高 LSTM中重要时间步的作用，从而进一步降低模型预测误差。注意力本质上就是求最后一层 LSTM 输出向量的加权平均和。 LSTM 隐藏层输出向量作为注意力层的输入，通过一个全连接层进行训练，再对全连接层的输出使用 softmax 函数进行归一化，得出每一个隐藏层向量的分配权重，权重大小表示每个时间步的隐状态对于预测结果的重要程度。权重训练过程如下：

Ｓｉ＝tanh（ＷＨｉ＋ｂｉ） αｉ＝softmax（Ｓｉ）

再利用训练出的权重对隐藏层输出向量求加权平均和，计算结果如下：

Ｃｉ＝

∑

\sum_{i=0}^k

∑i=0kαｉＨi

其中Ｈｉ为最后一层LSTM 隐藏层的输出，Ｓｉ为每个隐藏层输出的得分，αｉ为权重系数，Ｃｉ为加权求和后的结果，softmax为激活函数。第五层是输出层。该层规定了预测时间步ｏｔ，最终输出ｏｔ步的预测结果。

def cnn_lstm_attention_model(n_input, n_out, n_features):

inputs = Input(shape=(n_input, n_features))

x = Conv1D(filters=64, kernel_size=1, activation='relu')(inputs) # , padding = 'same'

x = Dropout(0.3)(x)

lstm_out = Bidirectional(LSTM(128, return_sequences=True))(x)

lstm_out = Dropout(0.3)(lstm_out)

attention_mul = attention_block(lstm_out, n_input)

attention_mul = Flatten()(attention_mul)#扁平层，变为一维数据

output = Dense(n_out, activation='sigmoid')(attention_mul)

model = Model(inputs=[inputs], outputs=output)

model.summary()

model.compile(loss="mse", optimizer='adam')

return model

实验与分析

使用皮尔逊系数法进行相关性分析，选择相关系数绝对值大于等于５的特征作为实验数据的特征。

数据处理

首先，对缺失值和异常值进行处理，对缺失值采用前向填充法处理，对异常值采用标准差法进行判断，再采用替换法进行处理。其次，将数据分别按照比例6∶2∶2划分成训练集、验证集和测试集。为防止测试集的信息泄露给模型，数据集的划分要放在归一化数据前。再次，为了加快模型训练速度，采用最大最小归一化方法处理数据集。最后，使用滑动窗口将时间序列数据转化为监督问题数据，滑动窗口大小为10，每次滑动１个时间步。

def series_to_supervised(data, n_in, n_out, dropnan=True):

n_vars = 1 if type(data) is list else data.shape[1]

df = DataFrame(data)

cols, names = list(), list()

# input sequence (t-n, ... t-1)

# 将3组输入数据依次向下移动3，2，1行，将数据加入cols列表（技巧：(n_in, 0, -1)中的-1指倒序循环，步长为1）

for i in range(n_in, 0, -1):

cols.append(df.shift(i))

names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]

# forecast sequence (t, t+1, ... t+n)

# 将一组输出数据加入cols列表（技巧：其中i=0）

for i in range(0, n_out):

cols.append(df.shift(-i))

if i == 0:

names += [('var%d(t)' % (j+1)) for j in range(n_vars)]

else:

names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]

# cols列表(list)中现在有四块经过下移后的数据(即：df(-3),df(-2),df(-1),df)，将四块数据按列并排合并

agg = concat(cols, axis=1)

# 给合并后的数据添加列名

agg.columns = names

print(agg)

# 删除NaN值列

if dropnan:

agg.dropna(inplace=True)

return agg

评估指标

本文选择平均绝对误差（MAE）和均方根误差（RMSE）以及R2作为误差评估指标，来定量地分析模型预测效果，公式如下: 上述公式中，ｎ表示预测样本个数，ｙ表示真实值，ｙ′表示预测值。

mean_absolute_error=mean_absolute_error(test_y[:, feature], predict_y[:, feature])

mean_squared_error=mean_squared_error(test_y[:, feature], predict_y[:, feature])

rmse=sqrt(mean_squared_error)#计算rmse

r2_score=r2_score(test_y[:, feature], predict_y[:, feature])#计算r平方

模型对比与分析

使用消融实验来进行模型对比可以看到cnn_lstm_attention模型效果最好。

rmse: 0.03718616235924552 r2: 0.4299815376427156

rmse: 0.04570584783531429 r2: 0.13886797860359967

rmse: 0.03876087350959183 r2: 0.3806825579394115

rmse: 0.04834780434038557 r2: 0.03643789488376792

rmse: 0.03560436142032436 r2: 0.47744428499036307

好文阅读

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

本文由用户于 2024-04-21 发布在夸智网，如有疑问，请联系我们。
本文链接：https://www.kuazhi.com/post/713838833.html

夸智网

深度学习 CNN+LSTM+Attention实现时间序列预测

人工智能深度探索：朴素贝叶斯算法在机器学习中的原理与应用

机器学习人工智能使用决策树模型Titanic数据集预测

发表评论取消回复

夸智网

深度学习 CNN+LSTM+Attention实现时间序列预测

人工智能 深度探索：朴素贝叶斯算法在机器学习中的原理与应用

机器学习 人工智能 使用决策树模型Titanic数据集预测

相关文章

发表评论取消回复

人工智能深度探索：朴素贝叶斯算法在机器学习中的原理与应用

机器学习人工智能使用决策树模型Titanic数据集预测