pandas 机器学习数据挖掘如何多个excel中的数据分发到多个excel中去

这个问题之前有一个文章我写了这个方法，但是后来发现效率太低了，于是再次更新一下对应的技术方案，提速5000倍。

一下代码主要实现的功能：

我有5000多个excel文件，每个文件是一只股票从上市至今的日K交易数据，

现在我想知道每天所有股票的交易数据快照，相当于要从5000多个excel文件中，把日期相同的数据提出来，形成一个以日期为标签的文件，里面有所有股票这一天的交易数据。

之前的思想：依次从每个excel文件中找到某天的数据，复制到对应的日期文件中去，这里有一个缺点，就是打开和写入excel文件对应计算的开销是很大的，涉及到冷启动的问题。

加快的思想：先把5000只股票的日K数据合并成一个excel（不是合并，建立excel帧，把所有数据合并到一个excel帧中），这个帧数据存储在内存当中，然后再从内存中找到“交易日期”相同的项目，形成一个excel表格。大大的加速。代码如下：

import pandas as pd

import os

# 指定包含Excel文件的文件夹路径

folder_path = 'D:\\tmp_financial\DailyK\standard_dailyK'

# 获取文件夹中所有Excel文件的文件名

excel_files = [f for f in os.listdir(folder_path) if f.endswith('.xlsx')]

# 创建一个空的DataFrame用于存储合并后的数据

merged_df = pd.DataFrame()

# 循环遍历所有Excel文件，合并所有文件到一个数据帧merged_df 中

for file in excel_files:

# 读取Excel文件

print(file)

df = pd.read_excel(os.path.join(folder_path, file))

# 将当前文件的数据添加到merged_df中

merged_df = pd.concat([merged_df, df])

# 将合并后的数据保存到一个新的Excel文件中

# 提取“交易时间”列

transaction_times = merged_df['交易时间']

# 创建一个空的DataFrame用于存储具有相同“交易时间”的行

same_time_df = pd.DataFrame()

file_extension = ".xlsx"

des = 'D:\\tmp_financial\DailyK\camera'

# 使用交易时间迭代所有行

for time in transaction_times.unique():

# 提取具有相同“交易时间”的行

same_time_rows = merged_df[merged_df['交易时间'] == time]

# 将这些行添加到新的DataFrame中

print(time)

same_time_df = same_time_df.append(same_time_rows)

des_file = os.path.join(des, time + file_extension)

same_time_df.to_excel(des_file, index=False)

same_time_df = pd.DataFrame()#清空这个数据帧，等待下一个日期的数据进入

好文推荐

评论可见，请评论后查看内容，谢谢！！！评论后请刷新页面。

夸智网

pandas 机器学习数据挖掘如何多个excel中的数据分发到多个excel中去

开发语言 Java集合-Map接口(key-value)

python

发表评论取消回复

夸智网

pandas 机器学习 数据挖掘 如何多个excel中的数据分发到多个excel中去

开发语言 Java集合-Map接口(key-value)

python

相关文章

发表评论取消回复

pandas 机器学习数据挖掘如何多个excel中的数据分发到多个excel中去