DDR爱好者之家 Design By 杰米
当一个 .txt 文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序 最后对所有数据进行归并排序。
下面我们就来实现这整个过程:
一:获取总数据的行
def get_file_lines(file_path): # 目标文件的路径 file_path = str(file_path) with open(file_path, 'rb') as file: # 定义行数 i = 0 while True: # 一次读取一行数据 line = file.readline() if not line : break else: # 每读一行,行数加一 i += 1 #设置进度条,每当i读取1000000行时打印一次i # 每当读取1000000的整数倍行时,打印行数(进度条) if i % 1000000 == 0: print(i) # 打印总行数 print(i) return i
二:对数据进行切割
# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录 def evg_split(num, n, file_path, file_dir): last_list = [] # 如果样本刚好可以整除为n份 if num % n == 0: for i in range(n): # 则直接将样本分为n分没份对应num/n个 last_list.append(num / n) # 如果不能整除 if num % n != 0: # 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份 evg = (num - num % n) // (n - 1) for i in range(n): last_list.append(evg) last_list.append(num % (n - 1)) print(last_list) # return last_list # 对应于切割后的每一份数据 with open(file_path, 'rb') as path: for i in range(n): # 创建临时文件 tmp_file = file_dir + str(i) + '.txt' # 打开临时文件,将内容一条一条的写入 file = open(tmp_file, 'wb') for j in range(int(last_list[i])): line = path.readline() file.write(line) print(line) print('------------') file.close()
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
def merge( mylist1, mylist2, file1): while len(mylist1) > 0 and len(mylist2) > 0: if mylist1[0]<mylist2[0]: with open(file1,'a') as file: file.write(str(mylist1[0])) del mylist1[0] elif mylist1[0] > mylist2[0]: with open(file1,'a') as file: file.write(str(mylist2[0])) del mylist2[0] else: with open(file1,'a') as file: file.write(str(mylist1[0])) file.write(str(mylist2[0])) del mylist1[0] del mylist2[0] with open(file1, 'a') as file: for i in mylist1: file.write(str(i)) for i in mylist2: file.write(str(i))
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
以上这篇对python数据切割归并算法的实例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
DDR爱好者之家 Design By 杰米
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
DDR爱好者之家 Design By 杰米
暂无评论...
更新日志
2024年11月27日
2024年11月27日
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]