TFRecord作为tensorflow中广泛使用的数据格式,它跨平台,省空间,效率高。因为 Tensorflow开发者众多,统一训练时数据的文件格式是一件很有意义的事情,也有助于降低学习成本和迁移成本。
但是TFRecord数据是二进制格式,没法直接查看。因此,如何能够方便的查看TFRecord格式和数据,就显得尤为重要了。
为什么需要查看TFReocrd数据?首先我们先看下常规的写入和读取TFRecord数据的关键过程。
# 1. 写入过程 # 一张图片,我写入了其内容,label,长和宽几个信息 tf_example = tf.train.Example( features=tf.train.Features(feature={ 'encoded': bytes_feature(encoded_jpg), 'label': int64_feature(label), 'height': int64_feature(height), 'width': int64_feature(width)})) # 2. 读取过程 # 定义解析的TFRecord数据格式 def _parse_image(example_proto): features = {'encoded':tf.FixedLenFeature((),tf.string), 'label': tf.FixedLenFeature((), tf.int64), 'height': tf.FixedLenFeature((), tf.int64), 'width': tf.FixedLenFeature((), tf.int64) } return tf.parse_single_example(example_proto, features) # TFRecord数据按照Feature解析出对应的真实数据 ds = ds.map(lambda x : _parse_image(x), num_parallel_calls=4)
上面是一个标准的TFRecord数据的写入和读取部分过程,大家应该发现了,读取TFRecord数据的时候,得知道TFRecord数据保存的属性名和类型,任何一项不匹配,都会导致无法获取数据。
如果数据的写入和读取都是自己一个人完成,那就没问题。但是如果写入和读取是跨团队合作时候,如果每次读取数据都得让对方给完整的属性名和属性类型,那效率就太低了。毕竟TFRecord数据已经包含了一切,自己动手丰衣足食。
那么怎么查看TFRecord数据呢?使用python tf.train.Example.FromString(serialized_example)方法,方法的入参是TFRecord包含的数据字符串。
然后,我直接将上诉查看的过程写成了一个py脚本,需要自取。
#!/usr/bin/python # -*- coding: utf-8 -*- import sys import tensorflow as tf # 用法:python trackTFRecord.py True file1 file2 # trackTFRecord.py 就是当前这个py文件 # True 表示是否输出具体的数据 # file1 file2 表示的是需要查看的TFRecord文件的绝对路径 # 输出说明:tf.float32对应TFRecord的FloatList,tf.int64对应Int64List,tf.string对应BytesList def main(): print('TFRecord文件个数为{0}个'.format(len(sys.argv)-2)) for i in range(2, len(sys.argv)): filepath = sys.argv[i] with tf.Session() as sess: filenames = [filepath] # 加载TFRecord数据 ds = tf.data.TFRecordDataset(filenames) ds = ds.batch(10) ds = ds.prefetch(buffer_size=tf.contrib.data.AUTOTUNE) iterator = ds.make_one_shot_iterator() # 为了加快速度,仅仅简单拿一组数据看下结构 batch_data = iterator.get_next() res = sess.run(batch_data) serialized_example = res[0] example_proto = tf.train.Example.FromString(serialized_example) features = example_proto.features print('{0} 信息如下:'.format(filepath)) for key in features.feature: feature = features.feature[key] ftype = None fvalue = None if len(feature.bytes_list.value) > 0: ftype = 'bytes_list' fvalue = feature.bytes_list.value if len(feature.float_list.value) > 0: ftype = 'float_list' fvalue = feature.float_list.value if len(feature.int64_list.value) > 0: ftype = 'int64_list' fvalue = feature.int64_list.value result = '{0} : {1}'.format(key, ftype) if 'True' == sys.argv[1]: result = '{0} : {1}'.format(result, fvalue) print(result) if __name__ == "__main__": main()
下面给大家实例演示,首先先随便找个图片,写入到TFRecord数据
import tensorflow as tf filename = "/Users/zhanhaitao/Desktop/1.png" # 使用tf.read_file读进图片数据 image = tf.read_file(filename) # 主要是为了获取图片的宽高 image_jpeg = tf.image.decode_jpeg(image, channels=3, name="decode_jpeg_picture") # reshape图片到原始大小2500x2000x3 image_jpeg = tf.reshape(image_jpeg, shape=(2500,2000,3)) # 获取图片shape数据 img_shape = image_jpeg.shape width = img_shape[0] height = img_shape[1] # 将原图片tensor生成bytes对象, image将保存到tfrecord sess = tf.Session() image = sess.run(image) sess.close() # 定义TFRecords文件的保存路径及其文件名 path_none = "/Users/zhanhaitao/Desktop/a.tfrecord" # 定义不同压缩选项的TFRecordWriter writer_none = tf.python_io.TFRecordWriter(path_none, options=None) # 将外层features生成特定格式的example example_none = tf.train.Example(features=tf.train.Features(feature={ "float_val":tf.train.Feature(float_list=tf.train.FloatList(value=[9.99])), "width":tf.train.Feature(int64_list=tf.train.Int64List(value=[width])), "height":tf.train.Feature(int64_list=tf.train.Int64List(value=[height])), "image_raw":tf.train.Feature(bytes_list=tf.train.BytesList(value=[image])) })) # example系列化字符串 example_str_none = example_none.SerializeToString() # 将系列化字符串写入协议缓冲区 writer_none.write(example_str_none) # 关闭TFRecords文件操作接口 writer_none.close() print("finish to write data to tfrecord file!")
然后,使用上面的脚本看下这个TFRecord数据定义了哪些属性,以及对应的格式,先进入到脚本的目录下,因为图像数据内容太大,影响阅读,就只看属性名和type了:
python trackTFRecord.py False /Users/zhanhaitao/Desktop/a.tfrecord # 结果,其中bytes_list对应tf.string,int64_list对应tf.int64 float_list对应tf.float32 # image_raw : bytes_list # width : int64_list # float_val : float_list # height : int64_list
以上这篇TFRecord文件查看包含的所有Features代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新日志
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]