python处理数据,存进hive表的方法

站长资源 2025/2/22 佚名

3 1538 3

DDR爱好者之家 Design By 杰米

首先，公司的小组长给了我一个任务，把一个txt的文件中的部分内容，存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个，首先，把数据处理成和hive中表相同结构的数据，然后仿照已有的hive中表的结构再创建一张新的数据表，最后把本地的txt文件上传到hive中新建的数据表中。

1：已有的数据表的结构和在hive表中的结构完全对不上，下面的图是原来hive中表的结构和小组长给我的txt中表的结构：

大家可以看出，我们原来的hive中表的字段一共有17个，而组长给我的表中的字段一共有9个，其中最后一个为json结构，而且顺序还不对，所以我们要进行筛选，把对应上的字段放到相应位置，对应不上的字段写成空。

大家要注意几个地方，原来的数据是按照tab来划分的，所以我们要数好对应的tab的数目，好来计算出来数据的实际的位置信息，然后我们按照原来hive表中的数据顺序，重新排列我们新建表的数据的顺序，下面给大家看看结果：

其中line[0]=null，line[1]=102，大家以此类推。

3：我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表，然后把我们的数据导入到表中，

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后，把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果：

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

python,hive

DDR爱好者之家 Design By 杰米

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

DDR爱好者之家 Design By 杰米

评论“python处理数据,存进hive表的方法”

暂无评论...

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。

首次推出的GDDR7内存模块密度为16GB，每个模块容量为2GB。其速度预设为32 Gbps（PAM3），但也可以降至28 Gbps，以提高产量和初始阶段的整体性能和成本效益。
据三星表示，GDDR7内存的能效将提高20%，同时工作电压仅为1.1V，低于标准的1.2V。通过采用更新的封装材料和优化的电路设计，使得在高速运行时的发热量降低，GDDR7的热阻比GDDR6降低了70%。

更新日志

2025年02月22日

python处理数据,存进hive表的方法

Django框架多表查询实例分析

python 借助numpy保存数据为csv格式的实现方法

评论“python处理数据,存进hive表的方法”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

python处理数据,存进hive表的方法

Django框架多表查询实例分析

python 借助numpy保存数据为csv格式的实现方法

评论“python处理数据,存进hive表的方法”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存