使用Python实现Hive的UDF示例


主要分为两个部分,一个部分为Python脚本实现想要实现的功能,另外一个部分为HQL部分,调用Python脚本对数据进行处理。
HQL调用Python实现的UDF其实有一个重定向的过程,把数据表中之列的列重定向Python的标准输入中,按行操作,首先将每行按照指定的分割符分开,一般为’\t’,然后剩下的就是对其进行操作,print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py
import sys
i = 0
for line in sys.stdin:
line = line.strip()
i += 1
line = line + " hello udf!"
print i,line

2、HQL调用UDF    
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ,指定的列是需要处理的列
select transform(指定的列)
using "python filename" 
as (newname) 
--newname指输出的列的别名

select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 1000;
select TRANSFORM(uid,appkey,imei) USING 'python xx_udf.py' as (uid,appkey,imei) from xx_uid_new_fristday_1208 limit 1000;
drop table if exists xx_udf_1210;create table xx_udf_1210 as select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 10;

3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径,而非Hdfs上的路径。
UDF函数调试的时候,可以使用【cat xx.txt|python udf.py】的方式,不用经过Hive客户端。
Hive传入python脚本中的数据,是通过'\t'来分隔的,所以Python脚本用通过.split('\t')来区分开;有时候,我们结合INSERT OVERWRITE使用上述TRANSFORM,而目标表,其分割副可能不是\t。但是请牢记: TRANSFORM的分割符号,传入、传出脚本的,永远是\t。


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
© 2014-2019 ITdaan.com 粤ICP备14056181号