我需要筛选一个重音词列表,因为它是葡萄牙语。
负载正在工作:
arq = LOAD '/user/cloudera/file1.5.txt' USING PigStorage(';') as
(time:chararray,
cd_rastreio:chararray,
hora:chararray,
detalhe:chararray,
local:chararray,
destino:chararray);
我需要做一个这样的过滤器:
[...]
detalhe IN (
'A entrega não pode ser efetuada - Carteiro não atendido',
'A entrega não pode ser efetuada - Cliente desconhecido no local',
'A entrega não pode ser efetuada - Cliente mudou-se')
但它没有回音,我相信是因为“ã".
我能做什么?
谢谢
1条答案
按热度按时间qqrboqgw1#
我可以使用您上面描述的过滤器(pig版本0.16),例如:
你能在hdfs中检查你的文件以确保它仍然有这个字符吗
ã
没有被以前的过程擦洗过吗?无论如何,您可以编写正则表达式并使用
MATCHES
不使用ã
字符,例如.
代替ã
: