所以我在palantir foundry代码工作簿中运行了下面的简单代码,然后它就运行了。现在我想给它传递一个我导入的数据集,它位于我的图表中。数据集是一个pysparkDataframe,其中一列包含1000行文本。所以我想代替 text="some random text"
包含许多行的spark数据集。
import nltk.tokenize as nt
import nltk
text="Being more Pythonic is good for health."
ss=nt.sent_tokenize(text)
tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
pos_sentences=[nltk.pos_tag(sent) for sent in tokenized_sent]
pos_sentences
1条答案
按热度按时间eivnm1vs1#
在python转换中,可以将代码 Package 到udf中。自定义项的性能不是很好,但它允许您准确地编写代码。即。: