pig数据类型:有序元组v/s无序包

bzzcjhmw  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(341)

引用奥雷利的话:
元组:数据元素的有序集合。包:元组的无序集合。
我对pig还比较陌生,这可能是一个很小的问题,但是我需要帮助理解元组是如何“有序”的元素集合,而bag则不是。
谢谢。

hm2xizp9

hm2xizp91#

想想最简单的例子——一个格式很好、未排序的csv文件。
将文件读入pig时,每行都是一个元组。一组字段。每个领域都有自己的位置;说“第一个字段”、“第三个字段”和“最后一个字段”是有道理的。
然而,这些行的顺序,是没有意义的。类似地,包中元组的顺序是任意的,不能依赖。
这里有一个有趣的概念讨论:如何从pig中生成的包(其大小可能不同)中提取第一个元组?

roejwanj

roejwanj2#

元组定义为“有序元素”,其中as bag定义为“无序元组”。
你可以用简单的例子来理解-
假设有一个学院,它有各种各样的分支机构,如cse、me、ec、ei、en等,每个分支机构都有hod、助理教授、教授、peon。
元组:每个分支的详细信息集合,即每个分支中都有一个顺序,例如第一个是hod,第二个是,第三个是。。等
包:分支的集合,即它不包含任何特定的顺序(无序)。
希望我能理解你。

相关问题