我正在通过pyspark创建hive表。在写入配置单元之前,是否有方法向每个列添加注解?例子:df=spark.table('sometable')#添加注解df.write.saveastable('mytablewithcomments')
ftf50wuq1#
这个 alias column类的方法采用 metadata 可包含注解的选项。
alias
metadata
df_with_column_comment = df.select( df.col.alias( 'col', metadata = { 'comment': 'Column description' } ) )
据我所知,列是不可变的,因此不能在创建注解后添加注解。
sqougxex2#
CREATE TABLE table_name( column1 STRING, column2 STRING COMMENT "some comment", column3 LONG) USING csv OPTIONS (header true, path '/data/table.csv')
eoxn13cs3#
登录到 pyspark shell ```bash$ pyspark
pyspark shell
spark.sql("create table cmnt(id string COMMENT 'new')")`Then login to hive cli:`hive> desc formatted cmnt;OK
`Then login to hive cli:`
id string new
然后您可以在配置单元表中看到注解!
3条答案
按热度按时间ftf50wuq1#
这个
alias
column类的方法采用metadata
可包含注解的选项。据我所知,列是不可变的,因此不能在创建注解后添加注解。
sqougxex2#
CREATE TABLE table_name( column1 STRING, column2 STRING COMMENT "some comment", column3 LONG) USING csv OPTIONS (header true, path '/data/table.csv')
eoxn13cs3#
登录到
pyspark shell
```bash$ pyspark
col_name data_type comment
id string new