apache drill-查询hdfs和sql

wswtfjt7  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(378)

我想探索Apache训练。我不是数据分析师,只是个基础设施支持人员。我看到关于apachedrill的文档太有限了
我需要一些有关可与apachedrill一起使用的自定义数据存储的详细信息
有没有可能在没有配置单元的情况下查询hdfs,像dfs那样使用apachedrill
是否可以查询像mysql和microsoftsql这样的老式rdbms
提前谢谢
更新:
我的hdfs存储防御说错误(无效的jsonMap)

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

如果我替换 hdfs:///file:/// ,似乎接受了。
我从文件夹中复制了所有库文件 <drill-path>/jars/3rdparty to <drill-path>/jars/ 不能让它工作。请帮忙。我根本不是一个开发人员,我是基础设施人员。
提前谢谢

w51jfk4q

w51jfk4q1#

是的,drill可以同时与hadoop系统和rdbms系统通信。实际上,您可以将查询连接到这两个系统。
hdfs存储插件可以是:

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
  "workspaces": {
    "root": {
      "location": "/user/cloudera",
      "writable": true,
      "defaultInputFormat": null
    },
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "parquet": {
      "type": "parquet"
    },
    "psv": {
      "type": "text",
      "extensions": [
        "tbl"
      ],
      "delimiter": "|"
    },
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "json": {
      "type": "json"
    }
  }
}

默认情况下,连接url将是端口号为8020的mapr/coudera url。您应该能够在系统上的hadoop配置中发现这一点,配置键为:“fs\u defaultfs”

ogq8wdun

ogq8wdun2#

对。
drill根据元数据直接识别文件的模式。有关更多信息,请参阅链接-
https://cwiki.apache.org/confluence/display/drill/connecting+to+data+sources
还没有。
虽然有一个mapr驱动程序可以让你达到同样的效果,但是现在drill并不支持它。围绕这一点已经进行了几次讨论,可能很快就会出现。

相关问题