通过streamsets data collector进行流式处理时在文件名中附加uuid

thigvfpy 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(531)

我使用httpclient origin将一个文件从httpurl流式传输到hadoop目标，但是目标中的文件名附加了一些随机uuid。我想文件名是因为它是从源代码。
示例：源文件名为readme.txt，目标文件名为readme\u 112e5d4b-4d85-4764-ab81-1d7b6e0237b2.txt
我希望目标文件名为readme.txt
我会给你看我的配置。

HTTP Client :

General

Name : HTTP Client 1

Description : 

On Record Error : Send to Error

HTTP

Resource URL : http://files.data.gouv.fr/sirene/README.txt

Headers : 

Mode : Streaming

Per-Status Actions

HTTP Statis Code : 500 | Action for status : Retry with exponential backoff |

Base Backoff Interval (ms) : 1000 | Max Retries : 10

HTTP Method : GET

Body Time Zone : UTC (UTC)

Request Transfert Encoding : BUFFERED

HTTP Compression : None

Connect Timeout : 0

Read Timeout : 0

Authentication Type : None

Use OAuth 2

Use Proxy

Max Batch Size (records) : 1000

Batch Wait Time (ms) : 2000

Pagination

Pagination Mode : None

TLS

UseTLS

Timeout Handling

Action for timeout : Retry immediately

Max Retries : 10

Data Format

Date Format : Text

Compression Format : None

Max Line Length : 1024

Use Custom Delimiter

Charset : UTF-8

Ignore Control Characters

Logging 

Enable Request Logging

Hadoop FS Destination :

General

Name : Hadoop FS 1

Description : Writing into HDFS

Stage Library : CDH 5.10.1

Produce Events

Required Fields

Preconditions

On Record Error : Send to Error

Output Files

File Type : Text Files

Files Prefix : README

File Suffix : txt

Directory in Header

Directory Template : /user/username/

Data Time Zone : UTC (UTC)

Time Basis : ${time:now()}

Max Records in File : 0

Max File Size (MB) : 0

Idle Timeout : ${1 * HOURS}

Compression Codec : None

Use Roll Attribute

Validate HDFS Permissions : ON

Skip file recovery

Late Records

Late Record Time Limit (secs) : ${1 * HOURS}

Late Record Handling : Send to error

Data Format

Data Format : Text

Text Field Path : /text

Record Separator : \n

On Missing Field : Report Error

Charset : UTF-8

hadoop HTTP Client streamsets

来源：https://stackoverflow.com/questions/56199796/appending-uuid-in-file-name-when-streaming-via-streamsets-data-collector

1条答案

按热度按时间

moiiocjp1#

您可以配置文件名前缀和后缀，但无法删除uuid。
在许多情况下，目录是hadoop中最小的有用文件系统实体。由于文件可能由多个客户端同时写入，并且由于操作原因（如文件大小超过给定阈值）文件可能被“滚动”（当前输出文件关闭，新文件打开），因此data collector确保文件名是唯一的，以避免意外数据丢失。
如果您真的想这样做，有一个解决方法：在hadoop目标上启用事件，并使用hdfs文件元数据执行器重命名文件。有关更多信息，请参阅这个关于输出文件管理的案例研究。

赞(0）回复(0）举报 2021-05-29

我来回答

通过streamsets data collector进行流式处理时在文件名中附加uuid

1条答案

相关问题

热门标签

最新问答