shell 删除文件中前面重复的数字- bash

68bkxrlz 于 2023-06-24 发布在 Shell

关注(0)|答案(4)|浏览(147)

在“BEFORE FILE”下面的文本文件中，如何删除重复的数字，使其看起来像下面的“AFTER FILE”？“_PRODxxxx”（其中x是数字）将保持该格式。
存档前

NET_SalesD_PROD1111,mexico
NET_Sales4_PROD22,newjersy
NET_SalesG_PROD333,bull

文件后

NET_SalesD_PROD1,mexico
NET_Sales4_PROD2,newjersy
NET_SalesG_PROD3,bull

我尝试使用sed和正则表达式捕获组，如“PROD[1-9]{2，4}”，但无法使其工作。

4条答案

使用捕获组来捕获第一个数字，并使用反向引用来匹配它的重复。然后在替换中使用相同的反向引用来生成其中的一个。

sed -E 's/PROD([1-9])\1+,/PROD\1,/'

***第一个解决方案：***如果你对Perl没问题，那么就用正则表达式和捕获组功能，然后在正则表达式中使用贪婪匹配和懒惰匹配功能来实现所需的输出。

perl -pe 's|^(.*_)(.*?)(\d)\3*(,.*)$|${1}${2}${3}${4}|'  Input_file

***第二种解决方案：***在perl中使用简单的替换，使用捕获组来查找重复项，并将其替换为自身，然后是,。

perl -pe 's|([0-9])\1*,|\1,|'  Input_file

假设：

一种sed方法：

$ sed -E 's/(_PROD[0-9])[0-9]*/\1/' x
NET_SalesD_PROD1,mexico
NET_Sales4_PROD2,newjersy
NET_SalesG_PROD3,bull

其中：

很长的路，如果你想awk它：

awk -vc="PROD" '{

      split($1,h1,c)
      split(h1[2],h2,",")

      print h1[1]""c""substr(h2[1],1,1)","h2[2]

 }'