windows 查找前3个字符的所有唯一匹配项，计算匹配项的数量并将输出写入文件

qyuhtwio 于 2022-12-05 发布在 Windows

关注(0)|答案(3)|浏览(160)

我有一个超过2. 5亿行的文本文件。每一行都有一个3位数的区号，后面是一个逗号和一个7位数的数字。
输入文件示例：
201,2220000
201,5551212
310,5552481
376,1239876
443,0002222
572,8880099
...
我想生成一个输出文件，其中列出了每个唯一的区号和该区号的出现次数（仅查看每行的前3个字符）。
输出示例（区号、计数）：
201、44556
202、34529
...
我在Windows 10环境中工作。
经过大量的研究，我能够在PowerShell中使用Switch函数与regex实现非常接近的东西。这个解决方案的问题是，我需要知道我正在寻找的区号（我不知道这个文件中列出的所有区号）。
我想修改解决方案，使它找到所有唯一的区号，然后运行代码。
以下是我尝试过的方法：
1.比方说，我想搜索以下四个区号：201,202,203,205
1.我的文本文件是datafile.txt

$count1 = 0
$count2 = 0
$count3 = 0
$count4 = 0
switch -File C:\datafile.txt -Exact -Regex { '201\S{8}' { ++$count1 } }
Write-Output "Area Code 201: $($count1)" | Format-Table | Out-File "C:\summary.txt" -append
switch -File C:\datafile.txt -Exact -Regex { '202\S{8}' { ++$count2 } }
Write-Output "Area Code 202: $($count2)" | Format-Table | Out-File "C:\summary.txt" -append
switch -File C:\datafile.txt -Exact -Regex { '203\S{8}' { ++$count3 } }
Write-Output "Area Code 203: $($count3)" | Format-Table | Out-File "C:\summary.txt" -append
switch -File C:\datafile.txt -Exact -Regex { '205\S{8}' { ++$count4 } }
Write-Output "Area Code 204: $($count4)" | Format-Table | Out-File "C:\summary.txt" -append

这段代码生成summary.txt文件，并将计数附加到区号后面。
1.我需要知道此数据文件中的所有区号。
1.我必须为每一个额外的区号添加3行代码。
如果能帮助改进此代码或使用替代解决方案，我将不胜感激（我在Stackoverflow上发现了一个使用grep https://stackoverflow.com/questions/61229157/using-regex-in-grep-for-windows-command-line的线程，但它有同样的限制-您需要知道您正在搜索的字符串。

windows

来源：https://stackoverflow.com/questions/74659476/find-all-unique-occurrences-of-first-3-char-count-number-of-occurrences-and-wri

3条答案

按热度按时间

vcudknz31#

假设我的理解是正确的，这里不需要regex，只需要.SubString(0, 3)来获取每行的前3个字符，还有一个hashtable来确保代码的唯一性和效率。
确实，switch -File非常适合这个任务，应该用来读取文件。否则，为了简单和保持效率，你可以使用File.ReadLines。

$map = @{ }
switch -File path\to\source\file.txt {
    Default {
        $map[$_.Substring(0, 3)] += 1
    }
}

$map.GetEnumerator() | ForEach-Object {
    [pscustomobject]@{
        Code  = $_.Key
        Count = $_.Value
    }
} | Export-Csv path\to\resultOfUniqueCodes.csv -NoTypeInformation

赞(0）回复(0）举报 2022-12-05

ttcibm8c2#

只是我对流媒体方法的两分钱--试图避免相对缓慢的一切，比如ForEach-Object、pscustomobject和Export-Csv。

# Create a scriptblock to be able to pipe output of foreach loop
& { 
    foreach( $line in [IO.File]::ReadLines( 'input.txt' ) ) { 
        $line.Substring( 0, 3 )
    }
} | Group-Object -NoElement | & {
    begin {
        'Code,Count'
    }
    process {
        '{0},{1}' -f $_.Name, $_.Count
    }
} | Set-Content output.csv

备注：

foreach( $line in [IO.File]::ReadLines( 'input.txt' ) )缓慢地处理输入文件，所以它不作为一个整体读入内存。这是因为ReadLines返回一个foreach理解的迭代器（而不是集合）。正如其他人提到的，ReadLines被认为是逐行处理文本文件的最快方法之一，同时仍然提供易用性（例如与使用.NET流相比）。
Group-Object -NoElement只计算唯一输入元素的出现次数，可能使用内部哈希表，所以它应该和手动创建的哈希表一样快（虽然没有测量--这真的很有趣）。
从Group-Object到脚本块的管道比ForEach-Object和脚本块的管道要快得多，请参见GitHub issue。虽然在您的情况下这并不重要，但瓶颈将是阅读和处理输入文件。
由于输入数据的类型是已知的，我们可以避免Export-Csv的复杂性（如转义规则），并直接使用简单的字符串操作和Set-Content创建CSV。同样，在这里不会有什么不同，但对于其他输出量更大的情况，了解这一点可能仍然是件好事。

赞(0）回复(0）举报 2022-12-05

a64a0gku3#

请尝试以下操作：

$input = @"
area,number
201,44556
202,34529
201,44556
202,34529
201,44556
202,34529
201,44556
202,34529
"@

$table = $input | ConvertFrom-Csv
$table | Format-Table

$groups = $table | Group-Object {$_.area}

$outputTable = [System.Collections.ArrayList]::new()
foreach($group in $groups)
{
$group | Format-Table

   $newRow = New-Object -TypeName psobject
   $newRow | Add-Member -NotePropertyName area -NotePropertyValue $group.Name

   $newRow | Add-Member -NotePropertyName count -NotePropertyValue $group.Count

   $outputTable.Add($newRow)  | Out-Null
}
$outputTable | Format-Table

赞(0）回复(0）举报 2022-12-05

我来回答

windows 查找前3个字符的所有唯一匹配项，计算匹配项的数量并将输出写入文件

3条答案

相关问题

热门标签

最新问答