unix 如何在线采集基于起始字符的数据？

e4eetjau 于 2022-11-04 发布在 Unix

关注(0)|答案(1)|浏览(182)

因此，我试图找到一种更省时的方法来“grep/search”以特定字符/字符集开始的行。我有一个50 GB的文件，其中包含通过命令LC_ALL='C' sort -u data.txt > data_sorted.txt排序的数据。假设我想查找以horse开头的所有行，我当前会执行LC_ALL='C' grep -i -E "^horse.*" data_sorted.txt
这个命令的问题是grep不能自动地看到（并跳转到）以horse开始的行，而是直接grep 0-9A-Z或其他它能做的。有没有一种替代的方法来整理数据，它会跳转到搜索查询的第一个字符，以加快速度？
这很难解释，很抱歉让你搞混了。

来源：https://stackoverflow.com/questions/60179515/how-to-collect-data-based-on-starting-character-on-line

1条答案

按热度按时间

一种可能的方法是使用look(1)。虽然这通常用于搜索系统单词列表词典，但您可以指定一个不同的文件，它会对与给定前缀匹配的行进行二进制搜索。
因此，您可以尝试：

look horse data_sorted.txt

(Some look的版本可能需要-b选项来执行二进制搜索;请参阅您当地的手册页）
如果你想像grep那样进行不区分大小写的搜索，那么文件必须以不区分大小写的方式排序（sort -f），并且look需要-f选项。

赞(0）回复(0）举报 2022-11-04

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前