命令如何查找有中文字符的行

szwp · 发表于 2022-5-19 12:13:01

findstr /r /c:"[^- '!-Z]" text.txt

szwp · 发表于 2022-5-20 08:06:51

yjqd 发表于 2022-5-19 20:17
查找效率确实高，原版boot.wim镜像的文件列表中，随意加入一些中文，几乎秒查出带中文的行

命令行中的 ...

如果是文件列表，则范围可以更小了，有不少字符是不能作文件名的。
不知道你要Z还是z,将需求说得更明确些好。这个是用了[^class]，当然[class]也可实现。

szwp · 发表于 2022-5-20 08:08:42

nttwqz 发表于 2022-5-19 20:26
还有高手！

请教下^- '!-Z的含义？我只是个卖唱的，只知道0-9a-z的含义。。。

当时正好要午睡了zzz，只是随便百度的的，正则费脑的，多想容易睡不着。

szwp · 发表于 2022-5-20 09:03:19

yjqd 发表于 2022-5-20 08:46
谢谢！

我是需要在文本中只查找带有中文字符的行

俺喜欢复制粘贴，省事啊。

szwp · 发表于 2022-5-20 09:09:55

nttwqz 发表于 2022-5-19 20:26
还有高手！

请教下^- '!-Z的含义？我只是个卖唱的，只知道0-9a-z的含义。。。

就一楼给的测试数据，用 findstr /r /c:"[^ a-z0-9]" text.txt 就可以了，这样是不是更容易理解些？

szwp · 发表于 2022-5-20 09:41:20

yjqd 发表于 2022-5-20 09:25
谢谢！

这个相对容易理解了，我昨天也写过这样的命令，但^和a-z0-9之间没空一格，导致所有行查出来了
...

你要什么东西，就提供原始和结果的附件。正则是有书的，需要时间去掌握。

szwp · 发表于 2022-5-20 09:56:33

yjqd 发表于 2022-5-20 09:53
谢谢，不好意思，麻烦了
关于字符集里字母的大小写也影响结果
test.txt：

没看出啥问题来，你要哪种结果呢？

szwp · 发表于 2022-5-20 10:34:37

yjqd 发表于 2022-5-20 10:15
我不是否定你写的命令，我的意思是：比如我有时候没注意字符集里字母的大小写，会影响我只查找带中文字符 ...

这东西得你自己试的啊，你要忽略大小写在样本里提供也方便别人写啊，牙膏是挤不完的。

findstr /rc:"[^ a-z0-9A-Z]" text.txt

szwp · 发表于 2022-5-20 10:46:35

yjqd 发表于 2022-5-20 10:41
非常感谢

我水平有限，不明其理只能胡乱测试，所以伸手向各位坛友求助

findstr /ric:"[^ a-z0-9]" text.txt
findstr /ric:"[^ A-z0-9]" text.txt
findstr /ric:"[^ a-Z0-9]" text.txt
findstr /ric:"[^ A-Z0-9]" text.txt
正则写法不是唯一的，多试好为，复制粘贴可以少走弯路。

szwp · 发表于 2022-5-20 10:48:56

得学会 /？
findstr /?
/I 指定搜索不分大小写。

szwp · 发表于 2022-5-20 11:51:28

nttwqz 发表于 2022-5-20 10:39
'前面为什么有空格？

样本里有不少空格啊。如果是8.3格式就不需要了。

szwp · 发表于 2022-5-20 13:00:14

bjay2008xmy 发表于 2022-5-20 12:50
^[%u4e00-%u9fa5]{0,}$这个正则表达式说是识别中文，咋没用呢

@echo off

中文是个比较复杂的事，国内第一代标准是GB2312-1980，含6千多个汉字，采用的是高位都为1的双字节方案。港台还有hz big5到gbk还没完，到后面还有四字节的中文。
他没说这个正则是什么编码的中文的话，你得去问问他适应范围。

szwp · 发表于 2022-5-20 13:55:23

bjay2008xmy 发表于 2022-5-20 13:50
那有没有应用在此例中专门识别中文的正则表达式

中文数量显然远大于英文，用排除法省事。按3楼提示操作方便。
你要提供原始数据和结果数据以附件形式发上来试，因为已经变动过样本数据，不方便确定，他要大写还是小写了。

szwp · 发表于 2022-5-20 14:11:18

bjay2008xmy 发表于 2022-5-20 13:59
没有通用的吗，我还以为有通用的不仅限于此例样本的正则表达式

findstr /rc:"[^'-Z]"

任何东西都离不了环境。

szwp · 发表于 2022-5-21 07:49:32

bjay2008xmy 发表于 2022-5-20 21:51
这确实是个好办法，解决问题的思路要比方法更重要

findstr "[^'-Z]"

findstr里字符的顺序不是标准的ascii，你可以搞个脚本将顺序搞出来比较。

以前叫纯中文，现在叫全角的，里面也包含数字英文符号制表符等，是否认为是中文得看你的需求，东西得靠自己调试。

szwp · 发表于 2022-5-21 20:45:23

dos时代菜鸟发表于 2022-5-21 10:08
还是要搞个非中文的字符集，做排除用。比如英文的字符集

也可试下非排除法，判断字符是否 >=啊 <=齄

szwp · 发表于 2022-5-22 09:46:18

dos时代菜鸟发表于 2022-5-21 22:05
这也是个思路

当集合较大时，还是判断范围方便。这样可将16区前的全角符号制表符也排除了。

szwp · 发表于 2022-5-22 10:14:25

在中文全集中找太慢了吧

szwp · 发表于 2022-5-22 14:47:46

bjay2008xmy 发表于 2022-5-22 10:49
找个对正则匹配完全支持的命令行程序

不可能有完全支持的，就像要将win98或更前的exe放到11里运行，东西在发展，没结束前，哪有完全。
微软自家不同产品里的正则互相也不完全兼容。各种正则的原理不一样，查找的方式也不一样。

szwp · 发表于 2022-5-22 14:48:14

正则史比WIN史长。

szwp · 发表于 2022-5-22 15:28:36

nttwqz 发表于 2022-5-22 13:22
还是我以前想的方法简单

pushd %~dp0

只考虑常用汉字的话，gb2312够了。
主要看实际样本范围有多大。

szwp · 发表于 2022-5-23 08:03:25

bjay2008xmy 发表于 2022-5-22 20:40
你这种方法应该是把样本和TXT里面的汉子逐一对比吧，看符不符合TXT里面的。如果样本有200个字符的话，不 ...

这个计算是错误的。学习正则重要的是自己尝试，别人常用的，是他们的环境。findstr需要/R选项才能使用正则表达式，这种说法是错误的，东西要靠自己尝试结果，转发未经核实的太浪费屏幕空间，也会误导。
你还需要补充中文的编码知识，\u4e00 明显不是GB码。GB2312的中文范围俺已经在47楼说了，仔细往下看贴。

初学者能掌握findstr的正则就能满足常用需求了，findstr /?里有 [x-y] 范围: 在指定范围内的任何字符
本题实际是一个xy的求解。上面发的findstr "[^'-Z]" ，你试了没有，这就是没有/R的正则表达式。

szwp · 发表于 2022-5-24 08:18:06

bjay2008xmy 发表于 2022-5-23 11:24
%u4e00是UTF-8编码，如果用这个编码判断的话，样本的编码也应该要使用UTF-8编码

等你发示例教程教大家。

		自动登录	找回密码
密码			注册

[求助] 命令如何查找有中文字符的行

点评

点评

点评

点评

点评

点评

点评

点评

点评