dos时代菜鸟 发表于 2022-5-19 09:18
先做个字典包含 键盘常规字符,然后 ,读取文件每一行,逐行逐字符判断,如果该字符不在 字典中,就 ...
szwp 发表于 2022-5-19 12:13
findstr /r /c:"[^- '!-Z]" text.txt
szwp 发表于 2022-5-19 12:13
findstr /r /c:"[^- '!-Z]" text.txt
yjqd 发表于 2022-5-19 20:17
查找效率确实高,原版boot.wim镜像的文件列表中,随意加入一些中文,几乎秒查出带中文的行
命令行中的 ...
nttwqz 发表于 2022-5-19 20:26
还有高手!
请教下^- '!-Z的含义?我只是个卖唱的,只知道0-9a-z的含义。。。
szwp 发表于 2022-5-20 08:06
如果是文件列表,则范围可以更小了,有不少字符是不能作文件名的。
不知道你要Z还是z,将需求说得更明确 ...
yjqd 发表于 2022-5-20 08:46
谢谢!
我是需要在文本中只查找带有中文字符的行
nttwqz 发表于 2022-5-19 20:26
还有高手!
请教下^- '!-Z的含义?我只是个卖唱的,只知道0-9a-z的含义。。。
szwp 发表于 2022-5-20 09:09
就一楼给的测试数据,用 findstr /r /c:"[^ a-z0-9]" text.txt 就可以了,这样是不是更容易理解些?
yjqd 发表于 2022-5-20 09:25
谢谢!
这个相对容易理解了,我昨天也写过这样的命令,但^和a-z0-9之间没空一格,导致所有行查出来了
...
szwp 发表于 2022-5-20 09:41
你要什么东西,就提供原始和结果的附件。正则是有书的,需要时间去掌握。
yjqd 发表于 2022-5-20 09:53
谢谢,不好意思,麻烦了
关于字符集里字母的大小写也影响结果
test.txt:
szwp 发表于 2022-5-20 09:56
没看出啥问题来,你要哪种结果呢?
yjqd 发表于 2022-5-20 10:15
我不是否定你写的命令,我的意思是:比如我有时候没注意字符集里字母的大小写,会影响我只查找带中文字符 ...
bjay2008xmy 发表于 2022-5-20 10:21
难道不是ascii码,-到'和!到Z吗
szwp 发表于 2022-5-20 10:34
这东西得你自己试的啊,你要忽略大小写在样本里提供也方便别人写啊,牙膏是挤不完的。
findstr /rc:"[ ...
yjqd 发表于 2022-5-20 10:41
非常感谢
我水平有限,不明其理只能胡乱测试,所以伸手向各位坛友求助
nttwqz 发表于 2022-5-20 10:39
'前面为什么有空格?
bjay2008xmy 发表于 2022-5-20 12:50
^[%u4e00-%u9fa5]{0,}$这个正则表达式说是识别中文,咋没用呢
@echo off
bjay2008xmy 发表于 2022-5-20 13:50
那有没有应用在此例中专门识别中文的正则表达式
bjay2008xmy 发表于 2022-5-20 13:59
没有通用的吗,我还以为有通用的不仅限于此例样本的正则表达式
bjay2008xmy 发表于 2022-5-20 21:51
这确实是个好办法,解决问题的思路要比方法更重要
dos时代菜鸟 发表于 2022-5-21 10:08
还是要搞个 非中文的 字符集,做排除用。 比如英文的字符集
dos时代菜鸟 发表于 2022-5-21 10:08
还是要搞个 非中文的 字符集,做排除用。 比如英文的字符集
szwp 发表于 2022-5-21 20:45
也可试下非排除法,判断字符是否 >=啊
dos时代菜鸟 发表于 2022-5-21 22:05
这也是个思路
dos时代菜鸟 发表于 2022-5-21 22:05
这也是个思路
nttwqz 发表于 2022-5-22 09:55
尽量少在for中使用call,遍历内容较少时没什么,多的时候很影响效率,你用for /l直接echo和call方式echo ...
dos时代菜鸟 发表于 2022-5-22 10:04
用call 主要用到 exit /b
如果 直接用 for ,就得用 goto
bjay2008xmy 发表于 2022-5-22 10:49
找个对正则匹配完全支持的命令行程序
nttwqz 发表于 2022-5-22 13:22
还是我以前想的方法简单
pushd %~dp0
nttwqz 发表于 2022-5-22 11:50
那就用goto跳出for循环。
你觉得用了call貌似觉得提高了效率,很可能效率反而更低。实际使用中,谁也不 ...
bjay2008xmy 发表于 2022-5-22 20:40
你这种方法应该是把样本和TXT里面的汉子逐一对比吧,看符不符合TXT里面的。如果样本有200个字符的话,不 ...
bjay2008xmy 发表于 2022-5-23 11:24
%u4e00是UTF-8编码,如果用这个编码判断的话,样本的编码也应该要使用UTF-8编码
欢迎光临 无忧启动论坛 (http://wuyou.net/) | Powered by Discuz! X3.3 |