无忧启动论坛
标题:
哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本,要详细的教程!
[打印本页]
作者:
2011198976
时间:
2011-4-22 08:00
标题:
哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本,要详细的教程!
可以拿下面这个网址举例!
http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X&year=2011&Issue=9
万分感谢!
[
本帖最后由 2011198976 于 2011-4-23 14:57 编辑
]
作者:
2011198976
时间:
2011-4-22 08:04
我刚接触批处理两三天,很菜,教程详细一点啊!
作者:
namejm
时间:
2011-4-22 11:16
你想把整个网站的小说都抓下来啊?
貌似这个工程太大了
还是缩小点范围吧
看能不能帮到你
作者:
yjd
时间:
2011-4-22 11:44
namejm
批专家来了^_^
作者:
2011198976
时间:
2011-4-22 16:25
终于见到您说话了,我太兴奋了!
不是整个网站,您可以随便在这两个网站中抓取一本小说,像做个模板一样的,其他的小说我自己就会抓去了,就像您的“搜索结果抓取搜狐读书网上的txt小说——以整理《退膛》为例”整个搜狐的小说我都会抓取了!
按照您在“《退膛》为例”的模板,在其他网战怎么抓取不到文本,加密?还是其他?
作者:
2011198976
时间:
2011-4-22 16:41
按照下面这个模板怎么抓去不到
curl -o index.html
http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
findstr /i “ldwc201108" index.html>tmp.txt
for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
title 正在下载网页
http://xhs.vip.qikan.com/%%~i
curl --create-dirs -o html\%%~nxi
http://xhs.vip.qikan.com/%%~i
)
第三步分隔符的选取,选哪几列可能不正确,可是有些网站我已经抓取到文件夹html,但是里面的html文件只有3KB,根本没有正文,郁闷啊!
还有一个网站,我都已经把html宇txt文件分开到不同文件夹了,但是利用cd.>1234.txt
for %%i in (txt\*.txt) do (
title 正在整理 %%~nxi
echo.>>1234.txt
findstr /ib "1234" %%i>>1234.txt
echo.>>1234.txt
findstr /ibc:" " %%i>>1234.txt
)
合并时得到的是一个空的1234.txt文件,郁闷啊!
[
本帖最后由 2011198976 于 2011-4-22 16:43 编辑
]
作者:
2011198976
时间:
2011-4-23 14:58
标题:
回复 #3 namejm 的帖子
我已经把他缩小到具体的目录页了,大神您怎么还不现身帮我呢????
作者:
x9tian
时间:
2011-4-24 08:05
原帖由
yjd
于 2011-4-22 11:44 发表
批专家来了^_^
YJD 把偶要说的话也说了, 哈哈,我学批处理看到第一个贴子就他的。
namejm 以前我以为他叫 名字寂寞,后来namejm回个贴说:也有人叫他那么寂寞。
namejm 批处理中的战斗机 0.0
欢迎光临 无忧启动论坛 (http://wuyou.net/)
Powered by Discuz! X3.3