哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本，要详细的教程！

2011198976 · 发表于 2011-4-22 08:00:26

可以拿下面这个网址举例！
http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X&year=2011&Issue=9
万分感谢！

[ 本帖最后由 2011198976 于 2011-4-23 14:57 编辑 ]

2011198976 · 发表于 2011-4-22 08:04:11

我刚接触批处理两三天，很菜，教程详细一点啊!

namejm · 发表于 2011-4-22 11:16:58

你想把整个网站的小说都抓下来啊？
貌似这个工程太大了
还是缩小点范围吧
看能不能帮到你

yjd · 发表于 2011-4-22 11:44:00

namejm

批专家来了^_^

2011198976 · 发表于 2011-4-22 16:25:21

终于见到您说话了，我太兴奋了！
不是整个网站，您可以随便在这两个网站中抓取一本小说，像做个模板一样的，其他的小说我自己就会抓去了，就像您的“搜索结果抓取搜狐读书网上的txt小说——以整理《退膛》为例”整个搜狐的小说我都会抓取了！
按照您在“《退膛》为例”的模板，在其他网战怎么抓取不到文本，加密？还是其他？

2011198976 · 发表于 2011-4-22 16:41:34

按照下面这个模板怎么抓去不到
curl -o index.html http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
findstr /i “ldwc201108" index.html>tmp.txt
for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
title 正在下载网页 http://xhs.vip.qikan.com/%%~i
curl --create-dirs -o html\%%~nxi http://xhs.vip.qikan.com/%%~i
)
第三步分隔符的选取，选哪几列可能不正确，可是有些网站我已经抓取到文件夹html，但是里面的html文件只有3KB，根本没有正文，郁闷啊！
还有一个网站，我都已经把html宇txt文件分开到不同文件夹了，但是利用cd.>1234.txt
for %%i in (txt\*.txt) do (
title 正在整理 %%~nxi
echo.>>1234.txt
findstr /ib "1234" %%i>>1234.txt
echo.>>1234.txt
findstr /ibc:" " %%i>>1234.txt
)
合并时得到的是一个空的1234.txt文件，郁闷啊！

[ 本帖最后由 2011198976 于 2011-4-22 16:43 编辑 ]

2011198976 · 发表于 2011-4-23 14:58:48

我已经把他缩小到具体的目录页了，大神您怎么还不现身帮我呢？？？？

x9tian · 发表于 2011-4-24 08:05:57

原帖由 yjd 于 2011-4-22 11:44 发表

批专家来了^_^

  YJD  把偶要说的话也说了，  哈哈，我学批处理看到第一个贴子就他的。

namejm  以前我以为他叫名字寂寞，后来namejm回个贴说：也有人叫他那么寂寞。

namejm  批处理中的战斗机 0.0

		自动登录	找回密码
密码			注册

哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本，要详细的教程！

回复 #3 namejm 的帖子

浏览过的版块