无忧启动论坛

标题: 哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本,要详细的教程! [打印本页]

作者: 2011198976    时间: 2011-4-22 08:00
标题: 哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本,要详细的教程!
可以拿下面这个网址举例!
http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X&year=2011&Issue=9
万分感谢!

[ 本帖最后由 2011198976 于 2011-4-23 14:57 编辑 ]
作者: 2011198976    时间: 2011-4-22 08:04
我刚接触批处理两三天,很菜,教程详细一点啊!
作者: namejm    时间: 2011-4-22 11:16
你想把整个网站的小说都抓下来啊?
貌似这个工程太大了
还是缩小点范围吧
看能不能帮到你
作者: yjd    时间: 2011-4-22 11:44
namejm

批专家来了^_^
作者: 2011198976    时间: 2011-4-22 16:25
终于见到您说话了,我太兴奋了!
不是整个网站,您可以随便在这两个网站中抓取一本小说,像做个模板一样的,其他的小说我自己就会抓去了,就像您的“搜索结果抓取搜狐读书网上的txt小说——以整理《退膛》为例”整个搜狐的小说我都会抓取了!
按照您在“《退膛》为例”的模板,在其他网战怎么抓取不到文本,加密?还是其他?
作者: 2011198976    时间: 2011-4-22 16:41
按照下面这个模板怎么抓去不到
curl -o index.html http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
findstr /i “ldwc201108" index.html>tmp.txt
for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
    title 正在下载网页 http://xhs.vip.qikan.com/%%~i
    curl --create-dirs -o html\%%~nxi http://xhs.vip.qikan.com/%%~i
)
第三步分隔符的选取,选哪几列可能不正确,可是有些网站我已经抓取到文件夹html,但是里面的html文件只有3KB,根本没有正文,郁闷啊!
还有一个网站,我都已经把html宇txt文件分开到不同文件夹了,但是利用cd.>1234.txt
for %%i in (txt\*.txt) do (
    title 正在整理 %%~nxi
    echo.>>1234.txt
    findstr /ib "1234" %%i>>1234.txt
    echo.>>1234.txt
    findstr /ibc:"    " %%i>>1234.txt
)
合并时得到的是一个空的1234.txt文件,郁闷啊!

[ 本帖最后由 2011198976 于 2011-4-22 16:43 编辑 ]
作者: 2011198976    时间: 2011-4-23 14:58
标题: 回复 #3 namejm 的帖子
我已经把他缩小到具体的目录页了,大神您怎么还不现身帮我呢????
作者: x9tian    时间: 2011-4-24 08:05
原帖由 yjd 于 2011-4-22 11:44 发表

批专家来了^_^


  YJD  把偶要说的话也说了,  哈哈,我学批处理看到第一个贴子就他的。

namejm  以前我以为他叫 名字寂寞,后来namejm回个贴说:也有人叫他那么寂寞。

namejm  批处理中的战斗机 0.0




欢迎光临 无忧启动论坛 (http://wuyou.net/) Powered by Discuz! X3.3