无忧启动论坛

 找回密码
 注册
搜索
系统gho:最纯净好用系统下载站投放广告、加入VIP会员,请联系 微信:wuyouceo
查看: 3322|回复: 8
打印 上一主题 下一主题

哪位高手会用用批处理+curl+HtoX32c抓取网页中的文本,要详细的教程!

[复制链接]
跳转到指定楼层
1#
发表于 2011-4-22 08:00:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
可以拿下面这个网址举例!
http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X&year=2011&Issue=9
万分感谢!

[ 本帖最后由 2011198976 于 2011-4-23 14:57 编辑 ]
2#
 楼主| 发表于 2011-4-22 08:04:11 | 只看该作者
我刚接触批处理两三天,很菜,教程详细一点啊!
回复

使用道具 举报

3#
发表于 2011-4-22 11:16:58 | 只看该作者
你想把整个网站的小说都抓下来啊?
貌似这个工程太大了
还是缩小点范围吧
看能不能帮到你
回复

使用道具 举报

4#
发表于 2011-4-22 11:44:00 | 只看该作者
namejm

批专家来了^_^
回复

使用道具 举报

5#
 楼主| 发表于 2011-4-22 16:25:21 | 只看该作者
终于见到您说话了,我太兴奋了!
不是整个网站,您可以随便在这两个网站中抓取一本小说,像做个模板一样的,其他的小说我自己就会抓去了,就像您的“搜索结果抓取搜狐读书网上的txt小说——以整理《退膛》为例”整个搜狐的小说我都会抓取了!
按照您在“《退膛》为例”的模板,在其他网战怎么抓取不到文本,加密?还是其他?
回复

使用道具 举报

6#
 楼主| 发表于 2011-4-22 16:41:34 | 只看该作者
按照下面这个模板怎么抓去不到
curl -o index.html http://xhs.vip.qikan.com/Mag.aspx?issn=1005-720X
findstr /i “ldwc201108" index.html>tmp.txt
for /f "delims=><= tokens=5,6" %%i in ('findstr /i “ldwc201108" index.html') do (
    title 正在下载网页 http://xhs.vip.qikan.com/%%~i
    curl --create-dirs -o html\%%~nxi http://xhs.vip.qikan.com/%%~i
)
第三步分隔符的选取,选哪几列可能不正确,可是有些网站我已经抓取到文件夹html,但是里面的html文件只有3KB,根本没有正文,郁闷啊!
还有一个网站,我都已经把html宇txt文件分开到不同文件夹了,但是利用cd.>1234.txt
for %%i in (txt\*.txt) do (
    title 正在整理 %%~nxi
    echo.>>1234.txt
    findstr /ib "1234" %%i>>1234.txt
    echo.>>1234.txt
    findstr /ibc:"    " %%i>>1234.txt
)
合并时得到的是一个空的1234.txt文件,郁闷啊!

[ 本帖最后由 2011198976 于 2011-4-22 16:43 编辑 ]
回复

使用道具 举报

7#
 楼主| 发表于 2011-4-23 14:58:48 | 只看该作者

回复 #3 namejm 的帖子

我已经把他缩小到具体的目录页了,大神您怎么还不现身帮我呢????
回复

使用道具 举报

8#
发表于 2011-4-24 08:05:57 | 只看该作者
原帖由 yjd 于 2011-4-22 11:44 发表

批专家来了^_^


  YJD  把偶要说的话也说了,  哈哈,我学批处理看到第一个贴子就他的。

namejm  以前我以为他叫 名字寂寞,后来namejm回个贴说:也有人叫他那么寂寞。

namejm  批处理中的战斗机 0.0
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|捐助支持|无忧启动 ( 闽ICP备05002490号-1 )

闽公网安备 35020302032614号

GMT+8, 2024-11-28 14:53

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表