新浪读书

mrkissinger · 发表于 2007-3-12 15:40:12

http://mrkissinger.247sv.com/ind ... d=102&Itemid=37

买了个读书器，可以看很多书了。
但是私有格式的不便于保存和分享，TXT格式往往滞后很长一段时间。
新浪读书更新很快，于是就有了这个自动处理脚本。

Bash写的，Windows用户自求多福了。
批量下载我不管啊，firefox的scrapbook插件可以把你选中的链接（当然是新浪的书目链接啦）的URL整理出来，放到一个文本文件里面，就可以用wget批量下载了。

下载的页面用下面的脚本处理一下，就得到纯文本的小说了。

说明一下：
新浪不断改版，可能有我没有注意到的新版面。在使用中发现可以通知我，mrkissinger __at__ gmail __dot__ com
目前没有对文件名进行排序，靠的是bash的默认顺序，所以10.html会在2.html之前，使用的时候分？.html和??.html几步操作就可以了。

#!/bin/sh
# 文件名可能为UTF8，文本为GB
while [ $# -ne 0 ]
do
cat $1 | \
LC_ALL=zh_CN.GBK \
sed -n \
-e '/<div id=article>/,/正文底部文字广告/p' \
-e '//,//p' -e '/正文页画中画/p' |
LC_ALL=zh_CN.GBK sed \
-e '/^[ \t;　]*$/d' \
-e '/ 连载:/d' \
-e 's/　　/\r\n　　/g' -e 's/<[^>]*>//g' -e 's/&nbsp//g' \
-e '//d' \
-e 's/\[上一篇\]\|\[返回\]\|\[返回目录\]\|\[下一篇\]\|上一页\|下一页\|\[\]\|\[[0-9]\]//g'
shift
done

复制代码

		自动登录	找回密码
密码			注册

新浪读书

浏览过的版块