|
http://mrkissinger.247sv.com/ind ... d=102&Itemid=37
买了个读书器,可以看很多书了。
但是私有格式的不便于保存和分享,TXT格式往往滞后很长一段时间。
新浪读书更新很快,于是就有了这个自动处理脚本。
Bash写的,Windows用户自求多福了。
批量下载我不管啊,firefox的scrapbook插件可以把你选中的链接(当然是新浪的书目链接啦)的URL整理出来,放到一个文本文件里面,就可以用wget批量下载了。
下载的页面用下面的脚本处理一下,就得到纯文本的小说了。
说明一下:
新浪不断改版,可能有我没有注意到的新版面。在使用中发现可以通知我,mrkissinger __at__ gmail __dot__ com
目前没有对文件名进行排序,靠的是bash的默认顺序,所以10.html会在2.html之前,使用的时候分?.html和??.html几步操作就可以了。
- #!/bin/sh
- # 文件名可能为UTF8,文本为GB
- while [ $# -ne 0 ]
- do
- cat $1 | \
- LC_ALL=zh_CN.GBK \
- sed -n \
- -e '/<div id=article>/,/正文底部文字广告/p' \
- -e '/<!--正文内容开始-->/,/<!--正文内容结束-->/p' -e '/正文页画中画/p' |
- LC_ALL=zh_CN.GBK sed \
- -e '/^[ \t; ]*$/d' \
- -e '/ 连载:/d' \
- -e 's/ /\r\n /g' -e 's/<[^>]*>//g' -e 's/ //g' \
- -e '/<!--/,/-->/d' \
- -e 's/\[上一篇\]\|\[返回\]\|\[返回目录\]\|\[下一篇\]\|上一页\|下一页\|\[\]\|\[[0-9]\]//g'
- shift
- done
复制代码 |
|