LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 866|回复: 0

新浪读书

[复制链接]
发表于 2007-3-12 15:40:12 | 显示全部楼层 |阅读模式
http://mrkissinger.247sv.com/ind ... d=102&Itemid=37

买了个读书器,可以看很多书了。
但是私有格式的不便于保存和分享,TXT格式往往滞后很长一段时间。
新浪读书更新很快,于是就有了这个自动处理脚本。

Bash写的,Windows用户自求多福了。
批量下载我不管啊,firefox的scrapbook插件可以把你选中的链接(当然是新浪的书目链接啦)的URL整理出来,放到一个文本文件里面,就可以用wget批量下载了。

下载的页面用下面的脚本处理一下,就得到纯文本的小说了。

说明一下:
新浪不断改版,可能有我没有注意到的新版面。在使用中发现可以通知我,mrkissinger __at__ gmail __dot__ com
目前没有对文件名进行排序,靠的是bash的默认顺序,所以10.html会在2.html之前,使用的时候分?.html和??.html几步操作就可以了。


  1. #!/bin/sh

  2. # 文件名可能为UTF8,文本为GB

  3. while [ $# -ne 0 ]
  4. do
  5.     cat $1 | \
  6.     LC_ALL=zh_CN.GBK \
  7.         sed -n \
  8.             -e '/<div id=article>/,/正文底部文字广告/p' \
  9.             -e '/<!--正文内容开始-->/,/<!--正文内容结束-->/p' -e '/正文页画中画/p' |
  10.     LC_ALL=zh_CN.GBK    sed \
  11.             -e '/^[ \t; ]*$/d' \
  12.             -e '/    连载:/d' \
  13.             -e 's/  /\r\n  /g' -e 's/<[^>]*>//g' -e 's/&nbsp//g' \
  14.             -e '/<!--/,/-->/d' \
  15.             -e 's/\[上一篇\]\|\[返回\]\|\[返回目录\]\|\[下一篇\]\|上一页\|下一页\|\[\]\|\[[0-9]\]//g'

  16.     shift
  17. done
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表