如何从HTML文件中提取charset

carlos · 发表于 2003-7-21 19:51:56

就是 <META http-equiv=Content-Type content="text/html; charset=gb2312"> 里的gb2312

我知道用perl的HTML parser模块会比较容易
but... 我不会perl还...

刚才瞎写了一个极其dirty的script，能够正常工作(至少中文HOWTO里的文档都可以正常输出)，但效率比较低。
另外因为绝大部分非英语文档都很规范，所以我只取了前十五行来判断...

#!/bin/sh
DEFAULT_CHARSET=iso-8859-1
CHARSET=$(head -15 $1 | tr ">" "\n" \
| grep -i 'meta[[:space:]].*charset *=' | tr ";" "\n" \
| grep -i charset | tr """ "\n" | tr -s "[[:space:]]" "\n" \
| tr "=" "\n" | tail -1)
if [ -z $CHARSET ] ; then
echo $DEFAULT_CHARSET
else
echo $CHARSET
fi

复制代码

哪位能写个漂亮点的？现在这个实在是拿不出手呀！
thanks in advance....

dreamrise · 发表于 2003-7-21 20:40:43

carlos · 发表于 2003-7-22 00:15:26

;)
想着想着就写成这个样子了...
用了5次"tr"
这还是精炼过的，刚写出来的时候用了7个"tr"呢...

kwokts · 发表于 2003-7-22 09:53:17

sed -ne 's/$.*$charset=$.*$"$.*$/\2/p' HTMLFILE

carlos · 发表于 2003-7-22 15:53:35

兄台这个简单，好，but对文件要求太严...
title或正文里要是有"charset=xxx"，等号两边有空格，等情况都会出错

lucida · 发表于 2003-7-22 17:18:36

$ sed -n '1,15 s/$^<[meta|META].*charset.*=$$.*$\">$/\2/p' showthread.html | sed -e 's/\ //g'

carlos · 发表于 2003-7-22 21:17:56

penny兄的方法也不错呀...
but... 如果文件是在mac/windows下写的就完蛋了... ;)
DOS格式文件行尾是“\r”, MAC文档则根本不用"\n"直接用"\r"来换行(tr/sed好象会把整个MAC文档当做一行来处理)

另外，几位大兄都只考虑了从一行代码中提取gb2312的问题
这也是我一开始要用 tr 原因
因为html文件不要求<>在一行内完成
比如

<META http-equiv=Content-Type
content="text/html;
charset=gb2312">

复制代码

HOWTO文档中这样的文件比较多，不过中文的文档都很正规 ~_~
这就需要先按html语法重新组合语句，再sed...
而且对于sed -e 's/\ //g'这种简单字符替换，改用tr -d " "会比较清晰

现在偶的程序是这个样子

#!/bin/sh
HTML_CHARSET=$(head -15 $1 | tr -d "[\r\n]" | tr ">" "\n" | tr "[A-Z]" "[a-z]" \
| sed -ne 's/$.*meta.*content.*charset[[:space:]]*=[[:space:]]*$$.*$$".*$/\2/p')
if [ -z $HTML_CHARSET ] ; then
HTML_CHARSET=iso-8859-1
fi
echo "$HTML_CHARSET"

复制代码

偶电脑里所有的非英文HTML文档都可正确识别了
还是在解决实际问题时学东西比较快
谢谢各位

kwokts · 发表于 2003-7-23 11:21:08

tr ">" "\n" 这一部份应该不需要。

carlos · 发表于 2003-7-23 14:34:25

试了一下，去掉tr ">" "\n"后，就不行了... 比如下面这个文件头

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
<html>
<head><meta HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=gb2312">
<meta NAME="GENERATOR" CONTENT="ZH-SGML-Tools 1.0.9">
<title>Linux HOWTO 中文索引</title>
<link HREF="/cgi-bin/dwww?type=file&location=/usr/share/doc/HOWTO/zh-s-html/HOWTO-INDEX-1.html" REL=next>
</head>
<body>
<a HREF="/cgi-bin/dwww?type=file&location=/usr/share/doc/HOWTO/zh-s-html/HOWTO-INDEX-1.html">Next</a>
Previous
Contents
<hr>
<h1>Linux HOWTO 中文索引</h1>

复制代码

由于我在前面把这十来行代码变换了一行
这一行中就会有多个双引号
现有程序会取最后一个双引号来分隔
结果就变成了gb2312">.....O/zh-s-html/HOWTO-INDEX-1.html

kwokts · 发表于 2003-7-23 16:23:58

将 $.*$$".*$ 改为 $[^"]*$$.*$ 就应该可以？

		自动登录	找回密码
密码			注册

如何从HTML文件中提取charset

浏览过的版块