MIME邮件编码方法介绍

无双 · 发表于 2003-7-25 00:49:05

在MIME邮件中进行的编码有base64 Quoted-Printable方法这里进行一下介绍

Base64是MIME邮件中常用的编码方式之一。它的主要思想是将输入的字符串或数据编码成只含有{'A'-'Z', 'a'-'z', '0'-'9', '+', '/'}这64个可打印字符的串，故称为“Base64”。

Base64编码的方法是，将输入数据流每次取6 bit，用此6 bit的值(0-63)作为索引去查表，输出相应字符。这样，每3个字节将编码为4个字符(3×8 → 4×6)；不满4个字符的以'='填充。

const char EnBase64Tab[] = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";

解码是编码的反过程

Quoted-Printable也是MIME邮件中常用的编码方式之一。同Base64一样，它也将输入的字符串或数据编码成全是ASCII码的可打印字符串。

Quoted-Printable编码的基本方法是：输入数据在33-60、62-126范围内的，直接输出；其它的需编码为“=”加两个字节的HEX码(大写)。为保证输出行不超过规定长度，可在行尾加“=\r\n”序列作为软回车。

一般邮件的Content-Transfer-Encoding:中会说明邮件使用的算法如果是标题的话那么会用B表示BASE64 用Q表示Quoted-Printable。
以下是标题的一个例子
Subject: =?gb2312?B?xOO6w6Oh?=
=?和?=间表示是标题内容
gb2312表示字符集B表示base64后面是编码

下面是base64编解码过程和quoted-printable解码过程 (没有经过充分测试)
想学习的话可以看邮件也就是把邮件导出然后用文本工具看就OK了

#include <stdio.h>
#include <string.h>
static char base64_encoding[] =
"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
// encode to BASE 64
// return buflen
int base64_enc(char *buf,char*text,int size)
{
int buflen = 0 ;
while(size>0){
*buf++ = base64_encoding[ (text[0] >> 2 ) & 0x3f];
if(size>2){
*buf++ = base64_encoding[((text[0] & 3) << 4) | ((text[1] >> 4) & 0x0f)];
*buf++ = base64_encoding[((text[1] & 0xF) << 2) | ((text[2] >> 6) &3)];
*buf++ = base64_encoding[text[2] & 0x3F];
}else{
switch(size){
case 1:
*buf++ = base64_encoding[(text[0] & 3) << 4 ];
*buf++ = '=';
*buf++ = '=';
break;
case 2:
*buf++ = base64_encoding[((text[0] & 3) << 4) | ((text[1] >> 4) & 0x0f)];
*buf++ = base64_encoding[((text[1] & 0xF) << 2) | ((text[2] >> 6) &3)];
*buf++ = '=';
break;
}
}
text +=3;
size -=3;
buflen +=4;
}
*buf = 0;
return buflen;
}
static char get_base64_value(char ch,char default_value)
{
if ((ch >= 'A') && (ch <= 'Z'))
return ch - 'A';
if ((ch >= 'a') && (ch <= 'z'))
return ch - 'a' + 26;
if ((ch >= '0') && (ch <= '9'))
return ch - '0' + 52;
switch (ch) {
case '+':
return 62;
case '/':
return 63;
case '=': /* base64 padding */
return default_value;
default:
return default_value;
}
}
//进行base64解码返回buf中内容长度
//注意如果是最后一个字符那么长度不准备可能会多1
int base64_dec(char *buf,char*text,int *size)
{
char chunk[4];
int parsenum=0;
int linelen=*size;
*size =0;
while(linelen>*size){
if(get_base64_value(*text,-1)==-1){
text++;
size++;
continue;
}
if(linelen-*size<3)
return parsenum;
chunk[0] = get_base64_value(text[0],0);
chunk[1] = get_base64_value(text[1],0);
chunk[2] = get_base64_value(text[2],0);
chunk[3] = get_base64_value(text[3],0);
*buf++ = (chunk[0] << 2) | (chunk[1] >> 4);
*buf++ = (chunk[1] << 4) | (chunk[2] >> 2);
*buf++ = (chunk[2] << 6) | (chunk[3]);
if(text[1]=='='){
*size+=1;
return parsenum+1;
}
else if(text[2]=='='){
*size+=2;
return parsenum+2;
}
else if(text[3]=='='){
*size+=3;
return parsenum+3;
}
text+=4;
*size+=4;
parsenum+=3;
}
return parsenum;
}
//解码Quoted-Printable,返回解码的长度
int QPrintable_dec(char *buf,char*text,int size)
{
int buflen=0; // 输出的字符计数
int i=0;
while (size>0)
{
if (strncmp(text, "=\r\n", 3) == 0) // 软回车，跳过
{
text += 3;
size -= 3;
}
else
{
if (*text == '=') // 是编码字节
{
sscanf(text, "=%02X", buf);
buf++;
text += 3;
size -= 3;
}
else // 非编码字节
{
*buf++ = (unsigned char)*text++;
size--;
}
buflen++;
}
}
return buflen;
}
main()
{
char s[]="试一试看";
char d[100],db[100];
int len = base64_enc(d,s,strlen(s));
d[len]=0;
printf("orig string is %d len:\n%s\nafter encode is %d len:\n",strlen(s),s,len ,d);
len = base64_dec(db,d,&len);
db[len]=0;
printf("after decode is %d len:\n%s\n",len,db);
return 0;
}

复制代码

qing · 发表于 2003-7-25 07:51:28

http://www.wc.cc.va.us/dtod/base64/default.asp

Web-Based Base64 Converter

:可以试的--不用编程

zt7Lqw==的解码是谁呢
???

kj501 · 发表于 2003-7-25 07:53:02

不错，长见识。是否所有的邮件都是这样编码的吗？为什么有的中文会被邮件系统把字节第8位处理掉而变成乱码？

qing · 发表于 2003-7-25 07:58:17

RFC

http://www.fourmilab.ch/webtools/base64/

Table 1: The Base64 Alphabet
Value Encoding Value Encoding Value Encoding Value Encoding
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w (pad) =
15 P 32 g 49 x
16 Q 33 h 50 y

复制代码

qing · 发表于 2003-7-25 08:18:47

Example encoding:
The stream 'ABCD' is 32 bits long. It is mapped as
follows:
ABCD
A (65) B (66) C (67) D (68) (None) (None)
01000001 01000010 01000011 01000100
16 (Q) 20 (U) 9 (J) 3 (D) 17 (R) 0 (A) NA (=) NA (=)
010000 010100 001001 000011 010001 000000 000000 000000
QUJDRA==

复制代码

如果可见字符变可见字符挺无聊的.....

ABCD成了QUJDRA==
这不是增加数据量吗/

还要多作工作--编码与解码

http://base64.sourceforge.net/b64.c

无双 · 发表于 2003-7-25 19:32:29

因为 8bit字符通过多数邮件系统时会有问题所以要把它们转换成7bit 也就是>127的字符不能正确传送而像是中文或是二进制文件都有很多这样的值所以需要转换

zt7Lqw??? 不知道啊

但是网上有一篇王笨笨压缩教程还是很好的推荐看看

qing · 发表于 2003-7-25 22:59:31

是你啊

无双

:-)

无双 · 发表于 2003-7-26 11:48:52

		自动登录	找回密码
密码			注册

MIME邮件编码方法介绍

浏览过的版块