|
作者:西邮 王聪
不要理会任何一个告诉你内核开发是困难,特别或者不同的人。它是一个大的程序,而且bug修复或驱动编写是一个最佳起点。它也没有什么魔力,也不是使用只有留着络腮胡的老手才能读懂的语言编写。
──Alan Cox
简介
这篇文章是专门写给那些对Linux内核感兴趣,却又不知道如何着手去读懂那么多代码的内核新手。也许你刚刚了解Linux,又急于探索Linux的内部秘密;也许你是一个Linux开发者,熟悉应用程序的开发,又雄心勃勃准备向内核世界进发。那么这篇文章正是你需要的,它会带你走进内核的世界,伴你渡过危险的沼泽。通过分享我们自己的经历,希望有更多的人能够加入到Linux内核开发者行列。
内核开发向来被视为非常神秘的工作,仿佛只有传说中的留着长长的络腮胡的黑客们才能从事它。其实不然,Linux内核的开发和其它大型项目没有多少差别,只不过它的调试确实有点特别,需要一些特别的技巧。不要恐慌(Don't Panic!),只要你下功夫,你也能参与内核的开发,它的确是一件非常好玩的事。
需要准备什么
当然,你首先要有一台可供支配的电脑,最好装有Linux。如果可以,最好再有一台专门供你调试代码的机器,因为没人能保证调试内核的过程中不会让你的文件系统崩溃。或者,至少有一块专门给调试内核使用的硬盘。
最好还有一个固定的互联网接口,毕竟Linux内核开发是在网络上进行的,而且你也会经常在互联网上搜索一些有用的信息。
如果你是一位超级geek的话,再准备一根双机串口线,它能帮助你从一台机器上“聆听”另一台机器上内核运行中的“抱怨”。嗯,有点像是外科医生给病人听诊,这看起来很酷,不是吗?
如果你准备在一台非计算机设备上调试你的内核(这没什么奇怪的,Linux早已经被移植到千奇百怪的系统上),那么你还需要准备相应的硬件,或者它的模拟器,或者其它一些工具。如果你有在非计算机设备上调试Linux内核的经验,请在这里自由添加相应的内容。
开始
我们假设上面的东西你都准备好了,整装待发,现在可以正式进军内核了。当然了,如果你对Linux上的开发已经很熟悉了,你可以安全地跳过这一节。好了,出发,水手们!
1. 精通C语言编程
不是我们一味推崇C语言,而是C语言的的确确太适合做内核开发了。C语言的诞生源于编写Unix内核代码,它精练的设计哲学确实做到了这一点。甚至有人这样评价C语言──“它联合了汇编的所有威力。”如果你还不懂C,赶快去学吧。
如果你是一名编程新手,不推荐用C作为你的入门语言,原因如下:
· 编程新手最需要了解的是编程的概念和对编程的基本认识,而过多的接触C语言往往会把你引出这一目的,会让你把注意力集中到一些奇怪的语言特性上,而不是编程语言本身。
· 编程新手往往对计算机了解不够深刻,不清楚计算机的内部结构,而C语言恰恰就是和计算机内存/编码/CPU打交道,最起码,调试那些“隐晦”的错误时如此。(想想你是不是没有把一个指向指针的指针的指针指向正确的位置。)
· 学好C语言需要下很大的功夫,最起码不能低于两年。(当然如果你不打算学好那得另说了。)
所以,最好先学一门比较简单的编程语言作为铺垫。不妨试一下Python(http://www.python.org/),它 ... 是K&R的《The C Programming Language》。过去这么多年了,它仍然被奉为入门的首选,可见其有多么经典。
不过仅仅了解C的语法,能编写一些小的程序是远远不够的。你必须能够熟练地操纵C语言,了解它的一些缺陷和陷阱,让它变成你的利器。有句话说得好:“C语言就像一把刻刀,简单,锋利,并且在技师手中非常有用。和任何锋利的工具一样,C会伤到那些不能驾驭它的人。”读一读《C Traps and Pitfalls》和《Expert C Programming》吧,它们能让你有一个大的提升,成为一名C语言高手。
如果碰巧你是一位C++的推崇者,那么下面的一些引用或许能说服你开发Linux内核不使用C++(摘自LKML FAQ)。
Linus在2004年说:
In fact, in Linux we did try C++ once already, back in 1992.
It sucks. Trust me - writing kernel code in C++ is a BLOODY STUPID IDEA.
他认为:
C++编译器是不可靠的,1992年的时候更糟,有一些基础性的东西没有改变:
· C++的异常处理是broken(不知道怎么翻译这个词好)的,对内核来说它更是broken。
· 任何一个喜欢把内存分配藏到你背后的编译器或者语言,都不是你编写内核的好的选择。
· 你可以用C来编写OO代码,而不用C++的一些“废话”。
Andrew D. Balsa如是说:
Linux一开始的时候gcc还没有很好的C++实现,而且当时C程序员比C++程序员要多。
Richard E. Gooch 解释到:
在Linux诞生之前,也有内核在g++下编译,但是人们抱怨它的性能。据证明,把C代码放到g++下编译会产生更糟糕的代码。它不应该有差别,但的的确确有!
2. 熟悉常用的工具
掌握至少一种编辑器
掌握一种你喜欢的编辑器是非常有必要的,它能为你节省很多时间。在Linux上,最著名的编辑器莫过于emacs(http://www.emacs.cn/)和vi(h ... 有质的飞跃。
· vi
在内核开发中使用vi有如下好处:
1. 占用内存少,加载速度快;
2. 高度可定制化,经配置的vi可以很好地重映射命令按键;
3. 可以自动补齐一些函数名和变量名;
4. 可以和ctags很好地配合使用,通过ctrl+]能很快定位函数的定义位置。
了解更多的vi使用说明,请参考:《Learning the vi Editor, Fifth Edition》, L.Lamb, 1990, O'Reilly
· emacs
emacs的优点如下:
1. Lisp扩展可以大幅度提高效率;
2. 和etags的良好整合;
3. 按键组合更具指导性。
更多的emacs使用知识请参考:《Learning GNU Emacs, Third Edition》, Debra Cameron, James Elliott and Marc Loy, 2004, O'Reilly
熟悉Linux命令行工具
内核开发者一般都在命令行下面工作,是的,图形界面有时会让事情变得更糟,对内核开发尤为如此。你应该能在命令行下面进行一些简单的工作,比如:编译程序,提交补丁,控制版本,收发邮件等。一些常用的命令行技巧会有帮助,所以也不妨去了解一些shell编程知识。下面仅介绍一些常用的:
· gcc
gcc是GNU提供的优秀的软件之一,其性能不亚于任何商业编译器。它具有惊人的可移植性,而它也号称其最优化功能非常强大,所以Linux内核就是采用了gcc作为编译器。gcc的选项这里无法一一列举,只能介绍一些常用的选项。
-o filename:这可能是你最常用的一个选项了。它用来产生以指定名字的可执行输出文件。如果不指定文件名,gcc产生默认的a.out。
-c: 只编译不链接,产生以.o结尾的目标文件。当然它也可以同时编译多个文件。
$ gcc -c hello.c
-Idir: 要求gcc在搜寻头文件时除了默认的目录/usr/include,也要到指定的目录dir中去找。
比如,编译test.c时要用到/home/myname/test.h,我们可以:
$gcc -I/home/myname test.c -o test
-On: 最优化选项。后面的n越大最优化程度越大。一般最常用的是-O2。-O0是不优化,这也是默认的。
$gcc -O2 -o foo foo.c
-Wall/-w: -Wall将打开所有警告,而-w将关闭所有警告。在编译C程序时,强烈建议你加上-Wall选项,因为gcc给出的很多警告都是相当有用的。当然还有折中的选择,具体请参阅man手册。
-W: 打开一些额外的警告。
-S:用来产生相应的汇编源文件,默认的文件名是filename.s
· make
make是一个通用的工程管理工具,它可以“自动化编译”,极大地提高了软件开发的效率。make的使用是根据预先设定的规则来运行的,这些设定的规则记录在一个文件中,即makefile。
make命令的格式是:
make [ -f makefile ] [ option ] ... target ...
-c dir :将指定目录设为make开始运行后的工作目录。
-f filename :将指定的文件作为makefile
-k :使make尽可能地编译,即使命令调用返回一个错误,make也不会停止运行。这个功能很有用,例如,当需要移植的时候;你可以创建尽可能多的目标文件,然后可以在不用等待中间文件创建的同时,移植到不能创建的文件处。
makefile的书写规则是一个大的话题,我们在这里难以展开论述。这里<http://www.wlug.org.nz/MakefileHowto>有一篇介绍makefile书写的Howto,不妨仔细读一下。要对make进行更深入的了解,请参考《Managing Projects with GNU make》一书。
· grep
grep用来在文件中查找一个给定的字符串模式,比如可以快速定位函数或结构体定义。它还可以自动匹配一些正则表达式,非常强大。比如:你要搜索task_struct的定义, 你可以:
$grep -r task_struct * | less
-r选项或许是你需要的,它可以帮你扫描源代码树中的所有源代码文件。查看grep的man手册来了解更多信息。
· diff/patch
如果你在维护包含很多源文件的一个大型项目,每次更新后都推出完整的源程序是不太可行的,所以最好就用patch程序来更新原来的程序。这样,当你的程序升级时,你只要推出源文件对应的patch文件,其他人就能通过执行patch来使用那个patch文件,以获得最新版本的程序。
比如我们有一个程序foo,我们把它更新为bar,我们可以用diff程序这样产生patch文件:
$diff -u foo bar > foo.patch
-u参数指定使用特殊的diff输出格式,否则得到的patch格式怪异,一般人都没法看懂。foo.patch就包含了描述foo和bar不同的信息,我们将用这个文件来更新。
提示:一定要注意diff命令后面的文件名顺序,一定是旧的文件在前,新的文件在后!
接下来,我们用patch来更新:
$patch foo < foo.patch
使用过某个patch文件后,若要再次使用该patch文件,patch程序会产生警告信息:询问是否以-R方式执行,-R将还原文件。这样很好,防止进行了误操作。当然,有时你想更新的是整个目录中的所有源文件,比如foo和bar两个目录,我们可以:
$diff -cr foo bar >foo.patch
$patch -p0 < foo.patch
diff的-c参数表示输出上下文格式,-r参数表示递归的比较两个目录。 -p0告诉patch程序被更新的文件的路径名并没改变。
diffstat是一个很有用的工具,它可以列出patch 所引起的变更的统计(加入或移出的代码行)。输出关于patch的信息,执行:
$diffstat -p1 foo.patch
更多选项请参阅patch和diff的使用手册。
3. 良好的英文阅读能力和表达能力
不管是在Linux内核中,还是在Linux大多数应用程序中,文档基本上都是用英语写成的,到目前为止,大多数还没有对应的汉语翻译。而且Linux内核黑客之间也是用英语交流的,虽然他们可能来自世界各地。熟练地驾驭英文肯定让你受益非浅。
引用ESR在《如何成为一名黑客》(http://www.kerneltravel.net/jiqi ... 一文中的话:
“当前英语有着比其他语言丰富得多的技术词汇,因此是一个对于工作来说相当好的工具。基于类似的原因,英文技术书籍的翻译通常不令人满意(如果有翻译的话)。”
“Linus Torvalds,一个芬兰人,用英语注释他的代码(很明显这对他来说不是凑巧)。他流利的英语成为他能够管理全球范围的Linux开发人员社区的重要因素。这是一个值得学习的例子。”
如果你不懂实用性的英语,赶快去学习吧。
进阶
如果你能来到这里,那说明你已经是一名合格的Unix/Linux程序员了。但是,如果你要成为一名内核程序员,还需要下面的一些知识。
1. 理解操作系统原理
内核是操作系统的核心和灵魂,要理解内核的原理和运作,必须具备基本的操作系统知识。操作系统课上的一些理论性的东西很有帮助,比如信号量的定义和使用,死锁的预防,内存页面的置换等等。列举如下:
· 1. 进程管理
进程的定义和PCB,进程和线程的区别,进程的三个基本状态及它们之间的转换关系,进程的同步,竞争和死锁,进程间通信
· 2. 内存管理
分页式管理,分段式管理,虚拟内存的概念,页面置换算法,内存分配算法
· 3. 设备管理
中断的概念,中断处理,I/O控制方式,缓冲区管理,设备驱动,磁盘调度和高速缓存
· 4. 文件管理
文件的概念,文件的管理,文件系统
· 5. 系统调用
系统调用的概念,系统调用的处理,系统调用类型
关于操作系统理论方面的书籍,推荐Andrew S. Tanenbaum编写的《Operating Systems: Design and Implementation》一书。
2. 一些硬件知识
由于内核本身的特殊性,一些时候你不得不和计算机硬件打交道,尤其是CPU。以i386为例说明:
· 常用寄存器,常见指令
· 实模式和保护模式
· 分段和分页机制
· TSS和任务管理
· 中断机制
· 时钟机制
· 高速缓存
关于Intel CPU最权威的资料莫过于Intel的官方手册,它们可以在Intel网站上免费下载: http://www.intel.com/products/pr ... 要读一下System Programming Guide就够了。
如果你在做嵌入式Linux或者Linux设备驱动,相关的硬件知识更是必须的,可惜这里无法一一列举。
3. 其它
你还需要足够的耐心和一些运气,毕竟内核调试不像用户程序那么容易,一些bug让整个社区好几天都食不甘味了。用户程序的调试经验或许有用,但用处不大。这就更要求你对内核本身有足够多的了解了,实际上,你对内核越是了解,bug就越容易清除。
最后,你可能还需要一些想像力。没错,Linux内核开发者有着丰富的想像力,他们经常使用一些“神来之笔”来解决令旁人苦恼的问题,或者为内核添加一项新奇的功能来让内核运行更流畅。
推荐相关书籍:
· 《Linux内核完全剖析》
讲述Linux 0.11版的源代码,是一个不错的起点。
· Understanding the Linux Kernel, 3rd Edition
中文版是《深入理解Linux内核》,第三版即将上市。第三版主要是讲解2.6版的内核,保持了前两版的风格,是深入学习内核的必读书籍。
· Linux Kernel Development, 2nd Edition
中文版是《Linux内核开发》。其内容朴实,风格简练,便于整体把握Linux内核架构。当了解操作系统原理后,便可阅读这本书。
· The Linux Kernel Primer - A Top Down Approach For x86 and PowerPC Architectures
中文版是《Linux内核编程》,此书最大的特色是能够把x86和ppc两个平台结合起来讲述内核,从用户程序讲起,深入到内核,而且每章后面还配有练习题。
· Linux Device Drivers, 3rd Edition
中文译本是《Linux设备驱动程序》,该书是设备驱动开发的最好工具书。其中的例子对于内核开发者来讲是最好的启蒙教材。
· 《Linux操作系统原理与应用 》
陈老师写的一本不错的内核书籍,从原理、设计思想的角度对Linux操作系统的核心内容进行全面的阐述。
· 《Linux内核情景分析》
本书采取类似于英语教学中行之有效的情景会话的教学方法,全面深入地剖析了Linux 2.4.0内核源代码,并对Linux核心的独特优点和需要进一步改进的问题作了精辟的评述。 全书分上下两册。
一些有用的链接:
· KernelNewbies
http://www.kernelnewbies.org/
· KernelTrap
http://www.kerneltrap.com/
· Linux Weekly News
http://www.lwn.net/
· Linux内核之旅
http://www.kerneltravel.net/
· Kernel Links
http://jungla.dit.upm.es/~jmseyas/linux/kernel/hackers-docs.html
· The Linux Kernel
http://kernelbook.sourceforge.net/
· What is the Kernel
http://whatisthekernel.blogspot.com/
结束语
讲了这么多了,现在该轮到你了。如果你对上面的知识还有没全部掌握,那么不妨从你不熟悉的地方入手,一步步去了解和熟悉Linux内核。如果你是一位高手,对Linux内核有初步的了解和认识,不妨去动手写一些驱动程序或者内核模块,尝试对Linux内核做一些自己的修改。如果可以,加入Linux内核邮件列表,看看里面的内核黑客在做些什么,试着帮他们测试新的内核,修复一些bug。
祝你在Linux内核世界走得更远! |
|