|
想用 python 写个小程序处理下生物序列,不知道本版有多少做生物信息学的,先描述下 FASTA 文件的结构,
FASTA 文件是一种文本文件:
>name1
sequence1
>name2
sequence2
>name3
sequence3
.......
每一个不同的序列用 “>” 标识,后面跟着它的名字(仅一行,可能含空格),下一行即为序列(可能分几行,但不包含空格,不包含空行,全部是字母或者“-”字符),序列之后空一行,再接第二个序列,依次类推......
我现在想将所有的 sequence 读取出来,以字符串的形式分别赋值于几个变量,比如:
s1=“sequence1”、s2=“sequence2”、..........
他们对应的 name 不作处理,无须关联在一起,注意 sequence 可能有近万个字符,而且需要计算各个 sequene 有多少个字符并判断大家的字符数是否相等。
完成这个读取以及赋值的 python 代码是怎么样的呢?谢谢 |
|