Formato FASTA: diferenças entre revisões
Conteúdo apagado Conteúdo adicionado
Linha 20:
não excedem 80 caracteres. Isso provavelmente ocorreu visando permitir a pré-alocação de tamanhos fixos de linhas no software: naquele momento em que a maioria dos usuários contava com terminais [[DEC VT-180|DEC VT]] (ou compatíveis) só se podia mostrar 80 ou 132 caracteres por linha. A maioria das pessoas preferia a fonte maior nos modos 80 caracteres e por isso tornou-se comum recomendar o uso de 80 caracteres ou menos (geralmente 70) para as linhas FASTA.
A primeira linha em um arquivo FASTA começa ou com um símbolo ">" (maior que) ou um ";" (ponto e vírgula) e é tomada como um comentário. Linhas subsequentes começando com um ponto e vírgula são ignoradas pelo software. Uma vez que o único comentário utilizado era o primeiro, rapidamente se tornou uso comum armazenar uma descrição sumária da seqüência, muitas vezes começando com um número único de acesso à biblioteca, e com o tempo tornou-se comum sempre usar ">" para a primeira linha e não usar mais comentários iniciando por ";" (que de qualquer forma seriam ignorados).
<!--▼
Após a linha inicial (usada para uma descrição única da seqüência) vem a seqüência em si no padrão de código de uma letra. Outra coisa além de um código válido é ignorada (incluindo espaços, tabulações, asteriscos, etc ..). Originalmente, era também comum terminar a seqüência com um caracter "*" (asterisco) (em analogia com o uso de seqüências formatadas PIR) e, pelo mesmo motivo, deixar uma linha em branco entre a descrição e a seqüência.
Algumas sequências de exemplo:
;LCBO - Prolactin precursor - Bovine
Linha 41 ⟶ 38:
DIDGDGQVNYEEFVQMMTAK*
>gi|5524211|gb|AAD44166.1| cytochrome b <nowiki>[</nowiki>[[
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
Linha 47 ⟶ 44:
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
▲<!--
A multiple sequence FASTA format would be obtained by concatenating several single sequence FASTA files. This does not imply a contradiction with the format as only the first line in a FASTA file may start with a ";" or ">", hence forcing all subsequent sequences to start with a ">" in order to be taken as different ones (and further forcing the exclusive reservation of ">" for the sequence definition line). Thus, the examples above may as well be taken as a multisequence file if taken together.
|