Formato FASTA: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 20:
não excedem 80 caracteres. Isso provavelmente ocorreu visando permitir a pré-alocação de tamanhos fixos de linhas no software: naquele momento em que a maioria dos usuários contava com terminais [[DEC VT-180|DEC VT]] (ou compatíveis) só se podia mostrar 80 ou 132 caracteres por linha. A maioria das pessoas preferia a fonte maior nos modos 80 caracteres e por isso tornou-se comum recomendar o uso de 80 caracteres ou menos (geralmente 70) para as linhas FASTA.
 
A primeira linha em um arquivo FASTA começa ou com um símbolo ">" (maior que) ou um ";" (ponto e vírgula) e é tomada como um comentário. Linhas subsequentes começando com um ponto e vírgula são ignoradas pelo software. Uma vez que o único comentário utilizado era o primeiro, rapidamente se tornou uso comum armazenar uma descrição sumária da seqüência, muitas vezes começando com um número único de acesso à biblioteca, e com o tempo tornou-se comum sempre usar ">" para a primeira linha e não usar mais comentários iniciando por ";" (que de qualquer forma seriam ignorados).
<!--
 
Após a linha inicial (usada para uma descrição única da seqüência) vem a seqüência em si no padrão de código de uma letra. Outra coisa além de um código válido é ignorada (incluindo espaços, tabulações, asteriscos, etc ..). Originalmente, era também comum terminar a seqüência com um caracter "*" (asterisco) (em analogia com o uso de seqüências formatadas PIR) e, pelo mesmo motivo, deixar uma linha em branco entre a descrição e a seqüência.
The first line in a FASTA file starts either with a ">" (greater-than) symbol or a ";" (semicolon) and was taken as a comment. Subsequent lines starting with a semicolon would be ignored by software. Since the only comment used was the first, it quickly became used to hold a summary description of the sequence, often starting with a unique library accession number, and with time it has become commonplace use to always use ">" for the first line and to not use ";" comments (which would otherwise be ignored).
 
Algumas sequências de exemplo:
Following the initial line (used for a unique description of the sequence) is the actual sequence itself in standard
one-letter code. Anything other than a valid code would be ignored (including spaces, tabulators, asterisks, etc...). Originally it was also common to end the sequence with an "*" (asterisk) character (in analogy with use in PIR formatted sequences) and, for the same reason, to leave a blank line between the description and the sequence.
 
A few sample sequences:
 
;LCBO - Prolactin precursor - Bovine
Linha 41 ⟶ 38:
DIDGDGQVNYEEFVQMMTAK*
 
>gi|5524211|gb|AAD44166.1| cytochrome b <nowiki>[</nowiki>[[Asian ElephantElefante-asiático|Elephas maximus maximus]]<nowiki>]</nowiki>
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
Linha 47 ⟶ 44:
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY
 
 
<!--
 
A multiple sequence FASTA format would be obtained by concatenating several single sequence FASTA files. This does not imply a contradiction with the format as only the first line in a FASTA file may start with a ";" or ">", hence forcing all subsequent sequences to start with a ">" in order to be taken as different ones (and further forcing the exclusive reservation of ">" for the sequence definition line). Thus, the examples above may as well be taken as a multisequence file if taken together.