SB Clean sequence

--clean_seq, -cs

Description

Remove all non-sequence characters from input. This will include any spaces, numbers, gap characters (e.g. '-'), stop characters (e.g. '*'), etc. Passing in the word 'strict' will also remove any ambiguous characters from nucleotide sequences.

Nucleotide sequences: ATGCURYWSMKHBVDNX will be retained. If 'strict' is specified, only ATGCXNU will be retained.

Protein sequences: ACDEFGHIKLMNPQRSTVWXY will be retained. Using the 'strict' command has no effect.

Examples

Input file: Mle-Panx_align.fa

>Mle-Panxα1
MYWIFEICQEIKRAQSCRKFAIDGPFDWTNRIIMPTLMVICCFLQTFTFMFGSNISCIGF
EKLERNFVEEYCWTQGIYTSKAAYNMP-LHTPYPGIAPCVPEYDPVTQKYWLPCG----V
EEEDKAYHLWYQWVPFYFLAVAVGYYLPFLILKGSKLHQVKPLITYLMNQRNLETDPNHL
VGKLSHWIFRQLVYSRFAATSTIRMYWHDWGLVLLVCSVKILYLTVSLIHLFATAKMFHI
GNWFTYGIMFARR---SNSHTTHVKDVFFPKMVACKIETWSFTGKNHLHGMCVLALNVMN
QYLFLIVWYVNVIIIFLNSISCIYTIVKFCSPNIVHHRIVNSSSLDDHHDFTRMFGYVGP
SGRIILAKMSEHMPGYMLKQVAKKVTEKIDIENEKNRGRAPTIKFTKVNGQPSELARQPL
MHLNALMLGMVPQNLPEPKIQNIQRSQKKVRFLV*
>Mle-Panxα11
M--LISSLVQFSRLSPFKEITIDDGWDQLNRSFMFVLMVICGTIVTVRQHTGNIISCNGF
TKYDGSFSEDYCWTQGLYTIREAYHVSDVNVPYPGV---IPEEIPLCLGDNC---DKLAN
SNTTRVYHLWYQWIPFYFWLASAAFFLPYLIYKRYGFGDIKPLIHMLYNPLDGDEGVKAD
SEKASIWLYHRFS-IYMNEHSMYANFMERHGIGILVIAIKVMYLIISVLLMVMTAMMFEL
ADFKQYGIVWAQQWPDPPANVTGIKDLLFPKMVACEIKRWGPTGLEDENGMCVLAPNVIN
QYIFLILWWALVFTIVSNVFNVLAGVIRIVFIYGSYRRMLASAFLRDDPHYKKVYYKIGT
SGRVILNMLAASISPTCFQEIMNNVCPRLIRAHVSKKGRNLGDD----------------
------------PLL*-------------------

Usage example 1

$: sb Mle-Panx_align.fa -cs

Output

>Mle-Panxα1
MYWIFEICQEIKRAQSCRKFAIDGPFDWTNRIIMPTLMVICCFLQTFTFMFGSNISCIGF
EKLERNFVEEYCWTQGIYTSKAAYNMPLHTPYPGIAPCVPEYDPVTQKYWLPCGVEEEDK
AYHLWYQWVPFYFLAVAVGYYLPFLILKGSKLHQVKPLITYLMNQRNLETDPNHLVGKLS
HWIFRQLVYSRFAATSTIRMYWHDWGLVLLVCSVKILYLTVSLIHLFATAKMFHIGNWFT
YGIMFARRSNSHTTHVKDVFFPKMVACKIETWSFTGKNHLHGMCVLALNVMNQYLFLIVW
YVNVIIIFLNSISCIYTIVKFCSPNIVHHRIVNSSSLDDHHDFTRMFGYVGPSGRIILAK
MSEHMPGYMLKQVAKKVTEKIDIENEKNRGRAPTIKFTKVNGQPSELARQPLMHLNALML
GMVPQNLPEPKIQNIQRSQKKVRFLV
>Mle-Panxα11
MLISSLVQFSRLSPFKEITIDDGWDQLNRSFMFVLMVICGTIVTVRQHTGNIISCNGFTK
YDGSFSEDYCWTQGLYTIREAYHVSDVNVPYPGVIPEEIPLCLGDNCDKLANSNTTRVYH
LWYQWIPFYFWLASAAFFLPYLIYKRYGFGDIKPLIHMLYNPLDGDEGVKADSEKASIWL
YHRFSIYMNEHSMYANFMERHGIGILVIAIKVMYLIISVLLMVMTAMMFELADFKQYGIV
WAQQWPDPPANVTGIKDLLFPKMVACEIKRWGPTGLEDENGMCVLAPNVINQYIFLILWW
ALVFTIVSNVFNVLAGVIRIVFIYGSYRRMLASAFLRDDPHYKKVYYKIGTSGRVILNML
AASISPTCFQEIMNNVCPRLIRAHVSKKGRNLGDDPLL

Input file: ambiguous_cds.fa

>Mle-Panxα9 cDNA - ML47742a.
ATGTTAGACATACTTTCAAAGTTTAAAGGAGTTACTCCTTTTAAAGGTATAACGATAGAT
RACGGGTGGGATCAACTCAATCGGAGTTTTATGTTCGTCCTGCTCGTTGTCATGGGAACG
YCTGTCACTGTCCGGCAATACACCGGCAGTGTCATCAGTTGTGACGGCTTCAAAAAGTTT
WGATCCACTTTTGCGGAGGATTACTGTTGGACCCAGGGACTGTACACAGTTTTAGAAGGA
SATGACCAACCCAGCCAAAATATCCCTTACCCAGGCCTCCTTCCAGACGAGGCACCACCC
MGTACACCAGTCAGACTCAAGGACGGTACGAGGTTAAAGTGCCCAGACCCTGATCAGTTG
KTGTCACCGACGCGGATATCCCACCTATGGTACCAGTGGGTCCCTTTTTACTTCTGGTTG
HCGGCTGCTGCCTTCTTCATGCCCTACCTTCTGTACAAGAATTTTGGCATGGGAGATATC
BAGCCTCTCGTGAGATTACTACACAATCCAGTAGAATCAGACCAGGAGTTAAAGAAGATG
VCAGACAAGGCTGCAACATGGCTGTTCTACAAGTTTGACCTGTACATGAGCGAACAGTCG
DTCCTAGCAAGTCTCACCAGAAAACACGGTCTTGGTCTATCCATGGTCTTTGTAAAGATC
NTATACGCCGCAGTGTCGTTCGGGTGTTTCCTCCTGACCGCTGAGATGTTCTCAATTGGA
XATTTTAAAACCTATGGATCAGAATGGATCAAGAAGTTAAAGTTGGAAGATAATCTAGCT
ACGGAGGAAAAGGATAAACTTTTTCCTAAGATGGTGGCATGTGAAGTGAAACGCTGGGGT
GCATCAGGTATTGAGGAGGAACAAGGGATGTGTGTCCTGGCCCCCAACGTAATCAACCAA
TACCTCTTCCTTATTCTCTGGTTCTGTCTGGTATTCGTGATGTTCTGCAACATTGTCTCC
ATATTCGCCTCCCTCATCAAGCTCCTCTTCACCTACGGCTCCTACCGCCGCCTCCTTTCC
ACCGCCTTCCTGAGGGACGACTCCGCCATCAAACACATGTACTTCAACGTGGGGTCGTCA
GGGAGATTGATATTGCACGTGCTGGCGAACAACACCGCCCCGCGCGTCTTCGAGGACATC
CTGCTGACCCTGGCCCCCAAGCTGATCCAACGGAAACTCAGAGGTAACGGAAAAGCTTTG
TAG

Usage example 2

$: sb ambiguous_cds.fa -cs strict

Output

>Mle-Panxα9 cDNA - ML47742a.
ATGTTAGACATACTTTCAAAGTTTAAAGGAGTTACTCCTTTTAAAGGTATAACGATAGAT
ACGGGTGGGATCAACTCAATCGGAGTTTTATGTTCGTCCTGCTCGTTGTCATGGGAACGC
TGTCACTGTCCGGCAATACACCGGCAGTGTCATCAGTTGTGACGGCTTCAAAAAGTTTGA
TCCACTTTTGCGGAGGATTACTGTTGGACCCAGGGACTGTACACAGTTTTAGAAGGAATG
ACCAACCCAGCCAAAATATCCCTTACCCAGGCCTCCTTCCAGACGAGGCACCACCCGTAC
ACCAGTCAGACTCAAGGACGGTACGAGGTTAAAGTGCCCAGACCCTGATCAGTTGTGTCA
CCGACGCGGATATCCCACCTATGGTACCAGTGGGTCCCTTTTTACTTCTGGTTGCGGCTG
CTGCCTTCTTCATGCCCTACCTTCTGTACAAGAATTTTGGCATGGGAGATATCAGCCTCT
CGTGAGATTACTACACAATCCAGTAGAATCAGACCAGGAGTTAAAGAAGATGCAGACAAG
GCTGCAACATGGCTGTTCTACAAGTTTGACCTGTACATGAGCGAACAGTCGTCCTAGCAA
GTCTCACCAGAAAACACGGTCTTGGTCTATCCATGGTCTTTGTAAAGATCTATACGCCGC
AGTGTCGTTCGGGTGTTTCCTCCTGACCGCTGAGATGTTCTCAATTGGAATTTTAAAACC
TATGGATCAGAATGGATCAAGAAGTTAAAGTTGGAAGATAATCTAGCTACGGAGGAAAAG
GATAAACTTTTTCCTAAGATGGTGGCATGTGAAGTGAAACGCTGGGGTGCATCAGGTATT
GAGGAGGAACAAGGGATGTGTGTCCTGGCCCCCAACGTAATCAACCAATACCTCTTCCTT
ATTCTCTGGTTCTGTCTGGTATTCGTGATGTTCTGCAACATTGTCTCCATATTCGCCTCC
CTCATCAAGCTCCTCTTCACCTACGGCTCCTACCGCCGCCTCCTTTCCACCGCCTTCCTG
AGGGACGACTCCGCCATCAAACACATGTACTTCAACGTGGGGTCGTCAGGGAGATTGATA
TTGCACGTGCTGGCGAACAACACCGCCCCGCGCGTCTTCGAGGACATCCTGCTGACCCTG
GCCCCCAAGCTGATCCAACGGAAACTCAGAGGTAACGGAAAAGCTTTGTAG

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SB Clean sequence

--clean_seq, -cs

Description

Examples

Input file: Mle-Panx_align.fa

Usage example 1

Output

Input file: ambiguous_cds.fa

Usage example 2

Output

Main Toolkit Pages

Further Reading

Clone this wiki locally