Skip to content

Latest commit

 

History

History
85 lines (76 loc) · 5.18 KB

README.ja.md

File metadata and controls

85 lines (76 loc) · 5.18 KB

Galaxy ユーザーのための便利な小ネタと裏技

"お主を取り巻くフォースを感じろ" マスター・ヨーダ

翻訳の方針

英単語 この文書での日本語 他に検討した単語
column カラム、フィールド
comma コンマ カンマ
all すべて 全て
HTS 次世代シークエンシング HTS、NGS、ハイスループットシークエンシング

テキスト処理

  • コンマ区切りファイルをタブ区切りファイルに変換する
    Convert delimiters to TAB
  • ユニークなシーケンスを持つFASTAファイル
    FASTA-to-TabularUnique occurrences of each record (advanced parameters) → Tabular-to-FASTA
  • N などの文字を含むシーケンスを削除する
    FASTA-to-TabularFilter data on any column using simple expressions with
    (condition: c2.find('N') != -1) → Tabular-to-FASTA
  • 5列あるファイルから3列目を抽出する
     Cut columns from a table で c3
  • 列の並べ替えまたは列の入れ替え
     Cut columns from a table で c3,c2,c1
  • 列1に、あるエントリーが現れる数を数える
     Datamash で Group by fields: 1、Operation to perform: count とする
  • 列1,4,5が同一である行をすべてグループ化する
     Datamash で Group by fields: 1,4,5
  • 列から行へ、行から列へ(転置行列)
    Transpose rows/columns
  • ファイルサイズを小さくする。例えば、テストのためのファイルのサブサンプリング
    Select random lines from a file
  • シーケンスファイルサイズを小さくする。例えば、テストのためのシーケンスのサブサンプリング
    Sub-sample sequences files
  • Merge two files together according to one column in every file
    Join two files
  • ユニークな列を追加する
     Add column to an existing dataset で iterate: Yes とする
  • 2列目が0よりも大きな値である行をすべて削除する
     Filter data on any column using simple expressionsc2>0
  • 4列目が「hsa」で始まる行をすべて取得する
     Filter data on any column using simple expressions で c4.startswith('hsa')
  • 2列目と3列目の合計が10よりも大きい行をすべて削除する
     Filter data on any column using simple expressions で c2+c3>10
  • 2列目に含まれる文字列の長さが10よりも大きい行をすべて削除する
     Filter data on any column using simple expressions で len(c2)>10
  • 3列目に含まれるコンマで区切られたすべての値ごとに新しい行を作成する(展開)
     Unfold columns from a table で Column 3 かつ Comma
  • 文字列のはじめの4文字を切り取って、新しい列の値にする
     Replace Text in entire line で Find Pattern: ^(.{4}) かつ Replace Pattern: &\t
  • 「TA」という塩基をすべての塩基配列の終わりに加える
     FASTA to TabularAdd column で TAMerge ColumnsCut columnsTabular to FASTA
  • すべての行にダブルクォーテーション(")を追加する
     Compute an expression on every rowchr(34) (34 は ASCII コードの ")
  • 0を含まない数値を含むすべての列を数える。平均を計算するが、0であるすべての列を除外したい場合に便利です。
     Compute an expression on every row で bool(c1) + bool(c1) + bool(c3) ...

次世代シークエンシング

  • RNA-seqデータのマップ
    HISAT or TopHat
  • DNA-seqデータのマップ
    Bowtie or BWA
  • methylC-seq データのマップ
    Bismark
  • リードで変換される遺伝子をすべて取得する
     htseq-count で BAM ファイルの遺伝子アノテーション GTF file を指定 → Filter data on any column using simple expressions で c2>0
  • gff, bed, gtf といったファイルから塩基配列を抽出して、FASTA ファイルを返す
    Extract Genomic DNA using coordinates from assembled/unassembled genomes

ワークフロー

もっと学びたい方へ

免責条項

ここに記載されたすべてのツールは Galaxy Tool Shed で入手できます。使ってみたいときはお近くの Galaxy 管理者に相談してみてください。