Chapter 3.4 & 3.5
「バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)を使ってバイオインフォの勉強を進めているところです
Chapter 3.4 ゲノムアノテーション・ファイルの解析
Chapter 3.4では、まずGFF (genetic feature format) や GTF (general transfer format) を操作するための「gffutils」 をインストールするところからスタート
こちらは普通にターミナル上で
conda install gfftils
とすればインストールできました。
★
そして毎回詰まるデータファイルのダウンロード、
相変わらずリンクの更新によりダウンロードできず (T T)
fastaファイルがあった Chapter 3.3 のときと同じ場所でgffファイルも見つかりました。
2022年2月4日時点でこちら↓のコードがワークしました!
import gffutils
import sqlite3
try:
db = gffutils.create_db('https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-gambiae/Anopheles-gambiae-PEST_BASEFEATURES_AgamP4.2.gff3.gz', 'ag.db')
except sqlite3.OperationalError:
db = gffutils.Featuredb('ag.db')
★
Chapter 3.5 レファレンス配列からの遺伝子抽出
今回は新しくダウンロードするデータはないようで(´▽`) ホッ
1つだけ、2020年9月にBiopythonで廃止されたAlphabetモジュールが使われています。
Alphabetと出てきたらシンプルにその1文を削除していただけたらOKかと・・・
たとえば、最初のAlphabetのインポートはなしで
from Bio import Seq, SeqIO
になります。
alphabet=...系も削除しちゃってください。
たとえば
seq = Seq.Seq('', alphabet=Alphabet.IUPAC.unambiguous_dna)
は
seq = Seq.Seq('')
で良いみたいです。
「バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)の勉強に関するほかの記事は以下からお探しください
↓