まじめちゃんブログ

社会人 x 学生

Chapter 3.4 & 3.5

 

バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)を使ってバイオインフォの勉強を進めているところです

 

 

Chapter 3.4 ゲノムアノテーション・ファイルの解析

 

Chapter 3.4では、まずGFF (genetic feature format) や GTF (general transfer format) を操作するための「gffutils」 をインストールするところからスタート

 

こちらは普通にターミナル上で

conda install gfftils

とすればインストールできました。

 

 

そして毎回詰まるデータファイルのダウンロード、

相変わらずリンクの更新によりダウンロードできず (T T)

 

fastaファイルがあった Chapter 3.3 のときと同じ場所でgffファイルも見つかりました。

2022年2月4日時点でこちら↓のコードがワークしました!

 

import gffutils
import sqlite3
try:
    db = gffutils.create_db('https://vectorbase.org/common/downloads/Legacy%20VectorBase%20Files/Anopheles-gambiae/Anopheles-gambiae-PEST_BASEFEATURES_AgamP4.2.gff3.gz', 'ag.db')
except sqlite3.OperationalError:
    db = gffutils.Featuredb('ag.db')

 

 

Chapter 3.5 レファレンス配列からの遺伝子抽出

 

今回は新しくダウンロードするデータはないようで(´▽`) ホッ

 

1つだけ、2020年9月にBiopythonで廃止されたAlphabetモジュールが使われています。

Alphabetと出てきたらシンプルにその1文を削除していただけたらOKかと・・・

 

たとえば、最初のAlphabetのインポートはなしで

from Bio import Seq, SeqIO

になります。

 

alphabet=...系も削除しちゃってください。

たとえば

seq = Seq.Seq('', alphabet=Alphabet.IUPAC.unambiguous_dna)

seq = Seq.Seq('')

で良いみたいです。

 

 

バイオインフォマティクス Pythonによる実践レシピ」(朝倉書店)の勉強に関するほかの記事は以下からお探しください

はじめに - まじめちゃんブログ