生物物理計算化学者の雛

主に科学に関する諸々を書き留めています。

PDBファイルをExcelで編集する

PDBフォーマット

タンパク質構造データベース(PDB)には、X線結晶解析・NMR等の手法で測定されたタンパク質や塩基等の生体高分子の立体構造が登録されています。その情報はPDBファイル形式(座標データ部分のフォーマット詳細はこのリンク先を参照)で取得することができ、AMBERやGaussian等の多くの分子シミュレーションプログラムの構造入力として利用することが可能です。PDBフォーマットでは各列のサイズは固定となっています。

ExcelによるPDBファイル作成法

分子シミュレーションプログラムへの入力のために、取得したPDBファイルを改変、あるいは自分で分子の構造情報を含むPDBファイルを作成する必要が生じることが多々あります。テキストエディタを使って手動でPDBファイル作成・改変を行うこともできますが、特定列のデータのみを書き換える、規則的に原子番号を並べるといった操作は極めて面倒な仕事になります。そこでExcelを利用してPDBファイルを編集できれば列単位の編集等を楽に行うことができ、作業能率を上げることができます。

ExcelからPDBフォーマットで出力するためには、まず下図のように各列の幅を指定します。

列幅の指定は列のアルファベットが載っている先頭タイトル行(下図の「B」となっている部分)で右クリックすると「列の幅」コマンドがありますので、それを選択して出現するウィンドウで入力します。

列の幅を指定後に図のように原子番号、原子名、残基名、・・・を入力します。(C, E, G, I列は空白)そしてExcelで「名前を付けて保存」を実行し、ファイルの種類を「テキスト(スペース区切り)(*.prn)」として保存します。これで各列データは指定した列の幅の長さで出力され、PDBフォーマットのテキストが得られます。

この「テキスト(スペース区切り)(*.prn)」での出力を利用すると、ExcelからPDB以外の固定長レコード形式のファイル作成も可能となります。