More than 5 years have passed since last update.
この記事は、http://d.hatena.ne.jp/fukuit/20151101/1446341605 からの転載です。
Seriesの方を使う例も挙げておく。
Seriesを使いこなす。
論文を書いたときに、マイクロアレイの発現データを寄託しておくよう求められるが、その寄託先の一つがGEOであり、その実験ごとのまとめがSeriesである。
Webブラウザでの作業
GEOの画面でSeriesをクリックする。
👁 20151101103027.png
一覧が表示される。
👁 20151101103028.png
Expression Profilinig by arrayと、Homo Sapiensをクリックして、絞り込みを行う。
👁 20151101103029.png
例として、breastを検索すると、958 sampleも登録されている。
👁 20151101103031.png
GSE2034に予後のデータがあるっぽいので、これを選択。
👁 20151101103032.png
画面の下の方に、登録されているデータの実体がある。
👁 20151101103034.png
SOFT Formatted FileとSeries Matrixファイルをダウンロードしておく。
👁 20151101103036.png
👁 20151101103233.png
ちなみに、gzipで圧縮されているので、これを解凍する。Windowsならば、Lhaplus辺りを使えばいい。CygwinやMingWのgzipを使いこなせる人は、もちろんどうぞ。
以降はExcelでの作業
SOFTファイルは、用いられたarrayのアノテーションファイルである。このファイルがないと、どのプローブにどんなIDが付与されているのか?が分からないので、解析ができない。
Series Matrixファイルは、解析済の発現量が記載されている。このファイルがあれば、目的の遺伝子の発現量を取り出すことができるが、そのためには、SOFTファイルを参照して、目的の遺伝子には、どのようなIDが振られたprobeが設定されているか?を知る必要がある。
SOFTファイルもSeries Matrixファイルもテキストファイルなので、Excelで開くことができるが、注意点はExcelの「ソレっぽい表記は日付と自動判断する機能」を使わないようにすること、である。遺伝子名(GENE SYMBOL)には、OCT4、DEC1のようなものがあり、Excelはこれをそれぞれ10月4日、12月1日に自動変換する。まだ、これらは推測可能だから良い。問題なのは、MARCH1遺伝子もMARC1遺伝子も双方とも3月1日に変換してしまうので、どっちがどっちだか分からなくなってしまうのである。なので、これは要注意。
このGSE2034のSOFTファイルの場合、23247行目以降がmicroarrayのアノテーション情報であり、K列にGENE SYMBOLが入っているので、ソコを注意する。
👁 20151101110252.png
👁 20151101110253.png
👁 20151101110254.png
ExcelでSOFTファイルを開いたら、例えば関心のある遺伝子HIF1AをGENE SYMBOLの列で検索すると、IDが200989_atであることが分かった。
👁 20151101110614.png
このID: 200989_atをメモっておいて、次はSeries MatrixファイルをExcelで開く。
そして、一列目ID_REFが"200989_at"になっているものを検索する。
👁 20151101110920.png
この行が、GSE2034におけるHIF1Aの発現だ。
このデータを使うと、再発有無の違いでHIF1Aの発現量がどうだったか?を調べることもできる。
さて、以上の行為をGEOのGEO2RのWeb画面上で実施することもできる。例えば、以下のようなグラフを描画するとか。
👁 20151101111545.png
GEO2R
GSE2034の画面の下の方に「Analyze with GEO2R」というリンクがある。これをクリックする。
すると、GEO2Rの画面が開く。
これはGEO上でRを使って解析してくれて、その結果を戻してくれる便利機能だ。
👁 20151101120009.png
この画面で「Samples」をクリックすると、サンプルの一覧が表示される。Groupsをクリックして、自分でグループ名を定義したうえで、各サンプルにグループを割り当てる。
👁 20151101120010.png
👁 20151101120011.png
「Profile Graph」のタブをクリックして、そこに例えばさっきのHIF1A遺伝子プローブのID「200989_at」を入力する。
👁 20151101120012.png
「Set」ボタンを押すと、グループ別に色分けされて、発現量のグラフが表示される。複数プローブに対応していないのが残念だが、複数のプローブを同時に表示したグラフを描画したいのであれば、上述のようにSeries Matrixファイルをダウンロードして自前でExcelでやればいい。
👁 20151101120013.png
また、上記の処理を実行するのに使ったRのscriptを見ることもできる。
👁 20151101120014.png
いや、ホントに「PCにちょっと詳しいだけのBioInformaticsの人」とか、失業モンですよ。
Register as a new user and use Qiita more conveniently
- You get articles that match your needs
- You can efficiently read back useful information
- You can use dark theme
