目的
メダカはモデル脊椎動物の研究対象としての基盤が日本で確立され、発生生物学、遺伝学、毒物学、進化学など多くの研究分野で利用されています。基礎生物学研究所の成瀬らが中心になって、ナショナルバイオリソースプロジェクト「メダカ」が実施されました。本論文はこのプロジェクトの紹介を行うもので、さまざまな系統のメダカや遺伝子材料など各種リソースの概要説明がなされています。リソースの具体的な内容は、ホームページ「NBRP Medaka」に記載されています。
遺伝子データベース
このプロジェクトで作成された遺伝子データベースには、ベクターキャッピング法で作製したメダカの11組織(ステージ22の胚、ステージ35の胚、稚魚、雄肝臓、雌肝臓、脳、鰓、腎臓、脾臓、精巣、卵巣)の完全長cDNAライブラリーが記載されており、これらのライブラリーから単離した約25万クローンの5’端塩基配列と3’端塩基配列並びに15,381個の完全長cDNAクローンの全長配列が登録されています。これだけのデータがあれば、遺伝子の構造や発現プロフィール解析を行い、メダカのトランスクリプトーム解析に関する論文が書けると思いますが、現時点でなぜか論文化されていません。「生命科学系データベースアーカイブ Medaka Full-length cDNA Database」によると塩基配列解析を実施したのは、国立遺伝研の小原らのグループです。他にも多くの解析を手掛けており、論文作成まで手が回らなかったのでしょうか。
評価
ここではホームページ「NBRP Medaka」から入手できる完全長cDNAクローンの塩基配列情報をもとに、ライブラリーの品質の評価を行ってみます。対象として長鎖遺伝子に焦点を絞りました。全長配列を決めた完全長cDNAクローンリストには、cDNAの鎖長の記載がなく、ホモロジー検索結果のスコアのみなので、スコアの大きい上位100クローンについてクローン名をもとに「Medaka Full-length cDNA Database」を検索し、cDNAの鎖長を調べました。
7kbp以上の鎖長の完全長cDNAクローンリストを表1に示します。Definitionは、cDNAの配列を用いてNCBIのデータベースをBLAST検索し、ヒットした遺伝子の名前です。5’-Insertはゲノム配列にない余分に付加している塩基で、ゲノム配列にあるGから始まるものはgと記しました。CGGCCGGCCGATは切残りのベクター配列です。n5’(5’端がGで始まり一部領域が重なる配列を有するクローンの数)とn3’(ポリ(A)が付加している3’端がほぼ同じ配列を有するクローンの数)は両末端部分塩基配列のクラスタリングを行って求められています。従って、n3’は各遺伝子に対応するcDNAの全クローン数、またn5’はその中の完全長cDNAのクローン数に相当します。
No. | Gene symbol | Definition | Clone name | Length | 5'-Insert | n5' | n3' |
---|---|---|---|---|---|---|---|
1 | - | similar to ankyrin 3 | olbrno56_f16 | 12,985 | G | 1 | 2 |
2 | tenm4 | teneurin transmembrane protein 4 | olbrno4_i08 | 10,791 | G | 2 | 3 |
3 | cacna1e (?) | voltage-dependent R-type calcium channel subunit alpha-1E | olbrno49_a12 | 10,547 | G | 1 | 2 |
4 | lrba | LPS responsive beige-like anchor protein | olecno1_m02 | 10,471 | G | 1 | 4 |
5 | tln2a | talin 2a | olebno18_n14 | 10,017 | G | 1 | 1 |
6 | nf1a | neurofibromin 1a | olbrno63_k23 | 9,851 | G | 1 | 1 |
7 | tanc2 | tetratricopeptide repeat, ankyrin repeat and coiled-coil containing 2b | olebno60_j10 | 9,553 | G | 1 | 1 |
8 | kif13ba | kinesin family member 13Ba | olbrno32_e19 | 9,462 | G | 1 | 5 |
9 | ubr5 | ubiquitin protein ligase E3 component n-recognin 5 | olebno62_m06 | 9,140 | g | 1 | 4 |
10 | abca2 | ATP-binding cassette, sub-family A (ABC1), member 2 | olebno38_p18 | 8,724 | G | 1 | 1 |
11 | prrc2b | proline-rich coiled-coil 2B | olebno3_b03 | 8,659 | G | 2 | 4 |
12 | agrn | agrin | olecno14_k17 | 8,627 | G | 1 | 6 |
13 | hectd1 | HECT domain containing 1 | olecno34_c03 | 8,539 | G | 1 | 3 |
14 | flna | filamin A, alpha | olebno32_i01 | 8,489 | G | 3 | 16 |
15 | kif1b | kinesin family member 1B | olebno65_n05 | 8,413 | G | 1 | 2 |
16 | col12a1a | collagen, type XII, alpha 1a | olecno10_p23 | 8,365 | G | 2 | 6 |
17 | igf2r | insulin-like growth factor 2 receptor | olovano13_a12 | 8,338 | g | 1 | 2 |
18 | agla | amylo-alpha-1, 6-glucosidase, 4-alpha-glucanotransferase a | olvlno31_j12 | 8,254 | G | 1 | 1 |
19 | pi4kaa | phosphatidylinositol 4-kinase, catalytic, alpha a | olbrno40_b23 | 8,168 | G | 2 | 4 |
20 | mtor | mechanistic target of rapamycin kinase | oleano11_h24 | 8,127 | G | 4 | 6 |
21 | NIPBL cohesin loading factor | olteno54_m12 | 8,114 | G | 2 | 2 | |
22 | col11a2 | collagen, type XI, alpha 2 | olecno4_f11 | 8,025 | G | 3 | 3 |
23 | tns1a | tensin 1a | olbrno35_b22 | 7,660 | G | 3 | 1 |
24 | cad | carbamoyl-phosphate synthetase 2, aspartate transcarbamylase, and dihydroorotase | olteno15_o22 | 7,462 | G | 1 | 2 |
25 | atg2b | autophagy related 2B | olbrno43_d01 | 7,422 | CGGCCGG CCGATG |
1 | 2 |
26 | ubr4 | ubiquitin protein ligase E3 component n-recognin 4 | olebno3_b13 | 7,336 | G | 2 | 6 |
27 | dock7 | dedicator of cytokinesis 7 | olbrno38_a10 | 7,288 | G | 1 | 5 |
28 | myh9 | myosin heavy chain 9 | olteno61_m22 | 7,212 | g | 2 | 9 |
29 | pcm1 | pericentriolar material 1 | oleano34_p18 | 7,146 | G | 1 | 1 |
30 | kif26ab | kinesin family member 26Ab | oleano17_k15 | 7,138 | GACAAAG | 1 | 1 |
31 | scrib | scribble planar cell polarity protein | olebno11_c01 | 7,132 | G | 2 | 5 |
32 | nup210 | nucleoporin 210 | olteno11_h15 | 7,078 | G | 1 | 2 |
33 | snrnp200 | small nuclear ribonucleoprotein 200 (U5) | olbrno10_g16 | 7,070 | G | 1 | 4 |
この表を見ると7kbp以上の完全長cDNAが、33種の遺伝子から50クローン得られており、長鎖cDNAクローンを含む高品質のライブラリーであることがわかります。10kbp以上の超長鎖cDNAも5種6クローン得られています。最長はankyrin 3と類似性を有する12,985bpのクローンであり、我々がヒト網膜由来細胞株から得られた最長クローンDMXL1(12,786bp)より長いです。
完全長率を評価するには、複数クローンが得られている遺伝子について検討する必要があります。表2は、二桁以上の数のクローンが取れた鎖長5kbp以上の遺伝子です。なお、n5’とn3’は元のデータを見直して補正しました。cDNAの完全長率(FL ratio = n5'x100/n3’)は、長鎖であるにもかかわらず、48.0〜82.4%と高い値を示しています。ベクターキャッピング法を用いた場合、mRNAが分解していなければ完全長cDNAだけが得られるので、cDNAの完全長率はmRNAの完全長率と見なすことができます。遺伝子によって完全長率が異なるのは、出発材料となる組織によって、mRNAの分解の程度が異なることが一因と考えられます。
No. | Gene symbol | Definition | Clone name | Length | 5'-Insert | n5' | n3' | FL ratio (%) |
---|---|---|---|---|---|---|---|---|
1 | mmyhl2 | myosin heavy chain larval type 2 | olecno56_a06 | 5,982 | g | 48 | 100 | 48.0 |
2 | col1a1b | collagen, type I, alpha 1b | olecno20_i08 | 5,615 | G | 28 | 34 | 82.4 |
3 | c4b | complement 4B (Chido blood group) | olvlno54_p11 | 5,518 | G | 17 | 27 | 63.0 |
4 | ol-vit1 | vitellogenin 1 | olvlno60_k14 | 5,130 | G | 731 | 1,343 | 54.4 |
以上の結果から、長鎖遺伝子の完全長cDNAが高い割合で含まれていることがわかり、本プロジェクトで作製されたcDNAライブラリーは高品質であると評価できます。
今後、このコレクションの中から興味ある遺伝子を選び研究対象とする場合、複数クローンが得られたものについては、まずインサートのサイズを計測し、異なるサイズのクローンについては選択的スプライシングバリアントの可能性があるので、全長配列を決めることが望まれます。
今回全長配列が決定されたクローンの塩基配列は、DDBJ/EMBL/Genbankデータベースに登録されていますが、NCBIのサイト「Gene」にはAccession numberがまだ未記載です。これまでメダカの完全長cDNAはほとんど取られていないので、今後各遺伝子について、ORFがコードしているタンパク質のアミノ酸配列を含めて、完全長mRNAとして登録されることが望まれます。また、ゲノムの塩基配列にはまだギャップが存在するようなので、最終的な遺伝子座の決定は、完全なゲノム配列が決定されるのを待つ必要がありそうです。