ベクターキャッピング法は、これまでさまざまな生物種の完全長cDNAライブラリーを作製するのに用いられてきました。cDNAライブラリーを作る目的は、大別すると二つあります。一つは発現遺伝子解析(トランスクリプトーム解析)であり、もう一つは特定遺伝子のcDNAクローニングです。ここではそれぞれの目的で作製された完全長cDNAライブラリーの品質について、ベクターキャッピング法の開発者の視点から考察してみます。
2021年までに報告された完全長cDNAライブラリーを表1にまとめました。同一研究機関が発現遺伝子解析と特定遺伝子のcDNAクローニングを実施している場合(例えば、カイコやフタトゲチマダニ)、発現遺伝子解析の論文のみを載せてあります。各論文はベクターキャッピング法の原報(K05-1)の被引用文献リストに記載してあります。Ref IDで下線を引いてあるものは、「解説と文献」の中の「文献」で内容を紹介し、評価を行いました。UVCで始まるIDは、論文にはなっていないが、報告書などが出されているものです。
分類 | Ref ID | 名称 | 組織 | 標的遺伝子 | シーケンス解析数 | 完全長率 | cDNA鎖長 |
---|---|---|---|---|---|---|---|
ウイルス | R11047 | カイコヌクレオポ リヘドロウイルス |
ウイルス感染BmN細胞 | ウイルス由来発現遺伝子 | 11,520 | ? | センス鎖 平均 2,071 bp アンチセンス鎖 平均 2,608 bp |
寄生虫 | R07142 | エキノコックス条虫 | 包虫嚢胞 | 発現遺伝子 | 10,966 | ? | |
寄生虫 | R08163 | バベシア | バベシアに感染した犬の赤血球 | Dihydrofolate reductase - thymidylate synthase | 10,000 | ? | DHFR-TS (1,695 bp) |
寄生虫 | R12067 | タイレリア | タイレリアに感染したウシの赤血球 | 発現遺伝子 | 20,962 | ? | |
寄生虫 | R17030 | ネマトーダ | 全身 | 発現遺伝子 | 129,837 | ? | |
魚類 | R06188 | ウミウナギ | 下垂体 | GTHβ-like | 2,208 | ? | 1,603 bp |
魚類 | R08184a | ドチザメ | 下垂体 | Proopiomelanocortin | ? | ? | 1,312 bp |
魚類 | R10078 | メクラウナギ | 下垂体 | GTHα-like, GTHβ-like | 2,304 | ? | GTHα-like (545 bp) GTHβ-like (649 bp) |
魚類 | R10122 | メダカ | 胚、稚魚、雄肝臓、雌肝臓、脳、鰓、腎臓、脾臓、精巣、卵巣 | 発現遺伝子 | 5'-EST 249,746 3'-EST 250,198 |
? | 最長 ankyrin3-like (12,985 bp) |
魚類 | UVC004 | オキナワベニハゼ | 卵巣 | 発現遺伝子 | ? | 88% | |
魚類 | UVC041 | サンショウウオ | 脳、網膜、脊髄 | 発現遺伝子 | 6,000 | ? | |
菌類 | R06104 | 出芽酵母 | 最少培地で対数増殖期の細胞、減数分裂期の細胞 | 発現遺伝子 | 51,026 | 75% | ORF 最長 7,482 bp 最短 78 bp |
菌類 | UVC012 | アラゲカワラタケ | 菌体 | リグノセルロース分解酵素9種 | 3,072 | ? | |
植物 | R05196 R10077 |
ミニトマト | 果実 | 発現遺伝子 | 9,792 | 80.7% | 最長 2,610 bp 最短 133 bp |
植物 | R06174 | マングローブ | 葉と根 | 発現遺伝子 | 26,400 | 53.1% | |
植物 | R08204 | ヒメツリガネゴケ | プロトプラスト | 発現遺伝子 | 11,218 | ? | |
植物 | R09116 | タバコ | BY-2細胞 | Secretory carrier-associated membrane protein 2, Syntaxin P41, Syntaxin P22 | ? | ? | NtSCANP2 (816 bp) NtSYP41 (975 bp) NtSYP22 (819 bp) |
植物 | R09120 | ウラルカンゾウ | 根茎 | 発現遺伝子 | 56,857 | ? | |
植物 | R11049 | ハクサイ | 各種ストレスをかけた葉 | 発現遺伝子 | 10,000 | 93.9% | |
植物 | R12027a | トチュウ | 外茎、内茎 | 発現遺伝子 | 27,752 | ? | |
植物 | UVC028 | パラゴムノキ | ラテックス 木部 |
ビタミンE生合成に関わる酵素10種 | 16,407 16,305 |
82% 87% |
1,282~2,008 bp |
節足動物 | R06175 | ジョロウグモ | 卵嚢 | 筒状絹タンパク質 | 1,600 | ? | CySp1 (9,149 bp) CySp2 (9,815 bp) |
節足動物 | R13014 | カイコ | 14組織 | 発現遺伝子 | 248,130 | 80% | 最長 protein MTSS 2 (10,430 bp) 最短 141 bp 平均 1,813 bp |
節足動物 | R13052 | ジョロウグモ | 大瓶状腺 | 大瓶状腺絹タンパク質 | 1,378 | ? | MaSP2 (10,264 bp) |
節足動物 | R21017 | フタトゲチマダニ | 胚、脂肪体、血リンパ、中腸、卵巣、唾液腺 | 発現遺伝子 | 60,000 | 77%~ 93% |
|
哺乳類 | R09104 | カニクイザル | 肝臓 腎臓 |
発現遺伝子 | 9,188 9,558 |
? | |
哺乳類 | K11-2 | ヒト | 網膜細胞株 | 発現遺伝子 | 30,624 | 96% | 最長 DMXL1 (12,786 bp) |
哺乳類 | R12029 | ブタ | 骨髄、小脳、視床下部、鼠径リンパ節、脾臓 | 発現遺伝子 | ? | ? | |
哺乳類 | R13050 | マーモセット | 肝臓、脳、脊髄、脾臓、精巣、ES細胞 | 発現遺伝子 | 290,426 | 84% | |
哺乳類 | R16026a | ヒト | 歯根膜 | 発現遺伝子 | >20,000 | 58% | |
哺乳類 | UVC016 | ラット | 膵臓β細胞株 | 発現遺伝子 | 17,276 | 87% |
ベクターキャッピング法の特徴は、従来法の50~100分の1量の全RNAから高い完全長率のライブラリーを作製できること、5’端にキャップ依存性Gが付加することにより完全長であることが判別できること、サイズバイアスがほどんどかからず従来法では困難であった超長鎖完全長cDNAを得られること、スプライシングバリアントやアンチセンス転写産物cDNAも効率よく得られることです。これらの特徴が個々のライブラリーにどのように活かされているかに焦点を絞って見てみます。
出発材料の量
対象とする生物種が小さく、臓器や生体組織が微量しか得られない場合、出発材料を大量に集めることが大きなネックとなります。出発材料の量が従来法を用いる場合の数十分の1で済むということは、ネマトーダ、メダカ、カイコ、マダニ、ジョロウグモなどの小さい生物種の各種臓器からライブラリーを作製するにあたっては、最大のメリットになったと思われます。
完全長率
おおよその完全長率は、5’端がGやTnGから始まるクローンの割合から推定できます。表1に示すように50%台から90%を超えるものまで様々ですが、完全長率に影響を及ぼす最大の要因はmRNAの品質です。動物細胞の細胞株を用いる場合は、従来法で抽出したmRNAを用いて、90%以上の完全長率が得られます。植物細胞のように細胞壁がある場合は、細胞壁を壊す過程でmRNAの分解が起こり品質低下を招くことがあるようです。また、植物には逆転写酵素の反応を阻害する物質が含まれていることがあり、これを除去する工夫がなされています。
長鎖遺伝子cDNA
大規模発現遺伝子解析を行った論文のデータから長鎖遺伝子の完全長cDNAがどれぐらい得られているかを調べてみました。どのライブラリーからも7kbp以上の完全長cDNAクローンが得られており、最長記録としては、ヒトからDMXL1(12,786bp)、カイコからprotein MTSS 2 (10,430bp)、メダカからankyrin 3様 (12,985bp)など、10 kbp以上の完全長cDNAクローンが得られています。
特定遺伝子の完全長cDNAクローニングを行った例では、ジョロウグモの卵嚢ライブラリーから1,600クローンの5’端塩基配列を決定し、筒状絹タンパク質CySp1 (9,149bp)とCySp2 (9,815bp)が得られており(Zhao et al., 2006)、ジョロウグモの大瓶状腺ライブラリーから1,378クローンの5’端塩基配列を決定し大瓶状腺絹タンパク質MaSP2 (10,264bp)が得られています(Zhang et al., 2013)。なお、これらの例が示すように、目的とする遺伝子が高発現している臓器を選べば、プローブがなくとも2,000クローン程度の部分塩基配列決定とORFのアミノ酸配列によるホモロジー検索で、標的タンパク質のcDNAを同定できます。
スプライシングバリアント
5’端の塩基配列が同じであっても、全長配列を決定すると多くのスプライシングバリアントが存在することが明らかになりました(K13-1)。特に長鎖遺伝子の場合、このことが重要な意味を持ってきます。我々のデータを例に挙げると、ヒト網膜色素上皮細胞株から4個のFilamin Bの完全長cDNA(8.0kbp~9.4kbp)が得られていますが、驚くことに全て異なるスプライシングバリアントでした。それぞれ機能も異なると考えられ、複数クローンが得られた場合は、全長配列を決めてスプライシングバリアントかどうかを調べる必要があります。ただ、残念ながら多くの大規模解析では、複数のクローンが得られていても、代表クローン1個のみの全長配列を決めるだけで、残りのクローンのサイズや全長配列を決めている例はほとんどなく、今後に残された課題です。
アンチセンス転写産物
本方法ではcDNAの向きが一義的に決まるので、アンチセンス転写産物のcDNAを容易に同定できます。ライブラリーに含まれているアンチセンス転写産物について言及しているのは、出芽酵母と我々の網膜細胞株の発現遺伝子解析の論文だけです。他のライブラリーでも公開されているデータを見ると、アンチセンス転写産物と思われるものが含まれています。これらについては、今後の解析が待たれます。
結び
これまでの報告を概観すると、生物種に関わらず、微量のサンプルからサイズバイアスが小さくかつ高い完全長率のcDNAライブラリーを作製できることが実証されたといえます。これまで大規模発現遺伝子解析のために作製されたライブラリーは、その多くが解析したグループによって公開され、個々のクローンが分譲可能になっています。これらのバイオリソースが今後有効に利用されることを期待しています。