目的
カイコは近年になって医薬品など有用物質の生産手段として、また農業害虫を研究するためのモデル昆虫として注目されています。これまで著者らによってカイコの全ゲノム解読がほぼ完了し、遺伝子の機能解析に焦点が移ってきました。以前、著者らは従来法で作製したcDNAライブラリーのESTを用いたトランスクリプトーム解析を実施しました。ただ正確な遺伝子構造を決めるためには、完全長cDNAの塩基配列を決める必要があります。そこで本論文では、完全長cDNAクローンを揃え、それらの全長塩基配列を用いて遺伝子構造を決めることと完全長cDNAクローンを機能解析のためのバイオリソースとして提供することを目的としています。なお、本研究は(独)農業生物資源研究所が中心になって実施されました。
方法
カイコの幼虫や蛹などから摘出した14の組織から21個の完全長cDNAライブラリー(19個がベクターキャッピング法、2個がオリゴキャッピング法)を作製し、合計248,130クローンの5’端部分塩基配列を決定しました。塩基配列のクラスタリングを行い、複数のクローンが得られたものについては、最も上流から始まるものを完全長cDNA(FL-cDNA)とし、プライマーウォーキング法で全長配列を決定しました。得られた配列を用いてカイコゲノム上にマッピングを行い、各遺伝子の位置を決定しました。また、11種の昆虫の遺伝子と比較し、カイコに特異的に発現している遺伝子を同定しました。さらに、これまで得られたESTデータベースを用いて、各組織の中で発現しているそれぞれの遺伝子の数を数え、発現プロフィールを求めました。
結果
総計11,104個の完全長cDNAクローンの塩基配列を決定し、ゲノム上にマッピングすることによって、データベース「KAIKOcDNA」を構築しました。その結果、次のようなことが明らかになりました。
- 10,666個のcDNAはゲノム上にマップできたが、438個はマップできない。これは、繰り返し配列などのためにまだゲノム配列が決定されていないギャップ領域があるためである。
- ゲノムにマップできた10,666個のうち、30%はコンピュータによるエクソン-イントロン構造予測モデルと一致しない。
- 2,072個の完全長cDNAは、選択的スプライシングによるものである。
- 531個のカイコ特異的発現遺伝子を同定し、それらは主に微生物に対する防御免疫、フェロモン・ホルモン関連機能、カイコ特有の構造タンパク質に関連するものである。
- 組織特異的発現遺伝子の40%以上は、染色体上でクラスターを形成している。
評価
この論文は、カイコの幼虫や蛹の小さな組織からベクターキャッピング法を用いて高品質の完全長cDNAライブラリーを作製できることを実証してくれました。ESTだけでなく完全長cDNAクローンの全長配列を決定し、データベース化したことは高く評価できます。全遺伝子リストSupp. Table S1とデータベース「KAIKOcDNA」に基づき、ベクターキャッピング法の開発者の視点からライブラリーと完全長cDNAクローンの品質の評価を行ってみます。
出発組織の量:RNAを抽出するために摘出した組織の量はこの論文の中に記載されていませんが、4つの組織(前胸腺、大腸菌感染幼虫の脂肪体、表皮、小顎)のライブラリーについては、それぞれ別の論文ですでに報告がなされています。それによると前胸腺は100個(Yamanaka et al., 2005)、小顎は4,000個(Yoshizawa et al., 2011)をそれぞれ単離して使用したとあり、これだけでもかなり大変な作業であると思われます。その意味では、従来法の100分の1の量で済む、数μgの全RNAからライブラリーを作製できるベクターキャッピング法の威力が発揮できたものと思われます。
完全長率:本論文には、ライブラリーのインサート含有率、完全長率などに関するデータが示されていません。表皮のライブラリーに関しては、既報(Okamoto et al., 2008)に記載があります。それによるとインサート率が79%、完全長率が76%とあります。完全長かどうかは、5’端の余分なGの有無で判定しています。実際の5’端塩基配列を見てみないとわかりませんが、後述するように、NGが付加したものを含めると、完全長率はもっと高くなると思われます。
長鎖遺伝子の有無:Table S1にcDNAの鎖長は記載されていませんが、ゲノム上の遺伝子領域の長さ(イントロンを含む)が記載されています。そこで、この長さが60kbp以上の遺伝子について、得られた完全長cDNAの鎖長を調べてみたところ、合計203種の遺伝子から完全長cDNAクローンが得られています。mRNAの長さが遺伝子領域の長さに比例するとは限りませんが、少なくとも長鎖遺伝子はこの範囲に多く含まれると考えられます。また、多くの場合、複数のクローンがとられていると思われるので、実際の長鎖cDNAのクローン数はもっと多くなります。
鎖長(Length)が7kbp以上の完全長cDNAクローンリストを表1に示します。5’-Insertはゲノム配列にない余分に付加している塩基で、TAAATGAATTCGGCCGGCCGATとTAAATGAATTはベクターの切れ残りの配列です。この表を見ると、従来法では取得困難な7kbp以上のcDNAが15種類の遺伝子からとられています。最長はMTSS1-like protein (10,430bp)で、長鎖遺伝子の完全長cDNAクローンも確実に取れていることがわかります。絹糸の主成分であるfibroinやsericinの完全長cDNAが取れていることを期待していましたが、今回なぜか絹糸腺のライブラリーは作られていないようです。
No. | Gene symbol | Description | Clone name | Length | 5'-Insert |
---|---|---|---|---|---|
1 | LOC101737188 | protein MTSS 2 | AK384545 | 10,430 | TAAATGAATTCG GCCGGCCGATG |
2 | Gogat | glutamate synthase | AK382144 | 9,225 | G |
3 | LOC101745937 | uncharacterized LOC101745937 | AK378711 | 9,089 | TAAATGAATTTG |
4 | LOC101744404 | RNA-binding protein Nova-2 | AK384284 | 9,075 | TAAATGAATTGA |
5 | LOC101736421 | protein split ends | AK388508 | 9,066 | - |
6 | Notch | Notch homolog | AK383954 | 8,275 | TAAATGAATTG |
7 | LOC101738244 | uncharacterized LOC101738244 | AK387508 | 7,800 | TAAATGAATTG |
8 | ? | ? | AK378046 | 7,790 | TAAATGAATT |
9 | LOC101738855 | GTPase-activating Rap/Ran-GAP domain-like protein 3 | AK380803 | 7,745 | TAAATGAATTG |
10 | LOC101743326 | E3 ubiquitin-protein ligase MIB1 | AK384459 | 7,430 | TAAATGAATTGA |
11 | LOC101745047 | insulin-like growth factor 2 mRNA-binding protein 1 | AK379329 | 7,280 | - |
12 | Mef2 | myocyte enhancing factor 2 | AK378483 | 7,254 | TAAATGAATTG |
13 | LOC733061 | actin-binding LIM protein 2 | AK382999 | 7,200 | - |
14 | LOC101742149 | NPC intracellular cholesterol transporter 1 | AK386428 | 7,100 | G |
15 | LOC101735722 | segmentation protein cap'n'collar | AK388222 | 7,025 | G |
5’端に付加した塩基:上記203クローンの5’端の塩基配列を見てみると、余分なGが付加しているものが143クローン(70.4%)、NGが付加しているものが20クローン(9.9%)、両方合わせて80.3%がGキャップを有するmRNA由来の完全長cDNAです。他にゲノム配列にあるGから始まるもの10クローン(4.9%)、G以外の余分な塩基が付加しているもの7クローン(3.4%)、余分な塩基が付加していないものが17クローン(8.4%)、不明が6クローン(3.0%)となっています。複数クローンが得られているものについては塩基配列データを見ることができないので、同じ遺伝子に由来するクローンの5’端塩基配列を比較できませんが、長鎖遺伝子でも余分なGで始まるクローンが80%を超えることから、完全長率はもっと高くなると考えられます。
データを見て気になったのは、Table S1とデータベース「KAIKOcDNA」との間で、染色体上の位置に関していくつか不一致が見られることです。また、登録されたcDNAの塩基配列の中に、glutamate synthase (AK382144)のように、ゲノムの塩基配列と大きく食い違うものがあり、一部のcDNAの塩基配列決定に問題がある可能性があります。
残念に思うのは、これだけ大規模な解析を行なったのに、一つの遺伝子について一つのクローンのみを代表例として全長配列を決定し、残りのクローンの塩基配列が決められていないことです。遺伝子によっては、組織特異的な転写開始点や、選択的スプライシングバリアントの存在が想定されます。目標の一つはカイコ特異的な遺伝子の同定と思われますので、少なくともそれらについて複数クローンが得られているのであれば、全長配列を決めて選択的スプライシングバリアントの解析が望まれます。
インパクト
本論文は、Dimensionsによれば、2022年2月時点で77の論文に引用されており、この分野で大きなインパクトを与えていることが伺えます。その中の37報は中国、そして20報が日本の研究機関によるものです。多くはカイコに特徴的な遺伝子に関するものや他の昆虫との比較に関する内容です。
著者らのグループは、その後、最新のシーケンス技術を用いてゲノムアセンブリーを修正したりギャップを埋めることによって、新しい高品質の参照ゲノムアセンブリーを構築しました(Kawamoto et al. 2019)。また、RNA-seqによってトランスクリプトーム解析を行い、各遺伝子の参照ゲノム上での位置、エクソン-イントロン構造、発現プロフィールを求め(Yokoi et al., 2021)、これらのデータを統合して「KAIKObase」を更新しました(Yang et al., 2021)。古い「KAIKObase」には年間100万回のアクセスがあったと記載されていますですので、今後、ますます利用価値が高まるもの思われます。
RNA-seqの結果を見ると、まだ多くの完全長cDNAクローンが取り残されていることがわかります。これは、各ライブラリーの解析クローン数が5,000〜19,000と少ないためであり、さらに解析クローン数を増やせば確実に取れてくるはずです。単に配列だけが分かれば良いトランスクリプトーム解析にはRNA-seqが優れていますが、真の選択的スプライシングバリアントが得られることやcDNAクローンそのものが得られるというメリットを考えると、完全長cDNAライブラリーの解析によるトランスクリプトーム解析が最も望ましいと思われます。それを行う上で問題となるのは、労力とコストです。この問題を解決するには、サブトラクションにより高頻度cDNAを除去したライブラリーの作製が必要です。これが今後のベクターキャッピング法の改良に課せらた課題の一つです。
余談
カイコの完全長cDNA解析にベクターキャッピング法が使用されたことに関しては、特別感慨深いものがあります。私の山形の実家で、昔、祖父と祖母が養蚕を営んでおり、私も子供の頃、家の中でカイコと一緒に過ごした思い出があるからです。祖父民蔵は若い頃、皇室の紅葉山御養蚕所で奉仕員として養蚕のお手伝いをしたことがあるとのことで、その時の写真が家に飾ってありました(前列向かって右端が祖父)。祖父は私が7歳の時亡くなったので、詳しい話は聞けませんでした。私の研究がカイコの研究に役立っていることを知って、祖父もあの世で喜んでいるのではないかと思っています。