WO2010086990A1

WO2010086990A1 - Dnaタグの構築方法

Info

Publication number: WO2010086990A1
Application number: PCT/JP2009/051512
Authority: WO
Inventors: 潤一菅原; 和秀関山
Original assignee: スパイバー株式会社
Priority date: 2009-01-29
Filing date: 2009-01-29
Publication date: 2010-08-05
Also published as: US20110281273A1; JP4547522B1; EP2397543A4; JPWO2010086990A1; CA2788452C; EP2397543B1; CA2788452A1; US8691581B2; EP2397543A1

Abstract

　生物のゲノムＤＮＡ配列に導入される塩基配列であるＤＮＡタグ、及び、該ＤＮＡタグのゲノムＤＮＡ配列への導入位置を決定する本発明の方法は、ゲノムＤＮＡ配列のタンパク質コード配列を取得するステップ（Ｓ１）と、タンパク質コード配列の処理対象領域を決定するステップ（Ｓ２）と、処理対象領域のコード配列を断片化するステップ（Ｓ３）と、断片化されたコード配列に対してサイレント変異を施すステップ（Ｓ４）と、断片化されたコード配列又はその相補的塩基配列からなるポリヌクレオチドから、プライマーとして適切である配列を決定するステップ（Ｓ５）と、決定されたコード配列について相同性検索を行なうステップ（Ｓ６）と、ＮＭＳの最小値に対応する、決定されたコード配列をＤＮＡタグとして決定し、且つ、該決定されたコード配列に対応する断片化されたコード配列の、タンパク質コード配列中の位置を、導入位置として決定するステップ（Ｓ８）とを含む。

Description

DNAタグの構築方法

　本発明は、不特定DNA配列群中におけるプライマー特異性の高いDNA配列及び当該DNA配列のゲノムDNA中への導入位置の決定方法、及び導入法に関する。

　微生物（例えば土壌改良菌等）を用いて有害物質で汚染された自然環境を、有害物質を含まない、汚染前の状態に戻す処理（浄化）のことをバイオレメディエーションと呼ぶ。バイオレメディエーションにおいては、浄化の進行状況を把握するため、環境中に撒布した微生物の正確なモニタリングが不可欠である。また、浄化が完了した段階で残存菌数を正確に把握することが求められる。

　既存の手法では、微生物を撒布した環境中のトータルＤＮＡ（環境ＤＮＡ）を調製し、微生物に対して特異的なDNA配列をプライマーとして定量ＰＣＲ（Polymerase Chain Reaction）を行い、おおよその菌体数を把握している（例えば非特許文献１を参照）。しかしながら、定量ＰＣＲに使用されるプライマーが環境中の非特異的なＤＮＡ配列（目的とするＤＮＡ配列以外のＤＮＡ配列）に反応してしまうなど、正確な菌体数を把握することが困難であった。

　これまで、PCRにおいてプライマーの特異性を向上させる技術及びそのプログラムは数多く報告されている（例えば非文献２～３を参照）。しかしながら、いずれの技術も単離培養された生物に対するPCRに特化したものである。単離培養された生物であれば、設計したプライマーがターゲットとする領域以外に反応してしまう可能性を、ゲノムを探索することで見積もることができる。一方、不特定多数の生物が混在する環境DNA中においては、プライマーの特異性を見積もることは非常に困難である。

　また、遺伝子組換え生物等の取り扱いの規則に関する国際的条約（カルタヘナ議定書）により定められた法律（以下、カルタヘナ法と表記することがある）により、遺伝子組換えをおこなった微生物を開放環境中に撒布することは認められていない。そのため、例えばプライマー特異性の高い人工的なDNA配列を適当に創出し、それをバイオレメディエーション等に用いられている微生物に安易に導入することはできない。一方、カルタヘナ法にて規定される「遺伝子組換え生物」に該当しない範囲で、バイオレメディエーションに用いる微生物にそれらの人為的なプライマー配列を導入する技術はこれまで提案されていなかった。

　バイオレメディエーションは、物理化学的な浄化処理方法に比べて、費用やエネルギー消費が少ない、穏和な手法であるため生態系に負荷を与えない等の利点がある。その反面、浄化のために微生物を撒布することによる環境への影響等について十分な知見は得られていない。従って、浄化の進行状況の把握に加え、撒布した微生物の拡散状況、撒布現場の生態系への影響を把握するためにも、正確なモニタリングの手段が強く求められていた。

先行技術文献

http://www.ritsumei.ac.jp/se/rc/staff/kubo/intro/biorem/index.html Qu W, Shen Z, Zhao D, Yang Y, Zhang C (2009) MFEprimer: multiple factor evaluation of the specificity of PCR primers. Bioinformatics. 15;25:276-278. Miura F, Uematsu C, Sakaki Y, Ito T (2005) A novel strategy to design highly specific PCR primers based on the stability and uniqueness of 3’-end subsequences. Bioinformatics. 15;21:4363-4370.

　本発明は、不特定生物が混在する環境中において、プライマー特異性の高いDNA配列（以下、『DNAタグ』と記載することがある）を微生物ゲノムに導入する技術を提供することを主な目的とする。

　本発明者らは、上記課題を解決すべく鋭意検討を行った結果、生命が普遍的に使用しない傾向にあるDNA配列を選択し、不特定多数の生物が混在する環境DNA中において普遍的に利用可能なプライマーを容易に選択することができるプログラムを設計した。さらに、本発明者らは、前述のようにして得られた生物において使用頻度の低い配列（又はその相補配列）をゲノム中に組み込んだ微生物をバイオレメディエーションに用い、前記生物において使用頻度の低い配列からなるプライマーを用いることによって当該微生物の拡散状況や、浄化の進行状況を正確かつ簡便に把握することが可能であることを見出した。本発明は、これらの知見に基づいてさらに研究を重ねた結果完成されたものである。

　本発明は以下のDNAタグ及び導入位置の決定方法を提供する。

　項１．生物のゲノムＤＮＡ配列に導入される塩基配列であるＤＮＡタグ、及び該ＤＮＡタグの前記ゲノムＤＮＡ配列への導入位置を決定する方法であって、
　前記ゲノムＤＮＡ配列からタンパク質コード配列を取得するステップＳ１と、
　前記タンパク質コード配列から、処理対象領域として第１コード配列を決定するステップＳ２と、
　前記第１コード配列中の部分配列からなり、所定の長さの複数の第２コード配列を取得し、前記タンパク質コード配列中の前記第２コード配列の位置を記録するステップＳ３と、
　前記ステップＳ３で取得された第２コード配列のそれぞれに対して、サイレント変異を施した１以上の第３コード配列を取得するステップＳ４と、
　前記第３コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第３コード配列のみを第４コード配列として決定するステップＳ５と、
　前記第４コード配列について相同性検索を行ない、相同性塩基配列を取得するステップＳ６と、
　前記第４コード配列毎にＮＭＳを決定するステップＳ７と、
　前記ＮＭＳの最小値に対応する第４コード配列を前記ＤＮＡタグとして決定し、該第４コード配列に対応する前記第２コード配列の前記位置を、前記導入位置として決定するステップＳ８とを含み、
　前記ステップＳ２において、前記第１コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
　前記所定条件が、前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
　前記ＮＭＳが、相同性の程度を表すことを特徴とするＤＮＡタグ及び導入位置の決定方法。

　項２．さらに、同じＮＭＳを複数有する第４コード配列が存在する場合、それらのＮＭＳの内、出現頻度が最小であるＮＭＳに対応する第４コード配列を、前記タグとして決定するステップＳ９を含むことを特徴とする項１に記載のＤＮＡタグ及び導入位置の決定方法。

　項３．前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドが前記プライマーとして適切である前記条件が、
　前記相補的塩基配列のＣＧ含有量が、４５～５５％であり、
　前記相補的塩基配列のｔｍ値が、５５～６５℃であり、且つ、
　前記相補的塩基配列中に、同じ塩基が４つ以上連続して存在しない
　ことを特徴とする項１又は２に記載のＤＮＡタグ及び導入位置の決定方法。

　項４．コンピュータに、生物のゲノムＤＮＡ配列に導入される塩基配列であるＤＮＡタグ、及び、該ＤＮＡタグの前記ゲノムＤＮＡ配列への導入位置を決定する機能を実現させるプログラムであって、
　前記コンピュータに、
　前記ゲノムＤＮＡ配列からタンパク質コード配列を取得する第１機能と、
　前記タンパク質コード配列から、処理対象領域として第１コード配列を決定する第２機能と、
　前記第１コード配列中の部分配列からなる所定の長さの複数の第２コード配列を取得する第３機能と、
　前記第３機能によって取得された第２コード配列のそれぞれに対して、サイレント変異を施した１以上の第３コード配列を取得する第４機能と、
　前記第３コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第３コード配列のみを第４コード配列として決定する第５機能と、
　前記第４コード配列について相同性検索を行ない、相同性塩基配列を取得する第６機能と、
　前記第４コード配列毎にＮＭＳを決定する第７機能と、
　前記ＮＭＳの最小値に対応する第４コード配列を前記ＤＮＡタグとして決定し、該第４コード配列に対応する前記第２コード配列の前記位置を、前記導入位置として決定する第８機能とを実現させ、
　前記第２機能において、前記第１コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
　前記所定条件が、前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
　前記ＮＭＳが、相同性の程度を表すことを特徴とするタグ及び導入位置の決定プログラム。

　項５．以下の工程を含む、ＤＮＡタグ導入変異株の製造方法。
(i)請求項１～３のいずれかに記載の方法によって決定されたＤＮＡタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程；
(ii)前記工程(i)で得られたＤＮＡタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程；及び
(iii)前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、ＤＮＡタグがゲノム中に相同組換えされた変異株を得る工程。

　項６．さらに、前記マーカー遺伝子が生物のゲノム中に含まれていないことを確認する工程を含む、項５に記載の方法。

　項７．項５又は６に記載の方法によって得られる変異株。

　項８．項１～３のいずれかに記載の方法によって決定されたＤＮＡタグを含むベクター。

　項９．項８に記載のベクターによってDNAタグが導入されたゲノムDNA。

　項１０．項９．に記載のゲノムDNAを含む変異株。

　項１１．項１～３に記載の方法によって決定されたDNAタグの塩基配列又はその相補的塩基配列のポリヌクレオチドからなるプライマーを用いて、環境中における当該DNAタグを含む変異株の数を定量して、浄化の進行をモニタリングする方法。

　項１２．項１～３に記載の方法によって決定されたDNAタグの塩基配列又はその相補的塩基配列のポリヌクレオチドからなるプライマーを用いて、環境中における当該DNAタグを含む変異株の拡散を評価する方法。

　項１３．項１～３に記載の方法によって決定されたDNAタグがクローニングされたベクターを用いて生物のゲノムDNA中に該DNAタグを導入することを特徴とする、生物の標識方法。

　本発明の方法によれば、自然環境中において出現しにくいＤＮＡ配列（『ＤＮＡタグ』と表記することがある）を人工的に創出することが可能である。このようなＤＮＡ配列（又はその相補鎖）を有するプライマーは、バイオレメディエーション等の分野で菌体数把握等に用いられる定量PCRにおいて、プライマーの特異性を飛躍的に向上させることが可能であり、浄化の進行状況、微生物の拡散状況を正確且つ簡便に把握することが可能である。

　前述のように、カルタヘナ法は遺伝子組換えをおこなった微生物を開放環境中に撒布することを禁止している。しかしながら、セルフクローニング(サイレント変異を含む)による組換え体は、カルタヘナ法に規定される「遺伝子組換え生物」に該当しない。従って、DNAタグを導入する領域以外の細胞のゲノムDNA配列を一切変更されていない変異体であれば、カルタヘナ法に抵触せず、開放環境中でも利用することができる。すなわち、本発明の方法によれば、カルタヘナ法規定における「遺伝子組換え生物」に該当しないかたちで生物のゲノム内にDNAタグを導入することが可能である。

　また、例えば、このようにして得られるＤＮＡタグが導入された微生物を、バイオレメディエーションに用いることによって、当該微生物の高精度なモニタリングを行うことが可能になる。

[規則91に基づく訂正 10.04.2009]　
本発明の実施の形態に係るタグ及び導入位置の決定方法で使用される装置の構成を示すブロック図である。本発明の実施の形態に係るタグ及び導入位置の決定方法を示すフローチャートである。生成されるＣＤＳの関係を示す図である。処理対象ＣＤＳと断片化ＣＤＳの関係を示す図である。サイレント変異ＣＤＳ及びそれを用いた相同性検索結果の一例を示す図である。各試行における塩基長とメタゲノム中の出現確率（縦軸は対数）を表す図である。各データセットを環境DNAデータベースに対して相同性検索をかけた結果を表す箱ひげ図である。図中、点線は中央値、ひげの両端は最大値と最小値、箱の両端は第1四分位点と第３四分位点を表す。ＤＮＡタグ導入方法の例を示すスキームである。図中、(1)においては、第１コード配列に相当する塩基配列からなるＤＮＡを、宿主生物用抗生物質耐性マーカーを含むベクターを用いてクローニングする。(2)においては、クローニングされた第１コード配列に相当する塩基配列からなるＤＮＡに対して点変異を導入する。(3)においては、ベクターを宿主に導入し、抗生物質により選択する（このとき、相同組換えにより生じた変異株を取得する）。(4)においては、取得した変異株を抗生物質を含まない培地で培養する。(5)においては、相同組換えにより抗生物質耐性がなくなった変異株を取得する。(6)においては、シーケンシングにより、ＤＮＡタグが正しく導入され、且つベクター配列を含まない変異株を取得する。参考試験例３において構築されたpBS4106IDを表す概略図である。参考試験例３において実施されたシーケンス（前半）結果を示す。参考試験例３において実施されたシーケンス（後半）結果を示す。

発明を実施するための形態

　以下、本発明について詳述する。

[規則91に基づく訂正 10.04.2009]　
　（１）ＤＮＡタグ及び導入位置の決定方法
　以下、本発明に係る実施の形態を、添付した図面に基づいて説明する。
図１は、本発明の実施の形態に係るＤＮＡタグ及びその導入位置の決定方法に使用される装置の構成を示すブロック図である。ここで「ＤＮＡタグ」とは、自然環境中に出現しにくいＤＮＡ配列（正鎖、逆鎖を問わないＤＮＡ配列であり、これ自身またはこの相補的配列が「プライマー」として使用される）を意味し、ＤＮＡタグの「導入位置」とは、ＤＮＡタグを導入する（ＤＮＡタグで部分配列を置換する）対象である生物のＤＮＡ配列中における位置を意味する。

　本発明において、ＤＮＡタグの導入対象となる生物のＤＮＡとは、公知の手法によってタグの導入が可能なＤＮＡを有する生物であれば特に生物種は限定されず、例えば、原核生物、古細菌、真核生物などが挙げられる。本発明においては、培養条件や保存条件等が公知であり、比較的長期に亘って保存することができる大腸菌、枯草菌及び酵母などの微生物を利用することが好ましい。さらに、バイオレメディエーションにおいて使用した場合にモニタリングが容易に行えるという観点から、環境浄化に使用される微生物等を用いることが好ましく、石油分解能を持つ細菌群、種々の有害化学物質分解能を持つ細菌群、環境の塩類を吸収する細菌群等が挙げられる。具体的には、Bacullus sp. ODM157, Bacullus sp. ODNM4, Bacillus sp. F31等のバチルス（Bacillus）属細菌；Rhodococcus sp. ODNM2B, Rhodococcus sp.NDMI144, Rhodococcus sp.NDKK48, Rhodococcus sp.NDKK7, Rhodococcus sp.NDKK6, Rhodococcus sp. NDKK5, Rhodococcus sp. NDKK2, Rhodococcus sp. NDKK1, Rhodococcus sp. NDMI54, Rhodococcus sp. ODNM1C, Rhodococcus sp. NDKY3D, Rhodococcus sp. Rhodococcus sp. NDKY72A等のロドコッカス（Rhodococcus）属細菌；Gordonia sp. NDKY76A, Gordonia sp. NDKK46, Gordonia sp. NDKY2B, Gordonia sp. NDKY2C等のゴルドニア（Gordonia）属細菌；Acientobacter sp. ODYM1, Acientobactersp. ODYM2, Acientobacter sp. ODYM5, Acientobacter sp. ODDK71, Acientobacter sp. ODMI29, Acientobacter sp.ODNM6, Acientobacter sp.NDMI119, Acientobacter sp. A132, Acientobacter sp. NDMI78, Acientobacter sp. YM3等のアシネトバクター（Acientobacter）属細菌；Pseudomonas sp. F721, Pseudomonas sp. F722等のシュードモナス（Pseudomonas）属細菌等が例示される。また、本発明においてはプラスミドに対してＤＮＡ配列タグを導入することをも包含するものとする。

[規則91に基づく訂正 10.04.2009]　
　本装置は、コンピュータ１、表示部２および操作部３を備えている。表示部２は、例えば、液晶ディスプレイ装置、ＣＲＴディスプレイ装置などである。操作部３は、例えば、コンピュータ用のキーボード、マウスなどである。コンピュータ１は、演算処理部（以下、ＣＰＵと記す）１１と、データを一時的に保持可能な書換可能メモリ（以下、ＲＡＭと記す）１２と、データを持続的に保持可能な書換可能なハードディスクドライブなどの記録部１３と、インタフェース部（以下、ＩＦ部と記す）１４と、内部バス１５とを備えている。記録部１３には、ＣＰＵ１１が実行するプログラムやデータが記録されている。ＩＦ部１４は、コンピュータ１と外部機器とのインタフェースを担う。即ち、ＣＰＵ１１は、処理結果などを表示部２にＩＦ部１４を介して表示し、操作部３が、例えば人によって操作された場合、その操作に関する情報を、ＩＦ部１４を介して取得する。また、コンピュータ１は、ＩＦ部１４を介して、ネットワーク４に接続されている。ネットワーク４は、インターネットなどの公衆ネットワークであっても、ローカルネットワークであってもよい。ゲノムＤＮＡが記録されたデータベース（以下、ＤＢと記す）５も、同様にネットワーク４に接続されている。コンピュータ１を構成する各部は、内部バス１５を介してデータを交換する。これによって、コンピュータ１は、コンピュータ本来の演算処理に加えて、操作部３からの指示を取得すること、ＤＢ５を利用することなどの処理を行なうことができる。図１では、１つのＤＢ５が示されているが、複数のＤＢを備えていてもよい。

[規則91に基づく訂正 10.04.2009]　
　次に、図２に示すフローチャートを用いて、本発明の実施の形態に係るタグ及びその導入位置の決定方法を具体的に説明する。また、図３は、後述の処理で生成される配列の関係を示すブロック図である。

　以下では、特に断らない限りＣＰＵ１１が行う処理として記載する。また、ＣＰＵ１１は、適宜記録部１３から必要なデータをＲＡＭ１２に読み出し、ＲＡＭ１２の所定領域をワーク領域として使用して処理を行い、一時的な処理結果や最終の処理結果を適宜記録部１３に記録することとする。また、初期データは予め記録部１３に記録されているとする。

　ステップＳ１において、タグを導入する対象である生物のゲノムＤＮＡ情報、即ち塩基配列（一本鎖配列）を取得する。例えば、予め記録部１３に記録されたゲノムＤＮＡ情報（例えばテキストデータ）を読み出す。または、ＤＢ５からゲノムＤＮＡ情報を取得してもよい。

[規則91に基づく訂正 10.04.2009]　
　取得したゲノムＤＮＡ情報から、タンパク質をコードするDNA配列領域（ＣＤＳ：Coding Sequence）を全て決定する。既存のＤＢ５に問い合わせを行って、ＣＤＳ情報が在ればそれを使用し、無ければ公知の情報学的な手法によりＣＤＳのアノテーション、即ちタンパク質がコードされるＤＮＡ領域（位置情報）の決定を行なう。図３の最上位に、決定されたタンパク質ＣＤＳを示す。より具体的にＣＤＳの一例を図４に示す。図４では、塩基配列をコドン毎に四角形で囲み、各四角形の上に、コードされるアミノ酸を示している。

[規則91に基づく訂正 10.04.2009]　
　ステップＳ２において、ステップＳ１で決定された全てのタンパク質コード配列から、以下のステップにおいて処理対象とする領域を決定する。即ち、タンパク質コード配列から、サイレント変異を加えることにより宿主細胞（生物）の増殖や表現型に大きな影響を及ぼすと考えられる領域が除かれる。除外する領域としては、例えば、必須遺伝子の配列全般、機能性配列、およびタンパク質翻訳効率の制御に大きく関与すると考えられている翻訳開始点付近の配列（下流５０塩基程度）、終止コドン付近の配列（上流５０塩基程度）等が挙げられる。また、産業的に価値のある生物においては、変異によりその産業的価値を損なう可能性のある遺伝子群など（例えば、有用物質の産生菌であれば、当該有用物質の産生に直接的に関与する遺伝子群の配列全般等）が挙げられる。機能性配列とは、例えば制限酵素認識配列、核酸結合性タンパク質の認識配列等を挙げることができる。従って、通常、長さが異なる複数の処理対象ＣＤＳが決定される。このようにして決定されたタンパク質コード配列を、処理対象ＣＤＳ（又は第１コード配列）と表記することがある。図３に、決定された処理対象ＣＤＳを示す。

　決定された処理対象ＣＤＳは、ゲノムＤＮＡ情報と対応させて記録部１３に記録される。ここで、タンパク質コード配列中の処理対象ＣＤＳの位置情報（以下、第１の位置情報とも記す）も、処理対象ＣＤＳと対応させて記録部１３に記録される。即ち、｛ゲノムＤＮＡ情報，処理対象ＣＤＳ，第１の位置情報｝が１セットとして記録される。

[規則91に基づく訂正 10.04.2009]　
　ステップＳ３において、ステップＳ２で決定された各処理対象ＣＤＳを、指定されたサイズに断片化する。即ち、処理対象ＣＤＳの中から、連続する所定長さのＣＤＳ（以下、断片化ＣＤＳ又は第２コード配列と表記することがある）を選択する。例えば、図４に示したように、先頭位置を１塩基ずつずらせて指定サイズ（例えば１２塩基）の断片化ＣＤＳを選択する。従って、断片化ＣＤＳがｍ個の塩基配列（指定サイズがｍ）で構成されている場合、ｎ個の塩基配列で構成された１つの処理対象ＣＤＳから、ｎ－ｍ＋１個の断片化ＣＤＳが決定される。決定された断片化ＣＤＳを図３に示す。なお、ここでは、同じ断片化ＣＤＳが複数生成されたか否かを判断しない。なぜならば、同じ断片化ＣＤＳであっても、対象生物への挿入位置によって（即ち、断片化ＣＤＳの上流および下流の配列によって）、サイレント変異により生成される最終的な配列が異なることになるからである。また、もし上流および下流の配列が同じだとしても、断片化ＣＤＳが得られた位置情報等も将来的に重要なファクターとなるため、ここでは1つに絞ることはしない。なお、全く同じ断片化ＣＤＳが複数生成される可能性は、そもそも低い。

　断片化ＣＤＳのサイズは、プライマーとして機能する長さであれば任意に設定することができるが、通常15～30塩基であることが望ましく、17～25塩基であることがより望ましい。

　ここで、断片化ＣＤＳに対応させて、その断片化ＣＤＳが生成された元の処理対象ＣＤＳ、および、処理対象ＣＤＳ中の各断片化ＣＤＳの位置情報（以下、第２の位置情報とも記す）が、記録部１３に記録される。即ち、｛処理対象ＣＤＳ，断片化ＣＤＳ，第２の位置情報｝が１セットとして記録される。従って、１つの断片化ＣＤＳを指定すれば、対応する第２の位置情報、対応する処理対象ＣＤＳ及び第１の位置情報が決まり、第１の位置情報及び第２の位置情報から、ゲノム配列中の断片化ＣＤＳの位置が特定される。

　ステップＳ４において、ステップＳ３で決定された各断片化ＣＤＳに対して、サイレント変異を施して、１以上のサイレント変異ＣＤＳ（以下、第３コード配列と表記することがある）を取得する。即ち、各断片化ＣＤＳにおいて、各コドンを同義コドン（塩基配列が異なるが、同じアミノ酸を翻訳するコドン）で置換したＣＤＳを作成する。例えば、ある断片化ＣＤＳがＡＴＴＣＴＧＣＡＣＧＡＴであり、かつ処理対象となるタンパク質コード配列の５’末端の塩基配列の位置を0とした場合に、処理対象となるタンパク質コード配列における上記断片化ＣＤＳの５’末端の塩基の位置が3の倍数になる場合（第１及び第２の一情報より算出される）、これは４つの完全なコドンを含む配列であり、アミノ酸Ｉｌｅ－Ｌｅｕ－Ｈｉｓ－Ａｓｐを翻訳する配列である。そして、これらのアミノ酸には、表Ａに示されるように同義コドンが存在する。

　従って、上記の例においては、４つのアミノ酸をコードするコドンの可能な配列は、３×６×２×２＝７２通りあるが、それらのうち、元のコドン（具体的にはＡＴＴ、ＣＴＧ、ＣＡＣ、ＧＡＴ）を少なくとも１つ含む配列を除外するので、２×５×１×１＝１０通りになる。例えば、ＡＴＴＣＴＧＣＡＣＧＡＴの断片化ＣＤＳからは、ＡＴＣＴＴＡＣＡＴＧＡＣ、ＡＴＡＣＴＣＣＡＴＧＡＣなどのサイレント変異ＣＤＳが生成される。

　また、例えばある断片化ＣＤＳがＡＴＴＣＴＧＣＡＣＧＡＴであり、かつ処理対象となるタンパク質コード配列の５’末端の塩基配列の位置を0とした場合に、処理対象となるタンパク質コード配列における上記断片化ＣＤＳの５’末端の塩基の位置が3の倍数にならない場合、上記断片化ＣＤＳは3つの完全なコドンと２つの不完全なコドン（最初と最後のコドンの塩基情報が不足するため）を含む配列となる。この場合、２つの不完全なコドンの不足分塩基を、記録部１３に記録されたゲノムＤＮＡ情報を参照することにより補足することができる。

　ここで、サイレント変異導入前の配列と比べて極力相同性を低くするためには、変異導入前のコドンを含む断片化ＣＤＳを除外し、できるだけ多くのサイレント変異を加えることが望ましい。

　生成されたサイレント変異ＣＤＳは、元の断片化ＣＤＳと対応させて記録部１３に記録される。即ち、｛サイレント変異ＣＤＳ，断片化ＣＤＳ｝が１セットとして記録される。

　また、サイレント変異は、断片化ＣＤＳを構成する１以上のコドンに導入すればよいが、好ましくは断片化ＣＤＳを構成する全コドンにおいてサイレント変異を導入する。各コドンにおいて、サイレント変異を導入可能ないずれかの塩基のみ、より好ましくは第３塩基のみをサイレント変異導入の対象とすることもできる。ただし、プライマーの特異性を向上させる観点からは、断片化ＣＤＳにおいて全てのサイレント変異を導入することが好ましい。

　また、例えば、予めタグを導入する対象である生物のゲノムＤＮＡにおける全コドンの使用頻度を算出しておき、その情報から、タグを導入する対象である生物のゲノムＤＮＡにおいて極端に使用頻度の低いコドンの使用を、サイレント変異の導入時に避けることも可能である。

　ステップＳ５において、ステップＳ４で生成されたサイレント変異ＣＤＳそれ自身又はその相補的塩基配列からなるポリヌクレオチドのプライマーとしての機能を評価し、所定の基準を満たさないサイレント変異ＣＤＳを除外する。除外することは、例えば各断片化ＣＤＳに付加されたフラグを初期値（例えば“０”）と異なる値（例えば“１”）にセットすることで行うことができる。この場合、｛サイレント変異ＣＤＳ，断片化ＣＤＳ，フラグ｝が１セットとして記録される。

　プライマーとしての機能について、評価基準としては、例えば、下記条件(a)～(c)を挙げることができる。
(a)ＧＣ含有量が４０～６０％、好ましくは４５～５５％；
(b)ｔｍ値が５５～６５℃；及び／または、
(c)同一塩基が５つ以上、好ましくは４つ以上連続していない。
あるサイレント変異ＣＤＳそれ自身又はその相補的塩基配列に関して、これらの条件の１つでも満たしていない場合、そのサイレント変異ＣＤＳを除外する。

　ここで、ＧＣ含有量は、塩基配列中のＧＣ塩基の数の割合（％）である。ｔｍ値は、二本鎖ＤＮＡの５０％が一本鎖ＤＮＡに解離する温度（melting temperature）である。ＧＣ含有量、ｔｍ値の計算方法は公知であるので、ここでは詳細説明を省略する。なお、これらの基準値は、初期データとして記録部１３に予め記録されていてもよいが、ＩＦ部を介して外部から指定されてもよい。また、プライマーの評価基準は、公知の基準を適用することができ、上記(a)～(c)に限定されない。

　本ステップＳ５においてプライマーとしての機能を有するサイレント変異ＣＤＳを第４コード配列と表記することがある。

　ステップＳ６において、ステップＳ５の結果、除外されずに残ったサイレント変異ＣＤＳ（第４コード配列；すなわち、フラグが“０”）について、配列アライメント手法を用いて、目的に応じて予め準備したゲノム配列データベースに相同性検索を行なう。例えば、バイオレメディエーションの用途に得られたプライマーを使用するのであれば、ＢＬＡＳＴ法を用いて、バイオレメディエーション用の環境ＤＮＡデータベースに対して相同性検索を行う。より具体的には、Blast アルゴリズム等を実相した遺伝子相同性検索ソフトウェアを使用して、DDBJやGENBANK等が提供しているゲノムデータベース又は遺伝子等の断片的な塩基配列が格納されたデータベースを検索し、閾値以上の相同性を有する領域があった場合、その相同性のスコアを記録する（相同性のスコアは、例えば、サイレント変異ＣＤＳの長さに対する一致した塩基数の割合とすることができる。例えばＢＬＡＳＴ法においては、Identityなどの指標がそれに該当する）。また、閾値以上の相同性を有する領域の数をカウントする。なお、相同性の閾値としては、ギャップを考慮せずに、クエリーの塩基長に対してマッチする塩基数の割合が、例えば８０％以上、好ましくは５０％以上、より好ましくは２０％以上、さらに好ましくは１０％以上となるよう設定することができる。また、相同性検索はＢＬＡＳＴ法に限定されず、ＦＡＳＴＡ法など公知の方法を使用することができる。

　ステップＳ７において、ステップＳ６で行なった相同性検索の結果、即ちゲノム配列データベースへのクエリーに対する同データベースからのレスポンス（応答データ）を用いて、各々のサイレント変異ＣＤＳの出現頻度およびＮＭＳ（Nearest Match Score）を求める。ここで、相同性検索は、種々の方法が公知であり、それらの１つを使用すればよく、ここでは詳細説明を省略する。以下では、相同性が５０％以上の領域を相同性領域とする。また、使用するゲノム配列データベースは、例えば米国のＮＣＢＩ（National Center of Biotechnology Information）が提供するデータベースから、目的に応じて生成することができる。それ以外にも種々のゲノム配列データベースが公知であり、それが使用されてもよい。

　出現頻度は、相同性検索を行った結果、ヒットした（相同性領域が検出された）ゲノムの数である。従って、特定のサイレント変異ＣＤＳについて、出現頻度の初期値を“０”として、相同性検索によってヒットしたゲノムがあれば、出現頻度を“１”だけ増加させる。但し、１つのゲノムの中に、複数の領域がヒットした場合でも、出現頻度は“１”だけ増加させる。ＮＭＳは、複数のヒットがあった場合、それらの中で最大である相同性の値である。

[規則91に基づく訂正 10.04.2009]　
　より具体的に説明すれば次の通りである。図５に、サイレント変異ＣＤＳの一例としてＡＴＣＣＡＴＣＡＴＧＡＣを示す。このサイレント変異ＣＤＳに関して、データベースに相同性検索を行った結果、２つの相同性領域（ヒット１およびヒット２）が得られたとする。図５では、ヒット１は、第１のゲノムＤＮＡ配列Ｎｏ．１中のＡＴＣＴＴＡＧＡＴＡＡＣの部分配列であり、ヒット２は、第２のゲノムＤＮＡ配列Ｎｏ．２（第１のゲノムＤＮＡ配列と異なる）中のＡＴＣＧＴＡＣＡＴＣＴＡの部分配列である。この場合、ヒット１のアイデンティティは８３．３％、ヒット２のアイデンティティは６６．７％である。従って、アイデンティティが最大であるヒット１のアイデンティティ８３．３％を、このサイレント変異ＣＤＳのＮＭＳとする。また、このサイレント変異ＣＤＳの出現頻度は“２”である。なお、後述するが、出現頻度は、異なる複数のサイレント変異において、ＮＭＳが同率であった場合、自然環境で出現しない配列を決定するためのスクリーニング指標として利用される。

　以上の結果、１つのサイレント変異ＣＤＳに関して、ＮＭＳ、出現頻度が決定されるので、これらの情報を対応させて記録部１３に記録する。即ち、｛サイレント変異ＣＤＳ，ＮＭＳ，出現頻度｝が１セットとして記録される。

　ステップＳ８において、ステップＳ７で記録されたＮＭＳのうちの最小値を決定し、これに対応するサイレント変異ＣＤＳをタグとして決定し、対応する位置情報（第１及び第２位置情報）から、導入位置（ゲノムＤＮＡ配列中の位置）を決定する。決定されたタグ及び導入情報は、例えば表示部２に表示される。

　最小のＮＭＳが１つであれば、それに対応するサイレント変異ＣＤＳがタグとして決定される。しかしながら、異なる複数のサイレント変異に関して、ＮＭＳが同じ値であった場合には、それらのうち出現頻度が最小であるサイレント変異ＣＤＳを、タグとして決定するステップを、ステップＳ９として追加してもよい。これは、自然環境で出現しない配列（タグ、プライマー）を求めることが本発明の目的であるからである。

　以上によって、不特定多数の生物が混在する環境ＤＮＡ中においても普遍的に利用できる可能性が高いタグ、及び、ゲノムＤＮＡ配列への導入位置を決定することができる。従って、定量ＰＣＲにおいて、タグの相補的塩基配列を、特異性の高いプライマーとして使用できる。

　なお、本願発明は上記の実施の形態に限定されず、処理の順序を変更すること、一部の処理を削除すること、一部の処理を別の内容の処理で置換することなど、種々変更して実行することが可能である。

　例えば、上記では、一つの生物のゲノムＤＮＡを処理する場合を説明したが、複数の生物のゲノムＤＮＡを処理する場合には、ゲノムＤＮＡ毎に、ステップＳ１～Ｓ８の処理を実行すればよい。

　また、ステップＳ２において、除外する領域を外部から指定してもよい。

　また、ステップＳ２において、サイレント変異により宿主細胞（生物）に大きな影響を及ぼすと考えられる領域を除外するだけでなく、さらなる領域が除外されてもよい。具体的には、機能が未知なタンパク質をコードする領域や、目的を達成する上で重要な機能を有するタンパク質（例えばバイオレメディエーションに用いるのであれば、石油分解酵素など）をコードする領域などが挙げられる。処理対象ＣＤＳが多ければ、断片化ＣＤＳおよびサイレント変異ＣＤＳが多くなるので、処理時間が長くなる。従って、処理時間を低減するために、ある程度の精度が得られる範囲で、処理対象ＣＤＳを少なくしてもよく、通常、50～1000個程度のＣＤＳを対象とする。

　また、ステップＳ３において、所定長さのコード配列の先頭位置を１つずつシフトして、断片化ＣＤＳを決定する場合を説明したが、連続する所定長さの領域を、重複しないようにランダムに選択して、複数の断片化ＣＤＳを得てもよい。

　また、ステップＳ５におけるプライマーとしての機能性評価基準は、上記に限定されない。例えば、条件（c）の代わりに、または条件（a）～（c）に加えて、末端の塩基がＧまたはＣであることを条件としてもよい。即ち、末端の塩基がＡまたはＴである配列は、処理対象から除外されてもよい。

　また、ステップＳ６における相同性検索において、予め定められた相同性の程度（上記では５０％以上）を使用する代わりに、相同性の程度を外部から指定してもよい。

　また、ステップＳ７において、出力の基準としてＮＭＳおよび出現頻度を使用する場合を説明したが、これに限定されず、ＧＣ含量などが考慮されてもよい。ＰＣＲで用いるプライマーは一般的に、ＧＣ含量が５５～６５％程度であることが好ましいとされている。さらに、３’末端側にＧ、Ｃを豊富に含むことがより好ましいとされている。また、ＰＣＲではプライマー側における３’末端と、ＤＮＡ側の５’末端の結合が重視されるため、そこに相当する領域のマッチ数（アライメント時に検出される相同な塩基の数）が少ない候補がより好ましい。目的に応じて、これらの基準で最終的な候補が決定されてもよい。

　(2)ＤＮＡタグ導入変異株の製造方法
　上記ＤＮＡタグ及び導入位置の決定方法によって決定されたＤＮＡタグが導入された変異株は、公知の遺伝学的手法に基づいて取得することができるが、例えば以下のようにして得ることができる。

　以下の工程を含むＤＮＡタグ導入変異株の製造方法。
(i)前記ＤＮＡタグ及び導入位置の決定方法によって決定された、ＤＮＡタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程；
(ii)前記工程(i)で得られたＤＮＡタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程；及び
(iii) 前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、ＤＮＡタグがゲノム中に相同組換えされた変異株を得る工程。

　以下、各工程について詳述する。なお、ここではシングルクロスオーバーによる相同組み換えを利用した変異株の製造方法を例に説明する。

　工程(i)においては、前記ＤＮＡタグ及び導入位置の決定方法によって決定された、ＤＮＡタグを調製し、ベクターにクローニングを行う。

　細胞に導入するＤＮＡタグの塩基配列及び当該塩基配列の導入位置を設定する際には、まず、上述したようにステップＳ１～Ｓ８を実行する。得られたＤＮＡタグ配列に基づいてＤＮＡ断片を合成する際には、従来公知のＤＮＡ合成装置を用いることができる。

　ＤＮＡタグをベクターにクローニングする際、（ｍ）第１コード配列に相当する塩基配列からなるＤＮＡを合成してベクターに組み込み、その後点変異導入法によって所定の位置にサイレント変異を導入することができる。あるいは、（ｎ）第４コード配列（ＤＮＡタグ）に相当する塩基配列からなるＤＮＡを合成してベクターに組み込んでもよい。

　点変異の導入法は、GeneTailor Site-Directed Mutagenesis System(Invitorogen) KOD-Plus-Mutagenesis Kit(TOYOBO)等の従来公知の方法に従えばよい。

　なお、ベクターの構築はDNAタグを導入する対象種以外の細菌を用いることが望ましい。また、宿主細胞への形質転換は相同組換えを利用するため、DNAタグ配列を導入する領域を含む上流および下流の塩基配列をベクター上で構築する。DNAタグ配列の前の配列長は、導入する菌株の相同組換え効率により適宜設定するが、上流および下流ともに50塩基以上が好ましく、より好ましくは上流および下流ともに200塩基以上、さらに好ましくは上流および下流ともに500塩基以上とする。本領域をベクター上に構築する際、対象となる宿主細胞のゲノムDNAを鋳型としてPCRにより取得することが可能であり、その際、第1コード領域に相当する塩基配列を含むかたちで、その上流／下流領域を取得し、その後、点変異の導入をベクター上で行なうこともできる（上記(ｍ)に相当）。また、オリゴDNA合成による公知の人工遺伝子構築法（overlap extension PCR等）を用いて、第1コード領域に相当する塩基配列を含む上流／下流領域の第1コード領域部分を第4コード配列に相当する塩基配列に置き換えた塩基配列を合成し、ベクター上に構築することもできる（上記(ｎ)に相当）。

　これにより、後述する工程(iii)において相同組換によりDNAタグのみがゲノム中に導入された変異株を得ることができる。

　ベクターは、DNAタグを導入する細胞内においてマーカー遺伝子を発現可能な状態で含むことが好ましく、マーカー遺伝子としては、抗生物質耐性マーカー遺伝子、蛍光タンパク質をコードする遺伝子、呈色反応を触媒する酵素をコードする遺伝子等が挙げられる。

　本発明において抗生物質耐性マーカー遺伝子としては、宿主細胞が当該抗生物質に対して抗体を持っておらず、マーカーとして利用可能であれば、従来公知のものから適宜選択して用いることが可能である。抗生物質耐性マーカーとして具体的には、アンピシリン耐性遺伝子、ストレプトマイシン耐性遺伝子、テトラサイクリン耐性遺伝子、エリスロマイシン耐性遺伝子、ピューロマイシン耐性遺伝子、ブラストサイジンS耐性遺伝子、ハイグロマイシン耐性遺伝子、カナマイシン耐性遺伝子、ゲンタマイシン耐性遺伝子、クロラムフェニコール耐性遺伝子、ネオマイシン耐性遺伝子などが挙げられる。蛍光タンパク質をコードする遺伝子としては、緑色蛍光タンパク質(GFP)遺伝子、赤色蛍光タンパク質(RFP)遺伝子、黄色蛍光タンパク質(YFP)遺伝子、ルシフェラーゼ遺伝子などが挙げられる。呈色反応を触媒する酵素をコードする遺伝子としてはβ-グルクロニダーゼ(GUS)遺伝子、lacZ遺伝子などが挙げられる。

　マーカー遺伝子を発現可能な状態でベクターに組み込むため、宿主細胞の種類に応じて公知のプロモーターとターミネーターを適宜付加することができる。宿主細胞のプロモーター及びターミネーターが未知である場合には、従来公知の情報学的手法に従って配列を決定して利用することができる。

　合成されたＤＮＡ断片は、ＤＮＡタグ配列をコードする領域以外に種々の領域を付加したものであってもよい。このような領域としては、転写終結配列を導入すること、その部分を切り出すための公知の制限酵素認識配列を導入すること、メチル化酵素認識配列を導入すること等を挙げることができる。

　合成されたＤＮＡ断片は、適当なベクターに挿入した状態で目的とする細胞内に導入することができる。ベクターとしては、導入対象の細胞に応じて適宜選択することができ、例えばプラスミドＤＮＡとしては、pRS413、pRS414、pRS415、pRS416、YCp50、pAUR112又はpAUR123などのYCp型大腸菌-酵母シャトルベクター、pYES2又はYEp13などのYEp型大腸菌-酵母シャトルベクター、pRS403、pRS404、pRS405、pRS406、pAUR101又はpAUR135などのYIp型大腸菌-酵母シャトルベクター、大腸菌由来のプラスミド（pBR322、pBR325、pUC18、pUC19、pUC118、pUC119、pTV118N、pTV119N、pBluescript、pHSG298、pHSG396又はpTrc99AなどのColE系プラスミド、pACYC177又はpACYC184などのp15A系プラスミド、pMW118、pMW119、pMW218又はpMW219などのpSC101系プラスミド等）、アグロバクテリウム由来のプラスミド（例えばpBI101等）、枯草菌由来のプラスミド（例えばpUB110、pTP5等）などが挙げられる。また、ファージDNAとしてはλファージ（Charon4A、Charon21A、EMBL3、EMBL4、λgt10、λgt11、λZAP）、φX174、M13mp18又はM13mp19などが挙げられる。レトロトランスポゾンとしては、Ty因子などが挙げられる。YAC用ベクターとしてはpYACC2などが挙げられる。さらに、レトロウイルス又はワクシニアウイルスなどの動物ウイルス、バキュロウイルスなどの昆虫ウイルスベクターを用いることもできる。

　なお、本発明には、上記ＤＮＡタグがクローニングされたベクターも包含され得る。

　本工程において、導入するベクター内のori配列が、DNAタグを導入する生物においては機能しないことが望ましく、ベクターを構築する宿主生物とDNAタグを導入する生物間のシャトルベクター等を用いる場合は、DNAタグを導入する生物用のori配列は削除しておくことが望ましい。ori配列は複製起点とも呼ばれ、ベクターがこの配列を有する場合、DNAタグを導入する宿主細胞中において複製が行なわれる。工程(ii)における対象生物への相同組換えによる形質転換の際に、当該生物の細胞内においてベクターの複製が可能であると、マーカー遺伝子による選択を行なう際、目的とする変異株の他に、ベクターを保持していることで選択される菌株が出現してしまう。工程(ii)では、当該生物のゲノム内に相同組換えにより形質転換され、且つ、細胞内にベクターを保持していない変異株を取得することが望ましいことから、ori配列を含まないベクターを用いるか、予めベクターのori配列を削除しておくことが望ましい。ただし、ベクターを構築する宿主生物（例えば大腸菌）のori配列が、DNAタグを導入する生物にて複製開始点として機能しない場合は、このori配列を削除する必要はない。

　工程(ii)においては、ＤＮＡタグがクローニングされたベクターを用いて、細胞のゲノムＤＮＡ上の所定の位置に相同組換えによる形質転換を行い、ゲノム内にシングルクロスオーバーによる相同組換えにより形質転換された細胞株を得る。

　形質転換の方法としては、従来公知の手法を適用することができる。例えば、細胞が植物細胞である場合、上述したベクターは通常の形質転換方法、例えば、減圧浸潤法（アグロバクテリウム法）、パーティクルガン法、PEG法、エレクトロポレーション法等によって植物細胞中に導入することができる。これらの方法の結果として得られる腫瘍組織やシュート、毛状根などは、そのまま細胞培養、組織培養又は器官培養に用いることが可能であり、また従来知られている植物組織培養法を用い、適当な濃度の植物ホルモン（オーキシン、サイトカイニン、ジベレリン、アブシジン酸、エチレン、ブラシノライド等）の投与などにより植物体に再生させることができる。また、大腸菌や枯草菌等の細菌にベクターを導入する場合は、例えばカルシウムイオンを用いる方法[Cohen, S.N. et al.：Proc. Natl. Acad. Sci., USA, 69：2110(1972)] 、エレクトロポレーション法等が挙げられる。さらに、酵母にベクターを導入する場合は、例えばエレクトロポレーション法[Becker, D.M. et al.：Methods. Enzymol., 194： 182(1990)]、スフェロプラスト法[Hinnen, A. et al.：Proc. Natl. Acad. Sci., USA, 75： 1929(1978)]、酢酸リチウム法[Itoh, H.：J. Bacteriol., 153：163(1983)]等が挙げられる。さらにまた、動物細胞にベクターを導入する場合は、例えばエレクトロポレーション法、リン酸カルシウム法、リポフェクション法等が挙げられる。昆虫細胞にベクターを導入する場合は、例えばリン酸カルシウム法、リポフェクション法、エレクトロポレーション法などが挙げられる。

　前述のように、ベクターとしてはプラスミドベクター；マーカー遺伝子としては抗生物質耐性遺伝子；DNAタグを導入するための宿主細胞としてはバチルス属細菌、ロドコッカス属細菌、ゴルドニア属細菌等の組み合わせが例示される。このような組み合わせでDNAタグの導入を行うことによって、ゲノム中にDNAタグを安定に導入することができる。

　ベクターが導入された宿主細胞を、細胞の種類に応じて培養する。このとき、マーカー遺伝子によってベクターが導入された細胞を選択する。例えば、抗生物質耐性マーカー遺伝子を組み込んだベクターを用いて形質転換を行った場合、培地に対応する抗生物質を添加し、生存した細胞を選択することによって得られる。

　工程(iii)においては、前記工程(ii)において形質転換された細胞を、抗生物質等の薬剤を含まない培地にて適宜世代数を重ねるよう培養し（連続培養）、あるいは継代培養を行って、ＤＮＡタグが相同組換えされた変異株を得る。

　また、マーカー遺伝子として、蛍光タンパク質をコードする遺伝子を用いる場合は、シングルコロニーが得られるように培養液を希釈したものを適切な寒天培地等にプレーティングし、UV照射により、蛍光を示すコロニーを選択することができる。呈色反応を触媒する酵素をコードする遺伝子では、適宜、呈色反応の基質を含む適切な寒天培地等に同様にプレーティングし、呈色反応により選択できる。その他のマーカー遺伝子を用いた場合であっても、使用するマーカー遺伝子の種類に応じて、従来公知の検出方法を適宜採用することができる。

[規則91に基づく訂正 10.04.2009]　
　ＤＮＡタグが導入された細胞は、細胞の種類に応じて適宜培養する。このとき、10～100代、好ましくは30～100代培養を行う。このとき、継代培養を行なうこともできる。このように長期に亘って世代数を重ね、培養することによって、シングルクロスオーバーが起こり、マーカー遺伝子及びベクター配列が脱落して、ＤＮＡタグのみが相同置換された目的の変異株を得ることができる。この際、DNAタグ配列の上流および下流に付加された相同領域において、シングルクロスオーバーがどちらの領域（前若しくは後）でおこるかは分からないが、工程(ii)において取得した変異株のシングルクロスオーバーの逆位置においてシングルクロスオーバーがおこった株が、目的の変異株であるため、確率的に50%が当たり株である。当たり株の取得については、導入したDNAタグをプライマーとしてコロニーPCRをおこなう、もしくは、ベクター内にプライマーを設計し、同様にコロニーPCRを行なう等の手法で容易にスクリーニングすることができる。最終的には、目的領域にDNAタグが正しく導入されていることをシーケンシングにより確認しても良い。これらの方法の流れを図８に示す。

　変異株細胞の保存方法としては、従来公知の細胞保存方法より、細胞の種類及び保存期間等を総合的に考慮して適切な方法を適宜選択することができ、例えば、冷蔵保存、凍結保存、凍結乾燥保存及びスラント培地保存等を挙げられる。また、ＤＮＡタグが導入された細胞を、数十年以上の単位で保存するような場合、特に胞子形成能を有する微生物を宿主細胞として使用し、胞子の状態で保存することが好ましい。

　上記工程を経て得られたＤＮＡタグが導入された変異株の変異導入領域について、相同置換によってＤＮＡタグが正しく導入され、且つベクター配列がゲノム中に残存していないことを確認するため、従来公知の方法に従ってシーケンシングを行っても良い。本発明には、このようにして得られるＤＮＡタグが導入された変異株が包含される。

　以上、シングルクロスオーバーによる相同組み換えを用いた手法を例示したが、本発明のDNAタグ導入変異株の製造方法は、これに限定されず、これを応用した様々な手法が考えられる。例えば、工程(i)では、DNAタグを導入する生物にて複製可能なoriを持つベクターを用いてDNAタグ領域をクローニングし、工程(ii)では、ダブルクロスオーバーにて相同組み換えを起こした変異株を取得する。これは例えばDNAタグ配列のプライマー、及び、宿主ゲノムDNA配列内で、ベクターにクローニングされたDNAタグ配列の上流領域の更に上流にて設計されたプライマーを用いてPCRを行なうことで、目的の変異体を取得できる。工程(iii)では、マーカーとして用いた抗生物質を含まない培地で適宜培養し、プラスミドが脱落した変異株を取得する。この様に、各工程の工夫により、様々な導入法が考えられるが、シングルクロスオーバーによる相同組み換えを用いる手法が、簡便且つ確実な取得法である。

　(3)ＤＮＡタグを用いたモニタリング方法
　本発明は、上記(2)においてＤＮＡタグが導入された細胞を、上記(1)において設計されるＤＮＡタグを認識するプライマーを用いてモニタリングする方法をも提供するものである。本方法によれば、ＤＮＡタグを指標に、浄化の進行状態、微生物の拡散状態を正確に把握することができる。例えば、ＤＮＡタグが導入された微生物をバイオレメディエーションに用いた場合であれば、当該微生物を撒布した環境から環境ゲノムＤＮＡ（自然環境から得られた全DNA）を取得し、ＤＮＡタグを認識するプライマーを用いた定量ＰＣＲ法等によって当該微生物を検出、定量することができる。

　より具体的には、ＤＮＡタグをゲノム中に含む微生物を、バイオレメディエーションを行うために撒布し、適宜経時的に当該微生物の菌体数を定量し、その菌体数の増減に応じて、適切な当該微生物の追加散布等を行なうことができる。また、例えば、土壌改良が終了した段階で、撒布領域外において土壌や水を採取して、当該微生物が検出されなければ、撒布微生物の周囲への拡散が生じていないと判断することができる。

　(4)生物の標識方法
　本発明は、前記ＤＮＡタグ及び導入位置の決定方法に基づいて得られた塩基配列を生物のゲノムＤＮＡ中の所定の位置に導入することを特徴とする生物を標識する方法をも提供するものである。ＤＮＡタグの取得及び位置決定方法、ならびに当該ＤＮＡタグを生物のゲノムＤＮＡに導入する方法については、前述の通りである。

　以下、試験例等を示して本発明をより詳細に説明するが、本発明はこれらに限定されない。

　参考試験例１
　NCBIに登録されているバクテリア、アーキア、ウイルスの全ゲノム配列のデータ及び、プラスミドDNA配列のデータを用いて、プログラムP1を用いて生物界での利用頻度が低い塩基配列（1～12塩基）を取得した（以下、「特異配列」と略記することがある）。利用頻度の低い塩基配列の検索において、計算時間の問題で最長を12塩基に設定した。従って計算時間を考慮しなければ、より長い配列も取得可能である。

　試行(a)：バイオレメディエーションに用いられるRhodococcus sp.のゲノム配列データより、15～30塩基（定量PCRのプラーマーとして利用できる長さの塩基配列）をランダムに取得し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。（1万回試行）

　試行(b)：Rhodococcussp.のゲノム配列データより、15～30塩基をランダムに取得し、さらにこれらの塩基配列のコドン第三塩基にランダムにサイレントミューテーションを加えたデータセットを作製し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。（1万回試行）

　試行(c)：Rhodococcussp.のゲノム配列データより、15～30塩基をランダムに取得し、さらにこれらの塩基配列のコドン第三塩基にサイレントミューテーションを加えることで、特異配列の12塩基を含むよう設計できる領域を検索し、この領域に特異配列を組み込んだデータセットを作製し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。（1000回試行）

[規則91に基づく訂正 10.04.2009]　
　［結果］
　各試行(a)～(c)における塩基長とメタゲノム中の出現率を図６に示す。一般的にプライマーとしては30塩基長程度のものまでしか使用することができない。図６において、試行(b)及び(c)では、塩基配列の長さが29塩基長又は30塩基長において出現率がゼロになっており、環境メタゲノム中に全く出現していないことを示している。すなわち、ランダムにプライマーを設計した時にくらべ、本発明の方法を利用してプライマーを設計した場合、通常設計される長さのプライマーの範囲で、環境中のゲノム配列に対して非特異的に結合する可能性を大幅に低減できることが示された。

　試験例I
　１．手法と対象
　(1-1) 対象とする生物種の決定
　対象とする生物種にBacillus subtilis 168株（枯草菌）を選択した。Bucillus属の中には石油分解能を有するものがあり、バイオレメディエーションの分野で広く使用されている。そのため、全ゲノム配列も決定され、必須遺伝子なども数多く同定されている枯草菌が本解析のモデル生物として妥当と考えた。

　(1-2) 対象とする遺伝子の決定
　枯草菌の全4106のタンパク質コード遺伝子の塩基配列情報をNCBIのGenBank（http://www.ncbi.nlm.nih.gov/）より取得した。次に、その中から270の必須遺伝子（Kobayashi et al. Proc. Natl. Acad. Sci. USA. 003 Apr 15;100(8):4678-83.）を除外した。

　また、タグ導入の対象となる生物について、常に全ゲノム配列情報が入手できるとは限らない。そうした場合、ユニバーサルプライマーを用いて16S rRNA遺伝子周辺のDNA配列を適宜決定し、タグ導入を行うことが想定される。そうしたケースでも十分に特異性の高いプライマー設計ができることを実証するため、本解析ではrRNA遺伝子の周辺遺伝子のみを使用することとした。具体的には、rRNA遺伝子周辺10 kbp内（rRNA遺伝子の5’末端から5’方向に5 kbp、3’末端から3’方向に5 kbp）の遺伝子のみを本解析でタグ導入の対象とする遺伝子とし、それ以外は除外した。その結果、93の遺伝子（合計≒70,000 bp）が本解析の対象となった。

　(1-3) 断片化配列の作成
　上記で決定した93の遺伝子を、18塩基のウィンドウサイズで断片化した結果、67,953本の断片化配列が作成された。

　(1-4) 陰性対象データの作成
　本発明の妥当性を検証するため、サイレント変異によるDNAタグを導入していない断片化配列を比較対象に用いた。手法（1-3）で決定された67,953本の断片化配列の中から、下記機能性評価基準(a)～(c)に基づいて、プライマー配列として十分な機能性を持つと判断された計2,238本の候補を比較対象（以下、陰性対象データとする）とした。なお、(a)～(c)はいずれもプライマー設計の際に一般的に良く使用される基準である。
　　　　(a) GC含量が40%以上60%以下であること
　　　　(b) Tm値が55℃以上65℃以下であること
　　　　(c) 末端の塩基がGまたはCであること

　(1-5) DNAタグ導入配列の作成
　67,953本の断片化配列1つ1つに対して、サイレント変異を加えることで元の配列と異なる配列になるパターンを全て作成した。さらに、サイレント変異を施した後に、前記機能性評価基準(a)～(c)に基づいてプライマー配列としての機能性評価を行い、候補を篩にかけた。その結果、812,864本のタグ導入配列が作成された。

　(1-6) DNAタグ導入配列のNearest Match Score (NMS) と出現頻度の算出
　812,864本のDNAタグ導入配列を問い合わせ配列とし、全ゲノムデータベースについて相同性検索をかけ、NMSと出現頻度を算出した。全ゲノムデータベースは、全ゲノム配列が決定されている全ての原核生物、古細菌、プラスミドおよびウイルスのゲノム塩基配列を包含する。ゲノム塩基配列のデータは全てNCBIのFTPサイト（http://www.ncbi.nlm.nih.gov/）より取得した（表１）。相同性検索には、NCBI Blast（http://blast.ncbi.nlm.nih.gov/Blast.cgi）を用いた。なお、本解析においては、相同性50%未満のものは、相同領域としてカウントしないものとした。

　２．比較対照実験
　(2-1)本発明の妥当性を検証するため、はじめに以下に示す(w)～(z)の配列を用意した。
　　　(w) NMS<50%となった全タグ導入配列計234本
　　　（1-6）で作成した全812、864のタグ導入配列の内、NMS下位およそ0．025%に相当
　　　(x) （1-6）で作成した全812、864のタグ導入配列の内、NMS下位およそ0．05%に相当する404本の配列
　　　(y) （1-6）で作成した全812、864のタグ導入配列の内、NMSが上位およそ0．05%に相当する409本のタグ導入配列
　　　(z) 2238本のタグ未導入配列（(1-4)で作成した陰性対象データ）

　(2-2)次に、バイオレメディエーションが対象とする土壌等のように、不特定多数のDNA配列が混在する環境を仮想的に再現するため、NCBIに登録されている環境メタゲノム配列を取得し環境DNAデータベースとした（表２）。

[規則91に基づく訂正 10.04.2009]　
　(w)～(z)の配列を問い合わせ配列とし、環境DNAデータベースにBlastを用いた相同性検索にかけ、各配列のNMSを算出した。(w)～(z)の各データセットにおけるNMSの分布を、箱ひげ図で示す（図７）。

　ｗ、x、yの比較から、全ゲノムデータベースにおいて算出されたNMSや出現頻度が低ければ低いほど、環境DNAデータベース中においても相同領域が現れなくなることがわかる。この結果は、生物のDNA内には普遍的に出現しにくい配列、または逆に共通して普遍的に出現しやすい配列が存在することを示唆すると同時に、限られたゲノム配列（本解析では全ゲノムデータベース）から算出されたNMSという指標で、環境DNA中におけるプライマーの特異性をある程度予測可能であることを意味している。

　次に、全ゲノムデータベースにおいてNMSおよび出現頻度の低い配列（wおよびｘ）は、DNAタグを導入していない元の配列（z）よりも、環境DNAデータベース中において相同領域が少ないということがわかる。この結果は、NMSが低くなるようにサイレント変異を挿入することで、プライマーの特異性を向上させることが可能であるとした本発明の妥当性を示す結果である。

　データセット(z)は、第1四分位点、第３四分位点および中央値が同様の値を示している。なお、本解析では相同性50%未満の領域はカウントしていないため、NMS=0と算出された配列のNMSは全て50とした。母数はwが234、xが404、yが409、zが2238である。

[規則91に基づく訂正 10.04.2009]　
　一般的に、配列相同性80%程度で、プライマーは非特異的な反応をしてしまうことが知られている。図７から、DNAタグを挿入していない配列（z）は全て、環境DNAデータベース中に80%以上の相同領域を有していることがわかる。これは、DNAタグ技術を利用しなければ、枯草菌から選出された93の遺伝子上には、特異的なプライマーを設計できる領域が一つも存在しないことを意味する。逆に、NMSが低くなるようにDNAタグを挿入した配列（wまたはx）は75%以上が、環境DNA中においてもプライマーとして特異性を有することが示された（下記箱ひげ図における第３四分位点より算出）。

　試験例II
　カルタヘナ法に規定される「遺伝子組換え生物」に該当しないDNAタグが導入された変異株を取得するため、以下の試験を実施した。

　(II-1)対象生物及びDNAタグ導入領域の決定、ならびに形質転換用ベクターの作製
　バイオレメディエーションを行う際、種々の環境浄化を行なうことのできる微生物を開放環境中で利用するため、カルタヘナ法に規定される「遺伝子組換え生物」に該当しない生物しか産業的に利用することができない。例えば石油による汚染土壌の浄化を行なう際、Bacillus属細菌が一般的に用いられている。そこで、Bacillus subtilis 168株を用いて試験を行なった。

[規則91に基づく訂正 10.04.2009]　
　DNAタグを導入する対象とする遺伝子は、極力宿主細胞の増殖に影響の少ないと考えられる遺伝子を選択した。当該遺伝子は、ローカスタグBSU03680、遺伝子座417561-419315の機能未知遺伝子である。当該遺伝子へのDNAタグ挿入試験を行なうにあたり、遺伝子の中間領域に当たる418431-418547の領域をDNAタグ導入領域と定め、ランダムなサイレント変異を導入した配列を疑似DNAタグとした。同配列の上流配列200塩基、および、同配列の下流配列200塩基を付加した全長520塩基の人工的な遺伝子を、既知の人工遺伝子構築法により合成し(GenScript社)、上流および下流に付加したEcoRI制限酵素サイトを用いてpHASH203プラスミドベクター上に構築し、pBS4106IDと命名した（図９）。耐性遺伝子としては、エリスロマイシン耐性遺伝子を用いた。また、同プラスミドは、Eshcherichia coli DH5α株を用いて構築した。シーケンス結果を図１０,１１に示す。

　以下にDNAタグ導入領域の配列（配列番号１）、DNAタグ（配列番号２）及びDNAタグ導入後の配列（配列番号３）を示す。なお、下記配列番号２において、網掛け部分はサイレント変異が導入されていることを示す。

　以下にDNAタグが導入された遺伝子配列を示す。DNAタグ領域を四角で囲った。（上流および下流約200塩基を含む）。

　(II-2)B. subtilis 168株の形質転換
　pBS4106IDを用い、B. subtilis168株の形質転換を行なった。まず、前培養としてLB寒天培地（Tripton 10g/L, Yeast Extract 5g/L, NaCl 10g/L, 1.5% アガロース）に白金針でB. subtilis 168株を植菌し、室温で培養した。次に、シングルコロニーをCI media 5mL(1xMM培地 5mL, 50% glucose 50μL, 1M MgSO4 25μL, L-ロイシン 5mg/mL 50μL, L-トリプトファン 5mg/mL 50μL, 5% Yeast Extract 50μL)にOD660=0.1となるように植菌し、37℃で震盪培養した。OD660=1.5に達した時点で培養液500μLを遠心チューブにとり、15,000rpmで2分間遠心分離し、上清を取り除いて菌体ペレットを得た。

　菌体ペレットをCII media 1mL(1xMM培地 5mL, 50% glucose 50μL, 1M MgSO4 25μL, L-ロイシン 5mg/mL 5μL, L-トリプトファン 5mg/mL 5μL, 5% Yeast Extract 25μL)にVortexによりけん濁し、小試験管に100μL分注後、100ngのベクターを加えて37℃にて90分振盪培養した。培養後、300μLのLB培地を加えてさらに60分培養し、5μg/mlのエリスロマイシンを含むLB寒天培地にプレーティング後、37℃にて一晩培養した。出現したコロニーは、すべて相同組換え（シングルクロスオーバー）にてpBS4106ID配列が宿主ゲノムに導入されていた。このようにして得られた、B. subtilis 168株の形質転換体をBS4106A株と命名した。

　(III-3)目的変異株の取得
　BS4106A株から、DNAタグ領域だけを宿主ゲノム内の遺伝子領域と入れ替え、余分なpBS4106IDベクター由来の配列を削除するため、薬剤（エリスロマイシン）を含まないLB培地5mLに植菌し、37℃で36時間振盪培養した（30分に1回分裂したと仮定すると、約70世代となる）。この培養液をLB培地で1000倍希釈し、LB寒天培地にプレーティングした。出現したコロニーを、5μg/mlのエリスロマイシンを含むLB寒天培地、及び薬剤を含まないLB寒天培地に白金針でそれぞれパッチして、エリスロマイシン感受性の株を取得した。取得した菌株200コロニーについて、pBS4106IDの内部配列でプライマー（配列番号４及び５）を設計し、コロニーPCRを行った。コロニーPCRによって増幅しなかった菌株について、シーケンシングを行い、DNAタグが正しく導入された菌株を取得した。このようにして得られた菌株をBS4106IDと命名した。なお、BS4106ID株は、DNAタグ領域だけが宿主ゲノム内の遺伝子領域と入れ替わっており、カルタヘナ法に規定される「遺伝子組み換え生物」に該当しないものであった。

　コロニーPCRに用いたプライマー配列は以下の通りである。
ERM-F（配列番号４）
5’-
CGTAGAGCACACGGTTTAACG
－　3’
TET-R2（配列番号５）
5’-
GCCATAGTGACTGGCGATGC
- 3’

シーケンシングに用いたプライマー配列は以下の通りである。
bs4106id_F（配列番号６）
5’-
AGGATATGGCGAAGGTGACG
- 3’

bs4106id_R（配列番号７）
5’-
GTCATCTGACAGCACTGCGC
- 3’

符号の説明

１　　コンピュータ
２　　表示部
３　　操作部
４　　ネットワーク
５　　データベース（ＤＢ）
１１　演算処理部（ＣＰＵ）
１２　書換可能メモリ（ＲＡＭ）
１３　記録部
１４　インタフェース部（ＩＦ部）
１５　内部バス

配列番号２は導入されるDNAタグを示す。
配列番号３はDNAタグが導入されたBacillus subtilis 168株の遺伝子座417561-419315を示す。
配列番号４はERM-Fプライマーを示す。
配列番号５はTET-R2プライマーを示す。
配列番号６はbs4106id_Fプライマーを示す。
配列番号７はbs4106id_Rプライマーを示す。

Claims

　生物のゲノムＤＮＡ配列に導入される塩基配列であるＤＮＡタグ、及び該ＤＮＡタグの前記ゲノムＤＮＡ配列への導入位置を決定する方法であって、
　前記ゲノムＤＮＡ配列からタンパク質コード配列を取得するステップＳ１と、
　前記タンパク質コード配列から、処理対象領域として第１コード配列を決定するステップＳ２と、
　前記第１コード配列中の部分配列からなり、所定の長さの複数の第２コード配列を取得し、前記タンパク質コード配列中の前記第２コード配列の位置を記録するステップＳ３と、
　前記ステップＳ３で取得された第２コード配列のそれぞれに対して、サイレント変異を施した１以上の第３コード配列を取得するステップＳ４と、
　前記第３コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第３コード配列のみを第４コード配列として決定するステップＳ５と、
　前記第４コード配列について相同性検索を行ない、相同性塩基配列を取得するステップＳ６と、
　前記第４コード配列毎にＮＭＳを決定するステップＳ７と、
　前記ＮＭＳの最小値に対応する第４コード配列を前記ＤＮＡタグとして決定し、該第４コード配列に対応する前記第２コード配列の前記位置を、前記導入位置として決定するステップＳ８とを含み、
　前記ステップＳ２において、前記第１コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
　前記所定条件が、前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
　前記ＮＭＳが、相同性の程度を表すことを特徴とするＤＮＡタグ及び導入位置の決定方法。
　さらに、
　同じＮＭＳを複数有する第４コード配列が存在する場合、それらのＮＭＳの内、出現頻度が最小であるＮＭＳに対応する第４コード配列を、前記タグとして決定するステップＳ９を含むことを特徴とする請求項１に記載のＤＮＡタグ及び導入位置の決定方法。
　前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドが前記プライマーとして適切である前記条件が、
　前記相補的塩基配列のＣＧ含有量が、４５～５５％であり、
　前記相補的塩基配列のｔｍ値が、５５～６５℃であり、且つ、
　前記相補的塩基配列中に、同じ塩基が４つ以上連続して存在しない
　ことを特徴とする請求項１又は２に記載のＤＮＡタグ及び導入位置の決定方法。
　コンピュータに、生物のゲノムＤＮＡ配列に導入される塩基配列であるＤＮＡタグ、及び、該ＤＮＡタグの前記ゲノムＤＮＡ配列への導入位置を決定する機能を実現させるプログラムであって、
　前記コンピュータに、
　前記ゲノムＤＮＡ配列からタンパク質コード配列を取得する第１機能と、
　前記タンパク質コード配列から、処理対象領域として第１コード配列を決定する第２機能と、
　前記第１コード配列中の部分配列からなる所定の長さの複数の第２コード配列を取得する第３機能と、
　前記第３機能によって取得された第２コード配列のそれぞれに対して、サイレント変異を施した１以上の第３コード配列を取得する第４機能と、
　前記第３コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第３コード配列のみを第４コード配列として決定する第５機能と、
　前記第４コード配列について相同性検索を行ない、相同性塩基配列を取得する第６機能と、
　前記第４コード配列毎にＮＭＳを決定する第７機能と、
　前記ＮＭＳの最小値に対応する第４コード配列を前記ＤＮＡタグとして決定し、該第４コード配列に対応する前記第２コード配列の前記位置を、前記導入位置として決定する第８機能とを実現させ、
　前記第２機能において、前記第１コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
　前記所定条件が、前記第３コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
　前記ＮＭＳが、相同性の程度を表すことを特徴とするタグ及び導入位置の決定プログラム。
　以下の工程を含む、ＤＮＡタグ導入変異株の製造方法。
(i)請求項１～３のいずれかに記載の方法によって決定されたＤＮＡタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程；
(ii)前記工程(i)で得られたＤＮＡタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程；及び
(iii)前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、ＤＮＡタグがゲノム中に相同組換えされた変異株を得る工程。
　さらに、前記マーカー遺伝子が生物のゲノム中に含まれていないことを確認する工程を含む、請求項５に記載の方法。
　請求項５又は６に記載の方法によって得られる変異株。
　請求項１～３のいずれかに記載の方法によって決定されたＤＮＡタグを含むベクター。
　請求項８に記載のベクターによってDNAタグが導入されたゲノムDNA。