+

WO2010086990A1 - Dnaタグの構築方法 - Google Patents

Dnaタグの構築方法 Download PDF

Info

Publication number
WO2010086990A1
WO2010086990A1 PCT/JP2009/051512 JP2009051512W WO2010086990A1 WO 2010086990 A1 WO2010086990 A1 WO 2010086990A1 JP 2009051512 W JP2009051512 W JP 2009051512W WO 2010086990 A1 WO2010086990 A1 WO 2010086990A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
dna
coding sequence
determining
tag
Prior art date
Application number
PCT/JP2009/051512
Other languages
English (en)
French (fr)
Inventor
潤一 菅原
和秀 関山
Original Assignee
スパイバー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by スパイバー株式会社 filed Critical スパイバー株式会社
Priority to JP2009505664A priority Critical patent/JP4547522B1/ja
Priority to CA2788452A priority patent/CA2788452C/en
Priority to EP09839182.4A priority patent/EP2397543B1/en
Priority to US13/147,128 priority patent/US8691581B2/en
Priority to PCT/JP2009/051512 priority patent/WO2010086990A1/ja
Publication of WO2010086990A1 publication Critical patent/WO2010086990A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to a DNA sequence having high primer specificity in an unspecified DNA sequence group, a method for determining the introduction position of the DNA sequence into genomic DNA, and an introduction method.
  • bioremediation The treatment (purification) that returns the natural environment contaminated with harmful substances using microorganisms (for example, soil-improving bacteria) to the state before pollution without containing harmful substances is called bioremediation.
  • bioremediation accurate monitoring of microorganisms distributed in the environment is indispensable in order to grasp the progress of purification. In addition, it is required to accurately grasp the number of remaining bacteria when purification is completed.
  • Non-Patent Documents 2 to 3 So far, many techniques and programs for improving the specificity of primers in PCR have been reported (for example, see Non-Patent Documents 2 to 3). However, both techniques are specialized for PCR on isolated and cultured organisms. In the case of an organism that has been isolated and cultured, the possibility that the designed primer will react outside the target region can be estimated by searching the genome. On the other hand, it is very difficult to estimate the specificity of primers in environmental DNA in which a large number of unspecified organisms coexist.
  • Bioremediation has advantages such as lowering costs and energy consumption compared to physicochemical purification methods, and is a mild technique that does not place a burden on the ecosystem.
  • sufficient knowledge has not been obtained about the environmental impact of distributing microorganisms for purification. Therefore, in addition to grasping the progress of purification, there has been a strong demand for accurate monitoring means in order to grasp the spread of disseminated microorganisms and the impact on the ecosystem at the dissemination site.
  • the main object of the present invention is to provide a technique for introducing a DNA sequence having high primer specificity (hereinafter sometimes referred to as “DNA tag”) into a microbial genome in an environment where unspecified organisms coexist.
  • DNA tag a DNA sequence having high primer specificity
  • the present inventors have selected a DNA sequence that tends not to be used universally, and universally in an environmental DNA in which an unspecified number of organisms are mixed.
  • a program was designed to allow easy selection of available primers.
  • the present inventors use, for bioremediation, a microorganism in which a low-use sequence (or a complementary sequence thereof) is integrated in the genome in the organism obtained as described above, and a low-use sequence in the organism. It has been found that the use of a primer composed of the above makes it possible to accurately and simply grasp the diffusion state of the microorganism and the progress of purification.
  • the present invention has been completed as a result of further studies based on these findings.
  • the present invention provides the following DNA tag and method for determining the introduction position.
  • a DNA tag which is a base sequence to be introduced into a genomic DNA sequence of an organism, and a method for determining the position of introduction of the DNA tag into the genomic DNA sequence, Obtaining a protein coding sequence from the genomic DNA sequence; and Determining a first coding sequence as a region to be processed from the protein coding sequence; Step S3, comprising a partial sequence in the first coding sequence, obtaining a plurality of second coding sequences of a predetermined length, and recording the position of the second coding sequence in the protein coding sequence; Step S4 for obtaining one or more third coding sequences subjected to silent mutation for each of the second coding sequences obtained in Step S3; Determining whether or not the third code sequence satisfies a predetermined condition, and determining only a third code sequence that satisfies the predetermined condition as a fourth code sequence; Performing a homology search on the fourth coding sequence to obtain a homologous base sequence; and Determining an NMS for each of the fourth code
  • the step includes a step S9 of determining, as the tag, a fourth code sequence corresponding to the NMS having the lowest appearance frequency among the NMS.
  • the conditions under which the polynucleotide comprising the third coding sequence or a complementary base sequence thereof is suitable as the primer are:
  • the CG content of the complementary base sequence is 45 to 55%
  • the complementary base sequence has a tm value of 55 to 65 ° C., and 4.
  • Item 4 A program for causing a computer to realize a function of determining a DNA tag that is a base sequence to be introduced into a genomic DNA sequence of an organism, and a position where the DNA tag is introduced into the genomic DNA sequence,
  • a first function of obtaining a protein coding sequence from the genomic DNA sequence A second function for determining a first coding sequence as a region to be processed from the protein coding sequence;
  • a fourth function for obtaining one or more third coding sequences subjected to silent mutation for each of the second coding sequences obtained by the third function;
  • a method for producing a DNA tag-introduced mutant comprising the following steps. (i) a step of preparing a DNA tag determined by the method according to any one of claims 1 to 3 and cloning it into a vector containing a marker gene; (ii) a step of transforming a cell of an organism with a vector in which the DNA tag obtained in the step (i) is cloned; and (iii) A step of continuously culturing or subculturing the cells transformed in the step (ii) to remove the marker gene and obtaining a mutant strain in which the DNA tag is homologously recombined in the genome.
  • Item 6. The method according to Item 5, further comprising the step of confirming that the marker gene is not contained in the genome of the organism.
  • Item 7. A mutant obtained by the method according to Item 5 or 6.
  • Item 8. A vector comprising a DNA tag determined by the method according to any one of Items 1 to 3.
  • Item 9. Genomic DNA into which a DNA tag is introduced by the vector according to item 8.
  • Item 10. Item 9. A mutant comprising the genomic DNA described in 1.
  • Item 11 Quantifying the number of mutant strains containing the DNA tag in the environment using a primer comprising a polynucleotide of the nucleotide sequence of the DNA tag determined by the method of Items 1 to 3 or a complementary nucleotide sequence thereof, How to monitor the progress of purification.
  • Item 12 A method for evaluating the diffusion of a mutant strain containing the DNA tag in the environment, using a primer comprising a polynucleotide of the base sequence of the DNA tag determined by the method of Items 1 to 3 or a complementary base sequence thereof.
  • Item 13 A method for labeling an organism, which comprises introducing the DNA tag into the genomic DNA of the organism using a vector in which the DNA tag determined by the method of Items 1 to 3 is cloned.
  • a primer having such a DNA sequence can dramatically improve the specificity of the primer in quantitative PCR used in the field of bioremediation etc. It is possible to accurately and easily grasp the progress of purification and the diffusion of microorganisms.
  • the Cartagena method prohibits the distribution of genetically modified microorganisms in an open environment.
  • a recombinant by self-cloning does not fall under the “genetically modified organism” defined in the Cartagena method. Therefore, any mutant in which the genomic DNA sequence of the cells other than the region into which the DNA tag is introduced has not been altered can be used even in an open environment without violating the Cartagena method. That is, according to the method of the present invention, it is possible to introduce a DNA tag into the genome of an organism in a manner that does not correspond to a “genetically modified organism” in the Cartagena law.
  • a vector is introduced into a host and selected with antibiotics (at this time, a mutant strain produced by homologous recombination is obtained).
  • the obtained mutant strain is cultured in a medium not containing antibiotics.
  • a mutant strain that has lost antibiotic resistance by homologous recombination is obtained.
  • a mutant strain in which a DNA tag is correctly introduced and does not contain a vector sequence is obtained by sequencing. It is the schematic showing pBS4106ID constructed
  • the sequence (second half) result implemented in the reference test example 3 is shown.
  • FIG. 1 is a block diagram showing a configuration of a device used in a method for determining a DNA tag and its introduction position according to an embodiment of the present invention.
  • the “DNA tag” means a DNA sequence that is unlikely to appear in the natural environment (a DNA sequence, regardless of whether it is a normal strand or a reverse strand, and this or its complementary sequence is used as a “primer”).
  • the “introduction position” of the DNA tag means a position in the DNA sequence of an organism into which the DNA tag is to be introduced (partial sequence is replaced with the DNA tag).
  • the DNA of an organism to which a DNA tag is to be introduced is not particularly limited as long as the organism has a DNA into which the tag can be introduced by a known technique.
  • prokaryote, archaea examples include eukaryotes.
  • culture conditions and storage conditions are known, and it is preferable to use microorganisms such as Escherichia coli, Bacillus subtilis and yeast that can be stored for a relatively long period of time.
  • microorganisms and the like used for environmental purification bacteria group having petroleum degradability, bacteria group having various harmful chemical substance resolution, Examples include bacteria that absorb environmental salts.
  • the present invention includes introducing a DNA sequence tag into a plasmid.
  • the apparatus includes a computer 1, a display unit 2, and an operation unit 3.
  • the display unit 2 is, for example, a liquid crystal display device or a CRT display device.
  • the operation unit 3 is, for example, a computer keyboard or mouse.
  • the computer 1 includes an arithmetic processing unit (hereinafter referred to as CPU) 11, a rewritable memory (hereinafter referred to as RAM) 12 that can temporarily hold data, and a rewritable hard disk that can continuously hold data.
  • a recording unit 13 such as a drive, an interface unit (hereinafter referred to as an IF unit) 14, and an internal bus 15 are provided.
  • the recording unit 13 records programs and data executed by the CPU 11.
  • the IF unit 14 serves as an interface between the computer 1 and an external device. That is, the CPU 11 displays a processing result or the like on the display unit 2 via the IF unit 14, and acquires information related to the operation via the IF unit 14 when the operation unit 3 is operated by a person, for example.
  • the computer 1 is connected to the network 4 via the IF unit 14.
  • the network 4 may be a public network such as the Internet or a local network.
  • a database 5 (hereinafter referred to as DB) 5 in which genomic DNA is recorded is also connected to the network 4 in the same manner.
  • Each unit constituting the computer 1 exchanges data via the internal bus 15.
  • the computer 1 can perform processing such as obtaining an instruction from the operation unit 3 and using the DB 5 in addition to the original computation processing of the computer.
  • one DB 5 is shown in FIG. 1, a plurality of DBs may be provided.
  • FIG. 3 is a block diagram showing the relationship of arrays generated in the process described later.
  • the CPU 11 appropriately reads necessary data from the recording unit 13 to the RAM 12, performs processing using a predetermined area of the RAM 12 as a work area, and records temporary processing results and final processing results in the recording unit 13 as appropriate. I decided to. Further, it is assumed that initial data is recorded in the recording unit 13 in advance.
  • genomic DNA information of the organism into which the tag is to be introduced that is, the base sequence (single-stranded sequence) is obtained.
  • genomic DNA information for example, text data
  • genomic DNA information may be acquired from DB5.
  • CDS Coding Sequence
  • step S2 a region to be processed in the following steps is determined from all the protein coding sequences determined in step S1. That is, regions that are thought to have a great influence on the growth and phenotype of host cells (organisms) by adding silent mutations are excluded from the protein coding sequence. Examples of excluded regions include, for example, the sequences of essential genes in general, functional sequences, sequences near the translation start point (approximately 50 bases downstream) that are considered to be greatly involved in controlling protein translation efficiency, and sequences near the stop codon. (Upstream about 50 bases).
  • FIG. 3 shows the determined CDS to be processed.
  • the determined processing target CDS is recorded in the recording unit 13 in association with the genomic DNA information.
  • the position information of the processing target CDS in the protein coding sequence (hereinafter also referred to as first position information) is also recorded in the recording unit 13 in association with the processing target CDS. That is, ⁇ genomic DNA information, CDS to be processed, first position information ⁇ is recorded as one set.
  • each processing target CDS determined in step S2 is fragmented to a specified size. That is, a CDS having a predetermined continuous length (hereinafter sometimes referred to as a fragmented CDS or a second code sequence) is selected from the CDS to be processed. For example, as shown in FIG. 4, a fragmented CDS having a specified size (for example, 12 bases) is selected by shifting the head position by one base. Therefore, when a fragmented CDS is composed of m base sequences (designated size is m), mn + 1 fragmented CDS is determined from one CDS to be processed composed of n base sequences. Is done. The determined fragmented CDS is shown in FIG.
  • the size of the fragmented CDS can be arbitrarily set as long as it functions as a primer, but usually it is preferably 15 to 30 bases, more preferably 17 to 25 bases.
  • the original processing target CDS in which the fragmented CDS was generated, and position information of each fragmented CDS in the processing target CDS (hereinafter also referred to as second position information) Is recorded in the recording unit 13. That is, ⁇ processing target CDS, fragmented CDS, second position information ⁇ is recorded as one set. Therefore, if one fragmented CDS is specified, the corresponding second position information, the corresponding CDS to be processed and the first position information are determined, and the first position information and the second position information are used to determine The location of the fragmented CDS is identified.
  • each fragmented CDS determined in step S3 is subjected to a silent mutation to obtain one or more silent mutant CDSs (hereinafter sometimes referred to as a third coding sequence). That is, in each fragmented CDS, a CDS in which each codon is replaced with a synonymous codon (a codon that translates the same amino acid but having a different base sequence) is prepared.
  • a synonymous codon a codon that translates the same amino acid but having a different base sequence
  • a fragmented CDS is ATTCTGCACGAT and the position of the base sequence at the 5 ′ end of the protein coding sequence to be processed is 0, the 5 ′ of the fragmented CDS in the protein coding sequence to be processed If the position of the terminal base is a multiple of 3 (calculated from the first and second information), this is a sequence containing four complete codons and translates the amino acid Ile-Leu-His-Asp It is an array to do. These amino acids have synonymous codons as shown in Table A.
  • fragmented CDS when a fragmented CDS is ATTCTGCACGAT and the position of the base sequence at the 5 ′ end of the protein coding sequence to be processed is 0, 5 of the above-mentioned fragmented CDS in the protein coding sequence to be processed 'If the position of the terminal base is not a multiple of 3, the fragmented CDS will contain 3 complete codons and 2 incomplete codons (due to lack of base information for the first and last codons) . In this case, the deficient bases of the two incomplete codons can be supplemented by referring to the genomic DNA information recorded in the recording unit 13.
  • the generated silent mutant CDS is recorded in the recording unit 13 in association with the original fragmented CDS. That is, ⁇ silent mutation CDS, fragmented CDS ⁇ is recorded as one set.
  • the silent mutation may be introduced at one or more codons constituting the fragmented CDS, but preferably the silent mutation is introduced at all codons constituting the fragmented CDS.
  • each codon only one of the bases capable of introducing a silent mutation, more preferably only the third base, can be the target of silent mutation.
  • the frequency of use of all codons in the genome DNA of the organism to which the tag is introduced is calculated in advance, and from the information, the frequency of usage is extremely low in the genome DNA of the organism to which the tag is introduced. Codon usage can also be avoided during the introduction of silent mutations.
  • step S5 the function of the silent mutant CDS itself generated in step S4 itself or a polynucleotide comprising its complementary base sequence as a primer is evaluated, and silent mutant CDS not satisfying the predetermined criteria are excluded.
  • the exclusion can be performed, for example, by setting a flag added to each fragmented CDS to a value (for example, “1”) different from the initial value (for example, “0”). In this case, ⁇ silent mutation CDS, fragmented CDS, flag ⁇ are recorded as one set.
  • examples of the evaluation criteria include the following conditions (a) to (c).
  • (a) GC content is 40-60%, preferably 45-55%;
  • (c) 5 or more, preferably 4 or more identical bases are not consecutive. If a silent mutant CDS itself or its complementary base sequence does not meet one of these conditions, the silent mutant CDS is excluded.
  • the GC content is a ratio (%) of the number of GC bases in the base sequence.
  • the tm value is a temperature at which 50% of double-stranded DNA is dissociated into single-stranded DNA (melting temperature). Since the calculation method of GC content and tm value is well-known, detailed description is abbreviate
  • the silent mutant CDS having a function as a primer may be referred to as a fourth coding sequence.
  • step S6 the genomic sequence prepared in advance according to the purpose using the sequence alignment method for the silent mutant CDS (fourth coding sequence; that is, the flag is “0”) remaining as a result of step S5.
  • Perform a homology search in the database For example, if a primer obtained for bioremediation is used, a homology search is performed on an environmental DNA database for bioremediation using the BLAST method. More specifically, using genetic homology search software that is based on the Blast IV algorithm, etc., search the database provided by DDBJ, GENBANK, etc., or a database storing fragmentary base sequences such as genes.
  • the homology score is recorded (the homology score can be, for example, the ratio of the number of matched bases to the length of the silent mutant CDS). For example, in the BLAST method, an index such as Identity corresponds to this). In addition, the number of regions having homology equal to or greater than the threshold is counted.
  • the ratio of the number of bases matching the base length of the query is, for example, 80% or more, preferably 50% or more, more preferably 20% or more, Preferably, it can be set to be 10% or more.
  • the homology search is not limited to the BLAST method, and a known method such as the FASTA method can be used.
  • step S7 using the result of the homology search performed in step S6, that is, the response (response data) from the database to the query to the genome sequence database, the appearance frequency of each silent mutant CDS and NMS (Nearest Match Score )
  • various methods are known for homology search, and one of them may be used, and detailed description thereof is omitted here.
  • a region having a homology of 50% or more is defined as a homology region.
  • the genome sequence database to be used can be generated according to the purpose from a database provided by NCBI (National Center of Biotechnology Information) of the United States, for example.
  • NCBI National Center of Biotechnology Information
  • the appearance frequency is the number of genomes that have been hit (homology regions detected) as a result of homology search. Therefore, for a specific silent mutant CDS, the initial value of the appearance frequency is set to “0”, and if there is a genome hit by the homology search, the appearance frequency is increased by “1”. However, even when a plurality of regions are hit in one genome, the appearance frequency is increased by “1”. NMS is the homology value that is the largest among multiple hits.
  • FIG. 5 shows ATCCATCATGAC as an example of silent mutant CDS.
  • this silent mutant CDS it is assumed that two homology regions (hit 1 and hit 2) are obtained as a result of homology search in the database.
  • hit 1 is the first genomic DNA sequence no. 1 is a partial sequence of ATCTTAGATAAC in FIG. 2 is a partial sequence of ATCGTACACTCTA in 2 (different from the first genomic DNA sequence).
  • the identity of hit 1 is 83.3% and the identity of hit 2 is 66.7%. Therefore, 83.3% of the hit 1 with the largest identity is designated as the NMS of this silent mutant CDS.
  • the frequency of appearance of this silent mutant CDS is “2”. As will be described later, the appearance frequency is used as a screening index for determining a sequence that does not appear in the natural environment when NMS has the same rate in different silent mutations.
  • the NMS and the appearance frequency are determined for one silent mutant CDS, and these information is recorded in the recording unit 13 in association with each other. That is, ⁇ silent mutation CDS, NMS, appearance frequency ⁇ is recorded as one set.
  • step S8 the minimum value of the NMS recorded in step S7 is determined, the corresponding silent mutant CDS is determined as a tag, and the introduction position is determined from the corresponding position information (first and second position information). (Position in the genomic DNA sequence) is determined.
  • the determined tag and introduction information are displayed on the display unit 2, for example.
  • the corresponding silent mutant CDS is determined as a tag.
  • a step of determining the silent mutation CDS having the lowest appearance frequency among them as a tag may be added as step S9. This is because it is an object of the present invention to obtain a sequence (tag, primer) that does not appear in the natural environment.
  • the complementary base sequence of the tag can be used as a highly specific primer in quantitative PCR.
  • the present invention is not limited to the above-described embodiment, and various changes such as changing the processing order, deleting some processes, and replacing some processes with other contents Can be executed.
  • step S2 an area to be excluded may be designated from the outside.
  • step S2 not only a region considered to have a great influence on the host cell (organism) by silent mutation but also a further region may be excluded.
  • Specific examples include a region encoding a protein whose function is unknown and a region encoding a protein having an important function for achieving the purpose (for example, petroleum degrading enzyme if used for bioremediation). It is done. If there are many CDS to be processed, the fragmented CDS and the silent mutant CDS increase, so that the processing time becomes longer. Accordingly, in order to reduce the processing time, the CDS to be processed may be reduced within a range where a certain degree of accuracy can be obtained. Usually, about 50 to 1000 CDSs are targeted.
  • the continuous predetermined length regions are randomly selected so as not to overlap. Select to obtain multiple fragmented CDSs.
  • the functional evaluation criteria as a primer in step S5 are not limited to the above.
  • the terminal base instead of the condition (c) or in addition to the conditions (a) to (c), the terminal base may be G or C. That is, the sequence whose terminal base is A or T may be excluded from the processing target.
  • the degree of homology may be designated from the outside instead of using a predetermined degree of homology (50% or more in the above).
  • step S7 the case where NMS and the appearance frequency are used as the output standard has been described.
  • the present invention is not limited to this, and the GC content and the like may be considered.
  • primers used in PCR preferably have a GC content of about 55 to 65%. Further, it is more preferable that G and C are contained abundantly on the 3 'terminal side.
  • PCR since the binding between the 3 ′ end on the primer side and the 5 ′ end on the DNA side is emphasized, there are candidates with a small number of matching regions (the number of homologous bases detected during alignment). More preferred.
  • final criteria may be determined based on these criteria.
  • a method for producing a DNA tag-introduced mutant comprising the following steps. (i) a step of preparing a DNA tag determined by the method for determining a DNA tag and an introduction position, and cloning it into a vector containing a marker gene; (ii) a step of transforming a cell of an organism with a vector in which the DNA tag obtained in the step (i) is cloned; and (iii) A step of continuously culturing or subculturing the cells transformed in the step (ii) to remove the marker gene and obtaining a mutant strain in which the DNA tag is homologously recombined in the genome.
  • step (i) a DNA tag determined by the method for determining the DNA tag and the introduction position is prepared and cloned into a vector.
  • steps S1 to S8 are executed as described above.
  • a DNA fragment is synthesized based on the obtained DNA tag sequence, a conventionally known DNA synthesizer can be used.
  • DNA tag When cloning a DNA tag into a vector, (m) DNA consisting of a base sequence corresponding to the first coding sequence can be synthesized and incorporated into the vector, and then a silent mutation can be introduced at a predetermined position by a point mutation introduction method. . Alternatively, (n) DNA having a base sequence corresponding to the fourth coding sequence (DNA tag) may be synthesized and incorporated into a vector.
  • the method for introducing the point mutation may be in accordance with a conventionally known method such as GeneTailor Site-Directed Mutagenesis System (Invitorogen) KOD-Plus-Mutagenesis Kit (TOYOBO).
  • a conventionally known method such as GeneTailor Site-Directed Mutagenesis System (Invitorogen) KOD-Plus-Mutagenesis Kit (TOYOBO).
  • upstream and downstream base sequences including a region for introducing a DNA tag sequence are constructed on a vector.
  • the sequence length before the DNA tag sequence is appropriately set depending on the homologous recombination efficiency of the strain to be introduced, but is preferably 50 bases or more for both upstream and downstream, more preferably 200 bases or more for both upstream and downstream, and further preferably upstream and downstream. Use 500 bases or more downstream.
  • this region When constructing this region on a vector, it is possible to obtain it by PCR using the genomic DNA of the target host cell as a template, including the base sequence corresponding to the first coding region. / A downstream region can be obtained, and then a point mutation can be introduced on the vector (corresponding to (m) above).
  • the first coding region portion of the upstream / downstream region including the base sequence corresponding to the first coding region is equivalent to the fourth coding sequence.
  • the base sequence replaced with the base sequence to be synthesized can be synthesized and constructed on a vector (corresponding to (n) above).
  • the vector preferably includes a marker gene that can be expressed in the cell into which the DNA tag is introduced.
  • the marker gene includes an antibiotic resistance marker gene, a gene encoding a fluorescent protein, and an enzyme that catalyzes a color reaction. Examples include the gene to be encoded.
  • the antibiotic resistance marker gene can be appropriately selected from conventionally known ones as long as the host cell does not have an antibody against the antibiotic and can be used as a marker.
  • antibiotic resistance markers include ampicillin resistance gene, streptomycin resistance gene, tetracycline resistance gene, erythromycin resistance gene, puromycin resistance gene, blasticidin S resistance gene, hygromycin resistance gene, kanamycin resistance gene, gentamicin resistance gene Chloramphenicol resistance gene, neomycin resistance gene and the like.
  • the gene encoding the fluorescent protein include a green fluorescent protein (GFP) gene, a red fluorescent protein (RFP) gene, a yellow fluorescent protein (YFP) gene, and a luciferase gene.
  • GFP green fluorescent protein
  • RFP red fluorescent protein
  • YFP yellow fluorescent protein
  • luciferase gene examples of a gene encoding an enzyme that catalyzes a color reaction include ⁇ -glucuronidase (GUS) gene, lacZ gene and the like.
  • the marker gene is incorporated into the vector in a state where it can be expressed, a known promoter and terminator can be appropriately added according to the type of host cell.
  • the sequence can be determined and used according to conventionally known informatics techniques.
  • the synthesized DNA fragment may have various regions added in addition to the region encoding the DNA tag sequence. Examples of such a region include introduction of a transcription termination sequence, introduction of a known restriction enzyme recognition sequence for cutting out the portion, introduction of a methylase recognition sequence, and the like.
  • the synthesized DNA fragment can be introduced into a target cell in a state inserted in an appropriate vector.
  • the vector can be appropriately selected depending on the cell to be introduced.
  • plasmid DNA includes pRS413, pRS414, pRS415, pRS416, YCp50, pAUR112 or pAUR123 or other YCp type E. coli-yeast shuttle vector, pYES2 or YEp13.
  • YEp type E. coli-yeast shuttle vector such as pRS403, pRS404, pRS405, pRS406, pAUR101 or pAUR135.
  • ColE-type plasmids such as pTV119N, pBluescript, pHSG298, pHSG396 or pTrc99A, p15A-type plasmids such as pACYC177 or pACYC184, pSC101-type plasmids such as pMW118, pMW119, pMW218 or pMW219), Agrobacterium-derived plasmids (eg pBI101 etc.) And plasmids derived from Bacillus subtilis (for example, pUB110, pTP5, etc.).
  • Examples of the phage DNA include ⁇ phage (Charon4A, Charon21A, EMBL3, EMBL4, ⁇ gt10, ⁇ gt11, ⁇ ZAP), ⁇ X174, M13mp18, and M13mp19.
  • Examples of retrotransposons include Ty factor.
  • Examples of YAC vectors include pYACC2.
  • animal viruses such as retrovirus or vaccinia virus, and insect virus vectors such as baculovirus can also be used.
  • the present invention can also include a vector in which the above DNA tag is cloned.
  • the ori sequence in the vector to be introduced does not function in the organism into which the DNA tag is introduced, and when using a shuttle vector or the like between the host organism for constructing the vector and the organism into which the DNA tag is introduced, It is desirable to delete the ori sequence for organisms into which DNA tags are introduced.
  • the ori sequence is also called the origin of replication, and when the vector has this sequence, replication occurs in the host cell into which the DNA tag is introduced.
  • step (ii) it is desirable to obtain a mutant that is transformed into the genome of the organism by homologous recombination and does not have the vector in the cell. It is desirable to delete the ori sequence of the vector in advance. However, if the ori sequence of the host organism (for example, E. coli) for constructing the vector does not function as the replication origin in the organism into which the DNA tag is introduced, it is not necessary to delete this ori sequence.
  • the ori sequence of the host organism for example, E. coli
  • step (ii) transformation is performed by homologous recombination at a predetermined position on the genomic DNA of a cell using a vector in which a DNA tag is cloned, and transformed by homologous recombination by single crossover within the genome. Obtained cell lines.
  • a conventionally known technique can be applied as a transformation method.
  • the above-mentioned vector is introduced into the plant cell by a usual transformation method, for example, a vacuum infiltration method (Agrobacterium method), a particle gun method, a PEG method, an electroporation method, etc. can do.
  • Tumor tissue, shoots, hairy roots and the like obtained as a result of these methods can be used as they are for cell culture, tissue culture or organ culture, and can be used appropriately by using conventionally known plant tissue culture methods.
  • examples of the vector include a plasmid vector, the marker gene includes an antibiotic resistance gene, and the host cell for introducing the DNA tag includes a combination of Bacillus bacteria, Rhodococcus bacteria, Gordonia bacteria, and the like. By introducing the DNA tag in such a combination, the DNA tag can be stably introduced into the genome.
  • step (iii) the cells transformed in step (ii) are cultured in a medium that does not contain drugs such as antibiotics so that the number of generations is appropriately repeated (continuous culture) or subcultured.
  • drugs such as antibiotics
  • a gene encoding a fluorescent protein when used as a marker gene, a diluted culture solution is plated on an appropriate agar medium or the like so that a single colony can be obtained. You can choose.
  • a gene encoding an enzyme that catalyzes a color reaction can be selected by color reaction by similarly plating appropriately on an appropriate agar medium containing a substrate for color reaction. Even when other marker genes are used, conventionally known detection methods can be appropriately employed depending on the type of marker gene used.
  • the cell into which the DNA tag has been introduced is appropriately cultured according to the cell type. At this time, 10 to 100 generations, preferably 30 to 100 generations are performed. At this time, subculture can also be performed. Thus, by cultivating the generations over a long period of time, a single crossover occurs, the marker gene and the vector sequence are lost, and the target mutant strain in which only the DNA tag is homologously substituted can be obtained. .
  • an appropriate method can be appropriately selected from conventionally known cell preservation methods in consideration of the cell type and the preservation period, for example, refrigerated storage, cryopreservation, Freeze-dried storage, slant medium storage, etc. are mentioned.
  • refrigerated storage for example, refrigerated storage, cryopreservation, Freeze-dried storage, slant medium storage, etc. are mentioned.
  • a microorganism having a spore-forming ability as a host cell and store it in a spore state.
  • the present invention includes a mutant strain into which the DNA tag thus obtained is introduced.
  • step (i) the DNA tag region was cloned using a vector having an ori that can be replicated in the organism into which the DNA tag is introduced, and in step (ii), the mutation caused homologous recombination by double crossover.
  • step (ii) the mutation caused homologous recombination by double crossover.
  • Acquire stocks This can be achieved, for example, by performing PCR using primers of the DNA tag sequence and primers designed further upstream of the upstream region of the DNA tag sequence cloned into the vector in the host genomic DNA sequence. You can get the body.
  • step (iii) a mutant strain in which the plasmid has been removed is obtained by appropriately culturing in a medium that does not contain the antibiotic used as the marker.
  • various introduction methods can be considered by devising each step, but a technique using homologous recombination by single crossover is a simple and reliable acquisition method.
  • the present invention also includes a method for monitoring a cell into which a DNA tag has been introduced in (2) above using a primer that recognizes the DNA tag designed in (1) above. It is to provide. According to this method, it is possible to accurately grasp the progress of purification and the diffusion state of microorganisms using the DNA tag as an index. For example, if a microorganism into which a DNA tag is introduced is used for bioremediation, a primer that acquires environmental genomic DNA (total DNA obtained from the natural environment) from the environment in which the microorganism is distributed and recognizes the DNA tag The microorganism can be detected and quantified by a quantitative PCR method or the like.
  • a microorganism containing a DNA tag in its genome is distributed for bioremediation, and the number of cells of the microorganism is appropriately quantified over time. Additional spraying of such microorganisms can be performed.
  • soil or water is collected outside the distribution area at the stage where the soil improvement is completed, and the microorganism is not detected, it can be determined that the spread of the distribution microorganism does not occur.
  • Organism labeling method labels an organism characterized by introducing the base sequence obtained based on the DNA tag and the introduction position determination method into a predetermined position in the genome DNA of the organism.
  • a method is also provided. The method for obtaining and positioning the DNA tag and the method for introducing the DNA tag into the genomic DNA of the organism are as described above.
  • Reference test example 1 Using the genome genome data of bacteria, archaea, and viruses registered in NCBI and plasmid DNA sequence data, base sequences that are not frequently used in the biological world (1-12 bases) using program P1 Obtained (hereinafter sometimes abbreviated as “specific sequence”). When searching for base sequences with low frequency of use, the maximum length was set to 12 bases due to the problem of calculation time. Therefore, longer sequences can be obtained without considering the calculation time.
  • Test Example I Method and target (1-1) Determination of target species Bacillus subtilis strain 168 (Bacillus subtilis) was selected as the target species. Some of the genus Bucillus have petroleum degradability and are widely used in the field of bioremediation. Therefore, Bacillus subtilis, whose whole genome sequence was determined and many essential genes were identified, was considered valid as a model organism for this analysis.
  • NMS Nearest Match Score
  • NMS and low-occurrence sequences (w and x) in the whole genome database have fewer homologous regions in the environmental DNA database than the original sequence (z) without the DNA tag introduced. .
  • This result is a result showing the validity of the present invention that it is possible to improve the specificity of the primer by inserting a silent mutation so that the NMS is lowered.
  • primers have a sequence homology of about 80%, and that primers cause non-specific reactions. From FIG. 7, it can be seen that all the sequences (z) into which no DNA tag is inserted have 80% or more homologous regions in the environmental DNA database. This means that there is no region for designing specific primers on 93 genes selected from Bacillus subtilis unless DNA tag technology is used. Conversely, 75% or more of the sequences (w or x) inserted with a DNA tag so that NMS is low were shown to have specificity as primers even in environmental DNA (the third in the box-and-whisker diagram below). Calculated from the quartile).
  • Test Example II In order to obtain a mutant strain into which a DNA tag that does not fall under the “genetically modified organism” defined in the Cartagena Act was introduced, the following test was conducted.
  • (II-1) Determination of target organism and DNA tag introduction region, and preparation of transformation vector
  • the Cartagena method is used. Only organisms that do not fall under the prescribed “genetically modified organisms” can be used industrially. For example, when purifying contaminated soil with petroleum, Bacillus bacteria are generally used. Therefore, a test was performed using Bacillus subtilis 168 strain.
  • a gene to be introduced with a DNA tag a gene considered to have the least influence on the growth of host cells was selected. This gene is a function unknown gene of locus tag BSU03680 and gene locus 417561-419315.
  • the region of 418431-418547, which corresponds to the intermediate region of the gene was defined as the DNA tag introduction region, and the sequence into which the random silent mutation was introduced was used as a pseudo DNA tag.
  • An artificial gene with a total length of 520 bases added with 200 bases upstream sequence and 200 bases downstream sequence was synthesized by a known artificial gene construction method (GenScript) and added upstream and downstream.
  • FIGS. 9 It was constructed on a pHASH203 plasmid vector using EcoRI restriction enzyme site and named pBS4106ID (FIG. 9). As the resistance gene, an erythromycin resistance gene was used. The plasmid was constructed using Eshcherichia coli DH5 ⁇ strain. The sequence results are shown in FIGS.
  • SEQ ID NO: 1 The sequence of the DNA tag introduction region (SEQ ID NO: 1), the DNA tag (SEQ ID NO: 2), and the sequence after DNA tag introduction (SEQ ID NO: 3) are shown below.
  • SEQ ID NO: 2 the shaded portion indicates that a silent mutation has been introduced.
  • the gene sequence introduced with a DNA tag is shown below.
  • the DNA tag region is boxed. (Including about 200 bases upstream and downstream).
  • BBS subtilis 168 strain was transformed using pBS4106ID.
  • LB agar medium Tripton 10 g / L, Yeast Extract 5 g / L, NaCl 10 g / L, 1.5% agarose
  • B. subtilis 168 strain was inoculated with B. subtilis 168 strain with a platinum needle and cultured at room temperature.
  • the cell pellet is suspended in CII media 1mL (1xMM mediumMM5mL, 50% glucose 50 ⁇ L, 1M MgSO4 25 ⁇ L, L-leucine 5mg / mL 5 ⁇ L, L-tryptophan 5mg / mL 5 ⁇ L, 5% Yeast Extract ⁇ 25 ⁇ L)
  • 100 ⁇ L was dispensed into a test tube
  • 100 ng of vector was added, followed by shaking culture at 37 ° C. for 90 minutes.
  • 300 ⁇ L of LB medium was added and further cultured for 60 minutes.
  • the cells were cultured at 37 ° C. overnight.
  • the pBS4106ID sequence was introduced into the host genome by homologous recombination (single crossover).
  • the transformant of B. subtilis 168 strain obtained in this way was named BS4106A strain.
  • BS4106ID For the obtained strain 200 colonies, primers (SEQ ID NOs: 4 and 5) were designed with the internal sequence of pBS4106ID, and colony PCR was performed. Strains that were not amplified by colony PCR were sequenced to obtain strains into which DNA tags were correctly introduced. The strain thus obtained was named BS4106ID. Note that the BS4106ID strain had only a DNA tag region replaced with a gene region in the host genome, and was not a “genetically modified organism” defined in the Cartagena Act.
  • the primer sequences used for colony PCR are as follows. ERM-F (SEQ ID NO: 4) Five'- CGTAGAGCACACGGTTTAACG - 3 ' TET-R2 (SEQ ID NO: 5) Five'- GCCATAGTGACTGGCGATGC -3 '
  • primer sequences used for sequencing are as follows.
  • bs4106id_F (SEQ ID NO: 6)
  • bs4106id_R (SEQ ID NO: 7)
  • SEQ ID NO: 2 shows the DNA tag to be introduced.
  • SEQ ID NO: 3 shows the locus 417561-419315 of Bacillus subtilis 168 strain into which a DNA tag was introduced.
  • SEQ ID NO: 4 shows the ERM-F primer.
  • Sequence number 5 shows a TET-R2 primer.
  • Sequence number 6 shows bs4106id_F primer.
  • Sequence number 7 shows bs4106id_R primer.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

 生物のゲノムDNA配列に導入される塩基配列であるDNAタグ、及び、該DNAタグのゲノムDNA配列への導入位置を決定する本発明の方法は、ゲノムDNA配列のタンパク質コード配列を取得するステップ(S1)と、タンパク質コード配列の処理対象領域を決定するステップ(S2)と、処理対象領域のコード配列を断片化するステップ(S3)と、断片化されたコード配列に対してサイレント変異を施すステップ(S4)と、断片化されたコード配列又はその相補的塩基配列からなるポリヌクレオチドから、プライマーとして適切である配列を決定するステップ(S5)と、決定されたコード配列について相同性検索を行なうステップ(S6)と、NMSの最小値に対応する、決定されたコード配列をDNAタグとして決定し、且つ、該決定されたコード配列に対応する断片化されたコード配列の、タンパク質コード配列中の位置を、導入位置として決定するステップ(S8)とを含む。

Description

DNAタグの構築方法
 本発明は、不特定DNA配列群中におけるプライマー特異性の高いDNA配列及び当該DNA配列のゲノムDNA中への導入位置の決定方法、及び導入法に関する。
 微生物(例えば土壌改良菌等)を用いて有害物質で汚染された自然環境を、有害物質を含まない、汚染前の状態に戻す処理(浄化)のことをバイオレメディエーションと呼ぶ。バイオレメディエーションにおいては、浄化の進行状況を把握するため、環境中に撒布した微生物の正確なモニタリングが不可欠である。また、浄化が完了した段階で残存菌数を正確に把握することが求められる。
 既存の手法では、微生物を撒布した環境中のトータルDNA(環境DNA)を調製し、微生物に対して特異的なDNA配列をプライマーとして定量PCR(Polymerase Chain Reaction)を行い、おおよその菌体数を把握している(例えば非特許文献1を参照)。しかしながら、定量PCRに使用されるプライマーが環境中の非特異的なDNA配列(目的とするDNA配列以外のDNA配列)に反応してしまうなど、正確な菌体数を把握することが困難であった。
 これまで、PCRにおいてプライマーの特異性を向上させる技術及びそのプログラムは数多く報告されている(例えば非文献2~3を参照)。しかしながら、いずれの技術も単離培養された生物に対するPCRに特化したものである。単離培養された生物であれば、設計したプライマーがターゲットとする領域以外に反応してしまう可能性を、ゲノムを探索することで見積もることができる。一方、不特定多数の生物が混在する環境DNA中においては、プライマーの特異性を見積もることは非常に困難である。
 また、遺伝子組換え生物等の取り扱いの規則に関する国際的条約(カルタヘナ議定書)により定められた法律(以下、カルタヘナ法と表記することがある)により、遺伝子組換えをおこなった微生物を開放環境中に撒布することは認められていない。そのため、例えばプライマー特異性の高い人工的なDNA配列を適当に創出し、それをバイオレメディエーション等に用いられている微生物に安易に導入することはできない。一方、カルタヘナ法にて規定される「遺伝子組換え生物」に該当しない範囲で、バイオレメディエーションに用いる微生物にそれらの人為的なプライマー配列を導入する技術はこれまで提案されていなかった。
 バイオレメディエーションは、物理化学的な浄化処理方法に比べて、費用やエネルギー消費が少ない、穏和な手法であるため生態系に負荷を与えない等の利点がある。その反面、浄化のために微生物を撒布することによる環境への影響等について十分な知見は得られていない。従って、浄化の進行状況の把握に加え、撒布した微生物の拡散状況、撒布現場の生態系への影響を把握するためにも、正確なモニタリングの手段が強く求められていた。
先行技術文献
http://www.ritsumei.ac.jp/se/rc/staff/kubo/intro/biorem/index.html Qu W, Shen Z, Zhao D, Yang Y, Zhang C (2009) MFEprimer: multiple factor evaluation of the specificity of PCR primers. Bioinformatics. 15;25:276-278. Miura F, Uematsu C, Sakaki Y, Ito T (2005) A novel strategy to design highly specific PCR primers based on the stability and uniqueness of 3’-end subsequences. Bioinformatics. 15;21:4363-4370.
 本発明は、不特定生物が混在する環境中において、プライマー特異性の高いDNA配列(以下、『DNAタグ』と記載することがある)を微生物ゲノムに導入する技術を提供することを主な目的とする。
 本発明者らは、上記課題を解決すべく鋭意検討を行った結果、生命が普遍的に使用しない傾向にあるDNA配列を選択し、不特定多数の生物が混在する環境DNA中において普遍的に利用可能なプライマーを容易に選択することができるプログラムを設計した。さらに、本発明者らは、前述のようにして得られた生物において使用頻度の低い配列(又はその相補配列)をゲノム中に組み込んだ微生物をバイオレメディエーションに用い、前記生物において使用頻度の低い配列からなるプライマーを用いることによって当該微生物の拡散状況や、浄化の進行状況を正確かつ簡便に把握することが可能であることを見出した。本発明は、これらの知見に基づいてさらに研究を重ねた結果完成されたものである。
 本発明は以下のDNAタグ及び導入位置の決定方法を提供する。
 項1.生物のゲノムDNA配列に導入される塩基配列であるDNAタグ、及び該DNAタグの前記ゲノムDNA配列への導入位置を決定する方法であって、
 前記ゲノムDNA配列からタンパク質コード配列を取得するステップS1と、
 前記タンパク質コード配列から、処理対象領域として第1コード配列を決定するステップS2と、
 前記第1コード配列中の部分配列からなり、所定の長さの複数の第2コード配列を取得し、前記タンパク質コード配列中の前記第2コード配列の位置を記録するステップS3と、
 前記ステップS3で取得された第2コード配列のそれぞれに対して、サイレント変異を施した1以上の第3コード配列を取得するステップS4と、
 前記第3コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第3コード配列のみを第4コード配列として決定するステップS5と、
 前記第4コード配列について相同性検索を行ない、相同性塩基配列を取得するステップS6と、
 前記第4コード配列毎にNMSを決定するステップS7と、
 前記NMSの最小値に対応する第4コード配列を前記DNAタグとして決定し、該第4コード配列に対応する前記第2コード配列の前記位置を、前記導入位置として決定するステップS8とを含み、
 前記ステップS2において、前記第1コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
 前記所定条件が、前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
 前記NMSが、相同性の程度を表すことを特徴とするDNAタグ及び導入位置の決定方法。
 項2.さらに、同じNMSを複数有する第4コード配列が存在する場合、それらのNMSの内、出現頻度が最小であるNMSに対応する第4コード配列を、前記タグとして決定するステップS9を含むことを特徴とする項1に記載のDNAタグ及び導入位置の決定方法。
 項3.前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドが前記プライマーとして適切である前記条件が、
 前記相補的塩基配列のCG含有量が、45~55%であり、
 前記相補的塩基配列のtm値が、55~65℃であり、且つ、
 前記相補的塩基配列中に、同じ塩基が4つ以上連続して存在しない
 ことを特徴とする項1又は2に記載のDNAタグ及び導入位置の決定方法。
 項4.コンピュータに、生物のゲノムDNA配列に導入される塩基配列であるDNAタグ、及び、該DNAタグの前記ゲノムDNA配列への導入位置を決定する機能を実現させるプログラムであって、
 前記コンピュータに、
 前記ゲノムDNA配列からタンパク質コード配列を取得する第1機能と、
 前記タンパク質コード配列から、処理対象領域として第1コード配列を決定する第2機能と、
 前記第1コード配列中の部分配列からなる所定の長さの複数の第2コード配列を取得する第3機能と、
 前記第3機能によって取得された第2コード配列のそれぞれに対して、サイレント変異を施した1以上の第3コード配列を取得する第4機能と、
 前記第3コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第3コード配列のみを第4コード配列として決定する第5機能と、
 前記第4コード配列について相同性検索を行ない、相同性塩基配列を取得する第6機能と、
 前記第4コード配列毎にNMSを決定する第7機能と、
 前記NMSの最小値に対応する第4コード配列を前記DNAタグとして決定し、該第4コード配列に対応する前記第2コード配列の前記位置を、前記導入位置として決定する第8機能とを実現させ、
 前記第2機能において、前記第1コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
 前記所定条件が、前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
 前記NMSが、相同性の程度を表すことを特徴とするタグ及び導入位置の決定プログラム。
 項5.以下の工程を含む、DNAタグ導入変異株の製造方法。
(i)請求項1~3のいずれかに記載の方法によって決定されたDNAタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程;
(ii)前記工程(i)で得られたDNAタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程;及び
(iii)前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、DNAタグがゲノム中に相同組換えされた変異株を得る工程。
 項6.さらに、前記マーカー遺伝子が生物のゲノム中に含まれていないことを確認する工程を含む、項5に記載の方法。
 項7.項5又は6に記載の方法によって得られる変異株。
 項8.項1~3のいずれかに記載の方法によって決定されたDNAタグを含むベクター。
 項9.項8に記載のベクターによってDNAタグが導入されたゲノムDNA。
 項10.項9.に記載のゲノムDNAを含む変異株。
 項11.項1~3に記載の方法によって決定されたDNAタグの塩基配列又はその相補的塩基配列のポリヌクレオチドからなるプライマーを用いて、環境中における当該DNAタグを含む変異株の数を定量して、浄化の進行をモニタリングする方法。
 項12.項1~3に記載の方法によって決定されたDNAタグの塩基配列又はその相補的塩基配列のポリヌクレオチドからなるプライマーを用いて、環境中における当該DNAタグを含む変異株の拡散を評価する方法。
 項13.項1~3に記載の方法によって決定されたDNAタグがクローニングされたベクターを用いて生物のゲノムDNA中に該DNAタグを導入することを特徴とする、生物の標識方法。
 本発明の方法によれば、自然環境中において出現しにくいDNA配列(『DNAタグ』と表記することがある)を人工的に創出することが可能である。このようなDNA配列(又はその相補鎖)を有するプライマーは、バイオレメディエーション等の分野で菌体数把握等に用いられる定量PCRにおいて、プライマーの特異性を飛躍的に向上させることが可能であり、浄化の進行状況、微生物の拡散状況を正確且つ簡便に把握することが可能である。
 前述のように、カルタヘナ法は遺伝子組換えをおこなった微生物を開放環境中に撒布することを禁止している。しかしながら、セルフクローニング(サイレント変異を含む)による組換え体は、カルタヘナ法に規定される「遺伝子組換え生物」に該当しない。従って、DNAタグを導入する領域以外の細胞のゲノムDNA配列を一切変更されていない変異体であれば、カルタヘナ法に抵触せず、開放環境中でも利用することができる。すなわち、本発明の方法によれば、カルタヘナ法規定における「遺伝子組換え生物」に該当しないかたちで生物のゲノム内にDNAタグを導入することが可能である。
 また、例えば、このようにして得られるDNAタグが導入された微生物を、バイオレメディエーションに用いることによって、当該微生物の高精度なモニタリングを行うことが可能になる。
[規則91に基づく訂正 10.04.2009] 
本発明の実施の形態に係るタグ及び導入位置の決定方法で使用される装置の構成を示すブロック図である。 本発明の実施の形態に係るタグ及び導入位置の決定方法を示すフローチャートである。 生成されるCDSの関係を示す図である。 処理対象CDSと断片化CDSの関係を示す図である。 サイレント変異CDS及びそれを用いた相同性検索結果の一例を示す図である。 各試行における塩基長とメタゲノム中の出現確率(縦軸は対数)を表す図である。 各データセットを環境DNAデータベースに対して相同性検索をかけた結果を表す箱ひげ図である。図中、点線は中央値、ひげの両端は最大値と最小値、箱の両端は第1四分位点と第3四分位点を表す。 DNAタグ導入方法の例を示すスキームである。図中、(1)においては、第1コード配列に相当する塩基配列からなるDNAを、宿主生物用抗生物質耐性マーカーを含むベクターを用いてクローニングする。(2)においては、クローニングされた第1コード配列に相当する塩基配列からなるDNAに対して点変異を導入する。(3)においては、ベクターを宿主に導入し、抗生物質により選択する(このとき、相同組換えにより生じた変異株を取得する)。(4)においては、取得した変異株を抗生物質を含まない培地で培養する。(5)においては、相同組換えにより抗生物質耐性がなくなった変異株を取得する。(6)においては、シーケンシングにより、DNAタグが正しく導入され、且つベクター配列を含まない変異株を取得する。 参考試験例3において構築されたpBS4106IDを表す概略図である。 参考試験例3において実施されたシーケンス(前半)結果を示す。 参考試験例3において実施されたシーケンス(後半)結果を示す。
発明を実施するための形態
 以下、本発明について詳述する。
[規則91に基づく訂正 10.04.2009] 
 (1)DNAタグ及び導入位置の決定方法
 以下、本発明に係る実施の形態を、添付した図面に基づいて説明する。
図1は、本発明の実施の形態に係るDNAタグ及びその導入位置の決定方法に使用される装置の構成を示すブロック図である。ここで「DNAタグ」とは、自然環境中に出現しにくいDNA配列(正鎖、逆鎖を問わないDNA配列であり、これ自身またはこの相補的配列が「プライマー」として使用される)を意味し、DNAタグの「導入位置」とは、DNAタグを導入する(DNAタグで部分配列を置換する)対象である生物のDNA配列中における位置を意味する。
 本発明において、DNAタグの導入対象となる生物のDNAとは、公知の手法によってタグの導入が可能なDNAを有する生物であれば特に生物種は限定されず、例えば、原核生物、古細菌、真核生物などが挙げられる。本発明においては、培養条件や保存条件等が公知であり、比較的長期に亘って保存することができる大腸菌、枯草菌及び酵母などの微生物を利用することが好ましい。さらに、バイオレメディエーションにおいて使用した場合にモニタリングが容易に行えるという観点から、環境浄化に使用される微生物等を用いることが好ましく、石油分解能を持つ細菌群、種々の有害化学物質分解能を持つ細菌群、環境の塩類を吸収する細菌群等が挙げられる。具体的には、Bacullus sp. ODM157, Bacullus sp. ODNM4, Bacillus sp. F31等のバチルス(Bacillus)属細菌;Rhodococcus sp. ODNM2B, Rhodococcus sp.NDMI144, Rhodococcus sp.NDKK48, Rhodococcus sp.NDKK7, Rhodococcus sp.NDKK6, Rhodococcus sp. NDKK5, Rhodococcus sp. NDKK2, Rhodococcus sp. NDKK1, Rhodococcus sp. NDMI54, Rhodococcus sp. ODNM1C, Rhodococcus sp. NDKY3D, Rhodococcus sp. Rhodococcus sp. NDKY72A等のロドコッカス(Rhodococcus)属細菌;Gordonia sp. NDKY76A, Gordonia sp. NDKK46, Gordonia sp. NDKY2B, Gordonia sp. NDKY2C等のゴルドニア(Gordonia)属細菌;Acientobacter sp. ODYM1, Acientobactersp. ODYM2, Acientobacter sp. ODYM5, Acientobacter sp. ODDK71, Acientobacter sp. ODMI29, Acientobacter sp.ODNM6, Acientobacter sp.NDMI119, Acientobacter sp. A132, Acientobacter sp. NDMI78, Acientobacter sp. YM3等のアシネトバクター(Acientobacter)属細菌;Pseudomonas sp. F721, Pseudomonas sp. F722等のシュードモナス(Pseudomonas)属細菌等が例示される。また、本発明においてはプラスミドに対してDNA配列タグを導入することをも包含するものとする。
[規則91に基づく訂正 10.04.2009] 
 本装置は、コンピュータ1、表示部2および操作部3を備えている。表示部2は、例えば、液晶ディスプレイ装置、CRTディスプレイ装置などである。操作部3は、例えば、コンピュータ用のキーボード、マウスなどである。コンピュータ1は、演算処理部(以下、CPUと記す)11と、データを一時的に保持可能な書換可能メモリ(以下、RAMと記す)12と、データを持続的に保持可能な書換可能なハードディスクドライブなどの記録部13と、インタフェース部(以下、IF部と記す)14と、内部バス15とを備えている。記録部13には、CPU11が実行するプログラムやデータが記録されている。IF部14は、コンピュータ1と外部機器とのインタフェースを担う。即ち、CPU11は、処理結果などを表示部2にIF部14を介して表示し、操作部3が、例えば人によって操作された場合、その操作に関する情報を、IF部14を介して取得する。また、コンピュータ1は、IF部14を介して、ネットワーク4に接続されている。ネットワーク4は、インターネットなどの公衆ネットワークであっても、ローカルネットワークであってもよい。ゲノムDNAが記録されたデータベース(以下、DBと記す)5も、同様にネットワーク4に接続されている。コンピュータ1を構成する各部は、内部バス15を介してデータを交換する。これによって、コンピュータ1は、コンピュータ本来の演算処理に加えて、操作部3からの指示を取得すること、DB5を利用することなどの処理を行なうことができる。図1では、1つのDB5が示されているが、複数のDBを備えていてもよい。
[規則91に基づく訂正 10.04.2009] 
 次に、図2に示すフローチャートを用いて、本発明の実施の形態に係るタグ及びその導入位置の決定方法を具体的に説明する。また、図3は、後述の処理で生成される配列の関係を示すブロック図である。
 以下では、特に断らない限りCPU11が行う処理として記載する。また、CPU11は、適宜記録部13から必要なデータをRAM12に読み出し、RAM12の所定領域をワーク領域として使用して処理を行い、一時的な処理結果や最終の処理結果を適宜記録部13に記録することとする。また、初期データは予め記録部13に記録されているとする。
 ステップS1において、タグを導入する対象である生物のゲノムDNA情報、即ち塩基配列(一本鎖配列)を取得する。例えば、予め記録部13に記録されたゲノムDNA情報(例えばテキストデータ)を読み出す。または、DB5からゲノムDNA情報を取得してもよい。
[規則91に基づく訂正 10.04.2009] 
 取得したゲノムDNA情報から、タンパク質をコードするDNA配列領域(CDS:Coding Sequence)を全て決定する。既存のDB5に問い合わせを行って、CDS情報が在ればそれを使用し、無ければ公知の情報学的な手法によりCDSのアノテーション、即ちタンパク質がコードされるDNA領域(位置情報)の決定を行なう。図3の最上位に、決定されたタンパク質CDSを示す。より具体的にCDSの一例を図4に示す。図4では、塩基配列をコドン毎に四角形で囲み、各四角形の上に、コードされるアミノ酸を示している。
[規則91に基づく訂正 10.04.2009] 
 ステップS2において、ステップS1で決定された全てのタンパク質コード配列から、以下のステップにおいて処理対象とする領域を決定する。即ち、タンパク質コード配列から、サイレント変異を加えることにより宿主細胞(生物)の増殖や表現型に大きな影響を及ぼすと考えられる領域が除かれる。除外する領域としては、例えば、必須遺伝子の配列全般、機能性配列、およびタンパク質翻訳効率の制御に大きく関与すると考えられている翻訳開始点付近の配列(下流50塩基程度)、終止コドン付近の配列(上流50塩基程度)等が挙げられる。また、産業的に価値のある生物においては、変異によりその産業的価値を損なう可能性のある遺伝子群など(例えば、有用物質の産生菌であれば、当該有用物質の産生に直接的に関与する遺伝子群の配列全般等)が挙げられる。機能性配列とは、例えば制限酵素認識配列、核酸結合性タンパク質の認識配列等を挙げることができる。従って、通常、長さが異なる複数の処理対象CDSが決定される。このようにして決定されたタンパク質コード配列を、処理対象CDS(又は第1コード配列)と表記することがある。図3に、決定された処理対象CDSを示す。
 決定された処理対象CDSは、ゲノムDNA情報と対応させて記録部13に記録される。ここで、タンパク質コード配列中の処理対象CDSの位置情報(以下、第1の位置情報とも記す)も、処理対象CDSと対応させて記録部13に記録される。即ち、{ゲノムDNA情報,処理対象CDS,第1の位置情報}が1セットとして記録される。
[規則91に基づく訂正 10.04.2009] 
 ステップS3において、ステップS2で決定された各処理対象CDSを、指定されたサイズに断片化する。即ち、処理対象CDSの中から、連続する所定長さのCDS(以下、断片化CDS又は第2コード配列と表記することがある)を選択する。例えば、図4に示したように、先頭位置を1塩基ずつずらせて指定サイズ(例えば12塩基)の断片化CDSを選択する。従って、断片化CDSがm個の塩基配列(指定サイズがm)で構成されている場合、n個の塩基配列で構成された1つの処理対象CDSから、n-m+1個の断片化CDSが決定される。決定された断片化CDSを図3に示す。なお、ここでは、同じ断片化CDSが複数生成されたか否かを判断しない。なぜならば、同じ断片化CDSであっても、対象生物への挿入位置によって(即ち、断片化CDSの上流および下流の配列によって)、サイレント変異により生成される最終的な配列が異なることになるからである。また、もし上流および下流の配列が同じだとしても、断片化CDSが得られた位置情報等も将来的に重要なファクターとなるため、ここでは1つに絞ることはしない。なお、全く同じ断片化CDSが複数生成される可能性は、そもそも低い。
 断片化CDSのサイズは、プライマーとして機能する長さであれば任意に設定することができるが、通常15~30塩基であることが望ましく、17~25塩基であることがより望ましい。
 ここで、断片化CDSに対応させて、その断片化CDSが生成された元の処理対象CDS、および、処理対象CDS中の各断片化CDSの位置情報(以下、第2の位置情報とも記す)が、記録部13に記録される。即ち、{処理対象CDS,断片化CDS,第2の位置情報}が1セットとして記録される。従って、1つの断片化CDSを指定すれば、対応する第2の位置情報、対応する処理対象CDS及び第1の位置情報が決まり、第1の位置情報及び第2の位置情報から、ゲノム配列中の断片化CDSの位置が特定される。
 ステップS4において、ステップS3で決定された各断片化CDSに対して、サイレント変異を施して、1以上のサイレント変異CDS(以下、第3コード配列と表記することがある)を取得する。即ち、各断片化CDSにおいて、各コドンを同義コドン(塩基配列が異なるが、同じアミノ酸を翻訳するコドン)で置換したCDSを作成する。例えば、ある断片化CDSがATTCTGCACGATであり、かつ処理対象となるタンパク質コード配列の5’末端の塩基配列の位置を0とした場合に、処理対象となるタンパク質コード配列における上記断片化CDSの5’末端の塩基の位置が3の倍数になる場合(第1及び第2の一情報より算出される)、これは4つの完全なコドンを含む配列であり、アミノ酸Ile-Leu-His-Aspを翻訳する配列である。そして、これらのアミノ酸には、表Aに示されるように同義コドンが存在する。
Figure JPOXMLDOC01-appb-T000001
 従って、上記の例においては、4つのアミノ酸をコードするコドンの可能な配列は、3×6×2×2=72通りあるが、それらのうち、元のコドン(具体的にはATT、CTG、CAC、GAT)を少なくとも1つ含む配列を除外するので、2×5×1×1=10通りになる。例えば、ATTCTGCACGATの断片化CDSからは、ATCTTACATGAC、ATACTCCATGACなどのサイレント変異CDSが生成される。
 また、例えばある断片化CDSがATTCTGCACGATであり、かつ処理対象となるタンパク質コード配列の5’末端の塩基配列の位置を0とした場合に、処理対象となるタンパク質コード配列における上記断片化CDSの5’末端の塩基の位置が3の倍数にならない場合、上記断片化CDSは3つの完全なコドンと2つの不完全なコドン(最初と最後のコドンの塩基情報が不足するため)を含む配列となる。この場合、2つの不完全なコドンの不足分塩基を、記録部13に記録されたゲノムDNA情報を参照することにより補足することができる。
 ここで、サイレント変異導入前の配列と比べて極力相同性を低くするためには、変異導入前のコドンを含む断片化CDSを除外し、できるだけ多くのサイレント変異を加えることが望ましい。
 生成されたサイレント変異CDSは、元の断片化CDSと対応させて記録部13に記録される。即ち、{サイレント変異CDS,断片化CDS}が1セットとして記録される。
 また、サイレント変異は、断片化CDSを構成する1以上のコドンに導入すればよいが、好ましくは断片化CDSを構成する全コドンにおいてサイレント変異を導入する。各コドンにおいて、サイレント変異を導入可能ないずれかの塩基のみ、より好ましくは第3塩基のみをサイレント変異導入の対象とすることもできる。ただし、プライマーの特異性を向上させる観点からは、断片化CDSにおいて全てのサイレント変異を導入することが好ましい。
 また、例えば、予めタグを導入する対象である生物のゲノムDNAにおける全コドンの使用頻度を算出しておき、その情報から、タグを導入する対象である生物のゲノムDNAにおいて極端に使用頻度の低いコドンの使用を、サイレント変異の導入時に避けることも可能である。
 ステップS5において、ステップS4で生成されたサイレント変異CDSそれ自身又はその相補的塩基配列からなるポリヌクレオチドのプライマーとしての機能を評価し、所定の基準を満たさないサイレント変異CDSを除外する。除外することは、例えば各断片化CDSに付加されたフラグを初期値(例えば“0”)と異なる値(例えば“1”)にセットすることで行うことができる。この場合、{サイレント変異CDS,断片化CDS,フラグ}が1セットとして記録される。
 プライマーとしての機能について、評価基準としては、例えば、下記条件(a)~(c)を挙げることができる。
(a)GC含有量が40~60%、好ましくは45~55%;
(b)tm値が55~65℃;及び/または、
(c)同一塩基が5つ以上、好ましくは4つ以上連続していない。
あるサイレント変異CDSそれ自身又はその相補的塩基配列に関して、これらの条件の1つでも満たしていない場合、そのサイレント変異CDSを除外する。
 ここで、GC含有量は、塩基配列中のGC塩基の数の割合(%)である。tm値は、二本鎖DNAの50%が一本鎖DNAに解離する温度(melting temperature)である。GC含有量、tm値の計算方法は公知であるので、ここでは詳細説明を省略する。なお、これらの基準値は、初期データとして記録部13に予め記録されていてもよいが、IF部を介して外部から指定されてもよい。また、プライマーの評価基準は、公知の基準を適用することができ、上記(a)~(c)に限定されない。
 本ステップS5においてプライマーとしての機能を有するサイレント変異CDSを第4コード配列と表記することがある。
 ステップS6において、ステップS5の結果、除外されずに残ったサイレント変異CDS(第4コード配列;すなわち、フラグが“0”)について、配列アライメント手法を用いて、目的に応じて予め準備したゲノム配列データベースに相同性検索を行なう。例えば、バイオレメディエーションの用途に得られたプライマーを使用するのであれば、BLAST法を用いて、バイオレメディエーション用の環境DNAデータベースに対して相同性検索を行う。より具体的には、Blast アルゴリズム等を実相した遺伝子相同性検索ソフトウェアを使用して、DDBJやGENBANK等が提供しているゲノムデータベース又は遺伝子等の断片的な塩基配列が格納されたデータベースを検索し、閾値以上の相同性を有する領域があった場合、その相同性のスコアを記録する(相同性のスコアは、例えば、サイレント変異CDSの長さに対する一致した塩基数の割合とすることができる。例えばBLAST法においては、Identityなどの指標がそれに該当する)。また、閾値以上の相同性を有する領域の数をカウントする。なお、相同性の閾値としては、ギャップを考慮せずに、クエリーの塩基長に対してマッチする塩基数の割合が、例えば80%以上、好ましくは50%以上、より好ましくは20%以上、さらに好ましくは10%以上となるよう設定することができる。また、相同性検索はBLAST法に限定されず、FASTA法など公知の方法を使用することができる。
 ステップS7において、ステップS6で行なった相同性検索の結果、即ちゲノム配列データベースへのクエリーに対する同データベースからのレスポンス(応答データ)を用いて、各々のサイレント変異CDSの出現頻度およびNMS(Nearest Match Score)を求める。ここで、相同性検索は、種々の方法が公知であり、それらの1つを使用すればよく、ここでは詳細説明を省略する。以下では、相同性が50%以上の領域を相同性領域とする。また、使用するゲノム配列データベースは、例えば米国のNCBI(National Center of Biotechnology Information)が提供するデータベースから、目的に応じて生成することができる。それ以外にも種々のゲノム配列データベースが公知であり、それが使用されてもよい。
 出現頻度は、相同性検索を行った結果、ヒットした(相同性領域が検出された)ゲノムの数である。従って、特定のサイレント変異CDSについて、出現頻度の初期値を“0”として、相同性検索によってヒットしたゲノムがあれば、出現頻度を“1”だけ増加させる。但し、1つのゲノムの中に、複数の領域がヒットした場合でも、出現頻度は“1”だけ増加させる。NMSは、複数のヒットがあった場合、それらの中で最大である相同性の値である。
[規則91に基づく訂正 10.04.2009] 
 より具体的に説明すれば次の通りである。図5に、サイレント変異CDSの一例としてATCCATCATGACを示す。このサイレント変異CDSに関して、データベースに相同性検索を行った結果、2つの相同性領域(ヒット1およびヒット2)が得られたとする。図5では、ヒット1は、第1のゲノムDNA配列No.1中のATCTTAGATAACの部分配列であり、ヒット2は、第2のゲノムDNA配列No.2(第1のゲノムDNA配列と異なる)中のATCGTACATCTAの部分配列である。この場合、ヒット1のアイデンティティは83.3%、ヒット2のアイデンティティは66.7%である。従って、アイデンティティが最大であるヒット1のアイデンティティ83.3%を、このサイレント変異CDSのNMSとする。また、このサイレント変異CDSの出現頻度は“2”である。なお、後述するが、出現頻度は、異なる複数のサイレント変異において、NMSが同率であった場合、自然環境で出現しない配列を決定するためのスクリーニング指標として利用される。
 以上の結果、1つのサイレント変異CDSに関して、NMS、出現頻度が決定されるので、これらの情報を対応させて記録部13に記録する。即ち、{サイレント変異CDS,NMS,出現頻度}が1セットとして記録される。
 ステップS8において、ステップS7で記録されたNMSのうちの最小値を決定し、これに対応するサイレント変異CDSをタグとして決定し、対応する位置情報(第1及び第2位置情報)から、導入位置(ゲノムDNA配列中の位置)を決定する。決定されたタグ及び導入情報は、例えば表示部2に表示される。
 最小のNMSが1つであれば、それに対応するサイレント変異CDSがタグとして決定される。しかしながら、異なる複数のサイレント変異に関して、NMSが同じ値であった場合には、それらのうち出現頻度が最小であるサイレント変異CDSを、タグとして決定するステップを、ステップS9として追加してもよい。これは、自然環境で出現しない配列(タグ、プライマー)を求めることが本発明の目的であるからである。
 以上によって、不特定多数の生物が混在する環境DNA中においても普遍的に利用できる可能性が高いタグ、及び、ゲノムDNA配列への導入位置を決定することができる。従って、定量PCRにおいて、タグの相補的塩基配列を、特異性の高いプライマーとして使用できる。
 なお、本願発明は上記の実施の形態に限定されず、処理の順序を変更すること、一部の処理を削除すること、一部の処理を別の内容の処理で置換することなど、種々変更して実行することが可能である。
 例えば、上記では、一つの生物のゲノムDNAを処理する場合を説明したが、複数の生物のゲノムDNAを処理する場合には、ゲノムDNA毎に、ステップS1~S8の処理を実行すればよい。
 また、ステップS2において、除外する領域を外部から指定してもよい。
 また、ステップS2において、サイレント変異により宿主細胞(生物)に大きな影響を及ぼすと考えられる領域を除外するだけでなく、さらなる領域が除外されてもよい。具体的には、機能が未知なタンパク質をコードする領域や、目的を達成する上で重要な機能を有するタンパク質(例えばバイオレメディエーションに用いるのであれば、石油分解酵素など)をコードする領域などが挙げられる。処理対象CDSが多ければ、断片化CDSおよびサイレント変異CDSが多くなるので、処理時間が長くなる。従って、処理時間を低減するために、ある程度の精度が得られる範囲で、処理対象CDSを少なくしてもよく、通常、50~1000個程度のCDSを対象とする。
 また、ステップS3において、所定長さのコード配列の先頭位置を1つずつシフトして、断片化CDSを決定する場合を説明したが、連続する所定長さの領域を、重複しないようにランダムに選択して、複数の断片化CDSを得てもよい。
 また、ステップS5におけるプライマーとしての機能性評価基準は、上記に限定されない。例えば、条件(c)の代わりに、または条件(a)~(c)に加えて、末端の塩基がGまたはCであることを条件としてもよい。即ち、末端の塩基がAまたはTである配列は、処理対象から除外されてもよい。
 また、ステップS6における相同性検索において、予め定められた相同性の程度(上記では50%以上)を使用する代わりに、相同性の程度を外部から指定してもよい。
 また、ステップS7において、出力の基準としてNMSおよび出現頻度を使用する場合を説明したが、これに限定されず、GC含量などが考慮されてもよい。PCRで用いるプライマーは一般的に、GC含量が55~65%程度であることが好ましいとされている。さらに、3’末端側にG、Cを豊富に含むことがより好ましいとされている。また、PCRではプライマー側における3’末端と、DNA側の5’末端の結合が重視されるため、そこに相当する領域のマッチ数(アライメント時に検出される相同な塩基の数)が少ない候補がより好ましい。目的に応じて、これらの基準で最終的な候補が決定されてもよい。
 (2)DNAタグ導入変異株の製造方法
 上記DNAタグ及び導入位置の決定方法によって決定されたDNAタグが導入された変異株は、公知の遺伝学的手法に基づいて取得することができるが、例えば以下のようにして得ることができる。
 以下の工程を含むDNAタグ導入変異株の製造方法。
(i)前記DNAタグ及び導入位置の決定方法によって決定された、DNAタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程; 
(ii)前記工程(i)で得られたDNAタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程;及び
(iii) 前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、DNAタグがゲノム中に相同組換えされた変異株を得る工程。
 以下、各工程について詳述する。なお、ここではシングルクロスオーバーによる相同組み換えを利用した変異株の製造方法を例に説明する。
 工程(i)においては、前記DNAタグ及び導入位置の決定方法によって決定された、DNAタグを調製し、ベクターにクローニングを行う。
 細胞に導入するDNAタグの塩基配列及び当該塩基配列の導入位置を設定する際には、まず、上述したようにステップS1~S8を実行する。得られたDNAタグ配列に基づいてDNA断片を合成する際には、従来公知のDNA合成装置を用いることができる。
 DNAタグをベクターにクローニングする際、(m)第1コード配列に相当する塩基配列からなるDNAを合成してベクターに組み込み、その後点変異導入法によって所定の位置にサイレント変異を導入することができる。あるいは、(n)第4コード配列(DNAタグ)に相当する塩基配列からなるDNAを合成してベクターに組み込んでもよい。
 点変異の導入法は、GeneTailor Site-Directed Mutagenesis System(Invitorogen) KOD-Plus-Mutagenesis Kit(TOYOBO)等の従来公知の方法に従えばよい。
 なお、ベクターの構築はDNAタグを導入する対象種以外の細菌を用いることが望ましい。また、宿主細胞への形質転換は相同組換えを利用するため、DNAタグ配列を導入する領域を含む上流および下流の塩基配列をベクター上で構築する。DNAタグ配列の前の配列長は、導入する菌株の相同組換え効率により適宜設定するが、上流および下流ともに50塩基以上が好ましく、より好ましくは上流および下流ともに200塩基以上、さらに好ましくは上流および下流ともに500塩基以上とする。本領域をベクター上に構築する際、対象となる宿主細胞のゲノムDNAを鋳型としてPCRにより取得することが可能であり、その際、第1コード領域に相当する塩基配列を含むかたちで、その上流/下流領域を取得し、その後、点変異の導入をベクター上で行なうこともできる(上記(m)に相当)。また、オリゴDNA合成による公知の人工遺伝子構築法(overlap extension PCR等)を用いて、第1コード領域に相当する塩基配列を含む上流/下流領域の第1コード領域部分を第4コード配列に相当する塩基配列に置き換えた塩基配列を合成し、ベクター上に構築することもできる(上記(n)に相当)。
 これにより、後述する工程(iii)において相同組換によりDNAタグのみがゲノム中に導入された変異株を得ることができる。
 ベクターは、DNAタグを導入する細胞内においてマーカー遺伝子を発現可能な状態で含むことが好ましく、マーカー遺伝子としては、抗生物質耐性マーカー遺伝子、蛍光タンパク質をコードする遺伝子、呈色反応を触媒する酵素をコードする遺伝子等が挙げられる。
 本発明において抗生物質耐性マーカー遺伝子としては、宿主細胞が当該抗生物質に対して抗体を持っておらず、マーカーとして利用可能であれば、従来公知のものから適宜選択して用いることが可能である。抗生物質耐性マーカーとして具体的には、アンピシリン耐性遺伝子、ストレプトマイシン耐性遺伝子、テトラサイクリン耐性遺伝子、エリスロマイシン耐性遺伝子、ピューロマイシン耐性遺伝子、ブラストサイジンS耐性遺伝子、ハイグロマイシン耐性遺伝子、カナマイシン耐性遺伝子、ゲンタマイシン耐性遺伝子、クロラムフェニコール耐性遺伝子、ネオマイシン耐性遺伝子などが挙げられる。蛍光タンパク質をコードする遺伝子としては、緑色蛍光タンパク質(GFP)遺伝子、赤色蛍光タンパク質(RFP)遺伝子、黄色蛍光タンパク質(YFP)遺伝子、ルシフェラーゼ遺伝子などが挙げられる。呈色反応を触媒する酵素をコードする遺伝子としてはβ-グルクロニダーゼ(GUS)遺伝子、lacZ遺伝子などが挙げられる。
 マーカー遺伝子を発現可能な状態でベクターに組み込むため、宿主細胞の種類に応じて公知のプロモーターとターミネーターを適宜付加することができる。宿主細胞のプロモーター及びターミネーターが未知である場合には、従来公知の情報学的手法に従って配列を決定して利用することができる。
 合成されたDNA断片は、DNAタグ配列をコードする領域以外に種々の領域を付加したものであってもよい。このような領域としては、転写終結配列を導入すること、その部分を切り出すための公知の制限酵素認識配列を導入すること、メチル化酵素認識配列を導入すること等を挙げることができる。
 合成されたDNA断片は、適当なベクターに挿入した状態で目的とする細胞内に導入することができる。ベクターとしては、導入対象の細胞に応じて適宜選択することができ、例えばプラスミドDNAとしては、pRS413、pRS414、pRS415、pRS416、YCp50、pAUR112又はpAUR123などのYCp型大腸菌-酵母シャトルベクター、pYES2又はYEp13などのYEp型大腸菌-酵母シャトルベクター、pRS403、pRS404、pRS405、pRS406、pAUR101又はpAUR135などのYIp型大腸菌-酵母シャトルベクター、大腸菌由来のプラスミド(pBR322、pBR325、pUC18、pUC19、pUC118、pUC119、pTV118N、pTV119N、pBluescript、pHSG298、pHSG396又はpTrc99AなどのColE系プラスミド、pACYC177又はpACYC184などのp15A系プラスミド、pMW118、pMW119、pMW218又はpMW219などのpSC101系プラスミド等)、アグロバクテリウム由来のプラスミド(例えばpBI101等)、枯草菌由来のプラスミド(例えばpUB110、pTP5等)などが挙げられる。また、ファージDNAとしてはλファージ(Charon4A、Charon21A、EMBL3、EMBL4、λgt10、λgt11、λZAP)、φX174、M13mp18又はM13mp19などが挙げられる。レトロトランスポゾンとしては、Ty因子などが挙げられる。YAC用ベクターとしてはpYACC2などが挙げられる。さらに、レトロウイルス又はワクシニアウイルスなどの動物ウイルス、バキュロウイルスなどの昆虫ウイルスベクターを用いることもできる。
 なお、本発明には、上記DNAタグがクローニングされたベクターも包含され得る。
 本工程において、導入するベクター内のori配列が、DNAタグを導入する生物においては機能しないことが望ましく、ベクターを構築する宿主生物とDNAタグを導入する生物間のシャトルベクター等を用いる場合は、DNAタグを導入する生物用のori配列は削除しておくことが望ましい。ori配列は複製起点とも呼ばれ、ベクターがこの配列を有する場合、DNAタグを導入する宿主細胞中において複製が行なわれる。工程(ii)における対象生物への相同組換えによる形質転換の際に、当該生物の細胞内においてベクターの複製が可能であると、マーカー遺伝子による選択を行なう際、目的とする変異株の他に、ベクターを保持していることで選択される菌株が出現してしまう。工程(ii)では、当該生物のゲノム内に相同組換えにより形質転換され、且つ、細胞内にベクターを保持していない変異株を取得することが望ましいことから、ori配列を含まないベクターを用いるか、予めベクターのori配列を削除しておくことが望ましい。ただし、ベクターを構築する宿主生物(例えば大腸菌)のori配列が、DNAタグを導入する生物にて複製開始点として機能しない場合は、このori配列を削除する必要はない。
 工程(ii)においては、DNAタグがクローニングされたベクターを用いて、細胞のゲノムDNA上の所定の位置に相同組換えによる形質転換を行い、ゲノム内にシングルクロスオーバーによる相同組換えにより形質転換された細胞株を得る。
 形質転換の方法としては、従来公知の手法を適用することができる。例えば、細胞が植物細胞である場合、上述したベクターは通常の形質転換方法、例えば、減圧浸潤法(アグロバクテリウム法)、パーティクルガン法、PEG法、エレクトロポレーション法等によって植物細胞中に導入することができる。これらの方法の結果として得られる腫瘍組織やシュート、毛状根などは、そのまま細胞培養、組織培養又は器官培養に用いることが可能であり、また従来知られている植物組織培養法を用い、適当な濃度の植物ホルモン(オーキシン、サイトカイニン、ジベレリン、アブシジン酸、エチレン、ブラシノライド等)の投与などにより植物体に再生させることができる。また、大腸菌や枯草菌等の細菌にベクターを導入する場合は、例えばカルシウムイオンを用いる方法[Cohen, S.N. et al.:Proc. Natl. Acad. Sci., USA, 69:2110(1972)] 、エレクトロポレーション法等が挙げられる。さらに、酵母にベクターを導入する場合は、例えばエレクトロポレーション法[Becker, D.M. et al.:Methods. Enzymol., 194: 182(1990)]、スフェロプラスト法[Hinnen, A. et al.:Proc. Natl. Acad. Sci., USA, 75: 1929(1978)]、酢酸リチウム法[Itoh, H.:J. Bacteriol., 153:163(1983)]等が挙げられる。さらにまた、動物細胞にベクターを導入する場合は、例えばエレクトロポレーション法、リン酸カルシウム法、リポフェクション法等が挙げられる。昆虫細胞にベクターを導入する場合は、例えばリン酸カルシウム法、リポフェクション法、エレクトロポレーション法などが挙げられる。
 前述のように、ベクターとしてはプラスミドベクター;マーカー遺伝子としては抗生物質耐性遺伝子;DNAタグを導入するための宿主細胞としてはバチルス属細菌、ロドコッカス属細菌、ゴルドニア属細菌等の組み合わせが例示される。このような組み合わせでDNAタグの導入を行うことによって、ゲノム中にDNAタグを安定に導入することができる。
 ベクターが導入された宿主細胞を、細胞の種類に応じて培養する。このとき、マーカー遺伝子によってベクターが導入された細胞を選択する。例えば、抗生物質耐性マーカー遺伝子を組み込んだベクターを用いて形質転換を行った場合、培地に対応する抗生物質を添加し、生存した細胞を選択することによって得られる。
 工程(iii)においては、前記工程(ii)において形質転換された細胞を、抗生物質等の薬剤を含まない培地にて適宜世代数を重ねるよう培養し(連続培養)、あるいは継代培養を行って、DNAタグが相同組換えされた変異株を得る。
 また、マーカー遺伝子として、蛍光タンパク質をコードする遺伝子を用いる場合は、シングルコロニーが得られるように培養液を希釈したものを適切な寒天培地等にプレーティングし、UV照射により、蛍光を示すコロニーを選択することができる。呈色反応を触媒する酵素をコードする遺伝子では、適宜、呈色反応の基質を含む適切な寒天培地等に同様にプレーティングし、呈色反応により選択できる。その他のマーカー遺伝子を用いた場合であっても、使用するマーカー遺伝子の種類に応じて、従来公知の検出方法を適宜採用することができる。
[規則91に基づく訂正 10.04.2009] 
 DNAタグが導入された細胞は、細胞の種類に応じて適宜培養する。このとき、10~100代、好ましくは30~100代培養を行う。このとき、継代培養を行なうこともできる。このように長期に亘って世代数を重ね、培養することによって、シングルクロスオーバーが起こり、マーカー遺伝子及びベクター配列が脱落して、DNAタグのみが相同置換された目的の変異株を得ることができる。この際、DNAタグ配列の上流および下流に付加された相同領域において、シングルクロスオーバーがどちらの領域(前若しくは後)でおこるかは分からないが、工程(ii)において取得した変異株のシングルクロスオーバーの逆位置においてシングルクロスオーバーがおこった株が、目的の変異株であるため、確率的に50%が当たり株である。当たり株の取得については、導入したDNAタグをプライマーとしてコロニーPCRをおこなう、もしくは、ベクター内にプライマーを設計し、同様にコロニーPCRを行なう等の手法で容易にスクリーニングすることができる。最終的には、目的領域にDNAタグが正しく導入されていることをシーケンシングにより確認しても良い。これらの方法の流れを図8に示す。
 変異株細胞の保存方法としては、従来公知の細胞保存方法より、細胞の種類及び保存期間等を総合的に考慮して適切な方法を適宜選択することができ、例えば、冷蔵保存、凍結保存、凍結乾燥保存及びスラント培地保存等を挙げられる。また、DNAタグが導入された細胞を、数十年以上の単位で保存するような場合、特に胞子形成能を有する微生物を宿主細胞として使用し、胞子の状態で保存することが好ましい。
 上記工程を経て得られたDNAタグが導入された変異株の変異導入領域について、相同置換によってDNAタグが正しく導入され、且つベクター配列がゲノム中に残存していないことを確認するため、従来公知の方法に従ってシーケンシングを行っても良い。本発明には、このようにして得られるDNAタグが導入された変異株が包含される。
 以上、シングルクロスオーバーによる相同組み換えを用いた手法を例示したが、本発明のDNAタグ導入変異株の製造方法は、これに限定されず、これを応用した様々な手法が考えられる。例えば、工程(i)では、DNAタグを導入する生物にて複製可能なoriを持つベクターを用いてDNAタグ領域をクローニングし、工程(ii)では、ダブルクロスオーバーにて相同組み換えを起こした変異株を取得する。これは例えばDNAタグ配列のプライマー、及び、宿主ゲノムDNA配列内で、ベクターにクローニングされたDNAタグ配列の上流領域の更に上流にて設計されたプライマーを用いてPCRを行なうことで、目的の変異体を取得できる。工程(iii)では、マーカーとして用いた抗生物質を含まない培地で適宜培養し、プラスミドが脱落した変異株を取得する。この様に、各工程の工夫により、様々な導入法が考えられるが、シングルクロスオーバーによる相同組み換えを用いる手法が、簡便且つ確実な取得法である。
 (3)DNAタグを用いたモニタリング方法
 本発明は、上記(2)においてDNAタグが導入された細胞を、上記(1)において設計されるDNAタグを認識するプライマーを用いてモニタリングする方法をも提供するものである。本方法によれば、DNAタグを指標に、浄化の進行状態、微生物の拡散状態を正確に把握することができる。例えば、DNAタグが導入された微生物をバイオレメディエーションに用いた場合であれば、当該微生物を撒布した環境から環境ゲノムDNA(自然環境から得られた全DNA)を取得し、DNAタグを認識するプライマーを用いた定量PCR法等によって当該微生物を検出、定量することができる。
 より具体的には、DNAタグをゲノム中に含む微生物を、バイオレメディエーションを行うために撒布し、適宜経時的に当該微生物の菌体数を定量し、その菌体数の増減に応じて、適切な当該微生物の追加散布等を行なうことができる。また、例えば、土壌改良が終了した段階で、撒布領域外において土壌や水を採取して、当該微生物が検出されなければ、撒布微生物の周囲への拡散が生じていないと判断することができる。
 (4)生物の標識方法
 本発明は、前記DNAタグ及び導入位置の決定方法に基づいて得られた塩基配列を生物のゲノムDNA中の所定の位置に導入することを特徴とする生物を標識する方法をも提供するものである。DNAタグの取得及び位置決定方法、ならびに当該DNAタグを生物のゲノムDNAに導入する方法については、前述の通りである。
 以下、試験例等を示して本発明をより詳細に説明するが、本発明はこれらに限定されない。
 参考試験例1
 NCBIに登録されているバクテリア、アーキア、ウイルスの全ゲノム配列のデータ及び、プラスミドDNA配列のデータを用いて、プログラムP1を用いて生物界での利用頻度が低い塩基配列(1~12塩基)を取得した(以下、「特異配列」と略記することがある)。利用頻度の低い塩基配列の検索において、計算時間の問題で最長を12塩基に設定した。従って計算時間を考慮しなければ、より長い配列も取得可能である。
 試行(a):バイオレメディエーションに用いられるRhodococcus sp.のゲノム配列データより、15~30塩基(定量PCRのプラーマーとして利用できる長さの塩基配列)をランダムに取得し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。(1万回試行)
 試行(b):Rhodococcussp.のゲノム配列データより、15~30塩基をランダムに取得し、さらにこれらの塩基配列のコドン第三塩基にランダムにサイレントミューテーションを加えたデータセットを作製し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。(1万回試行)
 試行(c):Rhodococcussp.のゲノム配列データより、15~30塩基をランダムに取得し、さらにこれらの塩基配列のコドン第三塩基にサイレントミューテーションを加えることで、特異配列の12塩基を含むよう設計できる領域を検索し、この領域に特異配列を組み込んだデータセットを作製し、現在NCBIに登録されている環境メタゲノムデータに対してアライメントを行ない、環境メタゲノム中に出現する確率を計算した。(1000回試行)
[規則91に基づく訂正 10.04.2009] 
 [結果]
 各試行(a)~(c)における塩基長とメタゲノム中の出現率を図6に示す。一般的にプライマーとしては30塩基長程度のものまでしか使用することができない。図6において、試行(b)及び(c)では、塩基配列の長さが29塩基長又は30塩基長において出現率がゼロになっており、環境メタゲノム中に全く出現していないことを示している。すなわち、ランダムにプライマーを設計した時にくらべ、本発明の方法を利用してプライマーを設計した場合、通常設計される長さのプライマーの範囲で、環境中のゲノム配列に対して非特異的に結合する可能性を大幅に低減できることが示された。
 試験例I
 1.手法と対象
 (1-1) 対象とする生物種の決定
 対象とする生物種にBacillus subtilis 168株(枯草菌)を選択した。Bucillus属の中には石油分解能を有するものがあり、バイオレメディエーションの分野で広く使用されている。そのため、全ゲノム配列も決定され、必須遺伝子なども数多く同定されている枯草菌が本解析のモデル生物として妥当と考えた。
 (1-2) 対象とする遺伝子の決定
 枯草菌の全4106のタンパク質コード遺伝子の塩基配列情報をNCBIのGenBank(http://www.ncbi.nlm.nih.gov/)より取得した。次に、その中から270の必須遺伝子(Kobayashi et al. Proc. Natl. Acad. Sci. USA. 003 Apr 15;100(8):4678-83.)を除外した。
 また、タグ導入の対象となる生物について、常に全ゲノム配列情報が入手できるとは限らない。そうした場合、ユニバーサルプライマーを用いて16S rRNA遺伝子周辺のDNA配列を適宜決定し、タグ導入を行うことが想定される。そうしたケースでも十分に特異性の高いプライマー設計ができることを実証するため、本解析ではrRNA遺伝子の周辺遺伝子のみを使用することとした。具体的には、rRNA遺伝子周辺10 kbp内(rRNA遺伝子の5’末端から5’方向に5 kbp、3’末端から3’方向に5 kbp)の遺伝子のみを本解析でタグ導入の対象とする遺伝子とし、それ以外は除外した。その結果、93の遺伝子(合計≒70,000 bp)が本解析の対象となった。
 (1-3) 断片化配列の作成
 上記で決定した93の遺伝子を、18塩基のウィンドウサイズで断片化した結果、67,953本の断片化配列が作成された。
 (1-4) 陰性対象データの作成
 本発明の妥当性を検証するため、サイレント変異によるDNAタグを導入していない断片化配列を比較対象に用いた。手法(1-3)で決定された67,953本の断片化配列の中から、下記機能性評価基準(a)~(c)に基づいて、プライマー配列として十分な機能性を持つと判断された計2,238本の候補を比較対象(以下、陰性対象データとする)とした。なお、(a)~(c)はいずれもプライマー設計の際に一般的に良く使用される基準である。
    (a) GC含量が40%以上60%以下であること
    (b) Tm値が55℃以上65℃以下であること
    (c) 末端の塩基がGまたはCであること
 (1-5) DNAタグ導入配列の作成
 67,953本の断片化配列1つ1つに対して、サイレント変異を加えることで元の配列と異なる配列になるパターンを全て作成した。さらに、サイレント変異を施した後に、前記機能性評価基準(a)~(c)に基づいてプライマー配列としての機能性評価を行い、候補を篩にかけた。その結果、812,864本のタグ導入配列が作成された。
 (1-6) DNAタグ導入配列のNearest Match Score (NMS) と出現頻度の算出
 812,864本のDNAタグ導入配列を問い合わせ配列とし、全ゲノムデータベースについて相同性検索をかけ、NMSと出現頻度を算出した。全ゲノムデータベースは、全ゲノム配列が決定されている全ての原核生物、古細菌、プラスミドおよびウイルスのゲノム塩基配列を包含する。ゲノム塩基配列のデータは全てNCBIのFTPサイト(http://www.ncbi.nlm.nih.gov/)より取得した(表1)。相同性検索には、NCBI Blast(http://blast.ncbi.nlm.nih.gov/Blast.cgi)を用いた。なお、本解析においては、相同性50%未満のものは、相同領域としてカウントしないものとした。
Figure JPOXMLDOC01-appb-T000002
 2. 比較対照実験
 (2-1)本発明の妥当性を検証するため、はじめに以下に示す(w)~(z)の配列を用意した。
   (w) NMS<50%となった全タグ導入配列計234本
   (1-6)で作成した全812、864のタグ導入配列の内、NMS下位およそ0.025%に相当
   (x) (1-6)で作成した全812、864のタグ導入配列の内、NMS下位およそ0.05%に相当する404本の配列
   (y) (1-6)で作成した全812、864のタグ導入配列の内、NMSが上位およそ0.05%に相当する409本のタグ導入配列
   (z) 2238本のタグ未導入配列((1-4)で作成した陰性対象データ)
 (2-2)次に、バイオレメディエーションが対象とする土壌等のように、不特定多数のDNA配列が混在する環境を仮想的に再現するため、NCBIに登録されている環境メタゲノム配列を取得し環境DNAデータベースとした(表2)。
Figure JPOXMLDOC01-appb-T000003
[規則91に基づく訂正 10.04.2009] 
 (w)~(z)の配列を問い合わせ配列とし、環境DNAデータベースにBlastを用いた相同性検索にかけ、各配列のNMSを算出した。(w)~(z)の各データセットにおけるNMSの分布を、箱ひげ図で示す(図7)。
 w、x、yの比較から、全ゲノムデータベースにおいて算出されたNMSや出現頻度が低ければ低いほど、環境DNAデータベース中においても相同領域が現れなくなることがわかる。この結果は、生物のDNA内には普遍的に出現しにくい配列、または逆に共通して普遍的に出現しやすい配列が存在することを示唆すると同時に、限られたゲノム配列(本解析では全ゲノムデータベース)から算出されたNMSという指標で、環境DNA中におけるプライマーの特異性をある程度予測可能であることを意味している。
 次に、全ゲノムデータベースにおいてNMSおよび出現頻度の低い配列(wおよびx)は、DNAタグを導入していない元の配列(z)よりも、環境DNAデータベース中において相同領域が少ないということがわかる。この結果は、NMSが低くなるようにサイレント変異を挿入することで、プライマーの特異性を向上させることが可能であるとした本発明の妥当性を示す結果である。
 データセット(z)は、第1四分位点、第3四分位点および中央値が同様の値を示している。なお、本解析では相同性50%未満の領域はカウントしていないため、NMS=0と算出された配列のNMSは全て50とした。母数はwが234、xが404、yが409、zが2238である。
[規則91に基づく訂正 10.04.2009] 
 一般的に、配列相同性80%程度で、プライマーは非特異的な反応をしてしまうことが知られている。図7から、DNAタグを挿入していない配列(z)は全て、環境DNAデータベース中に80%以上の相同領域を有していることがわかる。これは、DNAタグ技術を利用しなければ、枯草菌から選出された93の遺伝子上には、特異的なプライマーを設計できる領域が一つも存在しないことを意味する。逆に、NMSが低くなるようにDNAタグを挿入した配列(wまたはx)は75%以上が、環境DNA中においてもプライマーとして特異性を有することが示された(下記箱ひげ図における第3四分位点より算出)。
 試験例II
 カルタヘナ法に規定される「遺伝子組換え生物」に該当しないDNAタグが導入された変異株を取得するため、以下の試験を実施した。
 (II-1)対象生物及びDNAタグ導入領域の決定、ならびに形質転換用ベクターの作製
 バイオレメディエーションを行う際、種々の環境浄化を行なうことのできる微生物を開放環境中で利用するため、カルタヘナ法に規定される「遺伝子組換え生物」に該当しない生物しか産業的に利用することができない。例えば石油による汚染土壌の浄化を行なう際、Bacillus属細菌が一般的に用いられている。そこで、Bacillus subtilis 168株を用いて試験を行なった。
[規則91に基づく訂正 10.04.2009] 
 DNAタグを導入する対象とする遺伝子は、極力宿主細胞の増殖に影響の少ないと考えられる遺伝子を選択した。当該遺伝子は、ローカスタグBSU03680、遺伝子座417561-419315の機能未知遺伝子である。当該遺伝子へのDNAタグ挿入試験を行なうにあたり、遺伝子の中間領域に当たる418431-418547の領域をDNAタグ導入領域と定め、ランダムなサイレント変異を導入した配列を疑似DNAタグとした。同配列の上流配列200塩基、および、同配列の下流配列200塩基を付加した全長520塩基の人工的な遺伝子を、既知の人工遺伝子構築法により合成し(GenScript社)、上流および下流に付加したEcoRI制限酵素サイトを用いてpHASH203プラスミドベクター上に構築し、pBS4106IDと命名した(図9)。耐性遺伝子としては、エリスロマイシン耐性遺伝子を用いた。また、同プラスミドは、Eshcherichia coli DH5α株を用いて構築した。シーケンス結果を図10,11に示す。
 以下にDNAタグ導入領域の配列(配列番号1)、DNAタグ(配列番号2)及びDNAタグ導入後の配列(配列番号3)を示す。なお、下記配列番号2において、網掛け部分はサイレント変異が導入されていることを示す。
Figure JPOXMLDOC01-appb-T000004
Figure JPOXMLDOC01-appb-T000005
 以下にDNAタグが導入された遺伝子配列を示す。DNAタグ領域を四角で囲った。(上流および下流約200塩基を含む)。
Figure JPOXMLDOC01-appb-T000006
 (II-2)B. subtilis 168株の形質転換
 pBS4106IDを用い、B. subtilis168株の形質転換を行なった。まず、前培養としてLB寒天培地(Tripton 10g/L, Yeast Extract 5g/L, NaCl 10g/L, 1.5% アガロース)に白金針でB. subtilis 168株を植菌し、室温で培養した。次に、シングルコロニーをCI media 5mL(1xMM培地 5mL, 50% glucose 50μL, 1M MgSO4 25μL, L-ロイシン 5mg/mL 50μL, L-トリプトファン 5mg/mL 50μL, 5% Yeast Extract 50μL)にOD660=0.1となるように植菌し、37℃で震盪培養した。OD660=1.5に達した時点で培養液500μLを遠心チューブにとり、15,000rpmで2分間遠心分離し、上清を取り除いて菌体ペレットを得た。
 菌体ペレットをCII media 1mL(1xMM培地 5mL, 50% glucose 50μL, 1M MgSO4 25μL, L-ロイシン 5mg/mL 5μL, L-トリプトファン 5mg/mL 5μL, 5% Yeast Extract 25μL)にVortexによりけん濁し、小試験管に100μL分注後、100ngのベクターを加えて37℃にて90分振盪培養した。培養後、300μLのLB培地を加えてさらに60分培養し、5μg/mlのエリスロマイシンを含むLB寒天培地にプレーティング後、37℃にて一晩培養した。出現したコロニーは、すべて相同組換え(シングルクロスオーバー)にてpBS4106ID配列が宿主ゲノムに導入されていた。このようにして得られた、B. subtilis 168株の形質転換体をBS4106A株と命名した。
 (III-3)目的変異株の取得
 BS4106A株から、DNAタグ領域だけを宿主ゲノム内の遺伝子領域と入れ替え、余分なpBS4106IDベクター由来の配列を削除するため、薬剤(エリスロマイシン)を含まないLB培地5mLに植菌し、37℃で36時間振盪培養した(30分に1回分裂したと仮定すると、約70世代となる)。この培養液をLB培地で1000倍希釈し、LB寒天培地にプレーティングした。出現したコロニーを、5μg/mlのエリスロマイシンを含むLB寒天培地、及び薬剤を含まないLB寒天培地に白金針でそれぞれパッチして、エリスロマイシン感受性の株を取得した。取得した菌株200コロニーについて、pBS4106IDの内部配列でプライマー(配列番号4及び5)を設計し、コロニーPCRを行った。コロニーPCRによって増幅しなかった菌株について、シーケンシングを行い、DNAタグが正しく導入された菌株を取得した。このようにして得られた菌株をBS4106IDと命名した。なお、BS4106ID株は、DNAタグ領域だけが宿主ゲノム内の遺伝子領域と入れ替わっており、カルタヘナ法に規定される「遺伝子組み換え生物」に該当しないものであった。
 コロニーPCRに用いたプライマー配列は以下の通りである。
ERM-F(配列番号4)
5’-
CGTAGAGCACACGGTTTAACG
- 3’
TET-R2(配列番号5)
5’-
GCCATAGTGACTGGCGATGC
- 3’
シーケンシングに用いたプライマー配列は以下の通りである。
bs4106id_F(配列番号6)
5’-
AGGATATGGCGAAGGTGACG
- 3’

bs4106id_R(配列番号7)
5’-
GTCATCTGACAGCACTGCGC
- 3’
符号の説明
1  コンピュータ
2  表示部
3  操作部
4  ネットワーク
5  データベース(DB)
11 演算処理部(CPU)
12 書換可能メモリ(RAM)
13 記録部
14 インタフェース部(IF部)
15 内部バス
配列番号2は導入されるDNAタグを示す。
配列番号3はDNAタグが導入されたBacillus subtilis 168株の遺伝子座417561-419315を示す。
配列番号4はERM-Fプライマーを示す。
配列番号5はTET-R2プライマーを示す。
配列番号6はbs4106id_Fプライマーを示す。
配列番号7はbs4106id_Rプライマーを示す。

Claims (9)

  1.  生物のゲノムDNA配列に導入される塩基配列であるDNAタグ、及び該DNAタグの前記ゲノムDNA配列への導入位置を決定する方法であって、
     前記ゲノムDNA配列からタンパク質コード配列を取得するステップS1と、
     前記タンパク質コード配列から、処理対象領域として第1コード配列を決定するステップS2と、
     前記第1コード配列中の部分配列からなり、所定の長さの複数の第2コード配列を取得し、前記タンパク質コード配列中の前記第2コード配列の位置を記録するステップS3と、
     前記ステップS3で取得された第2コード配列のそれぞれに対して、サイレント変異を施した1以上の第3コード配列を取得するステップS4と、
     前記第3コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第3コード配列のみを第4コード配列として決定するステップS5と、
     前記第4コード配列について相同性検索を行ない、相同性塩基配列を取得するステップS6と、
     前記第4コード配列毎にNMSを決定するステップS7と、
     前記NMSの最小値に対応する第4コード配列を前記DNAタグとして決定し、該第4コード配列に対応する前記第2コード配列の前記位置を、前記導入位置として決定するステップS8とを含み、
     前記ステップS2において、前記第1コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
     前記所定条件が、前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
     前記NMSが、相同性の程度を表すことを特徴とするDNAタグ及び導入位置の決定方法。
  2.  さらに、
     同じNMSを複数有する第4コード配列が存在する場合、それらのNMSの内、出現頻度が最小であるNMSに対応する第4コード配列を、前記タグとして決定するステップS9を含むことを特徴とする請求項1に記載のDNAタグ及び導入位置の決定方法。
  3.  前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドが前記プライマーとして適切である前記条件が、
     前記相補的塩基配列のCG含有量が、45~55%であり、
     前記相補的塩基配列のtm値が、55~65℃であり、且つ、
     前記相補的塩基配列中に、同じ塩基が4つ以上連続して存在しない
     ことを特徴とする請求項1又は2に記載のDNAタグ及び導入位置の決定方法。
  4.  コンピュータに、生物のゲノムDNA配列に導入される塩基配列であるDNAタグ、及び、該DNAタグの前記ゲノムDNA配列への導入位置を決定する機能を実現させるプログラムであって、
     前記コンピュータに、
     前記ゲノムDNA配列からタンパク質コード配列を取得する第1機能と、
     前記タンパク質コード配列から、処理対象領域として第1コード配列を決定する第2機能と、
     前記第1コード配列中の部分配列からなる所定の長さの複数の第2コード配列を取得する第3機能と、
     前記第3機能によって取得された第2コード配列のそれぞれに対して、サイレント変異を施した1以上の第3コード配列を取得する第4機能と、
     前記第3コード配列が所定条件を満たすか否かを判断し、該所定条件を満たす第3コード配列のみを第4コード配列として決定する第5機能と、
     前記第4コード配列について相同性検索を行ない、相同性塩基配列を取得する第6機能と、
     前記第4コード配列毎にNMSを決定する第7機能と、
     前記NMSの最小値に対応する第4コード配列を前記DNAタグとして決定し、該第4コード配列に対応する前記第2コード配列の前記位置を、前記導入位置として決定する第8機能とを実現させ、
     前記第2機能において、前記第1コード配列が、サイレント変異を施しても前記生物の生物としての機能に影響しない領域のコード配列であり、
     前記所定条件が、前記第3コード配列又はその相補的塩基配列からなるポリヌクレオチドがプライマーとして適切である条件であり、
     前記NMSが、相同性の程度を表すことを特徴とするタグ及び導入位置の決定プログラム。
  5.  以下の工程を含む、DNAタグ導入変異株の製造方法。
    (i)請求項1~3のいずれかに記載の方法によって決定されたDNAタグを調製し、マーカー遺伝子を含むベクターにクローニングする工程;
    (ii)前記工程(i)で得られたDNAタグがクローニングされたベクターを用いて、生物の細胞に形質転換する工程;及び
    (iii)前記工程(ii)において形質転換された細胞を連続培養又は継代培養してマーカー遺伝子を除去し、DNAタグがゲノム中に相同組換えされた変異株を得る工程。
  6.  さらに、前記マーカー遺伝子が生物のゲノム中に含まれていないことを確認する工程を含む、請求項5に記載の方法。
  7.  請求項5又は6に記載の方法によって得られる変異株。
  8.  請求項1~3のいずれかに記載の方法によって決定されたDNAタグを含むベクター。
  9.  請求項8に記載のベクターによってDNAタグが導入されたゲノムDNA。
PCT/JP2009/051512 2009-01-29 2009-01-29 Dnaタグの構築方法 WO2010086990A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009505664A JP4547522B1 (ja) 2009-01-29 2009-01-29 Dnaタグの構築方法
CA2788452A CA2788452C (en) 2009-01-29 2009-01-29 Method of making dna tag
EP09839182.4A EP2397543B1 (en) 2009-01-29 2009-01-29 Method of making dna tag
US13/147,128 US8691581B2 (en) 2009-01-29 2009-01-29 Method of making DNA tag
PCT/JP2009/051512 WO2010086990A1 (ja) 2009-01-29 2009-01-29 Dnaタグの構築方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/051512 WO2010086990A1 (ja) 2009-01-29 2009-01-29 Dnaタグの構築方法

Publications (1)

Publication Number Publication Date
WO2010086990A1 true WO2010086990A1 (ja) 2010-08-05

Family

ID=42395260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/051512 WO2010086990A1 (ja) 2009-01-29 2009-01-29 Dnaタグの構築方法

Country Status (5)

Country Link
US (1) US8691581B2 (ja)
EP (1) EP2397543B1 (ja)
JP (1) JP4547522B1 (ja)
CA (1) CA2788452C (ja)
WO (1) WO2010086990A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244089A1 (ja) * 2021-05-18 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101278652B1 (ko) * 2010-10-28 2013-06-25 삼성에스디에스 주식회사 협업 기반 염기서열 데이터의 관리, 디스플레이 및 업데이트 방법
CN110305942B (zh) * 2019-07-19 2023-04-07 长江水利委员会长江科学院 一种鱼类环境dna动水归趋特性测试方法及装置
CN113517026B (zh) * 2021-06-16 2022-08-19 苏州拉索生物芯片科技有限公司 应用于生物制品的标签序列的生成方法、系统、智能终端及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376686A (en) * 2001-02-10 2002-12-24 Nat Inst Of Agricultural Botan Storage of encoded information within biological macromolecules
JP2003101485A (ja) * 2002-10-17 2003-04-04 Masayuki Sonobe 生体高分子を通信媒体もしくは記録媒体とした、情報通信方法、情報記録方法、エンコーダおよびデコーダ
WO2004009844A1 (en) * 2002-07-18 2004-01-29 Dnasign Ag The use of nucleotide sequences as carrier of information

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008173083A (ja) 2007-01-22 2008-07-31 Nippon Software Management Kk Dnaタグによる生物の同定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2376686A (en) * 2001-02-10 2002-12-24 Nat Inst Of Agricultural Botan Storage of encoded information within biological macromolecules
WO2004009844A1 (en) * 2002-07-18 2004-01-29 Dnasign Ag The use of nucleotide sequences as carrier of information
JP2003101485A (ja) * 2002-10-17 2003-04-04 Masayuki Sonobe 生体高分子を通信媒体もしくは記録媒体とした、情報通信方法、情報記録方法、エンコーダおよびデコーダ

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BECKER, D.M. ET AL., METHODS. ENZYMOL., vol. 194, 1990, pages 182
COHEN, S.N. ET AL., PROC. NATL. ACAD. SCI., USA, vol. 69, 1972, pages 2110
HINNEN, A. ET AL., PROC. NATL. ACAD. SCI., USA, vol. 75, 1978, pages 1929
ITOH, H., J. BACTERIOL., vol. 153, 1983, pages 163
KOBAYASHI ET AL., PROC. NATL. ACAD. SCI. USA., vol. 100, no. 8, 15 April 2003 (2003-04-15), pages 4678 - 83
MIURA F, UEMATSU C, SAKAKI Y, ITO T: "A novel strategy to design highly specific PCR primers based on the stability and uniqueness of 3' -end subsequences", BIO INFORMATICS., vol. 15, no. 21, 2005, pages 4363 - 4370
QU W, SHEN Z, ZHAO D, YANG Y, ZHANG C: "MFEprimer: multiple factor evaluation of the specificity of PCR primers", BIOINFORMATICS., vol. 15, no. 25, 2009, pages 276 - 278
See also references of EP2397543A4
THE NIKKEI BUSINESS DAILY, 25 June 2008 (2008-06-25), pages 1 *
YACHIE N. ET AL.: "Alignment-based approach for durable data storage into living organisms", BIOTECHNOL PROG., vol. 23, no. 2, 2007, pages 501 - 505, XP002675190 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244089A1 (ja) * 2021-05-18 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
JP7537609B2 (ja) 2021-05-18 2024-08-21 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
US20110281273A1 (en) 2011-11-17
JP4547522B1 (ja) 2010-09-22
EP2397543A4 (en) 2012-07-04
JPWO2010086990A1 (ja) 2012-07-26
CA2788452C (en) 2017-02-21
EP2397543B1 (en) 2015-05-27
CA2788452A1 (en) 2010-08-05
US8691581B2 (en) 2014-04-08
EP2397543A1 (en) 2011-12-21

Similar Documents

Publication Publication Date Title
Tran et al. Functional analysis of African Xanthomonas oryzae pv. oryzae TALomes reveals a new susceptibility gene in bacterial leaf blight of rice
Yang et al. Diverse members of the AvrBs3/PthA family of type III effectors are major virulence determinants in bacterial blight disease of rice
Jalan et al. Comparative genomic and transcriptome analyses of pathotypes of Xanthomonas citri subsp. citri provide insights into mechanisms of bacterial virulence and host range
Jiang et al. Comprehensive genome-wide perturbations via CRISPR adaptation reveal complex genetics of antibiotic sensitivity
CN106978428A (zh) 一种Cas蛋白特异结合靶标DNA、调控靶标基因转录的方法及试剂盒
Gowda et al. Genome analysis of rice-blast fungus Magnaporthe oryzae field isolates from southern India
Ravindran et al. Comparative genomics of Pseudomonas syringae pv. syringae strains B301D and HS 191 and insights into intrapathovar traits associated with plant pathogenesis
Niu et al. Complete sequence and detailed analysis of the first indigenous plasmid from Xanthomonas oryzae pv. oryzicola
Libourel et al. Comparative phylotranscriptomics reveals ancestral and derived root nodule symbiosis programmes
Wang et al. Extensive chromosomal rearrangements and rapid evolution of novel effector superfamilies contribute to host adaptation and speciation in the basal ascomycetous fungi
JP4547522B1 (ja) Dnaタグの構築方法
Hummel et al. The trans-regulatory landscape of gene networks in plants
Joubert et al. The extrachromosomal circular DNAs of the rice blast pathogen Magnaporthe oryzae contain a wide variety of LTR retrotransposons, genes, and effectors
Seong et al. Marine DNA methylation patterns are associated with microbial community composition and inform virus-host dynamics
Xu et al. Tal6b/AvrXa27A, a hidden TALE targeting the susceptibility gene OsSWEET11a and the resistance gene Xa27 in rice
Jiang et al. Highly efficient genome editing in Xanthomonas oryzae pv. oryzae through repurposing the endogenous type I‐C CRISPR‐Cas system
Li et al. An efficient method to clone TAL effector genes from Xanthomonas oryzae using Gibson assembly
CN105238820A (zh) 一种用于大肠杆菌基因敲入的负筛选标记
Zhao et al. A novel biosynthetic gene cluster across the Pantoea species complex is important for pathogenicity in onion
WO2021102579A1 (en) Methods and compositions for providing identification and/or traceability of biological material
Wang et al. Generation and characterisation of Tn5-tagged Xanthomonas oryzae pv. oryzae mutants that overcome Xa23-mediated resistance to bacterial blight of rice
CN101311185B (zh) 一种基于半推理设计的基因体外定向进化体系
JP4721868B2 (ja) 宿主dnaの欠失対象領域の欠失方法
Xi et al. Complete Genome Sequence Data for the Grapevine Crown Gall–Inhibiting Bacteria Allorhizobium vitis F2/5
KR101685759B1 (ko) 자살벡터를 이용하여 다제내성 균주의 변이주를 제작하는 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2009505664

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09839182

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13147128

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2009839182

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2788452

Country of ref document: CA

点击 这是indexloc提供的php浏览器服务,不要输入任何密码和下载