ES2665071T3 - Composiciones y métodos para identificar mutaciones de manera precisa - Google Patents
Composiciones y métodos para identificar mutaciones de manera precisa Download PDFInfo
- Publication number
- ES2665071T3 ES2665071T3 ES13706397.0T ES13706397T ES2665071T3 ES 2665071 T3 ES2665071 T3 ES 2665071T3 ES 13706397 T ES13706397 T ES 13706397T ES 2665071 T3 ES2665071 T3 ES 2665071T3
- Authority
- ES
- Spain
- Prior art keywords
- nucleic acid
- sequencing
- code
- nucleotides
- target nucleic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000000203 mixture Substances 0.000 title description 13
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 244
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 237
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 237
- 239000002773 nucleotide Substances 0.000 claims abstract description 179
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 177
- 238000012163 sequencing technique Methods 0.000 claims abstract description 162
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000003321 amplification Effects 0.000 claims description 36
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 36
- 206010028980 Neoplasm Diseases 0.000 claims description 19
- 108020005196 Mitochondrial DNA Proteins 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 claims description 8
- 238000002360 preparation method Methods 0.000 claims description 8
- 108091035707 Consensus sequence Proteins 0.000 claims description 7
- 238000012175 pyrosequencing Methods 0.000 claims description 6
- 239000000839 emulsion Substances 0.000 claims description 3
- 239000002077 nanosphere Substances 0.000 claims description 3
- 238000012408 PCR amplification Methods 0.000 claims description 2
- 108020005202 Viral DNA Proteins 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 63
- 108020004414 DNA Proteins 0.000 description 49
- 239000013615 primer Substances 0.000 description 28
- 238000006243 chemical reaction Methods 0.000 description 24
- 238000003752 polymerase chain reaction Methods 0.000 description 24
- 230000000295 complement effect Effects 0.000 description 22
- 108091008146 restriction endonucleases Proteins 0.000 description 20
- 210000004027 cell Anatomy 0.000 description 18
- 230000037452 priming Effects 0.000 description 18
- 230000009977 dual effect Effects 0.000 description 17
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 16
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 16
- 239000012634 fragment Substances 0.000 description 14
- 238000011144 upstream manufacturing Methods 0.000 description 13
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- HEDRZPFGACZZDS-UHFFFAOYSA-N Chloroform Chemical compound ClC(Cl)Cl HEDRZPFGACZZDS-UHFFFAOYSA-N 0.000 description 8
- 108091028043 Nucleic acid sequence Proteins 0.000 description 8
- ISWSIDIOOBJBQZ-UHFFFAOYSA-N Phenol Chemical compound OC1=CC=CC=C1 ISWSIDIOOBJBQZ-UHFFFAOYSA-N 0.000 description 8
- 230000000692 anti-sense effect Effects 0.000 description 8
- 239000002299 complementary DNA Substances 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- PHTQWCKDNZKARW-UHFFFAOYSA-N isoamylol Chemical compound CC(C)CCO PHTQWCKDNZKARW-UHFFFAOYSA-N 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 239000000499 gel Substances 0.000 description 7
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 108091034117 Oligonucleotide Proteins 0.000 description 6
- 239000007787 solid Substances 0.000 description 6
- 230000002269 spontaneous effect Effects 0.000 description 6
- 239000000758 substrate Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 102000053602 DNA Human genes 0.000 description 4
- 241000588724 Escherichia coli Species 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 230000029087 digestion Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 238000002844 melting Methods 0.000 description 4
- 230000008018 melting Effects 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 241000894006 Bacteria Species 0.000 description 3
- 206010033128 Ovarian cancer Diseases 0.000 description 3
- 239000002253 acid Substances 0.000 description 3
- 239000011543 agarose gel Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- FPPNZSSZRUTDAP-UWFZAAFLSA-N carbenicillin Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)C(C(O)=O)C1=CC=CC=C1 FPPNZSSZRUTDAP-UWFZAAFLSA-N 0.000 description 3
- 229960003669 carbenicillin Drugs 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 238000012350 deep sequencing Methods 0.000 description 3
- 238000012869 ethanol precipitation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 150000002500 ions Chemical group 0.000 description 3
- 239000002609 medium Substances 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 231100000350 mutagenesis Toxicity 0.000 description 3
- 230000036438 mutation frequency Effects 0.000 description 3
- 239000013612 plasmid Substances 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000000392 somatic effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013603 viral vector Substances 0.000 description 3
- 108020004635 Complementary DNA Proteins 0.000 description 2
- 230000005778 DNA damage Effects 0.000 description 2
- 231100000277 DNA damage Toxicity 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 239000006142 Luria-Bertani Agar Substances 0.000 description 2
- 108700020796 Oncogene Proteins 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 2
- UIIMBOGNXHQVGW-UHFFFAOYSA-M Sodium bicarbonate Chemical compound [Na+].OC([O-])=O UIIMBOGNXHQVGW-UHFFFAOYSA-M 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- -1 cosmids Substances 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 238000007847 digital PCR Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 210000004962 mammalian cell Anatomy 0.000 description 2
- 230000002438 mitochondrial effect Effects 0.000 description 2
- 238000010369 molecular cloning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000003753 real-time PCR Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- UCSJYZPVAKXKNQ-HZYVHMACSA-N streptomycin Chemical compound CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](NC(N)=N)[C@H](O)[C@@H](NC(N)=N)[C@H](O)[C@H]1O UCSJYZPVAKXKNQ-HZYVHMACSA-N 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229920000936 Agarose Polymers 0.000 description 1
- 108091093088 Amplicon Proteins 0.000 description 1
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 102000012410 DNA Ligases Human genes 0.000 description 1
- 108010061982 DNA Ligases Proteins 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 101000721661 Homo sapiens Cellular tumor antigen p53 Proteins 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- 229930182816 L-glutamine Natural products 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 206010052641 Mitochondrial DNA mutation Diseases 0.000 description 1
- 229930182555 Penicillin Natural products 0.000 description 1
- JGSARLDLIJGVTE-MBNYWOFBSA-N Penicillin G Chemical compound N([C@H]1[C@H]2SC([C@@H](N2C1=O)C(O)=O)(C)C)C(=O)CC1=CC=CC=C1 JGSARLDLIJGVTE-MBNYWOFBSA-N 0.000 description 1
- 108010010677 Phosphodiesterase I Proteins 0.000 description 1
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 1
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 1
- ZYFVNVRFVHJEIU-UHFFFAOYSA-N PicoGreen Chemical compound CN(C)CCCN(CCCN(C)C)C1=CC(=CC2=[N+](C3=CC=CC=C3S2)C)C2=CC=CC=C2N1C1=CC=CC=C1 ZYFVNVRFVHJEIU-UHFFFAOYSA-N 0.000 description 1
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 1
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 108010006785 Taq Polymerase Proteins 0.000 description 1
- 241000283907 Tragelaphus oryx Species 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000091 biomarker candidate Substances 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 210000005266 circulating tumour cell Anatomy 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000004520 electroporation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012091 fetal bovine serum Substances 0.000 description 1
- 238000002866 fluorescence resonance energy transfer Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 102000048958 human TP53 Human genes 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 235000019689 luncheon sausage Nutrition 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000007403 mPCR Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 229940049954 penicillin Drugs 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 210000004976 peripheral blood cell Anatomy 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 229910000030 sodium bicarbonate Inorganic materials 0.000 description 1
- 235000017557 sodium bicarbonate Nutrition 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 229960005322 streptomycin Drugs 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000004797 therapeutic response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1093—General methods of preparing gene libraries, not provided for in other subgroups
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/70—Vectors or expression systems specially adapted for E. coli
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/80—Vectors or expression systems specially adapted for eukaryotic hosts for fungi
- C12N15/81—Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/85—Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
- C40B40/08—Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E50/00—Technologies for the production of fuel of non-fossil origin
- Y02E50/10—Biofuels, e.g. bio-diesel
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Plant Pathology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Mycology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Un método para detectar una mutación verdadera en una molécula de ácido nucleico, que comprende: amplificar un banco de ácidos nucleicos de doble cadena, en donde el banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos de doble cadena, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Y-Xb (en orden 5' a 3'), en donde: (a) Xa comprende un primer código; (b) Y comprende una molécula de ácido nucleico diana, y (c) Xb comprende un segundo código, en donde cada una de la pluralidad de moléculas de ácidos nucleicos diana está asociada con un par único de primero y segundo códigos de doble cadena, en donde cada uno de la pluralidad de códigos comprende una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos, en donde se amplifican cada una de las cadenas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos de doble cadena; secuenciar cada una de las cadenas amplificadas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos para obtener lecturas de secuenciación para la pluralidad de moléculas de ácidos nucleicos diana y la pluralidad de códigos, y de sus complementos inversos; agrupar las lecturas de secuenciación de moléculas de ácidos nucleicos que comprenden pares de códigos idénticos en familias de lecturas de secuenciación, y detectar la mutación verdadera a lo largo de una tasa de fondo de mutaciones de artefactos, comprendiendo dicha detección identificar como mutación verdadera una mutación presente sustancialmente en todas las lecturas en una familia de lecturas de secuenciación.
Description
5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Composiciones y métodos para identificar mutaciones de manera precisa Antecedentes
1. Campo técnico
La presente divulgación se refiere a composiciones y métodos para detectar con precisión mutaciones utilizando la secuenciación y, más particularmente, marcando de manera única moléculas de ácidos nucleicos de doble cadena de manera que los datos de secuencia obtenidos para una cadena sentido pueden vincularse a datos de secuencia obtenidos a partir de la cadena anti-sentido cuando se obtiene a través de métodos de secuenciación masivamente paralelos.
2. Descripción de la Técnica Relacionada
La detección de mutaciones espontáneas (p. ej., sustituciones, inserciones, deleciones, duplicaciones) o incluso mutaciones inducidas, que ocurren aleatoriamente a lo largo de un genoma puede ser un desafío, debido a que estos eventos mutacionales son raros y pueden existir en una o sólo en unas pocas copias de ADN. La forma más directa de detectar mutaciones es por secuenciación, pero los métodos de secuenciación disponibles no son lo suficientemente sensibles como para detectar mutaciones raras. Por ejemplo, las mutaciones que surgen de novo en el ADN mitocondrial (ADNmt) generalmente sólo estarán presentes en una sola copia de ADNmt, lo que significa que estas mutaciones no se encuentran fácilmente, ya que una mutación debe estar presente hasta en un 10-25% de una población de moléculas a detectar por secuenciación (Jones et al., Proc. Nat’l. Acad. Sci. U.S.A. 105: 4283-88, 2008). Como otro ejemplo, se ha estimado que la frecuencia de mutación somática espontánea en ADN genómico es tan baja como 1 x 10-8 y 2,1 x 10-6 en tejidos humanos normales y cancerosos, respectivamente (Bielas et al., Proc. Nat’l. Acad. Sci. U.S.A. 103: 18238-42, 2008).
Una mejora en la secuenciación ha sido tomar moléculas de ADN individuales y amplificar el número de cada una de las moléculas mediante, por ejemplo, la reacción en cadena de la polimerasa (PCR) y PCR digital. De hecho, la secuenciación paralela masiva representa una forma particularmente potente de PCR digital porque se pueden analizar una por una millones de moléculas de ADN molde. Sin embargo, la amplificación de moléculas de ADN individuales antes o durante la secuenciación por PCR y/o amplificación puente padece la tasa de errores inherente de las polimerasas empleadas para la amplificación, y las mutaciones espurias generadas durante la amplificación pueden identificarse erróneamente como mutaciones espontáneas del ácido nucleico original (endógeno no amplificado). De manera similar, los moldes de ADN dañados durante la preparación (ex vivo) pueden amplificarse y puntuarse incorrectamente como mutaciones mediante técnicas de secuenciación paralela masiva. Nuevamente, utilizando ADNmt como un ejemplo, las frecuencias de mutación determinadas experimentalmente dependen fuertemente de la precisión del ensayo particular que se esté utilizando (Kraytsberg et al., Methods 46:269-73, 2008) - estas discrepancias sugieren que la frecuencia de mutación espontánea del ADNmt está ya sea por debajo o muy cerca del límite de detección de estas tecnologías. La secuenciación paralela masiva generalmente no se puede utilizar para detectar variantes raras debido a la alta tasa de errores asociada con el proceso de secuenciación - un proceso que utiliza amplificación de puente y secuenciación por síntesis ha mostrado una tasa de errores que oscila entre aproximadamente 0,06% y 1% que depende de diversos factores, incluida la longitud de lectura. algoritmos de llamada de bases y el tipo de variantes detectadas (véase Kinde et al., Proc. Nat’l. Acad. Sci. U.S.A. 108:9530-5, 2011).
El documento DE 10 2008 025656 A1 describe un método para la determinación cuantitativa de ácidos nucleicos en una muestra, en particular para la determinación cuantitativa de transcritos de genes tales como ARNm, ADNc, ARNmicro, ARN no codificante, y para la provisión de marcadores para llevar a cabo los métodos analíticos.
El documento WO 2009/036525 A2 describe herramientas y métodos para uso en ensayos genéticos que indican técnicas de secuenciación de alto rendimiento, incluyendo un método de PCR multiplex, en el que los cebadores respectivos para amplificar los diferentes amplicones son físicamente aislados uno de otro.
El documento WO 2005/042759 A2 describe composiciones y métodos para el análisis de la expresión génica utilizando tecnología basada en micromatrices. Los métodos utilizan cebadores específicos para genes así como cebadores de amplificación universales durante la preparación de la muestra. Algunas realizaciones de la invención incorporan secuencias de códigos de barras en los productos amplificados.
El documento WO 98/44151 A1 describe un método para la amplificación de ácidos nucleicos para proporcionar moléculas de ácidos nucleicos amplificadas e inmovilizadas para usos tales como secuenciación, rastreo, diagnosis, síntesis de ácidos nucleicos in situ, vigilancia de la expresión génica y huella genética de ácidos nucleicos.
Breve sumario
La invención proporciona un método para detectar una mutación verdadera en una molécula de ácido nucleico, que comprende:
5
10
15
20
25
30
35
40
45
50
amplificar un banco de ácidos nucleicos de doble cadena, en donde el banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos de doble cadena, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Y-Xb (en orden 5' a 3'), en donde:
(a) Xa comprende un primer código;
(b) Y comprende una molécula de ácido nucleico diana, y
(c) Xb comprende un segundo código,
en donde cada una de la pluralidad de moléculas de ácidos nucleicos diana está asociada con un par único de primero y segundo códigos de doble cadena, en donde cada uno de la pluralidad de códigos comprende una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos, en donde se amplifican cada una de las cadenas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos de doble cadena;
secuenciar cada una de las cadenas amplificadas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos para obtener lecturas de secuenciación para la pluralidad de moléculas de ácidos nucleicos diana y la pluralidad de códigos, y de sus complementos inversos;
agrupar las lecturas de secuenciación de moléculas de ácidos nucleicos que comprenden pares de códigos idénticos en familias de lecturas de secuenciación, y
detectar la mutación verdadera a lo largo de una tasa de fondo de mutaciones de artefactos, comprendiendo dicha detección identificar como mutación verdadera una mutación presente sustancialmente en todas las lecturas en una familia de lecturas de secuenciación.
En una realización del método, las familias de lecturas de secuenciación comprenden los complementos inversos de las lecturas de secuenciación de moléculas de ácidos nucleicos diana que comprenden pares de códigos idénticos.
En otra realización, el método comprende generar secuencias consenso para las familias de lecturas de secuenciación. En una realización adicional, la generación de la secuencia consenso comprende eliminar por computación mutaciones que surgen durante la preparación del banco o durante la secuenciación.
En otra realización, la secuencia de doble cadena del código Xa para cada una de las moléculas de ácidos nucleicos diana es diferente de la secuencia de doble cadena del código Xb. En una realización adicional, ninguna de las secuencias de doble cadena del código Xa es la misma que la secuencia de doble cadena de cualquier otro código Xa, ninguna de las secuencias de doble cadena del código Xb es la misma que la secuencia de doble cadena de cualquier otro código Xb, y ninguna de las secuencias de doble cadena del código Xa y del código Xb son las mismas.
En otra realización, la secuencia de doble cadena del código Xa es idéntica a la secuencia de doble cadena del código Xb para una o más moléculas de ácidos nucleicos diana, con la condición de que el código de doble cadena para cada uno de los ácidos nucleicos diana sea diferente.
En otra realización, la detección de la mutación verdadera comprende secuenciar la pluralidad de moléculas de ácidos nucleicos con una tasa de errores que oscila entre aproximadamente 10"6 y aproximadamente 10"8.
En otra realización, la detección de la mutación verdadera comprende secuenciar simultáneamente una pluralidad de moléculas de ácidos nucleicos diana diferentes con una tasa de errores de 5 x 10"6 o menos, 10"6 o menos, 5 x 10"7 o menos, 10"7 o menos, 5 x 10"8 o menos o 10"8 o menos.
En otra realización, la detección de la mutación verdadera comprende secuenciar una molécula de ácido nucleico diana sencilla en profundidad con una tasa de errores de 5 x 10"7 o menos, 10"7 o menos, 5 x 10"8 o menos o 10"8 o menos.
En otra realización, el primer y/o segundo códigos son códigos al azar. En otra realización, el primer y/o segundo códigos son códigos catalogados. En una realización adicional, el primer y/o segundo códigos son códigos al azar catalogados.
En otra realización, las lecturas de secuenciación no cubren la secuencia completa de una molécula de ácido nucleico diana de doble cadena. En una realización adicional, el método comprende enlazar lecturas de secuenciación obtenidas de un extremo de la molécula diana de doble cadena con lecturas de secuenciación obtenidas del extremo opuesto o de la segunda cadena de la misma molécula diana de doble cadena.
En otra realización, la pluralidad de moléculas de ácidos nucleicos diana comprende una molécula de ácido nucleico diana derivada de una célula tumoral circulante (CTC), un ADN mitocondrial de tumor circulante (ADNctmt), o un ADN viral.
5
10
15
20
25
30
35
40
45
50
55
En otra realización, la pluralidad de códigos tiene cada uno el mismo número de nucleótidos y comprende una longitud de aproximadamente 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 nucleótidos.
En otra realización, la molécula de ácido nucleico diana de Y comprende de aproximadamente 10 nucleótidos a aproximadamente 10.000 nucleótidos o de aproximadamente 100 nucleótidos a aproximadamente 1.000 nucleótidos.
En otra realización, la amplificación es mediante amplificación de puente, amplificación en emulsión, amplificación por nanoesferas o amplificación por PCR.
En otra realización, la secuenciación es secuenciación por síntesis, pirosecuenciación, secuenciación de colorante- terminador reversible o secuenciación de polonias.
La presente divulgación proporciona un banco de moléculas de ácidos nucleicos de doble cadena que incluye una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Xb-Y, Xb-Xa-Y, Y-Xa-Xb, Y-Xb-Xa, Xa-Y-Xb o Xb-Y-Xa(en orden de 5' a 3'), en donde (a) Xa comprende un primer código al azar, (b) Y comprende una molécula de ácido nucleico diana y (c) Xb comprende un segundo código al azar. Además, cada uno de la pluralidad de códigos al azar comprende una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos (o aproximadamente 5 nucleótidos a aproximadamente 10 nucleótidos, o una longitud de aproximadamente 6, aproximadamente 7, aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19 o aproximadamente 20 nucleótidos).
En determinadas realizaciones, las secuencias de doble cadena de los códigos Xa y Xbson las mismas (p. ej., Xa = Xb) para una o más moléculas de ácidos nucleicos diana, con la condición de que cada una de las moléculas de ácidos nucleicos diana no tenga la misma secuencia de código de doble cadena que cualquier otra molécula de ácido nucleico diana de este tipo. En determinadas otras realizaciones, la secuencia de doble cadena del código Xa para cada una de las moléculas de ácidos nucleicos diana es diferente de la secuencia de doble cadena del código Xb. En realizaciones adicionales, el banco de ácidos nucleicos de doble cadena está contenido en un vector autorreplicante tal como un plásmido, cósmido, YAC o vector viral.
La invención proporciona un método para obtener una secuencia de ácidos nucleicos o detectar con precisión una mutación verdadera en una molécula de ácido nucleico amplificando cada una de las cadenas del banco de ácidos nucleicos de doble cadena antes mencionado en el que se amplifican una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos, y se secuencia cada una de las cadenas de la pluralidad de moléculas de ácidos nucleicos diana y la pluralidad de códigos al azar. La secuenciación se puede realizar utilizando métodos de secuenciación masivamente paralelos. En determinados casos, la secuencia de una cadena de una molécula de ácido nucleico diana asociada con el primer código al azar alineada con la secuencia de la cadena complementaria asociada con el segundo código al azar da como resultado una tasa de errores de secuenciación mensurable que oscila entre aproximadamente 10"6 y aproximadamente 10"8.
Breve descripción de los dibujos
La Figura 1 es una ilustración diagramática de un vector ilustrativo de la presente divulgación útil para generar un banco de ácidos nucleicos de doble cadena.
La Figura 2 es una ilustración diagramática de un vector ilustrativo de la presente divulgación, en el que se incluyen secuencias de adaptadores y son útiles, por ejemplo, para métodos de amplificación de puente antes de la secuenciación.
Las Figuras 3A y 3B muestran características de un banco de códigos y la detección de mutaciones verdaderas. (A) Los datos generados en una sola secuencia de nueva generación ejecutada en MiSeq® demuestran una amplia cobertura y diversidad en el código de siete pares de bases en un banco de vectores, en donde el vector utilizado se ilustra en la Figura 2. (B) Cypher Seq elimina errores introducidos durante la preparación y secuenciación del banco. Las moléculas de ácidos nucleicos diana se ligaron en un banco de vectores de códigos que contiene códigos de doble cadena, dobles previamente catalogados. Las secuencias diana se amplificaron y secuenciaron. Todas las lecturas de secuenciación que tienen pares de códigos idénticos, junto con sus complementos inversos, se agruparon en familias. La comparación de secuencias de familias permitió la generación de una secuencia consenso en la que 'mutaciones' (errores) que surgen durante la preparación del banco (círculo en blanco) y durante la secuenciación (círculo gris y triángulo) fueron eliminados por computación. En general, las mutaciones que están presentes en todas o casi todas las lecturas (diamante negro) del mismo código y su complemento inverso se cuentan como verdaderas mutaciones.
Las Figuras 4A y 4B muestran que el sistema de códigos puede distinguir mutaciones verdaderas de mutaciones de artefactos. (A) Se ligó el exón 4 TP53 de tipo salvaje en un banco de vectores Cypher Seq y se secuenció en el instrumento Illumina MiSeq® con una profundidad de más de un millón. Las secuencias se compararon luego con la
5
10
15
20
25
30
35
40
45
50
55
60
secuencia de TP53 de tipo salvaje. Las sustituciones detectadas se trazaron antes (A) y después de la corrección (B) con Cypher Seq.
Descripción detallada
La presente divulgación proporciona un banco de ácidos nucleicos de doble cadena en el que moléculas de ácidos nucleicos diana incluyen dobles códigos (es decir, códigos de barras o etiquetas identificadoras de origen), una en cada extremo (igual o diferente), de modo que la secuenciación de cada una de las cadenas complementarias puede estar conectada o enlazada a la molécula original. El código único en cada una de las cadenas enlaza cada una de las cadenas con su cadena complementaria original (p. ej., antes de cualquier amplificación), de modo que cada una de las secuencias emparejadas sirve como su propio control interno. En otras palabras, etiquetando de manera única moléculas de ácidos nucleicos de doble cadena, los datos de secuencia obtenidos de una cadena de una única molécula de ácido nucleico pueden enlazarse específicamente a datos de secuencia obtenidos de la cadena complementaria de esa misma molécula de ácido nucleico de doble cadena. Además, los datos de secuencia obtenidos de un extremo de una molécula de ácido nucleico diana de doble cadena se pueden enlazar específicamente a los datos de secuencia obtenidos del extremo opuesto de esa misma molécula de ácido nucleico diana de doble cadena (por ejemplo, si no es posible obtener datos de la secuencia a través del fragmento de la molécula de ácido nucleico entera del banco).
Las composiciones y los métodos de esta divulgación permiten a una persona de experiencia ordinaria en la técnica distinguir con mayor precisión mutaciones verdaderas (es decir, mutaciones in vivo que surgen de forma natural) de una molécula de ácido nucleico a partir de "mutaciones" de artefactos (es decir, mutaciones o errores ex vivo) de una molécula de ácido nucleico que puede surgir por diversas razones, tales como un error de amplificación aguas abajo, un error de secuenciación o daño físico o químico. Por ejemplo, si en la molécula de ácido nucleico de doble cadena original pre-existía una mutación antes del aislamiento, la amplificación o la secuenciación, entonces una mutación de transición de adenina (A) a guanina (G) identificada en una cadena se complementará con una transición de timina (T) a cisteína (C) en la otra cadena. Por el contrario, es extremadamente improbable que "mutaciones" de artefactos que surgen más tarde en una cadena de ADN individual (separada) debido a errores de la polimerasa durante el aislamiento, la amplificación o la secuenciación tengan un cambio de base coincidente en la cadena complementaria. El enfoque de esta divulgación proporciona composiciones y métodos para distinguir errores sistemáticos (p. ej., errores de fidelidad de lectura de la polimerasa) y errores biológicos (p. ej., daño químico u otro) de mutaciones verdaderas o polimorfismos de un solo nucleótido (SNP) conocidos o recientemente identificados.
En determinadas realizaciones, los dos códigos en cada una de las moléculas diana tienen secuencias que son distintas entre sí y, por lo tanto, proporcionan un único par de identificadores, en los que un código identifica (o está asociado con) un primer extremo de una molécula de ácido nucleico diana y el segundo código identifica (o está asociado con) el otro extremo de la molécula de ácido nucleico diana. En determinadas otras realizaciones, los dos códigos en cada una de las moléculas diana tienen la misma secuencia y, por lo tanto, proporcionan un identificador único para cada una de las cadenas de la molécula de ácido nucleico diana. Cada una de las cadenas del banco de ácidos nucleicos de doble cadena (p. ej., ADN genómico, ADNc) puede amplificarse y secuenciarse utilizando, por ejemplo, tecnologías de secuenciación de próxima generación (tales como PCR en emulsión o amplificación de puente combinada con pirosecuenciación o secuenciación por síntesis, o similares). La información de la secuencia de cada una de las cadenas complementarias de una primera molécula de ácido nucleico de doble cadena se puede enlazar y comparar (p. ej., computacionalmente "decontextua") debido a los códigos únicos asociados con cada uno de los extremos o una de las cadenas de esa molécula de ácido nucleico de doble cadena particular. En otras palabras, cada uno de los fragmentos de molécula de ácido nucleico de doble cadena original encontrado en un banco de moléculas se puede reconstruir individualmente debido a la presencia de un código de barras único asociado o un par de secuencias de código de barras (etiqueta identificadora) en cada uno de los fragmentos o cada una de las cadenas diana.
A modo de antecedentes, cualquier mutación espontánea o inducida estará presente en ambas cadenas de una molécula de ADN nativa, de doble cadena, genómica. Por lo tanto, dicho molde de ADN mutante amplificado utilizando la PCR dará como resultado un producto de la PCR en el que el 100% de las moléculas producidas por PCR incluyen la mutación. En contraposición con una mutación espontánea original, un cambio debido al error de la polimerasa sólo aparecerá en una cadena de la molécula de ADN molde inicial (mientras que la otra cadena no tendrá la mutación de artefacto). Si todas las cadenas de ADN en una reacción PCR se copian de manera igualmente eficaz, entonces cualquier error de polimerasa que surja del primer ciclo de PCR probablemente se encontrará en al menos el 25% del producto de la PCR total. Pero las moléculas o cadenas de ADN no se copian eficazmente de la misma manera, por lo que las secuencias de ADN amplificadas a partir de la cadena que incorporó una base de nucleótidos errónea durante la amplificación inicial podrían constituir más o menos del 25% de la población de secuencias de ADN amplificadas dependiendo de la eficacia de la amplificación, pero aún mucho menos del 100%. De forma similar, cualquier error de polimerasa que se produzca en ciclos posteriores de PCR generalmente representará una proporción incluso menor de productos de la PCR (es decir, 12,5% para el segundo ciclo, 6,25% para el tercero, etc.) que contiene una "mutación". Las mutaciones inducidas por la PCR pueden deberse a errores de la polimerasa o debido a que la polimerasa pasa por alto los nucleótidos dañados, dando con
5
10
15
20
25
30
35
40
45
50
55
ello como resultado un error (véase, p. ej., Bielas y Loeb, Nat. Methods 2: 285-90, 2005). Por ejemplo, un cambio común en el ADN es la desaminación de la citosina, que es reconocida por Taq polimerasa como un uracilo y resulta en una mutación por transición de citosina a timina (Zheng et al., Mutat. Res. 599:11-20, 2006) - es decir, una alteración en la secuencia de ADN original se puede detectar cuando el ADN dañado es secuenciado, pero un cambio de este tipo puede o no ser reconocido como un error de la reacción de secuenciación o debido a un daño que surge ex vivo (p. ej., durante o después del aislamiento de ácido nucleico).
Debido a artefactos y alteraciones potenciales de las moléculas de ácidos nucleicos que surgen del aislamiento, la amplificación y la secuenciación, la identificación precisa de mutaciones del ADN somático verdadero es difícil cuando se secuencian moléculas de ácidos nucleicos amplificadas. En consecuencia, se confunde la evaluación de si determinadas mutaciones están relacionadas con, o son un biomarcador para diversos estados patológicos (p. ej., cáncer) o envejecimiento.
La secuenciación de próxima generación ha abierto la puerta a la secuenciación de múltiples copias de una molécula amplificada de ácido nucleico única - a la que se alude como secuenciación profunda. El pensamiento sobre la secuenciación profunda es que si un nucleótido particular de una molécula de ácido nucleico se secuencia múltiples veces, entonces uno puede identificar más fácilmente variantes o mutaciones de secuencias raras. De hecho, sin embargo, el proceso de amplificación y secuenciación tiene una tasa de errores inherente (que puede variar dependiendo de la calidad del ADN, de la pureza, la concentración (p. ej., densidad del racimo) u otras condiciones), por lo que no importa cuántas veces se secuencia la molécula de ácido, una persona experta en la técnica no puede distinguir un artefacto de error de polimerasa de una mutación verdadera (especialmente mutaciones raras).
Si bien la secuenciación de muchas moléculas de ADN diferentes colectivamente es ventajosa en términos de costo y tiempo, el precio de esta eficiencia y conveniencia es que diversos errores de PCR complican el análisis de mutaciones, siempre que su frecuencia sea equiparable a la de las mutaciones que surgen in vivo - en otras palabras, las mutaciones genuinas in vivo serán esencialmente indistinguibles de los cambios que son artefactos de PCR o errores de secuenciación.
Por lo tanto, la presente invención proporciona métodos para identificar mutaciones presentes antes de la amplificación o secuenciación de un banco de ácidos nucleicos de doble cadena, en donde las moléculas diana incluyen un único código de doble cadena o códigos duales (es decir, códigos de barras o etiquetas identificadoras), una en cada uno de los extremos, de modo que la secuenciación de cada una de las cadenas complementarias se puede conectar de nuevo a la molécula original. En determinadas realizaciones, el método potencia la sensibilidad del método de secuenciación, de modo que la tasa de errores es 5 x 10' , 10' , 5 x 10' , 10' , 5 x 10' , 10 o menos cuando se secuencian muchas moléculas diferentes de ácido nucleico diana simultáneamente o de manera que la tasa de errores es de 5 x 10'7, 10'7, 5 x 10'8, 10'8 o menos cuando se secuencia una única molécula de ácido nucleico diana en profundidad.
Antes de exponer esta descripción con más detalle, puede ser útil para una comprensión de la misma proporcionar definiciones de determinados términos y expresiones a utilizar en esta memoria. Se recogen definiciones adicionales a lo largo de esta divulgación.
En la presente descripción, se debe entender que cualquier intervalo de concentraciones, intervalo porcentual, intervalo de relaciones o intervalo de números enteros incluye el valor de cualquier número entero dentro del intervalo indicado y, cuando sea apropiado, fracciones del mismo (tal como una décima y una centésima de un número entero), a menos que se indique lo contrario. Además, debe entenderse que cualquier intervalo de números enumerado aquí en relación con cualquier característica física, tal como subunidades de polímero, tamaño o grosor, ha de entenderse que incluye cualquier número entero dentro del intervalo indicado, a menos que se indique lo contrario. Tal como se utiliza en esta memoria, el término "aproximadamente" y la expresión "consiste esencialmente en” significa ± 20% del intervalo, valor o estructura indicados, a menos que se indique lo contrario. Debe entenderse que los términos "un" y “una" tal como se utilizan en esta memoria se refieren a "uno o más" de los componentes enumerados. El uso de la alternativa (p. ej., "o") debe entenderse como una, ambas o cualquier combinación de las alternativas. Tal como se utiliza en esta memoria, los términos "incluir", "tener" y "comprender" se utilizan de manera sinónima, términos y variantes que se pretende sean considerados no limitantes.
Tal como se utiliza en esta memoria, la expresión "código al azar" o el término "código" o la expresión "código de barras" o "etiqueta identificadora" y sus variantes se utilizan indistintamente y se refieren a una molécula de ácido nucleico que tiene una longitud que oscila entre aproximadamente 5 y aproximadamente 50 nucleótidos. En determinadas realizaciones, todos los nucleótidos del código no son idénticos (es decir, comprenden al menos dos nucleótidos diferentes) y opcionalmente no contienen tres nucleótidos contiguos que sean idénticos. En realizaciones adicionales, el código está comprendido entre aproximadamente 5 y aproximadamente 15 nucleótidos, entre aproximadamente 6 y aproximadamente 10 nucleótidos, y preferiblemente entre aproximadamente 7 y aproximadamente 12 nucleótidos. Generalmente, los códigos estarán ubicados en uno o en ambos extremos de una molécula diana, que se puede incorporar directamente en moléculas diana de interés o en un vector en el que posteriormente se añadirán las moléculas diana.
5
10
15
20
25
30
35
40
45
50
55
60
Tal como se utiliza en esta memoria, "moléculas de ácidos nucleicos diana " y variantes de las mismas se refieren a una pluralidad de moléculas de ácidos nucleicos de doble cadena que pueden ser fragmentos o moléculas más cortas generadas a partir de moléculas de ácidos nucleicos más largas, incluyendo las de muestras naturales (p. ej., un genoma), o las moléculas de ácido nucleico diana pueden ser sintéticas (p. ej., ADNc), recombinantes, o una combinación de las mismas. Fragmentos de ácidos nucleicos diana de moléculas más largas se pueden generar utilizando una diversidad de técnicas conocidas en la técnica tales como cizallamiento mecánico o escisión específica con endonucleasas de restricción.
Tal como se utiliza en esta memoria, un "banco de moléculas de ácidos nucleicos" y variantes de las mismas se refiere a un banco de moléculas o fragmentos de ácidos nucleicos. En determinadas realizaciones, el banco de moléculas o fragmentos de ácidos nucleicos se incorpora en un vector, que se puede transformar o transfectar en una célula huésped apropiada. Las moléculas de ácidos nucleicos diana de esta divulgación se pueden introducir en una diversidad de estructuras principales de vectores diferentes (tales como plásmidos, cósmidos, vectores virales o similares), de modo que la producción recombinante de un banco de moléculas de ácidos nucleicos puede mantenerse en una célula huésped de elección (tal como bacterias, levaduras, células de mamíferos o similares).
Por ejemplo, un banco de moléculas de ácidos nucleicos que representa el genoma completo se denomina una genoteca y a un banco de copias de ADN de ARN mensajero se la alude como un banco de ADN complementario (ADNc). Métodos para introducir bancos de moléculas de ácidos nucleicos en vectores son bien conocidos en la técnica (véase, p. ej., Current Protocols in Molecular Biology, Ausubel et al., Comps., Greene Publishing and Wiley- Interscience, Nueva York, 1995; Sambrook et al., Molecular Cloning: A Laboratory Manual, 2a Ed., Cold Spring Harbor Laboratory Vols. 1-3, 1989; Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques, Berger y Kimmel, Comps., San Diego: Academic Press , Inc., 1987).
Dependiendo del tipo de banco a generar, los extremos de los fragmentos de ácido nucleico diana pueden tener colgantes o pueden estar "pulidos" (es decir, romos). Juntos, los fragmentos de moléculas de ácidos nucleicos diana pueden, por ejemplo, clonarse directamente en un vector de códigos para generar un banco de vectores, o pueden ligarse con adaptadores para generar, por ejemplo, polonias. Las moléculas de ácidos nucleicos diana, que son las moléculas de ácidos nucleicos de interés para la amplificación y secuenciación, pueden variar en tamaño desde unos pocos nucleótidos (p. ej., 50) hasta muchos miles (p. ej., 10.000). Preferiblemente, los fragmentos diana en el banco varían en tamaño desde aproximadamente 100 nucleótidos a aproximadamente 750 nucleótidos o aproximadamente 1.000 nucleótidos, o desde aproximadamente 150 nucleótidos a aproximadamente 250 nucleótidos o aproximadamente 500 nucleótidos.
Tal como se utiliza en esta memoria, un "sitio de cebado de moléculas de ácidos nucleicos” o “PS” y variantes del mismo son secuencias cortas de ácidos nucleicos conocidas contenidas en el vector. Una secuencia PS puede variar en longitud desde 5 nucleótidos a aproximadamente 50 nucleótidos de longitud, desde aproximadamente 10 nucleótidos a aproximadamente 30 nucleótidos, y preferiblemente es desde aproximadamente 15 nucleótidos a aproximadamente 20 nucleótidos de longitud. En determinadas realizaciones, una secuencia PS puede incluirse en uno o ambos extremos o ser una parte integral de las moléculas de ácido nucleico de códigos al azar, o puede estar incluida en uno o ambos extremos o ser una parte integral de una secuencia de adaptador, o puede estar incluida como parte del vector. Un cebador de moléculas de ácidos nucleicos que es complementario a un PS incluido en un banco de la presente divulgación se puede utilizar para iniciar una reacción de secuenciación.
Por ejemplo, si un código al azar solo tiene un PS aguas arriba (5') del código, entonces se puede utilizar un cebador complementario al PS para cebar una reacción de secuenciación para obtener la secuencia del código al azar y algo de una secuencia de una molécula de ácido nucleico diana clonada aguas abajo de la cifra. En otro ejemplo, si un código al azar tiene un primer PS aguas arriba (5') y un segundo PS aguas abajo (3') del código, entonces puede utilizarse un cebador complementario del primer PS para cebar una reacción de secuenciación para obtener la secuencia del código al azar, el segundo PS y algo de la secuencia de una molécula de ácido nucleico diana clonada aguas abajo del segundo PS. Por el contrario, puede utilizarse un cebador complementario al segundo PS para cebar una reacción de secuenciación para obtener directamente la secuencia de la molécula de ácido nucleico diana clonada aguas abajo del segundo PS. En este último caso se obtendrá más información de la secuencia de la molécula diana, ya que la reacción de secuenciación que comienza desde el segundo PS puede extenderse más allá en la molécula diana que lo que lo hace la reacción que tiene que extenderse a través tanto del código como de la molécula diana.
Tal como se utiliza en esta memoria, "secuenciación de nueva generación" se refiere a métodos de secuenciación de alto rendimiento que permiten la secuenciación de miles o millones de moléculas en paralelo. Ejemplos de métodos de secuenciación de nueva generación incluyen secuenciación por síntesis, secuenciación por ligamiento, secuenciación por hibridación, secuenciación de polonias y pirosecuenciación. Al unir cebadores a un sustrato sólido y una secuencia complementaria a una molécula de ácido nucleico, se puede hibridar una molécula de ácido nucleico al sustrato sólido a través del cebador y luego se pueden generar múltiples copias en una zona discreta sobre el sustrato sólido utilizando polimerasa para amplificar (a estas agrupaciones se las alude a veces como colonias de polimerasa o polonias). Por consiguiente, durante el proceso de secuenciación, un nucleótido en una posición particular se puede secuenciar múltiples veces (p. ej., cientos o miles de veces) - a esta profundidad de cobertura se la alude como “secuenciación profunda”.
5
10
15
20
25
30
35
40
45
50
55
60
Tal como se utiliza en esta memoria, "llamada de bases" se refiere a la conversión en computación de datos en bruto o procesados de un instrumento de secuenciación en puntuaciones de calidad y luego secuencias reales. Por ejemplo, muchas de las plataformas de secuenciación utilizan cámaras de detección óptica y de dispositivo acoplado a carga (CCD) para generar imágenes de información de intensidad (es decir, la información de intensidad indica qué nucleótido está en qué posición de una molécula de ácido nucleico), por lo que la llamada de bases se refiere generalmente al análisis de imagen en computación que convierte los datos de intensidad en secuencias y puntuaciones de calidad. Otro ejemplo es la tecnología de secuenciación por torrente de iones, que emplea una tecnología en propiedad de detección de iones semiconductores para detectar la liberación de iones hidrógeno durante la incorporación de bases de nucleótidos en reacciones de secuenciación que tienen lugar en una matriz de alta densidad de pocillos micro-mecanizados. Existen otros ejemplos de métodos conocidos en la técnica que se pueden emplear para la secuenciación simultánea de grandes números de moléculas de nucleótidos. Se describen diversos métodos de llamada de bases en, por ejemplo, Niedringhaus et al. (Anal. Chem. 83:4327, 2011).
En la siguiente descripción, se establecen determinados detalles específicos con el fin de proporcionar una comprensión exhaustiva de diversas realizaciones de esta divulgación. Sin embargo, después de revisar esta divulgación, un experto en la técnica entenderá que la invención puede ponerse en práctica sin muchos de estos detalles. En otros casos, tecnologías de secuenciación de nueva generación emergentes, así como métodos de secuenciación de nueva generación bien conocidos o ampliamente disponibles (p. ej., secuenciación de terminación de la cadena, secuenciación de colorante y terminador, secuenciación de colorante y terminador reversible, secuenciación por síntesis, secuenciación por ligamiento, secuenciación por hibridación, secuenciación de polonias, pirosecuenciación, secuenciación de semiconductores de iones, secuenciación de nanoesferas, secuenciación de nanoporos, secuenciación de molécula única, secuenciación FRET, secuenciación de bases pesada y secuenciación de microfluidos), no se han descrito todas en detalle para evitar oscurecer innecesariamente las descripciones de las realizaciones de la presente divulgación. Las descripciones de algunos de estos métodos pueden encontrarse, por ejemplo, en las Publicaciones PCT N°s WO 98/44151, WO 00/18957 y WO 2006/08413; y las Publicaciones de Solicitudes de Patente de EE.UU. N°s 6.143.496, 6833246 y 7.754.429; y las Publicaciones de Solicitudes de Patente de EE.UU. 2010/0227329 y US 2009/0099041.
Se describen diversas realizaciones de la presente divulgación para fines de ilustración en el contexto del uso con vectores que contienen un banco de fragmentos de ácidos nucleicos (p. ej., banco genómico o de ADNc). Sin embargo, como apreciarán los expertos en la técnica al revisar esta divulgación, el uso con otros bancos de ácidos nucleicos o métodos para producir un banco de fragmentos de ácidos nucleicos también pueden ser adecuados.
En determinadas realizaciones, un banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Y-Xb(en orden de 5' a 3'), en donde (a) Xa comprende un primer código al azar, (b) Y comprende una molécula de ácido nucleico diana y (c) Xb comprende un segundo código al azar; en donde cada uno de la pluralidad de códigos al azar comprende una longitud de aproximadamente 5 nucleótidos a aproximadamente 50 nucleótidos. En determinadas realizaciones, la secuencia de doble cadena del código Xa para cada una de las moléculas de ácidos nucleicos diana es diferente de la secuencia de doble cadena del código Xb. En determinadas otras realizaciones, el código Xa de doble cadena es idéntico al código Xb para una o más moléculas de ácidos nucleicos diana, con la condición de que el código doble cadena para cada una de las moléculas de ácido nucleico diana sea diferente.
En realizaciones adicionales, la pluralidad o agrupación de códigos al azar utilizados en el banco de moléculas de ácidos nucleicos de doble cadena o el banco de vectores comprende de aproximadamente 5 nucleótidos a aproximadamente 40 nucleótidos, aproximadamente 5 nucleótidos a aproximadamente 30 nucleótidos,
aproximadamente 6 nucleótidos a aproximadamente 30 nucleótidos, aproximadamente 6 nucleótidos a
aproximadamente 20 nucleótidos, aproximadamente 6 nucleótidos a aproximadamente 10 nucleótidos,
aproximadamente 6 nucleótidos a aproximadamente 8 nucleótidos, aproximadamente 7 nucleótidos a
aproximadamente 9 o aproximadamente 10 nucleótidos, o aproximadamente 6, aproximadamente 7 o
aproximadamente 8 nucleótidos. En determinadas realizaciones, un código tiene preferiblemente una longitud de aproximadamente 6, aproximadamente 7, aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15, aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19 o aproximadamente 20 nucleótidos. En determinadas realizaciones, un par de códigos al azar asociados con secuencias de ácidos nucleicos o vectores tendrán diferentes longitudes o tendrán la misma longitud. Por ejemplo, una molécula o vector de ácido nucleico diana puede tener un primer código al azar aguas arriba (5') de aproximadamente 6 nucleótidos de longitud y un segundo código aguas abajo (3') de aproximadamente 9 nucleótidos de longitud, o una molécula de ácido nucleico diana o un vector puede tener un primer código al azar aguas arriba (5') de aproximadamente 7 nucleótidos de longitud y un segundo código al azar aguas abajo (3') de aproximadamente 7 nucleótidos de longitud.
En determinadas realizaciones, tanto el código Xa como el código Xb comprenden cada uno 6 nucleótidos, 7 nucleótidos, 8 nucleótidos, 9 nucleótidos, 10 nucleótidos, 11 nucleótidos, 12 nucleótidos, 13 nucleótidos, 14 nucleótidos, 15 nucleótidos, 16 nucleótidos, 17 nucleótidos, 18 nucleótidos, 19 nucleótidos o 20 nucleótidos. En determinadas otras realizaciones, el código Xa comprende 6 nucleótidos y el código Xb comprende 7 nucleótidos u 8
5
10
15
20
25
30
35
40
45
50
55
60
nucleótidos; o el código Xa comprende 7 nucleótidos y el código Xb comprende 6 nucleótidos u 8 nucleótidos; o el código Xa comprende 8 nucleótidos y el código Xb comprende 6 nucleótidos o 7 nucleótidos; o el código Xa comprende 10 nucleótidos y el código Xb comprende 11 nucleótidos o 12 nucleótidos.
El número de nucleótidos contenidos en cada uno de los códigos al azar o códigos de barras regirá el número total de posibles códigos de barras disponibles para su uso en un banco. Los códigos de barras más cortos permiten un número menor de códigos únicos, que pueden ser útiles cuando se realiza una secuencia profunda de una o unas pocas secuencias de nucleótidos, mientras que códigos de barras más largos pueden ser deseables cuando se examina una población de moléculas de ácidos nucleicos tales como ADNcs o fragmentos genómicos. En determinadas realizaciones puede desearse la secuenciación múltiple cuando se fijan como objetivo moléculas de ácido nucleico específicas, regiones genómicas específicas, genomas más pequeños o un subconjunto de transcritos de ADNc. La secuenciación múltiplex implica amplificar dos o más muestras que se han agrupado en, por ejemplo, una sola pista de una célula de flujo para la amplificación de puente para aumentar exponencialmente el número de moléculas analizadas en una sola operación sin sacrificar tiempo o costo. En realizaciones relacionadas, se incluye una secuencia de índice único (que comprende una longitud que oscila entre aproximadamente 4 nucleótidos y aproximadamente 25 nucleótidos) específica para una muestra particular con cada uno de los bancos de vectores de doble código. Por ejemplo, si se combinan diez muestras diferentes en la preparación de la secuencia multiplex, entonces se utilizarán diez secuencias de índices diferentes de modo que se utilicen diez bancos de vectores de doble código en los que cada uno de los bancos tenga un único identificador de secuencia de índice único (pero cada uno de los banco tiene una pluralidad de códigos al azar).
Por ejemplo, un código de barras de 7 nucleótidos tendría una fórmula de 5-NNNNNNN-3' (SEQ ID NO.:1), en donde N puede ser cualquier nucleótido que se produce de forma natural. Los cuatro nucleótidos que se producen de forma natural son A, T, C y G, por lo que el número total de posibles códigos al azar es 47, o 16,384 disposiciones al azar posibles (es decir, 16.384 códigos diferentes o únicos). Para códigos de barras de 6 y 8 nucleótidos, la cantidad de códigos al azar sería 4.096 y 65.536, respectivamente. En determinadas realizaciones de 6, 7 u 8 códigos de nucleótidos al azar, puede haber menos de la agrupación de 4.094, 16.384 o 65.536 códigos únicos, respectivamente, disponibles para su uso cuando se excluyen, por ejemplo, secuencias en las que todos los nucleótidos son idénticos (p. ej. , todas las A o todas las T o todas las C o todas las G) o cuando se excluyen las secuencias en las que tres nucleótidos contiguos son idénticos o cuando se excluyen ambos tipos de moléculas. Además, los primeros aproximadamente 5 nucleótidos a aproximadamente 20 nucleótidos de la secuencia de molécula de ácido nucleico diana se pueden utilizar como una etiqueta de identificador adicional junto con la secuencia de un código al azar asociado.
En aún otras realizaciones, un banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Y-Xb (en orden de 5' a 3'), en donde (a) Xa comprende un primer código al azar, (b) Y comprende una molécula de ácido nucleico diana y (c) Xb comprende un segundo código al azar, en donde cada uno de la pluralidad de códigos al azar tiene una longitud de aproximadamente 5 a aproximadamente 50 nucleótidos, y en donde (i) al menos dos de esos nucleótidos son diferentes en cada uno de los códigos o (ii) cada uno de los códigos no contiene tres nucleótidos contiguos que son idénticos. En determinadas realizaciones en las que cada uno de los códigos no contiene tres nucleótidos contiguos que son idénticos, el código Xa de doble cadena es idéntica al código Xb para una o más moléculas de ácidos nucleicos diana, con la condición de que el código de doble cadena para cada una de las moléculas de ácidos nucleicos diana es diferente.
En algunos casos, un banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Xb-Y, Xb-Xa-Y, Y-Xa-Xb, Y-Xb-Xa, Xa-Y, Xb-Y, Y-Xa o Y-Xb (en orden de 5' a 3'), en donde (a) Xa comprende un primer código al azar, (b) Y comprende una molécula de ácido nucleico diana y (c) Xb comprende un segundo código al azar, en donde cada uno de la pluralidad de códigos al azar tiene una longitud de aproximadamente 5 a aproximadamente 50 nucleótidos.
En cualquiera de las realizaciones descritas en esta memoria, un código Xa comprende, además, aproximadamente una secuencia de 5 nucleótidos a aproximadamente una secuencia de 20 nucleótidos de la molécula de ácido nucleico diana que está aguas abajo del código Xa, o un código Xb comprende, además, aproximadamente una secuencia de 5 nucleótidos a aproximadamente una secuencia de 20 nucleótidos de la molécula de ácido nucleico diana que está aguas arriba del código Xb, o un código Xa y un código Xb comprenden, además, aproximadamente una secuencia de 5 nucleótidos a aproximadamente una secuencia de 20 nucleótidos de la molécula de ácido nucleico diana que está aguas abajo o aguas arriba, respectivamente, de cada uno de los códigos.
En aún otras realizaciones adicionales, una primera molécula diana está asociada con y dispuesta entre un primer código al azar Xa y un segundo código al azar Xb, una segunda molécula diana está asociada con y dispuesta entre un tercer código al azar Xa y un cuarto código al azar Xb, y así sucesivamente, en donde las moléculas diana de un banco o de un banco de vectores tiene cada uno un código Xa único (es decir, ninguno de los códigos Xa tienen la misma secuencia) y cada uno tiene un código Xb único (es decir, ninguno de los códigos Xb tiene la misma secuencia), y en donde ninguno o solo una minoría de los códigos Xa y Xb tienen la misma secuencia.
5
10
15
20
25
30
35
40
45
50
55
60
Por ejemplo, si la longitud del código al azar es de 7 nucleótidos, entonces habrá un total de 16.384 códigos de barras diferentes disponibles como el primer código al azar Xa y el segundo código al azar Xb. En este caso, si una primera molécula de ácido nucleico diana se asocia y se dispone entre el código al azar Xa número 1 y el código al azar Xb número 2 y una segunda molécula de ácido nucleico diana está asociada y dispuesta entre el código al azar Xa número 16.383 y el código al azar Xb número 16.384, entonces una tercera molécula de ácido nucleico diana solo puede estar asociada y dispuesta entre cualquier par de números de códigos seleccionados de los números 3 a 16.382, y así sucesivamente para cada una de las moléculas de ácido nucleico diana de un banco hasta que se haya utilizado cada uno de los diferentes códigos al azar (que pueden ser o no todos los 16.382). En esta realización, cada una de las moléculas de ácido nucleico diana de un banco tendrá un par único de códigos que difieren de cada uno de los otros pares de códigos encontrados asociados con cada una de las otras moléculas de ácidos nucleicos diana del banco.
En cualquiera de las realizaciones descritas en esta memoria las secuencias del código al azar de una agrupación particular de códigos (p. ej., agrupaciones de 4.094, 16.384 o 65.536 códigos únicos) pueden utilizarse más de una vez. En realizaciones adicionales, cada una de las moléculas de ácidos nucleicos diana o un subconjunto de moléculas diana tiene un par diferente (único) de códigos. Por ejemplo, si una primera molécula diana está asociada con y se dispone entre el número de código al azar 1 y el número de código al azar 100, entonces una segunda molécula diana necesita estar flanqueada por un par doble diferente de códigos - tal como el número de código al azar 1 y el número de código al azar 65, o el número de código al azar 486 y el número de código al azar 100 - que puede ser cualquier combinación distinta de 1 y 100. En determinadas otras realizaciones, cada una de las moléculas de ácidos nucleicos diana o un subconjunto de moléculas diana tiene códigos idénticos en cada uno de los extremos de una o más moléculas de ácidos nucleicos diana, con la condición de que el código de doble cadena para cada una de las moléculas de ácidos nucleicos diana sea diferente. Por ejemplo, si una primera molécula diana está flanqueada por el número de código 10, entonces una segunda molécula diana con códigos idénticos en cada uno de los extremos tendrá que tener un código diferente - tal como el número de código al azar 555 o similar - que puede ser cualquier otro código distinto de 10. En aún otras realizaciones, las moléculas del ácido nucleico diana del banco de moléculas de ácidos nucleicos tendrán cada una códigos duales únicos Xa y Xb, en donde ninguno de los códigos Xa tiene la misma secuencia que cualquier otro código Xa, ninguno de los códigos Xb tiene la misma secuencia que cualquier otro código Xb y ninguno de los códigos Xa tiene la misma secuencia que cualquier código Xb. En aún realizaciones adicionales, las moléculas de ácidos nucleicos diana del banco de moléculas de ácidos nucleicos tendrán cada una un par único de códigos Xa-Xb, en donde ninguno de los códigos Xa o Xb tiene la misma secuencia. Una mezcla de cualquiera de las realizaciones mencionadas anteriormente puede constituir un banco de moléculas de ácido nucleico de esta divulgación.
En cualquiera de las realizaciones descritas en esta memoria, la pluralidad de moléculas de ácidos nucleicos diana, que juntas se utilizan para generar un banco de moléculas de ácidos nucleicos (o se utilizan para la inserción en un vector para generar un banco de vectores que contiene una pluralidad de moléculas de ácidos nucleicos diana) puede tener cada una longitud que oscila entre aproximadamente 10 nucleótidos y aproximadamente 10.000 nucleótidos, entre aproximadamente 50 nucleótidos y aproximadamente 5.000 nucleótidos, entre aproximadamente 100 nucleótidos y aproximadamente 1.000 nucleótidos o entre aproximadamente 150 nucleótidos y aproximadamente 750 nucleótidos, o entre aproximadamente 250 nucleótidos y aproximadamente 500 nucleótidos.
En cualquiera de las realizaciones descritas en esta memoria, la pluralidad de códigos al azar puede estar unida a un primer sitio de cebado de moléculas de ácidos nucleicos (PS1), unida a un segundo sitio de cebado de moléculas de ácidos nucleicos (PS2) o unida tanto a un primer como a un segundo sitio de cebado de moléculas de ácidos nucleicos. En determinadas realizaciones, una pluralidad de códigos al azar se pueden asociar con y disponer entre un primer sitio de cebado de moléculas de ácidos nucleicos (PS1) y un segundo sitio de cebado de moléculas de ácidos nucleicos (PS2), en donde la secuencia de doble cadena de PS1 es diferente de la secuencia de doble cadena de PS2. En determinadas realizaciones, cada uno de los pares de códigos Xa-Xb puede estar asociado con y dispuesto entre un sitio de cebado de moléculas de ácidos nucleicos (PS1) aguas arriba y aguas abajo (véase, p. ej., la Fig. 2).
En cualquiera de las realizaciones descritas en esta memoria, un primer sitio de cebado de moléculas de ácidos nucleicos PS1 estará situado aguas arriba (5') del primer código al azar Xa y el primer sitio de cebado de moléculas de ácidos nucleicos PS1 también se encontrará aguas abajo (3') del segundo código al azar Xb. En determinadas realizaciones, un cebador de oligonucleótido complementario a la cadena sentido de PS1 puede ser utilizado para cebar una reacción de secuenciación para obtener la secuencia de la cadena sentido del primer código al azar Xa o para cebar una reacción de secuenciación para obtener la secuencia de la cadena anti-sentido del segundo código al azar Xb, mientras que un cebador de oligonucleótidos complementario a la cadena anti-sentido de PS1 se puede utilizar para cebar una reacción de secuenciación para obtener la secuencia de la cadena anti-sentido del primer código al azar Xa o para cebar una reacción de secuenciación para obtener la secuencia de la cadena sentido del segundo código al azarXb.
En cualquiera de las realizaciones descritas en esta memoria, el segundo sitio de cebado de moléculas de ácidos nucleicos PS2 estará situado aguas abajo (3') del primer código al azar Xa y el segundo sitio de cebado de moléculas de ácidos nucleicos PS2 también se encontrará aguas arriba (5') del segundo código al azar Xb. En
5
10
15
20
25
30
35
40
45
50
55
60
determinadas realizaciones, un cebador de oligonucleótido complementario a la cadena sentido de PS2 puede ser utilizado para cebar una reacción de secuenciación para obtener la secuencia de la cadena sentido desde el extremo 5' de la molécula de ácido nucleico diana de doble cadena asociada o para cebar una reacción de secuenciación para obtener la secuencia de la cadena anti-sentido desde el extremo 3' de la molécula de ácido nucleico diana de doble cadena asociada, mientras que un cebador de oligonucleótidos complementario a la cadena anti-sentido de PS2 se puede utilizar para cebar una reacción de secuenciación para obtener la secuencia de la cadena anti-sentido desde el extremo 5' de la molécula de ácido nucleico diana de doble cadena asociada o para cebar una reacción de secuenciación para obtener la secuencia de la cadena sentido desde el extremo 3' de la molécula de ácido nucleico diana de doble cadena asociada.
Dependiendo de la longitud de la molécula de ácido nucleico diana se puede obtener la secuencia completa de la molécula de ácido nucleico si es lo suficientemente corta, o solo se puede obtener una porción de la secuencia de molécula de ácido nucleico completa si es más larga que aproximadamente 100 nucleótidos a aproximadamente 250 nucleótidos. Una ventaja de las composiciones y los métodos de la presente divulgación es que, a pesar de que una molécula de ácido nucleico diana es demasiado larga para obtener datos de secuencia para la molécula o fragmento completo, los datos de secuencia obtenidos de un extremo de una molécula diana de doble cadena pueden ser específicamente vinculados a los datos de secuencia obtenidos a partir del extremo opuesto o de la segunda cadena de la misma molécula diana de doble cadena, ya que cada una de las moléculas diana en un banco de esta divulgación tendrá códigos de doble cadena, o un par único de códigos Xa-Xb. La vinculación de los datos de secuencia de las dos cadenas permite la identificación sensible de mutaciones "verdaderas", en las que la secuenciación más profunda aumenta en realidad la sensibilidad de la detección, y estos métodos pueden proporcionar datos suficientes para cuantificar el número de mutaciones de artefactos.
En cualquiera de las realizaciones descritas en esta memoria, una pluralidad de códigos al azar puede comprender, además, una primera secuencia de reconocimiento de endonucleasas de restricción (RE1) y una segunda secuencia de reconocimiento de endonucleasas de restricción (RE2), en donde la primera secuencia de reconocimiento de endonucleasas de restricción RE1 está localizada aguas arriba (5') del primer código al azar Xa y la segunda secuencia de reconocimiento de endonucleasas de restricción RE2 está localizada aguas abajo (3') del segundo código al azar Xb. En determinadas realizaciones, una primera secuencia de reconocimiento de endonucleasas de restricción RE1 y una segunda secuencia de reconocimiento de endonucleasas de restricción RE2 son iguales o diferentes. En determinadas realizaciones, RE1, RE2, o tanto RE1 como RE2 son endonucleasas de restricción "de corte raro" que tienen una secuencia de reconocimiento que ocurre solo raramente dentro de un genoma o dentro de una secuencia de moléculas de ácidos nucleicos diana o son "de corte romo" que generan moléculas de ácidos nucleicos con extremos romos después de la digestión (p. ej., Smal). Dichas enzimas de corte raro tienen generalmente sitios de reconocimiento más largos con siete u ocho nucleótidos o secuencias de reconocimiento más largas, tales como Aarl, Abel, Ascl, AsiSl, BbvCl, BstRZ2461, BstSWl, Cc/Nl, CsiBl, CspBl, Fsel, Notl, MchAl, MspSWl, Mssl, PacI, Pmel, SbfI, Sdal, Sgfí, Smil, Srft, Sse232I, Sse8387I, Swal, Taqll, VpaK32I o similares,
En determinadas realizaciones, un banco de moléculas de ácidos nucleicos comprende moléculas de ácidos nucleicos que tienen una fórmula de 5'-RE1-PS1-Xa-PS2-Y-PS2-Xb-PS1-RE2-3', en donde RE1 es una primera secuencia de reconocimiento de endonucleasas de restricción, PS1 es un primer sitio de cebado de moléculas de ácidos nucleicos, PS2 es un segundo sitio de cebado de moléculas de ácidos nucleicos, RE2 es una segunda secuencia de reconocimiento de endonucleasas de restricción, Y comprende una molécula de ácido nucleico diana, y Xa y Xb son códigos que comprenden una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos o entre aproximadamente 6 nucleótidos y aproximadamente 15 nucleótidos o entre aproximadamente 7 nucleótidos y aproximadamente 9 nucleótidos. En realizaciones adicionales, RE1 y RE2 son secuencias reconocidas por la misma endonucleasa de restricción o un isoesquizómero o neoesquizómero de la misma, o RE1 y RE2 tienen diferentes secuencias reconocidas por diferentes endonucleasas de restricción. En realizaciones adicionales, PS1 y PS2 tienen diferentes secuencias. En realizaciones adicionales, las moléculas de ácidos nucleicos diana del banco de moléculas de ácidos nucleicos tendrán cada una códigos únicos duales X y X , en donde ninguno de los códigos Xatiene la misma secuencia que cualquier otro código Xa, ninguno de los códigos Xb tiene la misma secuencia que cualquier otro código Xb y ninguno de los códigos Xatiene la misma secuencia que cualquier código Xb. En aún otras realizaciones, las moléculas de ácidos nucleicos diana del banco de moléculas de ácidos nucleicos tendrán cada una un único código o par de códigos X -X , en donde ninguno de los códigos X o X tiene la misma secuencia.
También se contempla en la presente divulgación utilizar un banco de moléculas de ácidos nucleicos diana de doble cadena con código de barras o de doble cadena con doble código de barras para reacciones de amplificación y secuenciación para detectar mutaciones verdaderas. Con el fin de facilitar determinados métodos de amplificación o secuenciación, se pueden incluir otras características en las composiciones de la presente divulgación. Por ejemplo, la amplificación de puente puede implicar ligar secuencias de adaptador a cada uno de los extremos de una población de moléculas de ácidos nucleicos diana. Cebadores de oligonucleotídicos de cadena sencilla complementarios a los adaptadores se inmovilizan sobre un sustrato sólido, las moléculas diana que contienen las secuencias de adaptador se desnaturalizan en cadenas sencillas y se hibridan a cebadores complementarios sobre el sustrato sólido. Se utiliza una reacción de extensión para copiar la molécula diana hibridada y el producto de doble cadena se desnaturaliza nuevamente en cadenas sencillas. Las cadenas sencillas copiadas forman entonces un
5
10
15
20
25
30
35
40
45
50
55
60
bucle (forman un "puente") y se hibridan con un cebador complementario sobre el sustrato sólido, sobre el que se ejecuta nuevamente la reacción de extensión. De esta manera, muchas moléculas diana pueden amplificarse al mismo tiempo y el producto resultante está sujeto a secuenciación paralela masiva.
En determinadas realizaciones, un banco de moléculas de ácidos nucleicos comprende moléculas de ácidos nucleicos que tienen una fórmula de 5'-RE1-AS-PS1-Xa-PS2-Y-PS2-Xb-PS1-AS-RE2-3', en donde RE1 y RE2 son primera y segunda secuencias de reconocimiento de endonucleasas de restricción, PS1 y PS2 son primer y segundo sitios de cebado de moléculas de ácidos nucleicos, AS es una secuencia de adaptador que comprende una longitud que oscila entre aproximadamente 20 nucleótidos y aproximadamente 100 nucleótidos, Y comprende una molécula de ácidos nucleicos diana, y Xa y Xb son códigos que comprenden una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos o entre aproximadamente 6 nucleótidos y aproximadamente 15 nucleótidos o entre aproximadamente 7 nucleótidos y aproximadamente 9 nucleótidos.
En realizaciones adicionales, un banco de moléculas de ácido nucleico comprende moléculas de ácidos nucleicos que tienen una fórmula de 5'-RE1-AS-PS1-Xa-Y-Xb-PS1-AS-RE2-3', en donde RE1 y RE2 son primera y segunda secuencias de reconocimiento de endonucleasas de restricción, PS1 es un primer sitio de cebado de moléculas de ácido nucleico, AS es una secuencia de adaptador que comprende una longitud que oscila entre aproximadamente 20 nucleótidos y aproximadamente 100 nucleótidos, Y comprende una molécula de ácido nucleico diana, y Xa y Xb son códigos que comprenden una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos o entre aproximadamente 6 nucleótidos y aproximadamente 15 nucleótidos o entre aproximadamente 7 nucleótidos y aproximadamente 9 nucleótidos. En realizaciones relacionadas, la secuencia de adaptador AS del vector mencionado anteriormente puede comprender, además, un PS2 que es un segundo sitio de cebado de moléculas de ácidos nucleicos o el PS2 puede ser una parte de la secuencia AS original. En aún otras realizaciones, el banco de moléculas de ácidos nucleicos puede comprender, además, una secuencia de índice (que comprende una longitud que oscila entre aproximadamente 4 nucleótidos y aproximadamente 25 nucleótidos) localizada entre cada uno de la primera y segunda AS y el PS1, de modo que el banco puede agruparse con otros bancos que tienen diferentes secuencias de índice para facilitar la secuenciación multiplex (también denominada multiplexación) antes o después de la amplificación.
Cada una de las moléculas de ácidos nucleicos diana duales de código de barras anteriormente mencionadas se puede ensamblar en un banco de soportes en forma de, por ejemplo, un vector autorreplicante, tal como un plásmido, cósmido, YAC, vector viral u otros vectores conocidos en la técnica. En determinadas realizaciones, cualquiera de las moléculas de ácidos nucleicos de doble cadena antes mencionadas que comprenden una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar, están contenidas en un vector. En aún otras realizaciones, un banco de vectores de este tipo es portado en una célula huésped tal como bacterias, levaduras o células de mamíferos.
La presente divulgación también proporciona vectores útiles para generar un banco de moléculas de ácidos nucleicos diana duales de código de barras de acuerdo con esta divulgación. Vectores ilustrativos que comprenden códigos y otros elementos de esta divulgación se ilustran en las Figuras 1 y 2.
En determinadas realizaciones, se proporciona una pluralidad de vectores de ácidos nucleicos que comprenden una pluralidad de códigos al azar, en donde cada uno de los vectores comprende una región que tiene una fórmula de 5'- RE1-PS1-Xa-PS2-RE3-PS2-Xb-PS1-RE2-3', en donde (a) RE1 es una primera secuencia de reconocimiento de endonucleasas de restricción, (b) PS1 es un primer sitio de cebado de moléculas de ácidos nucleicos, (c) Xa comprende un primer código al azar, (d) RE3 es un tercera secuencia de reconocimiento de endonucleasas de restricción, en donde RE3 es un sitio en el que se puede insertar una molécula de ácido nucleico diana, (e) Xb comprende un segundo código al azar, (f) PS2 es un segundo sitio de cebado de moléculas de ácidos nucleicos y (g) RE2 es una segunda secuencia de reconocimiento de endonucleasas de restricción; y en donde cada uno de la pluralidad de códigos al azar comprende una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos, preferiblemente entre aproximadamente 7 nucleótidos y aproximadamente 9 nucleótidos; y en donde la pluralidad de vectores de ácidos nucleicos es útil para preparar un banco de moléculas de ácidos nucleicos de doble cadena en el que cada uno de los vectores tiene una inserción de molécula de ácido nucleico diana diferente. En determinadas realizaciones, la secuencia del código Xa es diferente de la secuencia del código Xb en cada uno de los vectores (es decir, cada uno de los vectores tiene un par único). En realizaciones adicionales, la pluralidad de vectores de ácidos nucleicos puede comprender, además, al menos una secuencia de adaptador (AS) entre RE1 y PS1 y al menos una AS entre PS1 y RE2, o puede comprender al menos una AS entre RE1 y el código Xa y al menos una AS entre el código Xb y RE2, en donde la AS tiene opcionalmente un sitio de cebado.
En realizaciones de vectores adicionales, la pluralidad de códigos al azar puede tener cada uno el mismo o diferente número de nucleótidos, y puede comprender de aproximadamente 6 nucleótidos a aproximadamente 8 nucleótidos a aproximadamente 10 nucleótidos a aproximadamente 12 nucleótidos a aproximadamente 15 nucleótidos. En aún otras realizaciones, una pluralidad de moléculas de ácidos nucleicos diana que comprenden de aproximadamente 10 nucleótidos a aproximadamente 10.000 nucleótidos o que comprenden de aproximadamente 100 nucleótidos a aproximadamente 750 nucleótidos o a aproximadamente 1.000 nucleótidos, pueden insertarse en el vector en RE3.
5
10
15
20
25
30
35
40
45
50
55
En determinadas realizaciones, RE3 escindirá ADN en extremos romos y la pluralidad de moléculas de ácidos nucleicos diana ligadas en este sitio también tendrá extremos romos.
En determinadas realizaciones, la pluralidad de vectores de ácidos nucleicos en donde cada uno de los vectores comprende una región que tiene una fórmula de 5'-RE1-PS1-Xa-PS2-RE3-PS2-Xb-PS1-RE2-3', los códigos Xa y los códigos Xben cada uno de los vectores se secuencia antes de que una molécula de ácido nucleico diana se inserte en cada uno de los vectores. En realizaciones adicionales, la pluralidad de vectores de ácidos nucleicos en donde cada uno de los vectores comprende una región que tiene una fórmula de 5'-RE1-PS1-Xa-PS2-RE3-PS2-Xb-PS1- RE2-3', los códigos Xa y los códigos Xb de cada uno de los vectores se secuencian después de que una molécula de ácido nucleico diana se inserte en cada uno de los vectores o se secuencia al mismo tiempo que se secuencia una inserción de molécula de ácido nucleico diana.
Las moléculas de ácidos nucleicos diana duales de código de barras y los vectores que contienen este tipo de moléculas de esta divulgación se pueden utilizar, además, en reacciones de secuenciación para determinar la secuencia y la frecuencia de mutación de las moléculas en el banco. En determinadas realizaciones, esta divulgación proporciona un método para obtener una secuencia de ácido nucleico preparando un banco de ácidos nucleicos dual de código de barras de doble cadena tal como se describe en esta memoria y luego secuenciando cada una de las cadenas de la pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos al azar. En determinadas realizaciones, las moléculas de ácidos nucleicos diana y los códigos asociados se escinden para la secuenciación directa del vector utilizando enzimas endonucleasas de restricción antes de la amplificación. En determinadas realizaciones, los métodos de secuenciación de nueva generación se utilizan para determinar la secuencia de moléculas del banco, tal como secuenciación por síntesis, pirosecuenciación, secuenciación de colorante-terminador reversible o secuenciación de polonias.
En aún realizaciones adicionales se proporcionan métodos para determinar la tasa de errores debida a la amplificación y secuenciación determinando la secuencia de una cadena de una molécula de ácido nucleico diana asociada con el primer código al azar y alineando con la secuencia de la cadena complementaria asociada con el segundo código al azar para distinguir entre una mutación pre-existente y una mutación de artefacto por amplificación o secuenciación, en donde la tasa de errores de secuenciación medida variará de aproximadamente 10"° a aproximadamente 5 x 10"6 a aproximadamente 10"7 a aproximadamente 5 x 10"7 a aproximadamente 10"8 a aproximadamente 10"9. En otras palabras, utilizando los métodos de esta divulgación, una persona de experiencia ordinaria en la técnica puede asociar cada una de las secuencias de ADN leída a un ADN molde original. Dado que ambas cadenas del ADN de doble cadena original son códigos de barras asociados con códigos de barras, esto aumenta la sensibilidad de la llamada base de secuenciación al identificar más fácilmente los cambios de secuencia de "mutaciones" de artefactos introducidos durante el proceso de secuenciación.
En determinadas realizaciones, las composiciones y los métodos de la presente divulgación serán útiles para detectar mutantes raros frente a una gran señal de fondo, tal como cuando se monitorizan células tumorales circulantes; detectar ADN mutante circulante en sangre, monitorizar o detectar enfermedades y mutaciones raras mediante secuenciación directa, monitorizar o detectar mutaciones asociadas a la enfermedad o a la respuesta a fármacos. Se pueden utilizar realizaciones adicionales para cuantificar el daño del ADN, cuantificar o detectar mutaciones en genomas virales (p. ej., VIH y otras infecciones virales) u otros agentes infecciosos que pueden ser indicativos de respuesta a la terapia o pueden ser útiles para controlar la progresión o recurrencia de la enfermedad. En aún otras realizaciones, estas composiciones y métodos pueden ser útiles para detectar daño al ADN de la quimioterapia, o en la detección y cuantificación de la metilación específica de secuencias de ADN.
EJEMPLOS
EJEMPLO 1
SECUENCIACIÓN DE UN CÓDIGO DUAL DE UNA GENOTECA DE TUMORES
Las células cancerosas contienen numerosas mutaciones clonales, es decir, mutaciones que están presentes en la mayoría o en todas las células malignas de un tumor y que han sido seleccionadas, presumiblemente, porque confieren una ventaja proliferativa. Una cuestión importante es si las células cancerosas también contienen un gran número de mutaciones al azar, es decir, mutaciones no seleccionadas distribuidas aleatoriamente que se producen en solo una o unas pocas células de un tumor. Mutaciones al azar de este tipo podrían contribuir a la heterogeneidad morfológica y funcional de los cánceres e incluir mutaciones que confieren resistencia a la terapia. La presente divulgación proporciona composiciones y métodos para distinguir mutaciones clonales de mutaciones al azar.
Para examinar si células malignas exhiben un fenotipo mutador que da como resultado la generación de mutaciones al azar en todo el genoma, la secuenciación dual del código de la presente divulgación se realizará en genotecas normales y tumorales. En síntesis, ADN genómico del tejido normal y tumoral compatible con el paciente se prepara utilizando kits Qiagen® (Valencia, CA) y se cuantifica por absorbancia óptica y PCR cuantitativa (qPCR). El ADN genómico aislado se fragmenta a un tamaño de aproximadamente 150-250 pares de bases (banco de inserción corta) o a un tamaño de aproximadamente 300-700 pares de bases (banco de inserción larga) por cizallamiento. Los
5
10
15
20
25
30
35
40
45
50
55
fragmentos de ADN que tienen extremos colgantes se reparan (es decir, se hacen romos) utilizando T4 ADN polimerasa (que tiene actividad de exonucleasa tanto 3' a 5' como actividad polimerasa 5' a 3') y los extremos 5' del ADN romo se fosforilan con T4 polinucleótido quinasa (Quick Blunting Kit I, New England Biolabs), y luego se purifica. Los fragmentos de ADN reparados en el extremo se ligan al sitio Smal del banco de vectores de código dual mostrados en la Figura 2 para generar una genoteca diana.
El banco de vectores de código ligado se purifica y los fragmentos de la genoteca diana se amplifican utilizando, por ejemplo, el siguiente protocolo de PCR: 30 segundos a 98°C; cinco a treinta ciclos de 10 segundos a 98°C, 30 segundos a 65°C, 30 segundos a 72°C; 5 minutos a 72°C; y luego almacenar a 4°C. La amplificación se realiza utilizando cebadores de cadena sentido y anti-sentido que se reasocian con una secuencia localizada dentro de la región de adaptador (en determinadas realizaciones, el cebador se reasociará a una secuencia aguas arriba de la AS), y está aguas arriba del código único y la inserción genómica diana (y, si está presente, aguas arriba de una secuencia de índice si se desea una secuenciación múltiple, véase, p. ej., la Fig. 2) para la secuenciación del puente de Illumina. La secuencia del banco descrita anteriormente se realizará utilizando, por ejemplo, un instrumento de secuenciación Genome Analyzer II de Illumina® tal como se especifica por el fabricante.
Las etiquetas de código único se utilizan para descontextuar computacionalmente los datos de secuenciación y asignar todas las lecturas de secuencia a moléculas individuales (es decir, distinguir los errores de la PCR y secuenciación de las mutaciones reales). La llamada de bases y el alineamiento de secuencias se realizarán utilizando, por ejemplo, la secuencia Eland (Illumina, San Diego, CA). Los datos generados permitirán la identificación de la heterogeneidad del tumor a nivel de un solo nucleótido y revelarán tumores que tienen un fenotipo mutador.
EJEMPLO 2
SECUENCIACIÓN DEL CÓDIGO DUAL DE UN BANCO DE ADNMT
Las mutaciones en el ADN mitocondrial (ADNmt) conducen a una colección diversa de enfermedades que son difíciles de diagnosticar y tratar. Cada una de las células humanas tiene cientos a miles de genomas mitocondriales y mutaciones de ADNmt asociadas a la enfermedad son de naturaleza homoplásmica, es decir, la mutación idéntica está presente en una preponderancia de mitocondrias dentro de un tejido (Taylor y Turnbull, Nat. Rev. Genet. 6:389, 2005; Chatterjee et al., Oncogene 25:4663, 2006). Aunque los mecanismos precisos de la acumulación de mutación de ADN mitocondrial en la patogénesis de la enfermedad siguen siendo esquivos, se han documentado múltiples mutaciones homoplásmicas en cánceres colorrectales, de mama, cervicales, ováricos, de próstata, hígado y pulmón (Copeland et al., Cancer Invest. 20:557, 2002; Brandon et al., Oncogene 25:4647, 2006). Por lo tanto, el genoma mitocondrial proporciona un excelente potencial como un biomarcador específico de la enfermedad, que puede permitir mejores resultados de tratamiento y una mayor supervivencia general.
La secuenciación de código dual de la presente divulgación puede aprovecharse para cuantificar las células tumorales circulantes (CTC) y el ADNmt tumoral circulante (ADNctmt) podría utilizarse para diagnosticar y clasificar el cáncer, evaluar la respuesta al tratamiento y evaluar la progresión y la recurrencia después de la cirugía. En primer lugar, ADNmt aislado para cáncer de próstata y células de la sangre periférica del mismo paciente se secuenciarán para identificar mutaciones de ADNmt homoplásmicas somáticas. Estos biomarcadores de ADNmt se evaluarán estadísticamente por su potencial importancia clínica y fundamental con respecto a la puntuación de Gleason, la fase clínica, la recurrencia, la respuesta terapéutica y la progresión.
Una vez identificadas las mutaciones homoplásmicas específicas de los tumores individuales, se examinarán muestras de sangre del paciente para detectar la presencia de mutaciones idénticas en el plasma y la capa leucocitaria para determinar las frecuencias de ADNctmt y CTC respetuosamente. Esto se logrará utilizando la tecnología de secuenciación del código dual de esta divulgación, y como se describe en el Ejemplo 1, para monitorizar con sensibilidad múltiples mutaciones de ADNmt concurrentes. Se determinará la distribución de CTCs en la sangre periférica de pacientes con niveles séricos de PSA y puntuaciones de Gleason variables.
EJEMPLO 3
DETECCIÓN DE ALTA RESOLUCIÓN DE MUTACIONES DE TP53
Un estudio genómico reciente determinó que TP53 está mutado en el 96% del carcinoma ovárico seroso de alto grado (HGSC), responsable de dos tercios de todas las muertes por cáncer de ovario (Cancer Genome Atlas Research Network, Nature 474:609, 2011), y los modelos actuales indican que la pérdida de TP53 es un evento temprano en la patogénesis de HGSC (Bowtell, Nat. Rev. Cancer 10:803, 2010). Por lo tanto, la casi universalidad y la aparición temprana de mutaciones de TP53 en HGSC hacen de TP53 un candidato biomarcador prometedor para la detección temprana y la monitorización de la enfermedad de HGSC. La secuenciación de código dual de la presente divulgación se utilizó para detectar mutaciones somáticas de TP53 que surgieron durante la replicación en E. coli.
Construcción de Vector de Código Dual
5
10
15
20
25
30
35
40
45
50
55
60
Se preparó un oligonucleótido que contiene sitios de enzima de restricción EcoRI y BamHI, secuencias de adaptador, índices y códigos de barras al azar de 7 nucleótidos que flanquean un sitio de enzima de restricción Smal con la siguiente secuencia (Integrated DNA Technologies):
GATACAGGATCCAATGATACGGCGACCACCGAGATCTACACTAGATCGCGCCTCCCTCGCGCCATCAGAGATGT GTATAAGAGACAGNNNNNNNCCCGGGNNNNNNNCTGTCTCTTATACACATCTCTGAGCGGGCTGGCAAGGCAG ACCGTAAGGCGAATCTCGTATGCCGTCTTCTGCTTGGAATTCGATACA (SEQ ID NO:2). Para amplificar y crear un producto de doble cadena a partir de este oligonucleótido de ADN de cadena sencilla se realizaron 30 ciclos de PCR utilizando ADN polimerasa de alta fidelidad PfuUltra (Agilent Technologies) según las instrucciones del fabricante (secuencia de cebador directo: GATACAGGATCCaAtGATACGG, SEQ ID NO: 3; secuencia de cebador inverso: tGtATCGAATTCCAAGCAGAAG, SEQ ID NO: 4). Se utilizaron las siguientes condiciones de ciclado: 95°C durante 2 minutos, seguido de 30 ciclos de 95°C durante 1 minuto y 64°C durante 1 minuto. La naturaleza de doble cadena del producto se verificó utilizando una digestión por restricción Smal (New England BioLabs). El producto se purificó después (Zymo Research DNA Clean & Concentrator-5) y se sometió a digestión por restricción de EcoRI/BamH (New England BioLabs) y EcoRI-HF (New England BioLabs) para preparar la construcción para el ligamiento en una cadena principal de pUC19 digerida con EcoRI/BamHI. El vector y la construcción digeridos se realizaron en un gel de agarosa de bajo punto de fusión UltraPure en un gel de electroforesis de agarosa de bajo punto de fusión UltraPure (Invitrogen) al 1,5% con IX SybrSafe (Invitrogen) y las bandas apropiadas fueron eliminadas. El ADN en los fragmentos de gel se purificó utilizando un kit de recuperación de ADN en gel Zymo-Clean (Zymo Research) y se cuantificó utilizando un espectrofotómetro (Nanofotómetro, Implen). Se llevaron a cabo reacciones de ligamiento utilizando T4 ADN ligasa Hc (Invitrogen) y un vector 1:3 para insertar la relación molar a temperatura ambiente durante 2 horas, luego se precipitó con etanol y se resuspendió en agua. El ADN purificado (2 |jl) se sometió a electroporación en células resistentes a fagos ElectroMAX DH10B T1 (Invitrogen). Las células transformadas se sembraron en una dilución 1:100 en medio agar LB que contenía 100 jg/mL de carbenicilina y se incubaron durante la noche a 37°C para determinar los recuentos de colonias, y el resto de la transformación se esparció en cultivos LB para crecimiento durante la noche a 37°C. El ADN de los cultivos durante la noche se purificó utilizando el Kit QIAquick Spin Minipreo (Qiagen).
Una única operación de secuenciación de nueva generación en MiSeq® demostró una cobertura y diversidad óptimas en el código de siete pares de bases del banco de vectores. La Figura 3A muestra que cada uno de los nucleótidos se detectó aproximadamente a la misma velocidad en cada posición aleatoria del código (en este caso, se secuenciaron los códigos 5').
Construcción del Banco del Exón 4 de TP53
En síntesis, células SKOV-3 (línea celular de carcinoma de ovario humano) se cultivaron en medio 5a de McCoy complementado con Suero Bovino Fetal al 10%, L-glutamina 1,5 mM, 2200 mg/L de bicarbonato de sodio y Penicilina/Estreptomicina. Se recogieron células SKOV-3 y el ADN se extrajo utilizando un kit DNeasy de sangre y tejidos (Qiagen). Los cebadores de la PCR se diseñaron para amplificar el exón 4 de TP53 humano; secuencia del cebador directo: TCTGTCTCCTTCCTCTTCCTACA (SEQ ID NO: 5) y secuencia del cebador inverso: AACCAGCCCTGTCGTCTCT (SEC ID NO: 6). Se realizaron treinta ciclos de PCR en ADN de SKOV-3 utilizando cebadores de 0,5 jM y mezcla maestra GoTaq Hot Start Colorless (Promega) en las siguientes condiciones de ciclado: 95°C durante 2 minutos; 30 ciclos de 95°C durante 30 segundos, 63°C durante 30 segundos, 72°C durante 1 minuto; seguido de 72°C durante 5 minutos. Cada uno de los productos de la PCR se clonó en vectores TOPO (Invitrogen), se transformó en células de E. coli One Shot TOP 10 químicamente competentes (Invitrogen), se sembró en medio agar LB que contenía 100 jg/mL de carbenicilina y se incubó durante la noche a 37°C.
Se recogieron diez colonias y se cultivaron durante la noche. El ADN de los cultivos de LB durante la noche se purificó utilizando el kit QIAquick Spin Miniprep (Qiagen). La secuenciación de los clones TOPO se realizó utilizando la secuenciación basada en electroforesis capilar en un Analizador de ADN 3730x1 de Applied Biosystems. Se seleccionó un clon de TOPO que contenía la secuencia del exón 4 de TP53 de tipo salvaje apropiada. El ADN se sometió a digestión con EcoRI para escindir la inserción del exón 4 de TP53 y se realizó en un gel de agarosa de bajo punto de fusión UltraPure al 1,5%. La banda de ADN del exón 4 de TP53 se escindió manualmente y se purificó utilizando el kit de recuperación de ADN en gel Zymo-Clean, seguido de extracción con fenol/cloroformo/alcohol isoamílico y precipitación con etanol. El ADN digerido se hizo luego romo y se fosforiló utilizando el kit Quick Blunting (New England BioLabs) y se purificó con una extracción con fenol/cloroformo/alcohol isoamílico y precipitación con etanol.
El banco de vectores Cypher Seq se digirió con Smal, se trató con fosfatasa antártica (New England BioLabs) y se realizó en un gel de agarosa de bajo punto de fusión UltraPure al 1,5%. La banda apropiada se escindió y se purificó utilizando el kit de recuperación de ADN en gel Zymo-Clean, seguido de extracción con fenol/cloroformo/alcohol isoamílico y precipitación con etanol. Los ligamientos de extremos romos del vector y el ADN del exón 4 de TP53 se llevaron a cabo luego en reacciones de 20 jl utilizando ADN de T4 Ligasa HC (Invitrogen) y un vector 1:10 para insertar la relación molar. Los ligamientos se incubaron a 16°C durante la noche, se precipitaron con etanol y se transformaron en células resistentes al fago T1 de ElectroMAX DH10b. Las bacterias se cultivaron durante la noche a 37°C en LB que contenía 100 pg/mL de carbenicilina y el ADN se purificó utilizando el kit QIAquick Spin Miniprep. La presencia de la inserción apropiada se verificó por digestión de restricción diagnóstica y electroforesis en gel.
5
10
15
20
25
30
35
La construcción de secuenciación que contenía los adaptadores Illumina, códigos de barras y ADN de TP53 se amplificó utilizando 10 ciclos de PCR y cebadores diseñados contra los extremos del adaptador (cebador directo: AATGATACGGCGACCACCGA, SEQ ID NO: 7 y cebador inverso: CAAGCAGAAGACGGCATACGA, SEQ ID NO: 8). Las condiciones del ciclo de PCR eran las siguientes: 95°C durante 2 minutos; 10 ciclos de 95°C durante 30 segundos, 63°C durante 30 segundos, 72°C durante 1 minuto; seguido de 72°C durante 5 minutos. La construcción de secuenciación se purificó en gel (kit de recuperación de ADN en gel Zymo-Clean), se extrajo con fenol/cloroformo/alcohol isoamílico y se precipitó con etanol. El banco se cuantificó utilizando el ensayo Quant-iT PicoGreen (Invitrogen) antes de la carga en la celda de flujo Illumina MiSeq®. Finalmente, el banco fue secuenciado. La secuenciación se realizó según las instrucciones del protocolo del fabricante con MiSeq® al nivel de calidad Q30 (Illumina). Una puntuación Q se define como una propiedad que está relacionada logarítmicamente con las probabilidades de error de llamada de bases (Q = -10 log-iüP). En el caso de una puntuación Q asignada de 30 (Q30) a una base, esto significa que la probabilidad de una llamada de bases incorrecta es 1 en 1.000 veces - es decir, la precisión de la llamada de bases (es decir, la probabilidad de una llamada de bases correcta) es 99.9% - considerado el patrón de oro para la secuenciación de nueva generación. Los códigos de barras se utilizaron para descontextuar los datos de secuenciación.
Resultados
El ADN del exón 4 de TP53 de un banco de vectores de código dual producido en E. coli se secuenció con una profundidad de más de un millón, y todas las lecturas de la secuenciación con pares de códigos idénticos y sus complementos inversos se agruparon en familias para crear una secuencia consenso. Tal como se ilustra en la Figura 3B, los errores introducidos durante la preparación del banco (círculo en blanco) y durante la secuenciación (círculo gris y triángulo) se eliminaron computacionalmente de la secuencia consenso y solo las mutaciones presentes en todas las lecturas (diamantes negros, Figura 3B) de una familia de códigos se contaron como mutaciones verdaderas (véase la parte inferior de la Figura 3B).
Se comparó la secuencia del exón 4 de TP53 de tipo salvaje con los resultados de la secuencia reales y se representaron gráficamente las sustituciones antes (Figura 4A) y después de la corrección con Cypher Seq (Figura 4B). Antes de la corrección, la frecuencia de errores detectada era 3.9 x 10-4/pb (Figura 4A). En resumen, la frecuencia de errores inicial refleja errores relacionados con el ensayo (p. ej., PCR, secuenciación y otros errores introducidos después de la codificación de barras). Esto significa que la detección de una mutación rara es difícil debido a que la relación de ruido a señal es muy alta. Sin embargo, después de la corrección Cypher Seq, la frecuencia de errores cayó a 8.8 x 10-7/pb (Figura 4B). En otras palabras, las sustituciones restantes son muy probablemente de naturaleza biológica y lo más probable es que reflejen los errores introducidos durante la replicación en E. coli antes del ligamiento en los vectores con códigos de barras. Por lo tanto, las mutaciones verdaderas (es decir, las que surgen de forma natural en una célula durante la replicación) son fácilmente detectables utilizando el sistema de codificación de la presente divulgación.
Claims (15)
- 51015202530354045REIVINDICACIONES1. Un método para detectar una mutación verdadera en una molécula de ácido nucleico, que comprende:amplificar un banco de ácidos nucleicos de doble cadena, en donde el banco de ácidos nucleicos de doble cadena comprende una pluralidad de moléculas de ácidos nucleicos diana y una pluralidad de códigos de doble cadena, en donde el banco de ácidos nucleicos comprende moléculas que tienen una fórmula de Xa-Y-Xb (en orden 5' a 3'), en donde:(a) Xa comprende un primer código;(b) Y comprende una molécula de ácido nucleico diana, y(c) Xb comprende un segundo código,en donde cada una de la pluralidad de moléculas de ácidos nucleicos diana está asociada con un par único de primero y segundo códigos de doble cadena, en donde cada uno de la pluralidad de códigos comprende una longitud que oscila entre aproximadamente 5 nucleótidos y aproximadamente 50 nucleótidos, en donde se amplifican cada una de las cadenas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos de doble cadena;secuenciar cada una de las cadenas amplificadas de la pluralidad de moléculas de ácidos nucleicos diana y de la pluralidad de códigos para obtener lecturas de secuenciación para la pluralidad de moléculas de ácidos nucleicos diana y la pluralidad de códigos, y de sus complementos inversos;agrupar las lecturas de secuenciación de moléculas de ácidos nucleicos que comprenden pares de códigos idénticos en familias de lecturas de secuenciación, ydetectar la mutación verdadera a lo largo de una tasa de fondo de mutaciones de artefactos, comprendiendo dicha detección identificar como mutación verdadera una mutación presente sustancialmente en todas las lecturas en una familia de lecturas de secuenciación.
- 2. El método de la reivindicación 1, en el que las familias de lecturas de secuenciación comprenden los complementos inversos de las lecturas de secuenciación de moléculas de ácidos nucleicos diana que comprenden pares de códigos idénticos.
- 3. El método de la reivindicación 1 o 2, que comprende generar secuencias consenso para las familias de lecturas de secuenciación.
- 4. El método de la reivindicación 3, en el que la generación de la secuencia consenso comprende eliminar por computación mutaciones que surgen durante la preparación del banco o durante la secuenciación.
- 5. El método de la reivindicación 1, en el que la secuencia de doble cadena del código Xa para cada una de las moléculas de ácidos nucleicos diana es diferente de la secuencia de doble cadena del código Xb.
- 6. El método de la reivindicación 5, en el que ninguna de las secuencias de doble cadena del código Xa es la misma que la secuencia de doble cadena de cualquier otro código Xa, en el que ninguna de las secuencias de doble cadena del código Xb es la misma que la secuencia de doble cadena de cualquier otro código Xb y en el que ninguna de las secuencias de doble cadena del código Xa y del código Xb son las mismas.
- 7. El método de la reivindicación 1, en el que la secuencia de doble cadena del código Xa es idéntica a la secuencia de doble cadena del código Xb para una o más moléculas de ácidos nucleicos diana, con la condición de que el código de doble cadena para cada uno de los ácidos nucleicos diana sea diferente.
- 8. El método de la reivindicación 1, en el que la detección de la mutación verdadera comprende:(i) secuenciar la pluralidad de moléculas de ácidos nucleicos con una tasa de errores que oscila entre aproximadamente 10"6 y aproximadamente 10"8;(ii) secuenciar simultáneamente una pluralidad de moléculas de ácidos nucleicos diana diferentes con una tasa de errores de 5 x 10" o menos, 10" o menos, 5 x 10" o menos, 10" o menos, 5 x 10" o menos o 10" o menos;(ii) secuenciar una molécula de ácido nucleico diana sencilla en profundidad con una tasa de errores de 5 x 10"7 o menos, 10"7 o menos, 5 x 10"8 o menos o 10"8 o menos.
- 9. El método de la reivindicación 1, en el que el primer y/o segundo códigos son:(i) códigos al azar;(ii) códigos catalogados; o(iii) códigos al azar catalogados.
- 10. El método de la reivindicación 1, en el que las lecturas de secuenciación no cubren la secuencia completa de una molécula de ácido nucleico diana de doble cadena.
- 11. El método de la reivindicación 10, que comprende enlazar lecturas de secuenciación obtenidas de un extremo de 5 la molécula diana de doble cadena con lecturas de secuenciación obtenidas del extremo opuesto o de la segundacadena de la misma molécula diana de doble cadena.
- 12. El método de la reivindicación 1, en el que la pluralidad de moléculas de ácidos nucleicos diana comprende una molécula de ácido nucleico diana derivada de una célula tumoral circulante (CTC), un ADN mitocondrial de tumor circulante (ADNctmt) o un ADN viral.10 13. El método de la reivindicación 1, en el que la pluralidad de códigos tiene cada uno el mismo número denucleótidos y comprende una longitud de aproximadamente 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 o 20 nucleótidos.
- 14. El método de la reivindicación 1, en el que la molécula de ácido nucleico diana de Y comprende de aproximadamente 10 nucleótidos a aproximadamente 10.000 nucleótidos o de aproximadamente 100 nucleótidos a15 aproximadamente 1.000 nucleótidos.
- 15. El método de la reivindicación 1, en el que la amplificación es mediante amplificación de puente, amplificación en emulsión, amplificación por nanoesferas o amplificación por PCR.
- 16. El método de la reivindicación 1, en el que la secuenciación es secuenciación por síntesis, pirosecuenciación, secuenciación de colorante-terminador reversible o secuenciación de polonias.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261600535P | 2012-02-17 | 2012-02-17 | |
US201261600535P | 2012-02-17 | ||
PCT/US2013/026505 WO2013123442A1 (en) | 2012-02-17 | 2013-02-15 | Compositions and methods for accurately identifying mutations |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2665071T3 true ES2665071T3 (es) | 2018-04-24 |
Family
ID=47750867
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES13706397.0T Active ES2665071T3 (es) | 2012-02-17 | 2013-02-15 | Composiciones y métodos para identificar mutaciones de manera precisa |
ES18150361T Active ES2855130T3 (es) | 2012-02-17 | 2013-02-15 | Composiciones y métodos para identificar mutaciones de manera precisa |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES18150361T Active ES2855130T3 (es) | 2012-02-17 | 2013-02-15 | Composiciones y métodos para identificar mutaciones de manera precisa |
Country Status (15)
Country | Link |
---|---|
US (25) | US10011871B2 (es) |
EP (3) | EP3854873A1 (es) |
CY (1) | CY1123973T1 (es) |
DK (2) | DK3363901T3 (es) |
ES (2) | ES2665071T3 (es) |
HR (1) | HRP20210504T1 (es) |
HU (1) | HUE053360T2 (es) |
LT (1) | LT3363901T (es) |
NO (1) | NO2864470T3 (es) |
PL (2) | PL3363901T3 (es) |
PT (2) | PT2814959T (es) |
RS (1) | RS61631B1 (es) |
SI (1) | SI3363901T1 (es) |
SM (1) | SMT202100154T1 (es) |
WO (1) | WO2013123442A1 (es) |
Families Citing this family (132)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2568509T3 (es) | 2009-01-15 | 2016-04-29 | Adaptive Biotechnologies Corporation | Perfilado de la inmunidad adaptativa y métodos para la generación de anticuerpos monoclonales |
WO2010127186A1 (en) | 2009-04-30 | 2010-11-04 | Prognosys Biosciences, Inc. | Nucleic acid constructs and methods of use |
US10787701B2 (en) | 2010-04-05 | 2020-09-29 | Prognosys Biosciences, Inc. | Spatially encoded biological assays |
US20190300945A1 (en) | 2010-04-05 | 2019-10-03 | Prognosys Biosciences, Inc. | Spatially Encoded Biological Assays |
KR101866401B1 (ko) | 2010-04-05 | 2018-06-11 | 프로그노시스 바이오사이언스, 인코포레이티드 | 공간적으로 엔코딩된 생물학적 검정 |
US9260753B2 (en) | 2011-03-24 | 2016-02-16 | President And Fellows Of Harvard College | Single cell nucleic acid detection and analysis |
GB201106254D0 (en) | 2011-04-13 | 2011-05-25 | Frisen Jonas | Method and product |
DK3363901T3 (da) | 2012-02-17 | 2021-02-22 | Hutchinson Fred Cancer Res | Sammensætninger og fremgangsmåder til præcis identificering af mutationer |
ES2662128T3 (es) | 2012-03-05 | 2018-04-05 | Adaptive Biotechnologies Corporation | Determinación de cadenas de receptor inmunitario emparejadas a partir de la frecuencia de subunidades coincidentes |
DK2828218T3 (da) | 2012-03-20 | 2020-11-02 | Univ Washington Through Its Center For Commercialization | Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing |
ES2711156T3 (es) | 2012-05-08 | 2019-04-30 | Adaptive Biotechnologies Corp | Método para medir y calibrar el sesgo de amplificación en reacciones de PCR multiplexadas |
WO2013181170A1 (en) * | 2012-05-31 | 2013-12-05 | Board Of Regents, The University Of Texas System | Method for accurate sequencing of dna |
CA3216609C (en) | 2012-08-14 | 2024-05-14 | 10X Genomics, Inc. | Microcapsule compositions and methods |
US11591637B2 (en) | 2012-08-14 | 2023-02-28 | 10X Genomics, Inc. | Compositions and methods for sample processing |
US10400280B2 (en) | 2012-08-14 | 2019-09-03 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US9701998B2 (en) | 2012-12-14 | 2017-07-11 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10323279B2 (en) | 2012-08-14 | 2019-06-18 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
JP6275145B2 (ja) | 2012-09-04 | 2018-02-07 | ガーダント ヘルス, インコーポレイテッド | まれな変異およびコピー数多型を検出するためのシステムおよび方法 |
US11913065B2 (en) | 2012-09-04 | 2024-02-27 | Guardent Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US10876152B2 (en) | 2012-09-04 | 2020-12-29 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
EP3511423B2 (en) | 2012-10-17 | 2024-05-29 | Spatial Transcriptomics AB | Methods and product for optimising localised or spatial detection of gene expression in a tissue sample |
EP2912197B1 (en) | 2012-10-24 | 2019-08-07 | Takara Bio USA, Inc. | Template switch-based methods for producing a product nucleic acid |
US10533221B2 (en) * | 2012-12-14 | 2020-01-14 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
CA2900481A1 (en) | 2013-02-08 | 2014-08-14 | 10X Genomics, Inc. | Polynucleotide barcode generation |
EP4439566A3 (en) | 2013-03-15 | 2024-12-04 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US9868979B2 (en) | 2013-06-25 | 2018-01-16 | Prognosys Biosciences, Inc. | Spatially encoded biological assays using a microfluidic device |
US9708657B2 (en) | 2013-07-01 | 2017-07-18 | Adaptive Biotechnologies Corp. | Method for generating clonotype profiles using sequence tags |
CN105658815B (zh) | 2013-10-17 | 2020-12-29 | 塔卡拉生物美国有限公司 | 用于添加适配体至核酸的方法及用于实施所述方法的组合物 |
DK3077539T3 (en) * | 2013-12-02 | 2018-11-19 | Personal Genome Diagnostics Inc | Procedure for evaluating minority variations in a sample |
WO2015094861A1 (en) | 2013-12-17 | 2015-06-25 | Clontech Laboratories, Inc. | Methods for adding adapters to nucleic acids and compositions for practicing the same |
JP6571665B2 (ja) | 2013-12-28 | 2019-09-04 | ガーダント ヘルス, インコーポレイテッド | 遺伝的バリアントを検出するための方法およびシステム |
US10066265B2 (en) | 2014-04-01 | 2018-09-04 | Adaptive Biotechnologies Corp. | Determining antigen-specific t-cells |
ES2777529T3 (es) | 2014-04-17 | 2020-08-05 | Adaptive Biotechnologies Corp | Cuantificación de genomas de células inmunitarias adaptativas en una mezcla compleja de células |
CN106460052B (zh) | 2014-05-14 | 2021-07-16 | 海德堡鲁普雷希特卡尔斯大学 | 双链核酸的合成 |
JP6838969B2 (ja) | 2014-06-26 | 2021-03-03 | 10エックス ジェノミクス, インコーポレイテッド | 個々の細胞または細胞集団由来の核酸の分析方法 |
GB201411603D0 (en) * | 2014-06-30 | 2014-08-13 | Vela Operations Pte Ltd | Compositions for quantitative and/or semiquantitative mutation detection methods |
US20160017320A1 (en) | 2014-07-15 | 2016-01-21 | Qiagen Sciences, Llc | Semi-random barcodes for nucleic acid analysis |
AU2015339191A1 (en) | 2014-10-29 | 2017-05-18 | Adaptive Biotechnologies Corp. | Highly-multiplexed simultaneous detection of nucleic acids encoding paired adaptive immune receptor heterodimers from many samples |
US10000799B2 (en) | 2014-11-04 | 2018-06-19 | Boreal Genomics, Inc. | Methods of sequencing with linked fragments |
US10246701B2 (en) | 2014-11-14 | 2019-04-02 | Adaptive Biotechnologies Corp. | Multiplexed digital quantitation of rearranged lymphoid receptors in a complex mixture |
CA2976580A1 (en) | 2015-02-24 | 2016-09-01 | Adaptive Biotechnologies Corp. | Methods for diagnosing infectious disease and determining hla status using immune repertoire sequencing |
WO2016161177A1 (en) * | 2015-03-31 | 2016-10-06 | Fred Hutchinson Cancer Research Center | Compositions and methods for target nucleic acid molecule enrichment |
AU2016242967B2 (en) | 2015-04-01 | 2021-07-01 | Adaptive Biotechnologies Corp. | Method of identifying human compatible T cell receptors specific for an antigenic target |
ES2955488T3 (es) | 2015-04-10 | 2023-12-01 | Spatial Transcriptomics Ab | Análisis multiplex de especímenes biológicos de ácidos nucleicos espacialmente distinguidos |
GB201515557D0 (en) * | 2015-09-02 | 2015-10-14 | 14M Genomics Ltd | Method of sequencing |
US11332784B2 (en) | 2015-12-08 | 2022-05-17 | Twinstrand Biosciences, Inc. | Adapters, methods, and compositions for duplex sequencing |
CN108603228B (zh) | 2015-12-17 | 2023-09-01 | 夸登特健康公司 | 通过分析无细胞dna确定肿瘤基因拷贝数的方法 |
AU2017237199B2 (en) | 2016-03-25 | 2020-11-05 | Karius, Inc. | Synthetic nucleic acid spike-ins |
US10961573B2 (en) | 2016-03-28 | 2021-03-30 | Boreal Genomics, Inc. | Linked duplex target capture |
WO2017168331A1 (en) | 2016-03-28 | 2017-10-05 | Boreal Genomics, Inc. | Linked duplex fragment sequencing |
ES2882329T3 (es) | 2016-04-07 | 2021-12-01 | Univ Leland Stanford Junior | Diagnóstico no invasivo por secuenciación de ADN fuera de las células 5-hidroximetilado |
EP4488686A3 (en) | 2016-04-14 | 2025-04-30 | Guardant Health, Inc. | Methods for early detection of cancer |
US11384382B2 (en) | 2016-04-14 | 2022-07-12 | Guardant Health, Inc. | Methods of attaching adapters to sample nucleic acids |
NZ747941A (en) | 2016-05-02 | 2023-04-28 | Encodia Inc | Macromolecule analysis employing nucleic acid encoding |
WO2017217694A2 (ko) * | 2016-06-16 | 2017-12-21 | 한국한의학연구원 | 돌연변이 발생률의 측정 방법 |
KR101915701B1 (ko) | 2016-06-16 | 2018-11-07 | 한국한의학연구원 | 돌연변이 발생률의 측정 방법 |
US11821028B2 (en) | 2016-07-12 | 2023-11-21 | QIAGEN Sciences, LLP | Single end duplex DNA sequencing |
US10428325B1 (en) | 2016-09-21 | 2019-10-01 | Adaptive Biotechnologies Corporation | Identification of antigen-specific B cell receptors |
CA3126055A1 (en) | 2016-09-30 | 2018-04-05 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
US20190256928A1 (en) * | 2016-10-20 | 2019-08-22 | Fred Hutchinson Cancer Research Center | Systems and methods for detecting disseminated or circulating cells or dna |
CN110114473A (zh) * | 2016-11-23 | 2019-08-09 | 斯特拉斯堡大学 | 靶分子的串联条形码添加以便以单实体分辨率对靶分子进行绝对定量 |
GB201620450D0 (en) | 2016-12-01 | 2017-01-18 | Oxford Nanopore Tech Ltd | Method |
EP3551769A4 (en) | 2016-12-09 | 2020-10-28 | Boreal Genomics, Inc. | LINKED LIGATURE |
WO2018183942A1 (en) | 2017-03-31 | 2018-10-04 | Grail, Inc. | Improved library preparation and use thereof for sequencing-based error correction and/or variant identification |
GB201707140D0 (en) | 2017-05-04 | 2017-06-21 | Oxford Nanopore Tech Ltd | Method |
CA3081441C (en) | 2017-10-31 | 2023-08-29 | Encodia, Inc. | Kits for analysis using nucleic acid encoding and/or label |
SG11202003885UA (en) | 2017-11-08 | 2020-05-28 | Twinstrand Biosciences Inc | Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters |
US11254980B1 (en) | 2017-11-29 | 2022-02-22 | Adaptive Biotechnologies Corporation | Methods of profiling targeted polynucleotides while mitigating sequencing depth requirements |
WO2019126803A1 (en) | 2017-12-22 | 2019-06-27 | Grail, Inc. | Error removal using improved library preparation methods |
GB201809323D0 (en) | 2018-06-06 | 2018-07-25 | Oxford Nanopore Tech Ltd | Method |
CA3104922A1 (en) | 2018-06-22 | 2019-12-26 | Bluestar Genomics, Inc. | Hydroxymethylation analysis of cell-free nucleic acid samples for assigning tissue of origin, and related methods of use |
AU2019300172A1 (en) | 2018-07-12 | 2021-01-28 | Twinstrand Biosciences, Inc. | Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications |
WO2020039261A1 (en) | 2018-08-23 | 2020-02-27 | Boreal Genomics, Inc. | Linked target capture and ligation |
US11519033B2 (en) | 2018-08-28 | 2022-12-06 | 10X Genomics, Inc. | Method for transposase-mediated spatial tagging and analyzing genomic DNA in a biological sample |
SG11202102421PA (en) | 2018-09-19 | 2021-04-29 | Bluestar Genomics Inc | Cell-free dna hydroxymethylation profiles in the evaluation of pancreatic lesions |
US10696994B2 (en) | 2018-09-28 | 2020-06-30 | Bioo Scientific Corporation | Size selection of RNA using poly(A) polymerase |
US11104941B2 (en) | 2018-09-28 | 2021-08-31 | Bioo Scientific Corporation | 5′ adapter comprising an internal 5′-5′ linkage |
US11473136B2 (en) | 2019-01-03 | 2022-10-18 | Ncan Genomics, Inc. | Linked target capture |
US11649485B2 (en) | 2019-01-06 | 2023-05-16 | 10X Genomics, Inc. | Generating capture probes for spatial analysis |
US11926867B2 (en) | 2019-01-06 | 2024-03-12 | 10X Genomics, Inc. | Generating capture probes for spatial analysis |
US11952613B2 (en) * | 2019-03-11 | 2024-04-09 | Phillip N. Gray | Methods and reagents for enhanced next generation sequencing library conversion and incorporation of molecular barcodes into targeted and random nucleic acid sequences |
CA3138367A1 (en) | 2019-04-30 | 2020-11-05 | Encodia, Inc. | Methods for preparing analytes and related kits |
WO2020243579A1 (en) | 2019-05-30 | 2020-12-03 | 10X Genomics, Inc. | Methods of detecting spatial heterogeneity of a biological sample |
CN114502742A (zh) * | 2019-08-01 | 2022-05-13 | 特温斯特兰德生物科学有限公司 | 用于核酸测序及相关应用的方法和试剂 |
JP2023501376A (ja) | 2019-11-06 | 2023-01-18 | ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー | 核酸分子を分析するための方法およびシステム |
EP4055185A1 (en) | 2019-11-08 | 2022-09-14 | 10X Genomics, Inc. | Spatially-tagged analyte capture agents for analyte multiplexing |
EP3891300B1 (en) | 2019-12-23 | 2023-03-29 | 10X Genomics, Inc. | Methods for spatial analysis using rna-templated ligation |
US12241890B2 (en) | 2019-12-23 | 2025-03-04 | 10X Genomics, Inc. | Methods for generating barcoded nucleic acid molecules using fixed cells |
US11732299B2 (en) | 2020-01-21 | 2023-08-22 | 10X Genomics, Inc. | Spatial assays with perturbed cells |
US11702693B2 (en) | 2020-01-21 | 2023-07-18 | 10X Genomics, Inc. | Methods for printing cells and generating arrays of barcoded cells |
US20210230681A1 (en) | 2020-01-24 | 2021-07-29 | 10X Genomics, Inc. | Methods for spatial analysis using proximity ligation |
US11821035B1 (en) | 2020-01-29 | 2023-11-21 | 10X Genomics, Inc. | Compositions and methods of making gene expression libraries |
US12076701B2 (en) | 2020-01-31 | 2024-09-03 | 10X Genomics, Inc. | Capturing oligonucleotides in spatial transcriptomics |
US11898205B2 (en) | 2020-02-03 | 2024-02-13 | 10X Genomics, Inc. | Increasing capture efficiency of spatial assays |
US12110541B2 (en) | 2020-02-03 | 2024-10-08 | 10X Genomics, Inc. | Methods for preparing high-resolution spatial arrays |
US11732300B2 (en) | 2020-02-05 | 2023-08-22 | 10X Genomics, Inc. | Increasing efficiency of spatial analysis in a biological sample |
US12129516B2 (en) | 2020-02-07 | 2024-10-29 | 10X Genomics, Inc. | Quantitative and automated permeabilization performance evaluation for spatial transcriptomics |
US11835462B2 (en) | 2020-02-11 | 2023-12-05 | 10X Genomics, Inc. | Methods and compositions for partitioning a biological sample |
US12281357B1 (en) | 2020-02-14 | 2025-04-22 | 10X Genomics, Inc. | In situ spatial barcoding |
US11891654B2 (en) | 2020-02-24 | 2024-02-06 | 10X Genomics, Inc. | Methods of making gene expression libraries |
US11926863B1 (en) | 2020-02-27 | 2024-03-12 | 10X Genomics, Inc. | Solid state single cell method for analyzing fixed biological cells |
US11768175B1 (en) | 2020-03-04 | 2023-09-26 | 10X Genomics, Inc. | Electrophoretic methods for spatial analysis |
EP4242325B1 (en) | 2020-04-22 | 2025-01-29 | 10X Genomics, Inc. | Methods for spatial analysis using targeted rna depletion |
AU2021275906A1 (en) | 2020-05-22 | 2022-12-22 | 10X Genomics, Inc. | Spatial analysis to detect sequence variants |
EP4153775B1 (en) | 2020-05-22 | 2024-07-24 | 10X Genomics, Inc. | Simultaneous spatio-temporal measurement of gene expression and cellular activity |
WO2021242834A1 (en) | 2020-05-26 | 2021-12-02 | 10X Genomics, Inc. | Method for resetting an array |
US12265079B1 (en) | 2020-06-02 | 2025-04-01 | 10X Genomics, Inc. | Systems and methods for detecting analytes from captured single biological particles |
CN116249785A (zh) | 2020-06-02 | 2023-06-09 | 10X基因组学有限公司 | 用于抗原-受体的空间转录组学 |
AU2021283174A1 (en) | 2020-06-02 | 2023-01-05 | 10X Genomics, Inc. | Nucleic acid library methods |
US12031177B1 (en) | 2020-06-04 | 2024-07-09 | 10X Genomics, Inc. | Methods of enhancing spatial resolution of transcripts |
WO2021252499A1 (en) | 2020-06-08 | 2021-12-16 | 10X Genomics, Inc. | Methods of determining a surgical margin and methods of use thereof |
ES2999535T3 (en) | 2020-06-10 | 2025-02-26 | 10X Genomics Inc | Methods for determining a location of an analyte in a biological sample |
WO2021263111A1 (en) | 2020-06-25 | 2021-12-30 | 10X Genomics, Inc. | Spatial analysis of dna methylation |
US11981960B1 (en) | 2020-07-06 | 2024-05-14 | 10X Genomics, Inc. | Spatial analysis utilizing degradable hydrogels |
US12209280B1 (en) | 2020-07-06 | 2025-01-28 | 10X Genomics, Inc. | Methods of identifying abundance and location of an analyte in a biological sample using second strand synthesis |
US11761038B1 (en) | 2020-07-06 | 2023-09-19 | 10X Genomics, Inc. | Methods for identifying a location of an RNA in a biological sample |
US11981958B1 (en) | 2020-08-20 | 2024-05-14 | 10X Genomics, Inc. | Methods for spatial analysis using DNA capture |
EP4491742A3 (en) | 2020-09-18 | 2025-05-21 | 10x Genomics, Inc. | Sample handling apparatus and image registration methods |
US11926822B1 (en) | 2020-09-23 | 2024-03-12 | 10X Genomics, Inc. | Three-dimensional spatial analysis |
US11827935B1 (en) | 2020-11-19 | 2023-11-28 | 10X Genomics, Inc. | Methods for spatial analysis using rolling circle amplification and detection probes |
EP4121555A1 (en) | 2020-12-21 | 2023-01-25 | 10X Genomics, Inc. | Methods, compositions, and systems for capturing probes and/or barcodes |
EP4294571B8 (en) | 2021-02-19 | 2024-07-10 | 10X Genomics, Inc. | Method of using a modular assay support device |
ES3008686T3 (en) | 2021-03-18 | 2025-03-24 | 10X Genomics Inc | Multiplex capture of gene and protein expression from a biological sample |
WO2022221425A1 (en) | 2021-04-14 | 2022-10-20 | 10X Genomics, Inc. | Methods of measuring mislocalization of an analyte |
US11783912B2 (en) | 2021-05-05 | 2023-10-10 | The Board Of Trustees Of The Leland Stanford Junior University | Methods and systems for analyzing nucleic acid molecules |
WO2022256503A1 (en) | 2021-06-03 | 2022-12-08 | 10X Genomics, Inc. | Methods, compositions, kits, and systems for enhancing analyte capture for spatial analysis |
ES3011462T3 (en) | 2021-09-01 | 2025-04-07 | 10X Genomics Inc | Methods for blocking a capture probe on a spatial array |
WO2023086474A1 (en) * | 2021-11-10 | 2023-05-19 | Albert Einstein College Of Medicine | Method for measuring somatic dna mutation and dna damage profiles and a diagnostic kit suitable therefore |
WO2023086880A1 (en) | 2021-11-10 | 2023-05-19 | 10X Genomics, Inc. | Methods, compositions, and kits for determining the location of an analyte in a biological sample |
EP4305195A2 (en) | 2021-12-01 | 2024-01-17 | 10X Genomics, Inc. | Methods, compositions, and systems for improved in situ detection of analytes and spatial analysis |
WO2023122033A1 (en) | 2021-12-20 | 2023-06-29 | 10X Genomics, Inc. | Self-test for pathology/histology slide imaging device |
Family Cites Families (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4683195A (en) | 1986-01-30 | 1987-07-28 | Cetus Corporation | Process for amplifying, detecting, and/or-cloning nucleic acid sequences |
PT969102E (pt) * | 1991-09-24 | 2008-03-25 | Keygene Nv | Iniciadores, grupos e conjuntos de fragmentos de restrição usados na amplificação selectiva de fragmentos de restrição |
US5308751A (en) | 1992-03-23 | 1994-05-03 | General Atomics | Method for sequencing double-stranded DNA |
US5695934A (en) | 1994-10-13 | 1997-12-09 | Lynx Therapeutics, Inc. | Massively parallel sequencing of sorted polynucleotides |
US6013445A (en) | 1996-06-06 | 2000-01-11 | Lynx Therapeutics, Inc. | Massively parallel signature sequencing by ligation of encoded adaptors |
WO1998044151A1 (en) | 1997-04-01 | 1998-10-08 | Glaxo Group Limited | Method of nucleic acid amplification |
US6143496A (en) | 1997-04-17 | 2000-11-07 | Cytonix Corporation | Method of sampling, amplifying and quantifying segment of nucleic acid, polymerase chain reaction assembly having nanoliter-sized sample chambers, and method of filling assembly |
AU4355899A (en) | 1998-06-26 | 2000-01-17 | Visible Genetics Inc. | Method for sequencing nucleic acids with reduced errors |
AR021833A1 (es) | 1998-09-30 | 2002-08-07 | Applied Research Systems | Metodos de amplificacion y secuenciacion de acido nucleico |
AU778438B2 (en) | 1999-04-06 | 2004-12-02 | Yale University | Fixed address analysis of sequence tags |
US6818395B1 (en) | 1999-06-28 | 2004-11-16 | California Institute Of Technology | Methods and apparatus for analyzing polynucleotide sequences |
US7244559B2 (en) | 1999-09-16 | 2007-07-17 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
WO2001023610A2 (en) | 1999-09-29 | 2001-04-05 | Solexa Ltd. | Polynucleotide sequencing |
WO2002072892A1 (en) | 2001-03-12 | 2002-09-19 | California Institute Of Technology | Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension |
US20050019776A1 (en) | 2002-06-28 | 2005-01-27 | Callow Matthew James | Universal selective genome amplification and universal genotyping system |
DE60335116D1 (de) | 2002-06-28 | 2011-01-05 | Primeradx Inc | Verfahren zum nachweis von sequenzunterschieden |
US7452699B2 (en) | 2003-01-15 | 2008-11-18 | Dana-Farber Cancer Institute, Inc. | Amplification of DNA in a hairpin structure, and applications |
US20060084064A1 (en) | 2003-01-22 | 2006-04-20 | Aird William C | Endocan compositions and methods for the treatment of neoplasms |
EP1606417A2 (en) * | 2003-03-07 | 2005-12-21 | Rubicon Genomics Inc. | In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna |
CA2536565A1 (en) | 2003-09-10 | 2005-05-12 | Althea Technologies, Inc. | Expression profiling using microarrays |
US7169560B2 (en) | 2003-11-12 | 2007-01-30 | Helicos Biosciences Corporation | Short cycle methods for sequencing polynucleotides |
JP4747245B2 (ja) | 2003-12-31 | 2011-08-17 | 謙造 廣瀬 | RNAiライブラリーの酵素的構築方法 |
GB0400584D0 (en) | 2004-01-12 | 2004-02-11 | Solexa Ltd | Nucleic acid chacterisation |
JP2007524410A (ja) | 2004-01-23 | 2007-08-30 | リングヴィテ エーエス | ポリヌクレオチドライゲーション反応の改良 |
FR2872953B1 (fr) | 2004-07-09 | 2006-09-15 | Peugeot Citroen Automobiles Sa | Dispositif d'affichage pour vehicule automobile |
WO2006084130A2 (en) | 2005-02-03 | 2006-08-10 | Perkinelmer Las, Inc. | Ultra-sensitive detection systems using multidimension signals |
US7393665B2 (en) | 2005-02-10 | 2008-07-01 | Population Genetics Technologies Ltd | Methods and compositions for tagging and identifying polynucleotides |
ATE406463T1 (de) | 2005-04-06 | 2008-09-15 | Maurice Stroun | Methode zur krebsdiagnose mittels nachweis von dna und rna im kreislauf |
EP2292788B1 (en) | 2005-06-23 | 2012-05-09 | Keygene N.V. | Strategies for high throughput identification and detection of polymorphisms |
US7666593B2 (en) | 2005-08-26 | 2010-02-23 | Helicos Biosciences Corporation | Single molecule sequencing of captured nucleic acids |
ATE453728T1 (de) | 2005-09-29 | 2010-01-15 | Keygene Nv | Screening mutagenisierter populationen mit hohem durchsatz |
EP3404114B1 (en) | 2005-12-22 | 2021-05-05 | Keygene N.V. | Method for high-throughput aflp-based polymorphism detection |
ES2394633T3 (es) | 2005-12-22 | 2013-02-04 | Keygene N.V. | Estrategias mejoradas para elaboración de perfiles de transcritos usando tecnologías de secuenciación de alto rendimiento |
WO2007087312A2 (en) | 2006-01-23 | 2007-08-02 | Population Genetics Technologies Ltd. | Molecular counting |
WO2007092538A2 (en) | 2006-02-07 | 2007-08-16 | President And Fellows Of Harvard College | Methods for making nucleotide probes for sequencing and synthesis |
US8460866B2 (en) * | 2006-03-01 | 2013-06-11 | Keygene N.V. | High throughput sequence-based detection of SNPs using ligation assays |
US20100028873A1 (en) | 2006-03-14 | 2010-02-04 | Abdelmajid Belouchi | Methods and means for nucleic acid sequencing |
ES2645661T3 (es) | 2006-04-04 | 2017-12-07 | Keygene N.V. | Detección de alto rendimiento de marcadores moleculares basada en fragmentos de restricción |
US7282337B1 (en) | 2006-04-14 | 2007-10-16 | Helicos Biosciences Corporation | Methods for increasing accuracy of nucleic acid sequencing |
US7754429B2 (en) | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
US8349167B2 (en) | 2006-12-14 | 2013-01-08 | Life Technologies Corporation | Methods and apparatus for detecting molecular interactions using FET arrays |
US8262900B2 (en) | 2006-12-14 | 2012-09-11 | Life Technologies Corporation | Methods and apparatus for measuring analytes using large scale FET arrays |
WO2008076406A2 (en) | 2006-12-14 | 2008-06-26 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes using large scale fet arrays |
EP2121983A2 (en) | 2007-02-02 | 2009-11-25 | Illumina Cambridge Limited | Methods for indexing samples and sequencing multiple nucleotide templates |
EP2201143B2 (en) | 2007-09-21 | 2016-08-24 | Katholieke Universiteit Leuven | Tools and methods for genetic tests using next generation sequencing |
US20090156412A1 (en) | 2007-12-17 | 2009-06-18 | Helicos Biosciences Corporation | Surface-capture of target nucleic acids |
DE102008025656B4 (de) | 2008-05-28 | 2016-07-28 | Genxpro Gmbh | Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung |
US20100041048A1 (en) * | 2008-07-31 | 2010-02-18 | The Johns Hopkins University | Circulating Mutant DNA to Assess Tumor Dynamics |
US20100035252A1 (en) | 2008-08-08 | 2010-02-11 | Ion Torrent Systems Incorporated | Methods for sequencing individual nucleic acids under tension |
US8586310B2 (en) | 2008-09-05 | 2013-11-19 | Washington University | Method for multiplexed nucleic acid patch polymerase chain reaction |
US8383345B2 (en) | 2008-09-12 | 2013-02-26 | University Of Washington | Sequence tag directed subassembly of short sequencing reads into long sequencing reads |
US20100301398A1 (en) | 2009-05-29 | 2010-12-02 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes |
US20100137143A1 (en) | 2008-10-22 | 2010-06-03 | Ion Torrent Systems Incorporated | Methods and apparatus for measuring analytes |
US8546128B2 (en) | 2008-10-22 | 2013-10-01 | Life Technologies Corporation | Fluidics system for sequential delivery of reagents |
JP5843614B2 (ja) | 2009-01-30 | 2016-01-13 | オックスフォード ナノポア テクノロジーズ リミテッド | 膜貫通配列決定における核酸構築物のためのアダプター |
CA2757560C (en) | 2009-04-02 | 2018-11-13 | Fluidigm Corporation | Multi-primer amplification method for barcoding of target nucleic acids |
CN102625850B (zh) | 2009-04-03 | 2014-11-26 | 蒂莫西·Z·刘 | 多重核酸检测方法和系统 |
JP2012525147A (ja) | 2009-04-30 | 2012-10-22 | グッド スタート ジェネティクス, インコーポレイテッド | 遺伝マーカーを評価するための方法および組成物 |
WO2010127186A1 (en) * | 2009-04-30 | 2010-11-04 | Prognosys Biosciences, Inc. | Nucleic acid constructs and methods of use |
US8574835B2 (en) | 2009-05-29 | 2013-11-05 | Life Technologies Corporation | Scaffolded nucleic acid polymer particles and methods of making and using |
US8673627B2 (en) | 2009-05-29 | 2014-03-18 | Life Technologies Corporation | Apparatus and methods for performing electrochemical reactions |
US8835358B2 (en) | 2009-12-15 | 2014-09-16 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
EP2580351B1 (en) | 2010-06-09 | 2018-08-29 | Keygene N.V. | Combinatorial sequence barcodes for high throughput screening |
US8481292B2 (en) | 2010-09-21 | 2013-07-09 | Population Genetics Technologies Litd. | Increasing confidence of allele calls with molecular counting |
SI2630263T2 (sl) | 2010-10-22 | 2022-04-29 | Cold Spring Harbor Laboratory | Vrstno štetje nukleinskih kislin za pridobivanje informacij o številu genomskih kopij |
EP2670894B1 (en) * | 2011-02-02 | 2017-11-29 | University Of Washington Through Its Center For Commercialization | Massively parallel continguity mapping |
US9260753B2 (en) * | 2011-03-24 | 2016-02-16 | President And Fellows Of Harvard College | Single cell nucleic acid detection and analysis |
HUE068153T2 (hu) * | 2011-04-15 | 2024-12-28 | Univ Johns Hopkins | Biztonságos szekvenálási rendszer |
US9809904B2 (en) | 2011-04-21 | 2017-11-07 | University Of Washington Through Its Center For Commercialization | Methods for retrieval of sequence-verified DNA constructs |
SG10201605049QA (en) * | 2011-05-20 | 2016-07-28 | Fluidigm Corp | Nucleic acid encoding reactions |
DK3363901T3 (da) * | 2012-02-17 | 2021-02-22 | Hutchinson Fred Cancer Res | Sammensætninger og fremgangsmåder til præcis identificering af mutationer |
CA2867293C (en) | 2012-03-13 | 2020-09-01 | Abhijit Ajit PATEL | Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing |
DK2828218T3 (da) * | 2012-03-20 | 2020-11-02 | Univ Washington Through Its Center For Commercialization | Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing |
WO2013181170A1 (en) | 2012-05-31 | 2013-12-05 | Board Of Regents, The University Of Texas System | Method for accurate sequencing of dna |
JP6275145B2 (ja) | 2012-09-04 | 2018-02-07 | ガーダント ヘルス, インコーポレイテッド | まれな変異およびコピー数多型を検出するためのシステムおよび方法 |
US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
WO2015094861A1 (en) | 2013-12-17 | 2015-06-25 | Clontech Laboratories, Inc. | Methods for adding adapters to nucleic acids and compositions for practicing the same |
JP6571665B2 (ja) | 2013-12-28 | 2019-09-04 | ガーダント ヘルス, インコーポレイテッド | 遺伝的バリアントを検出するための方法およびシステム |
KR102001554B1 (ko) | 2014-01-16 | 2019-07-18 | 일루미나, 인코포레이티드 | 고형 지지체 상에서의 앰플리콘 제조 방법 및 시퀀싱 |
US10017759B2 (en) | 2014-06-26 | 2018-07-10 | Illumina, Inc. | Library preparation of tagged nucleic acid |
US10385387B2 (en) | 2015-04-20 | 2019-08-20 | Pacific Biosciences Of California, Inc. | Methods for selectively amplifying and tagging nucleic acids |
US10844428B2 (en) | 2015-04-28 | 2020-11-24 | Illumina, Inc. | Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS) |
EP4086357A1 (en) | 2015-08-28 | 2022-11-09 | Illumina, Inc. | Nucleic acid sequence analysis from single cells |
CN108350491A (zh) | 2015-11-18 | 2018-07-31 | 加利福尼亚太平洋生物科学股份有限公司 | 将核酸加载到基材上 |
US11332784B2 (en) | 2015-12-08 | 2022-05-17 | Twinstrand Biosciences, Inc. | Adapters, methods, and compositions for duplex sequencing |
EP3469079B1 (en) | 2016-06-13 | 2020-08-05 | Grail, Inc. | Enrichment of mutated cell free nucleic acids for cancer detection |
US11566284B2 (en) | 2016-08-10 | 2023-01-31 | Grail, Llc | Methods of preparing dual-indexed DNA libraries for bisulfite conversion sequencing |
WO2018031929A1 (en) | 2016-08-12 | 2018-02-15 | Grail, Inc. | Method for accurate quantification of genomic copies in cell-free dna |
-
2013
- 2013-02-15 DK DK18150361.6T patent/DK3363901T3/da active
- 2013-02-15 WO PCT/US2013/026505 patent/WO2013123442A1/en active Application Filing
- 2013-02-15 SI SI201331854T patent/SI3363901T1/sl unknown
- 2013-02-15 SM SM20210154T patent/SMT202100154T1/it unknown
- 2013-02-15 EP EP20215829.1A patent/EP3854873A1/en active Pending
- 2013-02-15 PT PT137063970T patent/PT2814959T/pt unknown
- 2013-02-15 ES ES13706397.0T patent/ES2665071T3/es active Active
- 2013-02-15 RS RS20210380A patent/RS61631B1/sr unknown
- 2013-02-15 EP EP18150361.6A patent/EP3363901B1/en active Active
- 2013-02-15 PL PL18150361T patent/PL3363901T3/pl unknown
- 2013-02-15 PL PL13706397T patent/PL2814959T3/pl unknown
- 2013-02-15 LT LTEP18150361.6T patent/LT3363901T/lt unknown
- 2013-02-15 HU HUE18150361A patent/HUE053360T2/hu unknown
- 2013-02-15 DK DK13706397.0T patent/DK2814959T3/en active
- 2013-02-15 PT PT181503616T patent/PT3363901T/pt unknown
- 2013-02-15 EP EP13706397.0A patent/EP2814959B1/en not_active Revoked
- 2013-02-15 US US14/378,870 patent/US10011871B2/en active Active
- 2013-02-15 ES ES18150361T patent/ES2855130T3/es active Active
- 2013-06-21 NO NO13806177A patent/NO2864470T3/no unknown
-
2016
- 2016-06-30 US US15/199,784 patent/US10450606B2/en active Active
-
2018
- 2018-09-04 US US16/121,559 patent/US20180363049A1/en not_active Abandoned
- 2018-09-04 US US16/121,555 patent/US20180363048A1/en not_active Abandoned
-
2019
- 2019-10-18 US US16/657,898 patent/US20200048707A1/en not_active Abandoned
- 2019-10-18 US US16/657,881 patent/US20200048706A1/en not_active Abandoned
-
2020
- 2020-06-10 US US16/898,155 patent/US20200299767A1/en not_active Abandoned
- 2020-06-10 US US16/898,152 patent/US20200299766A1/en not_active Abandoned
- 2020-08-18 US US16/996,682 patent/US20200385804A1/en not_active Abandoned
- 2020-11-06 US US17/091,676 patent/US11441180B2/en active Active
-
2021
- 2021-03-19 CY CY20211100236T patent/CY1123973T1/el unknown
- 2021-03-29 HR HRP20210504TT patent/HRP20210504T1/hr unknown
- 2021-03-31 US US17/219,543 patent/US20210222243A1/en active Pending
- 2021-04-20 US US17/235,837 patent/US20210246504A1/en not_active Abandoned
- 2021-04-20 US US17/235,788 patent/US20210238678A1/en not_active Abandoned
- 2021-04-20 US US17/235,750 patent/US20210238676A1/en not_active Abandoned
- 2021-06-23 US US17/356,293 patent/US20210317526A1/en active Pending
- 2021-06-23 US US17/356,288 patent/US20210317525A1/en active Pending
- 2021-07-13 US US17/374,917 patent/US20210340619A1/en active Pending
- 2021-08-25 US US17/412,105 patent/US20210388435A1/en active Pending
- 2021-09-01 US US17/464,341 patent/US20210395818A1/en active Pending
-
2022
- 2022-06-29 US US17/853,716 patent/US20220349004A1/en active Pending
- 2022-09-27 US US17/935,880 patent/US20230193381A1/en active Pending
-
2024
- 2024-01-17 US US18/415,344 patent/US20240200131A1/en active Pending
- 2024-03-27 US US18/619,081 patent/US20240409996A1/en active Pending
- 2024-03-28 US US18/620,758 patent/US20240417790A1/en active Pending
- 2024-04-04 US US18/627,305 patent/US20240401128A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2665071T3 (es) | Composiciones y métodos para identificar mutaciones de manera precisa | |
ES2980689T3 (es) | Métodos para la secuenciación de polinucleótidos libres de células | |
ES2769241T5 (es) | Sistemas y métodos para detectar variación en el número de copias | |
CN105705640B (zh) | 抑制lncRNA用于治疗黑素瘤 | |
US20150126376A1 (en) | Compositions and methods for sensitive mutation detection in nucleic acid molecules | |
KR20190003987A (ko) | 무-세포 메틸화된 dna의 포획 방법 및 이의 이용 | |
ES2576743T3 (es) | Marcador para pronóstico de cáncer de hígado | |
US20200102586A1 (en) | Size selection of rna using poly(a) polymerase | |
EP4306656A1 (en) | Cancer test reagent set, method for producing cancer test reagent set, and cancer test method | |
CN113564250B (zh) | 头颈部癌症的生物标志物及其使用方法 |