ES3013183T3

ES3013183T3 - Methods for targeted genetic modification using paired guide rnas

Info

Publication number: ES3013183T3
Application number: ES19161085T
Authority: ES
Inventors: Andrew Murphy; David Frendewey; Ka-Man Lai; Wojtek Auerbach; Gustavo Droguett; Anthony Gagliardi; David Valenzuela; Vera Voronina; Lynn Macdonald; George Yancopoulos
Original assignee: Regeneron Pharmaceuticals Inc
Current assignee: Regeneron Pharmaceuticals Inc
Priority date: 2014-11-21
Filing date: 2015-11-20
Publication date: 2025-04-11
Anticipated expiration: 2035-11-20
Also published as: US20230332185A1; EP3221457A2; MX2022000378A; EP3521437C0; JP2020191880A; IL283585A; SG11201703747RA; IL283585B2; CA3176380A1; IL283585B1; US20160145646A1; RU2017121367A; JP7101211B2; ES2731437T3; RS58893B1; IL252181A0; RU2734770C2; CY1121738T1; RU2020134412A; RU2017121367A3

Abstract

Se proporcionan composiciones y métodos para crear y promover modificaciones bialélicas dirigidas a genomas celulares y para producir animales no humanos que comprenden los genomas modificados. También se proporcionan composiciones y métodos para modificar un genoma dentro de una célula heterocigoto para un alelo, convirtiéndolo en homocigoto para dicho alelo. Los métodos utilizan proteínas Cas y dos o más ARN guía que actúan sobre diferentes localizaciones dentro del mismo locus genómico diana. También se proporcionan métodos para identificar células con genomas modificados. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos para la modificación genética dirigida utilizando ARN guía emparejados

Referencia cruzada a las solicitudes relacionadas

La presente solicitud reivindica el beneficio de la solicitud US-62/083,005, presentada el 21 de noviembre de 2014, la solicitud US-62/182,314, presentada el 19 de junio de 2015, y la solicitud US-62/211,421, presentada el 28 de agosto de 2015.

Referencia a un listado de secuencias enviado como un archivo de texto a través de EFS-WEB

El Listado de Secuencias escrito en el archivo 472225SEQLIST.txt es de 32,7 kb, fue creado el 20 de noviembre de 2015.

Antecedentes

Aunque se ha avanzado en el direccionamiento específico de diversos loci genómicos, todavía quedan muchos tipos de loci genómicos que no pueden direccionarse de manera eficiente o modificaciones genómicas que no pueden alcanzarse de manera adecuada o eficiente con las estrategias de direccionamiento convencionales. Por ejemplo, surgen dificultades cuando se intenta crear grandes deleciones genómicas dirigidas u otras grandes modificaciones genéticas dirigidas, particularmente en células y organismos eucariotas.

En particular, es difícil producir eficazmente células o animales que sean homocigotos o compuestos heterocigotos (p. ej., hemicigotos) para una gran deleción genómica dirigida u otra modificación genómica cuando se usan estrategias de direccionamiento convencionales. Por ejemplo, aunque se pueden obtener ratones de la generación F0 heterocigotos para una gran deleción genómica dirigida mediante estrategias de direccionamiento convencionales, se requiere la reproducción posterior de estos ratones heterocigotos para producir ratones de la generación F2 que sean homocigotos para la deleción. Estas etapas adicionales de reproducción son costosas y requieren mucho tiempo.Resumen

La presente invención se refiere a las realizaciones caracterizadas en las reivindicaciones. La invención proporciona métodos in vitro para modificar un genoma dentro de una célula de mamífero que es heterocigota para un primer alelo, que comprenden

(I) introducir en la célula:

(a) una proteína Cas o un ácido nucleico que codifica la proteína Cas;

(b) un primer ARN guía o un ADN que codifica el primer ARN guía, en donde el primer ARN guía se hibrida con una primera secuencia de reconocimiento de ARN CRISPR no específica de un alelo, en donde el primer alelo está en un primer cromosoma homólogo y la secuencia de reconocimiento de ARN CRISPR es centromérica con respecto a un locus en un segundo cromosoma homólogo correspondiente al primer alelo; y

(c) un segundo ARN guía o un ADN que codifica el segundo ARN guía, en donde el segundo ARN guía se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR no específica de un alelo centromérica con respecto al locus del segundo cromosoma homólogo correspondiente al primer alelo,

en donde el primer alelo está al menos a 100 kb de la primera secuencia de reconocimiento de ARN CRISPR, en donde la proteína Cas y el primer ARN guía no existen juntos de forma natural,

en donde la proteína Cas es una proteína Cas9 y tiene actividad nucleasa en ambas cadenas de ADN bicatenario, y

en donde la proteína Cas escinde la primera secuencia de reconocimiento de ARN CRISPR para generar una ruptura de doble cadena y la célula se modifica para que se vuelva homocigota para el primer alelo, opcionalmente en donde la proteína Cas escinde la primera secuencia de reconocimiento de ARN CRISPR y la segunda secuencia de reconocimiento de ARN CRISPR;

y

(II) identificar una célula modificada que es homocigota para el primer alelo

En algunos métodos, la pérdida de heterocigosidad es telomérica de la ruptura de doble cadena.

En algunos métodos, la primera y la segunda secuencias de reconocimiento de ARN CRISPR se ubican en el segundo cromosoma homólogo, pero no en el primer cromosoma homólogo. En algunos métodos, el primer sitio de reconocimiento de ARN CRISPR está a una distancia de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde el centrómero. En algunos métodos, el primer alelo está a una distancia de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de a apprrooxxiim aaddaam eennttee 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de a apprrooxxiim aaddaam eennttee 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde el primer sitio de reconocimiento de ARN CRISPR. En algunos métodos, la región del segundo cromosoma homólogo que se reemplaza por la pérdida de heterocigosidad es de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb.

En los métodos, la célula es una célula de mamífero. Opcionalmente, la célula de mamífero es una célula humana, una célula no humana, una célula de roedor, una célula de ratón, una célula de rata, una célula pluripotente, una célula no pluripotente, una célula pluripotente no humana, una célula pluripotente de roedor, una célula pluripotente de ratón, una célula pluripotente de rata, una célula madre embrionaria (ES) de ratón, una célula ES de rata, una célula ES humana, una célula madre adulta humana, una célula progenitora humana con un desarrollo restringido, una célula madre pluripotente inducida humana (iPS) o un embrión no humano en estadio unicelular.

En los métodos, la proteína Cas es Cas9. En los métodos, la proteína Cas tiene actividad nucleasa en ambas cadenas de ADN bicatenario.

En algunos métodos, el primer ARN CRISPR y el ARNtracr están fusionados entre sí como un primer ARN guía (ARNg), y/o el segundo ARN CRISPR y el ARNtracr están fusionados entre sí como un segundo ARNg. En algunos métodos, el primer ARN CRISPR y el ARNtracr son moléculas de ARN separadas, y/o el segundo ARN CRISPR y el ARNtracr son moléculas de ARN separadas.

En algunos métodos, el contacto comprende introducir la proteína Cas, el primer y segundo ARN CRISPR y el ARNtracr en la célula. En algunos métodos, la proteína Cas se introduce en la célula en forma de una proteína, un ARN mensajero (ARNm) que codifica la proteína Cas o un ADN que codifica la proteína Cas. Opcionalmente, el ADN que codifica la proteína Cas está unido operativamente a un primer promotor en un primer constructo de expresión, en donde el primer promotor es activo en la célula. En algunos métodos, el primer ARN CRISPR se introduce en la célula en forma de ARN o en forma de un ADN que codifica el primer ARN CRISPR. Opcionalmente, el ADN que codifica el primer ARN CRISPR está unido operativamente a un segundo promotor en un segundo constructo de expresión, en donde el segundo promotor es activo en la célula. En algunos métodos, el segundo ARN CRISPR se introduce en la célula en forma de ARN o en forma de un ADN que codifica el segundo ARN CRISPR. Opcionalmente, el ADN que codifica el segundo ARN CRISPR está unido operativamente a un tercer promotor en un tercer constructo de expresión, en donde el tercer promotor es activo en la célula. En algunos métodos, el ARNtracr se introduce en la célula en forma de un ARN o en forma de un ADN que codifica el ARNtracr. Opcionalmente, el ADN que codifica el ARNtracr está unido operativamente a un cuarto promotor en un cuarto constructo de expresión, en donde el cuarto promotor es activo en la célula. Opcionalmente, el primer, segundo, tercer y/o cuarto constructos de expresión son componentes de una única molécula de ácido nucleico.

Opcionalmente, el ADN que codifica la proteína Cas está unido operativamente a un primer promotor en un primer constructo de expresión; los ADN que codifican el primer ARN CRISPR y el ARNtracr estén fusionados entre sí en un ADN que codifica un primer a Rn guía (ARNg) y están unidos operativamente a un segundo promotor en un segundo constructo de expresión; y/o los ADN que codifican el segundo ARN CRISPR y el ARNtracr se fusionan en un ADN que codifica un segundo ARNg y están unidos operativamente a un tercer promotor en un tercer constructo de expresión; en donde el primer, segundo y tercer promotores son activos en la célula. Opcionalmente, el primer, segundo y/o tercer constructos de expresión son componentes de una única molécula de ácido nucleico.

Opcionalmente, la proteína Cas, el primer ARN CRISPR y el ARNtracr se introducen en la célula como un primer complejo proteína-ARN, y/o la proteína Cas, el segundo ARN CRISPR y el ARNtracr se introducen en la célula como un segundo complejo proteína-ARN.

En algunos métodos, la célula se ha modificado para disminuir la unión de extremos no homólogos (NHEJ) y/o para aumentar la conversión génica o la reparación dirigida por homología (HDR). Opcionalmente, la célula se ha modificado para disminuir la expresión o la actividad de uno o más de los siguientes: ADN-PK, PARP1 y ligasa IV. Opcionalmente, la disminución de la expresión o actividad es inducible, reversible, temporalmente específica y/o espacialmente específica.

En algunos métodos, el primer alelo comprende una mutación. Opcionalmente, la mutación es una modificación dirigida. En algunos métodos, el primer alelo es un alelo natural, y el locus correspondiente en el segundo cromosoma homólogo comprende una mutación.

Breve descripción de las figuras

La Figura 1 muestra un esquema para la deleción simultánea del ectodominio Lrp5 murino y su reemplazo por una versión de LRP5 humana correspondiente usando un LTVEC y uno o dos ARNg de la región 5' (A, B, B2), la región media (C, D) y la región 3' (E2, E, F). El LTVEC se muestra en la porción superior de la figura, y el locus del gen Lrp5 murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los ocho ARN guía se indican mediante las flechas verticales debajo de la secuencia génica murina. Las flechas horizontales representan los iniciadores de PCR para secuencias murinas y humanas.

La Figura 2A muestra un esquema general para la deleción simultánea de un gen murino y su reemplazo por una versión humana correspondiente usando un LTVEC y dos ARN guía (ARN guía A y B). El LTVEC se muestra en la porción superior de la Figura 2A, y el locus del gen murino se muestra en la porción inferior de la Figura 2A. Las posiciones de los sitios de escisión de Cas9 guiados por los dos ARN guía se indican mediante las flechas debajo de la secuencia génica murina.

Las Figuras 2B-E muestran las modificaciones bialélicas únicas (tipos de alelos) que se producen con mayor frecuencia cuando se utilizan dos ARN guía. Las líneas gruesas con sombreado diagonal indican el gen murino, las líneas de puntos indican deleciones en el gen murino y las líneas negras gruesas indican la inserción del gen humano. La Figura 2B muestra alelos colapsados homocigotos (gran deleción inducida por CRISPR). La Figura 2C muestra alelos dirigidos homocigotos. La Figura 2D muestra alelos dirigidos hemicigotos. La Figura 2E muestra alelos heterocigotos compuestos.

Las Figuras 3A y 3B muestran ensayos de PCR que confirman los genotipos de los clones seleccionados. La Figura 3A muestra los resultados de ensayos de PCR de largo alcance para clones de células ES seleccionados utilizando los iniciadores m-lr-f y m-5'-r, que establecen el enlace entre el inserto humano y las secuencias fuera de las homólogas al brazo de homología 5', demostrando así el direccionamiento correcto. La Figura 3B muestra resultados de los ensayos de PCR 5' Del J, 5' Ins J, Del A F y Del A E2. 5' Del J representa los productos de la PCR utilizando iniciadores m-5'-f y m-5-r, que amplifican la secuencia natural que rodea el sitio de escisión del ARNg A para establecer la retención o pérdida de esta secuencia. 5' Ins J representa los productos de la PCR que utilizan los iniciadores m-5'-f y h-5'-r, que establecen un enlace entre el inserto humano y el genoma murino. El ensayo resultará en un positivo tanto en los clones integrados dirigidos como en los aleatorios. Del A F representa el tamaño esperado del amplicón (359 pb) y las bandas reales para una gran deleción mediada por la escisión dual del ARNg A y F en los clones BO-F10 y AW-A8. Del A E2 representa la misma idea para el clon BA-A7. NT indica que no hay plantilla, /+ indica un control natural de células ES híbridas VGF1 parentales, H/+ indica un genotipo humanizado heterocigoto, H/A indica un genotipo humanizado hemicigoto, H/H indica un genotipo humanizado homocigoto y A/A indica un genotipo homocigoto eliminado.

Las Figura 4A-C muestran el análisis de hibridación in situ con sonda fluorescente (FISH) de los clones de células ES murinas AW-D9 (Figura 4A) y BA-D5 (Figura 4C), que fueron seleccionados con el LTVEC de humanización de Lrp5 combinado con Cas9 y dos ARNg, y el clon BS-C4 (Figura 4B), que fue dirigido solo con el LTVEC. Las flechas indican las posiciones de las señales de hibridación en la banda B del cromosoma 19. Una señal roja indica la hibridación solo con la sonda murina (flecha discontinua, Figura 4B). Una señal de color amarillo mixto indica la hibridación tanto con la sonda roja murina como con la sonda verde humana. Una banda B del cromosoma 19 que tiene una señal roja (flecha discontinua) y la otra banda B del cromosoma 19 que tiene una señal amarilla (flecha continua) confirmaron el direccionamiento al locus correcto y al genotipo heterocigoto para el clon BS-C4 (Figura 4B). Las bandas B de ambos cromosomas 19 que tenían una señal amarilla (flechas continuas, Figuras 4A y 4C) confirmaron el direccionamiento al locus correcto y a los genotipos homocigotos para los clones AW-D9 y BS-C4.

La Figura 5 muestra un esquema del cromosoma 19 con ensayos diseñados para examinar los eventos de conversión génica o recombinación mitótica mediados por dos ARN guía mediante el análisis de la pérdida de heterocigosidad (LOH) en las células ES híbridas VGF1. Las posiciones aproximadas de los ensayos de número de copias cromosómicas (CCN) TaqMan® qPCR se muestran con flechas. Las posiciones aproximadas de los ensayos de PCR del polimorfismo de la variante estructural (SV) se muestran mediante galones con sus distancias (en Mb) desde el locus Lrp5 indicadas anteriormente. Las posiciones aproximadas de los ensayos de discriminación alélica TaqMan® de la variante de un solo nucleótido (SNV) se muestran mediante puntas de flecha con sus distancias (en Mb) desde el locus Lrp5 que se indican a continuación. Las posiciones de los sitios de reconocimiento del ARNg para F, E2, D, B2 y A se muestran mediante flechas diagonales sobre la representación del gen Lrp5.

La Figura 6 muestra un esquema para la deleción simultánea de la región del exón 2 al codón de terminación del gen C5 (Hc) murino y su reemplazo por una versión C5 humana correspondiente usando un LTVEC y uno o dos ARNg de la región 5' (A,), la región media (C, D) y la región 3' (E, E2). El LTVEC se muestra en la porción superior de la figura, y el locus del gen C5 (He) murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los seis ARN guía se indican mediante las flechas debajo de la secuencia génica murina.

Las Figuras 7A y 7B muestran el análisis de hibridación in situ con sonda fluorescente (FISH) de los clones de células ES murinas Q-E9 (Figura 7A) y O-E3 (Figura 7B), que fueron seleccionados con el LTVEC de humanización con Hc combinado con Cas9 y dos ARNg. Las flechas indican las posiciones de las señales de hibridación en la banda B del cromosoma 2. Una señal roja indica la hibridación solo con la sonda murina (flecha discontinua, Figura 7A). Una señal amarilla de color mixto indica la hibridación tanto con la sonda roja murina como con la sonda verde humana (flecha continua). Una banda B del cromosoma 2 que tiene una señal roja (flecha discontinua) y la otra banda B del cromosoma 2 que tiene una señal amarilla (flecha continua) confirmaron el direccionamiento al locus correcto y al genotipo heterocigoto para el clon Q-E9 (Figura 7A). Las bandas B de ambos cromosomas 2 que tenían una señal amarilla (flechas continuas, Figura 7B) confirmaron el direccionamiento al locus correcto y al genotipo homocigoto para el clon O-E3.

La Figura 8 muestra un esquema para la deleción simultánea del gen Ror1 murino y su reemplazo por una versión de ROR1 humana correspondiente usando un LTVEC y uno o dos ARNg de la región 5' (A, B), la región media (D, C) y la región 3' (E, F). El LTVEC se muestra en la porción superior de la figura, y el locus del gen Ror1 murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los seis ARN guía se indican mediante las flechas debajo de la secuencia génica murina.

La Figura 9 muestra un esquema para la deleción simultánea del gen Trpa1 murino y su reemplazo por una versión de TRPA1 humana correspondiente usando un LTVEC y uno o dos ARNg de la región 5' (A, A2, B), la región media (C, D) y la región 3' (e2, E, F). El LTVEC se muestra en la porción superior de la figura, y el locus del gen Trpa1 murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los ocho ARN guía se indican mediante las flechas debajo de la secuencia génica murina.

Las Figuras 10A-E muestran los resultados de los ensayos de variación estructural (SV) de los clones BR-B4, BP-G7, BO-G11, BO-F10, B0-A8 y BC-H9, con ADN de VGF1 (F1H4), 129 y B6 utilizados como controles. Los ensayos se realizaron a las siguientes distancias teloméricas al locus Lrp5: 13,7 Mb (Figura 10A), 20,0 Mb (Figura 10B), 36,9 Mb (Figura 10C), 48,3 Mb (Figura 10D) y 56,7 Mb (Figura 10E). Las posiciones de los productos de PCR para los alelos B6 y 129 se muestran mediante las flechas.

Las Figuras 11A-C muestran representaciones de discriminación alélica para el centromérico de 0,32 Mb de Lrp5 (Figura 11A), el telomérico de 1,2 Mb de Lrp5 (Figura 11B) y el telomérico de 57,2 Mb de Lrp5 (Figura 11C). Los valores en cada eje representan la intensidad de fluorescencia relativa. Las representaciones muestran cuatro réplicas para cada muestra, que se muestran como puntos sólidos (alelo B6), puntos abiertos (alelo 129) y puntos con líneas diagonales (ambos alelos B6/129).

La Figura 12A-C es un esquema que muestra un posible mecanismo para la recombinación mitótica durante la fase G2 del ciclo celular que puede producir eventos homocigóticos y una conversión génica generalizada detectada por la pérdida de heterocigosidad. La Figura 12A muestra cromosomas homólogos replicados que muestran las dos cromátides en una célula ES 129/B6 híbrida heterocigota para una humanización dirigida en el homólogo 129. Las flechas de doble punta indican posibles rupturas de doble cadena generadas por la escisión dual de Cas9 dirigida por ARNg que promueve el intercambio recíproco mediante recombinación homóloga entre cromátides en cromosomas homólogos, que se muestra como un cruce en el lado centromérico del alelo diana, lo que resultar en las cromátides híbridas que se muestran en la Figura 12B. La Figura 12C muestra que después de la mitosis y la división celular, son posibles cuatro tipos de separación cromosómica en células hijas. Dos con retención de la heterocigosidad, un heterocigoto de tipo parental (Hum/+, arriba a la izquierda) y un heterocigoto de intercambio igualitario (Hum/+, arriba a la derecha), no pueden distinguirse mediante ensayos de LOH. Otros dos muestran pérdida de heterocigosidad, un homocigoto humanizado (Hum/Hum, p. ej., el clon BO-A8, abajo a la izquierda) con pérdida de los alelos B6 teloméricos y un homocigoto natural (+/+, abajo a la derecha) con pérdida de alelos 129 teloméricos. Este último tipo se perderá porque no retiene el casete de farmacorresistencia del alelo humanizado.

La Figura 13 muestra un esquema para la deleción simultánea de la región del exón 2 al codón de terminación del gen C5 (Hc) murino y su reemplazo por una versión C5 humana correspondiente usando un vector de direccionamiento con tamaños de brazo de homología de 35 kb y 31 kb (LTVEC) o un vector de direccionamiento con tamaños de brazo de homología de 5 kb cada uno (sTVEC) y una o dos regiones 5' (A, B), región media (C, D) y ARNg de la región 3' (E, E2). Los dos vectores de direccionamiento se muestran en la porción superior de la figura, y el locus del gen C5 (Hc) murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los seis ARN guía se indican mediante flechas verticales debajo de la secuencia génica murina, y los iniciadores utilizados para el cribado se indican mediante flechas horizontales. Las posiciones de los ensayos de ganancia de alelo (GOA) que cuantifican el número de copias del inserto y los ensayos de pérdida de alelo (LOA) que cuantifican la secuencia murina diana de la deleción se indican mediante los triángulos.

La Figura 14 muestra un esquema para la deleción simultánea de los cinco primeros exones del gen Cmah murino y su sustitución por un reportero lacZ y un casete de selección de resistencia a la higromicina utilizando un LTVEC y dos ARNg de la región 5' (A, B). El LTVEC se muestra en la porción superior de la figura, y el locus del gen Cmah murino se muestra en la porción inferior de la figura. Las posiciones de los sitios de escisión de Cas9 guiados por los dos ARN guía se indican mediante las flechas verticales situadas debajo de la secuencia génica murina, y las posiciones de los ensayos de GOA que cuantifican el número de copias del inserto y de los ensayos de LOA que cuantifican la secuencia murina diana de la deleción se indican mediante triángulos.

La Figura 15 muestra un esquema de los eventos de escisión y del producto de escisión producido (Id. de sec. n.°: 112) cuando el locus del gen Cmah murino (Id. de sec. n.°: 109) se dirige a dos ARNg de la región 5' (A y B); Las Id. de sec. n.°: 107 y 108, respectivamente). Las secuencias de ARNg hibridadas con el locus del gen Cmah están en negrita, las proteínas Cas9 están representadas por los óvalos moteados, los sitios de escisión de Cas9 se indican con flechas verticales y los motivos adyacentes de protoespaciador (PAM) están encerrados en recuadros. Las posiciones aproximadas del iniciador directo, la sonda y el iniciador inverso del ensayo TaqMan® LOA se indican mediante las barras horizontales y las flechas en la parte superior de la figura. Los fragmentos 5' y 3' producidos después de la escisión y la escisión son las Id. de sec. n.°: 110 y 111, respectivamente.

Las Figuras 16A-E muestran los posibles mecanismos que explican los resultados observados, incluida la pérdida de heterocigosidad (LOH), en experimentos de humanización asistidos por CRISPR/Cas9 en células ES murinas híbridas F1 que tienen un complemento cromosómico haploide derivado de la cepa murina 129S6/SvEvTac y un complemento cromosómico haploide derivado de la cepa murina C57BL/6NTac (B6). La Figura 16A muestra el intercambio recíproco de cromátides por cruzamiento mitótico en el que se produce una modificación heterocigótica en el cromosoma 129 antes de la replicación del genoma o después de la replicación del genoma seguida de la conversión génica entre cromátides hermanas. La Figura 16B muestra el intercambio recíproco de cromátides por cruzamiento mitótico en el que una única cromátide 129 se modifica después de la replicación del genoma. La Figura 16C muestra el intercambio recíproco de cromátides por cruzamiento mitótico en el que no se ha producido ningún direccionamiento LTVEC, pero se ha producido la escisión de Cas9 en el cromosoma 129 o B6 (se muestra la escisión B6). La Figura 16D muestra la copia de cromátides mediante replicación inducida por ruptura en la que se produce una modificación heterocigótica en el cromosoma 129 antes de la replicación del genoma o después de la replicación del genoma seguida de la conversión génica entre cromátides hermanas. La Figura 16E muestra la copia de cromátides mediante replicación inducida por ruptura en la que una única cromátide 129 se modifica después de la replicación del genoma. La Figura 16F muestra la copia de cromátides mediante replicación inducida por ruptura en la que no se ha producido ningún direccionamiento LTVEC, pero se ha producido la escisión de Cas9 en el cromosoma 129 o B6 (se muestra la escisión B6).

Las Figuras 17A-C muestran estrategias de cribado para modificaciones dirigidas. La Figura 17A muestra una modificación estándar de la estrategia de cribado de alelos (MOA) para detectar el direccionamiento heterocigótico mediante un vector de direccionamiento grande (LTVEC) en el que una secuencia endógena en un cromosoma de ratón se elimina y se reemplaza por un inserto Neo-SDC. La estrategia usa las sondas TaqMan® mTU y mTD contra las regiones corriente arriba y corriente abajo de la secuencia endógena diana de la deleción. La Figura 17B muestra el uso de ensayos de retención TaqMan® (sondas retU y retD) junto con ensayos de modificación de alelos (MOA) (ensayos de pérdida de alelos (LOA) con sondas mTGU, mTM y mTGD, y ensayos de ganancia de alelos (GOA) con sondas hTU y hTD) para detectar la humanización asistida por CRISPR/Cas9. La Figura 17C muestra el uso de ensayos de retención TaqMan® (sondas retU y retD) junto con ensayos de pérdida de alelos (LOA) (sondas mTGU, mTM y mTGD)) para detectar deleciones asistidas por CRISPR/Cas9 utilizando ARN guía emparejados (gU y gD).

La Figura 18 muestra esquemas (no a escala) de una región de aproximadamente 900 kb de un locus de cadena pesada de inmunoglobulina murina con segmentos génicos de región variable reemplazados por homólogos humanos (triángulos) y un vector de direccionamiento con un inserto Pgk-Neo (promotor de fosfoglicerato quinasa I unido operativamente al gen de la neomicina fosfotransferasa) flanqueado por sitios loxP. Se usan dos ARNg para escindir el locus de cadena pesada de la inmunoglobulina murina en el extremo 5' y dos ARNg para escindir el locus en el extremo 3', y el vector de direccionamiento elimina y reemplaza el locus de cadena pesada de la inmunoglobulina murina por el inserto Pgk-Neo. Las posiciones de los sitios de escisión de Cas9 guiados por los cuatro ARN guía se indican mediante las flechas verticales por debajo del locus diana. Las líneas horizontales rodeadas representan las sondas TaqMan® para ensayos de modificación de alelos (MOA) (hIgH31, hIgH1, mIgHA1, mIgHA7 e hIgH9) y ensayos de retención (brazo 15' lgH, brazo 25' lgH, mIgM-398 y mIgM-1045).

Definiciones

Los términos “ proteína” , “ polipéptido” y “ péptido” , usados indistintamente en la presente memoria, incluyen formas poliméricas de aminoácidos de cualquier longitud, lo que incluye aminoácidos codificados y no codificados y aminoácidos modificados o derivatizados química o bioquímicamente. Los términos también incluyen polímeros que se han modificado, tales como polipéptidos que tienen estructuras peptídicas modificadas.

Los términos “ ácido nucleico” y “ polinucleótido” , usados indistintamente en la presente memoria, incluyen formas poliméricas de nucleótidos de cualquier longitud, lo que incluye ribonucleótidos, desoxirribonucleótidos o análogos o versiones modificadas de los mismos. Incluyen ADN o ARN monocatenario, bicatenario y multicatenario, ADN genómico, ADNc, híbridos de ADN-ARN y polímeros que comprenden bases de purina, bases de pirimidina u otras bases nucleotídicas naturales, químicamente modificadas, bioquímicamente modificadas, no naturales o derivatizadas.

La “ optimización de codones” incluye generalmente un proceso de modificación de una secuencia de ácido nucleico para potenciar la expresión en células huésped particulares mediante el reemplazo de al menos un codón de la secuencia nativa con un codón que se usa más frecuentemente o con mayor frecuencia en los genes de la célula huésped a la vez que se mantiene la secuencia de aminoácidos nativa. Por ejemplo, un ácido nucleico que codifica una proteína Cas puede modificarse para sustituir codones que tienen una frecuencia de uso superior en una célula procariota o eucariota determinada, lo que incluye una célula bacteriana, una célula de levadura, una célula humana, una célula no humana, una célula de mamífero, una célula de roedor, una célula de ratón, una célula de rata, una célula de hámster o cualquier otra célula huésped, en comparación con la secuencia de ácido nucleico de origen natural. Existen tablas de uso de codones fácilmente disponibles, por ejemplo, en la “ Base de datos de uso de codones” . Estas tablas se pueden adaptar de cierto número de maneras. Véase Nakamura y col. (2000) Nucleic Acids Research 28:292. También están disponibles algoritmos informáticos para la optimización de codones de una secuencia en particular para la expresión en un huésped particular (véase, p. ej., Gene Forge).

El “ enlace operativo” o estar “ unido operativamente” incluye la yuxtaposición de dos o más componentes (p. ej., un promotor y otro elemento de secuencia) de tal modo que ambos componentes funcionen normalmente y permitan la posibilidad de que al menos uno de los componentes pueda mediar en una función que se ejerce sobre al menos uno de los otros componentes. Por ejemplo, un promotor puede estar unido operativamente a una secuencia codificante si el promotor controla el nivel de transcripción de la secuencia codificante en respuesta a la presencia o ausencia de uno o más factores reguladores de la transcripción.

“ Complementariedad” de ácidos nucleicos significa que una secuencia de nucleótidos en una cadena de ácido nucleico, debido a la orientación de sus grupos de nucleobase, forma enlaces de hidrógeno con otra secuencia en una cadena de ácido nucleico opuesta. Las bases complementarias en el ADN son típicamente A con T y C con G. En el ARN, son típicamente C con G y U con A. La complementariedad puede ser perfecta o sustancial/suficiente. La complementariedad perfecta entre dos ácidos nucleicos significa que los dos ácidos nucleicos pueden formar un dúplex en el que cada base del dúplex se une a una base complementaria mediante el emparejamiento de Watson-Crick. Complementario “ sustancial” o “ suficiente” significa que una secuencia en una cadena no es completa y/o perfectamente complementaria a una secuencia en una cadena opuesta, pero que se produce un enlace suficiente entre las bases de las dos cadenas para formar un complejo híbrido estable en un conjunto de condiciones de hibridación (por ejemplo, concentración de sal y temperatura). Tales condiciones pueden predecirse mediante el uso de las secuencias y los cálculos matemáticos estándar para predecir la Tm (temperatura de fusión) de las cadenas hibridadas, o mediante la determinación empírica de la Tm mediante el uso de métodos de rutina. La Tm incluye la temperatura a la que una población de complejos de hibridación formados entre dos cadenas de ácido nucleico se desnaturaliza al 50 %. A una temperatura por debajo de la Tm, se favorece la formación de un complejo de hibridación, mientras que a una temperatura por encima de la Tm, se favorece la fusión o separación de las cadenas en el complejo de hibridación. La Tm puede estimarse para un ácido nucleico que tiene un contenido conocido de G+C en una solución acuosa de NaCl 1 M mediante el uso, p. ej., de Tm=81,5+0,41 (% G+C), aunque otros cálculos de Tm conocidos tienen en cuenta las características estructurales del ácido nucleico.

La “condición de hibridación” incluye el entorno acumulativo en el que una cadena de ácido nucleico se une a una segunda cadena de ácido nucleico mediante interacciones de cadenas complementarias y enlaces de hidrógeno para producir un complejo de hibridación. Tales condiciones incluyen los componentes químicos y sus concentraciones (p. ej., sales, agentes quelantes, formamida) de una solución acuosa u orgánica que contiene los ácidos nucleicos, y la temperatura de la mezcla. Otros factores, tales como la duración del tiempo de incubación o las dimensiones de la cámara de reacción, pueden contribuir al ambiente. Véase, p. ej., Sambrook y col., Molecular Cloning, A Laboratory Manual, 2.sup.nd ed., págs. 1.90 1.91, 9.47-9.51, 11.47-11.57 (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1989).

La hibridación requiere que los dos ácidos nucleicos contengan secuencias complementarias, aunque son posibles errores de apareamiento entre las bases. Las condiciones apropiadas para la hibridación entre dos ácidos nucleicos dependen de la longitud de los ácidos nucleicos y del grado de complementación, variables bien conocidas en la técnica. Cuanto mayor sea el grado de complementación entre dos secuencias de nucleótidos, mayor será el valor de la temperatura de fusión (Tm) para los híbridos de ácidos nucleicos que tienen esas secuencias. Para las hibridaciones entre ácidos nucleicos con tramos cortos de complementariedad (p. ej., complementariedad de más de 35 o menos, 30 o menos, 25 o menos, 22 o menos, 20 o menos, o 18 o menos nucleótidos), la posición de los errores de apareamiento se vuelve importante (véase Sambrook y col., más arriba, 11.7-11.8). Típicamente, la longitud de un ácido nucleico hibridable es de al menos aproximadamente 10 nucleótidos. Longitudes mínimas ilustrativas para un ácido nucleico hibridable incluyen al menos aproximadamente 15 nucleótidos, al menos aproximadamente 20 nucleótidos, al menos aproximadamente 22 nucleótidos, al menos aproximadamente 25 nucleótidos y al menos aproximadamente 30 nucleótidos. Además, la temperatura y la concentración de sal de la solución de lavado pueden ajustarse según sea necesario según factores tales como la longitud de la región de complementación y el grado de complementación.

La secuencia del polinucleótido no necesita ser 100%complementaria a la de su ácido nucleico diana para ser específicamente hibridable. Además, un polinucleótido puede hibridar sobre uno o más segmentos de tal modo que los segmentos intermedios o adyacentes no estén implicados en el evento de hibridación (por ejemplo, una estructura de bucle o una estructura de horquilla). Un polinucleótido (por ejemplo, ARNg) puede comprender al menos un 70 %, al menos un 80 %, al menos un 90 %, al menos un 95 %, al menos un 99 % o un 100 % de complementariedad de secuencia con una región diana dentro de la secuencia de ácido nucleico diana a la que se direccionan. Por ejemplo, un ARNg en el que 18 de 20 nucleótidos son complementarios a una región diana y, por lo tanto, se hibridarían específicamente, representaría un 90 % de complementariedad. En este ejemplo, los nucleótidos no complementarios restantes pueden agruparse o intercalarse con nucleótidos complementarios y no es necesario que sean contiguos entre sí o con nucleótidos complementarios.

El porcentaje de complementariedad entre tramos particulares de secuencias de ácidos nucleicos dentro de los ácidos nucleicos se puede determinar de forma rutinaria usando los programas BLAST (herramientas básicas de búsqueda de alineamiento local) y los programas PowerBlast conocidos en la técnica (Altschul y col. (1990) J. Mol. Biol.215:403-410; Zhang y Madden (1997) Genome Res. 7:649-656) o mediante el programa Gap (Wisconsin Sequence Analysis Package, versión 8 para Unix, Genetics Computer Group, University Research Park, Madison, Wisconsin), utilizando la configuración predeterminada, que utiliza el algoritmo de Smith y Waterman (Adv. Appl. Math., 1981,2, 482-489).

Los métodos proporcionados en la presente memoria emplean una variedad de diferentes componentes. Se reconoce a lo largo de la descripción que algunos componentes pueden tener variantes y fragmentos activos. Tales componentes incluyen, por ejemplo, proteínas Cas, ARN CRISPR, ARNtracr y ARN guía. La actividad biológica de cada uno de estos componentes se describe en cualquier otro sitio de la presente memoria.

“ Identidad de secuencia” o “ identidad” en el contexto de dos polinucleótidos o secuencias polipeptídicas hace referencia a los residuos en las dos secuencias que son iguales cuando se alinean para una máxima correspondencia en una ventana de comparación especificada. Cuando se usa el porcentaje de identidad de secuencia en referencia a las proteínas, se reconoce que las posiciones de los residuos que no son idénticas frecuentemente difieren por sustituciones conservadoras de aminoácidos, donde los residuos de aminoácidos se sustituyen por otros residuos de aminoácidos con propiedades químicas similares (p. ej., carga o hidrofobicidad) y, por lo tanto, no cambia las propiedades funcionales de la molécula. Cuando las secuencias difieren en sustituciones conservadoras, el por ciento de identidad de secuencia puede ajustarse al alza para corregir la naturaleza conservadora de la sustitución. Se dice que las secuencias que difieren por dichas sustituciones conservadoras tienen “ similitud de secuencia” o “ similitud” . Los medios para realizar este ajuste son bien conocidos para los expertos en la técnica. Típicamente, esto implica calificar una sustitución conservadora como un error de coincidencia parcial en lugar de total, lo que aumenta de este modo el porcentaje de identidad de secuencia. De esta forma, por ejemplo, cuando un aminoácido idéntico recibe una puntuación de 1 y una sustitución no conservadora recibe una puntuación de cero, una sustitución conservadora recibe una puntuación entre cero y 1. La calificación de las sustituciones conservadoras se calcula, por ejemplo, como se implementa en el programa PC/GENE (Intelligenetics, Mountain View, California).

El “ porcentaje de identidad de secuencia” incluye el valor determinado mediante la comparación de dos secuencias alineadas de forma óptima en una ventana de comparación, en donde la porción de la secuencia de polinucleótidos en la ventana de comparación puede comprender adiciones o deleciones (es decir, huecos) en comparación con la secuencia de referencia (que no comprende adiciones o deleciones) para un alineamiento óptimo de las dos secuencias. El porcentaje se calcula al determinar el número de posiciones en las que aparecen residuos de aminoácidos o bases de ácidos nucleicos idénticas en ambas secuencias para producir el número de posiciones coincidentes, dividir el número de posiciones coincidentes por el número total de posiciones en la ventana de comparación, y multiplicar el resultado por 100 para producir el porcentaje de identidad de secuencia.

Salvo que se indique lo contrario, los valores de identidad/similitud de secuencia incluyen el valor obtenido usando GAP versión 10 usando los siguientes parámetros: % de identidad y % de similitud para una secuencia de nucleótidos usando un peso GAP de 50 y un peso de longitud de 3, y la matriz de puntuación nwsgapdna.cmp; % de identidad y % de similitud para una secuencia de aminoácidos usando un peso g Ap de 8 y un peso de longitud de 2, y la matriz de puntuación BLOSUM62; o cualquier programa equivalente de los mismos. “ Programa equivalente” incluye cualquier programa de comparación de secuencias que, para cualquiera de dos secuencias en cuestión, genera un alineamiento que tiene coincidencias idénticas de residuos de aminoácidos o nucleótidos y un por ciento de identidad de secuencia idéntico en comparación con el alineamiento correspondiente generado mediante la versión 10 de GAP.

El término “ in vitro” incluye ambientes artificiales y procesos o reacciones que se producen dentro de un ambiente artificial (p. ej., un tubo de ensayo). El término “ in vivo” incluye ambientes naturales (p. ej., una célula u organismo o cuerpo) y los procesos o reacciones que se producen dentro de un ambiente natural. El término “ ex vivo” incluye células que se han extraído del cuerpo de un individuo y procesos o reacciones que se producen dentro de tales células.

Las composiciones o métodos “ que comprenden” o “ que incluyen” uno o más elementos enumerados pueden incluir otros elementos no enumerados específicamente. Por ejemplo, una composición que “ comprende” o “ incluye” una proteína puede contener la proteína sola o en combinación con otros ingredientes.

La designación de un intervalo de valores incluye todos los números enteros dentro o que definen el intervalo, y todos los subintervalos definidos por números enteros dentro del intervalo.

A menos que sea evidente de otra manera por el contexto, el término “ aproximadamente” abarca valores dentro de un margen estándar de error de medición (por ejemplo, SEM) de un valor indicado.

Las formas singulares de los artículos “ un” , “ una” y “ el/la” incluye referencias en plural a menos que el contexto lo indique claramente de cualquier otra manera. Por ejemplo, el término “ una proteína Cas” o “ al menos una proteína Cas” puede incluir una pluralidad de proteínas Cas, lo que incluye las mezclas de las mismas.

Descripción detallada

I. Visión general

La presente invención se refiere a las realizaciones caracterizadas en las reivindicaciones. Se proporcionan métodos in vitro para modificar un genoma dentro de una célula de mamífero. Los métodos emplean sistemas CRISPR/Cas que utilizan dos ARN guía (ARNg) dirigidos a diferentes sitios dentro de un único locus diana genómico. Por ejemplo, los métodos pueden emplear sistemas CRISPR/Cas utilizando los dos ARN guía (ARNg) para crear rupturas de doble cadena emparejadas en diferentes sitios dentro de un único locus diana genómico. En los métodos, se usan dos o más ARN guía (p. ej., tres o cuatro), p. ej., para crear dos o más rupturas de doble cadena en diferentes sitios dentro de un único locus diana genómico.

Algunos métodos promueven modificaciones genéticas bialélicas y comprenden el colapso del genoma, donde se elimina una gran secuencia de ácidos nucleicos de un cromosoma entre dos sitios de escisión. Otros métodos promueven modificaciones genéticas bialélicas y comprenden la deleción simultánea de una secuencia de ácido nucleico dentro de la célula y la sustitución por una secuencia de ácido nucleico exógena. Como se describe con más detalle a continuación, estos métodos que utilizan dos ARNg aumentan la eficiencia de la generación células o animales con modificaciones genéticas dirigidas bialélicas al promover la generación de tales células y animales en una sola etapa de direccionamiento. Por consiguiente, se reduce el número de animales y camadas necesarios para generar un animal con una modificación genética dirigida bialélica.

Otros métodos comprenden la conversión génica o la pérdida de heterocigosidad, donde un genoma que es heterocigoto para un alelo se modifica para convertirse en homocigoto para el alelo mediante escisión en sitios determinados por dos ARNg en el alelo correspondiente en un cromosoma homólogo correspondiente. Como se describe con más detalle a continuación, el uso de dos ARNg en estos métodos aumenta la frecuencia de conversión génica y permite la conversión génica en grandes extensiones de ADN cromosómico.

II. Sistemas CRISPR/Cas

Los métodos expuestos en la presente memoria utilizan sistemas de repeticiones palindrómicas cortas agrupadas y regularmente intercaladas (CRISPR) /asociadas a CRISPR (Cas) o componentes de tales sistemas para modificar un genoma dentro de una célula. Los sistemas CRISPR/Cas incluyen transcripciones y otros elementos involucrados en la expresión o dirección de la actividad de los genes Cas. Un sistema CRISPR/Cas puede ser un sistema de tipo I, de tipo II o de tipo III. Los métodos expuestos en la presente memoria emplean sistemas CRISPR/Cas utilizando complejos CRISPR (que comprenden un ARN guía (ARNg) complejado con una proteína Cas) para la escisión dirigida a sitio de ácidos nucleicos.

Algunos sistemas CRISPR/Cas utilizados en los métodos expuestos en la presente memoria no son de origen natural. Un sistema de “ origen no natural” incluye cualquier cosa que indique la participación de la mano del hombre, tal como uno o más componentes del sistema alterados o mutados de su estado de origen natural, estando al menos sustancialmente libre de al menos otro componente con los que están naturalmente asociados en la naturaleza, o están asociados con al menos otro componente con el que no están naturalmente asociados. Por ejemplo, algunos sistemas CRISPR/Cas emplean complejos CRISPR de origen no natural que comprenden un ARNg y una proteína Cas que no se producen juntos de forma natural.

A. Endonucleasas guiadas por ARN Cas

Las proteínas Cas generalmente comprenden al menos un dominio de reconocimiento o unión de ARN. Tales dominios pueden interactuar con los ARN guía (ARNg, que se describen en mayor detalle a continuación). Las proteínas Cas también pueden comprender dominios de nucleasa (p. ej., dominios de ADNasa o ARNasa), dominios de unión a ADN, dominios de helicasa, dominios de interacción proteína-proteína, dominios de dimerización y otros dominios. Un dominio de nucleasa posee actividad catalítica para la escisión de ácidos nucleicos. La escisión incluye la ruptura de los enlaces covalentes de una molécula de ácido nucleico. La escisión puede producir extremos romos o extremos escalonados, y puede ser de cadena única o de doble cadena.

Los ejemplos de proteínas Cas incluyen Casi, CaslB, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 o Csx12), Cas10, Cas10d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4 y Cu1966, y homólogos o versiones modificadas de los mismos.

Según la invención, una proteína Cas es de un sistema CRISPR/Cas de tipo II y la proteína Cas es una proteína Cas9. Las proteínas Cas9 típicamente comparten cuatro motivos clave con una arquitectura conservada. Los motivos 1, 2 y 4 son motivos similares a RuvC y el motivo 3 es un motivo HNH. La proteína Cas9 puede ser, por ejemplo, de Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, AlicyclobacHlus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldia magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus o Acaryochloris marina. Ejemplos adicionales de miembros de la familia Cas9 incluyen los descritos en la patente WO 2014/131833. En un ejemplo específico, la proteína Cas9 es una proteína Cas9 de S. pyogenes o se deriva de la misma. La secuencia de aminoácidos de una proteína Cas9 de S. pyogenes se pueden encontrar, por ejemplo, en la base de datos SwissProt con el número de registro Q99ZW2.

Las proteínas Cas pueden ser proteínas de tipo natural (es decir, las que se producen en la naturaleza), proteínas Cas modificadas (es decir, variantes de proteína Cas) o fragmentos de proteínas Cas de tipo natural o modificadas. Las proteínas Cas también pueden ser variantes o fragmentos activos de las proteínas Cas de tipo natural o modificadas. Las variantes o fragmentos activos pueden comprender al menos un 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o más de identidad de secuencia con la proteína Cas de tipo natural o modificada o una porción de la misma, en donde las variantes activas conservan la capacidad de cortar en un sitio de escisión deseado y por lo tanto conservan la actividad inductora de mella o inductora de ruptura de doble cadena. Se conocen ensayos para la actividad inductora de mella o inductora de ruptura de doble cadena y, en general, miden la actividad global y la especificidad de la proteína Cas sobre sustratos de ADN que contienen el sitio de escisión.

Las proteínas Cas pueden estar modificadas para aumentar o disminuir la afinidad de unión de ácidos nucleicos, la especificidad de unión de ácidos nucleicos y/o la actividad enzimática. Las proteínas Cas también pueden estar modificadas para cambiar cualquier otra actividad o propiedad de la proteína, tal como la estabilidad. Por ejemplo, uno o más dominios de nucleasa de la proteína Cas pueden modificarse, eliminarse o inactivarse, o una proteína Cas puede truncarse para eliminar dominios que no son esenciales para la función de la proteína o para optimizar (p. ej., mejorar o reducir) la actividad de la proteína Cas.

Algunas proteínas Cas comprenden al menos dos dominios de nucleasa, tal como los dominios de DNasa. Por ejemplo, una proteína Cas9 puede comprender un dominio de nucleasa de tipo RuvC y un dominio de nucleasa de tipo HNH. Cada uno de los dominios RuvC y HNH puede cortar una cadena diferente de ADN de doble cadena para hacer una ruptura de doble cadena en el ADN. Véase, p. ej., Jinek y col. (2012) Science 337:816-821.

Uno o ambos dominios de nucleasa pueden eliminarse o mutarse para que ya no sean funcionales o tengan una actividad nucleasa reducida. Si uno de los dominios de nucleasa se elimina o se muta, la proteína Cas resultante (p. ej., Cas9) puede denominarse nickasa y puede generar una ruptura monocatenaria en una secuencia de reconocimiento de ARN c RiSPR dentro de un ADN bicatenario, pero no una ruptura de doble cadena (es decir, puede escindir la cadena complementaria o la no complementaria, pero no ambas). Si ambos dominios de nucleasa se eliminan o se mutan, la proteína Cas resultante (p. ej., Cas9) tendrá una capacidad reducida para escindir ambas cadenas de un ADN bicatenario. Un ejemplo de una mutación que convierte Cas9 en una nickasa es una mutación D10A (aspartato a alanina en la posición 10 de Cas9) en el dominio RuvC de Cas9 de S. pyogenes. Asimismo, H939A (histidina a alanina en la posición de aminoácido 839) o H840A (histidina a alanina en la posición de aminoácido 840) en el dominio HNH de Cas9 de S. pyogenes puede convertir la Cas9 en una nickasa. Otros ejemplos de mutaciones que convierten a Cas9 en una nickasa incluyen las mutaciones correspondientes a Cas9 de S. thermophilus.Véase, p. ej., Sapranauskas y col. (2011) Nucleic Acids Research 39:9275-9282 y la patente WO 2013/141680. Tales mutaciones pueden generarse mediante el uso de métodos bien conocidos, tales como la mutagénesis dirigida al sitio, la mutagénesis mediada por PCR o la síntesis total de genes. Pueden encontrarse ejemplos de otras mutaciones que crean nickasas, por ejemplo, en las patentes WO/2013/176772A1 y WO/2013/142578A1.

Las proteínas Cas también pueden ser proteínas de fusión. Por ejemplo, una proteína Cas se puede fusionar con un dominio de escisión, un dominio de modificación epigenética, un dominio de activación transcripcional o un dominio represor transcripcional. Véase la patente WO 2014/089290. Las proteínas Cas también pueden fusionarse con un polipéptido heterólogo proporcionando una mayor o menor estabilidad. El dominio fusionado o polipéptido heterólogo puede ubicarse en el extremo N-terminal, el extremo C-terminal o internamente dentro de la proteína Cas.

Un ejemplo de una proteína de fusión Cas es una proteína Cas fusionada con un polipéptido heterólogo que proporciona la localización subcelular. Tales secuencias pueden incluir, por ejemplo, una señal de localización nuclear (NLS) tal como la SV40 NLS para dirigirse al núcleo, una señal de localización mitocondrial para dirigirse a las mitocondrias, una señal de retención de ER, y similares. Véase, p. ej., Lange y col. (2007) J. Biol. Chem. 282:5101-5105. Por ejemplo, las proteínas Cas pueden estar fusionadas con una o más señales de localización nuclear (p. ej., dos o tres señales de localización nuclear). Tales señales de localización subcelular pueden localizarse en el extremo N-terminal, el extremo C-terminal o en cualquier lugar dentro de la proteína Cas. Una NLS puede comprender un tramo de aminoácidos básicos y puede ser una secuencia monopartita o una secuencia bipartita.

Las proteínas Cas también pueden comprender un dominio de penetración celular. Por ejemplo, el dominio de penetración celular puede derivar de la proteína TAT del VIH-1, el motivo de penetración celular TLM del virus de la hepatitis B humana, MPG, Pep-1, VP22, un péptido de penetración celular del virus Herpes simplex o un secuencia peptídica de poliarginina. Véase, por ejemplo, la patente WO 2014/089290. El dominio de penetración celular puede localizarse en el extremo N-terminal, el extremo C-terminal o en cualquier lugar dentro de la proteína Cas.

Las proteínas Cas también pueden comprender un polipéptido heterólogo para facilitar el seguimiento o la purificación, tal como una proteína fluorescente, una etiqueta de purificación o una etiqueta de epítopo. Los ejemplos de proteínas fluorescentes incluyen proteínas fluorescentes verdes (p. ej., GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), proteínas fluorescentes amarillas (p. ej., YFP, eYFP, Citrine, Venus, YPet, PhiYFP, ZsYellowl), proteínas fluorescentes azules (p. ej., eBFP, eBFP2, azurita, mKalamal, GFPuv, Sapphire, T-sapphire), proteínas fluorescentes cian (p. ej., eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), proteínas fluorescentes rojas (mKate, mKate2, mPlum, monómero DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monómero, HcRed-Tándem, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred), proteínas fluorescentes naranjas (mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato) y cualquier otra proteína fluorescente adecuada. Los ejemplos de etiquetas incluyen glutatión-S-transferasa (GST), proteína de unión a quitina (CBP), proteína de unión a la maltosa, tiorredoxina (TRX), poli(NANP), etiqueta de purificación por afinidad en tándem (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, hemaglutinina (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, histidina (His), proteína portadora de biotina carboxilo (BCCP) y calmodulina.

Las proteínas Cas se pueden proporcionar en cualquier forma. Por ejemplo, se puede proporcionar una proteína Cas en forma de una proteína, tal como una proteína Cas complejada con un ARNg. Alternativamente, se puede proporcionar una proteína Cas en forma de un ácido nucleico que codifica la proteína Cas, tal como un ARN (p. ej., ARN mensajero (ARNm)) o ADN. Opcionalmente, el ácido nucleico que codifica la proteína Cas puede tener codones optimizados para una traducción eficiente en proteína en una célula u organismo particular. Por ejemplo, el ácido nucleico que codifica la proteína Cas puede modificarse para sustituir codones que tienen una frecuencia de uso superior en una célula bacteriana, una célula de levadura, una célula humana, una célula no humana, una célula de mamífero, una célula de roedor, una célula de ratón, una célula de rata o cualquier otra célula huésped de interés, en comparación con la secuencia de polinucleótido de origen natural. Cuando un ácido nucleico que codifica la proteína Cas se introduce en la célula, la proteína Cas puede expresarse de forma transitoria, condicional o constitutiva en la célula.

Los ácidos nucleicos que codifican las proteínas Cas pueden estar integrados de manera estable en el genoma de la célula y estar unidos operativamente a un promotor activo en la célula. Alternativamente, los ácidos nucleicos que codifican las proteínas Cas pueden estar unidas operativamente a un promotor en un constructo de expresión. Los constructos de expresión incluyen cualquier constructo de ácido nucleico capaz de dirigir la expresión de un gen u otra secuencia de ácido nucleico de interés (p. ej., un gen Cas) y que puede transferir tal secuencia de ácido nucleico de interés a una célula diana. Por ejemplo, el ácido nucleico que codifica la proteína Cas puede estar en un vector de direccionamiento que comprende un inserto de ácido nucleico y/o un vector que comprende un ADN que codifica un ARNg. Alternativamente, puede estar en un vector o plásmido que está separado del vector de direccionamiento que comprende el inserto de ácido nucleico y/o separado del vector que comprende el ADN que codifica el ARNg. Los promotores que pueden usarse en un constructo de expresión incluyen, por ejemplo, promotores activos en una célula pluripotente de rata, eucariota, mamífero, mamífero no humano, humano, roedor, ratón o hámster. También se pueden usar promotores activos en un embrión en estadio unicelular. Tales promotores pueden ser, por ejemplo, promotores condicionales, promotores inducibles, promotores constitutivos o promotores específicos de tejido. Los ejemplos de promotores se describen en cualquier otro sitio de la presente memoria.

B. ARN guía (ARNg)

Un “ARN guía” o “ARNg” incluye una molécula de ARN que se une a una proteína Cas y dirige la proteína Cas a una ubicación específica dentro de un ADN diana. Los ARN guía pueden comprender dos segmentos: un “ segmento de direccionamiento de ADN” y un “ segmento de unión a proteínas” . “ Segmento” incluye un segmento, sección o región de una molécula, tal como un tramo contiguo de nucleótidos en un ARN. Algunos ARNg comprenden dos moléculas de ARN separadas: un “ARN activador” y un “ARN direccionador” . Otros ARNg son una sola molécula de ARN (ARN único polinucleótido), que también puede denominarse “ARNg de molécula única” , “ARN guía único” o “ARNgu” . Véanse, p. ej., las patentes WO/2013/176772A1, WO/2014/065596A1, WO/2014/089290A1, WO/2014/093622A2, WO/2014/099750 A2, WO/2013142578A1 y WO 2014/131833A1. Los términos “ARN guía” y “ARNg” son inclusivos, e incluyen tanto los ARNg de doble molécula como los ARNg de una sola molécula.

Un ARNg de dos moléculas ilustrativas comprende una molécula similar a ARNcr (“ARN CRISPR” o “ARN direccionador” o “ARNcr” o “ repetición de ARNcr” ) y una correspondiente molécula similar a ARNtracr (“ARN CRISPR transactivador” o “ARN activador” o “ARNtracr” o “ estructura base” ). Un ARNcr comprende tanto el segmento de direccionamiento de ADN (monocatenario) del ARNg como un tramo de nucleótidos que forma una mitad del dúplex de ARNbc del segmento de unión a proteínas del ARNg.

Un ARNtracr (ARN activador) correspondiente comprende un tramo de nucleótidos que forma la otra mitad del dúplex de ARNds del segmento de unión a proteínas del ARNg. Un tramo de nucleótidos de un ARNcr son complementarios y se hibridan con un tramo de nucleótidos de un ARNtracr para formar el dúplex de ARNds del dominio de unión a proteínas del ARNg. Como tal, puede decirse que cada ARNcr tiene un ARNtracr correspondiente. Los ARNtracr pueden estar en cualquier forma (por ejemplo, ARNtracr completos o ARNtracr parciales activos) y ser de diferentes longitudes. Las formas de ARNtracr pueden incluir transcritos primarios o formularios procesados. Por ejemplo, en S. pyogenes, las diferentes formas de ARNtracr incluyen versiones de 171 nucleótidos, 89 nucleótidos, 75 nucleótidos y 65 nucleótidos. Véase, por ejemplo, Deltcheva y col. (2011) Nature 471:602-607 y WO 2014/093661.

El ARNcr y el ARNtracr correspondiente se hibridan para formar un ARNg. El ARNcr proporciona además el segmento de direccionamiento de ADN monocatenario que se hibrida con una secuencia de reconocimiento de ARN CRISPR. Si se usa para la modificación dentro de una célula, la secuencia exacta de una molécula de ARNcr o ARNtracr determinada puede diseñarse para que sea específica de la especie en la que se usarán las moléculas de ARN. Véase, por ejemplo, Mali y col. (2013) Science 339:823-826; Jinek y col. (2012) Science 337:816-821; Hwang y col. (2013) Nat. Biotechnol. 31:227-229; Jiang y col. (2013) Nat. Biotechnol. 31:233-239; y Cong y col. (2013) Science 339:819-823.

El segmento de direccionamiento de ADN (ARNcr) de un ARNg dado comprende una secuencia de nucleótidos que es complementaria a una secuencia en un ADN diana. El segmento de direccionamiento de ADN de un ARNg interactúa con un ADN diana de una manera específica de secuencia a través de la hibridación (es decir, emparejamiento de bases). Como tal, la secuencia de nucleótidos del segmento de ADN diana puede variar y determina la localización dentro del ADN diana con el que interactuarán el ARNg y el ADN diana. El segmento de direccionamiento al ADN de un ARNg sujeto puede modificarse para hibridar con cualquier secuencia deseada dentro de un ADN diana. Los ARNcr de origen natural difieren dependiendo del sistema Cas9 y el organismo, pero frecuentemente contienen un segmento de direccionamiento de entre 21 y 72 nucleótidos de longitud, flanqueado por dos repeticiones directas (DR) de una longitud de entre 21 y 46 nucleótidos (véase, p. ej., la patente WO2014/131833). En el caso de S. pyogenes, las DR tienen una longitud de 36 nucleótidos y el segmento de direccionamiento tiene una longitud de 30 nucleótidos. La DR ubicada en 3' es complementaria y se hibrida con el ARNtracr correspondiente, que a su vez se une a la proteína Cas9.

El segmento de direccionamiento de ADN puede tener una longitud de desde aproximadamente 12 nucleótidos a aproximadamente 100 nucleótidos. Por ejemplo, el segmento de direccionamiento de ADN puede tener una longitud de desde aproximadamente 12 nucleótidos (nt) a aproximadamente 80 nt, de aproximadamente 12 nt a aproximadamente 50 nt, de aproximadamente 12 nt a aproximadamente 40 nt, de aproximadamente 12 nt a aproximadamente 30 nt, de aproximadamente 12 nt a aproximadamente 25 nt, de aproximadamente 12 nt a aproximadamente 20 nt, o de aproximadamente 12 nt a aproximadamente 19 nt. Alternativamente, el segmento de direccionamiento de ADN puede tener una longitud de desde aproximadamente 19 nt a aproximadamente 20 nt, de aproximadamente 19 nt a aproximadamente 25 nt, de aproximadamente 19 nt a aproximadamente 30 nt, de aproximadamente 19 nt a aproximadamente 35 nt, de aproximadamente 19 nt a aproximadamente 40 nt, de aproximadamente 19 nt a aproximadamente 45 nt, de aproximadamente 19 nt a aproximadamente 50 nt, de aproximadamente 19 nt a aproximadamente 60 nt, de aproximadamente 19 nt a aproximadamente 70 nt, de aproximadamente 19 nt a aproximadamente 80 nt, de aproximadamente 19 nt a aproximadamente 90 nt, de aproximadamente 19 nt a aproximadamente 100 nt, de aproximadamente 20 nt a aproximadamente 25 nt, de aproximadamente 20 nt a aproximadamente 30 nt, de aproximadamente 20 nt a aproximadamente 35 nt, de aproximadamente 20 nt a aproximadamente 40 nt, de aproximadamente 20 nt a aproximadamente 45 nt, de aproximadamente 20 nt a aproximadamente 50 nt, de aproximadamente 20 nt a aproximadamente 60 nt, de aproximadamente 20 nt a aproximadamente 70 nt, de aproximadamente 20 nt a aproximadamente 80 nt, de aproximadamente 20 nt a aproximadamente 90 nt, o de aproximadamente 20 nt a aproximadamente 100 nt.

La secuencia de nucleótidos del segmento de direccionamiento de ADN que es complementario a una secuencia de nucleótidos (secuencia de reconocimiento de ARN CRISPR) del ADN diana puede tener una longitud de al menos aproximadamente 12 nt. Por ejemplo, la secuencia de direccionamiento de ADN (es decir, la secuencia dentro del segmento de direccionamiento de ADN que es complementaria a una secuencia de reconocimiento de ARN CRISPR dentro del ADN diana) puede tener una longitud de al menos aproximadamente 12 nt, al menos aproximadamente 15 nt, al menos aproximadamente 18 nt, al menos aproximadamente 19 nt, al menos aproximadamente 20 nt, al menos aproximadamente 25 nt, al menos aproximadamente 30 nt, al menos aproximadamente 35 nt o al menos aproximadamente 40 nt. Alternativamente, la secuencia de direccionamiento de ADN puede tener una longitud de desde aproximadamente 12 nucleótidos (nt) a aproximadamente 80 nt, de aproximadamente 12 nt a aproximadamente 50 nt, de aproximadamente 12 nt a aproximadamente 45 nt, de aproximadamente 12 nt a aproximadamente 40 nt, de aproximadamente 12 nt a aproximadamente 35 nt, de aproximadamente 12 nt a aproximadamente 30 nt, de aproximadamente 12 nt a aproximadamente 25 nt, de aproximadamente 12 nt a aproximadamente 20 nt, de aproximadamente 12 nt a aproximadamente 19 nt, de aproximadamente 19 nt a aproximadamente 20 nt, de aproximadamente 19 nt a aproximadamente 25 nt, de aproximadamente 19 nt a aproximadamente 30 nt, de aproximadamente 19 nt a aproximadamente 35 nt, de aproximadamente 19 nt a aproximadamente 40 nt, de aproximadamente 19 nt a aproximadamente 45 nt, de aproximadamente 19 nt a aproximadamente 50 nt, de aproximadamente 19 nt a aproximadamente 60 nt, de aproximadamente 20 nt a aproximadamente 25 nt, de aproximadamente 20 nt a aproximadamente 30 nt, de aproximadamente 20 nt a aproximadamente 35 nt, de aproximadamente 20 nt a aproximadamente 40 nt, de aproximadamente 20 nt a aproximadamente 45 nt, de aproximadamente 20 nt a aproximadamente 50 nt, o de aproximadamente 20 nt a aproximadamente 60 nt. En algunos casos, la secuencia de direccionamiento de ADN puede tener una longitud de aproximadamente 20 nt.

Los ARNtracr pueden estar en cualquier forma (por ejemplo, ARNtracr completos o ARNtracr parciales activos) y ser de diferentes longitudes. Pueden incluir transcripciones primarias o formularios procesados. Por ejemplo, los ARNtracr (como porción de un ARN guía único o como una molécula separada como porción de un ARNg de dos moléculas) pueden comprender o consistir en la totalidad o una porción de una secuencia de ARNtracr de tipo natural (p. ej., aproximadamente o más de aproximadamente 20, 26, 32, 45, 48, 54, 63, 67, 85 o más nucleótidos de una secuencia de ARNtracr de tipo natural). Los ejemplos de secuencias de ARNtracr de tipo natural de S. pyogenes incluyen versiones de 171 nucleótidos, 89 nucleótidos, 75 nucleótidos y 65 nucleótidos. Véase, por ejemplo, Deltcheva y col. (2011) Nature 471:602-607; WO 2014/093661. Los ejemplos de ARNtracr dentro de los a Rn guía únicos (ARNgu) incluyen los segmentos de ARNtracr que se encuentran en las versiones 48, 54, 67 y 85 de los ARNgu, donde “ n” indica que hasta el nucleótido n del ARNtracr de tipo natural está incluido en el ARNgu. Véase la patente US 8,697,359.

El porcentaje de complementariedad entre la secuencia de direccionamiento de ADN y la secuencia de reconocimiento de ARN<c>RSPR dentro del ADN diana puede ser de al menos el 60 % (p. ej., al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 %, al menos el 97 %, al menos el 98 %, al menos el 99 % o el 100 %). En algunos casos, el porcentaje de complementariedad entre la secuencia de direccionamiento de ADN y la secuencia de reconocimiento de ARN CRISPR dentro del ADN diana es de al menos el 60 % en aproximadamente 20 nucleótidos contiguos. En un ejemplo, el porcentaje de complementariedad entre la secuencia de direccionamiento de ADN y la secuencia de reconocimiento de ARN<c>RSPR dentro del ADN diana es del 100 % sobre los 14 nucleótidos contiguos en el extremo 5' de la secuencia de reconocimiento de ARN CRISPR dentro de la cadena complementaria del ADN diana y tan bajo como el 0 % sobre el resto. En tal caso, puede considerarse que la secuencia de direccionamiento de ADN tiene una longitud de 14 nucleótidos. En otro ejemplo, el porcentaje de complementariedad entre la secuencia de direccionamiento de ADN y la secuencia de reconocimiento de ARN CRISPR dentro del ADN diana es del 100 % sobre los siete nucleótidos contiguos en el extremo 5' de la secuencia de reconocimiento de ARN CRISPR dentro de la cadena complementaria del ADN diana y tan bajo como el 0 % sobre el resto. En tal caso, puede considerarse que la secuencia de direccionamiento de ADN tiene una longitud de 7 nucleótidos.

El segmento de unión a proteínas de un ARNg puede comprender dos tramos de nucleótidos que son complementarios entre sí. Los nucleótidos complementarios del segmento de unión a proteínas se hibridan para formar un dúplex de ARN de doble cadena (ARNds). El segmento de unión a proteínas de un ARNg sujeto interactúa con una proteína Cas, y el ARNg dirige la proteína Cas unida a una secuencia de nucleótidos específica dentro del ADN diana a través del segmento de direccionamiento al ADN.

Los ARN guía pueden incluir modificaciones o secuencias que proporcionan características deseables adicionales (p. ej., estabilidad modificada o regulada; direccionamiento subcelular; seguimiento con una etiqueta fluorescente; un sitio de unión para una proteína o un complejo proteico; y similares. Los ejemplos de tales modificaciones incluyen, por ejemplo, una caperuza de 5' (p. ej., una caperuza de 7-metilguanilato (m7G)); una cola poliadenilada de 3' (es decir, una cola de poli(A) de 3'); una secuencia de ribointerruptor (p. ej., para proporcionar estabilidad regulada y/o accesibilidad regulada por proteínas y/o complejos proteicos); una secuencia de control de estabilidad; una secuencia que forma un dúplex de ARNbc (es decir, una horquilla); una modificación o secuencia que dirige el ARN a una ubicación subcelular (p. ej., núcleo, mitocondrias, cloroplastos y similares); una modificación o secuencia que permite el seguimiento (p. ej., la conjugación directa con una molécula fluorescente, la conjugación con un resto que facilita la detección fluorescente, una secuencia que permite la detección fluorescente, etc.); una modificación o secuencia que proporciona un sitio de unión para las proteínas (p. ej., proteínas que actúan sobre el ADN, incluidos los activadores de la transcripción, los represores de la transcripción, las metiltransferasas de ADN, las histonas acetiltransferasas, las histonas desacetilasas y similares); y combinaciones de los mismos.

Un ARNg puede comprender una secuencia de ácido nucleico que codifica un ARNcr y un ARNtracr. Por ejemplo, un ARNg puede comprender: (a) un ARN quimérico que tiene la secuencia de ácido nucleico 5'-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUU GAAAAAGUGGCACCGAGUCGGUGCUUUU-3' (Id. de sec. n.°: 1); o (b) un ARN quimérico que tiene la secuencia de ácido nucleico 5'-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCG-3' (Id. de sec. n.°: 2).

En algunos casos, el ARNcr comprende 5'-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAU-3' (Id. de sec. n.°: 3); 5'-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAG (Id. de sec. n.°: 4); o 5'-GAGUCCGAGCAGAAGAAGAAGUUUUA-3' (Id. de sec. n.°: 5).

En algunos casos, el ARNtracr comprende 5'-AAGGCUAGUCCG-3' (Id. de sec. n.°: 6) o 5'-AAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU-3' (Id. de sec. n.°: 7).

Los ARN guía se pueden proporcionar de cualquier forma. Por ejemplo, el ARNg se puede proporcionar en forma de ARN, ya sea como dos moléculas (ARNcr y ARNtracr separados) o como una molécula (ARNgu), y opcionalmente en forma de un complejo con una proteína Cas. El ARNg también se puede proporcionar en forma de ADN que codifica el ARN. El ADN que codifica el ARNg puede codificar una sola molécula de ARN (ARNgu) o moléculas de ARN separadas (p. ej., ARNcr y ARNtracr separados). En este último caso, el ADN que codifica el ARNg puede proporcionarse como moléculas de ADN independientes que codifican el ARNcr y el ARNtracr, respectivamente.

Cuando se introduce un ADN que codifica un ARNg en la célula, el ARNg se puede expresar de forma transitoria, condicional o constitutiva en la célula. Los ADN que codifican los ARNg pueden estar integrados de manera estable en el genoma de la célula y estar unidos operativamente a un promotor activo en la célula. Alternativamente, los ADN que codifican los ARNg pueden estar unidos operativamente a un promotor en un constructo de expresión. Por ejemplo, el ADN que codifica el ARNg puede estar en un vector de direccionamiento que comprende un inserto de ácido nucleico y/o un vector que comprende un ácido nucleico que codifica una proteína Cas. Alternativamente, puede estar en un vector o un plásmido que está separado del vector de direccionamiento que comprende el inserto de ácido nucleico y/o separado del vector que comprende el ácido nucleico que codifica la proteína Cas. Los promotores que pueden usarse en tales constructos de expresión incluyen promotores activos, por ejemplo, en una célula pluripotente de rata, eucariota, mamífero, mamífero no humano, humano, roedor, ratón o hámster. También se pueden usar promotores activos en un embrión en estadio unicelular. Tales promotores pueden ser, por ejemplo, promotores condicionales, promotores inducibles, promotores constitutivos o promotores específicos de tejido. En algunos casos, el promotor es un promotor de la ARN-polimerasa III, tal como un promotor U6 humano, un promotor de la polimerasa III U6 de rata o un promotor de la polimerasa III U6 de ratón. Los ejemplos de promotores se describen en cualquier otro sitio de la presente memoria.

Alternativamente, los ARNg pueden prepararse mediante otros métodos diversos. Por ejemplo, los ARNg pueden prepararse mediante transcripción in vitro mediante el uso, por ejemplo, de ARN-polimerasa T7 (véanse, por ejemplo, las patentes WO 2014/089290 y WO 2014/065596). Los A<r>N guía también pueden ser una molécula producida sintéticamente preparada mediante síntesis química.

C. Secuencias de reconocimiento de ARN CRISPR

El término “secuencia de reconocimiento de ARN CRISPR” incluye secuencias de ácido nucleico presentes en un ADN diana al que se unirá un segmento de direccionamiento de ADN de un ARNg, siempre que existan condiciones suficientes para la unión. Por ejemplo, las secuencias de reconocimiento de ARN CRISPR incluyen secuencias para las que se diseña un ARN guía para que tenga complementariedad, en las que la hibridación entre una secuencia de reconocimiento de ARN CRISPR y una secuencia de direccionamiento de ADN promueve la formación de un complejo CRISPR. No se requiere necesariamente la complementariedad completa, siempre que haya suficiente complementariedad para provocar la hibridación y promover la formación de un complejo CRISPR. Las secuencias de reconocimiento de ARN CRISPR también incluyen sitios de escisión para las proteínas Cas, que se describen en mayor detalle a continuación. Una secuencia de reconocimiento de ARN CRISPR puede comprender cualquier polinucleótido y puede ubicarse, por ejemplo, en el núcleo o citoplasma de una célula o dentro de un organelo de una célula, tal como una mitocondria o un cloroplasto.

La secuencia de reconocimiento de ARN CRISPR dentro de un ADN diana puede dirigirse a (es decir, unirse a, hibridarse con, o ser complementaria a) una proteína Cas o un ARNg. Las condiciones de unión de ADN/ARN adecuadas incluyen condiciones fisiológicas normalmente presentes en una célula. En la técnica se conocen otras condiciones de unión de ADN/ARN adecuadas (p. ej., condiciones en un sistema exento de células) (véase, p. ej., Molecular Cloning: A Laboratory Manual, 3.a ed. (Sambrook y col., Harbor Laboratory Press 2001)). La cadena del ADN diana que es complementaria y se hibrida con la proteína Cas o el ARNg puede denominarse “ cadena complementaria” , y la cadena del ADN diana que es complementaria a la “ cadena complementaria” (y por lo tanto no es complementaria a la proteína Cas o ARNg) puede llamarse “ cadena no complementaria” o “ cadena plantilla” .

La proteína Cas puede escindir el ácido nucleico en un sitio dentro o fuera de la secuencia de ácido nucleico presente en el ADN diana al que se unirá el segmento de direccionamiento de ADN de un ARNg. El “ sitio de escisión” incluye la posición de un ácido nucleico en el que una proteína Cas produce una ruptura monocatenaria o una ruptura de doble cadena. Por ejemplo, la formación de un complejo CRISPR (que comprende un ARNg hibridado con una secuencia de reconocimiento de ARN CRISPR y complejado con una proteína Cas) puede resultar en la escisión de una o ambas cadenas en o cerca (p. ej., dentro de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50 o más pares de bases) de la secuencia de ácido nucleico presente en un ADN diana a la que se unirá un segmento de direccionamiento de ADN de un ARNg. Si el sitio de escisión está fuera de la secuencia de ácido nucleico a la que se unirá el segmento de direccionamiento de ADN del ARNg, se sigue considerando que el sitio de escisión está dentro de la “ secuencia de reconocimiento de ARN CRISPR” . El sitio de escisión puede estar solo en una cadena o en ambas cadenas de un ácido nucleico. Los sitios de escisión pueden estar en la misma posición en ambas cadenas del ácido nucleico (produciendo extremos romos) o pueden estar en sitios diferentes en cada cadena (produciendo extremos escalonados). Los extremos escalonados pueden producirse, por ejemplo, mediante el uso de dos proteínas Cas, cada una de las cuales produce una ruptura monocatenaria en un sitio de escisión diferente en cada cadena, produciendo de este modo una ruptura de doble cadena. Por ejemplo, una primera nickasa puede crear una ruptura de cadena única en la primera cadena de ADN de doble cadena (ADNbc), y una segunda nickasa puede crear una ruptura de cadena única en la segunda cadena de ADNbc de modo que se creen secuencias protuberantes. En algunos casos, la secuencia de reconocimiento de ARN CRISPR de la nickasa en la primera cadena está separada de la secuencia de reconocimiento de ARN CRISPR de la nickasa en la segunda cadena por al menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500 o 1000 pares de bases.

La escisión específica del ADN diana por Cas9 puede producirse en ubicaciones determinadas tanto por (i) la complementariedad de emparejamiento de bases entre el ARNg y el ADN diana como por (ii) un motivo corto, denominado motivo adyacente de protoespaciador (PAM), en el ADN diana. El PAM puede flanquear la secuencia de reconocimiento de ARN CRISPR. Opcionalmente, la secuencia de reconocimiento de ARN CRISPR puede estar flanqueada en el extremo 3' por el PAM. Por ejemplo, el sitio de escisión de Cas9 puede estar de aproximadamente 1 a aproximadamente 10 o de aproximadamente 2 a aproximadamente 5 pares de bases (p. ej., 3 pares de bases) corriente arriba o corriente abajo de la secuencia PAM. En algunos casos (p. ej., cuando se usa Cas9 de S. pyogenes o un Cas9 estrechamente relacionado), la secuencia PAM de la cadena no complementaria puede ser 5'-N1GG-3', donde N1 es cualquier nucleótido de ADN y es inmediatamente 3' de la secuencia de reconocimiento de ARN CRISPR de la cadena no complementaria del ADN diana. Como tal, la secuencia PAM de la cadena complementaria sería 5'-CCN2-3', donde N2 es cualquier nucleótido de ADN y está inmediatamente 5' de la secuencia de reconocimiento de ARN CRISPR de la cadena complementaria del ADN diana. En algunos de estos casos, N1 y N2 pueden ser complementarios y el par de bases Ni- N2 puede ser cualquier par de bases (p. ej., Ni=C y N2=G; Ni=G y N2=C; Ni=A y N2=T; o Ni=T y N2=A).

Los ejemplos de secuencias de reconocimiento de ARN CRISPR incluyen una secuencia de ADN complementaria al segmento de direccionamiento de ADN de un ARNg, o una secuencia de ADN de este tipo además de una secuencia PAM. Por ejemplo, el motivo diana puede ser una secuencia de ADN de 20 nucleótidos que precede inmediatamente a un motivo NGG reconocido por una proteína Cas, tal como GN19NGG (Id. de sec. n.°: 8) o N20NGG (Id. de sec. n.°: 9) (véase, por ejemplo, la patente WO 2014/165825). La guanina en el extremo 5' puede facilitar la transcripción por la ARN polimerasa en las células. Otros ejemplos de secuencias de reconocimiento de ARN CRISPR pueden incluir dos nucleótidos de guanina en el extremo 5' (p. ej., GGN20NGG; Id. de sec. n.°: 10) para facilitar una transcripción eficaz por la polimerasa T7 in vitro. Véase, por ejemplo, Devlin, patente WO 2014/065596. Otras secuencias de reconocimiento de<a>R<n>CRISPR pueden tener entre 4-22 nucleótidos de longitud en las Id. de sec. n.°: 8-10, incluidos G o GG de 5' y GG o NGG de 3'. Aún otras secuencias de reconocimiento de ARN CRISPR pueden tener entre 14 y 20 nucleótidos de longitud en las Id. de sec. n.°: 8-10. Los ejemplos específicos de secuencias de reconocimiento de ARN CRISPR incluyen secuencias de ADN complementarias a los ácidos nucleicos que comprenden una cualquiera de las Id. de sec. n.°: 11 38.

La secuencia de reconocimiento de ARN CRISPR puede ser cualquier secuencia de ácido nucleico endógena o exógena a una célula. La secuencia de reconocimiento de ARN CRISPR puede ser una secuencia que codifica un producto génico (p. ej., una proteína) o una secuencia no codificante (p. ej., una secuencia reguladora) o puede incluir ambas. En algunos casos, la secuencia de reconocimiento de ARN CRISPR puede estar dentro de un gen o ácido nucleico asociado a la enfermedad y/o dentro de un gen o ácido nucleico asociado a la vía de señalización. Un gen o ácido nucleico asociado a una enfermedad incluye cualquier gen o ácido nucleico que produzca productos de transcripción o traducción a un nivel anormal o en una forma anormal en células derivadas de tejidos afectados por la enfermedad en comparación con tejidos o células de un control no patológico. Por ejemplo, un gen asociado a una enfermedad puede poseer una o varias mutaciones o variaciones genéticas que son directamente responsables de la etiología de una enfermedad o están en desequilibrio de ligamiento con uno o más genes que son responsables de la etiología de una enfermedad. Los productos transcritos o traducidos pueden ser conocidos o desconocidos, y pueden estar en un nivel normal o anormal. Existen ejemplos de genes y ácidos nucleicos asociados a enfermedades en el Instituto McKusick-Nathans de Medicina Genética de la Universidad Johns Hopkins (Baltimore, MD) y en el Centro Nacional de Información Biotecnológica de la Biblioteca Nacional de Medicina (Bethesda, MD), disponibles en la World Wide Web. Para ejemplos adicionales de genes y ácidos nucleicos asociados a enfermedades, véase la patente US-8,697,359.

Las mutaciones en los genes patógenos pueden ser mutaciones recesivas o mutaciones dominantes. Los organismos diploides (es decir, los organismos que tienen dos copias de cada cromosoma) típicamente portan dos copias de cada gen. Si las dos copias de un individuo son idénticas, el individuo es homocigoto para el gen. Si las copias son alelos diferentes, el individuo es heterocigoto para el gen. El término genotipo incluye si un individuo es portador de mutaciones en un solo gen (o genes), y el término fenotipo incluye las consecuencias físicas y funcionales de ese genotipo. Las mutaciones recesivas incluyen mutaciones en las que ambos alelos deben ser mutantes para que se observe un fenotipo mutante (es decir, el organismo debe ser homocigoto para que el alelo mutante muestre el fenotipo mutante). Las mutaciones recesivas pueden, por ejemplo, inactivar un gen afectado y conducir a una pérdida de función. Por ejemplo, una mutación recesiva puede eliminar todo o parte de un gen de un cromosoma, interrumpir la expresión de un gen o alterar la estructura de la proteína codificada, alterando así su función. Por el contrario, las mutaciones dominantes incluyen mutaciones en las que el fenotipo mutante se observa en un organismo que es heterocigoto para la mutación (es decir, el organismo porta un alelo mutante y un alelo natural). Una mutación dominante puede, por ejemplo, conducir a una ganancia de función. Por ejemplo, una mutación dominante puede aumentar la actividad de un producto génico determinado, conferir una nueva actividad al producto génico o conducir a su expresión espacial y temporal inapropiada. Una mutación dominante también puede estar asociada con una pérdida de función. En algunos casos, si se requieren dos copias de un gen para funcionar normalmente, la eliminación de una sola copia puede provocar un fenotipo mutante. Tales genes son haploinsuficientes. En otros casos, las mutaciones en un alelo pueden conducir a un cambio estructural en la proteína que interfiere con la función de la proteína de tipo natural codificada por el otro alelo. Tales mutaciones son mutaciones negativas dominantes. Algunos alelos pueden asociarse tanto con un fenotipo recesivo como con un fenotipo dominante.

Algunas secuencias de reconocimiento de ARN CRISPR están dentro de un gen o ácido nucleico que comprende una mutación. La mutación puede ser, por ejemplo, una mutación dominante o una mutación recesiva. En algunos casos, la mutación dominante está dentro de una célula que es heterocigota para la mutación dominante (es decir, la célula comprende un alelo natural y un alelo mutante que comprende la mutación dominante). En algunos de estos casos, la secuencia de reconocimiento de ARN CRISPR puede estar dentro del alelo mutante, pero no en el alelo natural. Alternativamente, la secuencia de reconocimiento de<a>R<n>CRISPR puede estar dentro del alelo natural pero no en el alelo mutante.

III. Vectores de direccionamiento e insertos de ácido nucleico

Los métodos expuestos en la presente memoria también pueden utilizar vectores de direccionamiento que comprenden insertos de ácido nucleico y brazos de homología para modificar un genoma dentro de una célula. En tales métodos, el inserto de ácido nucleico se integra en un locus diana genómico determinado por los brazos de homología mediante un evento de recombinación homóloga. Los métodos proporcionados en la presente memoria pueden aprovechar los agentes nucleasa (proteínas Cas) junto con el evento de recombinación homóloga. Tales métodos emplean la ruptura de doble cadena creada por el agente nucleasa en un sitio de escisión de la nucleasa junto con la recombinación homóloga para facilitar la integración dirigida del inserto de ácido nucleico en el locus diana genómico.

A. Vectores de direccionamiento e insertos de ácido nucleico para células distintas de los embriones en estadio unicelular

(1) Inserto de ácido nucleico

Se pueden emplear uno o más insertos de ácido nucleico separados en los métodos expuestos en la presente memoria, y se pueden introducir en una célula mediante vectores de direccionamiento separados o en el mismo vector de direccionamiento. Los insertos de ácido nucleico incluyen segmentos de ADN que se van a integrar en los loci diana genómicos. La integración de una inserción de ácido nucleico en un locus diana puede resultar en la adición de una secuencia de ácido nucleico de interés al locus diana, a la deleción de una secuencia de ácido nucleico de interés en el locus diana y/o a la sustitución de una secuencia de ácido nucleico de interés en el locus diana (es decir, deleción e inserción).

El inserto de ácido nucleico o el ácido nucleico correspondiente en el locus diana que se está reemplazando puede ser una región codificante, un intrón, un exón, una región no traducida, una región reguladora, un promotor, un potenciador o cualquier combinación de los mismos. Además, el inserto de ácido nucleico o el ácido nucleico correspondiente en el locus diana que se desea reemplazar pueden tener cualquier longitud deseada, incluyendo, por ejemplo, entre 10-100 nucleótidos de longitud, 100-500 nucleótidos de longitud, 500 nucleótidos-1 kb de longitud, 1 kb a 1,5 kb nucleótidos de longitud, 1,5 kb a 2 kb nucleótidos de longitud, 2 kb a 2,5 kb nucleótidos de longitud, 2,5 kb a 3 kb nucleótidos de longitud, 3 kb a 5 kb nucleótidos de longitud, 5 kb a 8 kb nucleótidos de longitud, 8 kb a 10 kb nucleótidos de longitud o más. En otros casos, la longitud puede ser de desde aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 350 kb, de aproximadamente 350 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 800 kb, de aproximadamente 800 kb a 1 Mb, de aproximadamente 1 Mb a aproximadamente 1,5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2,5 Mb, de aproximadamente 2,5 Mb a aproximadamente 2,8 Mb, de aproximadamente 2,8 Mb a aproximadamente 3 Mb. En otros casos, la longitud puede ser de al menos 100, 200, 300, 400, 500, 600, 700, 800 o 900 nucleótidos o al menos 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 16 kb o más. Algunos insertos de ácido nucleico pueden ser incluso más pequeños. Como ejemplo, se puede insertar un inserto de aproximadamente 4 nucleótidos a aproximadamente 12 nucleótidos de longitud para crear un sitio de enzima de restricción.

En algunos vectores de direccionamiento, el inserto de ácido nucleico puede ser de aproximadamente 5 kb a aproximadamente 200 kb, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 80 kb a aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 110 kb, de aproximadamente 120 kb a aproximadamente 130 kb, de aproximadamente 130 kb a aproximadamente 140 kb, de aproximadamente 140 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 160 kb, de aproximadamente 160 kb a aproximadamente 170 kb, de aproximadamente 170 kb a aproximadamente 180 kb, de aproximadamente 180 kb a aproximadamente 190 kb, de aproximadamente 190 kb a aproximadamente 200 kb. Alternativamente, el inserto de ácido nucleico puede ser de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 350 kb, o de aproximadamente 350 kb a aproximadamente 400 kb.

En algunos casos, la sustitución del ácido nucleico en el locus diana resulta en la deleción de una secuencia de ácido nucleico que varía de aproximadamente 1 kb a aproximadamente 200 kb, de aproximadamente 2 kb a aproximadamente 20 kb, o de aproximadamente 0,5 kb a aproximadamente 3 Mb. En algunos casos, el alcance de la deleción es mayor que la longitud total del brazo de homología 5' y el brazo de homología 3'.

En algunos casos, el grado de deleción de la secuencia de ácido nucleico varía de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 70 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 110 kb, de aproximadamente 110 kb a aproximadamente 120 kb, de aproximadamente 120 kb a aproximadamente 130 kb, de aproximadamente 130 kb a aproximadamente 140 kb, de aproximadamente 140 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 160 kb, de aproximadamente 160 kb a aproximadamente 170 kb, de aproximadamente 170 kb a aproximadamente 180 kb, de aproximadamente 180 kb a aproximadamente 190 kb, de aproximadamente 190 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 350 kb, de aproximadamente 350 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 800 kb, de aproximadamente 800 kb a 1 Mb, de aproximadamente 1 Mb a aproximadamente 1.5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2.5 Mb, de aproximadamente 2,5 Mb a aproximadamente 2,8 Mb, de aproximadamente 2,8 Mb a aproximadamente 3 Mb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 1,5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2,5 Mb, o de aproximadamente 2,5 Mb a aproximadamente 3 Mb.

En otros casos, el inserto de ácido nucleico o el ácido nucleico correspondiente en el locus diana sustituido puede tener al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 150 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb o más.

El inserto de ácido nucleico puede comprender ADN genómico o cualquier otro tipo de ADN. Por ejemplo, el inserto de ácido nucleico puede ser de un procariota, un eucariota, una levadura, un pájaro (p. ej., gallina), un mamífero no humano, un roedor, un ser humano, una rata, un ratón, un hámster, un conejo, un cerdo, un bovino, un ciervo, una oveja, una cabra, un gato, un perro, un hurón, un primate (p. ej., tití, mono rhesus), un mamífero domesticado, un mamífero agrícola o cualquier otro organismo de interés.

El inserto de ácido nucleico y/o el ácido nucleico en el locus diana pueden comprender una secuencia codificante o una secuencia no codificante, tal como un elemento regulador (p. ej., un promotor, un potenciador o un elemento de unión a un represor transcripcional). Por ejemplo, el inserto de ácido nucleico puede comprender un alelo de inserción de al menos un exón de un gen endógeno, o un alelo de activación de todo el gen endógeno (es decir, “ inserción por intercambio de genes” ).

Por ejemplo, el inserto de ácido nucleico puede ser homólogo u ortólogo a una secuencia a la que se dirige la deleción en el locus diana genómico. El inserto de ácido nucleico homólogo u ortólogo puede reemplazar la secuencia a la que se dirige la deleción en el locus genómico de interés. Una secuencia homóloga incluye una secuencia de ácido nucleico que es idéntica o sustancialmente similar a una secuencia de referencia conocida, de tal modo que es al menos 70 %, al menos 75 %, al menos 80 %, al menos 85 %, al menos 90 %, al menos 95 %, al menos 96 %, al menos 97 %, al menos 98 %, al menos 99 % o 100 % idéntica a la secuencia de referencia conocida. Una secuencia ortóloga incluye una secuencia de ácido nucleico de una especie que es funcionalmente equivalente a una secuencia de referencia conocida en otra especie. Esto puede resultar en la humanización de un locus si la inserción del inserto de ácido nucleico resulta en el reemplazo de una secuencia de ácido nucleico no humana por una secuencia de ácido nucleico humana homóloga u ortóloga (es decir, el inserto de ácido nucleico se inserta en lugar de la secuencia de ADN no humano correspondiente en su locus genómico endógeno).

El inserto de ácido nucleico también puede comprender un alelo condicional. Por ejemplo, el alelo condicional puede ser un alelo multifuncional, como se describe en la patente US 2011/0104799. Por ejemplo, el alelo condicional puede comprender: (a) una secuencia de accionamiento con orientación sentido con respecto a la transcripción de un gen diana; (b) un casete de selección de fármacos (DSC) con orientación sentido o antisentido; (c) una secuencia de nucleótidos de interés (NSI) en orientación antisentido; y (d) un módulo de inversión condicional (COIN, que utiliza un intrón que divide el exón y un módulo similar a una trampa genética invertible) en orientación inversa. Véase, por ejemplo, la patente US 2011/0104799. El alelo condicional puede comprender además unidades recombinantes que se recombinan tras la exposición a una primera recombinasa para formar un alelo condicional que (i) carece de la secuencia de activación y la DSC; y (ii) contiene la NSI en orientación sentido y el COIN en orientación antisentido. Véase la patente US 2011/0104799.

Algunos insertos de ácido nucleico comprenden un polinucleótido que codifica un marcador de selección. El marcador de selección puede estar contenido en un casete de selección. Tales marcadores de selección incluyen, aunque no de forma limitativa, neomicina fosfotransferasa (neor), higromicina B fosfotransferasa (hygr), puromicina-N-acetiltransferasa (puror), blasticidina S desaminasa (bsrr), xantina/guanina fosforribosil transferasa (gpt) y timidina quinasa del virus del herpes simple (HSV-k) o una combinación de los mismos. El polinucleótido que codifica el marcador de selección puede estar unido operativamente a un promotor activo en una célula a la que se dirige. Los ejemplos de promotores se describen en cualquier otro sitio en la presente memoria.

En algunos vectores de direccionamiento, el inserto de ácido nucleico comprende un gen reportero. Ejemplos de genes reporteros son los genes que codifican luciferasa, p-galactosidasa, proteína verde fluorescente (GFP), proteína fluorescente verde mejorada (eGFP), proteína fluorescente cian (CFP), proteína fluorescente amarilla (YFP), proteína fluorescente amarilla mejorada (eYFP), proteína fluorescente azul (BFP), proteína fluorescente azul mejorada (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T-Sapphire, fosfatasa alcalina y una combinación de los mismos. Tales genes reporteros pueden estar unidos operativamente a un promotor activo en una célula diana. Los ejemplos de promotores se describen en cualquier otro sitio en la presente memoria.

En algunos vectores de direccionamiento, el inserto de ácido nucleico comprende uno o más casetes de expresión o casetes de deleción. Un casete dado puede comprender una secuencia de nucleótidos de interés, un ácido nucleico que codifica un marcador de selección y/o un gen reportero, junto con diversos componentes reguladores que influyen en la expresión. Los ejemplos de marcadores seleccionables y genes reporteros que pueden incluirse se analizan en detalle en cualquier otro sitio de la presente memoria.

En algunos vectores de direccionamiento, el inserto de ácido nucleico comprende un ácido nucleico flanqueado por secuencias diana de recombinación específicas del sitio. Aunque todo el inserto de ácido nucleico puede estar flanqueado por tales secuencias diana de recombinación específicas del sitio, cualquier región o polinucleótido individual de interés dentro del inserto de ácido nucleico también puede estar flanqueado por tales sitios. Las secuencias diana de recombinación específicas del sitio, que pueden flanquear el inserto de ácido nucleico o cualquier polinucleótido de interés en el inserto de ácido nucleico pueden incluir, por ejemplo, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp, att, FRT, rox y una combinación de las mismas. En un ejemplo, los sitios de recombinación específica del sitio flanquean un polinucleótido que codifica un marcador de selección y/o un gen reportero contenido en el inserto de ácido nucleico. Tras la integración del inserto de ácido nucleico en un locus diana, se pueden eliminar las secuencias entre los sitios de recombinación específica del sitio.

(2) Vectores de direccionamiento

Pueden emplearse vectores de direccionamiento para introducir el inserto de ácido nucleico en un locus diana genómico y comprender el inserto de ácido nucleico y los brazos de homología que flanquean el inserto de ácido nucleico. Los vectores de direccionamiento pueden estar en forma lineal o circular, y pueden ser monocatenarios o bicatenarios. Los vectores de direccionamiento pueden ser el ácido desoxirribonucleico (ADN) o el ácido ribonucleico (ARN). Para facilitar la referencia, los brazos de homología se denominan en la presente memoria como brazos de homología 5' y 3' (es decir, corriente arriba y corriente abajo). Esta terminología se refiere a la posición relativa de los brazos de homología con relación al inserto de ácido nucleico dentro del vector de direccionamiento. Los brazos de homología 5' y 3' corresponden a regiones dentro del locus diana, que se denominan en la presente memoria “ secuencia diana 5'” y “ secuencia diana 3'” , respectivamente. Algunos vectores de direccionamiento comprenden brazos de homología 5' y 3' sin inserto de ácido nucleico. Tales vectores de direccionamiento pueden funcionar para eliminar la secuencia entre las secuencias diana 5' y 3' sin insertar un inserto de ácido nucleico.

Un brazo de homología y una secuencia diana “ corresponden” o “ se corresponden” entre sí cuando las dos regiones comparten un nivel suficiente de identidad de secuencia entre sí para actuar como sustratos para una reacción de recombinación homóloga. El término “ homología” incluye secuencias de ADN que son idénticas o comparten identidad de secuencia con una secuencia correspondiente. La identidad de secuencia entre una secuencia diana dada y el brazo de homología correspondiente que se encuentra en el vector de direccionamiento puede ser cualquier grado de identidad de secuencia que permita que se produzca la recombinación homóloga. Por ejemplo, la cantidad de identidad de secuencia compartida por el brazo de homología del vector de direccionamiento (o un fragmento de la misma) y la secuencia diana (o un fragmento de la misma) puede ser al menos 50 %, 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 81 %, 82 %, 83 %, 84 %, 85 %, 86 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % de identidad de secuencia, de tal modo que las secuencias experimentan una recombinación homóloga. Además, una región de homología correspondiente entre el brazo de homología y la secuencia diana correspondiente puede tener cualquier longitud que sea suficiente para promover la recombinación homóloga en el sitio de reconocimiento escindido. Por ejemplo, un brazo de homología dado y/o una secuencia diana correspondiente pueden comprender regiones de homología correspondientes que son de al menos aproximadamente 5-10 kb, 5-15 kb, 5-20 kb, 5-25 kb, 5-30 kb, 5-35 kb, 5-40 kb, 5-45 kb, 5-50 kb, 5-55 kb, 5-60 kb, 5-65 kb, 5-70 kb, 5-75 kb, 5-80 kb, 5-85 kb, 5-90 kb, 5-95 kb, 5-100 kb, 100 200 kb o 200-300 kb de longitud o más (tal como se describe en los vectores LTVEC descritos en cualquier otro sitio de la presente memoria) de modo que el brazo de homología tenga suficiente homología para someterse a una recombinación homóloga con las secuencias diana correspondientes dentro del genoma de la célula.

Los brazos de homología pueden corresponder a un locus que es nativo de una célula (p. ej., el locus diana) o, alternativamente, pueden corresponder a una región de un segmento de ADN heterólogo o exógeno que se integró en el genoma de la célula, incluyendo, por ejemplo, transgenes, casetes de expresión o regiones heterólogas o exógenas de ADN. Alternativamente, los brazos de homología del vector de direccionamiento pueden corresponder a una región de un cromosoma artificial de levadura (YAC), un cromosoma artificial bacteriano (BAC), un cromosoma artificial humano o cualquier otra región diseñada contenida en una célula huésped apropiada. Además, los brazos de homología del vector de direccionamiento pueden corresponder o derivarse de una región de una biblioteca de BAC, una biblioteca de cósmidos o una biblioteca de fagos P1. En algunos casos, los brazos de homología del vector de direccionamiento corresponden a un locus que es nativo, heterólogo o exógeno para un procariota, una levadura, un ave (p. ej., gallina), un mamífero no humano, un roedor, un ser humano, una rata, un ratón, un hámster, un conejo, un cerdo, un bovino, un ciervo, una oveja, una cabra, un gato, un perro, un hurón, un primate (p. ej., un tití, un mono rhesus), un mamífero domesticado, un mamífero agrícola o cualquier otro organismo de interés. En algunos casos, los brazos de homología corresponden a un locus de la célula que no puede dirigirse como diana mediante el uso de un método convencional o que solo puede dirigirse como diana incorrectamente o solo con una eficiencia significativamente baja en la ausencia de una mella o ruptura de doble cadena inducida por un agente nucleasa (p. ej., una proteína Cas). En algunos casos, los brazos de homología se derivan de ADN sintético.

En algunos vectores de direccionamiento, los brazos de homología 5' y 3' corresponden a un genoma diana. Alternativamente, los brazos de homología pueden proceder de un genoma relacionado. Por ejemplo, el genoma diana es un genoma murino de una primera cepa, y los brazos de direccionamiento provienen de un genoma murino de una segunda cepa, en donde la primera cepa y la segunda cepa son diferentes. En algunos casos, los brazos de homología son del genoma del mismo animal o son del genoma de la misma cepa, p. ej., el genoma diana es un genoma murino de una primera cepa, y los brazos de direccionamiento son de un genoma murino del mismo ratón o de la misma cepa.

Un brazo de homología de un vector de direccionamiento puede tener cualquier longitud que sea suficiente para promover un evento de recombinación homóloga con una secuencia diana correspondiente, incluyendo, por ejemplo, al menos 5 10 kb, 5-15 kb, 5-20 kb, 5-25 kb, 5-30 kb, 5-35 kb, 5-40 kb, 5-45 kb, 5-50 kb, 5-55 kb, 5-60 kb, 5-65 kb, 5-70 kb, 5-75 kb, 5 80 kb, 5-85 kb, 5-90 kb, 5-95 kb, 5-100 kb, 100-200 kb o 200-300 kb de longitud o más. Como se describe con más detalle a continuación, los vectores de direccionamiento grandes pueden emplear brazos de direccionamiento de mayor longitud.

Los agentes nucleasa (p. ej., sistemas CRISPR/Cas) se pueden emplear junto con vectores de direccionamiento para ayudar en la modificación de un locus diana. Tales agentes nucleasa pueden promover la recombinación homóloga entre el vector de direccionamiento y el locus diana. Cuando los agentes nucleasa se emplean junto con un vector de direccionamiento, el vector de direccionamiento puede comprender brazos de homología 5' y 3' correspondientes a secuencias diana 5' y 3' ubicadas lo suficientemente cerca de un sitio de escisión de la nucleasa como para promover la aparición de un evento de recombinación homóloga entre las secuencias diana y los brazos de homología tras una mella o ruptura de doble cadena en el sitio de escisión de la nucleasa. El término “ sitio de escisión de la nucleasa” incluye una secuencia de ADN en la que un agente nucleasa crea una mella o una ruptura de doble cadena (p. ej., un sitio de escisión de Cas9). Las secuencias diana dentro del locus diana que corresponden a los brazos de homología 5' y 3' del vector de direccionamiento están “ ubicadas lo suficientemente cerca” de un sitio de escisión de la nucleasa si la distancia es tal que promueve la aparición de un evento de recombinación homóloga entre las secuencias diana 5' y 3' y los brazos de homología tras una mella o ruptura de doble cadena en el sitio de reconocimiento. Por lo tanto, en casos específicos, las secuencias diana correspondientes a los brazos de homología 5' y/o 3' del vector de direccionamiento están dentro de al menos 1 nucleótido de un sitio de reconocimiento dado o están dentro de al menos 10 nucleótidos a aproximadamente 14 kb de un sitio de reconocimiento dado. En algunos casos, el sitio de escisión de la nucleasa es inmediatamente adyacente a al menos una o ambas secuencias diana.

La relación espacial de las secuencias diana que corresponden a los brazos de homología del vector de direccionamiento y el sitio de escisión de la nucleasa puede variar. Por ejemplo, las secuencias diana pueden estar ubicadas a 5' del sitio de escisión de la nucleasa, las secuencias diana pueden estar ubicadas a 3' del sitio de escisión de la nucleasa, o las secuencias diana pueden flanquear el sitio de escisión de la nucleasa.

El uso combinado del vector de direccionamiento (que incluye, por ejemplo, un vector de direccionamiento grande) con un agente nucleasa puede resultar en una mayor eficiencia de direccionamiento en comparación con el uso del vector de direccionamiento por sí solo. Por ejemplo, cuando se usa un vector de direccionamiento junto con un agente nucleasa, la eficiencia de direccionamiento del vector de direccionamiento se puede aumentar al menos dos veces, al menos tres veces, al menos 4 veces o al menos 10 veces en comparación con el uso del vector de direccionamiento por sí solo.

(3) Vectores de direccionamiento grandes

Algunos vectores de direccionamiento son “vectores de direccionamiento grandes” o “ LTVEC” , que incluyen vectores de direccionamiento que comprenden brazos de homología que corresponden y se derivan de secuencias de ácido nucleico mayores que las utilizadas típicamente por otros planteamientos destinados a realizar la recombinación homóloga en células. Los LTVEC también incluyen vectores de direccionamiento que comprenden insertos de ácido nucleico que tienen secuencias de ácido nucleico más grandes que las usadas típicamente por otros enfoques destinados a realizar la recombinación homóloga en células. Por ejemplo, los LTVEC hacen posible la modificación de grandes loci que no pueden adaptarse a los vectores de direccionamiento tradicionales basados en plásmidos debido a sus limitaciones de tamaño. Por ejemplo, el locus dirigido puede ser (es decir, los brazos de homología 5' y 3' pueden corresponder a) un locus de la célula que no puede dirigirse como diana mediante el uso de un método convencional o que solo puede dirigirse como diana incorrectamente o solo con una eficiencia significativamente baja en la ausencia de una mella o ruptura de doble cadena inducida por un agente nucleasa (p. ej., una proteína Cas).

Los ejemplos de LTVEC incluyen vectores derivados de un cromosoma artificial bacteriano (BAC), un cromosoma artificial humano o un cromosoma artificial de levadura (YAC). Ejemplos no limitativos de LTVEC y métodos para fabricarlos se describen, p. ej., en las patentes US- 6,586,251; US- 6,596,541; US- 7,105,348; y WO 2002/036789 (PCT/US01/45375). Los LTVEC pueden estar en forma lineal o en forma circular.

Los LTVEC pueden ser de cualquier longitud, incluidos, por ejemplo, de aproximadamente 50 kb a aproximadamente 300 kb, de aproximadamente 50 kb a aproximadamente 75 kb, de aproximadamente 75 kb a aproximadamente 100 kb, de aproximadamente 100 kb a 125 kb, de aproximadamente 125 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 175 kb, de aproximadamente 175 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 225 kb, de aproximadamente 225 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 275 kb o de aproximadamente 275 kb a aproximadamente 300 kb. Alternativamente, un LTVEC puede tener al menos 10 kb, al menos 15 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 150 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb o más. El tamaño de un LTVEC puede ser demasiado grande para permitir el tamizaje de eventos de direccionamiento mediante ensayos convencionales, por ejemplo, transferencia Southern y PCR de largo alcance (por ejemplo, de 1 kb a 5 kb).

En algunos casos, un LTVEC comprende un inserto de ácido nucleico que varía de aproximadamente 5 kb a aproximadamente 200 kb, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 80 kb a aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 110 kb, de aproximadamente 120 kb a aproximadamente 130 kb, de aproximadamente 130 kb a aproximadamente 140 kb, de aproximadamente 140 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 160 kb, de aproximadamente 160 kb a aproximadamente 170 kb, de aproximadamente 170 kb a aproximadamente 180 kb, de aproximadamente 180 kb a aproximadamente 190 kb, o de aproximadamente 190 kb a aproximadamente 200 kb. En otros casos, el inserto de ácido nucleico puede oscilar de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 350 kb, o de aproximadamente 350 kb a aproximadamente 400 kb.

En algunos LTVEC, la suma total del brazo de homología 5' y del brazo de homología 3' es de al menos 10 kb. En otros LTVEC, el brazo de homología 5' oscila de aproximadamente 5 kb a aproximadamente 100 kb y/o el brazo de homología 3' oscila de aproximadamente 5 kb a aproximadamente 100 kb. Cada brazo de homología puede ser, por ejemplo, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 70 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 110 kb, de aproximadamente 110 kb a aproximadamente 120 kb, de aproximadamente 120 kb a aproximadamente 130 kb, de aproximadamente 130 kb a aproximadamente 140 kb, de aproximadamente 140 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 160 kb, de aproximadamente 160 kb a aproximadamente 170 kb, de aproximadamente 170 kb a aproximadamente 180 kb, de aproximadamente 180 kb a aproximadamente 190 kb, o de aproximadamente 190 kb a aproximadamente 200 kb. La suma total de los brazos de homología 5' y 3' puede ser, por ejemplo, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 70 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 110 kb, de aproximadamente 110 kb a aproximadamente 120 kb, de aproximadamente 120 kb a aproximadamente 130 kb, de aproximadamente 130 kb a aproximadamente 140 kb, de aproximadamente 140 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 160 kb, de aproximadamente 160 kb a aproximadamente 170 kb, de aproximadamente 170 kb a aproximadamente 180 kb, de aproximadamente 180 kb a aproximadamente 190 kb, o de aproximadamente 190 kb a aproximadamente 200 kb. Alternativamente, cada brazo de homología puede ser de al menos 5 kb, al menos 10 kb, al menos 15 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, o al menos 200 kb. Del mismo modo, la suma total de los brazos de homología 5' y 3' puede ser de al menos 5 kb, al menos 10 kb, al menos 15 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, o al menos 200 kb.

En algunos casos, el LTVEC y el inserto de ácido nucleico están diseñados para permitir una deleción en el locus diana de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, o de aproximadamente 150 kb a aproximadamente 200 kb kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 1,5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2,5 Mb, o de aproximadamente 2,5 Mb a aproximadamente 3 Mb. Alternativamente, la deleción puede tener al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 150 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb o más.

En otros casos, el LTVEC y el inserto de ácido nucleico están diseñados para permitir la inserción en el locus diana de una secuencia de ácido nucleico exógena que varía de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 250 kb, de aproximadamente 250 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 350 kb, o de aproximadamente 350 kb a aproximadamente 400 kb. Alternativamente, la inserción puede tener al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 150 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb o más.

En otros casos, el inserto de ácido nucleico y/o la región del locus endógeno que se elimina tiene al menos 100, 200, 300, 400, 500, 600, 700, 800 o 900 nucleótidos o al menos 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 11 kb, 12 kb, 13 kb, 14 kb, 15 kb, 16 kb o más.

B. Vectores de direccionamiento e insertos de ácido nucleico para embriones en estadio unicelular

Los vectores de direccionamiento para su uso en embriones en estadio unicelular no tienen más de 5 kb de longitud y pueden ser ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN), pueden ser monocatenarios o bicatenarios y pueden estar en forma circular o lineal. Un vector de direccionamiento ilustrativo para su uso en embriones en estadio unicelular tiene una longitud entre aproximadamente 50 nucleótidos a aproximadamente 5 kb. Por ejemplo, un vector de direccionamiento para su uso en embriones en estadio unicelular puede tener una longitud de entre aproximadamente 50 y aproximadamente 100, de aproximadamente 100 a aproximadamente 200, de aproximadamente 200 a aproximadamente 300, de aproximadamente 300 a aproximadamente 400, de aproximadamente 400 a aproximadamente 500, de aproximadamente 500 a aproximadamente 600, de aproximadamente 600 a aproximadamente 700, de aproximadamente 700 a aproximadamente 800, de aproximadamente 800 a aproximadamente 900 o de aproximadamente 900 a aproximadamente 1000 nucleótidos. Alternativamente, un vector de direccionamiento para su uso en embriones en estadio unicelular puede tener una longitud de entre aproximadamente 1 kb y aproximadamente 1,5 kb, aproximadamente 1,5 kb a aproximadamente 2 kb, aproximadamente 2 kb a aproximadamente 2,5 kb, aproximadamente 2,5 kb a aproximadamente 3 kb, aproximadamente 3 kb a aproximadamente 3,5 kb, aproximadamente 3,5 kb a aproximadamente 4 kb, aproximadamente 4 kb a aproximadamente 4,5 kb o aproximadamente 4,5 kb a aproximadamente 5 kb. Alternativamente, un vector de direccionamiento para su uso en embriones en estadio unicelular puede tener una longitud de, por ejemplo, no más de 5 kb, 4,5 kb, 4 kb, 3,5 kb, 3 kb, 2,5 kb, 2 kb, 1,5 kb, 1 kb, 900 nucleótidos, 800 nucleótidos, 700 nucleótidos, 600 nucleótidos, 500 nucleótidos, 400 nucleótidos, 300 nucleótidos, 200 nucleótidos, 100 nucleótidos o 50 nucleótidos. En el caso de donantes de ADN monocatenario, los vectores de direccionamiento ilustrativos pueden estar entre aproximadamente 60 nucleótidos y aproximadamente 200 nucleótidos (p. ej., de aproximadamente 60 nucleótidos a aproximadamente 80 nucleótidos, de aproximadamente 80 nucleótidos a aproximadamente 100 nucleótidos, de aproximadamente 100 nucleótidos a aproximadamente 120 nucleótidos, de aproximadamente 120 nucleótidos a aproximadamente 140 nucleótidos, de aproximadamente 140 nucleótidos a aproximadamente 160 nucleótidos, de aproximadamente 160 nucleótidos a aproximadamente 180 nucleótidos o de aproximadamente 180 nucleótidos a aproximadamente 200 nucleótidos).

Tales vectores de direccionamiento comprenden brazos de homología 5' y 3' que corresponden a regiones dentro del locus diana (secuencia diana 5' y secuencia diana 3', respectivamente). Opcionalmente, el vector de direccionamiento comprende un inserto de ácido nucleico (p. ej., un segmento de ADN que se va a integrar en un locus diana genómico) flanqueado por los brazos de homología 5' y 3'. La integración de una inserción de ácido nucleico en un locus diana puede resultar en la adición de una secuencia de ácido nucleico de interés al locus diana, a la deleción de una secuencia de ácido nucleico de interés en el locus diana o a la sustitución de una secuencia de ácido nucleico de interés en el locus diana (es decir, deleción e inserción).

Una región de homología correspondiente entre el brazo de homología y la secuencia diana correspondiente puede tener cualquier longitud que sea suficiente para promover la recombinación homóloga. Los brazos de homología ilustrativos para su uso en embriones en estadio unicelular tienen una longitud de entre aproximadamente 20 nucleótidos y aproximadamente 2,5 kb (p. ej., de aproximadamente 30 nucleótidos a aproximadamente 100 nucleótidos de longitud). Por ejemplo, un determinado brazo de homología y/o la secuencia diana correspondiente pueden comprender regiones de homología correspondientes que tengan una longitud de entre aproximadamente 20 a aproximadamente 30, de aproximadamente 30 a aproximadamente 40, de aproximadamente 40 a aproximadamente 50, de aproximadamente 50 a aproximadamente 60, de aproximadamente 60 a aproximadamente 70, de aproximadamente 70 a aproximadamente 80, de aproximadamente 80 a aproximadamente 90, de aproximadamente 90 a aproximadamente 100, de aproximadamente 100 a aproximadamente 150, de aproximadamente 150 a aproximadamente 200, de aproximadamente 200 a aproximadamente 250, de aproximadamente 250 a aproximadamente 300, de aproximadamente 300 a aproximadamente 350, de aproximadamente 350 a aproximadamente 400, de aproximadamente 400 a aproximadamente 450, o de aproximadamente 450 a aproximadamente 500 nucleótidos de longitud, tal como para que los brazos de homología tengan suficiente homología para someterse a la recombinación homóloga con las secuencias diana correspondientes dentro del genoma de la célula. Alternativamente, un brazo de homología dado y/o la secuencia diana correspondiente pueden comprender regiones de homología correspondientes que tienen una longitud de entre aproximadamente 0,5 kb a aproximadamente 1 kb, aproximadamente 1 kb a aproximadamente 1,5 kb, aproximadamente 1,5 kb a aproximadamente 2 kb, o aproximadamente 2 kb a aproximadamente 2,5 kb. En el caso de donantes de ADN monocatenario, los brazos de homología ilustrativos pueden tener entre aproximadamente 30 nucleótidos y aproximadamente 60 nucleótidos (p. ej., de aproximadamente 30 a aproximadamente 40 nucleótidos, de aproximadamente 40 nucleótidos a aproximadamente 50 nucleótidos, o de aproximadamente 50 nucleótidos a aproximadamente 60 nucleótidos).

Como se ha descrito anteriormente, los brazos de homología pueden corresponder a un locus que es nativo de una célula (p. ej., el locus diana) o, alternativamente, pueden corresponder a una región de un segmento de ADN heterólogo o exógeno que se integró en el genoma de la célula. Como se ha descrito anteriormente, las secuencias diana 5' y 3' se ubican preferiblemente lo suficientemente cerca del sitio de escisión de Cas como para promover la aparición de un evento de recombinación homóloga entre las secuencias diana y los brazos de homología tras una ruptura monocatenaria (mella) o una ruptura de doble cadena en el sitio de escisión de Cas.

El inserto de ácido nucleico o el ácido nucleico correspondiente en el locus diana que se desea eliminar y/o reemplazar pueden tener diversas longitudes. Un inserto de ácido nucleico ilustrativo o el ácido nucleico correspondiente en el locus diana que se desea eliminar y/o reemplazando tiene una longitud de entre aproximadamente 10 nucleótidos a aproximadamente 5 kb. Por ejemplo, un inserto de ácido nucleico o un ácido nucleico correspondiente en el locus diana que se desea eliminar y/o reemplazando puede estar entre aproximadamente 1 a aproximadamente 10, aproximadamente 10 a aproximadamente 20, aproximadamente 20 a aproximadamente 30, aproximadamente 30 a aproximadamente 40, aproximadamente 40 a aproximadamente 50, aproximadamente 50 a aproximadamente 60, aproximadamente 60 a aproximadamente 70, aproximadamente 70 a aproximadamente 80, aproximadamente 80 a aproximadamente 90, aproximadamente 90 a aproximadamente 100, aproximadamente 100 a aproximadamente 110, aproximadamente 110 a aproximadamente 120, de aproximadamente 120 a aproximadamente 130, de aproximadamente 130 a aproximadamente 140, de aproximadamente 140 a aproximadamente 150, de aproximadamente 150 a aproximadamente 160, de aproximadamente 160 a aproximadamente 170, de aproximadamente 170 a aproximadamente 180, de aproximadamente 180 a aproximadamente 190, de aproximadamente 190 a aproximadamente 200, de aproximadamente 200 a aproximadamente 300, de aproximadamente 300 a aproximadamente 400, de aproximadamente 400 a aproximadamente 500, de aproximadamente 500 a aproximadamente 600, de aproximadamente 600 a aproximadamente 700, de aproximadamente 700 a aproximadamente 800, de aproximadamente 800 a aproximadamente 900, o de aproximadamente 900 a aproximadamente 1000 nucleótidos de longitud. Como ejemplo, se puede insertar un inserto de aproximadamente 4 nucleótidos a aproximadamente 12 nucleótidos de longitud para crear un sitio de enzima de restricción. Del mismo modo, un inserto de ácido nucleico o un ácido nucleico correspondiente en el locus diana que se desea eliminar y/o reemplazar puede tener una longitud de entre aproximadamente 1 kb y aproximadamente 1,5 kb, aproximadamente 1,5 kb a aproximadamente 2 kb, aproximadamente 2 kb a aproximadamente 2,5 kb, aproximadamente 2,5 kb a aproximadamente 3 kb, aproximadamente 3 kb a aproximadamente 3,5 kb, aproximadamente 3,5 kb a aproximadamente 4 kb, aproximadamente 4 kb a aproximadamente 4,5 kb o aproximadamente 4,5 kb a aproximadamente 5 kb. Un ácido nucleico que se elimina de un locus diana genómico también puede tener entre aproximadamente 5 kb y aproximadamente 10 kb, entre aproximadamente 10 kb y aproximadamente 20 kb, entre aproximadamente 20 kb y aproximadamente 30 kb, entre aproximadamente 30 kb y aproximadamente 40 kb, entre aproximadamente 40 kb y aproximadamente 50 kb, entre aproximadamente 50 kb y aproximadamente 60 kb, entre aproximadamente 60 kb y aproximadamente 70 kb, entre aproximadamente 70 kb y aproximadamente 80 kb, entre aproximadamente 80 kb y aproximadamente 90 kb, de aproximadamente 90 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 600 kb, de aproximadamente 600 kb a aproximadamente 700 kb, de aproximadamente 700 kb a aproximadamente 800 kb, de aproximadamente 800 kb a aproximadamente 900 kb, de aproximadamente 900 kb a aproximadamente 1 Mb o más. Alternativamente, un ácido nucleico que se deleciona de un locus diana genómico puede estar entre aproximadamente 1 Mb y aproximadamente 1,5 Mb, aproximadamente 1,5 Mb a aproximadamente 2 Mb, aproximadamente 2 Mb a aproximadamente 2,5 Mb, aproximadamente 2,5 Mb a aproximadamente 3 Mb, aproximadamente 3 Mb a aproximadamente 4 Mb, aproximadamente 4 Mb a aproximadamente 5 Mb, aproximadamente 5 Mb a aproximadamente 10 Mb, aproximadamente 10 Mb a aproximadamente 20 Mb, aproximadamente 20 Mb a aproximadamente 30 Mb, aproximadamente 30 Mb a aproximadamente 40 Mb Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb, o de aproximadamente 90 Mb a aproximadamente 100 Mb.

Como se ha descrito anteriormente, el inserto de ácido nucleico puede comprender ADN genómico o cualquier otro tipo de ADN, el inserto de ácido nucleico o el ácido nucleico correspondiente en el locus diana que se desea eliminar y/o reemplazar puede ser una región codificante o una región no codificante, y el inserto de ácido nucleico puede ser homólogo u ortólogo a una secuencia que se dirige a la deleción en el locus diana genómico. El inserto de ácido nucleico también puede comprender un alelo condicional, un polinucleótido que codifica un marcador de selección, un gen reportero, uno o más casetes de expresión, uno o más casetes de deleción o un inserto de ácido nucleico que comprende un ácido nucleico flanqueado por secuencias diana de recombinación específicas del sitio, tal como se ha descrito anteriormente.

C. Promotores

Diversas secuencias de ácidos nucleicos descritas en la presente memoria pueden estar unidas operativamente a promotores. Tales promotores pueden ser activos, por ejemplo, en una célula pluripotente de rata, eucariota, mamífero, mamífero no humano, humano, roedor, ratón o hámster. También se puede usar un promotor activo en un embrión en estadio unicelular. Un promotor puede ser, por ejemplo, un promotor constitutivamente activo, un promotor condicional, un promotor inducible, un promotor temporalmente restringido (por ejemplo, un promotor regulado por el desarrollo) o un promotor espacialmente restringido (por ejemplo, un promotor específico de células o específico de tejidos). Pueden encontrarse ejemplos de promotores, por ejemplo, en la patente WO 2013/176772.

Los ejemplos de promotores inducibles incluyen, por ejemplo, promotores regulados químicamente y promotores regulados físicamente. Los promotores regulados químicamente incluyen, por ejemplo, promotores regulados por alcohol (p. ej., un promotor del gen de la alcohol deshidrogenasa (alcA)), promotores regulados por tetraciclina (p. ej., un promotor sensible a la tetraciclina, una secuencia operadora de tetraciclina (tetO), un promotor tet-On o un promotor tet-Off), promotores regulados por esteroides (p. ej., un receptor de glucocorticoides de rata, un promotor de un receptor de estrógeno, o un promotor de un receptor de ecdisona), o promotores regulados por metales (p. ej., un promotor de metaloproteínas). Los promotores regulados físicamente incluyen, por ejemplo, promotores regulados por temperatura (p. ej., un promotor de choque térmico) y promotores regulados por la luz (p. ej., un promotor inducible por la luz o un promotor reprimible por la luz).

Los promotores específicos de tejido pueden ser, por ejemplo, promotores específicos de neuronas, promotores específicos de células de glía, promotores específicos de células musculares, promotores específicos de células cardíacas, promotores específicos de células renales, promotores específicos de células óseas, promotores específicos de células endoteliales o promotores específicos de células inmunitarias (p. ej., un promotor de células B o un promotor de células T).

Los promotores regulados por el desarrollo incluyen, por ejemplo, promotores activos solo durante una fase embrionaria de desarrollo, o solo en una célula adulta.

También se puede seleccionar un promotor basándose en el tipo celular. Por ejemplo, diversos promotores conocidos se usan en una célula eucariota, una célula de mamífero, una célula de mamífero no humano, una célula pluripotente, una célula pluripotente no humana, una célula pluripotente humana, una célula ES humana, una célula madre adulta humana, una célula progenitora humana con un desarrollo restringido, una célula iPS humana, una célula humana, una célula de roedor, una célula de rata, una célula de ratón, una célula de hámster, un fibroblasto o una célula CHO.

IV. Métodos para modificar genomas y crear animales no humanos modificados genéticamente

A. Métodos para modificar un genoma

Se proporcionan diversos métodos para modificar un genoma dentro de una célula mediante el uso de dos ARN guía para dirigirse a diferentes regiones dentro de un único locus diana genómico. También se proporcionan métodos que usan dos o más ARN guía (p. ej., tres ARN guía o cuatro ARN guía) para dirigirse a diferentes regiones dentro de un único locus diana genómico. Los métodos pueden realizarse in vitro. Tales métodos promueven la creación de modificaciones genéticas bialélicas y pueden comprender el colapso del genoma u otras modificaciones dirigidas, tales como la deleción simultánea de una secuencia de ácido nucleico dentro del genoma y la sustitución por una secuencia de ácido nucleico exógena.

La modificación genética dirigida mediante recombinación homóloga entre un vector de direccionamiento y un locus diana puede ser muy ineficaz, especialmente en tipos celulares distintos de las células madre embrionarias de roedores. El uso de un vector de direccionamiento junto con una ruptura de ADN de doble cadena dirigida por nucleasas en el locus diana puede mejorar en gran medida la eficiencia del direccionamiento heterocigótico para modificaciones simples, tales como pequeñas deleciones o inserciones.

La combinación de un vector de direccionamiento con una nucleasa CRISPR/Cas9 guiada por un ARN guía (ARNg) también puede aumentar la eficiencia de direccionamiento heterocigótico para modificaciones genéticas muy grandes y de baja eficiencia, tales como la deleción de un gen murino y la sustitución simultánea por su homólogo humano (humanización). Tales modificaciones pueden implicar deleciones e inserciones muy grandes (p. ej., >50 kb) (véase el direccionamiento de Lrp5, C5 (Hc), Ror1 y Trpa1 en el Ejemplo 1).

Durante la reparación dirigida por homología de una o más rupturas de doble cadena generadas por una nucleasa, tal como la Cas9 en un locus diana genómico, las una o más rupturas se procesan primero para crear un extremo protuberante monocatenario de 3' mediante la resección del extremo 5'. A continuación, Rad51 se polimeriza en el ADN monocatenario para buscar una secuencia homóloga, se produce una invasión de la cadena en el ADN bicatenario de plantilla homólogo no dañado (p. ej., el vector de direccionamiento) y se forma una estructura de bucle D intermedia para facilitar la reparación de una o más rupturas de doble cadena utilizando el ADN homólogo no dañado (p. ej., el vector de direccionamiento) como plantilla. Las secuencias cromosómicas se reemplazan después por el inserto de ácido nucleico del vector de direccionamiento mediante un evento de doble cruzamiento que involucra a las regiones de homología flanqueantes. El que este proceso se desarrolle correctamente depende de varios factores, tales como el tamaño del inserto de ácido nucleico, la longitud de las regiones homólogas a los brazos de homología del vector de direccionamiento y las posiciones de las regiones homólogas a los brazos de homología del vector de direccionamiento (p. ej., en relación con una o más rupturas de doble cadena).

A medida que aumenta el tamaño del inserto de ácido nucleico o la secuencia eliminada en el locus diana genómico, el proceso de resección se vuelve más impredecible, la estabilidad de la estructura del bucle D intermedio disminuye y se vuelve más impredecible, y el éxito del proceso de recombinación generalmente disminuye y se vuelve más impredecible. Por ejemplo, a medida que aumenta el tamaño de la modificación dirigida, aumenta el riesgo de recombinación interna, particularmente cuando hay similitud entre la secuencia que se reemplaza y la secuencia que se inserta. Cuando se produce tal recombinación interna, el intercambio de recombinación homóloga tiene lugar en el interior de la región diana deseada, y el inserto de ácido nucleico completo no se incorpora al locus diana genómico. Además, el pensamiento convencional es que la eficiencia de las inserciones mediadas por HR disminuye a medida que aumenta la distancia entre la ruptura de doble cadena y el sitio de mutación o inserción (p. ej., más allá de 100 pb o 200 pb). Véase Beumer y col. (2013) Genes\Genomes\Genetics 3:657-664; Elliott y col. (1998) Mol. Cell. Biol. 18:93-101; y Byrne y col. (2015) Nucleic Acids Research 43(3):e21.

Para alcanzar una modificación genética dirigida que cree una gran deleción en un locus diana genómico e inserte simultáneamente una gran porción de ADN foráneo, se requiere la formación de una estructura de doble omega como intermediario de recombinación. Cuanto mayor sea la modificación, menor será la estabilidad de la estructura. En tipos celulares distintos de los embriones en estadio unicelular, se pueden usar LTVEC que tengan una suma total de 10 kb o más de homología total. Los LTVEC con brazos de homología que tienen una homología total de 10 kb o más aumentan la estabilidad del intermedio de recombinación doble omega para facilitar una gran deleción y reemplazo simultáneos mediados por nucleasas por un inserto de ácido nucleico grande y permiten además no solo las rupturas de doble cadena adyacentes a las regiones de homología para mejorar la eficiencia del direccionamiento, sino que también permiten que los que están lejos de las regiones de homología mejoren la eficiencia del direccionamiento.

Para las modificaciones génicas que implican humanizaciones muy grandes, la combinación de un vector de direccionamiento con un sistema de nucleasas CRISPR/Cas9 guiado por dos ARNg puede mejorar aún más la eficiencia de direccionamiento más allá de la alcanzada con un solo ARNg (véanse las humanizaciones de Lrp5, C5 (Hc), Ror1 y Trpa1 en el Ejemplo 1). El uso de dos ARNg produce resultados inesperados en este sentido. En comparación con el direccionamiento con un solo ARNg, que produce modificaciones bialélicas con una frecuencia baja o no produce ninguna modificación, el direccionamiento con dos ARNg resulta en la creación de células dirigidas homocigóticamente, células eliminadas homocigóticamente y células compuestas dirigidas de forma heterocigótica (incluidas las células dirigidas de forma hemicigótica) a una tasa significativamente mayor.

El método para crear tres tipos de alelos: dirigidos homocigóticamente, eliminados homocigóticamente y compuestos dirigidos de forma heterocigótica (particularmente dirigidos de forma hemicigótica) en un solo experimento de direccionamiento ofrece nuevas posibilidades y una mayor eficiencia para las modificaciones genéticas dirigidas. Para una modificación genética simple, tal como la deleción dirigida de un gen en las células ES de ratón y su reemplazo por una secuencia que codifica una proteína que reporta la expresión génica (p. ej., la p-galactosidasa o una proteína fluorescente), la combinación de un vector de direccionamiento con un sistema CRISPR/Cas9 guiado por dos ARNg mejora la producción de células ES dirigidas de forma heterocigótica, que después pueden ser utilizadas para producir ratones de la generación F0 totalmente derivados de células ES por el método VelociMouse®. Véase Poueymirou y col.

(2007) Nat. Biotech. 25:91-99. Estos ratones son útiles para estudiar la expresión génica específica de un tejido con el alelo reportero de inserción. Los clones de células ES dirigidos homocigóticamente producidos en el mismo experimento pueden convertirse en VelociMice con una deleción génica dirigida homocigóticamente, que puede estudiarse para determinar las consecuencias fenotípicas de la inactivación del gen, así como la expresión génica del reportero. La producción de VelociMice a partir de células ES que tienen una deleción del gen diana inducida por el CRISPR homocigótico permite la verificación del fenotipo inactivado observado en los ratones diana homocigotos y puede revelar diferencias fenotípicas entre una deleción génica limpia y una deleción acompañada de la inserción del reportero y un casete de selección de fármacos. Los clones de células ES heterocigotas compuestas (y particularmente hemicigotas) que portan tanto el alelo de deleción-inserción dirigido como la deleción inducida por CRlSPR permiten la producción de VelociMice con las mismas oportunidades de estudio que los derivados de los clones dirigidos homocigóticamente y eliminados homocigóticamente. Además, estos ratones pueden criarse para establecer líneas de ratones mutantes por deleción simple y dirigida a partir de un único clon de células ES.

Estas ventajas tienen un valor añadido cuando se extienden al caso de una humanización. Un uso importante de la humanización de un gen murino es crear un modelo animal en el que probar una terapéutica específica para humanos. Para que la humanización sea un modelo eficaz, el gen murino debe eliminarse o inactivarse para evitar interacciones entre los productos génicos murinos y los humanos que puedan afectar la función biológica o la interacción adecuada con el fármaco. Al mismo tiempo, el gen humano debe poder sustituir las funciones biológicas de su homólogo murino. Estos requisitos se pueden probar combinando una nucleasa Cas9 guiada por dos ARNg con un vector de direccionamiento diseñado para eliminar simultáneamente un gen murino y reemplazarlo por el gen humano. Los VelociMice derivados de células ES que tienen una humanización dirigida homocigóticamente pueden compararse con los VelociMice derivados de células ES que tienen una deleción homocigótica inducida por CRISPR del gen murino. Si la deleción por inactivación provoca un fenotipo mutante observable y los ratones humanizados no expresan este fenotipo sino que son normales, entonces el gen humano puede sustituir las funciones biológicas del gen murino. Los ratones humanizados homocigotos o los que portan una combinación compuesta heterocigótica (p. ej., hemicigota) de un alelo humanizado y un alelo de deleción inducido por CRISPR pueden usarse como modelos animales para estudiar el mecanismo de acción y la eficacia del agente terapéutico específico para humanos. Los VelociMice compuestos heterocigotos (p. ej., hemicigotos) también se pueden usar para generar líneas de ratones humanizadas y eliminadas por deleción mediante reproducción convencional. Por lo tanto, a partir de un experimento de direccionamiento de un solo gen que combina un sistema CRISPR de dos ARNg con un vector de direccionamiento, se producen ratones modificados genéticamente que crean modelos de ratón valiosos para los ensayos preclínicos de una línea terapéutica y de desactivación para estudiar la función biológica del homólogo murino del fármaco objetivo humano.

(1) Métodos que generan, promueven o aumentan la frecuencia de las modificaciones genéticas bialélicas

Los métodos, tal como se caracterizan en las reivindicaciones, se proporcionan en la presente memoria para realizar modificaciones bialélicas en un genoma dentro de una célula o para promover o aumentar la frecuencia de las modificaciones bialélicas en un genoma dentro de una célula. Tales métodos pueden resultar, por ejemplo, en el colapso de un genoma para eliminar una gran sección de ADN genómico entre dos secuencias de a Dn genómico que posteriormente se recombinan. Tales métodos también pueden resultar en la inserción de un inserto de ácido nucleico o la deleción de una gran sección de ADN genómico y la sustitución por un inserto de ácido nucleico.

Los métodos proporcionados en la presente memoria para modificar un genoma dentro de una célula comprenden contactar el genoma con una proteína Cas, un primer ARN CRISPR que se hibrida con una primera secuencia de reconocimiento de ARN CRISPR dentro de un locus diana genómico, un segundo ARN CRISPR que se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR dentro del locus diana genómico y un ARNtracr. Opcionalmente, el genoma puede contactarse además con ARN CRISPR adicionales que se hibridan con secuencias de reconocimiento de ARN CRISPR dentro del locus diana genómico, tal como un tercer ARN CRISPR que se hibrida con una tercera secuencia de reconocimiento de ARN CRISPR dentro del locus diana genómico y/o un cuarto ARN CRISPR que se hibrida con una cuarta secuencia de reconocimiento de ARN CRISPR dentro del locus diana genómico. Las modificaciones bialélicas se pueden generar contactando el genoma con una proteína Cas, un primer ARN CRISPR que se hibrida con una primera secuencia de reconocimiento de ARN CRISPR dentro de un locus diana genómico, un segundo ARN CRISPR que se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR dentro del locus diana genómico y un ARNtracr. Como se describe con más detalle a continuación, la proteína Cas, los ARN CRISPR y el ARNtracr se pueden introducir en la célula de cualquier forma y por cualquier medio. Del mismo modo, toda o parte de la proteína Cas, los ARN CRISPR y el ARNtracr se pueden introducir de forma simultánea o secuencial en cualquier combinación. El contacto con el genoma puede producirse directamente (es decir, un componente entra en contacto directo con el propio genoma) o indirectamente (es decir, un componente interactúa con otro componente que entra en contacto directamente con el genoma).

El genoma puede comprender un par de cromosomas homólogos primero y segundo que comprenden el locus diana genómico. La proteína Cas escinde uno o ambos de estos cromosomas dentro de una o ambas secuencias de reconocimiento de ARN CRISPR primera y segunda (es decir, en un primer sitio de escisión dentro de la primera secuencia de reconocimiento de ARN CRISPR y/o en un segundo sitio de escisión dentro de la segunda secuencia de reconocimiento de ARN CRISPR). Si también se usan un tercer y/o cuarto ARN CRISPR, la proteína Cas puede escindir uno o ambos de estos cromosomas dentro de una o ambas de las secuencias de reconocimiento de ARN CRISPR tercera y/o cuarta (es decir, en un tercer sitio de escisión dentro de la tercera secuencia de reconocimiento de ARN CRISPR y/o en un cuarto sitio de escisión dentro de la cuarta secuencia de reconocimiento de ARN CRISPR). Los eventos de escisión pueden generar después al menos una ruptura de doble cadena en uno o ambos cromosomas. Los eventos de escisión también pueden generar al menos dos rupturas de doble cadena en uno o ambos cromosomas. Si se usan un tercer y/o cuarto ARN CRISPR, los eventos de escisión pueden generar al menos tres de las cuatro rupturas monocatenarias o de doble cadena en uno o ambos cromosomas. Las secuencias terminales generadas por las rupturas de doble cadena pueden someterse después a recombinación, o las secuencias terminales generadas por las rupturas monocatenarias pueden someterse después a recombinación. A continuación, se puede identificar una célula que tiene el genoma modificado que comprende la modificación bialélica.

Por ejemplo, la proteína Cas puede escindir el genoma en un primer sitio de escisión dentro de la primera secuencia de reconocimiento de ARN CRISPR en el primer y segundo cromosomas homólogos y en un segundo sitio de escisión dentro de la segunda secuencia de reconocimiento de ARN CRISPR en al menos el primer cromosoma homólogo, generando así secuencias terminales en el primer y segundo cromosomas homólogos. Las secuencias terminales pueden después someterse a recombinación para formar un genoma con una modificación bialélica que comprende una modificación dirigida. La modificación dirigida puede comprender una deleción entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR en al menos el primer cromosoma.

La primera y la segunda secuencias de reconocimiento de ARN CRISPR pueden estar en cualquier lugar dentro de un locus diana genómico. La primera y la segunda secuencias de reconocimiento de ARN CRISPR pueden flanquear cualquier región genómica de interés. Por ejemplo, la primera y la segunda secuencias de reconocimiento de ARN CRISPR pueden flanquear toda o parte de una secuencia codificante de un gen, tal como el locus Lrp5, el locus C5 (Hc), el locus Ror1 o el locus Trpa1. La primera y la segunda secuencias de reconocimiento de ARN CRISPR también pueden flanquear toda o parte de una secuencia codificante del gen Cmah. Alternativamente, la primera y la segunda secuencias de reconocimiento de ARN CRISPR pueden flanquear una secuencia no codificante, tal como un elemento regulador (p. ej., un promotor), o secuencias codificantes y no codificantes. La tercera y cuarta secuencias de reconocimiento de<a>R<n>CRISPR pueden estar, por ejemplo, en cualquier lugar dentro de la región genómica de interés que esté flanqueada por la primera y la segunda secuencia de reconocimiento de ARN CRISPR.

Como ejemplo, la tercera secuencia de reconocimiento de ARN CRISPR puede estar adyacente a la primera secuencia de reconocimiento de ARN CRISPR, y la cuarta secuencia de reconocimiento de ARN CRISPR puede estar adyacente a la segunda secuencia de reconocimiento de ARN CRISPR. Por lo tanto, la primera y la tercera secuencias de reconocimiento de ARN CRISPR pueden ser un primer par de secuencias de reconocimiento de ARN CRISPR, y la segunda y cuarta secuencias de reconocimiento de ARN CRISPR pueden ser un segundo par de secuencias de reconocimiento de ARN CRISPR. Por ejemplo, la primera y la tercera secuencias de reconocimiento de ARN CRISPR (y/o la segunda y cuarta secuencias de reconocimiento de ARN CRISPR) pueden estar separadas por de aproximadamente 25 pb a aproximadamente 50 pb, de aproximadamente 50 pb a aproximadamente 100 pb, de aproximadamente 100 pb a aproximadamente 150 pb, de aproximadamente 150 pb a aproximadamente 200 pb, de aproximadamente 200 pb a aproximadamente 250 pb, de aproximadamente 250 pb a aproximadamente 300 pb, de aproximadamente 300 pb a aproximadamente 350 pb, de aproximadamente 350 pb a aproximadamente 400 pb, de aproximadamente 400 pb a aproximadamente 450 pb, de aproximadamente 450 pb a aproximadamente 500 pb, de aproximadamente 500 pb a aproximadamente 600 pb, de aproximadamente 600 pb a aproximadamente 700 pb, de aproximadamente 700 pb a aproximadamente 800 pb, de aproximadamente 800 pb a aproximadamente 900 pb, de aproximadamente 900 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 1,5 kb, de aproximadamente 1,5 kb a aproximadamente 2 kb, de aproximadamente 2 kb a aproximadamente 2,5 kb, de aproximadamente 2,5 kb a aproximadamente 3 kb, de aproximadamente 3 kb a aproximadamente 3,5 kb, de aproximadamente 3,5 kb a aproximadamente 4 kb, de aproximadamente 4 kb a aproximadamente 4,5 kb, de aproximadamente 4,5 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 6 kb, de aproximadamente 6 kb a aproximadamente 7 kb, de aproximadamente 7 kb a aproximadamente 8 kb, de aproximadamente 8 kb a aproximadamente 9 kb o de aproximadamente 9 kb a aproximadamente 10 kb. Como ejemplo, la primera y la tercera secuencias de reconocimiento de ARN CRISPR (y/o la segunda y cuarta secuencias de reconocimiento de ARN CRISPR) pueden estar separadas entre aproximadamente 100 pb a aproximadamente 1 kb. Alternativamente, la primera y la tercera secuencias de reconocimiento de ARN CRISPR (y/o la segunda y cuarta secuencias de reconocimiento de ARN CRISPR) pueden solaparse.

El primer par de secuencias de reconocimiento de ARN CRISPR puede estar ubicado cerca del extremo 5' del locus diana genómico y el segundo par puede estar ubicado cerca del extremo 3' del locus diana genómico. Alternativamente, los pares primero y segundo pueden estar ubicados cerca del extremo 5' del locus diana genómico o ambos pueden estar ubicados cerca del extremo 3' del locus diana. Alternativamente, uno o ambos pares pueden estar ubicados internamente dentro del locus diana genómico. Por ejemplo, la primera secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de a Rn CRISPR pueden estar a menos de 25 pb, menos de 50 pb, menos de 100 pb, menos de 150 pb, menos de 200 pb, menos de 250 pb, menos de 300 pb, menos de 350 pb, menos de 400 pb, menos de 450 pb, menos de 500 pb, menos de 600 pb, menos de 700 pb, menos de 800 pb, menos de 900 pb, menos de 1 kb, menos de 2 kb, menos de 3 kb, menos de 4 kb, menos de 5 kb o menos de 10 kb del extremo 5' del locus diana genómico. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de ARN CRISPR pueden estar a menos de 25 pb, menos de 50 pb, menos de 100 pb, menos de 150 pb, menos de 200 pb, menos de 250 pb, menos de 300 pb, menos de 350 pb, menos de 400 pb, menos de 450 pb, menos de 500 pb, menos de 600 pb, menos de 700 pb, menos de 800 pb, menos de 900 pb, menos de 1 kb, menos de 2 kb, menos de 3 kb, menos de 4 kb, menos de 5 kb o menos de 10 kb del extremo 3' del locus diana genómico.

Alternativamente, la primera secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de ARN CRISPR pueden estar, por ejemplo, a al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb del extremo 5' del locus diana genómico. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de ARN CRISPR pueden estar, por ejemplo, al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos a 100 kb del extremo 3' del locus diana genómico.

Alternativamente, la primera secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de ARN CRISPR pueden estar, por ejemplo, de aproximadamente 25 pb a aproximadamente 50 pb, de aproximadamente 50 pb a aproximadamente 100 pb, de aproximadamente 100 pb a aproximadamente 150 pb, de aproximadamente 150 pb a aproximadamente 200 pb, de aproximadamente 200 pb a aproximadamente 250 pb, de aproximadamente 250 pb a aproximadamente 300 pb, de aproximadamente 300 pb a aproximadamente 350 pb, de aproximadamente 350 pb a aproximadamente 400 pb, de aproximadamente 400 pb a aproximadamente 450 pb, de aproximadamente 450 pb a aproximadamente 500 pb, de aproximadamente 500 pb a aproximadamente 600 pb, de aproximadamente 600 pb a aproximadamente 700 pb, de aproximadamente 700 pb a aproximadamente 800 pb, de aproximadamente 800 pb a aproximadamente 900 pb, de aproximadamente 900 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 2 kb, de aproximadamente 2 kb a aproximadamente 3 kb, de aproximadamente 3 kb a aproximadamente 4 kb, de aproximadamente 4 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 6 kb, de aproximadamente 6 kb a aproximadamente 7 kb, de aproximadamente 7 kb a aproximadamente 8 kb, de aproximadamente 8 kb a aproximadamente 9 kb, de aproximadamente 9 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb de aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 70 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 90 kb, o de aproximadamente 90 kb a aproximadamente 100 kb del extremo 5' del locus diana genómico. Alternativamente, la segunda secuencia de reconocimiento de ARN CRISPR o el primer par de secuencias de reconocimiento de ARN CRISPR pueden estar, por ejemplo, de aproximadamente 25 pb a aproximadamente 50 pb, de aproximadamente 50 pb a aproximadamente 100 pb, de aproximadamente 100 pb a aproximadamente 150 pb, de aproximadamente 150 pb a aproximadamente 200 pb, de aproximadamente 200 pb a aproximadamente 250 pb, de aproximadamente 250 pb a aproximadamente 300 pb, de aproximadamente 300 pb a aproximadamente 350 pb, de aproximadamente 350 pb a aproximadamente 400 pb, de aproximadamente 400 pb a aproximadamente 450 pb, de aproximadamente 450 pb a aproximadamente 500 pb, de aproximadamente 500 pb a aproximadamente 600 pb, de aproximadamente 600 pb a aproximadamente 700 pb, de aproximadamente 700 pb a aproximadamente 800 pb, de aproximadamente 800 pb a aproximadamente 900 pb, de aproximadamente 900 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 2 kb, de aproximadamente 2 kb a aproximadamente 3 kb, de aproximadamente 3 kb a aproximadamente 4 kb, de aproximadamente 4 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 6 kb, de aproximadamente 6 kb a aproximadamente 7 kb, de aproximadamente 7 kb a aproximadamente 8 kb, de aproximadamente 8 kb a aproximadamente 9 kb, de aproximadamente 9 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 70 kb, de aproximadamente 70 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 90 kb o de aproximadamente 90 kb a aproximadamente 100 kb del extremo 3' del locus diana genómico.

Los sitios de escisión primero y segundo o las secuencias de reconocimiento de ARN CRISPR primera y segunda pueden estar separados, por ejemplo, por de aproximadamente 1 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente de 60 kb a aproximadamente 80 kb, de aproximadamente de 80 kb a 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 1.5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2.5 Mb o de aproximadamente 2,5 Mb a aproximadamente 3 Mb. Los sitios de escisión primero y segundo o las secuencias de reconocimiento de ARN CRISPR primera y segunda también pueden estar separadas, por ejemplo, por entre de aproximadamente 3 Mb a aproximadamente 4 Mb, de aproximadamente 4 Mb a aproximadamente 5 Mb, de aproximadamente 5 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb. Los sitios de escisión primero y segundo o las secuencias de reconocimiento de ARN CRISPR primera y segunda también pueden estar separados, por ejemplo, por de aproximadamente 25 pb a aproximadamente 50 pb, de aproximadamente 50 pb a aproximadamente 100 pb, de aproximadamente 100 pb a aproximadamente 150 pb, de aproximadamente 150 pb a aproximadamente 200 pb, de aproximadamente 200 pb a aproximadamente 250 pb, de aproximadamente 250 pb a aproximadamente 300 pb, de aproximadamente 300 pb a aproximadamente 350 pb, de aproximadamente 350 pb a aproximadamente 400 pb, de aproximadamente 400 pb a aproximadamente 450 pb, de aproximadamente 450 pb a aproximadamente 500 pb, de aproximadamente 500 pb a aproximadamente 600 pb, de aproximadamente 600 pb a aproximadamente 700 pb, de aproximadamente 700 pb a aproximadamente 800 pb, de aproximadamente 800 pb a aproximadamente 900 pb o de aproximadamente 900 pb a aproximadamente 1 kb. Del mismo modo, el primer par de secuencias de reconocimiento de ARN CRISPR puede estar separado del segundo par de secuencias de reconocimiento de ARN CRISPR, por ejemplo, por de aproximadamente 25 pb a aproximadamente 50 pb, de aproximadamente 50 pb a aproximadamente 100 pb, de aproximadamente 100 pb a aproximadamente 150 pb, de aproximadamente 150 pb a aproximadamente 200 pb, de aproximadamente 200 pb a aproximadamente 250 pb, de aproximadamente 250 pb a aproximadamente 300 pb, de aproximadamente 300 pb a aproximadamente 350 pb, de aproximadamente 350 pb a aproximadamente 400 pb, de aproximadamente 400 pb a aproximadamente 450 pb, de aproximadamente 450 pb a aproximadamente 500 pb, de aproximadamente 500 pb a aproximadamente 600 pb, de aproximadamente 600 pb a aproximadamente 700 pb, de aproximadamente 700 pb a aproximadamente 800 pb, de aproximadamente 800 pb a aproximadamente 900 pb, de aproximadamente 900 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 1,5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2,5 Mb, de aproximadamente 2,5 Mb a aproximadamente 3 Mb, de aproximadamente 3 Mb a aproximadamente 4 Mb, de aproximadamente 4 Mb a aproximadamente 5 Mb, aproximadamente De 5 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb, o de aproximadamente 90 Mb a aproximadamente 100 Mb.

Alternativamente, los sitios de escisión primero y segundo o las secuencias de reconocimiento de ARN CRISPR primera y segunda pueden estar separados, por ejemplo, por al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb, o al menos 500 kb o más. Del mismo modo, el primer par de secuencias de reconocimiento de ARN CRISPR puede estar separado del segundo par de secuencias de reconocimiento de ARN CRISPR, por ejemplo, en al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb, o al menos 500 kb o más.

Alternativamente, los sitios de escisión primero y segundo o las secuencias de reconocimiento de ARN CRISPR primera y segunda pueden estar separadas por menos de 25 pb, menos de 50 pb, menos de 100 pb, menos de 150 pb, menos de 200 pb, menos de 250 pb, menos de 300 pb, menos de 350 pb, menos de 400 pb, menos de 450 pb, menos de 500 pb, menos de 600 pb, menos de 700 pb, menos de 800 pb, menos más de 900 pb, menos de 1 kb, menos de 2 kb, menos de 3 kb, menos de 4 kb, menos de 5 kb o menos de 10 kb. Del mismo modo, el primer par de secuencias de reconocimiento de ARN CRISPR puede estar separado del segundo par de secuencias de reconocimiento de ARN CRISPR, por ejemplo, por menos de 25 pb, menos de 50 pb, menos de 100 pb, menos de 150 pb, menos de 200 pb, menos de 250 pb, menos de 300 pb, menos de 350 pb, menos de 400 pb, menos de 450 pb, menos de 500 pb, menos de 600 pb, menos de 700 pb. menos de 800 pb, menos de 900 pb, menos de 1 kb, menos de 2 kb, menos de 3 kb, menos de 4 kb, menos de 5 kb o menos de 10 kb.

Las secuencias terminales creadas por la escisión del genoma en el primer y/o segundo sitio de escisión pueden ser extremos romos o extremos escalonados, y la deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR puede incluir la totalidad o parte de la secuencia de ácido nucleico entre e incluyendo la primera y la segunda secuencias de reconocimiento de ARN CRISPR. Del mismo modo, las secuencias terminales creadas por la escisión del genoma en los sitios de escisión tercero y/o cuarto pueden ser extremos romos o extremos escalonados. Por ejemplo, la deleción puede incluir solo una porción de la secuencia de ácido nucleico entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR y/o solo una porción de la primera secuencia de reconocimiento de ARN CRISPR y/o la segunda secuencia de reconocimiento de ARN CRISPR. Alternativamente, la deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR puede incluir la totalidad de la secuencia de ácido nucleico entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR. Del mismo modo, la deleción puede incluir la primera secuencia de reconocimiento de ARN CRISPR y/o la segunda secuencia de reconocimiento de ARN CRISPR, o porciones de las mismas. En algunos casos, la deleción comprende además secuencias localizadas fuera de la primera y segunda secuencias de reconocimiento de ARN CRISPR (es decir, secuencias que no incluyen ni están ubicadas entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR).

La deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR puede ser de cualquier longitud. Por ejemplo, el ácido nucleico eliminado puede ser de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 60 kb, de aproximadamente 60 kb a aproximadamente 80 kb, de aproximadamente 80 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, o de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, de aproximadamente 400 kb a aproximadamente 500 kb, de aproximadamente 500 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 1,5 Mb, de aproximadamente 1,5 Mb a aproximadamente 2 Mb, de aproximadamente 2 Mb a aproximadamente 2,5 Mb, o de aproximadamente 2,5 Mb a aproximadamente 3 Mb.

Alternativamente, el ácido nucleico eliminado puede ser, por ejemplo, de al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb, o al menos 500 kb o más. En algunos casos, el ácido nucleico suprimido puede ser de al 550 kb, al menos 600 kb, al menos 650 kb, al menos 700 kb, al menos 750 kb, al menos 800 kb, al menos 850 kb, al menos 900 kb, al menos 950 kb, al menos 1 Mb, al menos 1,5 Mb, al menos 2 Mb, al menos 2,5 Mb, al menos 3 Mb, al menos 4 Mb, al menos 5 Mb, al menos 10 Mb, al menos 20 Mb, al menos 30 Mb, al menos 40 Mb, al menos 50 Mb, al menos 60 Mb, al menos 70 Mb, al menos 80 Mb, al menos 90 Mb, o al menos 100 Mb (p. ej., la mayor parte de un cromosoma).

La deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR puede ser una deleción precisa en donde el ácido nucleico eliminado consiste solo en la secuencia de ácido nucleico entre el primer y el segundo sitio de escisión de la proteína Cas, de modo que no haya deleciones ni inserciones adicionales en el locus diana genómico modificado. La deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR también puede ser una deleción imprecisa que se extienda más allá de los sitios de escisión de la proteína Cas primero y segundo, coherente con una reparación imprecisa por unión de extremos no homólogos (NHE<j>), lo que resulta en deleciones y/o inserciones adicionales en el locus genómico modificado. Por ejemplo, la deleción puede extenderse aproximadamente 1 pb, aproximadamente 2 pb, aproximadamente 3 pb, aproximadamente 4 pb, aproximadamente 5 pb, aproximadamente 10 pb, aproximadamente 20 pb, aproximadamente 30 pb, aproximadamente 40 pb, aproximadamente 50 pb, aproximadamente 100 pb, aproximadamente 200 pb, aproximadamente 300 pb, aproximadamente 400 pb, aproximadamente 500 pb, o más más allá del primer y segundo sitios de escisión de la proteína Cas. Del mismo modo, el locus genómico modificado puede comprender inserciones adicionales coherentes con una reparación imprecisa por NHEJ, tales como inserciones de aproximadamente 1 pb, aproximadamente 2 pb, aproximadamente 3 pb, aproximadamente 4 pb, aproximadamente 5 pb, aproximadamente 10 pb, aproximadamente 20 pb, aproximadamente 30 pb, aproximadamente 40 pb, aproximadamente 50 pb, aproximadamente 100 pb, aproximadamente 200 pb, aproximadamente 300 pb, aproximadamente 400 pb, aproximadamente 500 pb o más.

El contacto puede producirse en ausencia de una secuencia donante exógena o en presencia de una secuencia donante exógena, siempre que si la célula es un embrión en estadio unicelular, la secuencia donante exógena no tenga más de 5 kb de longitud. Las moléculas o secuencias exógenas incluyen moléculas o secuencias que normalmente no están presentes en una célula. La presencia normal incluye la presencia con relación a la etapa particular de desarrollo y las condiciones ambientales de la célula. Una molécula o secuencia exógena, por ejemplo, puede incluir una versión mutada de una secuencia endógena correspondiente dentro de la célula, tal como una versión humanizada de la secuencia endógena. Por el contrario, las moléculas o secuencias endógenas incluyen moléculas o secuencias que están presentes normalmente en una célula particular en una etapa de desarrollo particular en condiciones ambientales particulares.

La secuencia donante exógena puede estar dentro de un vector de direccionamiento y puede comprender un inserto de ácido nucleico flanqueado por brazos de homología 5' y 3' que corresponden a secuencias diana de 5' y 3' dentro del genoma, siempre que si la célula es un embrión en estadio unicelular, el vector de direccionamiento no tenga más de 5 kb de longitud. En tipos celulares distintos de los embriones en estadio unicelular, el vector de direccionamiento puede ser más largo. En tipos celulares distintos de los embriones en estadio unicelular, el vector de direccionamiento puede ser, por ejemplo, un vector de direccionamiento grande (LTVEC) como se describe en la presente memoria, y puede tener al menos 10 kb. Por lo tanto, en algunos métodos, el genoma se contacta adicionalmente con un vector de direccionamiento y el inserto de ácido nucleico se inserta entre las secuencias diana 5' y 3'.

Alternativamente, la secuencia donante exógena puede comprender brazos de homología 5' y 3' sin ningún inserto de ácido nucleico. Tales vectores de direccionamiento sin ningún inserto de ácido nucleico pueden facilitar las deleciones precisas entre las secuencias diana 5' y 3' dentro del genoma. Tales deleciones precisas pueden ser, por ejemplo, de al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb, al menos 500 kb, al menos 550 kb, al menos 600 kb, al menos 650 kb, al menos 700 kb, al menos 750 kb, al menos 800 kb, al menos 850 kb, al menos 900 kb, al menos 950 kb, al menos 1 Mb, al menos 1,5 Mb o al menos 2 Mb o más.

En algunos de estos métodos, los brazos de homología 5' y 3' corresponden a secuencias diana 5' y 3' en el locus diana genómico que comprende la primera secuencia de reconocimiento de ARN CRISPR del primer ARN CRISPR y/o la segunda secuencia de reconocimiento de ARN CRISPR del segundo ARN CRISPR. La primera y la segunda secuencias de reconocimiento de ARN CRISPR o los sitios de escisión primero y segundo pueden estar adyacentes a la secuencia diana 5', adyacentes a la secuencia diana 3' o no adyacentes ni a las secuencias diana 5' ni a la secuencia diana 3'. Alternativamente, la primera secuencia de reconocimiento de ARN CRISPR o el primer sitio de escisión pueden estar adyacentes a la secuencia diana 5', y la segunda secuencia de reconocimiento de ARN CRISPR o el segundo sitio de escisión pueden estar adyacentes a la secuencia diana 3'. Alternativamente, la primera secuencia de reconocimiento de ARN CRISPR o el primer sitio de escisión pueden estar adyacentes a la secuencia diana 5' o a la secuencia diana 3', y la segunda secuencia de reconocimiento de ARN CRISPR o el segundo sitio de escisión no pueden estar adyacentes ni a la secuencia diana 5' ni a la secuencia diana 3'.

Por ejemplo, la primera y/o la segunda secuencia de reconocimiento de ARN CRISPR pueden estar ubicadas entre las secuencias diana 5' y 3' o pueden estar adyacentes o cerca de la secuencia diana 5' y/o la secuencia diana 3', tal como dentro de 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb kb, 80 kb, 90 kb, 100 kb, 110 kb, 120 kb, 130 kb, 140 kb, 150 kb, 160 kb, 170 kb, 180 kb, 190 kb, 200 kb, 250 kb, 300 kb, 350 kb, 400 kb, 450 kb o 500 kb de las secuencias diana 5' y/o 3'. Del mismo modo, los sitios de escisión primero y/o segundo pueden estar ubicados entre las secuencias diana 5' y 3' o pueden estar adyacentes o cerca de la secuencia diana 5' y/o la secuencia diana 3', tal como dentro de 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb kb, 90 kb, 100 kb, 110 kb, 120 kb, 130 kb, 140 kb, 150 kb, 160 kb, 170 kb, 180 kb, 190 kb, 200 kb, 250 kb, 300 kb, 350 kb, 400 kb, 450 kb o 500 kb de las secuencias diana 5' y/o 3'. Por ejemplo, la primera secuencia de reconocimiento de ARN CRISPR o el primer sitio de escisión pueden estar dentro de 50 pb, 100 pb, 200 pb, 300 pb, 400 pb, 500 pb, 600 pb, 700 pb, 800 pb, 900 pb, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 110 kb, 120 kb, 130 kb, 140 kb, 150 kb, 160 kb, 170 kb, 180 kb, 190 kb, 200 kb, 250 kb, 300 kb, 350 kb, 400 kb, 450 kb o 500 kb de la secuencia diana 5' o ambas secuencias diana 5' y 3'. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR o el segundo sitio de escisión pueden estar dentro de 50 pb, 100 pb, 200 pb, 300 pb, 400 pb, 500 pb, 600 pb, 700 pb, 800 pb, 900 pb, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 110 kb, 120 kb, 130 kb, 140 kb, 150 kb, 160 kb, 170 kb, 180 kb, 190 kb, 200 kb, 250 kb, 300 kb, 350 kb, 400 kb, 450 kb o 500 kb de la secuencia diana 3' o de las secuencias diana 5' y 3'.

Alternativamente, la primera y/o la segunda secuencia de reconocimiento de ARN CRISPR pueden estar ubicadas a al menos 50 pb, al menos 100 pb, al menos 200 pb, al menos 300 pb, al menos 400 pb, al menos 500 pb, al menos 600 pb, al menos 700 pb, al menos 800 pb, al menos 900 pb, al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 6 kb, al menos 7 kb, al menos 8 kb, al menos 9 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb de las secuencias diana 5' y/o 3'. Del mismo modo, los sitios de escisión primero y/o segundo pueden estar ubicados a al menos 50 pb, al menos 100 pb, al menos 200 pb, al menos 300 pb, al menos 400 pb, al menos 500 pb, al menos 600 pb, al menos 700 pb, al menos 800 pb, al menos 900 pb, al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 6 kb, al menos 7 kb, al menos 8 kb, al menos 9 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, en al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb de las secuencias diana 5' y/o 3'. Por ejemplo, la primera secuencia de reconocimiento de ARN CRISPR

o el primer sitio de escisión pueden estar ubicados a al menos 50 pb, al menos 100 pb, al menos 200 pb, al menos

300 pb, al menos 400 pb, al menos 500 pb, al menos 600 pb, al menos 700 pb, al menos 800 pb, al menos 900 pb, al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 6 kb, al menos 7 kb, al menos

8 kb, al menos 9 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos

130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos 180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos

500 kb de la secuencia diana 5' o de las secuencias diana 5' y 3'. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR del segundo sitio de escisión puede estar ubicada a al menos 50 pb, al menos 100 pb, al menos 200 pb, al menos 300 pb, al menos 400 pb, al menos 500 pb, al menos 600 pb, al menos 700 pb, al menos

800 pb, al menos 900 pb, al menos 1 kb, al menos 2 kb, al menos 3 kb, al menos 4 kb, al menos 5 kb, al menos 6 kb, al menos 7 kb, al menos 8 kb, al menos 9 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 110 kb, al menos 120 kb, al menos 130 kb, al menos 140 kb, al menos 150 kb, al menos 160 kb, al menos 170 kb, al menos

180 kb, al menos 190 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb de la secuencia diana 3' o de las secuencias diana 5' y 3'.

Por ejemplo, la primera y/o la segunda secuencia de reconocimiento de ARN CRISPR pueden estar ubicadas entre aproximadamente 50 pb y aproximadamente 100 pb, aproximadamente 200 pb a aproximadamente 300 pb, aproximadamente 300 pb a aproximadamente 400 pb, aproximadamente 400 pb a aproximadamente 500 pb, aproximadamente 500 pb a aproximadamente 600 pb, aproximadamente 600 pb a aproximadamente 700 pb, aproximadamente 700 pb a aproximadamente 800 pb, aproximadamente 800 pb a aproximadamente 900 pb, aproximadamente 900 pb a aproximadamente 1 kb, aproximadamente 1 kb a aproximadamente 2 kb, de aproximadamente

2 kb a aproximadamente 3 kb, de aproximadamente 3 kb a aproximadamente 4 kb, de aproximadamente 4 kb a aproximadamente 5 kb, de aproximadamente 5 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 20 kb, de aproximadamente 20 kb a aproximadamente 30 kb, de aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, o de aproximadamente 400 kb a aproximadamente 500 kb de las secuencias diana 5' y/o 3'. Del mismo modo, los sitios de escisión primero y/o segundo pueden estar ubicados entre aproximadamente 50 pb a aproximadamente 100 pb, aproximadamente 200 pb a aproximadamente 300 pb, aproximadamente 300 pb a aproximadamente 400 pb, aproximadamente 400 pb a aproximadamente 500 pb, aproximadamente 500 pb a aproximadamente 600 pb, aproximadamente 600 pb a aproximadamente 700 pb, aproximadamente 700 pb a aproximadamente 800 pb, aproximadamente 800 pb a aproximadamente 900 pb, aproximadamente 900 pb a aproximadamente 1 kb, aproximadamente 1 kb a aproximadamente 2 kb, aproximadamente 2 kb a aproximadamente 3 kb, aproximadamente 3 kb a aproximadamente 4 kb, aproximadamente 4 kb a aproximadamente 5 kb, aproximadamente 5 kb a aproximadamente 10 kb, aproximadamente 10 kb a aproximadamente 20 kb, aproximadamente 20 kb a aproximadamente

30 kb, aproximadamente 30 kb a aproximadamente 40 kb, aproximadamente 40 kb a aproximadamente 50 kb, aproximadamente 50 kb a aproximadamente 100 kb, aproximadamente 100 kb a aproximadamente 150 kb, aproximadamente 150 kb a aproximadamente 200 kb, aproximadamente 200 kb a aproximadamente 300 kb, aproximadamente 300 kb a aproximadamente 400 kb, o aproximadamente 400 kb a aproximadamente 500 kb de las secuencias diana 5' y/o 3'. Por ejemplo, la primera secuencia de reconocimiento de ARN CRISPR o el primer sitio de escisión pueden estar ubicados entre aproximadamente 50 pb a aproximadamente 100 pb, aproximadamente 200 pb a aproximadamente 300 pb, aproximadamente 300 pb a aproximadamente 400 pb, aproximadamente 400 pb a aproximadamente 500 pb, aproximadamente 500 pb a aproximadamente 600 pb, aproximadamente 600 pb a aproximadamente 700 pb, aproximadamente 700 pb a aproximadamente 800 pb, aproximadamente 800 pb a aproximadamente 900 pb, aproximadamente 900 pb a aproximadamente 1 kb, aproximadamente 1 kb a aproximadamente

2 kb, aproximadamente 2 kb a aproximadamente 3 kb, aproximadamente 3 kb a aproximadamente 4 kb, aproximadamente

4 kb a aproximadamente 5 kb, aproximadamente 5 kb a aproximadamente 10 kb, aproximadamente 10 kb a aproximadamente 20 kb, aproximadamente 20 kb a aproximadamente 30 kb, aproximadamente 30 kb a aproximadamente

40 kb, aproximadamente 40 kb a aproximadamente 50 kb, aproximadamente 50 kb a aproximadamente 100 kb, aproximadamente 100 kb a aproximadamente 150 kb, aproximadamente 150 kb a aproximadamente 200 kb, a aproximadamente 200 kb a aproximadamente 300 kb, aproximadamente 300 kb a aproximadamente 400 kb, o aproximadamente 400 kb a aproximadamente 500 kb de la secuencia diana 5' o de ambas secuencias diana 5' y 3'. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR o el segundo sitio de escisión pueden estar ubicados entre aproximadamente 50 pb a aproximadamente 100 pb, aproximadamente 200 pb a aproximadamente 300 pb, aproximadamente 300 pb a aproximadamente 400 pb, aproximadamente 400 pb a aproximadamente 500 pb aproximadamente 500 pb aproximadamente 600 pb, aproximadamente 600 pb a aproximadamente 700 pb aproximadamente 700 pb a aproximadamente 800 pb, aproximadamente 800 pb a aproximadamente 900 pb aproximadamente 900 pb a aproximadamente 1 kb, aproximadamente 1 kb a aproximadamente 2 kb, aproximadamente

2 kb a aproximadamente 3 kb, aproximadamente 3 kb a aproximadamente 4 kb, aproximadamente 4 kb a aproximadamente

5 kb, aproximadamente 5 kb a aproximadamente 10 kb, aproximadamente 10 kb a aproximadamente 20 kb, aproximadamente 20 kb a aproximadamente 30 kb, aproximadamente 30 kb a aproximadamente 40 kb, de aproximadamente 40 kb a aproximadamente 50 kb, de aproximadamente 50 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 150 kb, de aproximadamente 150 kb a aproximadamente 200 kb, de aproximadamente 200 kb a aproximadamente 300 kb, de aproximadamente 300 kb a aproximadamente 400 kb, o de aproximadamente 400 kb a aproximadamente 500 kb de la secuencia diana 3' o de ambas secuencias diana 5' y 3'.

Alternativamente, la primera y/o la segunda secuencia de reconocimiento de ARN CRISPR o los sitios de escisión primero y/o segundo pueden estar ubicadas a más de 50 pb, más de 100 pb, más de 200 pb, más de 300 pb, más de 400 pb, más de 500 pb, más de 600 pb, más de 700 pb, más de 800 pb, más de 900 pb, más de 1 kb, más de 2 kb, más de 3 kb, más de 4 kb, más de 5 kb, más de 6 kb, más de 7 kb, más de 8 kb, más de 9 kb, más de 10 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o más de 100 kb de las secuencias diana 5' y/o 3'. Por ejemplo, la primera secuencia de reconocimiento de ARN CRISPR o el primer sitio de escisión pueden estar ubicados a más de 50 pb, más de 100 pb, más de 200 pb, más de 300 pb, más de 400 pb, más de 500 pb, más de 600 pb, más de 700 pb, más de 800 pb, más de 900 pb, más de 1 kb, más de 2 kb, más de 3 kb, más de 4 kb, más de 5 kb, más de 6 kb, más de 7 kb, más de 8 kb, más de 9 kb, más de 10 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb, o más de 100 kb de la secuencia diana 5' o de las secuencias diana 5' y 3'. Del mismo modo, la segunda secuencia de reconocimiento de ARN CRISPR o el segundo sitio de escisión pueden estar ubicados a más de 50 pb, más de 100 pb, más de 200 pb, más de 300 pb, más de 400 pb, más de 500 pb, más de 600 pb, más de 700 pb, más de 800 pb, más de 900 pb, más de 1 kb, más de 2 kb, más de 3 kb, más de 4 kb, más de 5 kb, más de 6 kb, más de 7 kb, más de 8 kb, más de 9 kb, más de 10 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb, o más de 100 kb de la secuencia diana 3' o de las secuencias diana 5' y 3'.

Los métodos descritos en la presente memoria promueven y aumentan la frecuencia de las modificaciones bialélicas. En particular, al contactar el genoma con el primer ARN CRISPR y el segundo ARN CRISPR, se puede aumentar la eficiencia de producir modificaciones bialélicas en comparación con contactar el genoma con el primer ARN CRISPR o el segundo ARN CRISPR por sí solo. La eficiencia de la producción de modificaciones bialélicas también se puede aumentar contactando el genoma con el primer, segundo y tercer ARN CRISPR, o con el primer, segundo, tercer y cuarto ARN CRISPR. Las modificaciones bialélicas incluyen eventos en los que se realiza la misma modificación en el mismo locus en los cromosomas homólogos correspondientes (p. ej., en una célula diploide), o en los que se realizan diferentes modificaciones en el mismo locus en los cromosomas homólogos correspondientes. Los cromosomas homólogos incluyen cromosomas que tienen los mismos genes en los mismos loci, pero posiblemente alelos diferentes (p. ej., cromosomas que se emparejan durante la meiosis). El término alelo incluye cualquiera de una o más formas alternativas de una secuencia genética. En una célula u organismo diploide, los dos alelos de una secuencia dada típicamente ocupan los loci correspondientes en un par de cromosomas homólogos.

Una modificación bialélica puede resultar en homocigosidad para una modificación dirigida o heterocigosidad compuesta (p. ej., hemicigosidad) para la modificación dirigida. Un solo experimento de direccionamiento con una población de células puede producir células que son homocigotas para una modificación dirigida (p. ej., la humanización de un locus), células que son heterocigotas compuestas para esa modificación dirigida (incluidas las células que son hemicigotas para la modificación dirigida) y células que se colapsan homocigóticamente entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR (es decir, se elimina una gran secuencia de ácido nucleico entre dos secuencias de reconocimiento de ARN CRISPR). La homocigosidad incluye situaciones en las que ambos alelos de un locus diana (es decir, los alelos correspondientes en ambos cromosomas homólogos) tienen la modificación dirigida. La heterocigosidad compuesta incluye situaciones en las que ambos alelos del locus diana (es decir, los alelos de ambos cromosomas homólogos) se han modificado, pero se han modificado de diferentes maneras (p. ej., una modificación dirigida en un alelo e inactivación o alteración del otro alelo). La alteración de la secuencia de ácidos nucleicos endógena puede producirse, por ejemplo, cuando una ruptura de doble cadena creada por la proteína Cas se repara mediante la reparación del ADN mediada por la unión de extremos no homólogos (NHEJ), lo que genera un alelo mutante que comprende una inserción o una deleción de una secuencia de ácido nucleico y, por lo tanto, provoca la alteración de ese locus genómico. Los ejemplos de alteración incluyen la alteración de un elemento regulador (p. ej., un promotor o un potenciador), una mutación de aminoácido, una mutación terminadora, una mutación de marco de lectura, una mutación por truncamiento, una mutación amórfica o una inserción o deleción de un pequeño número de nucleótidos (p. ej., que provoca una mutación de marco de lectura). La alteración puede resultar en la inactivación (es decir, la pérdida de la función) o la pérdida del alelo.

Por ejemplo, una modificación bialélica puede resultar en una heterocigosidad del compuesto si la célula tiene un alelo con la modificación dirigida y otro alelo que no es capaz de expresarse o no es funcional de cualquier otra manera. La heterocigosidad del compuesto incluye la hemicigosidad. La hemicigosidad incluye situaciones en las que solo está presente un alelo (es decir, un alelo en uno de los dos cromosomas homólogos) del locus diana. Por ejemplo, una modificación bialélica puede resultar en hemicigosidad para una modificación dirigida si la modificación dirigida se produce en un alelo con la correspondiente pérdida o deleción del otro alelo.

En un ejemplo específico, la modificación bialélica puede comprender una deleción entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR en el par de cromosomas homólogos primero y segundo. Las deleciones pueden ocurrir simultáneamente, o la deleción puede ocurrir inicialmente en el primer cromosoma homólogo, y la célula alcanza después la homocigosidad utilizando el primer cromosoma homólogo como secuencia donante para reparar una o más rupturas de doble cadena en el segundo cromosoma homólogo mediante recombinación homóloga, tal como mediante conversión génica. La secuencia de ácido nucleico eliminada en el primer y segundo cromosomas homólogos puede ser la misma, solaparse parcialmente o ser diferente. Alternativamente, la modificación bialélica puede comprender una deleción entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR en el primer cromosoma homólogo y la pérdida del alelo o locus correspondiente en el segundo cromosoma homólogo. Alternativamente, la modificación bialélica puede comprender una deleción entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR en el primer cromosoma homólogo y la inactivación o alteración del alelo o locus correspondiente entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR en el segundo cromosoma homólogo.

Si se usa una secuencia donante, la modificación bialélica puede comprender una deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR, así como una inserción del inserto de ácido nucleico entre las secuencias diana 5' y 3' en el par de cromosomas homólogos primero y segundo, lo que resulta en un genoma modificado homocigoto. La deleción y la inserción pueden ocurrir simultáneamente en ambos cromosomas, o la deleción e inserción pueden ocurrir inicialmente en el primer cromosoma homólogo, y la célula alcanza después la homocigosidad utilizando el primer cromosoma homólogo como secuencia donante para reparar las rupturas de doble cadena del segundo cromosoma homólogo mediante recombinación homóloga, tal como conversión génica. Por ejemplo, sin pretender ceñirse a ninguna teoría en particular, la inserción del inserto de ácido nucleico podría producirse en el primer cromosoma homólogo (con o sin escisión por la proteína Cas), y el segundo cromosoma homólogo puede modificarse después mediante un evento de conversión génica que es estimulado por la escisión por la proteína Cas en el segundo cromosoma homólogo.

Alternativamente, la modificación bialélica puede resultar en un genoma modificado heterocigoto compuesto. Por ejemplo, la modificación dirigida puede comprender una deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR tanto en el primer como en el segundo cromosoma homólogo y una inserción del inserto de ácido nucleico en el primer cromosoma homólogo, pero no en el segundo cromosoma homólogo. Alternativamente, la modificación dirigida puede comprender una deleción entre la primera y la segunda secuencias de reconocimiento de ARN CRISPR, así como la inserción del inserto de ácido nucleico en el primer cromosoma homólogo y la inactivación o alteración del alelo o locus correspondiente en el segundo cromosoma homólogo. Alternativamente, la modificación bialélica puede resultar en un genoma modificado hemicigoto en el que la modificación dirigida puede comprender una deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR, así como la inserción del inserto de ácido nucleico en el primer cromosoma homólogo y la pérdida o deleción del alelo o locus correspondiente en el segundo cromosoma homólogo.

Las modificaciones genéticas dirigidas a homocigotas y heterocigotas compuestas (particularmente hemicigotas) son ventajosas porque el proceso para fabricar animales modificados genéticamente con estas modificaciones (que se describe en mayor detalle a continuación) puede ser más eficiente y consumir menos tiempo. En muchas situaciones, tales como la eliminación de un gen para estudiar el efecto de su ausencia, la mera heterocigosidad para una modificación genética dirigida (es decir, la modificación de un alelo y ningún cambio en el otro alelo) no es suficiente. Con las estrategias de direccionamiento convencionales, podrían obtenerse animales de la generación F0 que son heterocigotos para una gran deleción genómica dirigida, pero se requiere el mestizaje posterior de estos animales heterocigotos para producir animales de la generación F1 que sean homocigotos para la deleción. Estas etapas adicionales de reproducción son costosas y requieren mucho tiempo. La capacidad de crear animales modificados genéticamente de la generación F0 que sean homocigotos o heterocigotos compuestos (particularmente hemicigotos) para una modificación genética dirigida resulta en un aumento significativo de la eficiencia y un ahorro de tiempo porque se requieren menos etapas de reproducción.

(2) Conversión génica o pérdida de heterocigosidad

En algunos métodos, el genoma que se va a modificar está dentro de una célula que es heterocigótica para un primer alelo, y el gen se modifica para volverse homocigoto para el primer alelo. El término heterocigoto incluye situaciones en las que un genoma comprende diferentes alelos en uno o más loci cromosómicos correspondientes (p. ej., diferentes alelos en los loci correspondientes en los cromosomas homólogos). El término homocigoto incluye situaciones en las que un genoma comprende el mismo alelo en los loci cromosómicos correspondientes (p. ej., en los cromosomas homólogos correspondientes). En algunos de estos métodos, la homocigosidad puede alcanzarse mediante la célula utilizando el primer alelo como secuencia donante para reparar una ruptura de doble cadena en un segundo alelo correspondiente mediante recombinación homóloga, tal como la conversión génica. Típicamente, el grado de conversión génica se limita a unos pocos cientos de pares de bases. Véase, p. ej., Kasparek y Humphrey (2011) Seminars in Cell & Dev. Biol.22:886-897. Sin embargo, el uso de ARN guía emparejados que dirigen la escisión en diferentes sitios de escisión dentro de un solo locus puede promover y mejorar las capacidades de conversión génica en tractos más largos.

Estos métodos pueden ser útiles en varios contextos. El primer alelo puede comprender una mutación. En algunos métodos, por ejemplo, el primer alelo contiene una modificación genética dirigida deseada. Alcanzar la homocigosidad para esa modificación genética dirigida puede resultar en un ahorro significativo de tiempo y costes si, por ejemplo, el objetivo es crear un animal no humano que sea homocigoto para esa modificación. En otros métodos, el primer alelo es un alelo natural de un gen que corresponde a un segundo alelo del gen patógeno. Alternativamente, el segundo alelo puede comprender cualquier mutación. Los métodos pueden usarse después para alcanzar el objetivo final de la terapia génica de reemplazar el alelo patógeno por el alelo natural en su locus cromosómico natural.

En los métodos in vitro para modificar un genoma en una célula que es heterocigota para que un primer alelo se convierta en homocigoto para el primer alelo, el genoma se contacta con una proteína Cas, un ARNtracr y un primer ARN CRISPR no específico de alelo que se híbrida con una primera secuencia de reconocimiento de ARN CRISPR. El primer alelo está en un primer cromosoma homólogo, y la secuencia de reconocimiento de ARN CRISPR es centromérica (es decir, está más cerca del centrómero) respecto al locus correspondiente al primer alelo en un segundo cromosoma homólogo. La proteína

Cas escinde la primera secuencia de reconocimiento de ARN CRISPR para generar una ruptura de doble cadena. Después, se produce la recombinación para modificar la célula para que se vuelva homocigota para el primer alelo.

Opcionalmente, la célula es heterocigótica para uno o más alelos adicionales, la primera secuencia de reconocimiento de ARN CRISPR es centromérica con respecto a los loci correspondientes a uno o más alelos adicionales en el segundo cromosoma homólogo, y la recombinación modifica la célula para que se vuelva homocigótica para uno o más alelos adicionales.

El método comprende además contactar el genoma con un segundo ARN CRISPR no específico de un alelo que se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR centromérica con respecto al locus correspondiente al primer alelo del segundo cromosoma homólogo, en donde la proteína Cas escinde al menos una de las secuencias de reconocimiento de ARN CRISPR primera y segunda para generar al menos una ruptura de doble cadena. Opcionalmente, el método puede comprender además contactar el genoma con ARN CRISPR no específicos de alelos adicionales (p. ej., un tercer ARN CRISPR o un tercer y cuarto ARN CRISPR) que se hibridan

con secuencias de reconocimiento de ARN CRISPR centroméricas con respecto al locus correspondiente al primer alelo en un segundo cromosoma homólogo. Después, se identifica una célula que tiene el genoma modificado.

En algunos métodos, la primera (o segunda, tercera o cuarta) secuencias de reconocimiento de ARN CRISPR se ubican en el segundo cromosoma homólogo, pero no en el primer cromosoma homólogo. El primer (o segundo, tercer o cuarto) sitio de reconocimiento de ARN CRISPR puede estar de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde el centrómero.

El primer alelo y/o el uno o más alelos adicionales pueden comprender una mutación tal como una modificación dirigida. Alternativamente, el primer alelo y/o el uno o más alelos adicionales pueden ser un alelo natural, y los loci correspondientes en el segundo cromosoma homólogo pueden comprender mutaciones tales como una mutación patógena. El primer alelo puede estar de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente

1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde el primer sitio de reconocimiento de ARN CRISPR. Alternativamente, el primer alelo puede estar a al menos 100 kb, al menos 1 Mb, al menos 10 Mb, al menos 20 Mb, al menos 30 Mb, al menos 40 Mb, al menos 50 Mb, al menos 60 Mb, al menos 70 Mb, al menos 80 Mb, al menos 90 Mb o al menos 100 Mb o más del primer sitio de reconocimiento de ARN CRISPR.

La proteína Cas puede ser Cas9. Puede tener actividad nucleasa en ambas cadenas de ADN bicatenario o puede ser una nickasa. En todos los métodos, la proteína Cas y el primer ARN CRISPR no se producen juntos de forma natural.

La recombinación puede comprender la pérdida de heterocigosidad telomérica (es decir, hacia el telómero) de la ruptura de doble cadena (p. ej., una conversión génica polar o direccional o una pérdida de heterocigosidad). La región del segundo cromosoma homólogo que se reemplaza por la pérdida de heterocigosidad puede ser de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 4 aproximadamente 40 Mb a aproximadamente aproximadamente 50 Mb a aproximadamente 6 aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 8 aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb.

Alternativamente, la región del segundo cromosoma homólogo que se sustituye puede ser de al menos 100 pb, al menos 1 kb, al menos 10 kb, al menos 100 kb, al menos 1 Mb, al menos 10 Mb, al menos 20 Mb, al menos 30 Mb, al menos 40 Mb, al menos 50 Mb, al menos 60 Mb, al menos 70 Mb, al menos 80 Mb, al menos 90 Mb, o al menos

100 Mb o más. Por ejemplo, se puede reemplazar la mayor parte del cromosoma.

B. Métodos para crear un animal no humano modificado genéticamente

Los animales no humanos modificados genéticamente pueden generarse empleando los diversos métodos expuestos en la presente memoria. Los métodos para crear un animal no humano modificado genéticamente no están abarcados en

la redacción de las reivindicaciones, pero se consideran útiles para entender la invención. En algunos casos, el método de producción de un animal no humano modificado genéticamente comprende: (1) modificar el genoma de una célula pluripotente usando los métodos descritos anteriormente; (2) seleccionar la célula pluripotente modificada genéticamente; (3) introducir la célula pluripotente de roedor modificada genéticamente en un embrión huésped de roedor; e (4) implantar el embrión huésped que comprende la célula pluripotente modificada genéticamente en una madre sustituta. Se genera una progenie a partir de la célula pluripotente modificada genéticamente. La célula donante puede introducirse en un embrión huésped en cualquier etapa, tal como la etapa de blastocisto o la etapa de premórula (es decir, la etapa de 4 células o la etapa de 8 células). Se genera progenie que es capaz de transmitir la modificación genética a través de la línea germinal. La célula pluripotente puede ser una célula ES (p. ej., una célula ES de ratón o una célula ES de rata) como se describe en cualquier otro sitio de la presente memoria. Véase, por ejemplo, la patente US-7,294,754.

Alternativamente, el método de producción de un animal no humano modificado genéticamente puede comprender: (1) modificar el genoma de un embrión en estadio unicelular utilizando los métodos descritos anteriormente; (2) seleccionar el embrión modificado genéticamente; e (3) implantar el embrión modificado genéticamente en una madre sustituta. Se genera progenie que es capaz de transmitir la modificación genética a través de la línea germinal.

También se describen técnicas de transferencia nuclear que también pueden usarse para generar animales mamíferos no humanos. En resumen, los métodos de transferencia nuclear pueden incluir las siguientes etapas: (1) enuclear un ovocito o proporcionar un ovocito enucleado; (2) aislar o proporcionar una célula o núcleo donante para combinarlo con el ovocito enucleado; (3) insertar la célula o el núcleo en el ovocito enucleado para formar una célula reconstituida; (4) implantar la célula reconstituida en el útero de un animal para formar un embrión; y (5) permitir el desarrollo del embrión. En tales métodos, los ovocitos se recuperan generalmente de animales muertos, aunque también pueden aislarse de oviductos y/u ovarios de animales vivos. Los ovocitos pueden madurar en una variedad de medios conocidos por los expertos en la técnica antes de la enucleación. La enucleación del ovocito se puede realizar de cierto número de maneras bien conocidas por los expertos en la técnica. La inserción de la célula o el núcleo donante en el ovocito enucleado para formar una célula reconstituida puede realizarse mediante microinyección de una célula donante debajo de la zona pelúcida antes de la fusión. La fusión puede inducirse mediante la aplicación de un pulso eléctrico de CD a través del plano de contacto/fusión (electrofusión), mediante la exposición de las células a sustancias químicas que promueven la fusión, tal como el polietilenglicol, o mediante un virus inactivado, tal como el virus Sendai. Una célula reconstituida puede activarse por medios eléctricos y/o no eléctricos antes, durante y/o después de la fusión del núcleo donante y el ovocito receptor. Los métodos de activación incluyen pulsos eléctricos, choques inducidos químicamente, penetración de espermatozoides, niveles crecientes de cationes divalentes en el ovocito y reducción de la fosforilación de proteínas celulares (por medio de inhibidores de quinasa) en el ovocito. Las células reconstituidas activadas, o embriones, pueden cultivarse en medios bien conocidos por los expertos en la técnica y después transferirse al útero de un animal. Véanse, por ejemplo, las patentes US20080092249, WO/1999/005266A2, US20040177390, WO/2008/017234A1, y la patente US-7,612,250.

Algunos métodos para crear un animal no humano modificado genéticamente comprenden métodos para producir un animal no humano de la generación F0. Tales métodos pueden comprender contactar el genoma de una célula ES no humana con una proteína Cas, un primer ARN CRISPR que se hibrida con una primera secuencia de reconocimiento de ARN CRISPR, un segundo ARN CRISPR que se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR y un ARNtracr. La proteína Cas puede escindir el genoma dentro de la primera y segunda secuencias de reconocimiento de ARN CRISPR para generar secuencias terminales. Las secuencias terminales pueden recombinarse para formar un genoma con una modificación dirigida, y la modificación dirigida puede comprender una deleción entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR.

Los métodos pueden comprender además: (1) identificar una célula ES no humana que comprende la modificación dirigida; (2) introducir la célula ES no humana que comprende la modificación dirigida en un embrión huésped no humano; y (3) gestar el embrión huésped no humano en una madre sustituta. La madre sustituta puede después producir el animal no humano de la generación F0 que comprende la modificación dirigida. El embrión huésped que comprende la célula pluripotente o totipotente modificada genéticamente (p. ej., una célula ES no humana) puede incubarse hasta la fase de blastocisto y después implantarse en una madre sustituta para producir un animal F0. Los animales que portan el locus genómico modificado genéticamente pueden identificarse mediante un ensayo de modificación del alelo (MOA) como se describe en la presente memoria.

Los diversos métodos proporcionados en la presente memoria permiten la generación de un animal F0 no humano modificado genéticamente en donde las células del animal F0 modificado genéticamente comprenden la modificación dirigida. Se reconoce que, dependiendo del método usado para generar el animal F0, el número de células dentro del animal F0 que tienen la secuencia de nucleótidos de interés y carecen del casete de recombinasa y/o del casete de selección variará. La introducción de las células ES donantes en un embrión en etapa premórula de un organismo correspondiente (p. ej., un embrión de ratón en etapa de 8 células) a través de, por ejemplo, el método VELOCIMOUSE®, permite que un mayor porcentaje de la población celular del animal F0 comprenda células que tengan la secuencia de nucleótidos de interés que comprende la modificación genética dirigida. Por ejemplo, al menos el 50 %, 60 %, 65 %, 70 %, 75 %, 85 %, 86 %, 87 %, 87 %, 88 %, 89 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % o 100 % de la contribución celular del animal F0 no humano puede comprender una población celular que tenga la modificación dirigida. En otros casos, al menos una o más de las células germinales del animal F0 tienen la modificación dirigida.

En algunos casos, las células del animal F0 modificado genéticamente son heterocigotas o compuestos heterocigotos para la modificación dirigida. Por ejemplo, las células del animal F0 modificado genéticamente pueden ser hemicigóticas para la modificación dirigida. En otros casos, las células del animal F0 modificado genéticamente son homocigotas para la modificación dirigida.

En algunos casos, el animal F0 generado mediante los métodos expuestos en la presente memoria puede cruzarse para obtener un animal natural para generar una generación F1 que sea heterocigota para la modificación dirigida. Los animales de la generación F1 se pueden cruzar después entre sí para generar un animal F2 homocigoto para la modificación dirigida. La progenie F1 se puede genotipar usando iniciadores y/o sondas específicos para determinar si la modificación genética dirigida está presente.

C. Genomas y loci genómicos diana

Un genoma o un locus diana genómico modificado mediante los métodos expuestos en la presente memoria puede incluir cualquier segmento o región de ADN dentro de una célula. El genoma o el locus diana genómico puede ser nativo de la célula, puede ser un segmento heterólogo o exógeno de ADN que se integró en el genoma de la célula, o puede ser una combinación de los mismos. Tales segmentos de ADN heterólogos o exógenos pueden incluir transgenes, casetes de expresión, marcadores de selección que codifican polinucleótidos o regiones heterólogas o exógenas de ADN genómico.

El genoma o el locus diana genómico también pueden incluir ADN extracromosómico dentro de la célula, tal como un cromosoma artificial de levadura (YAC), un cromosoma artificial bacteriano (BAC), un cromosoma artificial humano o cualquier otra región genómica diseñada contenida en una célula huésped apropiada.

D. Formas de Cas9 y ARN guía

En algunos métodos, el contacto con el genoma comprende introducir una o más proteínas Cas, uno o más ARN CRISPR y uno o más ARNtracr en la célula. La introducción se puede realizar por cualquier medio, y uno o más de los componentes (p. ej., dos de los componentes o todos los componentes) se pueden introducir en la célula de forma simultánea o secuencial en cualquier combinación.

Un ARN CRISPR y un ARNtracr se pueden fusionar como ARN guía (ARNg) para introducirlos en una célula. Alternativamente, un ARN CRISPR y el ARNtracr pueden ser moléculas de ARN distintas. Un ARN CRISPR se puede introducir en la célula en forma de ARN o en forma de un ADN que codifica el ARN CRISPR. Del mismo modo, un ARNtracr se puede introducir en la célula en forma de un ARN o en forma de un ADN que codifica el ARNtracr, y un ARNg se puede introducir en la célula en forma de un ARN o en forma de un ADN que codifica el ARNg.

Una proteína Cas se puede introducir en la célula en forma de una proteína, un ARN mensajero (ARNm) que codifica la proteína Cas o un ADN que codifica la proteína Cas. En algunos métodos, una proteína Cas, un ARN CRISPR y un ARNtracr pueden introducirse en la célula como un complejo proteína-ARN. Del mismo modo, una proteína Cas y un ARNg pueden introducirse en la llamada como un complejo proteína-ARN. La proteína Cas puede ser una proteína Cas permeable a las células (p. ej., una proteína Cas con un dominio de penetración celular).

Un ADN que codifica una proteína Cas, un ARN CRISPR o un ARNtracr puede estar unido operativamente a un promotor activo en la célula. Tales ADN pueden estar en uno o más constructos de expresión. En algunos métodos, uno o más de tales constructos de expresión pueden ser componentes de una única molécula de ácido nucleico. Por ejemplo, los ADN que codifican una o más proteínas Cas, los ADN que codifican uno o más ARN CRISPR y los ADN que codifican uno o más ARNtracr pueden ser todos componentes de una sola molécula de ácido nucleico. Alternativamente, pueden estar separados en cualquier combinación entre dos, tres, cuatro o más moléculas de ácido nucleico.

Similarmente, un ADN que codifica una proteína Cas o un ADN que codifica un ARNg se puede unir operativamente a un promotor activo en la célula. Tales ADN también pueden estar en uno o más constructos de expresión. En algunos métodos, uno o más de tales constructos de expresión pueden ser componentes de una única molécula de ácido nucleico. Por ejemplo, los ADN que codifican una o más proteínas Cas y los ADN que codifican uno o más ARNg pueden ser todos componentes de una única molécula de ácido nucleico. Alternativamente, pueden estar separados en cualquier combinación entre dos, tres, cuatro o más moléculas de ácido nucleico.

En algunos métodos, la proteína Cas y el ARN CRISPR y/o el ARNtracr no son de origen natural. En todos los métodos, por ejemplo, la proteína Cas y el primer ARN CRISPR no existen juntos de forma natural, en algunos métodos la proteína Cas y el segundo ARN CRISPR no existen juntos de forma natural, y/o en algunos métodos la proteína Cas y el ARNtracr no existen juntos de forma natural.

En todos los métodos, la proteína Cas es una proteína Cas9. La proteína Cas se puede fusionar con un polipéptido heterólogo, tal como una señal de localización nuclear (NLS). La proteína Cas tiene una actividad de escisión completa y crea rupturas de doble cadena dentro del ADN genómico (p. ej., una ruptura de doble cadena con extremos romos). E. Métodos de introducción de ácidos nucleicos y

Proteínas en las células

En la presente memoria, se describen diversos métodos para permitir la introducción de un ácido nucleico en una célula. En algunos casos, el sistema empleado para introducir el ácido nucleico permite la integración dirigida en un locus genómico específico. Tales sistemas emplean una variedad de componentes y, para facilitar la referencia, la expresión “ sistema de integración genómica dirigida” incluye genéricamente todos los componentes necesarios para un evento de integración (p. ej., uno o más de los agentes nucleasa, los sitios de escisión de nucleasas, los polinucleótidos de ADN insertados, los vectores de direccionamiento, los loci genómicos diana y los polinucleótidos de interés).

Los métodos descritos en la presente memoria pueden comprender introducir en una célula uno o más polinucleótidos o construcciones polipeptídicas que comprenden uno o más componentes de un sistema de integración genómica diana. “ Introducir” incluye presentar a la célula la secuencia (polipéptido o polinucleótido) de tal manera que la secuencia acceda al interior de la célula. Los métodos proporcionados en la presente memoria no dependen de un método particular para introducir un ácido nucleico o una proteína en la célula, solo de que el ácido nucleico o la proteína acceda al interior de al menos una célula. Los métodos para introducir ácidos nucleicos y proteínas en diversos tipos celulares son conocidos en la técnica e incluyen, por ejemplo, métodos de transfección estables, métodos de transfección transitoria y métodos mediados por virus.

En algunos casos, las células empleadas en los métodos tienen una construcción de ADN incorporada de forma estable en su genoma. Por ejemplo, una célula empleada en los métodos expuestos en la presente memoria puede tener un gen que codifica una Cas preexistente incorporado de forma estable en su genoma (es decir, una célula preparada para Cas). “ Incorporado de manera estable” o “ introducido de manera estable” incluye la introducción de un polinucleótido en la célula de tal modo que la secuencia de nucleótidos se integre en el genoma de la célula y pueda ser heredada por la progenie de los mismos. Se puede usar cualquier protocolo para la incorporación estable de las construcciones de ADN o de los diversos componentes del sistema de integración genómica dirigida.

Los protocolos de transfección, así como los protocolos para introducir polipéptidos o secuencias de polinucleótidos en las células, pueden variar. Los métodos de transfección no limitativos incluyen métodos de transfección basados en productos químicos que usan liposomas; nanopartículas; fosfato de calcio (Graham y col. (1973) Virology 52 (2): 456-67, Bacchetti y col. (1977) Proc Natl Acad Sci USA 74 (4): 1590-4 y Kriegler, M (1991). Transfer and Expression: A Laboratory Manual. Nueva York: W. H. Freeman and Company. págs. 96-97); dendrímeros; o polímeros catiónicos tales como DEAE-dextrano o polietilenimina. Los métodos no químicos incluyen la electroporación, la sonoporación y la transfección óptica. La transfección basada en partículas incluye el uso de una pistola genética o la transfección asistida por imanes (Bertram (2006) Current Pharmaceutical Biotechnology 7, 277-28). También se pueden usar métodos virales para la transfección.

En algunos casos, la introducción de ácidos nucleicos o proteínas en una célula está mediada por electroporación, por inyección intracitoplasmática, por infección viral, por adenovirus, por lentivirus, por retrovirus, por transfección, por transfección mediada por lípidos o por Nucleofection™.

La introducción de ácidos nucleicos o proteínas en una célula (p. ej., un embrión en estadio unicelular) también se puede lograr mediante microinyección. En los embriones en estadio unicelular, la microinyección puede realizarse en el pronúcleo materno y/o paterno o en el citoplasma. Si la microinyección se realiza en un solo pronúcleo, es preferible el pronúcleo paterno debido a su mayor tamaño. La microinyección de un ARNm se realiza preferiblemente en el citoplasma (p. ej., para suministrar el ARNm directamente a la maquinaria de traducción), mientras que la microinyección de una proteína Cas o una molécula de ácido nucleico que codifica una proteína Cas o que codifica un ARN es preferible en el núcleo/pronúcleo. Alternativamente, la microinyección se puede llevar a cabo mediante inyección tanto en el núcleo/pronúcleo como en el citoplasma: primero se puede introducir una aguja en el núcleo/pronúcleo y se puede inyectar una primera cantidad, y mientras se retira la aguja del embrión en estadio unicelular, se puede inyectar una segunda cantidad en el citoplasma. Si se inyecta una proteína Cas en el citoplasma, la proteína Cas comprende preferiblemente una señal de localización nuclear para garantizar el suministro al núcleo/pronúcleo. Los métodos para llevar a cabo la microinyección son bien conocidos. Véanse, p. ej., Nagy y col.(Nagy A, Gertsenstein M, Vintersten K, Behringer R., 2003, Manipulating the Mouse Embryo. Cold Spring Harbor, Nueva York: Cold Spring Harbor Laboratory Press); Meyer y col. (2010) Pros Natl Acad Sci USA 107:15022-15026 y Meyer y col. (2012) Proc Natl Acad Sci USA 109:9354-9359.

La introducción de ácidos nucleicos o proteínas en la célula se puede realizar una vez o múltiples veces durante un período de tiempo. Por ejemplo, la introducción puede realizarse al menos dos veces durante un período de tiempo, al menos tres veces durante un período de tiempo, al menos cuatro veces durante un período de tiempo, al menos cinco veces durante un período de tiempo, al menos seis veces durante un período de tiempo, al menos siete veces durante un período de tiempo, al menos ocho veces durante un período de tiempo, al menos nueve veces durante un período de tiempo, al menos diez veces durante un período de tiempo, al menos once veces durante un período de tiempo, al menos doce veces durante un período de tiempo, al menos trece veces durante un período de tiempo, al menos catorce veces durante un período de tiempo, al menos quince veces durante un período de tiempo, al menos dieciséis veces durante un período de tiempo, al menos diecisiete veces durante un período de tiempo, al menos dieciocho veces durante un período de tiempo, al menos diecinueve veces durante un período de tiempo, o al menos veinte veces durante un período de tiempo.

Cuando tanto los agentes nucleasa como los vectores de direccionamiento (p. ej., los LTVEC para células distintas de los embriones en estadio unicelular) se introducen en la célula, pueden introducirse simultáneamente. Alternativamente, el agente nucleasa se puede introducir por separado del vector de direccionamiento. Por ejemplo, el agente nucleasa se puede introducir antes de la introducción del vector de direccionamiento, o se puede introducir después de la introducción del vector de direccionamiento.

F. Mecanismos de recombinación y métodos para alterar la prevalencia de la unión de extremos no homólogos, la conversión génica o la recombinación homóloga

La recombinación incluye cualquier proceso de intercambio de información genética entre dos polinucleótidos y puede producirse por cualquier mecanismo. La recombinación en respuesta a rupturas de doble cadena (DSB) se produce principalmente mediante dos vías de reparación de ADN conservadas: unión de extremos no homólogos (NHEJ) y recombinación homóloga (HR). Véase Kasparek y Humphrey (2011) Seminars in Cell & Dev. Biol. 22:886-897. La NHEJ incluye la reparación de rupturas de doble cadena en un ácido nucleico mediante la ligadura directa de los extremos rotos entre sí sin necesidad de una plantilla homóloga. La ligadura de secuencias no contiguas mediante NHEJ a menudo puede dar como resultado eliminaciones, inserciones o translocaciones cerca del sitio de la ruptura de doble cadena. La recombinación también puede producirse a través de la reparación dirigida por homología (HDR) o la recombinación homóloga (HR). La HDR o la HR incluyen una forma de reparación de ácido nucleico que puede requerir homología de secuencia de nucleótidos, usa una molécula “ donante” para la reparación con plantilla de una molécula “ diana” (es decir, la que experimentó la ruptura de doble cadena) y conduce a la transferencia de información genética del donante a la diana. Sin pretender limitarse por ninguna teoría en particular, tal transferencia puede implicar la corrección del error de coincidencia del ADN heterodúplex que se forma entre la diana rota y el donante, y/o la hibridación de la cadena dependiente de la síntesis, en la que el donante se usa para resintetizar la información genética que formará parte de la diana y/o procesos relacionados. En algunos casos, el polinucleótido donante, una porción del polinucleótido donante, una copia del polinucleótido donante o una porción de una copia del polinucleótido donante se integra en el ADN diana.

En el contexto de la modificación del genoma de una célula que es heterocigota para que un alelo se convierta en homocigoto para ese alelo, la recombinación puede incluir cualquier medio por el cual las células homocigotas se deriven de células heterocigotas. Tales medios pueden incluir, por ejemplo, la pérdida de heterocigosidad (LOH), la conversión génica o los eventos de cruzamiento que se producen por cualquier mecanismo de recombinación conocido. Sin pretender imponer ninguna teoría, la LOH puede producirse, por ejemplo, por recombinación mitótica, con o sin conversión génica, o por pérdida y duplicación de cromosomas. Véase, p. ej., Lefebvre y col. (2001) Nat. Genet. 27:257-258. La conversión génica en este contexto puede incluir la transferencia unidireccional de material genético desde una secuencia donante a un aceptor altamente homólogo (es decir, el intercambio no recíproco de información genética de una molécula a su homólogo). La conversión génica incluye cualquier medio para copiar un alelo mediante cualquier mecanismo de recombinación conocido. Por ejemplo, la conversión génica puede implicar la transferencia no recíproca de información genética de una secuencia intacta a una región homóloga que contiene una ruptura de doble cadena, y puede ocurrir entre cromátides hermanas, cromosomas homólogos o secuencias homólogas en la misma cromátide o en cromosomas diferentes. Véase, p. ej., Chen y col. (2007) Nat. Rev. Genet. 8:762-775. En casos específicos, la conversión génica resulta directamente de la recombinación homóloga como resultado de copiar la información genética de un cromosoma homólogo. Esto puede conducir a una pérdida localizada de heterocigosidad (LOH) cuando las secuencias homólogas no son idénticas.

Por ejemplo, podría producirse LOH a través del intercambio recíproco de cromátides mediante cruzamiento mitótico, o mediante la copia de cromátides mediante la replicación inducida por la ruptura. En cualquier caso, podría producirse una modificación heterocigótica en la que se dirija a un cromosoma antes de la replicación del genoma. Alternativamente, una sola cromátide podría ser la diana después de la replicación del genoma, seguida de la conversión génica entre cromátides.

En cualquiera de los métodos expuestos en la presente memoria, la célula puede ser una célula que se ha modificado para aumentar o disminuir la actividad de NHEJ. Del mismo modo, la célula puede ser una célula que se ha modificado para aumentar la conversión génica o la actividad de HDR. Tales modificaciones pueden comprender modificaciones en la expresión o actividad de los genes implicados en la regulación de la NHEJ, la conversión génica y/o la HDR. Por ejemplo, disminuir la actividad de la NHEJ y/o aumentar la actividad de la HDR puede promover el colapso bialélico de las regiones genómicas entre las secuencias de reconocimiento de ARN CRISPR correspondientes a dos ARNg. Sin pretender ceñirse a ninguna teoría en particular, un mecanismo por el que puede producirse un colapso genómico bialélico es mediante la reparación mediada por NHEJ o la reparación mediada por HDR dentro de un primer alelo y la creación de un segundo alelo idéntico mediante mecanismos de HDR, tales como la conversión génica (véase el Ejemplo 1). Por lo tanto, la promoción de las vías mediadas por la HDR (p. ej., disminuyendo la actividad de la NHEJ o aumentando la actividad de la HDR) también puede promover el colapso bialélico de las regiones genómicas. Similarmente, sin pretender ceñirse a ninguna teoría en particular, se puede promover la conversión de una célula heterocigota en una célula homocigótica mediante el uso de ARN guía emparejados que se dirigen a un solo locus si la actividad de la NHEJ disminuye y la actividad de la HDR (p. ej., la actividad de conversión génica) aumenta en consecuencia.

Se pueden usar inhibidores para aumentar o disminuir la actividad de la NHEJ o para aumentar o disminuir la actividad de la HDR. Tales inhibidores pueden ser, por ejemplo, micromoléculas o ácidos nucleicos inhibidores tales como ácidos nucleicos interferentes cortos (p. ej.,<a>R<n>interferente corto (ARNip), ARN bicatenario (ARNbc), microARN (miARN) y ARN horquillado corto (ARNhc)) u oligonucleótidos antisentido específicos para un transcrito génico. Los inhibidores pueden dirigirse a las enzimas implicadas en la NHEJ o la HDR o a su regulación ascendente mediante modificación postraduccional mediante, por ejemplo, fosforilación, ubiquitinación y sumoilación.

En las células de los mamíferos, la NHEJ es el mecanismo de reparación de la DSB predominante y está activo durante todo el ciclo celular. En los vertebrados, la vía NHEJ “ canónica” o “ clásica” (C-NHEJ) requiere varios factores básicos, como ADN-PK, Ku70-80, Artemis, ligasa IV (Lig4), XRCC4, CLF y Pol p para reparar una DSB. Véase Kasparek y Humphrey (2011 ) Seminars in Cell & Dev. Biol. 22:886-897. Durante la N<h>EJ, los extremos del ADN están unidos por la abundante proteína Ku protectora de extremos, que funciona como una estación de acoplamiento para la carga de los demás componentes de la NHEJ.

Por lo tanto, en algunos de los métodos expuestos en la presente memoria, la célula se ha modificado para reducir o eliminar o aumentar la expresión o la actividad de los factores implicados en C-NHEJ. Por ejemplo, en algunos métodos, la célula se ha modificado para reducir o eliminar la expresión o actividad de ADN-PK, Ku70-80, Artemis, ligasa IV (Lig4), XRCC4, CLF y/o Pol p. En métodos específicos, la célula se ha modificado para reducir o eliminar la expresión o la actividad de ADN-PK o para aumentar la expresión o la actividad de ADN-P<k>(p. ej., la expresión o la actividad de ADN-PKcs); secuencia UniProt ilustrativa denominada P97313). Los ejemplos de inhibidores de ADN-PKcs incluyen, por ejemplo, NU7026 y NU7441. Véase, p. ej., la patente US-6,974,867. En métodos específicos, la célula se ha modificado para reducir o eliminar la expresión o actividad de la ligasa IV o para aumentar la expresión o actividad de la ligasa IV. Un ejemplo de un inhibidor de la ligasa IV es SCR7.

Los inhibidores dirigidos a proteínas de punto de regulación del ciclo celular como ATM (p. ej., KU55933), CHK1/CHK2 (p. ej., K LD I162 o CHIR-l24) y ATR (p. ej., VE 821) también pueden usarse para mejorar sinérgicamente los efectos de inhibidores de la reparación del ADN específicos o para prevenir efectos secundarios no deseados como la detención del ciclo celular y/o la apoptosis (véase Ciccia y col. (2010) Mol Cell 40:179).

La alteración de la C-NHEJ puede aumentar los niveles de unión anormal mediados por vías “ alternativas” de la NHEJ (A-NHEJ) y también puede aumentar la reparación de la HR. Las vías de la A-NHEJ muestran un sesgo hacia las uniones mediadas por microhomología y siguen una cinética más lenta que la de la C-NHEJ. Se ha propuesto la participación de varios factores, incluido el complejo (MRE11, RAD50, NBS1), CtIP, XRCC1, PARP, Lig1 y Lig3. Véase Kasparek y Humphrey (2011) Seminars in Cell & Dev. Biol.22:886-897 y Claybon y col. (2010) Nucleic Acids Res. 38(21):7538-7545.

Por lo tanto, en algunos de los métodos expuestos en la presente memoria, la célula se ha modificado para reducir o eliminar o aumentar la expresión o la actividad de los factores implicados en A-NHEJ. Por ejemplo, en algunos métodos, la célula se ha modificado para reducir o eliminar la expresión o actividad de MRE11, RAD50,<n>B<s>1 , CtIP, XRCC1, PARP (p. ej., PARP1), Lig 1 y/o Lig3. En otros métodos, la célula se ha modificado para aumentar la expresión o actividad de MRE11, RAD50, NBS1 , CtIP, XRCC1, PARP (p. ej., PARP1), Lig 1 y/o Lig3. En métodos específicos, la célula se ha modificado para reducir o eliminar la expresión o actividad de PARP1 o para aumentar la expresión o actividad de PARP1 (secuencia UniProt ilustrativa denominada P11103). Los ejemplos de inhibidores de PARP (p. ej., NU1025, Iniparib, Olaparib) incluyen nicotinamidas; isoquinolinonas y dihidroisoquinolinonas; bencimidazoles e indoles; ftalazin-l(2H)-onas y quinazolinonas; isoindolinonas y análogos y derivados de las mismas; fenantridinas y fenantridinonas; benzopironas y análogos y derivados de las mismas; derivados y análogos del ácido hidroxímico insaturado y derivados de los mismos; piridazinas, incluidas las piridazinas fusionadas y análogos y derivados de las mismas; y/u otros compuestos tales como cafeína, teofilina y timidina, y análogos y derivados de los mismos. Véase, p. ej., la patente US-8,071,579.

La C-NHEJ también presenta una relación competitiva con la HR, por lo que la interrupción de la C-NHEJ también puede conducir a una mayor reparación de la Hr . Esta competencia entre la NHEJ y el HR puede aprovecharse, ya que la interrupción de la NHEJ puede conducir a un mejor direccionamiento génico mediante una integración aleatoria reducida y posiblemente a una mayor integración de la diana mediante recombinación homóloga.

Existen varias formas de reparación por recombinación homóloga, incluida la hibridación monocatenaria, la conversión génica, los cruzamientos y la replicación inducida por ruptura. La hibridación monocatenaria es una forma menor de reparación de la HR en la que las secuencias monocatenarias homólogas a ambos lados de una DSB resecada se hibridan, lo que resulta en la reconstitución cromosómica. La hibridación monocatenaria genera deleciones de tamaño variable, dependiendo de la distancia que separa las dos regiones de homología de secuencia. La conversión génica incluye el intercambio no recíproco de información genética de una molécula a su homóloga, que resulta directamente de la HR como resultado de la copia de la información genética de un cromosoma homólogo. Esto puede conducir a una LOH localizada cuando las secuencias homólogas no son idénticas. Normalmente, el grado de conversión génica se limita a unos pocos cientos de pares de bases. Sin embargo, se ha comunicado la conversión génica de tracto largo en algunos antecedentes genéticos, incluida la deficiencia de RAD51C. Véase Nagaraju y col. (2006) Mol. Cell. Biol.

26:8075-8086. Los cruzamientos pueden producirse, por ejemplo, entre cromosomas homólogos, y tienen el potencial de conducir a translocaciones recíprocas si se producen en G1 o a translocaciones no recíprocas y LOH que se extienden desde el lugar de rotura hasta el telómero distal si se producen en G2. La replicación inducida por la ruptura es una variante de la HR en la que, tras la invasión de la cadena, la replicación de ADN continúa hasta el extremo del cromosoma. Por lo tanto, existen muchos mecanismos mediante los cuales los recursos humanos pueden promover la LOH.

Por lo tanto, en algunos de los métodos expuestos en la presente memoria, la célula se ha modificado para reducir o eliminar o aumentar la expresión o la actividad de los factores implicados en HR. Por ejemplo, en algunos métodos, la célula se ha modificado para aumentar la expresión o actividad de RAD51, RAD52, RAD54, RAD55, RAD51C, BRCA1 y/o BRCA2. En otros métodos, la célula se ha modificado para reducir o eliminar la expresión o actividad de RAD51, RAD52, RAD54, RAD55, RAD51C, BRCA1 y/o BRCA2.

En algunos métodos, se puede alterar la expresión o actividad de otras proteínas implicadas en la regulación de la NHEJ y/o la HR. Por ejemplo, en algunos métodos, la célula se ha modificado para reducir o eliminar la expresión o actividad de Chk2, para reducir o eliminar la expresión o actividad de Clspn, para reducir o eliminar la expresión o actividad de Setd2, para aumentar la expresión o actividad de Kat2a y/o para aumentar la expresión o actividad de Rad51. En otros métodos, la célula se ha modificado para aumentar la expresión o actividad de Chk2, para aumentar la expresión o actividad de Clspn, para aumentar la expresión o actividad de Setd2, para reducir o eliminar la expresión o actividad de Kat2a y/o para reducir o eliminar la expresión o actividad de Rad51.

Chk2 (también conocida como Chek2 y Rad53; homóloga de S. pombe es Cds1) es una proteína quinasa de serina/treonina necesaria para la detención del ciclo celular mediada por puntos de regulación, la activación de la reparación del ADN y la apoptosis en respuesta a la presencia de rupturas de doble cadena del ADN. Véase Blaikley y col. (2014) Nucleic Acids Research 42:5644-5656. Clspn (también conocida como Claspin; homóloga de S. pombe es Mrc1) es una proteína necesaria para detener el ciclo celular mediado por puntos de regulación en respuesta al daño del ADN. Se ha comunicado que la deleción de homólogos de Chk2 o Clspn en S. pombe resulta en un fenotipo hiperrecombinante que presenta niveles significativamente elevados de conversión génica inducida por la ruptura en comparación con el tipo natural. En concreto, se ha comunicado que los niveles de conversión génica aumentaron significativamente, mientras que se ha comunicado que los niveles de unión de extremos no homólogos (NHEJ), conversión de cromátides hermanas (SCC) y pérdida de heterocigosidad (LOH) disminuyeron. Véase Blaikley y col. (2014) Nucleic Acids Research 42:5644-5656.

Kat2a (también conocida como Gcn5 y Gcn5l2) es una histona acetiltransferasa ubicua que promueve la activación transcripcional y se ha comunicado que está asociada con la reparación de rupturas de doble cadena. La acetilación de la lisina 36 (H3K36) de la histona H3 dependiente de Kat2a aumenta la accesibilidad de la cromatina, aumenta la resección y promueve la recombinación homóloga al tiempo que suprime la unión de extremos no homólogos. Véase Pai y col. (2014) Nat. Commun. 5:4091. Setd2 (también conocida como Kiaa1732, Kmt3a y Set2) es una histona metiltransferasa que trimetila específicamente la lisina 36 de la histona H3 (H3K36me3) utilizando la lisina 36 desmetilada (H3K36me2) como sustrato. La metilación de H3K36 dependiente de Setd2 reduce la accesibilidad a la cromatina, reduce la resección y promueve la NHEJ. Véase Pai y col. (2014) Nat. Commun. 5:4091.

Rad 51 (también conocida como Reca, Rad51A y la proteína reparadora del ADN Rad51 homólogo 1) es una proteína que funciona con la Rad52 y otras proteínas para efectuar el intercambio de cadenas durante la recombinación homóloga, formando un ADN heterodúplex que se resuelve mediante la reparación de desajustes para producir un tracto de conversión génica. En células de mamíferos, se ha comunicado que la sobreexpresión de Rad51 y Rad52 aumenta la frecuencia de recombinación homóloga y conversión génica. Véanse Yanez y Porter (1999) Gene Ther. 6:1282-1290 y Lambert y Lopez (2000) EMBO J. 19:3090-3099.

Las modificaciones en la expresión o actividad de los genes implicados en la regulación de la NHEJ, la conversión génica y/o la reparación dirigida por homología pueden ser espacialmente o temporalmente específicas y también pueden ser inducibles o temporales y reversibles. Por ejemplo, se pueden construir diversas formas de casetes para permitir la deleción en tipos específicos de células o tejidos, en etapas de desarrollo específicas o tras la inducción. Tales casetes pueden emplear un sistema de recombinasa en el que el casete está flanqueado en ambos lados por sitios de reconocimiento de recombinasas y se puede eliminar usando una recombinasa expresada en el tipo celular deseado, expresada en la etapa de desarrollo deseada o expresada o activada tras la inducción. Tales casetes pueden construirse además para incluir una matriz de pares de diferentes sitios de reconocimiento de recombinasas que se colocan de tal modo que se puedan generar alelos nulos, condicionales o alelos combinados condicionales/amorfos, como se describe en la patente US 2011/0104799. La regulación de los genes de la recombinasa se puede controlar de diversas maneras, tal como uniendo operativamente un gen de recombinasa a un promotor específico de célula, tejido o regulado por el desarrollo (u otro elemento regulador), o uniendo operativamente un gen de recombinasa a una 3'-UTR que comprende un sitio de reconocimiento para un miARN que es activo solo en tipos celulares, tipos de tejidos o etapas de desarrollo particulares. Una recombinasa también puede regularse, por ejemplo, empleando una proteína de fusión que coloque la recombinasa bajo el control de un efector o metabolito (p. ej., CreERT2, cuya actividad está controlada positivamente por el tamoxifeno), o colocando el gen de la recombinasa bajo el control de un promotor inducible (p. ej., uno cuya actividad esté controlada por doxiciclina y TetR o variantes de TetR). Se proporcionan ejemplos de diversas formas de casetes y medios para regular los genes de la recombinasa, por ejemplo, en la patente US-8,518,392; US-8,354,389; y US-8,697,851.

G. Células y animales

Diversos métodos proporcionados en la presente memoria emplean células, tales como células de un animal. Tales células pueden proceder de un animal no humano. Tales células son células eucariotas y específicamente células de mamíferos. Una célula de mamífero puede ser, por ejemplo, una célula de mamífero no humano, una célula humana, una célula de roedor, una célula de rata, una célula de ratón, una célula de hámster, un fibroblasto o una célula CHO. La célula eucariota puede ser una célula totipotente, una célula pluripotente, tal como una célula pluripotente no humana (p. ej., una célula madre embrionaria (ES) de ratón o una célula ES de rata) o una célula pluripotente humana, o una célula no pluripotente. Las células totipotentes incluyen células indiferenciadas que pueden dar lugar a cualquier tipo celular, y las células pluripotentes incluyen células indiferenciadas que poseen la capacidad de convertirse en más de un tipo celular diferenciados. Tales células pluripotentes y/o totipotentes pueden ser, por ejemplo, células madre embrionarias (ES) o células similares a ES, tales como células madre pluripotentes inducidas (iPS). Las células madre embrionarias incluyen células totipotentes o pluripotentes derivadas de embriones que son capaces de contribuir a cualquier tejido del embrión en desarrollo al introducirse en un embrión. Las células ES pueden derivarse de la masa celular interna de un blastocisto y son capaces de diferenciarse en células de cualquiera de las tres capas germinales de vertebrados (endodermo, ectodermo y mesodermo).

Una célula eucariota también puede ser una célula que no es una célula somática primaria. Las células somáticas pueden incluir cualquier célula que no sea un gameto, una célula germinal, un gametocito o una célula madre indiferenciada.

Las células eucariotas también incluyen células primarias. Las células primarias incluyen células o cultivos de células que se han aislado directamente de un organismo, órgano o tejido. Las células primarias incluyen células que no se transforman ni son inmortales. Incluyen cualquier célula obtenida a partir de un organismo, órgano o tejido que no se ha pasado previamente por un cultivo de tejidos o que ha pasado previamente por un cultivo de tejidos pero que no puede pasarse indefinidamente por un cultivo de tejidos. Tales células pueden aislarse mediante técnicas convencionales e incluyen, por ejemplo, células somáticas, células hematopoyéticas, células endoteliales, células epiteliales, fibroblastos, células mesenquimales, queratinocitos, melanocitos, monocitos, células mononucleares, adipocitos, preadipocitos, neuronas, células gliales, hepatocitos, mioblastos esqueléticos y células de músculo liso. Por ejemplo, las células primarias pueden derivarse de tejidos conjuntivos, tejidos musculares, tejidos del sistema nervioso o tejidos epiteliales.

Las células eucariotas también incluyen células inmortalizadas. Las células inmortalizadas incluyen células de un organismo multicelular que normalmente no proliferarían indefinidamente pero, debido a mutaciones o alteraciones, han evadido la senescencia celular normal y, en cambio, pueden continuar su división. Tales mutaciones o alteraciones pueden producirse naturalmente o ser inducidas intencionalmente. Los ejemplos de células inmortalizadas incluyen células de ovario de hámster chino (CHO), células de riñón embrionario humano (p. ej., células HEK 293) y células de fibroblastos embrionarios de ratón (p. ej., células 3T3). Son bien conocidos en la técnica numerosos tipos de células inmortalizadas.

Las células inmortalizadas o primarias incluyen células que se usan típicamente para cultivar o para expresar genes o proteínas recombinantes.

Las células eucariotas también pueden incluir embriones no humanos en estadio unicelular (es decir, ovocitos o cigotos fertilizados). Tales embriones en estadio unicelular pueden ser de cualquier fondo genético (p. ej., BALB/c, C57BL/6, 129 o una combinación de los mismos), pueden ser frescos o congelados, y pueden derivarse de reproducción natural o fertilización in vitro.

El término “ animal” , en referencia a células, células pluripotentes y/o totipotentes, células ES, células donantes y/o embriones hospedadores, incluye mamíferos, peces y aves. Los mamíferos incluyen, por ejemplo, seres humanos, primates no humanos, monos, monos, gatos, perros, caballos, toros, ciervos, bisontes, ovejas, roedores (p. ej., ratones, ratas, hámsteres, cobayas), ganado (p. ej., especies bovinas, tales como vacas, novillos, etc.; especies ovinas, tales como ovejas, cabras, etc.; y especies porcinas, tales como cerdos y jabalíes). Las aves incluyen, por ejemplo, gallinas, pavos, avestruces, gansos, patos, etc. También se incluyen los animales domésticos y los animales agrícolas. El término “ animal no humano” excluye a los seres humanos.

Las células pluripotentes y/o totipotentes de ratón pueden proceder de una cepa 129, una cepa C57BL/6, una mezcla de 129 y C57BL/6, una cepa BALB/c o una cepa Swiss Webster. Los ejemplos de cepas 129 incluyen 129P1, 129P2, 129P3, 129X1, 129S1 (por ejemplo, 129S1/SV, 129S1/Svlm), 129S2, 129S4, 129S5, 129S9/SvEvH, 129S6 (129/SvEvTac), 129S7, 129S8, 129T1 y 129T2. Véase, por ejemplo, Festing y col. (1999) Mammalian Genome 10:836). Los ejemplos de cepas C57BL incluyen C57BL/A, C57BL/An, C57BL/GrFa, C57BL/Kal_wN, C57BL/6, C57BL/6J, C57BL/6ByJ, C57BL/6NJ, C57BL/10, C57BL/10ScSn, C57BL/10Cr y C57BL/Ola. Las células pluripotentes y/o totipotentes de ratón también pueden proceder de una mezcla de una cepa 129 mencionada anteriormente y una cepa C57BL/6 mencionada anteriormente (p. ej., 50 % 129 y 50 % C57BL/6). Del mismo modo, las células pluripotentes y/o totipotentes de ratón pueden proceder de una mezcla de las cepas 129 mencionadas anteriormente o de una mezcla de las cepas BL/6 mencionadas anteriormente (p. ej., la cepa 129S6 (129/SvEvTac)). Un ejemplo específico de una célula ES de ratón es una célula ES de ratón VGF1. Véase, por ejemplo, Auerbach y col. (2000) Biotechniques 29, 1024-1028, 1030, 1032.

Una célula pluripotente y/o totipotente de rata puede proceder de cualquier cepa de rata, incluyendo, por ejemplo, una cepa de rata ACI, una cepa de rata Dark Agouti (DA), una cepa de rata Wistar, una cepa de rata LEA, una cepa de rata Sprague Dawley (SD), o una cepa de rata Fischer tal como Fisher F344 o Fisher F6. Las células pluripotentes y/o totipotentes de rata también pueden obtenerse a partir de una cepa derivada de una mezcla de dos o más cepas recitadas anteriormente. Por ejemplo, la célula pluripotente y/o totipotente de rata puede proceder de una cepa DA o una cepa ACI. La cepa de rata ACI se caracteriza por tener agutí negro, vientre y patas blancos y un haplotipo RT1av1. Tales cepas están disponibles en una variedad de fuentes, lo que incluye Harlan Laboratories. Un ejemplo de una línea celular ES de rata de una rata ACI es una célula ES de rata ACI.G1. La cepa de rata Dark Agouti (DA) se caracteriza por tener pelaje agutí y un haplotipo RT1av1. Tales ratas están disponibles en una variedad de fuentes, lo que incluye Charles River y Harlan Laboratories. Ejemplos de una línea celular ES de rata de una rata DA son la línea celular ES de rata DA.2B y la línea celular ES de rata DA.2C. En algunos casos, las células pluripotentes y/o totipotentes de rata provienen de una cepa endogámica de rata. Véase, p. ej., la patente US 2014/0235933 A1, presentada el 20 de febrero de 2014.

Los ejemplos de células pluripotentes humanas incluyen células ES humanas, células madre adultas humanas, células progenitoras humanas de desarrollo restringido y células madre pluripotentes inducidas por humanos (iPS), tales como células iPS humanas sensibilizadas y células iPS humanas vírgenes. Las células madre pluripotentes inducidas incluyen células madre pluripotentes que pueden derivarse directamente de una célula adulta diferenciada. Las células iPS humanas pueden generarse introduciendo conjuntos específicos de factores de reprogramación en una célula que pueden incluir, por ejemplo, Oct3/4, factores de transcripción de la familia Sox (p. ej., Sox1, Sox2, Sox3, Sox15), factores de transcripción de la familia Myc (p. ej., c-Myc, I-Myc, n-Myc), factores de transcripción de la familia Krüppel (KLF) (p. ej., KLF1, KLF2, KLF4, KLF5) y/o factores de transcripción relacionados, tales como NANOG, LIN28 y/o Glis1. Las células iPS humanas también pueden generarse, por ejemplo, mediante el uso de miARN, micromoléculas que imitan las acciones de los factores de transcripción o especificadores de linaje. Las células iPS humanas se caracterizan por su capacidad para diferenciarse en cualquier célula de las tres capas germinales de los vertebrados, p. ej., el endodermo, el ectodermo o el mesodermo. Las células iPS humanas también se caracterizan por su capacidad de propagarse indefinidamente en condiciones de cultivo in vitro adecuadas. Véase, p. ej., Takahashi and Yamanaka (2006) Cell 126:663-676. Las células ES humanas sensibilizadas y las células iPS humanas sensibilizadas incluyen células que expresan características similares a las de las células epiblásticas posteriores a la implantación y están comprometidas con la especificación y diferenciación del linaje. Las células ES humanas vírgenes y las células iPS humanas vírgenes incluyen células que expresan características similares a las de las células ES de la masa celular interior de un embrión de preimplantación y no están comprometidas para la especificación de linaje. Véase, p. ej., Nichols y Smith (2009) Cell Stem Cell 4:487-492.

Las células que se han implantado en un embrión huésped pueden denominarse “ células donantes” . La célula pluripotente y/o totipotente modificada genéticamente puede ser de la misma cepa que el embrión huésped o de otra cepa. Del mismo modo, la madre sustituta puede ser de la misma cepa que la célula pluripotente y/o totipotente modificada genéticamente y/o el embrión huésped, o la madre sustituta puede ser de una cepa diferente a la de la célula pluripotente y/o totipotente modificada genéticamente y/o el embrión huésped.

Se puede emplear una variedad de embriones huésped no humanos en los métodos expuestos en la presente memoria. Por ejemplo, las células pluripotentes y/o totipotentes que tienen la modificación genética dirigida pueden introducirse en un embrión en fase premórula (p. ej., un embrión en fase de 8 células) a partir de un organismo correspondiente. Véanse, p. ej., las patentes US 7,576,259, US 7,659,442, US 7,294,754 y US 2008/0078000 A1. En otros casos, las células ES donantes pueden implantarse en un embrión huésped en la fase de 2 células, la fase de 4 células, la fase de 8 células, la fase de 16 células, la fase de 32 células o la fase de 64 células. El embrión huésped también puede ser un blastocisto o puede ser un embrión de preblastocisto, un embrión en fase de premórula, un embrión en fase de mórula, un embrión en fase de mórula no compactado o un embrión en fase de mórula compactado. Cuando se emplea un embrión de ratón, el estadio del embrión huésped puede ser un estadio 1 de Theiler (TS1), un TS2, un TS3, un TS4, un TS5 y un TS6, con referencia a los estadios de Theiler descritos en Theiler (1989) “The House Mouse: Atlas of Mouse Development” , Springer-Verlag, Nueva York. Por ejemplo, el Theiler Stage se puede seleccionar de entre TS1, TS2, TS3 y TS4. En algunos casos, el embrión huésped comprende una zona pelúcida, y la célula donante es una célula ES que se introduce en el embrión huésped a través de un orificio en la zona pelúcida. En otros casos, el embrión huésped es un embrión sin zona. En otros casos, se agrega el embrión huésped en fase de mórula.

H. Métodos de identificación de células con genomas modificados

Los métodos según la invención comprenden además identificar una célula que tiene un genoma modificado. Se pueden usar diversos métodos para identificar las células que tienen una modificación dirigida, tal como una deleción o una inserción. Tales métodos pueden comprender identificar una célula que tiene la modificación dirigida en un locus diana (p. ej., entre la primera y la segunda secuencia de reconocimiento de ARN CRISPR). El cribado se puede realizar para identificar tales células con loci genómicos modificados.

La etapa de evaluación puede comprender un ensayo cuantitativo para evaluar la modificación de alelo (MOA) de un cromosoma parental. Por ejemplo, el ensayo cuantitativo puede llevarse a cabo a través de una PCR cuantitativa, tal como una PCR en tiempo real (qPCR). La PCR en tiempo real puede utilizar un primer conjunto de iniciadores que reconoce el locus diana y un segundo conjunto de iniciadores que reconoce un locus de referencia no diana. El conjunto de iniciadores puede comprender una sonda fluorescente que reconoce la secuencia amplificada.

La etapa de cribado también puede comprender un ensayo de retención, que es un ensayo usado para distinguir entre las inserciones dirigidas correctas de un inserto de ácido nucleico en un locus diana genómico y las inserciones transgénicas aleatorias del inserto de ácido nucleico en ubicaciones genómicas fuera del locus diana genómico. Los ensayos convencionales para detectar modificaciones dirigidas, tales como la PCR de largo alcance o la transferencia de Southern, vinculan el vector de direccionamiento insertado con el locus diana. Sin embargo, debido al gran tamaño de sus brazos de homología, los LTVEC no permiten el cribado mediante tales ensayos convencionales. Para analizar el direccionamiento LTVEC, se pueden utilizar ensayos de modificación de alelo (MOA), incluidos los ensayos de pérdida de alelo (LOA) y ganancia de alelo (GOA) (véanse, p. ej., la patente US 2014/0178879 y Frendewey y col. (2010) Methods Enzymol. 476:295-307). El ensayo de pérdida de alelos (LOA) invierte la lógica de cribado convencional y cuantifica el número de copias del locus nativo al que se dirigió la mutación. En un clon celular correctamente dirigido, el ensayo LOA detecta uno de los dos alelos nativos (para los genes que no están en el cromosoma X o Y) y la modificación dirigida altera el otro alelo. El mismo principio se puede aplicar a la inversa que en un ensayo de ganancia de alelo (GOA) para cuantificar el número de copias del vector de direccionamiento insertado. Por ejemplo, el uso combinado de los ensayos GOA y LOA revelará que un clon heterocigoto correctamente dirigido ha perdido una copia del gen diana nativo y ha ganado una copia del gen de farmacorresistencia u otro marcador insertado.

Como ejemplo, se puede usar la reacción en cadena de la polimerasa cuantitativa (qPCR) como método de cuantificación de alelos, pero se puede usar cualquier método que pueda distinguir de manera confiable la diferencia entre cero, una y dos copias del gen diana o entre cero, una y dos copias del inserto de ácido nucleico para desarrollar un ensayo de MOA. Por ejemplo, se puede usar TaqMan® para cuantificar el número de copias de una plantilla de ADN en una muestra de ADN genómico, especialmente en comparación con un gen de referencia (véase, p. ej., la patente US-6,596,541). El gen de referencia se cuantifica en el mismo ADN genómico que el gen (o genes) o locus (o loci) diana. Por lo tanto, se realizan dos amplificaciones TaqMan® (cada una con su sonda respectiva). Una sonda TaqMan® determina el “ Ct” (ciclo umbral) del gen de referencia, mientras que la otra sonda determina el Ct de la región del gen (o genes) o locus (o loci) diana, que se reemplaza por un direccionamiento exitoso (es decir, un ensayo de LOA). El Ct es una cantidad que refleja la cantidad de ADN inicial para cada una de las sondas TaqMan®, es decir, una secuencia menos abundante requiere más ciclos de PCR para alcanzar el ciclo umbral. Disminuir a la mitad el número de copias de la secuencia plantilla para una reacción TaqMan® resultará en un aumento de aproximadamente una unidad de Ct. Las reacciones TaqMan® en células en las que un alelo del gen (o genes) o locus (o loci) diana ha sido reemplazado por recombinación homóloga resultarán en un aumento de un Ct para la reacción TaqMan® objetivo sin un aumento del Ct para el gen de referencia en comparación con el ADN de células no diana. Para un ensayo de GOA, se puede usar otra sonda TaqMan® para determinar el Ct del inserto de ácido nucleico que reemplaza el gen (o genes) o locus (o loci) diana mediante un direccionamiento exitoso.

Dado que los ARNg emparejados pueden crear grandes deleciones mediadas por CAS en un locus diana genómico, puede resultar útil aumentar los ensayos estándar de LOA y GOA para verificar el correcto direccionamiento de los LTVEC (es decir, en células distintas de los embriones en estadio unicelular). Por ejemplo, los ensayos de LOA y GOA por sí solos pueden no distinguir correctamente los clones de células diana de los clones en los que una gran deleción inducida por Cas del locus diana genómico coincide con la integración aleatoria de un LTVEC en cualquier otro sitio del genoma, particularmente si el ensayo de GOA emplea una sonda contra un casete de selección dentro del inserto de LTVEC. Debido a que la presión de selección en la célula diana se basa en el casete de selección, la integración transgénica aleatoria del LTVEC en cualquier otro sitio del genoma generalmente incluirá el casete de selección y las regiones adyacentes del LTVEC, pero excluirá las regiones más distales del LTVEC. Por ejemplo, si una porción de un LTVEC se integra al azar en el genoma, y el LTVEC comprende un inserto de ácido nucleico de aproximadamente 5 kb o más de longitud con un casete de selección adyacente al brazo de homología 3', generalmente el brazo de homología 3', pero no el brazo de homología 5', se integrará transgénicamente con el casete de selección. Alternativamente, si el casete de selección es adyacente al brazo de homología 5', generalmente el brazo de homología 5', pero no el brazo de homología 3', se integrará transgénicamente con el casete de selección. Como ejemplo, si se usan ensayos LOA y GOA para evaluar la integración dirigida del LTVEC, y el ensayo GOA utiliza sondas contra el casete de selección, una deleción heterocigótica en el locus diana genómico combinada con una integración transgénica aleatoria del LTVEC proporcionará la misma lectura que una integración dirigida heterocigótica del LTVEC en el locus diana genómico. Para verificar el correcto direccionamiento mediante el LTVEC, se pueden usar ensayos de retención, por sí solos o junto con los ensayos de LOA y/o GOA.

Los ensayos de retención determinan los números de copias de una plantilla de ADN en la secuencia diana 5' (correspondiente al brazo de homología 5' del LTVEC) y/o la secuencia diana 3' (correspondiente al brazo de homología 3' del LTVEC). En particular, es útil determinar el número de copias de una plantilla de ADN en la secuencia diana correspondiente al brazo de homología adyacente al casete de selección. En las células diploides, los números de copias superiores a dos generalmente indican la integración transgénica del LTVEC al azar fuera del locus diana genómico en lugar de en el locus diana genómico, lo que no es deseable. Los clones dirigidos correctamente conservarán un número de copias de dos. Además, los números de copias de menos de dos en tales ensayos de retención generalmente indican grandes deleciones mediadas por Cas que se extienden más allá de la región diana de la deleción, lo que tampoco es deseable.

En un ensayo de retención ilustrativo para identificar una inserción dirigida de un inserto de ácido nucleico en un locus diana genómico en una célula diploide, se obtiene primero ADN de una célula que se ha puesto en contacto con un vector de direccionamiento grande (LTVEC) que comprende el inserto de ácido nucleico flanqueado por un primer brazo de homología que se hibrida con una primera secuencia diana y un segundo brazo de homología que se hibrida con una segunda secuencia diana, en donde el inserto de ácido nucleico comprende un casete de selección adyacente al primer brazo de homología. Opcionalmente, el casete de selección puede comprender un gen de farmacorresistencia. Después, el ADN se expone a una sonda que se une dentro de la primera secuencia diana, una sonda que se une dentro del inserto de ácido nucleico y una sonda que se une dentro de un gen de referencia que tiene un número de copias conocido, en donde cada sonda genera una señal detectable tras la unión. A continuación, se detectan las señales de la unión de cada una de las sondas. La señal de la sonda génica de referencia se compara con la señal de la primera sonda de secuencia diana para determinar un número de copias para la primera secuencia diana, y la señal de la sonda génica de referencia se compara con la señal de la sonda de inserción de ácido nucleico para determinar un número de copias para el inserto de ácido nucleico. Un número de copias del inserto de ácido nucleico de uno o dos y un número de copias del primer inserto de la secuencia diana de dos generalmente indican la inserción dirigida del inserto de ácido nucleico en el locus diana genómico, y un número de copias del inserto de ácido nucleico de uno o más y un número de copias de la primera secuencia diana de tres o más generalmente indican una inserción aleatoria del inserto de ácido nucleico en un locus genómico distinto del locus diana genómico.

La señal de la unión de la primera sonda de secuencia diana se puede usar para determinar un valor de ciclo umbral (Ct) para la primera secuencia diana, la señal de la unión de la sonda génica de referencia se puede usar para determinar un valor de ciclo umbral (Ct) para el gen de referencia, y el número de copias de la primera secuencia diana se puede determinar comparando el valor Ct de la primera secuencia diana y el valor Ct del gen de referencia. Del mismo modo, la señal de la unión de la sonda de inserción de ácido nucleico se puede usar para determinar un valor de ciclo umbral (Ct) para el inserto de ácido nucleico, y el número de copias del inserto de ácido nucleico se puede determinar comparando el valor Ct de la primera secuencia diana y el valor Ct del gen de referencia.

El inserto de ácido nucleico en el LTVEC puede ser, por ejemplo, de al menos 5 kb, al menos 10 kb, al menos 20 kb, al menos 30 kb, al menos 40 kb, al menos 50 kb, al menos 60 kb, al menos 70 kb, al menos 80 kb, al menos 90 kb, al menos 100 kb, al menos 150 kb, al menos 200 kb, al menos 250 kb, al menos 300 kb, al menos 350 kb, al menos 400 kb, al menos 450 kb o al menos 500 kb. La distancia entre las secuencias a las que se unen las sondas en la primera secuencia diana y el casete de selección puede ser, por ejemplo, de no más de 100 nucleótidos, 200 nucleótidos, 300 nucleótidos, 400 nucleótidos, 500 nucleótidos, 600 nucleótidos, 700 nucleótidos, 800 nucleótidos, 900 nucleótidos, 1 kb, 1,5 kb, 2 kb, 2,5 kb, 3 kb, 3,5 kb, 4 kb, 4,5 kb o 5 kb.

Tales métodos pueden comprender además ensayos de retención adicionales para determinar el número de copias de la segunda secuencia diana. Por ejemplo, tales métodos pueden comprender además exponer el ADN de la célula a una sonda que se une a la segunda secuencia diana, detectar la señal de la unión de la segunda sonda de secuencia diana y comparar la señal de la sonda génica de referencia con la señal de la segunda sonda de la secuencia diana para determinar un número de copias para la segunda secuencia diana.

Del mismo modo, tales métodos pueden comprender además ensayos de GOA adicionales para determinar el número de copias de una o más secuencias adicionales dentro del inserto de ácido nucleico. Por ejemplo, tales métodos pueden comprender además exponer el ADN de la célula a una o más sondas adicionales que se unen al inserto de ácido nucleico, detectar la señal de la unión de una o más sondas adicionales y comparar la señal de la sonda génica de referencia con la señal de una o más sondas de inserto de ácido nucleico adicionales para determinar el número de copias de una o más secuencias adicionales dentro del inserto de ácido nucleico.

Del mismo modo, cuando el LTVEC se diseña para eliminar una secuencia endógena del locus diana genómico o cuando se usan ARNg emparejados (p. ej., para crear rupturas de doble cadena emparejadas en diferentes sitios dentro de un único locus diana genómico y eliminar la secuencia endógena intermedia), tales métodos pueden comprender además un ensayo de LOA para determinar el número de copias de las secuencias endógenas en el locus diana genómico. Por ejemplo, tales métodos pueden comprender además exponer el ADN de la célula a una sonda que se une a la secuencia endógena en el locus diana genómico, detectar la señal de la unión de la sonda de secuencia endógena y comparar la señal de la sonda génica de referencia con la señal de la sonda de la secuencia endógena para determinar un número de copias para la secuencia endógena.

Otros ejemplos de ensayos cuantitativos adecuados incluyen hibridación en el sitio mediada por fluorescencia (FISH), hibridación genómica comparativa, amplificación isotérmica de ADN, hibridación cuantitativa con sonda(s) inmovilizada(s), Invader Probes®, MMP assays®, TaqMan® Molecular Beacon o tecnología de sonda Eclipse™ (véase, por ejemplo, la patente US 2005/0144655).

Para las modificaciones genéticas dirigidas generadas sin el uso de LTVEC, se pueden usar ensayos convencionales para detectar modificaciones dirigidas, tal como la PCR de largo alcance, la transferencia de Southern o la secuenciación de Sanger. Tales ensayos se usan típicamente para obtener pruebas de un enlace entre el vector de direccionamiento insertado y el locus diana genómico. Por ejemplo, para un ensayo de PCR de largo alcance, un iniciador puede reconocer una secuencia dentro del ADN insertado, mientras que el otro reconoce una secuencia del locus diana más allá de los extremos de los brazos de homología del vector de direccionamiento.

Si se asocian diferentes versiones de una secuencia con un número de registro en diferentes momentos, se entiende la versión asociada con el número de registro en la fecha de presentación efectiva de la presente solicitud. La fecha de presentación efectiva significa que la fecha de presentación o la fecha de presentación actual de una aplicación prioritaria se refiere al número de registro si corresponde. Igualmente, si se publican diferentes versiones de una publicación, sitio web o similares en diferentes momentos, se entiende la versión más recientemente publicada en la fecha de presentación efectiva de la solicitud, a menos que se indique de cualquier otra manera. Cualquier característica, etapa, elemento, realización o aspecto de la invención se puede usar junto con cualquier otro a menos que se indique específicamente lo contrario. Aunque la presente invención se ha descrito con cierto detalle a modo de ilustración y de ejemplo con fines de claridad y comprensión, será evidente que pueden ponerse en práctica ciertos cambios y modificaciones dentro del alcance de las reivindicaciones adjuntas.

Tabla 1. Descripción de Secuencias.

Ejemplos

Ejemplo 1. Direccionamiento mediado por CRISPR/Cas9 utilizando un ARN guía o dos ARN guía.

Materiales y métodos

Cultivo, detección y electroporación de células ES

Los experimentos descritos en la presente memoria se realizaron con VGF1, nuestra línea celular XYES híbrida C57BL6NTac/129S6SvEvF1 (Poueymirou y col. (2007) Nat. Biotechnol. 25:91-99; Valenzuela y col. (2003) Nat. Biotechnol. 21:652-659). Las células ES se cultivaron como se describió anteriormente (Matise y col. (2000) en Joyner, A.L. ed. Gene Targeting: a practical approach, págs. 100-132, Oxford University Press, Nueva York).

Se realizaron electroporaciones (EP) con 7,5 millones de células en una cubeta con un espacio de 2 mm en un volumen final de 0,12 ml. Las condiciones eléctricas para la EP fueron 700 V, una resistencia de 400 ohmios y una capacitancia de 25 microF utilizando un sistema de electroporación BTX ECM 630 (Harvard Apparatus, Holliston, MA). La cantidad de LTVEC por EP fue de 0,0015 mg, el plásmido que expresa Cas9 fue de 0,005 mg y el plásmido que expresa ARNgu fue de 0,010 mg. En algunos casos, se añadieron 100 ng de un plásmido que confería resistencia a la puromicina, con el fin de seleccionar los clones sin tener en cuenta la resistencia a la neomicina expresada por los LTVEC. Tras la EP, las células se colocaron en dos placas gelatinizadas de 15 cm y el medio se cambió a diario. Los medios de selección que contenían 100 ug/ml de sulfato G-418 o 0,0015 mg/ml de puromicina comenzaron 48 horas después de la EP y continuaron hasta 10 días después de la EP. Las colonias se recogieron en PBS y se añadieron a una placa de 96 pocillos que contenía tripsina al 0,05 % y se dejaron disociar durante 15 minutos, se neutralizaron con medios y se usaron para el aislamiento del ADN para el cribado.

El método de modificación de los alelos (Frendewey y col. (2010) Methods Enzymol. 476:295-307) se usó para identificar los clones de células ES correctamente dirigidos y para determinar los genotipos de alelos murinos.

Diseño de secuencias guía

En la herramienta de diseño CRISPR (crispr.mit.edu) se introdujeron aproximadamente 200 pb de ADN que rodean la posición de 50 pb, 100 pb, 500 pb o 1 kb dentro de la porción eliminada de Lrp5 u otros genes diana, tanto corriente arriba como corriente abajo, para recuperar posibles secuencias de ARNg. A continuación, se filtraron las posibles secuencias de ARNg para garantizar que solo permitieran cortar el ADN endógeno y no el inserto de humanización en el LTVEC.

Clonación de ARN guía único

Los ARNgu se clonaron como oligos dúplex (IDT) en pMB_ARNgu (promotor U6) en sitios BsmbI fusionados con la estructura base de 77 pb para una expresión perfecta del ARN, o se adquirieron como plásmidos de expresión validados de GeneCopoeia (guías<l>RP5 A, B, B2, E2, E y F). Los plásmidos producidos internamente se confirmaron mediante PCR y secuenciación de Sanger.

Plantilla de ADN para la confirmación del genotipo

El ADN se purificó a partir de células ES, clones derivados de células ES que se habían sometido a electroporación con un vector de direccionamiento y un plásmido que expresaba Cas9 y un plásmido que expresaba uno de varios ARN guía (ARNg) o dos plásmidos que expresaban diferentes combinaciones de ARNg. Los clones identificados mediante ensayos de PCR cuantitativos de modificación del alelo (es decir, pérdida del alelo o ganancia del alelo) por tener una deleción dirigida del locus diana murino y la inserción del vector de direccionamiento o que tienen deleciones inducidas por Cas9/ARNg se seleccionaron para los ensayos de PCR convencionales de seguimiento.

Diseño de oligonucleótidos

Se diseñaron dos ensayos de PCR para cada combinación de ARNg. La primera PCR fue un ensayo de deleción para detectar el colapso entre las secuencias de reconocimiento de ARN CRISPR de diferentes combinaciones de ARNg. El segundo ensayo de PCR, que es un ensayo de 5', incluyó dos ensayos de PCR. El primero fue un ensayo en humanos de 5' para detectar alelos humanizados y se diseñó en la unión murino-humano. El segundo fue un ensayo en ratones de 5' para detectar alelos murinos endógenos y se diseñó en la unión de deleción dirigida de 5'.

Reacción de PCR y clonación TOPO

Se usó ADN-polimerasa TaKaRa LA Taq (n.° cat. RR002M) para amplificar la plantilla de ADN de las células ES. Cada mezcla de reacción del ensayo de PCR se realizó con un control negativo de agua. Las mezclas de ensayo contenían lo siguiente: 0,005 ml de plantilla de ADN de células ES; tampón 1X LA PCR II (Mg2+plus); 0,01 mM de mezcla de dNTP; 0,0075 mM de oligo directo (cada uno); 0,0075 mM de oligo inverso (cada uno); 5000 unidades/ml de polimerasa LA Taq; y ddH2O a 0,025 ml.

El programa de termociclo de PCR consistió en 94 °C durante un minuto; seguido de 35 ciclos de 94 °C durante 30 segundos, gradiente de hibridación de 60 °C durante 30 segundos y 68 °C durante un minuto por kb amplificado; seguido de polimerización a 72 °C durante 10 minutos.

Los productos de la PCR se fraccionaron mediante electroforesis en un gel de agarosa al 2 % con una escalera de ADN Invitrogen de 1 kb plus (n.° cat. 10787-018) y/o escalera de ADN Invitrogen de 50 pb (n.° cat. 10416-014). Los productos de PCR restantes se clonaron en el vector pCR4-TOPO siguiendo las instrucciones del kit de clonación TOPO TA de Invitrogen (n.° cat. K4575-02) para la secuenciación. Las reacciones de clonación se transformaron químicamente en células One Shot Top10 y se colocaron en placas de agar con 0,06 mg/ml de X-gal y 0,025 mg/ml de kanamicina.

Secuenciación

Se inocularon colonias blancas en LB que contenía 0,025 mg/ml de kanamicina y se incubaron durante la noche con agitación a 37 °C. Cada colonia representaba un amplicón de una población de productos ensayados. Se extrajo el ADN de cada cultivo bacteriano utilizando el kit QIAGEN Plasmid miniprep (n.° cat. 12123). La secuencia de ADN de los insertos se determinó en una mezcla de reacción de secuenciación que incluía 0,002 ml de PCR clonada con TOPO, 1 solución potenciadora de PCRx (solución madre 10x) (n.° cat. X11495-017), 0,0075 mM de oligo (M13F o M13R) y ddH2O a 0,015 ml.

Análisis de secuenciación

Los resultados de la secuenciación se recortaron de la secuencia indeterminada y la secuencia del vector pCR4-TOPO, aislando la secuencia del inserto de la PCR. Los fragmentos secuenciados se alinearon después con una referencia y se analizaron las variaciones.

Secuenciación de clones colapsados

Se clonaron productos de PCR de los clones positivos colapsados en el vector pCR4-TOPO siguiendo las instrucciones del fabricante (n.° cat. de Invitrogen K4575-02), después se transformaron químicamente en células One Shot Top10 y se colocaron en placas de agar con 0,060 mg/ml de X-gal y 0,025 mg/ml de kanamicina. Se extrajo el ADN de los cultivos bacterianos utilizando el kit QIAGEN Plasmid miniprep (n.° cat. 12123). Los resultados de la secuenciación de los insertos se alinearon después con una referencia de colapso prevista y se analizaron las variaciones indel. Se predijo que Cas9 escindiría 3 pares de bases del PAM en la secuencia reconocida por el ARNg. La secuencia dentro de la escisión prevista se eliminó de la referencia y la restante se usó para la alineación con los resultados.

Ensayos de discriminación alélica TaqMan® para variantes de un solo nucleótido (SNV)

La reacción de discriminación alélica TaqMan® fue de 0,008 ml que contenía ADN genómico, sondas/iniciadores específicos para cada polimorfismo y la mezcla maestra de PCR de expresión génica TaqMan®. Las sondas se pidieron a Life Technologies (Thermo) y los iniciadores a IDT. La sonda para el alelo 129 se marcó con colorante VIC; la sonda para el alelo B6 se marcó con colorante FAM. Cada ensayo alélico TaqMan® se realizó por cuadruplicado en una placa de 384 pocillos y se ejecutó en la plataforma ViiA 7 de Applied BioSystems. El programa cíclico de PCR de las SNV fue el siguiente: 95 °C durante 10 minutos seguidos de 40 ciclos de lo siguiente: 95 °C durante 15 segundos, 60 °C durante 60 segundos y 60 °C durante 30 segundos. El análisis de la ejecución y la evaluación de los resultados se realizaron utilizando el software ViiA 7 v 1.1.

Análisis FISH

Los clones de células ES seleccionados fueron analizados por Cell Line Genetics (Madison, Wisconsin) o el Instituto Van Andel (Grand Rapids, Michigan) utilizando hibridación in situ con sonda fluorescente (FISH) mediante sus procedimientos estándar. Proporcionamos BAC de ratón y humano como sondas para el análisis de 2 colores.

Colapso mejorado del genoma y/o humanización de los loci diana

Para efectuar una deleción precisa en una sola etapa de la totalidad o parte del gen de un roedor y, opcionalmente, un reemplazo simultáneo con la totalidad o parte de su homólogo humano, introdujimos por electroporación en las células ES de roedores las siguientes moléculas de ácido nucleico: (1) un LTVEC; (2) un plásmido o ARNm que codifica una endonucleasa Cas9; y (3) uno o más plásmidos que codifican uno o más ARN guía único (ARNg) CRISPr o los propios ARNg. En cada experimento, se linearizó el LTVEC. En algunos experimentos, el LTVEC comprendía la totalidad o parte de un gen humano que codifica el producto génico (proteína o ARN) flanqueado por brazos de homología del ADN de roedor diseñados para dirigir un evento de recombinación homóloga que elimina el gen del roedor e inserta el gen humano. En otros experimentos, el LTVEC se diseñó para dirigirse a un locus separado, tal como el locus Ch25h. En cualquier caso, el LTVEC también llevaba un casete de selección de fármacos que dirige la expresión de una enzima (p. ej., neomicina fosfotransferasa) que transmite resistencia a un antibiótico (por ejemplo, la G418).

Las células ES que absorbieron el LTVEC y lo incorporaron a sus genomas pudieron crecer y formar colonias en una placa de cultivo de tejidos en un medio de cultivo que contenía el antibiótico. Debido a que introdujimos de 500 a 1000 veces más moléculas nucleicas que codifican CRISPR/Cas9 y que codifican ARNg que moléculas de LTVEC, la mayoría de las colonias farmacorresistentes que contienen LTVEC también contenían, al menos transitoriamente, los componentes de CRISPR/Cas9. Seleccionamos colonias farmacorresistentes y las examinamos mediante el método de modificación de alelos (Valenzuela y col. (2003) Nat. Biotech. 21:652-660; Frendewey y col. (2010) Methods Enzymol. 476:295-307) para identificar los clones que tenían el alelo humanizado correctamente dirigido. Además, se utilizaron ensayos de PCR en tiempo real que reconocían secuencias en los brazos de homología del LTVEC, denominados ensayos de retención, para verificar el correcto direccionamiento del LTVEC en el genoma murino. La determinación del número de copias de estos ensayos de retención proporcionó más aclaraciones para ayudar a distinguir correctamente los clones ES diana, que conservaron un número de copias de dos, de los clones en los que una gran deleción inducida por Cas9 del locus murino diana coincide con la integración aleatoria del LTVEC en cualquier otro sitio del genoma, en cuyo caso los ensayos de retención tuvieron un número de copias de tres (o más). La capacidad de los ARNg emparejados para crear grandes deleciones mediadas por Cas9 en el locus murino diana significó que los ensayos estándar de LOA y GOA, tal como se describió anteriormente, podrían aumentarse mediante ensayos de retención para proporcionar una mayor aclaración y verificar el correcto direccionamiento. Por lo tanto, los ensayos de retención se diseñaron y usaron junto con los ensayos LOA y GOA.

En cada experimento, se usaron uno o dos ARNg. Los ARNg usaron la escisión de Cas9 dirigida de forma individual cerca del extremo 5' del locus diana (es decir, la deleción del gen diana murino), la mitad del locus diana o el extremo 3' del locus diana. Cuando se usaron dos ARNg, uno de los ARNg dirigió la escisión de Cas9 cerca del extremo 5' del locus diana y el otro, la escisión de Cas9 dirigida al ARNg en el centro del locus diana o cerca del extremo 3' del locus diana.

Locus Lrp5

En una serie de experimentos, el LTVEC se diseñó para crear una deleción de 68 kb de la porción del gen Lrp5 (proteína 5 relacionada con el receptor de lipoproteínas de baja densidad) murino que codifica el ectodominio y un reemplazo simultáneo por un fragmento de 91 kb de la secuencia homóloga del gen LRP5 humano (Figura 1). El LTVEC comprendía el fragmento de 91 kb del gen Lrp5 humano flanqueado por brazos de homología que contenían 7 kb y 33 kb de ADN genómico derivado de partes del locus Lrp5 murino que flanquean la secuencia de 68 kb del gen Lrp5 murino destinada a la deleción. En experimentos separados, el LTVEC humanizante de Lrp5 se combinó con un plásmido que codificaba Cas9 y un segundo plásmido que codificaba uno de los ocho ARNg (A, B, B2, C, D, E2, E, F) diseñados para crear rupturas de doble cadena dentro de la región del gen Lrp5 murino que era la diana de la deleción. Los ARNg se diseñaron para evitar el reconocimiento de cualquier secuencia en la porción insertada del gen Lrp5 humano. En otros experimentos, combinamos el LTVEC y el plásmido que codifica Cas9 con plásmidos que codifican dos ARNg diferentes que se dirigen a diferentes sitios dentro de la región del gen Lrp5 murino que fue la diana de la deleción.

Se seleccionaron clones de células ES farmacorresistentes para detectar humanizaciones dirigidas mediante ensayos de modificación de alelos (Valenzuela y col. (2003) Nat. Biotechnol. 21:652-659; Frendewey y col. (2010) Methods Enzymol.

476:295-307) para las secuencias dentro de la deleción y para las secuencias dentro del casete de selección de fármacos y el inserto del gen humano. Los clones se puntuaron como diana correcta si habían perdido una de las dos secuencias génicas endógenas murinas y habían ganado una copia del inserto humano, y también habían conservado dos copias de las secuencias de retención (ubicadas en el brazo de homología del LTVEC). Los dos ensayos de retención para este cribado fueron ensayos TaqMan® que usaron los siguientes iniciadores y sondas: Iniciador directo 7064retU CCTCCT GAGCTTT CCTT GCAG (Id. de sec. n.°: 119); Iniciador inverso 7064retU CCTAGACACACACACACTGTATCA (Id. de sec. n.°: 120); Sonda 7064RetU TaqMan® TTCTGCCCTTGAAAAAGGAGGGC (Id. de sec. n.°: 121); Iniciador directo 7064retD CCTCT GAGGCCACCT GAA (Id. de sec. n.°: 122); Iniciador inverso 7064retD CCCT GACAAGTT CT GCCTT CTAC (Id. de sec. n.°: 123); Sonda 7064retD TaqMan® T GCCCAAGCCT CT GCAGCTTT (Id. de sec. n.°: 124).

Los resultados de la humanización asistida por CRISPR/Cas9 del gen Lrp5 se resumen en la Tabla 2. Cuando se introdujo el LTVEC por sí solo en las células ES, el 1,9 % de los clones farmacorresistentes seleccionados portaban un alelo humanizado heterocigoto correctamente dirigido (véase la columna Direc. het. de la Tabla 2, que incluye clones en los que el alelo no diana no estaba mutado en absoluto o tenía una pequeña mutación inducida por CRISP<r>tal como una pequeña deleción causada por NHEJ). Por el contrario, la combinación del LTVEC con las endonucleasas Cas9 guiada por siete de los ocho ARNg ensayados (A, B, B2, C, D, E2, E y F; véase la Tabla 1) produjo mutaciones heterocigotas monoalélicas correctamente dirigidas con eficiencias que oscilaron entre el 2,1 y el 7,8 %. Para la escisión guiada por Cas9 por B2 y D, además del direccionamiento monoalélico, se detectó una humanización homocigótica bialélica con una frecuencia del 1,0-2,1 %. Nunca hemos observado un direccionamiento bialélico con un LTVEC por sí solo, ni siquiera para alelos de deleción pequeños y simples. Las células ES homocigotas humanizadas en Lrp5 se pueden convertir mediante el método VEL<o>CMOS<e>® (Poueymirou y col. (2007) Nat. Biotech. 25:91-99) directamente en ratones completamente derivados de células ES listos para estudios fenotípicos y de eficacia de fármacos.

Los ensayos de MOA diseñados para detectar mutaciones de la NHEJ inducidas por el ARNg/Cas9 en o cerca de los sitios de escisión previstos demostraron actividad de mutación en todos los ARNg analizados (datos no mostrados). La proporción de mutaciones inducidas por el ARNg monoalélico o bialélico detectadas entre todos los clones ensayados varió según el locus y la posición. No hubo una correlación fuerte entre la actividad de mutación del ARNg y el direccionamiento LTVEC, pero las eficiencias de direccionamiento más bajas se asociaron frecuentemente con los ARNg que tenían las frecuencias de mutación más bajas.

La combinación de dos ARNg que reconocen diferentes extremos de la región del gen Lrp5 que fue la diana de la deleción aumentó la eficiencia total del direccionamiento de humanización, principalmente al aumentar la frecuencia de los eventos de direccionamiento homocigótico en tres de las cinco combinaciones ensayadas (Tabla 2). Debido a que la combinación de ARNg alberga el potencial de crear grandes deleciones entre los sitios de escisión de Cas9 programados por los ARNg, también observamos clones de células ES hemicigóticas que llevaban a cabo una humanización dirigida en un alelo Lrp5 y una gran deleción inducida por CRISPR en el otro alelo (combinación de ARNg A F, Tabla 2). Además, para dos de las combinaciones de ARNg (A F y A E2), identificamos clones de células ES con un genotipo único: grandes deleciones mediadas por CRISPR en ambos alelos Lrp5.

Tabla 2. Resultados de detección de la humanización asistida por CRISPR/Cas9 del ectodominio Lrp5 utilizando ARNg individuales y ARNg combinados.

Como se demuestra en la Tabla 2, se observó un aumento significativo en el porcentaje de clones que tenían un direccionamiento bialélico cuando se usaron dos ARNg que se dirigían a un solo locus en lugar de a un solo ARNg (véase la Figura 2A), lo que indica que el uso de combinaciones de ARNg promueve modificaciones bialélicas. La Figura 2A muestra un esquema general para la deleción simultánea de un gen murino y su reemplazo por una versión humana correspondiente usando un LTVEC y dos ARN guía (A y B). Los tipos únicos de alelos mutantes que se observan con una frecuencia muy superior cuando se usan dos ARNg incluyen alelos colapsados homocigóticamente (Figura 2B; A/A), alelos diana homocigóticamente (Figura 2C; Hum/Hum), alelos diana hemicigóticamente (Figura 2D; (Hum/A)) y otros alelos compuestos diana heterocigóticamente (p. ej., un alelo tiene una humanización dirigida al LTVEC y el otro alelo tiene una mutación inducida por CRISPR, tal como una pequeña deleción) (Figura 2E).

Se realizaron varios ensayos de PCR para respaldar y confirmar los genotipos basándose en los ensayos de MOA. Los iniciadores se muestran en la Figura 1 y se pueden encontrar en la Tabla 1. El LTVEC Lrp5 tenía un brazo de homología de 5' que era lo suficientemente corto (6,9 kb) como para demostrar su direccionamiento mediante una PCR que ensayaba la conexión física entre el inserto humano y la secuencia genómica murina adyacente (Figura 1). Observamos el producto de PCR esperado de 7,5 kb con ADN de clones puntuados como heterocigotos, hemicigotos u homocigotos, pero no con ADN de la línea celular ES parental o de clones puntuados por tener grandes deleciones bialélicas (Figura 3A), confirmando así las llamadas de direccionamiento realizadas por el cribado con MOA (es decir, LOA y GOA) y respaldando las grandes deleciones bialélicas inferidas. El ensayo de PCR 5'-Del-J, que examinó las secuencias en las uniones de deleción e inserción (Figura 3B), produjo un producto de 330 pb con ADN de la línea celular ES parental y de la mayoría de los clones humanizados heterocigotos (datos no mostrados). Para el clon heterocigoto AW-C3, el ensayo 5'-Del-J produjo un producto más pequeño de lo esperado (Figura 3B), lo que sugiere que la escisión del ARNg A/Cas9 indujo una pequeña mutación por deleción en el alelo no diana, que también se detectó mediante un ensayo MOA para la escisión del ARNg A (datos no mostrados). Como era de esperar, el ensayo 5'-Del-J fue negativo para los clones con alelos de deleción hemicigotos, homocigotos y bialélicos. LaC<r>5'-Ins-J (Figura 3B), que examinó las secuencias en la unión entre el extremo 5' del inserto de ADN humano y la secuencia flanqueante adyacente murina, produjo un producto de 478 pb en clones heterocigotos, hemicigotos y homocigotos, ya que estos tienen al menos un alelo humanizado diana. El ensayo de PCR 5'-Ins-J no produjo ningún producto para los clones con grandes deleciones bialélicas (Figura 3B). Para confirmar las grandes deleciones en los clones de deleción hemicigóticos y bialélicos, realizamos PCR con iniciadores que reconocían secuencias fuera de los sitios diana del ARNg dual. La PCR Del(A F), que ensayó la deleción entre los sitios de ARNg A y F (Figura 1), produjo un único producto de aproximadamente 360 pb con ADN de los clones AW-A8 y BO-F 10 (Figura 3B), confirmando que al menos uno de los alelos Lrp5 tenía una deleción grande. Del mismo modo, la PCR Del(A E2), que ensayó una gran deleción entre los sitios de ARNg A y E2, produjo un único producto de aproximadamente 250 pb con ADN del clon BA-A7. Las PCR de deleción, junto con los ensayos de unión, LOA y GOA, respaldan un genotipo bialélico de gran deleción. Los resultados de los ensayos que se muestran en las Figuras 3a y 3B son ejemplos representativos de ensayos similares que realizamos además de la hibridación in situ con sonda fluorescente (FISH; Figura 4A-C) para confirmar los genotipos bialélicos resumidos en la Tabla 2.

Se usó la hibridación in situ con sonda fluorescente (FISH) para confirmar la humanización dirigida homocigótica del gen Lrp5. Los clones de células ES se puntuaron mediante ensayos de PCR cuantitativos y convencionales como homocigotos seleccionados a partir de experimentos de direccionamiento en los que el LTVEC de humanización de Lrp5 (Figura 1) se combinó con Cas9 y dos ARNg (A más para A más E2) se enviaron a un servicio de citología comercial para su análisis por FISH y de cariotipo. Un cromosoma artificial bacteriano (BAC) que portaba el gen Lrp5 murino se marcó con un marcador fluorescente rojo y se usó como sonda para identificar los loci Lrp5 endógenos, y un BAC que portaba el gen LRP5 humano se marcó con un marcador fluorescente verde y se usó como sonda para identificar las cromátides diana con el inserto humano. Las sondas BAC marcadas se hibridaron con extensiones en metafase de los clones diana y se visualizaron mediante microscopía de fluorescencia. Los cromosomas de las extensiones se visualizaron mediante tinción con DAPI (4',6-diamidino-2-fenilindol) y los cariotipos separados para cada clon se determinaron mediante tinción de Giemsa. Un resultado típico se muestra en la Figura 4A para el clon AW-D9, que se encontró que tenía un cariotipo 40XY normal (no mostrado). La fotografía compuesta de la Figura 4A muestra que tanto la señal de la sonda BAC murina roja como la señal de la sonda BAC humana verde se localizaron conjuntamente en la banda citológica B en ambas copias del cromosoma 19 murino, la ubicación conocida del gen Lrp5. La fotografía compuesta de la Figura 4C muestra el mismo direccionamiento homocigótico para otro clon (BA-D5). Estos resultados confirman que el fragmento de 91 kb del gen LRP5 humano en el LTVEC de humanización (Figura 1) se insertó correctamente en el locus Lrp5 murino previsto en ambos homólogos del cromosoma 19 de los clones AW-D9 y BA-D5. Por el contrario, la fotografía compuesta de la Figura 4B muestra que tanto la señal de la sonda BAC murina roja como la señal de la sonda BAC humana verde se localizan conjuntamente en la banda citológica B en una sola copia del cromosoma 19 murino (flecha continua), mientras que solo la señal de la sonda BAC murina roja se localiza en la banda citológica B en la otra copia del cromosoma 19 murino. Estos resultados confirman que el fragmento de 91 kb del gen LRP5 humano en el LTVEC de humanización (Figura 1) se insertó correctamente en el locus Lrp5 murino diana en solo una copia del cromosoma 19 (direccionamiento heterocigótico). También indican (junto con otros controles no mostrados) que la sonda BAC humana no se hibrida de forma cruzada con el locus Lrp5 murino, sino que solo reconoce el inserto LRP5 humano.

La presencia en ciertos clones de mutaciones indel idénticas inducidas por CRISPR formadas en ambos alelos por una reparación aparente no homóloga de la unión de los extremos sugirió la aparición de eventos de conversión génica en las células híbridas F1H4 (que comprenden un 50 % de la cepa 129SvS6 y un 50 % de la cepa C57BL/6N). Para comprender mejor el mecanismo subyacente a la mejora del direccionamiento bialélico cuando se utilizan dos ARNg, se seleccionaron siete clones que tenían humanizaciones homocigotas dirigidas o grandes deleciones homocigotas inducidas por CRISPR tras el direccionamiento con el LTVEC y las combinaciones de ARNg A más F o A más E2.

La Figura 5 muestra ejemplos de ensayos diseñados para examinar los eventos de conversión génica mediados por dos ARN guía. Específicamente, la posibilidad de conversión génica se examinó analizando la pérdida de heterocigosidad (LOH) en las células ES híbridas F1H4 (que comprenden un 50 % de la cepa 129 SvS6 y un 50 % de la cepa C57BL/6N). La conversión génica se puede demostrar mediante la pérdida de heterocigosidad en polimorfismos conocidos entre 129SvS6 (129) y C57BL/6N (B6) y, por lo tanto, se diseñaron ensayos de PCR para diferenciar entre estos dos tipos de alelos. Los polimorfismos de las variantes estructurales (SV) se ensayaron mediante PCR convencionales diseñadas para detectar las diferencias entre los alelos 129 y B6. Aunque solo uno de los ensayos de SV utilizados a continuación se muestra en la Figura 5, el concepto es el mismo para cada uno. Los iniciadores se diseñaron basándose en las variaciones estructurales (SV) entre las cepas de ratón B6 y 129 y se muestran en la Tabla 1. Las condiciones de diseño del iniciador se constriñeron a la identificación de SV de ~25 pb y producir productos de PCR de -300 pb; estas condiciones se seleccionaron de tal modo que cualquier cambio fuera visible mediante electroforesis en gel.

Antes de realizar las PCR en los clones, los ensayos se validaron y optimizaron contra el ADN de células ES natural de las cepas B6, 129 y de la línea celular ES F1H4. Los conjuntos de iniciadores que producían bandas de PCR distinguibles específicas para los alelos B6 o 129 y que eran coherentes en la producción de estas mismas dos bandas distinguibles utilizando a Dn de F1H4 se seleccionaron para su ensayo en clones. Para el cromosoma 19 (la ubicación del gen Lrp5), se seleccionaron seis conjuntos de iniciadores (con ID 190045, 190061, 190068, 190030, 190033 y 190013) para su uso en clones humanizados de Lrp5 genotipados como “ homocigotos dirigidos” u “ homocigotos colapsados” mediante ensayos de modificación del alelo (MOA) y PCR convencional. Los ensayos de PCR de las SV se espaciaron a lo largo del cromosoma 19 desde el locus Lrp5 hasta el extremo telomérico del cromosoma, que varía de -13,7 a ~56,2 Mb desde el locus Lrp5. Las distancias aproximadas (en Mb) de los ensayos de SV en el cromosoma 19 desde el locus Lrp5 son las siguientes: 13,7 para el ensayo 190045, 19,0 para el ensayo 190061, 35,0 para el ensayo 190068, 37,4 para el ensayo 190030, 48,3 para el ensayo 190033 y 56,2 para el ensayo 190013. Solo el ensayo 190033 se muestra en la Figura 5 (mostrado como SV 48.3), pero los iniciadores para los ensayos 190045, 190061, 190068, 190030, 190033 y 190013 se muestran en la Tabla 1.

Se realizaron PCR con el ADN de estos clones, así como con el ADN de control de F1H4, el ADN de control 129 y el ADN de control B6. Los productos de la PCR se fraccionaron mediante electroforesis en geles de poliacrilamida al 6 %, que posteriormente se tiñeron con GelRed. Los clones que producían dos bandas coincidieron con el control F1H4, que, a partir de la optimización anterior, mostró que la banda superior era específica para el alelo 129 y la banda inferior era específica para el alelo B6. Los clones que produjeron solo una banda mostraron solo la banda B6 o solo la banda 129. Los clones AW-A7, AW-F10, BA-D5, BA-F2, BC-H9 y BR-B4 mostraron solo la banda B6 para los seis ensayos, mientras que el clon BO-A8 mostró solo la banda 129 para los seis ensayos. Como se mencionó anteriormente, estos clones se genotiparon como dianas homocigotos u homocigotos colapsados por MOA y/o PCR, e involucraron diversas combinaciones de ARNg (A más F, A más E2, B2 y D). La presencia de una sola banda alélica sugirió que se está produciendo un evento de conversión génica; en ausencia de la conversión, ambas bandas seguirían presentes como en el control F1H4.

Además, las variantes de un solo nucleótido (SNV) entre los alelos 129 y B6 se ensayaron mediante ensayos de discriminación alélica TaqMan®. Las posiciones aproximadas de los ensayos de SNV en el mapa del cromosoma 19 de la Figura 5 se muestran mediante puntas de flecha con sus distancias (en Mb) desde el locus Lrp5 que se indican a continuación. Las distancias (en Mb) desde el locus Lrp5 son las siguientes: 0,32 centromérico de Lrp5 (C2), 1,2 telomérico de Lrp5 (T3), 11,1 telomérico de Lrp5 (T6), 13,2 telomérico de Lrp5 (T7), 17,5 telomérico de Lrp5 (T8), 25,8 telomérico de Lrp5 (T9), 33,0 telomérico de Lrp5 (T10), 38,3 telomérico de Lrp5 (T11), 49,6 telomérico de Lrp5 (T13) y 57,2 telomérico de Lrp5 (T14). Las sondas específicas de 129 y B6 y los pares de iniciadores se muestran en la Tabla 1.

La Tabla 3 muestra siete ejemplos de clones de células ES que presentaron aparentes eventos de conversión génica en el brazo largo del cromosoma 19 en una dirección telomérica desde el locus diana Lrp5 por LOH para los alelos de las SV y SNV. Los clones de células ES se derivaron de experimentos de direccionamiento independientes que combinaron el LTVEC de humanización de Lrp5 (Figura 1) con uno o dos ARNg, como se indica. Las posiciones de los sitios de reconocimiento del ARNg se muestran por encima de la representación del gen Lrp5 en la Figura 5 (flecha gruesa que apunta hacia la izquierda). Los ensayos de genotipificación indicaron que seis de los siete clones tenían humanizaciones del gen Lrp5 dirigidas homocigóticamente, mientras que uno tenía un colapso homocigoto (gran deleción entre los sitios del ARNg). En seis de los siete clones, los alelos 129 se perdieron, dejando solo los alelos B6. En el otro clon, los alelos B6 se perdieron, dejando solo los alelos 129. Todos los clones se mantuvieron heterocigotos para los alelos ensayados en el lado centromérico del locus Lrp5 (es decir, todos los clones fueron heterocigotos B6/129 con el ensayo de SNV C2). La LOH observada en los siete clones indica que un mecanismo por el que se obtienen alelos homocigotos modificados genéticamente cuando un LTVEC se combina con uno o, con mayor frecuencia, dos ARNg es una primera modificación genética dirigida en un alelo seguida de un evento de conversión génica por recombinación dirigida por homología que copia la modificación genética dirigida de un cromosoma a su homólogo.

Tabla 3. Resultados del ensayo de pérdida de heterocigosidad.

Locus C5 (Hc)

En otro conjunto de experimentos, el LTVEC se diseñó para crear una deleción de 76 kb del gen murino para el componente 5 del complemento (C5 o He (complemento hemolítico)) y un reemplazo simultáneo por un fragmento de 97 kb del gen C5 humano homólogo (Figura 6). El locus diana comprendía el exón 2 del codón de terminación del gen C5 (Hc). El LTVEC comprendía el fragmento de 97 kb del gen C5 humano flanqueado por brazos de homología que contenían 35 kb y 31 kb de<a>D<n>genómico derivado de partes del locus C5 (Hc) murino que flanquean la secuencia de 76 kb del gen<c>5 (Hc) murino que se pretendía eliminar. En experimentos separados, el LTVEC humanizante del C5 (Hc) se combinó con un plásmido que codificaba Cas9 y un segundo plásmido que codificaba uno de los seis ARNg (A, B, C, D, E y E2; véase la Tabla 1) diseñados para crear rupturas de doble cadena dentro de la región del gen C5 (Hc) murino que fue la diana de la deleción. Los ARNg se diseñaron para evitar el reconocimiento de cualquier secuencia en la porción insertada del gen C5 humano. En otros experimentos, combinamos el LTVEC y el plásmido que codifica Cas9 con plásmidos que codifican dos ARNg diferentes que se dirigen a diferentes sitios dentro de la región del gen C5 (Hc) murino que fue la diana de la deleción. En algunos experimentos, se usó un LTVEC de control que se dirige al locus Ch25h en lugar del LTVEC humanizante de C5 (Hc). El LTVEC de control, que está diseñado para eliminar la totalidad de la secuencia codificante de Ch25h (~1 kb) e insertar casetes de selección por puromicina y neomicina en el locus Ch25h, se usó como un medio para seleccionar clones farmacorresistentes que no estaban dirigidos a la recombinación homóloga en el locus C5 (Hc).

Los resultados de la humanización asistida por CRISPR/Cas9 del gen C5 (Hc) se muestran en la Tabla 4 y son similares a los resultados obtenidos para la humanización asistida por CRISPR/Cas9 del gen Lrp5. La eficiencia de direccionamiento con el LTVEC por sí solo fue superior (6,1 %) para la humanización del C5 (Hc) que para Lrp5, pero la adición de Cas9 y ARNg mejoró la eficiencia del direccionamiento en cuatro de los seis ARNg ensayados. Al igual que con Lrp5, la combinación de los ARNg (es decir, el uso de dos ARNg) para la humanización de C5 (Hc) aumentó aún más la eficiencia total del direccionamiento, principalmente al aumentar la frecuencia de los eventos de direccionamiento hemicigótico y homocigótico. También encontramos clones de células ES con grandes deleciones inducidas por CRISPR en ambos alelos (observadas a frecuencias del 1,8 % al 3,6 %). Además, cuando se utilizó el LTVEC dirigido al locus Ch25h junto con dos ARNg C5 (Hc), se observaron clones con alelos homocigotos que estaban colapsados entre las dos secuencias de reconocimiento de ARN CRISPR del ARNg con frecuencias del 1,2 % al 6 %, lo que indica que los eventos de colapso se producen independientemente de los eventos de recombinación homóloga en el locus diana. Al igual que con Lrp5, se usaron ensayos de retención para confirmar el direccionamiento correcto de los clones. Los dos ensayos de retención para este cribado fueron ensayos TaqMan® que usaron los siguientes iniciadores y sondas: Iniciador directo 7140retU CCCAGCATCTGACGACACC (Id. de sec. n.°: 125); Iniciador inverso 7140retU GACCACTGTGGGCATCTGTAG (Id. de sec. n.°: 126); Sonda 7140retU TaqMan® CCGAGT CT GCT GTTACT GTT AGCAT CA (Id. de sec. n.°: 127); Iniciador directo 7140retD CCCGACACCTTCT GAGCAT G (Id. de sec. n.°: 128); Iniciador inverso 7140retD T GCAGGCT GAGT CAGGATTT G (Id. de sec. n.°: 129); Sonda 7140retD TaqMan® TAGT CACGTTTT GT GACACCCCAGA (Id. de sec. n.°: 130).

Tabla 4. Resultados de detección de la humanización asistida por CRISPR/Cas9 del gen C5 (Hc) utilizando ARNg individuales y ARNg combinados.

Se usó la hibridación in situ con sonda fluorescente (FISH) para confirmar la humanización dirigida homocigótica del gen C5 (He). Los clones de células ES se puntuaron mediante ensayos de PCR cuantitativos y convencionales como homocigotos seleccionados a partir de experimentos de direccionamiento en los que el LTVEC de humanización del C5 (He) (Figura 6) se combinó con la Cas9 y se enviaron dos ARNg a un servicio de citología comercial para FISH y análisis de cariotipo. Un cromosoma artificial bacteriano (BAC) portador del gen C5 (He) murino se marcó con un marcador fluorescente rojo y se usó como sonda para identificar loci endógenos, y un BAC portador del gen C5 humano se etiquetó con un marcador fluorescente verde y se usó como sonda para identificar las cromátides diana del inserto humano. Las sondas BAC marcadas se hibridaron con extensiones en metafase de los clones diana y se visualizaron mediante microscopía de fluorescencia. Los cromosomas de las extensiones se visualizaron mediante tinción con DAPI (4',6-diamidino-2-fenilindol) y los cariotipos separados para cada clon se determinaron mediante tinción de Giemsa. Un resultado típico se muestra en la Figura 7B para el clon O-E. La fotografía compuesta de la Figura 7B muestra que tanto la señal de la sonda BAC murina roja como la señal de la sonda BAC humana verde se localizaron en el locus C5 (Hc) de ambas copias del cromosoma 2 murino, la ubicación conocida del gen C5 (Hc). Estos resultados confirman que el fragmento de 97 kb del gen C5 humano en el LTVEC de humanización (Figura 6) se insertó correctamente en el locus C5 (Hc) murino previsto en ambos homólogos del cromosoma 2 del clon O-E3. Por el contrario, la fotografía compuesta de la Figura 7A muestra que tanto la señal de la sonda BAC murina roja como la señal de la sonda BAC humana verde se localizan simultáneamente en una sola copia del cromosoma 2 murino (flecha continua), mientras que solo la señal de la sonda BAC murina roja se localiza en el locus C5 (Hc) de la otra copia del cromosoma 2 murino. Estos resultados confirman que el fragmento de 97 kb del gen C5 humano en el LTVEC de humanización (Figura 6) se insertó correctamente en el locus C5 (Hc) murino diana en solo una copia del cromosoma 2 (direccionamiento heterocigótico) en el clon Q-E9.

Locus Rorl

En otro conjunto de experimentos, el LTVEC se diseñó para crear una deleción de 110 kb del gen Rorl (receptor transmembrana de tirosina-proteína quinasa ROR1) murino y un reemplazo simultáneo por un fragmento de 134 kb del gen ROR1 humano homólogo (Figura 8). El LTVEC comprendía el fragmento de 134 kb del gen ROR1 humano flanqueado por brazos de homología que contenían 41,8 kb y 96,4 kb de ADN genómico derivado de partes del locus Rorl murino que flanquean la secuencia de 110 kb del gen Rorl murino destinada a la deleción. En experimentos separados, el LTVEC humanizante de Rorl se combinó con un plásmido que codificaba Cas9 y un segundo plásmido que codificaba uno de los seis ARNg (A, B, C, D, E y F; véase la Tabla 1) diseñados para crear rupturas de doble cadena dentro de la región del gen Rorl murino que fue la diana de la deleción. Los ARNg se diseñaron para evitar el reconocimiento de cualquier secuencia en la porción insertada del gen ROR1 humano. En otros experimentos, combinamos el LTVEC y el plásmido que codifica Cas9 con plásmidos que codifican dos ARNg diferentes que se dirigen a diferentes sitios dentro del gen Ror1 que fue la diana de la deleción.

Los resultados de la humanización asistida por CRISPR/Cas9 del gen Rorl se muestran en la Tabla 5 y son similares a los resultados obtenidos para la humanización asistida por CRISPR/Cas9 de los genes Lrp5 y C5 (He). La eficiencia de direccionamiento con LTVEC por sí solo fue del 0,3 %, y la adición de Cas9 y ARNg aumentó levemente la eficiencia de direccionamiento de dos de los seis ARNg ensayados. La combinación de los ARNg A y F aumentó la eficiencia total de direccionamiento de Rorl al 6,3 % al aumentar la frecuencia de los eventos de direccionamiento tanto heterocigótico como hemicigótico. También encontramos clones de células ES con grandes deleciones inducidas por CRISPR en ambos alelos (observadas con una frecuencia del 1,6 %).

Tabla 5. Resultados de detección de la humanización asistida por CRISPR/Cas9 del gen Rorl utilizando ARNg individuales y ARNg combinados.

Locus Trpa1

En otro conjunto de experimentos, el LTVEC se diseñó para crear una deleción de 45,3 kb del gen Trpa1 (canal catiónico potencial del receptor transitorio, subfamilia A, miembro 1) murino y un reemplazo simultáneo por un fragmento de 54,5 kb del gen TRPA1 humano homólogo (Figura 9). El LTVEC comprendía el fragmento de 54,5 kb del gen TRPA1 humano flanqueado por brazos de homología que contenían 41,0 kb y 58,0 kb de ADN genómico derivado de partes del locus Trpa1 murino que flanquean la secuencia de 45,3 kb del gen Trpa1 murino destinada a la deleción. En experimentos separados, el LTVEC humanizante de Trpa1 se combinó con un plásmido que codificaba Cas9 y un segundo plásmido que codificaba uno de los ocho ARNg (A, A2, B, C, D, E2, E y F; véase la Tabla 1) diseñados para crear rupturas de doble cadena dentro de la región del gen Trpa1 murino que fue la diana de la deleción. Los ARNg se diseñaron para evitar el reconocimiento de cualquier secuencia en la porción insertada del gen TRPA1 humano. En otros experimentos, combinamos el LTVEC y el plásmido que codifica Cas9 con plásmidos que codifican dos ARNg diferentes que se dirigen a diferentes sitios dentro del gen Trpa1 que fue la diana de la deleción.

Los resultados de la humanización asistida por CRISPR/Cas9 del gen Trpa1 se muestran en la Tabla 6 y son similares a los resultados obtenidos para la humanización asistida por CRISPR/Cas9 de los genes Lrp5 y C5 (He). La eficiencia de direccionamiento con LTVEC por sí solo fue del 0,3 %, y la adición de Cas9 y ARNg aumentó la eficiencia de direccionamiento en seis de los ocho ARNg ensayados. La combinación de los ARNg B y F aumentó la eficiencia total de direccionamiento de Trpa1 al 3,4 % al aumentar la frecuencia de los eventos de direccionamiento heterocigótico, hemicigótico y homocigótico. También encontramos clones de células ES con grandes deleciones inducidas por CRISPR en ambos alelos (observadas con una frecuencia del 0,3 %).

Tabla 6. Resultados de detección de la humanización asistida por CRISPR/Cas9 del gen Trpa1 utilizando ARNg individuales y ARNg combinados.

Como ilustran estos ejemplos, el uso de ARN guía dobles en sitios muy separados mejoró la mejora de la humanización heterocigótica en comparación con los ARNg individuales. Además, el uso de ARN guía dobles promovió eventos bialélicos en comparación con los ARNg individuales. A diferencia del direccionamiento con un ARNg, el direccionamiento con dos ARNg resulta en la creación de células dirigidas homocigóticamente (Hum/Hum) en las que ambos alelos tuvieron una humanización dirigida, células eliminadas homocigóticamente (A/A) en las que ninguno de los alelos fue dirigido con el LTVEC humanizante, pero ambos tenían grandes deleciones, y células dirigidas hemicigóticamente (Hum/A) en las que un alelo tenía un humanización dirigida y el otro tenía una gran deleción dual inducida por ARNg/Cas9. En primer lugar, encontramos clones dirigidos correctamente que tenían humanizaciones muy grandes precisas e idénticas en ambos alelos diana (p. ej., células que eran homocigotas para la modificación genética dirigida). Aunque también se observaron clones dirigidos homocigóticamente cuando utilizamos un solo ARNg para alcanzar la humanización de Lrp5, se produjeron con una frecuencia mucho menor que cuando empleamos dos ARNg (véase la Tabla 2). Del mismo modo, no observamos un direccionamiento homocigótico cuando se usó un solo ARNg para alcanzar la humanización de C5 (Hc) o la humanización de Trpal, pero sí observamos un direccionamiento homocigótico cuando se usaron dos ARNg con el vector de direccionamiento (véanse las Tablas 4 y 6). Similarmente, encontramos clones dirigidos correctamente que eran hemicigotos para la modificación génica (es decir, tenían una humanización dirigida justamente en un alelo y una deleción muy grande, a veces por ablación génica, en el otro alelo) para el direccionamiento de Lrp5, el direccionamiento de C5 (Hc), el direccionamiento de Rorl y el direccionamiento de Trpal. Tales modificaciones no se produjeron en absoluto cuando se usó un solo ARNg para alcanzar la humanización de Lrp5, C5 (Hc), Rorl o Trpal (véanse las Tablas 2, 4, 5 y 6, respectivamente).

En segundo lugar, encontramos clones que tenían deleciones idénticas muy grandes (>45 kb) inducidas por eventos de escisión de Cas9 guiados por ambos ARNg en ambos alelos diana (es decir, las células eran homocigotas para una gran deleción, a veces de ablación genética, en el locus diana). Estos tipos de mutaciones no requieren que el vector de direccionamiento esté dirigido contra el mismo gen. Por ejemplo, como se muestra en la Tabla 4, hemos obtenido células ES con deleciones homocigotas inducidas por CRISPR combinando Cas9 y dos ARNg con un vector de direccionamiento dirigido contra un gen diferente no relacionado con dirigida por los ARNg. Por lo tanto, una nucleasa Cas9 guiada por dos ARNg puede inducir una gran deleción en las células sin la adición de un vector de direccionamiento. En tales casos, la selección de fármacos transitoria o estable proporcionada por un vector que expresa un gen de farmacorresistencia puede facilitar el aislamiento de clones de deleción homocigóticos poco frecuentes mediante el enriquecimiento de las células ES que han absorbido el ADN.

Ejemplo 2. Análisis de grandes deleciones inducidas por ARNg combinados.

Estructuras alélicas para grandes deleciones inducidas por ARNg combinados

Se realizó un análisis de secuencia adicional en clones que comprendían grandes deleciones inducidas por eventos de escisión de Cas9 guiados por dos ARNg (véase la Tabla 7). Estas grandes deleciones parecían ser independientes de los eventos de recombinación homóloga dirigidos por el LTVEC en el mismo locus, ya que obtuvimos grandes deleciones en el locus Lrp5 aproximadamente con la misma frecuencia cuando combinamos los ARNg con un LTVEC de Lrp5 o uno dirigido al gen Ch25h a casi 30 Mb de distancia (datos no mostrados). Para caracterizar las grandes deleciones, realizamos PCR que abarcaban la deleción en 37 clones, 15 hemicigotos y 22 con grandes deleciones bialélicas, a partir de cuatro humanizaciones, y secuenciamos los clones individuales de los productos de la PCR. Las secuencias confirmaron las grandes deleciones, que oscilaron entre 38 kb y 109 kb. Dos de los clones de células ES (los clones de Lrp5 AW-A8 y BP-D3) tenían deleciones precisas perfectamente reparadas (68,2 kb) entre los sitios de escisión de Cas9 predichos, mientras que un clon (clon de Hc P-B12) tenía una inserción de un solo par de bases además de la deleción de 38,1 kb. Veintisiete de los clones de células ES tenían deleciones que se extendían más allá de los sitios de escisión de Cas9, lo que es coherente con una reparación imprecisa mediante unión de extremos no homólogos (NHEJ). Los siete clones de células ES restantes tenían mutaciones que combinaban deleciones e inserciones aparentes inducidas por la NHEJ (p. ej., el clon de Lrp5 BP-F6 y el clon de Hc O-E4), cuatro de los cuales tenían inserciones de más de 200 pb que pudimos mapear en sus loci genómicos fuente (datos no mostrados). La inserción de 210 pb en el clon de Lrp5 BO-E9 estaba en una orientación invertida con respecto a una secuencia idéntica situada aproximadamente a 2600 pb fuera del sitio diana del ARNg F en la dirección centromérica (cromosoma 19 , 3589138-3589347). Esta secuencia estaba presente en el brazo de homología 3' largo del LTVEC de Lrp5. Los clones de Lrp5 BP-F6 y BP-G7 se derivaron de un experimento en el que combinamos los ARNg A y F de Lrp5 con Cas9 y un LTVEC dirigido al gen Ch25h a 30 Mb de distancia de Lrp5 en dirección telomérica. El clon BP-F6 tenía una inserción de 266 pb que parecía derivar de un extremo del LTVEC Ch25h en el sentido de que estaba compuesto por un fragmento de 103 pb idéntico a parte de la cadena principal del vector unido a un fragmento de 163 pb que era idéntico a una secuencia cercana al Ch25h y también presente en el brazo largo del LTVEC (cromosoma 19+, 34478136-34478298); este fragmento se insertó en la deleción en una orientación invertida con respecto a la secuencia cromosómica endógena. El clon de Hc O-E4 tenía una inserción de 254 pb que estaba invertida con respecto a una secuencia idéntica encontrada dentro de la secuencia eliminada aproximadamente a 3,1 kb de distancia del sitio de reconocimiento del ARNg A. La inserción de 1304 pb en el clon de Hc S-D5 estaba compuesta por dos fragmentos: un fragmento de 1238 pb que estaba en la misma orientación que una secuencia idéntica encontrada dentro de la secuencia eliminada aproximadamente a 1,4 kb del sitio de escisión de Cas9 previsto dirigido por el ARNg E2 y un segundo fragmento de 66 pb que era una duplicación en una orientación invertida de una secuencia idéntica 25 pb fuera del sitio de corte del ARNg E2.

Tabla 7. Estructuras alélicas para grandes deleciones inducidas por ARNg combinados.

Pruebas de conversión génica en alelos homocigotos

Veintiuno de los 22 clones de células ES con grandes deleciones bialélicas tenían solo una secuencia única (Tabla 7), lo que indica que eran alelos homocigotos. Para el clon S-A11 de He, encontramos la misma secuencia en 11 de los 12 clones de PCR. El clon único con una secuencia diferente podría sugerir dos alelos de deleción diferentes, pero también encontramos el mismo resultado para dos de los clones hemicigotos de He, N-D11 y O-F12. Los distintos alelos de deleción homocigóticos en múltiples clones sugirieron que podrían haber surgido por un mecanismo de conversión génica en el que una deleción en un cromosoma sirvió como plantilla para la reparación por recombinación homóloga de las escisiones de Cas9 en el cromosoma homólogo. Aprovechamos la composición híbrida 129S6SvEvTac (129) y C57BL/6NTac (B6) F1 de la línea celular ES VGF1 (Poueymirou y col. (2007) Nat. Biotechnol. 25:91-99; Valenzuela y col. (2003) Nat. Biotechnol.

21:652-659) para ensayar la conversión génica como pérdida de heterocigosidad (Lefebvre y col. (2001) Nat. Genet.27:257-258) para las variantes estructurales (SV) y de un solo nucleótido (SNV) entre las cepas alrededor del locus Lrp5 en el cromosoma 19 (véase la Figura 5 para ver los cinco ensayos de SV y los diez ensayos de SNV utilizados a continuación) y el locus Hc del cromosoma 2 (no mostrado). Para confirmar que cualquier pérdida de heterocigosidad no era el resultado de la pérdida de cromosomas completos, realizamos ensayos de número de copias cromosómicas (CCN) en sitios que eran idénticos entre las cepas 129 y B6. Para los alelos humanizados o eliminados de Lrp5, ensayamos múltiples SV y SNV colocadas a una distancia de 1,2 Mb de Lrp5 en dirección telomérica hasta el final del brazo largo del cromosoma 19 (Figura 5). Debido a la ubicación de Lrp5 cerca del centrómero, no encontramos ninguna SV y solo una SNV en el lado centromérico del gen. Para He, pudimos ensayar múltiples SV y SNV en cada lado del gen del cromosoma 2 (no mostrado). Los resultados para seis de los clones de Lrp5 se muestran en las Figuras 10A-E y 11A-C.

La Figura 10A-E muestra los resultados de cinco ensayos de SV, cuyas posiciones oscilaron entre 13,7 Mb de distancia de Lrp5 y 56,7 Mb de distancia cerca del extremo telomérico del brazo largo. Los cinco ensayos de SV produjeron dos productos de diferentes tamaños para los alelos 129 (más grandes) y B6 (más pequeños) en los controles 129, B6 y VGF1. Las posiciones aproximadas de los ensayos de SV en el mapa del cromosoma 19 se muestran en la Figura 5 (véase el ensayo SV 13.7, el ensayo SV 20.0, el ensayo SV 36.9, el ensayo SV 48.3 y el ensayo SV 56.7). El número de ensayo representa el número de Mb teloméricos con respecto a Lrp5.Los iniciadores para estos ensayos se muestran en la Tabla 1, y los resultados se muestran en la Figura 10A-E. Dos de los clones, BC-H9 (Lrp5Hum/Hum, ARNg B2) y BR-B4 (Lrp5Hum/Hum, ARNg D), mostraron una pérdida de heterocigosidad que retuvo todos los alelos B6 SV, mientras que un tercer clon, el B0-A8 (Lrp5Hum/Hum, ARNg A F), retuvo todos los alelos 129. Los otros tres clones, BO-F10 (Lrp5Hum/Hum, ARNg A F), BO-G11 (Lrp5Hum/Hum, ARNg A F), y BP-G7 (Lrp5A/A, ARNg A F), se mantuvieron heterocigotos.

Además, las variantes de un solo nucleótido (SNV) entre los alelos 129 y B6 se ensayaron mediante ensayos de discriminación alélica TaqMan®. Las posiciones aproximadas de los ensayos de SNV en el mapa del cromosoma 19 en la Figura 5 se muestran mediante puntas de flecha con los números de ensayo debajo, y sus distancias (en Mb) desde el locus Lrp5 se indican a continuación. Las distancias (en Mb) desde el locus Lrp5 son las siguientes: 0,32 centromérico de Lrp5 (C2), 1,2 telomérico de Lrp5 (T3), 11,1 telomérico de Lrp5 (T6), 13,2 telomérico de Lrp5 (T7), 17,5 telomérico de Lrp5 (T8), 25,8 telomérico de Lrp5 (T9), 33,0 telomérico de Lrp5 (T10), 38,3 telomérico de Lrp5 (T11), 49,6 telomérico de Lrp5 (T13) y 57,2 telomérico de Lrp5 (T14). Las sondas específicas de 129 y B6 y los pares de iniciadores se muestran en la Tabla 1. Los resultados de tres clones (BC-H9, BO-A8, y BR-B4) que mostraron pérdida de heterocigosidad (LOH) telomérica mediante ensayos de SV se muestran en la Figura 11A-C. Los ensayos de SNV (Figura 11A-C y datos no mostrados) confirmaron los eventos de conversión génica en el brazo largo del cromosoma 19 en el lado telomérico de Lrp5 (SNV 1.2 y SNV 57.2; véase la Figura 11B y la Figura 11C, respectivamente), pero el ensayo SNV 0.32 (véase la Figura 11A) mostró que todos los clones se mantuvieron heterocigotos para un alelo a 320 kb de distancia de Lrp5 en el lado centromérico. De los 24 clones Lrp5Hum/Hum o Lrp5A/A ensayados, encontramos seis que mostraban pruebas de pérdida de heterocigosidad en todo el brazo largo del cromosoma 19 en el lado telomérico de Lrp5. Cinco de los clones (cuatro Lrp5Hum/Hum y un Lrp5A/A) se convirtieron de B6 heterocigoto a homocigoto, mientras que un sexto clon (Lrp5Hum/Hum) se convirtió en homocigoto 129. Los ensayos de CCN demostraron la retención de dos copias del cromosoma 19. Ensayos similares de pérdida de heterocigosidad para 21 clones homocigotos de He revelaron que dos, R-E2 (HcHum/Hum, ARNg A F) y R-E8 (HcA/A, ARNg A F), mostraron una pérdida de heterocigosidad en el homocigoto 129 para todas las SV y SNV del lado telomérico del gen He, al tiempo que mantenían la heterocigosidad para todos los alelos del lado centromérico. Los ensayos de CCN indicaron que no había pérdida del cromosoma 2.

Nuestros resultados demuestran por primera vez que el uso de CRISPR/Cas9 puede mejorar la reparación dirigida por homología para grandes humanizaciones en una sola etapa de más de 100 kb, lo que amplía las posibilidades de la ingeniería del genoma a gran escala. El beneficio más notable e inesperado de combinar los LTVEC y el ARNg/Cas9 fue su capacidad para promover humanizaciones dirigidas homocigotas. Aunque en otros experimentos con CRISPR/Cas9 se han comunicado mutaciones bialélicas y eventos de direccionamiento homocigótico, la mayoría de estas modificaciones e inserciones genéticas han sido órdenes de magnitud más pequeñas que las de nuestros alelos humanizados. Antes del uso de CRISPR/Cas9, nunca habíamos encontrado un direccionamiento homocigótico por parte de un LTVEC, ni habíamos visto el direccionamiento simultáneo de más de un gen cuando combinamos múltiples LTVEC dirigidos a genes separados. Dada esta experiencia, el direccionamiento homocigótico inducido por ARNg/Cas9 sugirió que, en lugar de que dos LTVEC se dirigieran por separado a ambos alelos, un evento de direccionamiento inicial en un alelo podría servir de plantilla para la conversión homóloga del otro alelo promovida por uno o más cortes de Cas9. La revelación de que las grandes deleciones bialélicas duales inducidas por el ARNg/Cas9 también eran homocigotas (Tabla 7) apoyan adicionalmente a un mecanismo de conversión génica.

Los ensayos de pérdida de heterocigosidad (Figura 5) demostraron que la conversión génica a gran escala de múltiples alelos que cubrían un fragmento grande del cromosoma en el lado telomérico del gen diana era responsable de algunas de las humanizaciones homocigotas y grandes deleciones. Este tipo de conversión génica direccional de largo alcance es coherente con la recombinación mitótica entre las cromátides replicadas de los cromosomas homólogos en la fase G2 del ciclo celular (Lefebvre y col. (2001) Nat. Genet. 27:257-258) (Figura 12). Aunque solo explicó una minoría de los eventos homocigóticos, este mecanismo podría proporcionar un medio por el cual la escisión del ARNg/Cas9 se pueda utilizar para promover la conversión a gran escala de heterocigotos a homocigotos para múltiples alelos en una gran porción de un cromosoma. Sin embargo, la mayoría de los eventos homocigóticos parecen haber sido el resultado de la conversión génica local, cuyo mecanismo merece una mayor investigación.

Se obtuvieron pruebas adicionales de la conversión génica direccional de largo alcanza mediante el análisis de tres clones obtenidos tras la electroporación de células ES híbridas F1H4 (que comprenden un 50 % de la cepa 129SvS6 y un 50 % de la cepa C57BL/6N) con plásmidos que codifican los ARNg A y F de Lrp5, un plásmido que codifica Cas9 y un LTVEC dirigido al gen Ch25h a 30 Mb de Lrp5 en dirección telomérica. Tres clones se puntuaron inicialmente como natural tras el cribado primario utilizando ensayos TaqMan® dentro de la deleción prevista entre los 2 ARNg (500 pb de distancia en el extremo 5' y 2 kb en el extremo 3'), pero los ensayos posteriores de discriminación alélica TaqMan® que ensayaron variantes de un solo nucleótido (SNV) entre los alelos 129 y B6 revelaron sorprendentemente una pérdida de heterocigosidad. Los ensayos de SNV utilizados fueron un ensayo centromérico (SNV 0.32) y dos ensayos teloméricos (SNV 1.2 y SNV 57.2) (véase la Figura 5). Como se muestra en la Tabla 8, el ensayo SNV centromérico (0,32 Mb) confirmó la retención de la heterocigosidad en los tres clones. Sin embargo, ambos ensayos teloméricos de SNV mostraron que BP-E7 y BP-H4 eran homocigotos para el alelo 129, y ambos ensayos teloméricos de SNV mostraron que BP-E6 era homocigoto para el alelo B6. Los tres clones mostraron retención de dos copias del cromosoma 19, y los tres clones fueron transgénicos para el direccionamiento LTVEC (es decir, el locus Ch25h fue la diana). Estos resultados abren la posibilidad de una homocigosidad forzada mediante la escisión dirigida por CRISPR/Cas9.

Tabla 8. Resultados de detección para ensayos SNV de discriminación alélica.

Varios mecanismos posibles pueden explicar los resultados observados en los experimentos de humanización LTVEC asistidos por CRISPR/Cas9 en células ES híbridas F1H4 murinas (que comprenden un 50 % de la cepa 129SvS6 y un 50 % de la cepa C57BL/6N) (véanse las Figuras 16A-F). Tales mecanismos podrían ocurrir mediante el intercambio recíproco de cromátides por cruce mitótico (véanse las Figuras 16A-C), o mediante la copia de cromátides mediante replicación inducida por ruptura (véanse las Figuras 16D-E). En cualquier caso, podría producirse una modificación heterocigótica en la que el LTVEC se dirija al cromosoma 129 o al cromosoma B6 antes de la replicación del genoma (véanse las Figuras 16A y 16D). Alternativamente, el LTVEC podría atacar una sola cromátide 129 o una sola cromátide B6 después de la replicación del genoma, seguida de la conversión génica entre cromátides (véanse las Figuras 16B y 16<e>). Alternativamente, puede haber una falta de direccionamiento LTVEC en el locus diana genómico, pero la escisión de Cas9 puede producirse en el cromosoma 129 o B6 (véanse las Figuras 16C y 16F). Esta última posibilidad puede explicar los resultados observados con los clones BP-E7, BP-H4 y BP-E6. Los posibles resultados se muestran en las Figuras 16A-F. En la Figura 16F, también es posible observar una pérdida de heterocigosidad (LOH) reteniendo los alelos B6 si la Cas9 escinde una cromátide 129. En los experimentos descritos anteriormente, se han observado episodios de pérdida de heterocigosidad que resultan en que ambos alelos sean la diana (Hum/Hum) o que ambos alelos sean alelos de tipo natural (+/+).

Ejemplo 3. Efecto del tamaño de los brazos de homología del LTVEC en la eficiencia del direccionamiento

Para determinar el efecto del tamaño del brazo de homología sobre la eficiencia del direccionamiento, se compararon dos LTVEC diseñados para crear una deleción de 76 kb del gen murino para el componente 5 del complemento (C5 o Hc (complemento hemolítico)) y un reemplazo simultáneo por un fragmento de 97 kb del gen C5 humano homólogo (Figura 13). El locus diana comprendía el exón 2 del codón de terminación del gen C5 (Hc). El primer LTVEC comprendía el fragmento de 97 kb del gen C5 humano flanqueado por brazos de homología que contenían 35 kb y 31 kb de ADN genómico derivado de partes del locus C5 (Hc) murino que flanquean la secuencia de 76 kb del gen C5 (Hc) murino destinada a la deleción (véase el vector de direccionamiento denominado LTVEC en la Figura 13). El segundo LTVEC comprendía el fragmento de 97 kb del gen C5 humano flanqueado por brazos de homología que contenían 5 kb cada uno de ADN genómico derivado de partes del locus C5 (Hc) murino que flanquean la secuencia de 76 kb del gen C5 (Hc) murino destinada a la deleción (véase el vector de direccionamiento denominado sTVEC en la Figura 13).

En experimentos separados, los LTVEC humanizantes de C5 (Hc) se combinaron con un plásmido que codificaba Cas9 y un segundo plásmido que codificaba uno o dos de los seis ARNg (A, B, C, D, E y E2; véase la Tabla 1) diseñados para crear rupturas de doble cadena dentro de la región del gen C5 (Hc) murino que fue la diana de la deleción. Los ARNg se diseñaron para evitar el reconocimiento de cualquier secuencia en la porción insertada del gen C5 humano.

Los resultados de la humanización asistida por CRISPR/Cas9 del gen C5 (Hc) se muestran en la Tabla 9. La eficiencia de direccionamiento del primer LTVEC por sí solo (brazos de homología de 35 kb y 31 kb) fue superior a la eficiencia de direccionamiento del segundo LTVEC por sí solo (brazos de homología de 5 kb y 5 kb). Sin embargo, las eficiencias totales de direccionamiento de cada LTVEC cuando se combinaron con los ARNg A y E2 fueron casi idénticas (véase la Tabla 9), lo que indica que los tamaños de los brazos de homología de 5 kb (es decir, una suma total de 10 kb) son suficientes para facilitar el aumento de la eficiencia de direccionamiento observado cuando se dirige al locus C5 (Hc) utilizando CRISPR/Cas9 junto con el direccionamiento LTVEC.

Tabla 9. Resultados de detección de la humanización asistida por CRISPR/Cas9 del gen C5 (Hc) utilizando LTVEC con brazos de diferentes tamaños de brazo de homología.

Ejemplo 4. Efecto de distancias más cortas entre las secuencias de reconocimiento de ARN CRISPR en la eficiencia del direccionamiento

Para determinar el efecto de las distancias más cortas entre las secuencias de reconocimiento del ARN CRISPR y los sitios de escisión en la eficiencia del direccionamiento, se diseñó un LTVEC para crear una deleción de 18,2 kb del gen murino para la citidina monofosfato-ácido N-acetilneuramínico hidroxilasa (Cmah) y un reemplazo simultáneo por un inserto que comprende un reportero lacZ y un casete de selección de resistencia a la higromicina. El LTVEC se usó con dos ARNg dirigidos a secuencias poco espaciadas (Figura 14). El locus diana comprendía los cinco primeros exones del gen Cmah. El LTVEC comprendía el inserto lacZ-hygr de 8,8 kb flanqueado por brazos de homología que contenían 120 kb y 57 kb de ADN genómico derivado de partes del locus Cmah murino que flanquean la secuencia de 18,2 kb del gen Cmah murino destinado a la deleción. El LTVEC se combinó con plásmidos que codificaban Cas9 y dos ARNg (A y B) diseñados para crear rupturas de doble cadena cerca del extremo 5' de la región del gen Cmah murino que era la diana de la deleción. Los dos ARNg se dirigieron a secuencias poco espaciadas cerca del ATG en el extremo 5' de la secuencia destinada a la deleción, con los sitios de escisión diana separados por 27 pb (véase la Figura 15). La escisión con Cas9 guiada por los dos ARNg produce una secuencia extirpada con extremos romos de 27 pb. Se usó LTVEC por sí solo como control.

Se seleccionaron clones de células ES farmacorresistentes para detectar humanizaciones dirigidas mediante ensayos de modificación de alelos (Valenzuela y col. (2003) Nat. Biotechnol. 21:652-659; Frendewey y col. (2010) Methods Enzymol. 476:295-307) para las secuencias dentro de la deleción y para las secuencias dentro del casete de selección de fármacos y el inserto del gen humano. Los clones se puntuaron como diana correcta si habían perdido una de las dos secuencias génicas endógenas murinas y habían ganado una copia del inserto lacZ-hygr.

Además, se utilizaron ensayos de PCR en tiempo real que reconocían secuencias en los brazos de homología del LTVEC, denominados ensayos de retención, para verificar el correcto direccionamiento del LTVEC en el genoma murino. La determinación del número de copias de estos ensayos de retención proporcionó más aclaraciones para ayudar a distinguir correctamente los clones ES diana, que conservaron un número de copias de dos, de los clones en los que una gran deleción inducida por Cas9 del locus murino diana coincide con la integración aleatoria del LTVEC en cualquier otro sitio del genoma, en cuyo caso los ensayos de retención tuvieron un número de copias de tres (o más). La capacidad de los ARNg emparejados para crear grandes deleciones mediadas por Cas9 en el locus murino diana significó que los ensayos estándar de LOA y GOA, tal como se describió anteriormente, podrían aumentarse mediante ensayos de retención para proporcionar una mayor aclaración y verificar el correcto direccionamiento. Por lo tanto, los ensayos de retención se diseñaron y usaron junto con los ensayos LOA y GOA.

Los resultados del experimento de direccionamiento con Cmah se resumen en la Tabla 10. En el experimento de direccionamiento de control con LTVEC por sí solo, el 5,4 % (3/56) de los clones seleccionados tenían una mutación heterocigótica (Het) por deleción y reemplazo; El 95 % de los clones siguieron siendo de tipo natural (WT) en el locus Cmah. En el experimento de direccionamiento de CRISPR, observamos cinco tipos diferentes de alelos mutantes además de algunos clones naturales. Observamos tres tipos de alelos diana del LTVEC: (1) Het.; (2) Hom. (deleción-reemplazo homocigótico); y (3) Hemi. (deleción-reemplazo en un alelo y una mutación inducida por ARNg/Cas9 en el otro alelo). Estos tres tipos representan el 43,5 % (106/244) de todos los clones seleccionados. En comparación con el LTVEC por sí solo, observamos una mejora de 8 veces en el direccionamiento del gen Cmah en el que la diana fue al menos un alelo. También observamos dos tipos de alelos que portan solo mutaciones de ARNg/Cas9-Indel: (1) Het., en la que detectamos un indel en uno de los dos alelos naturales; y (2) mutaciones indel bialélicas, que pueden ser homocigotas (Hom.) o hemicigotas (Hemi.). Solo el 3,7 % de los clones seleccionados siguieron siendo naturales sin ninguna mutación detectable en el locus Cmah. En general, más del 94 % de los clones tenían mutaciones inducidas por Cas9 cuando se utilizó la combinación de los ARNg A y B.

Tabla 10. Resultados de detección para el direccionamiento de Cmah.

Ejemplo 5. Gran colapso mediante el uso de ARNg emparejados en embriones en estadio unicelular

Para alcanzar una gran deleción dirigida en embriones en estadio unicelular, se diseñó un experimento para crear una deleción de 68 kb de la porción del gen Lrp5 (proteína 5 relacionada con el receptor de lipoproteínas de baja densidad) murino que codifica el ectodominio y, opcionalmente, un reemplazo simultáneo por una inserción de 4 nucleótidos mediante el uso de una secuencia donante de ADN monocatenario (124 nucleótidos de longitud) con un inserto de 4 nucleótidos flanqueado por dos brazos de homología de 60 nucleótidos. El inserto de 4 nucleótidos creó un sitio de enzima de restricción tras la inserción en el locus diana. En experimentos separados, se administró la proteína Cas9 en forma de proteína mediante inyección citoplasmática (CI), o Cas9 en forma de ARNm se administró mediante inyección pronuclear (PNI) o electroporación (EP). La Cas9 se combinó con dos ARNg (A F) diseñados para crear rupturas de doble cadena dentro de la región del gen Lrp5 murino que era la diana de la deleción y, opcionalmente, con un donante de recombinación homóloga. Los ARNg se inyectaron en forma de ARN. A continuación, se evaluó la frecuencia de las mutaciones monoalélicas y bialélicas resultantes.

Los resultados se resumen en la Tabla 11, incluida la deleción mediada por NHEJ entre los sitios diana para los dos ARN guía o la deleción asistida por la reparación dirigida por homología con el donante de ADNmc. Se observaron mutaciones bialélicas cuando los a Rn guía emparejados y Cas9 se introdujeron junto con el donante de ADNmc mediante inyección citoplasmática. En cada mutación bialélica observada, un cromosoma se modificó mediante una deleción mediada por NHEJ y un cromosoma se modificó mediante una deleción asistida por HDR.

Estos resultados indican que las inyecciones piezoeléctricas de ARNm citoplasmático resultan en una reparación coherente dirigida por homología con la posibilidad de una recombinación homocigótica con un donante.

Tabla 11. Comparación de los métodos de administración de Cas9.

Ejemplo 6. Ensayos de retención para distinguir entre inserciones dirigidas e inserciones transgénicas y entre deleciones dirigidas y deleciones que se extienden más allá de la región diana

Las estrategias de detección de modificación de alelos (MOA) estándar (véase, p. ej., la Figura 17A) determinan el número de copias TaqMan® comparando un promedio de cuatro valores de Ct replicados biológicos para cada muestra con la mediana de Ct de todas las muestras. Para la pérdida de alelos, se utilizan sondas TaqMan® contra las regiones corriente arriba (mTU) y corriente abajo (mTD) de la región del locus diana genómico que está siendo objeto de deleción. Para la ganancia del alelo, se usan sondas TaqMan® contra el casete de resistencia a la neomicina. Sin embargo, tales sondas podrían diseñarse contra cualquier región del inserto de ácido nucleico. Para un clon dirigido diploide heterocigoto, el número de copias TaqMan® para cada una de las sondas mTU, mTD y Neo debe ser uno. Para los clones dirigidos diploides y homocigotos, el número de copias TaqMan® para cada uno de mTU y mTD debe ser cero, y el número de copias TaqMan® para Neo debe ser dos. Del mismo modo, para los clones diploides no dirigidos, el número de copias TaqMan® para cada uno de mTU y mTD debe ser dos, y el número de copias TaqMan® para Neo debe ser cero. Para los clones colapsados diploides heterocigotos, el número de copias TaqMan® para mTU y mTD debe ser uno, y el número de copias para Neo debe ser cero. Para los clones colapsados diploides homocigotos, el número de copias TaqMan® para cada uno de mTU, mTD y Neo debe ser cero.

Sin embargo, dado que los ARNg emparejados pueden crear grandes deleciones mediadas por CAS en un locus diana genómico, puede resultar útil aumentar los ensayos estándar de LOA y GOA para verificar el correcto direccionamiento de los LTVEC. Por ejemplo, los ensayos de LOA y GOA por sí solos pueden no distinguir correctamente los clones de células diana de los clones en los que una gran deleción inducida por Cas del locus diana genómico coincide con la integración aleatoria de un LTVEC en cualquier otro sitio del genoma. Debido a que la presión de selección en la célula diana se basa en el casete de selección, la integración transgénica aleatoria del LTVEC en cualquier otro sitio del genoma generalmente incluirá el casete de selección y las regiones adyacentes del LTVEC, pero excluirá las regiones más distales del LTVEC. Por ejemplo, si se usan ensayos LOA y GOA para evaluar la integración dirigida del LTVEC, y el ensayo GOA utiliza sondas contra el casete de selección, una deleción heterocigótica en el locus diana genómico combinada con una integración transgénica aleatoria del LTVEC proporcionará la misma lectura que una integración dirigida heterocigótica del LTVEC en el locus diana genómico. Para verificar el correcto direccionamiento mediante el LTVEC, se pueden usar ensayos de retención, por sí solos o junto con los ensayos de LOA y/o GOA.

Cuando se realizan ensayos de retención con TaqMan®, se utilizan sondas ascendentes y descendentes correspondientes a la secuencia diana 5' para el brazo de homología 5' (sonda retU) y la secuencia diana 3' para el brazo de homología 3' (sonda retD) (véase la Figura 17B), que muestra el uso de los ensayos de retención con TaqMan® junto con los ensayos de GOA y LOA para detectar la humanización asistida por CRISPR/Cas9 mediante selección por neomicina). La Figura 17B también muestra cómo se pueden usar diferentes sondas dentro del inserto de ácido nucleico para los ensayos de GOA (véanse la sonda hTU corriente arriba y la sonda hTD corriente abajo). Los resultados de los ensayos de GOA, LOA y retención para diferentes tipos de modificaciones dirigidas e inserciones transgénicas se muestran en la Tabla 12.

Tabla 12. Lecturas previstas del número de copias de los ensayos de GOA, LOA y retención para diferentes tipos de modificación.

Tipo de modificación retU mTGU mTM mTGD retD Neo

Los ensayos de retención TaqMan también se pueden usar junto con los ensayos de LOA para detectar deleciones asistidas por CRISPR/Cas9 utilizando ARNg emparejados (véase la Figura 17C). En tales ensayos, los números de copias de retU y retD deben seguir siendo dos en todos los casos. Los números de copias inferiores a dos indican grandes deleciones mediadas por Cas9 que se extienden más allá de la región que se va a eliminar. Los resultados de los ensayos de LOA y retención para diferentes tipos de modificaciones relacionadas con el colapso se muestran en la Tabla 13.

Tabla 13. Lecturas previstas del número de copias de los ensayos de LOA y retención para diferentes modificaciones de colapso.

Ejemplo 7. Direccionamiento mediado por CRISPR/Cas9 mediante cuatro ARN guía.

Para efectuar una deleción precisa en una sola etapa de una región de aproximadamente 900 kb de un locus modificado de cadena pesada de inmunoglobulina murina y su sustitución simultánea por un inserto Pgk-Neo (promotor de la fosfoglicerato quinasa I unido operativamente al gen de la neomicina fosfotransferasa) flanqueado por sitios loxP, introdujimos por electroporación en las células ES murinas las siguientes moléculas de ácido nucleico: (1) un LTVEC (2), un plásmido que codifica una endonucleasa Cas9; y (3) uno o más plásmidos que codifican cuatro ARN guía individuales (ARNg) c RiSPR. En cada experimento, se linearizó el LTVEC. El locus diana para la modificación era una región de aproximadamente 900 kb de un locus de cadena pesada de inmunoglobulina murina con segmentos génicos de región variable (VH, DH, JH) reemplazados por homólogos humanos (véase la Figura 18). El LTVEC comprendía el inserto Pgk-Neo que tenía una longitud de aproximadamente 2 kb flanqueado por un brazo de homología 5' de 19 kb y un brazo de homología 3' de 13 kb diseñado para dirigir un evento de recombinación homóloga que elimina la región de aproximadamente 900 kb del locus diana e insertar el casete de selección de fármacos que dirige la expresión de la neomicina fosfotransferasa para transmitir resistencia a G418.

De los cuatro ARNg empleados, dos se dirigían a la escisión de Cas9 cerca del extremo 5' del locus diana (ARNg_I 5' y ARNg_II 5' en la Figura 18), y dos Cas9 se dirigían a la escisión cerca del extremo 3' del locus diana (ARNg_I 3' y ARNg_II 3' en la Figura 18). Las secuencias diana de ARNg_I en 5' y ARNg_II en 5' tenían una separación de aproximadamente 150 pb entre sí, y las secuencias diana de ARNg_I en 3' y de ARNg_II en 3' se solaparon, con el sitio diana de ARNg_II en 3' desplazado 1 pb con respecto al sitio diana de ARNg_II en 3'.

Las células ES que absorbieron el LTVEC y lo incorporaron a sus genomas pudieron crecer y formar colonias en una placa de cultivo de tejidos en un medio de cultivo que contenía el antibiótico. Seleccionamos colonias farmacorresistentes y las examinamos mediante el método de modificación de alelos (Valenzuela y col. (2003) Nat. Biotech. 21:652-660; Frendewey y col. (2010) Methods Enzymol. 476:295-307) para identificar los clones que tenían el alelo humanizado correctamente dirigido (véase la Tabla 14 a continuación). Además, se utilizaron ensayos de PCR en tiempo real que reconocían secuencias en los brazos de homología del LTVEC, denominados ensayos de retención, para verificar el correcto direccionamiento del LTVEC en el genoma murino (véase la Tabla 14 a continuación).

Tabla 14. Sondas utilizadas para confirmar el direccionamiento con LTVEC y 4 ARNg.

En las células ES diana resultantes, se eliminó la región de aproximadamente 900 kb y se reemplazó por el inserto Pgk-Neo en ambos alelos (véase la Figura 18). Esta gran deleción y reemplazo se alcanzó con una eficiencia inesperadamente alta (aproximadamente un 1,2 % de eficiencia para la deleción bialélica).

Claims

REIVINDICACIONES

i .Un método in vitro para modificar un genoma dentro de una célula de mamífero que es heterocigota para un primer alelo, que comprende:

(I) introducir en la célula:

(a) una proteína Cas o un ácido nucleico que codifica la proteína Cas;

(b) un primer ARN guía o un ADN que codifica el primer ARN guía, en donde el primer ARN guía se hibrida con una primera secuencia de reconocimiento de ARN CRISPR no específica de un alelo, en donde el primer alelo está en un primer cromosoma homólogo y la secuencia de reconocimiento de ARN CRISPR es centromérica con respecto a un locus en un segundo cromosoma homólogo correspondiente al primer alelo; y

(c) un segundo ARN guía o un ADN que codifica el segundo ARN guía, en donde el segundo ARN guía se hibrida con una segunda secuencia de reconocimiento de ARN CRISPR no específica de un alelo centromérica con respecto al locus del segundo cromosoma homólogo correspondiente al primer alelo,

en donde el primer alelo está al menos a 100 kb de la primera secuencia de reconocimiento de ARN CRISPR,

en donde la proteína Cas y el primer ARN guía no existen juntos de forma natural, en donde la proteína Cas es una proteína Cas9 y tiene actividad nucleasa en ambas cadenas de ADN bicatenario, y

en donde la proteína Cas escinde la primera secuencia de reconocimiento de ARN CRISPR para generar una ruptura de doble cadena y la célula se modifica para que se vuelva homocigota para el primer alelo, opcionalmente en donde la proteína Cas escinde la primera secuencia de reconocimiento de ARN CRISPR y la segunda secuencia de reconocimiento de ARN CRISPR; y

(II) identificar una célula modificada que es homocigota para el primer alelo.
2. El método de la reivindicación 1, en donde la pérdida de heterocigosidad es telomérica de la ruptura de doble cadena.
3. El método de las reivindicaciones 1 o 2, en donde la primera secuencia de reconocimiento de ARN CRISPR está a una distancia de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde el centrómero.
4. El método de una cualquiera de las reivindicaciones 1-3, en donde el primer alelo es de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb desde la primera secuencia de reconocimiento de reconocimiento de ARN CRISPR.
5. El método de una cualquiera de las reivindicaciones 1-4, en donde la región del segundo cromosoma homólogo que se reemplaza por la pérdida de heterocigosidad es de aproximadamente 100 pb a aproximadamente 1 kb, de aproximadamente 1 kb a aproximadamente 10 kb, de aproximadamente 10 kb a aproximadamente 100 kb, de aproximadamente 100 kb a aproximadamente 1 Mb, de aproximadamente 1 Mb a aproximadamente 10 Mb, de aproximadamente 10 Mb a aproximadamente 20 Mb, de aproximadamente 20 Mb a aproximadamente 30 Mb, de aproximadamente 30 Mb a aproximadamente 40 Mb, de aproximadamente 40 Mb a aproximadamente 50 Mb, de aproximadamente 50 Mb a aproximadamente 60 Mb, de aproximadamente 60 Mb a aproximadamente 70 Mb, de aproximadamente 70 Mb a aproximadamente 80 Mb, de aproximadamente 80 Mb a aproximadamente 90 Mb o de aproximadamente 90 Mb a aproximadamente 100 Mb.
6. El método de una cualquiera de las reivindicaciones 1-5, en donde:

(a)el primer alelo comprende una mutación, opcionalmente en donde la mutación es una modificación dirigida; o

(b)el primer alelo es un alelo natural, y el locus correspondiente en el segundo cromosoma homólogo comprende una mutación.
7.El método de una cualquiera de las reivindicaciones 1-6, en donde la célula de mamífero es una célula humana, una célula no humana, una célula de roedor, una célula de ratón, una célula de rata, una célula pluripotente, una célula no pluripotente, una célula pluripotente no humana, una célula pluripotente de roedor, una célula pluripotente de ratón, una célula pluripotente de rata, una célula madre embrionaria (ES) de ratón, una célula ES de rata, una célula madre adulta humana, una célula progenitora humana con un desarrollo restringido, una célula madre pluripotente inducida humana (iPS) o un embrión no humano en estadio unicelular.
8. El método de la reivindicación 7, en donde la célula de mamífero es la célula ES de ratón o la célula ES de rata.
9. El método de la reivindicación 8, en donde la célula de mamífero es la célula ES de ratón.
10. El método de una cualquiera de las reivindicaciones 1-9, en donde:

(a) el primer ARN guía comprende un primer ARN CRISPR y un primer ARNtracr fusionados entre sí, y el segundo ARN guía comprende un segundo ARN CRISPR y un segundo ARNtracr están fusionados entre sí;

(b) el primer ARN guía comprende un primer ARN CRISPR y un primer ARNtracr, en donde el primer ARN CRISPR y el primer ARNtracr son moléculas de ARN separadas, y el segundo ARN guía comprende un segundo ARN CRISPR y un segundo ARNtracr, en donde el segundo ARN CRISPR y el segundo ARNtracr son moléculas de ARN separadas;

(c) la proteína Cas se introduce en la célula en forma de un ARN mensajero (ARNm) que codifica la proteína Cas o un ADN que codifica la proteína Cas;

(d) el primer ARN guía se introduce en la célula en forma de un ADN que codifica el primer ARN guía, y el segundo ARN guía se introduce en la célula en forma de un<a>D<n>que codifica el segundo ARN guía;

(e) el primer ARN guía se introduce en la célula en forma de ARN, y el segundo ARN guía se introduce en la célula en forma de ARN;

(f) la proteína Cas y el primer ARN guía se introducen en la célula como un primer complejo proteína-ARN, y la proteína Cas y el segundo ARN guía se introducen en la célula como un segundo complejo proteína-ARN;

(g) la proteína Cas, el primer ARN guía y el segundo ARN guía se introducen cada uno en la célula en forma de ADN; o

(h) la proteína Cas, el primer ARN guía y el segundo ARN guía se introducen cada uno en la célula en forma de ARN.
11. El método de una cualquiera de las reivindicaciones 1-10, en donde la célula se ha modificado para disminuir la unión de extremos no homólogos (NHEJ) y/o para aumentar la conversión génica o la reparación dirigida por homología (HDR), opcionalmente en donde la célula se ha modificado para disminuir la expresión o la actividad de uno o más de los ADN-PK, PARP1 y ligasa IV, opcionalmente en donde la disminución de la expresión o actividad es inducible, reversible, temporalmente específica y/o espacialmente específica.
12. El método de una cualquiera de las reivindicaciones 1-11, en donde la célula es heterocigótica para uno o más alelos adicionales, la primera secuencia de reconocimiento de ARN CRISPR es centromérica con respecto a los loci del segundo cromosoma homólogo correspondientes a uno o más alelos adicionales, la recombinación homóloga modifica la célula para que se vuelva homocigótica para los uno o más alelos adicionales, y la etapa (II) comprende identificar una célula modificada que es homocigótica para uno o más alelos adicionales.