ES3049196T3

ES3049196T3 - B4galt1 variants and uses thereof

Info

Publication number: ES3049196T3
Application number: ES18733472T
Authority: ES
Inventors: May Montasser; Hout Cristopher Van; Alan Shuldiner; Giusy Gatta; Matthew Healy; Marja Puurunen
Original assignee: Regeneron Pharmaceuticals Inc; University of Maryland Baltimore; University of Maryland College Park
Current assignee: Regeneron Pharmaceuticals Inc; University of Maryland Baltimore; University of Maryland College Park
Priority date: 2017-06-05
Filing date: 2018-06-04
Publication date: 2025-12-15
Anticipated expiration: 2038-06-04
Also published as: FI3635102T3; US20180346888A1; RU2019144018A3; EP3635102B1; AU2018282072A1; IL271073B1; WO2018226560A1; US12480103B2; US10738284B2; SG11201911597YA; CN110997906A; JP2020527329A; CA3065938A1; KR102624979B1; AU2018282072B2; IL271073A; KR20200024772A; JP7661009B2; EP3635102A1; CN110997906B

Abstract

En este documento se proporcionan moléculas de ácido nucleico genómico, ARNm y ADNc, y polipéptidos de la variante B4GALT1, métodos para detectar la presencia de estas moléculas, métodos para modular moléculas de ácido nucleico genómico, ARNm y ADNc, y polipéptidos de la variante B4GALT1 endógena, métodos para determinar el riesgo de desarrollar enfermedades cardiovasculares mediante la detección de la presencia o ausencia de moléculas de ácido nucleico genómico, ARNm y ADNc, y polipéptidos de la variante B4GALT1, y métodos para tratar enfermedades cardiovasculares. (Traducción automática con Google Translate, sin valor legal)

Description

[0001] DESCRIPCIÓN

[0002] Variantes de B4GALT1 y usos de las mismas

[0003] Campo

[0004] La invención se define por las reivindicaciones. La presente divulgación proporciona polipéptidos, y moléculas de ácido nucleico genómico, ARNm, y ADNc deB4GALT1variantes, métodos de detección de la presencia de estas moléculas, métodos de modulación de polipéptidos, y moléculas de ácido nucleico genómico, ARNm, y ADNc deB4GALT1endógenas, métodos de determinación del riesgo de desarrollar alteraciones cardiovasculares mediante detección de la presencia o ausencia de los polipéptidos, y moléculas de ácido nucleico genómico, ARNm, y ADNc deB4GALT1variantes, y métodos de tratamiento de alteraciones cardiovasculares.

[0005] Antecedentes

[0006] Beta-1,4-galactosiltransferasa 1(B4GALT1)es un miembro de la familia de genes de beta-1,4-galactosiltransferasa que codifica para glicoproteínas unidas a membrana de tipo II que desempeñan una función en la biosíntesis de diferentes glicoconjugados y estructuras de sacáridos. La enzima codificada porB4GALT1desempeña una función crítica en el procesamiento de restos de oligosacáridos unidos en N en glicoproteínas, y las cadenas de azúcar unidas a proteína con frecuencia modulan las funciones biológicas de la glicoproteína. Por tanto, una actividad deB4GALT1alterada tiene posibilidad de alterar la estructura de todas las glicoproteínas que contienen oligosacáridos unidos en N. La forma larga de la enzima B4GALT1 está localizada en la región trans-Golgi, en la que transfiere residuos de galactosilo a residuos de N-acetilglucosamina durante el transcurso del procesamiento de biosíntesis de oligosacáridos unidos en N de alto contenido en manosa a tipo complejo. Dado que la adición de residuos de galactosilo es un requisito previo para la adición de ácidos siálicos, un defecto enB4GALT1ejerce un efecto indirecto bloqueando la adición de residuos de ácido siálico y, por tanto, puede alterar la semivida de glicoproteínas en plasma. Se ha notificado que defectos en la glicosilación alteran el tráfico intracelular de diversas glicoproteínas, incluyendo el receptor de LDL. Además, anomalías estructurales en oligosacáridos unidos en N tienen la posibilidad de alterar el plegamiento de proteínas, lo cual puede alterar a su vez la función de glicoproteínas y su secreción. Un gran porcentaje de proteínas contienen glicosilación unida en N, incluyendo receptores de superficie celular (por ejemplo, receptores de LDL y receptores de insulina), así como diversas proteínas plasmáticas en circulación (por ejemplo, apolipoproteína B y fibrinógeno). Ha habido informes de pacientes con enfermedad genética debida a homocigosis para mutaciones de truncamiento de proteínas en el genB4GALT1.Uno de estos pacientes tenía un fenotipo grave caracterizado por a) anomalías del desarrollo neurológico graves (incluyendo hidrocefalia), b) miopatía, y c) anomalías de la coagulación de la sangre. Tal como se predice, los oligosacáridos derivados de transferrina en circulación carecían de residuos de galactosa y ácido siálico. Dos pacientes adicionales con el mismo defecto genético presentaban un fenotipo más leve, caracterizado por perturbaciones de la coagulación, hepatopatía, y características dismórficas.

[0007] La enfermedad cardiovascular es la causa principal de muerte en los Estados Unidos y otros países occidentales. Los principales factores de riesgo para enfermedades cardiovasculares aterotrombóticas tales como accidente cerebrovascular e infarto de miocardio incluyen aumento de colesterol en sangre y tendencia trombótica. Muchas proteínas que participan en el metabolismo de lípidos y la coagulación están glicosiladas y, por tanto, sujetas a modulación porB4GALT1.El conocimiento de factores genéticos subyacentes al desarrollo y la progresión de alteraciones cardiovasculares puede mejorar la estratificación de riesgos y proporcionar las bases para estrategias terapéuticas novedosas.

[0008] Sumario

[0009] La invención se define en las reivindicaciones. Cualquier objeto que se describe en el presente documento, pero que no se reivindica, no forma parte de la invención. A continuación, partes de la descripción que se refieren a la “divulgación” no describen la invención.

[0010] Por consiguiente, la presente invención se refiere a una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 1, siempre que la secuencia de ácido nucleico comprenda un codón correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1 que codifica para una serina, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

[0011] La presente invención también se refiere a una molécula de ácido nucleico aislada, que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98%, o al menos aproximadamente el 99% a SEQ ID NO: 4, siempre que la secuencia de ácido nucleico comprenda un codón que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

[0012] Según una realización preferida, la secuencia de ácido nucleico es idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a una porción de SEQ ID NO: 4 que comprende los exones 1 a 6 del genB4GALT1.

[0013] Además, la presente invención también se refiere a una molécula de ácido nucleico aislada, que comprende una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición 352, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

[0014] Según una realización preferida, la molécula de ácido nucleico aislada según la reivindicación 4, en la que la secuencia de ácido nucleico codifica para la secuencia de polipéptido de SEQ ID NO: 8.

[0015] La presente invención se refiere además a un ADNc que codifica para una proteína beta-1,4-galactosiltransferasa 1 (B4GALT1) humana, que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 6, siempre que la secuencia de ácido nucleico codifique para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en el que el ADNc está asociado con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

[0016] Según una realización preferida, la secuencia de ácido nucleico comprende SEQ ID NO: 6.

[0017] Aún adicionalmente, la presente invención se refiere a un polipéptido aislado, que comprende una secuencia de aminoácidos idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a un polipéptido variante de B4GALT1 que tiene SEQ ID NO: 8, siempre que el polipéptido comprenda una serina correspondiente a la posición 352 de SEQ ID NO: 8, en el que el polipéptido está asociado con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

[0018] La presente invención también se refiere a un método de detección de una molécula de ácido nucleico variante deB4GALT1en un sujeto humano, que comprende: a) someter a ensayo una muestra obtenida a partir del sujeto para determinar si una molécula de ácido nucleico en la muestra comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en el que el ensayo comprende; b) secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2; c) secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o d) secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0019] La presente invención se refiere además a un método de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular, que comprende: a) someter a ensayo una muestra obtenida a partir del sujeto para determinar si una molécula de ácido nucleico en la muestra comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en el que el ensayo comprende; b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si la molécula de ácido nucleico comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si la molécula de ácido nucleico no comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro; c) secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2; d) secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o e) secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0020] Según una realización preferida, la alteración cardiovascular comprende un nivel elevado de uno o más lípidos séricos, niveles elevados de calcificación de arterias coronarias, niveles elevados de grasa pericárdica, un estado aterotrombótico, niveles elevados de fibrinógeno, o un coágulo sanguíneo formado a partir de la participación de actividad de fibrinógeno.

[0021] Según otra realización preferida, los lípidos séricos comprenden uno o más de colesterol, LDL, HDL, triglicéridos, colesterol de HDL, y colesterol distinto de HDL.

[0022] En el presente documento se da a conocer un método para modificar una célula, que comprende introducir (i) un vector de expresión en la célula, en el que el vector de expresión comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos que codifica para una serina insertada en posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2, o (ii) un vector de expresión, en el que el vector de expresión comprende una molécula de ácido nucleico que codifica para un polipéptido B4GALT1, y en el que el polipéptido B4GALT1 es idéntico en al menos aproximadamente el 90%, al menos aproximadamente el 95%, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, y comprende una serina en la posición 352 correspondiente a SEQ ID NO: 8, y en el que el genB4GALT1recombinante o la molécula de ácido nucleico que codifica para el polipéptido B4GALT1 está asociado con niveles inferiores de colesterol de lipoproteínas de baja densidad (LDL), colesterol total, y fibrinógeno y eGFR, y un nivel aumentado de aspartato transaminasa (AST).

[0023] Finalmente, en el presente documento se da a conocer un método para modificar una célula, que comprende introducir un polipéptido B4GALT1, o fragmento del mismo, en la célula, en el que el polipéptido B4GALT1 es idéntico en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, y comprende una serina en la posición 352 correspondiente a SEQ ID NO: 8, y en el que el polipéptido está asociado con niveles inferiores de colesterol de lipoproteínas de baja densidad (LDL), colesterol total, y fibrinógeno y eGFR, y un nivel aumentado de aspartato transaminasa (AST).

[0024] Breve descripción de las figuras

[0025] La figura 1 muestra los resultados de una asociación del genoma completo representativa deB4GALT1variante con LDL.

[0026] La figura 2 muestra los resultados de una asociación de WGS de TOPMed representativa deB4GALT1variante con LDL.

[0027] La figura 3 muestra los resultados de una estructura de haplotipo representativa de los principales SNP asociados conB4GALT1.

[0028] La figura 4 muestra la asociación del genB4GALT1variante con LDL en los amish identificado mediante secuenciación de exomas.

[0029] La figura 5 muestra que la frecuencia del genB4GALT1variante está enriquecida en más de 1000 veces en los amish.

[0030] La figura 6 muestra la asociación deB4GALT1Asn352Ser con lípidos séricos reducidos.

[0031] La figura 7 muestra el alto grado de asociación deB4GALT1Asn352Ser con lípidos séricos reducidos y AST aumentada.

[0032] La figura 8 muestra la asociación deB4GALT1Asn352Ser con todas las fracciones secundarias de lípidos.

[0033] La figura 9 muestra la asociación deB4GALT1Asn352Ser con niveles de fibrinógeno reducidos.

[0034] La figura 10 muestra transcritob4galt1reducido en larvas de pez cebra 5 días tras la fertilización a las que se les inyectó oligonucleótido de morfolino antisentido a las concentraciones indicadas.

[0035] La figura 11 muestra un marcador de diagnóstico de efectos inespecíficos de oligonucleótidos de morfolino antisentido en larvas de pez cebra 5 días tras la fertilización a las que se les inyectaron oligonucleótidos de morfolino antisentido a las concentraciones indicadas.

[0036] La figura 12 muestra la concentración de LDL promedio en homogeneizados de 100 larvas de pez cebra 5 días tras la fertilización por cada experimento.

[0037] La figura 13 muestra un rescate del fenotipo de LDL-c mediante expresión conjunta de 50 pg de ARNm deB4GALT1humano en pez cebra.

[0038] La figura 14 muestra los resultados de asociación genética entre B4GALT1 N352S y LDL usando genotipado dirigido.

[0039] La figura 15 muestra imágenes de microscopía confocal de localización subcelular de Flag-352Asn o Flag-352Ser. La figura 16 muestra imágenes de microscopía confocal de localización subcelular de B4GALT1 endógeno, Flag-352Asn, y Flag-352Se en relación con el marcador de red trans-Golgi TGN46.

[0040] La figura 17 (paneles A y B) muestra el efecto de 352Ser sobre los niveles en estado estacionario de proteína B4GALT1; (panel A) células COS7 que expresan fusión de proteínas de etiqueta Flag o bien con 352Asn o bien con 352Ser con EGFP libre; y (panel B) niveles de expresión de ARNm para genB4GALT1determinados mediante análisis por RT-qPCR.

[0041] La figura 18 (paneles A, B, y C) muestra el efecto de la mutación de 352Ser sobre la actividad; (paneles A y B) células COS7 que expresan fusión de proteínas de etiqueta Flag o bien con 352Asn o bien con 352Ser expresadas en células COS7 y analizadas mediante inmunotransferencia de tipo Western para detectar B4GALT1 o Flag; (panel C) actividad de B4GALT1 en los inmunoprecipitados.

[0042] La figura 19 muestra la razón de tri-sialo/di-oligo mediante grupo de genotipo de B4GALT1 N352S.

[0043] La figura 20 muestra un espectro de HILIC-FLR-MS representativo de análisis de N-glicanos de glicoproteínas a partir de un par coincidente de homocigotos secundario (SS) y principal (NN) de B4GALT1 N352S.

[0044] Descripción detallada

[0045] Tal como se expone en el presente documento, estudios de secuenciación han identificado una variante deB4GALT1que tiene una serina en la posición correspondiente a la posición 352 en el polipéptido B4GALT1 de longitud completa/maduro en lugar de una asparagina presente en aproximadamente el 11 %-12 % de los individuos de la antigua orden amish (OOA) (frecuencia de alelo alternativo = 6 %), y es extremadamente poco frecuente en la población general. Esta mutación cambia la asparagina por serina en la posición 352 (N352S) de la proteína humana de 398 aminoácidos de longitud, o en la posición 311 de la isoforma corta. Se ha observado queB4GALT1variante está asociado con niveles inferiores de colesterol de lipoproteínas de baja densidad (LDL), colesterol total, y fibrinógeno y eGFR, niveles aumentados de aspartato transaminasa (AST) (pero no alanina transaminasa (ALT)) y niveles en suero de creatina cinasa y creatinina, expresión en tejido muscular (pero no hígado o glóbulos rojos), y una reducción de basófilos. Se cree que la variante N352S es protectora frente a una o más alteraciones cardiovasculares. Se cree además queB4GALT1,incluyendo su estado variante, puede usarse para diagnosticar el riesgo de un paciente de desarrollar alteraciones cardiovasculares.

[0046] La expresión “correspondiente a” cuando se usa en el contexto de la numeración de una secuencia de aminoácidos o de polinucleótido dada se refiere a la numeración de los residuos de una secuencia de referencia especificada cuando se compara la secuencia de aminoácidos o de polinucleótido dada con la secuencia de referencia (siendo la secuencia de referencia en el presente documento el polinucleótido (secuencia de ADNg, secuencia de ARNm, secuencia de ADNc) o polipéptido deB4GALT1(tipo natural/longitud completa)). Dicho de otro modo, el número de residuo o posición de residuo de un polímero dado se designa con respecto a la secuencia de referencia en lugar de la posición numérica real del residuo dentro de la secuencia de aminoácidos o de polinucleótido dada. Por ejemplo, una secuencia de aminoácidos dada puede alinearse con una secuencia de referencia introduciendo huecos para optimizar las coincidencias de residuos entre las dos secuencias. En estos casos, aunque están presentes los huecos, la numeración del residuo en la secuencia de aminoácidos o de polinucleótido dada se realiza con respecto a la secuencia de referencia con la que se ha alineado.

[0047] Tal como se usan en el presente documento, las formas en singular de los artículos “un”, “una”, y “el/la” incluyen referencias en plural a menos que el contexto indique claramente lo contrario.

[0048] Tal como se usa en el presente documento, y a menos que resulte claro lo contrario a partir del contexto, “aproximadamente” abarca valores dentro de un margen de error de medición convencional (por ejemplo, EEM) de un valor mencionado.

[0049] Tal como se usa en el presente documento, “y/o” se refiere a, y abarca, cualquier combinación posible de uno o más de los elementos indicados asociados, así como la ausencia de combinaciones cuando se interpreta como alternativa (“o”).

[0050] Tal como se usan en el presente documento, los términos “que comprende” o “que incluye” significan que uno o más de los elementos mencionados pueden incluir otros elementos no mencionados específicamente. Por ejemplo, una composición que “comprende” o “incluye” una proteína puede contener la proteína sola o en combinación con otros componentes. La expresión de transición “que consiste esencialmente en” significa que debe interpretarse que el alcance de una reivindicación abarca los elementos especificados mencionados en la reivindicación y los que no afectan sustancialmente a la(s) característica(s) básica(s) y novedosa(s) del objeto reivindicado. Por tanto, no se pretende que el término “que consiste esencialmente en”, cuando se usa en una reivindicación de la presente divulgación, se interprete como equivalente a “que comprende”.

[0052] Tal como se usa en el presente documento, “opcional” u “opcionalmente” significa que el acontecimiento o circunstancia descrito posteriormente puede producirse o no, y que la descripción incluye casos en los que se produce el acontecimiento o circunstancia y casos en los que no se produce.

[0054] Tal como se usa en el presente documento, “o” se refiere a cualquier elemento de una lista particular y también incluye cualquier combinación de elementos de esa lista.

[0056] La presente divulgación proporciona variantes de ARNm y genómicas deB4GALT1aisladas, variantes de ADNc deB4GALT1,o cualquier complemento de las mismas, y variantes de polipéptido B4GALT1 aisladas. Se cree que estas variantes están asociadas con un riesgo reducido de desarrollar diversas alteraciones cardiovasculares incluyendo, pero sin limitarse a, niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST), pero no alanina transaminasa (ALT). Sin desear limitarse a ninguna teoría, se cree que estas variantes deB4GALT1se asocian con la expresión en tejido muscular, y no en hígado o glóbulos rojos, tal como se demuestra por los niveles aumentados de AST experimentalmente observados, pero no ALT. En el presente documento también se proporcionan composiciones que comprenden variantes de ARNm y genómicas deB4GALT1,variantes de ADNc deB4GALT1,y variantes de polipéptido B4GALT1 aisladas. En el presente documento también se proporcionan moléculas de ácido nucleico que se hibridan con las variantes de ARNm y genómicas deB4GALT1y variantes de ADNc deB4GALT1.La presente divulgación también proporciona vectores y células que comprenden variantes de ARNm y genómicas deB4GALT1,variantes de ADNc deB4GALT1,y variantes de polipéptido B4GALT1.

[0058] La presente divulgación también proporciona métodos de detección de la presencia y/o niveles de variantes genómicas y/o de ARNm, variantes de ADNc deB4GALT1,o complemento de las mismas, y/o variantes de polipéptido B4GALT1 en una muestra biológica. También se proporcionan métodos para determinar la propensión de un sujeto a desarrollar una alteración cardiovascular, y métodos de diagnóstico de un sujeto con una alteración cardiovascular o en riesgo de desarrollar una alteración cardiovascular. También se proporcionan métodos para modificar una célula mediante el uso de cualquier combinación de agentes de nucleasa, secuencias donantes exógenas, activadores de la transcripción, represores de la transcripción, y vectores de expresión para expresar un genB4GALT1recombinante o un ácido nucleico que codifica para un polipéptido B4GALT1. También se proporcionan métodos terapéuticos y profilácticos para tratar a un sujeto que tiene una alteración cardiovascular o está en riesgo de desarrollarla .

[0060] El ácido nucleico deB4GALT1genómico humano de tipo natural tiene aproximadamente 56,7 kb de longitud, incluye 6 exones, y está ubicado en el cromosoma 9 en el genoma humano. A una secuencia deB4GALT1genómico humano de tipo natural a modo de ejemplo se le asigna el n.° de registro de NCBI NG_008919.1 (SEQ ID NO: 1). En SEQ ID NO: 2 se muestra una variante deB4GALT1genómico humano, y comprende un polimorfismo de un solo nucleótido (SNP) (de A a G en la posición 53576; denominado en el presente documentoB4GALT1variante,). El SNP de variante da como resultado una serina en la posición correspondiente a la posición 352 en el polipéptido B4GALT1 de longitud completa/maduro del polipéptido B4GALT1 variante codificado, en lugar de la asparagina codificada por el polipéptido B4GALT1 de tipo natural. El ácido nucleico deB4GALT1genómico humano variante comprende, por ejemplo, tres bases (por ejemplo, “agt”) que codifican para una serina en posiciones correspondientes a las posiciones 53575 a 53577 delB4GALT1genómico humano de tipo natural, en contraposición a las tres bases “aat” en las posiciones 53575 a 53577 delB4GALT1genómico humano de tipo natural (comparando SEQ ID NO: 2 con SEQ ID NO: 1, respectivamente). En algunas implementaciones, la molécula de ácido nucleico aislada comprende SEQ ID NO: 2. En algunas implementaciones, la molécula de ácido nucleico aislada consiste en SEQ ID NO: 2. En algunas implementaciones, la molécula de ácido nucleico aislada es un complemento de cualquier molécula de ácido nucleico deB4GALT1genómico dada a conocer en el presente documento.

[0062] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a SEQ ID NO: 2. En algunas implementaciones, tal secuencia de ácido nucleico también comprende nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % a una porción de SEQ ID NO: 2 que comprende los exones 1 a 6 del genB4GALT1.En algunas implementaciones, tal secuencia de ácido nucleico también comprende nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99%, o el 100% a una porción de SEQ ID NO: 2 que comprende el exón 5. En algunas implementaciones, tal secuencia de ácido nucleico también comprende nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, la molécula de ácido nucleico aislada comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 % a SEQ ID NO: 2, siempre que la secuencia de ácido nucleico comprenda nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2.

[0064] La complementariedad en porcentaje entre tramos particulares de secuencias de ácido nucleico dentro de ácidos nucleicos puede determinarse de manera rutinaria usando programas BLAST (herramientas de búsqueda de alineación local básicas) y programas PowerBLAST (Altschulet al.,J. Mol. Biol., 1990, 215, 403-410; Zhang y Madden, Genome Res., 1997, 7, 649-656) o usando el programa Gap (paquete de análisis de secuencias de Wisconsin, versión 8 para Unix, Genetics Computer Group, University Research Park, Madison Wis.), usando ajustes por defecto, que usa el algoritmo de Smith y Waterman (Adv. Appl. Math., 1981, 2, 482-489).

[0066] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden menos que toda la secuencia genómica. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, al menos aproximadamente 2000, al menos aproximadamente 3000, al menos aproximadamente 4000, al menos aproximadamente 5000, al menos aproximadamente 6000, al menos aproximadamente 7000, al menos aproximadamente 8000, al menos aproximadamente 9000, al menos aproximadamente 10000, al menos aproximadamente 11000, al menos aproximadamente 12000, al menos aproximadamente 13000, al menos aproximadamente 14000, al menos aproximadamente 15000, al menos aproximadamente 16000, al menos aproximadamente 17000, al menos aproximadamente 18000, al menos aproximadamente 19000, o al menos aproximadamente 20000 nucleótidos contiguos de SEQ ID NO: 2. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprenden nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, o al menos aproximadamente 1000 nucleótidos contiguos de SEQ ID NO: 2. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprenden nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, o al menos aproximadamente 1000 nucleótidos contiguos del exón 5 de SEQ ID NO: 2. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprenden nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2.

[0068] Por ejemplo, en algunas implementaciones, la molécula de ácido nucleico aislada comprende al menos 15 nucleótidos contiguos de s Eq ID NO: 2, en la que los nucleótidos contiguos incluyen los nucleótidos 53575 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 2. En algunas implementaciones, la molécula de ácido nucleico aislada comprende entre 15 y 50 nucleótidos contiguos de SEQ ID NO: 2, en la que los nucleótidos contiguos incluyen los nucleótidos 53575 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 2.

[0070] En algunas implementaciones, la divulgación proporciona un ácido nucleico aislado que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 2, en el que la porción de SEQ

[0071] ID NO: 2 comprende los nucleótidos 53575 a 53577 de SEQ ID NO: 2 y en el que la porción de Se Q ID NO: 2 tiene al menos 15 nucleótidos de longitud. En algunas de tales implementaciones, la porción de SEQ ID NO: 2 tiene al menos 20, al menos 25, o al menos 30 nucleótidos de longitud. En algunas implementaciones, la divulgación proporciona un ácido nucleico aislado que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 2, en el que la porción de SEQ ID NO: 2 comprende los nucleótidos 53575 a 53577 de SEQ ID NO: 2 y en el que la porción de SEQ ID NO: 2 tiene entre 15 y 50 nucleótidos de longitud. En algunas de tales implementaciones, la porción de SEQ ID NO: 2 tiene al menos 20, al menos 25, o al menos 30 nucleótidos de longitud.

[0073] En algunas implementaciones, la divulgación proporciona un ácido nucleico aislado que comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 2, en el que la porción de SEQ

[0074] ID NO: 2 comprende los nucleótidos 53575 a 53577 de SEQ ID NO: 2 y en el que la porción de S<e>Q ID NO: 2 tiene al menos 15 nucleótidos de longitud. En algunas de tales implementaciones, la porción de SEQ ID NO: 2 tiene al menos 20, al menos 25, o al menos 30 nucleótidos de longitud. En algunas implementaciones, la divulgación proporciona un ácido nucleico aislado que comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 2, en el que la porción de SEQ ID NO: 2 comprende los nucleótidos 53575 a 53577 de SEQ ID NO: 2 y en el que la porción de SEQ ID NO: 2 tiene entre 15 y 50 nucleótidos de longitud. En algunas de tales implementaciones, la porción de SEQ ID NO: 2 tiene al menos 20, al menos 25, o al menos 30 nucleótidos de longitud.

[0076] Tales moléculas de ácido nucleico aisladas pueden usarse, por ejemplo, para expresar ARNm deB4GALT1variantes y proteínas o como secuencias donantes exógenas. Se entiende que las secuencias génicas dentro de una población pueden variar debido a polimorfismos, tales como SNP. Los ejemplos proporcionados en el presente documento son únicamente secuencias a modo de ejemplo, y también son posibles otras secuencias.

[0078] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden un minigén deB4GALT1variante, en el que uno o más segmentos no esenciales de SEQ ID NO: 2 se han delecionado con respecto a un genB4GALT1de tipo natural correspondiente. En algunas implementaciones, los segmentos no esenciales delecionados comprenden una o más secuencias de intrones. En algunas implementaciones, los minigenes deB4GALT1pueden comprender, por ejemplo, exones correspondientes a uno cualquiera o más de los exones 1 a 6, o cualquier combinación de tales exones, deB4GALT1variante (SEQ ID NO: 2). En algunas implementaciones, el minigén comprende o consiste en el exón 5 de SEQ ID NO: 2. En algunas implementaciones, el minigén deB4GALT1es idéntico en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a una porción de SEQ ID NO: 2 que comprende uno cualquiera o más de los exones 1 a 6, o cualquier combinación de tales exones. En algunas implementaciones, el minigén deB4GALT1es idéntico en al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100% a una porción de SEQ ID NO: 2 que comprende uno cualquiera o más de los exones 1 a 6, o cualquier combinación de tales exones y comprende nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, el minigén deB4GALT1es idéntico en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % a una porción de SEQ ID NO: 2 que comprende exón 5.

[0080] La presente divulgación también proporciona moléculas de ácido nucleico aisladas que se hibridan con una secuencia genómica deB4GALT1variante o un minigén deB4GALT1variante. En algunas implementaciones, tales moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, al menos aproximadamente 2000, al menos aproximadamente 3000, al menos aproximadamente 4000, al menos aproximadamente 5000, al menos aproximadamente 6000, al menos aproximadamente 7000, al menos aproximadamente 8000, al menos aproximadamente 9000, al menos aproximadamente 10000, al menos aproximadamente 11000, al menos aproximadamente 12000, al menos aproximadamente 13000, al menos aproximadamente 14000, al menos aproximadamente 15000, al menos aproximadamente 16000, al menos aproximadamente 17000, al menos aproximadamente 18000, al menos aproximadamente 19000, o al menos aproximadamente 20000 nucleótidos. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también se hibridan con las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con una porción de genoma o minigén deB4GALT1variante en un segmento que incluye o está dentro de aproximadamente 1000, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente 40, dentro de aproximadamente 35, dentro de aproximadamente

[0081] 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de las posiciones 53575 a 53577 de SEQ ID

[0082] NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos aproximadamente 15 nucleótidos contiguos de una molécula de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, aproximadamente el 85 %, al

menos aproximadamente el

menos aproximadamente el 95 %, aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, aproximadamente el 99%, o el 100% a minigén o ADN genómico deB4GALT1variante. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también se hibridan con las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en desde aproximadamente 15 hasta aproximadamente 100 nucleótidos, o desde aproximadamente 15 hasta aproximadamente 35 nucleótidos.

[0084] Por ejemplo, en algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende al menos 15 nucleótidos, en la que la molécula de ácido nucleico aislada se hibrida con un ácido nucleico que comprende la secuencia de SEQ ID NO: 2, en la que la molécula de ácido nucleico aislada se hibrida con una porción de SEQ ID NO: 2, y en la que la porción de SEQ ID NO: 2 comprende los nucleótidos 53575 a

[0085] 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25, o al menos 30 nucleótidos. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende de 15 a 50 nucleótidos, en la que la molécula de ácido nucleico aislada se hibrida con un ácido nucleico que comprende la secuencia de SEQ ID NO: 2, en la que la molécula de ácido nucleico aislada se hibrida con una porción de SEQ ID NO: 2, y en la que la porción de SEQ ID NO: 2 comprende los nucleótidos 53575 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25, o al menos 30 nucleótidos.

[0087] En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos 15 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos son idénticos en al menos el 90 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos 53575 a 53577 de SEQ

[0088] ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos 30 nucleótidos de longitud. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos

[0089] 15 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos son idénticos en al menos el

[0090] 95 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos 53575 a

[0091] 53577 de<s>E<q>ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos

[0092] 30 nucleótidos de longitud. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos 15 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos sin idénticos en al menos el 100 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos

[0093] 53575 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2.

[0094] En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos

[0095] 30 nucleótidos de longitud.

[0097] En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con de 15 a 50 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos son idénticos en al menos el 90 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos 53575 a 53577 de SEQ

[0098] ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos 30 nucleótidos de longitud. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con de 15 a

[0099] 50 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos son idénticos en al menos el

[0100] 95 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos 53575 a

[0101] 53577 de<s>E<q>ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2. En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos

[0102] 30 nucleótidos de longitud. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con de 15 a 50 nucleótidos contiguos de un ácido nucleico, en las que los nucleótidos contiguos son idénticos en al menos el 100 % a una porción de SEQ ID NO: 2, en las que los nucleótidos contiguos comprenden los nucleótidos

[0103] 53575 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2.

[0104] En algunas de tales implementaciones, los nucleótidos contiguos tienen al menos 20, al menos 25, o al menos

[0105] 30 nucleótidos de longitud.

[0106] Tales moléculas de ácido nucleico aisladas pueden usarse, por ejemplo, como ARN guía, cebadores, sondas, o secuencias donantes exógenas.

[0108] Una secuencia genómica deB4GALT1de tipo natural representativa se menciona en SEQ ID NO: 1. Una variante de secuencia genómica deB4GALT1variante representativa se menciona en SEQ ID NO: 2.

[0110] La presente divulgación también proporciona moléculas de ácido nucleico aisladas que comprenden una variante de ARNm deB4GALT1.A un ARNm deB4GALT1humano de tipo natural a modo de ejemplo se le asigna el número de registro de NCBI NM_001497 (SEQ ID NO: 3), y consiste en 4214 bases de nucleótido. Una variante de ARNm deB4GALT1humano se muestra en SEQ ID NO: 4, y comprende el SNP (de A a G en la posición 1244; denominado en el presente documentoB4GALT1variante), que da como resultado una serina en la posición correspondiente a la posición 352 del polipéptido variante de B4GALT1 codificado. El ARNm deB4GALT1humano variante comprende, por ejemplo, las tres bases “agu” que codifican para una serina en posiciones correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1humano de tipo natural, en contraposición a las tres bases “aau” en las posiciones 1243 a 1245 del ARNm deB4GALT1humano de tipo natural (comparando SEQ ID NO: 4 con SEQ ID NO: 3, respectivamente). En algunas implementaciones, la molécula de ácido nucleico aislada comprende SEQ ID NO: 4. En algunas implementaciones, la molécula de ácido nucleico aislada consiste en SEQ ID NO: 4.

[0112] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a SEQ ID NO: 4. En algunas implementaciones, tales secuencias de ácido nucleico también comprenden nucleótidos correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de nucleótidos que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100% a una porción de SEQ ID NO: 4 que comprende los exones 1 a 6. En algunas implementaciones, tales secuencias de ácido nucleico también comprenden nucleótidos correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, la molécula de ácido nucleico aislada es un complemento de cualquier molécula de ARNm deB4GALT1dada a conocer en el presente documento.

[0114] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden menos que la secuencia de ARNm entera. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, al menos aproximadamente 2000, al menos aproximadamente 3000, o al menos aproximadamente 4000 nucleótidos contiguos de SEQ ID NO: 4. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprenden nucleótidos correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, o al menos aproximadamente 1000 nucleótidos contiguos de SEQ ID NO: 4. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprende nucleótidos correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, o al menos aproximadamente 1000 nucleótidos contiguos de los exones 1 a 6 de SEQ ID NO: 4. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también comprenden nucleótidos correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4.

[0115] En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ iD NO: 4 y en la que la porción de SEQ

[0116] ID NO: 4 comprende al menos 15 nucleótidos de SEQ ID NO: 4. En algunas de tales implementaciones, la porción

[0117] de SEQ ID NO: 4 tiene al menos 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia

[0118] de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ

[0119] ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 y en la que la porción de SEQ ID NO: 4 comprende al menos 15 nucleótidos de SEQ ID NO: 4. En algunas de tales implementaciones, la porción de SEQ ID

[0120] NO: 4 tiene al menos 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico que es idéntica en el 100 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 y en la que la porción de SEQ ID NO: 4 comprende al menos

[0121] 15 nucleótidos de SEQ ID NO: 4. En algunas de tales implementaciones, la porción de SEQ ID NO: 4 tiene al meno 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 y en la que la porción de SEQ ID NO: 4 comprende de 15 a

[0122] 50 nucleótidos de SEQ ID NO: 4. En algunas de tales implementaciones, la porción de SEQ ID NO: 4 tiene al menos 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 y en la que la porción de SEQ ID NO: 4 comprende de 15 a

[0123] 50 nucleótidos de SEQ ID NO: 4. En algunas de tales implementaciones, la porción de SEQ ID NO: 4 tiene al menos 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4. En algunas implementaciones, la divulgación proporciona una molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico que es idéntica en el 100 % a una porción de SEQ ID NO: 4, en la que la porción de SEQ ID NO: 4 comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 y en la que la porción de SEQ ID NO: 4 comprende de 15 a 50 nucleótidos de SEQ ID

[0124] NO: 4. En algunas de tales implementaciones, la porción de SEQ ID NO: 4 tiene al menos 20, al menos 25 o al menos 30 nucleótidos de SEQ ID NO: 4.

[0126] Tales moléculas de ácido nucleico aisladas pueden usarse, por ejemplo, para expresar variantes de polipéptidos B4GALT1 o como secuencias donantes exógenas. Se entiende que las secuencias génicas dentro de una población pueden variar debido a polimorfismos tales como SNP. Los ejemplos proporcionados en el presente documento son únicamente secuencias a modo de ejemplo, y también son posibles otras secuencias.

[0128] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadamente el 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante (SEQ ID NO: 8), siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 90 % a SEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 95 % a SEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352.

[0130] Por ejemplo, en algunas implementaciones, la molécula de ácido nucleico aislada comprende una secuencia de ácido nucleico que codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos

[0131] 10 aminoácidos de longitud, en la que la secuencia de aminoácidos es idéntica en el 90% a una porción de la secuencia de aminoácidos de SEQ ID NO: 8, en la que la porción comprende una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas de tales implementaciones, la secuencia de ácido nucleico codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos 15, al menos 20 o al menos 25 aminoácidos de longitud. En algunas implementaciones, la molécula de ácido nucleico aislada comprende una secuencia de ácido nucleico que codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos 10 aminoácidos de longitud, en la que la secuencia de aminoácidos es idéntica en el 95 % a una porción de la secuencia de aminoácidos de SEQ ID NO: 8, en la que la porción comprende una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas de tales implementaciones, la secuencia de ácido nucleico codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos 15, al menos 20 o al menos 25 aminoácidos de longitud. En algunas implementaciones, la molécula de ácido nucleico aislada comprende una secuencia de ácido nucleico que codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene de 10 a 50 aminoácidos de longitud, en la que la secuencia de aminoácidos es

[0132] idéntica en el 90% auna porción de la secuencia de aminoácidos de SEQ ID NO: 8, en la que la porción comprende una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas de tales implementaciones, la secuencia de ácido nucleico codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos 15, al menos 20 o al menos 25 aminoácidos de longitud. En algunas implementaciones, la molécula de ácido nucleico aislada comprende una secuencia de ácido nucleico que codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene de 10 a 50 aminoácidos de longitud, en la que la secuencia de aminoácidos es idéntica en el 95 % a una porción de la secuencia de aminoácidos de SEQ ID NO: 8, en la que la porción comprende una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas de tales implementaciones, la secuencia de ácido nucleico codifica para un polipéptido que tiene una secuencia de aminoácidos que tiene al menos 15, al menos 20 o al menos 25 aminoácidos de longitud. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico a SEQ ID NO: 8.

[0134] La presente divulgación también proporciona moléculas de ácido nucleico aisladas que se hibridan con una secuencia de ARNm deB4GALT1variante. En algunas implementaciones, tales moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, al menos aproximadamente 2000, al menos aproximadamente 3000, o al menos aproximadamente 4000 nucleótidos. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con una porción de un ARNm deB4GALT1variante en un segmento que incluye o está dentro de aproximadamente 1000, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente 40, dentro de aproximadamente 35, dentro de aproximadamente 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4.

[0135] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos y se hibridan con una porción de un ARNm deB4GALT1variante (por ejemplo, SEQ ID NO: 4) en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ARNm deB4GALT1variante (por ejemplo, SEQ ID NO: 4) en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4 y se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden de 15 a 50 nucleótidos y se hibridan con una porción de un ARNm deB4GALT1variante (por ejemplo, SEQ ID NO: 4) en un segmento que incluye las posiciones 1243 a 1245 de SEQ ID NO: 4 y se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos.

[0137] En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos aproximadamente 15 nucleótidos contiguos de una molécula de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % a un ARNm deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 4). En algunas implementaciones, las moléculas de ácido nucleico aisladas también se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en desde aproximadamente 15 hasta aproximadamente 100 nucleótidos, o desde aproximadamente 15 hasta aproximadamente 35 nucleótidos.

[0139] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos y se hibridan con una porción de un ARNm deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4, en las que el ARNm deB4GALT1variante es idéntico en al menos el 90 % a un ARNm deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 4). En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos y se hibridan con una porción de un ARNm deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4, en las que el ARNm deB4GALT1variante es idéntico en al menos el 95% aun ARNm deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 4). En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ARNm deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4 y se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4, en las que el ARNm deB4GALT1variante es idéntico en al menos el 90 % a un ARNm deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 4). En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ARNm deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1243 a 1245 de SEQ ID NO: 4 y se hibridan con las posiciones 1243 a 1245 de SEQ ID NO: 4, en las que el ARNm deB4GALT1variante es idéntico en al menos el 95 % a un ARNm deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 4). En algunas de tales implementaciones, las moléculas de ácido nucleico aisladas comprenden al menos 20, al menos 25 o al menos 30 nucleótidos. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en desde 15 hasta 100 nucleótidos, o desde 15 hasta 35 nucleótidos.

[0141] Tales moléculas de ácido nucleico aisladas pueden usarse, por ejemplo, como ARN guía, cebadores, sondas, o secuencias donantes exógenas.

[0143] Una secuencia de ARNm deB4GALT1de tipo natural representativa se menciona en SEQ ID NO: 3. Una secuencia de ARNm deB4GALT1variante representativa se menciona en SEQ ID NO: 4.

[0145] La presente divulgación también proporciona moléculas de ácido nucleico que comprenden una variante de ADNc deB4GALT1que codifica par la totalidad o parte de un polipéptido variante de B4GALT1. Un ADNc deB4GALT1humano de tipo natural a modo de ejemplo (por ejemplo, región codificante de ARNm escrita como ADN) consiste en 1197 bases de nucleótido (SEQ ID NO: 5). Una variante de ADNc deB4GALT1humano se muestra en SEQ ID NO: 6, y comprende el SNP (de A a G en la posición 1055; denominado en el presente documentoB4GALT1variante), que da como resultado una serina en la posición correspondiente a la posición 352 del polipéptido variante de B4GALT1 codificado. El ADNc deB4GALT1humano variante comprende, por ejemplo, “agt” que codifica para una serina en posiciones correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1humano de tipo natural de longitud completa/maduro, en contraposición a las tres bases “aat” del ADNc deB4GALT1humano de tipo natural en las posiciones 1054 a 1056 (comparando SEQ ID NO: 6 con SEQ ID NO: 5, respectivamente). En algunas implementaciones, la molécula de ácido nucleico comprende SEQ ID NO: 6. En algunas implementaciones, la molécula de ácido nucleico consiste en SEQ ID NO: 6. En algunas implementaciones, las moléculas de ADNc están aisladas.

[0147] En algunas implementaciones, las moléculas de ADNc comprenden o consisten en una secuencia de ácido nucleico que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a SEQ ID NO: 6. En algunas implementaciones, las moléculas de ADNc también comprenden nucleótidos correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6. En algunas implementaciones, la molécula de ácido nucleico aislada es un complemento de cualquier molécula de ADNc deB4GALT1dada a conocer en el presente documento.

[0149] En algunas implementaciones, las moléculas de ADNc comprenden menos que toda la secuencia de ADNc. En algunas implementaciones, las moléculas de ADNc comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, o al menos aproximadamente 1100 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, tales moléculas de ADNc también comprenden nucleótidos correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6. En algunas implementaciones, las moléculas de ADNc comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, o al menos aproximadamente 500 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, tales moléculas de ADNc también comprenden nucleótidos correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0151] Por ejemplo, en algunas implementaciones, la molécula de ADNc comprende al menos 15 nucleótidos contiguos de SEQ ID NO: 6, en la que los nucleótidos contiguos incluyen los nucleótidos 1054 a 1056 de SEQ ID NO: 6. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la molécula de ADNc comprende de 15 a 50 nucleótidos contiguos de SEQ ID NO: 6, en la que los nucleótidos contiguos incluyen los nucleótidos

[0152] 1054 a 1056 de SEQ ID NO: 6. En algunas de tales implementaciones, la molécula de ácido nucleico aislada comprende al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende al menos 15 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID

[0153] NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende al menos 15 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID

[0154] NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende de 15 a 50 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende de 15 a 50 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones correspondientes a los nucleótidos 1054 a 1056 de SEQ ID NO: 6, en la que la molécula de ADNc comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID N<o>: 6 y en la que la porción de SEQ ID NO: 6 comprende al menos 15 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones correspondientes a los nucleótidos 1054 a

[0155] 1056 de SEQ ID NO: 6, en la que la molécula de ADNc comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende al menos

[0156] 15 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones correspondientes a los nucleótidos 1054 a 1056 de SEQ ID NO: 6, en la que la molécula de ADNc comprende una secuencia de ácido nucleico que es idéntica en al menos el 90 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende de 15 a 50 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6. En algunas implementaciones, la divulgación proporciona una molécula de ADNc que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones correspondientes a los nucleótidos 1054 a 1056 de

[0157] SEQ ID NO: 6, en la que la molécula de ADNc comprende una secuencia de ácido nucleico que es idéntica en al menos el 95 % a una porción de SEQ ID NO: 6, en la que la porción de SEQ ID NO: 6 comprende los nucleótidos

[0158] 1054 a 1056 de SEQ ID NO: 6 y en la que la porción de SEQ ID NO: 6 comprende de 15 a 50 nucleótidos contiguos de SEQ ID NO: 6. En algunas de tales implementaciones, la porción de SEQ ID NO: 6 tiene al menos 20, al menos

[0159] 25 o al menos 30 nucleótidos contiguos de SEQ ID NO: 6.

[0161] Tales moléculas de ADNc pueden usarse, por ejemplo, para expresar proteínas variantes de B4GALT1 o como secuencias donantes exógenas. Se entiende que las secuencias génicas dentro de una población pueden variar debido a polimorfismos tales como SNP. Los ejemplos proporcionados en el presente documento son únicamente secuencias a modo de ejemplo, y también son posibles otras secuencias.

[0163] En algunas implementaciones, las moléculas de ADNc comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 75 %, al menos aproximadamente el

[0164] 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadam 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadam 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadam 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante (SEQ ID NO: 8), siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352. En algunas implementaciones, las moléculas de ADNc comprenden o consisten

[0165] en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 90% aSEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352.

[0166] En algunas implementaciones, las moléculas de ADNc comprenden o consisten en una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 95 % a SEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición correspondiente a la posición 352. En algunas implementaciones, la molécula de ADNc comprende o consiste en una secuencia de ácido nucleico que codifica para un polipéptido idéntico a SEQ ID NO: 8.

[0168] La presente divulgación también proporciona moléculas de ácido nucleico aisladas que se hibridan con una secuencia de ADNc deB4GALT1variante. En algunas implementaciones, tales moléculas de ácido nucleico aisladas comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente

[0169] 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente

[0170] 100, al menos aproximadamente 200, al menos aproximadamente 300, al menos aproximadamente 400, al menos aproximadamente 500, al menos aproximadamente 600, al menos aproximadamente 700, al menos aproximadamente 800, al menos aproximadamente 900, al menos aproximadamente 1000, o al menos aproximadamente 1100 nucleótidos. En algunas implementaciones, tales moléculas de ácido nucleico aisladas también se hibridan con las posiciones 1054 a 1056 de SEQ ID NO: 6. En algunas implementaciones, tales moléculas de ácido nucleico aisladas se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de aproximadamente 600, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente

[0171] 40, dentro de aproximadamente 35, dentro de aproximadamente 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6. En algunas implementaciones, las moléculas de ácido nucleico aisladas se hibridan con al menos aproximadamente 15 nucleótidos contiguos de una molécula de ADNc que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100 % a un ADNc deB4GALT1variante

[0172] (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas también se hibridan con las posiciones 1054 a 1056 de SEQ ID NO: 6. En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en desde aproximadamente 15 hasta aproximadamente

[0173] 100 nucleótidos, o desde aproximadamente 15 hasta aproximadamente 35 nucleótidos.

[0175] En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos

[0176] 15 nucleótidos y se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en al menos el 90% a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos

[0177] 15 nucleótidos y se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en al menos el 95% a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos

[0178] 15 nucleótidos y se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en el 100% a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de

[0179] 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6 y se hibridan con las posiciones 1054 a 1056 de SEQ

[0180] ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en al menos el 90 % a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6 y se hibridan con las posiciones 1054 a 1056 de SEQ ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en al menos el 95 % a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en al menos 15 nucleótidos, se hibridan con una porción de un ADNc deB4GALT1variante en un segmento que incluye o está dentro de

[0181] 5 nucleótidos de las posiciones 1054 a 1056 de SEQ ID NO: 6 y se hibridan con las posiciones 1054 a 1056 de SEQ

[0182] ID NO: 6, en las que el ADNc deB4GALT1variante es idéntico en el 100 % a un ADNc deB4GALT1variante (tal como, por ejemplo, SEQ ID NO: 6). En algunas implementaciones, las moléculas de ácido nucleico aisladas comprenden o consisten en desde 15 hasta 100 nucleótidos, o desde 15 hasta 35 nucleótidos.

[0184] Tales moléculas de ácido nucleico aisladas pueden usarse, por ejemplo, como ARN guía, cebadores, sondas, secuencias donantes exógenas, ARN antisentido, ARNip, o ARNhc.

[0185] Una secuencia de ADNc deB4GALT1de tipo natural representativa se menciona en SEQ ID NO: 5. Una secuencia de ADNc deB4GALT1variante representativa se menciona en SEQ ID NO: 6.

[0187] Las moléculas de ácido nucleico dadas a conocer en el presente documento pueden comprender una secuencia de ácido nucleico de un transcrito de ARNm o genB4GALT1que se produce de manera natural, o pueden comprender una secuencia que no se produce de manera natural. En algunas implementaciones, la secuencia que se produce de manera natural puede diferir con respecto a la secuencia que no se produce de manera natural debido a mutaciones sinónimas o mutaciones que no afectan al polipéptido B4GALT1 codificado. Por ejemplo, la secuencia puede ser idéntica con la excepción de mutaciones sinónimas o mutaciones que no afectan al polipéptido B4GALT1 codificado. Una mutación o sustitución sinónima es la sustitución de un nucleótido por otro en un exón de un gen que codifica para una proteína de tal manera que no se modifica la secuencia de aminoácidos producida. Esto es posible debido a la degeneración del código genético, codificándose algunos aminoácidos por más de un codón de tres pares de bases. Las sustituciones sinónimas se usan, por ejemplo, en el procedimiento de optimización de codones. Las moléculas de ácido nucleico dadas a conocer en el presente documento pueden someterse a optimización de codones.

[0189] En el presente documento también se proporcionan polinucleótidos funcionales que pueden interaccionar con las moléculas de ácido nucleico dadas a conocer. Los polinucleótidos funcionales son moléculas de ácido nucleico que tienen una función específica, tal como unión a una molécula diana o catálisis de una reacción específica. Los ejemplos de polinucleótidos funcionales incluyen, pero no se limitan a, moléculas antisentido, aptámeros, ribozimas, moléculas de formación de triplex, y secuencias guía externas. Los polinucleótidos funcionales pueden actuar como efectores, inhibidores, moduladores, y estimulantes de una actividad específica que presenta una molécula diana, o los polinucleótidos funcionales pueden presentar una actividadde novoindependiente de cualquier otra molécula.

[0191] Las moléculas antisentido se diseñan para interaccionar con una molécula de ácido nucleico diana a través de emparejamiento de bases o bien canónico o bien no canónico. La interacción de la molécula antisentido y la molécula diana se diseña para fomentar la destrucción de la molécula diana, por ejemplo, mediante degradación de híbrido de ARN-ADN mediada por ARNasa H. Alternativamente, la molécula antisentido se diseña para interrumpir una función de procesamiento que normalmente tendrá lugar en la molécula diana, tal como transcripción o replicación. Las moléculas antisentido pueden diseñarse basándose en la secuencia de la molécula diana. Existen numerosos métodos para la optimización de la eficiencia antisentido mediante identificación de las regiones más accesibles de la molécula diana. Los métodos a modo de ejemplo incluyen, pero no se limitan a, experimentos de selecciónin vitroy estudios de modificación del ADN usando DMS y DEPC. Las moléculas antisentido se unen generalmente a la molécula diana con una constante de disociación (kd) menor de o igual a aproximadamente 10-6, menor de o igual a aproximadamente 10-8, menor de o igual a aproximadamente 10-10, o menor de o igual a aproximadamente 10-12. Una muestra representativa de métodos y técnicas que ayudan en el diseño y uso de moléculas antisentido puede encontrarse en la siguiente lista no limitativa de patentes estadounidenses: 5.135.917; 5.294.533; 5.627.158; 5.641.754; 5.691.317; 5.780.607; 5.786.138; 5.849.903; 5.856.103; 5.919.772; 5.955.590; 5.990.088; 5.994.320; 5.998.602; 6.005.095; 6.007.995; 6.013.522; 6.017.898; 6.018.042; 6.025.198; 6.033.910; 6.040.296; 6.046.004; 6.046.319; y 6.057.437. Ejemplos de moléculas antisentido incluyen, pero no se limitan a, ARN antisentido, ARN de interferencia pequeños (ARNip), y ARN de horquilla cortos (ARNhc).

[0193] Las moléculas de ácido nucleico aisladas dadas a conocer en el presente documento pueden comprender ARN, ADN, o tanto ARN como ADN. Las moléculas de ácido nucleico aisladas también pueden estar unidas o fusionadas a una secuencia de ácido nucleico heteróloga, tal como en un vector, o un marcador heterólogo. Por ejemplo, las moléculas de ácido nucleico aisladas dadas a conocer en el presente documento pueden estar en un vector o secuencia donante exógena que comprende la molécula de ácido nucleico aislada y una secuencia de ácido nucleico heteróloga. Las moléculas de ácido nucleico aisladas también pueden estar unidas o fusionadas a un marcador heterólogo, tal como un marcador fluorescente. Otros ejemplos de marcadores se dan a conocer en otra parte en el presente documento.

[0195] El marcador puede ser directamente detectable (por ejemplo, fluoróforo) o indirectamente detectable (por ejemplo, hapteno, enzima, o extintor de fluoróforo). Tales marcadores pueden ser detectable mediante medios espectroscópicos, fotoquímicos, bioquímicos, inmunoquímicos, o químicos. Tales marcadores incluyen, por ejemplo, radiomarcadores que pueden medirse con dispositivos contadores de la radiación; pigmentos, colorantes u otros cromógenos que pueden observarse visualmente o medirse con un espectrofotómetro; marcadores de espín que pueden medirse con un analizador de marcadores de espín; y marcadores fluorescentes (por ejemplo, fluoróforos), en los que la señal de salida se genera mediante la excitación de un aducto molecular adecuado y puede visualizarse mediante excitación con luz que se absorbe por el colorante o puede medirse con sistemas de obtención de imágenes o fluorómetros convencionales. El marcador también puede ser, por ejemplo, una sustancia quimioluminiscente, en la que la señal de salida se genera mediante modificación química del compuesto de señal; una sustancia que contiene metal; o una enzima, en la que se produce una generación de señal secundaria dependiente de la enzima, tal como la formación de un producto coloreado a partir de un sustrato incoloro. El término “marcador” también puede referirse a una “etiqueta” o hapteno que puede unirse selectivamente a una molécula conjugada de tal manera que la molécula conjugada, cuando se añade posteriormente junto con un sustrato, se usa para generar una señal detectable. Por ejemplo, puede usarse biotina como etiqueta y después usar un conjugado con avidina o estreptavidina de peroxidasa del rábano (HRP) para unirse a la etiqueta, y después usar un sustrato calorimétrico (por ejemplo, tetrametilbencidina (TMB)) o un sustrato fluorogéni

[0196] presencia de HRP. Los marcadores a modo de ejemplo que pueden usarse como etiquetas para facilitar la purificación incluyen, pero no se limitan a, myc, HA, FLAG o 3XFLAG, 6XHis o polihistidina, glutatión-S-transferasa (GST), proteína de unión a maltosa, una etiqueta de epítopo, o la porción Fc de inmunoglobulina. Se conocen numerosos marcadores e incluyen, por ejemplo, partículas, fluoróforos, haptenos, enzimas y sus sustratos calorimétricos, fluorogénicos y quimioluminiscentes y otros marcadores.

[0198] Las moléculas de ácido nucleico dadas a conocer pueden estar compuestas, por ejemplo, por nucleótidos o nucleótidos modificados o no naturales, tales como análogos de nucleótidos o sustitutos de nucleótidos. Tales nucleótidos incluyen un nucleótido que contiene una base modificada, azúcar, o grupo fosfato, o que incorpora un resto no natural en su estructura. Los ejemplos de nucleótidos no naturales incluyen, pero no se limitan a, didesoxinucleótidos, nucleótidos biotinilados, aminados, desaminados, alquilados, bencilados, y marcados con fluoróforo.

[0200] Las moléculas de ácido nucleico dadas a conocer en el presente documento también pueden comprender una o más sustituciones o análogos de nucleótido. Un análogo de nucleótido es un nucleótido que contiene una modificación en cualquiera de los restos de base, azúcar, o fosfato. Las modificaciones en el resto de base incluyen, pero no se limitan a, modificaciones naturales y sintéticas de A, C, G, y T/U, así como diferentes bases de purina o pirimidina bases tales como, por ejemplo, pseudouridina, uracil-5-ilo, hipoxantin-9-ilo (I), y 2-aminoadenin-9-ilo. Las bases modificadas incluyen, pero no se limitan a, 5-metilcitosina (5-me-C), 5-hidroximetil-citosina, xantina, hipoxantina, 2-aminoadenina, 6-metilo y otros derivados de alquilo de adenina y guanina, 2-propilo y otros derivados de alquilo de adenina y guanina, 2-tiouracilo, 2-tiotimina y 2-tiocitosina, 5-halouracilo y citosina, 5-propinil-uracilo y citosina, 6-azouracilo, citosina y timina, 5-uracilo (pseudouracilo), 4-tiouracilo, 8-halo, 8-amino, 8-tiol, 8-tioalquilo, 8-hidroxilo y otras y guaninas sustituidas en 8, 5-halo particularmente 5-bromo, 5-trifluorometilo y otros uracilos y citosinas sustituidos en 5, 7-metilguanina y 7-metiladenina, 8-azaguanina y 8-azaadenina, 7-deazaguanina y 7-deazaadenina y 3-desazaguanina y 3-desazaadenina. Determinados análogos de nucleótidos tales como, por ejemplo, pirimidinas sustituidas en 5, 6-azapirimidinas, y purinas sustituidas en N-2, N-6 y O-6 incluyendo, pero sin limitarse a, 2-aminopropiladenina, 5-propiniluracilo, 5-propinilcitosina, y 5-metilcitosina pueden aumentar la estabilidad de la formación de dúplex. Con frecuencia, pueden combinarse modificaciones de bases, por ejemplo, con una modificación de azúcar, tal como 2'-O-metoxietilo, para lograr propiedades únicas tales como estabilidad de dúplex aumentada.

[0202] Los análogos de nucleótidos también pueden incluir modificaciones del resto de azúcar. Las modificaciones en el resto de azúcar incluyen, pero no se limitan a, modificaciones naturales de la ribosa y desoxi-ribosa, así como modificaciones sintéticas. Las modificaciones de azúcar incluyen, pero no se limitan a, las siguientes modificaciones en la posición 2': OH; F; O-, S-, o N-alquilo; O-, S-, o N-alquenilo; O-, S- o N-alquinilo; o O-alquil-O-alquilo, en las que el alquilo, alquenilo, y alquinilo pueden ser alquilo C<1-10>o alquinilo C<2-10>, y alquinilo C<2-10>sustituidos o no sustituidos. Las modificaciones de azúcar en 2' a modo de ejemplo también incluyen, pero no se limitan a, -O[(CH2)nO]mCH3, -O(CH<2>)nOCHa, -O(CH<2>)nNH<2>, -O(CH2)nCH3, -O(CH<2>)n-ONH<2>, y -O(CH<2>)nON[(CH<2>)nCHa)]<2>, en los que n y m son desde 1 hasta aproximadamente 10.

[0204] Otras modificaciones en la posición 2' incluyen, pero no se limitan a, alquilo C<1-10>, alquilo inferior sustituido, alcarilo, aralquilo, O-alcarilo o O-aralquilo, SH, SCH<3>, OCN, Cl, Br, CN, CF<3>, OCF<3>, SOCH<3>, SO<2>CH<3>, ONO<2>, NO<2>, N<3>, NH<2>, heterocicloalquilo, heterocicloalcarilo, aminoalquilamino, polialquilamino, sililo sustituido, un grupo de escisión de ARN, un grupo indicador, un intercalador, un grupo para mejorar las propiedades farmacocinéticas de un oligonucleótido, o un grupo para mejorar las propiedades farmacodinámicas de un oligonucleótido, y otros sustituyentes que tienen propiedades similares. También pueden realizarse modificaciones similares en otras posiciones en el azúcar, particularmente la posición 3' del azúcar en el nucleótido 3'-terminal o en los oligonucleótidos unidos en 2'-5' y la 5' posición del nucleótido 5'-terminal. Los azúcares modificados también pueden incluir aquellos que contienen modificaciones en el oxígeno de anillo de puente, tales como CH<2>y S. Los análogos de azúcar de nucleótido también pueden tener compuestos miméticos de azúcar, tales como restos ciclobutilo en lugar del pentofuranosil-azúcar.

[0206] Los análogos de nucleótidos también pueden modificarse en el resto fosfato. Los restos fosfato modificados incluyen, pero no se limitan a, los que pueden modificarse de modo que la unión entre dos nucleótidos contiene un fosforotioato, fosforotioato quiral, fosforoditioato, fosfotriéster, aminoalquilfosfotriéster, fosfonatos de metilo y otros alquilos incluyendo 3'-alquilen-fosfonato y fosfonatos quirales, fosfinatos, fosforamidatos incluyendo 3'-aminofosforamidato y aminoalquilfosforamidatos, tionofosforamidatos, tionoalquilfosfonatos, tionoalquilfosfotriésteres, y boranofosfatos. Estas uniones de fosfato o fosfato modificado entre dos nucleótidos pueden ser a través de una unión 3'-5' o una unión 2'-5', y la unión puede contener una polaridad invertida tal como de 3'-5' a 5'-3' o de 2'-5' a 5'-2'. También se incluyen diversas sales, sales mixtas, y formas de ácido libre.

[0208] Los sustitutos de nucleótidos incluyen moléculas que tienen propiedades funcionales similar a los nucleótidos, pero que no contienen un resto fosfato, tales como ácido nucleico peptídico (ANP). Los sustitutos de nucleótidos incluyen moléculas que reconocerán ácidos nucleicos de una manera de Watson-Crick o Hoogsteen, pero que están unidos entre sí a través de un resto distinto de un resto fosfato. Los sustitutos de nucleótidos pueden adaptarse a una estructura de tipo hélice doble cuando interaccionan con el ácido nucleico diana apropiado.

[0210] Los sustitutos de nucleótidos también incluyen nucleótidos o análogos de nucleótidos en los que se han reemplazado el resto fosfato o los restos de azúcar. En algunas implementaciones, los sustitutos de nucleótidos pueden no contener un átomo de fósforo convencional. Los sustitutos para el fosfato pueden ser, por ejemplo, uniones internucleósidos de cicloalquilo o alquilo de cadena corta, uniones internucleósidos de cicloalquilo o alquilo y heteroátomos mixtas, o una o más uniones internucleósidos heterocíclicas o heteroatómicas de cadena corta. Estas incluyen las que tienen uniones morfolino (formadas en parte a partir de la porción de azúcar de un nucleósido); estructuras principales de siloxano; estructuras principales de sulfuro, sulfóxido y sulfona; estructuras principales de formacetilo y tioformacetilo; estructuras principales de metilen-formacetilo y tioformacetilo; estructuras principales que contienen alqueno; estructuras principales de sulfamato; estructuras principales de metilenimino y metilenhidrazino; estructuras principales de sulfonato y sulfonamida; estructuras principales de amida; y otras que tienen partes componentes de N, O, S, y CH<2>mixtas.

[0212] También se entiende en un sustituto de nucleótido que los restos tanto de azúcar como fosfato del nucleótido pueden reemplazarse, por ejemplo, por una unión de tipo amida (aminoetilglicina) (ANP).

[0214] También es posible unir otros tipos de moléculas (conjugados) a nucleótidos o análogos de nucleótidos para potenciar, por ejemplo, la captación celular. Los conjugados pueden unirse químicamente al nucleótido o análogos de nucleótidos. Tales conjugados incluyen, por ejemplo, restos de lípidos tales como un resto de colesterol, ácido cólico, un tioéter tal como hexil-S-tritiltiol, un tiocolesterol, una cadena alifática tal como residuos de dodecandiol o undecilo, un fosfolípido tal como di-hexadecil-rac-glicerol o 1,2-di-O-hexadecil-rac-glicero-3-H-fosfonato de trietilamonio, una poliamina o una cadena de polietilenglicol, ácido adamantano-acético, un resto palmitilo, o un resto octadecilamina o hexilamino-carbonil-oxicolesterol.

[0216] La presente divulgación también proporciona vectores que comprenden una cualquiera o más de las moléculas de ácido nucleico dadas a conocer en el presente documento. En algunas implementaciones, los vectores comprenden una cualquiera o más de las moléculas de ácido nucleico dadas a conocer en el presente documento y un ácido nucleico heterólogo. Los vectores pueden ser vectores virales o no virales que pueden transportar una molécula de ácido nucleico. En algunas implementaciones, el vector es un plásmido o cósmido (por ejemplo, un ADN bicatenario circular en el que pueden ligarse segmentos de ADN adicionales). En algunas implementaciones, el vector es un vector viral, en el que pueden ligarse segmentos de ADN adicionales en el genoma viral. En algunas implementaciones, el vector puede replicarse de manera autónoma en una célula huésped en la que se introduce (por ejemplo, vectores bacterianos que tienen un origen de replicación bacteriano y vectores de mamífero episómicos). En algunas implementaciones, el vector (por ejemplo, vectores de mamífero no episómicos) puede integrarse en el genoma de una célula huésped tras la introducción en la célula huésped y de ese modo replicarse junto con el genoma huésped. Además, vectores particulares pueden dirigir la expresión de genes a los que están operativamente unidos. Tales vectores se denominan en el presente documento “vectores de expresión recombinante” o “vectores de expresión”. Tales vectores también pueden ser vectores de direccionamiento (es decir, secuencias donantes exógenas).

[0218] En algunas implementaciones, las proteínas codificadas por las diversas variantes genéticas dadas a conocer en el presente documento se expresan insertando moléculas de ácido nucleico que codifican para las variantes genéticas dadas a conocer en vectores de expresión, de tal manera que los genes se unen operativamente a secuencias de control de la expresión, tales como secuencias de control de la transcripción y la traducción. Los vectores de expresión incluyen, pero no se limitan a, plásmidos, cósmidos, retrovirus, adenovirus, virus adenoasociados (AAV), virus de plantas tales como virus del mosaico de la coliflor y virus del mosaico del tabaco, cromosomas artificiales de levadura (YAC), episomas derivados de virus de Epstein-Barr (VEB), y similares. En algunas implementaciones, moléculas de ácido nucleico que comprenden las variantes genéticas dadas a conocer pueden ligarse en un vector de tal manera que las secuencias de control de la transcripción y la traducción dentro del vector sirven para su función prevista de regular la transcripción y traducción de la variante genética. El vector de expresión y secuencias de control de la expresión se eligen para ser compatibles con la célula huésped de expresión usada. Pueden insertarse secuencias de ácido nucleico que comprenden las variantes genéticas dadas a conocer en vectores independientes o en el mismo vector de expresión que la información genética variante. Una secuencia de ácido nucleico que comprende las variantes genéticas dadas a conocer puede insertarse en el vector de expresión mediante métodos convencionales (por ejemplo, ligación de sitios de restricción complementarios en el ácido nucleico que comprende las variantes genéticas dadas a conocer y el vector, o ligación de extremos romos si no está presente ningún sitio de restricción).

[0220] Además de una secuencia de ácido nucleico que comprende las variantes genéticas dadas a conocer, los vectores de expresión recombinante pueden portar secuencias reguladoras que controlan la expresión de la variante genética en una célula huésped. El diseño del vector de expresión, incluyendo la selección de secuencias reguladoras, puede depender de factores tales como la elección de la célula huésped que va a transformarse, el nivel de expresión de proteína deseado, y así sucesivamente. Las secuencias reguladoras deseadas para la expresión en células huésped de mamífero pueden incluir, por ejemplo, elementos virales que dirigen altos niveles de expresión de proteína en células de mamífero, tales como promotores y/o potenciadores derivados de LTR retrovirales, citomegalovirus (CMV) (tal como el promotor/potenciador de CMV), virus del simio 40 (SV40) (tal como el promotor/potenciador de SV40), adenovirus (por ejemplo, el promotor tardío principal de adenovirus (AdMLP)), polioma y promotores fuertes de mamíferos tales como promotores de inmunoglobulina y actina nativos. También se conocen bien métodos de expresión de polipéptidos en células bacterianas o células fúngicas (por ejemplo, células de levadura).

[0222] Un promotor puede ser, por ejemplo, un promotor constitutivamente activo, un promotor condicional, un promotor inducible, un promotor temporalmente restringido (por ejemplo, un promotor regulador por el desarrollo), o un promotor espacialmente restringido (por ejemplo, un promotor específico de célula o específico de tejido). Pueden encontrarse ejemplos de promotores, por ejemplo, en el documento WO 2013/176772.

[0224] Los ejemplos de promotores inducibles incluyen, por ejemplo, promotores químicamente regulados y promotores físicamente regulados. Los promotores químicamente regulados incluyen, por ejemplo, promotores regulados por alcohol (por ejemplo, un promotor de gen de alcohol deshidrogenasa (alcA)), promotores regulados por tetraciclina (por ejemplo, un promotor sensible a tetraciclina, una secuencia de operador de tetraciclina (tetO), un promotor tet On, o un promotor tet-Off), promotores regulados por esteroides (por ejemplo, un receptor de glucocorticoides de rata, un promotor de un receptor de estrógenos, o un promotor de un receptor de ecdisona), o promotores regulados por metal (por ejemplo, un promotor de metaloproteína). Los promotores físicamente regulados incluyen, por ejemplo, promotores regulados por temperatura (por ejemplo, un promotor de choque térmico) y promotores regulados por luz (por ejemplo, un promotor inducible por luz o un promotor represible por luz).

[0226] Los promotores específicos de tejido pueden ser, por ejemplo, promotores específicos de neuronas, promotores específicos de la glía, promotores específicos de célula musculares, promotores específicos de células cardíacas, promotores específicos de células renales, promotores específicos de células óseas, promotores específicos de células endoteliales, o promotores específicos de células inmunitarias (por ejemplo, un promotor de células B o un promotor de células T).

[0228] Los promotores regulados por el desarrollo incluyen, por ejemplo, promotores activos únicamente durante una fase de desarrollo embrionaria, o únicamente en una célula adulta.

[0230] Además de una secuencia de ácido nucleico que comprende las variantes genéticas y secuencias reguladoras dadas a conocer, los vectores de expresión recombinante pueden portar secuencias adicionales, tales como secuencias que regulan la replicación del vector en células huésped (por ejemplo, orígenes de replicación) y genes de marcadores seleccionables. Un gen de marcador seleccionable puede facilitar la selección de células huésped en las que se ha introducido el vector (véanse, por ejemplo, las patentes estadounidenses 4.399.216; 4.634.665; y 5.179.017). Por ejemplo, un gen de marcador seleccionable puede conferir resistencia a fármacos, tales como G418, higromicina, o metotrexato, en una célula huésped en la que se ha introducido el vector. Los genes de marcadores seleccionables a modo de ejemplo incluyen el, pero no se limitan al, gen de dihidrofolato reductasa (DHFR) (para su uso en células huésped de dhfr con selección/amplificación por metotrexato), el gen neo (para selección de G418), y el gen de glutamato sintetasa (GS).

[0232] La presente divulgación también proporciona polipéptidos aislados que comprenden un polipéptido B4GALT1 variante (Asn352Ser). A un polipéptido B4GALT1 humano de tipo natural a modo de ejemplo se le asigna el n.° de registro de UniProt P15291 (SEQ ID NO: 7), y consiste en 398 aminoácidos. Un polipéptido B4GALT1 variante humano comprende una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro (SEQ ID NO: 8), en contraposición a una asparagina en la misma posición en el B4GALT1 humano de tipo natural (comparando SEQ ID NO: 8 con SEQ ID NO: 7, respectivamente). En algunas implementaciones, el polipéptido aislado comprende SEQ ID NO: 8. En algunas implementaciones, el polipéptido aislado consiste en SEQ ID NO: 8.

[0234] En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 90 % a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 90 % a SEQ ID NO: 8 y comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 90 % a SEQ ID NO: 8, siempre que los polipéptidos aislados comprendan una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8.

[0236] En algunas implementaciones, los polipéptidos aislados comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 95 % a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 95 % a SEQ ID NO: 8 y comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 95 % a

[0237] SEQ ID NO: 8, siempre que los polipéptidos aislados comprendan una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 98 % a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 98 % a SEQ ID NO: 8 y comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 98 % a SEQ ID NO: 8, siempre que los polipéptidos aislados comprendan una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 99% a SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 99 % a SEQ ID NO: 8 y comprenden una serina en la posición correspondiente a la posición 352 de SEQ ID

[0238] NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos que es idéntica en al menos aproximadamente el 99 % a SEQ ID NO: 8, siempre que los polipéptidos aislados comprendan una serina en la posición correspondiente a la posición 352 de SEQ ID NO: 8.

[0240] En algunas implementaciones, los polipéptidos aislados comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente

[0241] 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 150, al menos aproximadamente 200, al menos aproximadamente 250, al menos aproximadamente 300, o al menos aproximadamente 350 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el

[0242] 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadam 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadam 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadam 97%, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a al menos aproximadamente 8, al menos aproximadamente 10, al menos aproximadamente 15, al menos aproximadamente

[0243] 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente

[0244] 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, al menos aproximadamente 100, al menos aproximadamente 150, al menos aproximadamente 200, al menos aproximadamente 250, al menos aproximadamente 300, o al menos aproximadamente 350 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadamente el 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100% a al menos aproximadamente 8, al menos aproximadamente 10, al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente

[0245] 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente

[0246] 90, al menos aproximadamente 100, al menos aproximadamente 150, al menos aproximadamente 200, al menos aproximadamente 250, al menos aproximadamente 300, o al menos aproximadamente 350 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8.

[0248] En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos

[0249] idéntica en al menos el 90% aal menos 300 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 90 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8 y los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 95 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 95 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8 y los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 98 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 98 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8 y los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 99% a al menos 300 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos el 99 % a al menos 300 aminoácidos contiguos de SEQ ID NO: 8 y los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8.

[0251] En algunas implementaciones, los polipéptidos aislados comprenden o consisten en al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, o al menos aproximadamente 100 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos aproximadamente el 70 %, al menos aproximadamente el 75 %, al menos aproximadamente el 80 %, al menos aproximadamente el 85 %, al menos aproximadamente el 90 %, al menos aproximadamente el 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadamente el 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 %, al menos aproximadamente el 99 %, o el 100% a al menos aproximadamente 8, al menos aproximadamente 10, al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, o al menos aproximadamente 100 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados comprenden o consisten en una secuencia de aminoácidos idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 91 %, al menos aproximadamente el 92 %, al menos aproximadamente el 93 %, al menos aproximadamente el 94 %, al menos aproximadamente el 95 %, al menos aproximadamente el 96 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98%, al menos aproximadamente el 99%, o el 100% a al menos aproximadamente 8, al menos aproximadamente 10, al menos aproximadamente 15, al menos aproximadamente 20, al menos aproximadamente 25, al menos aproximadamente 30, al menos aproximadamente 35, al menos aproximadamente 40, al menos aproximadamente 45, al menos aproximadamente 50, al menos aproximadamente 60, al menos aproximadamente 70, al menos aproximadamente 80, al menos aproximadamente 90, o al menos aproximadamente 100 aminoácidos contiguos de SEQ ID NO: 8. En algunas implementaciones, los polipéptidos aislados también comprenden una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8.

[0253] Una secuencia de polipéptido B4GALT1 de tipo natural representativa se menciona en SEQ ID NO: 7. Una secuencia de polipéptido B4GALT1 variante representativa se menciona en SEQ ID NO: 8.

[0255] Los polipéptidos aislados dados a conocer en el presente documento pueden comprender una secuencia de aminoácidos de un polipéptido B4GALT1 que se produce de manera natural, o pueden comprender una secuencia que no se produce de manera natural. En algunas implementaciones, la secuencia que se produce de manera natural puede diferir de la secuencia que no se produce de manera natural debido a sustituciones de aminoácidos conservativas. Por ejemplo, la secuencia puede ser idéntica con la excepción de sustituciones de aminoácidos conservativas.

[0257] En algunas implementaciones, los polipéptidos aislados dados a conocer en el presente documento están unidos o fusionados a polipéptidos heterólogos o moléculas o marcadores heterólogos, numerosos ejemplos de los cuales se dan a conocer en otra parte en el presente documento. Por ejemplo, las proteínas pueden fusionarse a un polipéptido heterólogo proporcionando una estabilidad aumentada o reducida. El dominio fusionado o polipéptido heterólogo puede estar ubicado en el extremo N-terminal, el extremo C-terminal, o de manera interna dentro del polipéptido. Una pareja de fusión puede ayudar, por ejemplo, a proporcionar epítopos T auxiliares (una pareja de fusión inmunológica), o pueden ayudar a expresar la proteína (un potenciador de expresión) a rendimientos superiores al polipéptido recombinante nativo. Determinadas parejas de fusión son parejas de fusión tanto inmunológicas como potenciadoras de la expresión. Otras parejas de fusión pueden seleccionarse para aumentar la solubilidad del polipéptido o para facilitar el direccionamiento del polipéptido a compartimentos intracelulares deseados. Algunas parejas de fusión incluyen etiquetas de afinidad, que facilitan la purificación del polipéptido.

[0258] En algunas implementaciones, una proteína de fusión se fusiona directamente a la molécula heteróloga o se une a la molécula heteróloga a través de un ligador, tal como un ligador peptídico. Pueden elegirse secuencias de ligador peptídico adecuadas, por ejemplo, basándose en los siguientes factores: 1) la capacidad para adoptar una conformación extendida flexible; 2) la resistencia para adoptar una estructura secundaria que pueda interaccionar con epítopos funcionales en el primer y segundo polipéptidos; y 3) la falta de residuos hidrófobos o cargados que puedan reaccionar con los epítopos funcionales del polipéptido. Por ejemplo, las secuencias de ligador peptídico pueden contener residuos de Gly, Asn y Ser. También pueden usarse otros aminoácidos casi neutros, tales como Thr y Ala, en la secuencia de ligador. Las secuencias de aminoácidos que pueden emplearse de manera útil como ligadores incluyen las dadas a conocer, por ejemplo, en Marateaet al.,Gene, 1985, 40, 39-46; Murphyet al.,Proc. Natl. Acad. Sci. USA, 1986, 83, 8258-8262; y las patentes estadounidenses 4.935.233 y 4.751.180. Una secuencia de ligador puede tener generalmente, por ejemplo, desde 1 hasta aproximadamente 50 aminoácidos de longitud. Generalmente no se requieren secuencias de ligador cuando el primer y segundo polipéptidos tienen regiones de aminoácidos N-terminales no esenciales que pueden usarse para separar los dominios funcionales y prevenir interferencia estérica.

[0260] En algunas implementaciones, los polipéptidos están operativamente unidos a un dominio de penetración celular. Por ejemplo, el dominio de penetración celular puede derivarse de la proteína TAT del VIH-1, el motivo de penetración celular TLM del virus de hepatitis B humano, MPG, Pep-1, VP22, un péptido de penetración celular del virus del herpes simple, o una secuencia peptídica de poliarginina. Véase, por ejemplo, el documento WO 2014/089290. El dominio de penetración celular puede estar ubicado en el extremo N-terminal, el extremo C-terminal, o en cualquier lugar dentro de la proteína.

[0262] En algunas implementaciones, los polipéptidos están operativamente unidos a un polipéptido heterólogo para facilidad de seguimiento o purificación, tal como una proteína fluorescente, una etiqueta de purificación, o una etiqueta de epítopo. Los ejemplos de proteínas fluorescentes incluyen, pero no se limitan a, proteínas verdes fluorescentes (por ejemplo, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), proteínas amarillas fluorescentes (por ejemplo, YFP, eYFP, Citrine, Venus, YPet, PhiYFP, ZsYellowl), proteínas azules fluorescentes (por ejemplo, eBFP, eBFP2, Azurite, mKalamal, GFPuv, Sapphire, T-sapphire), proteínas cian fluorescentes (por ejemplo, eCFP, Cerulean, CyPet, AmCyanI, Midoriishi-Cyan), proteínas rojas fluorescentes (mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monomer, HcRed-Tandem, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred), proteínas naranjas fluorescentes (mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato), y cualquier otra proteína fluorescente adecuada. Los ejemplos de etiquetas incluyen, pero no se limitan a, glutatión-S-transferasa (GST), proteína de unión a quitina (CBP), proteína de unión a maltosa, tiorredoxina (TRX), poli(NANP), etiqueta de purificación por afinidad en tándem (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, hemaglutinina (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, VHS, KT3, S, S1, T7, V5, VSV-G, histidina (His), proteína portadora de biotina-carboxilo (BCCP), y calmodulina. En algunas implementaciones, la molécula heteróloga es un dominio Fc de inmunoglobulina, una etiqueta peptídica, un dominio de transducción, polietilenglicol, poli(ácido siálico), o ácido glicólico.

[0264] En algunas implementaciones, los polipéptidos aislados comprenden análogos peptídicos o aminoácidos no naturales o modificados. Por ejemplo, hay numerosos D-aminoácidos o aminoácidos que tienen un sustituyente funcional diferente de los aminoácidos que se producen de manera natural. Se dan a conocer estereoisómeros opuestos de péptidos que se producen de manera natural, así como los estereoisómeros de análogos peptídicos. Estos aminoácidos pueden incorporarse fácilmente en cadenas de polipéptido cargando moléculas de ARNt con el aminoácido de elección y diseñando por ingeniería constructos genéticos que usan, por ejemplo, codones ámbar, para insertar el aminoácido análogo en una cadena peptídica de una manera específica de sitio.

[0266] En algunas implementaciones, los polipéptidos aislados son compuestos miméticos de péptidos, que pueden producirse para parecerse a péptidos, pero que no están conectados a través de una unión peptídica natural. Por ejemplo, las uniones para aminoácidos o análogos de aminoácidos incluyen, pero no se limitan a, -CH<2>NH-, -CH<2>S-, -CH<2>-, -CH=CH- (cis y trans), -COCH<2>-, -CH(OH)CH<2>-, y -CHH<2>SO-. Los análogos peptídicos pueden tener más de un átomo entre los átomos de enlace, tales como b-alanina, ácido g-aminobutírico, y similares. Los análogos de aminoácidos y análogos peptídicos con frecuencia tienen propiedades potenciadas o deseables, tales como producción más económica, mayor estabilidad química, propiedades farmacológicas potenciadas (semivida, absorción, potencia, eficacia, y así sucesivamente), especificidad alterada (por ejemplo, un amplio espectro de actividades biológicas), antigenicidad reducida, y otras propiedades deseables.

[0268] En algunas implementaciones, los polipéptidos aislados comprenden D-aminoácidos, que pueden usarse para generar péptidos más estables porque los D-aminoácidos no se reconocen por peptidasas. La sustitución sistemática de uno o más aminoácidos de una secuencia de consenso con un D-aminoácido del mismo tipo (por ejemplo, D-lisina en lugar de L-lisina) puede usarse para generar péptidos más estables. Pueden usarse residuos de cisteína para ciclar o unir dos o más péptidos entre sí. Esto puede resultar beneficioso para restringir péptidos en conformaciones particulares (véase, por ejemplo, Rizo y Gierasch, Ann. Rev. Biochem., 1992, 61, 387).

[0270] La presente divulgación también proporciona moléculas de ácido nucleico que codifican para cualquiera de los polipéptidos dados a conocer en el presente documento. Esto incluye todas las secuencias degeneradas relacionadas con una secuencia de polipéptido específica (es decir, todos los ácidos nucleicos que tienen una secuencia que codifica para una secuencia de polipéptido particular, así como todos los ácidos nucleicos, incluyendo ácidos nucleicos degenerados, que codifican para las variantes y derivados dados a conocer de las secuencias de proteína). Por tanto, aunque puede no mencionarse cada secuencia de ácido nucleico particular en el presente documento, todas y cada una de las secuencias se dan realmente a conocer y se describen en el presente documento mediante las secuencias de polipéptido dadas a conocer.

[0272] La presente divulgación también proporciona composiciones que comprenden una cualquiera o más de las moléculas de ácido nucleico y/o uno cualquiera o más de los polipéptidos dados a conocer en el presente documento. En algunas implementaciones, las composiciones comprenden un portador. En algunas implementaciones, el portador aumenta la estabilidad de la molécula de ácido nucleico y/o polipéptido (por ejemplo, prolongando el periodo en condiciones dadas de almacenamiento (por ejemplo, -20 °C, 4 °C, o temperatura ambiental) durante el cual los productos de degradación permanecen por debajo de un umbral, tal como por debajo del 0,5 % en peso del ácido nucleico o proteína de partida; o aumentando la estabilidadin vivo).Los ejemplos de portadores incluyen, pero no se limitan a, microesferas de poli(ácido láctico) (PLA), microesferas de poli(ácido D,L-láctico-co-glicólico) (PLGA), liposomas, micelas, micelas inversas, cocleatos lipídicos, y microtúbulos lipídicos.

[0274] La presente divulgación también proporciona métodos de producción de cualquiera de los polipéptidos B4GALT1 o fragmentos de los mismos dados a conocer en el presente documento. Tales polipéptidos B4GALT1 o fragmentos de los mismos pueden producirse mediante cualquier método adecuado. Por ejemplo, pueden producirse polipéptidos B4GALT1 o fragmentos de los mismos a partir de células huésped que comprenden moléculas de ácido nucleico (por ejemplo, vectores de expresión recombinante) que codifican para tales polipéptidos B4GALT1 o fragmentos de los mismos. Tales métodos pueden comprender cultivar una célula huésped que comprende una molécula de ácido nucleico (por ejemplo, un vector de expresión recombinante) que codifica para un polipéptido B4GALT1 o fragmento del mismo en condiciones suficientes para producir el polipéptido B4GALT1 o fragmento del mismo, produciendo de ese modo el polipéptido B4GALT1 o fragmento del mismo. El ácido nucleico puede estar operativamente unido a un promotor activo en la célula huésped, y el cultivo puede llevarse a cabo en condiciones mediante las cuales se expresa el ácido nucleico. Tales métodos pueden comprender además recuperar el polipéptido B4GALT1 o fragmento del mismo expresado. La recuperación puede comprender además purificar el polipéptido B4GALT1 o fragmento del mismo.

[0276] Los ejemplos de sistemas adecuados para la expresión de proteínas incluyen células huésped tales como, por ejemplo: sistemas de expresión en células bacterianas (por ejemplo,Escherichia coli, Lactococcus lactis),sistemas de expresión en células de levadura (por ejemplo,Saccharomyces cerevisiae, Pichia pastoris),sistemas de expresión en células de insecto (por ejemplo, expresión de proteínas mediada por baculovirus), y sistemas de expresión en células de mamífero.

[0278] Ejemplos de moléculas de ácido nucleico que codifican para polipéptidos B4GALT1 o fragmentos de los mismos se dan a conocer en más detalle en otra parte en el presente documento. En algunas implementaciones, las moléculas de ácido nucleico se someten a optimización de codones para su expresión en la célula huésped. En algunas implementaciones, las moléculas de ácido nucleico están operativamente unidas a un promotor activo en la célula huésped. El promotor puede ser un promotor heterólogo (es decir, un promotor que no es un promotor deB4GALT1que se produce de manera natural). Los ejemplos de promotores adecuados paraEscherichia coliincluyen, pero no se limitan a, promotores de arabinosa,lac, tac,y T7. Los ejemplos de promotores adecuados paraLactococcus lactisincluyen, pero no se limitan a, promotores de P170 y nisina. Los ejemplos de promotores adecuados paraSaccharomyces cerevisiaeincluyen, pero no se limitan a, promotores constitutivos tales como promotores de alcohol deshidrogenasa (ADHI) o enolasa (ENO) o promotores inducibles tales como PHO, CUP1, GAL1, y G10. Los ejemplos de promotores adecuados paraPichia pastorisincluyen, pero no se limitan a, el promotor de alcohol oxidasa I (AOX I), el promotor de gliceraldehído-3-fosfato deshidrogenasa (GAP), y el promotor de formaldehído deshidrogenasa dependiente de glutatión (FLDI). Un ejemplo de un promotor adecuado para un sistema mediado por baculovirus es el promotor de poliedrina fuerte viral tardío.

[0280] En algunas implementaciones, las moléculas de ácido nucleico codifican para una etiqueta en marco con el polipéptido B4GALT1 o fragmento del mismo para facilitar la purificación de proteínas. Ejemplos de etiquetas se dan a conocer en otra parte en el presente documento. Tales etiquetas pueden unirse, por ejemplo, a un ligando pareja (por ejemplo, inmovilizado en una resina) de tal manera que la proteína marcada con etiqueta puede aislarse de todas las demás proteínas (por ejemplo, proteínas de célula huésped). La cromatografía por afinidad, cromatografía de líquidos de alto rendimiento (HPLC), y cromatografía de exclusión molecular (SEC) son ejemplos de métodos que pueden usarse para mejorar la pureza de la proteína expresada.

[0281] También pueden usarse otros métodos para producir polipéptidos B4GALT1 o fragmentos de los mismos. Por ejemplo, dos o más péptidos o polipéptidos pueden unirse entre sí mediante técnicas de química de proteínas. Por ejemplo, pueden sintetizarse químicamente péptidos o polipéptidos usando química o bien de Fmoc (9-fluorenilmetiloxicarbonilo) o bien de Boc (terc-butiloxicarbonoilo). Tales péptidos o polipéptidos pueden sintetizarse mediante reacciones químicas convencionales. Por ejemplo, un péptido o polipéptido puede sintetizarse y no escindirse a partir de su resina de síntesis, mientras que el otro fragmento de un péptido o proteína puede sintetizarse y posteriormente escindirse a partir de la resina, exponiendo de ese modo un grupo terminal que está funcionalmente bloqueado en el otro fragmento. Mediante reacciones de condensación de péptidos, estos dos fragmentos pueden unirse de manera covalente a través de un enlace peptídico en sus extremos carboxilo y aminoterminales, respectivamente. Alternativamente, el péptido o polipéptido puede sintetizarse independientementein vivotal como se describe en el presente documento. Una vez aislados, estos péptidos o polipéptidos independientes pueden unirse para formar un péptido o fragmento del mismo mediante reacciones de condensación de péptidos similares.

[0282] En algunas implementaciones, la ligación enzimática de segmentos de péptidos clonados o sintéticos permite unir fragmentos de péptidos relativamente cortos para producir fragmentos de péptidos más grandes, polipéptidos, o dominios de proteína completos (Abrahmsenet al.,Biochemistry, 1991, 30, 4151). Alternativamente, puede usarse la ligación química nativa de péptidos sintéticos para construir de manera sintética péptidos grandes o polipéptidos a partir de fragmentos de péptidos más cortos. Este método puede consistir en una reacción química en dos etapas (véase Dawsonet al.,Science, 1994, 266, 776-779). La primera etapa puede ser la reacción quimioselectiva de un péptido-tioéster sintético no protegido con otro segmento de péptido no protegido que contiene un residuo de Cys amino-terminal para dar un producto intermedio unido por tioéster como producto covalente inicial. Sin un cambio en las condiciones de reacción, este producto intermedio puede experimentar una reacción intramolecular rápida y espontánea para formar un enlace peptídico nativo en el sitio de ligación.

[0283] En algunas implementaciones, pueden unirse químicamente segmentos de péptidos no protegidos en los que el enlace formado entre los segmentos de péptidos como resultado de la ligación química es un enlace no natural (no peptídico) (véase Schnolzeret al.,Science, 1992, 256, 221).

[0284] La presente divulgación también proporciona células (por ejemplo, células huésped recombinantes) que comprenden una cualquiera o más de las moléculas de ácido nucleico y/o uno cualquiera o más de los polipéptidos dados a conocer en el presente documento. Las células pueden estarin vitro, ex vivo,oin vivo.Las moléculas de ácido nucleico pueden unirse a un promotor y otras secuencias reguladoras de modo que se expresan para producir una proteína codificada.

[0285] En algunas implementaciones, la célula es una célula pluripotente o una célula totipotente no humana (por ejemplo, una célula madre embrionaria (ES) no humana tal como una célula ES de roedor, una célula ES de ratón, o una célula ES de rata). Las células totipotentes no humanas incluyen células no diferenciadas que pueden dar lugar a cualquier tipo de célula, y las células pluripotentes incluyen células no diferenciadas que presentan la capacidad de desarrollarse para dar más de un tipo de célula diferenciada. Tales células pluripotentes y/o totipotentes no humanas pueden ser, por ejemplo, células ES no humanas o células de tipo ES, tales como una célula madre pluripotente inducida (iPS). Las células ES no humanas incluyen células pluripotentes o totipotentes no humanas derivadas de embriones que pueden contribuir a cualquier tejido del embrión en desarrollo tras su introducción en un embrión. Las células ES no humanas pueden derivarse a partir de la masa celular interna de un blastocito y pueden diferenciarse para dar células de cualquiera de las tres capas germinales de vertebrados (endodermo, ectodermo, y mesodermo). En algunas implementaciones, la célula es una célula somática primaria, o una célula que no es una célula somática primaria. Las células somáticas pueden incluir cualquier célula que no sea un gameto, célula germinal, gametocito, o célula madre no diferenciada. En algunas implementaciones, la célula también puede ser una célula primaria. Las células primarias incluyen células o cultivos de células que se han aislado directamente a partir de un organismo, órgano, o tejido. Las células primarias incluyen células que ni están transformadas ni son inmortales. Las células primarias incluyen cualquier célula obtenida a partir de un organismo, órgano, o tejido que no se sometió previamente a pase por histocultivo o se ha sometido previamente a pase por histocultivo pero no puede someterse a pase de manera indefinida en histocultivo. Tales células pueden aislarse mediante técnicas convencionales e incluyen, por ejemplo, células somáticas, células hematopoyéticas, células endoteliales, células epiteliales, fibroblastos, células mesenquimatosas, queratinocitos, melanocitos, monocitos, células mononucleares, adipocitos, preadipocitos, neuronas, células de la glía, hepatocitos, mioblastos del esqueleto, y células de músculo liso. Por ejemplo, pueden derivarse células primarias a partir de tejidos conjuntivos, tejidos musculares, tejidos del sistema nervioso, o tejidos epiteliales.

[0286] En algunas implementaciones, las células pueden no proliferar normalmente de manera indefinida pero, debido a mutación o alteración, han escapado a la senescencia celular normal y, en vez de eso, pueden seguir sometiéndose a división. Tales mutaciones o alteraciones pueden producirse de manera natural o pueden inducirse de manera intencionada. Los ejemplos de células inmortalizadas incluyen, pero no se limitan a, células de ovario de hámster chino (CHO), células renales embrionarias humanas (por ejemplo, células HEK 293), y células de fibroblastos embrionarios de ratón (por ejemplo, células 3T3). Se conocen bien numerosos tipos de células inmortalizadas. Las células inmortalizadas o primarias incluyen células que normalmente se usan para cultivar o para expresar genes o proteínas recombinantes. En algunas implementaciones, la célula es una célula diferenciada, tal como una célula hepática (por ejemplo, una célula hepática humana).

[0287] La célula puede ser de cualquier fuente. Por ejemplo, la célula puede ser una célula eucariota, una célula animal, una célula vegetal, o una célula fúngica (por ejemplo, de levadura). Tales células pueden ser células de peces o células de aves, o tales células pueden ser células de mamífero, tales como células humanas, células de mamífero no humanas, células de roedor, células de ratón o células de rata. Los mamíferos incluyen, pero no se limitan a, seres humanos, primates no humanos, monos, simios, gatos, perros, caballos, toros, ciervos, bisontes, ovejas, roedores (por ejemplo, ratones, ratas, hámsteres, cobayas), ganado (por ejemplo, especies bovinas tales como vacas, cabestros, etc.; especies ovinas tales como ovejas, cabras, etc.; y especies porcinas tales como cerdos y jabalíes). Las aves incluyen, pero no se limitan a, pollos, pavos, avestruces, gansos, patos, etc. También se incluyen animales domesticados y animales para la agricultura. El término “animal no humano” excluye a los seres humanos. La presente divulgación también proporciona métodos para detectar la presencia de un gen, ARNm, ADNc, y/o polipéptido de variante deB4GALT1en una muestra biológica de un sujeto humano. Se entiende que las secuencias génicas dentro de una población y los ARNm y proteínas codificados por tales genes pueden variar debido a polimorfismos tales como polimorfismos de un solo nucleótido. Las secuencias proporcionadas en el presente documento para el gen, ARNm, ADNc, y polipéptido deB4GALT1son únicamente secuencias a modo de ejemplo. También son posibles otras secuencias para el gen, ARNm, ADNc, y polipéptido deB4GALT1.

[0288] La muestra biológica puede derivarse de cualquier célula, tejido, o líquido biológico del sujeto. La muestra puede comprender cualquier tejido clínicamente relevante, tal como una muestra de médula ósea, una biopsia de tumor, un aspirado de aguja fina, o una muestra de líquido corporal, tal como sangre, plasma, suero, linfa, líquido ascítico, líquido quístico, u orina. En algunos casos, la muestra comprende una muestra bucal por hisopo. La muestra usada en los métodos dados a conocer en el presente documento variará basándose en el formato de ensayo, la naturaleza del método de detección, y los tejidos, células, o extractos que se usan como muestra. Una muestra biológica puede procesarse de manera diferente dependiendo del ensayo que esté empleándose. Por ejemplo, cuando se detecta una molécula de ácido nucleico deB4GALT1variante, puede emplearse procesamiento preliminar diseñado para aislar o enriquecer la muestra para el ADN genómico. Pueden usarse una variedad de técnicas conocidas con este fin. Cuando se detecta el nivel de ARNm deB4GALT1,pueden usarse diferentes técnicas para enriquecer la muestra biológica con ARNm. Pueden usarse diversos métodos para detectar la presencia o el nivel de un ARNm o la presencia de un locus de ADN genómico variante particular.

[0289] En algunas implementaciones, la divulgación proporciona métodos de detección de la presencia o ausencia de una molécula de ácido nucleico deB4GALT1variante que comprenden secuenciar al menos una porción de un ácido nucleico en una muestra biológica para determinar si el ácido nucleico comprende los nucleótidos 53757 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2.

[0290] En algunas implementaciones, la divulgación proporciona métodos de detección de la presencia o ausencia de una molécula de ácido nucleico deB4GALT1variante que comprenden secuenciar al menos una porción de un ácido nucleico en una muestra biológica para determinar si el ácido nucleico comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 en posiciones que corresponden a las posiciones 1243 a 1245 de SEQ ID NO: 4.

[0291] En algunas implementaciones, la divulgación proporciona métodos de detección de la presencia o ausencia de una molécula de ácido nucleico deB4GALT1variante que comprenden secuenciar al menos una porción de un ácido nucleico en una muestra biológica para determinar si el ácido nucleico comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones que corresponden a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0292] En algunas implementaciones, los métodos de detección de la presencia o ausencia de una molécula de ácido nucleico deB4GALT1variante (por ejemplo, gen, ARNm, o ADNc) en un sujeto humano comprenden: realizar un ensayo en una muestra biológica del sujeto humano que determina si una molécula de ácido nucleico en la muestra biológica comprende una secuencia de ácido nucleico que codifica para una serina en la posición 352 de SEQ ID NO: 8. En algunas implementaciones, la muestra biológica comprende una célula o lisado celular. Tales métodos pueden comprender, por ejemplo, obtener una muestra biológica a partir del sujeto que comprende un gen, ARNm, o ADNc deB4GALT1y realizar un ensayo en la muestra biológica que determina que una posición del gen, ARNm, o ADNc deB4GALT1correspondiente a las posiciones 53757 a 53577 de SEQ ID NO: 2 (gen), posiciones 1243 a 1245 de SEQ ID NO: 4 (ARNm), o posiciones 1054 a 1056 de SEQ ID NO: 6 (ADNc) codifica para una serina en lugar de una asparagina en una posición correspondiente a la posición 352 del polipéptido B4GALT1 variante. Tales ensayos pueden comprender, por ejemplo, determinar la identidad de estas posiciones de la molécula de ácido nucleico deB4GALT1particular.

[0293] En algunas implementaciones, el ensayo comprende: secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2; secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0295] En algunas implementaciones, el ensayo comprende: a) poner en contacto la muestra biológica con un cebador que se hibrida a: i) una porción de la secuencia genómica deB4GALT1que está próxima a una posición de la secuencia genómica deB4GALT1correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 2; ii) una porción de la secuencia de ARNm deB4GALT1que está próxima a una posición del ARNm deB4GALT1correspondiente a las posiciones 1243 a 1245 de SEQ ID NO: 4; o iii) una porción de la secuencia de ADNc deB4GALT1que está próxima a una posición del ADNc deB4GALT1correspondiente a las posiciones 1054 a 1056 de SEQ ID NO: 6; b) extender el cebador al menos a través de: i) la posición de la secuencia genómica deB4GALT1correspondiente a las posiciones 53575 a 53577; ii) la posición del ARNm deB4GALT1correspondiente a las posiciones 1243 a 1245; o iii) la posición del ADNc deB4GALT1correspondiente a las posiciones 1054 a 1056; y c) determinar si el producto de extensión del cebador comprende nucleótidos en posiciones: i) correspondientes a las posiciones 53575 a 53577 de la secuencia genómica deB4GALT1;ii) correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1;o iii) correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1;que codifican para una serina en la posición 352 de SEQ ID NO: 8. En algunas implementaciones, sólo se analiza ADN genómico deB4GALT1.En algunas implementaciones, sólo se analiza ARNm deB4GALT1.En algunas implementaciones, sólo se analiza ADNc deB4GALT1.

[0297] En algunas implementaciones, el ensayo comprende poner en contacto la muestra biológica con un cebador o sonda que se hibrida específicamente con una secuencia genómica, secuencia de ARNm, o secuencia de ADNc deB4GALT1variante y no con la secuencia deB4GALT1de tipo natural correspondiente en condiciones rigurosas, y determinar si se ha producido hibridación.

[0299] En algunas implementaciones, los ensayos descritos anteriormente comprenden secuenciación de ARN (RNA-Seq). En algunas implementaciones, los ensayos también comprenden reacción en cadena de la polimerasa de transcripción inversa (RT-PCR).

[0301] En algunas implementaciones, los métodos usan sondas y cebadores con una longitud de nucleótidos suficiente para unirse a la secuencia de ácido nucleico diana y detectar y/o identificar de manera específica un polinucleótido que comprende un gen, ARNm, o ADNc deB4GALT1variante. Las condiciones de hibridación o condiciones de reacción pueden determinarse por el operario para lograr este resultado. Esta longitud puede ser cualquier longitud que es suficiente para ser útil en un método de detección de elección. Generalmente, por ejemplo, se usan aproximadamente 8, aproximadamente 11, aproximadamente 14, aproximadamente 16, aproximadamente 18, aproximadamente 20, aproximadamente 22, aproximadamente 24, aproximadamente 26, aproximadamente 28, aproximadamente 30, aproximadamente 40, aproximadamente 50, aproximadamente 75, aproximadamente 100, aproximadamente 200, aproximadamente 300, aproximadamente 400, aproximadamente 500, aproximadamente 600, o aproximadamente 700 nucleótidos, o más, o desde aproximadamente 11 hasta aproximadamente 20, desde aproximadamente 20 hasta aproximadamente 30, desde aproximadamente 30 hasta aproximadamente 40, desde aproximadamente 40 hasta aproximadamente 50, desde aproximadamente 50 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 200, desde aproximadamente 200 hasta aproximadamente 300, desde aproximadamente 300 hasta aproximadamente 400, desde aproximadamente 400 hasta aproximadamente 500, desde aproximadamente 500 hasta aproximadamente 600, desde aproximadamente 600 hasta aproximadamente 700, o desde aproximadamente 700 hasta aproximadamente 800, o más nucleótidos de longitud. Tales sondas y cebadores pueden hibridarse específicamente a una secuencia diana en condiciones de hibridación de alta rigurosidad. Las sondas y cebadores pueden tener identidad de secuencia de ácido nucleico completa de nucleótidos contiguos con la secuencia diana, aunque pueden diseñarse sondas que difieren de la secuencia de ácido nucleico diana y que conservan la capacidad para detectar y/o identificar de manera específica una secuencia de ácido nucleico diana mediante métodos convencionales. Por consiguiente, las sondas y cebadores pueden compartir aproximadamente el 80 %, aproximadamente el 85 %, aproximadamente el 90 %, aproximadamente el 91 %, aproximadamente el 92 %, aproximadamente el 93 %, aproximadamente el 94 %, aproximadamente el 95 %, aproximadamente el 96 %, aproximadamente el 97 %, aproximadamente el 98 %, aproximadamente el 99 %, o el 100 % de identidad o complementariedad de secuencia con la molécula de ácido nucleico diana.

[0303] En algunas implementaciones, pueden usarse cebadores específicos para amplificar el locus deB4GALT1variante y/o el ARNm o ADNc variante deB4GALT1para producir un amplicón que puede usarse como sonda específica o puede detectarse en sí mismo para identificar el locus deB4GALT1variante o para determinar el nivel de ARNm o ADNc deB4GALT1específico en una muestra biológica. El locus variante deB4GALT1puede usarse para designar una secuencia de ácido nucleico genómico que incluye una posición correspondiente a las posiciones 53575 a 53577 en SEQ ID NO: 2. Cuando la sonda se hibrida con una molécula de ácido nucleico en una muestra biológica en condiciones que permiten la unión de la sonda a la molécula de ácido nucleico, esta unión puede detectarse y permitir una indicación de la presencia del locus deB4GALT1variante o la presencia o el nivel de ARNm o ADNc deB4GALT1variante en la muestra biológica. Tal identificación de una sonda unida se ha descrito. La sonda específica puede comprender una secuencia idéntica (o complementaria) en al menos aproximadamente el 80 %, desde aproximadamente el 80 % hasta aproximadamente el 85 %, desde aproximadamente el 85 % hasta aproximadamente el 90 %, desde aproximadamente el 90 % hasta aproximadamente el 95 %, y desde aproximadamente el 95 % hasta aproximadamente el 100 % a una región específica de un genB4GALT1variante. La sonda específica puede comprender una secuencia idéntica (o complementaria) en al menos aproximadamente el 80 %, desde aproximadamente el 80 % hasta aproximadamente el 85 %, desde aproximadamente el 85 % hasta aproximadamente el 90 %, desde aproximadamente el 90 % hasta aproximadamente el 95 %, y desde aproximadamente el 95% hasta aproximadamente el 100% a una región específica de un ARNm deB4GALT1variante. La sonda específica puede comprender una secuencia idéntica (o complementaria) en al menos aproximadamente el 80 %, desde aproximadamente el 80 % hasta aproximadamente el 85 %, desde aproximadamente el 85 % hasta aproximadamente el 90 %, desde aproximadamente el 90 % hasta aproximadamente el 95%, y desde aproximadamente el 95% hasta aproximadamente el 100% a una región específica de un ADNc deB4GALT1variante.

[0305] En algunas implementaciones, para determinar si el complemento de ácido nucleico de una muestra biológica comprende los nucleótidos que codifican para serina en las posiciones 53575 a 53577 en el locus de genB4GALT1variante (SEQ ID NO: 2), la muestra biológica puede someterse a un método de amplificación de ácido nucleico usando un par de cebadores que incluye un primer cebador derivado de la secuencia flanqueante en 5' adyacente a las posiciones 53575 a 53577 y un segundo cebador derivado de la secuencia flanqueante en 3' adyacente a las posiciones 53575 a 53577 para producir un amplicón que es diagnóstico para la presencia del SNP en las posiciones 53575 a 53577 en el locus de genB4GALT1variante (SEQ ID NO: 2). En algunas implementaciones, la longitud del amplicón puede oscilar entre la longitud combinada de los pares de cebadores más un par de bases de nucleótidos y cualquier longitud de amplicón que puede producirse mediante un protocolo de amplificación de ADN. Esta distancia puede oscilar entre un par de bases de nucleótidos y los límites de la reacción de amplificación, o aproximadamente veinte mil pares de bases de nucleótidos. Opcionalmente, el par de cebadores flanquea una región que incluye las posiciones 53575 a 53577 y al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, o más nucleótidos en cada lado de las posiciones 53575 a 53577. Pueden generarse amplicones similares a partir de las secuencias de ARNm y/o ADNc.

[0307] Se describen métodos representativos para preparar y usar sondas y cebadores, por ejemplo, en Molecular Cloning: A Laboratory Manual, 2a ed., vol. 1-3, ed. Sambrooket al.,Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 1989 (a continuación en el presente documento, “Sambrooket al.,1989”); Current Protocols in Molecular Biology, ed. Ausubelet al.,Greene Publishing and Wiley-Interscience, New York, 1992 (con actualizaciones periódicas) (a continuación en el presente documento, “Ausubelet al.,1992”); e Inniset al.,PCR Protocols: A Guide to Methods and Applications, Academic Press: San Diego, 1990). Pueden derivarse pares de cebadores de PCR a partir de una secuencia conocida, por ejemplo, usando programas informáticos destinados a ese fin, tales como la herramienta de análisis de cebadores de PCR en Vector NTI versión 10 (Informax Inc., Bethesda Md.); PrimerSelect (DNASTAR Inc., Madison, Wis.); y Primer3 (versión 0.4.0.COPYRGT., 1991, Whitehead Institute for Biomedical Research, Cambridge, Mass.). Adicionalmente, puede explorarse visualmente la secuencia y pueden identificarse manualmente los cebadores usando directrices conocidas.

[0309] Tal como se describe en más detalle a continuación, puede usarse cualquier método de secuenciación o amplificación o hibridación de ácido nucleico convencional para detectar específicamente la presencia del locus de genB4GALT1variante y/o el nivel de ARNm o ADNc deB4GALT1variante. En algunas implementaciones, la molécula de ácido nucleico puede usarse como cebador para amplificar una región del ácido nucleico deB4GALT1o la molécula de ácido nucleico puede usarse como sonda que se hibrida en condiciones rigurosas a una molécula de ácido nucleico que comprende el locus de genB4GALT1variante o una molécula de ácido nucleico que comprende un ARNm o ADNc deB4GALT1variante.

[0311] Se conocen una variedad de técnicas de ácido nucleico, incluyendo, por ejemplo, secuenciación de ácido nucleico, hibridación de ácido nucleico, y amplificación de ácido nucleico. Los ejemplos ilustrativos de técnicas de secuenciación de ácido nucleico incluyen, pero no se limitan a, secuenciación de terminación de cadena (Sanger) y secuenciación de terminación de colorante.

[0313] Otros métodos implican métodos de hibridación de ácido nucleico distintos de la secuenciación, incluyendo usar cebadores o sondas marcados dirigidos contra ADN purificado, ADN amplificado, y preparaciones de células fijadas (hibridaciónin situpor fluorescencia). En algunos métodos, un ácido nucleico diana puede amplificarse antes de, o de manera simultánea con, la detección. Los ejemplos ilustrativos de técnicas de amplificación de ácido nucleico incluyen, pero no se limitan a, reacción en cadena de la polimerasa (PCR), reacción en cadena de la ligasa (LCR), amplificación por desplazamiento de cadena (SDA), y amplificación basada en secuencia de ácido nucleico (NASBA). Otros métodos incluyen, pero no se limitan a, reacción en cadena de la ligasa, amplificación por desplazamiento de cadena, y SDA termófila (tSDA).

[0315] Puede usarse cualquier método para detectar los polinucleótidos o bien no amplificados o bien amplificados incluyendo, por ejemplo, ensayo de protección de hibridación (HPA), evaluación cuantitativa del proceso de amplificación en tiempo real, y determinación de la cantidad de secuencia diana inicialmente presente en una muestra, pero que no se basan en una amplificación en tiempo real.

[0317] También se proporcionan métodos para identificar ácidos nucleicos que no requieren necesariamente amplificación de secuencia y se basan, por ejemplo, en los métodos conocidos de hibridaciones de transferencia de tipo Southern (ADN:ADN), hibridaciónin situ(ISH), e hibridaciónin situpor fluorescencia (FISH) de material cromosómico, usando sondas apropiadas. Puede usarse transferencia de tipo Southern para detectar secuencias de ácido nucleico específicas. En tales métodos, se fragmenta el ácido nucleico que se extrae a partir de una muestra, se separa mediante electroforesis en un gel de matriz, y se transfiere a un filtro de membrana. El ácido nucleico unido a filtro se somete a hibridación con una sonda marcada complementaria a la secuencia de interés. Se detecta la sonda hibridada unida al filtro.

[0319] En técnicas de hibridación, pueden emplearse condiciones rigurosas de tal manera que una sonda o cebador se hibridará específicamente con su diana. En algunas implementaciones, un cebador o sonda de polinucleótido en condiciones rigurosas se hibridará con su secuencia diana (por ejemplo, el locus de gen, ARNm, o ADNc deB4GALT1variante) hasta un grado mayor de manera detectable que a otras secuencias (por ejemplo, el locus, ARNm, o ADNc deB4GALT1de tipo natural correspondiente), tal como al menos 2 veces con respecto al fondo o 10 veces con respecto al fondo. Las condiciones rigurosas son dependientes de secuencia y serán diferentes en diferentes circunstancias. Controlando la rigurosidad de las condiciones de hibridación y/o de lavado, pueden identificarse secuencias diana que son complementarias al 100% a la sonda (análisis con sondas homólogas). Alternativamente, pueden ajustarse las condiciones de rigurosidad para permitir cierto apareamiento erróneo en secuencias de modo que se detectan grados inferiores de identidad (análisis con sondas heterólogas). Generalmente, una sonda tiene menos de aproximadamente 1000 nucleótidos de longitud o menos de aproximadamente 500 nucleótidos de longitud.

[0321] Las condiciones de rigurosidad apropiadas que fomentan la hibridación de ADN, por ejemplo, 6X cloruro de sodio/citrato de sodio (SSC) a aproximadamente 45 °C, seguido por lavado con 2X SSC a 50 °C, se conocen o pueden encontrarse en Current Protocols in Molecular Biology, John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6. Normalmente, las condiciones rigurosas para la hibridación y detección serán aquellas en las que la concentración de sal es de menos de aproximadamente 1,5 M de ion Na, normalmente una concentración de aproximadamente 0,01 a 1,0 M de ion Na (u otras sales) a pH de 7,0 a 8,3 y la temperatura es de al menos aproximadamente 30 °C para sondas cortas (por ejemplo, de 10 a 50 nucleótidos) y al menos aproximadamente 60 °C para sondas más largas (por ejemplo, más de 50 nucleótidos). También pueden obtenerse condiciones rigurosas con la adición de agentes desestabilizantes tales como formamida. Las condiciones de baja rigurosidad a modo de ejemplo incluyen hibridación con una disolución tampón de formamida a del 30 al 35 %, NaCl 1 M, SDS (dodecil-sulfato de sodio) al 1 % a 37 °C, y un lavado con de 1X a 2X SSC (20X SSC = NaCl 3,0 M / citrato de trisodio 0,3 M) a de 50 a 55 °C. Las condiciones de rigurosidad moderada a modo de ejemplo incluyen hibridación en formamida a del 40 al 45 %, NaCl 1,0 M, SDS al 1 % a 37 °C, y un lavado con de 0,5X a 1X SSC a de 55 a 60 °C. Las condiciones de alta rigurosidad a modo de ejemplo incluyen hibridación en formamida al 50 %, NaCl 1 M, SDS al 1 % a 37 °C, y un lavado con 0,1X SSC a de 60 a 65 °C. Opcionalmente, los tampones de lavado pueden comprender SDS a de aproximadamente el 0,1 % a aproximadamente el 1 %. La duración de hibridación es generalmente de menos de aproximadamente 24 horas, habitualmente de aproximadamente 4 a aproximadamente 12 horas. La duración del tiempo de lavado será al menos una duración de tiempo suficiente para alcanzar el equilibrio.

[0323] En reacciones de hibridación, la especificidad es normalmente la función de lavados tras la hibridación, siendo los factores críticos la fuerza iónica y la temperatura de la disolución de lavado final. Para híbridos de ADN-ADN, la Tf puede aproximarse a partir de la ecuación de Meinkoth y Wahl, Anal. Biochem., 1984, 138, 267-284: Tf = 81,5 °C 16,6 (log M) 0,41 (% de GC) - 0,61 (% de form.) - 500/L; donde M es la molaridad de cationes monovalentes, % de GC es el porcentaje de nucleótidos de guanosina y citosina en el ADN, % de form. es el porcentaje de formamida en la disolución de hibridación, y L es la longitud del híbrido en pares de bases. La Tf es la temperatura (a la fuerza iónica y pH definidos) a la que el 50 % de una secuencia diana complementaria se hibrida con una sonda perfectamente apareada. Tf se reduce en aproximadamente 1 °C por cada 1 % de apareamiento erróneo; por tanto, las condiciones de Tf, hibridación, y/o lavado pueden ajustarse para hibridarse con secuencias de la identidad deseada. Por ejemplo, si se buscan secuencias con >90% de identidad, la Tf puede reducirse en 10 °C. Generalmente, se seleccionan condiciones rigurosas para ser aproximadamente 5 °C inferiores al punto de fusión térmico (Tf) para la secuencia específica y su complemento a una fuerza iónica y pH definidos. Sin embargo, condiciones intensamente rigurosas pueden usar una hibridación y/o lavado a 1 °C, 2 °C, 3 °C, o 4 °C menos que el punto de fusión térmico (Tf); las condiciones moderadamente rigurosas pueden usar una hibridación y/o lavado a 6 °C, 7 °C, 8 °C, 9 °C, o 10 °C menos que el punto de fusión térmico (Tf); las condiciones de baja rigurosidad pueden usar una hibridación y/o lavado a 11 °C, 12 °C, 13 °C, 14 °C, 15 °C, o 20 °C menos que el punto de fusión térmico (Tf). Usando la ecuación, las composiciones de hibridación y lavado, y la Tf deseada, los expertos habituales entenderán que se describen de manera inherente variaciones en la rigurosidad de disoluciones de hibridación y/o lavado. Si el grado deseado de apareamiento erróneo da como resultado una Tf de menos de 45 °C (disolución acuosa) o 32 °C (disolución de formamida), resulta óptimo aumentar la concentración de SSC de modo que pueda usarse una temperatura superior.

[0325] También se proporcionan métodos para detectar la presencia o los niveles de polipéptido B4GALT1 variante en una muestra biológica, incluyendo, por ejemplo, secuenciación de proteínas e inmunoensayos. En algunas implementaciones, el método de detección de la presencia deB4GALT1Asn352Ser en un sujeto humano comprende realizar un ensayo en una muestra biológica del sujeto humano que determina la presencia deB4GALT1Asn352Ser en la muestra biológica.

[0327] Los ejemplos no limitativos ilustrativos de técnicas de secuenciación de proteínas incluyen, pero no se limitan a, espectrometría de masas y degradación de Edman. Los ejemplos ilustrativos de inmunoensayos incluyen, pero no se limitan a, inmunoprecipitación, inmunotransferencia de tipo Western, inmunohistoquímica, ELISA, inmunocitoquímica, citometría de flujo, e inmuno-PCR. Los anticuerpos policlonales o monoclonales marcados de manera detectable usando diversas técnicas conocidas (por ejemplo, calorimétricas, fluorescentes, quimioluminiscentes, o radiactivas) son adecuados para su uso en los inmunoensayos.

[0329] La presente divulgación también proporciona métodos para determinar la propensión de un sujeto a desarrollar una alteración cardiovascular o el riesgo de desarrollar una alteración cardiovascular. El sujeto puede ser cualquier organismo, incluyendo, por ejemplo, un ser humano, un mamífero no humano, un roedor, un ratón, o una rata. En algunas implementaciones, los métodos comprenden detectar la presencia del ADN genómico, ARNm, o ADNc deB4GALT1variante en una muestra biológica del sujeto. Se entiende que las secuencias génicas dentro de una población y los ARNm codificados por tales genes pueden variar debido a polimorfismos tales como SNP. Las secuencias proporcionadas en el presente documento para el gen, ARNm, ADNc, y polipéptido deB4GALT1son únicamente secuencias a modo de ejemplo y también son posibles otras de secuencias de este tipo.

[0331] Los ejemplos no limitativos de alteración cardiovascular incluyen un nivel elevado de uno o más lípidos séricos. Los lípidos séricos comprenden uno o más de colesterol, LDL, h Dl , triglicéridos, colesterol de HDL, y colesterol distinto de HDL, o cualquier fracción secundaria de los mismos (por ejemplo, HDL2, HDL2a, HDL2b, HDL2c, HDL3, HDL3a, HDL3b, HDL3c, HDL3d, LDL1, LDL2, LDL3, lipoproteína A, Lpal, Lpal, Lpa3, Lpa4, o Lpa5). Una alteración cardiovascular puede comprender niveles elevados de calcificación de arterias coronarias. Una alteración cardiovascular puede comprender glicosilación de tipo IId (CDG-Ild). Una alteración cardiovascular puede comprender niveles elevados de grasa pericárdica. Una alteración cardiovascular también puede comprender arteriopatía coronaria (CAD), infarto de miocardio (MI), arteriopatía periférica (PAD), accidente cerebrovascular, embolia pulmonar, trombosis de venas profundas (DVT), y diátesis hemorrágicas y coagulopatías. Una alteración cardiovascular puede comprender un estado aterotrombótico. El estado aterotrombótico puede comprender niveles elevados de fibrinógeno. El estado aterotrombótico puede comprender un coágulo sanguíneo mediado por fibrinógeno. Una alteración cardiovascular puede comprender niveles elevados de fibrinógeno. Una alteración cardiovascular puede comprender un coágulo sanguíneo mediado por fibrinógeno. Una alteración cardiovascular puede comprender un coágulo sanguíneo formado a partir de la participación de actividad de fibrinógeno. Un coágulo sanguíneo mediado por fibrinógeno o coágulo sanguíneo formado a partir de la participación de actividad de fibrinógeno puede estar en cualquier vena o arteria en el organismo.

[0333] En algunas implementaciones, los métodos de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular comprenden: a) realizar un ensayo en una muestra biológica del sujeto humano que determina si una molécula de ácido nucleico en la muestra biológica comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 Asn352Ser variante de longitud completa/maduro; y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende una secuencia de ácido nucleico que codifica para una serina en la posición 352 del polipéptido B4GALT1 Asn352Ser variante de longitud completa/maduro se detecta en la muestra biológica, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende una secuencia de ácido nucleico que codifica para una serina en la posición 352 del polipéptido B4GALT1 Asn352Ser variante de longitud completa/maduro no se detecta en la muestra biológica. En algunas implementaciones, el polipéptido B4GALT1 Asn352Ser variante comprende SEQ ID NO: 8. En algunas implementaciones, la molécula de ácido nucleico en la muestra biológica es ADN genómico, ARNm, o ADNc.

[0335] En algunas implementaciones, la divulgación proporciona métodos de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular, que comprenden: a) realizar un ensayo en una muestra biológica del sujeto humano que determina si una molécula de ácido nucleico en la muestra biológica comprende los nucleótidos 53757 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2; y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 53757 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2 se detecta en la muestra biológica, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 53757 a 53577 de SEQ ID NO: 2 en posiciones que corresponden a las posiciones 53757 a 53577 de SEQ ID NO: 2 no se detecta en la muestra biológica.

[0337] En algunas implementaciones, la divulgación proporciona métodos de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular, que comprenden: a) realizar un ensayo en una muestra biológica del sujeto humano que determina si una molécula de ácido nucleico en la muestra biológica comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 en posiciones que corresponden a las posiciones 1243 a 1245 de SEQ ID NO: 4; y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 en posiciones que corresponden a las posiciones 1243 a 1245 de SEQ ID NO: 4 se detecta en la muestra biológica, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 1243 a 1245 de SEQ ID NO: 4 en posiciones que corresponden a las posiciones 1243 a 1245 de SEQ ID NO: 4 no se detecta en la muestra biológica.

[0339] En algunas implementaciones, la divulgación proporciona métodos de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular, que comprenden: a) realizar un ensayo en una muestra biológica del sujeto humano que determina si una molécula de ácido nucleico en la muestra biológica comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones que corresponden a las posiciones 1054 a 1056 de SEQ ID NO: 6; y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones que corresponden a las posiciones 1054 a 1056 de SEQ ID NO: 6 se detecta en la muestra biológica, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si una molécula de ácido nucleico que comprende los nucleótidos 1054 a 1056 de SEQ ID NO: 6 en posiciones que corresponden a las posiciones 1054 a 1056 de SEQ ID NO: 6 no se detecta en la muestra biológica.

[0341] En algunas implementaciones, los métodos comprenden detectar la presencia de un ADN genómico deB4GALT1variante en una muestra biológica. En algunas implementaciones, tales métodos comprenden determinar la propensión de un sujeto a desarrollar una alteración cardiovascular o el riesgo de desarrollar una alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ADN genómico; b) realizar un ensayo en el ADN genómico que determina la identidad de los nucleótidos en el ADN que ocupan las posiciones correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante (véase, por ejemplo, SEQ ID NO: 2); y c) clasificar al sujeto como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si las posiciones en el ADN genómico correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si las posiciones en el ADN genómico correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0343] En algunas implementaciones, tales métodos comprenden diagnosticar que un sujeto presenta una alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ADN genómico; b) realizar un ensayo en el ADN genómico que determina la identidad de los nucleótidos en el ADN que ocupan posiciones correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante (véase, por ejemplo, SEQ ID NO: 2); y c) clasificar al sujeto como que presenta una alteración cardiovascular si las posiciones en el ADN genómico correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que no presenta una alteración cardiovascular si las posiciones en el ADN genómico correspondientes a las posiciones 53575 a 53577 del genB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0345] En algunas implementaciones, los métodos comprenden detectar la presencia de un ARNm deB4GALT1variante en una muestra biológica. En algunas implementaciones, tales métodos comprenden determinar la propensión de un sujeto a desarrollar una alteración cardiovascular o el riesgo de desarrollar una alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ARNm; b) realizar un ensayo en el ARNm que determina la identidad de los nucleótidos en el ARNm que ocupan posiciones correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante (véase, por ejemplo, SEQ ID NO: 4); y c) clasificar al sujeto como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si las posiciones en el ARNm correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si las posiciones en el ARNm correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0347] En algunas implementaciones, tales métodos comprenden diagnosticar que un sujeto presenta una alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ARNm; b) realizar un ensayo en el ARNm que determina la identidad de los nucleótidos en el ARNm que ocupan posiciones correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante (véase, por ejemplo, SEQ ID NO: 4); y c) clasificar al sujeto como que presenta una alteración cardiovascular si las posiciones en el ARNm correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que no presenta una alteración cardiovascular si las posiciones en el ARNm correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0349] En algunas implementaciones, los métodos comprenden detectar la presencia de un ADNc deB4GALT1variante en una muestra biológica. En algunas implementaciones, tales métodos comprenden determinar la propensión de un sujeto a desarrollar una alteración cardiovascular o el riesgo de desarrollar una alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ADNc; b) realizar un ensayo en el ADNc que determina la identidad de los nucleótidos en el ADNc que ocupan posiciones correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante (véase, por ejemplo, SEQ ID NO: 6); y c) clasificar al sujeto como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si las posiciones en el ADNc correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si las posiciones en el ADNc correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0351] En algunas implementaciones, tales métodos comprenden diagnosticar que un sujeto presenta alteración cardiovascular, que comprenden: a) obtener una muestra biológica a partir del sujeto que comprende ADNc; b) realizar un ensayo en el ADNc que determina la identidad de los nucleótidos en el ADNc que ocupan posiciones correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante (véase, por ejemplo, SEQ ID NO: 6); y c) clasificar al sujeto como que presenta una alteración cardiovascular si las posiciones en el ADNc correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante codifican para una serina en lugar de una asparagina. Alternativamente, el sujeto puede clasificarse como que no presenta una alteración cardiovascular si las posiciones en el ADNc correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1variante no codifican para una serina en lugar de una asparagina.

[0353] En algunas implementaciones, el ensayo comprende: secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2; secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra biológica del sujeto humano, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0355] En algunas implementaciones, el ensayo comprende: a) poner en contacto la muestra biológica con un cebador que se hibrida a: i) una porción de la secuencia genómica deB4GALT1que está próxima a una posición de la secuencia genómica deB4GALT1correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 2; ii) una porción de la secuencia de ARNm deB4GALT1que está próxima a una posición del ARNm deB4GALT1correspondiente a las posiciones 1243 a 1245 de SEQ ID NO: 4; o iii) una porción de la secuencia de ADNc deB4GALT1que está próxima a una posición del ADNc deB4GALT1correspondiente a las posiciones 1054 a 1056 de SEQ ID NO: 6; b) extender el cebador al menos a través de: i) la posición de la secuencia genómica deB4GALT1correspondiente a las posiciones 53575 a 53577; ii) la posición del ARNm deB4GALT1correspondiente a las posiciones 1243 a 1245; o iii) la posición del ADNc deB4GALT1correspondiente a las posiciones 1054 a 1056; y c) determinar si el producto de extensión del cebador comprende nucleótidos en posiciones: i) correspondientes a las posiciones 53575 a 53577 de la secuencia genómica deB4GALT1; ii) correspondientes a las posiciones 1243 a 1245 del ARNm deB4GALT1; o iii) correspondientes a las posiciones 1054 a 1056 del ADNc deB4GALT1; que codifican para una serina en la posición 352 de SEQ ID NO: 8.

[0357] En algunas implementaciones, el ensayo comprende poner en contacto la muestra biológica con un cebador o sonda que se hibrida específicamente con la secuencia genómica, secuencia de ARNm, o secuencia de ADNc deB4GALT1variante y no con la secuencia deB4GALT1de tipo natural correspondiente en condiciones rigurosas, y determinar si se ha producido hibridación. En algunas implementaciones, el cebador o sonda se hibrida específicamente con posiciones dentro del ADN genómico en la muestra biológica que corresponden a las posiciones 53575 a 53577 de SEQ ID NO: 2. En algunas implementaciones, el cebador o sonda se hibrida específicamente con posiciones dentro del ARNm en la muestra biológica que corresponden a las posiciones 1243 a 1245 de SEQ ID NO: 4. En algunas implementaciones, el cebador o sonda se hibrida específicamente con posiciones dentro del ADNc en la muestra biológica que corresponden a las posiciones 1054 a 1056 de SEQ ID NO: 6.

[0359] Otros ensayos que pueden usarse en los métodos dados a conocer en el presente documento incluyen, por ejemplo, reacción en cadena de la polimerasa de transcripción inversa (RT-PCR) o RT-PCR cuantitativa (qRT-PCR). Aún otros ensayos que pueden usarse en los métodos dados a conocer en el presente documento incluyen, por ejemplo, secuenciación de ARN (RNA-Seq) seguida por determinación de la presencia y cantidad de ARNm o ADNc variante en la muestra biológica.

[0361] La presente divulgación también proporciona métodos de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular o de diagnóstico de que un sujeto presenta una alteración cardiovascular, que comprenden: a) realizar un ensayo en una muestra biológica del sujeto humano que determina si un polipéptido B4GALT1 en la muestra biológica comprende una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8; y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si un polipéptido B4GALT1 que comprende una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8 se detecta en la muestra biológica, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si un polipéptido B4GALT1 que comprende una serina en una posición correspondiente a la posición 352 de SEQ ID NO: 8 no se detecta en la muestra biológica. En algunas implementaciones, los métodos comprenden además obtener una muestra biológica a partir del sujeto.

[0363] En algunas implementaciones, cuando se ha diagnosticado que un sujeto tiene una alteración cardiovascular o presenta un riesgo aumentado de desarrollar una alteración cardiovascular, se administra un agente terapéutico o profiláctico que trata o previene la alteración cardiovascular al sujeto. Alternativamente, el método puede comprender además administrar un agente terapéutico adaptado a medida para prevenir o aliviar uno o más síntomas asociados con la progresión a estadios clínicamente más avanzados de la alteración cardiovascular, particularmente en pacientes con niveles aumentados de LDL y/o aquellos pacientes que han tenido o presentan un riesgo aumentado de acontecimientos trombóticos.

[0365] La presente divulgación también proporciona métodos para modificar una célula mediante el uso de cualquier combinación de agentes de nucleasa, secuencias donantes exógenas, activadores de la transcripción, represores de la transcripción, moléculas antisentido tales como ARN antisentido, ARNip, y ARNhc, polipéptidos B4GALT1 o fragmentos de los mismos, y vectores de expresión para expresar un genB4GALT1recombinante o un ácido nucleico que codifica para un polipéptido B4GALT1. Los métodos pueden producirsein vitro, ex vivo,oin vivo.Los agentes de nucleasa, secuencias donantes exógenas, activadores de la transcripción, represores de la transcripción, moléculas antisentido tales como ARN antisentido, ARNip, y ARNhc, polipéptidos B4GALT1 o fragmentos de los mismos, y vectores de expresión pueden introducirse en la célula en cualquier forma y mediante cualquier medio tal como se describe en otra parte en el presente documento, y todos o algunos pueden introducirse de manera simultánea o secuencial en cualquier combinación. Algunos métodos implican únicamente alterar un genB4GALT1endógeno en una célula. Algunos métodos implican únicamente alterar la expresión de un genB4GALT1endógeno mediante el uso de activadores o represores de la transcripción o mediante el uso de moléculas antisentido tales como ARN antisentido, ARNip, y ARNhc. Algunos métodos implican únicamente introducir un genB4GALT1recombinante o ácido nucleico que codifica para un polipéptido B4GALT1 o fragmento del mismo en una célula. Algunos métodos implican únicamente introducir un polipéptido B4GALT1 o fragmento del mismo en una célula (por ejemplo, uno cualquiera o cualquier combinación de los polipéptidos B4GALT1 o fragmentos de los mismos dados a conocer en el presente documento). Otros métodos implican tanto alterar un genB4GALT1endógeno en una célula como introducir un polipéptido B4GALT1 o fragmento del mismo o genB4GALT1recombinante o ácido nucleico que codifica para un polipéptido B4GALT1 o fragmento del mismo en la célula. Otros métodos implican tanto alterar la expresión de un genB4GALT1endógeno en una célula como introducir un polipéptido B4GALT1 o fragmento del mismo o genB4GALT1recombinante o ácido nucleico que codifica para un polipéptido B4GALT1 o fragmento del mismo en la célula.

[0367] La presente divulgación proporciona métodos para modificar un genB4GALT1endógeno en un genoma dentro de una célula (por ejemplo, una célula pluripotente o una célula diferenciada) mediante el uso de agentes de nucleasa y/o secuencias donantes exógenas. Los métodos pueden producirsein vitro, ex vivo,oin vivo.El agente de nucleasa puede usarse solo o en combinación con una secuencia donante exógena. Alternativamente, la secuencia donante exógena puede usarse sola o en combinación con un agente de nucleasa.

[0369] La reparación en respuesta a roturas bicatenarias (DSB) se produce principalmente mediante dos rutas de reparación de ADN conservadas: unión de extremos no homólogos (NHEJ) y recombinación homóloga (HR) (véase Kasparek y Humphrey, Seminars in Cell & Dev. Biol., 2011, 22, 886-897). La reparación de un ácido nucleico diana (por ejemplo, un genB4GALT1endógeno) mediada por una secuencia donante exógena puede incluir cualquier proceso de intercambio de información genética entre los dos polinucleótidos. Por ejemplo, NHEJ también puede dar como resultado la integración dirigida de una secuencia donante exógena mediante ligación directa de los extremos de rotura con los extremos de la secuencia donante exógena (es decir, captura basada en NHEJ). La reparación también puede producirse mediante reparación dirigida por homología (HDR) o recombinación homóloga (HR). HDR o HR incluye una forma de reparación de ácido nucleico que puede requerir homología de secuencia de nucleótidos, usa una molécula “donante” como molde para la reparación de una molécula “diana” (es decir, la que experimentó la rotura bicatenaria), y conduce a la transferencia de información genética del donante a la diana.

[0371] Las modificaciones genéticas dirigidas en un genB4GALT1endógeno en un genoma pueden generarse poniendo en contacto una célula con una secuencia donante exógena que comprende un brazo de homología en 5' que se hibrida con una secuencia diana en 5' en un locus genómico diana dentro del genB4GALT1endógeno y un brazo de homología en 3' que se hibrida con una secuencia diana en 3' en el locus genómico diana dentro del genB4GALT1endógeno. La secuencia donante exógena puede recombinarse con el locus genómico diana para generar la modificación genética dirigida en el genB4GALT1endógeno. Como un ejemplo, el brazo de homología en 5' puede hibridarse con una secuencia diana en 5' de la posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1, y el brazo de homología en 3' puede hibridarse con una secuencia diana en 3' de la posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1. Tales métodos pueden dar como resultado, por ejemplo, un genB4GALT1que contiene una secuencia de nucleótidos que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido de longitud completa/maduro producido a partir del mismo. Ejemplos de secuencias donantes exógenas se dan a conocer en otra parte en el presente documento.

[0373] Por ejemplo, modificaciones genéticas dirigidas en un genB4GALT1endógeno en un genoma pueden generarse poniendo en contacto una célula o el genoma de una célula con una proteína Cas y uno o más ARN guía que se hibridan con una o más secuencias de reconocimiento de ARN guía dentro de un locus genómico diana en el genB4GALT1endógeno. Por ejemplo, tales métodos pueden comprender poner en contacto una célula con una proteína Cas y un ARN guía que se hibrida con una secuencia de reconocimiento de ARN guía dentro del genB4GALT1endógeno. En algunas implementaciones, la secuencia de reconocimiento de ARN guía está ubicada dentro de una región correspondiente al exón 5 de SEQ ID NO: 1. En algunas implementaciones, la secuencia de reconocimiento de ARN guía puede incluir o está próxima a una posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 1000, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente 40, dentro de aproximadamente 35, dentro de aproximadamente 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de la posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1. Como aún otro ejemplo, la secuencia de reconocimiento de ARN guía puede incluir o estar próxima al codón de iniciación de un genB4GALT1endógeno o al codón de terminación de un genB4GALT1endógeno. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación o el codón de terminación. La proteína Cas y el ARN guía forman un complejo, y la proteína Cas escinde la secuencia de reconocimiento de ARN guía. La escisión por la proteína Cas puede crear una rotura bicatenaria o una rotura monocatenaria (por ejemplo, si la proteína Cas es una nicasa). Tales métodos pueden dar como resultado, por ejemplo, un genB4GALT1endógeno en el que la región correspondiente al exón 5 de SEQ ID NO: 1 está perturbada, el codón de iniciación está perturbado, el codón de terminación está perturbado, o la secuencia codificante está delecionada. Ejemplos y variaciones de proteínas Cas (por ejemplo, Cas9) y ARN guía que pueden usarse en los métodos se describen en otra parte en el presente documento.

[0375] En algunas implementaciones, pueden usarse dos o más agentes de nucleasa. Por ejemplo, pueden usarse dos agentes de nucleasa, seleccionando cada uno como diana una secuencia de reconocimiento de nucleasa dentro de una región correspondiente al exón 5 de SEQ ID NO: 1, o que incluye o está próxima a una posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1 (por ejemplo, dentro de aproximadamente 1000, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente 40, dentro de aproximadamente 35, dentro de aproximadamente 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de las posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 1). Como otro ejemplo, pueden usarse dos o más agentes de nucleasa, seleccionando cada uno como diana una secuencia de reconocimiento de nucleasa que incluye o está próxima al codón de iniciación. Como otro ejemplo, pueden usarse dos agentes de nucleasa, seleccionando uno como diana una secuencia de reconocimiento de nucleasa que incluye o está próxima al codón de iniciación, y seleccionando uno como diana una secuencia de reconocimiento de nucleasa que incluye o está próxima al codón de terminación, en el que la escisión mediante los agentes de nucleasa puede dar como resultado la deleción de la región codificante entre las dos secuencias de reconocimiento de nucleasa. Como aún otro ejemplo, pueden usarse tres o más agentes de nucleasa, seleccionando uno o más (por ejemplo, dos) como diana secuencias de reconocimiento de nucleasa que incluyen o están próximas al codón de iniciación, y seleccionando uno o más (por ejemplo, dos) como diana secuencias de reconocimiento de nucleasa que incluyen o están próximas al codón de terminación, en el que la escisión mediante los agentes de nucleasa puede dar como resultado la deleción de la región codificante entre las secuencias de reconocimiento de nucleasa que incluyen o están próximas al codón de iniciación y la secuencia de reconocimiento de nucleasa que incluye o está próxima al codón de terminación.

[0377] En algunas implementaciones, la célula puede ponerse además en contacto con uno o más ARN guía adicionales que se hibridan con secuencias de reconocimiento de ARN guía adicionales dentro del locus genómico diana en el genB4GALT1endógeno. Poniendo en contacto la célula con uno o más ARN guía adicionales (por ejemplo, un segundo ARN guía que se hibrida con una segunda secuencia de reconocimiento de ARN guía), la escisión mediante la proteína Cas puede crear dos o más roturas bicatenarias o dos o más roturas monocatenarias (por ejemplo, si la proteína Cas es una nicasa).

[0379] En algunas implementaciones, la célula puede ponerse adicionalmente en contacto con una o más secuencias donantes exógenas que se recombinan con el locus genómico diana en el genB4GALT1endógeno para generar una modificación genética dirigida. Ejemplos y variaciones de secuencias donantes exógenas que pueden usarse en los métodos se dan a conocer en otra parte en el presente documento.

[0380] La proteína Cas, el/los ARN guía, y la(s) secuencia(s) donante(s) exógena(s) pueden introducirse en la célula en cualquier forma y mediante cualquier medio tal como se describe en otra parte en el presente documento, y la totalidad o algunos de la proteína Cas, el/los ARN guía, y la(s) secuencia(s) donante(s) exógena(s) pueden introducirse de manera simultánea o secuencial en cualquier combinación.

[0382] En algunas implementaciones, la reparación del ácido nucleico diana (por ejemplo, el genB4GALT1endógeno) mediante la secuencia donante exógena se produce mediante reparación dirigida por homología (HDR). La reparación dirigida por homología puede producirse cuando la proteína Cas escinde ambas cadenas de ADN en el genB4GALT1endógeno para crear una rotura bicatenaria, cuando la proteína Cas es una nicasa que escinde una cadena de ADN en el ácido nucleico diana para crear una rotura monocatenaria, o cuando se usan nicasas Cas para crear una rotura bicatenaria formada por dos mellas desviadas. En tales métodos, la secuencia donante exógena comprende brazos de homología en 5' y 3' correspondientes a secuencias diana en 5' y 3'. La(s) secuencia(s) de reconocimiento de ARN guía o sitio(s) de escisión puede(n) estar adyacente(s) a la secuencia diana en 5', adyacente(s) a la secuencia diana en 3', adyacente(s) tanto a la secuencia diana en 5' como a la secuencia diana en 3', o adyacente(s) a ninguna de la secuencia diana en 5' ni la secuencia diana en 3'. En algunas implementaciones, la secuencia donante exógena puede comprender además un inserto de ácido nucleico flanqueado por los brazos de homología en 5' y 3', y el inserto de ácido nucleico se inserta entre las secuencias diana en 5' y 3'. Si no hay ningún inserto de ácido nucleico presente, la secuencia donante exógena puede funcionar para delecionar la secuencia genómica entre las secuencias diana en 5' y 3'. Ejemplos de secuencias donantes exógenas se dan a conocer en otra parte en el presente documento.

[0384] Alternativamente, la reparación del genB4GALT1endógeno mediada por la secuencia donante exógena puede producirse mediante ligación mediada por unión de extremos no homólogos (NHEJ). En tales métodos, al menos un extremo de la secuencia donante exógena comprende una región monocatenaria corta que es complementaria a al menos una proyección creada mediante escisión mediada por Cas en el genB4GALT1endógeno. El extremo complementario en la secuencia donante exógena puede flanquear un inserto de ácido nucleico. Por ejemplo, cada extremo de la secuencia donante exógena puede comprender una región monocatenaria corta que es complementaria a una proyección creada mediante escisión mediada por Cas en el genB4GALT1endógeno, y estas regiones complementarias en la secuencia donante exógena pueden flanquear un inserto de ácido nucleico.

[0385] Pueden crearse proyecciones (es decir, extremos escalonados) mediante resección de los extremos romos de una rotura bicatenaria creada mediante escisión mediada por Cas. Tal resección puede generar las regiones de microhomología necesarias para la unión de fragmentos, pero esto puede crear alteraciones no deseadas o no controlables en el genB4GALT1.Alternativamente, tales proyecciones pueden crearse usando nicasas Cas emparejadas. Por ejemplo, la célula puede ponerse en contacto con una primera y segunda nicasas que escinden cadenas opuestas del ADN, mediante lo cual se modifica el genoma mediante mellado doble. Esto puede lograrse poniendo en contacto una célula con una primera proteína nicasa Cas, un primer ARN guía que se hibrida con una primera secuencia de reconocimiento de ARN guía dentro del locus genómico diana en el genB4GALT1endógeno, una segunda proteína nicasa Cas, y un segundo ARN guía que se hibrida con una segunda secuencia de reconocimiento de ARN guía dentro del locus genómico diana en el genB4GALT1endógeno. La primera proteína Cas y el primer ARN guía forman un primer complejo, y la segunda proteína Cas y el segundo ARN guía forman un segundo complejo. La primera proteína nicasa Cas escinde una primera cadena de ADN genómico dentro de la primera secuencia de reconocimiento de ARN guía, la segunda proteína nicasa Cas escinde una segunda cadena de ADN genómico dentro de la segunda secuencia de reconocimiento de ARN guía, y opcionalmente la secuencia donante exógena se recombina con el locus genómico diana en el genB4GALT1endógeno para generar la modificación genética dirigida.

[0387] La primera nicasa puede escindir una primera cadena de ADN genómico (es decir, la cadena complementaria), y la segunda nicasa puede escindir una segunda cadena de ADN genómico (es decir, la cadena no complementaria). La primera y segunda nicasas pueden crearse, por ejemplo, mutando un residuo catalítico en el dominio RuvC (por ejemplo, la mutación D10A descrita en otra parte en el presente documento) de Cas9 o mutando un residuo catalítico en el dominio HNH (por ejemplo, la mutación H840A descrita en otra parte en el presente documento) de Cas9. En tales métodos, el mellado doble puede emplearse para crear una rotura bicatenaria que tiene extremos escalonados (es decir, proyecciones). La primera y segunda secuencias de reconocimiento de ARN guía pueden estar posicionadas para crear un sitio de escisión de tal manera que las mellas creadas por la primera y segunda nicasas en la primera y segunda cadenas de ADN crean una rotura bicatenaria. Se crean proyecciones cuando las mellas dentro de la primera y segunda secuencias de reconocimiento de ARN de CRISPR están desviadas. El intervalo de desviación puede ser, por ejemplo, de al menos aproximadamente 5 pb, al menos aproximadamente 10 pb, al menos aproximadamente 20 pb, al menos aproximadamente 30 pb, al menos aproximadamente 40 pb, al menos aproximadamente 50 pb, al menos aproximadamente 60 pb, al menos aproximadamente 70 pb, al menos aproximadamente 80 pb, al menos aproximadamente 90 pb, al menos aproximadamente 100 pb, o más. Véase, por ejemplo, Ranet al.,Cell, 2013, 154, 1380-1389; Maliet al.,Nat. Biotech., 213, 31, 833-838; y Shenet al.,Nat. Methods, 2014, 11, 399-404.

[0389] Pueden introducirse diversos tipos de modificaciones genéticas dirigidas usando los métodos descritos en el presente documento. Tales modificaciones dirigidas pueden incluir, por ejemplo, adiciones de uno o más nucleótidos, deleciones de uno o más nucleótidos, sustituciones de uno o más nucleótidos, una mutación puntual, o una combinación de las mismas. Por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5, al menos 7, al menos 8, al menos 9, o al menos 10, o más nucleótidos pueden cambiarse (por ejemplo, delecionarse, insertarse, o sustituirse) para formar la modificación genómica dirigida.

[0390] Tales modificaciones genéticas dirigidas pueden dar como resultado la perturbación de un locus genómico diana. La perturbación puede incluir la alteración de un elemento regulador (por ejemplo, promotor o potenciador), una mutación de cambio de sentido, una mutación sin sentido, una mutación de desplazamiento del marco, una mutación de truncamiento, una mutación nula, o una inserción o deleción de un pequeño número de nucleótidos (por ejemplo, que provoca una mutación de desplazamiento del marco), y puede dar como resultado la inactivación (es decir, pérdida de función) o pérdida de un alelo. Por ejemplo, una modificación dirigida puede comprender la perturbación del codón de iniciación de un genB4GALT1endógeno de tal manera que el codón de iniciación ya no es funcional. En algunas implementaciones, una modificación dirigida puede comprender una deleción entre la primera y segunda secuencias de reconocimiento de ARN guía o sitios de escisión de Cas. Si se usa una secuencia donante exógena (por ejemplo, molde de reparación o vector de direccionamiento), la modificación puede comprender una deleción entre la primera y segunda secuencias de reconocimiento de ARN guía o sitios de escisión de Cas, así como una inserción de un inserto de ácido nucleico entre las secuencias diana en 5' y 3'.

[0391] En algunas implementaciones, si se usa una secuencia donante exógena, sola o en combinación con un agente de nucleasa, la modificación puede comprender una deleción entre las secuencias diana en 5' y 3', así como una inserción de un inserto de ácido nucleico entre las secuencias diana en 5' y 3' en el par de primer y segundo cromosomas homólogos, dando de ese modo como resultado un genoma modificado homocigótico. Alternativamente, si la secuencia donante exógena comprende brazos de homología en 5' y 3' sin inserto de ácido nucleico, la modificación puede comprender una deleción entre las secuencias diana en 5' y 3'.

[0392] La deleción entre la primera y segunda secuencias de reconocimiento de ARN guía o la deleción entre las secuencias diana en 5' y 3' puede ser una deleción precisa en la que el ácido nucleico delecionado consiste únicamente en la secuencia de ácido nucleico entre el primer y segundo sitios de escisión de nucleasa o únicamente la secuencia de ácido nucleico entre las secuencias diana en 5' y 3' de tal manera que no hay ninguna deleción o inserción adicional en el locus diana genómico modificado. La deleción entre la primera y segunda secuencias de reconocimiento de ARN guía también puede ser una deleción imprecisa que se extiende más allá del primer y segundo sitios de escisión de nucleasa, de manera compatible con una reparación imprecisa mediante unión de extremos no homólogos (NHEJ), dando como resultado deleciones y/o inserciones adicionales en el locus genómico modificado. Por ejemplo, la deleción puede extenderse aproximadamente 1 pb, aproximadamente 2 pb, aproximadamente 3 pb, aproximadamente 4 pb, aproximadamente 5 pb, aproximadamente 10 pb, aproximadamente 20 pb, aproximadamente 30 pb, aproximadamente 40 pb, aproximadamente 50 pb, aproximadamente 100 pb, aproximadamente 200 pb, aproximadamente 300 pb, aproximadamente 400 pb, aproximadamente 500 pb, o más, más allá del primer y segundo sitios de escisión de proteína Cas. Asimismo, el locus genómico modificado puede comprender inserciones adicionales compatibles con una reparación imprecisa mediante NHEJ, tales como inserciones de aproximadamente 1 pb, aproximadamente 2 pb, aproximadamente 3 pb, aproximadamente 4 pb, aproximadamente 5 pb, aproximadamente 10 pb, aproximadamente 20 pb, aproximadamente 30 pb, aproximadamente 40 pb, aproximadamente 50 pb, aproximadamente 100 pb, aproximadamente 200 pb, aproximadamente 300 pb, aproximadamente 400 pb, aproximadamente 500 pb, o más.

[0393] La modificación genética dirigida puede ser, por ejemplo, una modificación bialélica o una modificación monoalélica. Las modificaciones bialélicas incluyen acontecimientos en los que se realiza la misma modificación en el mismo locus en cromosomas homólogos correspondientes (por ejemplo, en una célula diploide), o en los que se realizan diferentes modificaciones en el mismo locus en cromosomas homólogos correspondientes. En algunas implementaciones, la modificación genética dirigida es una modificación monoalélica. Una modificación monoalélica incluye acontecimientos en los que se realiza una modificación en tan sólo un alelo (es decir, una modificación en el genB4GALT1endógeno en tan sólo uno de los dos cromosomas homólogos). Los cromosomas homólogos incluyen cromosomas que tienen los mismos genes en los mismos loci pero posiblemente alelos diferentes (por ejemplo, cromosomas que se emparejan durante la meiosis).

[0394] Una mutación monoalélica puede dar como resultado una célula que es heterocigótica para la modificación deB4GALT1dirigida. La heterocigosis incluye una situación en la que sólo un alelo del genB4GALT1(es decir, alelos correspondientes en ambos cromosomas homólogos) tiene la modificación dirigida.

[0395] Una modificación bialélica puede dar como resultado homocigosis para una modificación dirigida. La homocigosis incluye situaciones en las que ambos alelos del genB4GALT1(es decir, alelos correspondientes en ambos cromosomas homólogos) tienen la modificación dirigida. Alternativamente, una modificación bialélica puede dar como resultado heterocigosis compuesta (por ejemplo, hemocigosis) para la modificación dirigida. La heterocigosis compuesta incluye situaciones en las que ambos alelos del locus diana (es decir, los alelos en ambos cromosomas homólogos) se han modificado, pero se han modificado de maneras diferentes (por ejemplo, una modificación dirigida en un alelo e inactivación o perturbación del otro alelo).

[0396] Los métodos dados a conocer en el presente documento pueden comprender además identificar una célula que tiene un genB4GALT1modificado. Pueden usarse diversos métodos para identificar células que tienen una modificación genética dirigida, tal como una deleción o una inserción. Tales métodos pueden comprender identificar una célula que tiene la modificación genética dirigida en el genB4GALT1.Puede realizarse el examen para identificar tales células con loci genómicos modificados. La etapa de examen puede comprender un ensayo cuantitativo para evaluar la modificación de alelo (MOA) (por ejemplo, ensayos de pérdida de alelo (LOA) y/o ganancia de alelo (GOA)) de un cromosoma original.

[0398] Otros ejemplos de ensayos cuantitativos adecuados incluyen hibridaciónin situmediada por fluorescencia (FISH), hibridación genómica comparativa, amplificación de ADN isotérmica, hibridación cuantitativa con una(s) sonda(s) inmovilizada(s), sondas INVADER®, sondas de baliza molecular TAQMAN®, o tecnología de sondas ECLIPSE™. También pueden usarse ensayos convencionales para examinar en busca de modificaciones dirigidas, tales como PCR de largo alcance, transferencia de tipo Southern, o secuenciación de Sanger. Tales ensayos se usan normalmente para obtener evidencias de una unión entre el vector de direccionamiento insertado y el locus genómico seleccionado como diana. Por ejemplo, para un ensayo de PCR de largo alcance, un cebador puede reconocer una secuencia dentro del ADN insertado mientras que el otro reconoce una secuencia de locus genómico diana más allá de los extremos de los brazos de homología del vector de direccionamiento.

[0400] También puede usarse secuenciación de nueva generación (NGS) para el examen. La secuenciación de nueva generación también puede denominarse “NGS” o “secuenciación en paralelo masiva” o “secuenciación de alto rendimiento”. En algunas implementaciones, no es necesario examinar en busca de células seleccionadas como diana usando marcadores de selección. Por ejemplo, es posible basarse en los ensayos de MOA y NGS descritos en el presente documento sin usar casetes de selección.

[0402] La presente divulgación también proporciona métodos para alterar la expresión de ácidos nucleicos que codifican para polipéptidos B4GALT1. En algunas implementaciones, la expresión se altera mediante escisión con un agente de nucleasa para provocar la perturbación del ácido nucleico que codifica para el polipéptido B4GALT1 endógeno, tal como se describe en más detalle en otra parte en el presente documento. En algunas implementaciones, la expresión se altera mediante el uso de una proteína de unión a ADN fusionada o unida a un dominio de activación de la transcripción o un dominio de represión de la transcripción. En algunas implementaciones, la expresión se altera mediante el uso de composiciones de interferencia de ARN, tales como ARN antisentido, ARNhc, o ARNip.

[0403] En algunas implementaciones, la expresión de un genB4GALT1endógeno o un ácido nucleico que codifica para un polipéptido B4GALT1 puede modificarse poniendo en contacto una célula o el genoma dentro de una célula con un agente de nucleasa que induce una o más mellas o roturas bicatenarias en una secuencia de reconocimiento en un locus genómico diana dentro del genB4GALT1endógeno o ácido nucleico que codifica para un polipéptido B4GALT1. Tal escisión puede dar como resultado la perturbación de la expresión del genB4GALT1endógeno o ácido nucleico que codifica para un polipéptido B4GALT1. Por ejemplo, la secuencia de reconocimiento de nucleasa puede incluir o estar próxima al codón de iniciación del genB4GALT1endógeno. Por ejemplo, la secuencia de reconocimiento puede estar dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación, y la escisión mediante el agente de nucleasa puede perturbar el codón de iniciación. En algunas implementaciones, pueden usarse dos o más agentes de nucleasa, seleccionando cada uno como diana una secuencia de reconocimiento de nucleasa que incluye o próxima al codón de iniciación. En algunas implementaciones, pueden usarse dos agentes de nucleasa, seleccionando uno como diana una secuencia de reconocimiento de nucleasa que incluye o próxima al codón de iniciación, y seleccionando uno como diana una secuencia de reconocimiento de nucleasa que incluye o próxima al codón de terminación, en las que la escisión mediante los agentes de nucleasa puede dar como resultado la deleción de la región codificante entre las dos secuencias de reconocimiento de nucleasa. En algunas implementaciones, pueden usarse tres o más agentes de nucleasa, seleccionando uno o más (por ejemplo, dos) como diana secuencias de reconocimiento de nucleasa que incluyen o próximas al codón de iniciación, y seleccionando uno o más (por ejemplo, dos) como diana secuencias de reconocimiento de nucleasa que incluyen o próximas al codón de terminación, en las que la escisión mediante los agentes de nucleasa puede dar como resultado la deleción de la región codificante entre las secuencias de reconocimiento de nucleasa que incluyen o próximas al codón de iniciación y la secuencia de reconocimiento de nucleasa que incluye o próxima al codón de terminación. Otros ejemplos de modificación de un genB4GALT1endógeno o un ácido nucleico que codifica para un polipéptido B4GALT1 se dan a conocer en otra parte en el presente documento.

[0405] En algunas implementaciones, la expresión de un genB4GALT1endógeno o un ácido nucleico que codifica para un polipéptido B4GALT1 puede modificarse poniendo en contacto una célula o el genoma dentro de una célula con una proteína de unión a ADN que se une a un locus genómico diana dentro del genB4GALT1endógeno. La proteína de unión a ADN puede ser, por ejemplo, una proteína Cas inactiva frente a nucleasa fusionada a un dominio de activador de la transcripción o un dominio de represor de la transcripción. Otros ejemplos de proteínas de unión a ADN incluyen proteínas de dedos de cinc fusionadas a un dominio de activador de la transcripción o un dominio de represor de la transcripción, o proteínas efectoras de tipo activador de la transcripción (TALE) fusionadas a un dominio de activador de la transcripción o un dominio de represor de la transcripción. Ejemplos de tales proteínas se dan a conocer en otra parte en el presente documento.

[0407] La secuencia de reconocimiento (por ejemplo, secuencia de reconocimiento de ARN guía) para la proteína de unión a ADN puede estar en cualquier parte dentro del genB4GALT1endógeno o un ácido nucleico que codifica para un polipéptido B4GALT1 adecuado para alterar la expresión. En algunas implementaciones, la secuencia de reconocimiento puede estar dentro de un elemento regulador, tal como un potenciador o promotor, o puede estar en proximidad a un elemento regulador. Por ejemplo, la secuencia de reconocimiento puede incluir o estar próxima al codón de iniciación de un genB4GALT1endógeno. En algunas implementaciones, la secuencia de reconocimiento puede estar dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación.

[0409] En algunas implementaciones, pueden usarse moléculas antisentido para alterar la expresión de un genB4GALT1endógeno o un ácido nucleico que codifica para un polipéptido B4GALT1. Los ejemplos de moléculas antisentido incluyen, pero no se limitan a, ARN antisentido, ARNip, y ARNhc. Tales ARN antisentido, ARNip, o ARNhc pueden estar diseñados para seleccionar como diana cualquier región de un ARNm. Por ejemplo, los ARN antisentido, ARNip, o ARNhc pueden estar diseñados para seleccionar como diana una región única del ARNm deB4GALT1.

[0410] Los ácidos nucleicos y proteínas dados a conocer en el presente documento pueden introducirse en una célula mediante cualquier medio. En algunas implementaciones, la introducción puede lograrse mediante cualquier medio, y uno o más de los componentes (por ejemplo, dos de los componentes, o todos los componentes) pueden introducirse en la célula de manera simultánea o secuencial en cualquier combinación. Por ejemplo, una secuencia donante exógena puede introducirse antes de la introducción de un agente de nucleasa, o puede introducirse tras la introducción de agente de nucleasa (por ejemplo, la secuencia donante exógena puede administrarse aproximadamente 1, aproximadamente 2, aproximadamente 3, aproximadamente 4, aproximadamente 8, aproximadamente 12, aproximadamente 24, aproximadamente 36, aproximadamente 48, o aproximadamente 72 horas antes o después de la introducción del agente de nucleasa). Poner en contacto el genoma de una célula con un agente de nucleasa o secuencia donante exógena puede comprender introducir uno o más agentes de nucleasa o ácidos nucleicos que codifican para agentes de nucleasa (por ejemplo, una o más proteínas Cas o ácidos nucleicos que codifican para una o más proteínas Cas, y uno o más ARN guía o ácidos nucleicos que codifican para uno o más ARN guía (es decir, uno o más ARN de CRISPR y uno o más ARNtracr)) y/o una o más secuencias donantes exógenas en la célula. Poner en contacto el genoma de célula (es decir, poner en contacto una célula) puede comprender introducir únicamente uno de los componentes anteriores, uno o más de los componentes, o todos los componentes en la célula.

[0412] Un agente de nucleasa puede introducirse en la célula en forma de una proteína o en forma de un ácido nucleico que codifica para el agente de nucleasa, tal como un ARN (por ejemplo, ARN mensajero (ARNm)) o ADN. Cuando se introduce en forma de un ADN, el ADN puede estar operativamente unido a un promotor activo en la célula. Tales ADN pueden estar en uno o más constructos de expresión.

[0414] En algunas implementaciones, puede introducirse una proteína Cas en la célula en forma de una proteína, tal como una proteína Cas complejada con un ARNg, o en forma de un ácido nucleico que codifica para la proteína Cas, tal como un ARN (por ejemplo, ARN mensajero (ARNm)) o ADN. Puede introducirse un ARN guía en la célula en forma de un ARN o en forma de un ADN que codifica para el ARN guía. Cuando se introduce en forma de un ADN, el ADN que codifica para la proteína Cas y/o el ARN guía puede estar operativamente unido a un promotor activo en la célula. Tales ADN pueden estar en uno o más constructos de expresión. Por ejemplo, tales constructos de expresión pueden ser componentes de una única molécula de ácido nucleico. Alternativamente, pueden estar separados en cualquier combinación entre dos o más moléculas de ácido nucleico (es decir, ADN que codifican para uno o más ARN de CRISPR, ADN que codifican para uno o más ARNtracr, y ADN que codifica para una proteína Cas pueden ser componentes de moléculas de ácido nucleico separadas).

[0416] En algunas implementaciones, puede introducirse ADN que codifica para un agente de nucleasa (por ejemplo, una proteína Cas y un ARN guía) y/o ADN que codifica para una secuencia donante exógena en una célula mediante minicírculos de ADN. Los minicírculos de ADN son moléculas de ADN superenrolladas que pueden usarse para transferencia génica no viral que no tienen ni un origen de replicación ni un marcador de selección por antibióticos. Por tanto, los minicírculos de ADN tienen normalmente un tamaño más pequeño que el vector de plásmido. Estos ADN carecen de ADN bacteriano, y por tanto carecen de los motivos CpG sin metilar encontrados en ADN bacteriano.

[0418] Los métodos descritos en el presente documento no dependen de un método particular para introducir un ácido nucleico o proteína en la célula, sólo de que el ácido nucleico o la proteína obtenga acceso al interior de al menos una célula. Se conocen métodos para introducir ácidos nucleicos y proteínas en diversos tipos de células e incluyen, pero no se limitan a, métodos de transfección estable, métodos de transfección transitoria, y métodos mediados por virus.

[0420] Los protocolos de transfección, así como protocolos para introducir ácidos nucleicos o proteínas en células pueden variar. Los métodos de transfección no limitativos incluyen métodos de transfección químicos usando liposomas, nanopartículas, calcio, dendrímeros, y polímeros catiónicos tales como DEAE-dextrano o polietilenimina. Los métodos no químicos incluyen electroporación, sonoporación, y transfección óptica. La transfección basada en partículas incluye el uso de una pistola génica, o transfección asistida por imanes. También pueden usarse métodos virales para la transfección.

[0422] La introducción de ácidos nucleicos o proteínas en una célula también puede estar mediada por electroporación, por inyección intracitoplasmática, por infección viral, por adenovirus, por virus adenoasociado, por lentivirus, por retrovirus, por transfección, por transfección mediada por lípidos, o por nucleofección. La nucleofección es una tecnología de electroporación mejorada que permite suministrar sustratos de ácido nucleico no sólo al citoplasma sino también a través de la membrana nuclear y al interior del núcleo. Además, el uso de nucleofección en los métodos dados a conocer en el presente documento normalmente requiere muchas menos células que la electroporación regular (por ejemplo, tan sólo aproximadamente 2 millones en comparación con 7 millones mediante electroporación regular). En algunas implementaciones, la nucleofección se realiza usando el sistema LONZA® NUCLEOFECTOR™.

[0424] La introducción de ácidos nucleicos o proteínas en una célula también puede lograrse mediante microinyección. La microinyección de un ARNm se realiza habitualmente al interior del citoplasma (por ejemplo, para suministrar ARNm directamente a la maquinaria de traducción), mientras que la microinyección de una proteína o un ADN que codifica para una proteína Cas se realiza habitualmente al interior del núcleo. Alternativamente, la microinyección puede llevarse a cabo mediante inyección tanto en el núcleo como en el citoplasma: en primer lugar puede introducirse una aguja en el núcleo y puede inyectarse una primera cantidad, y mientras se retira la aguja de la célula puede inyectarse una segunda cantidad en el citoplasma. Si se inyecta una proteína agente de nucleasa en el citoplasma, la proteína puede comprender una señal de localización nuclear para garantizar el suministro al núcleo/pronúcleo.

[0425] Otros métodos para introducir ácido nucleico o proteínas en una célula pueden incluir, por ejemplo, suministro por vector, suministro mediado por partículas, suministro mediado por exosomas, suministro mediado por nanopartículas de lípidos, suministro mediado por péptidos de penetración celular, o suministro mediado por dispositivos implantables. Métodos de administración de ácidos nucleicos o proteínas a un sujeto para modificar célulasin vivose dan a conocer en otra parte en el presente documento. La introducción de ácidos nucleicos y proteínas en células también puede lograrse mediante suministro hidrodinámico (HDD).

[0427] Otros métodos para introducir ácido nucleico o proteínas en una célula pueden incluir, por ejemplo, suministro por vector, suministro mediado por partículas, suministro mediado por exosomas, suministro mediado por nanopartículas de lípidos, suministro mediado por péptidos de penetración celular, o suministro mediado por dispositivos implantables. En algunas implementaciones, puede introducirse un ácido nucleico o proteína en una célula en un portador tal como una microesfera de poli(ácido láctico) (PLA), una microesfera de poli(ácido D,L-láctico-co-glicólico) (PLGA), un liposoma, una micela, una micela inversa, un cocleato lipídico, o un microtúbulo lipídico.

[0429] La introducción de ácidos nucleicos o proteínas en la célula puede realizarse una vez o múltiples veces a lo largo de un periodo de tiempo. En algunas implementaciones, la introducción puede realizarse al menos dos veces a lo largo de un periodo de tiempo, al menos tres veces a lo largo de un periodo de tiempo, al menos cuatro veces a lo largo de un periodo de tiempo, al menos cinco veces a lo largo de un periodo de tiempo, al menos seis veces a lo largo de un periodo de tiempo, al menos siete veces a lo largo de un periodo de tiempo, al menos ocho veces a lo largo de un periodo de tiempo, al menos nueve veces a lo largo de un periodo de tiempos, al menos diez veces a lo largo de un periodo de tiempo, al menos once veces, al menos doce veces a lo largo de un periodo de tiempo, al menos trece veces a lo largo de un periodo de tiempo, al menos catorce veces a lo largo de un periodo de tiempo, al menos quince veces a lo largo de un periodo de tiempo, al menos dieciséis veces a lo largo de un periodo de tiempo, al menos diecisiete veces a lo largo de un periodo de tiempo, al menos dieciocho veces a lo largo de un periodo de tiempo, al menos diecinueve veces a lo largo de un periodo de tiempo, o al menos veinte veces a lo largo de un periodo de tiempo.

[0431] En algunas implementaciones, las células empleadas en los métodos y composiciones tienen un constructo de ADN incorporado de manera estable en su genoma. En tales casos, el contacto puede comprender proporcionar una célula con el constructo ya incorporado de manera estable en su genoma. En algunas implementaciones, una célula empleada en los métodos dados a conocer en el presente documento puede tener un gen que codifica para Cas preexistente incorporado de manera estable en su genoma (es decir, una célula lista para Cas). En algunas implementaciones, el polinucleótido se integra en el genoma de la célula y puede heredarse por la progenie de la misma. Puede usarse cualquier protocolo para la incorporación estable de los constructos de ADN o los diversos componentes del sistema de integración genómica dirigida.

[0433] Cualquier agente de nucleasa que induce una mella o rotura bicatenaria en una secuencia de reconocimiento deseada o cualquier proteína de unión a ADN que se une a una secuencia de reconocimiento deseada puede usarse en los métodos y composiciones dados a conocer en el presente documento. Puede emplearse un agente de nucleasa nativo o que se produce de manera natural siempre que el agente de nucleasa induzca una mella o rotura bicatenaria en una secuencia de reconocimiento deseada. Asimismo, puede emplearse una proteína de unión a ADN nativa o que se produce de manera natural siempre que la proteína de unión a ADN se una a la secuencia de reconocimiento deseada. Alternativamente, puede emplearse un agente de nucleasa o proteína de unión a ADN modificado o diseñado por ingeniería. Un agente de nucleasa o proteína de unión a ADN diseñado por ingeniería puede derivarse de un agente de nucleasa o proteína de unión a ADN nativo, que se produce de manera natural, o puede sintetizarse o crearse artificialmente. El agente de nucleasa o proteína de unión a ADN diseñado por ingeniería puede reconocer una secuencia de reconocimiento, por ejemplo, en el que la secuencia de reconocimiento no es una secuencia que se reconocerá por un agente de nucleasa o proteína de unión a ADN nativo (no diseñado por ingeniería o no modificado). La modificación del agente de nucleasa o proteína de unión a ADN puede ser de tan sólo un aminoácido en un agente de escisión de proteína o un nucleótido en un agente de escisión de ácido nucleico.

[0435] Las secuencias de reconocimiento para un agente de nucleasa incluyen una secuencia de ADN en la que se induce una mella o rotura bicatenaria por un agente de nucleasa. Asimismo, las secuencias de reconocimiento para una proteína de unión a ADN incluyen una secuencia de ADN a la que se unirá una proteína de unión a ADN. La secuencia de reconocimiento puede ser endógena (o nativa) con respecto a la célula o la secuencia de reconocimiento puede ser exógena con respecto a la célula. La secuencia de reconocimiento también puede ser exógena con respecto a los polinucleótidos de interés que se desea posicionar en el locus diana. En algunas implementaciones, la secuencia de reconocimiento está presente tan sólo una vez en el genoma de la célula huésped.

[0437] También se proporcionan variantes y fragmentos activos de las secuencias de reconocimiento mostradas a modo de ejemplo. Tales variantes activas pueden comprender al menos el 65%, al menos el 70%, al menos el 75%, al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 91 %, al menos el 92 %, al menos el 93 %, al menos el 94 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, o al menos el 99 %, o el 100% de identidad de secuencia con respecto a la secuencia de reconocimiento dada, en las que las variantes activas conservan actividad biológica y pueden reconocerse y escindirse por un agente de nucleasa de una manera específica de secuencia. Se conocen ensayos para medir la rotura bicatenaria de una secuencia de reconocimiento por un agente de nucleasa (por ejemplo, ensayo de qPCR TAQMAN®, Frendeweyet al.,Methods in Enzymology, 2010, 476, 295-307).

[0439] La longitud de la secuencia de reconocimiento puede variar, e incluye, por ejemplo, secuencias de reconocimiento que tienen desde aproximadamente 30 hasta aproximadamente 36 pb para un par de proteínas de dedos de cinc o nucleasas de dedos de cinc (ZFN) (es decir, desde aproximadamente 15 hasta aproximadamente 18 pb para cada ZFN), aproximadamente 36 pb para una proteína TALE o nucleasa efectora de tipo activador de la transcripción (TALEN), o aproximadamente 20 pb para un ARN guía de CRISPR/Cas9.

[0441] La secuencia de reconocimiento de la proteína de unión a ADN o agente de nucleasa puede estar posicionada en cualquier lugar en el, o cerca del, locus genómico diana. La secuencia de reconocimiento puede estar ubicada dentro de una región codificante de un gen (por ejemplo, el genB4GALT1),o dentro de regiones reguladoras que influyen en la expresión del gen. Una secuencia de reconocimiento de la proteína de unión a ADN o agente de nucleasa puede estar ubicada en un intrón, un exón, un promotor, un potenciador, una región reguladora, o cualquier región no codificante de proteína.

[0443] Un tipo de proteína de unión a ADN que puede emplearse en los diversos métodos y composiciones dados a conocer en el presente documento es una TALE. Una TALE puede fusionarse o unirse, por ejemplo, a un dominio de modificación epigenético, un dominio de activación de la transcripción, o un dominio de represor de la transcripción. Ejemplos de tales dominios se describen con respecto a proteínas Cas, a continuación, y también pueden encontrarse, por ejemplo, en la publicación PCT WO 2011/145121. De manera correspondiente, un tipo de agente de nucleasa que puede emplearse en los diversos métodos y composiciones dados a conocer en el presente documento es una TALEN. Las nucleasas efectoras de tipo activador de la transcripción (TAL) son una clase de nucleasas específicas de secuencia que pueden usarse para producir roturas bicatenarias en secuencias diana específicas en el genoma de un organismo procariota o eucariota. Las nucleasas efectoras TAL se crean fusionando un efector TAL nativo o diseñado por ingeniería, o una parte funcional del mismo, al dominio catalítico de una endonucleasa tal comoFokl.El dominio de unión a ADN de efector TAL modular, único, permite el diseño de proteínas posiblemente con cualquier especificidad de reconocimiento de ADN dada. Por tanto, los dominios de unión a ADN de las nucleasas efectoras TAL pueden diseñarse por ingeniería para reconocer sitios diana de ADN específicos y, por tanto, usarse para producir roturas bicatenarias en secuencias diana deseadas. Los ejemplos de nucleasas TAL adecuadas, y métodos para preparar nucleasas TAL adecuadas, se dan a conocer, por ejemplo, en las publicaciones de solicitud de patente estadounidense 2011/0239315; 2011/0269234; 2011/0145940; 2003/0232410; 2005/0208489; 2005/0026157; 2005/0064474; 2006/0188987; y 2006/0063231.

[0445] En algunas TALEN, cada monómero de la TALEN comprende desde aproximadamente 33 hasta aproximadamente 35 repeticiones de TAL que reconocen un único par de bases mediante dos residuos hipervariables. En algunas TALEN, el agente de nucleasa es una proteína quimérica que comprende un dominio de unión a ADN basado en repeticiones de TAL operativamente unido a una nucleasa independiente tal como una endonucleasa Fokl. Por ejemplo, el agente de nucleasa puede comprender un primer dominio de unión a ADN basado en repeticiones de TAL y un segundo dominio de unión a ADN basado en repeticiones de TAL, en el que cada uno del primer y el segundo dominios de unión a ADN basados en repeticiones de TAL está operativamente unido a una nucleasa Fokl, en el que el primer y el segundo dominios de unión a ADN basados en repeticiones de TAL reconocen dos secuencias de ADN diana contiguas en cada cadena de la secuencia de ADN diana separadas por una secuencia espaciadora de longitud variable (desde aproximadamente 12 hasta aproximadamente 20 pb), y en el que las subunidades de nucleasa Fokl se dimerizan para crear una nucleasa activa que produce una rotura bicatenaria en una secuencia diana.

[0447] Otro ejemplo de una proteína de unión a ADN es una proteína de dedos de cinc. Tales proteínas de dedos de cinc pueden unirse o fusionarse, por ejemplo, a un dominio de modificación epigenético, un dominio de activación de la transcripción, o un dominio de represor de la transcripción. Ejemplos de tales dominios se describen con respecto a proteínas Cas, a continuación, y también pueden encontrarse, por ejemplo, en la publicación PCT WO 2011/145121. De manera correspondiente, otro ejemplo de un agente de nucleasa que puede emplearse en los diversos métodos y composiciones dados a conocer en el presente documento es una ZFN. En algunas ZFN, cada monómero de la ZFN comprende tres o más dominios de unión a ADN basados en dedos de cinc, en las que cada dominio de unión a ADN basado en dedos de cinc se une a un sitio secundario de 3 pb. En otras ZFN, la ZFN es una proteína quimérica que comprende un dominio de unión a ADN basado en dedos de cinc operativamente unido a una nucleasa independiente tal como una endonucleasa Fokl. Por ejemplo, el agente de nucleasa puede comprender una primera ZFN y una segunda ZFN, en el que cada una de la primera ZFN y la segunda ZFN está operativamente unida a una subunidad de nucleasa Fokl, en el que la primera y la segunda ZFN reconocen dos secuencias de ADN diana contiguas en cada cadena de la secuencia de<a>D<n>diana separadas por un espaciador de aproximadamente 5 a aproximadamente 7 pb, y en el que las subunidades de nucleasa Fokl se dimerizan para crear una nucleasa activa que produce una rotura bicatenaria.

[0449] Otras proteínas de unión a ADN y agentes de nucleasa adecuados para su uso en los métodos y composiciones descritos en el presente documento incluyen sistemas de CRISPR-Cas, que se describen en otra parte en el presente documento.

[0451] La proteína de unión a ADN o agente de nucleasa puede introducirse en la célula mediante cualquier medio conocido. Puede introducirse directamente un polipéptido que codifica para la proteína de unión a ADN o agente de nucleasa en la célula. Alternativamente, puede introducirse un polinucleótido que codifica para la proteína de unión a ADN o agente de nucleasa en la célula. Cuando se introduce un polinucleótido que codifica para la proteína de unión a ADN o agente de nucleasa en la célula, la proteína de unión a ADN o agente de nucleasa puede expresarse de manera transitoria, condicional, o constitutiva dentro de la célula. Por ejemplo, el polinucleótido que codifica para la proteína de unión a ADN o agente de nucleasa puede estar contenido en un casete de expresión y estar operativamente unido a un promotor condicional, un promotor inducible, un promotor constitutivo, o un promotor específico de tejido. Tales promotores se comentan en más detalle en otra parte en el presente documento. En algunas implementaciones, la proteína de unión a ADN o agente de nucleasa puede introducirse en la célula como ARNm que codifica para una proteína de unión a ADN o un agente de nucleasa.

[0453] Un polinucleótido que codifica para una proteína de unión a ADN o agente de nucleasa puede integrarse de manera estable en el genoma de la célula y unirse operativamente a un promotor activo en la célula. Alternativamente, un polinucleótido que codifica para una proteína de unión a ADN o agente de nucleasa puede estar en un vector de direccionamiento o en un vector o un plásmido que es independiente del vector de direccionamiento que comprende el polinucleótido de inserción.

[0455] Cuando la proteína de unión a ADN o agente de nucleasa se proporciona a la célula mediante la introducción de un polinucleótido que codifica para la proteína de unión a ADN o agente de nucleasa, tal polinucleótido que codifica para una proteína de unión a ADN o agente de nucleasa puede modificarse para sustituir codones que tienen una frecuencia de uso superior en la célula de interés, en comparación con la secuencia de polinucleótido que se produce de manera natural que codifica para la proteína de unión a ADN o agente de nucleasa. En algunas implementaciones, el polinucleótido que codifica para la proteína de unión a ADN o agente de nucleasa puede modificarse para sustituir codones que tienen una frecuencia de uso superior en una célula procariota o eucariota dada de interés, incluyendo una célula bacteriana, una célula de levadura, una célula humana, una célula no humana, una célula de mamífero, una célula de roedor, una célula de ratón, una célula de rata, o cualquier otra célula huésped de interés, en comparación con la secuencia de polinucleótido que se produce de manera natural.

[0456] Los métodos dados a conocer en el presente documento pueden usar sistemas de repeticiones palindrómicas cortas agrupadas y regularmente interespaciadas (CRISPR)/asociados a CRISPR (Cas) o componentes de tales sistemas para modificar un genoma dentro de una célula. Los sistemas de CRISPR-Cas incluyen transcritos y otros elementos implicados en la expresión de, o que dirigen la actividad de, genes de Cas. Un sistema de CRISPR-Cas puede ser un sistema de tipo I, tipo II, o tipo III. Alternativamente, un sistema de CRISPR/Cas puede ser, por ejemplo, un sistema de tipo V (por ejemplo, subtipo V-A o subtipo V-B). Los métodos y composiciones dados a conocer en el presente documento pueden emplear sistemas de CRISPR-Cas usando complejos de CRISPR (que comprenden un ARN guía (ARNg) complejado con una proteína Cas) para la escisión dirigida al sitio de ácidos nucleicos.

[0458] Los sistemas de CRISPR-Cas usados en los métodos dados a conocer en el presente documento no se producen de manera natural. Por ejemplo, algunos sistemas de CRISPR-Cas emplean complejos de CRISPR que no se producen de manera natural que comprenden un ARNg y una proteína Cas que no se producen juntos de manera natural.

[0460] Las proteínas Cas comprenden generalmente al menos un dominio de reconocimiento o unión a ARN que puede interaccionar con ARN guía (ARNg, descritos en más detalle a continuación). Las proteínas Cas también pueden comprender dominios de nucleasa (por ejemplo, dominios de ADNasa o ARNasa), dominios de unión a ADN, dominios de helicasa, dominios de interacción proteína-proteína, dominios de dimerización, y otros dominios. Un dominio de nucleasa presenta actividad catalítica para la escisión de ácido nucleico, que incluye la rotura de los enlaces covalentes de una molécula de ácido nucleico. La escisión puede producir extremos romos o extremos escalonados, y puede ser monocatenaria o bicatenaria. Una proteína Cas9 de tipo natural creará normalmente un producto de escisión romo. Alternativamente, una proteína Cpf1 de tipo natural (por ejemplo, FnCpfl) puede dar como resultado un producto de escisión con una proyección en 5' de 5 nucleótidos, produciéndose la escisión después del 18° par de bases desde la secuencia de PAM en la cadena no seleccionada como diana y después de la 23a base en la cadena seleccionada como diana. Una proteína Cas puede tener una actividad de escisión completa para crear una rotura bicatenaria en el genB4GALT1endógeno (por ejemplo, una rotura bicatenaria con extremos romos), o puede ser una nicasa que crea una rotura monocatenaria en el genB4GALT1endógeno.

[0462] Los ejemplos de proteínas Cas incluyen, pero no se limitan a, Casi, CaslB, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csnl o Csx12), Casio, Cas10d, CasF, CasG, CasH, Csyl, Csy2, Csy3, Csel (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csci, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmrl, Cmr3, Cmr4, Cmr5, Cmr6, Csbl, Csb2, Csb3, Csx17, Csx14, Csxio, Csx16, CsaX, Csx3, Csxl, Csx15, Csfl, Csf2, Csf3, Csf4, y Cu1966, y homólogos o versiones modificadas de las mismas.

[0464] En algunas implementaciones, la proteína Cas es una proteína Cas9 o se deriva de una proteína Cas9 a partir de un sistema de CRISPR-Cas de tipo II. Las proteínas Cas9 son de un sistema de CRISPR-Cas de tipo II y normalmente comparten cuatro motivos clave con una arquitectura conservada. Los motivos 1, 2, y 4 son motivos de tipo RuvC, y el motivo 3 es un motivo HNH. Las proteínas de Cas9 a modo de ejemplo incluyen, pero no se limitan a, las deStreptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptosporangium roseum, Alicyclobacillus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldic magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus,oAcaryochloris marina.Se describen ejemplos adicionales de los miembros de la familia de Cas9 en la publicación PCT WO 2014/131833. Cas9 de S.pyogenes(con el número de registro de SwissProt asignado Q99ZW2) es una enzima a modo de ejemplo. Cas9 de S.aureus(con el número de registro de UniProt asignado J7RUA5) es otra enzima a modo de ejemplo.

[0466] Otro ejemplo de una proteína Cas es una proteína Cpf1 (CRISPR dePrevotellayFrancisella1). Cpf1 es una proteína grande (aproximadamente 1300 aminoácidos) que contiene un dominio de nucleasa de tipo RuvC homólogo al dominio de Cas9 correspondiente junto con un equivalente a la agrupación rica en arginina característica de Cas9. Sin embargo, Cpf1 carece del dominio de nucleasa HNH que está presente en proteínas Cas9, y el dominio de tipo RuvC es contiguo a la secuencia de Cpf1, a diferencia de Cas9 en la que contiene insertos largos que incluyen el dominio HNH. Las proteínas Cpf1 a modo de ejemplo incluyen, pero no se limitan a, las deFrancisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWa 2_33_10, Parcubacteria bacterium g W2011_g Wc2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens,yPorphyromonas macacae.Cpf1 deFrancisella novicidaU112 (FnCpf1; con el número de registro de UniProt asignado A0Q7Q2) es una enzima a modo de ejemplo.

[0468] Las proteínas Cas pueden ser proteínas de tipo natural (es decir, las que se producen en la naturaleza), proteínas Cas modificadas (es decir, variantes de proteína Cas), o fragmentos de proteínas Cas de tipo natural o modificadas. Las proteínas Cas también pueden ser variantes o fragmentos activos de proteínas Cas de tipo natural o modificadas. Las variantes o fragmentos activos pueden comprender al menos el 80 %, al menos el 85 %, al menos el 90 %, al menos el 91 %, al menos el 92 %, al menos el 93 %, al menos el 94 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, o al menos el 99 %, o el 100 % de identidad de secuencia con la proteína Cas de tipo natural o modificada o una porción de la misma, en las que las variantes activas conservan la capacidad de cortar en un sitio de escisión deseado y, por tanto, conservan la actividad de inducción de mellas o inducción de roturas bicatenarias. Se conocen ensayos para determinar la actividad de inducción de mellas o de inducción de roturas bicatenarias y miden generalmente la actividad global y especificidad de la proteína Cas en sustratos de ADN que contienen el sitio de escisión.

[0470] Las proteínas Cas pueden comprender al menos un dominio de nucleasa, tal como un dominio de ADNasa. Por ejemplo, una proteína Cpf1 de tipo natural comprende generalmente un dominio de tipo RuvC que escinde ambas cadenas de un ADN diana, quizás en una configuración dimérica. Las proteínas Cas pueden comprender al menos dos dominios de nucleasa, tales como dominios de ADNasa. Por ejemplo, una proteína Cas9 de tipo natural comprende generalmente un dominio de nucleasa de tipo RuvC y un dominio de nucleasa de tipo HNH. Los dominios RuvC y HNH pueden cortar, cada uno, una cadena diferente de ADN bicatenario para producir una rotura bicatenaria en el ADN.

[0472] Las proteínas Cas (por ejemplo, proteínas Cas activas para nucleasa o proteínas Cas inactivas para nucleasa) también pueden estar unidas operativamente a polipéptidos heterólogos como proteínas de fusión. Por ejemplo, una proteína Cas puede fusionarse a un dominio de escisión, un dominio de modificación epigenético, un dominio de activación de la transcripción, o un dominio de represor de la transcripción. Ejemplos de dominios de activación de la transcripción incluyen un domino de activación de VP16 de virus del herpes simple, VP64 (que es un derivado tetramérico de VP16), un domino de activación de NF<k>B p65, dominios de activación de p53 1 y 2, un dominio de activación de CREB (proteína de unión a elemento de respuesta a cAMP), un dominio de activación de E2A, y un dominio de activación de NFAT (factor nuclear de células T activadas). Otros ejemplos incluyen, pero no se limitan a, dominios de activación de Oct1, Oct-2A, SP1, AP-2, CTF1, P300, CBP, PCAF, SRC1, PvALF, ERF-2, OsGA1, HALF-1, C1, AP1, ARF-5, ARF-6, ARF-7, ARF-8, CPRF1, CPRF4, MYC-RP/GP, TRAB1PC4, y HSF1. Véanse, por ejemplo, la publicación de solicitud de patente estadounidense 2016/0237456, la patente europea EP3045537, y la publicación PCT WO 2011/145121.

[0474] En algunas implementaciones, puede usarse un sistema de activación de la transcripción que comprende una proteína de fusión de dCas9-VP64 emparejada con MS2-p65-HSF1. Los ARN guía en tales sistemas pueden diseñarse con secuencias de aptámeros añadidas a tetrabucle de ARNgs y tallo-bucle 2 diseñadas para unirse a proteínas de la cubierta de bacteriófagos MS2 dimerizadas. Véase, por ejemplo, Konermannet al.,Nature, 2015, 517, 583-588. Los ejemplos de dominios de represor de la transcripción incluyen dominios de represor temprano de cAMP inducible (ICER), dominios de represor de caja asociada a Kruppel A (KRAB-A), dominios de represor ricos en glicina YY1, represores de tipo Sp1, represores de E(spl), represor de I<k>B, y MeCP2. Otros ejemplos incluyen, pero no se limitan a, dominios de represor de la transcripción de A/B, KOX, gen temprano inducible por TGF-beta (TIEG), v-erbA, SID, SID4X, MBD2, MBD3, DNMT1, DNMG3A, DNMT3B, Rb, ROM2. Véanse, por ejemplo, la patente europea EP3045537 y la publicación PCT WO 2011/145121. También pueden fusionarse proteínas Cas a un polipéptido heterólogo que proporciona una estabilidad aumentada o reducida. El dominio o polipéptido heterólogo fusionado puede estar ubicado en el extremo N-terminal, el extremo C-terminal, o de manera interna dentro de la proteína Cas.

[0476] Un ejemplo de una proteína de fusión de Cas es una proteína Cas fusionada a un polipéptido heterólogo que proporciona localización subcelular. Tales polipéptidos heterólogos pueden incluir, por ejemplo, una o más señales de localización nuclear (NLS) tales como la NLS de SV40 para direccionamiento al núcleo, una señal de localización mitocondrial para direccionamiento a las mitocondrias, una señal de retención en el RE, y similares. Tales señales de localización subcelular pueden estar ubicadas en el extremo N-terminal, el extremo C-terminal, o en cualquier parte dentro de la proteína Cas. Una NLS puede comprender un tramo de aminoácidos básicos, y puede ser una secuencia monopartita o una secuencia bipartita.

[0478] Las proteínas Cas también pueden estar operativamente unidas a un dominio de penetración celular. Por ejemplo, el dominio de penetración celular puede derivarse a partir de la proteína TAT del VIH-1, el motivo de penetración celular TLM a partir del virus de la hepatitis B humano, MPG, Pep-1, VP22, un péptido de penetración celular a partir del virus del herpes simple, o una secuencia peptídica de poliarginina. El dominio de penetración celular puede estar ubicado en el extremo N-terminal, el extremo C-terminal, o en cualquier parte dentro de la proteína Cas.

[0480] Las proteínas Cas también pueden estar operativamente unidas a un polipéptido heterólogo para facilidad de seguimiento o purificación, tal como una proteína fluorescente, una etiqueta de purificación, o una etiqueta de epítopo. Los ejemplos de proteínas fluorescentes incluyen proteínas verdes fluorescentes (por ejemplo, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreenl), proteínas amarillas fluorescentes (por ejemplo, YFP, eYFP, Citrine, Venus, YPet, PhiYFP, ZsYellowl), proteínas azules fluorescentes (por ejemplo, eBFP, eBFP2, Azurite, mKalamal, GFPuv, Sapphire, T-sapphire), proteínas cian fluorescentes (por ejemplo, eCFP, Cerulean, CyPet, AmCyanI, Midoriishi-Cyan), proteínas rojas fluorescentes (mKate, mKate2, mPlum, DsRed monomer, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monomer, HcRedTándem, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred), proteínas naranjas fluorescentes (mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato), y cualquier otra proteína fluorescente adecuada. Los ejemplos de etiquetas incluyen glutatión-S-transferasa (GST), proteína de unión a quitina (CBP), proteína de unión a maltosa, tiorredoxina (<t>R<x>), poli(NANP), etiqueta de purificación por afinidad en tándem (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, hemaglutinina (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, VHS, kT3, S, S1, T7, V5, VSV-G, histidina (His), proteína portadora de biotina-carboxilo (BCCP), y calmodulina.

[0482] Las proteínas Cas9 también pueden estar ancladas a secuencias donantes exógenas o ácidos nucleicos marcados. Tal anclaje (es decir, unión física) puede lograrse mediante interacciones covalentes o interacciones no covalentes, y el anclaje puede ser directo (por ejemplo, mediante conjugación química o fusión directa, lo cual puede lograrse mediante modificación de residuos de cisteína o lisina en la proteína o modificación de inteína), o puede lograrse a través de una o más moléculas de adaptador o ligadores intermedios tales como estreptavidina o aptámeros. Las estrategias no covalentes para sintetizar conjugados de proteína-ácido nucleico incluyen métodos de biotinaestreptavidina y de níquel-histidina. Los conjugados de proteína-ácido nucleico covalentes pueden sintetizarse conectando proteínas y ácidos nucleicos funcionalizados de manera apropiada usando una amplia variedad de químicas. Algunas de estas químicas implican la unión directa del oligonucleótido a un residuo de aminoácido en la superficie de la proteína (por ejemplo, una lisina-amina o una cisteína-tiol), mientras que otros esquemas más complejos requieren modificación postraduccional de la proteína o la implicación de un dominio de proteína catalítico o reactivo. Los métodos para la unión covalente de proteínas a ácidos nucleicos pueden incluir, por ejemplo, reticulación química de oligonucleótidos a residuos de lisina o cisteína de proteína, ligación de proteína expresada, métodos quimioenzimáticos, y el uso de fotoaptámeros. La secuencia donante exógena o el ácido nucleico marcado puede anclarse al extremo C-terminal, al extremo N-terminal, o a una región interna dentro de la proteína Cas9. En algunas implementaciones, la secuencia donante exógena o el ácido nucleico marcado está anclado al extremo C-terminal o al extremo N-terminal de la proteína Cas9. Asimismo, la proteína Cas9 puede estar anclada al extremo 5', al extremo 3', o a una región interna dentro de la secuencia donante exógena o del ácido nucleico marcado. En algunas implementaciones, la proteína Cas9 está anclada al extremo 5' o al extremo 3' de la secuencia donante exógena o del ácido nucleico marcado.

[0484] Las proteínas Cas pueden proporcionarse en cualquier forma. Por ejemplo, una proteína Cas puede proporcionarse en forma de una proteína, tal como una proteína Cas complejada con un ARNg. Alternativamente, una proteína Cas puede proporcionarse en forma de un ácido nucleico que codifica para la proteína Cas, tal como un ARN (por ejemplo, ARN mensajero (ARNm)) o ADN. En algunas implementaciones, el ácido nucleico que codifica para la proteína Cas puede someterse a optimización de codones para una traducción eficiente para dar una proteína en un organismo o célula particular. Por ejemplo, el ácido nucleico que codifica para la proteína Cas puede modificarse para sustituir codones que tienen una frecuencia de uso superior en una célula bacteriana, una célula de levadura, una célula humana, una célula no humana, una célula de mamífero, una célula de roedor, una célula de ratón, una célula de rata, o cualquier otra célula huésped de interés, en comparación con la secuencia de polinucleótido que se produce de manera natural. Cuando se introduce un ácido nucleico que codifica para la proteína Cas en la célula, la proteína Cas puede expresarse de manera transitoria, condicional, o constitutiva en la célula.

[0486] Los ácidos nucleicos que codifican para proteínas Cas pueden integrarse de manera estable en el genoma de la célula y unirse operativamente a un promotor activo en la célula. Alternativamente, los ácidos nucleicos que codifican para proteínas Cas pueden estar unidos operativamente a un promotor en un constructo de expresión. Los constructos de expresión incluyen cualquier constructo de ácido nucleico que pueda dirigir la expresión de un gen u otra secuencia de ácido nucleico de interés (por ejemplo, un gen de Cas) y que puedan transferir una secuencia de ácido nucleico de interés de este tipo a una célula diana. Por ejemplo, el ácido nucleico que codifica para la proteína Cas puede estar en un vector de direccionamiento que comprende un inserto de ácido nucleico y/o un vector que comprende un ADN que codifica para un ARNg. Alternativamente, puede estar en un vector o plásmido que es independiente del vector de direccionamiento que comprende el inserto de ácido nucleico y/o independiente del vector que comprende el ADN que codifica para el ARNg. Los promotores que pueden usarse en un constructo de expresión incluyen promotores activos, por ejemplo, en una o más de una célula eucariota, una célula humana, una célula no humana, una célula de mamífero, una célula de mamífero no humana, una célula de roedor, una célula de ratón, una célula de rata, una célula de hámster, una célula de conejo, una célula pluripotente, una célula madre embrionaria (ES), o un cigoto. Tales promotores pueden ser, por ejemplo, promotores condicionales, promotores inducibles, promotores constitutivos, o promotores específicos de tejido. En algunas implementaciones, el promotor puede ser un promotor bidireccional que impulsa la expresión tanto de una proteína Cas en un sentido como de un ARN guía en el otro sentido. Tales promotores bidireccionales pueden consistir en: 1) un promotor de Pol III completo, convencional, unidireccional que contiene 3 elementos de control externos: un elemento de secuencia distal (DSE), un elemento de secuencia proximal (PSE), y una caja TATA; y 2) un segundo promotor de Pol III básico que incluye un PSE y una caja TATA fusionada al extremo 5'-terminal del DSE en orientación inversa. Por ejemplo, en el promotor de H1, el DSE está adyacente al PSE y la caja TATA, y el promotor puede volverse bidireccional creando un promotor híbrido en el que la transcripción en el sentido inverso se controla añadiendo un PSE y una caja TATA derivados a partir del promotor de u6. El uso de un promotor bidireccional para expresar genes que codifican para una proteína Cas y un ARN guía simultáneamente permite la generación de casetes de expresión compactos para facilitar el suministro.

[0487] La presente divulgación también proporciona ARN guía (ARNg) que se une a una proteína Cas (por ejemplo, proteína Cas9) y dirige la proteína Cas a una ubicación específica dentro de un ADN diana (por ejemplo, el genB4GALT1).En algunas implementaciones, el ARN guía es eficaz para dirigir una enzima Cas para unirse a, o escindir, un genB4GALT1endógeno, en el que el ARN guía comprende un segmento de direccionamiento a ADN que se hibrida con una secuencia de reconocimiento de ARN guía dentro del genB4GALT1endógeno que incluye o está próxima, por ejemplo, a las posiciones 53575 a 53577 de SEQ ID NO: 1. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 5, dentro de aproximadamente 10, dentro de aproximadamente 15, dentro de aproximadamente 20, dentro de aproximadamente 25, dentro de aproximadamente 30, dentro de aproximadamente 35, dentro de aproximadamente 40, dentro de aproximadamente 45, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos de las posiciones 53575 a 53577 de SEQ ID NO: 1. Otros ARN guía a modo de ejemplo comprenden un segmento de direccionamiento a ADN que se hibrida con una secuencia de reconocimiento de ARN guía dentro del genB4GALT1endógeno que está dentro de una región correspondiente al exón 5 de SEQ ID NO: 1. Otros ARN guía a modo de ejemplo comprenden un segmento de direccionamiento a ADN que se hibrida con una secuencia de reconocimiento de ARN guía dentro del genB4GALT1endógeno que incluye o está próxima al codón de iniciación del genB4GALT1endógeno o incluye o está próxima al codón de terminación del genB4GALT1endógeno. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 5, dentro de aproximadamente 10, dentro de aproximadamente 15, dentro de aproximadamente 20, dentro de aproximadamente 25, dentro de aproximadamente 30, dentro de aproximadamente 35, dentro de aproximadamente 40, dentro de aproximadamente 45, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación o dentro de aproximadamente 5, dentro de aproximadamente 10, dentro de aproximadamente 15, dentro de aproximadamente 20, dentro de aproximadamente 25, dentro de aproximadamente 30, dentro de aproximadamente 35, dentro de aproximadamente 40, dentro de aproximadamente 45, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de terminación. El genB4GALT1endógeno puede ser un genB4GALT1de cualquier organismo. Por ejemplo, el genB4GALT1puede ser un genB4GALT1humano o un ortólogo de otro organismo, tal como un mamífero no humano, un roedor, un ratón, o una rata.

[0489] En algunas implementaciones, las secuencias de reconocimiento de ARN guía están presentes en el extremo 5' del genB4GALT1humano. En algunas implementaciones, las secuencias de reconocimiento de ARN guía están adyacentes al sitio de inicio de la transcripción (TSS) del genB4GALT1humano. En algunas implementaciones, las secuencias de reconocimiento de ARN guía están presentes en el extremo 3' del genB4GALT1humano. En algunas implementaciones, las secuencias de reconocimiento de ARN guía están próximas a las posiciones 53575 a 53577 de SEQ ID NO: 1. Las secuencias de reconocimiento de ARN guía a modo de ejemplo próximas a las posiciones 53575 a 53577 de SEQ ID NO: 1 incluyen, pero no se limitan a, ATTAGTTTTTAGAGGCATGT (SEQ ID NO: 9) y GGCTCTCAGGCCAAGTGTAT (SEQ ID NO: 10) (ambas en 5' con respecto a las posiciones 53575 a 53577 de s EQ ID NO: 1) y TACTCCTTCCCCCTTTAGGA (SEQ ID NO: 11) y GTCCGAGGCTCTGGGCCTAG (SEQ ID NO:12) (ambas en 3' con respecto a las posiciones 53575 a 53577 de s Eq ID NO: 1).

[0491] Los ARN guía pueden comprender dos segmentos: un segmento de direccionamiento a ADN y un segmento de unión a proteína. Algunos ARNg comprenden dos moléculas de ARN independientes: un ARN de activación (por ejemplo, ARNtracr) y un ARN de direccionamiento (por ejemplo, ARN de CRISPR o ARNcr). Otros ARNg son una única molécula de ARN (un único polinucleótido de ARN; ARNg de molécula sencilla, ARN guía sencillo, o ARNgs). Para Cas9, por ejemplo, un ARN guía sencillo puede comprender un ARNcr fusionado a un ARNtracr (por ejemplo, a través de un ligador). Para Cpf1, por ejemplo, sólo se necesita un ARNcr para lograr la escisión. Los ARNg incluyen tanto ARNg de molécula doble (es decir, modulares) como ARNg de molécula sencilla.

[0493] El segmento de direccionamiento a ADN (ARNcr) de un ARNg dado comprende una secuencia de nucleótidos que es complementaria a una secuencia (es decir, la secuencia de reconocimiento de ARN guía) en un ADN diana. El segmento de direccionamiento a ADN de un ARNg interacciona con un ADN diana (por ejemplo, el genB4GALT1)de una manera específica de secuencia mediante hibridación (es decir, emparejamiento de bases). Como tal, la secuencia de nucleótidos del segmento de direccionamiento a ADN puede variar y determina la ubicación dentro del ADN diana con la que interaccionarán el ARNg y el ADN diana. El segmento de direccionamiento a ADN de un ARNg objeto puede modificarse para hibridarse con cualquier secuencia deseada dentro de un ADN diana. Los ARNcr que se producen de manera natural difieren dependiendo del sistema de CRISPR-Cas y el organismo, pero con frecuencia contienen un segmento de direccionamiento de desde aproximadamente 21 hasta aproximadamente 72 nucleótidos de longitud, flanqueado por dos repeticiones directas (DR) con una longitud de desde aproximadamente 21 hasta aproximadamente 46 nucleótidos. En el caso de S.pyogenes,las DR tienen 36 nucleótidos de longitud y el segmento de direccionamiento tiene 30 nucleótidos de longitud. La DR ubicada en 3' es complementaria a, y se hibrida con, el ARNtracr correspondiente, que a su vez se une a la proteína Cas.

[0495] El segmento de direccionamiento a ADN puede tener una longitud de al menos aproximadamente 12 nucleótidos, al menos aproximadamente 15 nucleótidos, al menos aproximadamente 17 nucleótidos, al menos aproximadamente

[0496] 18 nucleótidos, al menos aproximadamente 19 nucleótidos, al menos aproximadamente 20 nucleótidos, al menos aproximadamente 25 nucleótidos, al menos aproximadamente 30 nucleótidos, al menos aproximadamente

[0497] 35 nucleótidos, o al menos aproximadamente 40 nucleótidos. Tales segmentos de direccionamiento a ADN pueden tener una longitud de desde aproximadamente 12 nucleótidos hasta aproximadamente 100 nucleótidos, desde aproximadamente 12 nucleótidos hasta aproximadamente 80 nucleótidos, desde aproximadamente 12 nucleótidos hasta aproximadamente 50 nucleótidos, desde aproximadamente 12 nucleótidos hasta aproximadamente

[0498] 40 nucleótidos, desde aproximadamente 12 nucleótidos hasta aproximadamente 30 nucleótidos, desde aproximadamente 12 nucleótidos hasta aproximadamente 25 nucleótidos, o desde aproximadamente 12 nucleótidos hasta aproximadamente 20 nucleótidos. Por ejemplo, el segmento de direccionamiento de ADN puede tener desde aproximadamente 15 nucleótidos hasta aproximadamente 25 nucleótidos (por ejemplo, desde aproximadamente

[0499] 17 nucleótidos hasta aproximadamente 20 nucleótidos, o aproximadamente 17 nucleótidos, aproximadamente

[0500] 18 nucleótidos, aproximadamente 19 nucleótidos, o aproximadamente 20 nucleótidos). Véase, por ejemplo, la publicación de solicitud estadounidense 2016/0024523. Para Cas9 de S.pyogenes,un segmento de direccionamiento a ADN típico tiene desde aproximadamente 16 hasta aproximadamente 20 nucleótidos de longitud o desde aproximadamente 17 hasta aproximadamente 20 nucleótidos de longitud. Para Cas9 de S.aureus,un segmento de direccionamiento a ADN típico tiene desde aproximadamente 21 hasta aproximadamente

[0501] 23 nucleótidos de longitud. Para Cpf1, un segmento de direccionamiento a ADN típico tiene al menos aproximadamente 16 nucleótidos de longitud o al menos aproximadamente 18 nucleótidos de longitud.

[0503] La complementariedad en porcentaje entre la secuencia de direccionamiento a ADN y la secuencia de reconocimiento de ARN guía dentro del ADN diana puede ser de al menos aproximadamente el 60 %, al menos aproximadamente el 65 %, al menos aproximadamente el 70 %, al menos aproximadamente el 75 aproximadamente el 80 %, al

menos aproximadamente el 85 %, al menos aproximadamente el 90 aproximadamente el 95 %, al menos aproximadamente el 97 %, al menos aproximadamente el 98 aproximadamente el 99 %, o el 100 %. La complementariedad en porcentaje entre la secuencia de direccionamiento a ADN y la secuencia de reconocimiento de ARN guía dentro del ADN diana puede ser de al menos aproximadamente el 60 % a lo largo de aproximadamente 20 nucleótidos contiguos. Como ejemplo, la complementariedad en porcentaje entre la secuencia de direccionamiento a ADN y la secuencia de reconocimiento de ARN guía dentro del ADN diana es de aproximadamente el 100 % a lo largo de aproximadamente 14 nucleótidos contiguos en el extremo 5' de la secuencia de reconocimiento de ARN guía dentro de la cadena complementaria del ADN diana y de tan sólo aproximadamente el 0 % a lo largo del resto. En tal caso, puede considerarse que la secuencia de direccionamiento a ADN tiene aproximadamente 14 nucleótidos de longitud. Como otro ejemplo, la complementariedad en porcentaje entre la secuencia de direccionamiento a ADN y la secuencia de reconocimiento de ARN guía dentro del ADN diana es de aproximadamente el 100 % a lo largo de los siete nucleótidos contiguos en el extremo 5' de la secuencia de reconocimiento de ARN guía dentro de la cadena complementaria del ADN diana y de tan sólo aproximadamente el 0 % a lo largo del resto. En tal caso, puede considerarse que la secuencia de direccionamiento a ADN tiene aproximadamente 7 nucleótidos de longitud. En algunos<a>R<n>guía, al menos aproximadamente 17 nucleótidos dentro de la secuencia de direccionamiento a ADN son complementarios al ADN diana. Por ejemplo, la secuencia de direccionamiento a ADN puede tener aproximadamente 20 nucleótidos de longitud y puede comprender 1, 2, o 3 apareamientos erróneos con el ADN diana (la secuencia de reconocimiento de ARN guía). En algunas implementaciones, los apareamientos erróneos no son adyacentes a una secuencia de motivo adyacente al protoespaciador (PAM) (por ejemplo, los apareamientos erróneos están en el extremo 5' de la secuencia de direccionamiento a ADN, o los apareamientos erróneos están a al menos 2, al menos 3, al menos 4, al menos 5, al menos 6, al menos 7, al menos 8, al menos 9, al menos 10, al menos 11, al menos 12, al menos 13, al menos 14, al menos 15, al menos 16, al menos 17, al menos 18, o al menos 19 pares de bases desde la secuencia de PAM).

[0505] Los ARN guía pueden incluir modificaciones o secuencias que proporcionan características deseables adicionales

[0506] (por ejemplo, estabilidad modificada o regulada; direccionamiento subcelular; seguimiento con un marcador fluorescente; un sitio de unión para una proteína o complejo de proteínas; y similares). Los ejemplos de tales modificaciones incluyen, por ejemplo, una caperuza en 5' (por ejemplo, una caperuza de 7-metilguanilato (m7G));

[0507] una cola 3'-poliadenilada (es decir, una cola de 3'-poli(A)); una secuencia de ribointerruptor (por ejemplo, para permitir una estabilidad regulada y/o accesibilidad regulada por proteínas y/o complejos de proteínas); una secuencia de control de la estabilidad; una secuencia que forma un dúplex de ARNbc (es decir, una horquilla); una modificación o secuencia que dirige el ARN a una ubicación subcelular (por ejemplo, núcleo, mitocondrias, cloroplastos, y similares); una modificación o secuencia que proporciona el seguimiento (por ejemplo, conjugación directa a una molécula fluorescente, conjugación a un resto que facilita la detección fluorescente, una secuencia que permite la detección fluorescente, y así sucesivamente); una modificación o secuencia que proporciona un sitio de unión para proteínas (por ejemplo, proteínas que actúan sobre el ADN, incluyendo activadores de la transcripción, represores de la transcripción, a Dn metiltransferasas, ADN desmetilasas, histona acetiltransferasas, histona desacetilasas, y similares); y combinaciones de las mismas.

[0509] Los ARN guía pueden proporcionarse en cualquier forma. Por ejemplo, el ARNg puede proporcionarse en forma de ARN, o bien como dos moléculas (ARNcr y ARNtracr independientes) o bien como una molécula (ARNgs), y opcionalmente en forma de un complejo con una proteína Cas. Por ejemplo, los ARNg pueden prepararse mediante transcripciónin vitrousando, por ejemplo, ARN polimerasa de T7. Los ARN guía también pueden prepararse mediante síntesis química.

[0511] El ARNg también puede proporcionarse en forma de ADN que codifica para el ARNg. El ADN que codifica para el ARNg puede codificar para una única molécula de ARN (ARNgs) o moléculas de ARN independientes (por ejemplo, ARNcr y ARNtracr independientes). En este último caso, el ADN que codifica para el ARNg puede proporcionarse como una molécula de ADN o como moléculas de ADN independientes que codifican para el ARNcr y el ARNtracr, respectivamente. Cuando un ARNg se proporciona en forma de ADN, el ARNg puede expresarse de manera transitoria, condicional, o constitutiva en la célula. Los ADN que codifican para ARNg pueden integrarse de manera estable en el genoma de la célula y unirse operativamente a un promotor activo en la célula. Alternativamente, los ADN que codifican para ARNg pueden estar operativamente unidos a un promotor en un constructo de expresión. Por ejemplo, el ADN que codifica para el ARNg puede estar en un vector que comprende un ácido nucleico heterólogo. El vector puede comprender además una secuencia donante exógena y/o el vector puede comprender además un ácido nucleico que codifica para una proteína Cas. Alternativamente, el ADN que codifica para el ARNg puede estar en un vector o un plásmido que es independiente del vector que comprende una secuencia donante exógena y/o el vector que comprende el ácido nucleico que codifica para la proteína Cas. Los promotores que pueden usarse en tales constructos de expresión incluyen promotores activos, por ejemplo, en una o más de una célula eucariota, una célula humana, una célula no humana, una célula de mamífero, una célula de mamífero no humana, una célula de roedor, una célula de ratón, una célula de rata, una célula de hámster, una célula de conejo, una célula pluripotente, una célula madre embrionaria, o un cigoto. Tales promotores pueden ser, por ejemplo, promotores condicionales, promotores inducibles, promotores constitutivos, o promotores específicos de tejido. Tales promotores también pueden ser, por ejemplo, promotores bidireccionales. Los ejemplos específicos de promotores adecuados incluyen un promotor de ARN polimerasa III, tal como un promotor de U6 humano, un promotor de polimerasa III de U6 de rata, o un promotor de polimerasa III de U6 de ratón.

[0513] La presente divulgación también proporciona composiciones que comprenden uno o más ARN guía (por ejemplo, 1, 2, 3, 4, o más ARN guía) dados a conocer en el presente documento y un portador que aumenta la estabilidad del ácido nucleico o proteína aislado (por ejemplo, prolongando el periodo en condiciones de almacenamiento dadas (por ejemplo, -20 °C, 4 °C, o temperatura ambiental) durante el cual los productos de degradación permanecen por debajo de un umbral, tal como por debajo del 0,5 % en peso del ácido nucleico o proteína de partida; o aumentando la estabilidadin vivo).Los ejemplos de tales portadores incluyen, pero no se limitan a, microesferas de poli(ácido láctico) (PLA), microesferas de poli(ácido D,L-láctico-co-glicólico) (PLGA), liposomas, micelas, micelas inversas, cocleatos lipídicos, y microtúbulos lipídicos. Tales composiciones pueden comprender además una proteína Cas, tal como una proteína Cas9, o un ácido nucleico que codifica para una proteína Cas. Tales composiciones pueden comprender además una o más (por ejemplo, 1, 2, 3, 4, o más) secuencias donantes exógenas y/o uno o más (por ejemplo, 1, 2, 3, 4, o más) vectores de direccionamiento y/o uno o más (por ejemplo, 1, 2, 3, 4, o más) vectores de expresión tal como se da a conocer en otra parte en el presente documento.

[0515] Las secuencias de reconocimiento de ARN guía incluyen secuencias de ácido nucleico presentes en un ADN diana (por ejemplo, el genB4GALT1)a las que se unirá un segmento de direccionamiento a ADN de un ARNg, siempre que existan condiciones suficientes para la unión. Por ejemplo, las secuencias de reconocimiento de ARN guía incluyen secuencias con las que un ARN guía está diseñado para tener complementariedad, en las que la hibridación entre una secuencia de reconocimiento de ARN guía y una secuencia de direccionamiento a ADN fomenta la formación de un complejo de CRISPR. La complementariedad completa no se requiere necesariamente, siempre que haya suficiente complementariedad para provocar la hibridación y fomentar la formación de un complejo de CRISPR. Las secuencias de reconocimiento de ARN guía también incluyen sitios de escisión para proteínas Cas, descritos en más detalle a continuación. Una secuencia de reconocimiento de ARN guía puede comprender cualquier polinucleótido, que puede estar ubicado, por ejemplo, en el núcleo o citoplasma de una célula o dentro de un orgánulo de una célula, tal como una mitocondria o cloroplasto.

[0517] La secuencia de reconocimiento de ARN guía dentro de un ADN diana puede seleccionarse por (es decir, se le puede unir, o hibridarse con, o ser complementaria a) una proteína Cas o un ARNg. Las condiciones de unión de ADN/ARN adecuadas incluyen condiciones fisiológicas normalmente presentes en una célula. Se conocen otras condiciones de unión de ADN/ARN adecuadas.

[0519] La proteína Cas puede escindir el ácido nucleico en un sitio dentro o fuera de la secuencia de ácido nucleico presente en el<a>D<n>diana a la que se unirá el segmento de direccionamiento a ADN de un ARNg. El “sitio de escisión” incluye la posición de un ácido nucleico en la que una proteína Cas produce una rotura monocatenaria o una rotura bicatenaria. Por ejemplo, la formación de un complejo de CRISPR (que comprende un ARNg hibridado a una secuencia de reconocimiento de ARN guía y complejado con una proteína Cas) puede dar como resultado la escisión de una o ambas cadenas en o cerca de (por ejemplo, dentro de 1, dentro de 2, dentro de 3, dentro de 4, dentro de 5, dentro de 6, dentro de 7, dentro de 8, dentro de 9, dentro de 10, dentro de 20, o dentro de 50, o más pares de bases desde) la secuencia de ácido nucleico presente en un ADN diana a la que se unirá un segmento de direccionamiento a ADN de un ARNg. El sitio de escisión puede estar en tan sólo una cadena o en ambas cadenas de un ácido nucleico. Los sitios de escisión pueden estar en la misma posición en ambas cadenas del ácido nucleico (produciendo extremos romos) o pueden estar en sitios diferentes en cada cadena (produciendo extremos escalonados (es decir, proyecciones)). En algunas implementaciones, la secuencia de reconocimiento de ARN guía de la nicasa en la primera cadena está separada de la secuencia de reconocimiento de ARN guía de la nicasa en la segunda cadena por al menos 2, al menos 3, al menos 4, al menos 5, al menos 6, al menos 7, al menos 8, al menos 9, al menos 10, al menos 15, al menos 20, al menos 25, al menos 30, al menos 40, al menos 50, al menos 75, al menos 100, al menos 250, al menos 500, o al menos 1.000 pares de bases.

[0521] La escisión específica de sitio de ADN diana por proteínas Cas puede producirse en ubicaciones determinadas tanto por i) complementariedad de emparejamiento de bases entre el ARNg y el ADN diana como por ii) un motivo corto, denominado motivo adyacente al protoespaciador (PAM), en el ADN diana. El PAM puede flanquear la secuencia de reconocimiento de ARN guía. En algunas implementaciones, la secuencia de reconocimiento de ARN guía puede estar flanqueada en el extremo 3' por el PAM. Alternativamente, la secuencia de reconocimiento de ARN guía puede estar flanqueada en el extremo 5' por el PAM. Por ejemplo, el sitio de escisión de proteínas Cas puede estar de aproximadamente 1 a aproximadamente 10, o de aproximadamente 2 a aproximadamente 5 pares de bases (por ejemplo, 3 pares de bases) en el sentido de 5' o en el sentido de 3' de la secuencia de PAM. En algunos casos (por ejemplo, cuando se usa Cas9 de S.pyogeneso una Cas9 estrechamente relacionada), la secuencia de PAM de la cadena no complementaria puede ser 5'-NiGG-3', donde N<1>es cualquier nucleótido de ADN y está inmediatamente en 3' de la secuencia de reconocimiento de ARN guía de la cadena no complementaria del ADN diana. Como tal, la secuencia de PAM de la cadena complementaria será 5'-CCN2-3', donde N<2>es cualquier nucleótido de ADN y está inmediatamente en 5' de la secuencia de reconocimiento de ARN guía de la cadena complementaria del ADN diana. En algunos de tales casos, N<1>y N<2>pueden ser complementarios y el par de bases N<1>-N<2>puede ser cualquier par de bases (por ejemplo, Nf C y N<2>=G; Nf G y N<2>=C; Nf A y N<2>=T; o Nf T, y N<2>=A). En el caso de Cas9 de S.aureus,el PAM puede ser NNGRRT (SEQ ID NO: 13) o NNGRR (SEQ ID NO: 14) donde N puede ser A, G, C, o T, y R puede ser G o A. En algunos casos (por ejemplo, para FnCpfl), la secuencia de PAM puede estar en el sentido de 5' del extremo 5' y tener la secuencia 5'-TTN-3'.

[0523] Los ejemplos de secuencias de reconocimiento de ARN guía incluyen una secuencia de ADN complementaria al segmento de direccionamiento a ADN de un ARNg, o una secuencia de ADN de este tipo además de una secuencia de PAM. Por ejemplo, el motivo diana puede ser una secuencia de ADN de 20 nucleótidos que precede inmediatamente a un motivo NGG reconocido por una proteína Cas9, tal como GN<19>NGG (SEQ iD NO: 15) o N<20>NGG (SEQ ID NO: 16) (véase, por ejemplo, la publicación PCT WO 2014/165825). La guanina en el extremo 5' puede facilitar la transcripción por ARN polimerasa en células. Otros ejemplos de secuencias de reconocimiento de ARN guía pueden incluir dos nucleótidos de guanina en el extremo 5' (por ejemplo, GGN<20>NGG; SEQ ID NO: 17) para facilitar la transcripción eficiente por polimerasa de T7in vitro.Véase, por ejemplo, la publicación PCT WO 2014/065596. Otras secuencias de reconocimiento de ARN guía pueden tener desde aproximadamente 4 hasta aproximadamente 22 nucleótidos de longitud, incluyendo la G o GG en 5' y la GG o NGG en 3'. En algunas implementaciones, las secuencias de reconocimiento de ARN guía pueden tener desde aproximadamente 14 hasta aproximadamente 20 nucleótidos de longitud.

[0525] La secuencia de reconocimiento de ARN guía puede ser cualquier secuencia de ácido nucleico endógena o exógena con respecto a una célula. La secuencia de reconocimiento de ARN guía puede ser una secuencia que codifica para un producto génico (por ejemplo, una proteína) o una secuencia no codificante (por ejemplo, una secuencia reguladora) o puede incluir ambas.

[0527] En algunas implementaciones, la secuencia de reconocimiento de ARN guía puede estar dentro de una región correspondiente al exón 5 de SEQ ID NO: 1. En algunas implementaciones, la secuencia de reconocimiento de ARN guía puede incluir o estar próxima a las posiciones 53575 a 53577 de SEQ ID NO: 1. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 1000, dentro de aproximadamente 500, dentro de aproximadamente 400, dentro de aproximadamente 300, dentro de aproximadamente 200, dentro de aproximadamente 100, dentro de aproximadamente 50, dentro de aproximadamente 45, dentro de aproximadamente 40, dentro de aproximadamente 35, dentro de aproximadamente 30, dentro de aproximadamente 25, dentro de aproximadamente 20, dentro de aproximadamente 15, dentro de aproximadamente 10, o dentro de aproximadamente 5 nucleótidos de la posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1. En algunas implementaciones, la secuencia de reconocimiento de ARN guía puede incluir o estar próxima al codón de iniciación de un genB4GALT1endógeno o el codón de terminación de un genB4GALT1endógeno. Por ejemplo, la secuencia de reconocimiento de ARN guía puede estar dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación o el codón de terminación.

[0529] Los métodos y composiciones dados a conocer en el presente documento pueden usar secuencias donantes exógenas (por ejemplo, vectores de direccionamiento o moldes de reparación) para modificar un genB4GALT1endógeno, o bien sin escisión del genB4GALT1endógeno o bien tras la escisión del genB4GALT1endógeno con un agente de nucleasa. Una secuencia donante exógena se refiere a cualquier ácido nucleico o vector que incluye los elementos que se requieren para permitir la recombinación específica de sitio con una secuencia diana. Usar secuencias donantes exógenas en combinación con agentes de nucleasa puede dar como resultado modificaciones más precisas dentro del genB4GALT1endógeno fomentando la reparación dirigida por homología.

[0531] En tales métodos, el agente de nucleasa escinde el genB4GALT1endógeno para crear una rotura monocatenaria (mella) o rotura bicatenaria, y la secuencia donante exógena se recombina con el genB4GALT1endógeno mediante ligación mediada por unión de extremos no homólogos (NHEJ) o mediante un acontecimiento de reparación dirigida por homología. La reparación con la secuencia donante exógena puede eliminar o perturbar el sitio de escisión de nucleasa de modo que los alelos que se han seleccionado como diana no pueden volver a seleccionarse como diana por el agente de nucleasa.

[0533] Las secuencias donantes exógenas pueden comprender ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN), pueden ser monocatenarias o bicatenarias, y pueden estar en forma lineal o circular. Por ejemplo, una secuencia donante exógena puede ser un oligodesoxinucleótido monocatenario (ODNmc). Una secuencia donante exógena a modo de ejemplo tiene desde aproximadamente 50 nucleótidos hasta aproximadamente 5 kb de longitud, desde aproximadamente 50 nucleótidos hasta aproximadamente 3 kb de longitud, o desde aproximadamente 50 hasta aproximadamente 1.000 nucleótidos de longitud. Otras secuencias donantes exógenas a modo de ejemplo tienen desde aproximadamente 40 hasta aproximadamente 200 nucleótidos de longitud. Por ejemplo, una secuencia donante exógena puede tener desde aproximadamente 50 hasta aproximadamente 60, desde aproximadamente 60 hasta aproximadamente 70, desde aproximadamente 70 hasta aproximadamente 80, desde aproximadamente 80 hasta aproximadamente 90, desde aproximadamente 90 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 110, desde aproximadamente 110 hasta aproximadamente 120, desde aproximadamente 120 hasta aproximadamente 130, desde aproximadamente 130 hasta aproximadamente 140, desde aproximadamente 140 hasta aproximadamente 150, desde aproximadamente 150 hasta aproximadamente 160, desde aproximadamente 160 hasta aproximadamente 170, desde aproximadamente 170 hasta aproximadamente 180, desde aproximadamente 180 hasta aproximadamente 190, o desde aproximadamente 190 hasta aproximadamente 200 nucleótidos de longitud. Alternativamente, una secuencia donante exógena puede tener desde aproximadamente 50 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 200, desde aproximadamente 200 hasta aproximadamente 300, desde aproximadamente 300 hasta aproximadamente 400, desde aproximadamente 400 hasta aproximadamente 500, desde aproximadamente 500 hasta aproximadamente 600, desde aproximadamente 600 hasta aproximadamente 700, desde aproximadamente 700 hasta aproximadamente 800, desde aproximadamente 800 hasta aproximadamente 900, o desde aproximadamente 900 hasta aproximadamente 1.000 nucleótidos de longitud. Alternativamente, una secuencia donante exógena puede tener desde aproximadamente 1 kb hasta aproximadamente 1,5 kb, desde aproximadamente 1,5 kb hasta aproximadamente 2 kb, desde aproximadamente 2 kb hasta aproximadamente 2,5 kb, desde aproximadamente 2,5 kb hasta aproximadamente 3 kb, desde aproximadamente 3 kb hasta aproximadamente 3,5 kb, desde aproximadamente 3,5 kb hasta aproximadamente 4 kb, desde aproximadamente 4 kb hasta aproximadamente 4,5 kb, o desde aproximadamente 4,5 kb hasta aproximadamente 5 kb de longitud. Alternativamente, una secuencia donante exógena puede tener, por ejemplo, no más de aproximadamente 5 kb, no más de aproximadamente 4,5 kb, no más de aproximadamente 4 kb, no más de aproximadamente 3,5 kb, no más de aproximadamente 3 kb, no más de aproximadamente 2,5 kb, no más de aproximadamente 2 kb, no más de aproximadamente 1,5 kb, no más de aproximadamente 1 kb, no más de aproximadamente 900 nucleótidos, no más de aproximadamente 800 nucleótidos, no más de aproximadamente 700 nucleótidos, no más de aproximadamente 600 nucleótidos, no más de aproximadamente 500 nucleótidos, no más de aproximadamente 400 nucleótidos, no más de aproximadamente 300 nucleótidos, no más de aproximadamente 200 nucleótidos, no más de aproximadamente 100 nucleótidos, o no más de aproximadamente 50 nucleótidos de longitud.

[0535] En algunas implementaciones, una secuencia donante exógena es un ODNmc que tiene desde aproximadamente 80 nucleótidos hasta aproximadamente 200 nucleótidos de longitud (por ejemplo, aproximadamente 120 nucleótidos de longitud). En otro ejemplo, una secuencia donante exógena es un ODNmc que tiene desde aproximadamente 80 nucleótidos hasta aproximadamente 3 kb de longitud. Un ODNmc de este tipo puede tener brazos de homología, por ejemplo, que tienen, cada uno, desde aproximadamente 40 nucleótidos hasta aproximadamente 60 nucleótidos de longitud. Un ODNmc de este tipo también puede tener brazos de homología, por ejemplo, que tienen, cada uno, desde aproximadamente 30 nucleótidos hasta 100 nucleótidos de longitud. Los brazos de homología pueden ser simétricos (por ejemplo, cada uno aproximadamente 40 nucleótidos o cada uno aproximadamente 60 nucleótidos de longitud), o pueden ser asimétricos (por ejemplo, un brazo de homología que tiene aproximadamente 36 nucleótidos de longitud, y un brazo de homología que tiene aproximadamente 91 nucleótidos de longitud).

[0537] Las secuencias donantes exógenas pueden incluir modificaciones o secuencias que proporcionan características deseables adicionales (por ejemplo, estabilidad modificada o regulada; seguimiento o detección con un marcador fluorescente; un sitio de unión para una proteína o complejo de proteínas; y así sucesivamente). Las secuencias donantes exógenas pueden comprender uno o más marcadores fluorescentes, etiquetas de purificación, etiquetas de epítopos, o una combinación de los mismos. Por ejemplo, una secuencia donante exógena puede comprender uno o más marcadores fluorescentes (por ejemplo, proteínas fluorescentes u otros fluoróforos o colorantes), tal como al menos 1, al menos 2, al menos 3, al menos 4, o al menos 5 marcadores fluorescentes. Los marcadores fluorescentes a modo de ejemplo incluyen fluoróforos tales como fluoresceína (por ejemplo, 6-carboxifluoresceína (6-FAM)), rojo Texas, HEX, Cy3, Cy5, Cy5.5, azul Pacífico, 5-(y-6)-carboxitetrametil-rodamina (TAMRA), y Cy7. Hay una amplia gama de colorantes fluorescentes comercialmente disponibles para marcar oligonucleótidos (por ejemplo, de Integrated DNA Technologies). Tales marcadores fluorescentes (por ejemplo, marcadores fluorescentes internos) pueden usarse, por ejemplo, para detectar una secuencia donante exógena que se ha integrado directamente en un genB4GALT1endógeno escindido que tiene extremos sobresalientes compatibles con los extremos de la secuencia donante exógena. El marcador o etiqueta puede estar en el extremo 5', en el extremo 3', o de manera interna dentro de la secuencia donante exógena. Por ejemplo, una secuencia donante exógena puede estar conjugada en el extremo 5' con el fluoróforo IR700 de Integrated DNA Technologies (5'IRDYE®700).

[0539] Las secuencias donantes exógenas también pueden comprender insertos de ácido nucleico que incluyen segmentos de ADN que van a integrarse en el genB4GALT1endógeno. La integración de un inserto de ácido nucleico en el genB4GALT1endógeno puede dar como resultado la adición de una secuencia de ácido nucleico de interés en el genB4GALT1endógeno, la deleción de una secuencia de ácido nucleico de interés en el genB4GALT1endógeno, o el reemplazo de una secuencia de ácido nucleico de interés en el genB4GALT1endógeno (es decir, deleción e inserción). Algunas secuencias donantes exógenas están diseñadas para la inserción de un inserto de ácido nucleico en el genB4GALT1endógeno sin ninguna deleción correspondiente en el genB4GALT1endógeno. Otras secuencias donantes exógenas están diseñadas para delecionar una secuencia de ácido nucleico de interés en el genB4GALT1endógeno sin ninguna inserción correspondiente de un inserto de ácido nucleico. Otras secuencias donantes exógenas están diseñadas para delecionar una secuencia de ácido nucleico de interés en el genB4GALT1endógeno y reemplazarla por un inserto de ácido nucleico.

[0541] El inserto de ácido nucleico y el ácido nucleico correspondiente en el genB4GALT1endógeno que está delecionándose y/o reemplazándose pueden tener diversas longitudes. Un inserto de ácido nucleico o ácido nucleico correspondiente a modo de ejemplo en el genB4GALT1endógeno que está delecionándose y/o reemplazándose tiene desde aproximadamente 1 nucleótido hasta aproximadamente 5 kb de longitud o tiene desde aproximadamente 1 nucleótido hasta aproximadamente 1.000 nucleótidos de longitud. Por ejemplo, un inserto de ácido nucleico o un ácido nucleico correspondiente en el genB4GALT1endógeno que está delecionándose y/o reemplazándose puede tener desde aproximadamente 1 hasta aproximadamente 10, desde aproximadamente 10 hasta aproximadamente 20, desde aproximadamente 20 hasta aproximadamente 30, desde aproximadamente 30 hasta aproximadamente 40, desde aproximadamente 40 hasta aproximadamente 50, desde aproximadamente 50 hasta aproximadamente 60, desde aproximadamente 60 hasta aproximadamente 70, desde aproximadamente 70 hasta aproximadamente 80, desde aproximadamente 80 hasta aproximadamente 90, desde aproximadamente 90 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 110, desde aproximadamente 110 hasta aproximadamente 120, desde aproximadamente 120 hasta aproximadamente 130, desde aproximadamente 130 hasta aproximadamente 140, desde aproximadamente 140 hasta aproximadamente 150, desde aproximadamente 150 hasta aproximadamente 160, desde aproximadamente 160 hasta aproximadamente 170, desde aproximadamente 170 hasta aproximadamente 180, desde aproximadamente 180 hasta aproximadamente 190, o desde aproximadamente 190 hasta aproximadamente 200 nucleótidos de longitud. Asimismo, un inserto de ácido nucleico o un ácido nucleico correspondiente en el genB4GALT1endógeno que está delecionándose y/o reemplazándose puede tener desde aproximadamente 1 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 200, desde aproximadamente 200 hasta aproximadamente 300, desde aproximadamente 300 hasta aproximadamente 400, desde aproximadamente 400 hasta aproximadamente 500, desde aproximadamente 500 hasta aproximadamente 600, desde aproximadamente 600 hasta aproximadamente 700, desde aproximadamente 700 hasta aproximadamente 800, desde aproximadamente 800 hasta aproximadamente 900, o desde aproximadamente 900 hasta aproximadamente 1.000 nucleótidos de longitud. Asimismo, un inserto de ácido nucleico o un ácido nucleico correspondiente en el genB4GALT1endógeno que está delecionándose y/o reemplazándose puede tener desde aproximadamente 1 kb hasta aproximadamente 1,5 kb, desde aproximadamente 1,5 kb hasta aproximadamente 2 kb, desde aproximadamente 2 kb hasta aproximadamente 2,5 kb, desde aproximadamente 2,5 kb hasta aproximadamente 3 kb, desde aproximadamente 3 kb hasta aproximadamente 3,5 kb, desde aproximadamente 3,5 kb hasta aproximadamente 4 kb, desde aproximadamente 4 kb hasta aproximadamente 4,5 kb, o desde aproximadamente 4,5 kb hasta aproximadamente 5 kb de longitud.

[0542] El inserto de ácido nucleico puede comprender ADN genómico o cualquier otro tipo de ADN. Por ejemplo, el inserto de ácido nucleico puede comprender ADNc.

[0544] El inserto de ácido nucleico puede comprender una secuencia que es homóloga a la totalidad o parte del genB4GALT1endógeno (por ejemplo, una porción del gen que codifica para un motivo o región particular de un polipéptido B4GALT1). Por ejemplo, el inserto de ácido nucleico puede comprender una secuencia que comprende una o más mutaciones puntuales (por ejemplo, 1, 2, 3, 4, 5, o más) o una o más inserciones o deleciones de nucleótidos en comparación con una secuencia seleccionada como diana para su reemplazo en el genB4GALT1endógeno.

[0546] El inserto de ácido nucleico o el ácido nucleico correspondiente en el genB4GALT1endógeno que está delecionándose y/o reemplazándose puede ser una región codificante tal como un exón; una región no codificante tal como un intrón, una región no traducida, o una región reguladora (por ejemplo, un promotor, un potenciador, o un elemento de unión a represor de la transcripción); o cualquier combinación de los mismos.

[0548] Los insertos de ácido nucleico también pueden comprender un polinucleótido que codifica para un marcador de selección. Alternativamente, los insertos de ácido nucleico pueden carecer de un polinucleótido que codifica para un marcador de selección. El marcador de selección puede estar contenido en un casete de selección. En algunas implementaciones, el casete de selección puede ser un casete de autodeleción. Como ejemplo, el casete de autodeleción puede comprender un gen de Cre (comprende dos exones que codifican para una Cre recombinasa, que están separados por un intrón) operativamente unido a un promotor dePrm1de ratón y un gen de resistencia a la neomicina operativamente unido a un promotor de ubiquitina humano. Los marcadores de selección a modo de ejemplo incluyen neomicina fosfotransferasa (neor), higromicina B fosfotransferasa (hygr), puromicina-N-acetiltransferasa (puror), blasticidina S desaminasa (bsrr), xantina/guanina fosforibosil-transferasa (gpt), o timidina cinasa de virus del herpes simple (VHS-k), o una combinación de las mismas. El polinucleótido que codifica para el marcador de selección puede estar operativamente unido a un promotor activo en una célula que está seleccionándose como diana. Se describen ejemplos de promotores en otra parte en el presente documento.

[0550] El inserto de ácido nucleico también puede comprender un gen indicador. Los genes indicadores a modo de ejemplo incluyen los que codifican para luciferasa, p-galactosidasa, proteína verde fluorescente (GFP), proteína verde fluorescente potenciada (eGFP), proteína cian fluorescente (CFP), proteína amarilla fluorescente (YFP), proteína amarilla fluorescente potenciada (eYFP), proteína azul fluorescente (BFP), proteína azul fluorescente potenciada (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T-Sapphire, y fosfatasa alcalina. Tales genes indicadores pueden estar operativamente unidos a un promotor activo en una célula que está seleccionándose como diana. Se describen ejemplos de promotores en otra parte en el presente documento.

[0552] El inserto de ácido nucleico también puede comprender uno o más casetes de expresión o casetes de deleción. Un casete particular puede comprender uno o más de una secuencia de nucleótidos de interés, un polinucleótido que codifica para un marcador de selección, y un gen indicador, junto con diversos componentes reguladores que influyen en la expresión. Ejemplos de marcadores seleccionables y genes indicadores que pueden incluirse se comentan en detalle en otra parte en el presente documento.

[0554] El inserto de ácido nucleico puede comprender un ácido nucleico flanqueado con secuencias diana de recombinación específica del sitio. Alternativamente, el inserto de ácido nucleico puede comprender una o más secuencias diana de recombinación específica del sitio. Aunque todo el inserto de ácido nucleico puede estar flanqueado por tales secuencias diana de recombinación específica del sitio, cualquier región o polinucleótido individual de interés dentro del inserto de ácido nucleico también puede estar flanqueado por tales sitios. Las secuencias diana de recombinación específica del sitio, que pueden flanquear el inserto de ácido nucleico o cualquier polinucleótido de interés en el inserto de ácido nucleico, pueden incluir, por ejemplo, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp, att, FRT, rox, o una combinación de las mismas. En algunas implementaciones, los sitios de recombinación específica del sitio flanquean un polinucleótido que codifica para un marcador de selección y/o un gen indicador contenido dentro del inserto de ácido nucleico. Tras la integración del inserto de ácido nucleico en el genB4GALT1endógeno, pueden eliminarse las secuencias entre los sitios de recombinación específica del sitio. En algunas implementaciones, pueden usarse dos secuencias donantes exógenas, cada una con un inserto de ácido nucleico que comprende un sitio de recombinación específica del sitio. Las secuencias donantes exógenas pueden dirigirse a regiones en 5' y 3' que flanquean un ácido nucleico de interés. Tras la integración de los dos insertos de ácido nucleico en el locus genómico diana, puede eliminarse el ácido nucleico de interés entre los dos sitios de recombinación específica del sitio insertados.

[0556] Los insertos de ácido nucleico también pueden comprenden uno o más sitios de restricción para endonucleasas de restricción (es decir, enzimas de restricción), que incluyen endonucleasas de tipo I, tipo II, tipo III, y tipo IV. Las endonucleasas de restricción de tipo I y tipo III reconocen secuencias de reconocimiento específicas, pero normalmente escinden en una posición variable desde el sitio de unión a nucleasa, que puede estar a cientos de pares de bases del sitio de escisión (secuencia de reconocimiento). En sistemas de tipo II, la actividad de restricción es independiente de cualquier actividad de metilasa, y la escisión se produce normalmente en sitios específicos dentro o cerca del sitio de unión. La mayoría de las enzimas de tipo II cortan secuencias palindrómicas, sin embargo las enzimas de tipo Ila reconocen secuencias de reconocimiento no palindrómicas y escinden fuera de la secuencia de reconocimiento, las enzimas de tipo IIb cortan secuencias dos veces con ambos sitios fuera de la secuencia de reconocimiento, y las enzimas de tipo IIs reconocen una secuencia de reconocimiento asimétrica y escinden en un lado y a una distancia definida de aproximadamente 1 a aproximadamente 20 nucleótidos desde la secuencia de reconocimiento. Las enzimas de restricción de tipo IV seleccionan como diana ADN metilado.

[0558] En algunas implementaciones, las secuencias donantes exógenas tienen regiones monocatenarias cortas en el extremo 5' y/o el extremo 3' que son complementarias a una o más proyecciones creadas mediante escisión mediada por nucleasa o mediada por proteína Cas en el locus genómico diana (por ejemplo, en el genB4GALT1).Estas proyecciones también pueden denominarse brazos de homología en 5' y 3'. Por ejemplo, algunas secuencias donantes exógenas tienen regiones monocatenarias cortas en el extremo 5' y/o el extremo 3' que son complementarias a una o más proyecciones creadas mediante escisión mediada por proteína Cas en secuencias diana en 5' y/o 3' en el locus genómico diana. En algunas implementaciones, tales secuencias donantes exógenas tienen una región complementaria únicamente en el extremo 5' o únicamente en el extremo 3'. Por ejemplo, algunas de tales secuencias donantes exógenas tienen una región complementaria únicamente en el extremo 5' complementaria a una proyección creada en una secuencia diana en 5' en el locus genómico diana o únicamente en el extremo 3' complementaria a una proyección creada en una secuencia diana en 3' en el locus genómico diana. Otras secuencias donantes exógenas de este tipo tienen regiones complementarias en ambos extremos 5' y 3'. Por ejemplo, otras secuencias donantes exógenas de este tipo tienen regiones complementarias en ambos extremos 5' y 3', por ejemplo, complementarias a una primera y segunda proyecciones, respectivamente, generadas mediante escisión mediada por Cas en el locus genómico diana. Por ejemplo, si la secuencia donante exógena es bicatenaria, las regiones complementarias monocatenarias pueden extenderse desde el extremo 5' de la cadena superior de la secuencia donante y el extremo 5' de la cadena inferior de la secuencia donante, creando proyecciones en 5' en cada extremo. Alternativamente, la región complementaria monocatenaria puede extenderse desde el extremo 3' de la cadena superior de la secuencia donante y desde el extremo 3' de la cadena inferior del molde, creando proyecciones en 3'.

[0560] Las regiones complementarias pueden tener cualquier longitud suficiente para fomentar la ligación entre la secuencia donante exógena y el genB4GALT1endógeno. Las regiones complementarias a modo de ejemplo tienen desde aproximadamente 1 hasta aproximadamente 5 nucleótidos de longitud, desde aproximadamente 1 hasta aproximadamente 25 nucleótidos de longitud, o desde aproximadamente 5 hasta aproximadamente 150 nucleótidos de longitud. Por ejemplo, una región complementaria puede tener al menos aproximadamente 1, al menos aproximadamente 2, al menos aproximadamente 3, al menos aproximadamente 4, al menos aproximadamente 5, al menos aproximadamente 6, al menos aproximadamente 7, al menos aproximadamente 8, al menos aproximadamente 9, al menos aproximadamente 10, al menos aproximadamente 11, al menos aproximadamente 12, al menos aproximadamente 13, al menos aproximadamente 14, al menos aproximadamente 15, al menos aproximadamente 16, al menos aproximadamente 17, al menos aproximadamente 18, al menos aproximadamente 19, al menos aproximadamente 20, al menos aproximadamente 21, al menos aproximadamente 22, al menos aproximadamente 23, al menos aproximadamente 24, o al menos aproximadamente 25 nucleótidos de longitud. Alternativamente, la región complementaria puede tener de aproximadamente 5 a aproximadamente 10, de aproximadamente 10 a aproximadamente 20, de aproximadamente 20 a aproximadamente 30, de aproximadamente 30 a aproximadamente 40, de aproximadamente 40 a aproximadamente 50, de aproximadamente 50 a aproximadamente 60, de aproximadamente 60 a aproximadamente 70, de aproximadamente 70 a aproximadamente 80, de aproximadamente 80 a aproximadamente 90, de aproximadamente 90 a aproximadamente 100, de aproximadamente 100 a aproximadamente 110, de aproximadamente 110 a aproximadamente 120, de aproximadamente 120 a aproximadamente 130, de aproximadamente 130 a aproximadamente 140, de aproximadamente 140 a aproximadamente 150 nucleótidos de longitud, o más larga.

[0562] Tales regiones complementarias pueden ser complementarias a proyecciones creadas por dos pares de nicasas. Dos roturas bicatenarias con extremos escalonados pueden crearse usando una primera y segunda nicasas que escinden cadenas opuestas de ADN para crear una primera rotura bicatenaria, y una tercera y cuarta nicasas que escinden cadenas opuestas de ADN para crear una segunda rotura bicatenaria. Por ejemplo, puede usarse una proteína Cas para mellar una primera, segunda, tercera, y cuarta secuencias de reconocimiento de ARN guía correspondientes a un primer, segundo, tercer, y cuarto ARN guía. La primera y segunda secuencias de reconocimiento de ARN guía pueden estar posicionadas para crear un primer sitio de escisión de tal manera que las mellas creadas por la primera y segunda nicasas en la primera y segunda cadenas de ADN crean una rotura bicatenaria (es decir, el primer sitio de escisión comprende las mellas dentro de la primera y segunda secuencias de reconocimiento de ARN guía). Asimismo, la tercera y cuarta secuencias de reconocimiento de ARN guía pueden estar posicionadas para crear un segundo sitio de escisión de tal manera que las mellas creadas por la tercera y cuarta nicasas en la primera y segunda cadenas de ADN crean una rotura bicatenaria (es decir, el segundo sitio de escisión comprende las mellas dentro de la tercera y cuarta secuencias de reconocimiento de ARN guía). En algunas implementaciones, las mellas dentro de la primera y segunda secuencias de reconocimiento de ARN guía y/o la tercera y cuarta secuencias de reconocimiento de ARN guía pueden ser mellas desviadas que crean proyecciones. El intervalo de desviación puede ser, por ejemplo, de al menos aproximadamente 5 pb, al menos aproximadamente 10 pb, al menos aproximadamente 20 pb, al menos aproximadamente 30 pb, al menos aproximadamente 40 pb, al menos aproximadamente 50 pb, al menos aproximadamente 60 pb, al menos aproximadamente 70 pb, al menos aproximadamente 80 pb, al menos aproximadamente 90 pb, o al menos aproximadamente 100 pb o más. En tales implementaciones, una secuencia donante exógena bicatenaria puede diseñarse con regiones complementarias monocatenarias que son complementarias a las proyecciones creadas por las mellas dentro de la primera y segunda secuencias de reconocimiento de ARN guía y por las mellas dentro de la tercera y cuarta secuencias de reconocimiento de ARN guía. Entonces puede insertarse una secuencia donante exógena de este tipo mediante ligación mediada por unión de extremos no homólogos.

[0564] En algunas implementaciones, las secuencias donantes exógenas (es decir, vectores de direccionamiento) comprenden brazos de homología. Si la secuencia donante exógena también comprende un inserto de ácido nucleico, los brazos de homología pueden flanquear el inserto de ácido nucleico. Para facilidad de referencia, los brazos de homología se denominan en el presente documento brazos de homología en 5' y 3' (es decir, en el sentido de 5' y en el sentido de 3'). Esta terminología se refiere a la posición relativa de los brazos de homología con respecto al inserto de ácido nucleico dentro de la secuencia donante exógena.

[0566] Un brazo de homología y una secuencia diana corresponden uno a la otra cuando las dos regiones comparten un nivel suficiente de identidad de secuencia entre sí como para actuar como sustratos para una reacción de recombinación homóloga. La identidad de secuencia entre una secuencia diana particular y el brazo de homología correspondiente encontrado en la secuencia donante exógena puede ser cualquier grado de identidad de secuencia que permita que se produzca la recombinación homóloga. Por ejemplo, la cantidad de identidad de secuencia compartida por el brazo de homología de la secuencia donante exógena (o un fragmento del mismo) y la secuencia diana (o un fragmento de la misma) puede ser de al menos el 50 %, al menos el 55 %, al menos el 60 %, al menos el 65 %, al menos el 70 %, al menos el 75 %, al menos el 80 %, al menos el 81 %, al menos el 82 %, al menos el

[0567] 83 %, al menos el 84 %, al menos el 85 %, al menos el 86 %, al menos el 87 %, al menos el 88 %, al menos el 89 %, al menos el 90 %, al menos el 91 %, al menos el 92 %, al menos el 93 %, al menos el 94 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % de identidad de secuencia, de tal manera que las secuencias experimentan recombinación homóloga. Además, una región de homología correspondiente entre el brazo de homología y la secuencia diana correspondiente puede tener cualquier longitud que sea suficiente para fomentar la recombinación homóloga. Los brazos de homología a modo de ejemplo tienen desde aproximadamente 25 nucleótidos hasta aproximadamente 2,5 kb de longitud, desde aproximadamente

[0568] 25 nucleótidos hasta aproximadamente 1,5 kb de longitud, o desde aproximadamente 25 hasta aproximadamente

[0569] 500 nucleótidos de longitud. Por ejemplo, un brazo de homología dado (o cada uno de los brazos de homología) y/o secuencia diana correspondiente pueden comprender regiones de homología correspondientes que tienen desde aproximadamente 25 hasta aproximadamente 30, desde aproximadamente 30 hasta aproximadamente 40, desd aproximadamente 40 hasta aproximadamente 50, desde aproximadamente 50 hasta aproximadamente 60, desd aproximadamente 60 hasta aproximadamente 70, desde aproximadamente 70 hasta aproximadamente 80, desd aproximadamente 80 hasta aproximadamente 90, desde aproximadamente 90 hasta aproximadamente 100, desde aproximadamente 100 hasta aproximadamente 150, desde aproximadamente 150 hasta aproximadamente 200, desde aproximadamente 200 hasta aproximadamente 250, desde aproximadamente 250 hasta aproximadamente

[0570] 300, desde aproximadamente 300 hasta aproximadamente 350, desde aproximadamente 350 hasta aproximadamente 400, desde aproximadamente 400 hasta aproximadamente 450, o desde aproximadamente 450 hasta aproximadamente 500 nucleótidos de longitud, de tal manera que los brazos de homología tienen una homología suficiente como para experimentar recombinación homóloga con las secuencias diana correspondientes dentro del genB4GALT1endógeno. Alternativamente, un brazo de homología particular (o cada brazo de homología) y/o secuencia diana correspondiente pueden comprender regiones de homología correspondientes que tienen desde aproximadamente 0,5 kb hasta aproximadamente 1 kb, desde aproximadamente 1 kb hasta aproximadamente 1,5 kb, desde aproximadamente 1,5 kb hasta aproximadamente 2 kb, o desde aproximadamente

[0571] 2 kb hasta aproximadamente 2,5 kb de longitud. Por ejemplo, los brazos de homología pueden tener, cada uno, aproximadamente 750 nucleótidos de longitud. Los brazos de homología pueden ser simétricos (cada uno de aproximadamente el mismo tamaño de longitud), o pueden ser asimétricos (uno más largo que el otro).

[0573] Los brazos de homología pueden corresponder a un locus que es nativo con respecto a una célula (por ejemplo, el locus seleccionado como diana). Alternativamente, pueden corresponder a una región de un segmento de ADN heterólogo o exógeno que se integró en el genoma de la célula, incluyendo, por ejemplo, transgenes, casetes de expresión, o regiones de ADN heterólogas o exógenas. En algunas implementaciones, los brazos de homología del vector de direccionamiento pueden corresponder a una región de un cromosoma artificial de levadura (YAC), un cromosoma artificial bacteriano (BAC), un cromosoma artificial humano, o cualquier otra región diseñada por ingeniería contenida en una célula huésped apropiada. En algunas implementaciones, los brazos de homología del vector de direccionamiento pueden corresponder a, o derivarse de, una región de una biblioteca de BAC, una biblioteca de cósmidos, o una biblioteca de fagos P1, o pueden derivarse de ADN sintético.

[0575] Cuando se usa un agente de nucleasa en combinación con una secuencia donante exógena, las secuencias diana en 5' y 3' están generalmente ubicadas en proximidad suficiente al sitio de escisión de nucleasa como para fomentar la aparición de un acontecimiento de recombinación homóloga entre las secuencias diana y los brazos de homología tras una rotura monocatenaria (mella) o rotura bicatenaria en el sitio de escisión de nucleasa. Los sitios de escisión de nucleasa incluyen una secuencia de ADN en la que se crea una mella o rotura bicatenaria por un agente de nucleasa (por ejemplo, una proteína Cas9 complejada con un ARN guía). Las secuencias diana dentro del genB4GALT1endógeno que corresponden a los brazos de homología en 5' y 3' de la secuencia donante exógena están “ubicadas en proximidad suficiente” a un sitio de escisión de nucleasa si la distancia es tal como para fomentar la aparición de un acontecimiento de recombinación homóloga entre las secuencias diana en 5' y 3' y los brazos de homología tras una rotura monocatenaria o rotura bicatenaria en el sitio de escisión de nucleasa. Por tanto, las secuencias diana correspondientes a los brazos de homología en 5' y/o 3' de la secuencia donante exógena pueden estar, por ejemplo, dentro de al menos 1 nucleótido de un sitio de escisión de nucleasa dado o dentro de al menos

[0576] 10 nucleótidos a aproximadamente 1.000 nucleótidos de un sitio de escisión de nucleasa particular. En algunas implementaciones, el sitio de escisión de nucleasa puede estar inmediatamente adyacente a al menos una o ambas de las secuencias diana.

[0578] La relación espacial de las secuencias diana que corresponden a los brazos de homología de la secuencia donante exógena y el sitio de escisión de nucleasa puede variar. En algunas implementaciones, las secuencias diana pueden estar ubicadas en 5' con respecto al sitio de escisión de nucleasa, las secuencias diana pueden estar ubicadas en 3' con respecto al sitio de escisión de nucleasa, o las secuencias diana pueden flanquear el sitio de escisión de nucleasa.

[0579] La presente divulgación también proporciona métodos terapéuticos y métodos de tratamiento o profilaxis de una alteración cardiovascular en un sujeto que tiene o en riesgo de tener la enfermedad usando los métodos dados a conocer en el presente documento para modificar o alterar la expresión de un genB4GALT1endógeno. La presente divulgación también proporciona métodos terapéuticos y métodos de tratamiento o profilaxis de una alteración cardiovascular en un sujeto que tiene o en riesgo de la enfermedad usando métodos para reducir la expresión de ARNm deB4GALT1endógeno o usando métodos para proporcionar ácidos nucleicos recombinantes que codifican para polipéptidos B4GALT1, proporcionando ARNm que codifican para polipéptidos B4GALT1, o proporcionando polipéptidos B4GALT1 al sujeto. Los métodos pueden comprender introducir una o más moléculas de ácido nucleico o proteínas en el sujeto, en un órgano del sujeto, o en una célula del sujeto (por ejemplo,in vivooex vivo).

[0581] En algunas implementaciones, la divulgación proporciona ARNm que codifican para polipéptidos B4GALT1 (por ejemplo, polinucleótidos tal como se comentan en el presente documento, por ejemplo un ARNm que comprende la secuencia de SEQ ID NO: 4) para su uso en terapia. En algunas de tales implementaciones, la terapia trata o previene una alteración cardiovascular.

[0583] En algunas implementaciones, la divulgación proporciona polipéptidos B4GALT1 (por ejemplo, polipéptidos tal como se comentan en el presente documento, por ejemplo polipéptidos que comprenden la secuencia de SEQ ID NO: 8) para su uso en terapia. En algunas de tales implementaciones, la terapia trata o previene una alteración cardiovascular.

[0585] Los sujetos incluyen sujetos humanos y otros mamíferos (por ejemplo, felinos, caninos, roedores, ratones, o ratas) o sujetos no mamíferos (por ejemplo, aves de corral) que reciben un tratamiento o bien profiláctico o bien terapéutico. Tales sujetos pueden ser, por ejemplo, un sujeto (por ejemplo, un ser humano) que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular.

[0587] Los ejemplos no limitativos de una alteración cardiovascular incluyen un nivel elevado de uno o más lípidos séricos. Los lípidos séricos comprenden uno o más de colesterol, LDL, HDL, triglicéridos, colesterol de HDL, y colesterol distinto de HDL, o cualquier fracción secundaria de los mismos (por ejemplo, HDL2, HDL2a, HDL2b, HDL2c, HDL3, HDL3a, HDL3b, HDL3c, HDL3d, LDL1, LDL2, LDL3, lipoproteína A, Lpal, Lpal, Lpa3, Lpa4, o Lpa5). Una alteración cardiovascular puede comprender niveles elevados de calcificación de arterias coronarias. Una alteración cardiovascular puede comprender glicosilación de tipo IId (CDG-Ild). Una alteración cardiovascular puede comprender niveles elevados de grasa pericárdica. Una alteración cardiovascular puede comprender un estado aterotrombótico. El estado aterotrombótico puede comprender niveles elevados de fibrinógeno. El estado aterotrombótico puede comprender un coágulo sanguíneo mediado por fibrinógeno. Una alteración cardiovascular puede comprender niveles elevados de fibrinógeno. Una alteración cardiovascular puede comprender un coágulo sanguíneo mediado por fibrinógeno. Una alteración cardiovascular puede comprender un coágulo sanguíneo formado a partir de la participación de actividad de fibrinógeno. Un coágulo sanguíneo mediado por fibrinógeno o coágulo sanguíneo formado a partir de la participación de actividad de fibrinógeno puede estar en cualquier vena o arteria en el organismo.

[0589] Tales métodos pueden comprender edición genómica o terapia génica. Por ejemplo, un genB4GALT1endógeno que no esB4GALT1variante puede modificarse para comprender la variación asociada conB4GALT1variante (es decir, reemplazo de asparagina por una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro). Como otro ejemplo, un genB4GALT1endógeno que no esB4GALT1variante puede desactivarse o inactivarse. Asimismo, un genB4GALT1endógeno que no esB4GALT1variante puede desactivarse o inactivarse, y un genB4GALT1que comprende la modificación asociada conB4GALT1variante (por ejemplo, elB4GALT1variante completo o un minigén que comprende la modificación) puede introducirse y expresarse. De manera similar, un genB4GALT1endógeno que no esB4GALT1variante puede desactivarse o inactivarse, y un ADN recombinante que codifica para el polipéptido variante de B4GALT1 puede introducirse y expresarse, un ARNm que codifica para el polipéptido variante de B4GALT1 puede introducirse y expresarse (por ejemplo, terapía de sustitución de proteínas intracelular), y/o un polipéptido B4GALT1 variante puede introducirse (por ejemplo, terapia de sustitución de proteínas).

[0591] En algunas implementaciones, los métodos comprenden introducir y expresar un genB4GALT1recombinante que comprende la modificación asociada con la variante rs551564683 deB4GALT1(por ejemplo, elB4GALT1variante completo o un minigén que comprende la modificación), introducir y expresar ácidos nucleicos recombinantes (por ejemplo, ADN) que codifican para el polipéptido B4GALT1 variante o fragmentos del mismo, introducir y expresar uno o más ARNm que codifican para el polipéptido B4GALT1 variante o fragmentos del mismo (por ejemplo, terapia de sustitución de proteínas intracelular), o introducir el polipéptido B4GALT1 variante o fragmentos del mismo (por ejemplo, terapia de sustitución de proteínas) sin desactivar o inactivar un genB4GALT1endógeno que no esB4GALT1variante. En algunas implementaciones, tales métodos también pueden llevarse a cabo en combinación con métodos en los que ARNm deB4GALT1endógeno que no esB4GALT1variante se selecciona como diana para su expresión reducida, tal como mediante el uso de ARN antisentido, ARNip, o ARNhc.

[0592] Un genB4GALT1o minigén o un ADN que codifica para el polipéptido B4GALT1 variante o fragmentos del mismo puede introducirse y expresarse en forma de un vector de expresión que no modifica el genoma, puede introducirse en forma de un vector de direccionamiento de tal manera que se integra de manera genómica en un locus deB4GALT1endógeno, o puede introducirse de tal manera que se integra de manera genómica en un locus distinto del locus deB4GALT1endógeno, tal como un locus seguro. El genB4GALT1integrado de manera genómica puede estar operativamente unido a un promotor deB4GALT1o a otro promotor, tal como un promotor endógeno en el sitio de integración. Los loci seguros son sitios cromosómicos en los que pueden expresarse transgenes de manera estable y fiable en todos los tejidos de interés sin afectar de manera adversa a la estructura o expresión de los genes. Los loci seguros pueden tener, por ejemplo, una o más o la totalidad de las siguientes características: 1) una distancia de más de aproximadamente 50 kb desde el extremo 5' de cualquier gen; una distancia de más de aproximadamente 300 kb desde cualquier gen relacionado con cáncer; una distancia de más de aproximadamente 300 kb desde cualquier microARN; estar fuera de una unidad de transcripción génica, y estar fuera de regiones ultraconservadas. Los ejemplos de loci seguros adecuados incluyen, pero no se limitan a, un sitio de virus adenoasociado 1 (AAVS1), el locus del gen de receptor de quimiocina (motivo CC) 5 (CCR5), y el ortólogo humano del locus de ROSA<2 6>de ratón.

[0594] En algunas implementaciones, los métodos comprenden un método de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprende introducir en el sujeto o introducir en una célula en el sujeto: a) un agente de nucleasa (o ácido nucleico que codifica para el mismo) que se une a una secuencia de reconocimiento de nucleasa dentro de un genB4GALT1endógeno, en el que la secuencia de reconocimiento de nucleasa incluye o está próxima a las posiciones 53575 a 53577 de SEQ ID NO: 1; y b) una secuencia donante exógena que comprende un brazo de homología en 5' que se hibrida con una secuencia diana en 5' de las posiciones 53575 a 53577 de SEQ ID NO: 1, y un inserto de ácido nucleico que comprende una secuencia de ácido nucleico que codifica para una serina flanqueada por el brazo de homología en 5' y el brazo de homología en 3'. El agente de nucleasa puede escindir el genB4GALT1endógeno en una célula en el sujeto, y la secuencia donante exógena puede recombinarse con el genB4GALT1endógeno en la célula, en el que tras la recombinación de la secuencia donante exógena con el genB4GALT1endógeno, la secuencia de ácido nucleico que codifica para una serina se inserta en nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 1. Ejemplos de agentes de nucleasa (por ejemplo, una proteína Cas9 y un ARN guía) que pueden usarse en tales métodos se dan a conocer en otra parte en el presente documento.

[0596] En algunas implementaciones, los métodos comprenden un método de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprende introducir en el sujeto o introducir en una célula en el sujeto una secuencia donante exógena que comprende un brazo de homología en 5' que se hibrida con una secuencia diana en 5' de la posición correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1, un brazo de homología en 3' que se hibrida con una secuencia diana en 3' de las posiciones 53575 a 53577 de SEQ ID NO: 1, y un inserto de ácido nucleico que comprende una secuencia de nucleótidos que codifica para una serina flanqueada por el brazo de homología en 5' y el brazo de homología en 3'. La secuencia donante exógena puede recombinarse con el genB4GALT1endógeno en la célula, en el que tras la recombinación de la secuencia donante exógena con el genB4GALT1endógeno, la secuencia de nucleótidos que codifica para una serina se inserta en nucleótidos correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 1.

[0598] Algunos de tales métodos comprenden un método de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprende introducir en el sujeto o introducir en una célula en el sujeto: a) un agente de nucleasa (o ácido nucleico que codifica para el mismo) que se une a una secuencia de reconocimiento de nucleasa dentro de un genB4GALT1endógeno, en el que la secuencia de reconocimiento de nucleasa comprende el codón de iniciación para el genB4GALT1endógeno o está dentro de aproximadamente 10, aproximadamente 20, aproximadamente 30, aproximadamente 40, aproximadamente 50, aproximadamente 100, aproximadamente 200, aproximadamente 300, aproximadamente 400, aproximadamente 500, o aproximadamente 1.000 nucleótidos del codón de iniciación o se selecciona de SEQ ID NO: 9-12. El agente de nucleasa puede escindir y perturbar la expresión del genB4GALT1endógeno en una célula en el sujeto.

[0600] En algunas implementaciones, los métodos comprenden un método de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprende introducir en el sujeto o introducir en una célula en el sujeto: a) un agente de nucleasa (o ácido nucleico que codifica para el mismo) que se une a una secuencia de reconocimiento de nucleasa dentro de un genB4GALT1endógeno, en el que la secuencia de reconocimiento de nucleasa comprende el codón de iniciación para el genB4GALT1endógeno o está dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de iniciación o se selecciona de SEQ ID NO: 9-12; y b) un vector de expresión que comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos en las posiciones 53575 a 53577 que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro. El vector de expresión puede ser uno que no se integra de manera genómica. Alternativamente, puede introducirse un vector de direccionamiento (es decir, secuencia donante exógena) que comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos en las posiciones 53575 a 53577 que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro. El agente de nucleasa puede escindir y perturbar la expresión dentro del genB4GALT1en una célula en el sujeto, y el vector de expresión puede expresar el genB4GALT1recombinante en la célula en el sujeto. Alternativamente, el genB4GALT1recombinante integrado de manera genómica puede expresarse en la célula en el sujeto. Ejemplos de agentes de nucleasa (por ejemplo, una proteína Cas9 activa para nucleasa y ARN guía) que pueden usarse en tales métodos se dan a conocer en otra parte en el presente documento. Ejemplos de ARN guía y secuencias de reconocimiento de ARN guía adecuados también se dan a conocer en otra parte en el presente documento. La etapa b) puede comprender alternativamente introducir un vector de expresión o vector de direccionamiento que comprende un ácido nucleico (por ejemplo, ADN) que codifica para un polipéptido B4GALT1 que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo y/o que comprende una secuencia que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, la etapa b) también puede comprender introducir un ARNm que codifica para un polipéptido B4GALT1 Asn352Ser que es idéntico en al menos el 90%, al menos el 95%, al menos el 96%, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo y/o que tiene un ADN complementario (o una porción del mismo) que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, la etapa b) también puede comprender introducir una proteína que comprende una secuencia de aminoácidos que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96%, al menos el 97%, al menos el 98%, al menos el 99%, o el 100% al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo.

[0602] En algunas implementaciones, también se introduce un segundo agente de nucleasa en el sujeto o en la célula en el sujeto, en el que el segundo agente de nucleasa se une a una segunda secuencia de reconocimiento de nucleasa dentro del genB4GALT1endógeno, en el que la segunda secuencia de reconocimiento de nucleasa comprende el codón de terminación para el genB4GALT1endógeno o está dentro de aproximadamente 10, dentro de aproximadamente 20, dentro de aproximadamente 30, dentro de aproximadamente 40, dentro de aproximadamente 50, dentro de aproximadamente 100, dentro de aproximadamente 200, dentro de aproximadamente 300, dentro de aproximadamente 400, dentro de aproximadamente 500, o dentro de aproximadamente 1.000 nucleótidos del codón de terminación o se selecciona de SEQ ID NO: 9-12, en el que el agente de nucleasa escinde el genB4GALT1endógeno en la célula dentro tanto de la primera secuencia de reconocimiento de nucleasa como de la segunda secuencia de reconocimiento de nucleasa, en el que la célula está modificada para comprender una deleción entre la primera secuencia de reconocimiento de nucleasa y la segunda secuencia de reconocimiento de nucleasa. En algunas implementaciones, el segundo agente de nucleasa puede ser una proteína Cas9 y un ARN guía. ARN guía y secuencias de reconocimiento de ARN guía adecuados en proximidad al codón de terminación se dan a conocer en otra parte en el presente documento.

[0604] En algunas implementaciones, los métodos también pueden comprender un método de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprende introducir en el sujeto o introducir en una célula en el sujeto: un ARN antisentido, un ARNip, o un ARNhc que se hibrida con una secuencia dentro de una región dentro del ARNm deB4GALT1endógeno. Por ejemplo, el ARN antisentido, ARNip, o ARNhc puede hibridarse con una secuencia dentro de una región en el exón 5 de SEQ ID NO: 3 (ARNm deB4GALT1)y reducir la expresión de ARNm deB4GALT1en una célula en el sujeto. En algunas implementaciones, tales métodos pueden comprender además introducir en el sujeto un vector de expresión que comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos que codifica para una serina insertada en las posiciones 53575 a 53577 de SEQ ID NO: 2. El vector de expresión puede ser uno que no se integra de manera genómica. Alternativamente, puede introducirse un vector de direccionamiento (es decir, secuencia donante exógena) que comprende un genB4GALT1recombinante que comprende una secuencia de ácido nucleico que codifica para una serina en posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2. En métodos en los que se usa un vector de expresión, el vector de expresión puede expresar el genB4GALT1recombinante en la célula en el sujeto. Alternativamente, en métodos en los que se integra de manera genómica un genB4GALT1recombinante, el genB4GALT1recombinante puede expresarse en la célula en el sujeto.

[0606] En algunas implementaciones, tales métodos pueden comprender alternativamente introducir un vector de expresión o vector de direccionamiento que comprende un ácido nucleico (por ejemplo, ADN) que codifica para un polipéptido B4GALT1 que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo y/o que comprende una secuencia que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, tales métodos pueden comprender alternativamente introducir un ARNm que codifica para un polipéptido que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo y/o que tiene un ADN complementario (o una porción del mismo) que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, tales métodos pueden comprender alternativamente introducir un polipéptido que comprende una secuencia que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo.

[0608] En algunas implementaciones, tales métodos pueden comprender métodos de tratamiento de un sujeto que no es un portador deB4GALT1variante (o sólo es un portador heterocigótico deB4GALT1variante) y tiene o es propenso a desarrollar una alteración cardiovascular, que comprenden introducir en el sujeto o introducir en una célula en el sujeto un vector de expresión, en los que el vector de expresión comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos en las posiciones 53575 a 53577 que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en los que el vector de expresión expresa el genB4GALT1recombinante en una célula en el sujeto. El vector de expresión puede ser uno que no se integra de manera genómica. Alternativamente, puede introducirse un vector de direccionamiento (es decir, secuencia donante exógena) que comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos en las posiciones 53575 a 53577 de SEQ ID NO: 2 que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro. En métodos en los que se usa un vector de expresión, el vector de expresión puede expresar el genB4GALT1recombinante en la célula en el sujeto. Alternativamente, en métodos en los que se integra de manera genómica un genB4GALT1recombinante, el genB4GALT1recombinante puede expresarse en la célula en el sujeto.

[0610] Tales métodos pueden comprender alternativamente introducir un vector de expresión o vector de direccionamiento que comprende un ácido nucleico (por ejemplo, ADN) que codifica para un polipéptido B4GALT1 que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100% al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo y/o que comprende una secuencia que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99%, o el 100% al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, tales métodos pueden comprender alternativamente introducir un ARNm que codifica para un polipéptido que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100% al polipéptido B4GALT1 variante o un fragmento del mismo y/o que tiene un ADN complementario (o una porción del mismo) que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al ARNm deB4GALT1variante o un fragmento del mismo. Asimismo, tales métodos pueden comprender alternativamente introducir una proteína que comprende una secuencia que es idéntica en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % al polipéptido B4GALT1 Asn352Ser variante o un fragmento del mismo.

[0612] Vectores de expresión y genesB4GALT1recombinantes adecuados para su uso en cualquiera de los métodos anteriores se dan a conocer en otra parte en el presente documento. Por ejemplo, el genB4GALT1recombinante puede ser el gen variante deB4GALT1completo o puede ser un minigén deB4GALT1en el que uno o más segmentos no esenciales del gen se han delecionado con respecto a un genB4GALT1de tipo natural correspondiente. Como ejemplo, los segmentos delecionados pueden comprender una o más secuencias intrónicas, y el minigén puede comprender los exones 1 a 6. Un ejemplo de un gen variante deB4GALT1completo es uno que es idéntico en al menos el 90 %, al menos el 95 %, al menos el 96 %, al menos el 97 %, al menos el 98 %, al menos el 99 %, o el 100 % a SEQ ID NO: 2.

[0614] En algunas implementaciones, tales métodos comprenden un método de modificación de una célula en un sujeto que tiene o es propenso a desarrollar una alteración cardiovascular. En tales métodos, los agentes de nucleasa y/o secuencias donantes exógenas y/o vectores de expresión recombinante pueden introducirse en la célula mediante administración en una pauta eficaz, lo que significa una dosificación, vía de administración y frecuencia de administración que retarda la aparición, reduce la intensidad, inhibe el deterioro adicional, y/o mejora al menos un signo o síntoma de una alteración cardiovascular que está tratándose. El término “síntoma” se refiere a una evidencia subjetiva de una enfermedad tal como la percibe el sujeto, y un “signo” se refiere a una evidencia objetiva de una enfermedad tal como la observa un médico. Si un sujeto ya padece una enfermedad, la pauta puede denominarse pauta terapéuticamente eficaz. Si el sujeto presenta un riesgo elevado de la enfermedad con respecto a la población general pero aún no experimenta síntomas, la pauta puede denominarse pauta profilácticamente eficaz. En algunos casos, puede observarse eficacia terapéutica o profiláctica en un paciente individual con respecto a controles históricos o a experiencia pasada en el mismo sujeto. En otros casos, puede demostrarse eficacia terapéutica o profiláctica en un ensayo preclínico o clínico en una población de sujetos tratados con respecto a una población de control de sujetos sin tratar.

[0616] El suministro puede ser mediante cualquier método adecuado, tal como se da a conocer en otra parte en el presente documento. Por ejemplo, los agentes de nucleasa o secuencias donantes exógenas o vectores de expresión recombinante pueden suministrarse, por ejemplo, mediante suministro por vector, suministro viral, suministro mediado por partículas, suministro mediado por nanopartículas, suministro mediado por liposomas, suministro mediado por exosomas, suministro mediado por lípidos, suministro mediado por nanopartículas de lípidos, suministro mediado por péptidos de penetración celular, o suministro mediado por dispositivo implantable. Los ejemplos específicos incluyen suministro hidrodinámico, suministro mediado por virus, y suministro mediado por nanopartículas de lípidos.

[0618] La administración puede realizarse por cualquier vía adecuada incluyendo, pero sin limitarse a, parenteral, intravenosa, oral, subcutánea, intraarterial, intracraneal, intratecal, intraperitoneal, tópica, intranasal, o intramuscular. Un ejemplo específico que se usa con frecuencia, por ejemplo, para terapias de sustitución de proteínas es la infusión intravenosa. La frecuencia de administración y el número de dosificaciones pueden depender de la semivida de los agentes de nucleasa o secuencias donantes exógenas o vectores de expresión recombinante, el estado del sujeto, y la vía de administración entre otros factores. Las composiciones farmacéuticas para su administración son de manera deseable estériles y sustancialmente isotónicas y se fabrican en condiciones de BPF. Pueden proporcionarse composiciones farmacéuticas en forma de dosificación unitaria (es decir, la dosificación para una única administración). Pueden formularse composiciones farmacéuticas usando uno o más portadores, diluyentes, excipientes o compuestos auxiliares fisiológica y farmacéuticamente aceptables. La formulación depende de la vía de administración elegida. El término “farmacéuticamente aceptable” significa que el portador, diluyente, excipiente, o componente auxiliar es compatible con los demás componentes de la formulación y no es sustancialmente perjudicial para el receptor de la misma.

[0620] Otros métodos de este tipo comprenden un métodoex vivoen una célula de un sujeto que tiene o es propenso a desarrollar una alteración cardiovascular. Entonces puede trasplantarse de vuelta al sujeto la célula con la modificación genética dirigida.

[0622] La presente divulgación proporciona métodos de reducción de LDL en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento. La presente divulgación proporciona métodos de reducción del colesterol total en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento. La presente divulgación proporciona métodos de reducción del fibrinógeno en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento. La presente divulgación proporciona métodos de reducción de eGFR en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento. La presente divulgación proporciona métodos de aumento de AST, pero no de ALT, en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento. La presente divulgación proporciona métodos de aumento de creatinina en un sujeto que lo necesita, reduciendo la expresión deB4GALT1de tipo natural endógeno o aumentando la expresión deB4GALT1Asn352Ser, mediante cualquiera de los métodos descritos en el presente documento.

[0624] La presente divulgación también proporciona métodos de diagnóstico del riesgo de desarrollar una alteración cardiovascular, o de diagnóstico del riesgo de desarrollar una alteración cardiovascular y tratamiento del mismo en un sujeto que lo necesita, que comprenden: solicitar la realización de una prueba que proporciona los resultados de un análisis de una muestra del sujeto para detectar la presencia o ausencia de gen, ARNm, ADNc, o polipéptido deB4GALT1variante, tal como se describe en el presente documento; y, en los sujetos que no tienen el gen, ARNm, ADNc, o polipéptido deB4GALT1variante, administrar un agente terapéutico, tal como se describe en el presente documento, al sujeto. Puede usarse cualquiera de las pruebas descritas en el presente documento mediante las cuales se determina la presencia o ausencia de gen, ARNm, ADNc, o polipéptido deB4GALT1variante.

[0626] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento en la fabricación de un medicamento para reducir LDL, reducir colesterol total, reducir fibrinógeno, reducir eGFR, aumentar AST (pero no ALT), y aumentar creatinina en un sujeto que lo necesita. La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación en la fabricación de un medicamento para tratar arteriopatía coronaria, calcificación de arterias coronarias, y trastornos relacionados.

[0628] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento para reducir LDL, reducir colesterol total, reducir fibrinógeno, reducir eGFR, aumentar AST (pero no ALT), y aumentar creatinina en un sujeto que lo necesita.

[0630] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación para tratar arteriopatía coronaria, calcificación de arterias coronarias, glicosilación de tipo IId (CDG-Ild), y trastornos relacionados.

[0631] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento para modificar un genB4GALT1en una célula en un sujeto que lo necesita.

[0632] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento para alterar la expresión de un genB4GALT1en una célula en un sujeto que lo necesita.

[0633] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento para diagnosticar el riesgo de desarrollar cualquiera de las alteraciones cardiovasculares dadas a conocer en el presente documento.

[0634] La presente divulgación también proporciona usos de cualquiera de los genes, ARNm, ADNc, polipéptidos deB4GALT1variantes, y moléculas de ácido nucleico de hibridación dados a conocer en el presente documento para diagnosticar que un sujeto tiene cualquiera de las alteraciones cardiovasculares dadas a conocer en el presente documento.

[0635] Si diferentes versiones de una secuencia se asocian con un número de registro en diferentes momentos, se hace referencia a la versión asociada con el número de registro en la fecha de presentación efectiva de esta solicitud. La fecha de presentación efectiva quiere decir la más temprana de la fecha de presentación real o la fecha de presentación de una solicitud de prioridad que hace referencia al número de registro, si es aplicable. Asimismo, si diferentes versiones de una publicación, sitio web o similares se publican en diferentes momentos, se hace referencia a la versión más reciente publicada en la fecha de presentación efectiva de la solicitud a menos que se indique lo contrario.

[0636] Las secuencias de nucleótidos y de aminoácidos mencionadas en el presente documento se muestran usando abreviaturas de letras convencionales para bases de nucleótido, y código de una letra para aminoácidos. Las secuencias de nucleótidos siguen el convenio convencional de comenzar en el extremo 5' de la secuencia y avanzar hacia delante (es decir, de izquierda a derecha en cada línea) hasta el extremo 3'. Sólo se muestra una cadena de cada secuencia de nucleótidos, pero se entiende que la cadena complementaria está incluida mediante cualquier referencia a la cadena presentada. Las secuencias de aminoácidos siguen el convenio convencional de comenzar en el extremo amino-terminal de la secuencia y avanzar hacia delante (es decir, de izquierda a derecha en cada línea) hasta el extremo carboxilo-terminal.

[0637] Los siguientes ejemplos se proporcionan para describir las realizaciones en más detalle. Se pretende que ilustren, no que limiten, las realizaciones reivindicadas.

[0638] Ejemplos

[0639] Ejemplo 1: determinación de un locus novedoso en el cromosoma 9p.21 asociado con rasgos de lípidos séricos con significación estadística del genoma completo

[0640] Materiales y métodos:

[0641] Genotipado de chip y QC:se extrajo ADN genómico a partir de sangre completa de individuos de OOA, y se cuantificó usando PicoGreen. Se realizó genotipado del genoma completo con Affymetrix 500K y chips 6.0 en la Instalación Principal de Biopolímeros de la Universidad de Maryland. Se usó el algoritmo BRLMM para la determinación de genotipo. Se excluyeron las muestras con una tasa de determinación <0,93, alto nivel de error mendeliano, o coincidencia errónea de sexo. Se excluyeron los SNP con una tasa de determinación <0,95, valor de p de HWE <1,0E-6, o MAF <0,01. También se excluyeron los SNP en los cromosomas X e Y, y el genoma mitocondrial.

[0642] WGSy QC:se realizó una preparación de biblioteca y secuenciación del genoma completo por el Instituto Broad del MIT y Harvard. El Centro de Recursos Informáticos de NHLBI en la Universidad de Michigan realizó una alineación, determinación de bases, y puntuación de calidad de secuencia de todas las muestras de TOPMed y suministró archivos bcf para todas las variantes que pasaron todos los filtros de calidad con una profundidad de lectura de al menos 10, que se usaron para el análisis. Además, se aplicó QC a estos archivos incluyendo eliminación de todos los sitios en LCR, o cromosomas X. También se eliminaron las variantes con tasas de omisión >5 %, valor de p de HWE <1,0E-09 y MAF <0,1 %. El QC de muestras se realizó para eliminar muestras con tasas de omisión >5 %, alto nivel de error mendeliano (en algunos casos), o gemelos idénticos (MZ) (uno de cada par).

[0643] WES y QC:se realizó captura y secuenciación de exomas en el Centro Genético Regeneron (RGC) tal como se describe en más detalle a continuación. En resumen, se secuenciaron las bibliotecas capturadas en la plataforma Illumina HiSeq 2500 con química v4 usando lecturas de 75 pb de extremos emparejados. La secuenciación de extremos emparejados de las bases capturadas se realizó de modo que >85%de las bases estaban cubiertas a 20x o más, lo cual es suficiente para determinar variantes heterocigóticas a lo largo de la mayoría de las bases seleccionadas como diana. Se realizaron la alineación de lecturas y determinación de variantes usando BWA-MEM y GATK tal como se implementa en la estructura de análisis de sec. de ADN del RGC. Se excluyeron las muestras con una tasa de determinación <0,90, alto nivel de errores mendelianos, gemelos idénticos (MZ) (uno de cada par), o coincidencia errónea de sexo. También se excluyeron los SNP con una tasa de determinación <0,90, y SNP monomórficos. También se excluyeron los SNP en los cromosomas X e Y, y el genoma mitocondrial.

[0644] Análisis de asociación:se extrajeron muestras de sangre en ayunas y se usaron para análisis de lípidos. Se calculó LDL usando la fórmula de Friedewald, y en algunos análisis con sujetos que recibían medicamentos hipolipemiantes se ajustó dividiendo sus niveles de<l>D<l>entre 0,7. Se realizó el análisis de asociación genética usando modelos mixtos lineales para tener en cuenta la correlación familiar usando la matriz de grado de parentesco basada en árbol genealógico y/o corrección familiar que estima el grado de parentesco a partir de WES. También se ajustó el análisis para la edad, edad al cuadrado, sexo, cohorte, y genotipo de APOB R3527Q. APOB R3527Q está enriquecida en los amish y se identificó anteriormente que tenía un fuerte efecto sobre los niveles de LDL (58 mg/dl) (Shenet al.,Arch Intern. Med., 2010, 170, 1850-1855), y, por tanto, se tuvo en cuenta el efecto de esta variante en el análisis de LDL. Se usó el valor de p corregido del genoma completo de 5,0E-08 como umbral de significación.

[0645] Identificación de la asociación entre la región del cromosoma 9p y LDL usando un estudio de asociación del genoma completo (GWAS):

[0646] Para identificar variantes causantes en genes novedosos asociados con factores de riesgo cardiovascular, se realizó un análisis de asociación del genoma completo usando 1852 sujetos de la antigua orden amish genotipados con Affymetrix 500K y chips 6.0. Las características básicas de estos participantes se muestran en la tabla 1.

[0647] Tabla 1: características básicas de las poblaciones de estudio

[0650]

[0652] Casi todas las muestras de mapeo fino de WGS (96 %) se incluyeron en muestras de descubrimiento de GWAS. Tan sólo el 30 % de las muestras de WES se incluyeron en las muestras de GWAS o WGS.

[0653] Tal como se muestra en la figura 1, se descubrió una intensa señal de asociación novedosa entre LDL y un locus en el cromosoma 9p. El principal SNP asociado era rs855453 (p=2,2E-08) y tenía una frecuencia del 15 % en los amish y del 25 % en la población general. El alelo secundario 'T' estaba asociado con un nivel de LDL 10 mg/dl inferior. Por tanto, este SNP de GWAS es común tanto en sujetos amish como no amish y tiene un gran tamaño de efecto, pero no se ha identificado nunca en ninguno de los grandes metaanálisis de GWAs . Estas características coinciden con las de estudios anteriores(APOC3yLIPE),y, basándose en eso, se concluyó que este SNP de GWAS no era la variante causal/funcional en esta región, sino que más bien estaba en desequilibrio de ligamiento (LD) con otra variante que es poco frecuente en la población general pero común en la población amish. Además, múltiples estudios basados en 5 cruces independientes de múltiples razas también encontraron que la región sinténica del genoma de rata, ubicada en el cromosoma 5 de rata, alberga un QTL para el nivel de colesterol y triglicéridos en suero (The Rat Genome Database (RGD). Scl12.26. 35. 44, 54 y Stl 28).

[0654] Confirmación usando secuenciación del exoma completo (WES):

[0655] Posteriormente se usó WES sometido a QC de alta calidad para 4.565 individuos amish, cuyas características básicas se muestran en la tabla 1. Los resultados de un análisis del exoma completo de modelo mixto de LDL identificaron la variante de cambio de sentidoB4GALT1rs551564683 como la asociación más significativa con un valor de p de 3,3E-18 y un tamaño de efecto de LDL 14,7 mg/dl inferior. La variante rs551564683 tenía una MAF del 6 % en los amish mientras que era extremadamente poco frecuente en la población general. La variante está en dbSNP sin información de frecuencia o población, no existe en la base de datos de ExAC (60.000 muestras), y sólo se encontró una copia en WGS de 15.387 sujetos no amish en el conjunto de datos de Trans-Omics for Precisión Medicine (TOPMed) de NHLBI. Además, en un conjunto de datos colectivo de otras cohortes de población disponibles para los investigadores (representando en total 125.401 individuos), tan sólo se encontraron 79 heterocigotos y 5 homocigotos de esta variante (mostrando un enriquecimiento de más de mil veces en la población amish). Esta variante de cambio de sentido está a 500 kb de la variante de GWAS con una estimación de r2 de LD de 0,5. No hay ninguna variante correlacionada de manera perfecta con rs551564683; de hecho, el siguiente SNP más significativo es rs149557496 con un valor de p de E-14. Por tanto, no sólo confirma la intensidad de la asociación de rs551564683 que el locus de GWAS del cromosoma 9 es real, sino que rs551564683 tiene todas las características esperadas de la variante casual.

[0656] Mapeo fino de la región del cromosoma 9p usando secuenciación del genoma completo (WGS):

[0657] Se usó WGS disponible en una muestra más pequeña para llenar los huecos en la secuenciación de exomas para proporcionar evidencias adicionales de que rs551564683 es causal. Se generaron datos de WGS para 1083 OOA como parte del programa de TOPMed. Las características básicas de las muestras de WGS se muestran en la tabla 1. WGS captura todos los SNP e indeles (inserción/deleción) (tanto codificantes como no codificantes) que pueden estar correlacionados con las variantes principales en la región de interés. Dado que las variantes principales tienen una frecuencia de ~6 %, es muy poco probable que haya lecturas de secuencias insuficientes para hacer que el lector de variante omita una variante. Sin embargo, puede haber variantes excluidas durante el procedimiento de QC. Investigando las variantes que no pasaron el QC, se añadieron 2 variantes adicionales en el análisis. El análisis de asociación identificó el SNP de cambio de sentido (N352S) rs551564683 en el genB4GALT1como la variante asociada de manera más significativa con LDL en esta región con un valor de p de 2,9E-06 y un tamaño de efecto de -16,4 mg/dl (véase la tabla 2).

[0658] Tabla 2: niveles de LDL medios (n) (mg/dl) mediante genotipo que contiene rs551564683 en OOA

[0661]

[0663] El conjunto de datos de WGS de TOPMed proporcionó 20 variantes asociadas con LDL con valores de p de desde 2,9E-06 hasta 2,5E-05, y se correlacionaron altamente, pero no de manera perfecta, con el resultado principal rs551564683 (r2 = 0,83-0,94) (véase rojo en la figura 2). El análisis condicional ajustando para rs551564683 eliminó completamente la señal de asociación de las 20 variantes y no reveló ninguna otra señal en esta región, implicando intensamente una única variante causal.

[0664] Investigando cuidadosamente estas 20 variantes (véase rojo en la figura 2), se dividieron las variantes en 2 grupos: 7 variantes rojas dentro del triángulo sombreado y 13 variantes rojas sin sombrear. Las 7 variantes rojas en el triángulo sombreado estaban casi completamente correlacionadas entre sí y tenían una r2 de 0,83 con el resultado principal rs551564683. Estas 7 variantes se excluyeron de manera segura como causales/funcionales basándose en tres motivos: 1) eran relativamente comunes fuera de OOA (maf >1 %), 2) no mostraban ninguna asociación con LDL en 3877 muestras del estudio de Framingham del corazón (FHS) dentro de TOPMed, y 3) una de estas 7 variantes tenía un valor de p de asociación con LDL de 6,3E-14 frente a 3,3E-18 para el resultado principal rs551564683 en los datos de WeS de 4.565 sujetos de OOA.

[0665] Otro grupo de variantes en el rectángulo sombreado en la figura 2 también tenían valores de p de asociación de tan sólo aproximadamente 10E-6 y se correlacionaban completamente entre sí y tenían una r2 de 0,68 con el resultado principal rs551564683. También se excluyó este grupo como causal/funcional porque eran comunes fuera de OOA (maf de ~4 %), y no mostraban ninguna asociación con LDL en 3877 muestras de FHS dentro de TOPMed.

[0666] Quedaban el resultado principal rs551564683 y 13 variantes rojas sin sombrear en la figura 2, que se extendían más de 4 Mb en el brazo corto del cromosoma 9 desde 31,5 Mb hasta 35,5 Mb. Tal como se describió anteriormente, estas 13 variantes estaban casi completamente correlacionadas entre sí y tenían una r2 de 0,91-0,94 con el resultado principal rs551564683. Entre estas variantes, el resultado principal rs551564683 era la única variante codificante, y se clasificó como dañina o perjudicial mediante 5 de 9 algoritmos que predicen el efecto de una variante sobre la función de proteínas. El resultado principal rs551564683 y estas 13 variantes tenían una maf del 6 % en OOA mientras que eran casi inexistentes en la población general.

[0667] Análisis de haplotipo:

[0668] Una r2 imperfecta entre loci distintos es un resultado de acontecimientos de recombinación. Se emprendió un análisis detallado de los 14 haplotipos de SNP primarios. La figura 3 muestra 3 haplotipos principales en esta región de 4 Mb. Hay 115 sujetos (1 homocigoto, y 114 heterocigotos) con el haplotipo A, que tenían genotipos idénticos en los 14 SNP, que no proporcionaron ninguna información en cuanto a qué SNP podía ser causal. Seis sujetos tenían el haplotipo B, que contenía genotipos heterocigóticos en rs551564683 más 4 SNP en el sentido de 5', y 7 sujetos tenían el haplotipo C, que contenía genotipos heterocigóticos en rs551564683 más 9 SNP en el sentido de 3'. Los haplotipos B y C recombinantes se agruparon en sujetos relacionados, proporcionando evidencias de que no son artefactos de error de genotipado. La tabla 3 muestra los valores de p de rs551564683 después de añadir individuos con los haplotipos B y C en un único grupo en comparación con individuos con el haplotipo A.

[0669] Tabla 3: resultados de análisis de haplotipo

[0672]

[0674] Añadir cada uno de los haplotipos B y C de manera individual mejoró el valor de p y añadir ambos mejoró el valor de p aún más. Los valores de p mejorados indicaron que ambos haplotipos B y C portan el alelo causal. El único SNP en común entre B y C fue rs551564683, que se consideró que era la variante causal.

[0675] El trastorno congénito de glicosilación de B4GALT1 respalda el papel funcional de rs551564683:

[0676] Se realizó un estudio de asociación del fenotipo completo (PheWAS) para someter a prueba la asociación de rs551564683 con todos los rasgos en la base de datos amish. La asociación más fuerte después de LDL (p=3,3E-18) y colesterol total (p=3,0E-18) se encontró con aspartato transaminasa (AST) (p=3,0E-8) en la que los homocigotos de alelo secundario tenían un aumento de dos veces en los niveles de AST con respecto a los homocigotos de tipo natural. Anteriormente se notificó AST superior en un caso de trastorno congénito de glicosilación (CGD) provocado por una inserción de desplazamiento del marco enB4GALT1que dio como resultado una proteína disfuncional truncada. Además, se observó una fuerte asociación con los niveles de fibrinógeno (p=5,0E-4) en los que el nivel de homocigoto secundario era aproximadamente un 20 % inferior al tipo natural, compatible con un defecto de coagulación de la sangre en el mismo paciente con CDG. Además, en un experimento pequeño, se encontró un aumento del 50 % (p=0,02) en los niveles de creatina cinasa en suero en 13 homocigotos de alelo secundario en comparación con 13 homocigotos de tipo natural. Esta sistematicidad en el fenotipo asociado con el SNP de cambio de sentido y los provocados por una inserción de truncamiento enB4GALT1refuerza adicionalmente las evidencias de que el SNP deB4GALT1rs551564683 es el gen y la variante causales/funcionales en esta región.

[0677] La asociación entre fracciones secundarias de lípidos y rs551564683 se examinó en un subconjunto de 759 individuos amish, y se encontró una asociación con niveles inferiores de casi todas las fracciones secundarias con valores de p significativos o no significativos, tal como se muestra en la tabla 4.

[0678] La puntuación de calcificación coronaria, la puntuación de calcificación aórtica, y la grasa pericárdica mostraron una tendencia de asociación con niveles inferiores, pero con valores de p no significativos.

[0679] PheWAS también encontró que rs551564683 estaba asociado con creatinina superior y eGFR inferior, así como hematocrito superior y basófilos inferiores.

[0680] Tabla 4: asociación entre rs551564683 y fracciones secundarias de lípidos en 759 individuos de OOA

[0683]

[0685] Ejemplo 2: preparación de muestras y secuenciación

[0686] Se obtuvieron concentraciones de muestras de ADN genómico a partir de los sujetos amish, y después se transfirieron a una instalación interna y se almacenaron a -80 °C (LiCONiC TubeStore) hasta el análisis de secuencia. Se determinó la cantidad de muestra mediante fluorescencia (Life Technologies) y se evaluó la calidad haciendo pasar 100 ng de muestra en un gel de agarosa previamente colado al 2 % (Life Technologies).

[0687] Se normalizaron las muestras de ADN y se sometió una muestra de cada una a cizalladura hasta una longitud de fragmento promedio de 150 pares de bases usando energía acústica enfocada (Covaris LE220). Se preparó el ADN genómico sometido a cizalladura para la captura de exoma con un kit de reactivos personalizado de Kapa Biosystems usando un enfoque completamente automatizado desarrollado de manera interna. Se añadió un código de barras de 6 pares de bases único a cada fragmento de ADN durante la preparación de la biblioteca para facilitar la captura y secuenciación de exoma multiplexadas. Se combinaron cantidades iguales de muestra antes de la captura de exoma en el diseño xGen disponible de IDT con algunas modificaciones. Se secuenciaron las muestras multiplexadas usando secuenciación de extremos emparejados de 75 pb en un dispositivo Illumina v4 HiSeq 2500. Datos de secuencias sin procesar generados en la plataforma Illumina Hiseq 2500 se subieron al recurso informático de alto rendimiento en DNAnexus (DNAnexus Inc., Mountain View, CA), y flujos de trabajo automatizados procesaron los archivos .bcl sin procesar para dar determinaciones de variantes anotadas. Se asignaron lecturas sin procesar a muestras apropiadas para su análisis basándose en códigos de barras específicos de muestra usando el software CASAVA (Illumina Inc., San Diego, CA).

[0688] Después se alinearon las lecturas específicas de muestra con la secuencia de referencia usando BWA-mem (Li y Durbin, Bioinformatics, 2009, 25, 1754-1760). Esto produjo un archivo de alineación binario (BAM) para cada muestra con todas las lecturas de una muestra particular y las coordenadas genómicas a las que se mapeaba cada lectura. Una vez alineadas, se evaluaron las lecturas de una muestra para identificar y marcar lecturas duplicadas con la herramienta Picard MarkDuplicates (picard.sourceforge.net), produciendo un archivo de alineación con cada lectura duplicada marcada (duplicatesMarked.BAM).

[0689] Después se usó el kit de herramientas de análisis del genoma (GATK) (Van der Auwera, Cur. Protocols in Bioinformatics, 2013, 11, 11-33; McKenna, Genome Res., 2010, 20, 1297-1303) para llevar a cabo una realineación local de las lecturas alineadas y marcadas como duplicadas de cada muestra. Después se usó HaplotypeCaller de GATK para procesar las lecturas realineadas, marcadas como duplicadas, y para identificar todas las posiciones exónicas en las que la muestra varía con respecto a la referencia de genoma, incluyendo variaciones de un único nucleótido e indeles, y la cigosis de la variante dentro de una muestra en cualquier posición en la que esa muestra particular difiere de la referencia.

[0690] Se emitieron, en cada sitio variante, métricas asociadas, incluyendo recuentos de lecturas asignados al alelo tanto de referencia como alternativo, calidad de genotipo que representa la confianza de la determinación de genotipo, y la calidad global de la determinación de variante en esa posición. Después se empleó la recalibración de la puntuación de calidad de variante (VQSR) de GATK para evaluar la puntuación de calidad global de las variantes de una muestra usando conjuntos de datos de entrenamiento para evaluar y recalcular esta puntuación para aumentar la especificidad. Se capturaron datos estadísticos de métricas para cada muestra para evaluar el rendimiento de captura, rendimiento de alineación, y determinación de variante. Tras completarse la secuenciación de cohortes, se generó una VCF a nivel de proyecto mediante genotipado conjunto usando GATK para producir el genotipo y la información de métrica asociada para todas las muestras en cualquier sitio en el que cualquier muestra en la cohorte porte una variante con respecto al genoma de referencia. Esta VCF a nivel de proyecto fue lo que se usó para los análisis estadísticos posteriores. Además de VQSR, se anotaron variantes con la métrica de calidad por profundidad (QD) usando GATK, y se conservaron para su análisis adicional variantes bialélicas con QD >2,0, tasas de omisión <1 %, y con valores de p de equilibrio de Hardy-Weinberg >1,0 * 10'6.

[0691] Antes del análisis de datos de secuencia posterior, se excluyeron muestras con sexo notificado que no concordaba con el sexo determinado genéticamente, muestras con altas tasas de heterocigosis, baja cobertura de secuencia (definido como cobertura de 20X de menos del 75 % de las bases seleccionadas como diana), o grado inusualmente alto de relación críptica, y duplicados de muestras identificados genéticamente.

[0692] Se anotaron variantes de secuencia usando un esquema de anotación que usa ANNOVAR (Wanget al.,Nuc. Acids Res., 2010, 38, e164) y otros algoritmos personalizados para la anotación y el análisis. Se clasificaron variantes según sus posibles efectos funcionales, y posteriormente se filtraron mediante sus frecuencias observadas en bases de datos de control de población públicamente disponibles, y bases de datos con el fin de eliminar mediante filtración polimorfismos comunes y variantes de alta frecuencia, probablemente benignas. Se incorporaron algoritmos para la predicción bioinformática de efectos funcionales de variantes junto con puntuaciones de conservación basándose en alineaciones de múltiples especies como parte del procedimiento de anotación de variantes y se usaron para informar sobre el posible efecto perjudicial de variantes candidatas identificadas.

[0693] Ejemplo 3: la frecuencia deB4GALT1rs551564683 N352S está enriquecida en los amish

[0694] Mediante secuenciación de exomas y análisis de asociación en ~4700 sujetos amish, se encontró que rs551564683 en el cromosoma 9 estaba altamente asociado con los niveles de colesterol total (p=1,3E-10) (véase la figura 4). rs551564683 codifica para una variante de cambio de sentido en la que se cambia la serina por asparagina en la posición 352 en la proteína B4GALT1. La siguiente variante más altamente asociada con LDL en la región era rs149557496 con un valor de p de tan sólo 10'5, lo que sugiere que la variante N352S es la variante causante más probable. Haciendo específicamente referencia a la figura 4, en datos de secuencia de exoma, la variante con mayor LD con Asn352SerB4GALT1era rs149557496 en HRCT1, a 2,8 Mb de distancia, R2 de 0,78, valor de p con LDL en amish de 10'5. Los datos de secuencia del genoma completo en los amish (TOPMED) no lograron identificar una variante más altamente asociada con LDL-C en esta región.

[0695] Un análisis adicional reveló que la frecuencia de la varianteB4GALT1N352S estaba enriquecida más de mil veces en la población amish (véase la figura 5). Los datos mostraron que, en la cohorte de 4725 amish, se identificaron 548 portadores heterocigóticos para el alelo que contiene rs551564683, y 13 portadores eran homocigóticos para el alelo (véase la figura 5). En comparación, se analizó un conjunto de datos colectivo de otras cohortes de población disponibles para los investigadores (representando en total 125.401 individuos), y sólo se identificaron 79 heterocigotos y 5 homocigotos en este conjunto de datos colectivo. Se estimó que la frecuencia de alelo en la cohorte amish era de aproximadamente 0,06, en comparación con aproximadamente 0,0025 en el conjunto de datos colectivo (véase la figura 5). Se cree que la deriva genética puede explicar la frecuencia superior de este alelo en los amish.

[0696] Ejemplo 4:B4GALT1N352S se asocia con lípidos séricos reducidos y AST aumentada

[0697] Se evaluó la asociación de la variación deB4GALT1N352S con diversos fenotipos, incluyendo lípidos séricos, arteriopatía coronaria (CAD), y rasgos hepáticos. Se llevaron a cabo las asociaciones basándose en la cohorte amish, con individuos que eran homocigóticos para el alelo de referencia, que eran heterocigóticos para el alelo alternativo, y que eran homocigóticos para el alelo alternativo. Se determinaron las medias genotípicas para los rasgos de lípidos y hepáticos y el riesgo de CAD, ajustándose las medidas de efecto eliminando los efectos de la edad del sujeto y la edad al cuadrado, sexo del sujeto, y estudio (dado que los datos de fenotipo se recopilaron a partir de varios estudios a lo largo de un periodo de años). En el caso de grasa pericárdica, las medias genotípicas se ajustaron adicionalmente para el IMC. Se midieron los tamaños de efecto de la variación sobre los fenotipos medidos al intervalo de confianza del 95 %. Los rasgos y los resultados se presentan en la figura 6, la figura 7, y la figura 8.

[0698] Tal como se muestra en la figura 6, la presencia de la variación N352S se correlacionó generalmente con lípidos séricos reducidos, particularmente para los niveles de colesterol total (valor de p de 1,3 * 10-10) y de LDL (valor de p de 1,8 * 10-9), que lograron una fuerte significación estadística. Los individuos heterocigóticos y homocigóticos para esta alteración mostraron una reducción de 17,3 mg/dl y 31,2 mg/dl, respectivamente, para los niveles de LDL. Hubo una tendencia entre la variante y calcificación de arterias coronarias reducida. Además, la presencia de esta variación se correlacionó con niveles de aspartato aminotransferasa (AST) aumentados (valor de p de 6,0 * 10-8). Se determinó que el valor de p de modelo recesivo para los niveles de AST era de 9 * 10-23. La variación no pareció correlacionarse con niveles de alanina aminotransferasa (ALT), niveles de fosfatasa alcalina, o niveles de grasa hepática aumentados. Los niveles de colesterol, LDL, y AST se muestran gráficamente en la figura 7. En la figura 7, se muestran los niveles de colesterol, LDL, y AST para sujetos que eran homocigóticos (TT) para el alelo de referencia, heterocigóticos (CT) para el alelo alternativo, y homocigóticos (CC) para el alelo alternativo. Los valores mostrados no están ajustados. Volvieron a calcularse los valores basándose en ajustes para la edad y edad al cuadrado del sujeto, sexo, y estudio (presentado en tabla en la parte inferior de la figura 7).

[0699] También se evaluó el efecto de la alteración N352S sobre fracciones secundarias de lípidos. Estos resultados se muestran en la figura 8. Las asociaciones se llevaron a cabo basándose en la cohorte amish, con individuos que eran homocigóticos para el alelo de referencia, que eran heterocigóticos para el alelo alternativo, y que eran homocigóticos para el alelo alternativo. Los resultados en la figura 8 muestran que la alteración deB4GALT1N352S se asocia con reducciones en todas las fracciones secundarias de lípidos sometidas a prueba.

[0700] Ejemplo5: B4GALT1N352S se asocia con niveles de fibrinógeno reducidos

[0701] También se evaluó la asociación de la variación deB4GALT1N352S con los niveles de fibrinógeno en un subconjunto de muestras. En cuanto a los lípidos séricos, CAD, y rasgos hepáticos evaluados en el ejemplo 4, se llevó a cabo la asociación con niveles de fibrinógeno basándose en la cohorte de amish, con individuos que eran homocigóticos para el alelo alternativo, que eran heterocigóticos para el alelo de referencia, y que eran homocigóticos para el alelo alternativo. Se determinaron las medias genotípicas para niveles de fibrinógeno en dos subgrupos de individuos (individuos que no recibían una pauta de clopidogrel (no recibieron fármaco) e individuos que recibían una pauta de clopidogrel (que recibieron clopidogrel) y, como parte del análisis, se ajustaron los niveles medios en cada grupo eliminando los efectos de la edad y edad al cuadrado del sujeto, sexo del sujeto, y estudio. Los tamaños de efecto de la variación sobre los niveles de fibrinógeno se midieron al intervalo de confianza del 95 %. Tal como se muestra en la figura 9, la presencia de la variación N352S se asoció con niveles de fibrinógeno reducidos en cada uno de los grupos que no recibieron fármaco (valor de p de 1,15 * 10-3) y que recibieron clopidogrel (valor de p de 2,74 * 10-5). El subgrupo que no recibió fármaco mostró una reducción de aproximadamente 24 mg/dl de fibrinógeno (véase la figura 9). El subgrupo que recibió clopidogrel mostró una reducción de aproximadamente 32,5 mg/dl de fibrinógeno (véase la figura 9).

[0702] Ejemplo 6: asociaciones deB4GALT1N352S adicionales

[0703] Dentro de la cohorte amish, también se llevó a cabo la evaluación de asociaciones entre la variación deB4GALT1N352S y otros rasgos, incluyendo niveles de creatinina, tasa de filtración glomerular estimada (eGFR), niveles de basófilos, y porcentaje de hematocrito. Tal como se muestra en la figura 9, la variante se asoció débilmente con un pequeño aumento en los niveles de creatinina, pero no se asoció significativamente con eGFR, niveles de basófilos, o el porcentaje de hematocrito.

[0704] Ejemplo 7: desactivación del ortólogob4galt1en pez cebra

[0705] En paralelo con las evidencias en ensayos basados en células, se llevó a cabo un modelo de pez cebra para investigar el efecto de B4GALT1 p.Asn352Ser sobre LDL.

[0706] Cría de peces cebra, inyección de morfolino y validación

[0707] Se usaron reservas de pez cebra de tipo natural (Tubinga) para generar embriones para inyección de morfolino. Se conservaron peces adultos y se criaron a 27-29 °C y se criaron embriones a 28,5 °C. Todos los animales se alojaron y conservaron según protocolos aprobados por el Comité Institucional para el Uso y Cuidado de Animales de la Universidad de Maryland. Se obtuvieron oligonucleótidos de morfolino (MO) antisentido (Gene Tools, Inc.) basándose en MO anteriormente publicados dirigidos contra b4galt1 (Machingoet al.,Dev. Biol., 2006, 297, 471 482). Se inyectaron MO en la fase de 1-2 células y se validaron mediante cuantificación por qRT-PCR de transcrito de b4galt1 de tipo natural. Se evaluó la toxicidad inespecífica mediante cuantificación por qRT-PCR de la isoterma delta113 de p53 (Robuet al.,PLoS Genet., 2007, 3, e78). Para experimentos de rescate de ARNm, se transcribió ARNm deB4GALT1humano a partir de un vector de plásmido pCS2+ que contenía el marco de lectura abierto (ORF) de la variante de tipo natural o N352S del gen. Se mezcló ARNm con MO a diversas concentraciones y se inyectaron conjuntamente en embriones en la fase de 1-2 células. Para cada experimento de inyección, se sometieron a inyección un total de 200-400 embriones y se repitió cada experimento un mínimo de tres veces.

[0709] Cuantificación de LDL en pez cebra

[0711] Se homogeneizaron cien larvas de 5 días tras la fertilización (dpf) por cada experimento en 400 pl de hidroxitolueno butilado 10 pM helado. Se filtró el homogeneizado a través de un filtro de membrana de PVDF Dura de 0,45 pm (Millipore) en preparación para la extracción de lípidos. Usando el kit de ensayo de colesterol de LDL/VLDL y HDL (Cell Biolabs, Inc.), se procesó el homogeneizado según el protocolo del fabricante. Tras la precipitación y dilución, se analizaron muestras mediante análisis fluorimétrico usando un lector de placas SpectraMax Gemini EM y software de adquisición y análisis de datos de microplacas SoftMax Pro (Molecular Devices).

[0713] Se generó una desactivación genómica del ortólogo de pez cebra (b4galt1) usando selección como diana mediada por CRISPR/Cas9 del exón 2. De manera compatible con informes en ratón de mortalidad embrionaria en animales sometidos a desactivación, los animales F0 sometidos a inyección no eran viables hasta la edad adulta y morían sistemáticamente en estadios juveniles. Para eludir la falta de viabilidad, se empleó un enfoque de desactivación usando un oligonucleótido de morfolino (MO) antisentido de bloqueo de corte y empalme anteriormente notificado inyectado en embriones (Machingoet al.,Dev. Biol., 2006, 297, 471-482). Se validó la eficacia del MO a dos concentraciones diferentes mediante qRT-PCR (véase la figura 10) y se descartó la posibilidad de toxicidad inespecífica (véase la figura 11). Para cuantificar cambios en los niveles de LDL, se inyectaron 8 ng de MO y se cultivaron los embriones sometidos a inyección hasta 5 días tras la fertilización (dpf), momento en el cual se sometieron las larvas a ensayo para determinar el LDL total según protocolos anteriormente publicados (O'Hareet al.,J. Lipid Res., 2014, 55, 2242-2253). Se observó una reducción significativa de LDL en larvas sometidas a inyección de MO en comparación con larvas de control de manera compatible con un papel para b4galt1 en la homeostasis de LDL (véase la figura 12). Este resultado se confirmó usando un segundo M<o>de bloqueo de corte y empalme dirigido al exón 2 que producía una reducción de la concentración de LDL tras la inyección de 2 ng de MO (datos no mostrados). Para validar la especificidad de estas observaciones y para someter a prueba la funcionalidad de B4GALT1 humano en pez cebra, se generó ARNm de longitud completa con los sitios reactivos ocupados que codificaba para el gen humano mediante transcripciónin vitroa partir de un plásmido pCS2+ que portaba el marco de lectura abierto (ORF) del gen humano. Para evaluar la capacidad del ARNm humano de tipo natural para rescatar el fenotipo desactivado, se inyectó conjuntamente con MO de b4galt1 en embriones y se evaluó LDL en larvas sin alimentar. Se inyectaron conjuntamente tres concentraciones de ARNm (10 pg, 25 pg, y 50 pg) con 8 ng de MO. La inyección conjunta de 50 pg de ARNm deB4GALT1dio como resultado niveles de LDL que no podían distinguirse estadísticamente de los de larvas en las que sólo se inyectó MO de control (valor de p = 0,14), sugiriendo que el ARNm humano podía rescatar los efectos de desactivación del gen de pez cebra (véase la figura 12; se trataron las larvas con MO frente a b4galt1, MO inyectado conjuntamente con ARNm deB4GALT1humano WT (rescate de WT), o MO inyectado conjuntamente con ARNm deB4GALT1que codifica para la mutación Asn352Ser (rescate de N352S)).

[0715] Estos datos respaldan el uso de este sistema para la interpretación funcional de variantes enB4GALT1humano, y sugieren que el ARNm deB4GALT1humano de tipo natural es funcional en pez cebra con respecto a la regulación de los niveles de LDL sistémicos. Se investigó adicionalmente el impacto de p.Asn352Ser sobre la función deB4GALT1.Usando mutagénesis dirigida al sitio (O'Hareet al.,Hepatology, 2017, 65, 1526-1542), se introdujo un cambio de T a C en la secuencia codificante del constructo de ORF deB4GALT1humano para generar ARNm de longitud completa. La inyección conjunta del ARNm deB4GALT1p.352Ser con MO dio como resultado una capacidad reducida de rescate del fenotipo de LDL. La concentración de LDL resultante fue un 15% inferior a la resultante de la inyección conjunta de ARNm de tipo natural con MO, un efecto estadísticamente significativo (39,9 pM en comparación con 46,6 pM, valor de p = 0,02). Sin embargo, este nivel de LDL también fue estadísticamente mayor que MO de b4galt1 por sí solo (valor de p = 0,01) (véase la figura 12), lo que sugiere un defecto parcial en la función introducido por la variante de cambio de sentido.

[0717] Ejemplo 8: genotipado dirigido

[0719] Se realizó un genotipado de SNP dirigido usando el sistema QuantStudio (Thermo Fisher Scientific) para 3.236 sujetos de OOA. Basándose en la estructura de LD de los 14 SNP, se seleccionaron siete SNP para el genotipado, y la evidencia de asociación para rs551564683 fue de 4,1E-13, mientras que fue de aproximadamente E-10 para otros SNP (figura 14), confirmando que rs551564683 es la variante causal en esta región.

[0721] Ejemplo 9:B4GALT1N352S provoca actividad enzimática reducida en ausencia de cambio en la localización celular o estabilidad de proteína

[0722] Se llevaron a cabo investigaciones de las propiedades de B4GALT1 en células COS-7 y Huh7 que sobreexpresaban Flag-B4GALT1 352Asn marcado con epítopo o Flag-B4GALT1 352Ser marcado con epítopo humano (figuras 15 y 16). Haciendo referencia a la figura 15, imágenes de microscopía confocal de Flag-352Asn o Flag-352Ser usando anticuerpos frente a B4GALT1 o Flag indican un patrón idéntico de tinción (barras de escala = 10 |jm). Haciendo referencia a la figura 16, la localización subcelular mediante inmunofluorescencia indirecta de células Huh7 mostró una localización conjunta de B4GALT1 expresado de manera endógena y TGN56, un marcador del aparato de Golgi. Se observó un patrón de localización conjunta similar ya se sobreexpresara Flag-B4GALT1 352Asn marcado con epítopo o Flag-B4GALT1 352Ser marcado con epítopo humano (figura 16). Haciendo referencia a la figura 16, B4GALT1 endógeno, Flag-352Asn, y Flag-352Ser sobreexpresados en células Huh7 de hepatoma humanas se localizaron conjuntamente con el marcador de red trans-Golgi TGN46. Se muestran imágenes de microscopía confocal de la localización subcelular de B4GALT1 endógeno, Flag-352Asn, y Flag-352Ser con respecto al marcador de red trans-Golgi TGN46, con barras de escala = 10 jm.

[0724] Se observó que células COS-7 tenían un bajo contenido en B4GALT1 endógeno (figura 17, panel B), de modo que se usó esta línea celular para evaluar el efecto de la mutación de cambio de sentido sobre la estabilidad de proteína y/o los niveles en estado estacionario, y la actividad galactosiltransferasa. Los resultados mostraron que la mutación de cambio de sentido no afecta a la estabilidad de proteína y/o los niveles en estado estacionario (mediante inmunotransferencia de tipo Western) (figura 17). Haciendo referencia a la figura 17, se muestra el efecto de 352Ser sobre la estabilidad de proteína y/o los niveles en estado estacionario. El panel A muestra células COS7 que expresan la fusión de proteínas de etiqueta Flag o bien 352Asn o bien 352Ser con EGFP libre que se expresó en células COS7. Se analizaron lisados celulares mediante inmunotransferencia de tipo Western para detectar B4GALT1, bactina, y EGFP usando anticuerpos comerciales. Se muestra uno de cuatro experimentos similares. El panel B muestra niveles de expresión de ARNm para el genB4GALT1determinados mediante análisis de RT-qPCR. Los datos representan medias ± E.E. de 4 experimentos.

[0726] Para determinar la actividad catalítica de 352Ser, se analizaron lisados de células COS-7 no transfectadas y células COS-7 transfectadas con el vector de expresión solo o que contenía el inserto de ADNc de B4GALT1 de tipo natural o mutante para detectar actividad galactosiltransferasa. Cuando se normalizó con respecto a la expresión de proteína marcada con FLAG (experimento de inmunotransferencia en la figura 18, paneles A y B), la actividad enzimática de 352Ser se redujo en aproximadamente el 50% en comparación con 352Asn (figura 18, panel C). Haciendo referencia a la figura 18, se muestra el efecto de la mutación 352Ser sobre la actividad. Los paneles A y B muestran células COS7 que expresan la fusión de proteínas con etiqueta Flag o bien 352Asn o bien 352Ser expresada en células COS7. Se incubaron lisados celulares con IgG de conejo anti-Flag o IgG de control preinmunitario de conejo. Se analizaron inmunoprecipitados mediante inmunotransferencia de tipo Western para detectar B4GALT1 o Flag usando anticuerpos comerciales. Se muestra uno de cuatro experimentos similares. El panel C muestra la actividad de B4GALT1 en los inmunoprecipitados medida con un kit comercial (R&D). Cada punto de datos representa el promedio de la razón calculada de actividad específica de B4GALT1 con la cantidad de proteína 352Asn o 352Ser recuperada en los inmunoprecipitados. Se cuantificaron señales de inmunotransferencias de tipo Western ECL mediante densitometría usando el software ImageJ. Los datos representan medias ± E.E. de 4 experimentos (*, p <0,05, 352Asn frente a 352Ser).

[0728] Estos experimentos muestran que esta mutación de cambio de sentido no tiene ningún efecto sobre el nivel de expresión de proteína y su localización, pero conduce a una actividad enzimática inferior.

[0730] Ejemplo 10: transferrina deficiente en hidratos de carbono para prueba de trastornos congénitos de glicosilación (CDG)

[0732] La prueba de CDG se realizó usando 0,1 ml de muestras de suero de 24 sujetos de los 3 grupos de genotipo (8 homocigotos secundarios, 8 heterocigotos y 8 homocigotos principales). Cada homocigoto secundario se hizo coincidir con un heterocigoto y un homocigoto principal que o bien son parientes o bien son individuos del mismo sexo estrechamente relacionados basándose en el coeficiente de grado de parentesco. También se hicieron coincidir la edad, y el estado de portador, para alelos génicos de alteración de lípidos principales en APOBR3527Q.

[0733] Se lavaron dos veces muestras diluidas en agua usando una columna de inmunoafinidad. Se realizó la determinación del perfil de glicosilación de proteínas eluidas usando un espectrómetro de masas que se hizo funcionar con 2 intervalos de exploración específicos para APOCIII y transferrina. Se usaron razones de glicoformas de cada proteína para determinar la deficiencia de glicosilación. La prueba de CDG se realizó en el laboratorio médico Mayo de la clínica Mayo.

[0735] Los resultados mostraron que las 24 muestras tenían niveles normales de la razón de transferrina de monooligosacárido/di-oligosacárido, la razón de transferrina de a-oligosacárido/di-oligosacárido, la razón de ApoClll-1/ApoClll-2, y la razón de ApoClll-0/ApoClll-2. Sin embargo, aunque todas las muestras de tipo natural tenían niveles normales de la razón de transferrina de tri-sialo/di-oligosacárido, el nivel en todos los heterocigotos estaba en el intervalo intermedio y el nivel en todos los homocigotos secundarios era anómalo y significativamente superior al de tipo natural y heterocigotos coincidentes (p=7,6E-10) (figura 19). Estos resultados muestran que esta mutación de cambio de sentido está asociada con glicosilación defectuosa como resultado de la actividad enzimática reducida de B4GALT1.

[0737] Ejemplo 11: análisis de glicanos unidos en N globales de glicoproteínas plasmáticas

[0739] Para determinar si la desialilación y la hipogalactosilación afectan únicamente a la transferrina o se extienden a otras glicoproteínas, se realizó un análisis de N-glicanos globales por el grupo de química analítica en Regeneron. Se extrajeron glicoproteínas enriquecidas por lectina a partir de suero de 5 pares de homocigotos principales y secundarios por duplicado, y se realizó una separación de glicanos unidos en N globales para detectar glicanos marcados usando cromatografía de interacción hidrófila y se detectaron mediante fluorescencia y se analizaron mediante espectrometría de masas (HILIC-FLR-MS) (figura 20 y tabla 5). Haciendo referencia a la figura 20, se muestra un espectro de HILIC-FLR-MS representativo del análisis de N-glicanos de glicoproteína a partir de un par coincidente de homocigotos secundario (SS) y principal (NN) deB4GALT1N352S. Los resultados mostraron que los homocigotos secundarios tienen niveles significativamente superiores de glicanos hipogalactosilados y menos sialilados incluyendo glicanos biantenarios con tan sólo una galactosa y un ácido siálico (p=3,1E-5), glicanos biantenarios asialilados con una galactosa (p=0,001), y glicanos biantenarios truncados a los que les faltan tanto galactosas como ácidos siálicos (p=0,005). Por otro lado, los homocigotos secundarios tienen niveles significativamente inferiores (p=0,001) de glicanos biantenarios con dos galactosas y dos ácidos siálicos (tabla 5). Había una galactosilación (p=9,2E-5) y sialilación (p=0,001) globales significativamente inferiores entre homocigotos secundarios, mientras que no había ninguna diferencia en el nivel de fucosilación (p=0,5). Tanto CDT como el análisis de N-glicanos globales de suero muestran niveles significativamente aumentados de glicoproteínas deficientes en hidratos de carbono en homocigotos secundarios, indicando queB4GALT1N352S conduce a glicosilación de proteínas defectuosa.

[0741] Tabla 5: media (±de) del área de pico en % de glicanos significativamente diferentes entre homocigotos secundario y principal

[0744]

Claims

1. REIVINDICACIONES

1. Molécula de ácido nucleico aislada que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 1, siempre que la secuencia de ácido nucleico comprenda un codón correspondiente a las posiciones 53575 a 53577 de SEQ ID NO: 1 que codifica para una serina, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

2. Molécula de ácido nucleico aislada, que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 4, siempre que la secuencia de ácido nucleico comprenda un codón que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

3. Molécula de ácido nucleico aislada según la reivindicación 2, en la que la secuencia de ácido nucleico es idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a una porción de SEQ ID NO: 4 que comprende los exones 1 a 6 del genB4GALT1.

4. Molécula de ácido nucleico aislada, que comprende una secuencia de ácido nucleico que codifica para un polipéptido idéntico en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, siempre que el polipéptido comprenda una serina en la posición 352, en la que la molécula de ácido nucleico está asociada con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

5. Molécula de ácido nucleico aislada según la reivindicación 4, en la que la secuencia de ácido nucleico codifica para la secuencia de polipéptido de SEQ ID NO: 8.

6. ADNc que codifica para una proteína beta-1,4-galactosiltransferasa 1 (B4GALT1) humana, que comprende una secuencia de ácido nucleico idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 6, siempre que la secuencia de ácido nucleico codifique para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en el que el ADNc está asociado con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

7. ADNc según la reivindicación 6, en el que la secuencia de ácido nucleico comprende SEQ ID NO: 6.

8. Polipéptido aislado, que comprende una secuencia de aminoácidos idéntica en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a un polipéptido variante de B4GALT1 que tiene SEQ ID NO: 8, siempre que el polipéptido comprenda una serina correspondiente a la posición 352 de SEQ ID NO: 8, en el que el polipéptido está asociado con un riesgo reducido de desarrollar alteraciones cardiovasculares incluyendo niveles elevados de lípidos séricos, y niveles elevados de fibrinógeno, calcificación de arterias coronarias, arteriopatía coronaria (CAD), y niveles aumentados de aspartato aminotransferasa (AST).

9. Método de detección de una molécula de ácido nucleico variante deB4GALT1en un sujeto humano, que comprende someter a ensayo una muestra obtenida a partir del sujeto para determinar si una molécula de ácido nucleico en la muestra comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, en el que el ensayo comprende:

a) secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2;

b) secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la

muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o

c) secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

10. Método de determinación de la propensión de un sujeto humano a desarrollar una alteración cardiovascular, que comprende:

a) someter a ensayo una muestra obtenida a partir del sujeto para determinar si una molécula de ácido nucleico en la muestra comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, y b) clasificar al sujeto humano como que presenta un riesgo reducido de desarrollar la alteración cardiovascular si la molécula de ácido nucleico comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro, o clasificar al sujeto humano como que presenta un riesgo aumentado de desarrollar la alteración cardiovascular si la molécula de ácido nucleico no comprende una secuencia de ácido nucleico que codifica para una serina en la posición correspondiente a la posición 352 del polipéptido B4GALT1 de longitud completa/maduro;

en el que el ensayo comprende:

i) secuenciar una porción de la secuencia genómica deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 53575 a 53577 de SEQ ID NO: 2;

ii) secuenciar una porción de la secuencia de ARNm deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1243 a 1245 de SEQ ID NO: 4; o

iii) secuenciar una porción de la secuencia de ADNc deB4GALT1de una molécula de ácido nucleico en la muestra, en el que la porción secuenciada incluye posiciones correspondientes a las posiciones 1054 a 1056 de SEQ ID NO: 6.

11. Método según la reivindicación 10, en el que la alteración cardiovascular comprende un nivel elevado de uno o más lípidos séricos, niveles elevados de calcificación de arterias coronarias, niveles elevados de grasa pericárdica, un estado aterotrombótico, niveles elevados de fibrinógeno, o un coágulo sanguíneo que se ha formado debido a la actividad del fibrinógeno.

12. Método según la reivindicación 11, en el que los lípidos séricos comprenden uno o más de colesterol, LDL, HDL, triglicéridos, colesterol de HDL, y colesterol distinto de HDL.

13. Método para modificar una célula, que comprende introducir (i) un vector de expresión en la célula, en el que el vector de expresión comprende un genB4GALT1recombinante que comprende una secuencia de nucleótidos que codifica para una serina insertada en posiciones correspondientes a las posiciones 53575 a 53577 de s Eq ID NO: 2, o (ii) un vector de expresión, en el que el vector de expresión comprende una molécula de ácido nucleico que codifica para un polipéptido B4GALT1, y

en el que el polipéptido B4GALT1 es idéntico en al menos aproximadamente el 90%, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, y comprende una serina en la posición 352 correspondiente a s Eq ID NO: 8, y en el que el genB4GALT1recombinante o la molécula de ácido nucleico que codifica para un polipéptido B4GALT1 está asociado con niveles inferiores de colesterol de lipoproteínas de baja densidad (LDL), colesterol total, y fibrinógeno y eGFR, y un nivel aumentado de aspartato transaminasa (AST).

14. Método para modificar una célula, que comprende introducir un polipéptido B4GALT1, o fragmento del mismo, en la célula, en el que el polipéptido B4GALT1 es idéntico en al menos aproximadamente el 90 %, al menos aproximadamente el 95 %, al menos aproximadamente el 98 %, o al menos aproximadamente el 99 % a SEQ ID NO: 8, y comprende una serina en la posición 352 correspondiente a SEQ ID NO: 8, y en el que el polipéptido está asociado con niveles inferiores de colesterol de lipoproteínas de baja densidad (LDL), colesterol total, y fibrinógeno y eGFR, y un nivel aumentado de aspartato transaminasa (AST).