ES2970865T3

ES2970865T3 - Identificación, fabricación y uso de neoantígenos

Info

Publication number: ES2970865T3
Application number: ES16876766T
Authority: ES
Inventors: Roman Yelensky; Adnan Derti; Brendan Bulik-Sullivan; Jennifer Busby
Original assignee: Gritstone Bio Inc
Current assignee: Gritstone Bio Inc
Priority date: 2015-12-16
Filing date: 2016-12-16
Publication date: 2024-05-31
Anticipated expiration: 2036-12-16
Also published as: US20180330055A1; MX2023014124A; US10847252B2; IL259931B1; JP2022133271A; KR20250164855A; US10055540B2; RU2018124997A; CO2018007417A2; WO2017106638A1; US10847253B2; US20170199961A1; US11183286B2; CN108601731A; JP2019501967A; PH12018501267A1; IL259931A; EP3389630A1; AU2023204618B2; US20210166784A1

Abstract

En el presente documento se divulga un sistema y métodos para determinar los alelos, los neoantígenos y la composición de la vacuna según se determina en base a las mutaciones tumorales de un individuo. También se describen sistemas y métodos para obtener datos de secuenciación de alta calidad de un tumor. Además, en el presente documento se describen sistemas y métodos para identificar cambios somáticos en datos del genoma polimórfico. Finalmente, en el presente documento se describen vacunas contra el cáncer únicas. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Identificación, fabricación y uso de neoantígenos

Referencia cruzada a aplicaciones relacionadas

Esta solicitud reivindica el beneficio y la prioridad de la Solicitud Provisional de los Estados Unidos 62/268,333, presentada el 16 de diciembre de 2015, la Solicitud Provisional de los Estados Unidos 62/317,823, presentada el 4 de abril de 2016, la Solicitud Provisional de los Estados Unidos 62/379,986, presentada el 26 de agosto de 2016, la Solicitud Provisional de los Estados Unidos 62/394,074, presentada el 13 de septiembre de 2016, y la Solicitud Provisional de los Estados Unidos 62/425,995, presentada el 23 de noviembre de 2016.

Antecedentes

Las vacunas terapéuticas basadas en neoantígenos específicos de tumores son muy prometedoras como inmunoterapia personalizada contra el cáncer de próxima generación.1-3 Los cánceres con una alta carga mutacional, tales como el cáncer de pulmón de células no pequeñas (NSCLC) y el melanoma, son objetivos particularmente atractivos de dicha terapia dada la probabilidad relativamente mayor de generación de neoantígenos.45 La evidencia preliminar muestra que la vacunación basada en neoantígenos puede provocar respuestas de células T6 y que la terapia celular dirigida a neoantígenos puede provocar la regresión del tumor en determinadas circunstancias en pacientes seleccionados.7

Una cuestión para el diseño de vacunas con neoantígenos es cuál de las muchas mutaciones codificantes presentes en los tumores en cuestión puede generar los "mejores" neoantígenos terapéuticos, por ejemplo, antígenos que puedan provocar inmunidad antitumoral y provocar la regresión del tumor.

Se han propuesto métodos iniciales que incorporan análisis basados en mutaciones usando secuenciación de próxima generación, expresión de genes de ARN y predicción de la afinidad de unión al MHC de péptidos neoantígenos candidatos.8 Sin embargo, estos métodos propuestos pueden no lograr modelar la totalidad del procedimiento de generación de epítopos, que contiene muchos pasos (por ejemplo, transporte TAP, escisión proteasomal y/o reconocimiento de<t>C<r>) además de la expresión génica y la unión al MHC.9 En consecuencia, es probable que los métodos existentes sufran un valor predictivo positivo (PPV) bajo y reducido. (Figura 1A)

De hecho, los análisis de péptidos presentados por células tumorales realizados por múltiples grupos han demostrado que <5 % de los péptidos que se predice que se presentarán mediante la expresión génica y la afinidad de unión al MHC se pueden encontrar en la superficie del tumor.1011 (Figura 1B). Esta baja correlación entre la predicción de la unión y la presentación del MHC se vio reforzada aún más por observaciones recientes de la falta de mejora de la precisión predictiva de los neoantígenos con unión restringida para la respuesta del inhibidor del punto de control con respecto al número de mutaciones solas.12

Este bajo valor predictivo positivo (PPV) de los métodos existentes para predecir la presentación presenta un problema para el diseño de vacunas basadas en neoantígenos. Si las vacunas se diseñan usando predicciones con un PPV bajo, es poco probable que la mayoría de los pacientes reciban un neoantígeno terapéutico y menos aún es probable que reciban más de uno (incluso suponiendo que todos los péptidos presentados sean inmunogénicos). Por tanto, es poco probable que la vacunación con neoantígenos con los métodos actuales tenga éxito en un número sustancial de sujetos que tienen tumores. (Figura 1C)

Además, los enfoques anteriores generaron neoantígenos candidatos usando solo mutaciones que actúan en cis, y en gran medida ignoraron fuentes adicionales de neo-ORF, incluidas mutaciones en factores de empalme, que ocurren en múltiples tipos de tumores y conducen a un empalme aberrante de muchos genes.13 y mutaciones que crean o eliminan sitios de escisión de proteasas.

Finalmente, los enfoques estándar para el análisis del genoma y transcriptoma de tumores pueden pasar por alto mutaciones somáticas que dan lugar a neoantígenos candidatos debido a condiciones subóptimas en la construcción de bibliotecas, captura de exoma y transcriptoma, secuenciación o análisis de datos. Del mismo modo, los enfoques estándar de análisis de tumores pueden promover inadvertidamente artefactos de secuencia o polimorfismos de la línea germinal como neoantígenos, lo que lleva a un uso ineficiente de la capacidad de la vacuna o al riesgo de autoinmunidad, respectivamente.

Sumario

En este documento se divulga un enfoque optimizado para identificar y seleccionar neoantígenos para vacunas contra el cáncer personalizadas. En primer lugar, se abordan enfoques optimizados de análisis del exoma y transcriptoma tumoral para la identificación de candidatos a neoantígenos mediante secuenciación de próxima generación (NGS). Estos métodos se basan en enfoques estándar para el análisis de tumores NGS para garantizar que se avancen los candidatos a neoantígenos de mayor sensibilidad y especificidad, en todas las clases de alteración genómica. En segundo lugar, se presentan enfoques novedosos para la selección de neoantígenos con alto PPV para superar el problema de la especificidad y garantizar que los neoantígenos avanzados para la inclusión en la vacuna tengan más probabilidades de provocar inmunidad antitumoral. Estos enfoques incluyen, dependiendo de la realización, regresión estadística entrenada o modelos de aprendizaje profundo no lineales que modelan conjuntamente mapeos de péptidoalelo, así como motivos por alelo para péptidos de múltiples longitudes, compartiendo fuerza estadística entre péptidos de diferentes longitudes. En particular, los modelos de aprendizaje profundo no lineales pueden diseñarse y entrenarse para tratar diferentes alelos del MHC en la misma célula como independientes, abordando así problemas con modelos lineales que harían que interfirieran entre sí. Finalmente, se abordan consideraciones adicionales para el diseño y la fabricación de vacunas personalizadas basadas en neoantígenos.

Breve descripción de las varias vistas de los dibujos

Estas y otras características, aspectos y ventajas de la presente invención se comprenderán mejor con respecto a la siguiente descripción y los dibujos adjuntos, en los que:

La figura (FIG.) 1A muestra los enfoques clínicos actuales para la identificación de neoantígenos.

La figura 1B muestra que <5 % de los péptidos unidos previstos se presentan en células tumorales.

La figura 1C muestra el impacto del problema de especificidad de predicción de neoantígenos.

La figura 1D muestra que la predicción de unión no es suficiente para la identificación de neoantígenos.

La figura 1E muestra la probabilidad de presentación del MHC-I en base a la longitud del péptido.

La figura 1F muestra un espectro de péptidos de ejemplo generado a partir del estándar de intervalo dinámico de Promega.

La figura 1G muestra cómo la adición de características aumenta el valor predictivo positivo del modelo.

La figura 2A es una descripción general de un entorno para identificar probabilidades de presentación de péptidos en pacientes, de acuerdo con una realización.

La figura 2B y 2C ilustran un método para obtener información de presentación, de acuerdo con una realización. La figura 3 es un diagrama de bloques de alto nivel que ilustra los componentes lógicos informáticos del sistema de identificación de presentación, según una realización.

La figura 4 ilustra un conjunto de ejemplo de datos de entrenamiento, según una realización.

La figura 5 ilustra un modelo de red de ejemplo en asociación con un alelo del MHC.

La figura 6 ilustra un modelo de red de ejemplo compartido por los alelos del MHC.

La figura 7 ilustra la generación de una probabilidad de presentación para un péptido en asociación con un alelo del MHC usando un modelo de red de ejemplo.

La figura 8 ilustra la generación de una probabilidad de presentación para un péptido en asociación con un alelo del MHC usando modelos de red de ejemplo.

La figura 9 ilustra la generación de una probabilidad de presentación para un péptido en asociación con alelos del MHC usando modelos de red de ejemplo.

La figura 10 ilustra la generación de una probabilidad de presentación para un péptido en asociación con alelos del MHC usando modelos de red de ejemplo.

La figura 11 ilustra la generación de una probabilidad de presentación para un péptido en asociación con alelos del MHC usando modelos de red de ejemplo.

La figura 12 ilustra la generación de una probabilidad de presentación para un péptido en asociación con alelos del MHC usando modelos de red de ejemplo.

La figura 13 ilustra los resultados de rendimiento de diversos modelos de presentación de ejemplo.

La figura 14 ilustra un ordenador de ejemplo para implementar las entidades mostradas en las figuras 1 y 3.

Descripción detallada

I. Definiciones

En general, se pretende que los términos usados en las reivindicaciones y la memoria descriptiva tengan el significado claro entendido por un experto en la técnica. Determinados términos se definen a continuación para proporcionar claridad adicional. En caso de conflicto entre el significado simple y las definiciones proporcionadas, se deben usar las definiciones proporcionadas.

Como se usa en este documento, el término "antígeno" es una sustancia que induce una respuesta inmunitaria.

Como se usa en este documento, el término "neoantígeno" es un antígeno que tiene al menos una alteración que lo distingue del correspondiente antígeno parental de tipo salvaje, por ejemplo, mediante mutación en una célula tumoral o modificación postraduccional específica de una célula tumoral. Un neoantígeno puede incluir una secuencia polipeptídica o una secuencia de nucleótidos. Una mutación puede incluir un indel con desplazamiento de marco o sin desplazamiento de marco, sustitución de sentido erróneo o sin sentido, alteración del sitio de empalme, reordenamiento genómico o fusión de genes, o cualquier alteración genómica o de expresión que dé lugar a un neoORF. Las mutaciones también pueden incluir una variante de empalme. Las modificaciones postraduccionales específicas de una célula tumoral pueden incluir una fosforilación aberrante. Las modificaciones postraduccionales específicas de una célula tumoral también pueden incluir un antígeno empalmado generado por proteasoma. Véase Liepe et al., A large fraction of HLAclass I ligands are proteasome-generated spliced peptides; Science. 21 de octubre de 2016; 354(6310):354-358.

Como se usa en este documento, el término "neoantígeno tumoral" es un neoantígeno presente en la célula o tejido tumoral de un sujeto pero no en la célula o tejido normal correspondiente del sujeto.

Como se usa en este documento, el término "vacuna basada en neoantígenos" es una construcción de vacuna basada en uno o más neoantígenos, por ejemplo, una pluralidad de neoantígenos.

Como se usa en este documento, el término "neoantígeno candidato" es una mutación u otra aberración que da lugar a una nueva secuencia que puede representar un neoantígeno.

Como se usa en este documento, el término "región codificante" es la(s) porción(es) de un gen que codifica una proteína.

Como se usa en este documento, el término "mutación codificante" es una mutación que se produce en una región codificante.

Como se usa en este documento, el término "ORF" significa marco de lectura abierto.

Como se usa en este documento, el término "NEO-ORF" es un ORF específico de tumor que surge de una mutación u otra aberración tal como el empalme.

Como se usa en este documento, el término "mutación de sentido erróneo" es una mutación que provoca una sustitución de un aminoácido por otro.

Como se usa en este documento, el término "mutación sin sentido" es una mutación que provoca una sustitución de un aminoácido por un codón de terminación.

Como se usa en este documento, el término "mutación de desplazamiento de marco" es una mutación que provoca un cambio en el marco de la proteína.

Como se usa en este documento, el término "indel" es una inserción o eliminación de uno o más ácidos nucleicos.

Como se usa en este documento, el término porcentaje de "identidad", en el contexto de dos o más secuencias de ácidos nucleicos o polipéptidos, se refiere a dos o más secuencias o subsecuencias que tienen un porcentaje específico de nucleótidos o residuos de aminoácidos que son iguales, cuando se comparan y se alinean para una correspondencia máxima, según se mide usando uno de los algoritmos de comparación de secuencias descritos a continuación (por ejemplo, BLASTP y BLASTN u otros algoritmos disponibles para personas con experiencia) o mediante inspección visual. Dependiendo de la aplicación, el porcentaje de "identidad" puede existir en una región de la secuencia que se está comparando, por ejemplo, en un dominio funcional o, alternativamente, existir en toda la longitud de las dos secuencias que se van a comparar.

Para la comparación de secuencias, por lo general una secuencia actúa como secuencia de referencia con la que se comparan las secuencias de prueba. Cuando se usa un algoritmo de comparación de secuencias, las secuencias de prueba y de referencia se ingresan en un ordenador, se designan las coordenadas de la subsecuencia, si es necesario, y se designan los parámetros del programa del algoritmo de secuencia. Luego, el algoritmo de comparación de secuencias calcula el porcentaje de identidad de secuencia para las secuencia(s) de prueba en relación con la secuencia de referencia, basándose en los parámetros del programa designados. Alternativamente, la similitud o disimilitud de secuencia se puede establecer mediante la presencia o ausencia combinada de nucleótidos particulares o, para secuencias traducidas, aminoácidos en posiciones de secuencia seleccionadas (por ejemplo, motivos de secuencia).

La alineación óptima de secuencias para comparación se puede realizar, por ejemplo, mediante el algoritmo de homología local de Smith & Waterman, Adv. Appl. Math 2:482 (1981), por el algoritmo de alineación de homología de Needleman & Wunsch, J. Mol. Biol. 48:443 (1970), por el método de búsqueda de similitud de Pearson & Lipman, Proc. Nat'l. Acad. Sci. EE UU. 85:2444 (1988), mediante implementaciones computarizadas de estos algoritmos (GAP, BESTFIT, FASTA y TFASTA en Wisconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wis.), o mediante inspección visual (ver en general Ausubel et al., infra).

Un ejemplo de un algoritmo que es apropiado para determinar el porcentaje de identidad de secuencia y similitud de secuencia es el algoritmo BLAST, que se describe en Altschul et al., J. Mol. Biol. 215:403-410 (1990). El software para realizar análisis BLAST está disponible públicamente a través del Centro Nacional de Información Biotecnológica. Como se usa en este documento, el término "lectura continua o sin parada" es una mutación que provoca la eliminación del codón de parada natural.

Como se usa en este documento, el término "epítopo" es la porción específica de un antígeno por lo general unido por un anticuerpo o receptor de células T

Como se usa en este documento, el término "inmunogénico" es la capacidad de provocar una respuesta inmunitaria, por ejemplo, mediante las células T, las células B o ambas.

Como se usa en este documento, la expresión "afinidad de unión a HLA" "afinidad de unión a MHC" significa afinidad de unión entre un antígeno específico y un alelo del MHC específico.

Como se usa en este documento, el término "cebo" es una sonda de ácido nucleico utilizada para enriquecer una secuencia específica de ADN o ARN de una muestra.

Como se usa en este documento, el término "variante" es una diferencia entre los ácidos nucleicos de un sujeto y el genoma humano de referencia usado como control.

Como se usa en este documento, el término "llamado de variante" es una determinación algorítmica de la presencia de una variante, por lo general a partir de secuenciación.

Como se usa en este documento, el término "polimorfismo" es una variante de la línea germinal, es decir, una variante que se encuentra en todas las células portadoras de ADN de un individuo.

Como se usa en este documento, el término "variante somática" es una variante que surge en células no germinales de un individuo.

Como se usa en este documento, el término "alelo" es una versión de un gen o una versión de una secuencia genética o una versión de una proteína.

Como se usa en este documento, el término "tipo HLA" es el complemento de los alelos del gen HLA.

Como se usa en este documento, el término "desintegración mediada por sin sentido" o "NMD" es una degradación de un ARNm por una célula debido a un codón de parada prematuro.

Como se usa en este documento, el término "mutación troncal" es una mutación que se origina temprano en el desarrollo de un tumor y está presente en una porción sustancial de las células del tumor.

Como se usa en este documento, el término "mutación subclonal" es una mutación que se origina más tarde en el desarrollo de un tumor y está presente sólo en un subconjunto de las células del tumor.

Como se usa en este documento, el término "exoma" es un subconjunto del genoma que codifica las proteínas. Un exoma pueden ser los exones colectivos de un genoma.

Como se usa en este documento, el término "regresión logística" es un modelo de regresión para datos binarios de estadística donde el logit de la probabilidad de que la variable dependiente sea igual a uno se modela como una función lineal de las variables dependientes.

Como se usa en este documento, el término "red neuronal" es un modelo de aprendizaje automático para clasificación 0 regresión que consta de múltiples capas de transformaciones lineales seguidas de no linealidades de elementos por lo general entrenadas mediante descenso de gradiente estocástico y retropropagación.

Como se usa en este documento, el término "proteoma" es el conjunto de todas las proteínas expresadas y/o traducidas por una célula, grupo de células o individuo.

Como se usa en este documento, el término "peptidoma" es el conjunto de todos los péptidos presentados por MHC-1 o MHC-II en la superficie celular. El peptidoma puede referirse a una propiedad de una célula o de un conjunto de células (por ejemplo, el peptidoma tumoral, que significa la unión de los peptidomas de todas las células que componen el tumor).

Como se usa en este documento, el término "ELISPOT" significa ensayo de inmunoabsorción ligado a enzima, que es un método común para controlar las respuestas inmunitarias en humanos y animales.

Como se usa en este documento, el término "dextrameros" es un multímero de péptido-MHC basado en dextrano usado para la tinción de células T específicas de antígeno en citometría de flujo.

Como se usa en este documento, el término "tolerancia o tolerancia inmunitaria" es un estado de falta de respuesta inmunitaria a uno o más antígenos, por ejemplo, autoantígenos.

Como se usa en este documento, el término "tolerancia central" es una tolerancia afectada en el timo, ya sea suprimiendo clones de células T autorreactivas o promoviendo clones de células T autorreactivas para que se diferencien en células T reguladoras inmunosupresoras (Tregs).

Como se usa en este documento, el término "tolerancia periférica" es una tolerancia afectada en la periferia por la regulación negativa o anergización de células T autorreactivas que sobreviven a la tolerancia central o promueven que estas células T se diferencien en Tregs.

El término "muestra" puede incluir una sola célula o múltiples células o fragmentos de células o una alícuota de fluido corporal, tomada de un sujeto, por medios que incluyen punción venosa, excreción, eyaculación, masaje, biopsia, aspiración con aguja, muestra de lavado, raspado, incisión quirúrgica, o intervención u otros medios conocidos en la técnica.

El término "sujeto" abarca un organismo, humano o no humano, ya sea masculino o femenino. El término sujeto incluye mamíferos, incluidos los seres humanos.

El término "mamífero" abarca tanto a humanos como a no humanos e incluye, pero no se limita a, seres humanos, primates no humanos, caninos, felinos, murinos, bovinos, equinos y porcinos.

El término "factor clínico" se refiere a una medida de una condición de un sujeto, por ejemplo, actividad o gravedad de la enfermedad. "Factor clínico" abarca todos los marcadores del estado de salud de un sujeto, incluidos marcadores que no son de muestra y/u otras características de un sujeto, tales como, sin limitación, edad y sexo. Un factor clínico puede ser una puntuación, un valor o un conjunto de valores que pueden obtenerse de la evaluación de una muestra (o población de muestras) de un sujeto o de un sujeto bajo una condición determinada. Un factor clínico también puede predecirse mediante marcadores y/u otros parámetros tales como sustitutos de la expresión génica. Los factores clínicos pueden incluir el tipo de tumor, el subtipo de tumor y los antecedentes de tabaquismo.

Abreviaturas: MHC: complejo mayor de histocompatibilidad; HLA: antígeno leucocitario humano o locus del gen MHC humano; NGS: secuenciación de próxima generación; PPV: valor predictivo positivo; TSNA: neoantígeno tumoral específico; FFPE: fijado en formalina, incrustado en parafina; NMD: decaimiento mediado por sin sentido; NSCLC: cáncer de pulmón de células no pequeñas; DC: célula dendrítica.

Cabe señalar que, tal como se usa en la memoria descriptiva y en las reivindicaciones adjuntas, las formas singulares "un", "una" y "el" incluyen referentes plurales a menos que el contexto indique claramente lo contrario.

Se entenderá que todos los términos no definidos directamente en este documento tienen los significados comúnmente asociados con ellos tal como se entienden dentro de la técnica de la invención. Determinados términos se analizan en este documento para proporcionar orientación adicional al profesional al describir las composiciones, dispositivos, métodos y similares de aspectos de la invención, y cómo fabricarlos o utilizarlos. Se apreciará que se puede decir lo mismo en más de una forma. En consecuencia, se pueden usar lenguajes alternativos y sinónimos para uno o más de los términos discutidos en este documento. No se debe dar importancia a si un término se elabora o analiza en este documento. Se proporcionan algunos sinónimos o métodos, materiales y similares sustituibles. La mención de uno o varios sinónimos o equivalentes no excluye el uso de otros sinónimos o equivalentes, a menos que se indique explícitamente. El uso de ejemplos, incluidos ejemplos de términos, es solo para fines ilustrativos y no limita el alcance y significado de los aspectos de la presente invención.

II. Métodos de identificación de neoantígenos

En este documento se divulgan métodos de identificación de neoantígenos de un tumor de un sujeto que probablemente se presenten en la superficie celular del tumor y/o que probablemente sean inmunogénicos. Como ejemplo, uno de tales métodos puede comprender los pasos de: obtener al menos uno de los datos de secuenciación de nucleótidos tumorales del exoma, transcriptoma o genoma completo de la célula tumoral del sujeto, en el que los datos de secuenciación de nucleótidos tumorales se usan para obtener datos que representan secuencias peptídicas. de cada uno de un conjunto de neoantígenos, y en el que la secuencia peptídica de cada neoantígeno comprende al menos una alteración que la hace distinta de la correspondiente secuencia peptídica parental de tipo salvaje; introducir la secuencia peptídica de cada neoantígeno en uno o más modelos de presentación para generar un conjunto de probabilidades numéricas de que cada uno de los neoantígenos sea presentado por uno o más alelos del m Hc en la superficie de la célula tumoral de la célula tumoral del sujeto o células presentes en el tumor, habiéndose identificado el conjunto de probabilidades numéricas al menos basándose en los datos recibidos de espectrometría de masas; y seleccionar un subconjunto del conjunto de neoantígenos basándose en el conjunto de probabilidades numéricas para generar un conjunto de neoantígenos seleccionados.

El modelo de presentación puede comprender una regresión estadística o un modelo de aprendizaje automático (por ejemplo, aprendizaje profundo) entrenado en un conjunto de datos de referencia (también denominado conjunto de datos de entrenamiento) que comprende un conjunto de etiquetas correspondientes, en el que el conjunto de datos de referencia se obtiene de cada uno de una pluralidad de sujetos distintos donde opcionalmente algunos sujetos pueden tener un tumor, y en el que el conjunto de datos de referencia comprende al menos uno de datos que representan secuencias de nucleótidos del exoma de tejido tumoral, datos que representan secuencias de nucleótidos del exoma de tejido normal, datos que representan secuencias de nucleótidos del transcriptoma de tejido tumoral, datos que representan secuencias de proteoma de tejido tumoral y datos que representan secuencias de peptidomas del MHC de tejido tumoral, y datos que representan secuencias de peptidomas del MHC de tejido normal. Los datos de referencia pueden comprender además datos de espectrometría de masas, datos de secuenciación, datos de secuenciación de ARN y datos de proteómica para líneas celulares de un único alelo diseñadas para expresar un alelo del MHC predeterminado que se exponen posteriormente a proteínas sintéticas, líneas celulares humanas normales y tumorales y muestras primarias frescas y congeladas y ensayos de células T (por ejemplo, ELISPOT). En determinados aspectos, el conjunto de datos de referencia incluye cada forma de datos de referencia.

El modelo de presentación puede comprender un conjunto de características derivado al menos en parte del conjunto de datos de referencia, y en el que el conjunto de características comprende al menos una de las características dependientes de alelos y características independientes de alelos. En determinados aspectos se incluye cada característica.

La presentación de células dendríticas a células T naive puede comprender al menos una de las características descritas anteriormente. La dosis y el tipo de antígeno de la vacuna (por ejemplo, péptido, ARNm, virus, etc.): (1) La ruta por la cual las células dendríticas (DC) captan el tipo de antígeno (por ejemplo, endocitosis, micropinocitosis); y/o (2) La eficacia con la que las DC absorben el antígeno. La dosis y tipo de adyuvante de la vacuna. La longitud de la secuencia del antígeno de la vacuna. El número y los lugares de administración de la vacuna. Funcionamiento inmunológico basal del paciente (por ejemplo, medido por el historial de infecciones recientes, recuentos sanguíneos, etc.). Para vacunas de ARN: (1) la tasa de recambio del producto proteico ARNm en la célula dendrítica; (2) la tasa de traducción del ARNm después de la absorción por células dendríticas medida en experimentos in vitro o in vivo; y/o (3) el número o rondas de traducción del ARNm después de la absorción por células dendríticas medida mediante experimentos in vivo o in vitro. La presencia de motivos de escisión de proteasas en el péptido, que opcionalmente dan peso adicional a las proteasas por lo general expresadas en células dendríticas (medidas por RNA-seq o espectrometría de masas). El nivel de expresión del proteasoma y el inmunoproteasoma en células dendríticas activadas típicas (que pueden medirse mediante secuenciación de ARN, espectrometría de masas, inmunohistoquímica u otras técnicas estándar). Los niveles de expresión del alelo del MHC particular en el individuo en cuestión (por ejemplo, medidos mediante RNA-seq o espectrometría de masas), medidos opcionalmente específicamente en células dendríticas activadas u otras células inmunitarias. La probabilidad de presentación de péptidos por el alelo del MHC particular en otros individuos que expresan el alelo del MHC particular, opcionalmente medida específicamente en células dendríticas activadas u otras células inmunitarias. La probabilidad de presentación de péptidos por alelos del MHC en la misma familia de moléculas (por ejemplo, HLA-A, HLA-B, HLA-C, h LA-DQ, HLA-DR, HLA-DP) en otros individuos, medida opcionalmente específicamente en células activadas, células dendríticas u otras células inmunitarias.

Las características de escape de la tolerancia inmune pueden comprender al menos una de: medición directa del autopeptidoma mediante espectrometría de masas de proteínas realizada en uno o varios tipos de células. Estimación del autopeptidoma tomando la unión de todas las subcadenas k-mer (por ejemplo, 5-25) de autoproteínas. Estimación del autopeptidoma usando un modelo de presentación similar al modelo de presentación descrito anteriormente aplicado a todas las autoproteínas sin mutación, teniendo en cuenta opcionalmente las variantes de la línea germinal.

La clasificación se puede realizar usando la pluralidad de neoantígenos proporcionados por al menos un modelo basado al menos en parte en las probabilidades numéricas. Después de la clasificación, se puede realizar una selección para seleccionar un subconjunto de los neoantígenos clasificados según un criterio de selección. Después de seleccionar, se puede proporcionar un subconjunto de los péptidos clasificados como resultado.

Un número del conjunto de neoantígenos seleccionados puede ser 20.

El modelo de presentación puede representar la dependencia entre la presencia de un par de uno particular de los alelos del MHC y un aminoácido particular en una posición particular de una secuencia peptídica; y probabilidad de presentación en la superficie de la célula tumoral, por uno particular de los alelos del MHC del par, de dicha secuencia peptídica que comprende el aminoácido particular en la posición particular.

Un método divulgado en este documento también puede incluir la aplicación del uno o más modelos de presentación a la secuencia peptídica del neoantígeno correspondiente para generar una puntuación de dependencia para cada uno de los uno o más alelos del MHC que indica si el alelo del MHC presentará el neoantígeno correspondiente basándose en al menos las posiciones de aminoácidos de la secuencia peptídica del neoantígeno correspondiente.

Un método divulgado en este documento también puede incluir transformar las puntuaciones de dependencia para generar una probabilidad por alelo correspondiente para cada alelo del MHC que indique una probabilidad de que el alelo del MHC correspondiente presentará el neoantígeno correspondiente; y combinar las probabilidades por alelo para generar la probabilidad numérica.

El paso de transformar las puntuaciones de dependencia puede modelar la presentación de la secuencia peptídica del neoantígeno correspondiente como mutuamente excluyentes.

Un método divulgado en este documento también puede incluir transformar una combinación de las puntuaciones de dependencia para generar la probabilidad numérica.

El paso de transformar la combinación de las puntuaciones de dependencia puede modelar la presentación de la secuencia peptídica del neoantígeno correspondiente como interferencia entre los alelos del MHC.

El conjunto de probabilidades numéricas puede identificarse además mediante al menos una característica de no interacción con el alelo, y un método divulgado en este documento también puede incluir la aplicación de un alelo que no interactúa con uno del uno o más modelos de presentación a las características de no interacción con el alelo para generar una puntuación de dependencia para las características de no interacción con el alelo que indican si la secuencia peptídica del neoantígeno correspondiente se presentará en base a las características de no interacción con el alelo.

Un método divulgado en este documento también puede incluir combinar la puntuación de dependencia para cada alelo del MHC en el uno o más alelos del MHC con la puntuación de dependencia para la característica que no interactúa con el alelo; transformar las puntuaciones de dependencia combinadas para cada alelo del MHC para generar una probabilidad por alelo correspondiente para el alelo del MHC que indica una probabilidad de que el alelo del MHC correspondiente presentará el neoantígeno correspondiente; y combinar las probabilidades por alelo para generar la probabilidad numérica.

Un método divulgado en este documento también puede incluir transformar una combinación de las puntuaciones de dependencia para cada uno de los alelos del MHC y la puntuación de dependencia para las características que no interactúan con el alelo para generar la probabilidad numérica.

Se puede entrenar un conjunto de parámetros numéricos para el modelo de presentación basándose en un conjunto de datos de entrenamiento que incluye al menos un conjunto de secuencias de péptidos de entrenamiento identificadas como presentes en una pluralidad de muestras y uno o más alelos del MHC asociados con cada secuencia de péptidos de entrenamiento, en el que las secuencias de péptidos de entrenamiento se identifican mediante espectrometría de masas en péptidos aislados eluidos de alelos del MHC derivados de la pluralidad de muestras.

Las muestras también pueden incluir líneas celulares diseñadas para expresar un único alelo del MHC de clase I o clase II.

Las muestras también pueden incluir líneas celulares diseñadas para expresar una pluralidad de alelos del MHC de clase I o clase II.

Las muestras también pueden incluir líneas celulares humanas obtenidas o derivadas de una pluralidad de pacientes.

Las muestras también pueden incluir muestras de tumores frescas o congeladas obtenidas de una pluralidad de pacientes.

Las muestras también pueden incluir muestras de tejido fresco o congelado obtenidas de una pluralidad de pacientes.

Las muestras también pueden incluir péptidos identificados mediante ensayos de células T

El conjunto de datos de entrenamiento puede incluir además datos asociados con: abundancia de péptidos del conjunto de péptidos de entrenamiento presentes en las muestras; longitud del péptido del conjunto de péptidos de entrenamiento en las muestras.

El conjunto de datos de entrenamiento se puede generar comparando el conjunto de secuencias de péptidos de entrenamiento mediante alineación con una base de datos que comprende un conjunto de secuencias de proteínas conocidas, en el que el conjunto de secuencias de proteínas de entrenamiento son más largas que e incluyen las secuencias de péptidos de entrenamiento.

El conjunto de datos de entrenamiento puede generarse basándose en realizar o haber realizado una secuenciación de nucleótidos en una línea celular para obtener al menos uno de los datos de secuenciación del exoma, transcriptoma o genoma completo de la línea celular, incluyendo los datos de secuenciación al menos una secuencia de nucleótidos que incluye una modificación.

El conjunto de datos de entrenamiento puede generarse basándose en la obtención de al menos uno de los datos de secuenciación de nucleótidos normales del exorna, transcriptoma y genoma completo a partir de muestras de tejido normal.

El conjunto de datos de entrenamiento puede incluir además datos asociados con secuencias de proteoma asociadas con las muestras.

El conjunto de datos de entrenamiento puede incluir además datos asociados con secuencias de peptidomas del MHC asociadas con las muestras.

El conjunto de datos de entrenamiento puede incluir además datos asociados con mediciones de la afinidad de unión de péptido-MHC para al menos uno de los péptidos aislados.

El conjunto de datos de entrenamiento puede incluir además datos asociados con mediciones de estabilidad de unión de péptido-MHC para al menos uno de los péptidos aislados.

El conjunto de datos de entrenamiento puede incluir además datos asociados con transcriptomas asociados con las muestras.

El conjunto de datos de entrenamiento puede incluir además datos asociados con genomas asociados con las muestras.

Las secuencias de péptidos de entrenamiento pueden tener longitudes dentro de un intervalo de k-meros donde k está entre 8-15, inclusive para MHC de clase I o 9-30 inclusive para MHC de clase II.

Un método divulgado en este documento también puede incluir codificar la secuencia peptídica usando un esquema de codificación one-hot.

Un método divulgado en este documento también puede incluir la codificación de las secuencias peptídicas de entrenamiento usando un esquema de codificación one-hot con relleno izquierdo.

Un método para tratar a un sujeto que tiene un tumor, que comprende realizar los pasos de la reivindicación 1, y que comprende además obtener una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados, y administrar la vacuna contra tumores al sujeto.

También se divulga en este documento un método de fabricación de una vacuna contra tumores, que comprende los pasos de: obtener al menos uno de los datos de secuenciación de nucleótidos tumorales del exoma, transcriptoma o genoma completo de la célula tumoral del sujeto, en el que los datos de secuenciación de nucleótidos tumorales se usan para obtener datos que representan secuencias peptídicas de cada uno de un conjunto de neoantígenos, y en los que la secuencia peptídica de cada neoantígeno comprende al menos una mutación que la hace distinta de la correspondiente secuencia peptídica parental de tipo salvaje; introducir la secuencia peptídica de cada neoantígeno en uno o más modelos de presentación para generar un conjunto de probabilidades numéricas de que cada uno de los neoantígenos sea presentado por uno o más alelos del MHC en la superficie de la célula tumoral de la célula tumoral del sujeto, el conjunto de probabilidades numéricas ha sido identificado al menos basándose en los datos recibidos de espectrometría de masas; y seleccionar un subconjunto del conjunto de neoantígenos basándose en el conjunto de probabilidades numéricas para generar un conjunto de neoantígenos seleccionados; y producir o haber producido una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados.

También se divulga en este documento una vacuna contra tumores que incluye un conjunto de neoantígenos seleccionados mediante la realización del método que comprende los pasos de: obtener al menos uno de los datos de secuenciación de nucleótidos tumorales del exoma, transcriptoma o genoma completo de la célula tumoral del sujeto, en el que la secuenciación de nucleótidos tumorales los datos se usan para obtener datos que representan secuencias peptídicas de cada uno de un conjunto de neoantígenos, y en el que la secuencia peptídica de cada neoantígeno comprende al menos una mutación que lo hace distinto de la correspondiente secuencia peptídica parental de tipo salvaje; introducir la secuencia peptídica de cada neoantígeno en uno o más modelos de presentación para generar un conjunto de probabilidades numéricas de que cada uno de los neoantígenos sea presentado por uno o más alelos del MHC en la superficie de la célula tumoral de la célula tumoral del sujeto, el conjunto de probabilidades numéricas ha sido identificado al menos basándose en los datos recibidos de espectrometría de masas; y seleccionar un subconjunto del conjunto de neoantígenos basándose en el conjunto de probabilidades numéricas para generar un conjunto de neoantígenos seleccionados; y producir o haber producido una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados.

La vacuna contra tumores puede incluir una o más secuencias de nucleótidos, una secuencia de polipéptidos, ARN, ADN, una célula, un plásmido o un vector.

La vacuna contra tumores puede incluir uno o más neoantígenos presentados en la superficie de la célula tumoral.

La vacuna contra tumores puede incluir uno o más neoantígenos que sean inmunogénicos en el sujeto.

La vacuna contra tumores puede no incluir uno o más neoantígenos que induzcan una respuesta autoinmunitaria contra el tejido normal del sujeto.

La vacuna contra tumores puede incluir un adyuvante.

La vacuna contra tumores puede incluir un excipiente.

Un método divulgado en este documento también puede incluir la selección de neoantígenos que tengan una mayor probabilidad de presentarse en la superficie de la célula tumoral en relación con neoantígenos no seleccionados según el modelo de presentación.

Un método divulgado en este documento también puede incluir la selección de neoantígenos que tengan una mayor probabilidad de ser capaces de inducir una respuesta inmunitaria específica de tumor en el sujeto en relación con neoantígenos no seleccionados basándose en el modelo de presentación.

Un método divulgado en este documento también puede incluir la selección de neoantígenos que tienen una mayor probabilidad de ser capaces de ser presentados a células T naive mediante células presentadoras de antígenos (APC) profesionales en relación con neoantígenos no seleccionados basándose en el modelo de presentación, opcionalmente en el que la APC es una célula dendrítica (DC).

Un método divulgado en este documento también puede incluir la selección de neoantígenos que tienen una menor probabilidad de estar sujetos a inhibición mediante tolerancia central o periférica en relación con neoantígenos no seleccionados según el modelo de presentación.

Un método divulgado en este documento también puede incluir la selección de neoantígenos que tengan una probabilidad reducida de ser capaces de inducir una respuesta autoinmunitaria al tejido normal en el sujeto en relación con neoantígenos no seleccionados según el modelo de presentación.

Los datos de secuenciación de nucleótidos del exoma o transcriptoma se pueden obtener realizando una secuenciación en el tejido tumoral.

La secuenciación puede ser una secuenciación de próxima generación (NGS) o cualquier enfoque de secuenciación masivamente paralela.

El conjunto de probabilidades numéricas puede identificarse además mediante al menos características de interacción con el alelo del MHC que comprenden al menos una de: las afinidades predichas con las que se unen el alelo del MHC y el péptido codificado por el neoantígeno; la estabilidad prevista del complejo péptido-MHC codificado por el neoantígeno; la secuencia y longitud del péptido codificado por el neoantígeno; la probabilidad de presentación de péptidos codificados por el neoantígeno con secuencia similar en células de otros individuos que expresan el alelo del MHC particular según se evalúa mediante proteómica de espectrometría de masas u otros medios; los niveles de expresión del alelo del MHC particular en el sujeto en cuestión (por ejemplo, medidos mediante RNA-seq o espectrometría de masas); la probabilidad global de presentación independiente de la secuencia peptídica codificada por neoantígeno por el alelo del MHC particular en otros sujetos distintos que expresan el alelo del MHC particular; la probabilidad global de presentación independiente de la secuencia peptídica codificada por neoantígeno por alelos del MHC en la misma familia de moléculas (por ejemplo, HLA-A, HlA-B, HLA-C, HLA-d Q, HLA-DR, HLA-DP) en otros sujetos distintos.

El conjunto de probabilidades numéricas se identifica además mediante al menos características que no interactúan con el alelo del MHC que comprenden al menos una de: las secuencias C y N terminales que flanquean el péptido codificado por el neoantígeno dentro de su secuencia de proteína fuente; la presencia de motivos de escisión de proteasa en el péptido codificado por el neoantígeno, opcionalmente ponderados según la expresión de las proteasas correspondientes en las células tumorales (medida mediante RNA-seq o espectrometría de masas); la tasa de recambio de la proteína fuente medida en el tipo de célula apropiado; la longitud de la proteína fuente, considerando opcionalmente las variantes de empalme específicas ("isoformas") expresadas más altamente en las células tumorales según lo medido por RNA-seq o espectrometría de masas proteómica, o según lo predicho a partir de la anotación de mutaciones de empalme somático o de línea germinal detectadas en datos de secuencia de ADN o ARN; el nivel de expresión del proteasoma, inmunoproteasoma, timoproteasoma u otras proteasas en las células tumorales (que pueden medirse mediante RNA-seq, espectrometría de masas de proteoma o inmunohistoquímica); la expresión del gen fuente del péptido codificado por el neoantígeno (por ejemplo, medido por RNA-seq o espectrometría de masas); la expresión típica específica de tejido del gen fuente del péptido codificado por el neoantígeno durante diversas etapas del ciclo celular; un catálogo completo de características de la proteína fuente y/o sus dominios como se puede encontrar, por ejemplo, en uniProt o PDB http://www.rcsb.org/pdb/home/home.do; características que describen las propiedades del dominio de la proteína fuente que contiene el péptido, por ejemplo: estructura secundaria o terciaria (por ejemplo, hélice alfa frente a lámina beta); empalme alternativo; la probabilidad de presentación de péptidos procedentes de la proteína fuente del péptido codificado por el neoantígeno en cuestión en otros sujetos distintos; la probabilidad de que el péptido no sea detectado o sobrerrepresentado mediante espectrometría de masas debido a sesgos técnicos; la expresión de diversos módulos/rutas genéticas medida por RNASeq (que no necesita contener la proteína fuente del péptido) que son informativos sobre el estado de las células tumorales, el estroma o los linfocitos infiltrantes de tumores (TIL); el número de copias del gen fuente del péptido codificado por el neoantígeno en las células tumorales; la probabilidad de que el péptido se una al TAP o la afinidad de unión medida o prevista del péptido al TAP; el nivel de expresión de TAP en las células tumorales (que puede medirse mediante RNA-seq, espectrometría de masas de proteoma, inmunohistoquímica); presencia o ausencia de mutaciones tumorales, que incluyen, pero no se limitan a: mutaciones impulsoras en genes impulsores de cáncer conocidos tales como EGFR, KRAS, ALK, RET, ROS1, TP53, CDKN2A, CDKN2B, NTRK1, NTRK2 , NTRK3 y en genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos (por ejemplo, B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 o cualquiera de los genes que codifican componentes del proteasoma o inmunoproteasoma). Los péptidos cuya presentación depende de un componente de la maquinaria de presentación de antígenos que está sujeto a una mutación por pérdida de función en el tumor tienen una probabilidad reducida de presentación; presencia o ausencia de polimorfismos funcionales de la línea germinal, incluidos, pero no limitados a: en genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos (por ejemplo, B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 o cualquiera de los genes que codifican componentes del proteasoma o inmunoproteasoma); tipo de tumor (por ejemplo, NSCLC, melanoma); subtipo de tumor clínico (por ejemplo, cáncer de pulmón escamoso versus no escamoso); historial de tabaquismo; la expresión típica del gen fuente del péptido en el tipo de tumor o subtipo clínico relevante, opcionalmente estratificada por mutación conductora.

Al menos una mutación puede ser un desplazamiento de marco o un desplazamiento de marco indel, una sustitución de sentido erróneo o sin sentido, una alteración del sitio de empalme, un reordenamiento genómico o una fusión genética, o cualquier alteración genómica o de expresión que dé lugar a un neoORF.

La célula tumoral puede seleccionarse del grupo que consiste en: cáncer de pulmón, melanoma, cáncer de mama, cáncer de ovario, cáncer de próstata, cáncer de riñón, cáncer gástrico, cáncer de colon, cáncer testicular, cáncer de cabeza y cuello, cáncer de páncreas, cáncer de cerebro, linfoma de células B, leucemia mielógena aguda, leucemia mielógena crónica, leucemia linfocítica crónica y leucemia linfocítica de células T, cáncer de pulmón de células no pequeñas y cáncer de pulmón de células pequeñas.

Un método divulgado en este documento también puede incluir la obtención de una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados o un subconjunto de los mismos, que opcionalmente comprende además administrar la vacuna contra tumores al sujeto.

Al menos uno de los neoantígenos en el conjunto de neoantígenos seleccionados, cuando está en forma de polipéptido, puede incluir al menos uno de: una afinidad de unión con el MHC con un valor de IC50 inferior a 1000 nM, para polipéptidos del MHC Clase 1 una longitud de 8-15, 8, 9, 10, 11, 12, 13, 14 o 15 aminoácidos, presencia de motivos de secuencia dentro o cerca del polipéptido en la secuencia de la proteína original que promueven la escisión del proteasoma y presencia de motivos de secuencia que promueven el transporte de TAP.

También se divulgan en este documento métodos para generar un modelo para identificar uno o más neoantígenos que probablemente se presenten en la superficie de una célula tumoral de una célula tumoral, que comprende los pasos de: recibir datos de espectrometría de masas que comprenden datos asociados con una pluralidad de péptidos aislados eluidos. del complejo mayor de histocompatibilidad (MHC) derivado de una pluralidad de muestras; obtener un conjunto de datos de entrenamiento identificando al menos un conjunto de secuencias de péptidos de entrenamiento presentes en las muestras y uno o más MHC asociados con cada secuencia de péptidos de entrenamiento; entrenar un conjunto de parámetros numéricos de un modelo de presentación usando el conjunto de datos de entrenamiento que comprende las secuencias peptídicas de entrenamiento, proporcionando el modelo de presentación una pluralidad de probabilidades numéricas de que las secuencias peptídicas de la célula tumoral sean presentadas por uno o más alelos del MHC en la superficie de la célula tumoral.

El modelo de presentación puede representar una dependencia entre: la presencia de un aminoácido particular en una posición particular de una secuencia peptídica; y probabilidad de presentación, por uno de los alelos del MHC en la célula tumoral, de la secuencia peptídica que contiene el aminoácido particular en la posición particular.

Las muestras también pueden incluir péptidos identificados mediante ensayos de células T.

Un método divulgado en este documento también puede incluir la obtención de un conjunto de secuencias de proteínas de entrenamiento basadas en las secuencias de péptidos de entrenamiento comparando el conjunto de secuencias de péptidos de entrenamiento mediante alineación con una base de datos que comprende un conjunto de secuencias de proteínas conocidas, en el que el conjunto de secuencias de proteínas de entrenamiento son más largas e incluyen las secuencias peptídicas de entrenamiento.

Un método divulgado en este documento también puede incluir realizar o haber realizado espectrometría de masas en una línea celular para obtener al menos uno de los datos de secuenciación de nucleótidos del exoma, transcriptoma o genoma completo de la línea celular, incluyendo los datos de secuenciación de nucleótidos al menos una secuencia de proteínas que incluye una mutación.

Un método divulgado en este documento también puede incluir: codificar las secuencias peptídicas de entrenamiento usando un esquema de codificación one-hot.

Un método divulgado en este documento también puede incluir la obtención de al menos uno de los datos de secuenciación de nucleótidos normales del exoma, transcriptoma y genoma completo a partir de muestras de tejido normal; y entrenar el conjunto de parámetros del modelo de presentación usando los datos de secuenciación de nucleótidos normales.

Un método divulgado en este documento también puede incluir una regresión logística del conjunto de parámetros.

Las secuencias de péptidos de entrenamiento pueden tener longitudes dentro de un intervalo de k-meros donde k está entre 8-15, inclusive para MHC de clase I o 9-30, inclusive para MHC de clase II.

Un método divulgado en este documento también puede incluir codificar las secuencias peptídicas de entrenamiento usando un esquema de codificación one-hot con relleno izquierdo.

Un método divulgado en este documento también puede incluir la determinación de valores para el conjunto de parámetros usando un algoritmo de aprendizaje profundo.

En este documento se divulgan métodos de identificación de uno o más neoantígenos que probablemente se presenten en la superficie de una célula tumoral de una célula tumoral, que comprenden ejecutar los pasos de: recibir datos de espectrometría de masas que comprenden datos asociados con una pluralidad de péptidos aislados eluidos del complejo mayor de histocompatibilidad. (MHC) derivado de una pluralidad de muestras de tumores frescas o congeladas; obtener un conjunto de datos de entrenamiento identificando al menos un conjunto de secuencias de péptidos de entrenamiento presentes en las muestras de tumores y presentadas en uno o más alelos del MHC asociados con cada secuencia de péptidos de entrenamiento; obtener un conjunto de secuencias de proteínas de entrenamiento basadas en las secuencias de péptidos de entrenamiento; y entrenar un conjunto de parámetros numéricos de un modelo de presentación usando las secuencias de proteínas de entrenamiento y las secuencias de péptidos de entrenamiento, proporcionando el modelo de presentación una pluralidad de probabilidades numéricas de que las secuencias de péptidos de la célula tumoral sean presentadas por uno o más alelos del MHC en la superficie de la célula tumoral.

El modelo de presentación puede representar una dependencia entre: la presencia de un par de uno particular de los alelos del MHC y un aminoácido particular en una posición particular de una secuencia peptídica; y probabilidad de presentación en la superficie de la célula tumoral, por uno particular de los alelos del MHC del par, de dicha secuencia peptídica que comprende el aminoácido particular en la posición particular.

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una mayor probabilidad de que se presente en la superficie celular del tumor en relación con uno o más neoantígenos tumorales distintos.

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una mayor probabilidad de que sea capaz de inducir una respuesta inmunitaria específica de tumor en el sujeto en relación con uno o más neoantígenos tumorales distintos.

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una mayor probabilidad de que sea capaz de ser presentado a células T naive mediante células presentadoras de antígenos (APC) profesionales en relación con uno o más neoantígenos tumorales distintos, opcionalmente en los que la APC es una célula dendrítica (DC).

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una probabilidad reducida de que esté sujeto a inhibición mediante tolerancia central o periférica en relación con uno o más neoantígenos tumorales distintos.

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una probabilidad reducida de que sea capaz de inducir una respuesta autoinmunitaria al tejido normal en el sujeto en relación con uno o más neoantígenos tumorales distintos.

Un método divulgado en este documento también puede incluir la selección de un subconjunto de neoantígenos, en el que el subconjunto de neoantígenos se selecciona porque cada uno tiene una menor probabilidad de que se modifique postraduccionalmente de manera diferencial en células tumorales versus APC, opcionalmente en el que la APC es una célula dendrítica (DC).

La práctica de los métodos en este documento empleará, a menos que se indique lo contrario, métodos convencionales de química de proteínas, bioquímica, técnicas de ADN recombinante y farmacología, dentro de los conocimientos de la técnica. Tales técnicas se explican detalladamente en la literatura. Véase, por ejemplo, TE. Creighton, Proteins: Structures and Molecular Properties (W.H. Freeman and Company, 1993); A.L. Lehninger, Biochemistry (Worth Publishers, Inc., current, addition); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Methods In Enzymology (S. Colowick and N. Kaplan eds., Academic Press Inc.); Remington's Pharmaceutical Sciences, 18th Edition (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3rd Ed. (Plenum Press) Vols A and B (1992).

III. Identificación de mutaciones específicas de tumores en neoantígenos

También se describen en este documento métodos para la identificación de determinadas mutaciones (por ejemplo, las variantes o alelos que están presentes en las células cancerosas). En particular, estas mutaciones pueden estar presentes en el genoma, transcriptoma, proteoma o exoma de células cancerosas de un sujeto que tiene cáncer pero no en tejido normal del sujeto.

Las mutaciones genéticas en tumores pueden considerarse útiles para el ataque inmunológico de tumores si conducen a cambios en la secuencia de aminoácidos de una proteína exclusivamente en el tumor. Las mutaciones útiles incluyen: (1) mutaciones no sinónimas que conducen a diferentes aminoácidos en la proteína; (2) mutaciones de lectura continua en las que se modifica o elimina un codón de parada, lo que conduce a la traducción de una proteína más larga con una nueva secuencia específica del tumor en el extremo C; (3) mutaciones en el sitio de empalme que conducen a la inclusión de un intrón en el ARNm maduro y, por tanto, a una secuencia proteica única específica del tumor; (4) reordenamientos cromosómicos que dan lugar a una proteína quimérica con secuencias específicas de tumor en la unión de 2 proteínas (es decir, fusión de genes); (5) mutaciones o desplazamiento de marco que conducen a un nuevo marco de lectura abierto con una nueva secuencia de proteínas específica del tumor. Las mutaciones también pueden incluir una o más de indel sin desplazamiento de marco, sustitución de sentido erróneo o sin sentido, alteración del sitio de empalme, reordenamiento genómico o fusión de genes, o cualquier alteración genómica o de expresión que dé lugar a un neoORF.

Los péptidos con mutaciones o polipéptidos mutados que surgen, por ejemplo, de mutaciones en el sitio de empalme, desplazamiento de marco, lectura continua o fusión genética en células tumorales se pueden identificar mediante secuenciación de ADN, ARN o proteína en células tumorales frente a células normales.

También las mutaciones pueden incluir mutaciones específicas de tumores previamente identificadas. Las mutaciones tumorales conocidas se pueden encontrar en la base de datos del catálogo de mutaciones somáticas en cáncer (COSMIC).

Existe una variedad de métodos disponibles para detectar la presencia de una mutación o alelo particular en el ADN o ARN de un individuo. Los avances en este campo han proporcionado un genotipado de SNP a gran escala preciso, sencillo y económico. Por ejemplo, se han descrito varias técnicas que incluyen hibridación dinámica específica de alelo (DASH), electroforesis en gel diagonal con matriz de microplacas (MADGE), pirosecuenciación, ligadura específica de oligonucleótidos, el sistema TaqMan y diversas tecnologías de "chips" de ADN tales como los chips SNP Affymetrix. Estos métodos usan la amplificación de una región genética diana, por lo general mediante PCR. Otros métodos más, basados en la generación de pequeñas moléculas señal mediante escisión invasiva seguida de espectrometría de masas o sondas tipo candado inmovilizadas y amplificación por círculo rodante. A continuación se resumen varios de los métodos conocidos en la técnica para detectar mutaciones específicas.

Los medios de detección basados en PCR pueden incluir amplificación múltiple de una pluralidad de marcadores simultáneamente. Por ejemplo, es bien conocido en la técnica seleccionar cebadores de PCR para generar productos de PCR que no se superpongan en tamaño y puedan analizarse simultáneamente. Alternativamente, es posible amplificar diferentes marcadores con cebadores que estén marcados de manera diferente y, por tanto, cada uno de ellos pueda detectarse de manera diferente. Por supuesto, los medios de detección basados en hibridación permiten la detección diferencial de múltiples productos de PCR en una muestra. Se conocen otras técnicas en la técnica que permiten análisis múltiples de una pluralidad de marcadores.

Se han desarrollado varios métodos para facilitar el análisis de polimorfismos de un solo nucleótido en el ADN genómico o el ARN celular. Por ejemplo, se puede detectar un polimorfismo de una sola base usando un nucleótido especializado resistente a exonucleasa, como se divulga, por ejemplo, en Mundy, C. R. (Patente de los Estados Unidos No. 4,656,127). Según el método, se permite que un cebador complementario a la secuencia alélica inmediatamente 3' con respecto al sitio polimórfico se hibride con una molécula diana obtenida de un animal o ser humano en particular. Si el sitio polimórfico en la molécula diana contiene un nucleótido que es complementario al derivado de nucleótido resistente a exonucleasa particular presente, entonces ese derivado se incorporará al extremo del cebador hibridado. Tal incorporación hace que el cebador sea resistente a la exonucleasa y, por tanto, permite su detección. Dado que se conoce la identidad del derivado de la muestra resistente a exonucleasas, el hallazgo de que el cebador se ha vuelto resistente a las exonucleasas revela que el(los) nucleótido(s) presente(s) en el sitio polimórfico de la molécula diana es complementario al del derivado de nucleótido usado en la reacción. Este método tiene la ventaja de que no requiere la determinación de grandes cantidades de datos de secuencia extraños.

Se puede usar un método basado en solución para determinar la identidad de un nucleótido de un sitio polimórfico. Cohen, D. et al. (Patente francesa 2,650,840; Solicitud PCT No. WO91/02087). Como en el método Mundy de la Patente de los Estados Unidos No. 4,656,127, se emplea un cebador que es complementario a secuencias alélicas inmediatamente en 3' de un sitio polimórfico. El método determina la identidad del nucleótido de ese sitio usando derivados de didesoxinucleótidos marcados que, si son complementarios al nucleótido del sitio polimórfico, se incorporarán al extremo del cebador.

Un método alternativo, conocido como análisis de bits genéticos o GBA, se describe en Goelet, P et al. (Solicitud PCT No. 92/15712). El método de Goelet, P et al. usa mezclas de terminadores marcados y un cebador que es complementario a la secuencia 3' de un sitio polimórfico. El terminador marcado que se incorpora está por tanto determinado por el nucleótido presente en el sitio polimórfico de la molécula diana que se está evaluando y es complementario de él. En contraste con el método de Cohen et al. (Patente francesa 2,650,840; Solicitud PCT No. WO91/02087) el método de Goelet, P et al., puede ser un ensayo en fase heterogénea, en el que el cebador o la molécula diana se inmoviliza en una fase sólida.

Se han descrito varios procedimientos de incorporación de nucleótidos guiados por cebador para analizar sitios polimórficos en el ADN (Komher, J. S. et al., Nucl. Acids. Res. 17: 7779-7784 (1989); Sokolov, B. P, Nucl. Acids Res.

18:3671 (1990); Syvanen. A.-C., et al., Genomics 8:684-692 (1990): Kuppuswamy, M. N. et al., Proc Natl. Acad. Sci. (U.S.A.) 88: 1143-1147 (1991); Prezant, T R. et al., Hum. Mutat. 1: 159-164 (1992); Ugozzoli, L. et al., GATA 9:107-112 (1992); Nyren, P et al., Anal. Biochem. 208: 171-175 (1993)). Estos métodos difieren del GBA en que usan la incorporación de desoxinucleótidos marcados para discriminar entre bases en un sitio polimórfico. En dicho formato, dado que la señal es proporcional al número de desoxinucleótidos incorporados, los polimorfismos que ocurren en análisis del mismo nucleótido pueden resultar en señales que son proporcionales a la longitud del análisis (Syvanen, A.-C., et al., Amer. J. Hum. Genet. 52:46-59 (1993)).

Un número de iniciativas obtienen información de secuencia directamente de millones de moléculas individuales de ADN o ARN en paralelo. Las tecnologías de secuenciación por síntesis de una sola molécula en tiempo real se basan en la detección de nucleótidos fluorescentes a medida que se incorporan a una cadena naciente de ADN que es complementaria a la plantilla que se secuencia. En un método, se anclan covalentemente oligonucleótidos de 30-50 bases de longitud en el extremo 5' a cubreobjetos de vidrio. Estas cadenas ancladas realizan dos funciones. En primer lugar, actúan como sitios de captura para las cadenas plantilla diana si las plantillas están configuradas con colas de captura complementarias a los oligonucleótidos unidos a la superficie. También actúan como cebadores para la extensión del cebador dirigido a la plantilla que forma la base de la lectura de la secuencia. Los cebadores de captura funcionan como un sitio de posición fija para la determinación de la secuencia usando múltiples ciclos de síntesis, detección y escisión química del tinte-enlazante para eliminar el tinte. Cada ciclo consiste en agregar la mezcla de polimerasa/nucleótido marcado, enjuague, obtención de imágenes y escisión del tinte. En un método alternativo, la polimerasa se modifica con una molécula donante fluorescente y se inmoviliza en un portaobjetos de vidrio, mientras que cada nucleótido está codificado por colores con una unidad estructural fluorescente aceptora unida a un gammafosfato. El sistema detecta la interacción entre una polimerasa marcada con fluorescencia y un nucleótido modificado con fluorescencia a medida que el nucleótido se incorpora a la cadena de novo. También existen otras tecnologías de secuenciación por síntesis.

Se puede usar cualquier plataforma de secuenciación por síntesis apropiada para identificar mutaciones. Como se describió anteriormente, actualmente están disponibles cuatro plataformas principales de secuenciación por síntesis: los secuenciadores del genoma de Roche/454 Life Sciences, el analizador 1G de Illumina/Solexa, el sistema SOLiD de Applied BioSystems y el sistema Heliscope de Helicos Biosciences. Pacific BioSciences y VisiGen Biotechnologies también han descrito plataformas de secuenciación por síntesis. En algunas realizaciones, una pluralidad de moléculas de ácido nucleico que se secuencian están unidas a un soporte (por ejemplo, un soporte sólido). Para inmovilizar el ácido nucleico sobre un soporte, se puede agregar una secuencia de captura/sitio de cebado universal en el extremo 3' y/o 5' de la plantilla. Los ácidos nucleicos pueden unirse al soporte hibridando la secuencia de captura con una secuencia complementaria unida covalentemente al soporte. La secuencia de captura (también denominada secuencia de captura universal) es una secuencia de ácido nucleico complementaria a una secuencia unida a un soporte que puede servir doblemente como cebador universal.

Como alternativa a una secuencia de captura, un miembro de un par de acoplamiento (tal como, por ejemplo, anticuerpo/antígeno, receptor/ligando, o el par avidina-biotina como se describe, por ejemplo, en la Solicitud de la Patente de los Estados Unidos No. 2006/0252077) se puede unir a cada fragmento que se va a capturar en una superficie recubierta con un segundo miembro respectivo de ese par de acoplamiento.

Después de la captura, la secuencia se puede analizar, por ejemplo, mediante detección/secuenciación de una sola molécula, por ejemplo, como se describe en los ejemplos y en la Patente de los Estados Unidos No. 7,283,337, incluida la secuenciación por síntesis dependiente de plantilla. En la secuenciación por síntesis, la molécula unida a la superficie se expone a una pluralidad de nucleótidos trifosfato marcados en presencia de polimerasa. La secuencia de la plantilla está determinada por el orden de los nucleótidos marcados incorporados en el extremo 3' de la cadena en crecimiento. Esto se puede hacer en tiempo real o en modo paso y repetición. Para el análisis en tiempo real, se pueden incorporar diferentes etiquetas ópticas a cada nucleótido y se pueden usar múltiples láseres para estimular los nucleótidos incorporados.

La secuenciación también puede incluir otras técnicas y plataformas de secuenciación masiva paralela o secuenciación de próxima generación (NGS). Ejemplos adicionales de técnicas y plataformas de secuenciación masiva paralela son Illumina HiSeq o MiSeq, Thermo PGM o Proton, Pac Bio RS II o Sequel, Qiagen's Gene Reader y Oxford Nanopore MinION. Se pueden usar tecnologías de secuenciación masiva paralela similares adicionales, así como generaciones futuras de estas tecnologías.

Puede utilizarse cualquier tipo de célula o tejido para obtener muestras de ácido nucleico para su uso en los métodos descritos en este documento. Por ejemplo, se puede obtener una muestra de ADN o ARN de un tumor o de un fluido corporal, por ejemplo, sangre, obtenida mediante técnicas conocidas (por ejemplo, punción venosa) o saliva. Alternativamente, las pruebas de ácido nucleico se pueden realizar en muestras secas (por ejemplo, cabello o piel). Además, se puede obtener una muestra para secuenciar de un tumor y se puede obtener otra muestra de tejido normal para secuenciar donde el tejido normal es del mismo tipo de tejido que el tumor. Se puede obtener una muestra para secuenciar de un tumor y se puede obtener otra muestra de tejido normal para secuenciar donde el tejido normal es de un tipo de tejido distinto con respecto al tumor.

Los tumores pueden incluir uno o más de cáncer de pulmón, melanoma, cáncer de mama, cáncer de ovario, cáncer de próstata, cáncer de riñón, cáncer gástrico, cáncer de colon, cáncer testicular, cáncer de cabeza y cuello, cáncer de páncreas, cáncer de cerebro, linfoma de células B, cáncer agudo leucemia mielógena, leucemia mielógena crónica, leucemia linfocítica crónica y leucemia linfocítica de células T, cáncer de pulmón de células no pequeñas y cáncer de pulmón de células pequeñas.

Alternativamente, se puede usar espectrometría de masas de proteínas para identificar o validar la presencia de péptidos mutados unidos a proteínas MHC en células tumorales. Los péptidos pueden eluirse con ácido a partir de células tumorales o de moléculas HLA que se inmunoprecipitan del tumor y luego se identifican mediante espectrometría de masas.

IV. Neoantígenos

Los neoantígenos pueden incluir nucleótidos o polipéptidos. Por ejemplo, un neoantígeno puede ser una secuencia de ARN que codifica una secuencia polipeptídica. Por lo tanto, los neoantígenos útiles en vacunas pueden incluir secuencias de nucleótidos o secuencias de polipéptidos.

En este documento se divulgan péptidos aislados que comprenden mutaciones específicas de tumores identificadas mediante los métodos divulgados en este documento, péptidos que comprenden mutaciones específicas de tumores conocidas y polipéptidos mutantes o fragmentos de los mismos identificados mediante métodos divulgados en este documento. Los péptidos neoantígenos se pueden describir en el contexto de su secuencia codificante donde un neoantígeno incluye la secuencia de nucleótidos (por ejemplo, ADN o ARN) que codifica la secuencia polipeptídica relacionada.

Uno o más polipéptidos codificados por una secuencia de nucleótidos de neoantígeno pueden comprender al menos uno de una afinidad de unión con MHC con un valor de IC50 inferior a 1000 nM, para péptidos del MHC Clase 1 una longitud de 8-15, 8, 9, 10, 11, 12, 13, 14 o 15 aminoácidos, presencia de motivos de secuencia dentro o cerca del péptido que promueven la escisión del proteasoma, y presencia de motivos de secuencia que promueven el transporte de TAP

Se pueden presentar uno o más neoantígenos en la superficie de un tumor.

Uno o más neoantígenos pueden ser inmunogénicos en un sujeto que tiene un tumor, por ejemplo, capaces de provocar una respuesta de células T o una respuesta de células B en el sujeto.

Uno o más neoantígenos que inducen una respuesta autoinmunitaria en un sujeto pueden excluirse de la consideración en el contexto de la generación de vacunas para un sujeto que tiene un tumor.

El tamaño de al menos una molécula de péptido neoantigénico puede comprender, pero no se limita a, aproximadamente 5, aproximadamente 6, aproximadamente 7, aproximadamente 8, aproximadamente 9, aproximadamente 10, aproximadamente 11, aproximadamente 12, aproximadamente 13, aproximadamente 14, aproximadamente 15., aproximadamente 16, aproximadamente 17, aproximadamente 18, aproximadamente 19, aproximadamente 20, aproximadamente 21, aproximadamente 22, aproximadamente 23, aproximadamente 24, aproximadamente 25, aproximadamente 26, aproximadamente 27, aproximadamente 28, aproximadamente 29, aproximadamente 30, aproximadamente 31, aproximadamente 32, aproximadamente 33, aproximadamente 34, aproximadamente 35, aproximadamente 36, aproximadamente 37, aproximadamente 38, aproximadamente 39, aproximadamente 40, aproximadamente 41, aproximadamente 42, aproximadamente 43, aproximadamente 44, aproximadamente 45, aproximadamente 46, aproximadamente 47, aproximadamente 48, aproximadamente 49, aproximadamente 50, aproximadamente 60, aproximadamente 70, aproximadamente 80, aproximadamente 90, aproximadamente 100, aproximadamente 110, aproximadamente 120 o más residuos de molécula amino, y cualquier intervalo derivable en los mismos. En realizaciones específicas, las moléculas peptídicas neoantigénicas son iguales o inferiores a 50 aminoácidos.

Los péptidos y polipéptidos neoantigénicos pueden tener: para MHC Clase I 15 residuos o menos de longitud y normalmente constan de entre aproximadamente 8 y aproximadamente 11 residuos, particularmente 9 o 10 residuos; para MHC Clase II, 15-24 residuos.

Si se desea, se puede diseñar un péptido más largo de varias maneras. En una instancia, cuando se predicen o se conocen las probabilidades de presentación de péptidos en los alelos HLA, un péptido más largo podría consistir en: (1) el individuo presentó péptidos con extensiones de 2-5 aminoácidos hacia los extremos N y C de cada producto génico correspondiente; (2) una concatenación de algunos o todos los péptidos presentados con secuencias extendidas para cada uno. En otra instancia, cuando la secuenciación revela una secuencia de neoepítopo larga (> 10 residuos) presente en el tumor (por ejemplo, debido a un desplazamiento de marco, lectura completa o inclusión de intrones que conduce a una nueva secuencia peptídica), un péptido más largo consistiría en: (3) todo el tramo de nuevos aminoácidos específicos de tumores, evitando así la necesidad de una selección computacional o basada en pruebas in vitro del péptido más corto presentado por HLA más fuerte. En ambos casos, el uso de un péptido más largo permite el procesamiento endógeno por parte de las células del paciente y puede conducir a una presentación de antígeno más efectiva y a la inducción de respuestas de células T

Los péptidos y polipéptidos neoantigénicos pueden presentarse sobre una proteína HLA. En algunos aspectos, los péptidos y polipéptidos neoantigénicos se presentan en una proteína HLA con mayor afinidad que un péptido de tipo salvaje. En algunos aspectos, un péptido o polipéptido neoantigénico puede tener una IC50 de al menos inferior a 5000 nM, al menos inferior a 1000 nM, al menos inferior a 500 nM, al menos inferior a 250 nM, al menos inferior a 200 nM, en al menos inferior a 150 nM, al menos inferior a 100 nM, al menos inferior a 50 nM o menos.

En algunos aspectos, los péptidos y polipéptidos neoantigénicos no inducen una respuesta autoinmunitaria y/o invocan tolerancia inmunológica cuando se administran a un sujeto.

También se proporcionan composiciones que comprenden al menos dos o más péptidos neoantigénicos. En algunas realizaciones, la composición contiene al menos dos péptidos distintos. Al menos dos péptidos distintos pueden derivarse del mismo polipéptido. Por polipéptidos distintos se entiende que el péptido varía en longitud, secuencia de aminoácidos o ambas. Los péptidos se derivan de cualquier polipéptido que se sabe o se ha encontrado que contiene una mutación específica del tumor. Los polipéptidos apropiados de los que se pueden derivar los péptidos neoantigénicos se pueden encontrar, por ejemplo, en la base de datos COSMIC. COSMIC recopila información completa sobre mutaciones somáticas en el cáncer humano. El péptido contiene la mutación específica del tumor. En algunos aspectos, la mutación específica del tumor es una mutación impulsora de un tipo de cáncer particular.

Los péptidos y polipéptidos neoantigénicos que tienen una actividad o propiedad deseada pueden modificarse para proporcionar determinados atributos deseados, por ejemplo, características farmacológicas mejoradas, mientras aumentan o al menos retienen sustancialmente toda la actividad biológica del péptido no modificado para unirse a la molécula del MHC deseada y activar la célula T apropiada. Por ejemplo, los péptidos y polipéptidos neoantigénicos pueden estar sujetos a diversos cambios, tales como sustituciones, ya sean conservadoras o no conservadoras, donde tales cambios podrían proporcionar determinadas ventajas en su uso, tales como una unión, estabilidad o presentación mejoradas del MHC. Por sustituciones conservadoras se entiende reemplazar un residuo de aminoácido por otro que sea biológica y/o químicamente similar, por ejemplo, un residuo hidrófobo por otro, o un residuo polar por otro. Las sustituciones incluyen combinaciones tales como Gly, Ala; Val, Ile, Leu, Met; áspid, glu; Asn, Gln; Ser, Thr; Lys, Arg; y Phe, Tyr. El efecto de las sustituciones de aminoácidos individuales también se puede investigar usando D-aminoácidos. Tales modificaciones se pueden realizar usando procedimientos de síntesis de péptidos bien conocidos, como se describe, por ejemplo, en Merrifield, Science 232:341-347 (1986), Barany & Merrifield,, The Peptides, Gross & Meienhofer. eds. (N.Y, Academic Press), pp. 1-284 (1979); y Sewart & Young, Solid Phase Peptide Synthesis, (Rockford. Ill., Pierce), 2d Ed. (1984)

Las modificaciones de péptidos y polipéptidos con diversos miméticos de aminoácidos o aminoácidos no naturales pueden ser particularmente útiles para aumentar la estabilidad del péptido y polipéptido in vivo. La estabilidad se puede evaluar de varias maneras. Por ejemplo, para probar la estabilidad se han usado peptidasas y diversos medios biológicos, tales como plasma y suero humanos. Véase, por ejemplo, Verhoef et al., Eur. J. Drug Metab Pharmacokin.

11:291-302 (1986). La semivida de los péptidos se puede determinar convenientemente usando un ensayo de suero humano al 25 % (v/v). El protocolo es generalmente el siguiente. El suero humano combinado (Tipo AB, no inactivado por calor) se deslipida mediante centrifugación antes de su uso. Luego, el suero se diluye al 25 % con medio de cultivo de tejidos RPMI y se usa para probar la estabilidad del péptido. A intervalos de tiempo predeterminados, se retira una pequeña cantidad de solución de reacción y se agrega a ácido tricloroacético acuoso al 6 % o etanol. La muestra de reacción turbia se enfría (4 grados C) durante 15 minutos y luego se centrifuga para peletizar las proteínas séricas precipitadas. A continuación se determina la presencia de los péptidos mediante HPLC de fase inversa usando condiciones de cromatografía específicas de estabilidad.

Los péptidos y polipéptidos se pueden modificar para proporcionar atributos deseados distintos de una semivida en suero mejorada. Por ejemplo, la capacidad de los péptidos para inducir la actividad de CTL se puede potenciar mediante enlace a una secuencia que contiene al menos un epítopo que es capaz de inducir una respuesta de células T auxiliares. Los conjugados de péptidos inmunogénicos/T auxiliares pueden unirse mediante una molécula espaciadora. El espaciador por lo general está compuesto por moléculas neutras relativamente pequeñas, tales como aminoácidos o miméticos de aminoácidos, que están sustancialmente descargados en condiciones fisiológicas. Los espaciadores normalmente se seleccionan entre, por ejemplo, Ala, Gly u otros espaciadores neutros de aminoácidos no polares o aminoácidos polares neutros. Se entenderá que el espaciador opcionalmente presente no necesita estar compuesto por los mismos residuos y, por tanto, puede ser un hetero u homooligómero. Cuando esté presente, el espaciador normalmente tendrá al menos uno o dos residuos, más habitualmente de tres a seis residuos. Alternativamente, el péptido puede unirse al péptido T auxiliar sin un espaciador.

Un péptido neoantigénico puede unirse al péptido T colaborador directamente o mediante un espaciador en el extremo amino o carboxi del péptido. El extremo amino del péptido neoantigénico o del péptido T auxiliar puede estar acilado. Los péptidos T auxiliares de ejemplo incluyen el toxoide tetánico 830-843, la gripe 307-319, el circumsporozoito de malaria 382-398 y 378-389.

Las proteínas o péptidos se pueden preparar mediante cualquier técnica conocida para los expertos en la técnica, incluida la expresión de proteínas, polipéptidos o péptidos mediante técnicas de biología molecular estándar, el aislamiento de proteínas o péptidos de fuentes naturales, o la síntesis química de proteínas o péptidos. Las secuencias de nucleótidos y proteínas, polipéptidos y péptidos correspondientes a diversos genes se han divulgado previamente y se pueden encontrar en bases de datos computarizadas conocidas para los expertos en la técnica. Una de esas bases de datos es las bases de datos Genbank and GenPept del Centro Nacional de Información Biotecnológica ubicadas en el sitio web de los Institutos Nacionales de Salud. Las regiones codificantes de genes conocidos se pueden amplificar y/o expresar usando las técnicas divulgadas en este documento o como sabrían los expertos en la técnica. Alternativamente, los expertos en la técnica conocen diversas preparaciones comerciales de proteínas, polipéptidos y péptidos.

En un aspecto adicional, un neoantígeno incluye un ácido nucleico (por ejemplo, polinucleótido) que codifica un péptido neoantigénico o una porción del mismo. El polinucleótido puede ser, por ejemplo, ADN, ADNc, PNA, CNA, a Rn (por ejemplo, ARNm), formas de polinucleótidos monocatenarias y/o bicatenarias, o nativas o estabilizadas, tales como, por ejemplo, polinucleótidos con un esqueleto de fosforotiato, o combinaciones de los mismos y puede contener o no intrones. Aún otro aspecto proporciona un vector de expresión capaz de expresar un polipéptido o una porción del mismo. Los vectores de expresión para diferentes tipos de células son bien conocidos en la técnica y pueden seleccionarse sin experimentación excesiva. Generalmente, el ADN se inserta en un vector de expresión, tal como un plásmido, en la orientación apropiada y en el marco de lectura correcto para la expresión. Si es necesario, el ADN puede unirse a las secuencias de nucleótidos de control reguladoras de la transcripción y la traducción apropiadas reconocidas por el hospedador deseado, aunque tales controles generalmente están disponibles en el vector de expresión. Luego, el vector se introduce en el hospedador mediante técnicas estándar. Se puede encontrar orientación, por ejemplo, en Sambrook et al. (1989) Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory, Cold Spring Harbor. N.Y

IV. Composiciones de vacunas

También se divulga en este documento una composición inmunogénica, por ejemplo, una composición de vacuna, capaz de generar una respuesta inmunitaria específica, por ejemplo, una respuesta inmunitaria específica de un tumor. Las composiciones de vacuna por lo general comprenden una pluralidad de neoantígenos, por ejemplo, seleccionados usando un método descrito en este documento. Las composiciones de vacunas también pueden denominarse vacunas.

Una vacuna puede contener entre 1 y 30 péptidos, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 o 30 péptidos diferentes, 6, 7, 8, 9, 10, 11, 12, 13 o 14 péptidos diferentes, o 12, 13 o 14 péptidos diferentes. Los péptidos pueden incluir modificaciones postraduccionales. Una vacuna puede contener entre 1 y 100 o más secuencias de nucleótidos, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20., 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 o más secuencias de nucleótidos diferentes, 6, 7, 8, 9, 1011, 12, 13 o 14 secuencias de nucleótidos diferentes, o 12, 13 o 14 secuencias de nucleótidos diferentes. Una vacuna puede contener entre 1 y 30 secuencias de neoantígenos, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100 o más secuencias de neoantígeno diferentes, 6, 7, 8, 9, 10, 11, 12, 13 o 14 secuencias de neoantígeno diferentes, o 12, 13 o 14 secuencias de neoantígeno diferentes.

En una realización, se seleccionan diferentes péptidos y/o polipéptidos o secuencias de nucleótidos que los codifican de manera que los péptidos y/o polipéptidos sean capaces de asociarse con diferentes moléculas del MHC, tales como diferentes moléculas del MHC de clase I. En algunos aspectos, una composición de vacuna comprende una secuencia codificante para péptidos y/o polipéptidos capaces de asociarse con las moléculas del MHC de clase I que aparecen con mayor frecuencia. Por consiguiente, las composiciones de vacuna pueden comprender diferentes fragmentos capaces de asociarse con al menos 2 moléculas preferidas, al menos 3 preferidas o al menos 4 moléculas MHC de clase I preferidas.

La composición de vacuna puede ser capaz de generar una respuesta de células T citotóxicas específica y/o una respuesta de células T auxiliares específica.

Una composición de vacuna puede comprender además un adyuvante y/o un portador. A continuación se dan ejemplos de adyuvantes y portadores útiles. Una composición puede asociarse con un portador tal como, por ejemplo, una proteína o una célula presentadora de antígeno tal como, por ejemplo, una célula dendrítica (DC) capaz de presentar el péptido a una célula T

Los adyuvantes son cualquier sustancia cuya mezcla en una composición de vacuna aumenta o modifica de otro modo la respuesta inmunitaria a un neoantígeno. Los portadores pueden ser estructuras de armazón, por ejemplo un polipéptido o un polisacárido, al que es capaz de asociarse un neoantígeno. Opcionalmente, los adyuvantes se conjugan de forma covalente o no covalente.

La capacidad de un adyuvante para aumentar una respuesta inmunitaria a un antígeno por lo general se manifiesta por un aumento significativo o sustancial de una reacción mediada por el sistema inmunitario o una reducción de los síntomas de la enfermedad. Por ejemplo, un aumento de la inmunidad humoral por lo general se manifiesta por un aumento significativo del título de anticuerpos contra el antígeno, y un aumento de la actividad de las células T por lo general se manifiesta en un aumento de la proliferación celular, de la citotoxicidad celular o de la secreción de citocinas. Un adyuvante también puede alterar una respuesta inmunitaria, por ejemplo, cambiando una respuesta principalmente humoral o Th en una respuesta principalmente celular o Th.

Los adyuvantes apropiados incluyen, pero no se limitan a, 1018 ISS, alumbre, sales de aluminio, Amplivax, AS15, BCG, CP-870,893, CpG7909, CyaA, dSLIM, GM-CSF, IC30, IC31, Imiquimod, ImuFact IMP321, IS Patch, ISS., ISCOMATRIX, JuvImmune, LipoVac, MF59, monofosforil lípido A, Montanide IMS 1312, Montanide ISA 206, Montanide ISA SUV, Montanide ISA-51, OK-432, OM-174, OM-197-Mp -EC, ONTAK, sistema de vector PepTel, micropartículas PLG, resiquimod, SRL172, virosomas y otras partículas similares a virus, YF-17D, VEGF trap, R848, betaglucano, Pam3Cys, estímulo QS21 de Aquila (Aquila Biotech, Worcester, Mass., EE. UU.) que se deriva de saponina, extractos de micobacterias e imitadores sintéticos de la pared celular bacteriana y otros adyuvantes patentados tales como Ribi's Detox. Quil o Superfos. Son útiles adyuvantes tales como el de Freund incompleto o el GM-CSF. Varios adyuvantes inmunológicos (por ejemplo, MF59) específicos para células dendríticas y su preparación se han descrito previamente (Dupuis M, et al., Cell Immunol. 1998; 186(1): 18-27; Allison A C; Dev Biol Stand. 1998; 92:3-11). También se pueden usar citocinas. Varias citocinas se han relacionado directamente con la influencia de la migración de células dendríticas a tejidos linfoides (por ejemplo, TNF-alfa), acelerando la maduración de las células dendríticas en células presentadoras de antígenos eficientes para los linfocitos T (por ejemplo, GM-CSF, IL-1 e IL -4) (Patente de los Estados Unidos No. 5,849,589) y actuando como inmunoadyuvantes (por ejemplo, IL-12) (Gabrilovich DI, et al., J Immunother Emphasis Tumor Immunol. 1996 (6):414-418).

También se ha informado que los oligonucleótidos inmunoestimulantes CpG potencian los efectos de los adyuvantes en el ámbito de las vacunas. También se pueden usar otras moléculas de unión a TLR tales como TLR 7, TLR 8 y/o TLR 9 de unión a ARN.

Otros ejemplos de adyuvantes útiles incluyen, pero no se limitan a, CpG modificados químicamente (por ejemplo, CpR, Idera), poli(I:C) (por ejemplo, polyi:CI2U), ADN o ARN bacteriano no CpG, así como pequeñas moléculas inmunoactivas y anticuerpos tales como ciclofosfamida, sunitinib, bevacizumab, celebrex, NCX-4016, sildenafil, tadalafil, vardenafil, sorafinib, XL-999, CP-547632, pazopanib, ZD2171, AZD2171, ipilimumab, tremelimumab y SC58175, que pueden actuar terapéuticamente y/o o como adyuvante. Las cantidades y concentraciones de adyuvantes y aditivos pueden ser determinadas fácilmente por el experto en la técnica sin experimentación excesiva. Los adyuvantes adicionales incluyen factores estimulantes de colonias, tales como el factor estimulante de colonias de granulocitos y macrófagos (GM-CSF, sargramostim).

Una composición de vacuna puede comprender más de un adyuvante diferente. Por otra parte, una composición terapéutica puede comprender cualquier sustancia adyuvante que incluya cualquiera de las anteriores o combinaciones de las mismas. También se contempla que una vacuna y un adyuvante puedan administrarse juntos o por separado en cualquier secuencia apropiada.

Un portador (o excipiente) puede estar presente independientemente de un adyuvante. La función de un portador puede ser, por ejemplo, aumentar el peso molecular de un mutante en particular para aumentar la actividad o inmunogenicidad, conferir estabilidad, aumentar la actividad biológica o aumentar la semivida en suero. Por otra parte, un portador puede ayudar a presentar péptidos a las células T Un portador puede ser cualquier portador apropiado conocido por el experto en la técnica, por ejemplo una proteína o una célula presentadora de antígeno. Una proteína portadora podría ser, entre otras, hemocianina de lapa californiana, proteínas séricas tales como transferrina, albúmina sérica bovina, albúmina sérica humana, tiroglobulina u ovoalbúmina, inmunoglobulinas u hormonas, tales como insulina o ácido palmítico. Para la inmunización de seres humanos, el portador es generalmente un portador fisiológicamente aceptable, aceptable para los seres humanos y seguro. Sin embargo, el toxoide tetánico y/o el toxoide diftérico son portadores apropiados. Alternativamente, el portador puede ser dextrano, por ejemplo sefarosa.

Las células T citotóxicas (CTL) reconocen un antígeno en forma de un péptido unido a una molécula del MHC en lugar del propio antígeno extraño intacto. La propia molécula del MHC está situada en la superficie celular de una célula presentadora de antígeno. Por tanto, es posible una activación de las CTL si está presente un complejo trimérico de antígeno peptídico, molécula del MHC y APC. De manera correspondiente, puede potenciar la respuesta inmunitaria si no sólo se usa el péptido para la activación de CTL, sino que además se agregan APC con la correspondiente molécula del MHC. Por lo tanto, en algunas realizaciones una composición de vacuna contiene adicionalmente al menos una célula presentadora de antígeno.

Los neoantígenos también se pueden incluir en plataformas de vacunas basadas en vectores virales, tales como vaccinia, viruela aviar, alfavirus autorreplicante, marabavirus y adenovirus (Véase, por ejemplo, Tatsis et al., Adenovirus, Molecular Therapy (2004) 10, 616-629), o lentivirus, incluyendo, pero no limitando a, lentivirus de segunda, tercera o híbridos de segunda/tercera generación y lentivirus recombinantes de cualquier generación diseñados para atacar tipos de células o receptores específicos (Véase, por ejemplo, Hu et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, lmmunol Rev. (2011) 239(1): 45-61, Sakuma et al., Lentiviral vectors: basic to translational, Biochem J. (2012) 443(3):603-18, Cooper et al., Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter, Nucl. Acids Res. (2015) 43 (1): 682-690, Zufferey et al., Self-Inactivating Lentivirus vector for Safe and Efficient In Vivo Gene Delivery, J. Virol. (1998) 72 (12): 9873-9880). Dependiendo de la capacidad de empaquetado de las plataformas de vacunas basadas en vectores virales mencionadas anteriormente, este enfoque puede administrar una o más secuencias de nucleótidos que codifican uno o más péptidos neoantígenos. Las secuencias pueden estar flanqueadas por secuencias no mutadas, pueden estar separadas por enlazantes o pueden estar precedidas por una o más secuencias dirigidas a un compartimento subcelular (Véase, por ejemplo, Gros et al., Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients, Nat Med (2016) 22 (4):433-8, Stronen et al., Targeting of cancer neoantigens with donor-derived T cell receptor repertoires, Science. (2016) 352 (6291): 1337-41, Lu et al., Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions. Clin Cancer Res. (2014) 20(13): 3401-10). Tras su introducción en un hospedador, las células infectadas expresan los neoantígenos y, provocando, así, una respuesta inmunitaria del hospedador (por ejemplo, CTL) contra el o los péptidos. Los vectores de vaccinia y métodos útiles en protocolos de inmunización se describen, por ejemplo, en la Patente de los Estados Unidos No. 4,722,848. Otro vector es el BCG (Bacille Calmette Guerin). Los vectores BCG se describen en Stover et al. (Nature 351:456-460 (1991)). Una amplia variedad de otros vectores de vacunas útiles para la administración terapéutica o la inmunización de neoantígenos, por ejemplo, vectores de Salmonella typhi y similares, resultarán evidentes para los expertos en la técnica a partir de la descripción en este documento.

IV.A. Consideraciones adicionales para el diseño y fabricación de vacunas

IV.A.1. Determinación de un conjunto de péptidos que cubren todos los subclones tumorales.

Se dará prioridad a la inclusión en la vacuna de los péptidos troncales, es decir, los presentados por todos o la mayoría de los subclones tumorales.53 Opcionalmente, si no se predice que se presentarán péptidos troncales y que serán inmunogénicos con alta probabilidad, o si el número de péptidos troncales que se predice que se presentarán y que serán inmunogénicos con alta probabilidad es lo suficientemente pequeño como para que se puedan incluir péptidos no troncales adicionales en la vacuna, luego se pueden priorizar más péptidos estimando el número y la identidad de los subclones tumorales y eligiendo péptidos para maximizar el número de subclones tumorales cubiertos por la vacuna.54

IV. A.2. Priorización de neoantígenos

Después de aplicar todos los filtros de neoantígenos mencionados anteriormente, es posible que todavía haya más neoantígenos candidatos disponibles para su inclusión en la vacuna de los que la tecnología de la vacuna puede admitir. Además, puede persistir la incertidumbre sobre diversos aspectos del análisis de neoantígenos y pueden existir compensaciones entre las diferentes propiedades de los neoantígenos candidatos a vacunas. Por tanto, en lugar de filtros predeterminados en cada paso del procedimiento de selección, se puede considerar un modelo multidimensional integrado que coloque los neoantígenos candidatos en un espacio con al menos los siguientes ejes y optimice la selección usando un enfoque integrador.

1. Riesgo de autoinmunidad o tolerancia (riesgo de línea germinal) (por lo general se prefiere un riesgo menor de autoinmunidad)

2. Probabilidad de artefacto de secuenciación (por lo general se prefiere una menor probabilidad de artefacto)

3. Probabilidad de inmunogenicidad (por lo general se prefiere una mayor probabilidad de inmunogenicidad)

4. Probabilidad de presentación (por lo general se prefiere una mayor probabilidad de presentación)

5. Expresión de genes (por lo general se prefiere una expresión más alta)

6. Cobertura de genes HLA(una mayor cantidad de moléculas HLA implicadas en la presentación de un conjunto de neoantígenos puede reducir la probabilidad de que un tumor escape al ataque inmunológico a través de una regulación negativa o una mutación de las moléculas HLA)

V. Métodos terapéuticos y de fabricación

También se proporciona un método para inducir una respuesta inmunitaria específica de tumor en un sujeto, vacunar contra un tumor, tratar o aliviar un síntoma de cáncer en un sujeto mediante la administración al sujeto de uno o más neoantígenos tales como una pluralidad de neoantígenos identificados usando los métodos divulgados en este documento.

En algunos aspectos, a un sujeto se le ha diagnosticado cáncer o está en riesgo de desarrollar cáncer. Un sujeto puede ser un ser humano, un perro, un gato, un caballo o cualquier animal en el que se desee una respuesta inmunitaria específica del tumor. Un tumor puede ser cualquier tumor sólido tal como mama, ovario, próstata, pulmón, riñón, gástrico, colon, testicular, cabeza y cuello, páncreas, cerebro, melanoma, y otros tumores de órganos tisulares y tumores hematológicos, tales como linfomas y leucemias., incluida la leucemia mielógena aguda, la leucemia mielógena crónica, la leucemia linfocítica crónica, la leucemia linfocítica de células T y los linfomas de células B.

Se puede administrar un neoantígeno en una cantidad suficiente para inducir una respuesta de CTL.

Un neoantígeno puede administrarse solo o en combinación con otros agentes terapéuticos. El agente terapéutico es, por ejemplo, un agente quimioterapéutico, radiación o inmunoterapia. Se puede administrar cualquier tratamiento terapéutico apropiado para un cáncer particular.

Además, a un sujeto se le puede administrar además un agente antiinmunosupresor/inmunoestimulador tal como un inhibidor de punto de control. Por ejemplo, al sujeto se le puede administrar además un anticuerpo anti-CTLA o anti-PD-1 o anti-PD-L1. El bloqueo de CTLA-4 o PD-L1 por anticuerpos puede potenciar la respuesta inmunitaria a las células cancerosas en el paciente. En particular, se ha demostrado que el bloqueo de CTLA-4 es eficaz cuando se sigue un protocolo de vacunación.

Se puede determinar la cantidad óptima de cada neoantígeno a incluir en una composición de vacuna y el régimen de dosificación óptimo. Por ejemplo, se puede preparar un neoantígeno o su variante para inyección intravenosa (i.v.), inyección subcutánea (s.c.), inyección intradérmica (i.d.), inyección intraperitoneal (i.p.), inyección intramuscular (i.m.). Los métodos de inyección incluyen s.c., i.d., i.p., i.m., e i.v. Los métodos de inyección de ADN o ARN incluyen i.d., i.m., s.c., i.p. e i.v. Los expertos en la técnica conocen otros métodos de administración de la composición de vacuna.

Se puede compilar una vacuna de modo que la selección, el número y/o la cantidad de neoantígenos presentes en la composición sean específicos de tejido, cáncer y/o paciente. Por ejemplo, la selección exacta de péptidos puede estar guiada por patrones de expresión de las proteínas originales en un tejido determinado. La selección puede depender del tipo específico de cáncer, el estado de la enfermedad, regímenes de tratamiento anteriores, el estado inmunitario del paciente y, por supuesto, el haplotipo HLA del paciente. Por otra parte, una vacuna puede contener componentes individualizados, según las necesidades personales de cada paciente en particular. Los ejemplos incluyen variar la selección de neoantígenos según la expresión del neoantígeno en el paciente particular o ajustes para tratamientos secundarios después de una primera ronda o esquema de tratamiento.

Para que una composición se use como vacuna contra el cáncer, los neoantígenos con autopéptidos normales similares que se expresan en cantidades elevadas en tejidos normales se pueden evitar o estar presentes en cantidades bajas en una composición descrita en este documento. Por otra parte, si se sabe que el tumor de un paciente expresa cantidades elevadas de un determinado neoantígeno, la composición farmacéutica respectiva para el tratamiento de este cáncer puede estar presente en cantidades elevadas y/o más de un neoantígeno específico para este neoantígeno particular. o se puede incluir la ruta de este neoantígeno.

Las composiciones que comprenden un neoantígeno se pueden administrar a un individuo que ya padece cáncer. En aplicaciones terapéuticas, las composiciones se administran a un paciente en una cantidad suficiente para provocar una respuesta CTL eficaz al antígeno tumoral y para curar o al menos detener parcialmente los síntomas y/o complicaciones. Una cantidad adecuada para lograr esto se define como "dosis terapéuticamente eficaz". Las cantidades eficaces para este uso dependerán, por ejemplo, de la composición, la forma de administración, el estadio y la gravedad de la enfermedad que se está tratando, el peso y el estado general de salud del paciente y el criterio del médico que prescribe. Debe tenerse en cuenta que las composiciones generalmente se pueden emplear en estados patológicos graves, es decir, situaciones que ponen en peligro o potencialmente la vida, especialmente cuando el cáncer ha hecho metástasis. En tales casos, en vista de la minimización de sustancias extrañas y la naturaleza relativamente no tóxica de un neoantígeno, es posible y puede ser considerado deseable por el médico tratante administrar excesos sustanciales de estas composiciones.

Para uso terapéutico, la administración puede comenzar con la detección o extirpación quirúrgica de tumores. A esto le sigue un aumento de las dosis hasta que al menos los síntomas hayan disminuido sustancialmente y durante un período posterior.

Las composiciones farmacéuticas (por ejemplo, composiciones de vacunas) para tratamiento terapéutico están destinadas a la administración parenteral, tópica, nasal, oral o local. Las composiciones farmacéuticas se pueden administrar por vía parenteral, por ejemplo, por vía intravenosa, subcutánea, intradérmica o intramuscular. Las composiciones se pueden administrar en el sitio de la escisión quirúrgica para inducir una respuesta inmunitaria local al tumor. En este documento se divulgan composiciones para administración parenteral que comprenden una solución del neoantígeno y composiciones de vacuna que se disuelven o suspenden en un portador aceptable, por ejemplo, un portador acuoso. Se puede usar una variedad de portadores acuosos, por ejemplo, agua, agua amortiguada, solución salina al 0.9 %, glicina al 0.3 %, ácido hialurónico y similares. Estas composiciones pueden esterilizarse mediante técnicas de esterilización convencionales y bien conocidas, o pueden filtrarse de forma estéril. Las soluciones acuosas resultantes se pueden envasar para su uso tal cual, o liofilizarse, combinándose la preparación liofilizada con una solución estéril antes de la administración. Las composiciones pueden contener sustancias auxiliares farmacéuticamente aceptables según sea necesario para aproximarse a las condiciones fisiológicas, tales como agentes reguladores y amortiguadores del pH, agentes reguladores de la tonicidad, agentes humectantes y similares, por ejemplo, acetato de sodio, lactato de sodio, cloruro de sodio, cloruro de potasio, cloruro de calcio, monolaurato de sorbitán, oleato de trietanolamina, etc.

Los neoantígenos también se pueden administrar a través de liposomas, que los dirigen a un tejido celular particular, tal como el tejido linfoide. Los liposomas también son útiles para aumentar la semivida. Los liposomas incluyen emulsiones, espumas, micelas, monocapas insolubles, cristales líquidos, dispersiones de fosfolípidos, capas laminares y similares. En estas preparaciones, el neoantígeno que se va a administrar se incorpora como parte de un liposoma, solo o junto con una molécula que se une, por ejemplo, a un receptor frecuente entre las células linfoides, tal como anticuerpos monoclonales que se unen al antígeno CD45, o con otras composiciones terapéuticas o inmunogénicas. Por tanto, los liposomas llenos con un neoantígeno deseado pueden dirigirse al sitio de las células linfoides, donde luego los liposomas administran las composiciones terapéuticas/inmunogénicas seleccionadas. Los liposomas pueden formarse a partir de lípidos formadores de vesículas estándar, que generalmente incluyen fosfolípidos neutros y cargados negativamente y un esterol, tal como el colesterol. La selección de lípidos generalmente se guía por la consideración de, por ejemplo, el tamaño de los liposomas, la labilidad ácida y la estabilidad de los liposomas en el torrente sanguíneo. Están disponibles una variedad de métodos para preparar liposomas, como se describe, por ejemplo, en Szoka et al., Ann. Rev. Biophys. Bioeng. 9; 467 (1980), las Patentes de los Estados Unidos Nos. 4,235,871,4,501,728, 4,501,728, 4,837,028, y 5,019,369.

Para dirigirse a las células inmunitarias, un ligando que se va a incorporar en el liposoma puede incluir, por ejemplo, anticuerpos o fragmentos de los mismos específicos para determinantes de la superficie celular de las células del sistema inmunitario deseadas. Se puede administrar una suspensión de liposomas por vía intravenosa, local, tópica, etc. en una dosis que varía según, entre otras cosas, la forma de administración, el péptido que se administra y el estadio de la enfermedad que se está tratando.

Para fines terapéuticos o de inmunización, también se pueden administrar al paciente ácidos nucleicos que codifican un péptido y opcionalmente uno o más de los péptidos descritos en este documento. Se usan convenientemente varios métodos para administrar los ácidos nucleicos al paciente. Por ejemplo, el ácido nucleico puede administrarse directamente, como "ADN desnudo". Este enfoque se describe, por ejemplo, en Wolff et al., Science 247: 1465-1468 (1990) así como las Patentes de los Estados Unidos Nos. 5,580,859 y 5,589,466. Los ácidos nucleicos también se pueden administrar usando administración balística como se describe, por ejemplo, en la Patente de los Estados Unidos No. 5,204,253. Se pueden administrar partículas compuestas únicamente de ADN. Alternativamente, el ADN se puede adherir a partículas, tales como partículas de oro. Los enfoques para administrar secuencias de ácidos nucleicos pueden incluir vectores virales, vectores de ARNm y vectores de ADN con o sin electroporación.

Los ácidos nucleicos también pueden administrarse formando complejos con compuestos catiónicos, tales como lípidos catiónicos. Los métodos de administración de genes mediados por lípidos se describen, por ejemplo, en los documentos 9618372 WOAWO 96/18372; 9324640WOAWO 93/24640; Mannino & Gould-Fogerite, BioTechniques 6(7): 682-691 (1988); la Patente de los Estados Unidos No. 5,279,833 Rose Patente de los Estados Unidos No.

5,279,833; 9106309WOAWO 91/06309; y Felgner et al., Proc. Natl. Acad. Science. EE.UU. 84: 7413-7414 (1987).

Los neoantígenos también se pueden incluir en plataformas de vacunas basadas en vectores virales, tales como vaccinia, viruela aviar, alfavirus autorreplicante, marabavirus y adenovirus (Véase, por ejemplo, Tatsis et al., Adenovirus, Molecular Therapy (2004) 10, 616-629), o lentivirus, incluyendo, pero no limitando a, lentivirus de segunda, tercera o híbridos de segunda/tercera generación y lentivirus recombinantes de cualquier generación diseñados para atacar tipos de células o receptores específicos (Véase, por ejemplo, Hu et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, lmmunol Rev. (2011) 239(1): 45-61, Sakuma et at., Lentiviral vectors: basic to translational, Biochem J. (2012) 443(3):603-18, Cooper et al., Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter, Nucl. Acid Res. (2015) 43 (1): 682-690, Zufferey et al., Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery, J. Virol. (1998) 72 (12): 9873-9880). Dependiendo de la capacidad de empaquetado de las plataformas de vacunas basadas en vectores virales mencionadas anteriormente, este enfoque puede administrar una o más secuencias de nucleótidos que codifican uno o más péptidos neoantígenos. Las secuencias pueden estar flanqueadas por secuencias no mutadas, pueden estar separadas por enlazantes o pueden estar precedidas por una o más secuencias dirigidas a un compartimento subcelular (Véase, por ejemplo, Gros et al., Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients. Nat Med. (2016) 22 (4):433-8. Stronen et al., Targeting of cancer neoantigens with donor-derived T cell receptor repertoires, Science. (2016) 352 (6291): 1337-41, Lu et al., Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions, Clin Cancer Res. (2014) 20(13):3401-10). Tras su introducción en un hospedador, las células infectadas expresan los neoantígenos y, por lo tanto, provocan una respuesta inmunitaria del hospedador (por ejemplo, CTL) contra el o los péptidos. Los vectores de vaccinia y métodos útiles en protocolos de inmunización se describen, por ejemplo, en la Patente de los Estados Unidos No. 4,722,848. Otro vector es el BCG (Bacille Calmette Guerin). Los vectores BCG se describen en Stover et al. (Nature 351:456-460 (1991)). Una amplia variedad de otros vectores de vacunas útiles para la administración terapéutica o la inmunización de neoantígenos, por ejemplo, vectores de Salmonella typhi y similares, resultarán evidentes para los expertos en la técnica a partir de la descripción en este documento.

Un medio para administrar ácidos nucleicos usa construcciones de minigenes que codifican uno o múltiples epítopos. Para crear una secuencia de ADN que codifique los epítopos de CTL seleccionados (minigen) para su expresión en células humanas, las secuencias de aminoácidos de los epítopos se traducen de forma inversa. Se usa una tabla de uso de codones humanos para guiar la elección de codones para cada aminoácido. Estas secuencias de ADN que codifican epítopos están unidas directamente, creando una secuencia polipeptídica continua. Para optimizar la expresión y/o inmunogenicidad, se pueden incorporar elementos adicionales al diseño del minigen. Ejemplos de secuencias de aminoácidos que podrían traducirse de forma inversa e incluirse en la secuencia del minigen incluyen: linfocitos T auxiliares, epítopos, una secuencia líder (señal) y una señal de retención del retículo endoplásmico. Además, la presentación del MHC de los epítopos de CTL se puede mejorar incluyendo secuencias flanqueantes sintéticas (por ejemplo, polialanina) o naturales adyacentes a los epítopos de CTL. La secuencia del minigen se convierte en ADN mediante el ensamblaje de oligonucleótidos que codifican las cadenas más y menos del minigen. Los oligonucleótidos superpuestos (de 30-100 bases de longitud) se sintetizan, fosforilan, purifican e hibridan en condiciones apropiadas usando técnicas bien conocidas. Los extremos de los oligonucleótidos se unen mediante ADN ligasa T4. Este minigen sintético, que codifica el polipéptido del epítopo CTL, puede luego clonarse en un vector de expresión deseado.

El ADN plasmídico purificado se puede preparar para inyección usando una variedad de formulaciones. El más simple de ellos es la reconstitución del ADN liofilizado en solución salina regulada con fosfato (PBS) estéril. Se han descrito una variedad de métodos y es posible que estén disponibles nuevas técnicas. Como se señaló anteriormente, los ácidos nucleicos se formulan convenientemente con lípidos catiónicos. Además, los glicolípidos, los liposomas fusogénicos, los péptidos y los compuestos denominados colectivamente protectores, interactivos y no condensantes (PINC) también podrían formar complejos con el ADN plasmídico purificado para influir en variables como la estabilidad, la dispersión intramuscular o el tráfico a órganos o tipos de células específicos.

También se divulga un método de fabricación de una vacuna contra tumores, que comprende realizar los pasos de un método divulgado en este documento; y producir una vacuna contra tumores que comprende una pluralidad de neoantígenos o un subconjunto de la pluralidad de neoantígenos.

Los neoantígenos divulgados en este documento se pueden fabricar usando métodos conocidos en la técnica. Por ejemplo, un método de producción de un neoantígeno o un vector (por ejemplo, un vector que incluye al menos una secuencia que codifica uno o más neoantígenos) divulgado en este documento puede incluir cultivar una célula hospedadora en condiciones adecuadas para expresar el neoantígeno o vector en el que la célula hospedadora comprende al menos un polinucleótido que codifica el neoantígeno o vector, y purifica el neoantígeno o vector. Los métodos de purificación estándar incluyen técnicas cromatográficas, electroforéticas, inmunológicas, de precipitación, diálisis, filtración, concentración y técnicas de cromatoenfoque.

Las células hospedadoras pueden incluir una célula de ovario de hámster chino (CHO), una célula NS0, una levadura o una célula HEK293. Las células hospedadoras pueden transformarse con uno o más polinucleótidos que comprenden al menos una secuencia de ácido nucleico que codifica un neoantígeno o vector divulgado en este documento, opcionalmente en el que el polinucleótido aislado comprende además una secuencia promotora unida operativamente a al menos una secuencia de ácido nucleico que codifica el neoantígeno o vector. En determinadas realizaciones, el polinucleótido aislado puede ser ADNc.

VI. Identificación de neoantígenos

VI.A. Identificación de candidatos a neoantígenos

Se han descrito y aplicado métodos de investigación para el análisis NGS de exomas y transcriptomas tumorales y normales en el espacio de identificación de neoantígenos.61415 El siguiente ejemplo considera determinadas optimizaciones para una mayor sensibilidad y especificidad para la identificación de neoantígenos en el entorno clínico. Estas optimizaciones se pueden agrupar en dos áreas, las relacionadas con los procedimientos de laboratorio y las relacionadas con el análisis de datos NGS.

VI.A.1. Optimizaciones de procedimientos de laboratorio

Las mejoras del procedimiento presentadas aquí abordan los desafíos en el descubrimiento de neoantígenos de alta precisión a partir de muestras clínicas con bajo contenido de tumor y volúmenes pequeños al ampliar los conceptos desarrollados para la evaluación confiable de genes impulsores del cáncer en paneles de cáncer específicos16 al entorno de exoma completo y transcriptoma necesario para la identificación de neoantígenos. En concreto, estas mejoras incluyen:

1. Dirigirse a una cobertura promedio única profunda (>500x) en todo el exoma del tumor para detectar mutaciones presentes con una baja frecuencia de alelos mutantes debido a un bajo contenido tumoral o un estado subclonal.

2. Dirigirse a una cobertura uniforme en todo el exoma del tumor, con <5 % de las bases cubiertas a <100x, de modo que se pasen por alto la menor cantidad posible de neoantígenos, mediante, por ejemplo:

a. Empleo de sondas de captura basadas en ADN con control QC de sonda individual17

b. Incluir cebos adicionales para regiones mal cubiertas

3. Dirigirse a una cobertura uniforme en todo el exoma normal, donde <5 % de las bases están cubiertas a <20x para que la menor cantidad posible de neoantígenos permanezca sin clasificar para el estado somático/de línea germinal (y, por tanto, no se puedan usar como TSNA)

4. Para minimizar la cantidad total de secuenciación requerida, se diseñarán sondas de captura de secuencias para regiones codificantes de genes únicamente, ya que el ARN no codificante no puede dar lugar a neoantígenos. Las optimizaciones adicionales incluyen:

a. sondas suplementarias para genes HLA, que son ricos en GC y mal capturados por la secuenciación estándar del exoma18

b. exclusión de genes que se predice que generarán pocos o ningún neoantígeno candidato, debido a factores tales como expresión insuficiente, digestión subóptima por parte del proteasoma o características de secuencia inusuales.

5. El ARN tumoral también se secuenciará a alta profundidad (>100 M de lecturas) para permitir la detección de variantes, la cuantificación de la expresión de genes y variantes de empalme ("isoforma") y la detección de fusiones. El ARN de muestras FFPE se extraerá mediante enriquecimiento basado en sondas19, con sondas iguales o similares usadas para capturar exomas en el ADN.

VI.A.2. Optimizaciones del análisis de datos NGS

Las mejoras en los métodos de análisis abordan la sensibilidad y especificidad subóptimas de los enfoques de llamado de mutaciones de investigación comunes y consideran específicamente las personalizaciones relevantes para la identificación de neoantígenos en el entorno clínico. Estas incluyen:

1. Usar el genoma humano de referencia HG38 o una versión posterior para la alineación, ya que contiene múltiples conjuntos de regiones MHC que reflejan mejor el polimorfismo de la población, en contraste con las versiones anteriores del genoma.

2. Superar las limitaciones de los llamados con una única variante20 fusionando resultados de diferentes programas5 a. Se detectarán variantes e indeles de un solo nucleótido a partir de ADN tumoral, ARN tumoral y ADN normal con un conjunto de herramientas que incluyen: programas basados en comparaciones de ADN tumoral y normal, tales como Strelka21 y Mutect22; y programas que incorporan ADN tumoral, ARN tumoral y ADN normal, tales como UNCeqR, que es particularmente ventajoso en muestras de baja pureza.23

b. Los indeles se determinarán con programas que realizan reensamblaje local, tal como Strelka y ABRA24.

c. Los reordenamientos estructurales se determinarán usando herramientas dedicadas tales como Pindel25 o Breakseq26.

3. Para detectar y evitar intercambios de muestras, se compararán llamados de variantes de muestras del mismo paciente en un número elegido de sitios polimórficos.

4. Se realizará un filtrado exhaustivo de llamados artificiales, por ejemplo, mediante:

a. Eliminación de variantes encontradas en el ADN normal, potencialmente con parámetros de detección relajados en casos de baja cobertura y con un criterio de proximidad permisivo en caso de indeles.

b. Eliminación de variantes debido a baja calidad del mapeo o baja calidad base27.

c. Eliminación de variantes derivadas de artefactos de secuenciación recurrentes, incluso si no se observan en la normalidad correspondiente27. Los ejemplos incluyen variantes detectadas principalmente en una cadena.

d. Eliminación de variantes detectadas en un conjunto de controles no relacionados27

5. Llamado preciso de HLA desde el exoma normal usando uno de seq2HLA28, ATHLATES29 u Optitype y también combinando datos de secuenciación de exoma y ARN28. Otras posibles optimizaciones incluyen la adopción de un ensayo dedicado para la tipificación de HLA, tal como la secuenciación de ADN de lectura larga.30, o la adaptación de un método para unir fragmentos de ARN para mantener la continuidad 31.

6. Se realizará una detección sólida de neo-ORF que surgen de variantes de empalme específicas de tumores ensamblando transcripciones a partir de datos de RNA-seq usando CLASS32, Bayesembler33, String Tie34 o un programa similar en su modo guiado por referencia (es decir, usando estructuras de transcripción conocidas en lugar de intentar recrear transcripciones en su totalidad de cada experimento). Mientras Cufflinks35 se usa comúnmente para este propósito, con frecuencia produce cantidades inverosímiles de variantes de empalme, muchas de ellas mucho más cortas que el gen de longitud completa, y puede no recuperar controles positivos simples. Las secuencias de codificación y el potencial de desintegración mediado sin sentido se determinarán con herramientas tales como SpliceR36 y MAMBA37, con secuencias mutantes reintroducidas. La expresión genética se determinará con una herramienta tal como Cufflinks35 o Express (Roberts and Pachter, 2013). Los recuentos y/o niveles relativos de expresión específicos de mutantes y de tipo salvaje se determinarán con herramientas desarrolladas para estos fines, tales como ASE38 o HTSeq39. Los posibles pasos de filtrado incluyen:

a. Eliminación de neo-ORF candidatos que se consideren insuficientemente expresados.

b. Eliminación de neo-ORF candidatos que se prevé que desencadenen una desintegración mediada sin sentido (NMD).

7. Los neoantígenos candidatos observados solo en ARN (por ejemplo, neoORF) que no pueden verificarse directamente como específicos de un tumor se clasificarán como probablemente específicos de un tumor según parámetros adicionales, por ejemplo considerando:

a. Presencia de ADN tumoral de soporte únicamente. c/s-mutaciones en el sitio de empalme o desplazamiento del marco

b. Presencia de una mutación de acción trans exclusiva del ADN tumoral que lo corrobore en un factor de empalme. Por ejemplo, en tres experimentos publicados de forma independiente con SF3B1 con mutación R625, los genes que mostraban el empalme más diferencial eran concordantes a pesar de que un experimento examinó a pacientes con melanoma uveal40, la segunda una línea celular de melanoma uveal41, y el tercero pacientes con cáncer de mama42. c. Para nuevas isoformas de empalme, presencia de lecturas de unión de empalme "novedosas" que lo corroboren en los datos de RNASeq.

d. Para reordenamientos novedosos, presencia de lecturas corroborantes de yuxtaexones en el ADN tumoral que están ausentes en el ADN normal

e. Ausencia del compendio de expresión génica tal como GTEx43 (es decir, hacer que el origen de la línea germinal sea menos probable)

8. Complementar el análisis basado en la alineación del genoma de referencia comparando el tumor de ADN ensamblado y las lecturas normales (o k-mer de tales lecturas) directamente para evitar errores y artefactos basados en la alineación y la anotación (por ejemplo, para variantes somáticas que surgen cerca de variantes de la línea germinal o indeles de contexto repetido).

En muestras con ARN poliadenilado, la presencia de ARN viral y microbiano en los datos de RNA-seq se evaluará mediante ARN CoMPASs 44 o un método similar, hacia la identificación de factores adicionales que puedan predecir la respuesta del paciente.

VI.B. Aislamiento y detección de péptidos HLA.

El aislamiento de moléculas de péptido HLA se realizó mediante métodos clásicos de inmunoprecipitación (IP) después de la lisis y solubilización de la muestra de tejido (55-58). Se usó un lisado clarificado para IP específica de HLA.

La inmunoprecipitación se realizó usando anticuerpos acoplados a perlas donde el anticuerpo es específico para moléculas HLA. Para una inmunoprecipitación de HLA pan-Clase I, se usa un anticuerpo CR pan-Clase I, para HLA Clase II - DR, se usa un anticuerpo HLA-DR. El anticuerpo se une covalentemente a perlas de NHS-sefarosa durante la incubación durante la noche. Después de la unión covalente, las perlas se lavaron y se dividieron en alícuotas para IP. (59, 60)

El lisado de tejido clarificado se agrega a las perlas de anticuerpo para la inmunoprecipitación. Después de la inmunoprecipitación, las perlas se retiran del lisado y el lisado se almacena para experimentos adicionales, incluidas IP adicionales. Las perlas IP se lavan para eliminar la unión no específica y el complejo HLA/péptido se eluye de las perlas usando técnicas estándar. Los componentes proteicos se eliminan de los péptidos mediante una columna de centrifugación de peso molecular o fraccionamiento C18. Los péptidos resultantes se llevan a sequedad mediante evaporación SpeedVac y, en algunos casos, se almacenan a -20 °C antes del análisis de MS.

Los péptidos secos se reconstituyen en un tampón de HPLC apropiado para cromatografía de fase inversa y se cargan en una columna de HPLC microcapilar C-18 para elución en gradiente en un espectrómetro de masas Fusion Lumos (Thermo). Los espectros MS1 de masa/carga peptídica (m/z) se recogieron en el detector Orbitrap a alta resolución seguido de escaneos MS2 de baja resolución recopilados en el detector de trampa de iones después de la fragmentación con HCD del ion seleccionado. Además, los espectros de MS2 se pueden obtener usando métodos de fragmentación CID o ETD o cualquier combinación de las tres técnicas para lograr una mayor cobertura de aminoácidos del péptido. Los espectros MS2 también se pueden medir con precisión de masa de alta resolución en el detector Orbitrap.

Los espectros MS2 de cada análisis se buscan en una base de datos de proteínas usando Comet (61, 62) y la identificación de péptidos se califica usando Percolator (63-65).

VI.B.1. Estudios de límite de detección de MS en apoyo de la secuenciación integral de péptidos HLA.

Usando el péptido YVYVADVAAK se determinó cuáles son los límites de detección usando diferentes cantidades de péptido cargado en la columna LC. Las cantidades de péptido analizadas fueron 1 pmol, 100 fmol, 10 fmol, 1 fmol y 100 amol. (Tabla 1) Los resultados se muestran en la figura 1F. Estos resultados indican que el límite más bajo de detección (LoD) está en el intervalo de átomos (10‘18), que el intervalo dinámico abarca cinco órdenes de magnitud y que la señal a ruido parece suficiente para la secuenciación en rangos bajos de femtomol (10‘15).

VII. Modelo de presentación

VII.A. Descripción general del sistema

La figura 2A es una descripción general de un entorno 100 para identificar probabilidades de presentación de péptidos en pacientes, de acuerdo con una realización. El entorno 100 proporciona contexto para introducir un sistema 160 de identificación de presentación, que incluye a su vez un almacén 165 de información de presentación.

El sistema 160 de identificación de presentación es uno o más modelos informáticos, incorporados en un sistema informático como se analiza a continuación con respecto a la figura 14, que recibe secuencias peptídicas asociadas con un conjunto de alelos del MHC y determina las probabilidades de que las secuencias peptídicas sean presentadas por uno o más del conjunto de alelos del MHC asociados. Esto es útil en una variedad de contextos. Un caso de uso específico para el sistema 160 de identificación de presentación es que es capaz de recibir secuencias de nucleótidos de neoantígenos candidatos asociados con un conjunto de alelos del MHC de células tumorales de un paciente 110 y determinar las probabilidades de que los neoantígenos candidatos sean presentados por uno o más de los alelos del MHC asociados del tumor y/o inducir respuestas inmunogénicas en el sistema inmunitario del paciente 110. Aquellos neoantígenos candidatos con altas probabilidades, según lo determinado por el sistema 160, pueden seleccionarse para su inclusión en una vacuna 118; dicha respuesta inmunitaria antitumoral puede provocarse a partir del sistema inmunitario del paciente 110 que proporciona las células tumorales.

El sistema 160 de identificación de presentación determina las probabilidades de presentación a través de uno o más modelos de presentación. Específicamente, los modelos de presentación generan probabilidades de si determinadas secuencias peptídicas se presentarán para un conjunto de alelos del MHC asociados, y se generan en base a la información de presentación almacenada en el almacén 165. Por ejemplo, los modelos de presentación pueden generar probabilidades de que se presente una secuencia peptídica "YVYVADVAAK" para el conjunto de alelos HLA-A*02:01, HLA-B*07:02, HLA-B*08:03, HLA-C*01:04, HLA-A*06:03, HLA-B*01:04 en la superficie celular de la muestra. La información 165 de presentación contiene información sobre si los péptidos se unen a diferentes tipos de alelos del MHC de modo que esos péptidos se presenten mediante alelos del MHC, lo que en los modelos se determina dependiendo de las posiciones de los aminoácidos en las secuencias peptídicas. El modelo de presentación puede predecir si una secuencia peptídica no reconocida se presentará en asociación con un conjunto asociado de alelos del MHC basándose en la información 165 de presentación.

VII.B. Información de presentación

La figura 2 ilustra un método para obtener información de presentación, de acuerdo con una realización. La información 165 de presentación incluye dos categorías generales de información: información que interactúa con los alelos e información que no interactúa con los alelos. La información que interactúa con los alelos incluye información que influye en la presentación de secuencias peptídicas que dependen del tipo de alelo del MHC. La información que no interactúa con los alelos incluye información que influye en la presentación de secuencias peptídicas que son independientes del tipo de alelo del MHC.

VII.B.1. Información sobre la interacción de los alelos

La información que interactúa con los alelos incluye principalmente secuencias peptídicas identificadas que se sabe que han sido presentadas por una o más moléculas MHC identificadas de seres humanos, ratones, etc. En particular, esto puede incluir o no datos recogidos de muestras tumorales. Las secuencias peptídicas presentadas pueden identificarse a partir de células que expresan un único alelo del MHC. En este caso, las secuencias peptídicas presentadas generalmente se obtienen de líneas celulares de un único alelo que están diseñadas para expresar un alelo del MHC predeterminado y que posteriormente se exponen a una proteína sintética. Los péptidos presentados en el alelo del MHC se aíslan mediante técnicas tales como la elución ácida y se identifican mediante espectrometría de masas. La figura 2B muestra un ejemplo de esto, donde el péptido de ejemplo YEMFNDKS, presentado en el alelo del MHC predeterminado HLA-A*01:01, se aísla e identifica mediante espectrometría de masas. Dado que en esta situación los péptidos se identifican a través de células diseñadas para expresar una única proteína MHC predeterminada, se conoce definitivamente la asociación directa entre un péptido presentado y la proteína MHC a la que estaba unido.

Las secuencias peptídicas presentadas también pueden recogerse de células que expresan múltiples alelos del MHC. Por lo general, en los seres humanos, se expresan 6 tipos diferentes de moléculas MHC para una célula. Tales secuencias peptídicas presentadas pueden identificarse a partir de líneas celulares de alelos múltiples que están diseñadas para expresar múltiples alelos del MHC predeterminados. Tales secuencias peptídicas presentadas también pueden identificarse a partir de muestras de tejido, ya sea de muestras de tejido normal o de muestras de tejido tumoral. Especialmente en este caso las moléculas del MHC pueden inmunoprecipitarse a partir de tejido normal o tumoral. Los péptidos presentados en los múltiples alelos del MHC pueden aislarse de manera similar mediante técnicas tales como la elución ácida e identificarse mediante espectrometría de masas. La figura 2C muestra un ejemplo de esto, donde los seis péptidos de ejemplo, YEMFNDKSF, HROEIFSHDFJ, FJIEJFOESS, NEIOREIREI, JFKSIFEMMSJDSSU y KNFLENFIESOFI, se presentan en alelos del MHC identificados HLA-A*01:01, HLA-A.*02:01, HLA-B*07:02, HLA-B*08:01, HLA-C*01:03 y HLA-C*01:04 y se aíslan e identifican mediante espectrometría de masas.

A diferencia de las líneas celulares de un único alelo, la asociación directa entre un péptido presentado y la proteína MHC a la que estaba unido puede ser desconocida ya que los péptidos unidos se aíslan de las moléculas del MHC antes de ser identificados.

La información que interactúa con los alelos también puede incluir la corriente iónica de espectrometría de masas que depende tanto de la concentración de los complejos de moléculas de péptido-MHC como de la eficiencia de ionización de los péptidos. La eficiencia de ionización varía de un péptido a otro de manera dependiente de la secuencia. Generalmente, la eficiencia de ionización varía de un péptido a otro en aproximadamente dos órdenes de magnitud, mientras que la concentración de complejos péptido-MHC varía en un intervalo mayor.

La información sobre la interacción de los alelos también puede incluir mediciones o predicciones de la afinidad de unión entre un alelo del MHC determinado y un péptido determinado. Uno o más modelos de afinidad pueden generar tales predicciones. Por ejemplo, volviendo al ejemplo mostrado en la figura 1D, la información 165 de presentación puede incluir una predicción de afinidad de unión de 1000 nM entre el péptido YEMFNDKSF y el alelo HLA-A*01:01. El MHC presenta pocos péptidos con IC50 > 1000 nm, y valores más bajos de IC50 aumentan la probabilidad de presentación.

La información sobre la interacción de los alelos también puede incluir mediciones o predicciones de la estabilidad del complejo MHC. Uno o más modelos de estabilidad que pueden generar tales predicciones. Es más probable que los complejos péptido-MHC más estables (es decir, complejos con semividas más largas) se presenten con un número elevado de copias en las células tumorales y en las células presentadoras de antígenos que encuentran el antígeno de la vacuna. Por ejemplo, volviendo al ejemplo mostrado en la figura 2C, la información 165 de presentación puede incluir una predicción de estabilidad de una semivida de 1hpara la molécula HLA-A.*01:01.

La información de interacción de alelos también puede incluir la velocidad medida o prevista de la reacción de formación del complejo péptido-MHC. Es más probable que los complejos que se forman a un ritmo más alto se presenten en la superficie celular en altas concentraciones.

La información que interactúa con los alelos también puede incluir la secuencia y la longitud del péptido. Las moléculas del MHC de clase I por lo general prefieren presentar péptidos con longitudes entre 8 y 15 péptidos. El 60-80 % de los péptidos presentados tienen una longitud de 9. En la figura 5 se muestran histogramas de las longitudes de péptidos presentados de varias líneas celulares.

La información que interactúa con los alelos también puede incluir la presencia de motivos de secuencia de cinasa en el péptido codificado por el neoantígeno y la ausencia o presencia de modificaciones postraduccionales específicas en el péptido codificado por el neoantígeno. La presencia de motivos cinasa afecta la probabilidad de modificación postraduccional, que puede potenciar o interferir con la unión del MHC.

La información que interactúa con los alelos también puede incluir la expresión o los niveles de actividad de las proteínas implicadas en el procedimiento de modificación postraduccional, por ejemplo, cinasas (medidas o predichas a partir de secuencias de ARN, espectrometría de masas u otros métodos).

La información de interacción de alelos también puede incluir la probabilidad de presentación de péptidos con secuencia similar en células de otros individuos que expresan el alelo del MHC particular según lo evaluado mediante proteómica de espectrometría de masas u otros medios.

La información que interactúa con los alelos también puede incluir los niveles de expresión del alelo del MHC particular en el individuo en cuestión (por ejemplo, medido por RNA-seq o espectrometría de masas). Es más probable que se presenten péptidos que se unen con mayor fuerza a un alelo del MHC que se expresa en niveles altos que los péptidos que se unen con mayor fuerza a un alelo del MHC que se expresa en un nivel bajo.

La información de interacción de alelos también puede incluir la probabilidad global de presentación independiente de la secuencia peptídica codificada por neoantígeno por parte del alelo del MHC particular en otros individuos que expresan el alelo del MHC particular.

La información sobre la interacción de los alelos también puede incluir la probabilidad global independiente de la secuencia peptídica de presentación por alelos del MHC en la misma familia de moléculas (por ejemplo, HLA-A, HLA-B, HLA-C,<h>L<a>-DQ,<h>L<a>-DR, HLA -DP) en otros individuos. Por ejemplo, las moléculas HLA-C por lo general se expresan en niveles más bajos que las moléculas HLA-A o HLA-B y, en consecuencia, la presentación de un péptido por HLA-C es a priori menos probable que la presentación por HLA-A o HLA-B 11.

La información que interactúa con los alelos también puede incluir la secuencia de proteínas del alelo del MHC particular.

Cualquier información que no interactúe con los alelos del MHC enumerada en la siguiente sección también se puede modelar como información que interactúa con los alelos del MHC.

VII.B.2. Información sobre que no interactúan con los alelos

La información que no interactúa con los alelos puede incluir secuencias C-terminales que flanquean el péptido codificado por el neoantígeno dentro de su secuencia proteica fuente. Las secuencias flanqueantes C-terminales pueden afectar el procesamiento proteasómico de los péptidos. Sin embargo, la secuencia flanqueante C-terminal es escindida del péptido por el proteasoma antes de que el péptido sea transportado al retículo endoplásmico y encuentre alelos del MHC en las superficies de las células. En consecuencia, las moléculas del MHC no reciben información sobre la secuencia flanqueante C-terminal y, por tanto, el efecto de la secuencia flanqueante C-terminal no puede variar dependiendo del tipo de alelo del MHC. Por ejemplo, volviendo al ejemplo mostrado en la figura 2<c>, la información 165 de presentación puede incluir la secuencia flanqueante C-terminal FOEIFNDKSLDKFJI del péptido presentado FJIEJFOESS identificado a partir de la proteína fuente del péptido.

La información que no interactúa con los alelos también puede incluir mediciones de cuantificación de ARNm. Por ejemplo, se pueden obtener datos de cuantificación de ARNm para las mismas muestras que proporcionan los datos de entrenamiento de espectrometría de masas. Como se describe más adelante en referencia a la figura 13H, se identificó que la expresión de ARN era un fuerte predictor de la presentación de péptidos. En una realización, las mediciones de cuantificación de ARNm se identifican a partir de la herramienta de software RSEM. La implementación detallada de la herramienta de software RSEM se puede encontrar en Bo Li and Colin N. Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12:323, Agosto de 2011. En una realización, la cuantificación del ARNm se mide en unidades de fragmentos por kilobase de transcrito por millón de lecturas mapeadas (FPKM).

La información que no interactúa con los alelos también puede incluir las secuencias N-terminales que flanquean el péptido dentro de su secuencia proteica fuente.

La información que no interactúa con los alelos también puede incluir la presencia de motivos de escisión de proteasas en el péptido, opcionalmente ponderados según la expresión de las proteasas correspondientes en las células tumorales (medida por RNA-seq o espectrometría de masas). Es menos probable que se presenten péptidos que contienen motivos de escisión de proteasas, porque las proteasas los degradarán más fácilmente y, por lo tanto, serán menos estables dentro de la célula.

La información que no interactúa con los alelos también puede incluir la tasa de renovación de la proteína fuente medida en el tipo de célula apropiado. Una tasa de renovación más rápida (es decir, una semivida más baja) aumenta la probabilidad de presentación; sin embargo, el poder predictivo de esta característica es bajo si se mide en un tipo de célula diferente.

La información que no interactúa con los alelos también puede incluir la longitud de la proteína fuente, considerando opcionalmente las variantes de empalme específicas ("isoformas") más expresadas en las células tumorales, medidas por RNA-seq o espectrometría de masas proteómica, o como se predice a partir de la anotación de Mutaciones de línea germinal o de empalme somático detectadas en datos de secuencia de ADN o ARN.

La información que no interactúa con los alelos también puede incluir el nivel de expresión del proteasoma, inmunoproteasoma, timoproteasoma u otras proteasas en las células tumorales (que pueden medirse mediante RNA-seq, espectrometría de masas de proteoma o inmunohistoquímica). Los diferentes proteosomas tienen diferentes preferencias de sitios de escisión. Se dará más peso a las preferencias de escisión de cada tipo de proteasoma en proporción a su nivel de expresión.

La información que no interactúa con los alelos también puede incluir la expresión del gen fuente del péptido (por ejemplo, medido por RNA-seq o espectrometría de masas). Las posibles optimizaciones incluyen ajustar la expresión medida para tener en cuenta la presencia de células estromales y linfocitos infiltrantes de tumores dentro de la muestra del tumor. Es más probable que se presenten péptidos de genes más expresados. Se pueden excluir de la consideración los péptidos de genes con niveles de expresión indetectables.

La información que no interactúa con los alelos también puede incluir la probabilidad de que el ARNm fuente del péptido codificado por el neoantígeno esté sujeto a una descomposición mediada sin sentido como lo predice un modelo de descomposición mediada sin sentido, por ejemplo, el modelo de Rivas et al, Science 2015.

La información que no interactúa con los alelos también puede incluir la expresión típica específica de tejido del gen fuente del péptido durante diversas etapas del ciclo celular. Es probable que los genes que se expresan en un nivel bajo en general (medido por RNA-seq o proteómica de espectrometría de masas) pero que se sabe que se expresan en un nivel alto durante etapas específicas del ciclo celular produzcan más péptidos presentados que los genes que se expresan en un nivel bajo durante etapas específicas del ciclo celular. expresado establemente en niveles muy bajos.

La información que no interactúa con los alelos también puede incluir un catálogo completo de características de la proteína fuente como se proporciona, por ejemplo, en uniProt o PDB http://www.rcsb.orgfpdb/home/home.do. Estas características pueden incluir, entre otras: las estructuras secundaria y terciaria de la proteína, localización subcelular 11, términos de ontología genética (GO). Específicamente, esta información puede contener anotaciones que actúan a nivel de la proteína, por ejemplo, longitud de 5' UTR, y anotaciones que actúan a nivel de residuos específicos, por ejemplo, motivo de hélice entre los residuos 300 y 310. Estas características también pueden incluir motivos de giro, motivos de hojas y residuos desordenados.

La información que no interactúa con los alelos también puede incluir características que describen las propiedades del dominio de la proteína fuente que contiene el péptido, por ejemplo: estructura secundaria o terciaria (por ejemplo, hélice alfa frente a lámina beta); empalme alternativo.

La información que no interactúa con los alelos también puede incluir características que describen la presencia o ausencia de un punto de presentación en la posición del péptido en la proteína fuente del péptido.

La información que no interactúa con los alelos también puede incluir la probabilidad de presentación de péptidos de la proteína fuente del péptido en cuestión en otros individuos (después de ajustar por el nivel de expresión de la proteína fuente en esos individuos y la influencia de los diferentes tipos de HLA de esos individuos).

La información que no interactúa con los alelos también puede incluir la probabilidad de que el péptido no sea detectado o esté sobrerrepresentado por espectrometría de masas debido a sesgos técnicos.

La expresión de diversos módulos/rutas genéticas medida mediante un ensayo de expresión genética tal como RNASeq, micromatrices, paneles dirigidos tales como Nanostring, o representantes de genes únicos o múltiples de módulos genéticos medidos mediante ensayos tales como RT- PCR (que no necesita contener la proteína fuente del péptido) que son informativas sobre el estado de las células tumorales, el estroma o los linfocitos infiltrantes de tumores (TIL).

La información que no interactúa con los alelos también puede incluir el número de copias del gen fuente del péptido en las células tumorales. Por ejemplo, a los péptidos de genes que están sujetos a deleción homocigótica en células tumorales se les puede asignar una probabilidad de presentación de cero.

La información que no interactúa con los alelos también puede incluir la probabilidad de que el péptido se una al TAP o la afinidad de unión medida o prevista del péptido al TAP Es más probable que se presenten péptidos que tienen más probabilidades de unirse al TAP, o péptidos que se unen al TAP con mayor afinidad.

La información que no interactúa con los alelos también puede incluir el nivel de expresión de TAP en las células tumorales (que puede medirse mediante secuenciación de ARN, espectrometría de masas de proteoma e inmunohistoquímica). Los niveles de expresión de TAP más altos aumentan la probabilidad de presentación de todos los péptidos.

La información que no interactúa con los alelos también puede incluir la presencia o ausencia de mutaciones tumorales, que incluyen, pero no se limitan a:

i. Mutaciones conductoras en genes impulsores de cáncer conocidos, como EGFR, KRAS, ALK, RET, ROS1, TP53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3

ii. En genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos (por ejemplo, B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 o cualquiera de los genes que codifican componentes del proteasoma o inmunoproteasoma). Los péptidos cuya presentación depende de un componente de la maquinaria de presentación de antígenos que está sujeto a una mutación por pérdida de función en el tumor tienen una probabilidad reducida de presentación.

Presencia o ausencia de polimorfismos funcionales de la línea germinal, que incluyen, pero no se limitan a:

i. En genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos (por ejemplo, B2M, HLA-A, HLA-B, HLA-C, TAP-1, TAP-2, TAPBP, CALR, CNX, ERP57, HLA-DM, HLA-DMA, HLA-DMB, HLA-DO, HLA-DOA, HLA-DOBHLA-DP, HLA-DPA1, HLA-DPB1, HLA-DQ, HLA-DQA1, HLA-DQA2, HLA-DQB1, HLA-DQB2, HLA-DR, HLA-DRA, HLA-DRB1, HLA-DRB3, HLA-DRB4, HLA-DRB5 o cualquiera de los genes que codifican los componentes del proteasoma o inmunoproteasoma)

La información que no interactúa con los alelos también puede incluir el tipo de tumor (por ejemplo, NSCLC, melanoma).

La información que no interactúa con los alelos también puede incluir la funcionalidad conocida de los alelos HLA, como se refleja, por ejemplo, en los sufijos de los alelos HLA. Por ejemplo, el sufijo N en el nombre del alelo HLA-A*24:09N indica un alelo nulo que no se expresa y por lo tanto es poco probable que presente epítopos; la nomenclatura completa del sufijo del alelo HLA se describe en https://www.ebi.ac.uk/ipd/imgtJhla/nomenclature/suffixes.html.

La información que no interactúa con los alelos también puede incluir el subtipo de tumor clínico (por ejemplo, cáncer de pulmón escamoso frente a no escamoso).

La información que no interactúa con los alelos también puede incluir antecedentes de tabaquismo.

La información que no interactúa con los alelos también puede incluir antecedentes de quemaduras solares, exposición al sol o exposición a otros mutágenos.

La información que no interactúa con los alelos también puede incluir la expresión típica del gen fuente del péptido en el tipo de tumor o subtipo clínico relevante, opcionalmente estratificado por mutación conductora. Es más probable que se presenten genes que por lo general se expresan en niveles altos en el tipo de tumor relevante.

La información que no interactúa con los alelos también puede incluir la frecuencia de la mutación en todos los tumores, o en tumores del mismo tipo, o en tumores de individuos con al menos un alelo del MHC compartido, o en tumores del mismo tipo en individuos con al menos un alelo MHC compartido.

En el caso de un péptido específico de un tumor mutado, la lista de características usadas para predecir la probabilidad de presentación también puede incluir la anotación de la mutación (por ejemplo, sentido erróneo, lectura completa, desplazamiento de marco, fusión, etc.) o si la mutación Se predice que dará como resultado una desintegración mediada por sin sentido (NMD). Por ejemplo, a los péptidos de segmentos de proteínas que no se traducen en células tumorales debido a mutaciones homocigotas de parada temprana se les puede asignar una probabilidad de presentación de cero. La NMD da como resultado una disminución de la traducción del ARNm, lo que disminuye la probabilidad de presentación.

VII.C. Sistema de identificación de presentación

La figura 3 es un diagrama de bloques de alto nivel que ilustra los componentes lógicos informáticos del sistema 160 de identificación de presentación, según una realización. En esta realización de ejemplo, el sistema 160 de identificación de presentación incluye un módulo 312 de gestión de datos, un módulo 314 de codificación, un módulo 316 de entrenamiento y un módulo 320 de predicción. El sistema 160 de identificación de presentación también se compone de un almacén 170 de datos de entrenamiento y un almacén 175 de modelos de presentación. Algunas realizaciones del sistema 160 de gestión de modelos tienen módulos diferentes a los descritos aquí. Del mismo modo, las funciones se pueden distribuir entre los módulos de forma diferente a la que se describe aquí.

VII.C.1. Módulo de gestión de datos

El módulo 312 de gestión de datos genera conjuntos de datos 170 de entrenamiento a partir de la información 165 de presentación. Cada conjunto de datos de entrenamiento contiene una pluralidad de instancias de datos, en las que cada instanciaide datos contiene un conjunto de variablesZindependientes que incluyen al menos una secuenciapipeptídica presentada o no presentada, uno o más alelosaidel MHC asociados, asociados con la secuenciapipeptídica y una variableydependiente que representa información que el sistema 160 de identificación de presentación está interesado en predecir para nuevos valores de variables independientes.

En una implementación particular a la que se hace referencia en el resto de la memoria descriptiva, la variableydependiente es una etiqueta binaria que indica si el péptidopifue presentado por el uno o más alelosaidel MHC asociados. Sin embargo, se aprecia que en otras implementaciones, la variableydependiente puede representar cualquier otro tipo de información que el sistema 160 de identificación de presentación esté interesado en predecir dependiendo de las variablesZindependientes. Por ejemplo, en otra implementación, la variableydependiente también puede ser un valor numérico que indique la corriente iónica de espectrometría de masas identificada para la instancia de datos.

La secuenciappeptídica para instanciaide datos es una secuencia dekiaminoácidos, en los quekipuede variar entre instanciaside datos dentro de un intervalo. Por ejemplo, ese intervalo puede ser 8-15 para MHC clase I o 9-30 para MHC clase II. En una implementación específica del sistema 160, todas las secuenciaspipeptídicas en un conjunto de datos de entrenamiento pueden tener la misma longitud, por ejemplo, 9. El número de aminoácidos en una secuencia peptídica puede variar según el tipo de alelos del MHC (por ejemplo, alelos del MHC en humanos, etc.). Los alelosaidel MHC para la instanciaide datos, indicaron qué los alelos del MHC estaban presentes en asociación con la secuenciappeptídica correspondiente.

El módulo 312 de gestión de datos también puede incluir variables adicionales que interactúan con alelos, tales como afinidadbde unión y predicciones de estabilidadsien conjunto con las secuenciaspipeptídicas y alelosaidel MHC asociados contenidos en los datos 170 de entrenamiento. Por ejemplo, los datos 170 de entrenamiento pueden contener prediccionesbde afinidad de unión entre un péptidopi y cada una de las moléculas MHC asociadas indicadas ena.Como otro ejemplo, los datos 170 de entrenamiento pueden contener predicciones de estabilidad. s1' para cada uno de los alelos del MHC indicados ena.

El módulo 312 de gestión de datos también puede incluir variablesWque no interactúan con alelos, tales como secuencias flanqueantes C-terminales y mediciones de cuantificación de ARNm junto con las secuenciasppeptídicas.

El módulo 312 de gestión de datos también identifica secuencias de péptidos que no se presentan mediante alelos del MHC para generar los datos 170 de entrenamiento. Generalmente, esto implica identificar las secuencias "más largas" de la proteína fuente que incluyen secuencias peptídicas presentadas antes de la presentación. Cuando la información de presentación contiene líneas celulares diseñadas, el módulo 312 de gestión de datos identifica una serie de secuencias peptídicas en la proteína sintética a la que estuvieron expuestas las células que no se presentaron en los alelos del MHC de las células. Cuando la información de presentación contiene muestras de tejido, el módulo 312 de gestión de datos identifica proteínas fuente a partir de las cuales se originaron las secuencias peptídicas presentadas e identifica una serie de secuencias peptídicas en la proteína fuente que no se presentaron en los alelos del MHC de las células de la muestra de tejido.

El módulo 312 de gestión de datos también puede generar artificialmente péptidos con secuencias aleatorias de aminoácidos e identificar las secuencias generadas como péptidos no presentados en los alelos del MHC. Esto se puede lograr generando secuencias peptídicas aleatoriamente, lo que permite que el módulo 312 de gestión de datos genere fácilmente grandes cantidades de datos sintéticos para péptidos que no se presentan en los alelos del MHC. Dado que en realidad un pequeño porcentaje de las secuencias peptídicas están presentadas por alelos del MHC, es muy probable que las secuencias peptídicas generadas sintéticamente no hayan sido presentadas por los alelos del MHC, incluso si estuvieran incluidas en proteínas procesadas por las células.

La figura 4 ilustra un conjunto de ejemplo de conjunto de datos 170A de entrenamiento, según una realización. Específicamente, las primeras 3 instancias de datos en los datos 170A de entrenamiento indican información de presentación de péptidos de una línea celular de un único alelo que implica el alelo HLA-C*01:03 y 3 secuencias peptídicas QCEiOWa RE, FIEUHFWI y FEWRHRJTRUJR. La cuarta instancia de datos en los datos 170A de entrenamiento indica información peptídica de una línea celular de alelos múltiples que implica los alelos HLA-B*07:02, HLA-C*01:03, HLA-A*01:01 y una secuencia peptídica QIEJOEIJE. La primera instancia de datos indica que la secuencia peptídica QCEIOWARE no fue presentada por el alelo HLA-C*01:03. Como se analizó en los dos párrafos anteriores, la secuencia peptídica puede generarse aleatoriamente mediante el módulo 312 de gestión de datos o identificarse a partir de la proteína fuente de los péptidos presentados. Los datos 170A de entrenamiento también incluyen una predicción de afinidad de unión de 1000 nM y una predicción de estabilidad de una semivida de 1 h para el par secuencia peptídica-alelo. Los datos 170A de entrenamiento también incluyen variables que no interactúan con alelos, tales como la secuencia flanqueante C-terminal del péptido FJELFISBOSJFIE, y una medición de cuantificación de ARNm de 102 FPKM. La cuarta instancia de datos indica que la secuencia peptídica QIEJOEIJE fue presentada por uno de los alelos HLA-B*07:02, HLA-C*01:03 o HLA-A*01:01. Los datos 170A de entrenamiento también incluyen predicciones de afinidad de unión y predicciones de estabilidad para cada uno de los alelos, así como la secuencia flanqueante C del péptido y la medición de cuantificación de ARNm para el péptido.

VII.C.2. Módulo de codificación

El módulo 314 de codificación codifica información contenida en los datos 170 de entrenamiento en una representación numérica que puede usarse para generar el uno o más modelos de presentación. En una implementación, el módulo 314 de codificación one-hot codifica secuencias (por ejemplo, secuencias peptídicas o secuencias flanqueantes C-terminales) sobre un alfabeto de aminoácidos de 20 letras predeterminado. Específicamente, una secuencia peptídicap'conkiaminoácidos se representa como un vector de fila de20.kielementos, donde un solo elemento entrepi20 (j-i)i, p i20 ij-r)2,...,p 20jque corresponde al alfabeto del aminoácido en laj-ésimaposición de la secuencia peptídica tiene un valor de 1. En caso contrario, los elementos restantes tienen un valor de 0. Como ejemplo, para un alfabeto dado {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}, la secuencia peptídica EAF de 3 aminoácidos para la instanciaide datos puede representarse mediante el vector de fila de 60 elementosp'=[00010000000000000 0 00 0 1 0 00 00 0 00 0 00 00 0 00 0 00 0 00 00 0 100 00 0 00 0 00 00 0 00]. La secuenciaCflanqueante C-terminal puede codificarse de manera similar a la descrita anteriormente, así como la secuenciadhde proteínas para los alelos del MHC y otros datos de secuencia en la información de presentación.

Cuando los datos 170 de entrenamiento contienen secuencias de diferentes longitudes de aminoácidos, el módulo 314 de codificación puede codificar además los péptidos en vectores de igual longitud agregando un carácter PAD para extender el alfabeto predeterminado. Por ejemplo, esto se puede realizar rellenando a la izquierda las secuencias peptídicas con el carácter PAD hasta que la longitud de la secuencia peptídica alcance la secuencia peptídica con la mayor longitud en los datos 170 de entrenamiento. Por tanto, cuando la secuencia peptídica de mayor longitud tienekméxaminoácidos, el módulo 314 de codificación representa numéricamente cada secuencia como un vector de fila de(20+1) • kméxelementos. Como ejemplo, para el alfabeto extendido {PAD, A, C, D, E, F, G, H, 1, K, L, M, N, P, Q, R, S, T, V, W, Y } y una longitud máxima de aminoácidos dekméx=5,el mismo ejemplo de secuencia peptídica EAF de 3 aminoácidos puede representarse mediante el vector de fila de 105 elementos p'=[1 000000000000000000 0 0 0 10 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0001000000000000000001000000000000000000000000 000000000010000000 0 00 0 0 00 0]. La secuenciaCflanqueante C-terminal u otros datos de secuencia pueden codificarse de manera similar como se describe anteriormente. Por tanto, cada variable o columna independiente en la secuenciap'oCpeptídica representa la presencia de un aminoácido particular en una posición particular de la secuencia.

Aunque el método anterior para codificar datos de secuencia se describió en referencia a secuencias que tienen secuencias de aminoácidos, el método puede extenderse de manera similar a otros tipos de datos de secuencia, tales como datos de secuencia de ADN o ARN, y similares.

El módulo 314 de codificación también codifica uno o más alelosaidel MHC para instanciaide datos como un vector fila demelementos, en los que cada elementoh=1,2,..., m corresponde a un alelo del MHC único identificado. Los elementos correspondientes a los alelos del MHC identificados para la instanciaide datos tienen un valor de 1. En caso contrario, los elementos restantes tienen un valor de 0. Como ejemplo, los alelos HLA-B*07:02 y HLA-C*01:03 para una instanciaide datos correspondiente a una línea celular de múltiples alelos entre m=4 tipos de alelos del MHC únicos identificados {HLA-A*01:01, HLA-C*01:08, HLA-B*07:02, HLA-C*01:03} puede representarse mediante el vector fila de 4 elementos a'=[0011], en el que a3'=1 y a4=1. Aunque el ejemplo se describe en este documento con 4 tipos de alelos del MHC identificados, el número de tipos de alelos del m Hc puede ser cientos o miles en la práctica. Como se analizó anteriormente, cada instanciaide datos por lo general contiene como máximo 6 tipos de alelos del MHC diferentes en asociación con la secuenciappeptídica.

El módulo 314 de codificación también codifica la etiqueta y para cada instanciaide datos como una variable binaria que tiene valores del conjunto de {0, 1}, en el que un valor de 1 indica que péptidox'fue presentado por uno de los alelosaidel MHC asociados, y un valor de 0 indica que el péptidox'no fue presentado por ninguno de los alelosaidel MHC asociados. Cuando la variable y dependiente representa la corriente iónica de espectrometría de masas, el módulo 314 de codificación puede escalar adicionalmente los valores usando diversas funciones, tales como la función log que tiene un intervalo de [-«, «] para valores de corriente iónica entre [0, «].

El módulo 314 de codificación puede representar un par de variablesxhque interactúan con alelos para el péptidopy un alelohdel MHC asociado como un vector de fila en el que las representaciones numéricas de variables que interactúan con alelos se concatenan una tras otra. Por ejemplo, el módulo 314 de codificación puede representarXhcomo un vector fila igual a[pi],[pi bh], [pi sh], o [pibhsh], dóndebhes la predicción de la afinidad de unión para el péptidopy el alelohasociado del MHC, y de manera similar parashpara la estabilidad. Alternativamente, se pueden almacenar individualmente una o más combinaciones de variables que interactúan con alelos (por ejemplo, como vectores o matrices individuales).

En una instancia, el módulo 314 de codificación representa información de afinidad de unión incorporando valores medidos o predichos para la afinidad de unión en las variablesxhque interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa información de estabilidad de unión incorporando valores medidos o predichos para la estabilidad de unión en las variablesxhque interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa información de velocidad de unión incorporando valores medidos o previstos para la velocidad de unión en las variablesxhque interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa la longitud del péptido como un vector

<I>, donde<->k<f!>es la función indicadora, y Lkindica la longitud del péptidopk.El vectorTkpuede incluirse en las variables que interactúan con los alelosXhi.

En una instancia, el módulo 314 de codificación representa información de expresión de ARN de alelos del MHC incorporando niveles de expresión basados en RNA-seq de alelos del MHC en las variables que interactúan con los alelosXhi.

De manera similar, el módulo 314 de codificación puede representar las variablesWque no interactúan con los alelos como un vector de fila en el que las representaciones numéricas de variables que no interactúan con alelos se concatenan una tras otra. Por ejemplo,Wpuede ser un vector fila igual a [ci] o[C miW] en el cualWes un vector de fila que representa cualquier otra variable que no interactúe con el alelo además de la secuencia flanqueante C-terminal del péptidopy la mediciónmide cuantificación de ARNm asociado al péptido. Alternativamente, se pueden almacenar individualmente una o más combinaciones de variables que no interactúan con alelos (por ejemplo, como vectores o matrices individuales).

En una instancia, el módulo 314 de codificación representa la tasa de recambio de la proteína fuente para una secuencia peptídica incorporando la tasa de recambio o la semivida en las variablesWique no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa la longitud de la proteína fuente o isoforma incorporando la longitud de la proteína en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa la activación del inmunoproteasoma incorporando la expresión media de las subunidades del proteasoma específicas del inmunoproteasoma, incluida laf31\, f32\, f35,subunidades en las variablesWique no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa la abundancia de RNA-seq de la proteína fuente del péptido o gen o transcrito de un péptido (cuantificado en unidades de FPKM, TPM mediante técnicas tales como RSEM) que puede incorporar la abundancia de la proteína fuente en las variablesWque no interactúan con los alelos

En una instancia, el módulo 314 de codificación representa la probabilidad de que la transcripción de origen de un péptido sufra una desintegración mediada sin sentido (NMD) según lo estimado por el modelo en, por ejemplo, Rivas et. Alabama. Science, 2015 incorporando esta probabilidad en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa el estado de activación de un módulo genético o ruta evaluado mediante RNA-seq, por ejemplo, cuantificando la expresión de los genes en la ruta en unidades de TPM usando, por ejemplo, RSEM para cada uno de los genes en la ruta, luego calcula un resumen estadístico, por ejemplo, la media, entre los genes de la ruta. La media se puede incorporar en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa el número de copia del gen fuente incorporando el número de copia en las variablesWque no interactúan con el alelo.

En una instancia, el módulo 314 de codificación representa la afinidad de unión de TAP al incluir la afinidad de unión de TAP medida o predicha (por ejemplo, en unidades nanomolares) en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa niveles de expresión de TAP al incluir niveles de expresión de TAP medidos por RNA-seq (y cuantificados en unidades de TPM, por ejemplo, RSEM) en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa mutaciones tumorales como un vector de variables indicadoras (es decir,dk= 1 si péptidopkproviene de una muestra con una mutación KRAS G12D y 0 en caso contrario) en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa polimorfismos de la línea germinal en genes de presentación de antígenos como un vector de variables indicadoras (es decir,dk= 1 si péptidopkproviene de una muestra con un polimorfismo de línea germinal de especie en el TAP). Estas variables indicadoras se pueden incluir en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa el tipo de tumor como un vector codificado on-hot de longitud uno sobre el alfabeto de tipos de tumores (por ejemplo, NSCLC, melanoma, cáncer colorrectal, etc.). Estas variables codificadas on-hot se pueden incluir en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa sufijos de alelos del MHC tratando alelos de HLA de 4 dígitos con diferentes sufijos. Por ejemplo, HLA-A*24:09N se considera un alelo diferente de HLA-A*24:09 a los efectos del modelo. Alternativamente, la probabilidad de presentación por un alelo del MHC con sufijo N se puede establecer en cero para todos los péptidos, porque los alelos HLA que terminan en el sufijo N no se expresan.

En una instancia, el módulo 314 de codificación representa el subtipo de tumor como un vector codificado on-hot de longitud uno sobre el alfabeto de subtipos de tumor (por ejemplo, adenocarcinoma de pulmón, carcinoma de células escamosas de pulmón, etc.). Estas variables codificadas on-hot se pueden incluir en las variablesWque no interactúan con alelos.

En una instancia, el módulo 314 de codificación representa el historial de tabaquismo como una variable indicadora binaria.(dk= 1 si el paciente tiene antecedentes de tabaquismo y 0 en caso contrario), que pueden incluirse en las variablesWque no interactúan con los alelos. Alternativamente, el historial de tabaquismo se puede codificar como una variable codificada on-hot de longitud uno sobre un alfabeto de gravedad del tabaquismo. Por ejemplo, el tabaquismo se puede calificar en una escala del 1 al 5, donde 1 indica no fumadores y 5 indica fumadores empedernidos actualmente. Debido a que los antecedentes de tabaquismo son principalmente relevantes para los tumores de pulmón, al entrenar un modelo en múltiples tipos de tumores, esta variable también se puede definir como igual a 1 si el paciente tiene antecedentes de tabaquismo y el tipo de tumor es tumores de pulmón y cero en caso contrario.

En una instancia, el módulo 314 de codificación representa el historial de quemaduras solares como una variable indicadora binaria.(dk= 1 si el paciente tiene antecedentes de quemaduras solares graves y 0 en caso contrario), que pueden incluirse en las variablesWque no interactúan con los alelos. Debido a que las quemaduras solares graves son principalmente relevantes para los melanomas, al entrenar un modelo en múltiples tipos de tumores, esta variable también se puede definir como igual a 1 si el paciente tiene antecedentes de quemaduras solares graves y el tipo de tumor es melanoma y cero en caso contrario.

En una instancia, el módulo 314 de codificación representa la distribución de los niveles de expresión de un gen o transcrito particular para cada gen o transcrito en el genoma humano como estadísticas resumidas (por ejemplo, media, mediana) de la distribución de los niveles de expresión mediante el uso de bases de datos de referencia tales como TCGA. Específicamente, para un péptidopken una muestra con melanoma de tipo tumoral, se puede incluir no solo el gen medido o el nivel de expresión del transcrito del gen o transcrito de origen del péptidopken las variablesWque no interactúan con los alelos W, sino también la expresión media y/o mediana del gen o transcrito del gen o transcrito de origen del péptidopken melanomas medidos por TCGA.

En una instancia, el módulo 314 de codificación representa el tipo de mutación como una variable codificada on-hot de longitud uno sobre el alfabeto de tipos de mutación (por ejemplo, sentido erróneo, desplazamiento de marco, inductora de NMD, etc.). Estas variables codificadas on-hot se pueden incluir en las variablesWque no interactúan con alelos.

En una instancia, el módulo 314 de codificación representa características de la proteína a nivel de proteína como el valor de la anotación (por ejemplo, longitud de 5' UTR) de la proteína fuente en las variablesWque no interactúan con los alelos. En otra instancia, el módulo 314 de codificación representa anotaciones a nivel de residuos de la proteína fuente para el péptidopkincluyendo una variable indicadora, que es igual a 1 si el péptidopkse superpone con un motivo de hélice y 0 en caso contrario, o que es igual a 1 si es un péptido p está completamente contenido dentro de un motivo de hélice en las variablesWque no interactúan con los alelos. En otra instancia, una característica que representa la proporción de residuos en el péptido p que están contenidos dentro de una anotación de motivo de hélice se pueden incluir en las variablesWque no interactúan con los alelos.

En una instancia, el módulo 314 de codificación representa un tipo de proteínas o isoformas en el proteoma humano como un vectorokindicador que tiene una longitud igual al número de proteínas o isoformas en el proteoma humano, y el elementook/correspondiente es 1 si péptidopkproviene de la proteínaiy 0 en caso contrario.

El módulo 314 de codificación también puede representar el conjunto general de variablesz'para el péptidopy un alelohdel MHC asociado como un vector de fila en el que las representaciones numéricas de las variablesXque interactúan con los alelos y las variables W que no interactúan con los alelos se concatenan una tras otra. Por ejemplo, el módulo 314 de codificación puede representarzh'como un vector fila igual a [xhW]o[w¡xh].

VIII. Módulo de entrenamiento

El módulo 316 de entrenamiento construye uno o más modelos de presentación que generan probabilidades de si las secuencias peptídicas serán presentadas por alelos del<m>H<c>asociados con las secuencias peptídicas. Específicamente, dada una secuenciapkpeptídica y un conjunto de alelosakdel MHC asociados con la secuenciappeptídica, cada modelo de presentación genera una estimaciónukindicando una probabilidad de que la secuenciapkpeptídicapkserá presentada por uno o más de los alelosakdel MHC asociados.

VIIIA. Descripción general

El módulo 316 de entrenamiento construye el uno o más modelos de presentación basándose en los conjuntos de datos de entrenamiento almacenados en el almacén 170 generados a partir de la información de presentación almacenada en 165. Generalmente, independientemente del tipo específico de modelo de presentación, todos los modelos de presentación capturan la dependencia entre variables independientes y variables dependientes en los datos 170 de entrenamiento de manera que se minimice una función de pérdida. Específicamente, la función de pérdida £(y/es,u/es; Q)representa discrepancias entre valores de variables dependientes para una o más instancias S de datos en los datos 170 de entrenamiento y las probabilidadesu/esestimadas para las instancias S de datos generadas por el modelo de presentación. En una implementación particular a la que se hace referencia en el resto de la memoria descriptiva, la función de pérdida(y¡es, u¡es;Q) es la función de verosimilitud logarítmica negativa dada por la ecuación (1 a) de la siguiente manera:

Kyies, u ies; 0) ---^T(y¿ Sog (1 -ydlo g (l - u,-)). ( la )

íes

Sin embargo, en la práctica se puede usar otra función de pérdida. Por ejemplo, cuando se hacen predicciones para la corriente iónica de espectrometría de masas, la función de pérdida es la pérdida media cuadrática dada por la ecuación 1 b de la siguiente manera:

íes

El modelo de presentación puede ser un modelo paramétrico en el que uno o más parámetrosQespecifican matemáticamente la dependencia entre las variables independientes y las variables dependientes. Por lo general, se usan diversos parámetros de modelos de presentación de tipo paramétrico que minimizan la función de pérdida (ye , u e ; Q) se determinan mediante algoritmos de optimización numérica basados en gradientes, tales como algoritmos de gradiente por lotes, algoritmos de gradiente estocástico y similares. Alternativamente, el modelo de presentación puede ser un modelo no paramétrico en el que la estructura del modelo se determina a partir de los datos 170 de entrenamiento y no se basa estrictamente en un conjunto fijo de parámetros.

VIII.B. Modelos por alelo

El módulo 316 de entrenamiento puede construir los modelos de presentación para predecir las probabilidades de presentación de péptidos por alelo. En este caso, el módulo 316 de entrenamiento puede entrenar los modelos de presentación basándose en instancias S de datos en los datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos.

En una implementación, el módulo 316 de formación modela la probabilidad de presentación estimadaukpara péptidopkpara un alelohespecífico por:

— Pr{p* presentado; alelohdel

donde la secuenciaxhkpeptídica indica las variables codificadas que interactúan con los alelos para el péptidopy alelohdel MHC correspondiente, f( ) es cualquier función, y en todo este documento se la denomina función de transformación para facilitar la descripción. Además, gh() es cualquier función, en este documento se la denomina función de dependencia para facilitar la descripción y genera puntuaciones de dependencia para las variablesxhkque interactúan con los alelos basado en un conjunto de parámetrosOhdeterminado para el alelohdel MHC. Los valores para el conjunto de parámetrosOhpara cada alelohdel MHC se puede determinar minimizando la función de pérdida con respecto aOh,dóndeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan el alelohdel MHC único.

La salida de la función de dependencia gh(xhk;Oh) representa una puntuación de dependencia para el alelohdel MHC indicando si el alelohdel MHC presentará el neoantígeno correspondiente basándose al menos en las característicasxhkde interacción con el alelo, y en particular, basándose en las posiciones de los aminoácidos de la secuencia peptídica del péptidopk.Por ejemplo, la puntuación de dependencia del alelohdel MHC puede tener un valor alto si el alelohdel MHC es probable que presente el péptidopk,y puede tener un valor bajo si la presentación no es probable. La función de transformación f( ) transforma la entrada y, más específicamente, transforma la puntuación de dependencia generada porgh(xhk;Oh)en este caso, a un valor apropiado para indicar la probabilidad de que el péptidopkserá presentado por un alelo del MHC.

En una implementación particular a la que se hace referencia en el resto de la memoria descriptiva, f( ) es una función que tiene el intervalo dentro de [0, 1 ] para un intervalo de dominio apropiado.

En un ejemplo,f( )es la función de salida dada por:

Como otro ejemplo,f(•) también puede ser la función tangente hiperbólica dada por:

/(z) = tanh(z) (5)

cuando los valores para el dominio z son iguales o mayores que 0. Alternativamente, cuando se hacen predicciones para la corriente iónica de espectrometría de masas que tienen valores fuera del intervalo [0, 1 ], f( ) puede ser cualquier función tal como la función identidad, la función exponencial, la función logarítmica y similares.

Por tanto, la probabilidad por alelo de que una secuencia peptídicapkserá presentada por un alelohdel MHC se puede generar aplicando la función de dependencia gh() para el alelohdel MHCa la versión codificada de la secuencia peptídicapkpara generar la puntuación de dependencia correspondiente. La puntuación de dependencia puede transformarse mediante la función de transformaciónf( )para generar una probabilidad por alelo de que la secuencia peptídicapkserá presentada por el alelohdel MHC.

VIM.B.1 Funciones de dependencia para variables que interactúan con alelos

En una implementación particular a la que se hace referencia a lo largo de la memoria descriptiva, la función de dependencia gh() es una función afín dada por:

dh i^h ’®h) ~~%h ' @h-(6)

que combina linealmente cada variable que interactúa con los alelos enxhkcon un parámetro correspondiente en el conjunto de parámetrosOhdeterminado para el alelohdel MHC asociado.

En otra implementación particular a la que se hace referencia a lo largo de la memoria descriptiva, la función de dependencia gh() es una función de red dada por:

5 h (4 :0 h ) = MVh(4;0fc). (7)

representada por un modelo de red NNh( ) que tiene una serie de nodos dispuestos en una o más capas. Un nodo puede conectarse a otros nodos mediante conexiones, cada una de las cuales tiene un parámetro asociado en el conjunto de parámetros Oh. Un valor en un nodo particular puede representarse como una suma de los valores de los nodos conectados al nodo particular ponderados por el parámetro asociado mapeado por una función de activación asociada con el nodo particular. A diferencia de la función afín, los modelos de red son ventajosos porque el modelo de presentación puede incorporar no linealidad y procesar datos que tienen diferentes longitudes de secuencias de aminoácidos. Específicamente, con los modelos no lineales, los modelos de red pueden capturar la interacción entre aminoácidos en diferentes posiciones en una secuencia peptídica y cómo esta interacción afecta la presentación de los péptidos.

En general, los modelos de red. NNh( ) pueden estructurarse como redes de retroalimentación, tales como redes neuronales artificiales (ANN), redes neuronales convolucionales (CNN), redes neuronales profundas (DNN) y/o redes recurrentes, tales como redes de memoria a corto plazo (LSTM), redes recurrentes bidireccionales, redes recurrentes bidireccionales profundas, y similares.

En una instancia mencionado en el resto de la memoria descriptiva, cada alelo del MHC enh=1,2,...,mestá asociado con un modelo de red separado, y NNh( ) indica los resultados de un modelo de red asociado con el alelohdel MHC. La figura 5 ilustra un modelo de red de ejemplo. NN3() en asociación con un alelo del MHC arbitrarioh=3.Como se muestra en la figura 5, el modelo de red NN3O para el alelo del MHCh=3incluye tres nodos de entrada en la capa.I=1,cuatro nodos en la capaI=2,dos nodos en la capaI=3,y un nodo de salida en la capaI=4.El modelo de red NN3( ) está asociado con un conjunto de parámetros a menudo 03(1 ), 03(2 ), ..., 03(10 ). El modelo de red NN3O recibe valores de entrada (instancias de datos individuales, incluidos datos de secuencia de polipéptidos codificados y cualquier otro dato de entrenamiento usado) para tres variables que interactúan con alelos x / ( l ) ,X3k(2 ),yX3k(3 )para el alelo del MHCh=3y genera el valor NN3(x3k).

En otra instancia, los alelos del MHC identificadosh=1, 2,..., m están asociados a un único modelo de redNNh( ),y NNh( ) indica una o más salidas del modelo de red única asociado con el alelohdel MHC. En dicho caso, el conjunto de parámetros0hpuede corresponder a un conjunto de parámetros para el modelo de red única y, por tanto, el conjunto de parámetros0hpuede ser compartido por todos los alelos del m Hc .

La figura 6A ilustra un modelo de red de ejemplo. NNh( ) compartido por alelos del MHCh=1,2,...,m.Como se muestra en la figura 6A, el modelo de red NNh( ) incluyemnodos de salida, cada uno correspondiente a un alelo del MHC. El modelo de red NN3O recibe las variables que interactúan con los alelosX3kpara el alelo del MHCh=3y valores de salidasmincluyendo el valor NN3(x3k) correspondiente al alelo del MHCh=3.

En otra instancia más, el modelo de red única NNh( ) puede ser un modelo de red que genera una puntuación de dependencia dadas las variablesxhkque interactúan con los alelos y la secuenciadhde proteínas codificada de un alelohdel MHC. En tal caso, el conjunto de parámetros0hpuede corresponder nuevamente a un conjunto de parámetros para el modelo de red única y, por lo tanto, el conjunto de parámetros0h,Puede ser compartido por todos los alelos del MHC. Por tanto, en tal caso, NNh( ) puede indicar el resultado del modelo de red única NNh( ) entradas dadas [xhk dh] al modelo de red única. Dicho modelo de red es ventajoso porque las probabilidades de presentación de péptidos para los alelos del MHC que se desconocían en los datos de entrenamiento se pueden predecir simplemente mediante la identificación de su secuencia de proteínas.

La figura 6B ilustra un modelo de red de ejemplo NNh( ) compartido por alelos del MHC. Como se muestra en la figura 6 B, el modelo de red NNh( ) recibe las variables que interactúan con el alelo y la secuencia de proteínas del alelo del MHCh=3como entrada y genera una puntuación de dependencia NN3(x3k) correspondiente al alelo del MHCh=3.En otra instancia más, la función de dependencia gh() se puede expresar como:

dónde g'h(xhk;0 'h) es la función afín con un conjunto de parámetros 0 h, la función de red, o similar, con un parámetro de polarización0h0en el conjunto de parámetros para las variables que interactúan con los alelos para el alelo del MHC que representa una probabilidad basal de presentación para el alelohdel MHC.

En otra implementación, el parámetro de sesgo0h0puede compartirse según la familia de genes del alelohdel MHC Es decir, el parámetro de sesgo0h0para el alelohdel MHC puede ser igual a0gen(h)0,dóndegen(h)es la familia de genes del alelohdel MHC. Por ejemplo, los alelos del MHC HLA-A*02:01, HLA-A*02:02 y HLA-A*02:03 pueden asignarse a la familia de genes de "HLA-A" y el parámetro de sesgo0h0para cada uno de estos alelos del MHC se pueden compartir.

Volviendo a la ecuación (2), como ejemplo, la probabilidad de que el péptidopkserá presentado por el alelo del MHCh=3,entrem=4diferentes alelos del MHC identificados usando la función de dependencia afín gh( ), puede ser generado por:

4 ^ f ( 4■o3) f

dóndeX3kson las variables identificadas que interactúan con los alelos para el alelo del MHCh=3,y03son el conjunto de parámetros determinados para el alelo del MHCh=3mediante la minimización de la función de pérdida.

Como otro ejemplo, la probabilidad de que el péptidopkserá presentado por el alelo del MHCh=3,entrem=4diferentes alelos del MHC identificados usando funciones de transformación de red separadas gh(), puede ser generado por:

dóndeX3kson las variables identificadas que interactúan con los alelos para el alelo del MHCh=3,y63son el conjunto de parámetros determinados para el modelo de red NN3( ) asociado con el alelo del MHCh=3.

La figura 7 ilustra la generación de una probabilidad de presentación para el péptido.pken asociación con el alelo del MHC h=3 usando un modelo de red de ejemplo NN3O). Como se muestra en la figura 7, el modelo de red NN3O recibe las variables que interactúan con los alelosx3kpara el alelohdel MHC = 3 y genera la salida NN3(x3k). La salida se mapea por función f( ) para generar la probabilidad de presentación estimadauk.

VIII.B.2. Por alelo con variables que no interactúan con los alelos

En una implementación, el módulo 316 de entrenamiento incorpora variables que no interactúan con alelos y modela la probabilidad de presentación estimadaukpara péptidopkpor:

dóndewkindica las variables codificadas que no interactúan con los alelos del péptidopk, gw()es una función para las variableswkque no interactúan con alelos en base a un conjunto de parámetros6 wdeterminado para las variables que no interactúan con los alelos. Específicamente, los valores para el conjunto de parámetros.6 hpara cada alelohdel MHC y el conjunto de parámetros6 wpara variables que no interactúan con alelos se puede determinar minimizando la función de pérdida con respecto a6hy6 w,dondeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos.

La salida de la función de dependencia gw(wk;6w) representa una puntuación de dependencia para las variables que no interactúan con los alelos, lo que indica si el péptidopkserá presentado por uno o más alelos del MHC en base al impacto de las variables que no interactúan con los alelos. Por ejemplo, la puntuación de dependencia para las variables que no interactúan con alelos puede tener un valor alto si el péptidopkestá asociado con una secuencia flanqueante C-terminal que se sabe que impacta positivamente la presentación del péptido pk, y puede tener un valor bajo si el péptidopkestá asociado con una secuencia flanqueante C-terminal que se sabe que afecta negativamente la presentación del péptidopk.

Según la ecuación (8), la probabilidad por alelo de que una secuencia peptídica será presentada por un alelohdel MHC se puede generar aplicando la función gh() para el alelohdel<m>H<c>a la versión codificada de la secuenciapkpeptídica para generar la puntuación de dependencia correspondiente para las variables que interactúan con los alelos. La función gw() para las variables que no interactúan con alelos también se aplican a la versión codificada de las variables que no interactúan con alelos para generar la puntuación de dependencia para las variables que no interactúan con alelos. Ambas puntuaciones se combinan y la puntuación combinada se transforma mediante la función de transformación f( ) para generar una probabilidad por alelo de que la secuenciapkpeptídica será presentada por el alelohdel MHC.

Alternativamente, el módulo 316 de entrenamiento puede incluir variableswque no interactúan con alelos en la predicción agregando las variableswkque no interactúan con los alelos a las variables que interactúan con los alelosxhken la ecuación (2). Por tanto, la probabilidad de presentación puede venir dada por:

VIM.B.3 Funciones de dependencia para variables que no interactúan con alelos

De manera similar a la función de dependencia gh() para variables que interactúan con alelos, la función de dependencia gw() para las variables que no interactúan con los alelos puede ser una función afín o una función de red en la que un modelo de red separado está asociado con variableswkque no interactúan con los alelos.

Específicamente, la función de dependencia gw()es una función afín dada por:

que combina linealmente las variables que no interactúan con los alelos enwkcon un parámetro correspondiente en el conjunto de parámetros6 w.

La función de dependencia gw() también puede ser una función de red dada por:

representada por un modelo de red NNw() que tiene un parámetro asociado en el conjunto de parámetrosQw.

En otra instancia, la función de dependenciagw( ) para las variables que no interactúan con alelos puede venir dada por:

9w(w k-0w) = 9'wíw¡i■ 0/w) h(m ki 9%),(10) dóndeg'w(wk;&w)es la función afín, la función de red con el conjunto de parámetrosQWque no interactúan con alelos, o similares,mkes la medida de cuantificación de ARNm para péptidospk,h( ) es una función que transforma la medida de cuantificación, yQwmes un parámetro en el conjunto de parámetros para variables que no interactúan con alelos y que se combina con la medición de cuantificación de ARNm para generar una puntuación de dependencia para la medición de cuantificación de ARNm. En una realización particular a la que se hace referencia en el resto de la memoria descriptiva, h( ) es la función log, sin embargo en la práctica h( ) puede ser cualquiera de una cualquiera de una variedad de funciones diferentes.

En otra instancia más, la función de dependencia la función de dependencia gw( ) para las variables que no interactúan con alelos puede venir dado por:

9w 0 W) = g'w{wk;0'w)0£ •o k,(11 ) dóndeg'w(wk;Q'w)es la función afín, la función de red con el conjunto de parámetrosQ'wque no interactúan con alelos, o similar,okes el vector indicador descrito anteriormente que representa proteínas e isoformas en el proteoma humano para el péptidopk,yQwoes un conjunto de parámetros en el conjunto de parámetros para variables que no interactúan con alelos y que se combina con el vector indicador. En una variación, cuando la dimensionalidad deoky el conjuntoA

de parametros9W°son significativamente altos, un termino de regularizacion de parametros, tal como • 110® II , donde || || representa la norma L1, la norma L2, una combinación o similares, se puede agregar a la función de pérdida al determinar el valor de los parámetros. El valor óptimo del hiperparámetroApuede determinarse mediante métodos apropiados.

Volviendo a la ecuación (8), como ejemplo, la probabilidad de que el péptidopkserá presentado por el alelo del MHCh=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación afines gh( ), gw(), puede ser generado por:

Uft =f ( w k ■ Owi"! •0:i),

dóndew<son las variables identificadas que no interactúan con los alelos para el péptidopk,yQwson el conjunto de parámetros determinados para las variables que no interactúan con los alelos.

Como otro ejemplo, la probabilidad de que el péptidopkserá presentado por el alelo del MHCh=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación de red gh( ), gw( ), puede ser generado por:

dóndew<son las variables identificadas que interactúan con los alelos para el péptidopk,yQwson el conjunto de parámetros determinados para variables que no interactúan con alelos.

La figura 8 ilustra la generación de una probabilidad de presentación para el péptidop<en asociación con el alelo del MHC h=3 usando modelos de red de ejemplo NN3() yNNw().Como se muestra en la figura 8 , el modelo de red NN3() recibe las variables que interactúan con los alelosxs<para el alelo del MHCh=3y genera la salidaNN3(x3<).El modelo de red NNw( ) recibe las variables wK que no interactúan con el alelo para el péptidopky genera la salida NNw(w<). Las salidas se combinan y mapean por función f( ) para generar la probabilidad de presentación estimadau<.

VIII.C. Modelos de alelos múltiples

El módulo 316 de entrenamiento también puede construir los modelos de presentación para predecir las probabilidades de presentación de péptidos en un entorno de alelos múltiples donde están presentes dos o más alelos del MHC. En este caso, el módulo 316 de entrenamiento puede entrenar los modelos de presentación basándose en instancias S de datos en los datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos, células que expresan múltiples alelos del MHC o una combinación de los mismos.

VIII.C.1. Ejemplo 1: Máximo de modelos por alelo

<En una implementación, el módulo 316 de formación modela la probabilidad de presentación estimada Uk para pépt>L<ido>pken asociación con un conjunto de múltiples alelos Hdel MHC en base a las probabilidades de presentaciónuk'■ determinada para cada uno de los aleloshdel MHC en el conjuntoHdeterminado basándose en células que expresan alelos únicos, como se describió anteriormente junto con las ecuaciones (2)-(11). En concreto, la probabilidadUkde presentación puede ser cualquier función deu Uli .En una implementación, como se muestra en la ecuación (12), la función es la función máxima y la probabilidad uk de presentación puede determinarse como el máximo de las probabilidades de presentación para cada alelohdel MHC en el conjuntoH.

VIII.C.2. Ejemplo 2.1: Modelos de función de sumas

En una implementación, el módulo 316 de formación modela la probabilidadukde presentación estimada para péptidopkpor:

donde los elementosahkson 1 para los múltiples alelos del MHChasociado con la secuencia peptídicapyxhkindica las variables codificadas que interactúan con los alelos para el péptidopky los alelos del MHC correspondientes. Los valores para el conjunto de parámetrosOhpara cada alelohdel MHC se pueden determinar minimizando la función de pérdida con respecto aOh,dondeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos y/o células que expresan múltiples alelos del MHC. La función de dependenciaghpuede tener la forma de cualquiera de las funciones de dependenciaghpresentadas anteriormente en las secciones VNI.B.1.

Según la ecuación (13), la probabilidad de presentación de que una secuencia peptídicapkserá presentada por uno o más alelos del MHChpuede generarse aplicando la función de dependenciagh()a la versión codificada de la secuencia peptídicapkpara cada uno de los alelos del MHChpara generar la puntuación correspondiente para las variables que interactúan con los alelos. Las puntuaciones de cada alelohdel MHC se combinan y se transforman mediante la función de transformación f( ) para generar la probabilidad de presentación de que la secuencia peptídicapkestará presentada por el conjunto de alelos del MHCH.

El modelo de presentación de la ecuación (13) es diferente del modelo por alelo de la ecuación (2), en que el número de alelos asociados para cada péptidopkpuede ser mayor que 1. En otras palabras, más de un elemento enahkpuede tener valores de 1 para los múltiples alelos H del MHC asociados con la secuencia peptídicapk.

Como ejemplo, la probabilidad de que el péptidopkserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación afines gh( ), puede ser generada por:

uk- / (4 ■ e2 4 ■ 03).

dóndeX2k, X3kson las variables identificadas que interactúan con los alelos para los alelos del MHCh=2, h=3,yO2, O3son el conjunto de parámetros determinados para los alelos del MHCh=2,h=3.

Como otro ejemplo, la probabilidad de que el péptidopkserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación de redgh(),gw(), puede ser generada por:

dónde NN2O, NN3( ) son los modelos de red identificados para los alelos del MHCh=2, h=3,yO2, O3son el conjunto de parámetros determinados para los alelos del MHCh=2, h=3.

La figura 9 ilustra la generación de una probabilidad de presentación para el péptido.pken asociación con alelos del MHCh=2, h=3usando modelos de red de ejemplo NN2( ) y NN3O). Como se muestra en la figura 9, el modelo de red NN2( ) recibe las variables que interactúan con los alelosX2kpara el alelo del MHCh=2y genera la salidaNN2(X2*)y el modelo de red NN3O recibe las variables que interactúan con los alelosX3kpara el alelo del MHCh=3y genera la salida NN3(x3k). Las salidas se combinan y mapean por función f( ) para generar la probabilidadukde presentación estimada.

VIII.C.3. Ejemplo 2.2: Modelos de función de sumas con variables alélicas no interactivas

En una implementación, el módulo 316 de entrenamiento incorpora variables que no interactúan con alelos y modela la probabilidad uk de presentación estimada para péptido p por:

donde W indica las variables codificadas que no interactúan con el alelo para el péptidopk.Específicamente, los valores para el conjunto de parámetrosOhpara cada alelohdel MHC y el conjunto de parámetrosQwpara variables que no interactúan con alelos se puede determinar minimizando la función de pérdida con respecto aOh,y Ow, dóndeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos y/o células que expresan múltiples alelos del MHC. La función de dependenciagwpuede tener la forma de cualquiera de las funciones de dependenciagwintroducida anteriormente en las secciones VMI.B.3. Por tanto, según la ecuación (14), la probabilidad de presentación de que una secuencia peptídica pk será presentada por uno o más alelosHdel MHC puede generarse aplicando la función gh() a la versión codificada de la secuencia peptídica p para cada uno de los alelosHdel MHC para generar la puntuación de dependencia correspondiente para las variables que interactúan con los alelos para cada alelohdel MHC. La función gw() para las variables que no interactúan con alelos también se aplica a la versión codificada de las variables que no interactúan con alelos para generar la puntuación de dependencia para las variables que no interactúan con alelos. Las puntuaciones se combinan y la puntuación combinada se transforma mediante la función de transformación f( ) para generar la probabilidad de presentación de que la secuencia peptídicapserá presentada por los alelosHdel MHC.

En el modelo de presentación de la ecuación (14), el número de alelos asociados para cada péptidoppuede ser mayor que 1. En otras palabras, más de un elemento enahkpuede tener valores de 1 para los múltiples alelosHdel MHC asociados con la secuencia peptídicapk.

Como ejemplo, la probabilidad de que el péptidopkserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación afines gh(), gw(), puede ser generado por:

% =f { w k■ew .4■o24 •o*),

dóndewkson las variables identificadas que no interactúan con los alelos para el péptidopk,yOwson el conjunto de parámetros determinados para las variables que no interactúan con los alelos.

Como otro ejemplo, la probabilidad de que el péptidopkserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación de red gh(), gw(), puede ser generado por:

dóndewkson las variables identificadas que interactúan con los alelos para el péptidopk,yOwson el conjunto de parámetros determinados para variables que no interactúan con alelos.

La figura 10 ilustra la generación de una probabilidad de presentación para el péptidopken asociación con alelos del MHCh=2, h=3usando modelos de red de ejemplo NN2O, NN3( ), y NNw( ). Como se muestra en la figura 10, el modelo de red NN2O recibe las variables que interactúan con los alelosX2kpara el alelo del MHCh=2y genera la salidaNN2(x2k).El modelo de red NN3( ) recibe las variables que interactúan con los alelos x/ para el alelo del MHCh=3y genera la salida NN3(x3k). El modelo de red NNw( ) recibe las variables que no interactúan con los aleloswkpara péptidopy genera la salida NNw(wk). Las salidas se combinan y mapean por función f( ) para generar la probabilidadukde presentación estimada.

Alternativamente, el módulo 316 de entrenamiento puede incluir variables que no interactúan con los aleloswken la predicción agregando las variables que no interactúan con los aleloswka las variables que interactúan con los alelosxhken la ecuación (15). Por tanto, la probabilidad de presentación puede venir dada por:

VIN.CA Ejemplo 3.1: Modelos que usan probabilidades implícitas por alelo

En otra implementación, el módulo 316 de entrenamiento modela la probabilidad ukde presentación estimada para péptidopkpor:

donde los elementosahkson 1 para los múltiples alelos del MHCh ehasociado con la secuencia peptídicap , ukh esuna probabilidad implícita de presentación por alelo para el alelo del MHCh,el vector v es un vector en cuyo elementovhcorresponde aahk • ukh,s( ) es una función que mapea los elementos de v, y r ( ) es una función de recorte que recorta el valor de la entrada en un intervalo determinado. Como se describe a continuación con más detalle, s( ) puede ser la función de suma o la función de segundo orden, pero se aprecia que en otras realizaciones, s( ) puede ser cualquier función tal como la función máxima. Los valores para el conjunto de parámetrosQporque las probabilidades implícitas por alelo se pueden determinar minimizando la función de pérdida con respecto a Q, dondeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos y/o células que expresan múltiples alelos del MHC.

La probabilidad de presentación en el modelo de presentación de la ecuación (17) se modela como una función de las probabilidades de presentación implícitas por aleloukhque cada uno corresponde al péptido p de probabilidad será presentado por un alelohdel MHC individual. La probabilidad implícita por alelo se distingue de la probabilidad de presentación por alelo de la sección VIII.B en que los parámetros para las probabilidades implícitas por alelo se pueden aprender de múltiples configuraciones de alelo, en las que la asociación directa entre un péptido presentado y el alelo del MHC correspondiente se desconoce, además de la configuración de un único alelo. Por tanto, en un entorno de<alelos múltiples, el modelo de presentación puede estimar no sólo si el péptido p estará presentado>K<por un conjunto>y ñ

de alelos Hdel MHC como un todo, pero también puede proporcionar probabilidades individualesu* que indican qué alelohdel MHC presenta más probablemente el péptidopk.Una ventaja de esto es que el modelo de presentación puede generar probabilidades implícitas sin datos de entrenamiento para células que expresan alelos del MHC únicos.

En una implementación particular a la que se hace referencia en el resto de la memoria descriptiva, r( ) es una función que tiene el intervalo [0, 1]. Por ejemplo, r( ) puede ser la función de clip:

donde se elige el valor mínimo entre z y 1 como probabilidad de presentaciónuk.En otra implementación, r( ) es la función tangente hiperbólica dada por:

r[z) =tanh[z)

cuando los valores para el dominio z son iguales o mayores que 0.

VIII.C.5. Ejemplo 3.2: Modelo de suma de funciones

En una implementación particular, s(.) es una función de suma, y la probabilidad de presentación se obtiene sumando las probabilidades de presentación implícitas por alelo:

........... j

En una implementación, la probabilidad de presentación implícita por alelo para el alelohdel MHC se genera mediante:

4 h = /(dh(4i> °hj)<(18)

tal que la probabilidad de presentación se estima mediante:

Según la ecuación (19), la probabilidad de presentación de que una secuencia peptídicapkserá presentada por uno o más alelosHdel MHC puede generarse aplicando la función gh() a la versión codificada de la secuencia peptídicapkpara cada uno de los alelosHdel MHC para generar la puntuación de dependencia correspondiente para las variables que interactúan con los alelos. Cada puntuación de dependencia es primero transformada por la función. f( ) para generar probabilidades implícitas de presentación por alelou \h.Las probabilidades por aleloukhse combinan, y la función de recorte se puede aplicar a las probabilidades combinadas para recortar los valores en un intervalo [0, 1 ] para generar la probabilidad de presentación de que la secuencia peptídicapserá presentada por el conjunto de alelosHdel MHC. La función de dependenciaghpuede tener la forma de cualquiera de las funciones de dependenciaghpresentada anteriormente en las secciones VIII.B.1.

dóndeX2k, X3kson las variables identificadas que interactúan con los alelos para los alelos del MHCh=2, h=3,y62, O3son el conjunto de parámetros determinados para los alelos del MHCh=2, h=3.

Como otro ejemplo, la probabilidad de que el péptidopserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación de red gh(), gw(), puede ser generado por:

dónde NN2O, NN3( ) son los modelos de red identificados para los alelos del MHCh=2, h=3,y62, 63son el conjunto de parámetros determinados para los alelos del MHCh=2, h=3.

La figura 11 ilustra la generación de una probabilidad de presentación para el péptidopken asociación con alelos del MHCh=2, h=3usando modelos de red de ejemplo NN2( ) yNN3().Como se muestra en la figura 9, el modelo de red NN2( ) recibe las variablesX2kque interactúan con los alelos para el alelo del MHCh=2y genera la salidaNN2(x2k)y el modelo de red NN3O) recibe las variables x/ que interactúan con los alelos para el alelo del MHCh=3y genera la salida NN3(x3k). Cada salida se mapea por la funciónf( )y se combina para generar la probabilidadukde presentación estimada.

En otra implementación, cuando las predicciones se hacen para el registro de corrientes iónicas de espectrometría de masas,r ( )es la función de registro y f( ) es la función exponencial.

VMI.C.6. Ejemplo 3.3; Modelos de suma de funciones con variables que no interactúan con alelos

tal que la probabilidad de presentación se genera por:

para incorporar el impacto de las variables que no interactúan con los alelos en la presentación de péptidos.

Según la ecuación (21), la probabilidad de presentación de que una secuencia peptídicapkserá presentada por uno o más alelosHdel MHC puede generarse aplicando la función gh() a la versión codificada de la secuencia peptídicapkpara cada uno de los alelosHdel MHC para generar la puntuación de dependencia correspondiente para las variables que interactúan con los alelos para cada alelohdel MHC. La función gw() para las variables que no interactúan con alelos también se aplica a la versión codificada de las variables que no interactúan con alelos para generar la puntuación de dependencia para las variables que no interactúan con alelos. La puntuación de las variables que no interactúan con los alelos se combina con cada una de las puntuaciones de dependencia de las variables que interactúan con los alelos. Cada una de las puntuaciones combinadas se transforma mediante la función f( ) para generar las probabilidades de presentación implícitas por alelo. Las probabilidades implícitas se combinan y la función de recorte se puede aplicar a las salidas combinadas para recortar los valores en un intervalo [0,1 ] para generar la probabilidad de presentación de que la secuencia peptídicapkserá presentada por los aleloshdel MHC. La función de dependenciagwpuede tener la forma de cualquiera de las funciones de dependenciagwpresentada anteriormente en las secciones VIII.B.3.

Como ejemplo, la probabilidad de que el péptidopkserá presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación afines gh( ), gw(), puede ser generado por:

donde wk son las variables identificadas que no interactúan con los alelos para el péptidopk,y6 wson el conjunto de parámetros determinados para las variables que no interactúan con los alelos.

Como otro ejemplo, la probabilidad de que el péptido p será presentado por alelos del MHCh=2, h=3,entrem=4diferentes alelos del MHC identificados usando las funciones de transformación de red gh( ), gw( ), puede ser generado por:

dóndewkson las variables identificadas que interactúan con los alelos para el péptidopk,yQwson el conjunto de parámetros determinados para variables que no interactúan con alelos.

La figura 12 ilustra la generación de una probabilidad de presentación para el péptido.pen asociación con alelos del MHCh=2,h=3 usando modelos de red de ejemploNN2(), NN3(•), y NNw( ). Como se muestra en la figura 12, el modelo de red NN2O recibe las variablesX2kque interactúan con los alelos para el alelo del MHCh=2y genera la salidaNN2(x2k).El modelo de red NNw( ) recibe las variableswkque no interactúan con los alelos para péptidopky genera la salida NNw(wk). Las salidas se combinan y mapean por función f(). El modelo de red NN3O recibe las variablesX3kque interactúan con los alelos para el alelo del MHCh=3y genera la salida NN3(x3k), que nuevamente se combina con la salida NNw(wk) del mismo modelo de red NNw() y mapeado por la función f(). Ambos resultados se combinan para generar la probabilidadukde presentación estimada.

En otra implementación, la probabilidad de presentación implícita por alelo para el alelohdel MHC se genera mediante:

u'ka = f ( 9 h { [ A wk]>0 h))-(22)

tal que la probabilidad de presentación se genera por:

VIII.C.7. Ejemplo 4: Modelos de segundo orden

En una implementación, s () es una función de segundo orden y la probabilidadukde presentación estimada para el péptidopkes dada por:

ME

uk= P r fr * presentado) V

ír- l^i

donde los elementosu'khson la probabilidad de presentación implícita por alelo para el alelohdel MHC. Los valores para el conjunto de parámetrosQporque las probabilidades implícitas por alelo se pueden determinar minimizando la función de pérdida con respecto a Q, dóndeies cada instancia en el subconjunto S de datos 170 de entrenamiento generados a partir de células que expresan alelos del MHC únicos y/o células que expresan múltiples alelos del MHC. Las probabilidades de presentación implícitas por alelo pueden tener cualquier forma mostrada en las ecuaciones (18), (20) y (22 ) descritas anteriormente.

En un aspecto, el modelo de la ecuación (23) puede implicar que existe una posibilidad de que el péptidopkserá presentado por dos alelos del MHC simultáneamente, en el que la presentación por dos alelos HLAes estadísticamente independiente.

Según la ecuación (23), la probabilidad de presentación de que una secuencia peptídicapkserá presentada por uno o más alelosHdel MH puede generarse combinando las probabilidades de presentación implícitas por alelo y restando la probabilidad de que cada par de alelos del MHC presente simultáneamente el péptidopkde la suma para generar la probabilidad de presentación de que la secuencia peptídicapkserá presentada por los alelosHdel m Hc .

Como ejemplo, la probabilidad de que el péptidopestará presentado por alelos HLAh=2, h=3,entrem=4diferentes alelos HLA identificados usando las funciones de transformación afines gh(), puede ser generado por:

uk=f ( x ¡ ■ 02)+ /(** ' 0a) - /(*2 • 02) ‘f { x| • 03),

dóndeX2k, x£son las variables identificadas que interactúan con los alelos para los alelos HLAh=2,h=3,yQ2, Q3son el conjunto de parámetros determinados para los alelos HLAh=2,h=3.

Como otro ejemplo, la probabilidad de que el péptidopestará presentado por alelos HLAh=2, h=3,entrem=4diferentes alelos HLA identificados usando las funciones de transformación de red gh( ), gw(), puede ser generada por:

uk ^ f(NN2(x%; e 2))+f(NN3(x¡; 03)) -f(NN2(x%; 02)") ■ f(NN3(x¡; 03)),dónde NN2O, NN3O son los modelos de red identificados para los alelos HLAh=2,h=3,yQ2, Q3son el conjunto de parámetros determinados para los alelos HLAh=2, h=3.

IX. Ejemplo 5: Módulo de predicción

El módulo 320 de predicción recibe los datos de secuencia y selecciona neoantígenos candidatos en los datos de secuencia usando los modelos de presentación. Específicamente, los datos de secuencia pueden ser secuencias de ADN, secuencias de ARN y/o secuencias de proteínas extraídas de células de tejido tumoral de pacientes. El módulo 320 de predicción procesa los datos de secuencia en una pluralidad de secuencias peptídicaspkque tiene de 8-15 aminoácidos. Por ejemplo, el módulo 320 de predicción puede procesar la secuencia dada "IEF<r>O<e>IFJEF" en tres secuencias peptídicas que tienen 9 aminoácidos "IEFRo EiFJ", "EFROEIFJE" y "FROEIFJEF". En una realización, el módulo 320 de predicción puede identificar neoantígenos candidatos que son secuencias peptídicas mutadas comparando datos de secuencia extraídos de células de tejido normal de un paciente con los datos de secuencia extraídos de células de tejido tumoral del paciente para identificar porciones que contienen una o más mutaciones. El módulo de presentación 320 aplica uno o más de los modelos de presentación a las secuencias peptídicas procesadas para estimar las probabilidades de presentación de las secuencias peptídicas. Específicamente, el módulo 320 de predicción puede seleccionar una o más secuencias peptídicas de neoantígenos candidatas que probablemente se presenten en moléculas HLAtumorales aplicando los modelos de presentación a los neoantígenos candidatos. En una implementación, el módulo de presentación 320 selecciona secuencias de neoantígeno candidatas que han estimado probabilidades de presentación por encima de un umbral predeterminado. En otra implementación, el modelo de presentación selecciona lasNsecuencias de neoantígeno candidatas que tienen las probabilidades de presentación estimadas más altas (dondeNes generalmente el número máximo de epítopos que se pueden administrar en una vacuna). Se puede inyectar al paciente una vacuna que incluya los neoantígenos candidatos seleccionados para un paciente determinado para inducir respuestas inmunitarias.

X. Ejemplo 6: Resultados de la experimentación que muestran el rendimiento del modelo de presentación de ejemplo La validez de los diversos modelos de presentación descritos anteriormente se probó en datos de pruebaTque eran subconjuntos de datos 170 de entrenamiento que no se usaron para entrenar los modelos de presentación o un conjunto de datos separado de los datos 170 de entrenamiento que tienen variables y estructuras de datos similares a las de los datos 170 de entrenamiento.

Una métrica relevante indicativa del desempeño de un modelo de presentación es:

Vdbr predkJivQ posüvo (

que indica la proporción entre el número de instancias de péptidos que se predijo correctamente que se presentarían en los alelos HLA asociados y el número de instancias de péptidos que se predijo que se presentarían en los alelos HLA. En una implementación, un péptidopen los datos de pruebaTse predijo que se presentaría en uno o más alelos HLA asociados si la estimación de probabilidadu¡correspondiente es mayor o igual a un valortumbral dado. Otra métrica relevante indicativa del desempeño de los modelos de presentación es:

que indica la proporción entre el número de instancias de péptidos que se predijo correctamente que se presentarían en los alelos HLA asociados y el número de instancias de péptidos que se sabía que se presentarían en los alelos HLA. Otra métrica relevante indicativa del rendimiento de los modelos de presentación es el área bajo la curva (AUC) de la característica operativa del receptor (ROC). La ROC grafica el recall contra la tasa de falsos positivos (FPR), que viene dada por:

X.A. Comparación del rendimiento del modelo de presentación en datos de espectrometría de masas frente al modelo de última generación

La figura 13A compara los resultados de rendimiento de un modelo de presentación de ejemplo, como se presenta en este documento, y los modelos de última generación para predecir la presentación de péptidos en datos de espectrometría de masas de alelos múltiples. Los resultados mostraron que el modelo de presentación de ejemplo funcionó significativamente mejor en la predicción de la presentación de péptidos que los modelos de última generación basados en predicciones de afinidad y estabilidad.

Específicamente, el modelo de presentación de ejemplo mostrado en la figura 13A como "MS" era el máximo del modelo de presentación por alelos mostrado en la ecuación (12 ), usando la función de dependencia afín gh() y la función de salida f(). El modelo de presentación de ejemplo se entrenó en base a un subconjunto de datos de espectrometría de masas de alelo único HLA-A*02:01 del conjunto de datos IEDB (conjunto de datos "D1") (los datos se pueden encontrar en http:/ /www.iedb.org/doc/mhcJigand_fuN.zip) y un subconjunto de la espectrometría de masas de alelo único HLA-B*07:02 del conjunto de datos del IEDB (conjunto de datos "D2") (los datos se pueden encontrar en http: //www.iedb.org/doc/mhc_ligand_full.zip). Todos los péptidos de la proteína fuente que contienen péptidos presentados en el conjunto de prueba se eliminaron de los datos de entrenamiento, de modo que el modelo de presentación de ejemplo no pudo simplemente memorizar las secuencias de los antígenos presentados.

El modelo mostrado en la figura 13Acomo "afinidad" era un modelo similar al modelo actual de última generación que predice la presentación de péptidos basándose en predicciones de afinidad NETMHCpan. La implementación de NETMHCpan se proporciona en detalle en http://www.cbs.dtu.dk/services/NetMHCpan/. El modelo mostrado en la figura 13Acomo "estabilidad" era un modelo similar al modelo actual de última generación que predice la presentación de péptidos basándose en predicciones de estabilidad NETMHCstab. La implementación de NETMHCstab se proporciona en detalle en http://www.cbs.dtu.dk/services/NetMHCstab-1.0/. Los datos de la prueba que son un subconjunto de los datos de espectrometría de masas de la línea celular JY de alelos múltiples HLA-A*02:01 y HLA-B*07:02 del conjunto de datos Bassani-Stemberg (conjunto de datos "D3") (los datos se pueden encontrar en www.ebi.ac.uk/pride/archive/projects/PXD000394). Las barras de error (como se indica en líneas continuas) muestran intervalos de confianza del 95 %.

Como se muestra en los resultados de la figura 13A, el modelo de presentación de ejemplo entrenado con datos de espectrometría de masas tuvo un valor de PPV significativamente mayor con una tasa Recall del 10 % en relación con los modelos de última generación que predicen la presentación de péptidos basándose en predicciones de afinidad de unión del MHC o predicciones de estabilidad de unión del MHC. Específicamente, el modelo de presentación de ejemplo tenía aproximadamente un 14 % más de PPV que el modelo basado en predicciones de afinidad y aproximadamente un 12 % más de PPV que el modelo basado en predicciones de estabilidad.

Estos resultados demuestran que el modelo de presentación de ejemplo tuvo un rendimiento significativamente mejor que los modelos de última generación que predicen la presentación de péptidos basándose en predicciones de afinidad de unión al MHC o de estabilidad de unión del MHC, incluso aunque el modelo de presentación de ejemplo no se entrenó basándose en secuencias de proteínas que contenía péptidos presentados.

X.B. Comparación del rendimiento del modelo de presentación en datos de epítopos de células frente a modelos de última generación

La figura 13B compara los resultados de rendimiento de otro modelo de presentación de ejemplo, como se presenta en este documento, y modelos de última generación para predecir la presentación de péptidos en datos de epítopos de células T Los datos de epítopos de células T contienen secuencias peptídicas que fueron presentadas por alelos del MHC en la superficie celular y reconocidas por las células T Los resultados mostraron que, aunque el modelo de presentación de ejemplo se entrena en base a los datos de espectrometría de masas, el modelo de presentación de ejemplo funcionó significativamente mejor en la predicción de epítopos de células T que los modelos de última generación basados en predicciones de afinidad y estabilidad. En otras palabras, los resultados de la figura 13B indican que el modelo de presentación de ejemplo no sólo funcionó mejor que los modelos de última generación en la predicción de la presentación de péptidos en datos de prueba de espectrometría de masas, sino que el modelo de presentación de ejemplo también funcionó significativamente mejor que los modelos de última generación en predecir epítopos que realmente fueron reconocidos por las células T Esto es una indicación de que la variedad de modelos de presentación presentados en este documento puede proporcionar una identificación mejorada de antígenos que probablemente induzcan respuestas inmunogénicas en el sistema inmunitario.

Específicamente, el modelo de presentación de ejemplo mostrado en la figura 13B como "MS" fue el modelo de presentación por alelo mostrado en la ecuación (2), usando la función de transformación afín gh() y la función de salida f( ) que fue entrenado en base a un subconjunto del conjunto de datos D1. Todos los péptidos de la proteína fuente que contienen péptidos presentados en el conjunto de prueba se eliminaron de los datos de entrenamiento, de modo que el modelo de presentación no pudo simplemente memorizar las secuencias de los antígenos presentados.

Cada uno de los modelos se aplicó a los datos de prueba que son un subconjunto de datos de espectrometría de masas en datos de epítopos de células T HLA-A.*02:01 (conjunto de datos "D4") (los datos se pueden encontrar en www.iedb.org/doc/tcell full v3.zip). El modelo mostrado en la figura 13B como "afinidad" era un modelo similar al modelo de última generación actual que predice la presentación de péptidos basándose en predicciones de afinidad NETMHCpan, y el modelo mostrado en la figura 13B como "estabilidad" era un modelo similar al modelo de última generación actual que predice la presentación de péptidos basándose en predicciones de estabilidad NETMHCstab. Las barras de error (como se indica en líneas continuas) muestran intervalos de confianza del 95 %.

Como se muestra en los resultados de la figura 13A, el modelo de presentación por alelo entrenado con datos de espectrometría de masas tuvo un valor de PPV significativamente mayor con una tasa Recall del 10 % que los modelos de última generación que predicen la presentación de péptidos basándose en predicciones de afinidad de unión al MHC o estabilidad de unión del MHC, aunque el modelo de presentación no se entrenó en base a secuencias de proteínas que contenían los péptidos presentados. Específicamente, el modelo de presentación por alelo tenía aproximadamente un 9 % más de PPV que el modelo basado en predicciones de afinidad, y aproximadamente un 8 % más de PPV que el modelo basado en predicciones de estabilidad.

Estos resultados demostraron que el modelo de presentación de ejemplo entrenado con datos de espectrometría de masas funcionó significativamente mejor que los modelos de última generación en la predicción de epítopos reconocidos por las células T

X.C. Comparación del rendimiento de diferentes modelos de presentación en datos de espectrometría de masas

La figura 13C compara los resultados de rendimiento para un modelo de función de sumas de ejemplo (ecuación (13)), un modelo de suma de funciones de ejemplo (ecuación (19)) y un modelo de segundo orden de ejemplo (ecuación (23)) para predecir la presentación de péptidos sobre los datos de espectrometría de masas de múltiples alelos. Los resultados mostraron que el modelo de suma de funciones y el modelo de segundo orden funcionaron mejor que el modelo de función de sumas. Esto se debe a que el modelo de función de sumas implica que los alelos en un entorno de alelos múltiples pueden interferir entre sí para la presentación de péptidos, cuando en realidad, la presentación de péptidos es efectivamente independiente.

Específicamente, el modelo de presentación de ejemplo denominado "sigmoide de sumas" en la figura 13C era el modelo de función de sumas que usaba una función de dependencia de red gh(), la función de identidad f¡), y la función de salida r(). El modelo de ejemplo etiquetado como "suma de sigmoides" fue el modelo de suma de funciones en la ecuación (19) con una función de dependencia de la red gh(), la función de salida f¡), y la función de identidad r(). El modelo de ejemplo denominado "tangente hiperbólica" fue el modelo de suma de funciones en la ecuación (19) con una función de dependencia de la red gh(), la función de salida f( ), y la función tangente hiperbólica r(). El modelo de ejemplo denominado como "segundo orden" fue el modelo de segundo orden en la ecuación (23) que usa una forma de probabilidad de presentación implícita por alelo que se muestra en la ecuación (18) con una función de dependencia de red. gh() y la función de salida f¡). Cada modelo se entrenó en base a un subconjunto de conjuntos de datos D1, D2 y D3. Los modelos de presentación de ejemplo se aplicaron a datos de prueba que son un subconjunto aleatorio del conjunto de datos D3 que no se superpone con los datos de entrenamiento.

Como se muestra en la figura 13C, la primera columna se refiere al AUC de ROC cuando se aplicó cada modelo de presentación al conjunto de prueba, la segunda columna se refiere al valor de la pérdida de probabilidad logarítmica negativa y la tercera columna se refiere al PPV con una tasa Recall del 10 %. Como se muestra en la figura 13C, el rendimiento de los modelos de presentación "suma de sigmoides", "tangente hiperbólica" y "segundo orden" estuvieron aproximadamente empatados en aproximadamente 15-16 % de PPV con un 10 % de Recall, mientras que el rendimiento del modelo "sigmoide de -sumas" fue ligeramente inferior, aproximadamente el 11 %.

Como se discutió anteriormente en la sección VIII.C.4., los resultados mostraron que los modelos de presentación "suma de sigmoides", "tangente hiperbólica" y "segundo orden" tienen valores altos de PPV en comparación con el modelo "sigmoide de "sumas" porque los modelos explican correctamente cómo cada alelo del MHC presenta los péptidos de forma independiente en un entorno de alelos múltiples.

X.D. Comparación del rendimiento del modelo de presentación con y sin entrenamiento en datos de espectrometría de masas de un único alelo

La figura 13D compara los resultados de rendimiento de dos modelos de presentación de ejemplo que se entrenan con y sin datos de espectrometría de masas de un único alelo para predecir la presentación de péptidos para datos de espectrometría de masas de múltiples alelos. Los resultados indicaron que los modelos de presentación de ejemplo que se entrenan sin datos de un único alelo logran un rendimiento comparable al de los modelos de presentación de ejemplo entrenados con datos de un único alelo.

El modelo de ejemplo "con datos de un único alelo A2/B7" fue el modelo de presentación de "suma de sigmoides" en la ecuación (19) con una función de dependencia de red gh(), la función de salida f(), y la función de identidad r(). El modelo se entrenó basándose en un subconjunto del conjunto de datos D3 y datos de espectrometría de masas de un único alelo para una variedad de alelos del MHC de la base de datos IEDB (los datos se pueden encontrar en: http://www.iedb.org/doc/mhc_ligand_full zip). El modelo de ejemplo "sin datos de un único alelo A2/B7" era el mismo modelo, pero entrenado en base a un subconjunto del conjunto de datos de múltiples alelos D3 sin datos de espectrometría de masas de un único alelo para los alelos HLA-A*02:01 y HLA. -B*07:02, pero con datos de espectrometría de masas de un único alelo para otros alelos. Dentro de los datos de entrenamiento de alelos múltiples, la línea celular HCC1937 expresó HLA-B*o7:02 pero no HLA-A*02:01, y la línea celular HCT116 expresó HLA-A*02:01 pero no HLA-B*07:02. Los modelos de presentación de ejemplo se aplicaron a datos de prueba que eran un subconjunto aleatorio del conjunto de datos D3 y no se superponían con los datos de entrenamiento.

La columna "correlación" se refiere a la correlación entre las etiquetas reales que indican si el péptido se presentó en el alelo correspondiente en los datos de la prueba y la etiqueta para la predicción. Como se muestra en la figura 13D, las predicciones basadas en las probabilidades implícitas de presentación por alelo para el alelo del MHC HLA-A*02:01 se desempeñaron significativamente mejor en los datos de prueba de un único alelo para el alelo del MHC HLA-A*02:01 en lugar de para el alelo del<m>H<c>HLA-B *07:02. Se muestran resultados similares para el alelo del MHC HLA-B*07:02.

Estos resultados indican que las probabilidades implícitas de presentación por alelo del modelo de presentación pueden predecir y distinguir correctamente los motivos de unión a alelos del MHC individuales, aunque en los datos de entrenamiento no se conocía la asociación directa entre los péptidos y cada alelo del MHC individual.

X.E. Comparación del rendimiento de la predicción por alelo sin entrenamiento en datos de espectrometría de masas de un único alelo

La figura 13E muestra el rendimiento para los modelos de ejemplo "sin datos de un único alelo A2/B7" y "con datos de un único alelo A2/B7" mostrados en la figura 13D en datos de espectrometría de masas de un único alelo para los alelos HLA-A*02:01 y HLA-B*07:02 que se mantuvieron en el análisis mostrado en la figura 13D. Los resultados indican que incluso aunque el modelo de presentación de ejemplo se entrene sin datos de espectrometría de masas de un único alelo para estos dos alelos, el modelo puede aprender motivos de unión para cada alelo del MHC.

Como se muestra en la figura 13E, el "modelo A2 que predice B7" indica el rendimiento del modelo cuando se predice la presentación de péptidos para datos de alelo único HLA-B*07:02 basándose en la estimación implícita de probabilidad de presentación por alelo para el alelo HLA-A*02 del MHC: 01. De manera similar, el "modelo A2 que predice A2" indica el rendimiento del modelo cuando se predice la presentación del péptido para el alelo único h LA-A*02:01 basándose en la estimación implícita de probabilidad de presentación por alelo para el alelo HLA-A*02:01 del MHC.. El "modelo B7 que predice B7" indica el rendimiento del modelo cuando se predice la presentación de péptidos para datos de alelo único HLA-B*07:02 basándose en la estimación implícita de probabilidad de presentación por alelo para el alelo HLA-B*07:02 del MHC. El "modelo B7 que predice A2" indica el rendimiento del modelo cuando se predice la presentación del péptido para el alelo único HLA-A*02:01 basándose en la estimación implícita de probabilidad de presentación por alelo para el alelo HLA-B*07:02 del MHC.

Como se muestra en la figura 13E, la capacidad predictiva de las probabilidades implícitas por alelo para un alelo HLA es significativamente mayor para el alelo deseado y significativamente menor para el otro alelo HLA. De manera similar a los resultados mostrados en la figura 13D, los modelos de presentación de ejemplo aprendieron correctamente a diferenciar la presentación de péptidos de los alelos individuales HLA-A*02:01 y HLA-B*07:02, aunque la asociación directa entre la presentación de péptidos y estos alelos no estuvo presente en los datos del entrenamiento de alelos múltiples.

X.F. Los residuos de anclaje que aparecen con frecuencia en las predicciones por alelo coinciden con motivos de anclaje canónicos conocidos

La figura 13F muestra los residuos de anclaje comunes en las posiciones 2 y 9 entre los nonámeros predichos por el modelo de ejemplo "sin datos de alelo único A2/B7" que se muestra en la figura 13D. Se predijo que los péptidos se presentarían si la probabilidad estimada era superior al 5 %. Los resultados muestran que los residuos de anclaje más comunes en los péptidos identificados para su presentación en los alelos del MHC HLA-A*02:01 y HLA-B*07:02 coincidían con motivos de anclaje previamente conocidos para estos alelos del MHC. Esto indica que los modelos de presentación de ejemplo aprendieron correctamente la unión de péptidos basándose en posiciones particulares de aminoácidos de las secuencias de péptidos, como se esperaba.

Como se muestra en la figura 13F, se sabía que los aminoácidos L/M en la posición 2 y los aminoácidos V/L en la posición 9 eran motivos de residuos de anclaje canónicos (como se muestra en la tabla 4 de https://link.springer.com/article/10.1186/1745-7580-4-2) para HLA-A*02:01, y se sabía que el aminoácido P en la posición 2 y los aminoácidos L/V en la posición 9 eran motivos de residuos de anclaje canónicos para HLA-B*07:02. Los motivos de residuos de anclaje más comunes en las posiciones 2 y 9 para los péptidos identificados, el modelo coincidía con los motivos de residuos de anclaje canónicos conocidos para ambos alelos HLA.

X.G. Comparación del rendimiento del modelo de presentación con y sin variables que no interactúan con alelos

La figura 13G compara los resultados de rendimiento entre un modelo de presentación de ejemplo que incorporó secuencias flanqueantes C y N terminales como variables que interactúan con los alelos, y un modelo de presentación de ejemplo que incorporó secuencias flanqueantes C y N terminales como variables que no interactúan con los alelos. Los resultados mostraron que la incorporación de secuencias flanqueantes C y N-terminales como variables que no interactúan con alelos mejoró significativamente el rendimiento del modelo. Más específicamente, es valioso identificar características apropiadas para la presentación de péptidos que son comunes en diferentes alelos del MHC y modelarlas de modo que la fuerza estadística de estas variables que no interactúan con los alelos se compartan entre los alelos del MHC para mejorar el rendimiento del modelo de presentación.

El modelo de ejemplo de "interacción con alelos" fue el modelo de suma de funciones que usa la forma de probabilidades implícitas de presentación por alelo en la ecuación (22) que incorpora secuencias flanqueantes C y N-terminales como variables de interacción con alelos, con una red función de dependencia gh() y la función de salida f(). El modelo de ejemplo de "alelo que no interactúa" fue el modelo de suma de funciones que se muestra en la ecuación (21) que incorpora secuencias flanqueantes C y N-terminales como variables que no interactúan con alelos, con una función de dependencia de red. gh( ) y la función de salida f¡). Las variables que no interactúan con los alelos se modelaron mediante una función de dependencia de red separada. gw(). Ambos modelos se entrenaron con un subconjunto del conjunto de datos D3 y datos de espectrometría de masas de un único alelo para una variedad de alelos del MHC de la base de datos IEDB (los datos se pueden encontrar en: http://www.iedb.org/doc/mhc_ligand_fuN.zip). Cada uno de los modelos de presentación se aplicó a un conjunto de datos de prueba que es un subconjunto aleatorio del conjunto de datos d 3 que no se superpone con los datos de entrenamiento.

Como se muestra en la figura 13G, al incorporar secuencias flanqueantes C y N-terminales en el modelo de presentación de ejemplo como variables que no interactúan con los alelos, se logró una mejora de aproximadamente el 3 % en el valor de PPV en relación con el modelado como variables que interactúan con los alelos. Esto se debe a que, en general, el modelo de presentación de ejemplo de "alelos que no interactúan" pudo compartir la fuerza estadística de las variables que no interactúan con los alelos entre los alelos del MHC modelando el efecto con una función de dependencia de red separada con muy poca adición de potencia informática.

X.H. Dependencia entre los péptidos presentados y la cuantificación del ARNm

La figura 13H ilustra la dependencia entre fracciones de péptidos presentados para genes basados en la cuantificación de ARNm para datos de espectrometría de masas en células tumorales. Los resultados muestran que existe una fuerte dependencia entre la expresión del ARNm y la presentación del péptido.

Específicamente, el eje horizontal en la figura 13G indica la expresión de ARNm en términos de transcripciones por millón (TPM) de cuartiles. El eje vertical en la figura 13G indica la fracción de epítopos presentados de genes en los cuartiles de expresión de ARNm correspondientes. Cada línea sólida es un gráfico que relaciona las dos mediciones de una muestra de tumor que está asociada con los datos de espectrometría de masas correspondientes y las mediciones de expresión de ARNm. Como se muestra en la figura 13G, existe una fuerte correlación positiva entre la expresión de ARNm y la fracción de péptidos en el gen correspondiente. Específicamente, los péptidos de genes en el cuartil superior de expresión de ARN tienen más de 20 veces más probabilidades de presentarse que los del cuartil inferior. Además, esencialmente se presentan 0 péptidos a partir de genes que no se detectan mediante el ARN.

Los resultados indican que el rendimiento del modelo de presentación se puede mejorar enormemente incorporando mediciones de cuantificación de ARNm, ya que estas mediciones predicen fuertemente la presentación de péptidos.

X.I. Comparación del rendimiento del modelo de presentación con la incorporación de datos de cuantificación del ARN

La figura 13I muestra el rendimiento de dos modelos de presentación de ejemplo, uno de los cuales está entrenado en base a datos de células tumorales de espectrometría de masas, otro de los cuales incorpora datos de cuantificación de ARNm y datos de células tumorales de espectrometría de masas. Como se esperaba de la figura 13H, los resultados indicaron que hay una mejora significativa en el rendimiento al incorporar mediciones de cuantificación de ARNm en el modelo de presentación de ejemplo, ya que la expresión de ARNm es un fuerte indicador de la presentación de péptidos.

El "MHCflurry filtro de ARN " era un modelo similar al modelo de última generación actual que predice la presentación de péptidos basándose en predicciones de afinidad. Se implementó usando MHCflurry junto con un filtro de expresión genética estándar que eliminó todos los péptidos de las proteínas con mediciones de cuantificación de ARNm inferiores a 3,2 FPKM. La implementación del MHCflurry se proporciona en detalle en https://github.com/hammerlab/mhcflurry/y en http://biorxiv.org/content/early/2016/05/22/054775. El modelo "modelo de ejemplo, sin ARN" era el modelo de presentación de ejemplo de "suma de sigmoides" que se muestra en la ecuación (21 ) con la función de dependencia de la red. gh(), la función de dependencia de la red gw( ), y la función de salida f¡). El modelo "modelo de ejemplo, sin ARN" incorporó secuencias flanqueantes C-terminales como variables que no interactúan con los alelos mediante una función de dependencia de la red. gw( ).

El modelo "Modelo de ejemplo, con ARN" fue el modelo de presentación de "suma de sigmoides" que se muestra en la ecuación (19) con función de dependencia de la red. gh(), la función de dependencia de la red gw() en la ecuación (10) incorporando datos de cuantificación de ARNm a través de una función logarítmica y la función de salida f¡). El modelo "modelo de ejemplo, con ARN" incorporó secuencias flanqueantes C-terminales como variables que no interactúan con los alelos a través de las funciones de dependencia de la red. gw( ) e incorporó mediciones de cuantificación de ARNm a través de la función log.

Cada modelo se entrenó con una combinación de datos de espectrometría de masas de un único alelo del conjunto de datos de IEDB, 7 líneas celulares de los datos de espectrometría de masas de múltiples alelos del conjunto de datos de Bassani-Stemberg y 20 muestras de tumores de espectrometría de masas. Cada modelo se aplicó a un conjunto de pruebas que incluía 5,000 proteínas retenidas de 7 muestras de tumores que constituían 9,830 péptidos presentados de un total de 52,156,840 péptidos.

Como se muestra en los dos primeros gráficos de barras de la figura 13I, el modelo "modelo de ejemplo, sin ARN" tiene un valor PPV al 20 % de Recall del 21 %, mientras que el del modelo de última generación es de aproximadamente el 3 %, lo que indica una mejora de rendimiento inicial del 18 % en valor de PPV, incluso sin la incorporación de medidas de cuantificación de ARNm. Como se muestra en el tercer gráfico de barras de la figura 13I, el modelo "modelo de ejemplo, con ARN" que incorpora datos de cuantificación de ARNm en el modelo de presentación muestra un valor de PPV de aproximadamente el 30 %, lo que representa casi un aumento del 10%en el rendimiento en comparación con el modelo de presentación de ejemplo sin mediciones de cuantificación de ARNm.

Por tanto, los resultados indican que, como se esperaba de los hallazgos de la figura 13H, la expresión de ARNm es de hecho un fuerte predictor de la predicción de péptidos, lo que permite una mejora significativa en el rendimiento de un modelo de presentación con muy poca complejidad computacional.

X.J. Ejemplo de parámetros determinados para el alelo del MHC HLA-C*16:04

La figura 13J compara la probabilidad de presentación de péptidos para diferentes longitudes de péptido entre los resultados generados por el modelo de presentación "modelo de ejemplo, con ARN" descrito en referencia a la figura 13I, y resultados predichos mediante modelos de última generación que no tienen en cuenta la longitud de los péptidos al predecir la presentación de los péptidos. Los resultados indicaron que el modelo de presentación de ejemplo "Modelo de ejemplo, con ARN" de la figura 13I capturaron la variación en las probabilidades entre péptidos de diferentes longitudes.

El eje horizontal indica muestras de péptidos con longitudes 8, 9, 10 y 11. El eje vertical indica la probabilidad de presentación del péptido condicionada a las longitudes del péptido. El gráfico "probabilidad de datos de prueba reales" mostró la proporción de péptidos presentados según la longitud del péptido en un conjunto de datos de prueba de muestra. La probabilidad de presentación varió con la longitud del péptido. Por ejemplo, como se muestra en la figura 13J, un péptido de 10mer con motivos de anclaje canónicos HLA-A2 L/V tenía aproximadamente 3 veces menos probabilidades de presentarse que un péptido de 9mer con los mismos residuos de anclaje. El gráfico "modelos que ignoran la longitud" indicó mediciones predichas si se aplicaran modelos de última generación que ignoran la longitud del péptido al mismo conjunto de datos de prueba para la predicción de la presentación. Estos modelos pueden ser versiones de NetMHC anteriores a la versión 4.0, versiones de NetMHCpan anteriores a la versión 3.0 y MHCflurry, que no tienen en cuenta la variación en la presentación de los péptidos según la longitud del péptido. Como se muestra en la figura 13J, la proporción de péptidos presentados sería constante en diferentes valores de longitud de péptido, lo que indica que estos modelos no lograrían capturar la variación en la presentación de péptidos según la longitud. El gráfico "Gritstone, con ARN" indicó mediciones generadas a partir del modelo de presentación "Gritstone, con ARN". Como se muestra en la figura 13J, las mediciones generadas por el modelo "Gritstone, con ARN" siguieron de cerca las mostradas en "probabilidad de datos de prueba reales" y representaron correctamente diferentes grados de presentación de péptidos para las longitudes 8, 9, 10 y 11.

Por tanto, los resultados mostraron que los modelos de presentación de ejemplo tal como se presentan en este documento generaron predicciones mejoradas no solo para los péptidos de 9mer, sino también para los péptidos de otras longitudes entre 8 y 15, que representan hasta el 40 % de los péptidos presentados en los alelos HLA de clase I.

X.K. Ejemplo de parámetros determinados para el alelo del MHC HLA-C*16:04

A continuación se muestra un conjunto de parámetros determinados para una variación del modelo de presentación por alelo (ecuación (2)) para el alelo del MHC HLA-C*16:04 indicado por h:

uk ~expit(relu(x| •W\) •W\4-tík ),

donde relu() es la función de unidad lineal rectificada (RELU), yWh1, bh1, Wh2,ybh2son el conjunto de parametrosQdeterminado para el modelo. Las variables que interactúan con los alelos.XhkConsisten en secuencias peptídicas. las dimensiones deW hson (231 x 256), las dimensiones debh1(1 x 256), las dimensiones deW.h2son (256 x 1), ybh2es un escalar. Para fines de demostración, los valores debh1, bh,2, Wh1,yWh2figuran a continuación.

bk1:

[-1.25887644 -0.84448904 -1.71391594 -1.38860381 -1.15529644 -2.42168117 -1,98687959 -0.8488462 -1.6607399 -1.12956274 -2.08983159 -0.53710765 -0.49313864 -1.15045631 -0.48757577 -0,55577797 -0.31031775 -0,70026076 -1.04614675 -1.3850919 -1.82895124-1.15633833 -1.2794342 -2.40924239 -1.38725305 -1.98276925 -1.45160246 -0.81624526 -0.59441668 -1.86188185 -0.83900708 -1.33677316 -1.68388879 -1.1717515 -1.27319682 -1.05872869 -1.34773123 -1.61631954 -0.82552254 -1.64032412 -1.26584375 -0.56390315 -1.0068401! -1,16896808 -2.27648878 -0.66619354 -2.08268309 -0,90704113 -1.17440355 -1.06266129 -1.14868402 -0.98686731 -1.1801722 -1.41404176 -0.92722374 -0,61310995 -1.69453728 -1,26077592 -1.80019915 -0,55121636 -1.42537642 -2.1196804 -1.32291269 -1.30997157 -0.8173914 -1.23448598 -0.92230183 -1.04590237 -0.68719882 -0.99965096 -1.85294855 -0.67477435 -1.31483507 -1.21778536 -1.18890083 -0.80372357 -1.90210617 -1.85402811 -1,05570829 -1.345541 -0,68872309 -1.91153145 -1.15126705 -0.9407478 -1.01246905 -1,36009204 -1.15897787 -1.38631177 -0.87737125 -0,81053489 -0.5077101 -0,36021063 -1.06372654 -1,03310466 -1.15494275 -2.19268966 -0.80285913 -0,79190463 -0.93620723 -1,30614185 -1.85568225 -2,38452196 -1.67495275 -0.70025575 -0.98393178 -1.83200908 -1.07078218 -0.98362595 -0.71674275 -2.04092884 -0.81029147 -0.92036235 -1.75404763 -1.45618188 -0.87118417 -0.54004192 -1.65154266 -1.28891158 -1.98474801 -1.20875657 -1,51076365 -1.44827867 -1,60024345 -1.5518645 -1.22961164 -1.33044851 -1.78681803 -1.60184741 -1.70247972 -1,48592603 -1.19963896 -2.06061363 -1,59096014 -1.18787074 -1.19529891 -0.61437321 -0.92168951 -0.91861475 -1.55775297 -1.57438934 -1.76918828 -2,1351223 -1,28325438 -1.17691207 -0.9070273 -0.92114311 -1.37144518 -1.05090868 -1.00942171 -1.12824321 -0.94788575 -1.27639067 -1.39774501 -1.06832922 -1.03379047 -1.49880815 -1.23712206 -1.15053117 -1.34290957 -1.66009867 -0.92846054 -0.97625399 -0.77744013 -1.93288314 -1.11750412 -0.97511715 -0.74683744 -1.13343358 -1.20803583 -1,436432 -1.50354922 -1,00136673 -2.01420403 -1,2733649 -0.92629886 -1.29439116 -1,64390576 -1.23867738 -0,88478297 -0.85971212 -1.85386622 -1,53856933 -2.06025767 -1,88411045 -1.49906313 -1.32475007 -1.117347 -1.68465662 -0.69363773 -1.5894047 -1.97358358 -2.59916759 -1.35396743 -2.30461049 -0.99292755 -1.27674675 -0.86507457 -0.94777668 -1.35009873 -1.47957981 -0.66513908 -1.06404948 -1.06712294 -1.72618425 -1,63874471 -1.46202075 -0,89948207 -1.20573676 -1,24084079 -1.19317305 -0.93100727 -1.02617919 -0.76241934 -1,87542462 -1.03179228 -1.45539415 -1,36384034 -0.96758604 -0,86005205 -0.80283695 -1.1137774 -1,53601909 -1.13732922 -1.12731791 -1.23490679 -1,33152759 -1.02586186 -1,44582832 -1.92057085 -1.30637109 -2.32667851 -1.57416546 -1.30796921 -0.70605123 -2.00818539 -1.46872818 -0.92903972 -1.57068658 -1.23099935 -1.05193675 -1.35168147 -0.52318192 -0.8894254 -1.69644272 -1.18933356 -1.11279356 -1,06844199 -1.36696768 -1,31789732 -1.63881576 -0,56565195 -0.52174371 -0.93638539 -2,07027268 -1.60358965 -1,22863901]

bk2:

-2.88706302643

W f:

[-1.35359335 -0.578529 -0.13680433 0.17503858 -0.20488028 -0.54827738 -0.2597248 -1.73813021 -1.02167261 0.09387285 -0.63083726 -0.40662372 -0.47041351 -0.32108155 0.11540248 -0.10392507-0.27698821 0.03336413 -0.72273839 -0.53308272 -0.25452602 -0.68693435 -0.11388378 -1.02962244

-1.22807848 -0,56124699 -0.56379735 -0,18465492 0,14469336 -0.41948733

-1,01185989 -1.1557889 -0.70585167 -0,54171222 -0.14044708 -0.4110463

-0.90434784 -0.61688143 -0.99438584 -1,55196273 -0.94430661 -0,39086425

-0.99821037 0.33283517 -0.69542056 0.14739829-0.47792649 0.27000278

-0.64110023 -1.90988696 -0.37607646 0.11039938 -0.7492047 -0.17413628

-1.15171742 -0.68284678 -0.06158932 -1.04064727 -0.7101987 -0.86431879

-0.67057228 -0.68295568 0.08244683 -0.86153275 -0.31266105 -0.21919173

-0.79513979 0.17517358 -0.29372135 -1.68132675 -0,6964252 -0.47992685

0.00768639 -0,3944906 -0.99549603 -1.29167581 -0.82665157 -0.66138375

0,14107071 -0.89010292 -0,49536058 -0.90695 -0.84300721 -0.85446638

-0.99457145 -0.84283727 -1.26285946 -0.7482127 -1.32341206 -0.14178833

-0.47957143 0.22300801 0.22044657-0.07665028 0.19888243 -0.68686688

0.09093325 0.20991775 -0.47505447 -1.29607451 -0.79738855 -0.6163758

-0,25245398 -0.24964713 -0,70785236 -0.14511365 0.23526534 -1,37460887

-0.42035979 -0,76954895 0.01340491 -0.23353948 -1,45486987 -2.10253382

0.31412357 0.05441735 -1,16719246 -0.53678679 -1.21121192 0,36880198

-1.7501055 -1.08759594 -1.03163946 -0.87725466 -1.04990077 -0.23935798

-0.70022678 -0.30579087 -1.51719499 -0.05505106 -0.30621436 -0.37509263

-0.35138479 0.08471824 -0.30281609 -0.40951991 -0.88454992 0.04506355

0.12505099 -0.79208314 -0.98382056 -0.73998731 -0.68265402 -0.30925721

-0,30487028 -0.18522757 -0,51589108 -0.14071934 -0.58638161 -0.37126878

-0.36587363 -1,98553813 -0.52241606 -0.33231446 -1.05311215 -1.1445843

0.1126269 -0.18052928 -0.87758267 -1.06622291 -1.76154435 -0.16173303

-1.38007092 -0,67007738 -0.95604581 -0.71263856 0,04040499 -0.84706324

0.3145974 -0.89040732 -0.75084466 -2.24529719 -0.90706474 0.08718969

-2.26292086 -0.43557408 -0.16575792 -1.28786123 -0.76409894 -1.2387414

-1.00480986 -1.59728515 -1.76675069 -0.45098865 0.37770402 -2.14156651

0.17127 -1.07672346 -0.63889885 -1.85108674 0.09201332 -0.64665085

-1.47701621 -0.27428123 0.11656716 -0.71997839 0.25774828 -0,65556616

-0,12599011 -1.19412673 0.05263189 -0,25015593 0,15155405 -0.71724749

-1.8973484 -0.01961765 -0,85265714 -0.54098094 -1.15418613 -0.55546618

-0.95463139 -1.48755825 -1.03432381 -0.82399344 -0.91085857 0.0421642

-0.55967122 -0.70061207 0.24029407 -0.97962326 -0.75661993 -0.6151405

-1.64357328 -1.16723275 -0.04848668 -0.62112832 -0.91200793 -0.5882951

-0,50034207 0.01658128 -0.58651829 -0,12295453 -0.13033544 0.07790214

-0.678482 -0.62363708 0.08507859-0.94984204 0.00797078 -1.03968978

0.01618595 -0,11407378 0.2762318 -0.7622599 -1.18186867 -0.71437931

0.25219718 -1.02577722 -0,3844451 -0.210338 -0.34110329 -1.00708425

-0.23432316 -0.29608929 0.1013524 -0.40958044]

XI. Ordenador de ejemplo

La figura 14 ilustra un ordenador 1400 de ejemplo para implementar las entidades mostradas en las figuras 1 y 3. El ordenador 1400 incluye al menos un procesador 1402 acoplado a un chipset 1404. El chipset 1404 incluye un controlador 1420 de memoria Hub y un controlador 1422 de entrada/salida (I/O) Hub. Una memoria 1406 y un adaptador 1412 de gráficos están acoplados al controlador 1420 de memoria Hub, y una pantalla 1418 está acoplada al adaptador 1412 de gráficos. Un dispositivo 1408 de almacenamiento, un dispositivo 1414 de entrada y un adaptador 1416 de red están acoplados al controlador 1422 de I/O Hub. Otras realizaciones del ordenador 1400 tienen arquitecturas diferentes.

El dispositivo 1408 de almacenamiento es un medio de almacenamiento no transitorio legible por ordenador tal como un disco duro, un disco compacto de memoria de sólo lectura (DC-ROM), un DVD o un dispositivo de memoria de estado sólido. La memoria 1406 contiene instrucciones y datos usados por el procesador 1402. La interfaz 1414 de entrada es una interfaz de pantalla táctil, un ratón, bola de seguimiento u otro tipo de dispositivo señalador, un teclado o alguna combinación de los mismos, y se usa para ingresar datos en el ordenador 1400. En algunas realizaciones, el ordenador 1400 puede configurarse para recibir entradas (por ejemplo, comandos) desde la interfaz 1414 de entrada a través de gestos del usuario. El adaptador 1412 de gráficos muestra imágenes y otra información en la pantalla 1418. El adaptador 1416 de red acopla el ordenador 1400 a una o más redes de ordenadores.

El ordenador 1400 está adaptado para ejecutar módulos de programas informáticos para proporcionar la funcionalidad descrita en este documento. Como se usa en este documento, el término "módulo" se refiere a la lógica del programa informático utilizada para proporcionar la funcionalidad especificada. Por tanto, un módulo puede implementarse en hardware, firmware y/o software. En una realización, los módulos de programa se almacenan en el dispositivo 1408 de almacenamiento, se cargan en la memoria 1406 y se ejecutan mediante el procesador 1402.

Los tipos de ordenadores 1400 usados por las entidades de la figura 1 pueden variar dependiendo de la realización y la potencia de procesamiento requerida por la entidad. Por ejemplo, el sistema 160 de identificación de presentación puede ejecutarse en un único ordenador 1400 o en múltiples ordenadores 1400 que se comunican entre sí a través de una red tal como en forma de servidor. Los ordenadores 1400 pueden carecer de algunos de los componentes descritos anteriormente, tales como adaptadores de gráficos 1412 y pantallas 1418.

Referencias

1. Desrichard, A., Snyder, A. & Chan, T A. Cancer Neoantigens del and applications for immunotherapy. Clinic. Cancer Res. Off. J. Am. Assoc. Cancer Res. (2015). doi:10.1158/1078-0432.CCR-14-3175

2. Schumacher, T N. & Schreiber, R. D. Neoantigens in cancer inmunotherapy Science 348, 69-74 (2015).

3. Gubin, M. M., Artyomov, M. N., Mardis, E. R. & Schreiber, R. D. Tumor neoantigens: building a framework for personalized cancer immunotherapy. J.Clin. Invest. 125,3413-3421 (2015).

4. Rizvi, N. A. et al. Cancer immunology. Mutational landscape determines sensitivity to PD-1 blockade in non-small cell lung cancer. Science 348, 124-128 (2015).

5. Snyder, A. et al. Genetic basis for clinical response to CTLA-4 blockade in melanoma. N. Engl. J. Med. 371, 2189 2199 (2014).

6. Carreno, B.M. et al. Cancer immunotherapy. A dendritic cell vaccine increases the breadth and diversity of melanoma neoantigen-specific T cells. Science 348, 803-808 (2015).

7. Tran, E. et al. Cancer immunotherapy based on mutation-specific CD4+ T cells in a patient with epithelial cancer. Science 344, 641-645 (2014).

8. Hacohen, N. & Wu, C. J.-Y. United States Patent Application: 0110293637 - COMPOSITIONS AND METHODS OF IDENTIFICATION TUMOR-SPECIFIC NEOANTIGENS. (A1). at <http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PGO1&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&1=50&s1=2011029 3637.PGNR.>

9. Lundegaard, C., Hoof, I., Lund, O. & Nielsen, M. State of the art and challenges in sequence-based T cell epitope prediction. Immunome Res. 6 Suppl 2, S3 (2010).

10. Yadav, M. et al. Predict immunogenic tumor mutations by combining mass spectrometry and exome sequencing. Nature 515, 572-576 (2014).

11. Bassani-Sternberg, M., Pletscher-Frankild, S., Jensen, L. J. & Mann, M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover in antigen presentation. Mol. Cell. Proteomics MCP 14, 658-673 (2015).

12. Van Allen, E.M. et al. Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350, 207-211 (2015).

13. Yoshida, K. & Ogawa, S. Splicing factor mutations and cancer. Wiley Interdisciplinary. Rev. RNA 5, 445-459 (2014).

14. Cancer Genome Atlas Research Network. Comprehensive molecular profiling of lung adenocarcinoma. Nature 511, 543-550 (2014).

15. Rajasagi, M. et al. Systematic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia. Blood 124, 453-462 (2014).

16. Downing, S.R. et al. United States Patent Application: 0120208706 - OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMORS SAMPLES. (A1). at <http://appftl.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&1=50&s1=2012020 8706.PGNR.>

17. Target Capture for NextGen sequencing - IDT. at <http://www.idtdna.com/pages/products/nextgen/target-capture> 18. Shukla, S.A. et al. Comprehensive analysis of cancer associated somatic mutations in class I HLA genes. Nat. Biotechnol. 33, 1152-1158 (2015).

19. Cieslik, M. et al. The use of exome capture RNA-seq for highly degraded RNA with application to clinical cancer sequencing. Genome Res. 25, 1372-1381 (2015).

20. Bodini, M. et al. The hidden genomic landscape of acute myeloid leukemia: subclonal structure revealed by undetected mutations. Blood 125, 600-605 (2015).

21. Saunders, C. T et al. Strelka: accurate somatic small-variant callig from sequenced tumor-normal samples pairs. Bioinforma. Oxf. Engl. 28, 1811-1817 (2012).

22. Cibulskis, K. et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat. Biotechnol. 31, 213-219 (2013).

23. Wilkerson, M.D. et al. Integrated RNA and DNA sequencing improves mutation detection in low-purity tumors. Nucleic Acids Res. 42, e107 (2014).

24. Mose, L. E., Wilkerson, M. D., Hayes, D. N., Perou, C. M. & Parker, J. S. ABRA: Improved coding indel detection using assembly-based realignment. Bioinforma. Oxf. Engl. 30, 2813-2815 (2014).

25. Ye, K., Schulz, M. H., Long, Q., Apweiler, R. & Ning, Z. Pindel: a pattern growth approach to detect break points of large deletions and medium-sized insertions from paired-end short reads. Bioinforma. Oxf. Engl. 25, 2865-2871 (2009).

26. Lam, H.YK et al. Nucleotide resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55 (2010).

27. Frampton, G.M. et al. Development and validation of a clinical cancer genomic profiling test based on massively parallel DNA sequencing. Nat. Biotechnol. 31, 1023-1031 (2013).

28. Boegel, S. et al. HLA typing from RNA-Seq sequence reads. Genome Med. 4, 102 (2012).

29. Liu, C. et al. ATHLATES: accurate typing of human leukocyte antigen through exome sequencing. Nucleic Acids Res. 41, e142 (2013).

30. Mayor, N.P et al. HLA typing for the next generation. PloS One 10, e0127153 (2015).

31. Roy, C.K., Olson, S., Graveley, B.R., Zamore, P.D. & Moore, M.J. Assessing long-distance RNA sequence connectivity via RNA-templated D<n>A-DNA ligation. eLife 4, (2015).

32. Song, L. & Florea, L. CLASS: consrstrained transcript assembly of RNA-seq reads. BMC Bioinformatics 14 Suppl 5, S14 (2013).

33. Maretty, L., Sibbesen, J. A. & Krogh, A. Bayesian transcriptome assembly. Genome Biol 15, 501 (2014).

34. Pertea, M. et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nat. Biotechnol.

33,290-295 (2015).

35. Roberts, A., Pimentel, H., Trapnell, C. & Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinforma. Oxf. Engl. (2011). doi:10.1093/bioinformatics/btr355

36. Vitting-Seerup, K., Porse, B. T., Sandelin, A. & Waage, J. spliceR: an R package for classification of alternative splicing and prediction of coding potential from RNA-seq data. BMC Bioinformatics 15, 81 (2014).

37. Rivas, M. A. et al. Human genomics. Effect of predicted protein-truncating genetic variants on the human transcriptome. Science 348, 666-669 (2015).

38. Skelly, D. A., Johansson, M., Madeoy, J., Wakefield, J. & Akey, J. M. A powerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data. Genome Res. 21, 1728-1737 (2011). 39. Anders, S., Pyl, P T. & Huber, W. HTSeq: a Python framework to work with high-throughput sequencing data. Bioinforma. Oxf. Engl. 31, 166-169 (2015).

40. Fumey, S. J. et al. SF3B1 mutations are associated with alternative splicing in uveal melanoma. Cancer Discov. (2013).doi:10.1158/2159-8290. DC-13-0330

41. Zhou, Q. et al. A chemical genetics approach for the functional assessment of novel cancer genes. Cancer Res. (2015). doi:10.1158/0008-5472.CAN-14-2930

42. Maguire, S. L. et al. SF3B1 mutations constitute a novel therapeutic target in breast cancer. J. Pathol. 235, 571 -580 (2015).

43. Carithers, L. J. et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation Biobanking 13, 311-319 (2015).

44. Xu, G. et al. RNA CoMPASS: a dual approach for pathogen and host transcriptome analysis of RNA-seq datasets. PloS One 9, e89445 (2014).

45. Andreatta, M. & Nielsen, M. Gaped sequence alignment using artificial neural networks: application to the MHC class I system. Bioinforma. Oxf. Engl. (2015). doi:10.1093/bioinformatics/btv639

46. J0rgensen, K. W., Rasmussen, M., Buus, S. & Nielsen, M. NetMHCstab -predicting stability of peptide-MHC-I complexes; impacts for cytotoxic T lymphocyte epitope discovery. Immunology 141, 18-26 (2014).

47. Larsen, M.V. et al. An integrative approach to CTL epitope prediction: a combined algorithm integrating MHC class I binding, TAP transport efficiency and proteasomal cleavage predictions. EUR. J. Immunol. 35, 2295-2303 (2005). 48. Nielsen, M., Lundegaard, C., Lund, O. and Kesmir, C. The role of the proteasome in the generation of cytotoxic T-cell epitopes: insights gained from improved predictions of proteasomal cleavage. Immunogenetics 57, 33-41 (2005).

49. Boisvert, F.-M. et al. A Quantitative Spatial Proteomics Analysis of Proteome Turnover on Human Cells. Mol. Cell. Proteomics 11, M111.011429-M111.011429 (2012).

50. Duan, F. et al. Genomic and bioinformatic profiling of mutational neoepitopes reveals new rules for predicting anticancer immunogenicity. J. Exp. Med. 211,2231-2248 (2014).

51. Janeway's Immunobiology: 9780815345312: Medicine & Health Sciences Books @ Amazon.com. at <http://www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>

52. Calis, J. J. A. et al. Properties of MHC Class I-Presented Peptides That Enhance Immunogenicity. PLoS Comput. Biol. 9, e1003266 (2013).

53. Zhang, J. et al. Intratumoral heterogeneity in localized lung adenocarcinomas delineated by multiregional sequencing. Science 346, 256-259 (2014)

54. Walter, M.J. et al. Clonal architecture of secondary acute myeloid leukemia. N. English. J. Med. 366, 1090-1098 (2012).

55. Hunt DF, Henderson RA, Shabanowitz J, Sakaguchi K, Michel H, Sevilir N, Cox AL, Appella E, Engelhard VH. Characterization of peptides bound to the class I MHC molecule HLA-A2.1 by mass spectrometry. Science 1992. 255: 1261-1263.

56. Zarling AL, Polefrone JM, Evans AM, Mikesh LM, Shabanowitz J, Lewis ST, Engelhard VH, Hunt DF. Identification of MHC class I associated phosphopeptides as targets for cancer immunotherapy. Proc Natl Acad Sci U S A. 2006 Oct 3, 103 (40): 14889-94.

57. Bassani-Sternberg M, Pletscher-Frankild S, Jensen LJ, Mann M. Mass spectrometry of human leukocyte antigen class I peptidomes reveals strong effects of protein abundance and turnover on antigen presentation. Mol Cell Pproteomics. 2015 Mar; 14(3):658-73. doi: 10.1074/mcp.M114.042812.

58. Abelin JG, Trantham PD, Penny SA, Patterson AM, Ward ST, Hildebrand WH, Cobbold M, Bai DL, Shabanowitz J, Hunt DF. Complementary IMAC enrichment methods for the identification of HLA-associated phosphopeptides by mass spectrometry. Nat Protoc. 2015 Sep;10(9):1308-18. doi: 10.1038/nprot.2015.086. Epub 2015 Aug 6

59. Bamstable CJ, Bodmer WF, Brown G, Galfre G, Milstein C, Williams AF, Ziegler A. Production of monoclonal antibodies to group A erythrocytes, HLA and other human cell surface antigens-new tools for genetic analysis. Cell.

1978 May; 14(1):9-20.

60. Goldman JM, Hibbin J, Keamey L, Orchard K, Th'ng KH. HLA-DR monoclonal antibodies inhibit the proliferation of normal and chronic granulocytic leukemia myeloid progenitor cells. Br.J. Haematol. 1982 Nov;52(3):411-20.

61. Eng JK, Jahan TA, Hoopmann MR. Comet: an open source MS/MS sequence database search tool. Proteomics.

2013 Jan; 13 (1): 22-4. doi: 10.1002/pmic.201200439. Epub, 2012 Dec 4.

62. Eng JK, Hoopmann MR, Jahan TA, Egertson JD, Noble WS, MacCoss MJ. A deeper look at Comet: implementation and features. J Am Soc Mass Spectrum 2015; Nov; 26(11):1865-74. doi: 10.1007/s13361-015-1179-x. Epub 2015 June 2.

63. Lukas Kall, Jesse Canterbury, Jason Weston, William Stafford Noble and Michael J. MacCoss. Semi-supervised learning for peptide identification from shotgun proteomics datasets. Nature Methods 4:923 - 925, November 2007 64. Lukas Kall, John D. Storey, Michael J. MacCoss and William Stafford Noble. Assignment confidence measures to peptides identified by tandem mass spectrometry. Journal of Proteome Research, 7(1):29-34, January 2008 65. Lukas Kall, John D. Storey and William Stafford Noble. Nonparametric estimation of posterior error probabilities associated with peptides identified by tandem mass spectrometry. Bioinformatics, 24(16):i42-i48, August 2008 66. Bo Li and Colin N. Dewey. RSEM: Accurate transcription quantification from RNA-Seq data with or without reference genome. BMC Bioinformatics, 12:323, August 2011

67. Hillary Pearson, Tariq Daouda, Diana Paola Granados, Chantal Durette, Eric Bonneil, Mathieu Courcelles, Anja Rodenbrock, Jean-Philippe Laverdure, Caroline Coté, Sylvie Mader, Sébastien Lemieux, Pierre Thibault and Claude Perreault. MHC class I-associated peptides are derived from selective regions of the human genome. The Journal of Clinical Research, 2016,

68. Juliane Liepe, Fabio Marino, John Sidney, Anita Jeko, Daniel E. Bunting, Alessandro Sette, Peter M. Kloetzel, Michael P H. Stumpf, Albert J. R. Heck, Michele Mishto. A large fraction of HLA class I ligands are proteasomegenerated spliced peptides. Science, 21, October 2016.

1

466877401e0L 208475977601

Claims

REIVINDICACIONES

1. Un método implementado por ordenador para identificar uno o más neoantígenos de una célula tumoral de un sujeto que probablemente se presenten en la superficie de la célula tumoral, que comprende los pasos de:

obtener al menos uno de los datos de secuenciación de nucleótidos tumorales del exorna, transcriptoma o genoma completo de la célula tumoral del sujeto, en el que los datos de secuenciación de nucleótidos tumorales se usan para obtener datos que representan secuencias peptídicas de cada uno de un conjunto de neoantígenos, y en el que la secuencia peptídica de cada neoantígeno comprende al menos una alteración que lo distingue de la correspondiente secuencia peptídica parental de tipo salvaje;

introducir la secuencia peptídica de cada neoantígeno en uno o más modelos de presentación para generar un conjunto de probabilidades numéricas de que cada uno de los neoantígenos sea presentado por uno o más alelos del MHC en la superficie de la célula tumoral de la célula tumoral del sujeto, el conjunto de probabilidades numéricas ha sido identificado al menos basándose en los datos recibidos de espectrometría de masas; y

seleccionar un subconjunto del conjunto de neoantígenos basándose en el conjunto de probabilidades numéricas para generar un conjunto de neoantígenos seleccionados.

2. El método de la reivindicación 1, en el que un número del conjunto de neoantígenos seleccionados es 20.

3. El método de cualquiera de las reivindicaciones 1-2, en el que el uno o más modelos de presentación representan una dependencia entre:

presencia de un par de uno particular de los alelos del MHC y un aminoácido particular en una posición particular de una secuencia peptídica; y

probabilidad de presentación en la superficie de la célula tumoral, por el uno particular de los alelos del MHC del par, de dicha secuencia peptídica que comprende el aminoácido particular en la posición particular.

4. El método de cualquiera de las reivindicaciones 1-3, en el que introducir la secuencia peptídica comprende: aplicar el uno o más modelos de presentación a la secuencia peptídica del neoantígeno correspondiente para generar una puntuación de dependencia para cada uno de los uno o más alelos del MHC que indica si el alelo del MHC presentará el neoantígeno correspondiente basándose en al menos las posiciones de aminoácidos de la secuencia peptídica del neoantígeno correspondiente.

5. El método de la reivindicación 4, que comprende además:

transformar las puntuaciones de dependencia para generar una probabilidad por alelo correspondiente para cada alelo del MHC que indique una probabilidad de que el alelo del MHC correspondiente presentará el neoantígeno correspondiente; y

combinar las probabilidades por alelo para generar la probabilidad numérica, opcionalmente en el que la transformación de las puntuaciones de dependencia modela la presentación de la secuencia peptídica del neoantígeno correspondiente como mutuamente excluyentes.

6. El método de cualquiera de las reivindicaciones 4-5, que comprende además:

transformar una combinación de las puntuaciones de dependencia para generar la probabilidad numérica, opcionalmente, en el que la transformación de la combinación de las puntuaciones de dependencia modela la presentación de la secuencia peptídica del neoantígeno correspondiente como interferencia entre los alelos del MHC.

7. El método de cualquiera de las reivindicaciones 4 a 6 , en el que el conjunto de probabilidades numéricas se identifica además mediante al menos una característica que no interactúa con el alelo, y que comprende además: aplicar un alelo que no interactúa con uno del uno o más modelos de presentación a las características que no interactúan con el alelo para generar una puntuación de dependencia para las características que no interactúan con el alelo que indica si la secuencia peptídica del neoantígeno correspondiente se presentará basándose en las características que no interactúan con el alelo,

opcionalmente en el que el método comprende además:

combinar la puntuación de dependencia para cada alelo del MHC en el uno o más alelos del MHC con la puntuación de dependencia para la característica que no interactúa con el alelo;

transformar una combinación de las puntuaciones de dependencia para cada uno de los alelos del MHC para generar una probabilidad por alelo correspondiente para el alelo del MHC que indica una probabilidad de que el alelo del MHC correspondiente presentará el neoantígeno correspondiente; y

combinar las probabilidades por alelo para generar la probabilidad numérica.

8. El método de la reivindicación 7, que comprende además:

transformar una combinación de las puntuaciones de dependencia para cada uno de los alelos del MHC y la puntuación de dependencia para las características que no interactúan con el alelo para generar la probabilidad numérica. 9. El método de cualquiera de las reivindicaciones 1-8, en el que un conjunto de parámetros numéricos para el uno o más modelos de presentación se entrena basándose en un conjunto de datos de entrenamiento que incluye al menos un conjunto de secuencias peptídicas de entrenamiento identificadas como presentes en una pluralidad de muestras y uno o más alelos del MHC asociados con cada secuencia de péptidos de entrenamiento, en el que las secuencias de péptidos de entrenamiento se identifican mediante espectrometría de masas en péptidos aislados eluidos a partir de alelos del MHC derivados de la pluralidad de muestras.

10. El método de la reivindicación 9, en el que el conjunto de datos de entrenamiento se genera comparando el conjunto de secuencias de péptidos de entrenamiento mediante alineación con una base de datos que comprende un conjunto de secuencias de proteínas conocidas, en el que el conjunto de secuencias de proteínas de entrenamiento son más largas que e incluyen las secuencias de péptidos de entrenamiento; y/o

en el que el conjunto de datos de entrenamiento se genera basándose en realizar o haber realizado espectrometría de masas en una línea celular para obtener al menos uno de los datos de secuenciación de péptidos del exoma, transcriptoma, o genoma completo de la línea celular, incluyendo los datos de secuenciación de péptidos al menos una secuencia de proteínas que incluye una alteración; y/o

en el que el conjunto de datos de entrenamiento se genera basándose en la obtención de al menos uno de los datos de secuenciación de nucleótidos normales del exoma, transcriptoma, y genoma completo a partir de muestras de tejido normal.

11. El método de cualquiera de las reivindicaciones 9-10, que comprende además codificar la secuencia peptídica usando un esquema de codificación one-hot.

12. Un método de fabricación de una vacuna contra tumores, que comprende realizar el método según una cualquiera de las reivindicaciones 1 - 11 , y que comprende además producir una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados.

13. El método de cualquiera de las reivindicaciones 1-12, en el que seleccionar el conjunto de neoantígenos seleccionados comprende uno cualquiera o más de:

seleccionar neoantígenos que tienen una mayor probabilidad de presentarse en la superficie de la célula tumoral en relación con neoantígenos no seleccionados basándose en el uno o más modelos de presentación; seleccionar neoantígenos que tienen una mayor probabilidad de ser capaces de inducir una respuesta inmunitaria específica de tumor en el sujeto en relación con neoantígenos no seleccionados basándose en el uno o más modelos de presentación;

seleccionar neoantígenos que tienen una mayor probabilidad de ser capaces de ser presentados a células T naive mediante células presentadoras de antígenos (APC) profesionales en relación con neoantígenos no seleccionados basándose en el uno o más modelos de presentación,

opcionalmente en los que la APC es una célula dendrítica (DC);

seleccionar neoantígenos que tienen una menor probabilidad de estar sujetos a inhibición mediante tolerancia central o periférica en relación con neoantígenos no seleccionados basándose en el uno o más modelos de presentación; y seleccionar neoantígenos que tienen una probabilidad reducida de ser capaces de inducir una respuesta autoinmunitaria al tejido normal en el sujeto en relación con neoantígenos no seleccionados basándose en el uno o más modelos de presentación.

14. El método de cualquiera de las reivindicaciones 1-13, en el que los datos de secuenciación de nucleótidos del exoma o transcriptoma se obtienen realizando una secuenciación en el tejido tumoral y/o en el que la secuenciación es una secuenciación de próxima generación (NGS) o cualquier enfoque de secuenciación masiva paralela.

15. El método de cualquiera de las reivindicaciones 1-14, en el que el conjunto de probabilidades numéricas se identifica además mediante al menos características de interacción con el alelo del MHC que comprenden al menos uno de:

a. La afinidad prevista con la que se unen el alelo del MHC y el péptido codificado por el neoantígeno.

b. La estabilidad prevista del complejo péptido-MHC codificado por el neoantígeno.

c. La secuencia y longitud del péptido codificado por el neoantígeno.

d. La probabilidad de presentación de péptidos codificados por el neoantígeno con secuencia similar en células de otros individuos que expresan el alelo del MHC particular según se evalúa mediante proteómica de espectrometría de masas u otros medios.

e. Los niveles de expresión del alelo del MHC particular en el sujeto en cuestión.

f. La probabilidad de presentación independiente de la secuencia peptídica codificada por el neoantígeno general por el alelo del MHC particular en otros sujetos distintos que expresan el alelo del MHC particular.

g. La probabilidad de presentación independiente de la secuencia peptídica codificada por el neoantígeno general por alelos del MHC en la misma familia de moléculas en otros sujetos distintos.

16. El método de cualquiera de las reivindicaciones 1-15, en el que el conjunto de probabilidades numéricas se identifica además mediante al menos características que no interactúan con el alelo del MHC que comprenden al menos uno de:

a. Las secuencias C y N-terminales que flanquean el péptido codificado por el neoantígeno dentro de su secuencia de proteína fuente.

b. La presencia de motivos de escisión de proteasa en el péptido codificado por el neoantígeno, opcionalmente ponderados según la expresión de las proteasas correspondientes en las células tumorales.

c. La tasa de renovación de la proteína fuente medida en el tipo de célula apropiado.

d. La longitud de la proteína fuente, considerando opcionalmente las variantes de empalme específicas ("isoformas") expresadas más altamente en las células tumorales, medida por RNA-seq o espectrometría de masas proteómica, o como se predice a partir de la anotación de mutaciones de empalme somático o de línea germinal detectadas en datos de secuencia de ADN o ARN.

e. El nivel de expresión del proteasoma, inmunoproteasoma, timoproteasoma, u otras proteasas en las células tumorales.

f. La expresión del gen fuente del péptido codificado por el neoantígeno.

g. La expresión típica específica de tejido del gen fuente del péptido codificado por el neoantígeno durante diversas etapas del ciclo celular.

h. Un catálogo completo de características de la proteína fuente y/o sus dominios, como se puede encontrar, por ejemplo, en uniProt o PDB http://www.rcsb.org/pdb/home/home.do.

i. Características que describen las propiedades del dominio de la proteína fuente que contiene el péptido, por ejemplo: estructura secundaria o terciaria; empalme alternativo.

j. La probabilidad de presentación de péptidos de la proteína fuente del péptido codificado por el neoantígeno en cuestión en otros sujetos distintos.

k. La probabilidad de que el péptido no sea detectado o esté sobrerrepresentado mediante espectrometría de masas debido a sesgos técnicos.

l. La expresión de diversos módulos/rutas genéticas medidas por RNASeq que son informativas sobre el estado de las células tumorales, el estroma, o los linfocitos infiltrantes de tumores (TIL).

m. El número de copias del gen fuente del péptido codificado por el neoantígeno en las células tumorales.

n. La probabilidad de que el péptido se una al TAP o la afinidad de unión medida o prevista del péptido al TAP o. El nivel de expresión de TAP en las células tumorales.

p. Presencia o ausencia de mutaciones tumorales, que incluyen, pero no se limitan a:

i. Mutaciones conductoras en genes impulsores de cáncer conocidos, tales como EGFR, KRAS, ALK, RET, ROS1, TP53, CDKN2A, CDKN2B, NTRK1, NTRK2, NTRK3

ii. En genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos. Los péptidos cuya presentación depende de un componente de la maquinaria de presentación de antígenos que está sujeto a una mutación por pérdida de función en el tumor tienen una probabilidad reducida de presentación.

q. Presencia o ausencia de polimorfismos funcionales de la línea germinal, que incluyen, pero no se limitan a:i.En genes que codifican las proteínas implicadas en la maquinaria de presentación de antígenos.

r. Tipo de tumor.

s. Subtipo de tumor clínico.

t. Historial de tabaquismo.

u. La expresión típica del gen fuente del péptido en el tipo de tumor o subtipo clínico relevante, opcionalmente estratificada por mutación conductora.

17. El método de cualquiera de las reivindicaciones 1-16, en el que al menos una mutación es un desplazamiento de marco o un desplazamiento de marco indel, una sustitución de sentido erróneo o sin sentido, una alteración del sitio de empalme, un reordenamiento genómico o una fusión genética, o cualquier alteración genómica o de expresión que dé lugar a un neoORF.

18. El método de cualquiera de las reivindicaciones 1-17, en el que la célula tumoral se selecciona del grupo que consiste en: cáncer de pulmón, melanoma, cáncer de mama, cáncer de ovario, cáncer de próstata, cáncer de riñón, cáncer gástrico, cáncer de colon, cáncer testicular, cáncer de cabeza y de cuello, cáncer de páncreas, cáncer de cerebro, linfoma de células B, leucemia mielógena aguda, leucemia mielógena crónica, leucemia linfocítica crónica y leucemia linfocítica de células T, cáncer de pulmón de células no pequeñas, y cáncer de pulmón de células pequeñas.

19. El método de cualquiera de las reivindicaciones 1-18, que comprende además obtener una vacuna contra tumores que comprende el conjunto de neoantígenos seleccionados o un subconjunto de los mismos.

20. El método de cualquiera de las reivindicaciones 1-19, en el que al menos uno de los neoantígenos en el conjunto de neoantígenos seleccionados, cuando está en forma de polipéptido, comprende al menos uno de: una afinidad de unión con MHC con un valor de IC50 inferior a 1000 nM, para polipéptidos de clase 1 del MHC con una longitud de 8 15, 8, 9, 10, 11, 12, 13, 14 o 15 aminoácidos, presencia de motivos de secuencia dentro o cerca del polipéptido en la secuencia de la proteína original que promueve la escisión del proteasoma y presencia de motivos de secuencia que promueven el transporte TAP