ES2350685T3

ES2350685T3 - Procedimiento de obtención de indolocarbazoles mediante la utilización de genes biosintéticos de rebecamicina.

Info

Publication number: ES2350685T3
Application number: ES02801342T
Authority: ES
Inventors: FERNANDEZ Departam. de Biologia Funcional SALAS; Alfredo Dept. de Biol. Funcional FERNANDEZ BRANA; Cesar Departam. De Biol. Funcional Sanchez Reillo; Carmen Dept. de Biol. Funcional MENDEZ FERNANDEZ
Original assignee: Universidad de Oviedo
Current assignee: Universidad de Oviedo
Priority date: 2001-10-19
Filing date: 2002-10-17
Publication date: 2011-01-26
Anticipated expiration: 2022-10-17
Also published as: DE60237382D1; EP1443113B1; ES2255331B1; US8207321B2; ES2255331A1; ATE478149T1; WO2003033706A1; MXPA04003701A; US20080004326A1; EP1443113A1

Abstract

La invención se basa en la utilización de genes biosintéticos de rebecamicina de Saccharothrix aerocolonigenes para la producción de indolocarbazoles en microorganismos relacionados (Streptomyces spp.). El método comprende el aislamiento de un fragmento de ADN de Saccharothrix aerocolonigenes ATCC39243 que contiene la agrupación de genes biosintéticos de rebecamicina y la expresión de dichos genes en Streptomyces albus, consiguiendo la producción de rebecamicina y derivados. De aplicación en el campo farmaceútico.

Description

Campo de la invención

La invención se adscribe al campo farmacéutico y en concreto a compuestos con potencial aplicación en oncología, con estructura química de indolocarbazoles y que se obtienen por fermentación de microorganismos transformados.

Estado de la técnica

La rebecamicina (Figura 1, A) es un producto natural de la bacteria Saccharothrix aerocolonigenes ATCC39243, perteneciente al grupo de los actinomicetos (Bush et al. J. Antibiot. 40: 668-678, 1987). Los actinomicetos son bacterias Gram-positivas cuyo hábitat natural es el suelo y que poseen un gran interés industrial y biotecnológico, en particular el género Streptomyces, pues producen una gran parte de los compuestos bioactivos conocidos. Muchos de estos compuestos poseen aplicación farmacéutica debido a su actividad antitumoral, antibacteriana, antifúngica, antiparasitaria, inmunosupresora, etc. La rebecamicina presenta actividad antibacteriana frente a bacterias Gram-positivas tales como Staphylococcus aureus, Micrococcus luteus y Streptococcus faecalis (Bush et al. J. Antibiot. 40: 668-678, 1987). Sin embargo, su mayor interés se centra en su actividad antitumoral, la cual ha sido demostrada in vivo frente a diversos tumores implantados en ratón, e in vitro frente a varias líneas celulares tumorales (Bush et al. J. Antibiot. 40: 668-678, 1987).). En estos momentos existen dos derivados de rebecamicina en ensayos clínicos para su futuro uso como agentes antineoplásicos (NB-506, NSC655649).

Desde el punto de vista de su estructura química, la rebecamicina pertenece a la familia de productos naturales de los indolocarbazoles. Desde su descubrimiento en 1977, se han descrito más de 60 productos naturales de dicha familia, la cual puede ser clasificada en tres grupos según contengan estructuras de tipo indolo[2,3a]pirrolo[3,4-c]carbazol (p.ej. rebecamicina), indolo[2,3-a]carbazol (p.ej. tjipanazoles), o bis-indolilmaleimida (p.ej. arciriarrubina). Debido a lo novedoso de estas estructuras y a la amplia variedad de actividades de sus miembros (antimicrobiana, antifúngica, inmunosupresora, antitumoral, etc.), este grupo de alcaloides ha atraído considerable interés. En particular, los indolopirrolocarbazoles constituyen una nueva clase de agentes antitumorales, que pueden clasificarse en dos subgrupos según su mecanismo de acción. Un subgrupo consiste en inhibidores de quinasas, especialmente quinasa C, e incluye la estaurosporina (Figura 1, B) y análogos. El segundo subgrupo consiste en agentes que dañan el ADN actuando sobre la topoisomerasa I ó II, pero no sobre quinasas, e incluye la rebecamicina (Figura 1, A) y análogos. Actualmente hay varios indolocarbazoles en ensayos clínicos en Estados Unidos, Japón y Europa, incluyendo tanto inhibidores de quinasas (UCN-01, CGP41251, CEP-751) como agentes que dañan el ADN (NB-506, NSC655649) (Akinaga et al. Anti-Cancer Drug Design 15: 43-52, 2000).

En nuestros días existe una gran necesidad de nuevos agentes antitumorales, con actividad mejorada, con menos efectos secundarios indeseables, y con mayor selectividad, en comparación con los fármacos actualmente en uso. Tradicionalmente, la industria farmacéutica ha desarrollado nuevos fármacos mediante dos vías fundamentales: (1) búsqueda de nuevos productos naturales, y (2) síntesis y/o modificación química de determinados compuestos. Estos métodos siguen siendo útiles, pero suelen requerir inversiones muy importantes de recursos (tiempo, dinero, energía), pues normalmente es necesario analizar miles de productos para encontrar un nuevo compuesto prometedor. El desarrollo de la tecnología del ADN recombinante ha abierto un interesante campo de investigación para la generación de nuevos compuestos bioactivos mediante la manipulación de genes implicados en la biosíntesis de agentes antitumorales, principalmente de bacterias del grupo de los actinomicetos. Estas técnicas también pueden ser usadas para mejorar la producción de compuestos naturales ya conocidos, pues las cepas naturales suelen producir bajas concentraciones del metabolito de interés.

La mayoría de los indolocarbazoles de origen natural poseen, en su estructura química, dos componentes: el aglicón indolocarbazol, y uno o más azúcares unidos a él. El aglicón indolocarbazol se biosintetiza a partir de dos moléculas de triptófano, al menos en el caso de los indolopirrolocarbazoles. En el caso de la rebecamicina (Figura 1, A), el azúcar es 4-O-metil-p-D-glucosa. En el caso de la estaurosporina (Figura 1, B), el azúcar es un derivado de L-ramnosa. Recientemente se han descrito algunos genes implicados en la biosíntesis de la parte glucídica de estos dos indolocarbazoles:

(1): Una región del cromosoma de Streptomyces longisporoflavus DSM10189 implicada en la biosíntesis del azúcar de la estaurosporina. Dicha región de ADN era capaz de complementar una mutación que afectaba a la biosíntesis

del azúcar. No existe ninguna prueba conocida de que dicha región de ADN esté implicada en la biosíntesis del aglicón indolocarbazol (US6210935).

(2): El gen ngt que codifica la N-glucosiltransferasa de rebecamicina de Saccharothrix aerocolonigenes ATCC39243, responsable de la transferencia del azúcar al aglicón indolocarbazol (Ohuchi et al. J. Antibiot. 53: 393-403, 2000). Tampoco existen pruebas conocidas de que la región de ADN identificada esté implicada en la biosíntesis del aglicón indolocarbazol. La secuencia de ADN del gen ngt ha sido previamente usada para la bioconversión de aglicones indolocarbazoles en derivados D-glucosilados. El procedimiento consistía en añadir un determinado aglicón indolocarbazol (sintetizado químicamente, o aislado de una cepa productora) al medio de cultivo de una cepa de Streptomyces lividans que contenía un plásmido con el gen ngt, y aislar el producto glucosilado del cultivo (Ohuchi et al. J. Antibiot.

53: 393-403, 2000).

Con la excepción mencionada del gen ngt (Ohuchi et al. J. Antibiot. 53: 393-403, 2000), no se conoce descripción previa de la secuencia de nucleótidos a la que se refiere la presente invención. Además, no se conoce ninguna descripción previa de secuencias de nucleótidos que hayan sido implicadas en la biosíntesis de un aglicón indolocarbazol.

Es también conocido en el estado de la técnica (EP 0769555 A1) un gen que codifica la actividad glicosiltransferasa derivado de la cepa ATCC39243 de Saccharothrix aerocolonigenes, vectores recombinantes que tienen dicho gen, las células hospedadoras transformadas con dichos vectores, un proceso para preparar glicosiltransferasa mediante el cultivo de dicha célula hospedadora transformada y un proceso para la preparación de derivados glicosilados indolopirrolocarbazoles mediante el cultivo de dicha célula huésped transformada y el uso de derivados indolopirrolocarbazoles como compuestos de partida.

Breve descripción de la invención

La presente invención se refiere a un procedimiento basado en la utilización de genes biosintéticos de rebecamicina para la producción de indolocarbazoles que comprende las siguientes etapas:

(1): Aislamiento de la región del cromosoma de Saccharothrix aerocolonigenes que contiene (entre otros genes), el gen que codifica la N-glucosiltransferasa de rebecamicina.

(2): Transferencia de la capacidad de biosintetizar rebecamicina a un microorganismo del género Streptomyces, mediante la introducción en el mismo de dicha región cromosómica.

(3): Determinación y análisis de la secuencia nucleotídica del agrupamiento génico responsable de la biosíntesis de rebecamicina.

(4): Expresión de ciertos genes de dicho agrupamiento de genes en un organismo hospedador, para producir indolocarbazoles derivados de rebecamicina.

Las técnicas de Biología molecular empleadas en la presente invención se detallan en: Kieser et al. (Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000) y Sambrook et al. (Molecular cloning: a laboratory manual. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, Nueva York, EE.UU, 1989).

Etapa 1. Aislamiento de la región del cromosoma de Saccharothrix aerocolonigenes que contiene (entre otros), el gen que codifica la Nglucosiltransferasa de rebecamicina.

Ejemplo 1. Construcción de una librería genómica del ADN de Saccharothrix aerocolonigenes ATCC39243.

Con el fin de obtener ADN genómico de Saccharothrix aerocolonigenes ATCC39243, se usó una suspensión densa de esporas de este organismo para inocular matraces Erlenmeyer de 250 ml conteniendo 25 ml de medio TSB (caldo de soja tripticaseína, Oxoid), y se incubaron a 28oC durante 48 horas. Las células obtenidas fueron recogidas mediante centrifugación y seguidamente fueron procesadas siguiendo el método de aislamiento de ADN genómico tal como se describe detalladamente en Kieser et al. (Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000). Este ADN genómico fue entonces digerido parcialmente con el enzima de restricción Sau3AI, originándose fragmentos de ADN de un tamaño aproximado de 30 kb. La cantidad necesaria de enzima, así como el tiempo de digestión, se determinó empíricamente analizando la digestión mediante electroforesis en gel de agarosa. La reacción enzimática fue interrumpida por congelación rápida, seguida de extracción con fenol/cloroformo y precipitación con etanol.

Para la preparación de la genoteca a partir del ADN genómico de Saccharothrix aerocolonigenes se utilizó el vector pKC505, que es capaz de replicarse tanto en Escherichia coli como en Streptomyces spp. Se sometió el vector pKC505 a digestión total con el enzima de restricción HpaI, seguida de extracción con fenol/cloroformo y precipitación con etanol, y posterior tratamiento con fosfatasa alcalina (Boehringer Mannheim). Tras inactivar la fosfatasa, el vector fue digerido totalmente con el enzima de restricción BamHI, y sometido a extracción con fenol/cloroformo y precipitación con etanol. El vector así tratado fue entonces ligado con el ADN genómico parcialmente digerido (previamente obtenido) utilizando ADN ligasa de T4 (New England Biolabs). Esta mezcla de ligación fue empaquetada, in vitro, en partículas de fago lambda empleando un sistema disponible comercialmente "DNA Packaging Kit" (Boehringer Mannheim). La preparación fágica así obtenida se utilizó para infectar células de Escherichia coli ED8767 y los transductantes fueron seleccionados en placas con medio TSA (caldo de soja tripticaseína [Oxoid] con 2% agar) conteniendo 20 g/ml tobramicina. Unas 3000 colonias transductantes elegidas al azar fueron cultivadas en placas de microtitulación y, tras la adición de glicerol (25% concentración final), esta genoteca representativa del ADN genómico de Saccharothrix aerocolonigenes fue guardada a -70oC para su preservación.

Ejemplo 2. Análisis de la librería genómica de Saccharothrix aerocolonigenes con una sonda ngt.

La identificación de clones de la genoteca que contenían genes biosintéticos de rebecamicina se realizó mediante hibridación en colonia, utilizando como sonda un fragmento interno del gen ngt de Saccharothrix aerocolonigenes que codifica la Nglucosiltransferasa de rebecamicina (Ohuchi et al. J. Antibiot. 53: 393-403, 2000). Este fragmento del gen ngt fue obtenido mediante técnicas estándar de PCR, usando como molde ADN genómico de Saccharothrix aerocolonigenes (obtenido según Ejemplo 1) y los oligonucleótidos sintéticos CS003 SEQ ID NO: 20 y CS004 SEQ ID NO: 21, diseñados a partir de la secuencia conocida del gen ngt (Ohuchi et al. J. Antibiot. 53: 393-403, 2000). La identidad del fragmento de ADN amplificado se verificó mediante su clonación en el vector pUC19 y posterior secuenciación de nucleótidos mediante técnicas estándar de Biología Molecular. Este fragmento de ADN fue empleado como sonda en una hibridación en colonia frente a la genoteca de Saccharothrix aerocolonigenes. Para ello se usó un sistema disponible comercialmente "DIG DNA Labeling and Detection Kit" (Boehringer Mannheim), siguiendo procedimientos estándar y recomendaciones del fabricante. Varios clones dieron señal positiva, y los correspondientes cósmidos fueron estudiados mediante análisis Southern usando la misma sonda ngt. De este modo se seleccionaron cuatro cósmidos que incluían el gen ngt (10A4, 14E8, 17A12 y 24B2) y mostraban mapas de restricción solapantes. La cepa E. coli ED8767 portadora del cósmido 14E8 fue depositada con fecha 10/10/2001 en la Colección Española de Cultivos Tipo (CECT), Universidad de Valencia, Campus de Burjassot, 46100 Burjassot (Valencia, España) con el número de acceso CECT 5984.

Etapa 2. Transferencia de la capacidad de biosintetizar rebecamicina a un microorganismo del género Streptomyces, mediante la introducción en el mismo de dicha región cromosómica.

Ejemplo 3. Transferencia de la capacidad de producir rebecamicina a Streptomyces albus.

El vector pKC505 (como control) y los cuatro cósmidos que incluían el gen ngt fueron introducidos separadamente en una cepa del género Streptomyces mediante transformación de protoplastos, tal como se describe en Kieser et al (Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000). La cepa hospedadora elegida fue Streptomyces albus J1074, la cual no produce rebecamicina ni ningún metabolito similar, aunque para este fin puede utilizarse cualquier otro actinomiceto en el que pueda replicarse el vector pKC505. Varias colonias de cada una de las transformaciones fueron cultivadas a 28oC durante 10 días en medio sólido R5A conteniendo 25 g/ml apramicina y 2,2% agar. El medio R5A es el medio R5 modificado descrito por Fernández et al. (J. Bacteriol. 180: 49294937, 1998). Estos cultivos fueron extraídos con acetona, y los correspondientes extractos fueron analizados mediante bioensayo y mediante HPLC, en busca de rebecamicina. Los bioensayos se realizaron siguiendo técnicas estándar de Microbiología, empleando la bacteria Microccocus luteus ATCC1024, la cual es sensible a rebecamicina. Los extractos obtenidos a partir de transformantes S. albus J1074/14E8 y S. albus J1074/17A12 inhibían el crecimiento de M. luteus, mientras que los extractos obtenidos a partir del control S. albus J1074/pKC505 no tenían ningún efecto aparente.

El análisis mediante HPLC se realizó empleando una columna de fase reversa (Symmetry C18, 4.6 x 250 mm, Waters), con acetonitrilo y 0.1% ácido trifluoroacético en agua como solventes. Se utilizó un gradiente lineal de 20 a 75% de acetonitrilo en 20 minutos, con un flujo de 1 ml/min. La detección y la caracterización espectral de los picos se realizaron con un detector de fotodiodos y software Millenium (Waters), extrayéndose cromatogramas bidimensionales a 316 nm. El análisis HPLC de los extractos de S. albus J1074/14E8 y S. albus J1074/17A12 mostró cromatogramas similares entre sí, con dos picos nuevos (Figura 2, B) no detectables en el extracto del control S. albus J1074/pKC505 (Figura 2, A). El pico mayoritario presentaba el mismo tiempo de retención que una muestra de rebecamicina pura (Figura 2, C) y mostraba el espectro de absorción característico de la rebecamicina. El pico minoritario, a pesar de tener diferente tiempo de retención, también presentaba un espectro de absorción similar al de rebecamicina. Este pico minoritario podría corresponder a un producto de degradación de rebecamicina, pues se observa a veces en cromatogramas de HPLC de muestras de rebecamicina pura.

El compuesto correspondiente al pico mayoritario fue purificado de la siguiente manera. Se emplearon esporas de S. albus J1074/14E8 para inocular medio TSB (caldo de soja tripticaseína, Oxoid) conteniendo 25 g/ml apramicina, y se incubaron a 30oC, 250 r.p.m., durante 24 horas. Este preinóculo fue usado para inocular (al 2.5%, v/v) ocho matraces Erlenmeyer de dos litros conteniendo 400 ml de medio R5A. Después de una incubación de 5 días a 30oC, 250 r.p.m., los cultivos fueron centrifugados (12000 rpm, 30 min). El compuesto de interés se encontraba mayoritariamente asociado al micelio, por lo que se descartó el sobrenadante. El micelio fue extraído con 400 ml de acetona, sometido a agitación durante 2 horas, centrifugado, y el extracto orgánico fue evaporado in vacuo. Este material fue redisuelto en 5 ml de una mezcla de DMSO y acetona (50:50). Este extracto fue sometido a cromatografía en un cartucho de compresión radial "Bondapak C18" (PrepPak Cartridge, 25 x 100 mm, Waters), empleándose una elución isocrática con acetonitrilo y agua (55:45) a 10 ml/min. El compuesto de interés fue recolectado a partir de varias inyecciones, secado in vacuo y finalmente liofilizado. Este compuesto fue analizado mediante espectrometría de masas MALDI-ToF utilizando un espectrómetro "Voyager-DE STR Biospectrometry Workstation". Como resultado se obtuvo un pico principal con una masa de 568 que corresponde con la de rebecamicina, y un pico secundario con una masa de 392 que corresponde con el aglicón de rebecamicina.

Los métodos de producción de rebecamicina obtenidos con la cepa S. albus J1074/14E8 fueron varias veces mayores que los observados en las mismas condiciones con la cepa natural Saccharothrix aerocolonigenes ATCC39243.

Ejemplo 4. Transferencia de la capacidad de resistencia a rebecamicina.

Es conocido que la rebecamicina posee actividad antibacteriana frente a algunas bacterias Gram-positivas (Bush et al. J. Antibiot. 40: 668-678, 1987), y que produce una inhibición débil del crecimiento en algunas especies de Streptomyces, entre ellas S. albus J1074. Por tanto los cósmidos 14E8 y 17A12, que conferían la capacidad de producir rebecamicina, debían también conferir resistencia a dicha molécula. Con el fin de comprobar este punto, se estudió el efecto de la rebecamicina añadida exógenamente sobre el crecimiento de S. albus J1074/14E8 y del control S. albus J1074/pKC505. Para ello se usaron esporas de estas dos cepas para inocular sendas placas con medio sólido Bennett (Kieser et al. Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000) conteniendo 25 g/ml apramicina. Sobre este medio ya inoculado, se colocaron discos absorbentes a los que se añadieron diferentes cantidades de rebecamicina disuelta en acetona. Tras dejar las placas a 4oC durante una hora para que la solución de rebecamicina difundiera en el medio, se incubaron a 28 oC durante 4 días. Así pudo comprobarse que, en las condiciones descritas, el crecimiento de la cepa control S. albus J1074/pKC505 era inhibido por cantidades de rebecamicina de 100 g o superiores. Sin embargo la cepa

S. albus J1074/14E8 era totalmente resistente a 100 y 200 g de rebecamicina.

Etapa 3. Determinación y análisis de la secuencia nucleotídica del agrupamiento de genes responsable de la biosíntesis de rebecamicina.

Ejemplo 5. Determinación y análisis de la secuencia nucleotídica del inserto del cósmido 14E8.

El cósmido 14E8 fue elegido para un estudio más detallado, y se determinó la secuencia nucleotídica completa de su inserto. La secuenciación se realizó sobre ADN molde de doble cadena en pUC18, empleando el método de terminación de la síntesis de ADN por didesoxinucleótidos y el sistema comercial "Cy5 AutoCycle Sequencing Kit" (Amersham Pharmacia Biotech). Se secuenciaron ambas hebras del ADN,

empleando un secuenciador de ADN automático "Alf-express" (Amersham Pharmacia Biotech). Para el análisis informático de la secuencia se empleó el paquete de programas GCG, del Genetics Computer Group de la Universidad de Wisconsin. La secuencia obtenida (SEQ ID NO:1) resultó ser de 25.681 nucleótidos. El análisis 5 informático de esta secuencia reveló la existencia de 16 marcos abiertos de lectura (ORFs) completos y dos incompletos (Figura 3). Los productos génicos deducidos de dichas ORFs fueron comparados con proteínas de función conocida presentes en las bases de datos empleando el programa BLAST. Esto nos permitió asignar funciones probables, de manera preliminar, a la mayoría de las ORFs, tal como se muestra en la

10 Tabla 1.

Tabla 1.

Gen: Posición Aminoácidos Función deducida Notas

orfD13: 1-136 44 SEQ ID NO:2

orfR5: 302-3313 compl 1003 proteína reguladora SEQ ID NO:3

orfR4: 3395-4027 compl 210 dipeptidasa SEQ ID NO:4

orfD1: 4402-5718 438 esterasa SEQ ID NO:5

orfR3: 5946-6347compl 133 SEQ ID NO:6

orfD2: 6581-7768 395 SEQ ID NO:7

orfR2: 7841-9106 compl 421 N-glucosiltransferasa SEQ ID NO:8

orfD3: 9316-10737 473 oxidasa de L-triptófano SEQ ID NO:9

orfD4: 10734-13775 1013 SEQ ID NO:10

orfD5: 13772-15361 529 monooxigenasa SEQ ID NO:11

orfD6: 15358-16551 397 citocromo P450 SEQ ID NO:12

orfD7: 16578-17399 273 metiltransferasa SEQ ID NO:13

orfD8: 17730-20501 923 proteína reguladora SEQ ID NO:14

orfD9: 20498-21010 170 reductasa de flavina SEQ ID NO:15

orfD10: 21007-22287 426 transportador de membrana SEQ ID NO:16

orfD11: 22271-23863 530 halogenasa de triptófano SEQ ID NO:17

orfR1: 23933-25354 compl 473 transportador de membrana SEQ ID NO:18

orfD12: 25439-25681 81 proteína reguladora SEQ ID NO:19

Etapa 4. Expresión de ciertos genes de dicho agrupamiento de genes en un organismo hospedador, para producir indolocarbazoles derivados de rebecamicina.

Ejemplo 6. Construcción de los plásmidos recombinantes pREB5, pREB6 y pREB7.

Con el fin de determinar la cantidad mínima de ADN necesaria para dirigir la biosíntesis de rebecamicina o de alguno de sus intermediarios, se construyeron tres nuevos plásmidos, denominados pREB5, pREB6 y pREB7, que contenían fragmentos del inserto presente en el cósmido 14E8 (Figura 4). Para ello se emplearon técnicas estándar de Biología Molecular descritas en Sambrook et al. (Molecular cloning: a laboratory manual. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, Nueva York, EE.UU, 1989).

El plásmido pREB5 fue construido mediante la inserción del fragmento de ADN comprendido entre los nucleótidos 7119 (BglII) y 17783 (EcoRI) de SEQ ID NO:1 en el vector pWHM3 (Kieser et al. Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000). El plásmido pREB6 fue construido mediante la inserción del fragmento de ADN comprendido entre los nucleótidos 8562 (BglII) y 17783 (EcoRI) de SEQ ID NO:1 en el vector pEM4 (Quirós et al. Mol. Microbiol. 28: 1177-1185, 1998). Por último, el plásmido pREB7 fue construido mediante la inserción del fragmento de ADN comprendido entre los nucleótidos 7119 (BglII) y 22241 (EcoRI) de SEQ ID NO:1 en el vector pWHM3 (Kieser et al. Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000).

Los tres plásmidos se replican en alto número de copias tanto en E. coli como en Streptomyces, debido a la elección de los vectores empleados para su construcción. En pREB5 y pREB7, la posible expresión de los genes incluidos se debería a sus propias secuencias promotoras y reguladoras naturales. Sin embargo, el plásmido pREB6 contiene el promotor del gen de resistencia a eritromicina (ermE) de Saccharopolyspora erythraea, el cual dirigiría la expresión constitutiva de los genes incluidos. La elección de otros vectores y/o la adición de determinadas secuencias promotoras o reguladoras permite la expresión de los genes mencionados en otros organismos.

Ejemplo 7. Producción de intermediarios de rebecamicina en Streptomyces albus debida a los plásmidos pREB5, pREB6 y pREB7.

Los plásmidos pREB5, pREB6 y pREB7, y el control pEM4, fueron introducidos separadamente en Streptomyces albus J1074 mediante transformación de protoplastos, tal como se describe en Kieser et al. (Practical Streptomyces genetics. The John Innes Foundation, Norwich, Gran Bretaña, 2000). De nuevo se eligió Streptomyces albus J1074 como cepa hospedadora, pero muchos otros actinomicetos podrían usarse debido al amplio rango de huésped de los vectores empleados para la construcción de pREB5, pREB6 y pREB7. Los transformantes fueron cultivados y se obtuvieron extractos que se analizaron por HPLC en las condiciones ya descritas en el Ejemplo 3.

Los extractos obtenidos de transformantes S. albus J1074/pREB5 no contenían aparentemente ningún indolocarbazol, siendo sus cromatogramas de HPLC esencialmente idénticos a los de los extractos del control S. albus J1074/pEM4 (Figura 5, A).

El análisis mediante HPLC de los extractos de transformantes S. albus J1074/pREB6 (Figura 5, B) reveló la presencia de un producto, al que denominamos RM62, que poseía un tiempo de elución diferente al de la rebecamicina (Figura 5, D). La comparación del espectro de absorción de RM62 (Figura 6, B) con el de rebecamicina (Figura 6, A) indica que RM62 es efectivamente un indolocarbazol derivado, o precursor, de rebecamicina. Este resultado indica que la ausencia de producción de indolocarbazoles en S. albus J1074/pREB5 se debe a una baja expresión de los genes incluidos, y que este defecto es solucionado en pREB6 por la presencia del promotor añadido del gen de resistencia a eritromicina.

El análisis mediante HPLC de los extractos de transformantes S. albus J1074/pREB7 (Figura 5, C) reveló la presencia de dos nuevos productos: RM761 (minoritario), y RM762. Tanto RM761 como RM762 poseían tiempos de elución diferentes al de rebecamicina (Figura 5, D), pero sus espectros de absorción (Figura 6, C-D) indican que son derivados, o precursores, de rebecamicina. La comparación de estos resultados con los obtenidos con pREB5 y pREB6, indica que el fragmento de ADN contenido en pREB7 contiene algún elemento regulador (probablemente orfD8) que estimula la expresión de los genes de biosíntesis del indolocarbazol.

La introducción en un determinado organismo de los genes biosintéticos de rebecamicina descritos en la presente invención puede ser utilizada para diversos fines, entre ellos:

(1): Si el organismo en cuestión no produce de forma natural ningún tipo de indolocarbazol, los genes biosintéticos de rebecamicina pueden ser utilizados en:

(a): La producción de rebecamicina, mediante el uso del agrupamiento génico completo.

(b): La producción de intermediarios biosintéticos de rebecamicina, mediante el uso de una parte del agrupamiento génico.

(c): La obtención de un organismo resistente a rebecamicina.

(2): Si a un organismo del apartado anterior (1) se le introducen además genes procedentes de otros organismos, se puede conseguir la producción de derivados de rebecamicina. Por ejemplo, si se introduce un gen que codifica un determinado enzima modificador de triptófano (p.ej. hidroxilasa) pueden obtenerse derivados de rebecamicina con modificaciones (p.ej. hidroxilaciones) en posiciones específicas del aglicón indolocarbazol. Otro ejemplo: si se introduce uno o varios genes implicados en biosíntesis de un determinado azúcar, es posible obtener derivados de rebecamicina que incorporen nuevos azúcares en lugar de 4-O-metil--D-glucosa.

(3): Si el organismo en cuestión produce de forma natural algún tipo de indolocarbazol (tales como estaurosporina, K-252a, UCN-01, J-104303, AT-2433, arciriaflavinas, arciriarrubina, arciriacianina, arciroxocina, arciriaverdina, etc.), los genes biosintéticos de rebecamicina pueden usarse para:

(a): La mejora de la producción de ese indolocarbazol, mediante el uso de un gen regulador tal como orfD8.

(b): La obtención de nuevos indolocarbazoles ("híbridos"), mediante el uso del agrupamiento génico de rebecamicina o de una parte del mismo. Por ejemplo, si se introduce el gen orfD11 (o los genes orfD9 y orfD11) que codifica una halogenasa de triptófano, pueden obtenerse nuevos indolocarbazoles halogenados. Otro ejemplo: si se introduce el gen orfR2 o el gen orfD7 (o ambos), pueden obtenerse nuevos indolocarbazoles con azúcares modificados.

(4): Si el organismo en cuestión produce de forma natural algún metabolito biosintetizado a partir de triptófano, aunque no de tipo indolocarbazol (tal como violaceína), los genes biosintéticos de rebecamicina pueden utilizarse para la

producción de nuevas variantes ("híbridas") de dicho metabolito, de forma análoga a la descrita en el apartado anterior (3b).

Descripción de las figuras

Figura 1. Estructura de la rebecamicina (A) y la estaurosporina (B).

Figura 2. Análisis por HPLC de:

(A): Un extracto de S. albus J1074/pKC505.

(B): Un extracto de S. albus J1074/14E8.

(C): Una muestra de rebecamicina pura. Figura 3. Mapa de restricción del inserto contenido en el cósmido 14E8, el cual incluye el agrupamiento de genes biosintéticos de rebecamicina.

Figura 4. Esquema de los insertos incluidos en los plásmidos pREB5, pREB6 y pREB7.

Figura 5. Análisis por HPLC de:

(A): Un extracto de S. albus J1074/pEM4.

(B): Un extracto de S. albus J1074/pREB6. El pico principal corresponde al producto RM62.

(C): Un extracto de S. albus J1074/pREB7. El pico principal corresponde al producto RM762. El pico minoritario, en torno al minuto 12.3, corresponde al producto RM761.

(D): Una muestra de rebecamicina pura.

Figura 6. Espectros de absorción de:

(A): Rebecamicina.

(B): Producto RM62, procedente de un extracto de S. albus J1074/pREB6.

(C): Producto RM761, procedente de un extracto de S. albus J1074/pREB7.

(D): Producto RM762, procedente de un extracto de S. albus J1074/pREB7.

SEQUENCE LISTING

<110> UNIVERSIDAD DE OVIEDO

<120> PROCEDIMIENTO DE OBTENCIÓN DE INDOLOCARBAZOLES MEDIANTE LA UTILIZACIÓN DE GENES BIOSINTÉTICOS DE

REBECAMICINA

<160> 21

<210> SEQ ID NO:1 :

<211> 25681 pares de bases

<212> ácido nucelico

<213> Saccharothrix aerocolonigenes

ATCC 39243

<400>

GATCTTCACG TACGCCGACC ACAACGGTCG GCATATTCGG TTCGGCGTGG ACTTCTATTG 60 CGGCGGCACG GCAAGTCTCG CCGAACCAGA AGTTAGCACG CGCCACGACG GCCGAACTCC 120 CATTTCCCGA GGTTAGGACG TAAGGAGTCC CACGAGGAGT TGACTGGCGG ACACGATTTC 180 ATCCGAACGG CACGTATCTG GCCTTTACCG GTGAGTTCTC GAGATTCCGT CCCGCCTGTG 240 GCAGGTTCTA CACCGGGCCC ATCGTCCACA GTGGAACGAG CGGCAGACCG TCCGCGCGGA 300 TCTACACCGG CAGTTCGGCG TACTCCGAAT ACTCCCGCGC CCCTCGCGCG CGGAACACCG 360 ACCGGGCGTG CGTGAATGCC GCGTCCGCCG CCTGCGTGTC ACCCCGGCTC CGGTGCAGCA 420 GCGCGAGGTC GTATTCCGTG CGCGCCCGCC ACAGCGGTGC CTCCGTGGCG TCCCAGATCG 480 ACATCGCCGC GTCGAGACAG TCCTGCGCGA GGTCCAGCCG TCCCTCTGCC AGGTGCAACT 540 GTCCGAGCAC GCGCAGGGTG ATGGCCTGGC CCCAGCGGTC GTCCTTGGCG CGCACGGTGG 600 CGAGCGCCAT TTCGAGCCGG GGCAACGCCT CCGCGCTGTG GCCCGATCGC ATCTGCGCCT 660 TGGCGTGTGC CCGCACGGCG TAGGAGTGCA TGAGGTCGTC GCCGAGTTCG GCGAAGATCG 720 TGGCGGCGTC GGCGCACACG GCCATGGACG TCTCGTAGTC GCCACGCGCC CGGTGGTAGA 780 GACCCAGGCT GCGCAACGAC AGTGCGATCC CACGTCTGCT GCCGGCCCGC CGGTACGCGG 840 CCAGTGACTG CTCCAGGTCC GTCCTCGCCT CGTCGTACTC GCCCAGTTCC AGGCGGACCG 900 AACCCCTGAT CCGCAGCACG TGCCCGATGC CCACCTGATC GTCGAGCGCC TGGGACAGGG 960 TGGCCGCCTG GCTCAGGAAG TGCACAGCCT CGGTCAGGTG CCCGGGTTCG CGGCACGCGA 1020 GGCCCATCCC GGCGAGTGCG GCGGCCTGGC CCCGCACGTC GTGCAGGTCG CGGTAGCGGC 1080 CCAGCGCCTC GCCGAAGAGC TGGCGGGCCT CGGCGAAGCG GTCCTGGGAG AACCGCAGGC 1140 GCGCGAGTTT GGCCAGCACG TCCGCGGCGA GGCCGGGGTC GCCGACGTGC TGGACCGACG 1200 TCATCGCCAC GCCGATGATC CGGTCGCGGA GGTCGTAGGA GTTGGTCACC TGCTCGATCG 1260 CGGTGTGGGC CGAGACGAAG TCGCACACGT GCCGGTGCAG GCCGGTGGCG GCGGCGCGTT 1320 CGACCGCCAC CGCGAGCGCC GGTTCCTCAC CCCGCAGCCA GGCGTCGAGG TCGTCGGACA 1380 GCCGTTCGGC CATGGCGGTG ACACCGTCGG GTTCCCGGTG CCCGGCGGCC GGACGCCAGG 1440 TGGACTCGGC CGGAGGGCTG TTCACGGCCG TGCGGCTCAG CAGGGCGATC CAGCCGTCCA 1500 GGACGCGGGC GATCGACGCG GTCAGCTCGT CGGGCTCGTC GGCCTCCGCT CGTTCGCGGG 1560 CGTAGAGCCG GACCAGGTCG TGCAGCCGGT AGCGCAGGAC TCCCGCCGCG TCGGCGCCGG 1620 ACAACGTGGC CAGTTGCGCG TCGACGAGCA CCTCCAGGAC CTTCTCCGCG TCCGCCTCGG 1680 ACGTCTCGAG CAGCCAGCTC ACCACCCAGG TGGAGAAGTC GGGCAGGCCG AGGTGTCCCA 1740 TCCGGCCCAG TGCCGTGCGG GCCTGGTCGT CGAGTGCCCG GCAGCTCAAC GCGATGCTGC 1800 TGCGCACGGC CAGGTCGCCC GCGGAGAGTT CGTTGAGACG GCGGCGTTCG TCGGTCAGGC 1860 GGTCGGCGAG GACCCGCAGC GGCAACTGCC GCCGTGAGGC CAGGCGGGCG CCGGCGATCC 1920 GCAACGCGAG CGGCAGGCGT CCGCACGCGT CGACGATCCG GTGCGCCGAG TCCACGTTCT 1980 CCGCGAGCCG CGCCTCGCCG ACGATCCGCG CGAGCATGTC GTACGCCTCG CCGGGCGTCA 2040 CGAGGTCCAG TTCGGTGAAC AGCGCCCCGG CCAGTCCCGC GAGGCGGTCG CGCGACGAGA 2100 TGAGCACGGC ACAACCGGCG GCGCCCGGCA GCAGGGGCCG CACCTGTTCC TCGGACGCGG 2160 CGTCGTCGAG CACGACGAGC ACCCGGCGAC CGGCGAGCGA CGTCCGGTAG AGCTCCTGGC 2220 GTTCCTGCGC CGACTCGGGC AACTGGCCGG GATCCATCCC GAGCGCGGTC AGGAACCTGC 2280 CCAGTACCTC GCCCGCGGTC GCGGGCAGGC CGCTCGTGCC GCGGAGTTCG GCGTAGAGCT 2340

GGCCGTCGGG GAACGACCGG GCCGCCTCGT GCGCGGCGCG GACGGTCAGC GCGGACTTCC 2400 CGCACCCTCC CGGTCCCGCC ACGATCTGCA CGGCGGAGGT CTCCCCGCAC AGCGCGGCGA 2460 CGAGTTCCCC CAGTTCCCGC ACCCGGCCGG TGAAGTCGGC GAGCGTCGCG GGCAACTGCG 2520 CGGGCACCGC CGCGAACGCC GTGCGGGCGA CCGGTGCCGC GTCCGCCGGA ACCAGCTCCA 2580 GGGTGCCGCG CAGGATGGCC GAGTGGATCG TGCCGAGCTC GGCTCCGGGT TCCACGCCGA 2640 GTTCGTCGAC GAGCGCGTCC CGGCCCTCCC GGTAGCAGGC GAGCGCGTCG GCCTGCCGTC 2700 CCAGCCGGTA CAGCGTCACC ATGAGCTGCC CGCGCAACCG TTCGTTCACC GGCTGCCGGG 2760 CCACCGCGGC GGTCAGCTCG GCGAGGTGGT CGAACCGGCC GAGGCCCAGC TCCGCCGCGA 2820 AGCGTTCCTC CTGAACGGTC ACCAGCAGTT CGTCGAGCCG CCGCGCCTCA CCGCTCAGCA 2880 GCGTGTCCCG CAGGCCGGAC AGCGCGGGAC CGCGCGACAG CGCGACCGCC TCCCCGAGCA 2940 GCCGCGCCGC CGGTTCATGA CCGTGAACCT GGCTCTGCTG CCGGGCTTTG CCGAGCAGAC 3000 CGGCGAGTTC GTCGGCGTCC ACGCGGGCGT CGTCGAGGCG GACCAGGTAG CCCTGTGTCT 3060 TCGACACGAT CACGTCGGGG GCACCGAGGT CGGCGAAGGC CTTGCGCAGC TTGGAAACGT 3120 ACGTCTGGAT GAGCGACCGG GCACTGACGG GCGGTTCCTC ACCCCACAGC AGCTCCACAA 3180 GGCGGTTCGC CGGCACCACC CGGCCGCGTT CCAGCACCAG CGCGGCCAGC AGCACCTGTG 3240 GCTTCAGGCC GCCGAGCGGT ACGGATCTGC CTTCCACCAG GGCTTCGACC GGACCGAGTA 3300 AGCGGAACTC CAGCAAGTTG TGACCTCCCC CGTGTCACCG GTGCAAGTAG ATCACACCGG 3360 CCGAGGGGGC GGGGTTCCCG AAATGGTGGA TACATCAGGG AAGAATGGGT CCGTAGACGG 3420 CTTGGGACGA TCCCGTCAGG TACGCCCAGT ACCGATCGCC GTAGGACCAG TGCCACCACG 3480 CGCTCGGGTA GTTGACCAGT CCGGCGCCGC GCAACGCCCG CGCGAGAACG GCGCGGTGGC 3540 GGCGCGCCGT GGCGTCCACC GTCGGATCCT CGGTGTGGGA CCGCTCCGTC GCGGTGTCGT 3600 TGACCGCGGT GCCCAGATCG AGCTCGATCT CGTCCACCGT GCACAGGCTC AGGTCCACCG 3660 CGGCACCGGC GACGTGCGGT GCCACCTCCG GCGGGGAGCT GCGCACGCTC GCCCTCCGTC 3720 GCAGCACCGA CTCGGCGGCC CGCGGTGAGC GCGCACGGGA CTCCGCGACG GCCGACTCGA 3780 ACGACGCGAT CTGCACCGCG TGCGGCCGGT ACCCCTCGAC GATCAGCAAC CTCAGTTCGG 3840 GCGGCAGCAA CGTCTGCGCG GTGACCAGCC GATCCACCAC ACCGATCCGC AGCTGCGCGT 3900 ACAGCCCCTC CTCGTCGGCA AGCCGGCTGT CGAGCCGCAG GGCGGCAACA GTGCGCAGGT 3960 CGACCAGGGG CTCGCCGCGC TCGCGCACCG GGATCGCCGC CACAGCGGGA TCCGACAGCC 4020 ACACCATCTC CAACGCCTCC TCCTGGTCCA CCGTTCTGAA CACGCGGTCG CACGACGGTG 4080 CAGGCACGTA CTGGAATTTT TCTTTAACGC CACGTACGTC CGTCCGGACG CAGCCGGTGC 4140 GTCCGGTGGC GCGCGCCTTG CGGCACAACG TCTCGTGCAC GCCTCCTGGT CTGCGGTTAA 4200 AGGTTTCGTG GACCGTCCTG AAACCCCTCC TGGCGAACGT TGGATCCATC ACCGGCCGGA 4260 CACACCGACC GGATCCCGCA CCAGAACCGA GGAGAACCCG TGTTCCGCTC AGGAATCAGC 4320 CGCACCGGCA CCGAGTCCAA GTCCGTCGGC ACCGGCCTGC GCAAGACCAC CCGCACCCTG 4380 CTGTCCGCGG CGCTGGCCGT GATGGCCGGC ACCGTCCTGA TGGCACCGCC CGCCAGCGCC 4440 GCCCCGTCGA GAGACCGCAT CGTCAAGGCC GCCGCCGACG AGGTCGGCGA GGGCGCCTGC 4500 TCGCCCGGTT ACTTCAACAG CTGCGGCATG GCGTGGTGCG CGGAGTTCGC TCGCTGGGTG 4560 TGGAACGAGG GCGGCGTCTC GGATCTCAAG GGCCTCGACG GCTGGGCGCA GTCGTTCAAG 4620 TCCTACGGCA TGAAGAACGG GACGTACCAC TCACGGTCCA GTGGGTACAA GCCGCAACCC 4680 GGCGACGCCA TCGTGTTCGA CTGGGACCAC AGGTCCGGTG ACGACCATCC GATCGACCAC 4740 GTGGCCATCG TGATCAGCTC CTCCTCCGGC ACGGTCAACA CCATCGGTGG CAACCAGGGC 4800 GACCCGGGCC GGGTCCGGCG GTCGAGCTAC CAGCGCTCGA ACGGCGACAT CGACGGCTAC 4860 ATCTCCCCCG TGGGCGTCGG CGACGGCGGT GGCGGTGGCG GTGGCGAGGA GAAGCCGAGT 4920 GTCAACCACA GCGTCACCGG CGACTCGTTC ACGGACCTGG TGGGCCGCAA GCCCGATGGC 4980 ACCATCTGGG CGTACAACAA CAACATCCTC CGCGACAACG GCGTCCCGTA CAGCGTCGGC 5040 CGCGAGATCG GCCACGGCTG GAACGCCTTC GACACCGTCC TGACCGCGGA CGTGACCGGC 5100 GACGGCTACA CGGACCTGGT GGCACGCAAG CCCGACGGCA CGTTGTGGCT GTACGCCAAC 5160 GACACCAAGA ACGACGGCCT GCCCTACAGC TCCGGCCGCC AGATCGGCAC GAGCTGGAAC 5220 ATCTTCGACA CCATCGTCGC CGCCGACCTG ACCGGTGACG GCTTCGCCGA GCTCGTCGGA 5280 CGCAAGCCCG ACGGCACGCT CTGGATGTAC GCCAACAACA TCCTCCGCGA CAACGGCAAG 5340 CCCTACAGCG CCAGCCGCGA GATCGGGCAC GGCTGGAACG TGTTCGACAC GCTGATCGCG 5400 GCCGACGTGA CCGGTGACGG CTTCGCGGAG ATGGTGGCAC GCAAGGCAGA CGGGACGTTG 5460 TGGATGTACG CCAACAACAT CCTGCGCGAC AACGGCATGC CGTACAGCTC GGGCCGTCAG 5520 ATCGGCAACG GCTGGAACAT CTTCGACACG ATCATCGGTG CGAACGTGAC AGGTGACGGC 5580 TTCGCCGACC TCGTCGGACG CAAGGCCGAC GGCACGATCC TGCTGTACTC CAACAACATC 5640 CTCCGCGACA ACGGCCAGCC GTACAGCACC GGCCGCCAGA TCGGGACCAG CTGGAACATC 5700 TTCGACATCA TCATGTGACG CGATTTCCCC GAAGGCGCGC CCGGCGGTTG CCGGGCGCGC 5760 CTCGGCGTGT GCTCACCAGG TGACGCATCG GTGTTCTGCG CGACCCGATC TTCACTCGCC 5820 TTCGGGTTCA GGCTCGGGCG CGCGGCGGGC AGGACGTACC GGGGCGCACC CTCGGCGAGC 5880 TCGGCACCGA GACCACAGGA CCACTGCCAG AAGGACCGCG GGAGGACATC GGCGTCCACC 5940 CGCGGTCAAC CGAGCAGCCG GGAGAGCTTC ATCGGCGCGA GCTTTCGGTA GCTCTCGGTC 6000 AGCAGCTCGC CGATCTCGGC CCAGTCGGCG TCCGGCTCGA CGATCATGCC CACGACATCG 6060 AACCCCCACG CCGCGCGGAA GAACGGGTGG CCGCTGTTGA CCAGCGCCTC GAAGTCCTCC 6120 TGCTGAGCAC GGAAAGTCAT CACCACAGCC GGTTCGGTGA GTTCCGCCGC GCGGCTGAAC 6180 GTCCCCGTCG CGCCTGGCTG CGCCGTGAAC ACGTGCAAGA TCGTGCGTTG CCGGATGCGC 6240

CACCGGGTTC CCACCCAGGC CGGCTCCTCG TAGCTCTCCG GCAGGCCGGC ACAGATCCTG 6300 CGCAGTGACT CCAGCACGGC AGACGGCACG TCGGCGCGAT CGGTCATGGT TGCCTCCCTC 6360 ACGGAACGCT AGATCGTTTC CGCGAGCCGG ACCAGTCCCA CTGGCTCGAC GACCACGCGG 6420 ACGACTCCGT CGAGGCCACT CCGTCGATCC GCGGTGAGGC GTTCGATCTG GCCGGATCCA 6480 GAGCGCGACG ACTCGCTCAG CGCTTCCCCC CTGCCGCCAT ACTCGAGCCT ACGAGGCAGC 6540 GCCGTCGAGC TGATCCACGG TGCGAGCAGG AAGGATTTCG ATGGGGATCT CACTCAACGC 6600 CGCCAGCGTT CTCCCGCAGG ACGCGGCGGA CGCCACACTC GTCGCGAGGG TCTTCGACCC 6660 GTCCGCCGGC GGCCCTTCGG TCGTGACGGT CCGTGGCGAG GAGGTCGTCG ACCTGTCGGC 6720 CCTGGCGTCG ACCGTGTCGT CGTTGCTCGA GCGGCCGGAC GCGCTGGAGA TCGTGAGGAA 6780 TCACCCGGGC GGCACGTCGT GGCCGCTCGC GGACGTTCTG GCTGCCACGA CGAACGCGGC 6840 CGACGGTGTG CCCCGGTTCC TGGCACCGGT CGACCTGCAG GTGCTCAAGG CCGCCGGCGT 6900 GACCTTCGTG CGCAGCATGC TCGAACGGGT CATCGAGGAG CGCGCCGACG GGGATCCCAC 6960 GCGGGCCGAG GAGGTTCGCG AGAAGGTGGG CGCGATCGTC CAGGGCCACA TCTCCCACCT 7020 GAAGCCGGGG TCCGCGGAGG CCGCGGAGGT GAAGAGGGTT CTGCAGGCCG AGGGCCTGTG 7080 GTCGCAGTAC CTCGAGGTCG GCATCGGCCC GGACCCCGAG ATCTTCACCA AGGCCCCGGT 7140 GCTCTCGGCG GTGGGCCTGG GCGCCGACAT CGGCGTTCTC GCCCGCTCGG CCTGGAACAA 7200 CCCCGAGCCC GAGCTCGTCC TGGTGGTGGA CTCGCGCGGA AACCCGGTCG GCGCGACGCT 7260 CGGCAACGAC GTCAACCTGC GCGACTTCGA GGGCCGCAGC GCTCTCCTGC TCACCGAGGC 7320 GAAGGACAAC AACGCCTCCT GCGCCATCGG ACCGTTTCTC CGGCTGTTCG ACGACGGTTT 7380 CACCCTCGCG GACGCCAAAG CCACCGAGAT CGCCCTGGAC ATCACCGGCC CCGACGGTTT 7440 CGAGCTGCAC GGCGTGAACC CGGTCTCCGA GATCAGCCGG GAGCTCGAGG ACCTCGTGTC 7500 CCACGCCTTC GGCGCCCACC ACCGCTATCC CGACGGCTTC GTGCTGTTCA CCGGCACGAT 7560 GTTCGCTCCG ACCGAGGACC GGGACCAGCC CGGCGAAGGG TTCACCCACA AGATCGGGGA 7620 CGTCGTTCGC ATCTCCTCGC CCCGACTGGG CACGTTGACG AACGTCGTGA ACACCGCCGA 7680 GGACACCGAA GACTGGACGT TCGGCATCAC CGCGCTGATG GAGAACCTCG CCGCCCGCAG 7740 CCTGCTGGGC CCGCGCACGC GCTCGTGACC CAAGGTCGTC GTCACCGATC CAGCCGAGGT 7800 GACCGGGGGC AGGAGACGCA AGGTGGTACG AGCGAGGAGT TCAGACGAGG CCCTCGATCA 7860 GGTCGACGGC GTCCACGACC GCGTCGCGCG CCGCGTACTC GTCCCGCAGC CGCGCCGCGT 7920 GGACCCGGAA GCGCGGCTCG TCGAGAACGG CGCGCACGGC CCGTCTGATG TCCCGTTCGG 7980 ACAGCCTGCG CTTCTTCAGG TGAACACCCG CACCTGACCA GCTCACTCTG GCCGCGACCT 8040 CGTGCTTCTC CTCGGTGGCG GCGGCGACGA CCAGCGGCAC GCCGTGTGCG AGCGCCGTGT 8100 TGACGCCGCC GTATCCCCCG TTGGTCACCA TGGCGTCCAC GTGGGGAAGC AATGCGTGAT 8160 GCGGGATGAA CCGTTCCACC CGCACGTTGG CCGGCATCGG CTCCAGTTCC AGAGGGGCAC 8220 CGGTGGTCGC GACCACGAGC ACGTCTTCGG CTGCCAGCGC TCGGATGGCG GGGAGCAGCA 8280 GGCGTTCCGC GTCGTTGGCG ACGGTGCCCT GGGTGACGTG GACGACGGGC CGGCCGGAGT 8340 CGAGCTCGCC CCACCACGCC GGTGGGGTGA AGTCCGGCGG AGCAGGGCTC ACGAACGGGC 8400 CGACGAACCT CACCTCGGGT GGCATGTCGC CTCGCGGGTA CTCGAAGGAC GGCACGGTGC 8460 CCAGCAGGTA GAGGTCGGGC GTGCGCATGA TGTTCTCGAA CGCCCCCTTG CGGATGCGGG 8520 GCAGGCCGAC GCGGTCGCGC ACCACGTCCG CGTGCCGCCG GAGATCTCGC ATGACGACAC 8580 GGTCTGTCAG CTGTTTGAGC ACGGTGTTGC GCAGCCTGCC CAGCCTGGAG CTGCTGGGCG 8640 GCAGGCCCAG CCCGAGCGGT GCCGTGTCGC GGCTGCTGAA GACGTAGATC GACGTGGCGA 8700 TCCAGGCGAC GGGGATTCCC GTGCGCTCAC TGACGAAACC CGCGCCGAAG AAGGTCTCGT 8760 CGGTCACGAG CACGTCGGCC GGGAAGTCCT CCAGCAGTGC CAGCAGGTCT GTCATCTGGT 8820 CGGCCGCGGG TTCGATGAAG ATGTCCCTGA ACCCCGCGAT CATCCCCGTG ATCCCGGTCA 8880 GCCCCGCGTG CTGGGGAAAC GCCTCCTCCC TCGGCATGCC GCCGAAGTCG TGGGCGTCGC 8940 GCATCGGCTC GTGGCGGGCT CCTGTTCGTT CCACTGTGGA GCGGAACGCC TTTCCCGTGT 9000 ACCACCGCAC CTCGTGTCCA CGGCTGACCA TCTCCTGGGC GACCGGCACC ATCGGGTTGA 9060 CGTGCCCGTC CCCCGGTGTG GTCGCCACCA GCACTCGTGC CCCCATGCCG TCCGACGGTA 9120 GCCACCATTC CCGCCGCGGC ACGGCAGTCG CGGGCAAAAC CCCCTCGACC ACGCGGGGTC 9180 AGGCGGGTCG GAAAGGTCGC TGGACCACCG GGGAAGAGGC TGGGAACCGC TCGGGGCGAG 9240 CCTGTTCGCG TGATGTGCGG GCAGCGGTCA CGCCAGGAGC ATGGACGGGC GAAGCGACGT 9300 CGAACTGGGG GCGGGATGTC ACGCGGACAC AAGAAGATCA CTGTTCTGGG CGCCGGTGTG 9360 GCAGGTCTGG TGGCCGCGCA CGAGCTCGAG GAGCTCGGGC ACGAGGTCGA GGTGCTCGAA 9420 GGCAGCGACA GGCTCGGCGG CCGGGTGCAC ACGCACAGGT TCGGTGAGGG CGGCTCCGTG 9480 CCGTTCGTCG AGCTGGGCGC CATGCGCATT CCGACCAAGC ACCGCCACAC CATCGACTAC 9540 ATCGGCAAGC TCGGCCTGAC TCCGAAGCTG AAGGAGTTCA AGACGCTGTT CTCCGATGAC 9600 GGCGCCTACC ACACCACCAG TGCGGGATTC GTGCGCGTGC GCGACGCGGC CAAGGTGCTC 9660 GTGGACGAGT TCAGGCTGCT GATGTCCGGC CGTGACCTGC GCGAGGAGAC CATCCTGTTC 9720 GGCGCCTGGC TCACCGCCGT CGGCGACGCG ATCGCGCCCG CCGACTTCCG GGCCGCGCTG 9780 CGCACCGACT TCACCGCCGA CCTGCTCGAG GTCGTCGACC GCATCGACCT CGACCCGTTC 9840 CTGGTCGGTG CGGCCCGTGA CCAGTTCGAC CTGCACGCGT TCTTCGCGGC GCACCCGGAG 9900 GTGCGCACGA GCTGCACCGG CAAGCTCAAC AGGTTCGTCG ACGACATCCT CGACGAGACC 9960 AGCCCGCGGC TGCTGCGACT CGAAGGCGGC ATGGACCAGC TGGTCGACGC GCTTGTGGAA 10020 CGGATCAGGG GCGACATCCG CACGGGGCAC GAGGTGAGTG CGATCGACGT CCGGGAGGAC 10080 CACGTCGCGG TGACCGTCCA CAACGGACAT GGGGTGAACA CGCTGCGGTC CGATCACGTG 10140

CTCTGCACGA TCCCGTTCTC CGTGCTGCGC AACCTCCGGC TCACCGGTCT CAGCACGGAC 10200 AAGCTGGAGA TCATCCACGA CGTCAAGTAC TGGTCGGCGA CCAAGGTCGC GTTCCGCTGC 10260 CGTGAGCCGT TCTGGGAGCG GGACGGCATC AACGGCGGCG CGTCGTTCGG CGGGGGCAGG 10320 ATCAGGCAGA CCTACTACCC ACCGGTGGAA GGCGACCCGA CCAGGGGCGC TGTGCTGCTC 10380 GCGAGCTACA CCATGGGCGA CGACGCCGAC GTGCTGGGCG GGATGCCCGA GGCGCAACGG 10440 CACGAAGTCG TGCTGGACGA GGTCGGTCGC ATGCACCCCG AACTGCACGA GCCGGGCATG 10500 GTCGTCGAGG CCGTGAGCAG GGCATGGGGC GAGGACCGCT GGAGCAACGG TGCCGGCGTC 10560 ACGCGGTGGG GCAAGGACGT CGCCGCGTGC GAGGAGGAAC GCGATCGCGC CGCACGGCCC 10620 GAGGGCAGGC TGTACTTCGC GGGTGAACAC TGCTCGTCGA CGACGGCGTG GATCGACGGT 10680 GCCGTCGAGT CGGCGCTGGC CGCCGTGCGC GCGATCGAGG CGGGCGACGG ACGATGAGCG 10740 TCTTCGACCT GCCGCGCCTG CACTTCGCCG GGACGGCGAC GACGAGGCTG CCGACGGGGC 10800 CGCGCAACGG GCTGGTGGAC CTCAGCACCC ACTCCGTCGT CATGGACGGC GAGCGGTTCC 10860 CCGCGTCACG GCCCGCCGCC GAGTACCACG CCTACCTCGA CCGCGTCGGA GGCAAGGGCA 10920 CGGCGTTCGC CGGCAACGGG TACTTCGCGA TCGACGCCGG GATCACCGCC GTCGAGCGGG 10980 CAGCGGGCGA GGTGGACACC GGCGACCTCC TGGTAGGCCG GGCGGTGGAC GTGTGGGGCC 11040 ACTACAACGA GTACCTCGCC ACGACGTTCA ACCGGGCGCG GATCTTCGAC GTGGACCCGT 11100 CGTCGAGCTG GACCTCGACG GTCATGATCG GCCAGTTCGG ATTCGGCAGG CTCGGCCGCT 11160 CCCACGACGT CGGGTACGTG TTCACCGGTG GGGTGCACGG GATGCAACCT CCGCGCTGGC 11220 ACGAGGACGG CAGGGTCCTG CACCAGTTCA CCGTGCCCGC CGGCGAGGAC ATGACCTGGT 11280 TCGGCAGCGC GGCCGATTCC CCTGCCGCCG CACGACTCCG CGAGCTCGTC GAGTCGGGTG 11340 AGGCCGACGG GCTCGTGGTC CAGCTGGCCC TCTCCGACGC GGGTCCCGCT CCGATGCCCC 11400 ACGCCCAGCA GTGGCGGCTG CGCGGCACGA TCGCACCGTG GCACGCCGGC GAGCCGCGGA 11460 CCTGTCCCGC GGGAAGGTTG CTGACACCGC ACAACCTCAC CGCCGATCTG CGCGGCGACC 11520 ACGTCTCGCT GAACCTGATC TCGTTCCGCC CGCCCACCGG GATCAGCGGT CTCGAACTGC 11580 GCACCGCGGA CACAGACAGG TTCATCGCGC GAGTACCCGC CGACGACCCG CACGGCGTGG 11640 TCACCGTGCC GGCGGCGGAA GGCGGCGACG AGGCGTTGTG CGTCGTCGGC ACCACCGCCG 11700 CCGGCGAGCG GATCGTGGTG TCCCGCGAGC GGGAGGTCAC GGTTCACGTC GACGACGCGA 11760 GTGTGTTCCT CGAACACCCC CGCGGCCCTG GGGACAGCGA CCAGGACGCC GAGATCGCGG 11820 TTCGCACGTA CGTCCGCGGA GAGCCCGCCG CCGCGACCAT CCACATAGGA CAGTACTTCA 11880 ACCCGCGGGC GTTCCCGCTC GACGAGCATG CCACCGCCGC CTCGGCGACG CCGGAGGACC 11940 TCGACGTCGT CGCGCTCTGC GTCGACGGCA CGCGGTGGTC ACGACACTGC GTGATCAGCA 12000 CCGACGAGAA CGGCGACGGC CGGTTTCTGC TGCGCGGCGC CAGGCCGGGG GCGACACGTC 12060 TGCTGCTCTC CGCGGAAGGG GCGACGCCGT TCGACGGGCT CACGGCTGCC GCGGCCTACG 12120 ACAACGACGA CTCGCTGGGC TTGTGGTCAG GGCTCGCGTC GGTTGCCGTG AGAGTGCTGC 12180 CCGACCACTG GTGGATGGAC GACATACCGC GCGACAAAGT CACCTTCGAC CTGCTCTACC 12240 GCGAGGTCTT CGCGTTCTAC GAACTGCTCT ACTCGTTCAT GGGCGAGGAG GTGTTCAGCC 12300 TCGCCGACAG GTTCCGCGTC GAGACACATC CCCGGCTCAT CTGGCAGATG TGCGACCCGC 12360 GCAACCGCGC GAAGACCTAC TACATGCCGC CGACACGCGA CCTGACAGGT CCGCAGGCGA 12420 GGTTGCTGCT CGCCTACCTG CGCGCGCAGA ACAGCGACGT CGTCGTGCCC GTGATCGAAC 12480 CGTCGCACAC GCGGTCCGGC ACGCCGATCA GCACCCGCAC CGACCTCGTC CGCGCCCTGC 12540 GGCACGGTGT GGCGATCGAA CTGGCCGTGA TGCTGCAGTA CCTGTACGCG GCGTTCTCGA 12600 TCCCCACCCA CGGGGCAGGG CAGGAGCTCG TCAGCCGCGG TGACTGGACC CCCGAGCAGT 12660 TGCGGCTGAT GTGCGGCGAC GGCGGCGAGA CGACCGACGG CGGCGTGCGG GGCAGCCTGC 12720 TGGGGGTCGC CCGCGAGGAG ATGATCCATT TCCTGGTGGT CAACAACGTT CTCATGGCCG 12780 TCGGTGAGCC CTTCCACGTG CCCGACCTCG ACTTCGGCAC GATCAACGAC ACCCTGATGG 12840 TGCCGCTGGA CTTCTCGCTG GAGGCGCTCG GGCTCGGCAG CGTGCAGCGG TTCATCCAGA 12900 TCGAACAACC GGAGGGGCTG ACCGGCGCCG TGCGGCTGGG TGACCTGCCC GTGCCCGTCC 12960 GGGAAGCAGA GGACTTCCAC TACGCCTCGC TGAGTGAGCT GTACGGCGAC ATCCGCGAAG 13020 GACTGCAACG CGTTCCCGGG CTGTTCCTCG TCGAACGGGG CCGTGGCGGT GGCGAGCACC 13080 ACCTGTTCCT GCGCGAGTCG GTCAACGCCG TTCATCCCGA CTACCAGCTG GAGGTCGACG 13140 ACCTGTCCAG TGCGCTGTTC GCGATCGACT TCGTCACCGA ACAGGGCGAG GGGCACGTGC 13200 TGACGGACGA GGACACCGGG GAGGAGTCGC ACTACGACAC CTTCGTCCGC GTCGCCGACC 13260 TGTTGATGAA GGAACGCCTC ACCGCCGCGG ACACGAGAAG GGCCCAGTGG AGTCCCGCCT 13320 ACCCGGTGGC GCGCAACCCG ACGGTGCACG GGGGCGGGCA GTCCAAGGAG CTGGTGACGA 13380 GTCCTGTCGC CAGGGAACTC ATGGTCCTGT TCAACAAGTC CTACTTCATG ATGCTGCAAC 13440 TGATGGTGCA GCACTTCGGT GGCAGTCCCG ACGCCAGCCT GCGCCGCTCG AAGCTCATGA 13500 ACGCGGCCAT CGACGTGATG ACGGGAGTCA TGCGCCCGCT GGCGGAACTG CTCGTCACCG 13560 TGCCGTCCGG GCGGCACGGG CGCACCGCAG GCCCGTCGTT CGAGCTCGAC GAGAAGCCGG 13620 CGTTCATCCC CCGTGCGGAC GTGGCGCGCC GCGCGATCTC GCTGCGCTTC CGGCACCTGG 13680 CCGAGTCCGC ACGCACATGC GCGCTGGTGC CGGACAAGGT CGTCCGCAAC CTGGATTTCC 13740 TCGCCGACCA GTTCGCAACG GAAGGACCGC GATGAACGCG CCCATCGAAA CAGACGTGCT 13800 GATCCTGGGC GGAGGTCCGG TGGGCATGGC GCTGGCGCTC GACCTCGCCC ATCGCCAGGT 13860 CGGCCACCTC GTCGTGGAGC AGACCGACGG TACGATCACC CACCCGCGGG TCGGCACCAT 13920 CGGCCCGCGG TCCATGGAAC TCTTCCGGCG CTGGGGTGTC GCGAAGCAGA TCCGCACCGC 13980 CGGGTGGCCC GGCGACCATC CGCTCGACGC CGCGTGGGTG ACGAGGGTGG GCGGCCACGA 14040

GGTGTACAGA ATCCCGCTCG GCACCGCGGA CACCAGGGCG ACACCCGAGC ACACACCAGA 14100 ACCCGACGCG ATCTGCCCGC AGCACTGGCT CGCACCCCTG CTGGCGGAGG CCGTCGGCGA 14160 GAGGCTGCGC ACCCGCTCGC GGCTGGACTC CTTCGAGCAG CGCGACGACC ACGTCCGCGC 14220 CACGATCACC GACCTCCGCA CGGGTGCCAC CCGTGCCGTG CACGCCAGGT ATCTGGTGGC 14280 GTGTGACGGC GCCTCCTCCC CCACCCGCAA GGCCCTCGGC ATCGACGCGC CACCGAGGCA 14340 CAGGACGCAG GTGTTCCGCA ACATCCTGTT CCGCGCCCCC GAACTGCGTT CGCTCCTCGG 14400 CGAGCGCGCC GCGTTGTTCT TCTTCCTGAT GCTGTCCTCG TCGCTGCGCT TCCCCTTGCG 14460 CGCGCTGGAC GGCCGCGGCC TGTACAGGCT CACGGTCGGG GTCGACGACG CATCGAAGTC 14520 CACAATGGAC TCATTCGAGC TGGTCCGCCG GGCCGTCGCC TTCGACACGG AGATCGAGGT 14580 GCTCTCCGAC AGCGAGTGGC ACCTCACCCA CCGGGTGGCC GACAGCTTCT CCGCCGGCCG 14640 GGTCTTCCTG ACCGGGGACG CGGCCCACAC GCTCTCGCCG TCCGGCGGCT TCGGCATGAA 14700 CACGGGCATC GGCAGCGCGG CGGATCTCGG CTGGAAGCTC GCCGCGACGC TGCGTGGGTG 14760 GGCAGGGCCC GGCCTGCTCG CCACCTATGA GGAAGAACGC CGCCCTGTCG CGATCACGAG 14820 CCTGGAAGAG GCCAACGTCA ACCTCCGCCG CACCATGGAC CGGGAACTGC CGCCGGGACT 14880 GCACGACGAC GGGCCCCGCG GCGAACGGAT CCGCGCCGCC GTGGCCGAGA AGCTGGAGCG 14940 CAGCGGCGCC CGCCGCGAGT TCGACGCGCC CGGCATCCAC TTCGGTCACA CCTACCGCTC 15000 GTCGATCGTC TGCGGCGAGC CGGAGACCGA GGTGGCCACC GGCGGATGGC GGCCGAGCGC 15060 GCGACCGGGT GCCCGCGCGC CACACGCGTG GCTCACCCCC ACCACGTCCA CCCTCGACCT 15120 GTTCGGCCGC GGGTTCGTCC TGCTCTCCTT CGGCACCACT GACGGTGTCG AGGCGGTCAC 15180 GCGTGCCTTC GCCGACCGTC ACGTCCCGCT CGAGACGGTC ACGTGTCACG CCCCGGAGAT 15240 CCACGCGCTG TACGAACGCG CGCACGTGCT CGTCCGGCCG GACGGCCACG TCGCCTGGCG 15300 CGGCGACCAC CTTCCGGCGG AGCTCGGCGG GCTGGTGGAC AAGGTGAGGG GTGCCGCGTG 15360 AAGCCGTTCG ACCTCAAGGC GTTCACCGGC GCGGACCTCG CCGACCCGTA TCCCGTCTAC 15420 CGCGAGTACC TCACGGGCGA CCCTGTGCAC CACAACGGTG AGGCGTGGTA CGTGTTCGGC 15480 TACGACGGGG TGGCTCACGT GCTCACCAGC CGCGACTACG GCCGCCGGGG TCCCGGCGGC 15540 AGGGCGACGC CGATCCCGCC CTCGCACGAC ACGTTGAGCC GCATCGTCGA GAACTGGCTC 15600 GTCTTCCTCG ACCCGCCTCG GCACACGGCG CTGAGATCGT TGCTGGCCAA GGAGTTCTCC 15660 CCGGCGGTGG TCACCGGCCT GCGCGAGCGC GTGCGGAAGA TCGCCGGCGA GCTGCTCGCC 15720 GGCCTCGGCG ACGCGGGCGA GATCGACCTC GTCGAGGACT TCGCCGCCCC GCTGCCGATC 15780 CTGGTGATCT CGGAGCTGCT CGGCGTGCCC GCGCGGCTGC GCTCGTGGTT TCGCCGGTGT 15840 GCCGTCGATC TGCAGGAAGC GAGCACCGCT CGCGCCACCC GCAACCCCGG CGCACTCGCA 15900 CGGGCCGACG GCGCGGCATC AGAACTGGTC GAGTTCTTCG GTGGCGAGCT GGGCACGCGC 15960 AAGCCCGACG ACGAGGACCT CGTCGCGCTG CTCGTCAACG CGCAGCGGCG CGGTGAGGCG 16020 CTGACCGACG AGGAGATCGT GTCCACGTGC GTGCACCTGC TGACCGCCGG GCACGAGACG 16080 ACCACGAACC TGATCTCCAA GTCGGTCCTC GCGCTGCTGG CGAATCCCGC CGCAGCCGCG 16140 GAACCGCTGG CCGGACTGGA CGTGACACCG CAGGTGGTCG AGGAGCTGAA CAGGTTCGAC 16200 ACCCCCGTGC AGATGGTCAC TCGCTGGGCG CACCAGGACA CCGCGCTCGG CGGCAAGCCG 16260 ATCCGGCGAG GCGACAAGGT GGTGCTGGTG CTCGGTTCGG CCAACCGCGA CCCGGCGGCG 16320 TTCGCCGAAC CCGACAGGCT CGACCTGCGG CGGGACTCGC GCAGGCACTG CGGGTTCGGG 16380 CTCGGCATCC ACTACTGCCT CGGCGCCGCG CTGGCGAGGA CGGAAGCCGA GATCGGGCTG 16440 TCCGTGCTGT TCACGAACTT CCCCGGCCTG CGCCTCGGCG GGGAACCGGT CCGCTACGCC 16500 GACGACCTGG TCTTCCACGG CCCGGCCCGT CTGCCGATGC TGACACGTTG ACCGAATCGA 16560 AGAGTGAGGG GACCGCGGTG GCAGCACCGA CGCCTGAGGA AGTCAGGCAG ATGTACGACG 16620 ACTTCACCGA CCCGTTCGCC AGGATCTGGG GGGAGAACCT GCACTTCGGC TACTGGGAGG 16680 ACGCGGGCGC CGACGTGTCC GTCGACGACG CCACGGACCG GCTGACCGAC GAGATGATCG 16740 CCCTGCTCGA CGTCCGGTCA GGGGATCGGG TGCTGGACGT CGGCTGCGGG ATCGGCAAGC 16800 CCGCCGTGCG GCTCGCCACG GCCAGGGACG TCAGGGTGAC AGGCATCTCG ATCAGCAGGC 16860 CGCAGGTGAA CCAGGCCAAC GCGCGAGCGA CCGCGGCCGG TCTGGCCAAC CGGGTGACGT 16920 TCTCGTACGC CGACGCGATG GACCTGCCGT TCGAGGACGC GTCCTTCGAC GCGGTGTGGG 16980 CGCTCGAGTC GCTGCACCAC ATGCCGGACC GCGGCCGCGC ACTTCGCGAG ATGGCACGGG 17040 TGCTGCGGCC GGGTGGCACC GTCGCCATCG CGGACTTCGT GCTGCTCGCG CCTGTCGAAG 17100 GAGCGAAAAA GGAGGCTGTC GACGCATTTC GCGCGGGTGG TGGTGTGCTG TCGCTCGGCG 17160 GCATCGACGA GTACGAGTCC GATGTTCGCC AAGCCGAACT CGTCGTGACG TCGACGGTGG 17220 ACATCAGCGC TCAGGCCCGG CCCTCACTGG TGAAAACCGC CGAGGCGTTC GAGAATGCCC 17280 GCTCCCAGGT GGAACCATTC ATGGGAGCGG AAGGTCTCGA CCGAATGATC GCGACGTTCC 17340 GCGGACTCGC GGAGGTACCG GAGGCCGGCT ACGTGCTCAT CGGCGCGCGC AAGCCCTGAA 17400 CCTGCACACT CGACACGGAT GGTGATCCCA GGATCACCAT CCGTGTTCTT TTTTGCGCAA 17460 ATGACGGGAG TCCGGTGTCC GTTCGACGTC CGACCCGCAT CACTCATCCG CTTCCCGGAC 17520 ACGCGGGTTC CCGCACGCCC GATCACGGAC ACGTCATCTC TAACCCACGC ATTCGCGAGT 17580 TTTCACGCCG CGAACGAGAA GAGCGGTGGC ACCTGCCCGG ATTCATGGCT AGTGTCCGTC 17640 TCGAGGAGCG ATTGGGGATC GCGCCTGTCG ATTGGGGGAT CGATGTCGTT CAACCGTCTA 17700 CTTTCGACAC ACATTTCGAG GGCGAGTTCA TGACCCGCTC CCGAAAAGCC GAGTTCCTGT 17760 CGGATGTCCA CCAGGACAAT GCGAATTCCT TTCCGCAGTG GAATCCGCGT GAGACGAACT 17820 GCGTCGCGCT TCCCGGCAGA CCCGTCCGGG GCAGGGAAGC CGAGCTCGCC CGCATCGAGC 17880 AGGCCCTCGA CGACGCCGCG AACGCGCGAG GCGGTGTCCT GCTCGTCGAG GGCGCCAGGG 17940

GCAGCGGCAG GAGCCGTCTG CTCGCCGAGA CCGCGCGCAG GGCGGCGGAA CGCGGCTTCG 18000 ACGTGGTCAG CGCCGAGGCG AACGAACTCG CTCGGCTCGT GCCACTGGCG CCGATCCTCG 18060 CGGCGCTCGG TGAGCCGCAG CCCGTACCGG GAGAGGCTGA CCACTCCTTC GCCGGACTCG 18120 ACGACAGGTG GAGCAGGCAG CTCGCGCACG TGCGCGGCAG GCTCGCGCGC AGGATCGTCA 18180 AACGGCCCTT GGCCGTGCTG CTCGACGACC TGCAGTGGGC GGACCCGGTG ACGCTGCTGG 18240 CGTTGCGGAT CCTGCCCGCG CAGCTCGCCG GTCAGCCCCT CCTGTGGATG TTGTGCCGGC 18300 GCACCGACGA GCGGGAGCCG TACGTCGCCC AGCTCTACGA CCAGCTGCTC GCCGCCGGAG 18360 TGGCCACGCC ACTGCGGCTG CAGCCGCTCA CGGCGCCCGC CGCCGACGAG ATGGCCGCCG 18420 ACCTGCTCGG TGGCGCCAAG CCCGCACCCG AGGTGAACGC GCTGGTCGGC GCGGCCGACG 18480 GCAACCCCGC CGTGCTCACC GAGCTGATCG AGGGGCTGGT CGACGAGAAC GTGGTCGTCT 18540 GTTCCGATGG CACGGCACGC CTCGTCCACG GCAATGCGTC AGCACTGCTG CCGCAACGGT 18600 TTCGCAGCCT CATGCGAGGA CGGATCGACG CCCTGTCGCC CTCGACGGCG CGCATGCTCG 18660 AGGTCGCCGC CGTGCTCGGC AGGTCATGGC TGCCCGACGA CGTCGTGGAG ATGCTCGGCA 18720 CGTCCACCGC CGAGCTCCTG CCCTGTTTCC AGGAGGCACT GGCGGCCCGC CTGCTCATGT 18780 CCACTTCGGA CACCATGGTG TTCCGGCACG ACCTGGTCTG GCGCTCGATC ACCGAGTCGA 18840 TTCCTCCTGC CGTGTGTGCG GCGCTGCACA GACAGGCGGC GAGGATGCTC CTCGATCGCG 18900 GCTCACCCGT CGTCTCCGTG GCGGTGCATC TGGCGCGAGG CGCACGACCG CACGACGTCG 18960 AGGCCGTAGC CGTCCTCAAG AACGCCGCCA CCGAGGTGAT GACGTCATCT CCGCGCACCG 19020 CCGTCGAGTT CGCCTCGCGT GCCCTCGAAC TCACCGACAG GGACGGCTCG ACCCGGCCCG 19080 CGCTCACCGC CGTTCTCGTC GAGGCGCACA CCCGTGCAGG GGCTCTCGGG CGCGCTGTCG 19140 CGGTGGCCGC GAACGCGGGA CCGGAGACTC CTGCCCCCGC CCTGCACCGG TCGCTGTCCA 19200 CCGCGCTGCT GTTGAGGGGC GAGGCGAGGG AAGCGCTGGC CGTGTCGGAG AAGGCACTGG 19260 CCGCCGCCTC TGTCACGCCC GAGACGCGGG AAGCACTGGA GATCAACAGG CTGGCCGCGC 19320 TCGCTGCCCT CGACGACGAC GCGCTCGGTT CCGAGGTGCG GCGATGCACG GGCGACAGCC 19380 CCGGCGTCCT GACCGTGCTC GCCACCGCAC GATGGCAACG AGGTGAGTTC GCCGAGGGTC 19440 TCCGGCTCGC CCGTGCCGCG GCCCGGGCAG CCGAGGAGGG AGCGCCGTTC CCGTGGCACC 19500 TCGACCCGCG CATCGCGCTC GCCGCGTTTC TCGTGCAGTC ACGCCGTGAG GACGAGGCCA 19560 GGCAGGTCAT CACCGTGCTG GACGGTGACA TCGGCAGGTC GGGACTCGAC GTGCTGGCCT 19620 CGGTCCCCCA CCTGCTGATG GCGCAGCTCC ACCTCGCGGC GGGCCGCGTG GAGGAGGCGG 19680 CGTCACGGGC GCACGCCGCG CTCGCGGAGC CGGTGACCAC GCACACGCCG ATCGCGCACG 19740 CCGTACTCGC GGCAGTCGCG TTGCGACGAG GCGATCTGGT GGCGGCCGCG GAGCACGCAC 19800 ACCACCTCGA CGGCGTGCGG CCCGTGCACT GGCGCGCCCA GACGCGCTGG GTGCGGACCC 19860 AGCTCACGGC CACCGCGGAT GCCGACGCCG GCTTCAGCCT CGCGCTGCTC GCCGAGGAAC 19920 CCGCCGCGGC GGCCTGGCAC GTCAGAACGG CACTGGTGGC GGGCGAGGCC GACCGGGCGG 19980 CCGCTGTGCT GCGCAGGATC GCGGCCGCCG ACCACTGTCC GGCGGCCGAC CACGCGCGCG 20040 GGGTGCGCGA CGGCGACAGG AGCGCGCTCG AACGGGCGGT CCGCGACCAC GTCGACGAGT 20100 GGGCGCGTGC CTCGGCTGCC GAGGATCTGG GCGTGCTCCT GACGCCGGAC GACAGGAATG 20160 CCGCCGTCGA ACGCCTCGAC CAGGCGCTGA CGGCCTACAC CGCGGCCGGC GCCGAACGCG 20220 ACGCGGCGCG GGTGCGGCGG CGGTTGCGCG GTCTGGGCGT GCGGCGCAGG CACTGGCGCA 20280 CGGCCGACCG CCCCGAATCG GGGTGGGACA GCCTCACCAA CACGGAGCTC AGCGTCGCGT 20340 CGCTCGTCAC CCAGGGCCTG ACCAACAAGC AGGTCGCGAC CCAGATGTTC CTGTCGCCGC 20400 ACACGGTCGG GTTCCACCTC AGGCAGATCT TCCGCAAGCT CGGCGTCCAC TCGCGCACCG 20460 AGCTGATCAG GTTCGGCCCC AACGCCGGGA GGACGCGATG ACGATCGAGT TCGACAGACC 20520 CGGCGCCCAC GTCACCGCGG CCGATCACCG GGCGCTGATG AGCCTGTTTC CCACCGGCGT 20580 CGCCGTGATC ACCGCGATCG ACGAGGCAGG CACCCCGCAC GGCATGACGT GCACGTCCCT 20640 GACCAGTGTC ACGCTCGATC CACCGACGCT GCTCGTCTGC CTGAACCGGG CGAGCGGAAC 20700 GTTGCACGCG GTGCGGGGAG GCAGGTTCGG GGTCAACCTG CTGCACGCCC GCGGCCGCCG 20760 TGCCGCCGAG GTCTTCTCCA CCGCCGTCCA GGACAGGTTC GGCGAGGTCC GGTGGGAGCA 20820 CTCGGACGTG ACGGGCATGC CGTGGCTCGC CGAGGACGCA CACGCCTTCG CGGGCTGCGT 20880 CGTGCGGAAG TCCACTGTGG TCGGTGACCA CGAGATCGTG CTCGGCGAGG TGCACGAGGT 20940 GGTGCGGGAA CACGATCTCC CCCTGCTGTA CGGAATGCGC GAGTTCGCCG TGTGGACACC 21000 GGAGGGATGA GCGTGCACAT CGAGCCCATC GGCAGGTTCC TGCTCGCGGT CGGGGTGATC 21060 GTCGCCGTGT GCCACCTGGG CGGGCTGCTC TGCCACAGGA TCCGGCAGCC GCCGGTGATC 21120 GGCGAGATCG CGGCGGGACT GCTGCTCGGC CCGACGCTGC TCGGCGCCGT CGCACCGTCC 21180 CTGCAACGCG CGTTGTTCCC GGAGGAGGTG CTGCAGGCGG TGGGGATGGC AGCCCAGCTC 21240 GGGCTCGTCA CCTTCATGTT CCTGCTGGGC AGCGAACTCC GCGTGGACCA CGTGCGGGGC 21300 AACGGCAAAG TCGTCTGGGC CCTGGTGGCG GGGTCGATCC TGCTGCCCTT CCTGGCAGGC 21360 ACGGGTTTCG CGCTGCTCAC CCGGCCCGCC TTCGGCACGC CACAGGTGAG CACGACCGCG 21420 TACGCGCTGT TCGTCGGGCT GGCCATGTCG ATCACCGCGC TGCCCGTGCT CGCCAGGATC 21480 CTCGCCGACT TCCGCGCCGA CCAGTCGTTC CTGGGCACCC TGGCCCTGAT GGCGGCGGCC 21540 GTCGGCGACG CGCTGGCGTG GGCGGCGCTG ACGGTCATCC TCGCCGTGAC AGGCTCGGGT 21600 TCCACGGGTG AACTCGTGCT GCGTTCGGCG CTGGCGCTCA CCCTCGTGCT GCTCACCGTT 21660 TTCGTCGTCA AGCCGGCACT GAGGACGCTG CTGCACCGGT TGCCGGTGAA CAGCCGGGTG 21720 ACGGTGCCCG CGCTCGTCGT CGGCACGACG GCGTTCGCCG CCACGACCGA GGTGATCGGT 21780 CTGCACCCCG TGATCGGCGC ATTCCTGTTC GGGTGCGCGA TGCCGCGGGG TTCGGCCGTG 21840

CTCCAGCGGG CGAGCGCCCA GCTGCGCGGG TTCACGGTCA GCGTGCTGCT GCCGCTGTTC 21900 TTCGCCGGCG TGGCGATGAA GACGGCCTTC GACGCCTTCG GCACCGCGGG CAACTGGTTG 21960 CTGTTCGCCG CCGCGCTCGC CGTCGCGACG GTGACGAAGT TCGTGGGCGC GTCGAGCGGG 22020 GCGTTGCTCG CAGGCCTGGA CCGTGCCAGG GCGTTCCAGC TCGGTGCGTT GATGAACTGC 22080 CGCGGTGTCA CGGAGCTCGT CGTCGCGACG GTCGGGCTGC AGAACGGCTT CGTCAACGAG 22140 TTCGGCTACA CGGTGCTCGT GCTCATCGCA CTCGTCACGA CGGCACTCAC CGGCCCGCTC 22200 GCACGCCTCC GCGCGGAGGA AGCACCACAG GAGAACCACC GAATTCCGAT GAAACACGGG 22260 GGTACGTTTC ATGTCCGGCA AGATTGACAA GATCCTCATC GTCGGCGGCG GCACCGCCGG 22320 ATGGATGGCC GCGTCCTATC TCGGCAAGGC CCTGCAGGGC ACCGCGGACA TCACACTGCT 22380 GCAGGCACCC GACATCCCGA CGCTCGGGGT CGGCGAGGCC ACGATCCCCA ATCTGCAGAC 22440 GGCGTTCTTC GACTTCCTCG GAATCCCCGA GGACGAGTGG ATGCGGGAGT GCAACGCGAG 22500 CTACAAGGTC GCCATCAAGT TCATCAACTG GCGCACCGCG GGCGAGGGGA CGTCCGAGGC 22560 CCGCGAGCTC GACGGAGGGC CCGACCACTT CTACCACTCC TTCGGTCTGC TCAAGTACCA 22620 CGAGCAGATT CCGCTGTCGC ACTACTGGTT CGACCGTTCG TACCGGGGGA AGACCGTCGA 22680 GCCGTTCGAC TACGCCTGCT ACAAGGAACC CGTCATCCTC GACGCCAACA GGTCACCGCG 22740 CAGGCTCGAC GGTTCCAAGG TGACGAACTA CGCGTGGCAC TTCGACGCGC ACCTCGTCGC 22800 CGACTTCCTG CGCCGGTTCG CCACCGAGAA GCTCGGCGTG CGCCACGTCG AGGACCGCGT 22860 CGAGCACGTC CAGCGCGACG CCAACGGCAA CATCGAGTCG GTTCGCACGG CAACGGGGCG 22920 TGTCTTCGAT GCCGACCTCT TCGTCGACTG CTCGGGCTTC CGCGGGCTGC TGATCAACAA 22980 GGCGATGGAG GAGCCCTTCC TCGACATGAG CGATCACCTG CTCAACGACA GCGCCGTCGC 23040 CACCCAGGTG CCGCACGACG ACGACGCGAA CGGTGTGGAA CCGTTCACCT CGGCGATCGC 23100 CATGAAGTCG GGCTGGACGT GGAAGATCCC GATGCTCGGC AGGTTCGGCA CCGGGTACGT 23160 CTACTCGAGC CGGTTCGCCA CCGAGGACGA GGCGGTGCGC GAGTTCTGCG AGATGTGGCA 23220 CCTCGACCCG GAGACCCAGC CCCTCAACAG GATCCGGTTC CGGGTCGGCC GCAACCGGCG 23280 CGCGTGGGTC GGCAACTGCG TCAGCATCGG CACGTCGTCG TGCTTCGTGG AACCACTGGA 23340 GTCGACGGGC ATCTACTTCG TCTACGCCGC GCTGTACCAG CTGGTGAAGC ACTTCCCCGA 23400 CAAGAGCCTC AACCCCGTGC TGACCGCCAG GTTCAACCGC GAGATCGAGA CGATGTTCGA 23460 CGACACGCGC GACTTCATCC AGGCGCACTT CTACTTCTCG CCGCGCACGG ACACCCCGTT 23520 CTGGAGGGCC AACAAGGAGC TGCGCCTGGC GGACGGCATG CAGGAGAAGA TCGACATGTA 23580 CCGCGCGGGC ATGGCGATCA ACGCGCCCGC GTCCGACGAC GCCCAGCTCT ACTACGGCAA 23640 CTTCGAGGAG GAGTTCCGCA ACTTCTGGAA CAACAGCAAC TACTACTGCG TGCTGGCCGG 23700 CCTCGGTCTG GTGCCCGACG CACCCTCACC ACGCCTGGCG CACATGCCAC AGGCGACGGA 23760 GTCGGTGGAC GAGGTCTTCG GCGCCGTCAA GGACCGGCAG CGGAACCTGC TCGAGACCCT 23820 GCCGAGCCTC CACGAGTTCC TGAGGCAACA GCACGGCCGC TGACAGACGG CTGACGACGT 23880 CCCCTGCGCA CTCCCACGAC CTGAGGAGCG CGCAGGGGAC GTTGCCGCGT GATCACTCGT 23940 GTGGTGTCGT CGCCGGCACT GACTCGCGCC GGGGCAACGC CAGCGCGATC AGGGCGCCGG 24000 CCACGGCGAA AACGGCGGCA CCCAGGAACG CCACCTGGTA TCCGCTGGAC AGCGCGGCCA 24060 CCTCGGAGAC CGGCGGCTCC TTCGCGAGCT CGGCCGCCGA GTACGCACCG GACAGCGCCG 24120 CCAGCGCACC GAGCCCCAGC GCGCCACCCA GCTGCTGTGC GGTGTTGATC AGGCCCGACG 24180 CCAGGCCCGA CTCGTTCTCC GCGAGTCCCG CGACGGCGGC CGTCGTCACG GCGACGAAGG 24240 TCGTGCCCAG GCCGAGACCG GCGACCAGCT GCCCGGCGAC GGTGGCGCCG AAGCCGTCCT 24300 CCTCGGTGAG GCGGGACAGC AGGACGAGAC CGACGGCCAG CACGCCGAGG CTCAGGAGCA 24360 ACGTGAACCG CATGCCGATC CTGGCCATCG CCAGCGGCGC CAGCGCGGCG GCGCCCACCA 24420 TCGAGATCAA CGACACGGGC AGGAACCCGA GCCCTGTCTG CAGCGGGGTG AGACCCACGA 24480 CGTTCTGCAG GTGCAGCGAG AGCAGGAAGA ACATCGCGTA CGGCGCGGCA CCCGCGAAGA 24540 GGCCGACGAC ACTGGCGACG GAGAGGTTGC GGTTGCGGAA CGACGACAGC GGGACGAGAG 24600 GTTCACGCAC CTTGCGCTGC ACGAGGAAGA AGCTCACCAG CAGCACGACG GCGAGACCCA 24660 GTGCGAGCAG GATCGTGACG GGGTCGCCCG ACTGGCCGCT CACGATGGCG TAGACCAACA 24720 ACGTCAAGCC ACCGGTGAGC GTGACGGCAC CGGCGACGTC GAGCCTGCCC CGCGTGTCGC 24780 CGCGAGCGCC GGACACGCTG CGGAACACCC CGAGCACGAC CACGACGACG ATAGGGACGT 24840 TGATGTAGAA GATCCACGGC CAGCCGGGCC CCGAGGTCAG CACGCCGCCG AGCAACACGC 24900 CGACGGCACC ACCGACGCCG CTGACGGCCC CCCACATCGC GAGCGCCTGG TTGCGCCCCT 24960 TACCCTCCGG AAACGTCGCG ACGATGATCG ACAACGCGGC GGCGGAGGCG ACGGCCGCCG 25020 AGAGACCCTG CACGGCGCGG GCCGCGACCA GCACACCGGC CACCGGTGCG AGCGCGGCGG 25080 CCAGGGAGGC GGCACCGAAC AGGCAGATGC CCGAGACGAA CACGAGGCGG CGGCCGATCA 25140 GGTCGGCCAT GCGCCCGCCG AGCATGAGGA AGCCGCCGAA GGTGAGCGTG TAGGCGTTGA 25200 CCACCCACTG CAGGCCTGTC TGGTCCATGC CGAGCTCACG GCCCATCGAG GGTAGAGCGA 25260 TGTTCACGAT CGAGGCATCC AGCACGATCA TCAGCTGGGT GATCACGAGG AATGGCAACG 25320 CCGACCGGGC GCGGTCGCGC TCGTCTGCCG TCATGCTCTT GCTCCTTGGT CCTGGCACGA 25380 AGTCGCGCGG CCACGTTAGT ATGAAAGCCT GACATACACA AATGGAGGAC CCGGAACCGT 25440 GGCAGCTGAA CCTGACGCAC GGCCACTGGA CGGACCGGCG GGCGGAGACG CCGGTCTGCC 25500 CTACCTGATC GCACGTGTCG AACACGCGAT AGCCGGACGC GCCAACCTCG CGCTCGGGGC 25560 GCTGGGGCTC ACCATCCGGC AGATGGGGGC GTTGGACATC GTGTCCCGCA ACCCCGGCAT 25620 CAGCAGCGTC GAGCTCGCCC GGCAGGTGCT CGTGACCCGC CAGACGATGA ACTCCATGAT 25680 25681

<210> SEQ ID NO:2

<211> 44 aminoácidos

<212> polipéptido

<220>

<223> OrfD13, no completa

<400>

Ile Phe Thr Tyr Ala Asp His Asn Gly Arg His Ile Arg Phe Gly Val 5 10 15 Asp Phe Tyr Cys Gly Gly Thr Ala Ser Leu Ala Glu Pro Glu Val Ser 20 25 30 Thr Arg His Asp Gly Arg Thr Pro Ile Ser Arg Gly 35 40

<210> SEQ ID NO:3

<211> 1003 aminoácidos

<212> polpétido

<220>

<223> OrfR5

<400>

Met Glu Phe Arg Leu Leu Gly Pro Val Glu Ala Leu Val Glu Gly Arg 5 10 15 Ser Val Pro Leu Gly Gly Leu Lys Pro Gln Val Leu Leu Ala Ala Leu 20 25 30 Val Leu Glu Arg Gly Arg Val Val Pro Ala Asn Arg Leu Val Glu Leu 35 40 45 Leu Trp Gly Glu Glu Pro Pro Val Ser Ala Arg Ser Leu Ile Gln Thr 50 55 60

Tyr Val Ser Lys Leu Arg Lys Ala Phe Ala Asp Leu Gly Ala Pro Asp 65 70 75 80 Val Ile Val Ser Lys Thr Gln Gly Tyr Leu Val Arg Leu Asp Asp Ala

85 90 95 Arg Val Asp Ala Asp Glu Leu Ala Gly Leu Leu Gly Lys Ala Arg Gln 100 105 110 Gln Ser Gln Val His Gly His Glu Pro Ala Ala Arg Leu Leu Gly Glu 115 120 125 Ala Val Ala Leu Ser Arg Gly Pro Ala Leu Ser Gly Leu Arg Asp Thr

130 135 140

Leu Leu Ser Gly Glu Ala Arg Arg Leu Asp Glu Leu Leu Val Thr Val

145 150 155 160

Gln Glu Glu Arg Phe Ala Ala Glu Leu Gly Leu Gly Arg Phe Asp His 165 170 175 Leu Ala Glu Leu Thr Ala Ala Val Ala Arg Gln Pro Val Asn Glu Arg 180 185 190 Leu Arg Gly Gln Leu Met Val Thr Leu Tyr Arg Leu Gly Arg Gln Ala 195 200 205 Asp Ala Leu Ala Cys Tyr Arg Glu Gly Arg Asp Ala Leu Val Asp Glu

210 215 220 Leu Gly Val Glu Pro Gly Ala Glu Leu Gly Thr Ile His Ser Ala Ile 225 230 235 240 Leu Arg Gly Thr Leu Glu Leu Val Pro Ala Asp Ala Ala Pro Val Ala

245 250 255 Arg Thr Ala Phe Ala Ala Val Pro Ala Gln Leu Pro Ala Thr Leu Ala 260 265 270 Asp Phe Thr Gly Arg Val Arg Glu Leu Gly Glu Leu Val Ala Ala Leu 275 280 285 Cys Gly Glu Thr Ser Ala Val Gln Ile Val Ala Gly Pro Gly Gly Cys

290 295 300 Gly Lys Ser Ala Leu Thr Val Arg Ala Ala His Glu Ala Ala Arg Ser 305 310 315 320 Phe Pro Asp Gly Gln Leu Tyr Ala Glu Leu Arg Gly Thr Ser Gly Leu

325 330 335 Pro Ala Thr Ala Gly Glu Val Leu Gly Arg Phe Leu Thr Ala Leu Gly 340 345 350 Met Asp Pro Gly Gln Leu Pro Glu Ser Ala Gln Glu Arg Gln Glu Leu 355 360 365 Tyr Arg Thr Ser Leu Ala Gly Arg Arg Val Leu Val Val Leu Asp Asp

370 375 380 Ala Ala Ser Glu Glu Gln Val Arg Pro Leu Leu Pro Gly Ala Ala Gly 385 390 395 400 Cys Ala Val Leu Ile Ser Ser Arg Asp Arg Leu Ala Gly Leu Ala Gly

405 410 415 Ala Leu Phe Thr Glu Leu Asp Leu Val Thr Pro Gly Glu Ala Tyr Asp 420 425 430 Met Leu Ala Arg Ile Val Gly Glu Ala Arg Leu Ala Glu Asn Val Asp 435 440 445 Ser Ala His Arg Ile Val Asp Ala Cys Gly Arg Leu Pro Leu Ala Leu

450 455 460 Arg Ile Ala Gly Ala Arg Leu Ala Ser Arg Arg Gln Leu Pro Leu Arg 465 470 475 480 Val Leu Ala Asp Arg Leu Thr Asp Glu Arg Arg Arg Leu Asn Glu Leu

485 490 495 Ser Ala Gly Asp Leu Ala Val Arg Ser Ser Ile Ala Leu Ser Cys Arg 500 505 510 Ala Leu Asp Asp Gln Ala Arg Thr Ala Leu Gly Arg Met Gly His Leu 515 520 525 Gly Leu Pro Asp Phe Ser Thr Trp Val Val Ser Trp Leu Leu Glu Thr

530 535 540 Ser Glu Ala Asp Ala Glu Lys Val Leu Glu Val Leu Val Asp Ala Gln 545 550 555 560 Leu Ala Thr Leu Ser Gly Ala Asp Ala Ala Gly Val Leu Arg Tyr Arg

565 570 575

Leu His Asp Leu Val Arg Leu Tyr Ala Arg Glu Arg Ala Glu Ala Asp 580 585 590 Glu Pro Asp Glu Leu Thr Ala Ser Ile Ala Arg Val Leu Asp Gly Trp 595 600 605 Ile Ala Leu Leu Ser Arg Thr Ala Val Asn Ser Pro Pro Ala Glu Ser

610 615 620 Thr Trp Arg Pro Ala Ala Gly His Arg Glu Pro Asp Gly Val Thr Ala 625 630 635 640 Met Ala Glu Arg Leu Ser Asp Asp Leu Asp Ala Trp Leu Arg Gly Glu

645 650 655 Glu Pro Ala Leu Ala Val Ala Val Glu Arg Ala Ala Ala Thr Gly Leu 660 665 670 His Arg His Val Cys Asp Phe Val Ser Ala His Thr Ala Ile Glu Gln 675 680 685 Val Thr Asn Ser Tyr Asp Leu Arg Asp Arg Ile Ile Gly Val Ala Met

690 695 700 Thr Ser Val Gln His Val Gly Asp Pro Gly Leu Ala Ala Asp Val Leu 705 710 715 720 Ala Lys Leu Ala Arg Leu Arg Phe Ser Gln Asp Arg Phe Ala Glu Ala

725 730 735 Arg Gln Leu Phe Gly Glu Ala Leu Gly Arg Tyr Arg Asp Leu His Asp 740 745 750 Val Arg Gly Gln Ala Ala Ala Leu Ala Gly Met Gly Leu Ala Cys Arg 755 760 765 Glu Pro Gly His Leu Thr Glu Ala Val His Phe Leu Ser Gln Ala Ala

770 775 780 Thr Leu Ser Gln Ala Leu Asp Asp Gln Val Gly Ile Gly His Val Leu 785 790 795 800 Arg Ile Arg Gly Ser Val Arg Leu Glu Leu Gly Glu Tyr Asp Glu Ala

805 810 815 Arg Thr Asp Leu Glu Gln Ser Leu Ala Ala Tyr Arg Arg Ala Gly Ser 820 825 830 Arg Arg Gly Ile Ala Leu Ser Leu Arg Ser Leu Gly Leu Tyr His Arg 835 840 845 Ala Arg Gly Asp Tyr Glu Thr Ser Met Ala Val Cys Ala Asp Ala Ala

850 855 860 Thr Ile Phe Ala Glu Leu Gly Asp Asp Leu Met His Ser Tyr Ala Val 865 870 875 880 Arg Ala His Ala Lys Ala Gln Met Arg Ser Gly His Ser Ala Glu Ala

885 890 895 Leu Pro Arg Leu Glu Met Ala Leu Ala Thr Val Arg Ala Lys Asp Asp 900 905 910 Arg Trp Gly Gln Ala Ile Thr Leu Arg Val Leu Gly Gln Leu His Leu 915 920 925 Ala Glu Gly Arg Leu Asp Leu Ala Gln Asp Cys Leu Asp Ala Ala Met

930 935 940 Ser Ile Trp Asp Ala Thr Glu Ala Pro Leu Trp Arg Ala Arg Thr Glu 945 950 955 960 Tyr Asp Leu Ala Leu Leu His Arg Ser Arg Gly Asp Thr Gln Ala Ala

965 970 975 Asp Ala Ala Phe Thr His Ala Arg Ser Val Phe Arg Ala Arg Gly Ala 980 985 990

Arg Glu Tyr Ser Glu Tyr Ala Glu Leu Pro Val 995 1000

<210> SEQ ID NO:4

<211> 210 aminoácidos

<212> polipétido

<220>

<223> OrfR4

<400>

Met Val Trp Leu Ser Asp Pro Ala Val Ala Ala Ile Pro Val Arg Glu 5 10 15 Arg Gly Glu Pro Leu Val Asp Leu Arg Thr Val Ala Ala Leu Arg Leu 20 25 30 Asp Ser Arg Leu Ala Asp Glu Glu Gly Leu Tyr Ala Gln Leu Arg Ile 35 40 45 Gly Val Val Asp Arg Leu Val Thr Ala Gln Thr Leu Leu Pro Pro Glu

50 55 60 Leu Arg Leu Leu Ile Val Glu Gly Tyr Arg Pro His Ala Val Gln Ile 65 70 75 80 Ala Ser Phe Glu Ser Ala Val Ala Glu Ser Arg Ala Arg Ser Pro Arg

85 90 95 Ala Ala Glu Ser Val Leu Arg Arg Arg Ala Ser Val Arg Ser Ser Pro 100 105 110 Pro Glu Val Ala Pro His Val Ala Gly Ala Ala Val Asp Leu Ser Leu 115 120 125 Cys Thr Val Asp Glu Ile Glu Leu Asp Leu Gly Thr Ala Val Asn Asp

130 135 140 Thr Ala Thr Glu Arg Ser His Thr Glu Asp Pro Thr Val Asp Ala Thr 145 150 155 160 Ala Arg Arg His Arg Ala Val Leu Ala Arg Ala Leu Arg Gly Ala Gly

165 170 175 Leu Val Asn Tyr Pro Ser Ala Trp Trp His Trp Ser Tyr Gly Asp Arg 180 185 190 Tyr Trp Ala Tyr Leu Thr Gly Ser Ser Gln Ala Val Tyr Gly Pro Ile 195 200 205 Leu Pro 210

<210> SEQ ID NO:5

<211> 438 aminoácidos

<212> polipétido

<220>

<223> OrfD1

<400>

Met Ala Gly Thr Val Leu Met Ala Pro Pro Ala Ser Ala Ala Pro Ser 5 10 15 Arg Asp Arg Ile Val Lys Ala Ala Ala Asp Glu Val Gly Glu Gly Ala 20 25 30 Cys Ser Pro Gly Tyr Phe Asn Ser Cys Gly Met Ala Trp Cys Ala Glu 35 40 45 Phe Ala Arg Trp Val Trp Asn Glu Gly Gly Val Ser Asp Leu Lys Gly 50 55 60

Leu Asp Gly Trp Ala Gln Ser Phe Lys Ser Tyr Gly Met Lys Asn Gly 65 70 75 80 Thr Tyr His Ser Arg Ser Ser Gly Tyr Lys Pro Gln Pro Gly Asp Ala

85 90 95 Ile Val Phe Asp Trp Asp His Arg Ser Gly Asp Asp His Pro Ile Asp 100 105 110 His Val Ala Ile Val Ile Ser Ser Ser Ser Gly Thr Val Asn Thr Ile 115 120 125 Gly Gly Asn Gln Gly Asp Pro Gly Arg Val Arg Arg Ser Ser Tyr Gln

130 135 140

Arg Ser Asn Gly Asp Ile Asp Gly Tyr Ile Ser Pro Val Gly Val Gly

145 150 155 160

Asp Gly Gly Gly Gly Gly Gly Gly Glu Glu Lys Pro Ser Val Asn His

165 170 175 Ser Val Thr Gly Asp Ser Phe Thr Asp Leu Val Gly Arg Lys Pro Asp 180 185 190 Gly Thr Ile Trp Ala Tyr Asn Asn Asn Ile Leu Arg Asp Asn Gly Val 195 200 205 Pro Tyr Ser Val Gly Arg Glu Ile Gly His Gly Trp Asn Ala Phe Asp

210 215 220

Thr Val Leu Thr Ala Asp Val Thr Gly Asp Gly Tyr Thr Asp Leu Val

225 230 235 240

Ala Arg Lys Pro Asp Gly Thr Leu Trp Leu Tyr Ala Asn Asp Thr Lys

245 250 255 Asn Asp Gly Leu Pro Tyr Ser Ser Gly Arg Gln Ile Gly Thr Ser Trp 260 265 270 Asn Ile Phe Asp Thr Ile Val Ala Ala Asp Leu Thr Gly Asp Gly Phe 275 280 285 Ala Glu Leu Val Gly Arg Lys Pro Asp Gly Thr Leu Trp Met Tyr Ala

290 295 300

Asn Asn Ile Leu Arg Asp Asn Gly Lys Pro Tyr Ser Ala Ser Arg Glu

305 310 315 320

Ile Gly His Gly Trp Asn Val Phe Asp Thr Leu Ile Ala Ala Asp Val

325 330 335 Thr Gly Asp Gly Phe Ala Glu Met Val Ala Arg Lys Ala Asp Gly Thr 340 345 350 Leu Trp Met Tyr Ala Asn Asn Ile Leu Arg Asp Asn Gly Met Pro Tyr 355 360 365

Ser Ser Gly Arg Gln Ile Gly Asn Gly Trp Asn Ile Phe Asp Thr Ile

370 375 380 Ile Gly Ala Asn Val Thr Gly Asp Gly Phe Ala Asp Leu Val Gly Arg 385 390 395 400 Lys Ala Asp Gly Thr Ile Leu Leu Tyr Ser Asn Asn Ile Leu Arg Asp

405 410 415 Asn Gly Gln Pro Tyr Ser Thr Gly Arg Gln Ile Gly Thr Ser Trp Asn 420 425 430 Ile Phe Asp Ile Ile Met 435

<210> SEQ ID NO:6

<211> 133 aminoácidos

<212> polipétido

<220>

<223> OrfR3

<400>

Met Thr Asp Arg Ala Asp Val Pro Ser Ala Val Leu Glu Ser Leu Arg 5 10 15 Arg Ile Cys Ala Gly Leu Pro Glu Ser Tyr Glu Glu Pro Ala Trp Val 20 25 30 Gly Thr Arg Trp Arg Ile Arg Gln Arg Thr Ile Leu His Val Phe Thr 35 40 45 Ala Gln Pro Gly Ala Thr Gly Thr Phe Ser Arg Ala Ala Glu Leu Thr

50 55 60 Glu Pro Ala Val Val Met Thr Phe Arg Ala Gln Gln Glu Asp Phe Glu 65 70 75 80 Ala Leu Val Asn Ser Gly His Pro Phe Phe Arg Ala Ala Trp Gly Phe

85 90 95 Asp Val Val Gly Met Ile Val Glu Pro Asp Ala Asp Trp Ala Glu Ile 100 105 110 Gly Glu Leu Leu Thr Glu Ser Tyr Arg Lys Leu Ala Pro Met Lys Leu 115 120 125 Ser Arg Leu Leu Gly 130

<210> SEQ ID NO:7

<211> 395 aminoácidos

<212> polipétido

<220>

<223> OrfD2

<400>

Met Gly Ile Ser Leu Asn Ala Ala Ser Val Leu Pro Gln Asp Ala Ala 5 10 15 Asp Ala Thr Leu Val Ala Arg Val Phe Asp Pro Ser Ala Gly Gly Pro 20 25 30 Ser Val Val Thr Val Arg Gly Glu Glu Val Val Asp Leu Ser Ala Leu 35 40 45 Ala Ser Thr Val Ser Ser Leu Leu Glu Arg Pro Asp Ala Leu Glu Ile 50 55 60

Val Arg Asn His Pro Gly Gly Thr Ser Trp Pro Leu Ala Asp Val Leu 65 70 75 80 Ala Ala Thr Thr Asn Ala Ala Asp Gly Val Pro Arg Phe Leu Ala Pro

85 90 95 Val Asp Leu Gln Val Leu Lys Ala Ala Gly Val Thr Phe Val Arg Ser 100 105 110 Met Leu Glu Arg Val Ile Glu Glu Arg Ala Asp Gly Asp Pro Thr Arg 115 120 125 Ala Glu Glu Val Arg Glu Lys Val Gly Ala Ile Val Gln Gly His Ile

130 135 140 Ser His Leu Lys Pro Gly Ser Ala Glu Ala Ala Glu Val Lys Arg Val 145 150 155 160 Leu Gln Ala Glu Gly Leu Trp Ser Gln Tyr Leu Glu Val Gly Ile Gly

165 170 175 Pro Asp Pro Glu Ile Phe Thr Lys Ala Pro Val Leu Ser Ala Val Gly 180 185 190 Leu Gly Ala Asp Ile Gly Val Leu Ala Arg Ser Ala Trp Asn Asn Pro 195 200 205 Glu Pro Glu Leu Val Leu Val Val Asp Ser Arg Gly Asn Pro Val Gly

210 215 220 Ala Thr Leu Gly Asn Asp Val Asn Leu Arg Asp Phe Glu Gly Arg Ser 225 230 235 240 Ala Leu Leu Leu Thr Glu Ala Lys Asp Asn Asn Ala Ser Cys Ala Ile

245 250 255 Gly Pro Phe Leu Arg Leu Phe Asp Asp Gly Phe Thr Leu Ala Asp Ala 260 265 270 Lys Ala Thr Glu Ile Ala Leu Asp Ile Thr Gly Pro Asp Gly Phe Glu 275 280 285 Leu His Gly Val Asn Pro Val Ser Glu Ile Ser Arg Glu Leu Glu Asp

290 295 300 Leu Val Ser His Ala Phe Gly Ala His His Arg Tyr Pro Asp Gly Phe 305 310 315 320 Val Leu Phe Thr Gly Thr Met Phe Ala Pro Thr Glu Asp Arg Asp Gln

325 330 335 Pro Gly Glu Gly Phe Thr His Lys Ile Gly Asp Val Val Arg Ile Ser 340 345 350 Ser Pro Arg Leu Gly Thr Leu Thr Asn Val Val Asn Thr Ala Glu Asp 355 360 365 Thr Glu Asp Trp Thr Phe Gly Ile Thr Ala Leu Met Glu Asn Leu Ala

370 375 380 Ala Arg Ser Leu Leu Gly Pro Arg Thr Arg Ser 385 390 395

<210> SEQ ID NO:8

<211> 421 aminoácidos

<212> polipétido

<220>

<223> OrfR2

<400>

Met Gly Ala Arg Val Leu Val Ala Thr Thr Pro Gly Asp Gly His Val 5 10 15 Asn Pro Met Val Pro Val Ala Gln Glu Met Val Ser Arg Gly His Glu 20 25 30 Val Arg Trp Tyr Thr Gly Lys Ala Phe Arg Ser Thr Val Glu Arg Thr 35 40 45 Gly Ala Arg His Glu Pro Met Arg Asp Ala His Asp Phe Gly Gly Met

50 55 60 Pro Arg Glu Glu Ala Phe Pro Gln His Ala Gly Leu Thr Gly Ile Thr 65 70 75 80 Gly Met Ile Ala Gly Phe Arg Asp Ile Phe Ile Glu Pro Ala Ala Asp

85 90 95 Gln Met Thr Asp Leu Leu Ala Leu Leu Glu Asp Phe Pro Ala Asp Val 100 105 110 Leu Val Thr Asp Glu Thr Phe Phe Gly Ala Gly Phe Val Ser Glu Arg 115 120 125 Thr Gly Ile Pro Val Ala Trp Ile Ala Thr Ser Ile Tyr Val Phe Ser

130 135 140 Ser Arg Asp Thr Ala Pro Leu Gly Leu Gly Leu Pro Pro Ser Ser Ser 145 150 155 160 Arg Leu Gly Arg Leu Arg Asn Thr Val Leu Lys Gln Leu Thr Asp Arg

165 170 175 Val Val Met Arg Asp Leu Arg Arg His Ala Asp Val Val Arg Asp Arg 180 185 190 Val Gly Leu Pro Arg Ile Arg Lys Gly Ala Phe Glu Asn Ile Met Arg 195 200 205 Thr Pro Asp Leu Tyr Leu Leu Gly Thr Val Pro Ser Phe Glu Tyr Pro

210 215 220 Arg Gly Asp Met Pro Pro Glu Val Arg Phe Val Gly Pro Phe Val Ser 225 230 235 240 Pro Ala Pro Pro Asp Phe Thr Pro Pro Ala Trp Trp Gly Glu Leu Asp

245 250 255 Ser Gly Arg Pro Val Val His Val Thr Gln Gly Thr Val Ala Asn Asp 260 265 270 Ala Glu Arg Leu Leu Leu Pro Ala Ile Arg Ala Leu Ala Ala Glu Asp 275 280 285 Val Leu Val Val Ala Thr Thr Gly Ala Pro Leu Glu Leu Glu Pro Met

290 295 300 Pro Ala Asn Val Arg Val Glu Arg Phe Ile Pro His His Ala Leu Leu 305 310 315 320

Pro His Val Asp Ala Met Val Thr Asn Gly Gly Tyr Gly Gly Val Asn 325 330 335 Thr Ala Leu Ala His Gly Val Pro Leu Val Val Ala Ala Ala Thr Glu 340 345 350 Glu Lys His Glu Val Ala Ala Arg Val Ser Trp Ser Gly Ala Gly Val 355 360 365 His Leu Lys Lys Arg Arg Leu Ser Glu Arg Asp Ile Arg Arg Ala Val

370 375 380 Arg Ala Val Leu Asp Glu Pro Arg Phe Arg Val His Ala Ala Arg Leu 385 390 395 400 Arg Asp Glu Tyr Ala Ala Arg Asp Ala Val Val Asp Ala Val Asp Leu

405 410 415 Ile Glu Gly Leu Val 420

<210> SEQ ID NO:9

<211> 473 aminoácidos

<212> polipétido

<220>

<223> OrfD3

<400>

Met Ser Arg Gly His Lys Lys Ile Thr Val Leu Gly Ala Gly Val Ala 5 10 15 Gly Leu Val Ala Ala His Glu Leu Glu Glu Leu Gly His Glu Val Glu 20 25 30 Val Leu Glu Gly Ser Asp Arg Leu Gly Gly Arg Val His Thr His Arg 35 40 45 Phe Gly Glu Gly Gly Ser Val Pro Phe Val Glu Leu Gly Ala Met Arg 50 55 60

Ile Pro Thr Lys His Arg His Thr Ile Asp Tyr Ile Gly Lys Leu Gly 65 70 75 80 Leu Thr Pro Lys Leu Lys Glu Phe Lys Thr Leu Phe Ser Asp Asp Gly

85 90 95 Ala Tyr His Thr Thr Ser Ala Gly Phe Val Arg Val Arg Asp Ala Ala 100 105 110 Lys Val Leu Val Asp Glu Phe Arg Leu Leu Met Ser Gly Arg Asp Leu 115 120 125 Arg Glu Glu Thr Ile Leu Phe Gly Ala Trp Leu Thr Ala Val Gly Asp

130 135 140 Ala Ile Ala Pro Ala Asp Phe Arg Ala Ala Leu Arg Thr Asp Phe Thr 145 150 155 160 Ala Asp Leu Leu Glu Val Val Asp Arg Ile Asp Leu Asp Pro Phe Leu

165 170 175 Val Gly Ala Ala Arg Asp Gln Phe Asp Leu His Ala Phe Phe Ala Ala 180 185 190

His Pro Glu Val Arg Thr Ser Cys Thr Gly Lys Leu Asn Arg Phe Val 195 200 205

Asp Asp Ile Leu Asp Glu Thr Ser Pro Arg Leu Leu Arg Leu Glu Gly 210 215 220

Gly Met Asp Gln Leu Val Asp Ala Leu Val Glu Arg Ile Arg Gly Asp

225 230 235 240

Ile Arg Thr Gly His Glu Val Ser Ala Ile Asp Val Arg Glu Asp His

245 250 255 Val Ala Val Thr Val His Asn Gly His Gly Val Asn Thr Leu Arg Ser 260 265 270 Asp His Val Leu Cys Thr Ile Pro Phe Ser Val Leu Arg Asn Leu Arg 275 280 285 Leu Thr Gly Leu Ser Thr Asp Lys Leu Glu Ile Ile His Asp Val Lys

290 295 300

Tyr Trp Ser Ala Thr Lys Val Ala Phe Arg Cys Arg Glu Pro Phe Trp

305 310 315 320

Glu Arg Asp Gly Ile Asn Gly Gly Ala Ser Phe Gly Gly Gly Arg Ile

325 330 335 Arg Gln Thr Tyr Tyr Pro Pro Val Glu Gly Asp Pro Thr Arg Gly Ala 340 345 350 Val Leu Leu Ala Ser Tyr Thr Met Gly Asp Asp Ala Asp Val Leu Gly 355 360 365 Gly Met Pro Glu Ala Gln Arg His Glu Val Val Leu Asp Glu Val Gly

370 375 380

Arg Met His Pro Glu Leu His Glu Pro Gly Met Val Val Glu Ala Val

385 390 395 400

Ser Arg Ala Trp Gly Glu Asp Arg Trp Ser Asn Gly Ala Gly Val Thr

405 410 415 Arg Trp Gly Lys Asp Val Ala Ala Cys Glu Glu Glu Arg Asp Arg Ala 420 425 430 Ala Arg Pro Glu Gly Arg Leu Tyr Phe Ala Gly Glu His Cys Ser Ser 435 440 445 Thr Thr Ala Trp Ile Asp Gly Ala Val Glu Ser Ala Leu Ala Ala Val

450 455 460

Arg Ala Ile Glu Ala Gly Asp Gly Arg

465 470

<210> SEQ ID NO:10

<211> 1013 aminoácidos

<212> polipétido

<220>

<223> OrfD4

<400>

Met Ser Val Phe Asp Leu Pro Arg Leu His Phe Ala Gly Thr Ala Thr 5 10 15 Thr Arg Leu Pro Thr Gly Pro Arg Asn Gly Leu Val Asp Leu Ser Thr 20 25 30 His Ser Val Val Met Asp Gly Glu Arg Phe Pro Ala Ser Arg Pro Ala 35 40 45 Ala Glu Tyr His Ala Tyr Leu Asp Arg Val Gly Gly Lys Gly Thr Ala 50 55 60

Phe Ala Gly Asn Gly Tyr Phe Ala Ile Asp Ala Gly Ile Thr Ala Val 65 70 75 80 Glu Arg Ala Ala Gly Glu Val Asp Thr Gly Asp Leu Leu Val Gly Arg

85 90 95 Ala Val Asp Val Trp Gly His Tyr Asn Glu Tyr Leu Ala Thr Thr Phe 100 105 110 Asn Arg Ala Arg Ile Phe Asp Val Asp Pro Ser Ser Ser Trp Thr Ser 115 120 125 Thr Val Met Ile Gly Gln Phe Gly Phe Gly Arg Leu Gly Arg Ser His

130 135 140 Asp Val Gly Tyr Val Phe Thr Gly Gly Val His Gly Met Gln Pro Pro 145 150 155 160 Arg Trp His Glu Asp Gly Arg Val Leu His Gln Phe Thr Val Pro Ala

165 170 175 Gly Glu Asp Met Thr Trp Phe Gly Ser Ala Ala Asp Ser Pro Ala Ala 180 185 190 Ala Arg Leu Arg Glu Leu Val Glu Ser Gly Glu Ala Asp Gly Leu Val 195 200 205 Val Gln Leu Ala Leu Ser Asp Ala Gly Pro Ala Pro Met Pro His Ala

210 215 220 Gln Gln Trp Arg Leu Arg Gly Thr Ile Ala Pro Trp His Ala Gly Glu 225 230 235 240 Pro Arg Thr Cys Pro Ala Gly Arg Leu Leu Thr Pro His Asn Leu Thr

245 250 255 Ala Asp Leu Arg Gly Asp His Val Ser Leu Asn Leu Ile Ser Phe Arg 260 265 270 Pro Pro Thr Gly Ile Ser Gly Leu Glu Leu Arg Thr Ala Asp Thr Asp 275 280 285 Arg Phe Ile Ala Arg Val Pro Ala Asp Asp Pro His Gly Val Val Thr

290 295 300 Val Pro Ala Ala Glu Gly Gly Asp Glu Ala Leu Cys Val Val Gly Thr 305 310 315 320 Thr Ala Ala Gly Glu Arg Ile Val Val Ser Arg Glu Arg Glu Val Thr

325 330 335 Val His Val Asp Asp Ala Ser Val Phe Leu Glu His Pro Arg Gly Pro 340 345 350 Gly Asp Ser Asp Gln Asp Ala Glu Ile Ala Val Arg Thr Tyr Val Arg 355 360 365 Gly Glu Pro Ala Ala Ala Thr Ile His Ile Gly Gln Tyr Phe Asn Pro

370 375 380 Arg Ala Phe Pro Leu Asp Glu His Ala Thr Ala Ala Ser Ala Thr Pro 385 390 395 400 Glu Asp Leu Asp Val Val Ala Leu Cys Val Asp Gly Thr Arg Trp Ser

405 410 415

Arg His Cys Val Ile Ser Thr Asp Glu Asn Gly Asp Gly Arg Phe Leu 420 425 430 Leu Arg Gly Ala Arg Pro Gly Ala Thr Arg Leu Leu Leu Ser Ala Glu 435 440 445 Gly Ala Thr Pro Phe Asp Gly Leu Thr Ala Ala Ala Ala Tyr Asp Asn

450 455 460 Asp Asp Ser Leu Gly Leu Trp Ser Gly Leu Ala Ser Val Ala Val Arg 465 470 475 480 Val Leu Pro Asp His Trp Trp Met Asp Asp Ile Pro Arg Asp Lys Val

485 490 495 Thr Phe Asp Leu Leu Tyr Arg Glu Val Phe Ala Phe Tyr Glu Leu Leu 500 505 510 Tyr Ser Phe Met Gly Glu Glu Val Phe Ser Leu Ala Asp Arg Phe Arg 515 520 525 Val Glu Thr His Pro Arg Leu Ile Trp Gln Met Cys Asp Pro Arg Asn

530 535 540 Arg Ala Lys Thr Tyr Tyr Met Pro Pro Thr Arg Asp Leu Thr Gly Pro 545 550 555 560 Gln Ala Arg Leu Leu Leu Ala Tyr Leu Arg Ala Gln Asn Ser Asp Val

565 570 575 Val Val Pro Val Ile Glu Pro Ser His Thr Arg Ser Gly Thr Pro Ile 580 585 590 Ser Thr Arg Thr Asp Leu Val Arg Ala Leu Arg His Gly Val Ala Ile 595 600 605 Glu Leu Ala Val Met Leu Gln Tyr Leu Tyr Ala Ala Phe Ser Ile Pro

610 615 620 Thr His Gly Ala Gly Gln Glu Leu Val Ser Arg Gly Asp Trp Thr Pro 625 630 635 640 Glu Gln Leu Arg Leu Met Cys Gly Asp Gly Gly Glu Thr Thr Asp Gly

645 650 655 Gly Val Arg Gly Ser Leu Leu Gly Val Ala Arg Glu Glu Met Ile His 660 665 670 Phe Leu Val Val Asn Asn Val Leu Met Ala Val Gly Glu Pro Phe His 675 680 685 Val Pro Asp Leu Asp Phe Gly Thr Ile Asn Asp Thr Leu Met Val Pro

690 695 700 Leu Asp Phe Ser Leu Glu Ala Leu Gly Leu Gly Ser Val Gln Arg Phe 705 710 715 720 Ile Gln Ile Glu Gln Pro Glu Gly Leu Thr Gly Ala Val Arg Leu Gly

725 730 735 Asp Leu Pro Val Pro Val Arg Glu Ala Glu Asp Phe His Tyr Ala Ser 740 745 750 Leu Ser Glu Leu Tyr Gly Asp Ile Arg Glu Gly Leu Gln Arg Val Pro 755 760 765 Gly Leu Phe Leu Val Glu Arg Gly Arg Gly Gly Gly Glu His His Leu

770 775 780 Phe Leu Arg Glu Ser Val Asn Ala Val His Pro Asp Tyr Gln Leu Glu 785 790 795 800 Val Asp Asp Leu Ser Ser Ala Leu Phe Ala Ile Asp Phe Val Thr Glu

805 810 815 Gln Gly Glu Gly His Val Leu Thr Asp Glu Asp Thr Gly Glu Glu Ser 820 825 830

His Tyr Asp Thr Phe Val Arg Val Ala Asp Leu Leu Met Lys Glu Arg 835 840 845 Leu Thr Ala Ala Asp Thr Arg Arg Ala Gln Trp Ser Pro Ala Tyr Pro

850 855 860 Val Ala Arg Asn Pro Thr Val His Gly Gly Gly Gln Ser Lys Glu Leu 865 870 875 880 Val Thr Ser Pro Val Ala Arg Glu Leu Met Val Leu Phe Asn Lys Ser

885 890 895 Tyr Phe Met Met Leu Gln Leu Met Val Gln His Phe Gly Gly Ser Pro 900 905 910 Asp Ala Ser Leu Arg Arg Ser Lys Leu Met Asn Ala Ala Ile Asp Val 915 920 925 Met Thr Gly Val Met Arg Pro Leu Ala Glu Leu Leu Val Thr Val Pro

930 935 940 Ser Gly Arg His Gly Arg Thr Ala Gly Pro Ser Phe Glu Leu Asp Glu 945 950 955 960 Lys Pro Ala Phe Ile Pro Arg Ala Asp Val Ala Arg Arg Ala Ile Ser

965 970 975 Leu Arg Phe Arg His Leu Ala Glu Ser Ala Arg Thr Cys Ala Leu Val 980 985 990 Pro Asp Lys Val Val Arg Asn Leu Asp Phe Leu Ala Asp Gln Phe Ala 995 1000 1005 Thr Glu Gly Pro Arg 1010

<210> SEQ ID NO:11

<211> 529 aminoácidos

<212> polipétido

<220>

<223> OrfD5

<400>

Met Asn Ala Pro Ile Glu Thr Asp Val Leu Ile Leu Gly Gly Gly Pro 5 10 15 Val Gly Met Ala Leu Ala Leu Asp Leu Ala His Arg Gln Val Gly His 20 25 30 Leu Val Val Glu Gln Thr Asp Gly Thr Ile Thr His Pro Arg Val Gly 35 40 45 Thr Ile Gly Pro Arg Ser Met Glu Leu Phe Arg Arg Trp Gly Val Ala 50 55 60

Lys Gln Ile Arg Thr Ala Gly Trp Pro Gly Asp His Pro Leu Asp Ala 65 70 75 80 Ala Trp Val Thr Arg Val Gly Gly His Glu Val Tyr Arg Ile Pro Leu

85 90 95 Gly Thr Ala Asp Thr Arg Ala Thr Pro Glu His Thr Pro Glu Pro Asp 100 105 110

Ala Ile Cys Pro Gln His Trp Leu Ala Pro Leu Leu Ala Glu Ala Val 115 120 125 Gly Glu Arg Leu Arg Thr Arg Ser Arg Leu Asp Ser Phe Glu Gln Arg

130 135 140 Asp Asp His Val Arg Ala Thr Ile Thr Asp Leu Arg Thr Gly Ala Thr 145 150 155 160 Arg Ala Val His Ala Arg Tyr Leu Val Ala Cys Asp Gly Ala Ser Ser

165 170 175 Pro Thr Arg Lys Ala Leu Gly Ile Asp Ala Pro Pro Arg His Arg Thr 180 185 190 Gln Val Phe Arg Asn Ile Leu Phe Arg Ala Pro Glu Leu Arg Ser Leu 195 200 205 Leu Gly Glu Arg Ala Ala Leu Phe Phe Phe Leu Met Leu Ser Ser Ser

210 215 220 Leu Arg Phe Pro Leu Arg Ala Leu Asp Gly Arg Gly Leu Tyr Arg Leu 225 230 235 240 Thr Val Gly Val Asp Asp Ala Ser Lys Ser Thr Met Asp Ser Phe Glu

245 250 255 Leu Val Arg Arg Ala Val Ala Phe Asp Thr Glu Ile Glu Val Leu Ser 260 265 270 Asp Ser Glu Trp His Leu Thr His Arg Val Ala Asp Ser Phe Ser Ala 275 280 285 Gly Arg Val Phe Leu Thr Gly Asp Ala Ala His Thr Leu Ser Pro Ser

290 295 300 Gly Gly Phe Gly Met Asn Thr Gly Ile Gly Ser Ala Ala Asp Leu Gly 305 310 315 320 Trp Lys Leu Ala Ala Thr Leu Arg Gly Trp Ala Gly Pro Gly Leu Leu

325 330 335 Ala Thr Tyr Glu Glu Glu Arg Arg Pro Val Ala Ile Thr Ser Leu Glu 340 345 350 Glu Ala Asn Val Asn Leu Arg Arg Thr Met Asp Arg Glu Leu Pro Pro 355 360 365 Gly Leu His Asp Asp Gly Pro Arg Gly Glu Arg Ile Arg Ala Ala Val

370 375 380 Ala Glu Lys Leu Glu Arg Ser Gly Ala Arg Arg Glu Phe Asp Ala Pro 385 390 395 400 Gly Ile His Phe Gly His Thr Tyr Arg Ser Ser Ile Val Cys Gly Glu

405 410 415 Pro Glu Thr Glu Val Ala Thr Gly Gly Trp Arg Pro Ser Ala Arg Pro 420 425 430 Gly Ala Arg Ala Pro His Ala Trp Leu Thr Pro Thr Thr Ser Thr Leu 435 440 445 Asp Leu Phe Gly Arg Gly Phe Val Leu Leu Ser Phe Gly Thr Thr Asp

450 455 460 Gly Val Glu Ala Val Thr Arg Ala Phe Ala Asp Arg His Val Pro Leu 465 470 475 480 Glu Thr Val Thr Cys His Ala Pro Glu Ile His Ala Leu Tyr Glu Arg

485 490 495 Ala His Val Leu Val Arg Pro Asp Gly His Val Ala Trp Arg Gly Asp 500 505 510 His Leu Pro Ala Glu Leu Gly Gly Leu Val Asp Lys Val Arg Gly Ala 515 520 525 Ala

<210> SEQ ID NO:12

<211> 397 aminoácidos

<212> polipétido

<220>

<223> OrfD6

<400>

Met Lys Pro Phe Asp Leu Lys Ala Phe Thr Gly Ala Asp Leu Ala Asp 5 10 15 Pro Tyr Pro Val Tyr Arg Glu Tyr Leu Thr Gly Asp Pro Val His His 20 25 30 Asn Gly Glu Ala Trp Tyr Val Phe Gly Tyr Asp Gly Val Ala His Val 35 40 45 Leu Thr Ser Arg Asp Tyr Gly Arg Arg Gly Pro Gly Gly Arg Ala Thr

50 55 60 Pro Ile Pro Pro Ser His Asp Thr Leu Ser Arg Ile Val Glu Asn Trp 65 70 75 80 Leu Val Phe Leu Asp Pro Pro Arg His Thr Ala Leu Arg Ser Leu Leu

85 90 95 Ala Lys Glu Phe Ser Pro Ala Val Val Thr Gly Leu Arg Glu Arg Val 100 105 110 Arg Lys Ile Ala Gly Glu Leu Leu Ala Gly Leu Gly Asp Ala Gly Glu 115 120 125 Ile Asp Leu Val Glu Asp Phe Ala Ala Pro Leu Pro Ile Leu Val Ile

130 135 140 Ser Glu Leu Leu Gly Val Pro Ala Arg Leu Arg Ser Trp Phe Arg Arg 145 150 155 160 Cys Ala Val Asp Leu Gln Glu Ala Ser Thr Ala Arg Ala Thr Arg Asn

165 170 175 Pro Gly Ala Leu Ala Arg Ala Asp Gly Ala Ala Ser Glu Leu Val Glu 180 185 190 Phe Phe Gly Gly Glu Leu Gly Thr Arg Lys Pro Asp Asp Glu Asp Leu 195 200 205 Val Ala Leu Leu Val Asn Ala Gln Arg Arg Gly Glu Ala Leu Thr Asp

210 215 220 Glu Glu Ile Val Ser Thr Cys Val His Leu Leu Thr Ala Gly His Glu 225 230 235 240 Thr Thr Thr Asn Leu Ile Ser Lys Ser Val Leu Ala Leu Leu Ala Asn

245 250 255 Pro Ala Ala Ala Ala Glu Pro Leu Ala Gly Leu Asp Val Thr Pro Gln 260 265 270 Val Val Glu Glu Leu Asn Arg Phe Asp Thr Pro Val Gln Met Val Thr 275 280 285 Arg Trp Ala His Gln Asp Thr Ala Leu Gly Gly Lys Pro Ile Arg Arg

290 295 300 Gly Asp Lys Val Val Leu Val Leu Gly Ser Ala Asn Arg Asp Pro Ala 305 310 315 320

Ala Phe Ala Glu Pro Asp Arg Leu Asp Leu Arg Arg Asp Ser Arg Arg 325 330 335 His Cys Gly Phe Gly Leu Gly Ile His Tyr Cys Leu Gly Ala Ala Leu 340 345 350 Ala Arg Thr Glu Ala Glu Ile Gly Leu Ser Val Leu Phe Thr Asn Phe 355 360 365 Pro Gly Leu Arg Leu Gly Gly Glu Pro Val Arg Tyr Ala Asp Asp Leu

370 375 380

Val Phe His Gly Pro Ala Arg Leu Pro Met Leu Thr Arg

385 390 395

<210> SEQ ID NO:13

<211> 273 aminoácidos

<212> polipétido

<220>

<223> OrfD7

<400>

Met Ala Ala Pro Thr Pro Glu Glu Val Arg Gln Met Tyr Asp Asp Phe 5 10 15 Thr Asp Pro Phe Ala Arg Ile Trp Gly Glu Asn Leu His Phe Gly Tyr 20 25 30 Trp Glu Asp Ala Gly Ala Asp Val Ser Val Asp Asp Ala Thr Asp Arg 35 40 45 Leu Thr Asp Glu Met Ile Ala Leu Leu Asp Val Arg Ser Gly Asp Arg

50 55 60

Val Leu Asp Val Gly Cys Gly Ile Gly Lys Pro Ala Val Arg Leu Ala

65 70 75 80

Thr Ala Arg Asp Val Arg Val Thr Gly Ile Ser Ile Ser Arg Pro Gln

85 90 95 Val Asn Gln Ala Asn Ala Arg Ala Thr Ala Ala Gly Leu Ala Asn Arg 100 105 110 Val Thr Phe Ser Tyr Ala Asp Ala Met Asp Leu Pro Phe Glu Asp Ala 115 120 125 Ser Phe Asp Ala Val Trp Ala Leu Glu Ser Leu His His Met Pro Asp

130 135 140

Arg Gly Arg Ala Leu Arg Glu Met Ala Arg Val Leu Arg Pro Gly Gly

145 150 155 160

Thr Val Ala Ile Ala Asp Phe Val Leu Leu Ala Pro Val Glu Gly Ala

165 170 175 Lys Lys Glu Ala Val Asp Ala Phe Arg Ala Gly Gly Gly Val Leu Ser 180 185 190 Leu Gly Gly Ile Asp Glu Tyr Glu Ser Asp Val Arg Gln Ala Glu Leu 195 200 205 Val Val Thr Ser Thr Val Asp Ile Ser Ala Gln Ala Arg Pro Ser Leu 210 215 220

Val Lys Thr Ala Glu Ala Phe Glu Asn Ala Arg Ser Gln Val Glu Pro 225 230 235 240 Phe Met Gly Ala Glu Gly Leu Asp Arg Met Ile Ala Thr Phe Arg Gly

245 250 255 Leu Ala Glu Val Pro Glu Ala Gly Tyr Val Leu Ile Gly Ala Arg Lys 260 265 270 Pro

<210> SEQ ID NO:14

<211> 923 aminoácidos

<212> polipétido

<220>

<223> OrfD8

<400>

Met Thr Arg Ser Arg Lys Ala Glu Phe Leu Ser Asp Val His Gln Asp 5 10 15 Asn Ala Asn Ser Phe Pro Gln Trp Asn Pro Arg Glu Thr Asn Cys Val 20 25 30 Ala Leu Pro Gly Arg Pro Val Arg Gly Arg Glu Ala Glu Leu Ala Arg 35 40 45 Ile Glu Gln Ala Leu Asp Asp Ala Ala Asn Ala Arg Gly Gly Val Leu

50 55 60 Leu Val Glu Gly Ala Arg Gly Ser Gly Arg Ser Arg Leu Leu Ala Glu 65 70 75 80 Thr Ala Arg Arg Ala Ala Glu Arg Gly Phe Asp Val Val Ser Ala Glu

85 90 95 Ala Asn Glu Leu Ala Arg Leu Val Pro Leu Ala Pro Ile Leu Ala Ala 100 105 110 Leu Gly Glu Pro Gln Pro Val Pro Gly Glu Ala Asp His Ser Phe Ala 115 120 125 Gly Leu Asp Asp Arg Trp Ser Arg Gln Leu Ala His Val Arg Gly Arg

130 135 140 Leu Ala Arg Arg Ile Val Lys Arg Pro Leu Ala Val Leu Leu Asp Asp 145 150 155 160 Leu Gln Trp Ala Asp Pro Val Thr Leu Leu Ala Leu Arg Ile Leu Pro

165 170 175 Ala Gln Leu Ala Gly Gln Pro Leu Leu Trp Met Leu Cys Arg Arg Thr 180 185 190 Asp Glu Arg Glu Pro Tyr Val Ala Gln Leu Tyr Asp Gln Leu Leu Ala 195 200 205 Ala Gly Val Ala Thr Pro Leu Arg Leu Gln Pro Leu Thr Ala Pro Ala

210 215 220 Ala Asp Glu Met Ala Ala Asp Leu Leu Gly Gly Ala Lys Pro Ala Pro 225 230 235 240 Glu Val Asn Ala Leu Val Gly Ala Ala Asp Gly Asn Pro Ala Val Leu

245 250 255

Thr Glu Leu Ile Glu Gly Leu Val Asp Glu Asn Val Val Val Cys Ser 260 265 270 Asp Gly Thr Ala Arg Leu Val His Gly Asn Ala Ser Ala Leu Leu Pro 275 280 285 Gln Arg Phe Arg Ser Leu Met Arg Gly Arg Ile Asp Ala Leu Ser Pro

290 295 300 Ser Thr Ala Arg Met Leu Glu Val Ala Ala Val Leu Gly Arg Ser Trp 305 310 315 320 Leu Pro Asp Asp Val Val Glu Met Leu Gly Thr Ser Thr Ala Glu Leu

325 330 335 Leu Pro Cys Phe Gln Glu Ala Leu Ala Ala Arg Leu Leu Met Ser Thr 340 345 350 Ser Asp Thr Met Val Phe Arg His Asp Leu Val Trp Arg Ser Ile Thr 355 360 365 Glu Ser Ile Pro Pro Ala Val Cys Ala Ala Leu His Arg Gln Ala Ala

370 375 380 Arg Met Leu Leu Asp Arg Gly Ser Pro Val Val Ser Val Ala Val His 385 390 395 400 Leu Ala Arg Gly Ala Arg Pro His Asp Val Glu Ala Val Ala Val Leu

405 410 415 Lys Asn Ala Ala Thr Glu Val Met Thr Ser Ser Pro Arg Thr Ala Val 420 425 430 Glu Phe Ala Ser Arg Ala Leu Glu Leu Thr Asp Arg Asp Gly Ser Thr 435 440 445 Arg Pro Ala Leu Thr Ala Val Leu Val Glu Ala His Thr Arg Ala Gly

450 455 460 Ala Leu Gly Arg Ala Val Ala Val Ala Ala Asn Ala Gly Pro Glu Thr 465 470 475 480 Pro Ala Pro Ala Leu His Arg Ser Leu Ser Thr Ala Leu Leu Leu Arg

485 490 495 Gly Glu Ala Arg Glu Ala Leu Ala Val Ser Glu Lys Ala Leu Ala Ala 500 505 510 Ala Ser Val Thr Pro Glu Thr Arg Glu Ala Leu Glu Ile Asn Arg Leu 515 520 525 Ala Ala Leu Ala Ala Leu Asp Asp Asp Ala Leu Gly Ser Glu Val Arg

530 535 540 Arg Cys Thr Gly Asp Ser Pro Gly Val Leu Thr Val Leu Ala Thr Ala 545 550 555 560 Arg Trp Gln Arg Gly Glu Phe Ala Glu Gly Leu Arg Leu Ala Arg Ala

565 570 575 Ala Ala Arg Ala Ala Glu Glu Gly Ala Pro Phe Pro Trp His Leu Asp 580 585 590 Pro Arg Ile Ala Leu Ala Ala Phe Leu Val Gln Ser Arg Arg Glu Asp 595 600 605 Glu Ala Arg Gln Val Ile Thr Val Leu Asp Gly Asp Ile Gly Arg Ser

610 615 620 Gly Leu Asp Val Leu Ala Ser Val Pro His Leu Leu Met Ala Gln Leu 625 630 635 640 His Leu Ala Ala Gly Arg Val Glu Glu Ala Ala Ser Arg Ala His Ala

645 650 655 Ala Leu Ala Glu Pro Val Thr Thr His Thr Pro Ile Ala His Ala Val 660 665 670

Leu Ala Ala Val Ala Leu Arg Arg Gly Asp Leu Val Ala Ala Ala Glu 675 680 685 His Ala His His Leu Asp Gly Val Arg Pro Val His Trp Arg Ala Gln

690 695 700 Thr Arg Trp Val Arg Thr Gln Leu Thr Ala Thr Ala Asp Ala Asp Ala 705 710 715 720 Gly Phe Ser Leu Ala Leu Leu Ala Glu Glu Pro Ala Ala Ala Ala Trp

725 730 735 His Val Arg Thr Ala Leu Val Ala Gly Glu Ala Asp Arg Ala Ala Ala 740 745 750 Val Leu Arg Arg Ile Ala Ala Ala Asp His Cys Pro Ala Ala Asp His 755 760 765 Ala Arg Gly Val Arg Asp Gly Asp Arg Ser Ala Leu Glu Arg Ala Val

770 775 780 Arg Asp His Val Asp Glu Trp Ala Arg Ala Ser Ala Ala Glu Asp Leu 785 790 795 800 Gly Val Leu Leu Thr Pro Asp Asp Arg Asn Ala Ala Val Glu Arg Leu

805 810 815 Asp Gln Ala Leu Thr Ala Tyr Thr Ala Ala Gly Ala Glu Arg Asp Ala 820 825 830 Ala Arg Val Arg Arg Arg Leu Arg Gly Leu Gly Val Arg Arg Arg His 835 840 845 Trp Arg Thr Ala Asp Arg Pro Glu Ser Gly Trp Asp Ser Leu Thr Asn

850 855 860 Thr Glu Leu Ser Val Ala Ser Leu Val Thr Gln Gly Leu Thr Asn Lys 865 870 875 880 Gln Val Ala Thr Gln Met Phe Leu Ser Pro His Thr Val Gly Phe His

885 890 895 Leu Arg Gln Ile Phe Arg Lys Leu Gly Val His Ser Arg Thr Glu Leu 900 905 910 Ile Arg Phe Gly Pro Asn Ala Gly Arg Thr Arg 915 920

<210> SEQ ID NO:15

<211> 170 aminoácidos

<212> polipétido

<220>

<223> OrfD9

<400>

Met Thr Ile Glu Phe Asp Arg Pro Gly Ala His Val Thr Ala Ala Asp 5 10 15 His Arg Ala Leu Met Ser Leu Phe Pro Thr Gly Val Ala Val Ile Thr 20 25 30 Ala Ile Asp Glu Ala Gly Thr Pro His Gly Met Thr Cys Thr Ser Leu 35 40 45

Thr Ser Val Thr Leu Asp Pro Pro Thr Leu Leu Val Cys Leu Asn Arg 50 55 60

Ala Ser Gly Thr Leu His Ala Val Arg Gly Gly Arg Phe Gly Val Asn 65 70 75 80 Leu Leu His Ala Arg Gly Arg Arg Ala Ala Glu Val Phe Ser Thr Ala

85 90 95 Val Gln Asp Arg Phe Gly Glu Val Arg Trp Glu His Ser Asp Val Thr 100 105 110 Gly Met Pro Trp Leu Ala Glu Asp Ala His Ala Phe Ala Gly Cys Val 115 120 125 Val Arg Lys Ser Thr Val Val Gly Asp His Glu Ile Val Leu Gly Glu

130 135 140 Val His Glu Val Val Arg Glu His Asp Leu Pro Leu Leu Tyr Gly Met 145 150 155 160 Arg Glu Phe Ala Val Trp Thr Pro Glu Gly

165 170

<210> SEQ ID NO:16

<211> 426 aminoácidos

<212> polipétido

<220>

<223> OrfD10

<400>

Met Ser Val His Ile Glu Pro Ile Gly Arg Phe Leu Leu Ala Val Gly 5 10 15 Val Ile Val Ala Val Cys His Leu Gly Gly Leu Leu Cys His Arg Ile 20 25 30 Arg Gln Pro Pro Val Ile Gly Glu Ile Ala Ala Gly Leu Leu Leu Gly 35 40 45 Pro Thr Leu Leu Gly Ala Val Ala Pro Ser Leu Gln Arg Ala Leu Phe

50 55 60 Pro Glu Glu Val Leu Gln Ala Val Gly Met Ala Ala Gln Leu Gly Leu 65 70 75 80 Val Thr Phe Met Phe Leu Leu Gly Ser Glu Leu Arg Val Asp His Val

85 90 95 Arg Gly Asn Gly Lys Val Val Trp Ala Leu Val Ala Gly Ser Ile Leu 100 105 110 Leu Pro Phe Leu Ala Gly Thr Gly Phe Ala Leu Leu Thr Arg Pro Ala 115 120 125 Phe Gly Thr Pro Gln Val Ser Thr Thr Ala Tyr Ala Leu Phe Val Gly

130 135 140 Leu Ala Met Ser Ile Thr Ala Leu Pro Val Leu Ala Arg Ile Leu Ala 145 150 155 160 Asp Phe Arg Ala Asp Gln Ser Phe Leu Gly Thr Leu Ala Leu Met Ala

165 170 175

Ala Ala Val Gly Asp Ala Leu Ala Trp Ala Ala Leu Thr Val Ile Leu 180 185 190 Ala Val Thr Gly Ser Gly Ser Thr Gly Glu Leu Val Leu Arg Ser Ala 195 200 205 Leu Ala Leu Thr Leu Val Leu Leu Thr Val Phe Val Val Lys Pro Ala

210 215 220 Leu Arg Thr Leu Leu His Arg Leu Pro Val Asn Ser Arg Val Thr Val 225 230 235 240 Pro Ala Leu Val Val Gly Thr Thr Ala Phe Ala Ala Thr Thr Glu Val

245 250 255 Ile Gly Leu His Pro Val Ile Gly Ala Phe Leu Phe Gly Cys Ala Met 260 265 270 Pro Arg Gly Ser Ala Val Leu Gln Arg Ala Ser Ala Gln Leu Arg Gly 275 280 285 Phe Thr Val Ser Val Leu Leu Pro Leu Phe Phe Ala Gly Val Ala Met

290 295 300 Lys Thr Ala Phe Asp Ala Phe Gly Thr Ala Gly Asn Trp Leu Leu Phe 305 310 315 320 Ala Ala Ala Leu Ala Val Ala Thr Val Thr Lys Phe Val Gly Ala Ser

325 330 335 Ser Gly Ala Leu Leu Ala Gly Leu Asp Arg Ala Arg Ala Phe Gln Leu 340 345 350 Gly Ala Leu Met Asn Cys Arg Gly Val Thr Glu Leu Val Val Ala Thr 355 360 365 Val Gly Leu Gln Asn Gly Phe Val Asn Glu Phe Gly Tyr Thr Val Leu

370 375 380 Val Leu Ile Ala Leu Val Thr Thr Ala Leu Thr Gly Pro Leu Ala Arg 385 390 395 400 Leu Arg Ala Glu Glu Ala Pro Gln Glu Asn His Arg Ile Pro Met Lys

405 410 415 His Gly Gly Thr Phe His Val Arg Gln Asp 420 425

<210> SEQ ID NO:17

<211> 530 aminoácidos

<212> polipétido

<220>

<223> OrfD11

<400>

Met Ser Gly Lys Ile Asp Lys Ile Leu Ile Val Gly Gly Gly Thr Ala 5 10 15 Gly Trp Met Ala Ala Ser Tyr Leu Gly Lys Ala Leu Gln Gly Thr Ala 20 25 30 Asp Ile Thr Leu Leu Gln Ala Pro Asp Ile Pro Thr Leu Gly Val Gly 35 40 45

Glu Ala Thr Ile Pro Asn Leu Gln Thr Ala Phe Phe Asp Phe Leu Gly

50 55 60 Ile Pro Glu Asp Glu Trp Met Arg Glu Cys Asn Ala Ser Tyr Lys Val 65 70 75 80 Ala Ile Lys Phe Ile Asn Trp Arg Thr Ala Gly Glu Gly Thr Ser Glu

85 90 95 Ala Arg Glu Leu Asp Gly Gly Pro Asp His Phe Tyr His Ser Phe Gly 100 105 110 Leu Leu Lys Tyr His Glu Gln Ile Pro Leu Ser His Tyr Trp Phe Asp 115 120 125 Arg Ser Tyr Arg Gly Lys Thr Val Glu Pro Phe Asp Tyr Ala Cys Tyr

130 135 140 Lys Glu Pro Val Ile Leu Asp Ala Asn Arg Ser Pro Arg Arg Leu Asp 145 150 155 160 Gly Ser Lys Val Thr Asn Tyr Ala Trp His Phe Asp Ala His Leu Val

165 170 175 Ala Asp Phe Leu Arg Arg Phe Ala Thr Glu Lys Leu Gly Val Arg His 180 185 190 Val Glu Asp Arg Val Glu His Val Gln Arg Asp Ala Asn Gly Asn Ile 195 200 205 Glu Ser Val Arg Thr Ala Thr Gly Arg Val Phe Asp Ala Asp Leu Phe

210 215 220 Val Asp Cys Ser Gly Phe Arg Gly Leu Leu Ile Asn Lys Ala Met Glu 225 230 235 240 Glu Pro Phe Leu Asp Met Ser Asp His Leu Leu Asn Asp Ser Ala Val

245 250 255 Ala Thr Gln Val Pro His Asp Asp Asp Ala Asn Gly Val Glu Pro Phe 260 265 270 Thr Ser Ala Ile Ala Met Lys Ser Gly Trp Thr Trp Lys Ile Pro Met 275 280 285 Leu Gly Arg Phe Gly Thr Gly Tyr Val Tyr Ser Ser Arg Phe Ala Thr

290 295 300 Glu Asp Glu Ala Val Arg Glu Phe Cys Glu Met Trp His Leu Asp Pro 305 310 315 320 Glu Thr Gln Pro Leu Asn Arg Ile Arg Phe Arg Val Gly Arg Asn Arg

325 330 335 Arg Ala Trp Val Gly Asn Cys Val Ser Ile Gly Thr Ser Ser Cys Phe 340 345 350 Val Glu Pro Leu Glu Ser Thr Gly Ile Tyr Phe Val Tyr Ala Ala Leu 355 360 365 Tyr Gln Leu Val Lys His Phe Pro Asp Lys Ser Leu Asn Pro Val Leu

370 375 380 Thr Ala Arg Phe Asn Arg Glu Ile Glu Thr Met Phe Asp Asp Thr Arg 385 390 395 400 Asp Phe Ile Gln Ala His Phe Tyr Phe Ser Pro Arg Thr Asp Thr Pro

405 410 415 Phe Trp Arg Ala Asn Lys Glu Leu Arg Leu Ala Asp Gly Met Gln Glu 420 425 430 Lys Ile Asp Met Tyr Arg Ala Gly Met Ala Ile Asn Ala Pro Ala Ser 435 440 445 Asp Asp Ala Gln Leu Tyr Tyr Gly Asn Phe Glu Glu Glu Phe Arg Asn 450 455 460

Phe Trp Asn Asn Ser Asn Tyr Tyr Cys Val Leu Ala Gly Leu Gly Leu 465 470 475 480 Val Pro Asp Ala Pro Ser Pro Arg Leu Ala His Met Pro Gln Ala Thr

485 490 495 Glu Ser Val Asp Glu Val Phe Gly Ala Val Lys Asp Arg Gln Arg Asn 500 505 510 Leu Leu Glu Thr Leu Pro Ser Leu His Glu Phe Leu Arg Gln Gln His 515 520 525 Gly Arg 530

<210> SEQ ID NO:18

<211> 473 aminoácidos

<212> polipétido

<220>

<223> OrfR1

<400>

Met Thr Ala Asp Glu Arg Asp Arg Ala Arg Ser Ala Leu Pro Phe Leu 5 10 15 Val Ile Thr Gln Leu Met Ile Val Leu Asp Ala Ser Ile Val Asn Ile 20 25 30 Ala Leu Pro Ser Met Gly Arg Glu Leu Gly Met Asp Gln Thr Gly Leu 35 40 45 Gln Trp Val Val Asn Ala Tyr Thr Leu Thr Phe Gly Gly Phe Leu Met 50 55 60

Leu Gly Gly Arg Met Ala Asp Leu Ile Gly Arg Arg Leu Val Phe Val 65 70 75 80 Ser Gly Ile Cys Leu Phe Gly Ala Ala Ser Leu Ala Ala Ala Leu Ala

85 90 95 Pro Val Ala Gly Val Leu Val Ala Ala Arg Ala Val Gln Gly Leu Ser 100 105 110 Ala Ala Val Ala Ser Ala Ala Ala Leu Ser Ile Ile Val Ala Thr Phe 115 120 125 Pro Glu Gly Lys Gly Arg Asn Gln Ala Leu Ala Met Trp Gly Ala Val

130 135 140 Ser Gly Val Gly Gly Ala Val Gly Val Leu Leu Gly Gly Val Leu Thr 145 150 155 160 Ser Gly Pro Gly Trp Pro Trp Ile Phe Tyr Ile Asn Val Pro Ile Val

165 170 175 Val Val Val Val Leu Gly Val Phe Arg Ser Val Ser Gly Ala Arg Gly 180 185 190 Asp Thr Arg Gly Arg Leu Asp Val Ala Gly Ala Val Thr Leu Thr Gly 195 200 205 Gly Leu Thr Leu Leu Val Tyr Ala Ile Val Ser Gly Gln Ser Gly Asp 210 215 220

Pro Val Thr Ile Leu Leu Ala Leu Gly Leu Ala Val Val Leu Leu Val 225 230 235 240 Ser Phe Phe Leu Val Gln Arg Lys Val Arg Glu Pro Leu Val Pro Leu

245 250 255 Ser Ser Phe Arg Asn Arg Asn Leu Ser Val Ala Ser Val Val Gly Leu 260 265 270 Phe Ala Gly Ala Ala Pro Tyr Ala Met Phe Phe Leu Leu Ser Leu His 275 280 285 Leu Gln Asn Val Val Gly Leu Thr Pro Leu Gln Thr Gly Leu Gly Phe

290 295 300 Leu Pro Val Ser Leu Ile Ser Met Val Gly Ala Ala Ala Leu Ala Pro 305 310 315 320 Leu Ala Met Ala Arg Ile Gly Met Arg Phe Thr Leu Leu Leu Ser Leu

325 330 335 Gly Val Leu Ala Val Gly Leu Val Leu Leu Ser Arg Leu Thr Glu Glu 340 345 350 Asp Gly Phe Gly Ala Thr Val Ala Gly Gln Leu Val Ala Gly Leu Gly 355 360 365 Leu Gly Thr Thr Phe Val Ala Val Thr Thr Ala Ala Val Ala Gly Leu

370 375 380 Ala Glu Asn Glu Ser Gly Leu Ala Ser Gly Leu Ile Asn Thr Ala Gln 385 390 395 400 Gln Leu Gly Gly Ala Leu Gly Leu Gly Ala Leu Ala Ala Leu Ser Gly

405 410 415 Ala Tyr Ser Ala Ala Glu Leu Ala Lys Glu Pro Pro Val Ser Glu Val 420 425 430 Ala Ala Leu Ser Ser Gly Tyr Gln Val Ala Phe Leu Gly Ala Ala Val 435 440 445 Phe Ala Val Ala Gly Ala Leu Ile Ala Leu Ala Leu Pro Arg Arg Glu

450 455 460 Ser Val Pro Ala Thr Thr Pro His Glu 465 470

<210> SEQ ID NO:19

<211> 81 aminoácidos

<212> polipéptido

<220>

<223> OrfD12

<400>

Met Ala Ala Glu Pro Asp Ala Arg Pro Leu Asp Gly Pro Ala Gly Gly 5 10 15 Asp Ala Gly Leu Pro Tyr Leu Ile Ala Arg Val Glu His Ala Ile Ala 20 25 30 Gly Arg Ala Asn Leu Ala Leu Gly Ala Leu Gly Leu Thr Ile Arg Gln 35 40 45

Met Gly Ala Leu Asp Ile Val Ser Arg Asn Pro Gly Ile Ser Ser Val

50 55 60 Glu Leu Ala Arg Gln Val Leu Val Thr Arg Gln Thr Met Asn Ser Met 65 70 75 80 Ile

<210> SEQ ID NO: 20

<211> 23 pares de base

<212> Oligonucléotido

<220>

<223> Oligonucléotido sintético CS003

<400>

TAGAATTCATCGAACCCGCGGCC 23

<210> SEQ ID NO: 21

<211> 24 pares de base

<212> Oligonucléotido

<220>

<223> Oligonucléotido sintético CS004

<400>

TATAAGCTTCGGCTGCCAGCGCTC 24

Claims

REIVINDICACIONES

1.-Procedimiento de obtención de indolocarbazoles mediante la utilización de genes biosintéticos de rebecamicina que comprende las siguientes etapas:

(a)

Aislar del genoma de un organismo productor de indolocarbazoles como Saccharothrix aerocolonigenes un fragmento de ADN, que comprende:

i. una secuencia de nucleótidos descrita como SEQ ID NO:1; o

ii. una secuencia de nucleótidos complementaria a SEQ ID NO:1; o

iii. una secuencia de nucleótidos degenerada respecto a SEQ ID NO:1;

(b)

Insertar dicho fragmento de ADN en un vector apropiado para las células hospedadoras.

(c)

Introducir dicho vector recombinante en las células hospedadoras, de manera que pueda ser mantenido de forma estable.

(d)

Cultivar las células hospedadoras obtenidas en un medio de cultivo adecuado para la producción de indolocarbazoles.
2.-Una molécula de ácido nucleico que comprende:

i. una secuencia de nucleótidos descrita como SEQ ID NO:1; o

ii. una secuencia de nucleótidos complementaria a SEQ ID NO:1; o

iii. una secuencia de nucleótidos degenerada respecto a SEQ ID NO:1; donde dicha secuencia codifica o es complementaria a una secuencia que codifica al menos un enzima biosintético de rebecamicina.
3.-Una molécula de ácido nucleico según la reivindicación 2, que codifica uno

o más polipéptidos, o comprende uno o más elementos genéticos, que poseen una actividad funcional en la síntesis de una estructura de indolocarbazol o un precursor de un indolocarbazol.
4.-Una molécula de ácido nucleico, según la reivindicación 3, donde dicha estructura de indolocarbazol es la rebecamicina, o un derivado de rebecamicina o un precursor de rebecamicina.
5.-Una molécula de ácido nucleico, según la reivindicación 2donde dicha molécula comprende -una o más secuencias reguladoras, y/o elementos genéticos codificantes o no codificantes de un agrupamiento de genes de biosíntesis de un indolocarbazol.
6.-Una molécula de ácido nucleico, según la reivindicación 2, que comprende una secuencia de nucleótidos que codifica una o más secuencias de aminoácidos seleccionadas de SEQ ID Nos:2 a 19, o una secuencia de nucleótidos que es complementaria o degenerada a dicha secuencia.
7.-Un polipéptido codificado por una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, que posee actividad funcional en la síntesis de una estructura de tipo indolocarbazol o un precursor de un indolocarbazol.
8.-Un polipéptido, según la reivindicación 7, que comprende una o más de las secuencias aminoacídicas descritas en una o más de las SEQ ID Nos:2 a 19, que posee actividad funcional en la síntesis de una estructura de tipo indolocarbazol.
9.- Un vector que comprende una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6.
10.-Un vector, según la reivindicación 9, designado como cósmido 14E8 y depositado en la cepa de Escherichia coli ED8767/14E8 con el número de identificación CECT 5984.
11.-Una célula hospedadora no-humana o un organismo transgénico microbiológico que comprende una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6.
12.-Una célula hospedadora no-humana o un organismo transgénico microbiológico que comprende un vector, según cualquiera de las reivindicaciones9 o
10.
13.-Células hospedadoras no-humanas, según las reivindicaciones 11 o 12, que consisten en una cepa pura de Streptomyces spp., o sus mutantes o sus derivados transformados.
14.-Células hospedadoras no-humanas, según la reivindicación 13, que consisten en una cepa pura de Streptomyces albus, o sus mutantes o sus derivados transformados.
15.-Células hospedadoras no-humanas, según cualquiera de las reivindicaciones 11 a 14, que expresan resistencia a rebecamicina.
16.-Células hospedadoras no-humanas, según cualquiera de las reivindicaciones11 a 14, que expresan resistencia a un indolocarbazol.
17.-Uso de una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, en la producción de indolocarbazoles, o derivados de indolocarbazoles o precursores de indolocarbazoles.
18.-Uso de una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, en la producción de rebecamicina, o derivados de rebecamicina

o precursores de rebecamicina.
19.-Uso de una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, para aumentar la producción de un indolocarbazol.
20.-Uso de una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, para la obtención de células hospedadoras no-humanas que expresen resistencia a un indolocarbazol.
21.-Uso de una molécula de ácido nucleico, según cualquiera de las reivindicaciones 2 a 6, en técnicas de PCR encaminadas al aislamiento de genes de biosíntesis de indolocarbazoles.
22.-Uso de células hospedadoras no-humanas u organismos transgénicos microbiológicos, según cualquiera de las reivindicaciones 11 a 16, en la producción de indolocarbazoles, o derivados de indolocarbazoles o precursores de indolocarbazoles.
23.-Uso de células hospedadoras no-humanas u organismos transgénicos microbiológicos, según cualquiera de las reivindicaciones 11 a 16, en la producción de rebecamicina, o derivados de rebecamicina o precursores de rebecamicina.