BRPI0616090A2

BRPI0616090A2 - métodos e materiais para identificação da origem de um carcinoma de origem primária desconhecida

Info

Publication number: BRPI0616090A2
Application number: BRPI0616090-5A
Authority: BR
Inventors: Wang Yixin; Talantov Dimitri; Jatkoe Timothy; Baden Jonathan; Mazumder Abhijit
Original assignee: Veridex, Llc
Priority date: 2005-09-19
Filing date: 2006-09-19
Publication date: 2011-06-07
Also published as: EP2402758A2; EP1934615A2; DK1934615T3; EP1934378A2; ES2494843T3; BRPI0616211A2; EP2402758B1; HK1128524A1; EP1934378A4; ES2525545T3; JP2009509502A; EP1934615A4; WO2007035676A3; WO2007035676A2; CA2623775A1; CA2623425A1; US20070065859A1; EP2402758A3; US20080050726A1; DK2402758T3

Abstract

MéTODOS E MATERIAIS PARA IDENTIFICAçãO DA ORIGEM DE UM CARCINOMA DE ORIGEM PRIMáRIA DESCONHECIDA. A presente invenção refere-se a um método de identificação da origem de uma metástase de origem desconhecida pela obtenção de uma amostra contendo células metastáticas; a medição de Biomarcadores associados a, pelo menos, dois carcinomas diferentes; a combinação dos dados dos Biomarcadores em um algoritmo, em que o aígoritmo normaliza os Biomarcadores contra uma referência e impõe um limite de corte que otimiza a sensibilidade e especificidade de cada Biomarcador, pondera a prevalência dos carcinomas e seleciona um tecido de origem; a determinação da origem com base na probabilidade mais alta, determinada pelo algoritmo, ou a determinação que o carcinoma não é derivado de um conjunto de carcinomas em particular; e, opcionalmente, a medição de Biomarcadores específicos para um ou mais carcinomas adicionais diferentes e a repetição das etapas para Biomarcadores adicionais.

Description

Relatório Descritivo da Patente de Invenção para "MÉTODOS EMATERIAIS PARA IDENTIFICAÇÃO DA ORIGEM DE UM CARCINOMADE ORIGEM PRIMÁRIA DESCONHECIDA".

Campo da Invenção

A presente invenção refere-se a materiais, métodos, algoritmos,kits, etc., para a identificação da origem de um carcinoma de origem primáriadesconhecida.

Antecedentes da Invenção

O carcinoma primário desconhecido (CUP) reúne um conjuntode neoplasias malignas confirmadas por biópsia, em que a doença metastá-tica está presente sem localização identificável do tumor primário ou tecidode origem (ToO). Essa situação representa aproximadamente 3-5% de todosos cânceres, tornando-a a sétima mais comum entre as doenças malignas.Ghosh et al. (2005) e Mintzer et al. (2004). O prognóstico e regime terapêuti-co de pacientes dependem da origem do tumor primário, ressaltando a ne-cessidade para identificação da localizaçãó do tumor primário. Greco et al.(2004); Lembersky et al. (1996) e Schlag etal. (1994).

Atualmente, uma diversidade de métodos é utilizada para resol-ver essa questão. O diagrama de diversos métodos seguidos é apresentadonas Figuras 1-2. Marcadores séricos de tumor podem ser utilizados para di-agnóstico diferencial. Embora careçam da especificidade adequada, elespodem ser utilizados combinados à informação patológica e clínica. Ghoshet al. (2005). Métodos imuno-histoquímicos (IHC) podem ser utilizados paraidentificar linhagens de tumor, porém um número muito pequeno de Marca-dores IHC são 100% específicos. Por esse motivo, patologistas utilizam fre-qüentemente um painel de Marcadores IHC. Diversos estudos demonstra-ram haver 66-68% de precisão ao serem utilizados de quatro a 14 Marcado-res IHC. Brown et al. (1997), DeYoung et al. (2000) e Dennis et al. (2005a).

Estudos diagnósticos mais dispendiosos incluem métodos de visualizaçãode imagens, como raios X de tórax, tomografia computadorizada (CT) e to-mografia por emissão de positrons (PET). Cada um destes métodos conse-gue identificar o tumor primário em 30 a 50% dos casos. Ghosh et al. (2005)e Pavlidis et al. (2003). Apesar dessas técnicas sofisticadas, a capacidadepara resolução de casos de CUP é de somente 20-30% ante mortem. Pavli-dis et al. (2003) e Varadhachary et al. (2004).

Uma nova abordagem promissora reside na capacidade de seanalisar o perfil de expressão gênica em nível genômico para identificaçãoda origem de tumores. Ma et al. (2006), Dennis et al. (2005b), Su et al.(2001), Ramaswamy et al. (2001), Bloom et al. (2004), Giordano etal. (2001)e 20060094035. Estes estudos demonstraram ser viável a identificação dotecido de origem com base no perfil de expressão gênica. Para que estastécnicas de análise de expressão possam ser úteis no ambiente clínico, doisgrandes obstáculos precisam ser superados. Em primeiro lugar, como a aná-lise de expressão gênica foi conduzida em tecidos primários, os possíveiscandidatos a marcadores gênicos precisam ser validados em relação a teci-dos metastáticos para confirmar que a sua expressão específica do tecidoestá preservada em metástases. Em segundo lugar, é preciso que a técnicautilizada para a análise de perfis de expressão gênica possa empregar teci-do embebido em parafina e fixado por formalina (FFPE), uma vez que a a-mostra de tecido fixada é o material padrão na prática atual. A fixação porformalina leva à degradação do RNA (Lewis et al. (2001) e Masuda et al.(1999)) e, dessa forma, os protocolos existentes de microarranjos não terãoum desempenho confiável. Bibikova et al. (2004). Adicionalmente, a técnicapara a análise de perfis precisa ser robusta, reprodutível e de fácil acesso.

Foi demonstrado que a técnica de RTPCR quantitativa (qRTP-CR) gera resultados confiáveis, obtidos de tecido FFPE. Abrahamsen et al.(2003), Specht et al. (2001), Godfrey et al. (2000) e Cronin et al. (2004). Por-tanto, uma abordagem mais prática seria a de utilizar um método em nívelgenômico como ferramenta para descoberta e desenvolvimento de um en-saio diagnóstico com base em uma técnica mais robusta. Ramaswamy(2004). Esse paradigma, contudo, requer o desenvolvimento de um conjuntomenor de genes. Oien e outros utilizaram análise serial de expressão gênica(SAGE) para identificar 61 Marcadores de tumor, e a partir destes, desenvol-veram um método de RTPCR com base em onze genes para cinco tipos detumor. Dennis et aí. (2002). Outro estudo que acoplou SAGE e qRTPCR de-senvolveu um painel de cinco genes para quatro tipos de tumor, tendo sidoobtida uma precisão de 81 %. Buckhaults et ai (2003). Um estudo mais re-cente acoplou análise de expressão de microarranjo a qRTPCR, utilizando,porém, 79 Marcadores. Tothill et aí. (2005).

Sumário da Invenção

A presente invenção provê um método para identificação da ori-gem de uma metástase de origem desconhecida pela obtenção de uma a-mostra contendo células metastáticas; a medição de Biomarcadores associ-ados a, pelo menos, dois carcinomas diferentes; a combinação dos dados,obtidos dos Biomarcadores, em um algoritmo, em que o algoritmo: normalizaos Biomarcadores em relação a uma referência e impõe um limite de corteque otimiza a sensibilidade e especificidade de cada Biomarcador, ponderaa prevalência dos carcinomas e seleciona um tecido de origem; a determina-ção da origem com base na probabilidade mais alta determinada pelo algo-ritmo ou a determinação de que o carcinoma não é derivado de um conjuntoparticular de carcinomas; e, opcionalmente, a medição de Biomarcadoresespecíficos para um ou mais carcinomas adicionais diferentes, e a repetiçãode etapas, conforme necessárias, para Biomarcadores adicionais.

Breve Descrição dos Desenhos

As Figuras 1-2 descrevem métodos anteriores da técnica de i-dentificação de origem de uma metástase de origem desconhecida.

A Figura 3 descreve o presente algoritmo diagnóstico de CUP.

A Figura 4 descreve os dados de microarranjo, exibindo o nívelde intensidade de dois genes em um painel de tecidos. (A) Antígeno de célu-las-tronco de próstata (PSCA). (B) Fator V de coagulação (F5). O gráfico embarras mostra a intensidade no eixo y e o tecido no eixo x. Ca Pane, câncerpancreático; Panc N, pâncreas normal.

A Figura 5 retrata eletroferogramas obtidos de um BioanalisadorAgilent. O RNA foi isolado de tecido FFPE, utilizando digestão de proteinaseK de três horas (A) ou dezesseis horas (Β). A amostra C22 (vermelha) eraum bloco de um ano enquanto que a amostra C23 (azul) era um bloco decinco anos. Uma escala de tamanho é exibida em verde.

A Figura 6 descreve uma comparação de valores de Ct1 obtidosde três métodos diferentes de qRTPCR: "random hexamer priming" natranscrição reversa seguida por qPCR com o cDNA resultante (RH duas eta-pas), iniciação de gene específico (iniciador reverso) na transcrição reversaseguida por qPCR com o cDNA resultante (GSP duas etapas) ou iniciaçãode gene específico e qRTPCR em uma reação de uma etapa (GSP 1 etapa).O RNA de onze amostras foi repartido entre os três métodos e foi efetuada amedição do nível de RNA para três genes: β-actina (A), HUMSPB (B)1 e TTF(C). O valor mediano de Ct1 obtido com cada método, está indicado pela li-nha grossa.

A Figura 7 retrata diagramas de placas de ensaio de CUP.

A Figura 8 apresenta uma série de gráficos, retratando o de-sempenho do ensaio ao longo de um intervalo de concentrações de RNA.

A Figura 9 apresenta o fluxograma de um experimento: nomea-cão e validação de possível Marcador (9A) e analisar a otimização e previ-são da verificação e construção de algoritmo (9B).

A Figura 10 descreve a expressão de 10 possíveis Marcadoresgênicos selecionados, específicos de tecidos em amostras FFPE de carci-nomas metastáticos e adenocarcinoma primário de próstata. O eixo X repre-senta, em todos os gráficos, o valor normalizado da expressão do Marcador.

A Figura 11 descreve a otimização do ensaio. (A e B) Eletrofero-gramas obtidos de um BioanaIisadorAgiIent. RNAfoi isolado de tecido FFPEpela digestão com proteinase K por três horas (A) ou dezesseis horas (Β). Aamostra C22 (vermelha) era um bloco de um ano enquanto que a amostraC23 (azul) era um bloco de cinco anos. Uma escala de tamanho é exibidaem verde. (C e D) Comparação de valores de Ct, obtidos de três métodosdiferentes de qRTPCR: "random hexamer priming" na transcrição reversaseguida por qPCR com o cDNA resultante (RH 2 etapas), iniciação de geneespecífico (iniciador reverso) na transcrição reversa seguida por qPCR como cDNA resultante (GSP duas etapas) ou iniciação de gene específico eqRTPCR em uma reação de uma etapa (GSP uma etapa). O RNA de onzeamostras foi dividido nos três métodos e foram medidos níveis de RNA paratrês genes: β-actina (A), HUMSPB (B)1 e TTF (C). O valor mediano de Ct1obtido com cada método, está indicado pela linha grossa.

A Figura 12 representa um mapa de calor no qual são mostradosos níveis de expressão relativos do painel de 10 Marcadores entre 239 a-mostras. Vermelho indica nível de expressão mais alto.Descrição detalhada

A identificação do sítio primário em pacientes com carcinomametastático de origem primária desconhecida (CUP) pode possibilitar a apli-cação de regimes terapêuticos específicos e prolongar a sobrevida. Os pos-síveis Marcadores foram validados, em seguida, por reação em cadeira depolimerase via transcriptase reversa (RT-PCR) em 205 carcinomas metastá-ticos FFPE, provenientes de seis tecidos desse tipo, bem como de metásta-ses provenientes de outros tipos de câncer, para determinação de especifi-cidade. Foi selecionada assinatura de dez genes que predisse o tecido deorigem de carcinomas metastáticos para estes seis tipos de câncer. Em se-guida, os métodos para isolamento de RNA e de qRTPCR foram otimizadospara estes dez Marcadores e aplicados ao ensaio de qRTPCR em relação aum conjunto de 260 tumores metastáticos, gerando uma precisão global de78%. Finalmente, foi testado um conjunto independente de 48 amostras demetástases. Cabe observar, que trinta e sete amostras, neste conjunto, pos-suíam uma origem primária conhecida ou se apresentaram inicialmente co-mo CUP1 porém foram resolvidos subseqüentemente, e o ensaio demons-trou uma precisão de 78%.

Biomarcador significa qualquer indício de nível de expressão deum Marcador gênico especificado. O indício pode ser direto ou indireto emedir a super ou subexpressão do gene em relação a parâmetros fisiológi-cos definidos e em comparação a um controle interno, tecido normal ou ou-tro carcinoma. Biomarcadores incluem, entre outros, ácidos nucleicos (tantoa super como subexpressão e direta e indireta). O uso de ácidos nucleicoscomo Biomarcadores pode incluir qualquer método conhecido na técnica,incluindo, entre outros, a medição de amplificação de DNA, RNA, microRNA1 perda de heterozigosidade (LOH)1 polimorfismos de nucleotídeo sim-ples (SNPs, Brookes (1999)), DNA microssatélite, hipo ou hiper-metilação deDNA. O uso de proteínas como Biomarcadores inclui qualquer método co-nhecido na técnica, incluindo, entre outros, a determinação de quantidade,atividade, modificações como glicosilação, fosforilação, ADP-ribosilação,ubiquitinização, etc. ou imuno-histoquímica (IHC). Outros Biomarcadoresincluem Marcadores visuais, contagem de células e de apoptose.

Os genes indicados providos neste pedido são aqueles associa-dos a um tumor ou tipo de tecido em particular. Um gene Marcador podeestar associado a inúmeros tipos de câncer, porém se a expressão do genefor suficientemente associada a um tumor ou tipo de tecido a ser identificadoutilizando o algoritmo exposto no presente e for constatado ser específicopara uma origem em particular, este gene pode ser utilizado na invençãoreivindicada para determinar o tecido de origem de um carcinoma de origemprimária desconhecida (CUP). Inúmeros genes associados a um ou maistipos de câncer são conhecidos na técnica. A presente invenção provê ge-nes Marcadores preferidos e combinações de genes Marcadores ainda maispreferidas. Estes são expostos em detalhes no presente pedido.

"Origem", conforme referida em "tecido de origem", significa otipo de tecido (pulmão, colo, etc.) ou o tipo histológico (adenocarcinoma,carcinoma de células escamosas, etc.), dependendo das circunstâncias mé-dicas particulares e será entendida por qualquer técnico no assunto.

Gene Marcador corresponde à seqüência designada por umaSEQ ID NO quando esta contiver aquela seqüência. Segmento ou fragmentode um gene corresponde à seqüência deste gene quando o segmento conti-ver uma parte da seqüência referenciada ou seu complemento, suficientepara distinguir a mesma como sendo a seqüência do gene. Produto de ex-pressão gênica corresponde à seqüência quando o seu RNA, mRNA, oucDNA hibridizar-se para a composição contendo esta seqüência (por exem-pio, uma sonda) ou, no caso de um peptídeo ou proteína, este for codificadopor este produto. Segmento ou fragmento de um produto de expressão gêni-ca corresponde à seqüência deste gene ou produto de expressão gênicaquando este segmento contiver uma parte do produto da expressão gênicareferenciada, ou de seu complemento, suficiente para distinguir a mesmacomo sendo a seqüência do gene ou do produto da expressão do gene.

Os métodos, composições, artigos e kits da invenção, expostose reivindicados na presente especificação, inclui um ou mais genes Marca-dores. "Marcador" ou "gene Marcador" é utilizado em toda a exposição destepedido para fazer referência a genes e produtos de expressão gênica quecorrespondem a super ou subexpressão de qualquer gene que esteja asso-ciada a um tumor ou tipo de tecido. Os genes Marcadores preferidos sãodescritos mais detalhadamente na Tabela 1.

Tabela 1

<table>table see original document page 8</column></row><table><table>table see original document page 9</column></row><table><table>table see original document page 10</column></row><table>

A presente invenção refere-se a um método para identificaçãode origem de uma metástase de origem desconhecida pela medição de Bi-omarcadores associados a, pelo menos, dois carcinomas diferentes em umaamostra contendo células metastáticas; a combinação dos dados, obtidosdos Biomarcadores, em um algoritmo em que o algoritmo: normaliza os Bio-marcadores em relação a uma referência e impõe um limite de corte queotimiza a sensibilidade e especificidade de cada Biomarcador1 pondera aprevalência dos carcinomas e seleciona um tecido de origem; a determina-ção da origem, com base na probabilidade mais alta determinada pelo algo-ritmo ou a determinação de que o carcinoma não é derivado de um conjuntoparticular de carcinomas; e, opcionalmente, a medição de Biomarcadoresespecíficos para um ou mais carcinomas adicionais diferentes e a repetiçãode etapas, conforme necessárias, para Biomarcadores adicionais.

A presente invenção refere-se a um método para identificaçãode origem de uma metástase de origem desconhecida pela obtenção deuma amostra contendo células metastáticas; a medição de Biomarcadoresassociados a, pelo menos, dois carcinomas diferentes; a combinação dosdados obtidos dos Biomarcadores em um algoritmo, em que o algoritmo i)normaliza os Biomarcadores em relação a uma referência e ii) impõe umlimite de corte que otimiza a sensibilidade e especificidade de cada Biomar-cardor, pondera a prevalência dos carcinomas e seleciona um tecido de ori-gem; a determinação de origem, com base na probabilidade mais alta de-terminada pelo algoritmo ou a determinação de que o carcinoma não é deri-vado de um conjunto particular de carcinomas; e, opcionalmente, a mediçãode Biomarcadores específicos para um ou mais carcinomas adicionais dife-rentes e a repetição das etapas c) e d) para os Biomarcadores adicionais.

Em uma concretização, os genes Marcadores são selecionadosentre i) SP-B, TTF, DSG3, KRT6F, p73H ou SFTPC; ii) F5, PSCA, ITGB6,KLK10, CLDN18, TR10 ou FKBP10; e/ou iii) CDH17, CDX1 ou FABP1. Depreferência, os genes Marcadores são SP-B, TTF, DSG3, KRT6F, p73H,e/ou SFTPC. Mais preferencialmente, os genes Marcadores são SP-B, TTFe/ou DSG3. Os genes Marcadores podem incluir ainda ou serem substituí-dos por KRT6F, p73H e/ou SFTPC.

Em uma concretização, os genes Marcadores são F5, PSCA,ITGB6, KLK10, CLDN18, TR10 e/ou FKBP10. Mais preferencialmente, os genesMarcadores são F5 e/ou PSCA. De preferência, os genes Marcadores podemincluir ou serem substituídos por ITGB6, KLK10, CLDN18, TR10 e/ou FKBP10.

Em outra concretização, os genes Marcadores são CDH17,CDX1 e/ou FABP1, de preferência, CDH17. Os genes Marcadores podemincluir ainda ou serem substituídos por CDX1 e/ou FABP1.

Em uma concretização, a expressão gênica é medida utilizandopelo menos uma entre as seqüências indicadas em SEQ ID Nos: 11-58.

A presente invenção abrange também métodos que medem aexpressão gênica pela obtenção e medição de pelo menos um dos ampli-cons das SEQ ID NoS: 14, 18, 22, 26, 30, 34, 38, 42, 46, 50, 54 e/ou 58.

Em uma concretização, os genes Marcadores podem ser sele-cionados entre Marcadores específicos de um sexo, selecionados, pelo me-nos, um, entre: i) no caso de paciente masculino, KLK3, KLK2, NGEP ouNPY; ou ii) em caso de paciente feminino, PDEF, MGB, PIP, B305D, B726ou GABA-Pi; e/ou WT1, PAX8, STAR ou EMX2. De preferência, o gene Mar-cador é KLK2 ou KLK3. Nesta concretização, os genes Marcadores podemincluir ou serem substituídos por NGEP e/ou NPY. Em uma concretização,os genes Marcadores são PDEF, MGB, PIP, B305D, B726 ou GABA-Pi, depreferência, PDEF e MGB. Nesta concretização, os genes Marcadores po-dem incluir ou serem substituídos por PIP, B305D, B726 ou GABA-Pi. Emuma concretização, os genes Marcadores são WT1, PAX8, STAR ou EMX2,de preferência, WT1. Nesta concretização, os genes Marcadores podem in-cluir ou serem substituídos por PAX8, STAR ou EMX2.

A presente invenção provê métodos para obtenção de informa-ção clínica adicional, incluindo o local de metástases para determinação daorigem do carcinoma; a obtenção de conjuntos mais adequados de biomar-cadores para carcinomas, compreendendo as etapas de uso de metástasesde origem conhecida, a determinação de Biomarcadores para as mesmas ea comparação dos Biomarcadores com Biomarcadores de metástases deorigem desconhecida; o fornecimento de indicação de terapia pela determi-nação da origem de uma metástase de origem desconhecida e a identifica-ção do tratamento apropriado para a mesma; e o fornecimento de prognósti-co pela determinação da origem de uma metástase de origem desconhecidae a identificação do prognóstico correspondente para a mesma.

A presente invenção provê ainda métodos para descoberta deBiomarcadores pela determinação do nível de expressão de um gene Mar-cador em uma metástase em particular, a medição de um Biomarcador parao gene Marcador a fim de ser determinada a expressão do mesmo, a análiseda expressão do gene Marcador, de acordo com qualquer um dos métodosprovidos neste pedido ou conhecidos na técnica, e a determinação se o ge-ne Marcador é eficazmente específico para o tumor de origem.

A presente invenção provê ainda uma composição contendo pe-lo menos uma seqüência isolada, selecionada dentre as SEQ ID NoS: 11-58.Além disso, a presente invenção provê kits para a condução de um ensaiode acordo com os métodos providos neste pedido, contendo ainda reagentespara detecção de Biomarcadores.

A presente invenção provê ainda microarranjos ou chips de ge-nes para a realização dos métodos expostos neste pedido.

A presente invenção provê ainda portfólios diagnósti-cos/prognósticos, contendo seqüências isoladas de ácidos nucleicos, seuscomplementos, ou partes das mesmas presentes em uma combinação degenes, de acordo com a exposição neste pedido, em que a combinação ésuficiente para medir ou caracterizar a expressão gênica em uma amostrabiológica, contendo células metastáticas, em relação a células de carcino-mas diferentes ou de tecido normal.

Qualquer método descrito na presente invenção pode incluir ain-da a medição da expressão de pelo menos um gene, cuja expressão na a-mostra é do tipo constitutiva.

De preferência, os Marcadores para câncer pancreático são fatorV de coagulação (F5), antígeno de células-tronco de próstata (PSCA), inte-grina, β6 (ITGB6), calicreína 10 (KLK10), claudina 18 (CLDN18), trio isofor-ma (TR10) e a proteína hipotética FLJ22041 semelhante às proteínas deligação FK506 (FKBP10). De preferência, os Biomarcadores para F5 e PS-CA são medidos em conjunto. Os Biomarcadores para ITGB6, KLK10,CLDN18, TR10 e FKBP10 podem ser medidos além ou em vez de F5 e/ouPSCA. F5 é descrito, por exemplo, pelas patentes 20040076955,20040005563 e W02004031412. PSCA é descrito, por exemplo, pelas pa-tentes WOI998040403, 20030232350 e W02004063355. ITGB6 é descrito,por exemplo, pelas patentes W02004018999 e 6339148. KLK10 é descrita,por exemplo, pelas patentes W02004077060 e 20030235820. CLDN18 édescrita, por exemplo, pelas patentes W02004063355 e W02005005601.TR10 é descrito, por exemplo, pela patente 20020055627. FKBP10 é descri-ta, por exemplo, pela patente W02000055320.

De preferência, os genes Marcadores para câncer de colo são otransportador HPT-1 associado a peptídeo intestinal (CDH17), fator 1 detranscrição homeobox do tipo caudal (CDX1) e a proteína 1 ligada a ácidosgraxos (FABP1). De preferência, o Biomarcador para CDH17 é medido isola-damente. Biomarcadores para CDX1 e FABP1 podem ser medidos além ouem vez de um Biomarcador para CDH17. O CDH17 é descrito, por exemplo,por Takamura et al. (2004) e na patente W02004063355. O CDX1 é descrito,por exemplo, por Pilozzi et al. (2004) e pelas patentes 20050059008 e20010029020. A FABP1 é descrita, por exemplo, por Borchers et al. (1997),Chan et al. (1985), Chen et al. (1986) e Lowe et al. (1985).

De preferência, os genes Marcadores para câncer de pulmãosão a proteína B surfactante (SP-B), o fator de transcrição da tireoide (TTF),desmogleína 3 (DSG3), isoforma 6F de queratina 6 (KRT6F), gene relacio-nado com p53 (p73H) e proteína C surfactante (SFTPC). De preferência, osBiomarcadores para SP-B, TTF e DSG3 são medidos em conjunto. Os Bio-marcadores para KRT6F, p73H e SFTPC podem ser medidos além e em vezde qualquer um dos Biomarcadores para SP-B, TTF e/ou DSG3. A SP-B édescrita, por exemplo, por Pilot-Mathias et al. (1989) e pelas patentes20030219760 e 20030232350. O TTF é descrito, por exemplo, por Jones etal. (2005) e as patentes US20040219575, W01998056953, W02002073204,20030138793 e W02004063355. A DSG3 é descrita, por exemplo, por Wanet al. (2003) e as patentes 20030232350, aW02004030615 eW02002101357. A KRT6F é descrita, por exemplo, por Takahashi et al.(1995) e pelas patentes 20040146862 e 20040219572. O p73H é descrito,por exemplo, por Senoo et al. (1998) e a patente 20030138793. A SFTPC édescrita, por exemplo, por Glasser et aí. (1988).

Os genes Marcadores podem ser selecionados ainda entre Marca-dores específicos de um sexo como, por exemplo, no caso de um pacientemasculino, KLK3, KLK2, NGEP ou NPY; ou, no caso de paciente feminina, PDEF,MGB, PIP, B305D, B726 OU GABA-Pi; e/ou WT1, PAX8, STAR ou EMX2.

De preferência, os genes Marcadores para câncer de mama sãoo fator epitelial derivado de próstata (PDEF), mamaglobina (MG), proteínainduzível por prolactina (PIP), B305D, B726 e GABA-π. De preferência, osBiomarcadores para PDEF e MG são medidos em conjunto. Os Biomarcado-res para PIP, B305D, B726 e GABA-Pi podem ser medidos além ou em vezde Biomarcadores para PDEF e/ou MG. O PDEF é descrito, por exemplo,pelas patentes W02004030615, W02000006589, W02001073032, por Wal-Iace et al. (2005), Feldman et al. (2003) e Oettgen et al. (2000). A MG é des-crita, por exemplo, pelas patentes W02004030615, 20030124128, por Fle-ming et al (2000), Watson et al. (1996 e 1998); e 5668267. A PIP é descrita,por exemplo, por Autiero et al. (2002), Clark et ai (1999), Myal et al. (1991) eMurphy et al. (1987). B305D, B726 e GABA-Pi são descritas por Reinholz etal. (2005). A NGEP é descita, por exemplo, por Bera etal. (2004).

De preferência, os Marcadores para câncer de ovário são tumor 1de Wilm (WT1), PAX8, proteína reguladora esteroidogênica aguda (STAR) eEMX2. De preferência, são medidos Biomarcadores para WT1. Biomarcadorespara STAR e EMX2 podem ser medidos além ou em vez de Biomarcadorespara WT1. O WT1 é descrito, por exemplo, pelas patentes 5350840, 6232073,6225051; 20040005563 e por Bentov et al. (2003). A PAX8 é descrita, por e-xemplo, pela patente 20050037010, por Poleev et al. (1992), Di Palma et al.(2003), Marques et al. (2002), Cheung et al. (2003), Goldstein et al. (2002), Ojiet al. (2003), Rauscher et al. (1993), Zapata-Benavides et al. (2002) e Dwight etal. (2003). A STAR é descrita, por exemplo, por Gradi et al. (1995) e Kim et al.(2003). O EMX2 é descrito, por exemplo, por Noonan etal. (2001).De preferência, os Marcadores para câncer de próstata sãoKLK3, KLK2, NGEP e NPY. De preferência, são medidos Biomarcadorespara KLK3. Biomarcadors para KLK2, NGEP e NPY podem ser medidos a-lém ou em vez de KLK3. KLK2 e KLK3 são descritos, por exemplo, por Mag-klara et ai. (2002). KLK2 é descrito, por exemplo, pelas patentes20030215835 e 5786148. KLK3 é descrito, por exemplo, pela patente6261766.

O método pode incluir também a obtenção de informação clínicaadicional, incluindo o local de metástases, para a determinação da origem docarcinoma. Na Figura 3, é apresentado um fluxograma.

A invenção provê ainda um método para obtenção de conjuntosmais adequados de biomarcadores para carcinomas pelo uso de metástasesde origem conhecida, a determinação de Biomarcadores para as mesmas ea comparação dos Biomarcadores em relação a Biomarcadores de metásta-ses de origem desconhecida.

A invenção provê ainda um método para orientação de terapiapela determinação da origem de uma metástase de origem desconhecida,de acordo com os métodos expostos neste pedido, e a identificação do tra-tamento apropriado para a mesma.

Ademais, a invenção provê um método para fornecimento deprognóstico pela determinação da origem de uma metástase de origem des-conhecida, de acordo com os métodos expostos neste pedido, e a identifica-ção do prognóstico correspondente para a mesma.

A invenção provê ainda para a descoberta de Biomarcadores,compreendendo a determinação do nível de expressão de um gene Marca-dor, em uma metástase em particular, a medição de um Biomarcador para ogene Marcador para determinação da expressão do mesmo, a análise daexpressão do gene Marcador, de acordo com os métodos expostos nestepedido, e a determinação se o gene Marcador é eficazmente específico parao tumor de origem.

A invenção provê ainda composições compreendendo, pelo me-nos, uma seqüência isolada entre as indicadas pelas SEQ ID NoS: 11-58.A invenção provê ainda kits, artigos, microarranjos ou chips degenes, portfólios diagnósticos/prognósticos para condução dos ensaios des-critos no presente e relatórios de pacientes para apresentação dos resulta-dos obtidos pelos presentes métodos.

Foi constatado que a simples presença ou ausência de seqüên-cias específicas de ácidos nucleicos, em amostra de tecido, não possui valordiagnóstico ou prognóstico. Informação sobre a expressão de várias proteí-nas, peptídeos ou mRNA, por outro lado, está sendo considerada cada vezmais como importante. A simples presença de seqüências de ácidos nuclei-cos com o potencial para expressar proteínas, peptídeos ou mRNA (estasseqüências referidas como "genes") no genoma, não é por si só fator deter-minante se uma proteína, peptídeo ou mRNA é expresso em uma determi-nada célula. Se um determinado gene é capaz ou não de expressar proteí-nas, peptídeos ou mRNA assim o faz e em qual extensão esta expressãoocorre, se ocorrer, é determinado por uma variedade de fatores complexos.Independentemente das dificuldades no entendimento e análise destes fato-res, a análise da expressão gênica pode fornecer informação útil sobre aocorrência de eventos importantes como tumorogênese, metástase, apopto-se e outros fenômenos clinicamente relevantes. Os perfis de expressão gê-nica desta invenção são utilizados para prover um diagnóstico e tratamentode pacientes com CUP.

O preparo de amostras requer a coleta de amostras dos pacien-tes. As amostras de pacientes utilizadas no método da invenção são aquelasem que se suspeita que contenham células da doença, como células coleta-das de um nódulo em um aspirado por agulha fina (FNA) de tecido. O uso detecido preparado, coletado em biópsia, ou espécime obtido por cirurgia oupor microdissecção por captura a laser são também adequados. A técnicade microdissecção por captura a laser (LCM) é uma das maneiras para sele-cionar as células a serem estudadas, minimizando a variabilidade provocadapela heterogeneidade de tipos celulares. Consequentemente, é possível sedetectar prontamente alterações moderadas ou pequenas, em expressão dogene Marcador, entre células normais ou benignas e células cancerosas. Asamostras podem compreender também células epiteliais circulantes, extraí-das do sangue periférico. Estas podem ser obtidas de acordo com inúmerosmétodos, porém o método mais preferido é a técnica de separação magnéti-ca, descrita na patente 6136182. Uma vez obtida a amostra contendo ascélulas de interesse, é obtido um perfil de expressão gênica com um Bio-marcador, para genes presentes nos portfólios apropriados.

Métodos preferidos para estabelecimento de perfis de expressãogênica incluem a determinação da quantidade de RNA produzida por umgene capaz de codificar uma proteína ou peptídeo. Esta determinação é ob-tida por PCR por transcriptase reversa PCR (RT-PCR), RT-PCR competitiva,RT-PCR em tempo real, RT-PCR em amostragem diferencial, análise pelatécnica Northern Blot e outros testes correlatos. Embora seja possível con-duzir estas técnicas com reações individualizadas de PCR, é melhor amplifi-car o DNA complementar DNA (cDNA) ou RNA complementar (cRNA), pro-duzido a partir do mRNA, e analisá-lo via microarranjo. Várias configuraçõesde arranjos diferentes e métodos para a sua produção são conhecidos porversados na técnica, expostos, por exemplo, nas patentes 5445934,5532128, 5556752, 5242974, 5384261, 5405783, 5412087, 5424186,5429807, 5436327, 5472672, 5527681, 5529756, 5545531, 5554501,5561071, 5571639, 5593839, 5599695, 5624711, 5658734 e 5700637.

A técnica de microarranjo permite a medição do nível de mRNAem estado de equilíbrio de milhares de genes, proporcionado simultanea-mente uma ferramenta poderosa para identificação de efeitos como o apare-cimento, interrupção ou modulação de proliferação não-controlada de célu-las. Atualmente, duas técnicas de microarranjo são amplamente utilizadas,arranjos de cDNA e de oligonucleotídeos. Embora existam diferenças naconstrução desses chips, todos os dados e resultados da análise subse-quente são os mesmos. Estas análises produzem tipicamente medições daintensidade do sinal recebido de uma sonda marcada, utilizado para detectaruma seqüência de cDNA da amostra que hibridiza com uma seqüência deácidos nucleicos em um local conhecido no microarranjo. A intensidade dosinal é tipicamente proporcional à quantidade de cDNA e, dessa forma, mR-NA, expresso nas células da amostra. Há um grande número destas técni-cas disponíveis que pode ser utilizado. Métodos preferidos para determina-ção de expressão gênica podem ser encontrados nas patentes 6271002,6218122,6218114e6004755.

A análise do nível de expressão é conduzida pela comparaçãoda intensidade destes sinais. Esta análise é obtida melhor pela geração deuma matriz proporcional das intensidades de expressão de genes em umaamostra em teste versus aquelas em uma amostra de controle. Por exemplo,as intensidades de expressão gênica de um tecido com a doença podem sercomparadas às intensidades de expressão gênica de um tecido benigno ounormal do mesmo tipo. A proporção destas intensidades de expressão indicao número de mudanças, em expressão gênica, entre a amostra em teste e ade controle.

A seleção pode ser baseada em testes estatísticos que produ-zem listas de classificação, relativas à evidência de significância para cadaexpressão gênica diferenciada entre fatores que se relacionam ao sítio deorigem original do tumor. Exemplos destes testes incluem ANOVA e deKruskal-Wallis. As classificações podem ser utilizadas como atribuições depeso em um modelo criado para interpretar a soma de todos estes pesos,até um limite de corte, como a preponderância de evidência em favor deuma classe sobre outra. Evidências anteriores, conforme expostas na litera-tura, podem ser utilizadas também para ajustar a atribuição de pesos.

Na presente invenção, foram escolhidos 10 marcadores quedemonstraram evidência significativa de expressão diferenciada entre 6 tiposde tumor. O processo de seleção incluiu uma coleção ad-hoc de testes esta-tísticos, otimização de média-variância e conhecimento especializado. Emuma concretização alternativa, os métodos de extração de característicaspodem ser automáticos para selecionar e testar marcadores por meio deabordagens de aprendizado supervisionado. À medida que o banco de da-dos cresce, a seleção de marcadores pode ser repetida para ser produzido odiagnóstico mais preciso possível em qualquer situação em que esteja obanco de dados.Uma concretização preferida é a de normalizar cada mediçãopela identificação de um conjunto estável de controle e a escalada desteconjunto até variância zero entre todas as amostras. Este conjunto de con-trole é definido como qualquer transcrito endógeno simples ou conjunto detranscritos endógenos, afetados por erro sistemático no ensaio, e os quaisse saiba que não se alterem independentemente deste erro. Todos os mar-cadores são ajustados pelo fator específico da amostra que gera variânciazero para qualquer estatística descritiva do conjunto de controle, como mé-dia ou mediana, ou para uma medição direta. Alternativamente, se a premis-sa de variação de controles, relacionada a erro sistemático, não for verdadei-ra, embora o erro resultante de classificação seja menor quando a normali-zação é executada, o conjunto de controle ainda assim será utilizado con-forme declarado. A análise de picos de controles não-endógenos poderiatambém ser útil, porém não é preferida.

Após a seleção do marcador, aquelas variáveis selecionadassão utilizadas em um classificador, criado para produzir uma precisão naclassificação mais alta possível. Um algoritmo de aprendizado supervisiona-do, criado para se relacionar a um conjunto de medições de entrada em re-lação a um conjunto de saída de indicadores, pode ser utilizado para cons-truir um modelo das 10 entradas para predizer o tecido de origem. O pro-blema pode ser exposto da seguinte forma: dados definidos de treinamento(xTi1 S/)} produz um classificador h : X ^que mapeia umaamostra χ e Xpara seu tecido de origem marcado V . As previsões têmcomo base casos resolvidos anteriormente contidos no banco de dados e,dessa forma, compõe o conjunto de treinamento.

O algoritmo de aprendizado supervisionado deve encontrar parâ-metros com base nas relações das variáveis de entradas para as saídas co-nhecidas que minimizarão o erro esperado da classificação. Estes parâmetrospodem então ser utilizados para predizer o tecido de origem a partir de entra-das de uma nova amostra. Exemplos destes algoritmos incluem modelos declassificação linear, classificadores ao quadrado, métodos de três bases, re-des neurais e métodos de protótipos como classificador de k-vizinho maispróximo ou algoritmos de aprendizagem de vetor de quantização.

Uma concretização específica para o modelo de 10 marcadoresnormalizados é o método de LDA1 empregando parâmetros padr, conformedescrito por Venables e Ripley (2002). Este método baseia-se na análisediscriminante linear de Fisher, em que médias específicas /iV=0' ^v=1 e co-variâncias Iy = Q1Iy= ·\ para etiquetas da classe y de 0 e 1. Buscamos umacombinação linear de tH.fque terá as médias variânciasm 2^y=Im que maximizarão a proporção da variância entre as classes emrelação à variância nas classes:

<formula>formula see original document page 21</formula>

O LDA pode ser generalizado para uma análise discriminativa demúltiplas classes, em que y possui N possíveis estados, em vez de somentedois. As médias e variâncias da classe são estimadas a partir dos valorescontidos no banco de dados para os marcadores escolhidos. Em uma con-cretização preferida, são atribuídos pesos à matriz de covariância por proba-bilidades iguais anteriores de cada tipo de tumor subordinadas à seguinte. Aprevisão para pacientes masculinos é efetuada por um modelo em que osprévios são zero para cada grupo de tumor de órgão reprodutivo feminino.Da mesma forma, a previsão para pacientes femininas é efetuada por ummodelo em que os prévios são zero para órgãos de reprodução masculina.

Na presente invenção, os prévios são zero em mulheres testadas para prós-tata e zero para homens testados para mama e ovário. Além disso, amostrascom antecedente idêntico ao de uma etiqueta de classe são testadas por ummodelo em que a probabilidade prévia é zero para aquela etiqueta em parti-cular da classe.

O problema acima pode ser visto como maximização do quoci-ente de Rayleigh, tratado como um problema generalizado de valores eigen.

O subespaço reduzido é utilizado na classificação pelo cálculo de distânciade cada amostra até o centroide do subespaço escolhido. O modelo podeser adaptado por verossimilhança máxima, e as probabilidades posterioressão calculadas utilizando o teorema de Bayes.

Um método alternativo pode incluir o achado de um mapa doespaço n-dimensional da característica, em que η é o número de variáveisutilizadas em relação a um conjunto de etiquetas de classificação, envolveráa divisão do espaço da característica em regiões, atribuindo em seguidauma classificação para cada região. Os escores destes algoritmos do tipovizinho mais próximo estão relacionados à distância entre as fronteiras de de-cisão e não são traduzidos necessariamente em probabilidades de classes.

Se houver muitas variáveis a serem selecionadas, e muitas de-Ias são de ruído aleatório, então a seleção de variáveis e o modelo arriscamapresentar o problema de sobre-ajuste. Portanto, freqüentemente são utili-zadas listas de classificações em vários limites de corte como entradas paralimitar o número de variáveis. Algoritmos de busca como algoritmo genéticopodem ser utilizados também para selecionar um subconjunto de variáveisuma vez que eles testam uma função de custo. Anelamento simulado podeser tentado para limitar o risco de captura da função de custo no mínimo lo-cal. Não obstante, os procedimentos precisam ser validados com amostrasindependentes para o processo de seleção e criação de modelo.

Abordagens de variável latente podem ser também utilizadas.Qualquer algoritmo de aprendizado não-supervisionado para estimar varie-dades de dimensão baixa a partir de espaço de dimensão alta pode ser utili-zado para descobrir associações entre as variáveis de entrada e o quantoelas podem se adequar a um conjunto menor de variáveis latentes. Emboraestimativas da eficácia das reduções sejam subjetivas, um algoritmo super-visionado pode ser aplicado no conjunto reduzido de variáveis para estimar aprecisão da classificação. Assim, um classificador, que pode ser construídoa partir das variáveis latentes, pode ser construído também a partir de umconjunto de variáveis significativamente correlacionadas com as variáveislatentes. Um exemplo do mesmo incluiria o uso de variáveis correlacionadasaos componentes do princípio, a partir de uma análise de componentes doprincípio, como entradas para qualquer modelo de classificação supervisio-nada.Estes algoritmos podem ser implementados em qualquer códigode programa de computador que possua métodos para a entrada das variá-veis, o treinamento das amostras com uma função, o teste de uma amostrabaseado no modelo e a saída dos resultados para um console. R, Octave, C,C++, Fortran, Java, Perl e Python possuem, todos, bibliotecas disponíveissegundo uma licença aberta de fonte para executar muitas entre as funçõeslistadas acima. Pacotes comerciais, como S+ e Matlab, são também ofereci-dos com muitos destes métodos.

O código executa as seguintes etapas na seguinte ordem, Litili-zando a versão R 2.2.1 (http://www.r-project.org) com a biblioteca do MASS(Venables et al. (2002)) instalada. O termo LDA refere-se à função Ida nonamespace do MASS.

1) Valores CT para 10 genes marcadores e 2 controles são ar-mazenados em um disco rígido para todas as amostras disponíveis do con-junto de treinamento.

2) Para cada amostra, a subtração da média específica da a -mostra dos controles de cada marcador normaliza os valores de 10 genesmarcadores.

3) O conjunto de dados de treinamento é composto de metásta-ses com locais conhecidos de origem, em que cada amostra possui, pelomenos, um de seus marcadores-alvo específicos para o tecido marcado deorigem com valor CT normalizado inferior a 5.

4) A LDA constrói 4 conjuntos de 2 modelos de LDA, a partir dosdados de treinamento em (3). Em cada conjunto, um modelo é específicopara homens e possui as chances prévias, para mama e ovário, definidaspara zero, bem como as chances prévias de próstata definidas para as pré-vias equivalentes das outras etiquetas da classe. O outro modelo, em cadapar, é específico para mulheres com chances prévias de próstata definidaspara zero, e com as prévias, para mama e ovário, definidas para as préviasequivalentes encontradas nas outras etiquetas da classe.

a. O primeiro conjunto é utilizado para testar amostras de CUPno colo, as chances prévias para colo são definidas para zero e todas asoutras etiquetas de classe não-reprodutiva são definidas para prévias equi-valentes.

b. Um segundo conjunto de modelo é específico para CUP en-contrado no ovário, com as chances prévias para ovário definidas para zeroe todas as outras etiquetas de classe não-reprodutiva definidas para préviasequivalentes.

c. Um terceiro conjunto é para CUP encontrado no pulmão, comchances prévias para pulmão definidas para zero. Todas as outras etiquetasde classe não-reprodutiva possuem prévias equivalentes.

d. O modelo geral foi utilizado para todos os outros tecidos dohistórico. Todas as prévias são definidas equivalentemente com a exceçãodas etiquetas específicas de classe reprodutiva que são definidas de acordocom o definido em 4.

A fim de testar uma amostra, utilizamos um programa R queexecuta o seguinte.

1) Lê um conjunto de dados em teste.

2) Gera uma média específica da amostra de ambos os controles.

3) Para cada amostra, utiliza a média específica da amostra parasubtrair de cada marcador.

4) Substitui qualquer CT normalizado, gerado de um CT não-processado de 40, por 12.

5) Para cada amostra no conjunto em teste, é testado o seguinte.

a. Se a média de ambos os controles for maior do que 34, entãoa amostra é identificada como 'CTR_FAILURE' com zeros para probabilida-des posteriores.

b. Os históricos são verificados para colo, ovário ou pulmão. Seuma correspondência for constatada, então o sexo é verificado também. Ohistórico e modelo específico do sexo são utilizados, em seguida, para avali-ar a amostra.

c. Se for constatado mama, pâncreas, pulmão (carcinoma depequenas células) ou próstata como a etiqueta do histórico, então é forneci-da para a amostra uma etiqueta de 'FAlLUREJneIigib^sampIe' à amostra,e as probabilidades posteriores são todas definidas para zero.

d. O modelo geral para homem ou mulher é utilizado para todasas outras amostras.

Os resultados são formatados e lançados em uma pasta.

A presente invenção inclui portfólios de expressão gênica, obti-dos por este processo.

Os perfis de expressão gênica podem ser exibidos de diversasmaneiras. A mais comum é organizar intensidades não-processadas de fluo-rescência ou matriz de proporção em um dendograma gráfico, onde as colu-nas indicam amostras em teste e as linhas, genes. Os dados são organiza-dos de forma que genes com perfis semelhantes de expressão gênica estãopróximos uns dos outros. A proporção da expressão, para cada gene, é vi-sualizada em cores. Por exemplo, uma proporção inferior a um (infrarregula-ção) aparece na parte azul do espectro, enquanto que uma proporção supe-rior a um (suprarregulação) aparece na parte vermelha do espectro. Progra-mas de computador à disposição no mercado, para exibir estes dados, in-cluem "GeneSpring" (Silicon Genetics, Inc.) e "Discovery" e "Infer" (Partek,Inc.)

Medições da abundância de espécimes únicos de RNA são cole-tadas de tumores primários ou tumores metastáticos, provenientes de tumo-res primários de origem conhecida. Essas leituras junto com registros clíni-cos incluindo, entre outros, idade, sexo, sítio de origem de tumor primário esítio de metástase de um paciente (se aplicável) são utilizados para gerarum banco de dados de relações. O banco de dados é utilizado para selecio-nar transcritos de RNA e fatores clínicos que podem ser utilizados como va-riáveis de marcadores para predizer a origem primária de um tumor metastá-tico.

No caso de medição de níveis proteicos para determinação deexpressão gênica, qualquer método conhecido na técnica é adequado, des-de que ele resulte em especificidade e sensibilidade adequadas. Por exem-pio, níveis proteicos podem ser medidos pela ligação a um anticorpo oufragmento de anticorpo, específico para a proteína, e a medição da quanti-dade de proteína ligada ao anticorpo. Anticorpos podem ser marcados porreagentes radioativos, fluorescentes ou outros detectáveis para facilitar adetecção. Métodos de detecção incluem, entre outros, ensaio imunoenzimá-tico do tipo indireto (ELISA) e técnicas de imunoblot.

Genes modulados utilizados nos métodos da invenção são des-critos nos Exemplos. Os genes que se expressam de modo diferenciado sãoinfra ou suprarregulados em pacientes com carcinoma de uma origem parti-cular em relação àqueles com carcinomas de origens diferentes. A supra einfrarregulação são termos relativos que significam que uma diferença detec-tável (além da contribuição e ruído no sistema utilizado para medi-lo) é ob-servada na quantidade de expressão dos genes em relação a algum nívelbasal. Nesse caso, o valor basal é determinado com base no algoritmo. Osgenes de interesse nas células doentes são então supra ou infrarreguladosem relação ao nível basal, utilizando o mesmo método de medição. Doentes,nesse contexto, refere-se a uma alteração do estado de um corpo que inter-rompe ou perturba, ou possui o potencial para perturbar, o desempenho a-propriado de funções do corpo como ocorre com a proliferação não-controlada de células. Uma pessoa é diagnosticada com uma doença quan-do algum aspecto do genótipo ou fenótipo daquela pessoa é compatível coma presença da doença. No entanto, o ato de conduzir um diagnóstico ouprognóstico pode incluir a determinação de questões referentes à doen-ça/estado, como a verossimilhança de reincidência, o tipo de terapia e moni-toração de terapia. Na monitoração da terapia, os pareceres clínicos sãoefetuados em relação ao efeito de um determinado curso de terapia pelacomparação com a expressão de genes ao longo do tempo para determinarse os perfis de expressão gênica modificaram ou se estão modificando parapadrões mais compatíveis com tecido normal.

Os genes podem ser agrupados para que aquela informaçãoobtida sobre o conjunto de genes no grupo forneça uma base sólida para umparecer clinicamente relevante como um diagnóstico, prognóstico ou escolhade tratamento. Estes conjuntos de genes compõem os portfólios da inven-ção. Conforme com a maioria dos Marcadores diagnósticos, é freqüente-mente desejável utilizar o menor número de Marcadores que seja suficientepara que o parecer médico seja correto. Isso impede que o tratamento sejaretardado, aguardando análise posterior, bem como o uso improdutivo detempo e recursos.

Um método para estabelecer portfólios de expressão gênica épor meio do uso de algoritmos de otimização, como o algoritmo de variânciamédia, amplamente utilizado para o estabelecimento de portfólios de esto-que. Este método é descrito detalhadamente na patente 20030194734. Ométodo, essencialmente, exige o estabelecimento de um conjunto de entra-das (estoques em aplicativos financeiros, expressão conforme medida porintensidade no presente pedido) que otimizará o retorno (por exemplo, gera-ção de sinal) recebido pelo uso do mesmo, ao mesmo tempo em que mini-miza a variabilidade do retorno. Há disponíveis muitos programas de compu-tador para a condução dessas operações. "Wagner Associates Mean-Variance Optimization Application," referido como "Wagner software", emtoda esta exposição, é preferido. Este programa que usa funções da WagnerAssociates Mean-Variance Optimization Library" para determinar uma fron-teira eficiente e portfólios mais adequados, no sentido de Markowitz, é prefe-rido. Markowitz (1952). O uso deste tipo de programa requer que os dadosde microarranjos sejam transformados para que possam ser tratados comoentrada na maneira em que retorno de estoque e medições de risco são uti-lizados quando o programa é utilizado para a sua finalidade pretendida deanálise financeira.

O processo de seleção de um portfólio pode incluir também aaplicação de regras heurísticas. De preferência, estas regras são formuladascom base em biologia e entendimento da tecnologia utilizada para produzirresultados clínicos. Mais preferencialmente, elas são aplicadas para resulta-dos do método de otimização. Por exemplo, o método de variância média deseleção de portfólios pode ser aplicado a dados de microarranjos para váriosgenes que expressam de modo diferenciado em indivíduos com câncer. Oresultado do método seria um conjunto otimizado de genes que poderia in-cluir alguns genes que são expressos no sangue periférico, além de no teci-do doente. Se as amostras utilizadas no método de testes forem obtidas desangue periférico e certos genes se expressarem de modo diferenciado, emcasos de câncer, eles poderiam se expressar também de modo diferenciadono sangue periférico e, então, uma regra heurística pode ser aplicada naqual um portfólio é selecionado da fronteira eficiente, excluindo aqueles quesão expressos de modo diferenciado em sangue periférico. Evidentemente,a regra pode ser aplicada antes da fronteira eficiente ser formada, por e-xemplo, pela aplicação da regra durante a pré-seleção de dados.

Outras regras heurísticas podem ser aplicadas que não são ne-cessariamente relacionadas à biologia em questão. Por exemplo, pode-seaplicar uma regra que somente um percentual prescrito do portfólio pode serrepresentado por um gene particular ou grupos de genes. Há disponíveisprogramas no mercado como o Wagner software que acomoda prontamenteestes tipos de heurística. Isso pode ser útil, por exemplo, quando fatores,diferentes de exatidão e precisão (por exemplo, taxas previstas para licenci-amento) tiverem impacto sobre a conveniência de incluir um ou mais genes.

Os perfis de expressão gênica desta invenção podem ser utiliza-dos também em conjunto com outros métodos diagnósticos não-genéticos,úteis no diagnóstico e prognóstico de câncer ou na monitoração de seu tra-tamento. Por exemplo, em algumas circunstâncias, é vantajoso combinar opoder diagnóstico da expressão gênica fundamentado em métodos descritosacima com dados de Marcadores convencionais como Marcadores séricosde proteínas (por exemplo, Antígeno de Câncer 27.29 ("CA 27.29")). Existeuma gama destes Marcadores, incluindo os analitos como CA 27.29. Em umdestes métodos, o sangue é periodicamente coletado de um paciente tratadoe, em seguida, submetido a um ensaio imunoenzimático para um dos Mar-cadores séricos descritos acima. Quando a concentração do Marcador suge-rir o retorno de tumores ou falha de terapia, uma fonte de amostra tratávelpara análise de expressão gênica é coletada. Quando existir uma massasuspeita, um aspirado com agulha fina (FNA) é coletado e os perfis de ex-pressão gênica de células obtidas da massa são então analisados, conformeexposto acima. Alternativamente, amostras de tecido podem ser coletadasde áreas adjacentes ao tecido do qual um tumor foi previamente removido.Esta abordagem pode ser particularmente útil quando outros testes produzi-rem resultados ambíguos.

Kits feitos de acordo com a invenção incluem ensaios formata-dos para determinação dos perfis de expressão gênica. Eles podem incluirtodos ou alguns dos materiais necessários para a condução dos ensaios,como reagentes e instruções, e um meio no qual os Biomarcadores são ana-lisados.

Artigos desta invenção incluem representações dos perfis deexpressão gênica, úteis para o tratamento, diagnóstico, prognóstico e, deoutra forma, avaliação de doenças. Essas representações de perfis são re-duzidas a um tipo de mídia que pode ser lido automaticamente por uma má-quina como mídias de leitura por computador (magnético, óptico e similares).Os artigos podem incluir também instruções para avaliação dos perfis deexpressão gênica nestes tipos de mídia. Por exemplo, os artigos podem in-cluir um CD ROM com instruções para computador para comparação de per-fis de expressão gênica dos portfólios de genes expostos acima. Os artigospodem incluir também perfis de expressão gênica registrados digitalmentenos mesmos de forma que possam ser comparados com os dados de ex-pressão gênica de amostras de pacientes. Alternativamente, os perfis podemser registrados em formato representativo diferente. Um gráfico de dadosarmazenados é um destes formatos. Algoritmos de conglomerados, comoaqueles incorporados nos programas "DISCOVERY" e "INFER" da Partek,Inc. mencionados acima, podem auxiliar a melhor visualização destes dados.

Tipos diferentes de artigos de fabricação segundo a invençãosão ensaios em mídia ou formatados, utilizados para revelar perfis de ex-pressão gênica. Eles podem compreender, microarranjos em que comple-mentos de seqüência ou sondas são fixados a uma matriz, a qual as se-qüências indicativas dos genes de interesse combinam-se a um determinan-te de sua presença que possa ser lido. Alternativamente, artigos de acordocom a invenção podem ser adaptados em kits de reagentes destinados àcondução de hibridização, amplificação e de geração de sinal, indicativo donível de expressão dos genes de interesse para detecção de câncer.

Os exemplos a seguir são fornecidos para ilustrar e não limitar ainvenção reivindicada. Todas as referências aqui citadas são incorporadasao presente pedido por referência.

Exemplo 1

Materiais e métodos

Descoberta de genes Marcadores de câncer de pâncreas

Foi isolado o RNA de tumor pancreático, tecido de pâncreasnormal, pulmão, colo, mama e de ovário utilizando Trizol. O RNA foi utilizadoem seguida para gerar RNA amplificado marcado (Lipshutz et ai (1999)) quefoi então hibridizado em arranjos Affymetrix U133A. Os dados foram analisa-dos em seguida de duas maneiras.

No primeiro método, esse conjunto de dados foi filtrado para re-ter somente aqueles genes com pelo menos duas chamadas presentes emtodo o conjunto de dados. Essa filtração resultou em 14.547 genes. Foi de-terminado que 2.736 genes estavam superexpressos no câncer pancreáticoem relação a câncer normal com valor ρ inferior a 0,05. Quarenta e cincogenes dos 2.736 também estavam superexpressos, em pelo menos duasvezes, comparados à intensidade máxima constatada em tecidos do pulmãoe do colo. Finalmente, foram constatados seis conjuntos de sondas superex-pressos, em pelo menos duas vezes, comparados à intensidade máximaconstatada para tecidos do pulmão, colo, mama e ovário.

No segundo método, este conjunto de dados foi filtrado para re-ter somente aqueles genes com não mais do que duas chamadas presentesem tecidos da mama, colo, pulmão e ovário. Essa filtração resultou em 4.654genes. Foi constatado que 160 genes dos 4.654 genes a presença de pelomenos duas chamadas nos tecidos pancreáticos (normal e com câncer). Fi-nalmente, oito conjuntos de sondas foram selecionados que mostraram amaior expressão diferenciada entre tecido pancreático com câncer e normal.Amostras de tecidos.

No total, 260 tecidos FFPE de metástases e primários foram ob-tidos de uma variedade de vendedores comerciais. As amostras testadasincluíram: 30 metástases de mama, 30 metástases colorretais, 56 metásta-ses de pulmão, 49 metástases ovarianas, 43 metástases de pâncreas, 18 detumor primário e 2 metástases de próstata e 32 de outras origens (6 de es-tômago, 6 de rim, 3 de laringe, 2 de fígado, 1 de esôfago, 1 faringe, 1 de du-to biliar, 1 de pleura, 3 de bexiga, 5 de melanoma e 3 de linfoma).

Extração de RNA.

O isolamento de RNA de seções do tecido em parafina teve co-mo base os métodos e reagentes descritos no manual do Kit de RNA de AltaPureza em Parafina (Roche) com as seguintes modificações. As amostrasde tecido embebidas em parafina foram divididas em seções de acordo como tamanho da metástase embebida (2-5 mm = 9 X 10 pm, 6-8 mm = 6 X 10pm, 8->10 mm = 3X10 pm) e colocadas em tubos de Eppendorf de 1,5 mlde RNase/DNase. As seções foram desparafinadas por incubação em 1mlde xileno por 2-5 min em temperatura ambiente, sendo seguida por vórticepor 10-20 segundos. Os tubos foram centrifugados em seguida e o sobrena-dante foi removido e a etapa de desparafinação foi repetida. Depois que osobrenadante foi removido, 1 ml de etanol foi acrescentado e a amostrasubmetida a vórtice por um minuto, centrifugada e o sobrenadante removido.Esse processo foi repetido uma vez mais. O etanol residual foi removido e opélete, desidratado em estufa a 55°C por 5-10 minutos e ressuspenso em100 μl de tampão de Iise de tecido, 16 μl de SDS a 10% e 80 μl de Proteina-se K. As amostras foram submetidas a vórtice e incubadas em um conjuntode misturador térmico a 400 rpm por duas horas a 55°C. 325 μl de tampãode ligação e 325 μΙ de etanol foram acrescentados a cada amostra que foientão misturada, centrifugada e o sobrenadante foi acrescentado em umacoluna de filtração. A coluna de filtração, junto com o tubo de coleta, foi cen-trifugada por 1 minuto a 8000 rpm e o líquido escoado foi descartado. Foiconduzida uma série de lavagens sequenciadas (500 μΙ de Tampão de La-vagem I 500 μl de Tampão de Lavagem Il 300 μl Tampão de LavagemII), na qual cada solução foi acrescentada à coluna, centrificada e o líquidoescoado descartado. A coluna foi então centrifugada na velocidade máximapor 2 minutos, colocada em um novo tubo de 1,5 ml e 90 μΙ de tampão deeluição foram acrescentados. O RNA foi obtido após 1 minuto de incubação,em temperatura ambiente, sendo seguida por 1 minuto de centrifugação a8000 rpm. A amostra foi tratada com Dnase, sendo acrescentados 10 μΙ detampão de incubação de DNase, 2 μΙ de DNase I e incubada por 30 minutosa 37°C. A DNase foi inativada, seguida pelo acréscimo de 20 μΙ de tampãode Iise de tecido, 18 μΙ de SDS a 10% e 40 μΙ de Proteinase K. Mais uma vezforam acrescentados 325 μΙ de tampão de ligação e 325 μΙ de etanol a cadaamostra, que foi então misturada, centrifugada e o sobrenadante foi acres-centado à coluna de filtração. Lavagens sequenciadas e eluição do RNAprosseguiram, conforme declarado acima, com exceção de 50 μΙ de tampãode eluição que foram utilizados para eluir o RNA. Para eliminar contamina-ção por fibra de vidro, trazida da coluna, o RNA foi centrifugado por 2 minu-tos na velocidade máxima e o sobrenadante foi removido para um novo tubode Eppendorf de 1,5 ml. As amostras foram quantificadas por leituras de OD260/280, obtidas por um espectrofotômetro, e as amostras foram diluídaspara 50 ng/μΙ. O RNA isolado foi armazenado em água livre de Rnase a-80°C até o uso.

Iniciador da TaqMan e desenho da sonda.

Foram utilizados números de acesso apropriados de seqüênciade referência de mRNA, em conjunto com Oligo 6.0 para o desenvolvimentode ensaios de CUP da TaqMan® (Marcadores do pulmão: Proteína B huma-na pulmonar associada a surfactante (HUMPSPBA), fator 1 de transcriçãoda tireoide (TTF1), desmogleína 3 (DSG3), Marcador colorretal: caderina 17(CDH17), Marcadores de mama: mamaglobina (MG), fator de transcrição etsderivado de próstata (PDEF), Marcador de ovário: tumor 1 de wilms (WT1),Marcadores de pâncreas: antígeno de célula-tronco de próstata (PSCA), fa-tor V de coagulação (F5), calicreína 3 marcadora de próstata (KLK3)) e os(constitutivos) actina β "housekeepintf' de ensaio, hidroximetilbilano sintase(PBGD). Os iniciadores e sondas de hidrólise, para cada ensaio, estão lista-dos na Tabela 2. A amplificação de DNA genômico foi excluída pela criaçãode ensaios em torno de sítios de divisão éxon-íntron. As sondas de hidróliseforam marcadas no nucleotídeo 5' com FAM como o corante do repórter e nonucleotídeo 3' com BHQ1-TT como o corante de resfriamento interno.

Reação em cadeia de polimerase quantitativa em tempo real.

A quantificação de RNA específico do gene foi conduzida emuma placa com 384 poços no sistema de detecção de seqüência ABI Prism7900HT (Applied Biosystems). Para cada rodada termo-cíclica, calibradorese curvas padrões foram amplificados. Os calibradores para cada Marcadorconsistiram em transcritos do gene-alvo in vitro que foram diluídos em RNAveículo de rim de rato em 1 X 105 cópias. Curvas padrões de Marcadoreshousekeeping consistiram em transcritos de gene-alvo in vitro que foram di-luídos em série em RNA veículo de rim de rato em 1 X 107, 1 X 105 e 1 X 103cópias. Nenhum controle do alvo foi incluído em cada rodada do ensaio paraassegurar a ausência de contaminação ambiental. Todas as amostras e con-troles foram testados em duplicata. A qRTPCR foi conduzida com reagenteslaboratoriais de uso geral em 10 μΙ de uma reação contendo: Tampão deRT-PCR (Bicina/KOH a 50 nM pH 8,2, KAc a 115 nM, glicerol a 8%, MgCI2 a2,5 mM, MnSO4 a 3,5 mM, dCTP, dATP, dGTP e dTTP, cada um a 0,5 mM),Aditivos (Tris-CI a 2 mM pH 8, Albumina Bovina a 0,2 mM, Trehalose a 150mM, Tween 20 a 0,002%), Mistura de Enzimas (2U de Tth (Roche), 0,4mg^lde Ab TP6-25), Mistura de Iniciador e Sonda (Sonda a 0,2μΜ, Iniciadores a0,5μΜ). Foram seguidos os seguintes parâmetros para os ciclos: 1 ciclo a95°C por 1 minuto; 1 ciclo a 55°C por 2 minutos; Rampa a 5%; 1 ciclo a 70°Cpor 2 minutos e 40 ciclos de 95°C por 15 segundos, 58°C por 30 segundos.Depois que a reação de PCR foi concluída, os valores de linha de base e delimiares foram estabelecidos no programa do ABI 7900HT Prism e valorescalculados de Ct foram exportados para um arquivo em Excel da Microsoft.Reação de uma etapa versus de duas etapas.

A síntese da primeira fita foi conduzida utilizando 100 ng de he-xâmeros aleatórios ou iniciadores específicos do gene por reação. Na pri-meira etapa, 11,5 μΙ da Mistura-1 (iniciadores e 1pg de RNA total) foram a-quecidos até 65°C por 5 minutos e, em seguida, resfriados em gelo. 8,5 μΙda Mistura (1x Tampão, DTT a 0,01mM, 0,5mM de cada dNTP, 0,2511/μΙ deRNasin®, IOU/μΙ de Superscript III) foram acrescentados à Mistura 1 e incu-bados a 50°C por 60 minutos, seguidos por 95°C durante 5 minutos. O cD-NA foi armazenado a -20°C até que pronto para uso. A qRTPCR para a se-gunda etapa da reação de duas etapas foi realizada conforme declarado a-cima com os parâmetros para os ciclos: 1 ciclo a 95°C por 1 minuto; 40 ci-clos de 95°C por 15 segundos, 58°C por 30 segundos. A qRTPCR para areação de uma etapa foi conduzida exatamente conforme declarado no pa-rágrafo precedente. As reações de uma etapa e a de duas etapas foram rea-lizadas em 100 ng de gabarito (RNA/cDNA). Depois que a reação de PCR foiconcluída os valores de baseline e de limiares foram estabelecidos no pro-grama do ABI 7900HT Prism e valores calculados de Ct foram exportadospara um arquivo em Excel da Microsoft.

Geração de mapa de aquecimento.

Foi calculado, para cada amostra, ACt considerando o Ct médiode cada Marcador de CUP e subtraindo o Ct médio de uma média dos Mar-cadores housekeeping (ACt = Ct(Marcador de CUP) - Ct(Média de MarcadorHK)). O ACt mínimo para cada tecido do conjunto de Marcadores de origem(pulmão, mama, próstata, colo, ovário e pâncreas) foi determinado para cadaamostra. O tecido de origem com o ACt mínimo geral recebeu o escore um etodos os outros tecidos de origem o de zero. Os dados foram organizados deacordo com o diagnóstico patológico. Partek Pro foi povoado com os dadosmodificados de possibilidade e um gráfico de intensidade foi gerado.

Resultados.

Descoberta de novo tumor pancreático de origem e Marcadores de status docâncer.

Inicialmente, foram analisados cinco possíveis Marcadores parapâncreas: antígeno de células-tronco de próstata (PSCA), inibidor de serinaproteinase, membro 1 da família A (SERPINA 1), citoqueratina 7 (KRT7),matriz metaloprotease 11 (MMP11) e mucina 4 (MUC4) (Varadhachary et al(2004), Fukushima et al. (2004), Argani et al. (2001), Jones et al. (2004),Prasad et al. (2005) e Moniaux et al. (2004)), utilizando microarranjos deDNA e um painel de 13 adenocarcinomas ductais pancreáticos, cinco tecidosnormais de pâncreas e 98 amostras de tumores de mama, colorretal, pulmo-nar e ovariano. Somente o PSCA demonstrou sensibilidade moderada (seisde trezes ou 46% de tumores pancreáticos foram detectados) em uma altaespecificidade (91 de 98 ou 93% foram corretamente identificados como nãosendo de origem pancreática) (Figura 4A). Por outro lado, KRT7, SERPINA1,MMP11 e MUC4 demonstraram 38%, 31%, 85% e 31% de sensibilidade,respectivamente, em 66%, 91%, 82% e 81% de especificidade, respectiva-mente. Estes dados concordaram bastante com a qRTPCR conduzida em 27metástases de origem pancreática e 39 metástases de origem não-pancreática para todos os Marcadores, exceto para MMP11 que demonstroumenor sensibilidade e especificidade com qRTPCR e as metástases. Emconclusão, os dados de microarranjo em instântaneo de tecido primário con-gelado serve como um bom indicador da capacidade do Marcador para iden-tificar uma metástase FFPE como sendo de origem pancreática, utilizandoqRTPCR, porém que Marcadores adicionais podem ser úteis para desempe-nho mais adequado.

Como o adenocarcinoma ductal pancreático desenvolve-se apartir de células epiteliais ductais que compreendem somente um percentualpequeno de todas as células pancreáticas (com células do ácino e células deilhotas compreendendo a maioria) e como os tecidos de adenocarcinomapancreático contêm uma quantidade significativa de tecido normal adjacente(Prasad et al. (2005) e Ishikawa et al. (2005)), foi difícil identificar Marcado-res de câncer pancreático (ou seja, suprarregulados em câncer) que diferen-ciariam também esse órgão dos outros órgãos. É necessária esta diferencia-ção para uso em um painel de CUP. O primeiro método de pesquisa (consul-tar Materiais e Métodos) resultou em seis conjuntos de sondas: fator V decoagulação (F5), proteína hipotética FLJ22041 semelhante a proteínas deligação FK506 (FKBP10), β 6 integrina (ITGB6), transglutaminase 2 (TGM2),ribonucleoproteína nuclear heterogênea AO (HNRPO) e BAX delta (ΒΑΧ). Osegundo método de pesquisa (consultar Materiais e Métodos) resultou emoito conjuntos de sondas: F5, TGM2, fator 1 de transcrição de homeodomí-nio de par semelhante (PITX1), isoforma trio de mRNA (TRIO), mRNA parap73H (p73), uma proteína desconhecida para MGC: 10264 (SCD) e dois con-juntos de sonda para claudina 18. F5 e TGM2 constavam nos dois resulta-dos de pesquisa e, dos dois, F5 pareceu ser o mais promissor (Figura 4B).Otimização de preparo de amostras e qRTPCR utilizando tecidos FFPE.

Em seguida ao isolamento de RNA e qRTPCR, os métodos fo-ram otimizados com tecidos fixados antes de ser examinado o desempenhono painel dos Marcadores. Em primeiro lugar, foi analisado o efeito da redu-ção do tempo de incubação, de dezesseis para 3 horas, com a proteinase K.Não houve efeito sobre o rendimento. No entanto, algumas amostras de-monstraram fragmentos mais longos de RNA quando a etapa mais curtacom a proteinase K foi utilizada (Figura 5). Por exemplo, quando o RNA foiisolado de um bloco de um ano (C22), não foi observada diferença nos ele-troferogramas. No entanto, quando o RNA foi isolado de um bloco de cincoanos (C23), uma fração maior de RNAs de peso molecular mais alto foi ob-servada, quando avaliada pela crista no ressalto, quando a digestão maiscurta com proteinase K foi utilizada. Essa tendência manteve-se de modogeral quando outras amostras foram processadas, independentemente doórgão de origem para a metástase FFPE. Em conclusão, o encurtamento dotempo de digestão pela proteinase K não prejudica rendimentos de RNA epode auxiliar no isolamento mais longo e menos degradado de RNA.

Em seguida, foram comparados três métodos diferentes detranscrição reversa: transcrição reversa com hexâmeros aleatórios, seguidapor qPCR (duas etapas), transcrição reversa com um iniciador específico dogene, seguida por qPCR (duas etapas) e qRTPCR em uma etapa empre-gando iniciadores específicos de genes. O RNA foi isolado de onze metásta-ses e foram comparados valores de Ct entre os três métodos para β-actina,proteína B humana surfactante (HUMSPB) e fator de transcrição da tireoide(TTF) (Figura 6). Houve diferenças estatisticamente significantes (p < 0,001)para todas as comparações. Para todos os três genes, a transcrição reversacom hexâmeros aleatórios, seguida por qPCR (reação de duas etapas) for-neceu os valores mais altos de Ct1 enquanto que a transcrição reversa comum iniciador específico do gene, seguida por qPCR (reação de duas etapas)forneceu valores de Ct ligeiramente (porém estatisticamente significantes)mais baixos do que a reação correspondente de 1 etapa. No entanto, RTP-CR de duas etapas empregando iniciadores específicos de genes apresen-tou uma etapa mais longa de transcrição reversa. Quando os valores de Ctde HUMSPB e TTF foram normalizados para o valores correspondente de β-actina, para cada amostra, não houve diferenças nos valores normalizadosde Ct entre os três métodos. Em conclusão, a otimização das condições dareação de RTPCR pode gerar valores mais baixos de Ct, o que pode auxiliarna análise de blocos de parafina mais antigos (Cronin et al (2004)), e umareação de uma etapa de RTPCR, empregando iniciadores específicos degenes, pode gerar valores de Ct comparáveis àqueles gerados na reaçãocorrespondente de duas etapas.

Desempenho diagnóstico de um ensaio de gRTPCR de CUP.

Foram conduzidas, em seguida, 12 reações de qRTPCR (10Marcadores e dois genes housekeeping) em 239 metástases FFPE. Os Mar-cadores utilizados para o ensaio são apresentados na Tabela 2. Os Marca-dores para pulmão foram proteína B pulmonar humana associada a surfac-tante (HUMPSPB), fator 1 de transcrição da tireoide (TTF1) e desmogleína 3(DSG3). O Marcador para colorretal foi caderina 17 (CDH17). Os Marcado-res para mama foram mamaglobina (MG) e fator de transcrição Ets derivadoda próstata (PDEF). O Marcador ovariano foi tumor 1 de Wilms (WT1).Os Marcadores para pâncreas foram antígeno de células-tronco de próstata(PSCA) e fator V de coagulação (F5), e o Marcador para próstata foi cali-creína 3 (KLK3). Para obter descrições de genes, consultar a Tabela 31.Tabela 2. Seqüências de iniciador e sonda, números de acesso e extensões

<table>table see original document page 38</column></row><table><table>table see original document page 39</column></row><table><table>table see original document page 40</column></row><table>

*As sondas são 5'FAM-3'BHQ1 -TT

A análise dos valores normalizados de Ct1 em um mapa de calor,revelou a alta especificidade dos Marcadores para mama e próstata, especi-ficidade moderada do colo, pulmão e ovário e especificidade um pouco baixados Marcadores para o pâncreas. A combinação dos dados normalizados deqRTPCR com refinamento computacional melhora o desempenho do painelde Marcadores. Os resultados foram obtidos dos dados normalizados deqRTPCR combinados ao algoritmo, sendo determinada a exatidão do ensaioda qRTPCR.

Discussão.

Neste exemplo, a análise de perfil de expressão com base emmicroarranjo foi utilizada em tumores primários para identificar possíveisMarcadores a serem utilizados com metástases. O fato de que tumores pri-mários podem ser utilizados para descobrir o Marcador de origem de tumorpara metástases é compatível com vários achados recentes. Por exemplo,Weigelt e outros demonstraram que perfis de expressão gênica de tumoresprimários de mama são mantidos em metástases distantes. Weigelt et al.(2003). Italiano e outros constataram que o status de EGFR, conforme avali-ado por IHC, era semelhante em 80 tumores colorretais primários e as 80metástases correlatas. Italiano et al. (2005). Somente cinco dos 80 exibiramdiscordância em termos de status de EGFR. Italiano et al. (2005). Backus eoutros identificaram supostos Marcadores para detecção de metástases decâncer de mama, utilizando análise de expressão gênica em nível genômicode tecidos da mama e outros e demonstraram que a mamaglobulina e CK19detectaram metástases clinicamente acionável em linfonodos-sentinela demama com 90% de sensibilidade e 94% de especificidade. Backus et al.(2005).

Os estudos à base de microarranjos com tecido primário confir-maram a especificidade e sensibilidade de Marcadores conhecidos. Comoresultado, com exceção de F5, todos os Marcadores utilizados possuem altaespecificidade para os tecidos aqui estudados. Argani et al (2001), Backuset al. (2005), Cunha et al. (2005), Borgono et al. (2004), McCarthy et al.(2003), Hwang et al. (2004), Fleming et al. (2000), Nakamura et al. (2002) eKhoor et al. (1997). Um estudo recente determinou que, usando IHC, PSCAestá superexpresso em metástases de câncer de próstata. Lam et al.(2005). Dennis et al. (2002) demonstraram também que o PSCA poderia serutilizado como Marcador de origem de tumor para pâncreas e próstata. Con-forme exposto no presente, é constatada uma expressão forte de PSCA emalguns tecidos de próstata em nível de RNA1 porém, em virtude da inclusãode PSA no ensaio, não se pode descriminar cânceres de próstata e de pân-creas. Um novo achado deste estudo foi o uso de F5 como um Marcadorcomplementar (ao PSCA) para Marcador de tecido de origem pancreática.Em ambos, o conjunto de dados de microarranjo com tecido primário e oconjunto de dados de qRTPCR com metástases FFPE, o F5 complementouo PSCA (Figura 4 e Tabela 3).

Fabela 3 Dados de viabilidade

<table>table see original document page 42</column></row><table> Investigadores anteriores geraram ensaios de CUP empregandoIHC ou microarranjos. Su et al. (2001), Ramaswamy et al. (2001) e Bloom etal. (2004). Mais recentemente, SAGE foi acoplado a um pequeno painel deMarcadores por qRTPCR. Dennis (2002) e Buckhaults et al. (2003). Esseestudo foi o primeiro a combinar análise de perfil de expressão fundamenta-da em microarranjo com um pequeno painel de ensaios de qRTPCR. Os es-tudos de microarranjo com tecido primário identificaram alguns, porém nãotodos, Marcadores do mesmo tecido de origem, conforme aqueles identifica-dos anteriormente por estudos de SAGE. Alguns estudos demonstraramexistir uma concordância modesta entre os dados de análise de perfil fun-damentada em SAGE e microarranjo de DNA e que a correlação melhorapara genes com níveis de expressão mais altos, van Ruissen et al. (2005) eKim (2003). Por exemplo, Dennis e outros identificaram PSA1 MG, PSCA eHUMSPB enquanto que Buckhaults e outros (Dennis et al. (2002)) identifica-ram PDEF. A execução do ensaio de CUP empregando qRTPCR é preferidaporque esta é uma técnica robusta e pode um desempenho mais vantajosoem relação à IHC. Al-Mulla et al. (2005)e Haas et al. (2005). Conforme ex-posto no presente, o protocolo para qRTPCR foi melhorado por meio do usode iniciadores específicos de genes em reação de uma etapa. Esta é a pri-meira demonstração do uso de iniciadores específicos de genes em reaçãode qRTPCR de uma etapa com tecido FFPE. Outros investigadores conduzi-ram qRTPCR de duas etapas (síntese de cDNA em uma reação, seguida porqPCR) ou utilizaram hexâmeros aleatórios ou iniciadores específicos de ge-nes truncados. Abrahamsen et al. (2003), Specht et al. (2001), Godfrey et al.(2000), Cronin et al. (2004) e Mikhitarian et al. (2004).

Exemplo 2

Protocolo de isolamento de RNA total de CUP FFPE

(Kit de alta pureza CatN0 3270289)

Objetivo:

Isolamento de RNA total de tecido FFPE

Procedimento:

Preparo de soluções de trabalho

1. Proteinase K (PK) em kit

Dissolver Iiofilizado em 4,5 ml de Tampão de Eluição. Repartirem alíquotas e armazenar a -20°C, estável por 12 meses.PK-4 χ 250 mg (cat N0 3115852)

Dissolver Iiofilizado em 12,5 ml de Tampão de Eluição (1x Tam-pão TE (pH 7,4-7)). Repartir em alíquotas e armazenar a -20°C.

2. Tampão de Lavagem I

Acrescentar 60 ml de etanol absoluto ao Tampão de Lavagem I1armazenar em temperatura ambiente.3. Tampão de Lavagem Il

Acrescentar 200 ml de etanol absoluto ao Tampão de LavagemII, armazenar em temperatura ambiente.

4. DNase I

Dissolver Iiofilizado em 400 μΙ de Tampão de Eluição. Repartirem alíquotas e armazenar a -20°C, estável por 12 meses.Seção de Blocos de Parafina -30-45 minutos para 12 blocos (12 blocos χ 2tubos = 24 tubos)

Os cortes de seção do bloco devem ser processados imediata-mente para extração de RNA

1. Utilizar uma lâmina afiada limpa no Microtomo para cortar 6seções com espessura de 10 mícron de blocos de tecido aparados (tamanho3-4 χ 5-10 mm).

Nota: Descartar novas seções de cera do bloco até que tenhasido obtida uma seção do tecido. Descartar as 3 primeiras seções do tecidodo bloco utilizado.

2. Colocar imediatamente o tecido cortado em tubos de micro-centrífugas de 1,5 ml para minimizar a umidade.

3. Recomenda-se que o número de seções obtidas tenha comobase o tamanho de tumor mostrado na Tabela 4.

Tabela 4

<table>table see original document page 44</column></row><table>

Desparafinacão ~30-45 minutos

1. Acrescentar 1,0 ml de xileno a cada amostra e submeter avórtice vigorosamente por 10-20 segundos e incubar em temperatura ambi-ente por 2-5 minutos. Centrifugar em velocidade máxima por 2 minutos. Re-mover o sobrenadante cuidadosamente.

Nota: se o tecido aparentar estar flutuando, centrifugar por mais 2minutos.

2. Repetir a etapa 1.3. Centrifugar em velocidade máxima por 2 minutos. Remover osobrenadante.

4. Acrescentar 1 ml de etanol absoluto e submeter a vórtice vi-gorosamente por 1 minuto. Centrifugar em velocidade máxima por 2 minu-tos. Remover o sobrenadante.

5. Repetir a etapa 4.

6. Limpar o tubo em toalha de papel para remover resíduos deetanol.

7. Secar o pélete de tecido por 5-10 minutos em estufa a 55°C.Nota: é fundamental que o etanol seja completamente removido, e ospéletes, completamente secos, o etanol residual pode inibir a digestão pela PK.

Nota: se a temperatura da PK for de -20°C, aquecer em tempe-ratura ambiente por 20-30 minutos.Extração de RNA ~2,5-3 horas

1. Acrescentar 100 μl de Tampão de Lise de Tecido, 16 μΙ deSDS a 10% e 80 μΙ da solução de trabalho de Proteinase K a um pélete detecido, submeter a vórtice brevemente em vários intervalos e incubar porduas horas a 55°C, agitando a 400 rpm.

2. Acrescentar 325μΙ de Tampão de Ligação e 325μΙ de etanol abs.Misturar gentilmente com uma pipeta, movimentando para cima e para baixo.

3. Centrifugar o Iisado em velocidade máxima por 2 min.

4. Combinar o tubo de filtração e o tubo de coleta (12 tubos), ecom uma pipeta colocar o lisado sobrenadante no filtro.

5. Centrifugar por 30 segundos a 8000 rpm e descartar o líquidoescoado.

Nota: As etapas 4-5 podem ser repetidas, se for necessário jun-tar o RNA com mais 2 péletes de tecido preparados.

6. Repetir a centrifugação a 8000 rpm por 30 segundos para se-car o filtro.

7. Acrescentar 500 μΙ da solução de trabalho de Tampão de La-vagem I à coluna e centrifugar por 15-30 segundos a 8000 rpm, descartar olíquido escoado.8. Acrescentar 500 μΙ da solução de trabalho de Tampão de La-vagem II. Centrifugar por 15-30 segundos a 8000 rpm, descartar o líquidoescoado.

9. Acrescentar 300 μΙ da solução de trabalho de Tampão de La-vagem II, centrifugar por 15-30 segundos a 8000 rpm, descartar o líquidoescoado.

10. Centrifugar o filtro de Alta Pureza por 2 min em velocidademáxima.

11. Colocar o tubo do filtro de Alta Pureza em um novo tubo de1,5 ml e acrescentar 90 μΙ de Tampão de Eluição. Incubar por 1-2 min emtemperatura ambiente. Centrifugar 1 min a 8000 rpm.Tratamento com DNase I ~1,5 hora

12. Acrescentar 10 μΙ de 10 χ Tampão de Incubação de DNase e1,0 μΙ da solução de trabalho de DNase I ao eluído e misturar. Incubar por45 min a 37°C (ou 2,0 μΙ de DNase I por 30min).

13. Acrescentar 20 μΙ de Tampão de Lise de Tecido, 18 μΙ deSDS a 10% e 40 μΙ da solução de trabalho de Proteinase K. Submeter a vór-tice brevemente. Incubar por 30 min (30-60 min.) a 55°C.

14. Acrescentar 325 μΙ de Tampão de Ligação e 325 μΙ de etanolabs. Misturar e com uma pipeta colocar em um novo tubo de filtração de AltaPureza com o tubo de coleta (12 tubos).

15. Centrifugar por 30 segundos a 8000 rpm e descartar o líqui-do escoado.

16. Repetir a centrifugação a 8000 rpm por 30 segundos parasecar o filtro.

17. Acrescentar 500 μΙ da solução de trabalho de Tampão deLavagem II. Centrifugar por 15-30 segundos a 8000 rpm, descartar o líquidoescoado.

18. Acrescentar 500 μΙ da solução de trabalho de Tampão deLavagem II. Centrifugar por 15-30 segundos a 8000 rpm, descartar o líquidoescoado.

19. Acrescentar 300 μΙ da solução de trabalho de Tampão deLavagem II. centrifugar por 15-30 segundos a 8000 rpm, descartar o líquidoescoado.

20. Centrifugar o filtro de Alta Pureza por 2 minutos em veloci-dade máxima.

21. Colocar o tubo do filtro de Alta Pureza em um novo tubo de 1,5ml e acrescentar 50 μΙ de Tampão de Eluição. Incubar por 1-2 minutos em tem-peratura ambiente. Centrifugar 1 min a 8000 rpm para coletar o RNA eluído.

22. Centrifugar o eluído por 2 min. em velocidade máxima e transfe-rir o sobrenadante para um novo tubo sem mexer nas fibras de vidro no fundo.

23. Efetuar a leitura em 260/280 OD e diluir para 50 ng/μΙ. Arma-zenar a -80°C.

Protocolo para Ensaio ASR de CUP (ABI 7900)

Objetivo: Uso de qRTPCR para determinação de tecido de origem de umaamostra de CUP

Preparação de controles:

1. Controles positivos (Consultar a Tabela 5 e Placa C em Preparação dePlacas. Figura 7)

Tabela 5 Diluições em série de IVT - 5 μΙ 1 X 108 em 470 μΙ de H2O + 25 μΙde 10000 rRNA

<table>table see original document page 47</column></row><table>

1E6. Tabela 5. Diluir 50.000 CE/μl de rRNA para 500 CE/μl - 5μl 50.000 CE/μl + 495 μl H2ORepartir em alíquotas de 10μl por tubo em tiras (2 placas); Colocar a mistura a -80°C até que pronta parauso.2. Curvas-padrão (Consultar a Tabela 6 e Placa C em Preparação de Placas. Figura 7)

Etapa 1: A curva-padrão foi definida exatamente conforme apresentado naTabela 6.

<table>table see original document page 48</column></row><table>

Tabela 7. Solução de Estogue - 1 X 108 IVT. Diluir 50.000 CE/μΙ de rRNApara 500 CE/μΙ - 5μΙ 50.000 CE/μΙ + 495 μΙ de H2O

Repartir em alíguotas de 10μΙ por tubo em tiras (duas placas); Colocar a mis-tura a -80°C até gue pronta para uso.

Mistura de enzimas:

1. Mistura máster: Enzima (Tth)/Anticorpo (TP6-25), consultar a Tabela 7.

Tabela 7

<table>table see original document page 48</column></row><table>

Repartir em alíguota de 500μΙ /tubo e congelar a -20°C.Mistura Máster de CUP:

1. 2.5 X de Mistura Máster de CUP (Tabelas 8-11):

Tabela 8

<table>table see original document page 49</column></row><table>

Permitir a mistura completa do reagente por > 15 minutos

Tabela 9

<table>table see original document page 49</column></row><table> Permitir a mistura completa do reagente por > 15 minutos; Combinar as mis-turas acima em recipiente estéril - acrescentar o seguinte

Tabela 10

<table>table see original document page 49</column></row><table>

Permitir a mistura completa do reagente por > 15 minutos; Repartir em alí-quotas de 1,8 ml/tubo e congelar a -20°CTabela 11

<table>table see original document page 50</column></row><table>

Mistura de iniciador e sonda:

Repartir em alíquota de 250 μΙ/tubo e congelar a -20°C

Mistura da reação:

1. Mistura máster de CUP (CMM): (Consultar as Tabelas 12-14 e Placa A emPreparação de Placas. Figura 7)

Tabela 12

<table>table see original document page 50</column></row><table>

De preferência, cada rodada/placa não terá mais do que 356reações: 12 amostras com 12 Marcadores (288 reações com duas réplicaspara cada) + 10 controles de curva-padrão em duplicada (20) + 2 controlespositivos e 2 controles negativos para cada Marcador. (4x12=48)

Ajustar a água para o volume da amostra - 4,3 μΙ de Amostra MAX; Misturarbem

Tabela 13

<table>table see original document page 50</column></row><table>2. Marcadores de ToO: Misturar bem

Tabela 14

<table>table see original document page 51</column></row><table>

3. β-Actina e Marcadores PBGD: Misturar bemPreparação de amostras:

Tabela 15

<table>table see original document page 51</column></row><table>

1. Amostras de CUP: 12 amostras em placa de 96 poços: A1-A12(Consultar a Tabela 16 e Placa B em Preparação de Placas, Figura 7); Re-partir em alíquota de 50 μΙ de 50 ng/μΙ (2 μΙ/rodada)Carga da placa:

1. Preparação da Placa de 384 Poços: (Consultar a Placa D emPreparação de Placas, Figura 7)

2 μΙ de amostra e 8 μΙ de CMM são carregados na placa, (amos-tra = 50 ng/μΙ)

4 μΙ de amostra e 6 μΙ de CMM são carregados na placa (amos-15 tra = 25 ng/μΙ)

A placa é lacrada e identificada. Centrifugar a 2000 rpm por 1 min.Preparação do ABI 7900HT: Colocar no ABI 7900. Selecionar o programa"CUP 384" e iniciar.

Tabela 16

<table>table see original document page 52</column></row><table>

Os dados são analisados. Ct são extraídos e inseridos em Algoritmo

Exemplo 3

Algoritmo de CUP

Os valores de ACt normalizados de actina para HPT, MGB1PDEF, PSA1 SP-B1 TFF1 DSG1 WT1, PSCA e F5 são colocados em 6 conjun-tos com base no tecido de origem dos quais foram originalmente seleciona-dos. As constantes 9,00; 11,00; 7,50; 5,00; 10,00; 9,50; 6,50; 8,00; 9,00 e8,00 são subtraídas de cada ACt, respectivamente. Em seguida, para cadaamostra, é selecionado o valor mínimo de CT de cada um dos 6 conjuntos(HPT, min (MGB ou PDEF), PSA, min (SP-B, TFF ou DSG), WT1 e min(PSCA ou F5)) como a variável representativa para o grupo.

Estas variáveis e o sítio da metástase são utilizados para classi-ficar a amostra empregando discrimantes lineares. Dois modelos diferentes,um para homens e um para mulheres, devem ser construídos a partir dosdados de treinamento, empregando a função 'Ida' da biblioteca de MASS(Venables et ai (2002) em R (versão 2.0.1)). Uma probabilidade posteriorpara cada ToO é calculada em seguida empregando a função 'predict' para omodelo masculino ou feminino.

As variáveis, nos modelos masculinos, são HPT, PSA, o mínimode ('SP-B', TFF', 'DSG3'), o mínimo de ('PSCA', 'F5') e o sítio da metástase.A categoria sítio da metástase possui 4 níveis, correspondentes a colo, pul-mão, ovário e todos os outros tecidos. Para os modelos femininos, as variá-veis são HPT, o mínimo de ('MGB', 1PDEF'), o mínimo de ('SP-B', TFF','DSG3'), WT1, o mínimo de ('PSCA', 'F5') e o sítio da metástase.

Exemplo de Código R:

Para operar este código, uma estrutura de dados denominadaCUP2.MIN.NORM precisa conter os dados de treinamento com o valor mí-nimo calculado para cada conjunto de tecido de origem, conforme descritoacima.

A classe corresponde ao tecido de origem e o histórico corres-ponde aos sítios de metástases, conforme descritos acima.

Os dados em testes podem constar do CUP2.MIN.NORM.TEST1podendo ser testada uma amostra específica na linha i com a função "pre-dicf (previsão). Mais uma vez, os dados em teste deverão estar no mesmoformato do conjunto de treinamento, além de terem os ajustes de valor mí-nimo aplicados a eles.

Exemplo 4

Amostras resolvidas de CUP

48 amostras de CUP, resolvidas e não-resolvidas, foram compa-radas para determinar a correlação com amostras de CUP verdadeiras. Osmétodos utilizados foram aqueles descritos nos Exemplos 1-3. Os resultadosobtidos são apresentados na Tabela 17. Foram testadas 11 amostras deCUP não-resolvido, sendo feito diagnóstico em 8 amostras, 3 foram de outracategoria.

TABELA 17

<table>table see original document page 53</column></row><table>Exemplo 5

Limites do ensaio de CUP

A Figura 8 descreve os resultados obtidos com os métodos des-critos nos Exemplos 1-3, para determinação dos limites dos ensaios de CUP.

O desempenho do ensaio foi testado em um intervalo de concentrações deRNA e foi constatado que os ensaios de CUP são eficientes no intervalo de100-12,5 ng de RNA.

Exemplo 6

Ensaio de qRTPCR

Materiais e Métodos. Amostras de tecido congelado para análiseem microarranjo. No total, 700 tecidos primários humanos congelados foramutilizados para análise de perfil de expressão gênica em microarranjo. Asamostras foram obtidas de uma variedade de instituições acadêmicas, inclu-indo a Universidade de Washington (St. Louis, MO), Erasmus Medicai Cen-ter (Rotterdam, Países Baixos) e empresas comerciais de banco de tecidos,incluindo Genomics Collaborative, Inc (Cambridge, MA), Asterand (Detroit,Ml), Oncomatrix (La Jolla1 CA) e Clinomics Biosciences (Pittsfield, MA). Paracada espécime, foi coletada informação de pacientes referentes a dadosdemográficos, clínicos e de patologia. As características histopatológicas decada amostra foram revistas para confirmar o diagnóstico e para estimar aconservação da amostra e o conteúdo de tumor.

Extração de RNA e Hibridizacão em GeneChip da Affvmetrix.Amostras congeladas de câncer com mais de 70% de células do tumor, a-mostras benignas e normais foram dissecadas e homogeneizadas com ho-mogeneizador mecânico (UItraTurrex T8, Alemanha) em reagente Trizol (In-vitrogen, Carlsbad, CA). O tecido foi homogeneizado em reagente Trizol deacordo com o protocolo padrão de Trizol para isolamento de RNA de tecidoscongelados (Invitrogen, Carlsbad, CA). Após centrifugação, a fase líquida dotopo foi coletada e RNA total foi precipitado com álcool isopropílico a -20°C.

Os péletes de RNA foram lavados com etanol a 75%, separados em água earmazenados a -80°C até o uso.

A qualidade do RNA foi examinada com o BioAnaIisador 2100para Nano Ensaio 6000 RNA da Agilent (Agilent Technologies, Palo Alto,CA). cRNA marcado foi preparado e hibridizado com o arranjo Hul33A deChip Genômico de alta densidade de oligonucleotídeos (Affymetrix, SantaClara, CA), contando, no total, com 22.000 conjuntos de sondas, de acordocom o protocolo padrão do fabricante. Os arranjos foram investigados utili-zando protocolos e scanners da Affymetrix . Para análise subsequente, cadaconjunto de sondas foi considerado como um gene separado. Foram calcu-lados valores de expressão, para cada gene, utilizando o programa MAS 5.0para análise de chips genômicos da Affymetrix. Todos os chips atenderam atrês padrões de controle de qualidade: a chamada percentual "presente" pa-ra o arranjo foi superior a 35%, o fator da escala foi inferior a 12 quando es-calado para uma intensidade-alvo global de 600 e o nível médio do fundo foiinferior a 150.

Seleção de possível Marcador. Para seleção de tecido de origem(ToO), foram medidos níveis de expressão dos conjuntos de sondas de pos-síveis Marcadores para tecidos do pulmão, colo, mama, ovário e da próstatanas amostras de RNA, cobrindo, no total, 682 tecidos normais, benignos ecancerosos de mama, colo, pulmão, ovário e próstata. Os possíveis Marca-dores específicos dos tecidos foram selecionados com base no número devalores estatísticos investigados.

A fim de gerar candidatos pancreáticos, foram utilizados perfisde expressão gênica de 13 espécimes de adenocarcinoma ductal primáriodo pâncreas, 5 de pâncreas normal e 98 de câncer do pulmão, colo, mama eovário para selecionar os Marcadores de adenocarcinoma do pâncreas. Fo-ram realizadas duas pesquisas. Na primeira, foi criado um conjunto de dadoscontendo 14547 com pelo menos duas chamadas "presentes" em amostrasde pâncreas. No total, foram identificados 2736 com superexpressão emcâncer de pâncreas, comparado a normal, por teste T (p<0,05). Foram sele-cionados genes cuja expressão mínima, no 11° percentil, de câncer de pân-creas era pelo menos duas vezes mais alta do que a máxima no câncer decolo e pulmão, criando então 45 conjuntos de sondas. Como etapa final, 6genes com expressão máxima pelo menos duas vezes mais alta do que aexpressão máxima em cânceres de colo, pulmão, mama e ovário foram se-lecionados. Em uma segunda pesquisa, foi criado um conjunto de dados de4654 conjuntos de sonda com, no máximo, duas chamadas 2 "presentes"em todos os espécimes de mama, colo, pulmão e ovário. No total, 160 genescom, pelo menos, duas chamadas "presentes" em amostras de pâncreasnormal e de câncer foram selecionados. Dos 160 genes, 10 genes foramselecionados após a comparação de seus níveis de expressão entre pân-creas e tecidos normais. Os resultados das duas pesquisas referentes apâncreas foram combinados.

Além da análise de perfil de expressão gênica, alguns Marcadoresforam selecionados da literatura. Os resultados de todas as pesquisas foramcombinados para criar uma lista pequena de possíveis Marcadores de ToO pa-ra cada tipo de tecido. Foram estimadas a sensibilidade e especificidade decada Marcador. Os Marcadores que demonstraram a melhor capacidade paradiferenciar tecidos por sua origem foram nomeados para os testes de RT-PCRcom base em redundância e complementaridade dos Marcadores.

Tecidos FFPE de carcinoma metastático de origem conhecida ede CUP. No total, 386 carcinomas metastáticos FFPE (Estágio lll-IV) de ori-gem conhecida e 24 adenocarcinomas primários de próstata FFPE foramadquiridos de uma variedade de fornecedores comerciais, incluindo Proteo-genex (Los Angeles, CA), Genomics Collaborative, Inc. (Cambridge, MA),Asterand (Detroit, Ml), Ardais (Lexington, MA) e Oncomatrix (La Jolla, CA).Um conjunto independente de 48 carcinomas metastáticos de tumores pri-mários conhecidos e tecidos de CUP foi obtido da Faculdade de Medicina deAlbany (Albany, NY). Foi coletada informação do paciente referente a dadosdemográficos, clínicos e de patologia, para cada espécime. As característi-cas histopatológicas de cada amostra foram revistas para confirmar o diag-nóstico e estimar a conservação da amostra e conteúdo de tumor. Para a-mostras de metástases, os diagnósticos de carcinoma metastático e ToOforam estabelecidos inequivocamente com base na história clínica do paci-ente e avaliação histológica do carcinoma metastático em comparação atumores primários correspondentes.Isolamento de RNA de amostras FFPE. O isolamento de RNA deseções do tecido em parafina foi conforme descrito no manual do Kit de RNAde Alta Pureza em Parafina (Roche) com as seguintes modificações. As a-mostras de tecido embebidas em parafina foram divididas em seções de a-cordo com o tamanho da metástase embebida (2-5 mm = 9X10 pm, 6-8mm = 6 X 10 pm, 8->10 mm = 3X10 pm). As seções foram desparafinadasconforme descrito pelo manual do Kit, e o pélete do tecido foi secado emuma estufa a 55°C por 5-10 minutos e novamente suspendidas em 100 pl detampão de Iise de tecido, 16 pl de SDS a 10% e 80 pl de Proteinase K. Asamostras foram submetidas a vórtice e incubadas em um conjunto termo-misturador a 400 rpm por duas horas a 55°C. O processamento subsequentedas amostras foi conduzido de acordo com o manual do Kit de RNA de AltaPureza em Parafina. As amostras foram quantificadas por leituras em OD260/280, obtidas por um espectrofotômetro, sendo as amostras diluídas para50 ng/pl. O RNA isolado foi armazenado em água livre de Rnase a -80°Caté o uso.

qRTPCR para pré-varredura de possíveis Marcadores. Um pg deRNA total de de cada amostra foi submetido à transcrição reversa com he-xâmeros aleatórios, utilizando a transcriptase reversa Superscript Il de acor-do com as orientações do fabricante (Invitrogen, Carlsbad, CA). Iniciadores esondas de MGB, para os possíveis genes Marcadores testados e o gene decontrole ACTB, foram criados utilizando o programa Primer Express (AppliedBiosystems, Foster City, CA) ou Assay-on-Demand da ABI (Applied Biosys-tems, Foster City, CA). Todos os iniciadores e sondas, criados internamente,foram testados quanto à eficiência de amplificação mais adequada acima de90%. A amplificação por RT-PCR foi conduzida em 20 ml de uma mistura dereação, contendo 200 ng do gabarito de cDNA, 2 χ mistura máster TaqMan®universal PCR (10 ml) (Applied Biosystems, Foster City, CA), iniciadores di-reto e reverso a 500 nM e sonda a 250 nM. As reações foram conduzidasem um Sistema de Detecção de Seqüência PRISM 7900HT da ABI (AppliedBiosystems, Foster City, CA). As condições para os ciclos foram: 2 min deativação AmpErase UNG a 50°C, 10 min de ativação de polimerase a 95°C e50 ciclos a 95°C por 15 segundos e temperatura de anelamento (60°C) por60 segundos. Em cada ensaio, controle de "sem-garabito", junto com o ga-barito de cDNA foram incluídos, em duplicata, para o gene de interesse e ogene de controle. A expressão relativa de cada gene-alvo foi representadasob a forma de ACt, o qual é igual a Ct do gene-alvo, subtraído pelo Ct dogene de controle (ACTB).

RTPcR otimizada de uma etapa. Números apropriados de aces-so de seqüência de mRNA de referência em conjunto com Oligo 6.0 foramutilizados para desenvolver ensaios de CUP da TaqMan® (Marcadores parapulmão: proteína B humana pulmonar associada a surfactante (HUMPSP-BA), fator 1 de transcrição da tireoide (TTF1), desmogleína 3 (DSG3), Mar-cador colorretal: caderina 17 (CDH17), Marcadores para mama: mamaglobi-na (MG), fator de transcrição ets derivado de próstata (PDEF), Marcador pa-ra ovário: tumor 1 de wilms (WT1), Marcadores para pâncreas: antígeno decélulas-tronco de próstata (PSCA), fator V de coagulação (F5), Marcadorpara próstata: calicreína 3 (KLK3)) e para ensaios de housekeeping, beta-actina (β-Actina) e hidroximetilbilano sintase (PBGD). Na Tabela 2 (SEQ IDNOs: 11-58) estão listados os Iniciadores de genes específicos e sondas dehidrólise, utilizados para o ensaio otimizado de qRT-PCR de uma etapa. Aamplificação de DNA genômico foi excluída quando foi estabelecido que osensaios ocorreriam em torno dos sítios de divisão éxon-íntron. As sondas dehidrólise foram marcadas no nucleotídeo 5' com FAM, como o corante derepórter, e no nucleotídeo 3' com BHQ1-TT, como o corante de resfriamentointerno.

A quantificação de RNA de gene específico foi conduzida emplaca de 384 poços no sistema de detecção de seqüência Prism 7900HT daABI (Applied Biosystems). Para cada teste termo-cíclico, foram amplificadoscalibradores e curvas-padrão. Os calibradores para cada Marcador constituí-ram em transcritos do gene-alvo in vitro, diluídos em RNA veículo de rim derato em 1 X 105 cópias. Curvas-padrão para Marcadores housekeeping con-sistiram em transcritos do gene-alvo in vitro, diluídos em série em RNA veí-culo de rim de rato em 1 X 107, 1 X 105 e 1 X 103 cópias. Não foram incluí-dos controles-alvo em cada ensaio para assegurar ausência de contamina-ção ambiental. Todas as amostras e controles foram testados em duplicata.

A qRTPCR foi conduzida com reagentes de laboratório de uso geral em 10μΙ de reação contendo: Tampão de RT-PCR (Bicina/KOH a 50 nM, pH 8,2,KAc a 115 nM, glicerol a 8%, MgCI2 a 2,5 mM, MnSO4 a 3,5 mM, dCTP,d ATP, d GTP e dTTP, cada um a 0,05 mM), Aditivos (Tris-CI a 2 mM pH 8,Albumina Bovina a 0,2 mM, Trehalose a 150 mM, Tween 20 a 0,002%), Mis-tura de Enzima (2U de Tth (Roche), 0,4mg^l de Ab TP6-25), Mistura deIniciador e Sonda (Sonda a 0,2μΜ, Iniciadores a 0,5μΜ). Foram seguidos osseguintes parâmetros para os ciclos: 1 ciclo a 95°C por 1 minuto; 1 ciclo a55°C por 2 minutos; 5% de rampa; 1 ciclo a 70°C por 2 minutos; e 40 ciclosde 95°C por 15 segundos, 58°C por 30 segundos. Depois que a reação dePCR foi concluída, valores de baseline e de limiares foram estabelecidos noprograma do 7900HT Prism da ABI, sendo calculados valores de Ct que fo-ram exportados para Excel da Microsoft.

Reação de uma etapa versus de duas etapas. Para efetuar acomparação entre reações de RT-PCR de uma etapa e de duas etapas, foiconduzida a síntese da primeira fita da reação de duas etapas, utilizando100 ng de hexâmeros aleatórios ou iniciadores específicos do gene por rea-ção. Na primeira etapa, 11,5 μΙ da Mistura-1 (iniciadores e 1 μg de RNA total)foram aquecidos até 65°C por 5 minutos e, em seguida, resfriados em gelo.8,5 μΙ da Mistura (1x Tampão, DTT a 0,01 mM, 0,5mM de cada dNTP,0,251Ι/μΙ de RNasin®, IOU/μΙ de Superscript III) foram acrescentados à Mis-tura 1 e incubados a 50°C por 60 minutos, seguidos por 95°C durante 5 mi-nutos. O cDNA foi armazenado a -20°C até que pronto para uso. A qRTPCRpara a segunda etapa da reação de duas etapas foi realizada exatamenteconforme declarado acima com os parâmetros para os ciclos: 1 ciclo a 95°Cpor 1 minuto; 40 ciclos de 95°C por 15 segundos, 58°C por 30 segundos. AqRTPCR para a reação de uma etapa foi conduzida exatamente conformedeclarado no parágrafo precedente. As reações de uma etapa e a de duasetapas foram realizadas em 100 ng de gabarito (RNA/cDNA). Depois que areação de PCR foi concluída os valores de linha de base e de limiares foramestabelecidos no programa de 7900HT Prism da ABI e valores calculados deCt foram exportados para um arquivo em Excel da Microsoft.

Desenvolvimento de algoritmo. Discriminadores lineares foramconstruídos utilizando a função 'Ida' da biblioteca do MASS (Venables e Ri-pley), na linguagem R (verão 2.1.1). O modelo utilizado depende do tipo doqual a metástase foi extraída, bem como do sexo do paciente. Quando umsítio de metástase de pulmão, colo ou ovário é encontrado, a classe anterioré definida como zero para a classe que é equivalente ao sítio da metástase.Além disso, as chances prévias são definidas para zero para classe de ma-ma e ovário, em pacientes masculinos, enquanto que, em pacientes femini-nas, a classe anterior à de próstata é definida como zero. Todas as outraschances prévias utilizadas no modelo são equivalentes. Ademais, a classifi-cação para cada amostra tem como base a probabilidade posterior mais alta,determinada pelo modelo para cada classe. Para estimar os desempenhosdos modelos, foi conduzida uma validação cruzada do tipo "um de fora". A-lém disso, os conjuntos de dados foram divididos aleatoriamente em dois, aomesmo tempo em que foi preservada a relação proporcional entre as clas-ses, em conjuntos de treinamento e de testes. Essa divisão aleatória foi re-petida três vezes.

Resultados. O objetivo deste estudo foi o de desenvolver umensaio de qRTPCR para previsão de tecido de origem de carcinoma metas-tático. O trabalho experimental compreendeu duas partes principais. A pri-meira parte inclui a nomeação de possíveis Marcadores específicos de teci-dos, sua validação em tecidos FFPE de carcinoma metastático e a seleçãode 10 Marcadores para o ensaio (Figura 9A.). A segunda parte incluiu a oti-mização do ensaio de qRTPCR, seguida por implementação de outro con-junto de carcinomas metastáticos FFPE, a construção de um algoritmo deprevisão e sua validação cruzada e validação em um conjunto independentede amostras. (Figura 9B).

Características das amostras. RNA de, no total, 700 amostras detecido primário congelado foram utilizadas para a análise de perfil deexpressão gênica e a identificação de genes específicos do tipo de tecido.As amostras incluíram tecidos de 545 carcinomas primários (29 de pulmão,13 de pâncreas, 315 de mama, 128 colorretal, 38 de próstata e 22 de ová-rio), 37 de lesões benignas (1 de pulmão, 4 colorretal, 6 de mama e 26 depróstata) e 118 tecidos normais (36 de pulmão, 5 de pâncreas, 36 colorretal,14 de mama, 3 de próstata e 24 de ovário).

No total, amostras de 375 carcinomas metastáticos de origemconhecidas (Estágio 111-IV) e 26 de adenocarcinoma primário de próstata fo-ram utilizadas no estudo. Os carcinomas metastáticos originaram-se do pul-mão, pâncreas, colorreto, ovário, próstata, além de outros cânceres. A cate-goria "outro" de amostras consistiu em metástases derivadas de outros teci-dos, diferentes de pulmão, pâncreas, colo, mama, ovário e próstata. As ca-racterísticas dos pacientes estão resumidas na Tabela 18.

Tabela 18

<table>table see original document page 61</column></row><table>

Outro** 25

Carcinoma de tumor primário desconhecidoDiagnóstico histopatológico

Adenocarcinoma, de moderado a bem dife-renciado 306<table>table see original document page 62</column></row><table>

* A idade é desconhecida para 26 pacientes

"esôfago, bexiga, pleura, fígado, vesícula biliar, vias biliares, farin-ge, Iinfona não-Hodgkin

***pequenas células, mesotelioma, hepatocelular, melanoma, linfoma

As amostras foram separadas em dois conjuntos: o conjunto devalidação (205 espécimes), utilizado para validar a expressão diferenciadaespecífica de tecidos de possíveis Marcadores, e o conjunto de treinamento(260 espécimes), utilizado para testes do procedimento otimizado de qRTP-CR de uma etapa e treinamento de um algoritmo de previsão. O primeiroconjunto de 205 amostras de câncer inclui 25 de pulmão, 41 de pâncreas, 31colorretal, 33 de mama, 33 de ovário, 1 de próstata, 23 de outras metástasescancerosas e 18 de câncer de próstata primário. O segundo conjunto consis-tiu em 260 amostras de câncer que incluíram 56 de pulmão, 43 de pâncreas,30 colorretal, 30 de mama, 49 de ovário, 32 de outras metástases cancero-sas e 20 de câncer de próstata primário. Sessenta e quatro espécimes, in-cluindo 16 de carcinomas de pulmão, 21 de pâncreas, 15 de outras metásta-ses e 12 de próstata primário provieram do mesmo paciente em ambos osconjuntos.

O conjunto independente de amostras, obtido da Faculdade deMedicina de Albany compreendeu 33 espécimes de CUP com um tumor pri-mário sugerido para 22 deles e 15 carcinomas metastáticos de origem co-nhecida. Para CUPs com sugestão de tumor primário, foi feito diagnósticocom bae em características morfológicas e/ou resultados de testes com umpainel de Marcadores de IHC. As características demográficas, clínicas e dapatologia dos pacientes são apresentados na Tabela 18.

Seleção de possível Marcador. A análise de perfis de expressãogênica de 5 tipos de tecidos primários (pulmão, colo, mama, ovário, próstata)resultou na nomeação de 13 possíveis Marcadores específicos de tecidopara testes por qRTPCR. Os que tinham mais chances eram os identificadosem estudos anteriores de cânceres in situ. Argani et al. (2001), Backus et al.(2005), Cunha et al. (2005), Borgono et al. (2004), McCarthy et al. (2003),Hwang et al. (2004), Fleming et al. (2000), Nakamura et al. (2002) e Khoor etal. (1997). Além da análise dos dados de microarranjos, foram selecionadosdois Marcadores da literatura, incluindo um Marcador complementar deDSG3 de carcinoma de célula escamosa de pulmão e Marcador para mamaPDEF. Backus et al. (2005). Os dados do microarranjo confirmaram a altasensibilidade e especificidade destes Marcadores.

Uma abordagem especial foi utilizada para identificar Marcado-res específicos do pâncreas. Inicialmente, cinco possíveis Marcadores parapâncreas foram analisados: antígeno de células-tronco de próstata (PSCA),inibidor de serina proteinase, membro 1 da família A (SERPINA1), citoquera-tina 7 (KRT7), matriz metaloprotease 11 (MMP11) e mucina 4 (MUC4) (Va-radhachary et al. (2004), Argani et al. (2001), Jones et ai (2004), Prasad etai (2005) e Moniaux et al. (2004)), utilizando microarranjos de DNA e umpainel de 13 adenocarcinomas ductais pancreáticos, cinco tecidos normaisde pâncreas e 98 amostras de tumores de mama, colorretal, pulmão e ová-rio. Somente PSCA demonstrou sensibilidade moderada (seis de treze ou46% dos tumores pancreáticos foram detectados) com alta especificidade(91 dos 98 ou 93% foram corretamente identificados como não sendo deorigem pancreática). Por outro lado, KRT7, SERPINA1, MMP11 e MUC4demonstraram 38%, 31%, 85% e 31% de sensibilidade, respectivamente, em66%, 91%, 82%, e 81% de especificidade, respectivamente. Estes dadosconcordaram bastante com a qRTPCR conduzida em 27 metástases de ori-gem pancreática e 39 metástases de origem não-pancreática para todos osMarcadores, exceto para MMP11 que demonstrou menor sensibilidade eespecificidade com qRTPCR e as metástases. Em conclusão, os dados demicroarranjo em instântaneo de tecido primário congelado serve como umbom indicador da capacidade do Marcador para identificar uma metástaseFFPE como sendo de origem pancreática, utilizando qRTPCR, porém queMarcadores adicionais podem ser úteis para desempenho mais.

O adenocarcinoma ductal pancreático desenvolve-se a partir decélulas epiteliais ductais que compreendem somente um percentual pequenode todas as células pancreáticas (com células do ácino e células de ilhotascompreendendo a maioria) no pâncreas normal. Além disso, os tecidos deadenocarcinoma pancreático contêm uma quantidade significativa de tecidonormal adjacente (Prasad et al. (2005) e Ishikawa et al. (2005)). Por causadesses dois fatos, os possíveis Marcadores para pâncreas foram enriqueci-dos com genes e lavados em adenocarcinoma do pâncreas em relação acélulas normais do pâncreas. O primeiro método de pesquisa teve como re-sultado seis conjuntos de sondas: fator V de coagulação (F5), proteína hipo-tética FLJ22041 semelhante a proteínas de ligação FK506 (FKBP10), β 6integrina (ITGB6), transglutaminase 2 (TGM2), ribonucleoproteína nuclearheterogênea AO (HNRPO) e BAX delta (ΒΑΧ). O segundo método de pesqui-sa (consultar Materiais e Métodos) resultou em oito conjuntos de sondas: F5,TGM2, fator 1 de transcrição de homeodomínio de par semelhante (PITX1),isoforma trio de mRNA (TRIO), mRNA para p73H (p73), uma proteína des-conhecida para MGC: 10264 (SCD) e dois conjuntos de sonda para claudina 18.

No total, 23 possíveis Marcadores específicos de tecido foramselecionados para validação posterior de RT-PCR em tecidos FFPE de car-cinoma metastático por qRT-PCR. Os possíveis Marcadores foram testadosem 205 tecidos FFPE de carcinomas metastáticos do pulmão, pâncreas, co-lo, mama, ovário, próstata e carcinomas primários. A Tabela 19 fornece ossímbolos de genes dos Marcadores específicos de tecido, selecionados paravalidação de RT-PCRm1 além de apresentar o resumo dos resultados dostestes executados com estes Marcadores.

Tabela 19

<table>table see original document page 65</column></row><table><table>table see original document page 66</column></row><table>

Dos 23 Marcadores testados, treze foram rejeitados com baseem reatividade cruzada existente, baixo nível de expressão nos tecidos me-tastáticos correspondentes ou redundância. Dez Marcadores foram selecio-nados para a versão final do ensaio. Os Marcadores para pulmão foram pro-teína B pulmonar humana associada a surfactante (HUMPSPB), fator 1 detranscrição da tireoide (TTF1) e desmogleína 3 (DSG3). Os Marcadores parapâncreas foram antígeno de células-tronco de próstata (PSCA) e fator V decoagulação (F5). O Marcador para colorretal foi caderina 17 (CDH17). OsMarcadores para mama foram mamaglobina (MG) e fator de transcrição Etsderivado da próstata (PDEF). O Marcador ovariano foi tumor 1 de Wilms(WT1). Os valores médios relativos normalizados de expressão de Marcado-res selecionados, em tecidos metastáticos diferentes, são apresentados naFigura 10.

Otimização de preparo de amostras e qRT-PCR com tecidosFFPE. Em seguida ao isolamento de RNA e qRTPCR, os métodos foramotimizados com tecidos fixados antes de ser examinado o desempenho nopainel dos Marcadores. Em primeiro lugar, foi analisado o efeito da reduçãodo tempo de incubação, de dezesseis para 3 horas, com a proteinase K. Nãohouve efeito sobre o rendimento. No entanto, algumas amostras demonstra-ram fragmentos mais longos de RNA quando a etapa mais curta com a pro-teinase K foi utilizada (Figura 11 A, B). Por exemplo, quando o RNA foi isola-do de um bloco de um ano (C22), não foi observada diferença nos eletrofe-rogramas. No entanto, quando o RNA foi isolado de um bloco de cinco anos(C23), uma fração maior de RNAs de peso molecular mais alto foi observa-da, quando avaliada pela crista no ressalto, quando a digestão mais curtacom proteinase K foi utilizada. Essa tendência manteve-se de modo geralquando outras amostras foram processadas, independentemente do órgãode origem para a metástase FFPE. Em conclusão, o encurtamento do tempode digestão pela proteinase K não prejudica rendimentos de RNA e podeauxiliar no isolamento mais longo e menos degradado de RNA.

Em seguida, foram comparados três métodos diferentes detranscrição reversa: transcrição reversa com hexâmeros aleatórios, seguidapor qPCR (duas etapas), transcrição reversa com um iniciador específico dogene, seguida por qPCR (duas etapas) e qRTPCR em uma etapa empre-gando iniciadores específicos de genes. O RNA foi isolado de onze metásta-ses e foram comparados valores de Ct entre os três métodos para β-actina,HUMSPB (Figura 11C, D) e TTF. Houve diferenças estatisticamente signifi-cantes (p < 0,001) para todas as comparações. Para ambos os genes, atranscrição reversa com hexâmeros aleatórios, seguida por qPCR (reaçãode duas etapas) forneceu os valores mais altos de Ct, enquanto que a trans-crição reversa com um iniciador específico do gene, seguida por qPCR (rea-ção de duas etapas) forneceu valores de Ct ligeiramente (porém estatistica-mente significantes) mais baixos do que a reação correspondente de 1 eta-pa. No entanto, RTPCR de duas etapas empregando iniciadores específicosde genes apresentou uma etapa mais longa de transcrição reversa. Quandoos valores de Ct de HUMSPB e TTF foram normalizados para o valores cor-respondentes de β-actina, para cada amostra, não houve diferenças nos va-lores normalizados de Ct entre os três métodos. Em conclusão, a otimizaçãodas condições da reção de RTPCR pode gerar valores mais baixos de Ct, oque pode auxiliar na análise de blocos de parafina mais antigos (Cronin et al(2004)), e uma reação de uma etapa de RTPCR1 empregando iniciadoresespecíficos de genes, pode gerar valores de Ct comparáveis àqueles gera-dos na reação correspondente de duas etapas.

Desempenho diagnóstico de ensaio otimizado de qRTPCR. Fo-ram conduzidas 12 reações de qRTPCR (10 Marcadores e dois genes hou-sekeeping) em um novo conjunto de 260 metástases FFPE. Vinte e umaamostras forneceram valores altos de Ct para os genes housekeeping, des-sa forma, somente foram utilizados 239 na análise do mapa de calor. A aná-lise de valores normalizados de Ct1 em um mapa de calor, revelou a alta es-pecificidade dos Marcadores para mama e próstata, especificidade modera-da dos Marcadores para colo, pulmão e ovário e uma especificidade algomais baixa dos Marcadores para pâncreas (Figura 12). A combinação dosdados normalizados de qRTPCR com o refinamento por computação melho-ra o desempenho do painel dos Marcadores.

Empregando valores de expressão, normalizados para expres-são média de dois genes housekeeping, foi desenvolvido um algoritmo parapredizer a origem de tecidos metastáticos pela combinação dos dados nor-malizados de qRTPCR com o algoritmo, e a exatidão do ensaio de qRTPCR,determinada por meio de teste de validação cruzada do tipo "um de fora"(LOOCV). Dos seis tipos de tecido incluídos no ensaio, foi estimado separa-damente que o número de chamadas falso-positivas, nas quais a previsãopara uma amostra foram feitas equivocamente para outro tipo de tumor in-cluído no ensaio (pâncreas como colo, por exemplo) e o número de vezesque uma amostra não foi prevista como aquelas incluídas nos tipos de tecidodo ensaio (outro). Os resultados do LOOCV são apresentados na Tabela 20.Tabela 20

<table>table see original document page 69</column></row><table>

O tecido de origem foi previsto corretamente para 204 das 260amostras testadas com uma exatidão global de 78%. Uma proporção signifi-cativa das chamadas falso-positivas foi decorrente de reatividade cruzadados Marcadores em tecidos histologicamente semelhantes. Por exemplo,três carcinomas metastáticos de células escamosas, originários da faringe,laringe e esôfago, foram equivocadamente previstos como de pulmão pelaexpressão de DSG3 nestes tecidos. A expressão positiva de CDH17 em ou-tros carcinomas Gl além do de colo, incluindo estômago e pâncreas, provo-caram uma classificação falsa de 4 das 6 metástases de câncer de estôma-go testadas e de 3 das 43 testadas de metástases de câncer pancreáticocomo colo.

Além de um teste de LOOCV, os dados foram divididos aleatori-amente em 3 pares separados de treinamento e conjuntos de testes. Cadadivisão continha aproximadamente 50% das amostras de cada classe. Emdivisões de 50/50 em três pares separados de conjuntos de treinamento e deteste, a exatidão global da classificação do ensaio foi de 77%, 71% e 75%,confirmando a estabilidade de desempenho do ensaio.

Finalmente, outro conjunto independente de 48 carcinomas me-tastáticos FFPE, incluindo carcinoma metastático de tumor primário conheci-do, foram testadas espécimes de CUP com diagnóstico de tecido de origemfornecido por avaliação patológica, incluindo IHC, e espécimes de CUP quepermaneceram CUP após testes IHC. A exatidão da previsão de tecido deorigem foi estimada separadamente para cada categoria de amostras. A Ta-bela 21 resume os resultados do ensaio.

Tabela 21

<table>table see original document page 70</column></row><table>

A previsão do tecido de origem foi, com somente algumas exce-ções, compatível com o tumor primário conhecido ou diagnóstico de tecidode origem, analisado por avaliação clínica/patológica, incluindo IHC. Seme-lhantemente ao conjunto de treinamento, o ensaio não capaz de diferenciarcarcinomas de células escamosas que se originaram de fontes diferentes epreviu-as falsamente como pulmão.

O ensaio também apresentou diagnóstico de possível tecido deorigem para oito de onze amostras que permaneceram como CUP após tes-tes diagnósticos padrões. Um dos casos de CUP foi especialmente curioso.Um paciente masculino com história de câncer de próstata foi diagnosticadocom carcinoma metastático no pulmão e pleura. Testes de PSA sérico e IHCcom anticorpos contra PSA em tecido metastático foram negativos, assim odiagnóstico do patologista foi CUP com uma inclinação para tumores gastro-intestinais. O ensaio previu fortemente (probabilidade posterior de 0,99) otecido de origem como colo.

Discussão. Neste estudo, foi utilizada análise de perfil de ex-pressão baseada em microarranjo para identificar possíveis Marcadores pa-ra uso com metástases. O fato de que tumores primários podem ser utiliza-dos para descobrir Marcadores de tumor de origem para metástases é com-patível com achados recentes. Por exemplo, Weigelt e outros demonstraramque perfis de expressão gênica de tumores primários de mama são mantidosem metástases distantes. Weigelt et al. (2003). Backus e outros identifica-ram supostos Marcadores para detecção de metástase de câncer de mamacom análise de expressão gênica em nível genômico e outros tecidos e de-monstraram que a mamaglobina e CK19 detectaram metástases clinicamen-te acionáveis em linfonodo-sentinela com 90% de sensibilidade e 94% deespecificidade. Backus et al. (2005).

Durante o desenvolvimento do ensaio, a seleção centrou-se emseis tipos de câncer, incluindo de pulmão, pâncreas e colo, os quais são en-tre os mais prevalentes em CUP (Ghosh et al. (2005) e Pavlidis et al. (2005))e de mama, ovário e próstata, cujo tratamento poderia ser potencialmentemais benéfico para pacientes. Ghosh et al. (2005). No entanto, tipos adicio-nais de tecido e de Marcadores podem ser acrescentados ao painel desdeque a exatidão global do ensaio não seja comprometida e, se aplicável, alogística das reações de RTPCR não seja prejudicada.

Os estudos baseados em microarranjo com tecido primário con-firmaram a especificidade e sensibilidade de Marcadores conhecidos. Con-sequentemente, a maioria dos Marcadores específicos de tecido possui altaespecificidade para os tecidos aqui estudados. Um estudo recente constatouque, usando IHC, o PSCA é superexpresso em metástases de câncer depróstata. Lam et al. (2005). Dennis et al. (2002) demonstraram também queo PSCA poderia ser utilizado como um Marcador de tumor de origem parapâncreas e próstata. A expressão intensa de PSCA em alguns tecidos dapróstata, em nível de RNA1 estava presente porém, em vista de o PSA tersido incluído no ensaio, cânceres de próstata e pancreáticos podem ser ago-ra separados. Um novo achado deste estudo foi o uso de F5 como um Mar-cador complementar (para o PSCA) para tecido de origem pancreática. Emambos, o conjunto de dados de microarranjo, com tecido primário, e o con-junto de dados de qRTPCR com metástases FFPE, foi constatado que o F5complementa o PSCA.Investigadores anteriores criaram ensaios para CUP1 empregan-do IHC (Brown et al. (1997), DeYoung et al. (2000) e Dennis et al. (2005a))ou microarranjos. Su et al. (2001), Ramaswamy et al. (2001) e Bloom et al.(2004). Mais recentemente, SAGE foi acoplado a um painel pequeno deMarcadores por qRTPCR. Dennis et al. (2002) e Buckhaults et al. (2003).Este estudo é o primeiro a combinar análise de perfil de expressão baseadoem microarranjo com um painel pequeno de qRTPCR. Os estudos de micro-arranjos com tecido primário identificaram alguns, porém não todos, dosmesmos Marcadores de tecido de origem conforme aqueles identificadosanteriormente por estudos de SAGE. Esse achado não é surpreendente,visto que estudos demonstraram existir uma concordância pequena entredados de perfis fundamentados em SAGE e microarranjo de DNA e que acorrelação melhora para genes com níveis de expressão mais altos, vanRuissen et al. (2005) e Kim et al. (2003). Por exemplo, Dennis e outros iden-tificaram PSA, MG1 PSCA e HUMSPB enquanto que Buckhaults e outros(Buckhaults et al. (2003)) identificaram PDEF.

A execução do ensaio de CUP é de preferência por qRTPCR porser esta uma técnica robusta e pode ter vantagens de desempenho sobreIHC. Al-Mulla et aí. (2005) e Haas et al. (2005). Além disso, conforme expos-to no presente, o protocolo de qRTPCR foi melhorado pelo uso de iniciado-res específicos de genes em uma reação de uma etapa. Esta é a primeirademonstração do uso de iniciadores específicos de genes em uma reaçãode qRTPCR de uma etapa com tecido FFPE. Outros investigadores execu-tam síntese por qRTPCR de duas etapas (síntese de cDNA em uma reação,seguida por qPCR) ou utilizaram hexâmeros aleatórios ou iniciadores trun-cados específicos de genes. Abrahamsen et al. (2003), Specht et al. (2001),Godfrey et al. (2000), Cronin etal. (2004) e Mikhitarian etal. (2004).

Em resumo, a exatidão global de 78% do ensaio para seis tiposde tecido compara-se favoravelmente a outros estudos. Brown et al. (1997),DeYoung et al. (2000), Dennis et al. (2005a), Su et al. (2001), Ramaswamyet al. (2001) e Bloom etal. (2004).Exemplo 7

Neste estudo, foi construído um classificador utilizando portfóliosde genes marcadores pela escolha de MVO e o uso deste classificador parapredizer origem de tecido e status de câncer de cinco principais tipos decâncer, incluindo de mama, colo, pulmão, ovário e próstata. Trezentos e se-tenta e oito cânceres primários, 23 lesões epiteliais proliferativas benignas e103 espécimes de tecido humano instantaneamente congelado foram anali-sados com o GeneChip U133A humano da Affymetrix. Amostras de leucóci-tos foram analisadas também para subtrair expressão gênica potencialmentemascarada por coexpressão em células de leucócitos subjacentes. Um novométodo de bioinformática à base de MVO foi desenvolvido para selecionarportfólios de genes marcadores para tecido de origem e status de câncer. Osdados demonstraram que um painel de 26 genes poderia ser utilizado comoclassificador para predizer com exatidão o tecido de origem e status do cân-cer entre 5 tipos de câncer. Dessa forma, um método de classificação demúltiplos tipos de câncer pode ser obtido pela determinação de perfis de ex-pressão gênica de um número razoavelmente pequeno de genes marcadores.

A Tabela 22 apresenta os Marcadores identificados para os teci-dos indicados. Para obter descrições dos genes, consultar a Tabela 31.

Tabela 22

<table>table see original document page 73</column></row><table><table>table see original document page 74</column></row><table>

O conjunto de amostras incluiu, no total, 299 amostras de carci-noma metastático de colo, mama, pâncreas, ovário, próstata, pulmão e deoutros carcinomas e de câncer de próstata primário. Foi implementado Con-trole de Qualidade, fundamentado em avaliação histológica, rendimento deRNA e expressão do gene de controle gene beta-actina. Outras categoriasde amostras incluíram metátases originárias de carcinomas de estômago (5),rim (6), colangio/vesícula biliar (4), fígado (2), cabeça e pescoço (4), íleo (1)e um mesotelioma. A Tabela 23 resume os resultados.

Tabela 23

<table>table see original document page 74</column></row><table>

Os testes das amostras acima resultaram no estreitamento doconjunto de Marcadores àqueles constantes na Tabela 24 com os resultadosapresentados na Tabela 25.Tabela 24

<table>table see original document page 75</column></row><table>

Tabela 25

<table>table see original document page 75</column></row><table>

Os resultados demonstraram que de 205 tumores metastáticosembebidos em parafina, 166 amostras (81%) obtiveram resultados conclusi-vos do ensaio, Tabela 26.<table>table see original document page 76</column></row><table>

Dos resultados falso-positivos, muitos falsos derivaram de tecidohistológica e embriologicamente semelhantes, Tabela 27.

Tabela 27

<table>table see original document page 76</column></row><table>

Os parâmetros a seguir foram considerados para o desenvolvi-mento do modelo:

Marcadores separados em conjuntos femininos e masculinos eprobabilidade de CUP1 calculada separadamente para pacientes masculinose femininos. O conjunto masculino incluiu: SP_B, TTF1, DSG3, PSCA, F5,PSA1 ΗΡΤ1; o conjunto feminino incluiu: SP_B, TTF1, DSG3, PSCA1 F5,HPT1, MGB1 PDEF, WT1. A expressão de fundo foi excluída dos resultadosdo ensaio: Pulmão: SP_B, TTF1, DSG3; Ovário: WT1; e Colo: HPT1.

O modelo para CUP foi ajustado à prevalência de CUP (%):pulmão 23, pâncreas 16, colorretal 9, mama 3, ovário 4, próstata 2, outro 43.A prevalência para mama e ovário fez um ajuste de 0%, para pacientesmasculinos, e para próstata fez um ajuste de 0% para pacientes femininas.

Foram adotadas as seguintes etapas: colocação de marcadoresem escala semelhante; redução do número de variáveis de 12 para 8 porseleção de valor mínimo de cada conjunto específico de tecido; desconside-ração de 1 amostra; construção a partir das amostras restantes; teste daamostra desconsiderada; repetição até que 100% das amostras sejam tes-tadas aleatoriamente, deixando de fora -50% das amostras (-50% por teci-do); construção de modelo a partir das amostras restantes; teste de ~50%das amostras e repetições para 3 grupos diferentes, divididos aleatoriamente.

A exatidão da classificação foi ajustada para prevalência de tiposde câncer, produzindo os resultados resumidos na Tabela 28 com os dadosnão-processados apresentados na Tabela 29.Tabela 28

<table>table see original document page 78</column></row><table><table>table see original document page 79</column></row><table><table>table see original document page 80</column></row><table>Exemplo 8

Estudo prospectivo de assinatura gênica de câncer de sítio primário desco-nhecido CUP para predizer o tecido de origem

O alvo específico deste estudo foi determinar a capacidade daassinatura de 10 genes para predizer o tecido de origem de carcinoma me-tastático em pacientes com carcinoma de tumor primário desconhecido(CUP).

Objetivo primário: Confirmar a viabilidade de condução de análi-se gênica a partir de amostras de biópsia em pacientes consecutivos comCUP.

Objetivo secundário: Correlacionar os resultados do ensaio deRT-PCR da assinatura de 10 genes com estudo diagnóstico efetuado noM.D. Anderson Câncer Center (MDACC).

Terceiro objetivo: Correlacionar a prevalência de 6 tipos de cân-cer, previstos por ensaio, com a prevalência derivada da literatura e a expe-riência do MDACC.

O método descrito no presente foi utilizado para conduzir umaanálise de expressão gênica em microarranjo de 700 espécimes congeladasde carcinoma primário e de tecido benigno e normal, e identificação de pos-síveis genes marcadores, específicos para carcinomas de pulmão, pâncreas,colo, mama, próstata e ovário. Os possíveis Genes marcadores foram testa-dos por RT-PCR em 205 espécimes fixados por formalina e embebidos emparafina (FFPE) de carcinoma metastático (Estágio lll-IV), originário de pul-mão, pâncreas, colo, mama, ovário e próstata, além de metástases originá-rias de outros tipos de câncer para controle de especificidade. Outros tiposde câncer metastático incluíram carcinoma gástrico, de célula renal, hepato-celular, colangio/vesícula biliar e de cabeça e pescoço. Os resultados permi-tiram a seleção de assinatura de 10 genes que predisse o tecido de origemdo carcinoma metastático e forneceu uma exatidão global de 76%. A CVmédia para medições repetidas, em experimentos de RT-PCR, é de 1,5%,calculado com base em 4 pontos de dados em réplica. Beta-actina (ACTB)foi utilizada como gene housekeeping e sua expressão mediana foi seme-Ihante em amostras de metástases de origem diferente (CV=5,6%).

O alvo específico deste estudo foi validar a capacidade da assi-natura de 10 genes para predizer o tecido de origem de carcinoma metastá-tico em pacientes com CUP1 comparados a um estudo diagnóstico abran-gente.

Elegibilidade de pacientes

Os pacientes precisam ter pelo menos 18 anos de idade comstatus de desempenho funcional ECOG de 0-2. Pacientes com diagnósticode adenocarcinoma ou de carcinoma pouco diferenciado são aceitos. O gru-po de pacientes com adenocarcinoma inclui tumores bem, moderados epouco diferenciados.

Pacientes que atenderam aos critérios para CUP: ausência detumor primário detectado após uma avaliação completa, definida como histó-ria e exame físico completos, exame laboratorial detalhado, estudos de ima-gens e estudos invasivos direcionados por sintomas ou sinais. Somente pa-cientes não-tratados puderam entrar no estudo.

Se um paciente tiver se tratado com químio ou radioterapia, aparticipação no estudo é permitida, se tecido anterior (ao tratamento) estiverdisponível, sob a forma de blocos arquivados no período de 10 anos.

Os pacientes forneceram consentimento/autorização por escritopara participarem neste estudo.

Desenho do estudo

Pacientes com diagnóstico de CUP que se submeteram à bióp-sia por agulha grossa ou excisão da lesão metastática mais acessível pude-ram entrar no estudo. Pacientes somente com biópsia por FNA não foramelegíveis. Foram incluídos os primeiros 60 pacientes a se apresentaremconsecutivamente e que atenderam aos critérios de inclusão e consentimen-to para o estudo. Se fosse necessária repetição de biópsia no MDACC paradiagnóstico voltado para seu tratamento, era obtido um tecido adicional parao estudo, se o paciente consentisse. Todos os participantes foram registra-dos no protocolo no Sistema de Gerenciamento de Dados do Protocolo dainstituição (PDMS).O estudo completo diagnóstico incluindo avaliação clínica e pato-lógica foi conduzido em todos os pacientes admitidos, de acordo com as nor-mas do MDACC. A parte de patologia do estudo diagnóstico pode ter incluídoanálises de imuno-histoquímica (IHC) com marcadores, incluindo CK-7, CK-20, TTF-1 e outro, conforme considerado indicado pelo patologista. Esta éuma parte do estudo de rotina de todos os pacientes que apresentam CUP.Coleta de amostra de tecido

O estudo inclui espécimes de carcinoma metastático, fixados porformalina e embebidos em parafina, coletados de pacientes com CUP.

Seis seções de 10 μηι foram utilizadas para o isolamento deRNA, espécimes menores requerendo nove seções de 10 μm. O diagnósticohistopatológico e conteúdo de tumor foram confirmados para cada amostrautilizada para isolamento de RNA, em uma seção adicional corada com he-matoxilina e eosina (HE). A amostra do tumor tinha que apresentar um con-teúdo de tumor acima de 30% na seção de HE.

Os dados clínicos foram informados anonimamente para Veridexe incluíram idade e sexo do paciente, histologia do tumor por microscopiapor luz, grau do tumor (diferenciação), sítio de metástase, data de coleta doespécime, descrição do estudo diagnóstico, conduzido em cada paciente.

Processamento de tecidos e experimentos por RT-PCR

RNA total foi extraído de cada amostra de tecido, utilizando oprotocolo descrito acima. Somente amostras que produziram mais de 1μητιde RNA total da quantidade padrão de tecido foram utilizadas para os testessubsequentes de RT-PCR. Amostras com menor rendimento de RNA foramconsideradas degradadas e excluídas de experimentos subsequentes. Ocontrole de integridade de RNA, baseado em expressão de housekeeping,foi implantado para excluir amostras com RNA degradado, de acordo com oprocedimento padrão da Veridex.

O ensaio por RT-PCR que inclui um painel de 10 genes e 1-2genes de controle foi utilizado para a análise de amostras de RNA. A trans-crição reversa e o ensaio por PCR são completados usando os protocolosdescritos acima.O valor relativo de expressão, para cada gene testado e repre-sentado por ACt, o qual é igual ao Ct do gene-alvo subtraído pelo Ct dos ge-nes de controle, foi calculado e usado para a previsão do tecido de origem.Tamanho de amostra e interpretação de dados

Um tamanho limitado de amostra de 60 pacientes foi estudadodevido à natureza investigativa do estudo principal. Até esta data, 22 pacien-tes foram testados. Amostras de um paciente deixaram de render RNA sufi-ciente para teste de RT-PCR e 3 não foram aprovadas pelo controle de QC,avaliadas por RT-PCR com controle. No total, 18 pacientes foram utilizadospara determinar a probabilidade de lesão metastática dos pacientes.

O modelo estatístico foi utilizado para determinar a probabilidadede tecido de origem de carcinoma metastático das seguintes sete categorias:pulmão, pâncreas, colo, mama, próstata, ovário e não-testado (outro). Paracada amostra, a probabilidade para cada categoria é calculada a partir deum modelo de classificação linear. Os resultados do ensaio estão resumidosna Tabela 30.

A probabilidade de haver uma lesão metastática em um paciente(com tumores primários conhecidos), originária de uma destas 7 localizações(colo, pâncreas, pulmão, próstata, ovário, mama) é de aproximadamente76%. Esse número é derivado da literatura, dada a incidência de vários cân-ceres e potencial para se espalhar, e de dados não publicados gerados noM.D. Anderson, a partir do cadastro de tumores. Para as amostras testadas,a prevalência dos 6 sítios foi de 67% (12 das 18 amostras testadas), númerocuja compatibilidade é muito próxima daquele de observações anteriores.

Table 30

<table>table see original document page 21</column></row><table><table>table see original document page 85</column></row><table>

Embora a invenção precedente tenha sido exposta em certo ní-vel de detalhes, por meio de ilustração e exemplo para fins de esclarecimen-to de entendimento, as descrições e exemplos não devem ser interpretadoscomo limites ao escopo da invenção.Tabela 31

<table>table see original document page 86</column></row><table><table>table see original document page 87</column></row><table>

REFERÊNCIAS

Unidos

5242974

5350840

5384261

5405783

5412087

5424186

Publicações de pedidos de patentes e patentes dos Estados

570063757861486004755613618262181146218122

2003019473320030198970200302158032003021583520030219760200302197675429807 6225051 200302323505436327 6232073 200302358205445934 6261766 200400055635472672 6271002 200400091545527681 6339148 200400094895529756 20010029020 200400189695532128 20020055627 200400291145545531 20020068288 200400769555554501 20020168647 200401268085556752 20030044859 200401468625561071 20030087818 200402195725571639 20030104448 200402195755593839 20030124128 200500370105599695 20030124579 200500590085624711 20030138793 200600940355658734 20030190656 Publicações de patentes estrangeiras e patentes WOI998040403 02001073032 02004030615W01998056953 02002046467 02004031412W02000006589 02002073204 02004063355W02000055320 02002101357 02004077060W02001031342 02004018999 02005005601

Artigos de revistas

Abrahamsen et al. (2003) Towards quantitative mRNA analysis in paraffin-embedded tissuesusing real-time reverse transcriptase-polymerase chain reaction J Mol Diag 5:34-41Al-Mulla et al. (2005) BRCA1 gene expression in breast câncer: a correlative study betweenreal-time RT-PCR and immunohistochemistry J Histochem Cytochem 53:621-629Argani et al. (2001) Discovery of new Markers of câncer through serial analysis of gene ex-pression: prostate stem cell antigen is overexpressed in pancreatic adenocarcinoma CâncerRes 61:4320-4324

Autiero et al. (2002) Intragenic amplification and formation of extrachromosomal small circularDNA molecules from the PIP gene on chromosome 7 in primary breast carcinomas Int J Can-cer 99:370-377

Backus et al. (2005) Identification and characterization of optimal gene expression Markers fordetection of breast câncer metastasis J Mol Diagn 7:327-336

Bentov et al. (2003) The WT1 Wilms' tumor suppressor gene: a novel target for insulin-likegrowth factor-l action Endocrinol 144:4276-4279

Bera et al. (2004) NGEP, a gene encoding a membrane protein detected only in prostate cân-cer and normal prostate Proc Natl Acad Sci USA 101:3059-3064

Bibikova et al (2004) Quantitative gene expression profiling in formalin-fixed, paraf-fin-embedded tissues using universal bead arrays Amj Pathol 165:1799-1807Bloom et al. (2004) Multi-platform, multi-site, microarray-based human tumor classification AmPathol 164:9-16

Borchers et al. (1997) Heart-type fatty acid binding protein - involvement in growth inhibitionand differentiation Prostaglandins Leukot Essent Fatty Acids 57:77-84Borgono et al. (2004) Human tissue kallikreins: physiologic roles and applications in câncerMol Câncer Res 2:257-280

Brookes (1999) The essence of SNPs Gene 23:177-186Brown et al. (1997) Immunohistochemical Identification of tumor Markers in metastatic adeno-carcinoma. A diagnostic adjunct in the determination of primary site Am J Clin Pathol 107:12-19

Buckhaults et al. (2003) Identifying tumor origin using a gene expression-based classificationmap Câncer Res 63:4144-4149

Chan et al. (1985) Human Iiver fatty acid binding protein cDNA and amino acid sequence.Funetional and evolutionary implications J Biol Chem 260:2629-2632

Chen et al. (1986) Human Iiver fatty acid binding protein gene is Ioeated on chromosome 2Somat Cell Mol Genet 12:303-306

Cheung et al. (2003) Detection of the PAX8-PPAR gamma fusion oncogene in both follicularthyroid carcinomas and adenomas J Clin Endocrinol Metab 88:354-357Clark et al. (1999) The potential role for prolactin-inducible protein (PIP) as a Marker of humanbreast câncer micrometastasis Br J Câncer 81:1002-1008

Cronin et al. (2004) Measurement of gene expression in archival paraffin-embedded tissue AmPathol 164:35-42

Cunha et al. (2006) Tissue-specificity of prostate specific antigens: Comparative analysis oftranscript leveis in prostate and non-prostatic tissues Câncer Lett 236:229-238Dennis et al. (2002) Identification from public data of molecular Markers of adenocarcinomacharacteristic of the site of origin Can Res 62:5999-6005

Dennis et al. (2005a) Hunting the primary: novel strategies for defining the origin of tumorsJ Pathol 205:236-247

Dennis et al. (2005b) Markers of adenocarcinoma characteristic of the site of origin: develop-ment of a diagnostic algorithm Clin Can Res 11:3766-3772

DeYoung et al. (2000) Immunohistologic evaluation of metastatic carcinomas of unknown ori-gin: an algorithmic approach Semin Diagn Pathol 17:184-193

Di Palma et al. (2003) The paired domain-containing factor Pax8 and the homeodomain-containing factor TTF-1 directly interact and synergistically activate transcription Biol Chem278:3395-3402

Dwight et al. (2003) Involvement of the PAX8 peroxisome proliferator-activated receptor gam-ma rearrangement in follicular thyroid tumors J Clin Endocrinol Metab 88:4440-4445Feldman et al. (2003) PDEF expression in human breast câncer is correlated with invasivepotential and altered gene expression Câncer Res 63:4626-4631

Fleming et al. (2000) Mammaglobin, a breast-specific gene, and its utility as a Marker for bre-ast câncer Ann N Y Acad Sci 923:78-89

Fukushima et al. (2004) Characterization of gene expression in mucinous cystic neoplasms ofthe pancreas using oligonucleotide microarrays Oncogene 23:9042-9051Ghosh et al (2005) Management of patients with metastatic câncer of unknown primary CurrProbl Surg 42:12-66

Giordano et al. (2001) Organ-specific molecular classification of primary Iung1 colon, and ova-rian adenocarcinomas using gene expression profiles Am J Pathol. 159:1231-1238

Glasser et al (1988) cDNA, deduced polypeptide structure and chromosomal assignment ofhuman pulmonary surfactant proteolipid, SPL(pVal) J Biol Chem 263:9-12

Godfrey et al. (2000) Quantitative mRNA expression analysis from formalin-fixed, paraffin-embedded tissues using 5' nuclease quantitative reverse transcription-polymerase chain reac-tion J Mol Diag 2:84-91

Goldstein et al. (2002) WT1 immunoreactivity in uterine papillary serous carcinomas is diffe-rent from ovarian serous carcinomas Am J Clin Pathol 117:541-545

Gradi et al. (1995) The human steroidogenic acute regulatory (StAR) gene is expressed in theurogenital system and encodes a mitochondrial polypeptide Biochim Biophys Acta 1258:228-233

Greco et al. (2004) Careinoma of unknown primary site: sequential treatment with paclita-xel/carboplatin/etoposide and gemcitabine/irinotecan: A Minnie Pearl câncer research networkphase Il trial The Oncologist 9:644-652

Haas et al. (2005) Combined application of RT-PCR and immunohistochemistry on paraffinembedded sentinel Iymph nodes of prostate câncer patients Pathol Res Pract 200:763-770Hwang et al. (2004) Wilms tumor gene product: sensitive and contextually specific Marker ofserous carcinomas of ovarian surface epithelial origin Appl Immunohistochem Mol Morphol12:122-126

Ishikawa et al. (2005) Experimental trial for diagnosis of pancreatic ductal carcinoma based ongene expression profiles of pancreatic ductal cells Câncer Sci 96:387-393Italiano et al. (2005) Epidermal growth factor receptor (EGFR) status in primary coloretal tu-mors correlates with EGFR expression in related metastatic sites: biological and clinicai impli-cations Ann Oncol 16:1503-1507

Jones et al. (2004) Comprehensive analysis of matrix metalloproteinase and tissue inhibitorexpression in pancreatic câncer: increased expression of matrix metalloproteinase-7 predictspoor survival Clin Câncer Res 10:2832-2845

Jones et al. (2005) Thyroid transcription factor 1 expression in small cell carcinoma of theurinary bladder: an immunohistochemical profile of 44 cases Hum Pathol 36:718-723Khoor et al. (1997) Expression of surfactant protein B precursor and surfactant protein B mR-NA in adenocarcinoma of the Iung Mod Pathol 10:62-67

Kim (2003) Comparison of oligonucleotide-microarray and serial analysis of gene expression(SAGE) in transcript profiling analysis of megakaryocytes derived from CD34+ cells Exp MolMed 35:460-466

Kim et al. (2003) Steroidogenic acute regulatory protein expression in the normal human brainand intracranial tumors Brain Res 978:245-249

Lam et al. (2005) Prostate stem cell antigen is overexpressed in prostate câncer metastasesClin Can Res 11:2591-2596

Lembersky et al. (1996) Metastases of unknown primary site Med Clin North Am. 80:153-171Lewis et al. (2001) Unlocking the archive-gene expression in paraffin-embedded tissueJ Pathol 195:66-71Lipshutz et al. (1999) High density synthetic oligonucleotide arrays Nature Genetics 21:S20-24Lowe et al. (1985) Human Iiver fatty acid binding protein. Isolation of a full Iength cDNA andcomparative sequence analyses of orthologous and paralogous proteins J Biol Chem260:3413-3417

Ma et al. (2006) Molecular classification of human cancers using a 92-gene real-time quantita-tive polymerase chain reaction assay Arch Pathol Lab med 130:465-473

Magklara et al. (2002) Characterization of androgen receptor and nuclear receptorco-regulator expression in human breast câncer cell Iines exhibiting differential regulation ofkallikreins 2 and 3 Int J Câncer 100:507-514

Markowitz (1952) Portfolio Selection J Finance 7:77-91

Marques et al. (2002) Expression of PAX8-PPAR gamma 1 rearrangements in both follicular

thyroid carcinomas and adenomas J Clin Endocrinol Metab 87:3947-3952

Masuda et al. (1999) Analysis of chemical modification of RNA from formalin-fixed samples

and optimization of molecular biology applications for such samples Nucl Acids Res 27:4436-

4443

McCarthy et al. (2003) Novel Markers of pancreatic adenocarcinoma in fine-needle aspiration:mesothelin and prostate stem cell antigen Iabeling increases accuracy in cytologically border-line cases Appl Immunohistochem Mol Morphol 11:238-243

Mikhitarian et al. (2004) Enhanced detection of RNA from paraffin-embedded tissue using apanei of truncated gene-specific iniciadores for reverse transcription BioTechniques 36:1-4Mintzer et al. (2004) Câncer of unknown primary: changing approaches, a multidisciplinarycase presentation from the Joan Karnell Câncer Center of Pennsylvania Hospital The Oncolo-gist 9:330-338

Moniaux et al. (2004) Multiple roles of mucins in pancreatic câncer, a Iethal and challengingmalignancy Br J Câncer 91:1633-1638

Murphy et al. (1987) Isolation and sequencing of a cDNA clone for a prolactin-inducible protein(PIP). Regulation of PIP gene expression in the human breast câncer cell line, T-47D J BiolChem 262:15236-15241

Myal et al. (1991) The prolactin-inducible protein (PIPGCDFP-15) gene: cloning, structure andregulation J Mol Cell Endocrinol 80:165-175

Nakamura et al. (2002) Expression of thyroid transcription factor-1 in normal and neoplasticIung tissues Mod Pathol 15:1058-1067Noonan et al. (2001) Characterization of the homeodomain gene EMX2: sequence conserva-tion, expression analysis, and a search for mutations in endometrial cancers Genomics 76:37-44

Oettgen et al. (2000) PDEF1 a novel prostate epithelium-specific Ets transcription factor, inte-racts with the androgen receptor and activates prostate-specific antigen gene expression JBiol Chem 275:1216-1225

Oji et al. (2003) Overexpression of the Wilms' tumor gene WT1 in head and neck squamouscell carcinoma Câncer Sci 94:523-529

Pavlidis et al. (2003) Diagnostic and therapeutic management of câncer of an unknown pri-mary Eur J Can 39: 990-2005

Pilot-Mathias et al. (1989) Structure and organization of the gene encoding human pulmonarysurfactant proteolipid SP-B DNA 8:75-86

Pilozzi et al. (2004) CDX1 expression is reduced in coloretal carcinoma and is associated withpromoter hypermethylation J Pathol 204:289-295

Poleev et al. (1992) PAX8, a human paired box gene: isolation and expression in developingthyroid, kidney and Wilms' tumors Development 116:611-623

Prasad et al. (2005) Gene expression profiles in pancreatic intraepithelial neoplasia reflect theeffects of Hedgehog signaling on pancreatic ductal epithelial cells Câncer Res 65:1619-1626Ramaswamy (2004) Translating câncer genomics into clinicai oncology N Engl J Med350:1814-1816

Ramaswamy et al. (2001) Multiclass câncer diagnosis using tumor gene expression signatu-res Proc Natl Acad Sci USA 98:15149-15154

Rauscher (1993) The WT1 Wilms tumor gene product: a developmentally regulated transcrip-tion factor in the kidney that functions as a tumor suppressor FASEB J 7:896-903Reinholz et al. (2005) Evaluation of a panei of tumor Markers for molecular detection of circu-Iating câncer cells in women with suspected breast câncer Clin Câncer Res 11:3722Schlag et al. (1994) Câncer of unknown primary site Ann Chir Gynaecol 83:8-12Senoo et al. (1998) A second p53-related protein, p73L, with high homology to p73 BiochemBiophys Res Comm 248:603-607

Specht et al. (2001) Quantitative gene expression analysis in microdissected archival formalin-fixed and paraffin-embedded tumor tissue Amer J Pathol 158:419-429

Su et al. (2001) Molecular classification of human carcinomas by use of gene expression sig-natures Câncer Res 61:7388-7393

Takahashi et al. (1995) Cloning and characterization of multiple human genes and cDNAsencoding highly related type Il keratin 6 isoforms J Biol Chem 270:18581-18592

Takamura et al. (2004) Reduced expression of liver-intestine cadherin is associated with pro-gression and Iymph node metastasis of human coloretal carcinoma Câncer Lett 212:253-259

Tothill et al. (2005) An expression-based site of origin diagnostic method designed for clinicaiapplication to câncer of unknown origin Can Res 65:4031-4040

van Ruissen et al. (2005) Evaluation of the similarity of gene expression data estimated withSAGE and Affymetrix GeneChips BMC Genomics 6:91

Varadhachary et al. (2004) Diagnostic strategies for unknown primary câncer Câncer100:1776-1785

Venables et al. (2002) Modem Applied Statistics with S. Fourth edition. Springer

Wallace et al. (2005) Accurate Molecular detection of non-small cell Iung câncer metastases inmediastinal Iymph nodes sampled by endoscopic ultrasound-guided needle aspiration Cest127:430-437

Wan et al. (2003) Desmosomal proteins, including desmoglein 3, serve as novel negativeMarkers for epidermal stem cell-containing population of keratinocytes J Cell Sci116:4239-4248

Watson et al. (1996) Mammaglobin, a mammary-specific member of the uteroglobin genefamily, is overexpressed in human breast câncer Câncer Res 56:860-865

Watson et al. (1998) Structure and transcriptional regulation of the human mammaglobin ge-ne, a breast câncer associated member of the uteroglobin gene family Iocalized to chromoso-me 11q13 Oncogene 16:817-824

Weigelt et al. (2003) Gene expression profiles of primary breast tumors maintained in distantmetastases Proc Natl Acad Sci USA 100:15901-15905

Zapata-Benavides et al. (2002) Downregulation of Wilms' tumor 1 protein inhibits breast cân-cer proliferation Biochem Biophys Res Commun 295:784-790Listagem de Seqüência

<110> Veridex, LLCWANG, YixinBADEN, JonathanMAZUMDER, AbhijitTALANTOV, DmitriJATKOE, Timothy

<120> Métodos e materiais para identificação da origem de um carcinoma de origem pri-mária desconhecida

<130> VDX50C17WOPCT

<150> 60/718,501

<151> 2005-09-19

<150> 60/725,680

<151> 2005-10-12

<160> 83

<170> PatentIn version 3.3

<210> 1

<211> 476

<212> DNA

<213> humano

<4 00> 1

gaaaaaccag ccactgcttt acaggacagg gggttgaagc tgagccccgc ctcacaccca

aaaaatggga acatacagaa ctctaaaaga tagacatcag aaattgttaa gttaagcttt

60

cccccatgca ctcaaagatt ggattttaca gctacttgca attcaaaatt cagaagaata 120

180

ttcaaaaaat cagcaattcc ccagcgtagt caagggtgga cactgcacgc tctggcatga 240

300360420

tgggatggcg accgggcaag ctttcttcct cgagatgctc tgctgcttga gagctattgctttgttaaga tataaaaagg ggtttctttt tgtctttctg taaggtggac ttccagattttgattgaaag tcctagggtg attctatttc tgctgtgatt tatctgctga aagctcagctggggttgtgc aagctaggga cccattcctg tgtaatacaa tgtctgcacc aatgct 47 6

<210> 2<211> 493<212> DNA<213> humano

<400> 2

gtgattcaaa tgggttttcc acgctagggcacatggctct ggactctaaa gaccaaacttactcgcttgt aaataccagg atttttttttaggaaagagt cttcaacata acccacttgtgcaccctctg gccgcctagg ctcagcggcggtgaacttgt agctgtaaaa cgctgtcaaactgtacattt tgttgtaaaa agaaaaaccatgggcattga caaatctgtg tatattatttttctgttgta act

<210> 3

<211> 545

<212> DNA

<213> humano

<400> 3

ccatcccata gaagtccagc agacaggatt aggagcttct gctttgtccg cctctgggtc tctgcagcat ggtaactatt tagtaacgga accttccact gcaggctttg atccacttct gatctgtccc atttccagtg ttcctggcaa acatactatg ctctgtacag aggatccttg aataccacac tgaccaaatc tggatctttg ctcactgtat tgggctaata atttggcact tataaattaa atgtttgggt tcatacccca

agtac

<210> 4

<211> 284

<212> DNA

<213> h iimano

<400> 4

ctgcacccac ctacttagat atttcatgtg

95

ggggcacaga ttggagaggg ctctgtgctg 60cactctgggc acactctgcc agcaaagagg 120ttttttgaag ggaggacggg agctggggag 180cactgacaca aaggaagtgc cccctccccg 240accgccctcc gcgaaaatag tttgtttaat 300agttggacta aatgcctagt ttttagtaat 360ctcccagtcc ccagcccttc acatttttta 420ggcagtttgg tatttgcggc gtcagtcttt 480 493tgttaagtgc cagactttgt caggaagtca 60tgtccagcca gctgtttcca tccctgaccc 120gacttactcg gcttctggtt ccctcgtgca 180cacacaaaat gtgatagtga cagaaagggt 240cctagctggc ccaacgcagc tacgagggtc 300ctcccgtcta atatgaccag aatgagctgg 360gactaaagta ttcaaaatag catagcaaag 420tattagcttc tctcataaac tgatcacgat 480aaagcaatat gttgtcactc ctaattctca 540 545ctatagacat tagagagatt tttcattttt 60ccatgacatt tttcctctct gcaaatggct tagctacttg tgtttttccc ttttggggca 120agacagactc attaaatatt ctgtacattt tttctttatc aaggagatat atcagtgttg 180tctcatagaa ctgcctggat tccatttatg ttttttctga ttccatcctg tgtccccttc 240atccttgact cctttggtat ttcactgaat ttcaaacatt tgtc 284

<210> 5

<211> 394

<212> DNA

<213> humano<220>

<221> misc_feature

<222> (58) .. (58)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (95).. (95)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (99)..(99)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (119)..(119)

<223> η é a, c, g, ou t

<220>

<221> misc_feature

<222> (123)..(123)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (130)..(130)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (151)..(151)

<223> η é a, c, g, ou t

<220>

<221> misc_feature

<222> (155)..(155)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (161)..(161)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (212) . . (212)

<223> η é a, c, g, ou t<400> 5

ttcctgaggc acatcctaac gcaagtttga ccatgtatgt ttgcacccct tttccccnaa 60

ccctgacctt cccatgggcc ttttccagga ttccnaccng gcagatcagt tttagtgana 120

canatccgcn tgcagatggc ccctccaacc ntttntgttg ntgtttccat ggcccagcat 180

tttccaccct taaccctgtg ttcaggcact tnttccccca ggaagccttc cctgcccacc 240

ccatttatga attgagccag gtttggtccg tggtgtcccc cgcacccagc aggggacagg 300

caatcaggag ggcccagtaa aggctgagat gaagtggact gagtagaact ggaggacaag 3 60

agttgacgtg agttcctggg agtttccaga gatg 394

<210> 6

<211> 470

<212> DNA

<213> humano<220>

<221> misc_feature

<222> (61) .. (61)

<223> η é a, c, g, ou t<220>

<221> misc_feature

<222> (82) . . (82)

<223> η é a, c, g, ou t

<400> 6

atcctctaca gccagatgtc acagggatac gtctactttc acttggtgct ggagaattca 60

naagtcaaga acatgctaag cntaagggac ccaaggtaga aagagatcaa gcagcaaagc 120

acaggttctc ctggatgaaa ttactagcac ataaagttgg gagacaccta agccaagaca 180

ctggttctcc ttccggaatg aggccctggg aggaccttcc tagccaagac actggttctc 240

cttccagaat gaggccctgg aaggaccctc ctagtgatct gttactctta aaacaaagta 300

actcatctaa gattttggtt gggagatggc atttggcttc tgagaaaggt agctatgaaa 360

taatccaaga tactgatgaa gacacagctg ttaacaattg gctgatcagc ccccagaatg 420

cctcacgtgc ttggggagaa agcacccctc ttgccaacaa gcctggaaag<210> 7

<211> 396

<212> DNA<213> humano<400> 7

gcagcagcct caccatgaag ttgctgatgg tcctcatgct ggcggccctc tcccagcact

470

60

gctacgcagg ctctggctgc cccttattgg agaatgtgat ttccaagaca atcaatccac 120

180240300360

aagtgtctaa gactgaatac aaagaacttc ttcaagagtt catagacgac aatgccactacaaatgccat agatgaattg aaggaatgtt ttcttaacca aacggatgaa actctgagcaatgttgaggt gtttatgcaa ttaatatatg acagcagtct ttgtgattta ttttaactttctgcaagacc tttggctcac agaactgcag ggtatggtga gaaaccaact acggattgctgcaaaccaca ccttctcttt cttatgtctt tttact 396

<210> 8<211> 491<212> DNA<213> humano

<400> 8

gagtggggcc cttaaactgg attcaaaaaa tgctctaaac ataggaatgg ttgaagaggt

60

cttgcagtct tcagatgaaa ctaaatctct agaagaggca caagaatggc taaagcaatt 120catccaaggg ccaccggaag taattagagc tttgaaaaaa tctgtttgtt caggcagaga 180gctatatttg gaggaagcat tacagaacga aagagatctt ttaggaacag tttggggtgg 24 0gcctgcaaat ttagaggcta ttgctaagaa aggaaaattt aataaataat tggtttttcg 300tgtggatgta ctccaagtaa agctccagtg actaatatgt ataaatgtta aatgatatta 360aatatgaaca tcagttaaaa aaaaaattct ttaaggctac tattaatatg cagacttact 420tttaatcatt tgaaatctga actcatttac ctcatttctt gccaattact cccttgggta 480tttactgcgt a 491

<210> 9<211> 265<212> DNA

<213> humano<400> 9

tggtgtaatt ttgtcctctc tgtgtcctgg ggaatactgg ccatgcctgg agacatatca 60

ctcaatttct ctgaggacac agataggatg gggtgtctgt gttatttgtg gggtacagag 120atgaaagagg ggtgggatcc acactgagag agtggagagt gacatgtgct ggacactgtc 180catgaagcac tgagcagaag ctggaggcac aacgcaccag acactcacag caaggatgga 240gctgaaaaca taacccactc tgtcc 265

<210> 10<211> 441<212> DNA

<213> humano<400> 10

atagatgtac atacctcctt gcacaaatgg aggggaattc attttcatca ctgggagtgt 60

ccttagtgta taaaaaccat gctggtatat ggcttcaagt tgtaaaaatg aaagtgactt 120taaaagaaaa taggggatgg tccaggatct ccactgataa gactgttttt aagtaactta 180aggacctttg ggtctacaag tatatgtgaa aaaaatgaga cttactgggt gaggaaatcc 240attgtttaaa gatggtcgtg tgtgtgtgtg tgtgtgtgtg tgtgttgtgt tgtgttttgttttttaaggg agggaattta ttatttaccg ttgcttgaaa ttactgtgta aatatatgtctgataatgat ttgctctttg acaactaaaa ttaggactgt ataagtacta gatgcatcactgggtgttga tcttacaaga t 441

<210> 11<211> 21<212> DNA<213> humano<400> 11

cacagccccg acctttgatg a 21

<210> 12

<211> 19<212> DNA<213> humano<400> 12

ggtcccagag cccgtctca ly

<210> 13<211> 26<212> DNA<213> humano<400> 13

agctgtccag ctgcaaagga aaagcc 26

<210> 14<211> 75<212> DNA<213> humano<400> 14

cacagccccg acctttgatg agaactcagc tgtccagctg caaaggaaaa gccaagtgag 60

acgggctctg ggacc 7

<210> 15

<211> 17

<212> DNA<213> humano<400> 15

ccaacccaga cccgcgc

<210> 16<211> 21<212> DNA<213> humano<400> 16

cgcccatgcc gctcatgttc a 21

<210> 17

<211> 21

<212> DNA<213> humano<400> 17

cccgccatct cccgcttcat g 21

<210> 18<211> 78<212> DNA<213> humano<400> 18

ccaacccaga cccgcgcttc cccgccatct cccgcttcat gggcccggcg agcggcatga 60acatgagcgg catgggcg 78

<210> 19<211> 23<212> DNA<213> humano<400> 19

gagagaagga gaagataact caa 23

<210> 20<211> 22<212> DNA

<213> humano<400> 20

actccagaga ttcggtaggt ga 22

<210> 21<211> 26

<212> DNA<213> humano<400> 21

attgccaaga ttacttcaga ttacca 26

<210> 22<211> 97<212> DNA

<213> humano<400> 22

gcagagaagg agaagataac tcaaaaagaa acccaattgc caagattact tcagattacc 60aagcaaccca gaaaatcacc taccgaatct ctggagt 97

<210> 23

<211> 21

<212> DNA

<213> humano

<400> 23

tccctcggca gtggaagctt a 21

<210> 24

<211> 24

<212> DNA

<213> humano

<400> 24

tcctcaaact ctgtgtgcct ggta 24

<210> 25

<211> 29

<212> DNA

<213> humano

<4 00> 25

ccaaaatcaa tggtactcat gcccgactg 29

<210> 26

<211> 95

<212> DNA

<213> humano

<400> 26tccctcggca gtggaagctt acaaaacgac tgggaagttt ccaaaatcaa tggtactcat 60

gcccgactgt ctaccaggca cacagagttt gagga 95

<210> 27<211> 21<212> DNA

<213> humano<400> 27

agttgctgat ggtcctcatg c 21

<210> 28<211> 24

<212> DNA<213> humano<400> 28

cacttgtgga ttgattgtct tgga 24

<210> 29

<211> 23<212> DNA<213> humano<400> 29

ccctctccca gcactgctac gca ^3

<210> 30<211> 107<212> DNA<213> humano

<400> 30

agttgctgat ggtcctcatg ctggcggccc tctcccagca ctgctacgca ggctctggct 60

gccccttatt ggagaatgtg atttccaaga caatcaatcc acaagtg 107

<210> 31<211> 20<212> DNA

<213> humano<400> 31cgcccacctg gacatctgga 20

<210> 32<211> 23<212> DNA<213> humano<400> 32

cactggtcga ggcacagtag tga 23

<210> 33<211> 25<212> DNA

<213> humano<400> 33

gtcagcggcc tggatgaaag agcgg 25

<210> 34

<211> 86

<212> DNA<213> humano<400> 34

cgcccacctg gacatctgga agtcagcggc ctggatgaaa gagcggactt cacctggggc 60gattcactac tgtgcctcga ccagtg 86

<210> 35<211> 23<212> DNA<213> humano<400> 35

gcggagccca atacagaata cac 23

<210> 36<211> 19<212> DNA

<213> humano<400> 36

cggggctact ccaggcaca 19<210> 37<211> 25<212> DNA<213> humano<4 00> 37

tcagaggcat tcaggatgtg cgacg 25

<210> 38<211> 80<212> DNA<213> humano<400> 38

gcggagccca atacagaata cacacgcacg gtgtcttcag aggcattcag gatgtgcgac 60gtgtgcctgg agtagccccg 80

<210> 39<211> 20<212> DNA<213> humano<400> 39

ctgttgatgg caggcttggc 20

<210> 40<211> 20<212> DNA<213> humano<400> 40

ttgctcacct gggctttgca 20

<210> 41<211> 21<212> DNA<213> humano<400> 41

gcagccaggc actgccctgc t 21

<210> 42<211> 74<212> DNA<213> humano<400> 42

ctgttgatgg caggcttggc cctgcagcca ggcactgccc tgctgtgcta ctcctgcaaa 60gcccaggtga gcaa 74

<210> 43<211> 25<212> DNA<213> humano<400> 43

tgaagaaata tcctgggatt attca 25

<210> 44<211> 27<212> DNA

<213> humano<400> 44

tatgtggtat cttctggaat atcatca 27

<210> 45<211> 27<212> DNA<213> humano<400> 45

acaaagggaa acagatattg aagactc 27

<210> 46

<211> 87<212> DNA<213> humano<400> 46

tgaagaaata tcctgggatt attcagaatt tgtacaaagg gaaacagata ttgaagactc 60tgatgatatt ccagaagata ccacata 87

<210> 47<211> 19<212> DNA<213> humano<400> 47

cccccagtgg gtcctcaca 19

<210> 48<211> 22<212> DNA<213> humano<400> 48

aggatgaaac aagctgtgcc ga 22

<210> 49<211> 26<212> DNA<213> humano<400> 49

caggaacaaa agcgtgatct tgctgg 26

<210> 50<211> 82<212> DNA

<213> humano<400> 50

cccccagtgg gtcctcacag ctgcccactg catcaggaac aaaagcgtga tcttgctggg 60

tcggcacagc ttgtttcatc Ct 82

<210> 51

<211> 19

<212> DNA

<213> humano

<400> 51gccctgaggc actcttcca

<210> 52

<211> 22<212> DNA<213> humano<400> 52

cggatgtcca cgtcacactt ca 22

<210> 53

<211> 25<212> DNA<213> humano<400> 53

cttccttcct gggcatggag tcctg 25

<210> 54<211> 100<212> DNA<213> humano<400> 54

gccctgaggc actcttccag ccttccttcc tgggcatgga gtcctgtggc atccacgaaa 60

ctaccttcaa ctccatcatg aagtgtgacg tggacatccg 100

<210> 55<211> 22<212> DNA

<213> humano<400> 55

ccacacacag cctactttcc aa 22

<210> 56

<211> 21

<212> DNA<213> humano<400> 56

tacccacgcg aatcactctc a 21

<210> 57

<211> 27<212> DNA<213> humano

<4 00> 57 aacggcaatg cggctgcaac ggcggaa 27 <210> 58 <211> 103 <212> DNA <213> humano <400> 58 ccacacacag cctactttcc aagcggagcc atgtctggta acggcaatgc ggctgcaacg 60 gcggaagaaa <210> 59 acagcccaaa gatgagagtg attcgcgtgg gta 103 <211> 2724 <212> DNA <213> humano <400> 59 ggtgccatgg ctgagtcaca cctgctgcag tggctgctgc tgctgctgcc cacgctctgt 60 ggcccaggca ctgctgcctg gaccacctca tccttggcct gtgcccaggg ccctgagttc 120 tggtgccaaa gcctggagca agcattgcag tgcagagccc tagggcattg cctacaggaa 180 gtctggggac atgtgggagc cgatgaccta tgccaagagt gtgaggacat cgtccacatc 240 cttaacaaga tggccaagga ggccattttc caggacacga tgaggaagtt cctggagcag 300 gagtgcaacg tcctcccctt gaagctgctc atgccccagt gcaaccaagt gcttgacgac 360 tacttccccc tggtcatcga ctacttccag aaccagactg actcaaacgg catctgtatg 420 cacctgggcc tgtgcaaatc ccggcagcca gagccagagc aggagccagg gatgtcagac 480 cccctgccca aacctctgcg ggaccctctg ccagaccctc tgctggacaa gctcgtcctc 540 cctgtgctgc ccggggccct ccaggcgagg cctgggcctc acacacagga tctctccgag 600 cagcaattcc ccattcctct cccctattgc tggctctgca gggctctgat caagcggatc 660 caagccatga ttcccaaggg tgcgctagct gtggcagtgg cccaggtgtg ccgcgtggta 720 cctctggtgg cgggcggcat ctgccagtgc ctggctgagc gctactccgt catcctgctc 780 gacacgctgc tgggccgcat gctgccccag ctggtctgcc gcctcgtcct ccggtgctcc 840 atggatgaca gcgctggccc aaggtcgccg acaggagaat ggctgccgcg agactctgag 900 tgccacctct gcatgtccgt gaccacccag gccgggaaca gcagcgagca ggccatacca 960 caggcaatgc tccaggcctg tgttggctcc tggctggaca gggaaaagtg caagcaattt 1020gtggagcagc acacgcccca gctgctgaccacctgccagg ccctcggggt gtgtgggacccccgaccttt gatgagaact cagctgtccagtatggccag acgtggtggc tcacacctgcaggatccttg aggtcaggag ttcgagaccaactaaaaata caaaaaatta gccaagtgtggaaggccgag gcaggagaat tacttgaacgggttgcagtg agccgagatt gcaccactgcatctcagtaa ataaataaat aaataaaaagtcagcgggcc caggcctacc tcactctctcctctccctca caagcgctcc cagcctgcccactcactggg atgaggttag gtcatgaggaaaacaagcct tagcttttct taaagactgaataacttttg tcatatttct tatacatgttagagagtgga aattacccac tgtcaggcctgtgccctgca cgtatacacc cagatggcctaaatagccag ttcctgcctt aactgatgacccctaactga tcaattgacc ttgtgacaatgtaatattct ccccacccac cccacgcccgaatattctct ccgccattga gaatgtgctttgctcctaac tccaccgcct atcccaaaccttgctgactc tttttggact cagcccacctcacacaaagc ctgtttggta gtctcttcactagcccagga gagagctacg gcagggtgtgatcttctccc cacagcctct ggctccacacctatgcagcc tgctcttggg cctggggatgaagtagacat ttgtaaatct atagctaactaaatccaact ctctgagaga aaagggtgttttgattgaga aaaaaaaaaa aaaa

<210> 60

<211> 2352<212> DNA

ctggtgccca ggggctggga tgcccacacc 1080

atgtccagcc ctctccagtg tatccacagc 1140

gaaaaagaca ccgtccttta aagtgctgca 1200

aatcccagca ccttaggagg ccgaggcagg 12 60

gcctcgccaa catggtgaaa ccccatttct 1320

gtggcatatg cctgtaatcc caactactca 1380

caggagaatc actgcagccc aggaggcaga 1440

actccagcct gggtgacaga gcaagactcc 1500

cgctgcagta gctgtggcct caccctgaag 1560

ccttggcaga gaagcagacg tccatagctc 1620

tccagctgct gctctcccct cccagtctct 1680

caccaaaaac ctaaaaataa acaaaaagcc 17 4 0

aatgcctgga agtgtccctt tatttataaa 1800

tcttgtaaga aattcagaaa ctacagacaa 1860

ctgagcccaa gctaagccat catatcccct 1920

gaagcaactg aagatccaca aaagaagtga 1980

attccaccat tgtgatttgt tcctgcccca 2040

acaccttccc cacccttgag aaggtgcttt 2100

cacccccgca cccttaagaa ggtattttgt 2160

tgtaagatcc accccctgcc cacaaaaaat 2220

tacaagaact aatgataatc ccaccaccct 2280

gcacccaggt gattaaaaag ctttattgtt 2340

agggaagcat gtgacaccca caatcccacc 2400

tgttttgaca ctgagcttgg ggctttttcc 2460

ctccaccgtt caagcgccag aaagagctgt 2520

agacacacaa ttcattggct cctggatttt 2580

actgtcctta aagccattgt ttccattaca 2640

ttaaatttaa aaaaataaaa acaaaaaagt 2700

2724<213> humano<400> 60

gaaacttaaa ggtgtttacc ttgtcatcagaggcttctat tgtcttgttg ctttagcgctctggcgccgg gctaaaacaa acgcgaggcagaggactcgg tccactccgt tacgtgtacagaatatttgg caaagggaga aaaaaaaagctttttcctcc tcttccttcc tcctccagccacacgactcc gttctcagtg tctgacatcttgggcatgga gggcggcggc ctcggggctccaccgccaac agcggccatg cagcagcacgcctaccacat gacggcggcg ggggtgccccgcaacggcaa cctgggcaac atgagcgagcgcgcctctgg ccccggatgg tacggcgccagcttcatggg cccggcgagc ggcatgaacagggacgtgag caagaacatg gccccgctgctcttctcgca ggcgcaggtg tacgagctggcggcgccgga gcgcgagcac ctggccagcatctggttcca gaaccaccgc tacaaaatgaagcaactgca gcaggacagc ggcggcggcgagcaacaggc tcagcagcag tcgccgcgacgcaaaccgtg ccaggcgggt gcccccgcgcagcagcaggc gcagcaccag gcgcaggccggcagcggtgg cgccggcctt ggcgcacaccctccggacct ggcgcaccac gccgccagcctgtcccacct gaactcctcg ggctcggactacggtcggac ctggtgagag gacgccgggcttccctcctg cccgccacac agaccaccatttaacaacct ggccgcgttt agaccaaggaacgtctttct ttttttcccc ccctaaaattgaaaaacaac caagcgcatc caatctcaaggctttggggt gtcttttttt ggtgattcaa

catgtaagct aattatctcg ggcaagatgt 60tacgccccgc ctctggtggc tgcctaaaac 120gcccccgagc ctccactcaa gccaattaag 180tccaacaaga tcggcgttaa ggtaacacca 240agcgaggctt cgccttcccc ctctcccttt 300gccgccgaat catgtcgatg agtccaaagc 360tgagtcccct ggaggaaagc tacaagaaag 420cgctggcggc gtacaggcag ggccaggcgg 480ccgtggggca ccacggcgcc gtcaccgccg 540agctctcgca ctccgccgtg gggggctact 600tgccgccgta ccaggacacc atgaggaaca 660acccagaccc gcgcttcccc gccatctccc 720tgagcggcat gggcggcctg ggctcgctgg 780caagcgcgcc gcgcaggaag cgccgggtgc 840agcgacgctt caagcaacag aagtacctgt 900tgatccacct gacgcccacg caggtcaaga 960agcgccaggc caaggacaag gcggcgcagc 1020ggggcggcgg gggcaccggg tgcccgcagc 1080gcgtggcggt gccggtcctg gtgaaagacg 1140cgggcgccgc cagcctacaa ggccacgcgc 1200cgcaggcggc ggcagcggcc atctccgtgg 1260cgggccacca gccaggcagc gcaggccagt 1320ccgcggcgct gcagggccag gtatccagcc 1380acggcaccat gtcctgctcc accttgctat 1440cggccctagc ccagcgctct gcctcaccgc 1500ccaccgctgc tccacgcgct tcgacttttc 1560acaaaaaaac cacaaaggcc aaactgctgg 1620tgtgggtttt tttttttaaa aaaagaaaat 1680gaatctttaa gcagagaagg gcataaaaca 1740atgggttttc cacgctaggg cggggcacag 1800attggagagg gctctgtgct gacatggctc tggactctaa agaccaaact tcactctggg 18 60

cacactctgc cagcaaagag gactcgcttg taaataccag gatttttttt tttttttgaa 1920

gggaggacgg gagctgggga gaggaaagag tcttcaacat aacccacttg tcactgacac 1980

aaaggaagtg ccccctcccc ggcaccctct ggccgcctag gctcagcggc gaccgccctc 2040

cgcgaaaata gtttgtttaa tgtgaacttg tagctgtaaa acgctgtcaa aagttggact 2100

aaatgcctag tttttagtaa tctgtacatt ttgttgtaaa aagaaaaacc actcccagtc 2160

cccagccctt cacatttttt atgggcattg acaaatctgt gtatattatt tggcagtttg 2220

gtatttgcgg cgtcagtctt tttctgttgt aacttatgta gatatttggc ttaaatatag 2280

ttcctaagaa gcttctaata aattatacaa attaaaaaga ttctttttct gattaaaaaa 2340

aaaaaaaaaa aa 2352<210> 61<211> 3336<212> DNA<213> humano

<4 00> 61

ttttcttaga cattaactgc agacggctgg caggatagaa gcagcggctc acttggactt 60

tttcaccagg gaaatcagag acaatgatgg ggctcttccc cagaactaca ggggctctgg 120

ccatcttcgt ggtggtcata ttggttcatg gagaattgcg aatagagact aaaggtcaat 180

atgatgaaga agagatgact atgcaacaag ctaaaagaag gcaaaaacgt gaatgggtga 240

300360420480

aatttgccaa accctgcaga gaaggagaag ataactcaaa aagaaaccca attgccaaga

ttacttcaga ttaccaagca acccagaaaa tcacctaccg aatctctgga gtgggaatcg

atcagccgcc ttttggaatc tttgttgttg acaaaaacac tggagatatt aacataacag

ctatagtcga ccgggaggaa actccaagct tcctgatcac atgtcgggct ctaaatgccc

aaggactaga tgtagagaaa ccacttatac taacggttaa aattttggat attaatgata 540

atcctccagt attttcacaa caaattttca tgggtgaaat tgaagaaaat agtgcctcaa 600

actcactggt gatgatacta aatgccacag atgcagatga accaaaccac ttgaattcta 660

aaattgcctt caaaattgtc tctcaggaac cagcaggcac acccatgttc ctcctaagca 720gaaacactgg ggaagtccgt actttgacca attctcttga ccgagagcaa gctagcagct

atcgtctggt tgtgagtggt gcagacaaag atggagaagg actatcaact caatgtgaatgtaatattaa agtgaaagat gtcaacgata acttcccaat gtttagagac tctcagtattcagcacgtat tgaagaaaat attttaagtt ctgaattact tcgatttcaa gtaacagatttggatgaaga gtacacagat aattggcttg cagtatattt ctttacctct gggaatgaag 1020

780840900960gaaattggtt tgaaatacaa actgatccta gaactaatga aggcatcctg aaagtggtga 1080 aggctctaga ttatgaacaa ctacaaagcg tgaaacttag tattgctgtc aaaaacaaag 1140 ctgaatttca ccaatcagtt atctctcgat accgagttca gtcaacccca gtcacaattc 1200 aggtaataaa tgtaagagaa ggaattgcat tccgtcctgc ttccaagaca tttactgtgc 1260 aaaaaggcat aagtagcaaa aaattggtgg attatatcct gggaacatat caagccatcg 1320 atgaggacac taacaaagct gcctcaaatg tcaaatatgt catgggacgt aacgatggtg 1380 gatacctaat gattgattca aaaactgctg aaatcaaatt tgtcaaaaat atgaaccgag 1440 attctacttt catagttaac aaaacaatca cagctgaggt tctggccata gatgaataca 1500 cgggtaaaac ttctacaggc acggtatatg ttagagtacc cgatttcaat gacaattgtc 1560 caacagctgt cctcgaaaaa gatgcagttt gcagttcttc accttccgtg gttgtctccg 1620 ctagaacact gaataataga tacactggcc cctatacatt tgcactggaa gatcaacctg 1680 taaagttgcc tgccgtatgg agtatcacaa ccctcaatgc tacctcggcc ctcctcagag 1740 cccaggaaca gatacctcct ggagtatacc acatctccct ggtacttaca gacagtcaga 1800 acaatcggtg tgagatgcca cgcagcttga cactggaagt ctgtcagtgt gacaacaggg 1860 gcatctgtgg aacttcttac ccaaccacaa gccctgggac caggtatggc aggccgcact 1920 cagggaggct ggggcctgcc gccatcggcc tgctgctcct tggtctcctg ctgctgctgt 1980 tggcccccct tctgctgttg acctgtgact gtggggcagg ttctactggg ggagtgacag 2040 gtggttttat cccagttcct gatggctcag aaggaacaat tcatcagtgg ggaattgaag 2100 gagcccatcc tgaagacaag gaaatcacaa atatttgtgt gcctcctgta acagccaatg 2160 gagccgattt catggaaagt tctgaagttt gtacaaatac gtatgccaga ggcacagcgg 2220 tggaaggcac ttcaggaatg gaaatgacca ctaagcttgg agcagccact gaatctggag 2280 gtgctgcagg ctttgcaaca gggacagtgt caggagctgc ttcaggattc ggagcagcca 2340 ctggagttgg catctgttcc tcagggcagt ctggaaccat gagaacaagg cattccactg 2400 gaggaaccaa taaggactac gctgatgggg cgataagcat gaattttctg gactcctact 2460 tttctcagaa agcatttgcc tgtgcggagg aagacgatgg ccaggaagca aatgactgct 2520 tgttgatcta tgataatgaa ggcgcagatg ccactggttc tcctgtgggc tccgtgggtt 2580 gttgcagttt tattgctgat gacctggatg acagcttctt ggactcactt ggacccaaat 2640 ttaaaaaact tgcagagata agccttggtg ttgatggtga aggcaaagaa gttcagccac 2700 cctctaaaga cagcggttat gggattgaat cctgtggcca tcccatagaa gtccagcaga 2760 caggatttgt taagtgccag actttgtcag gaagtcaagg agcttctgct ttgtccgcct 2820 ctgggtctgt ccagccagct gtttccatcc ctgaccctct gcagcatggt aactatttag 2880 taacggagac ttactcggct tctggttccc tcgtgcaacc ttccactgca ggctttgatc 2940cacttctcac acaaaatgtg atagtgacagctggcaacct agctggccca acgcagctacatccttgctc ccgtctaata tgaccagaatatctttggac taaagtattc aaaatagcattggcacttat tagcttctct cataaactgataccccaaaa gcaatatgtt gtcactcctatcttaaagtt tttcaaaacc ctaaaatcat<210> 62<211> 3697<212> DNA

<213> humano<400> 62

agggagtgtt cccgggggag atactccagtgaaaaggact tttaaccacc attttgtgacatgatacttc aggcccatct tcactccctgtatggccaag aggggaagtt tagtggacccggccaagaac cgagtcaaat tatattccaggaactaactg gggagacaga caacatatttaacagagcct tggacaggga aacaagatctgctaatggaa ttatagtgga gggtccagtcgacaatcgac ccacgtttct ccagtcaaagccaggaaagc ccttcttgta tgtcaatgccggccagcttt attaccagat tgtcatccagcagatcaaca acaaaacggg agccatctctcctgctaaga atccttccta taatctggtggagaattcct tcagtgatac cacatctgtggcaccaaaac ctgtggagat ggtggaaaaccaggtgcggt ggaatgatcc cggtgcacaaagattcccat tttcaattga ccaggaaggagaagaaaagg atgcatatgt tttttatgcatcatatccgc tggaaattca tgtaaaagttccgtcaccag taaccgtatt tgaggtccag

aaagggtgat ctgtcccatt tccagtgttc 3000

gagggtcaca tactatgctc tgtacagagg 3060

gagctggaat accacactga ccaaatctgg 3120

agcaaagctc actgtattgg gctaataatt 3180

tcacgattat aaattaaatg tttgggttca 3240

attctcaagt actattcaaa ttgtagtaaa 3300

attcgc 3336

cgtagcaaga gtctcgacca ctgaatggaa 60

ttacagaaag gaatttgaat aaagaaaact 120

tgtcttctta tgctttattt ggcaactgga 180

ctgaaaccca tgacattttc tatttatgaa 240

tttaaggcca atcctcctgc tgtgactttt 300

gtgatagaac gggagggact tctgtattac 360

actcacaatc tccaggttgc agccctggac 420

cctatcacca tagaagtgaa ggacatcaac 480

tacgaaggct cagtaaggca gaactctcgc 540

acagacctgg atgatccggc cactcccaat 600

cttcccatga tcaacaatgt catgtacttt 660

cttacccgag agggatctca ggaattgaat 720

atctcagtga aggacatggg aggccagagt 780

gatatcatag tgacagagaa tatttggaaa 840

tcaactgatc ctcaccccat caaaatcact 900

tattccttag ttgacaaaga gaagctgcca 960

gatatttacg tgactcagcc cttggaccga 1020

gttgcaaagg atgagtacgg aaaaccactt 1080

aaagatatta atgataatcc acctacatgt 1140

gagaatgaac gactgggtaa cagtatcggg 1200acccttactg cacatgacag ggatgaagaa aatactgcca acagttttct aaactacagg 1260

attgtggagc aaactcccaa acttcccatg gatggactct tcctaatcca aacctatgct 1320

ggaatgttac agttagctaa acagtccttg aagaagcaag atactcctca gtacaactta 1380

acgatagagg tgtctgacaa agatttcaag accctttgtt ttgtgcaaat caacgttatt 1440

gatatcaatg atcagatccc catctttgaa aaatcagatt atggaaacct gactcttgct 1500

gaagacacaa acattgggtc caccatctta accatccagg ccactgatgc tgatgagcca 1560

tttactggga gttctaaaat tctgtatcat atcataaagg gagacagtga gggacgcctg 1620

ggggttgaca cagatcccca taccaacacc ggatatgtca taattaaaaa gcctcttgat 1680

tttgaaacag cagctgtttc caacattgtg ttcaaagcag aaaatcctga gcctctagtg 1740

tttggtgtga agtacaatgc aagttctttt gccaagttca cgcttattgt gacagatgtg 1800

aatgaagcac ctcaattttc ccaacacgta ttccaagcga aagtcagtga ggatgtagct

ataggcacta aagtgggcaa tgtgactgcc aaggatccag aaggtctgga cataagctat

tcactgaggg gagacacaag aggttggctt aaaattgacc acgtgactgg tgagatcttt 1980

agtgtggctc cattggacag agaagccgga agtccatatc gggtacaagt ggtggccaca

aatgacaacc ctcccaggct agccaaggac tacacgggct tgttcttctg ccatcccctc

gtttcgccat ttggccaggc tggtcttgaa ctcctgacgt caagtgatct gcctgccttggtctcccaat acaggcatga accactgcac ccacctactt agatatttca tgtgctatagacattagaga gatttttcat ttttccatga catttttcct ctctgcaaat ggcttagcta

18601920

2040

gaagtagggg ggtcttcctt gagctctgtg tcagagttcc acctgatcct tatggatgtg 2100

2160

agtgcacctg gaagtctcat tttcgaggct actgatgatg atcagcactt atttcggggt 2220

ccccatttta cattttccct cggcagtgga agcttacaaa acgactggga agtttccaaa 2280

atcaatggta ctcatgcccg actgtctacc aggcacacag agtttgagga gagggagtat 2340

gtcgtcttga tccgcatcaa tgatgggggt cggccaccct tggaaggcat tgtttcttta 2400

ccagttacat tctgcagttg tgtggaagga agttgtttcc ggccagcagg tcaccagact 2460

gggataccca ctgtgggcat ggcagttggt atactgctga ccacccttct ggtgattggt 2520

258026402700

ataattttag cagttgtgtt tatccgcata aagaaggata aaggcaaaga taatgttgaa

agtgctcaag catctgaagt caaacctctg agaagctgaa tttgaaaagg aatgtttgaa

tttatatagc aagtgctatt tcagcaacaa ccatctcatc ctattacttt tcatctaacg

tgcattataa ttttttaaac agatattccc tcttgtcctt taatatttgc taaatatttc 2760

ttttttgagg tggagtcttg ctctgtcgcc caggctggag tacagtggtg tgatcccagc 2820

tcactgcaac ctccgcctcc tgggttcaca tgattctcct gcctcagctt cctaagtagc

2880

tgggtttaca ggcacccacc accatgccca gctaattttt gtatttttaa tagagacggg 2940

300030603120atgcaattaa tatatgacag cagtctttgt gatttatttt aactttctgc aagacctttg

gctcacagaa ctgcagggta tggtgagaaa ccaactacgg attgctgcaa accacacctt

ctctttctta tgtcttttta ctacaaacta caagacaatt gttgaaacct gctatacatg

tttattttaa taaattgatg gca

<210> 64

<211> 1894<212> DNA<213> humano<400> 64

gtctgacttc ctcccagcac attcctgcac tctgccgtgt ccacactgcc ccacagaccc

cttgtgtttt tcccttttgg ggcaagacag actcattaaa tattctgtac attttttctt 3180

tatcaaggag atatatcagt gttgtctcat agaactgcct ggattccatt tatgtttttt 3240

ctgattccat cctgtgtccc cttcatcctt gactcctttg gtatttcact gaatttcaaa 3300

catttgtcag agaagaaaaa cgtgaggact caggaaaaat aaataaataa aagaacagcc 3360

ttttccctta gtattaacag aaatgtttct gtgtcattaa ccatctttaa tcaatgtgac 3420

atgttgctct ttggctgaaa ttcttcaact tggaaatgac acagacccac agaaggtgtt 3480

caaacacaac ctactctgca aaccttggta aaggaaccag tcagctggcc agatttcctc 3540

actacctgcc atgcatacat gctgcgcatg ttttcttcat tcgtatgtta gtaaagtttt 3600

ggttattata tatttaacat gtggaagaaa acaagacatg aaaagagtgg tgacaaatca 3660

agaataaaca ctggttgtag tcagttttgt ttgttaa 3697<210> 63<211> 503<212> DNA<213> humano<400> 63

gacagcggct tccttgatcc ttgccacccg cgactgaaca ccgacagcag cagcctcacc 60

atgaagttgc tgatggtcct catgctggcg gccctctccc agcactgcta cgcaggctct 120

ggctgcccct tattggagaa tgtgatttcc aagacaatca atccacaagt gtctaagact 180

gaatacaaag aacttcttca agagttcata gacgacaatg ccactacaaa tgccatagat 240

gaattgaagg aatgttttct taaccaaacg gatgaaactc tgagcaatgt tgaggtgttt 300

360420480503

60

agtcctccaa gcctgctgcc agctccctgc aagcccctca ggttgggcct tgccacggtg 120

ccagcaggca gccctgggct gggggtaggg gactccctac aggcacgcag ccctgagacc

180tcagagggcc accccttgag ggtggccagggccaccagcc ctgctggccc ctggttccgccagtggcctc agctgcccac acctcttcccctccctgggc accaggcagc taacagacaccagcgccagc ccgggtctga gcagcgtatcggtgtcgcgg acaggcttgg agaaggcggcctggagtccc agtccacccg ccacgcccgactttgacatg ctgtaccctg aggacagcagtcgggaggag ccacctgagg agcctgagcagggcagcctg gacttggtgc ccggcgggctgcagtccatg gtggtgggcg aagtgctcaacatcaccgca gatcccatgg actggagcccagagcaccaa taccggctgc cccccatggggctgtgcgcc atgtcggagg agcagttccggcacgcccac ctggacatct ggaagtcagcggcgattcac tactgtgcct cgaccagtgaatcatgctcc gggcagccca tccacctgtgccacagctat ggccgcttca ttaggtggctggactcagcc caggtggccc ggctgtggggcgacaagctg agccgctcca tccgccagtacatctcccag cgcctcgtct accagttcgttgaaacccgc cctcaggggc ctctctcctgggggaaaacg ggcagtctgc tctgctgctcgcaaccaact gccccagggg gatatgggtcgtgcttcctc ctcaggccca gctgctcccccaacacctgc ctctgacccc agcatttccaacaaaggcca caggcagtcc aggcctctctccacacctgg catggtgcag ggagacatctcccgggaatg gataataaag atactagaga

<210> 65

<211> 3029<212> DNA

cccccagtgg ccaacctgag tgctgcctct 240

tggcccccca gatgcctggc tgagacacgc 300

ggcccctgaa gttggcactg cagcagacag 3 60

agccgccagc ccaaacagca gcggcatggg 420

ccccagccac ctcctgctgc cccccgacac 480

agcgggggca gtgggtctcg agagacggga 540

gcagggcctg tccgccttct acctctccta 600

ctgggcagcc aaggcccctg gggccagcag 660

gtgcccggtc attgacagcc aagccccagc 720

gaccttggag gagcactcgc tggagcaggt 780

ggacatcgag acggcctgca agctgctcaa 840

cagcaatgtg cagaagtggc tcctgtggac 900

caaggccttc caggagctgg cgggcaagga 960

ccagcgctcg cccctgggtg gggatgtgct 1020

ggcctggatg aaagagcgga cttcacctgg 1080

ggagagctgg accgacagcg aggtggactc 1140

gcagttcctc aaggagttgc tactcaagcc 1200

caacaaggag aagggcatct tcaaaattga 12 60

catccgcaag aaccgtcccg ccatgaacta 1320

ttacaagaag ggcatcatcc ggaagccaga 1380

gcaccccatc tgagtgcctg gcccagggcc 1440

cctgccctgc ctcagccagg ccctgagatg 1500

tgaccttcca gagcccaagg tcagggaggg 1560

ctctggggcc ttcgggacca tggggcaggg 1620

tggaggacag agggagacag ggctgctccc 1680

gagcagagcc tacagaaggg cagtgactcg 1740

ctgctccatc cccctgcctc ccattctgca 1800

gcacccctga gttgggcagc caggagtgcc 1860

actg 1894<213> humano<400> 65

ccaggcagct ggggtaagga gttcaaggcagaccgcctgt ccgctccccc acttcccgcccccacccaga gccgggacgg cagcccaggccctggacttc ctcttgctgc aggacccggcgcacacgctc cgctccgggc ctgggtgcctcccgggcggc atctgggcca agttaggcgcccggaggagc cgcggggcgt ccgggtctgacctgaacgcg ctgctgcccg ccgtcccctctgtgagcggc gcggcgcagt gggcgccggtttacgggtcg ttgggcggcc ccgcgccgccgcctcactcc ttcatcaaac aggagccgaggtgcctgagc gccttcactg tccacttttctcgctacggg cccttcggtc ctcctccgccgtttcctaac gcgccctacc tgcccagctggggttacagc acggtcacct tcgacgggactgcggcgcag ttccccaacc actcattcaagctgggtgag cagcagtact cggtgccgcccagctgcacc ggcagccagg ctttgctgctccaaatgaca tcccagcttg aatgcatgacaaagggagtt gctgctggga gctccagctccagcacaggg tacgagagcg ataaccacacaatacacacg cacggtgtct tcagaggcatcccgactctt gtacggtcgg catctgagaccccaggctgc aataagagat attttaagctcactggtgag aaaccatacc agtgtgacttagaccagctc aaaagacacc aaaggagacattgtcagcga aagttctccc ggtccgaccataaaacaagt gaaaagccct tcagctgtcggtcagatgaa ttagtccgcc atcacaacatggcgctttga ggggtctccc tcggggaccggcgcccacac ccgggggctc tccgcaaccc 60ctccctccca cctactcatt cacccaccca 120gcccgggccc cgccgtctcc tcgccgcgat 180ttccacgtgt gtcccggagc cggcgtctca 240acagcagcca gagcagcagg gagtccggga 300cgccgaggcc ag.cgctgaac gtctccaggg 360gccgcagcaa atgggctccg acgtgcggga 420cctgggtggc ggcggcggct gtgccctgcc 480gctggacttt gcgcccccgg gcgcttcggc 540accggctccg ccgccacccc cgccgccgcc 600ctggggcggc gcggagccgc acgaggagca 660cggccagttc actggcacag ccggagcctg 720cagccaggcg tcatccggcc aggccaggat 780cctcgagagc cagcccgcta ttcgcaatca 840gcccagctac ggtcacacgc cctcgcacca 900gcatgaggat cccatgggcc agcagggctc 960cccggtctat ggctgccaca cccccaccga 1020gaggacgccc tacagcagtg acaatttata 1080ctggaatcag atgaacttag gagccacctt 1140agtgaaatgg acagaagggc agagcaacca 1200aacgcccatc ctctgcggag cccaatacag 1260tcaggatgtg cgacgtgtgc ctggagtagc 1320cagtgagaaa cgccccttca tgtgtgctta 1380gtcccactta cagatgcaca gcaggaagca 1440caaggactgt gaacgaaggt tttctcgttc 1500tacaggtgtg aaaccattcc agtgtaaaac 1560cctgaagacc cacaccagga ctcatacagg 1620gtggccaagt tgtcagaaaa agtttgcccg 1680gcatcagaga aacatgacca aactccagct 1740ttcagtgtcc caggcagcac agtgtgtgaa 1800ctgctttcaa gtctgactct ccactcctcc tcactaaaaa ggaaacttca gttgatcttc 1860 ttcatccaac ttccaagaca agataccggt gcttctggaa actaccaggt gtgcctggaa 1920 gagttggtct ctgccctgcc tacttttagt tgactcacag gccctggaga agcagctaac 1980 aatgtctggt tagttaaaag cccattgcca tttggtgtgg attttctact gtaagaagag 2040 ccatagctga tcatgtcccc ctgacccttc ccttcttttt ttatgctcgt tttcgctggg 2100 gatggaatta ttgtaccatt ttctatcatg gaatatttat aggccagggc atgtgtatgt 2160 gtctgctaat gtaaactttg tcatggtttc catttactaa cagcaacagc aagaaataaa 2220 tcagagagca aggcatcggg ggtgaatctt gtctaacatt cccgaggtca gccaggctgc 2280 taacctggaa agcaggatgt agttctgcca ggcaactttt aaagctcatg catttcaagc 2340 agctgaagaa aaaatcagaa ctaaccagta cctctgtata gaaatctaaa agaattttac 2400 cattcagtta attcaatgtg aacactggca cactgctctt aagaaactat gaagatctga 2460 gatttttttg tgtatgtttt tgactctttt gagtggtaat catatgtgtc tttatagatg 2520 tacatacctc cttgcacaaa tggaggggaa ttcattttca tcactgggag tgtccttagt 2580 gtataaaaac catgctggta tatggcttca agttgtaaaa atgaaagtga ctttaaaaga 2640 aaatagggga tggtccagga tctccactga taagactgtt tttaagtaac ttaaggacct 2700 ttgggtctac aagtatatgt gaaaaaaatg agacttactg ggtgaggaaa tccattgttt 2760 aaagatggtc gtgtgtgtgt gtgtgtgtgt gtgtgtgtgt gtgttgtgtt gtgttttgtt 2820 ttttaaggga gggaatttat tatttaccgt tgcttgaaat tactgtgtaa atatatgtct 2880 gataatgatt tgctctttga caactaaaat taggactgta taagtactag atgcatcact 2940 gggtgttgat cttacaagat attgatgata acacttaaaa ttgtaacctg catttttcac 3000 tttgctctca attaaagtct attcaaaag 3029 <210> 66 <211> 1064 <212> DNA <213> humano <400> 66 tttgaggcca tataaagtca cctgaggccc tctccaccac agcccaccag tgaccatgaa 60 ggctgtgctg cttgccctgt tgatggcagg cttggccctg cagccaggca ctgccctgct 120 gtgctactcc tgcaaagccc aggtgagcaa cgaggactgc ctgcaggtgg agaactgcac 180 ccagctgggg gagcagtgct ggaccgcgcg catccgcgca gttggcctcc tgaccgtcat 240 cagcaaaggc tgcagcttga actgcgtgga tgactcacag gactactacg tgggcaagaa 300 gaacatcacg tgctgtgaca ccgacttgtg caacgccagc ggggcccatg ccctgcagcc 360ggctgctgcc atccttgcgc tgctccctgcgctctaggct ctggggggcc ccgctgcagctgccactcct cacacacccg gcccagtgggacgcaagtct gaccatgtat gtctgcgccctctccaggac tcccacccgg cagatcggctcctccaaccc tctctgctgc tgtttccatgtcaggcacct cttcccccag gaagccttcctctggtccgt ggtgtccccc gcacccagcaggctgagatg aagtggactg agtagaactggtctccagag atggggcctg gaggcctggatccctgaatg gcagcctcag cacagcgtagaaaaaaaaaa aaaaaaaaaa aaaaaaaaaa<210> 67<211> 6962<212> DNA

<213> humano<400> 67

gcaagaactg caggggagga ggacgctgccggacagcccg gagtgtggtt agcagctcggagccagcggg agcaggaaag gaagcatgttggtcttgggc accagctggg taggctgggggcagttctac gtggctgctc agggcatcagaagtttgaat ctttctgtaa cttcctttaattttaagaaa gaaaaaccac aatctaccattgaagtcgga gacatcataa aagttcacttccatcctcaa ggaattaggt acagtaaattattccctgcg gagaagatgg acgacgctgtgagtatcagt gaggacagtg gacccacccattactcccat gaaaatctga tcgaggatttctgtaaaaaa gggaccctaa ctgagggtgggctactattt gctgtgtttg atgaaagcaacacagtcaat ggatatgtga atgggacaat

120

actcggcctg ctgctctggg gacccggcca 420ccacactggg tgtggtgccc caggcctctg 480agcctgtcct ggttcctgag gcacatccta 540ctgtccccca ccctgaccct cccatggccc 600ctattgacac agatccgcct gcagatggcc 660gcccagcatt ctccaccctt aaccctgtgc 720ctgcccaccc catctatgac ttgagccagg 780ggggacaggc actcaggagg gcccggtaaa 840gaggacagga gtcgacgtga gttcctggga 900ggaaggggcc aggcctcaca ttcgtggggc 960gcccttaata aacacctgtt ggataagcca 1020aaaaaaaaaa aaaa 1064acccacagcc tctagagctc attgcagctg 60caagcgctgc ccaggtcctg gggtggtggc 120cccaggctgc ccacgcctct gggtcctggt 180gagccaaggg acagaagcgg cacagctaag 240ttggagctac cgacctgagc ccacaaactc 300gaaaattgtc tacagagagt atgaaccata 360ttcaggactt cttgggccta ctttatatgc 420taaaaataag gcagataagc ccttgagcat 480atcagaaggt gcttcttacc ttgaccacac 540ggctccaggc cgagaataca cctatgaatg 600tgatgaccct ccatgcctca cacacatcta 660caactcgggg ctgattgggc ccctgcttat 720gacacagaag acgtttgaca agcaaatcgt 780gagctggagc cagtcatcat ccctaatgta 840gccagatata acagtttgtg cccatgacca 900catcagctgg catctgctgg gaatgagctc ggggccagaa ttattctcca ttcatttcaa 960

cggccaggtc ctggagcaga accatcataa ggtctcagcc atcacccttg tcagtgctac 1020

atccactacc gcaaatatga ctgtgggccc agagggaaag tggatcatat cttctctcac 1080

cccaaaacat ttgcaagctg ggatgcaggc ttacattgac attaaaaact gcccaaagaa 1140

aaccaggaat cttaagaaaa taactcgtga gcagaggcgg cacatgaaga ggtgggaata 1200

cttcattgct gcagaggaag tcatttggga ctatgcacct gtaataccag cgaatatgga 12 60

caaaaaatac aggtctcagc atttggataa tttctcaaac caaattggaa aacattataa 1320

gaaagttatg tacacacagt acgaagatga gtccttcacc aaacatacag tgaatcccaa 1380

tatgaaagaa gatgggattt tgggtcctat tatcagagcc caggtcagag acacactcaa 1440

aatcgtgttc aaaaatatgg ccagccgccc ctatagcatt taccctcatg gagtgacctt 1500

ctcgccttat gaagatgaag tcaactcttc tttcacctca ggcaggaaca acaccatgat 1560

cagagcagtt caaccagggg aaacctatac ttataagtgg aacatcttag agtttgatga 1620

acccacagaa aatgatgccc agtgcttaac aagaccatac tacagtgacg tggacatcat 1680

gagagacatc gcctctgggc taataggact acttctaatc tgtaagagca gatccctgga 1740

caggcgagga atacagaggg cagcagacat cgaacagcag gctgtgtttg ctgtgtttga 1800

tgagaacaaa agctggtacc ttgaggacaa catcaacaag ttttgtgaaa atcctgatga 1860

ggtgaaacgt gatgacccca agttttatga atcaaacatc atgagcacta tcaatggcta 1920

tgtgcctgag agcataacta ctcttggatt ctgctttgat gacactgtcc agtggcactt

ctgtagtgtg gggacccaga atgaaatttt gaccatccac ttcactgggc actcattcat

ctatggaaag aggcatgagg acaccttgac cctcttcccc atgcgtggag aatctgtgac 2100

ggtcacaatg gataatgttg gaacttggat gttaacttcc atgaattcta gtccaagaag 2160

caaaaagctg aggctgaaat tcagggatgt taaatgtatc ccagatgatg atgaagactc 2220

atatgagatt tttgaacctc cagaatctac agtcatggct acacggaaaa tgcatgatcg 2280

tttagaacct gaagatgaag agagtgatgc tgactatgat taccagaaca gactggctgc 2340

agcattagga atcaggtcat tccgaaactc atcattgaat caggaagaag aagagttcaa 24 00

tcttactgcc ctagctctgg agaatggcac tgaattcgtt tcttcaaaca cagatataat 24 60

tgttggttca aattattctt ccccaagtaa tattagtaag ttcactgtca ataaccttgc 2520

agaacctcag aaagcccctt ctcaccaaca agccaccaca gctggttccc cactgagaca 2580

cctcattggc aagaactcag ttctcaattc ttccacagca gagcattcca gcccatattc

tgaagaccct atagaggatc ctctacagcc agatgtcaca gggatacgtc tactttcact

tggtgctgga gaattcaaaa gtcaagaaca tgctaagcat aagggaccca aggtagaaag 27 60

agatcaagca gcaaagcaca ggttctcctg gatgaaatta ctagcacata aagttgggag 2820

1980

2040

2640

2700acacctaagc caagacactg gttctccttc cggaatgagg ccctgggagg accttcctag 2880

ccaagacact ggttctcctt ccagaatgag gccctggaag gaccctccta gtgatctgtt 2940

actcttaaaa caaagtaact catctaagat tttggttggg agatggcatt tggcttctga 3000

gaaaggtagc tatgaaataa tccaagatac tgatgaagac acagctgtta acaattggct 3060

gatcagcccc cagaatgcct cacgtgcttg gggagaaagc acccctcttg ccaacaagcc 3120

tggaaagcag agtggccacc caaagtttcc tagagttaga cataaatctc tacaagtaag 3180

acaggatgga ggaaagagta gactgaagaa aagccagttt ctcattaaga cacgaaaaaa 3240

gaaaaaagag aagcacacac accatgctcc tttatctccg aggacctttc accctctaag 3300

aagtgaagcc tacaacacat tttcagaaag aagacttaag cattcgttgg tgcttcataa 3360

atccaatgaa acatctcttc ccacagacct caatcagaca ttgccctcta tggattttgg 3420

ctggatagcc tcacttcctg accataatca gaattcctca aatgacactg gtcaggcaag 3480

ctgtcctcca ggtctttatc agacagtgcc cccagaggaa cactatcaaa cattccccat 3540

tcaagaccct gatcaaatgc actctacttc agaccccagt cacagatcct cttctccaga 3600

gctcagtgaa atgcttgagt atgaccgaag tcacaagtcc ttccccacag atataagtca 3660

aatgtcccct tcctcagaac atgaagtctg gcagacagtc atctctccag acctcagcca 3720

ggtgaccctc tctccagaac tcagccagac aaacctctct ccagacctca gccacacgac 3780

tctctctcca gaactcattc agagaaacct ttccccagcc ctcggtcaga tgcccatttc 3840

tccagacctc agccatacaa ccctttctcc agacctcagc catacaaccc tttctttaga 3900

cctcagccag acaaacctct ctccagaact cagtcagaca aacctttctc cagccctcgg 3960

tcagatgccc ctttctccag acctcagcca tacaaccctt tctctagact tcagccagac 4020aaacctctct ccagaactca gccatatgac tctctctcca gaactcagtc agacaaacctttccccagcc ctcggtcaga tgcccatttc tccagacctc agccatacaa ccctttctct

agacttcagc cagacaaacc tctctccaga actcagtcaa acaaaccttt ccccagccct 4200

cggtcagatg cccctttctc cagaccccag ccatacaacc ctttctctag acctcagcca

cctcagccag gtgactctct ctccagacat cagtgacacc acccttctcc cggatctcagccagatatca cctcctccag accttgatca gatattctac ccttctgaat ctagtcagtc

40804140

4260

gacaaacctc tctccagaac tcagtcagac aaacctttcc ccagacctca gtgagatgcc 4320

4380

cctctttgca gatctcagtc aaattcccct taccccagac ctcgaccaga tgacactttctccagacctt ggtgagacag atctttcccc aaactttggt cagatgtccc tttccccaga 4440

45004560

attgcttctt caagaattta atgagtcttt tccttatcca gaccttggtc agatgccatc 4620

4680

tccttcatct cctactctca atgatacttt tctatcaaag gaatttaatc cactggttatagtgggcctc agtaaagatg gtacagatta cattgagatc attccaaagg aagaggtcca 4740gagcagtgaa gatgactatg ctgaaattga

tgatgttagg acaaacatca actcctccag

ccgcagcaac aatggaaaca gaagaaatta

ttattcagaa tttgtacaaa gggaaacaga

taccacatat aagaaagtag tttttcgaaa

tcctcgaggg gagtatgaag agcatctcgg

ggatgatgtt atccaagttc gttttaaaaa

ccatggactt tcctatgaaa aatcatcaga

atggtttaag gaagataatg ctgttcagcc

cactgagcga tcagggccag aaagtcctgg

agctgtgaac ccagaaaaag atattcactcaaaaggaata ctacataagg acagcaacatatttatgacc tttgatgaaa agaagagctggagactcaca tcctcagaaa tgaaaaaatcctacagcttg cctggcctga aaatgtatgacataggcggc tcccaagaca ttcacgtggttggcaataaa cagcaccagt taggggtctgtgaaatgaag gcatcaaaac ctggctggtggagagcaggg atgcaaacgc catttcttatactaagcact ggtatcatat ctgattcacaggagcccaga ttagcaagat taaacaatggacttgcagca gaatttgcct ctaaaccttgaatcacaggg atccagaccc aaggtgccaagttctatgta gcttacagtt ccaaccagataaggaatgtg atgtatttta atggcaattctgacccacct attgtggcta gatatattagtacccttcga ttggaactgc aaggttgtgaggaaaatgga aagatagaaa acaagcaaatgggagattac tgggaaccct tccgtgcccg

gcaagccaag gcaaacaaca ataagcagtggataacggca attataacac agggctgcaactataccatc cactacagtg agcagggagt

ttatgtgccc tatgatgacc cctacaaaac 4800

agatcctgac aacattgcag catggtacct 4860

ttacattgct gctgaagaaa tatcctggga 4 920

tattgaagac tctgatgata ttccagaaga 4 980

gtacctcgac agcactttta ccaaacgtga 5040

aattcttggt cctattatca gagctgaagt 5100

tttagcatcc agaccgtatt ctctacatgc 5160

gggaaagact tatgaagatg actctcctga 5220

aaatagcagt tatacctacg tatggcatgc 5280

ctctgcctgt cgggcttggg cctactactc 5340

aggcttgata ggtcccctcc taatctgcca 5400

gcctatggac atgagagaat ttgtcttact 5460

gtactatgaa aagaagtccc gaagttcttg 5520

ccatgagttt cacgccatta atgggatgat 5580

gcaagagtgg gtgaggttac acctgctgaa 5640

tcactttcac ggccagacct tgctggaaaa 5700

gccccttctg cctggttcat ttaaaactct 5760

gctcctaaac acagaggttg gagaaaacca 5820

catggacaga gactgtagga tgccaatggg 5880

gatcaaggct tcagagtttc tgggttactg 5940

tggatcttat aatgcttgga gtgtagaaaa 6000

gatccaggtg gacatgcaaa aggaagtcat 6060

acactacctg aagtcctgct ataccacaga 6120

caactggcag atcttcaaag ggaacagcac 6180

agatgcctct acaataaaag agaatcagtt 6240

gatctctcca actcgagcct ataacagacc 6300

ggtaaatgga tgttccacac ccctgggtat 6360

cacagcttct tcgtttaaga aatcttggtg 6420

tctgaatgcc cagggacgtg tgaatgcctg 6480

gctagaaatt gatctactca agatcaagaa 6540

gtctctgtcc tctgaaatgt atgtaaagag 6600

ggaatggaaa ccatacaggc tgaaatcctc 6660catggtggac aagatttttg aaggaaataccaacccccca atcatttcca ggtttatccgtgcacttcgc ctggaactct ttggctgtgactggaagaga ctctttaaga cctcaaaccattaaatgtta acagttttcc actatttctcac

<210> 68<211> 1464<212> DNA<213> humano<400> 68

agccccaagc ttaccacctg cacccggagatcctcaccct gtccgtgacg tggattggtggaggctggga gtgcgagaag cattcccaacgggcagtctg cggcggtgtt ctggtgcacctcaggaacaa aagcgtgatc ttgctgggtcgccaggtatt tcaggtcagc cacagcttccagaatcgatt cctcaggcca ggtgatgactcagagcctgc cgagctcacg gatgctgtgacactggggac cacctgctac gcctcaggctccccaaagaa acttcagtgt gtggacctccttcaccctca gaaggtgacc aagttcatgcgcacctgctc gggtgattct gggggcccaccgtcatgggg cagtgaacca tgtgccctgctgcattaccg gaagtggatc aaggacaccaccccctattg tagtaaactt ggaaccttggagttctactg acctttgtcc ttaggtgtgaagacacaggt gtagaccaga gtgtttcttaggggaatact ggccatgcct ggagacatattggggtgtct gtgttatttg tggggtacagagagtggaga gtgacatgtg ctggacactgacaacgcacc agacactcac agcaaggatg

124

taataccaaa ggacatgtga agaacttttt 6720tgtcattcct aaaacatgga atcaaagtat 6780tatttactag aattgaacat tcaaaaaccc 6840tttagaatgg gcaatgtatt ttacgctgtg 6900tttcttttct attagtgaat aaaattttat 6960 6962gctgtgtcac catgtgggtc ccggttgtct 60ctgcacccct catcctgtct cggattgtgg 120cctggcaggt gcttgtggcc tctcgtggca 180cccagtgggt cctcacagct gcccactgca 240ggcacagcct gtttcatcct gaagacacag 300cacacccgct ctacgatatg agcctcctga 360ccagccacga cctcatgctg ctccgcctgt 420aggtcatgga cctgcccacc caggagccag 480ggggcagcat tgaaccagag gagttcttga 540atgttatttc caatgacgtg tgtgcgcaag 600tgtgtgctgg acgctggaca gggggcaaaa 660ttgtctgtaa tggtgtgctt caaggtatca 720ccgaaaggcc ttccctgtac accaaggtgg 780tcgtggccaa cccctgagca cccctatcaa 840aaatgaccag gccaagactc aagcctcccc 900ggtccagggt tgctaggaaa agaaatcagc 960aatggtgtaa ttttgtcctc tctgtgtcct 1020cactcaattt ctctgaggac acagatagga 1080agatgaaaga ggggtgggat ccacactgag 1140tccatgaagc actgagcaga agctggaggc 1200gagctgaaaa cataacccac tctgtcctgg 1260aggcactggg aagcctagag aaggctgtga gccaaggagg gagggtcttc ctttggcatg 1320

ggatggggat gaagtaagga gagggactgg accccctgga agctgattca ctatgggggg 1380

aggtgtattg aagtcctcca gacaaccctc agatttgatg atttcctagt agaactcaca 1440

gaaataaaga gctgttatac tgtg 1464

<210> 69

<211> 1793<212> DNA<213> humano<400> 69

cgcgtccgcc ccgcgagcac agagcctcgc ctttgccgat ccgccgcccg tccacacccg 60

ccgccagctc accatggatg atgatatcgc cgcgctcgtc gtcgacaacg gctccggcat 120

gtgcaaggcc ggcttcgcgg gcgacgatgc cccccgggcc gtcttcccct ccatcgtggg 180

gcgccccagg caccagggcg tgatggtggg catgggtcag aaggattcct atgtgggcga 240

cgaggcccag agcaagagag gcatcctcac cctgaagtac cccatcgagc acggcatcgt 300

caccaactgg gacgacatgg agaaaatctg gcaccacacc ttctacaatg agctgcgtgt 3 60

ggctcccgag gagcaccccg tgctgctgac cgaggccccc ctgaacccca aggccaaccg 420

cgagaagatg acccagatca tgtttgagac cttcaacacc ccagccatgt acgttgctat 480

ccaggctgtg ctatccctgt acgcctctgg ccgtaccact ggcatcgtga tggactccgg 540

tgacggggtc acccacactg tgcccatcta cgaggggtat gccctccccc atgccatcct 600

gcgtctggac ctggctggcc gggacctgac tgactacctc atgaagatcc tcaccgagcg 660

cggctacagc ttcaccacca cggccgagcg ggaaatcgtg cgtgacatta aggagaagct

gtgctacgtc gccctggact tcgagcaaga gatggccacg gctgcttcca gctcctccct

ggagaagagc tacgagctgc ctgacggcca ggtcatcacc attggcaatg agcggttccg

ctgccctgag gcactcttcc agccttcctt cctgggcatg gagtcctgtg gcatccacga

aactaccttc aactccatca tgaagtgtga cgtggacatc cgcaaagacc tgtacgccaa

720780840900960

cacagtgctg tctggcggca ccaccatgta ccctggcatt gccgacagga tgcagaagga 1020

gatcactgcc ctggcaccca gcacaatgaa gatcaagatc attgctcctc ctgagcgcaa 1080

gtactccgtg tggatcggcg gctccatcct ggcctcgctg tccaccttcc agcagatgtg 1140

gatcagcaag caggagtatg acgagtccgg cccctccatc gtccaccgca aatgcttcta 1200

ggcggactat gacttagttg cgttacaccc tttcttgaca aaacctaact tgcgcagaaa 1260

acaagatgag attggcatgg ctttatttgt tttttttgtt ttgttttggt tttttttttt 1320

tttttggctt gactcaggat ttaaaaactg gaacggtgaa ggtgacagca gtcggttgga 1380gcgagcatcc cccaaagttc acaatgtggc cgaggacttt gattgcacat tgttgttttt 1440

ttaatagtca ttccaaatat gagatgcatt gttacaggaa gtcccttgcc atcctaaaag 1500

ccaccccact tctctctaag gagaatggcc cagtcctctc ccaagtccac acaggggagg 1560

tgatagcatt gctttcgtgt aaattatgta atgcaaaatt tttttaatct tcgccttaat 1620

acttttttat tttgttttat tttgaatgat gagccttcgt gccccccctt cccccttttt 1680

gtcccccaac ttgagatgta tgaaggcttt tggtctccct gggagtgggt ggaggcagcc 1740

agggcttacc tgtacactga cttgagacca gttgaataaa agtgcacacc tta 17 93

<210> 70<211> 1526<212> DNA

<213> humano<400> 70

ccggaagtga cgcgaggctc tgcggagacc aggagtcaga ctgtaggacg acctcgggtc 60

ccacgtgtcc ccggtactcg ccggccggag cccccggctt cccggggccg ggggacctta 120

gcggcaccca cacacagcct actttccaag cggagccatg tctggtaacg gcaatgcggc 180

tgcaacggcg gaagaaaaca gcccaaagat gagagtgatt cgcgtgggta cccgcaagag 240

ccagcttgct cgcatacaga cggacagtgt ggtggcaaca ttgaaagcct cgtaccctgg 300

cctgcagttt gaaatcattg ctatgtccac cacaggggac aagattcttg atactgcact 360

ctctaagatt ggagagaaaa gcctgtttac caaggagctt gaacatgccc tggagaagaa 420

tgaagtggac ctggttgttc actccttgaa ggacctgccc actgtgcttc ctcctggctt

caccatcgga gccatctgca agcgggaaaa ccctcatgat gctgttgtct ttcacccaaa

atttgttggg aagaccctag aaaccctgcc agagaagagt gtggtgggaa ccagctccct

gcgaagagca gcccagctgc agagaaagtt cccgcatctg gagttcagga gtattcgggg

aaacctcaac acccggcttc ggaagctgga cgagcagcag gagttcagtg ccatcatcct

tgaggaatgc atgtatgctg tgggccaggg ggccttgggc gtggaagtgc gagccaaggaccaggacatc ttggatctgg tgggtgtgct gcacgatccc gagactctgc ttcgctgcatcgctgaaagg gccttcctga ggcacctgga aggaggctgc agtgtgccag tagccgtgca

480540600660720

ggcaacagct ggcctgcagc gcatgggctg gcacaaccgg gtggggcaga tcctgcaccc 780

840900960

tacagctatg aaggatgggc aactgtacct gactggagga gtctggagtc tagacggctc 1020

1080

agatagcata caagagacca tgcaggctac catccatgtc cctgcccagc atgaagatgg

ccctgaggat gacccacagt tggtaggcat cactgctcgt aacattccac gagggcccca 1140gttggctgcc cagaacttgg gcatcagcct ggccaacttg ttgctgagca aaggagccaa 1200aaacatcctg gatgttgcac ggcagcttaa cgatgcccat taactggttt gtggggcaca 12 60gatgcctggg ttgctgctgt ccagtgccta catcccgggc ctcagtgccc cattctcact 1320gctatctggg gagtgattac cccgggagac tgaactgcag ggttcaagcc ttccagggat 1380ttgcctcacc ttggggcctt gatgactgcc ttgcctcctc agtatgtggg ggcttcatct 1440ctttagagaa gtccaagcaa cagcctttga atgtaaccaa tcctactaat aaaccagttc 1500tgaaggtgta aaaaaaaaaa aaaaaa 1526

<210> 71<211> 2397<212> DNA<213> humano<4 00> 71

gcaagaactg aaacgaatgg ggattgaact gctttgcctg ttctttctat ttctaggaag 60

gaatgatcac gtacaaggtg gctgtgccct gggaggtgca gaaacctgtg aagactgcct 120

gcttattgga cctcagtgtg cctggtgtgc tcaggagaat tttactcatc catctggagt

cgaaaaccct gtctcccaag tagaaatact taaaaataag cctctcagtg taggcagacagaaaaatagt tctgacattg ttcagattgc gcctcaaagc ttgatcctta agttgagacc

tcatttatat gagaattacg caaaacttat tcctggagct acagtaggtc tacttcagaa

ggaactggaa gtattaggag acactgaagg actcaacttg tcatttacag ccatctgtaa

180

tggcgaaagg tgtgataccc cagcaaacct tttagctaaa ggatgtcaat taaacttcat 240

300360

aggtggtgcg cagactctgc aggtgcatgt ccgccagact gaggactacc cggtggattt 420

gtattacctc atggacctct ccgcctccat ggatgacgac ctcaacacaa taaaggagct 480

gggctcccgg ctttccaaag agatgtctaa attaaccagc aactttagac tgggcttcgg 540

atcttttgtg gaaaaacctg tatccccttt cgtgaaaaca acaccagaag aaattgccaa 600

cccttgcagt agtattccat acttctgttt acctacattt ggattcaagc acattttgcc

attgacaaat gatgctgaaa gattcaatga aattgtgaag aatcagaaaa tttctgctaa

tattgacaca cccgaaggtg gatttgatgc aattatgcaa gctgctgtgt gtaaggaaaa

aattggctgg cggaatgact ccctccacct cctggtcttt gtgagtgatg ctgattctca

ttttggaatg gacagcaaac tagcaggcat cgtcattcct aatgacgggc tctgtcactt

ggacagcaag aatgaatact ccatgtcaac tgtcttggaa tatccaacaa ttggacaact

660720780840900960

cattgataaa ctggtacaaa acaacgtgtt attgatcttc gctgtaaccc aagaacaagt 1020

1080

ggactccgga aacattctcc agctgatcat ctcagcttat gaagaactgc ggtctgaggt 1140

1200

caacggtacc ctcttccaac accaaaagaa atgctctcac atgaaagtgg gagacacagc 1260ttccttcagc gtgactgtga atatcccaca ctgcgagaga agaagcaggc acattatcat 1320

aaagcctgtg gggctggggg atgccctgga attacttgtc agcccagaat gcaactgcga 1380

ctgtcagaaa gaagtggaag tgaacagctc caaatgtcac cacgggaacg gctctttcca 1440

gtgtggggtg tgtgcctgcc accctggcca catggggcct cgctgtgagt gtggcgagga 1500

catgctgagc acagattcct gcaaggaggc cccagatcat ccctcctgca gcggaagggg 1560

tgactgctac tgtgggcagt gtatctgcca cttgtctccc tatggaaaca tttatgggcc 1620

ttattgccag tgtgacaatt tctcctgcgt gagacacaaa gggctgctct gcggaggtaa 1680

cggcgactgt gactgtggtg aatgtgtgtg caggagcggc tggactggcg agtactgcaa 1740

ctgcaccacc agcacggact cctgcgtctc tgaagatgga gtgctctgca gcgggcgcgg 1800

ggactgtgtt tgtggcaagt gtgtttgcac aaaccctgga gcctcaggac caacctgtga 18 60

acgatgtcct acctgtggtg acccctgtaa ctctaaacgg agctgcattg agtgccacct 1920

gtcagcagct ggccaagccc gagaagaatg tgtggacaag tgcaaactag ctggtgcgac 1980

catcagtgaa gaagaagatt tctcaaagga tggttctgtt tcctgctctc tgcaaggaga 2040

aaatgaatgt cttattacat tcctaataac tacagataat gaggggaaaa ccatcattca 2100

cagcatcaat gaaaaagatt gtccgaagcc tccaaacatt cccatgatca tgttaggggt 2160

ttccctggct attcttctca tcggggttgt cctactgtgc atctggaagc tactggtgtc 2220

atttcatgat cgtaaagaag ttgccaaatt tgaagcagaa cgatcaaaag ccaagtggca 2280

aacgggaacc aatccactct acagaggatc cacaagtact tttaaaaatg taacttataa 2340

acacagggaa aaacaaaagg tagacctttc cacagattgc tagaactact ttatgca 2397

<210> 72<211> 2118<212> DNA<213> humano<400> 72

tggggagccc aagcagaaac gcaagctggt ggctgaggtg tccctgcaga acccgctccc 60

tgtggccctg gaaggctgca ccttcactgt ggagggggcc ggcctgactg aggagcagaa 120

gacggtggag atcccagacc ccgtggaggc aggggaggaa gttaaggtga gaatggacct 180

gctgccgctc cacatgggcc tccacaagct ggtggtgaac ttcgagagcg acaagctgaa 240ggctgtgaag ggcttccgga atgtcatcat tggccccgcc taagggaccc ctgctcccag

cctgctgaga gcccccacct tgatcccaat ccttatccca agctagtgag caaaatatgc

300360

cccttcttgg gccccagacc ccagggcagg gtgggcagcc tatgggggct ctcggaaatg 420

gaatgtgccc ctggcccatc tcagcctcct gagcctgtgg gtccccactc accccctttg

480ctgtgaggaa tgctctgtgc cagaaacagtgggtgagaga ggaaagacct acattccctcgaccacccac catattgttt gatctacttcagcatgcccc ttggctggat cagggaatccccatgactgc acccagctcc aggggccctttaggcccaag gtcccctcca catcccagcatcaccattgt gaagcaccta ctatgtgctgggcctccaac ccatttaatc accatgggaaagactgaggc ttagagagag gaggcagccccaaggctggg taatgtgaag gcccaagagcgctccattta taaccccagc ctgacctgagcaaaaaaaga ctcagccaag acaaggaggtgccctggctg ggttcaggtc ccacgtctggtgtttccttg ttggtcagag gagtgattgaccatgtttgc aatgctttta tatggcccaggctccacgaa gccttaagcc ataggcccagaccaccttct gtccccagcc ctgtcctggtaccccagttc taggggagaa gagccctggatgcaatgcct agacttccca acagccttagtggcacccca gctacccctt ctttgcaggggaggaagctt ggggaaccca tgagttgtcatgactgggcc tcccttgggc tggaagaattcctccagggc cccccaaatc ccagggaaggaactttctgc tttgcacagg aaagagtcacacatagagct ctatttctct acggttttattgtgcttctg aaccgcaagg agcaaacactaaaaaaaaaa aaaaaaaaaa aaaaaaaaaaaaaaaaaaaa aaaaaaaa<210> 73

<211> 2832

<212> DNA<213> humano

gggagccctg accttggctg actggggctg 540

tcctgcccag atgccctttg gaaagccatt 600

atagctcctt ggagcaggca aaaaagggac 660

agctccctag actgcatccc gtacctcttc 720

gggacagcca gagctgggtg gggacagtga 780

gcccaagctt aatagccctc cccctcaacc 84 0

ggtgcctccc acacttgctg gggctcacgg 900

actgttgtgg gcgctgcttc caggataagg 960

cctccacacc agtggcctcg tggttattag 1020

agagtctggg cctctgactc tgagtccact 1080

actgtcggag aggctgtctg gggcctttat 1140

agagagggga ctgggggact gggagtcaga 1200

ccaggcactg ccttctcctc tctgggcctt 1260

accagctcat ctccaaggat cctctccact 1320

ccttgtaaat aaccacaagg tccactccct 1380

gatatttctg agagtgaaac catgactgtg 1440

tccttcctat gcccaggtac cacccttcag 1500

cacccctgct ctacccatga gcctgcccgc 1560

ctgccagtgc tggtcactaa ccaacaaggt 1620

ctaaggcccc caaacatagc ccctgccccg 1680

gctttgactt tatctcctgc tctttctaca 1740

ggggattctc tattggaggt gagatcacag 1800

acttggagag aatcatgctg ttgcatttag 1860

acaattaatc aacatgtata ttttctctat 1920

aaaagccttg ggttccaacc aggcagtaga 1980

gaaataaaat agtttatttt tcacactcaa 2040

aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 2100

2118<400> 73

aaagctcaaa ccgacaccct cacgcagatggtacacaatg tgatggagac tgttacgcagtcatttccct ccagtgtcac caacacactcacctccacag actccactct tggaaacacatctaccccag tgacctcagc agtctcaataacttcctgga ggacctctat ccaagacacaagcacgcaga ccaccaggga atctcaaaccccttctttct ctccaagtgt acacaatgtgtcaggtgaaa cagctacctc atccctctgtgagaagataa cagtgacaac ctccacaggctcagtacctg ttactggaag tcttatgccaccagaaggac aatcaccagc aactttctcatctaagaacc accagactca gagcgtggagaacaccctca caccggttac aacatcaactagtggaacag tttctcagga gacattccctagtgtcagca atacattcct ggtaacatcatctactcttg gaaacacaga ggagacatcaacttccaaag tttcaaccat atggtggtcatctctacctc caaaaatatc cacagctttcacaggacggc ctcatgagag gagctcattcctacatgaaa caacaacatg gccttcctcacaaacagaac tgccctcaac atcaacaggttctacaggga cagctggcac tattccaaggccaggagagc ccaccacata ctcctcccacggcgcccaga cacaatggac acaagaaacgccaagctaca gtgtgactca gatgataaaactggatagac acacatcaca acaaattacacattccacaa gcacctctcc tcaggaatcagccccgcaga ccacacaaga atcacaaaccaagacagtca ccaccccagg ttcttccttcgttcctcagg acgcacccac cataagtgca

atgacatcaa ctcttttttc ttccccaagt 60

gagacagctc ctccagatga aatgaccaca 120

atgatgacat caaagactat aacaatgaca 180

gaagagacat caacagcagg aactgaaagt 2 40

acagctggac aggaaggaca atcacgaaca 300

tcagcttctt ctcagaacca ctggactcgg 3 60

agcaccctaa cacacagaac cacttcaact 420

acagggactg tttctcagaa gacatctcct 4 80

agtgtcacaa acacatccat gatgacatca 540

tccactcttg gaaacccagg ggagacatca 600

gtcacctcag cagccttagt aacagttgat 660

aggacttcta ctcaggacac aacagctttt 720

accaccagag tatctcaaat caacaccctc 780

gttttatcct caccaagtgg attcaaccca 840

tctggtgaaa caaccatctc atccccttcc 900

aaggtgttca gaatgccaat ctccagagac 960

ctatctgtaa gtggaaccat ttctgcaatc 1020

gacactctgt caacagcact ctcccccagt 1080

cacacccagc agagtgaagg tgcagagacc 1140

tctccaggtg tgtctcaaga aatatttact 1200

ttctccagca aaggccacac aacttggtca 12 60

gctgccacta ggcttgtcac aggaaatcca 1320

gtcccctcta aggtctcagc aataggggaa 1380

agcacaactc tcccaaaaac aacaggggca 1440

gggaccactg gagaggctct tctcagcagc 1500

acggccacat ccccatcttc ttcacctatg 1560

acggcaccat caacaaatca ttcaacaata 1620

ccagctgttt cccaaagggg tcacactcaa 1680

acgaggtccg tctcccccat gactgacacc 1740

acagccagtg ggcactcgcc ctcagaaatt 1800

gcaacaacct ttgccccagc tcccaccggg 1860gatggtcaca caacccaggc cccgaccacagccaccctgg ggccctcagg aggcacgtcaaactctgtag tgtcaacacc agggggcccaacctcacctg acacagcagc agccatgacctctggacaaa cacagaccag cgaaccggccacagctaccc cttcctcatc cggggcgagttccacctcag gagagacgac aaggttttcacagtcaacaa ccgaattgct gtccgcctcaggaatggcgt cttcgatcgt ccccggcaccgcagggagac cgacaggaca gtcaagcccagccgccattt cccggatggc ccagactcagatcagcctgg cgtcccaggc aaccgacaccatcacatcca ctgggcttac atctccacaatctggtaaaa ccttcaccac ggccctcatcgcttcctcgg catccacagg tcacaccacctccacaggtc acgccacccc tcttcctgtcaccacccctc tt<210> 74<211> 1607<212> DNA

<213> humano<400> 74

aatgactcct ttcggtaagt gcagtggaagagcgtaggcg ggcgactcag atcccagccaaactggggtg accttggtta atattcaccactgcttaaat acggacgagg acagggccctctgggacagt gaatcgacaa tgccgtcttccctgtgctgc ctggtccctg tctccctggcgacagataca tcccaccatg atcaggatcaggctgagttc gccttcagcc tataccgccacttcttctcc ccagtgagca tcgctacagctgacactcac gatgaaatcc tggagggcct

131

gcactgcagg cagcacccag cagccatgat 1920ctttccaaaa caggtgccct tactctggcc 1980gaaggacaat ggacatcagc ctctgccagc 2040catacccacc aggctgagag cacagaggcc 2100tcctcagggt cacgaaccac ctcagcgggc 2160ggcacaacac cttcaggaag cgaaggaata 2220tcaaacccct ccagggacag tcacacaacc 2280gccagtcatg gtgccatccc agtaagcaca 2340tttcatccca ccctctctga ggcctccact 2400acttctccca gtgcctctcc tcaggagaca 2460aggacaagaa ccagcagagg gtctgacact 2520ttctcaacag tcccacccac acctccatcg 2580acccagaccc acactctgtc accttcaggg 2640agcaacgcca cccctcttcc tgtcacctac 2700cctcttcatg tcaccgatgc ttcctcagta 2760accagccctt cctcagtatc cacaggtcac 2820 2832ctgtacactg cccaggcaaa gcgtccgggc 60gtggacttag cccctgtttg ctcctccgat 120gcagcctccc ccgttgcccc tctggatcca 180gtctcctcag cttcaggcac caccactgac 240tgtctcgtgg ggcatcctcc tgctggcagg 300tgaggatccc cagggagatg ctgcccagaa 360cccaaccttc aacaagatca cccccaacct 420gctggcacac cagtccaaca gcaccaatat 480ctttgcaatg ctctccctgg ggaccaaggc 540gaatttcaac ctcacggaga ttccggaggc 600tcagatccat gaaggcttcc aggaactcct ccgtaccctc aaccagccag acagccagct 660

ccagctgacc accggcaatg gcctgttcct cagcgagggc ctgaagctag tggataagtt 720

tttggaggat gttaaaaagt tgtaccactc agaagccttc actgtcaact tcggggacac 780

cgaagaggcc aagaaacaga tcaacgatta cgtggagaag ggtactcaag ggaaaattgt 840

ggatttggtc aaggagcttg acagagacac agtttttgct ctggtgaatt acatcttctt 900

taaaggcaaa tgggagagac cctttgaagt caaggacacc gaggaagagg acttccacgt 960

ggaccaggtg accaccgtga aggtgcctat gatgaagcgt ttaggcatgt ttaacatcca 1020

gcactgtaag aagctgtcca gctgggtgct gctgatgaaa tacctgggca atgccaccgc 1080

catcttcttc ctgcctgatg aggggaaact acagcacctg gaaaatgaac tcacccacga 1140

tatcatcacc aagttcctgg aaaatgaaga cagaaggtct gccagcttac atttacccaa 1200

actgtccatt actggaacct atgatctgaa gagcgtcctg ggtcaactgg gcatcactaa 12 60

ggtcttcagc aatggggctg acctctccgg ggtcacagag gaggcacccc tgaagctctc 1320

caaggccgtg cataaggctg tgctgaccat cgacgagaaa gggactgaag ctgctggggc 1380

catgttttta gaggccatac ccatgtctat cccccccgag gtcaagttca acaaaccctt 1440

tgtcttctta atgattgaac aaaataccaa gtctcccctc ttcatgggaa aagtggtgaa 1500

tcccacccaa aaataactgc ctctcgctcc tcaacccctc ccctccatcc ctggccccct 1560

ccctggatga cattaaagaa gggttgagct ggtccctgcc tgcaaaa 1607<210> 75<211> 1753<212> DNA

<213> humano<400> 75

cagccccgcc cctacctgtg gaagcccagc cgcccgctcc cgcggataaa aggcgcggag 60

tgtccccgag gtcagcgagt gcgcgctcct cctcgcccgc cgctaggtcc atcccggccc 120

agccaccatg tccatccact tcagctcccc ggtattcacc tcgcgctcag ccgccttctc 180

gggccgcggc gcccaggtgc gcctgagctc cgctcgcccc ggcggccttg gcagcagcag 240

cctctacggc ctcggcgcct cacggccgcg cgtggccgtg cgctctgcct atgggggccc 300

ggtgggcgcc ggcatccgcg aggtcaccat taaccagagc ctgctggccc cgctgcggct 3 60

ggacgccgac ccctccctcc agcgggtgcg ccaggaggag agcgagcaga tcaagaccct 420

caacaacaag tttgcctcct tcatcgacaa ggtgcggttt ctggagcagc agaacaagct 480

gctggagacc aagtggacgc tgctgcagga gcagaagtcg gccaagagca gccgcctccc 540

agacatcttt gaggcccaga ttgctggcct tcggggtcag cttgaggcac tgcaggtgga 600tgggggccgc ctggaggcgg agctgcggagtaagtacgaa gatgaaatta accaccgcacgaaggatgtg gatgctgcct acatgagcaagaatgatgag atcaacttcc tcaggaccctccagatctcc gacacatctg tggtgctgtccggcatcatc gctgaggtca aggcgcagtaggctgaagcc tggtaccaga ccaagtttgaggacgacctc cggaataccc ggaatgagatgcaggctgag atcgacaaca tcaagaaccaggctgaggag cgtggggagc tggcgctcaaagccgccctg cagcggggca agcaggatatcatgagcgtg aagctggccc tggacatcgacgaggagagc cggttggctg gagatggagtcactggtggc agtagcagtg gcggtggcatcaatgccctg agcttctcca gcagtgcggggaccgcatcc gccagtcgca ggagtgcccgtccagccacc acccacaatc acaagaagatagacagtgag acagtctgga aagtgatgtctgaggcctga gtgatccacg tgaaaaaaaa

20 aaaaaaaaaa aaa<210> 76<211> 2255<212> DNA<213> humano

25 <4 00> 76

gatggctccg gccgcctggc tccgcagcgc

gctgctgctg ctccagccgc cgccgctgct

cctccatgcc gagaggaggg ggccacagcc

acctgcccct gccacgcagg aagccccccg

30 tggcgtgccc gacccatctg atgggctgag

ttctggcggg cgctgggaga agacggacct

gttggtgcag gagcaggtgc ggcagacgat

133 catgcaggat gtggtggagg acttcaagaa 660agctgctgag aatgagtttg tggtgctgaa 720ggtggagctg gaggccaagg tggatgccct 780caatgagacg gagttgacag agctgcagtc 840catggacaac agtcgctccc tggacctgga 900tgaggagatg gccaaatgca gccgggctga 960gaccctccag gcccaggctg ggaagcatgg 1020ttcagagatg aaccgggcca tccagaggct 1080gcgtgccaag ttggaggccg ccattgccga 1140ggatgctcgt gccaagcagg aggagctgga 1200ggcacggcag ctgcgtgagt accaggaact 1260gatcgccacc taccgcaagc tgctggaggg 1320gggagccgtg aatatctctg tgatgaattc 1380tgggctgacc ctcgggggaa ccatgggcag 1440tcctgggctc ctgaaggctt attccatccg 1500cgactgagcc gcctcccacc actccactcc 1560tcccacccct gcctcccatg cctggtccca 1620agaatagctt ccaataaagc agcctcattc 1680aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1740 1753ggccgcgcgc gccctcctgc ccccgatgct 60ggcccgggct ctgccgccgg acgcccacca 120ctggcatgca gccctgccca gtagcccggc 180gcctgccagc agcctcaggc ctccccgctg 240tgcccgcaac cgacagaaga ggttcgtgct 300cacctacagg atccttcggt tcccatggca 360ggcagaggcc ctaaaggtat ggagcgatgt 420gacgccactc acctttactg aggtgcacgacaggtactgg catggggacg acctgccgttcttctccccc aagactcacc gagaaggggatatcggggat gaccagggca cagacctgctgctggggctg cagcacacaa cagcagccaactacccactg agtctcagcc cagatgactgctggcccact gtcacctcca ggaccccagctgagattgca ccgctggagc cagacgccccggtctccacc atccgaggcg agctcttttttgggggccag ctgcagcccg gctacccagccagccctgtg gacgctgcct tcgaggatgctcagtactgg gtgtacgacg gtgaaaagccgggcctggtg aggttcccgg tccatgctgcctacttcttc cgaggcaggg actactggcgtcccgtgccc cgcagggcca ctgactggagccaggatgct gatggctatg cctacttccttgtgaaggtg aaggctctgg aaggcttccctgccgagcct gccaacactt tcctctgacccctgccaggc cacgaatatc aggctagagaaggcatggga ctgagcccat gtctcctcag

aactgccggg agggccacgc aggtcgtggtgggaggcttt ggcatgactt aagaggaaggcaaacctggc tgccctgtct ccatccctgtggaactggag tgtccttgct gtatccctgtagcaagggtg ctggggcccc atggccttcagggccacttc ctgaggtcag gtcttggtagaatcctggaa atctgttctc cagaatccaggtattcttca tgcaggagac cccaggccctaggccggatc ctcctgaagc ccttttcgcagtgtgtacag tgtgtataaa ccttcttcttttaaacacag ttgttttcta aaaaaaaaaa

<210> 77

gggccgtgct gacatcatga tcgacttcgc 480

tgatgggcct gggggcatcc tggcccatgc 540

tgtccacttc gactatgatg agacctggac 600

gcaggtggca gcccatgaat ttggccacgt 660

ggccctgatg tccgccttct acacctttcg 720

caggggcgtt caacacctat atggccagcc 780

cctgggcccc caggctggga tagacaccaa 840

gccagatgcc tgtgaggcct cctttgacgc 900

cttcaaagcg ggctttgtgt ggcgcctccg 960

attggcctct cgccactggc agggactgcc 1020

ccagggccac atttggttct tccaaggtgc 1080

agtcctgggc cccgcacccc tcaccgagct 1140

cttggtctgg ggtcccgaga agaacaagat 1200

tttccacccc agcacccggc gtgtagacag 1260

aggggtgccc tctgagatcg acgctgcctt 1320

gcgcggccgc ctctactgga agtttgaccc 1380

ccgtctcgtg ggtcctgact tctttggctg 1440

atggcttgga tgccctcagg ggtgctgacc 1500

cccatggcca tctttgtggc tgtgggcacc 1560

ggggatgggg tggggtacaa ccaccatgac 1620

cacctgccag cgactgtctc agactgggca 1680

gcagtcttgg gcccgctatg caggtcctgg 1740

ccctcagggt agcaccatgg caggactggg 1800

tgtgaggttc cttccagggg ctggcactga 18 60

gccctggctg agcaactggg ctgtagggca 1920

gtgcctgcat ctgtctgcct tctggctgac 1980

gccaaaaagt tcacagtcaa atggggaggg 2040

ggaggctgca acatacctca atcctgtccc 2100

gcactgctat cctccaaagc cattgtaaat 2160

cttttttttt ttttaaactg aggattgtca 2220

aaaaa 2255<211> 462<212> DNA<213> humano<400> 77

agctctattg ccaccatgag tttctccggcgaagccttca tgaaggcaat cggtctgccgaagggggtgt cggaaatcgt gcagaatgggtccaaagtga tccaaaacga attcacggtgggggagaaag tcaagacagt ggttcagttgaaaaacatca agtctgtgac cgaactcaacggtgacattg tcttcaagag aatcagcaagttttagtgtg taaaattaat gtaataaagt

<210> 78<211> 2108<212> DNA

<213> humano<400> 78

gggaccgcct cggaggcaga agagccgcgacagccacccg ccgctcctcg agtcccctcgccagcgtcgg tccccaggca gcatggtgaggtgagctacc tcctggacaa ggacgtgagcggcctcaacc tggcgccgca gaacttcgtctaccacgtgg cggccgcagc tgcagcggcaccatcctggc cggcagcgta tggcgccccaggaggcgccg cggccgccgc caacgccgtggcagccatgg gctacagcag ccccgcagacccgcaccacc cggccgccgc gccttcctgcggccctcctg ggcccgccgc caccgctgcccggaacctgt gcgagtggat gcggaagccgaccaggacga aagacaaata tcgagtggtgaaggagtttc actacagtcg ctacatcaccctggggctct ctgagaggca ggttaaaatc

aagtaccaac tgcagagcca ggaaaacttt 60

gaagagctca tccagaaggg gaaggatatc 120

aagcacttca agttcaccat caccgctggg 180

ggggaggaat gtgagctgga gacaatgaca 240

gaaggtgaca ataaactggt gacaactttc 300

ggcgacataa tcaccaatac catgacattg 360

agaatttaaa caagtctgca tttcatatta 420

gaactttgtt tt 462

ggagccagcg gagcaccgcg ggctggggcg 60

cccctttccc ttcgtgcccc ccggcagcct 120

gtctgctccc ggaccctcgc caccatgtac 180

atgtacccta gctccgtgcg ccactctggc 240

agccccccgc agtacccgga ctacggcggt 300

gcgaacttgg acagcgcgca gtccccgggg 360

ctccgggagg actggaatgg ctacgcgccc 420

gctcacggcc tcaacggtgg ctccccggcc 480

taccatccgc accaccaccc gcatcaccac 540

gcttctgggc tgctgcaaac gctcaacccc 600

gccgagcagc tgtctcccgg cggccagcgg 660

gcgcagcagt ccctcggcag ccaagtgaaa 720

tacacggacc accagcggct ggagctggag 780

atccggagga aagccgagct agccgccacg 840

tggtttcaga accgcagagc aaaggagagg 900aaaatcaaca agaagaagtt gcagcagcaaccgccaccac agcctcccca gcctcagccaagtccggtgt cttccctgca agcctcagtgactggggggg tgctaaaccc caccgtcaccgcaattccag gctgagccat gaggagcgtgtcccctccca cccacagcca tagacctacaaggagtaaga caagtgggat ttggggcctcttcccatctg gctttttctg ccactgaggagactggcaga agcattgcct ggactgaccactcttctctt cctagatctg caggctacactcaagggaaa ggcaagcttg aggccaagatccagctgggc ctcctgcctc cgggcaggcaaagatagaaa gctggactga ccaaagactgctcttccctt cccagaccag gaaaggcttggggtggttat tggactccag gcctgaccagctgtcaccag agcttctctg ggctgaatgttggacttcct gtcattttca caatcttgggtgttgttgtt gctgctgttt gggttgttggagccttctgg atccatgggg ggagaagtga

cacagttgaa ttttttctaa aaagaaaaagaaaaaaaa<210> 79<211> 3745<212> DNA<213> humano<400> 79

cgcaaagcaa gtgggcacaa ggagtatggtctgttggact tggctttgtg gtcactgctccaggtgagtc agaactgcca caatggcagctcagcctttg cagagcccct gaaaaacttggtgagaggac gtctgcaaaa tgctggcctatcggatggtc tgattcataa ctcaggcgac

cagcagcagc agccaccaca gccgcctccg 960

ggtcctctga gaagtgtccc agagcccttg 1020

tctggctctg tccctggggt tctggggcca 1080

cagtgaccca ccggggtctg cagcggcaga 1140

gactctgcta gactcctcag gagagacccc 1200

gacctggctc tcagaggaaa aatgggagcc 12 60

aagaaatata ctctcccaga tttttacttt 1320

gacagaaagc ctccgctggg cttcattccg 1380

caccaaccag gccttcatcc tcctccccag 1440

ctctggctag agccgagggg agagagggac 1500

ggctgctgcc tgctcatggc cctcggaggt 1560

aggtttacac tgcggaagcc aaaggcagct 1620

cagaaccccc aggtggcctg cgtctttttt 1680

gctggtgtat gcacagggtg tggtatgagg 1740

ggggcccgaa cagggacttg tttagagagc 1800

atgtcagtgc tataaatgcc agagccaacc 1860

gctgatgaag aagggggtgg ggggagtttg 1920

tctgtgtaac atccaagcca gagtttttaa 1980

tatggtgaag ggaagtgggg agtatttgaa 2040

agataaatga gctttccaga aaaaaaaaaa 2100

2108

tctaacgtga ttggggtcat gaagacgttg 60

ttccagcccg ggtggctgtc ctttagttcc 120

tatgaaatca gcgtcctgat gatgggcaac 180

gaagatgcgg tgaatgaggg gctggaaata 240

aatgtgactg tgaacgctac tttcatgtat 300

tgccggagta gcacctgtga aggcctcgac 360ctactcagga aaatttcaaa tgcacaacgg atgggctgtg tcctcatagg gccctcatgt 420 acatactcca ccttccagat gtaccttgac acagaattga gctaccccat gatctcagct 480 ggaagttttg gattgtcatg tgactataaa gaaaccttaa ccaggctgat gtctccagct 540 agaaagttga tgtacttctt ggttaacttt tggaaaacca acgatctgcc cttcaaaact 600 tattcctgga gcacttcgta tgtttacaag aatggtacag aaactgagga ctgtttctgg 660 taccttaatg ctctggaggc tagcgtttcc tatttctccc acgaactcgg ctttaaggtg 720 gtgttaagac aagataagga gtttcaggat atcttaatgg accacaacag gaaaagcaat 780 gtgattatta tgtgtggtgg tccagagttc ctctacaagc tgaagggtga ccgagcagtg 840 gctgaagaca ttgtcattat tctagtggat cttttcaatg accagtactt ggaggacaat 900 gtcacagccc ctgactatat gaaaaatgtc cttgttctga cgctgtctcc tgggaattcc 960 cttctaaata gctctttctc caggaatcta tcaccaacaa aacgagactt tgctcttgcc 1020 tatttgaatg gaatcctgct ctttggacat atgctgaaga tatttcttga aaatggagaa 1080 aatattacca cccccaaatt tgctcatgct ttcaggaatc tcacttttga agggtatgac 1140 ggtccagtga ccttggatga ctggggggat gttgacagta ccatggtgct tctgtatacc 1200 tctgtggaca ccaagaaata caaggttctt ttgacctatg atacccacgt aaataagacc 1260 tatcctgtgg atatgagccc cacattcact tggaagaact ctaaacttcc taatgatatt 1320 acaggccggg gccctcagat cctgatgatt gcagtcttca ccctcactgg agctgtggtg 1380 ctgctcctgc tcgtcgctct cctgatgctc agaaaatata gaaaagatta tgaacttcgt 1440 cagaaaaaat ggtcccacat tcctcctgaa aatatctttc ctctggagac caatgagacc 1500 aatcatgtta gcctcaagat cgatgatgac aaaagacgag atacaatcca gagactacga 1560 cagtgcaaat acgacaaaaa gcgagtgatt ctcaaagatc tcaagcacaa tgatggtaat 1620 ttcactgaaa aacagaagat agaattgaac aagttgcttc agattgacta ttacaacctg 1680 accaagttct acggcacagt gaaacttgat accatgatct tcggggtgat agaatactgt 1740 gagagaggat ccctccggga agttttaaat gacacaattt cctaccctga tggcacattc 1800 atggattggg agtttaagat ctctgtcttg tatgacattg ctaagggaat gtcatatctg 1860 cactccagta agacagaagt ccatggtcgt ctgaaatcta ccaactgcgt agtggacagt 1920 agaatggtgg tgaagatcac tgattttggc tgcaattcca ttttacctcc aaaaaaggac 1980 ctgtggacag ctccagagca cctccgccaa gccaacatct ctcagaaagg agatgtgtac 2040 agctatggga tcatcgcaca ggagatcatt ctgcggaaag aaaccttcta cactttgagc 2100 tgtcgggacc ggaatgagaa gattttcaga gtggaaaatt ccaatggaat gaaacccttc 2160 cgcccagatt tattcttgga aacagcagag gaaaaagagc tagaagtgta cctacttgta 2220 aaaaactgtt gggaggaaga tccagaaaag agaccagatt tcaaaaaaat tgagactaca 2280cttgccaaga tatttggact ttttcatgac

atccgacgtc tacagctata ttctcgaaacctgtacaagg cagagaggga cagggctgacgtggtaaagt ctctgaagga gaaaggctttatctacttca gtgacattgt aggtttcactgtggtggaca tgcttaatga catctataaggtctacaagg tggaaaccat cggtgatgcgaatggcaatc ggcatgcaat agacattgccgggacctttg agctggagca tcttcctggc

tctggtccct gtgctgctgg agttgtgggagatacggtca acacagcctc taggatggaaagtggctcca ccatagccat cctgaagagaggagaaacat acttaaaggg aagaggaaatgaccagaaat tcaacctgcc aacccctcctgaattttcag acatgattgc caactctttacaaaaaccca gacgggtagc cagctataaaaccacagaca aggagagcac ctatttttaattaaaataca gctgcactga ggcagcgaccagacctcaat gaagcagaaa tgtacttaggcttgcatgaa tcagatgtgt gttctcagtgtccagcagtt gttccaggga gcttctacctgaacttgaga agattttatt cttatttcatttgtttactg gctttccttc tgtattcataaaatacccat cttcattaaa gtatatttaaattaggcaag aataaaagct aaagg<210> 80<211> 901<212> DNA<213> humano

<400> 80

agccccaaac tcaccacctg gccgtggacaccatcgcctt gtctgtgggg tgcactggtg

caaaaaaatg aaagctatat ggataccttg 2340

ctggaacatc tggtagagga aaggacacag 2400

agacttaact ttatgttgct tccaaggcta 2460

gtggagccgg aactatatga ggaagttaca 2520

actatctgca aatacagcac ccccatggaa 2580

agttttgacc acattgttga tcatcatgat 2640

tacatggtgg ctagtggttt gcctaagaga 2700

aagatggcct tggaaatcct cagcttcatg 2760

ctcccaatat ggattcgcat tggagttcac 2820

atcaagatgc ctcgttattg tctatttgga 2880

tccactggcc tccctttgag aattcacgtg 2940

actgagtgcc agttccttta tgaagtgaga 3000

gagactacct actggctgac tgggatgaag 3060

actgtggaga atcaacagcg tttgcaagca 3120

cagaaaagac aggcagcagg gataagaagc 3180

aaaggcactc tggaatactt gcagctgaat 3240

acctaaatga ggtataagga ctcacacaaa 3300

tcaagtgtcc tgaaagctta cattttcctg 3360

cttggctgcc ctgtctggaa catggacttt 3420

aaataactac cttccactct ggaaccttat 3480

ggaaaagaaa agaaatgaat agactatcta 3540

ttattttttg tttgtttatt tttatcgttt 3600

agatttttta aattgtcata attatatttt 3660

ctcataattt ttgcagaaaa tatgctatat 3720

3745

cctgtgtcag catgtgggac ctggttctct 60

ccgtgcccct catccagtct cggattgtgg 120acaaagctca ggacaacact cggaagatca taataaagaa ttttgacatt cccaagtcag

tacgtccaaa tgacgaagtc actgcagtgc ttgcagttca aacagaattg aaagaatgca

tggtggttaa aacttacctc attagcagca tccctctaca aggtgcattt aactataagt

atactgcctg cctatgtgac gacaatccaa aaaccttcta ctgggacttt tacaccaaca

atgctgctgt aatccccatc aaaaacaacc ggttttatac tattgaaatc ctaaaggtag

300360

gaggctggga gtgtgagaag cattcccaac cctggcaggt ggctgtgtac agtcatggat 180

gggcacactg tgggggtgtc ctggtgcacc cccagtgggt gctcacagct gcccattgcc 240

taaagaagaa tagccaggtc tggctgggtc ggcacaacct gtttgagcct gaagacacag

gccagagggt ccctgtcagc cacagcttcc cacacccgct ctacaatatg agccttctga

agcatcaaag ccttagacca gatgaagact ccagccatga cctcatgctg cttcgcctgt 420

cagagcctgc caagatcaca gatgttgtga aggtcctggg cctgcccacc caggagccag 480

cactggggac cacctgctac gcctcaggct ggggcagcat cgaaccagag gagttcttgc 54 0

gccccaggag tcttcagtgt gtgagcctcc atctcctgtc caatgacatg tgtgctagag 600

cttactctga gaaggtgaca gagttcatgt tgtgtgctgg gctctggaca ggtggtaaag 660

acacttgtgg gggtgattct gggggtccac ttgtctgtaa tggtgtgctt caaggtatca 72 0

catcatgggg ccctgagcca tgtgccctgc ctgaaaagcc tgctgtgtac accaaggtgg

tgcattaccg gaagtggatc aaggacacca tcgcagccaa cccctgagtg cccctgtccc

acccctacct ctagtaaatt taagtccacc tcaaaaaaaa aaaaaaaaaa aaaaaaaaaa 900a 901

<210> 81<211> 618<212> DNA<213> humano<400> 81

ggggaccact tctctgggac acattgcctt ctgttttctc cagcatgcgc ttgctccagc

780840

60

tcctgttcag ggccagccct gccaccctgc tcctggttct ctgcctgcag ttgggggcca 120

180240300360

gaactgtgca aattgcagcc gtcgttgatg ttattcggga attaggcatc tgccctgatg 420

480

aataatggaa gccctgtctg tttgccacac ccaggtgatt tcctctaaag aaacttggct 540ggaatttctg ctgtggtcta taaaataaac ttcttaacat gcttctacaa aaaaaaaaaa 600aaaaaaaaaa aaaaaaaa 618

<210> 82<211> 594<212> DNA<213> humano<400> 82

gtcggtttag gactttctgc ctccactattacatctgtca cgaccttcca tagcctatattcacaaactt tatcagtcct ccaggcccaaaaccgccgag gccttgactt acttactgctgaggagtgtt gtttttacat aaatcaatctaaggatagag cccaaaaact taccaaccaactccctaatt gggtgtcctg ggtcctcccactccttttat tcagaccttg tatcttctgtcaggccatca ccaatcattc tatacgacaacccttaccac aagacctccc ttcaacttaa

<210> 83

<211> 1372

<212> DNA<213> humano<400> 83

gaattcggcg atgcctcaca actccatcag

aggggccttt gtgaatggca gacctctgcc

ggcccaccag ggtgtaaggc cctgcgacat

cgtcagcaag atccttggca ggtactacga

gggctccaag cccaaggtgg ccacccccaa

ccagaaccct accatgtttg cctgggagat

tgacaatgac actgtgccca gtgtcagctc

gcaaccattc aacctcccta tggacagctg

cacgctgatc cccagctcag ctgtaactcc

ctccacctac tccatcaatg ggctcctggg

aatggatgac agtgatcagg atagctgccg

cggaccccga aagcaccttc gcacggatgc

gtgcccattt gagcggcagc actacccaga

cgagcagggc ctctacccgc tgcccttgct

gctatcggta ctggaatagc aggcatttca 60

aatgacttat ctgctagcat cacagacata 120

gttgaatctt tagctgcagt tgtcctccaa 180

taaagaggag gactctgcat attcttaaat 240

ggcctggtgt atgacaacat aaaaaaattc 300

gcaagtaatt tcactgaacc cccttgggca 360

attcttagtc ctttaatacc catttttctc 420

ttagcttctc aattcatcca aaaccatatc 480

atgtttctta taacatcccc acaatatcac 540

tctctcccga tataggttcc caca 594

atctggccat ggagggctga accagctggg 60

ggaagtggtc cgccagcgca tcgtagacct 120

ctctcgccag ctccgcgtca gccatggttg 180

gactggcagc atccggcctg gagtgatagg 240

ggtggtggag aagattgggg actacaaacg 300

ccgagaccgg ctcctggctg agggcgtctg 360

cattaataga atcatccgga ccaaagtgca 420

cgtggccacc aagtccctga gtcccggaca 480

cccggagtca ccccagtcgg attccctggg 540

catcgctcag cctggcagcg acaagaggaa 600

actaagcatt gactcacaga gcagcagcag 660

cttcagccag caccacctcg agccgctcga 720

ggcctatgcc tcccccagcc acaccaaagg 780

caacagcacc ctggacgacg ggaaggccac 840cctgacccct tccaacacgc cactggggcg caacctctcg actcaccaga cctaccccgt 900ggtggcagat cctcactcac ccttcgccat aaagcaggaa acccccgagg tgtccagttc 960tagctccacc ccttcctctt tatctagctc cgcctttttg gatctgcagc aagtcggctc 1020cggggtcccg cccttcaatg cctttcccca tgctgcctcc gtgtacgggc agttcacggg 1080ccaggccctc ctctcagggc gagagatggt ggggcccacg ctgcccggat acccacccca 1140catccccacc agcggacagg gcagctatgc ctcctctgcc atcgcaggca tggtggcagg 1200aagtgaatac tctggcaatg cctatggcca caccccctac tcctcctaca gcgaggcctg 1260gcgcttcccc aactccagct tgctgagttc cccatattat tacagttcca catcaaggcc 1320gagtgcaccg cccaccactg ccacggcctt tgaccatctg tagttgaagç tt 1372

cggaccccga aagcaccttc gcacggatgc cttcagccag caccacctcg agccgctcga 720

gtgcccattt gagcggcagc actacccaga ggcctatgcc tcccccagcc aeaccaaagg 780

cgagcagggc ctctacccgc tgcccttgct caacagcacc ctggacgacg ggaaggccac 840

cctgacccct tccaacacgc cactggggcg caacctctcg actcaccaga cctaccccgt 900

ggtggcagat cctcactcac ccttcgccat aaagcaggaa acccccgagg tgtccagttc 960

tagctccacc ccttcctctt tatctagctc cgcctttttg gatctgcagc aagtcggctc 1020

cggggtcccg cccttcaatg cctttcccca tgctgcctcc gtgtacgggc agttcacggg 1080

ccaggccctc ctctcagggc gagagatggt ggggcccacg ctgcccggat acccacccca 1140

catccccacc agcggacagg gcagctatgc ctcctctgcc atcgcaggca tggtggcagg 1200

aagtgaatac «ictggcaatg cctatggcca caccccctac tcctcctaca gcgaggcctg 1260

gcgcttcccc aactccagct tgctgagttc cccatattat tacagttcca catcaaggcc 1320

gagtgcaccg cccaccactg ccacggcctt tgaccatctg tagttgaagç .tt 1372<210> 84

<211> 2983

<212> DNA

<213> humano

<400> 84 gcccagatag gggagcggag gtggcggcgg cggcggtagc ggtggccttg gttgtcttcc 60agtctcctcg gctcgccctt tagccggcac cgctcccctt ccctccccct tcctctcttc 120CttCCttCCC tccccttccc tttttccctt ccccgtcggt gagcggcggg ggtggctcca 180gcaacggctg ggcccaagct gtgtagaggc cttaaccaac gataacggcg gcgacggcga 240aacctcggag ctcgcagggc gggggcaagg cccgggcctt ggagatggag aattctcagt 300tgtgtaagct gttcatcggc ggcctcaatg tgcagacgag tgagtcgggc ctgcgcggcc B 60actttgaggc ctttgggact ctgacggact gcgtggtggt ggtgaatccc cagaccaagc 420gctcccgttg ctttggcttc gtgacctact ccaatgtgga ggaggcggac gccgccatgg 480ccgcctcgcc ccatgccgtg gacggcaaca ctgtggagct gaagcgggcg gtgtcccggg 540aggattcggc gcggcccggt gcccacgcca aggttaagaa gctctttgtc ggaggcctta 600aaggagacgt ggctgagggc gacctgatcg agcacttctc gcagtttggc accgtggaaa 660aggccgagat tattgccgac aagcagtccg gcaagaagcg tggattcggc ttcgtgtatt 720tccagaatca cgacgcggca gacaaggccg cggtggtcaa gttccatccg attcagggcc 780atcgcgtgga ggtgaagaaa gcagtcccca aggaggatat ctactccggt gggggtggag 840•gcggctcccg atectcccgg ggcggccgag gcggccgggg gcgcggcggt ggtcgagacc 900agaacggcct ttccaagggc ggcggcggcg gttacaacag ctacggtggt tacggcggcg 960gcggaggcgg cggctacaat gcctacggag gcggcggcgg cggttcgtcc tacggtggga 1020

gcgactacgg taacggcttc ggcggcttcg gcagctacag ceagcatcag tcctcctatg 1080

ggcccatgaa gagcggcggc ggcggcggcg gtggaggcag tagctggggc ggtcgcagta 1140

atagtggacc ttacagaggc ggctatggcg gtgggggtgg ctatggaggc agctccttct 1200

aaaagaaaat ttaaaatgcc tgggagtggc tataggggta gctctttcca acagcccaag 1260

tggggtcaac tcctaagccc caccccctca cacacaccgc cttccctgtt ttgcccttgg 1320

gggagccact tctaaggctg cttacccttg ggggtgttcc tçtatttgcc tgccacctct 1380

cttgtctctc cctctgaaga tggactcggc cccacataca catttttgtg ttacagtcat 1440

tgatggactc tattttttta ttattacttg gaccttggtc gtttttatac tagcaaaatg 1500

tcttgtttta atttgtgttt tttgggggga gggagggagt gaacttgctg attctgtagc 1560

aaaacctggg tgggggttgg ggtggggggt agtttacttt gttgtaagga cttgataacc 1620

tggctacagc gttttctatg aaatctactt ggatçccatg cctgaaattt ggaagcatat 1680

gtacaaaaat catttttacg ttttàttttt aataaatcat tgtgtttgac cgtacatgtc 1740

taacattttt tttctaggat ccattccgta ccgtttttta agggatattt gtttaagact 1800

ttacgtgtta attctttatt cttgatgtgt acttagagaa acttaagagg tcctgtggtt 1860

tttttcccct ctcctgttgc cctgctagtt gcgtgttgaa ttatatccct tacaggcaaa 1920

acttttgaag tggtggatgt ggctttttaa actcttaagt ttctgtgcat ccatctcttg 1980

tactaagcga attgtttatc atcttgacat ggttggtcat ttctatgáca atttacttca 2040

aactgtgtac tgtgtagttc tatatagttt gtgttaagca tgtcattcat ataaactgtt 2100

taaaattttt cagatggcct agtttcatcc ctcttactgg tttgtctgta atgaatggtt 2160

aaaaatàagg gttatatttt accctcaaat gcgtttttgt actttcagag caggtttaaa 2220

cgtttttttt ttttttttcc tatatccgaa ctgttggcct catggaaatc cctttcccga 2280

tctttgtagc accatctact ggcagaatgg cagagtagct gcgaaacaat ttgtttaaaa 2340

acttgcttaa gacaattgca tcagatttgg aagttttgcc atcaaaattc tttgcagaat 2400

tggaagttaa cacàtttgct tgtaactgag atgggcttca caggaatgta gttgccagtt 2460

catatcacaa tagccctttc tatatgaggt ttgaaaatgt aaactgctat gcatagcttg 2S20

ggcaatagcc ctaaattgct atgacaacta atgaaccagc tacgtatact ggtattttag 2S80

gtgcaagttg taaagcaaaa tatctgtgta ttctgcttgg ttaacaaatg tatatttgta 2640

gccctttcct gcaatagcat tcaagttgtt gtttataaga gaagaacaaa agtgataata 2700

ggtgaaaatt gcctttctgg atagaaatag agaatagcaa cgtttatgga tatcacaaat 2760

aaagaattca attctttaca tgattgagtg agagtatgta taacctggtg ggtgggttca 2820

gagtaccttt taatctagta tgcttaactt gatgttaata tttaacttaa atatttgact 2880

tacatgttga cgttgaaggc tcaaagctat actaagaagc tttctgaaag attgggcttt 2940

aaaataaaat aatattttaa tattgaaaaa aaaaaaaaaa aaa 2983<210> 85

<211> 3345

<212> DNA

<213> humano

<400> 85

gaattccgtc tcgaccactg aatggaagaacagaaaggaa tttgaataáa gaaaa.ctatgcttcttatgc tttatttggc àactggatataaacccatga cattttctat ttatgaaggcaaggccaatc ctcctgctgt gacttttgaaatagaacggg agggacttct gtattacaaccacaatctcc aggttgcagc cctggacgctatcaccatag aagtgaagga catcaacgacgaaggctcag taaggcagaa ctctcgcccagacctggatg atccggccac tcccaatggccccatgatca acaatgtcat gtactttcagacccgagagg gatctcagga attgaatccttcagtgaagg acatgggagg ccagagtgagatcatagtga cagagaatat ttggaaagçaactgatcctc accccatcaa aatcactcagtccttagttg acaaagagaa gctgccaagaatttacgtga ctcagccctt ggaccgagaagcaaaggatg agtacggaaa accactttcagatattaatg ataatccacc tacatgtccgaatgaacgac tgggtaacag tatcgggaccactgccaaca gttttctaaa ctacaggattggactcttcc taatccaaac ctatgctggaaagcaagata ctcctcagta caacttaacgctttgttttg tgcaaatcaa cgttattgattcagattatg gaaacctgac tcttgctgaa

aaggactttt aaccaccatt ttgtgactta 60

atacttcagg cccatcttca- ctccctgtgt 120

ggccaagagg ggaagtttag tggacccctg 180

caagaaccga gtcaaattat attccagttt 240

ctaactgggg agacagacaa catatttgtg 300

agagccttgg acagggaaac aagatctact 360

aatggaatta tagtggaggg tccagtccct 420

aatcgaccca cgtttctcca gtcaaagtac 480

ggaaagccct tcttgtatgt caatgccaca 540

cagctttatt accagattgt catccagctt 600

atcaacaaca aaacgggagc catctctctt 660

gctaagaatc cttcctataa tctggtgatc 720

aattccttca gtgataccac atctgtggat 780

ccaaaacctg tggagatggt ggaaaactca 840

gtgcggtgga atgatcccgg tgcacaatat 900

ttcccatttt caattgacca ggaaggagat 960

gaaaaggatg catatgtttt ttatgcagtt 1020

tatccgctgg aaattcatgt aàaagttaaa 1080

tcaccagtaa ccgtatttga ggtccaggag 1140

cttactgcac atgacaggga tgaagaaaat 1200

gtggagcaaa ctcccaaact tcccatggat 1260

atgttacagt tagctaaaca gtccttgaag 1320

atagaggtgt ctgacaaaga tttcaagacc 1380

atcaatgatc agatccccat ctttgaaaaa 1440

gacacaaaca ttgggtccac catcttaacc 1500atccaggcca ctgatgctga tgagccattt actgggagtt ctaaaattct gtatcatatc 1560

ataaagggag acagtgaggg acgcctgggg gttgacacag atccccatac caacaccgga 1620

tatgtcataa ttaaaaagcc tcttgatttt gaaacagcag ctgtttccaa cattgtgttc 1680

aaagcagaaa atcctgagcc tctagtgttt ggtgtgaagt acaatgcaag ttcttttgcc 1740

aagttcacgc ttattgtgac agatgtgaat gaagcacctc aattttccca acacgtattc 1800

caagcgaaag tcagtgagga tgtagctata ggcactaaag tgggcaatgt gactgccaag 1860

gatccagaag gtctggacat aagctattca ctgaggggag acacaagagg ttggcttaaa 1920

attgaccacg tgactggtga gatctttagt gtggctccat tggacagaga agccggaagt 1980

ccatatcggg tacaagtggt ggccacagaa gtaggggggt cttccttaag ctctgtgtca 2040

gagttccacc tgatccttat ggatgtgaat gacaaccctc ccaggctagc caaggactac 2100

acgggcttgt tcttctgcca tcccctcagt gcacctggaa gtctcatttt cgaggctact 2160

gatgatgatc agcacttatt tcggggtccc cattttacat tttccctcgg cagtggaagc 2220

ttacaaaacg actgggaagt ttccaaaatc aatggtactc atgcccgact gtctaccagg 2280

cacacagact ttgaggagag ggcgtatgtc gtcttgatcc gcatcaatga tgggggtcgg 2340

ccacçcttgg aàggcattgt ttctttacca gttacattct gcagttgtgt ggaaggaagt 2400

tgtttccggc cagcaggtca ccagactggg atacccactg tgggcatggc agtrtggtata 2460

ctgctgacca cccttctggt gattggtata attttagcag ttgtgtttat ccgcataaag 2520

aaggataaag gcaaagataa tgttgaaagt gctcaagcat ctgaagtcaa acctctgaga 2580

agctgaattt gaaaaggaat gtttgaattt atatagcaag tgctatttca gcáacaacca 2640

tctcatccta ttacttttca tctaacgtgc attataattt tttaaacaga tatrtccctct 2700

tgtcctttaa tatttgctaa atatttcttt tttgaggtgg agtcttgctc tgtcgcccag 2760

gctggagtac agtggtgtga tcccagctca ctgcaacctc cgcctcctgg gttcacatga 2820

ttctcctgcc tcagcttcct aagtagctgg gtttacaggc acccaccacc atgcccagct 2880

aatttttgta tttttaatag agacggggtt tcgccatttg gccaggctgg tcttgaactc 2940ctgacgtcaa gtgatctgcc tgccttggtc tcccaataca ggcatgaacc actgcacccacctacttaga tatttcatgt gctatagaca ttagagagat ttttcatttt tccatgacatttttcctctc tgcaaatggc ttagctactt gtgtttttcc cttttggggc aagacagactcattaaatat tctgtacatt ttttctttat caaggagata tatcagtgtt gtctcatagaactgcctgga ttccatttat gttttttctg attccatcct gtgtcccctt catccttgactcctttggta tttcactgaa tttcaaacat ttgtcagaga agaaaaaagt gaggactcaggaaaaataaa taaataaaag aacagccttt tgcggccgcg aattc

3000306031203180324033003345<210> 86 <211> 990 <212> DNA <213> humano <400> 86 agccccaagc ttaccacctg cácccggaga gctgtgtcac catgtgggtc ccggttgtct <60tcctcaccct gtccgtgacg tggattggtg ctgcacccct catcctgtct çggattgtgg 120gaggctggga gtgcgagaag cattcccaac cctggcaggt gcttgtggcc tctcgtggca 180gggcagtctg cggcggtgtt ctggtgcacc cccagtgggt cctcacagct gcccactgca 240tcaggaacaa aagcgtgatc ttgctgggtc ggcacagcct gtttcatcct gaagacacag 300gccaggtatt tcaggtcagc cacagcttcc cacacccgct ctacgatatg agcct-cctga 360agaatcgatt cctcaggcca ggtgatgact ccagccacga cctcatgctg ctccgcctgt 420cagagcctgc cgagctcacg gatgctgtga aggtcatgga cctgcccacc caggagccag 480cactggggac cacctgctac gcctcaggct ggggcagcat tgaaccagag gagttcttga 540ccccaaagaa acttcagtgt gtggacctcc atgttatttc caatgacgtg tgtgcgcaag 600ttcaccctca gaaggtgacc aagttcatgc tgtgtgctgg acgctggaca gggggcaaaa 660gcacctgctc gggtgattct gggggcccac ttgtctgtaa tggtgtgctt caaggtatca 720cgtcatgggg cagtgaacca tgtgccctgc ccgaaaggcc ttccctgtac accaaggtgg 780tgcattaccg gaagtggatc aaggacacca tcgtggccáa cccctgagca cccctatcaa 840ccccctattg tagtaaactt ggaaccttgg aaatgaccag gccaagactc aagCctcccc 900agttctactg acctttgtcc ttaggtgtga ggtccagggt tgctaggaaa agaaatcagc 960agacacaggt gtagaccaga gtgtttctta 990

<210> 87

<211> 1805

<212> DNA

<213> humano

<400> 87

gcgcacactc tcctaagccc tctcatctcc tggaaccatg gccagcacat ccaccaccatcaggagccac agcagcagcc gccggggttt cagtgccaac tcagccaggc tccctggggtcagccgctct ggcttcagca gcatctccgt gtcccgctcc aggggcagtg gtggcctgggtggcgcatgt ggaggagctg gctttggcag ccgcagtctg tatggcctgg ggggctccaagaggatctcc attggagggg gcagctgtgc catcagtggc ggctatggca gcagagccggaggcagctat ggctttggtg gcgccgggag tggatttggt ttcggtggtg gagccggcattggctttggt ctgggtggtg gagccggcct tgctggtggc tttgggggcc ctggcttccctgtgtgcccc cctggaggca tccaagaggt cactgtcaac cagagtctcc tgactcccct

60120180240300360420480caacctgcaa attgaccccg ccatccagcg ggtgcgggcc gaggagcgtg agçagatcaa 540

gaccctcaac aacaagtttg cctccttcat cgacaaggtg cggttcctag agcagcagaa 600

caaggttctg gacaccaagt ggaccctgct gcaggagcag ggcaccaaga ctgtgaggca 660

gaacctggag ccgttgttcg agcagtacat caacaacctc aggaggcagc tggacaacat 720

cgtgggggaa cggggtcgtc tggactcgga gctgagaaac atgcaggacc tggtggagga 780

cctcaagaac aaatatgagg atgaaatcaa caagcgcaca gcagcagaga atgaatttgt 840

gactctgaag aaggatgtgg atgctgccta catgaacaag gttgaactgc aagccaaggc 900

agacactctt acagatgaga tcaacttcct gagagccttg tatgatgcag agctgtccca 960

gatgcagacc cacatctcag acacatccgt ggtgctatcc atggacaaca accgçaacct 1020

ggacctggac agcatcatcg ctgaggtcaa ggcccaatat gaggagattg ctcagaggag 1080

cagggctgag gctgagtcct ggtaccagac aaagtacgag gagctgcaga í-cacagcagg 1140

cagacatggg gacgacctgc gcaacaccaa gcaggagatt gctgagatca accgcatgat 1200

ccagaggctg agatctgaga tcgaccacgt caagaagcag tgtgccaacc tacaggccgc 1260

cattgctgat gctgagcagc gtggggagat ggccctcaag gatgctaaga acaagctgga 1320

agggctggag gatgccctgc agaaggccaa gcaggacctg gcccggctgc tgaaggagta 1380

ccaggagctg atgaacgtca agctggccct ggacgtggag atcgccacct accgcaagct 1440

gctggagggc gaggagtgca ggctgaatgg cgaaggcgtt ggacaagtca acatctctgt 1500

agtgcagtcc accgtctcca gtggctatgg cggtgccagc ggtgtcggca gtggcttagg 1560

cctgggtgga ggaagcagct actcctatgg cagtggtctt ggcgttggag gcggctttag 1620

ttccagcagc ggcagagcca ctgggggtgg cctcagctct gttggaggcg gcagttccac 1680

catcaagtac accaccacct cctcctçcag caggaagagc tacaagcact gaagtcgtgc 1740

cgccagctct cagtcccaca gctctcaggc ccctctctgg cagcagagcc ctctcctcag 1800

gttgc 1805

<210> 88<211> 2820<212> DNA<213> humano

<400> 88

tggcaaaatc ctggagccag aagaaaggac agcagcattg atcaatctta cagctaacat 60

gttgtacctg gaaaacaatg cccagactca atttagtgag ccacagtaca cgaacctggg 120

gctcctgaac agcatggacc agcagattcg gaacggctcc tcgtccacca gtccctataa 180

cacagaccac gcgcagaaca gcgtcacggc gccctcgccc tacgcacagc ccagccccac 240

cttcgatgct ctctctccat cacccgccat cccctccaac accgactacc caggcccgca 300cagttccgac gtgtccttcc agcagtcgag caccgccaag tcggccacct ggacgtattc 360

cactgaactg aagaaactct actgccaaat tgcaaagaca tgccccatcc agatcaaggt 420

gatgacccca cctcctcagg gagctgttat ccgcgccatg cctgtctaca aaaaagctga 480

gcacgtcacg gaggtggtga agcggtgccc caaccatgag ctgagccgtg agttcaacga 540

gggacagatt gcccctccta gtcatttgat tcgagtagag gggaacagcc atgcccagta 600

tgtagaagat cccatcacag gaagacagag tgtgctggta ccttatgagc caccccaggt 660

tggcactgaa ttcacgacag tcttgtacaa tttcatgtgt aacagcagtt gtgttggagg 720

gatgaaccgc cgtccaattt taatcattgt tactctggaa accagagatg ggcaagtcct 780

gggccgacgc tgctttgagg cccggatctg tgcttgccca ggaagagaca ggaaggcgga 840

tçaaigatagc atcagaaagc agcaagtttc ggacagtaca aagaacggtç atggtacgaa 900

çcgcccgttt cgtcagaaca cacatggtat ccagatgaca tccatcaaga aacgaagatc 960

cccagatgat gaactgttat acttaccagt gaggggccgt gagacttatg aaatgctgtt 1020

gaagatcaaa gagtccctgg aactcatgca gtaccttcct cagcacacaa ttgaaacgta 1080

caggcaacag caacagcagc agcaccagca cttacttcag aaacagacct caatacagtc 1140

tccatcttca tatggtaaca gctccccacc tctgaacaaa atgaacagca tgaacaagct 1200

gccttctgtg agccagctta tcaaccctca gcagcgcaac gccctcactc ctacaaccat 1260

tcctgatggc atgggagcca acattcccat gatgggcacc cacatgccaa tggctggaga 1320

catgaatgga ctcagcccca cccaggcact ccctccccca ctctccatgc catccacctc 1380

ccactgcaca cccccacctc cgtatcccac agattgcagc attgtcagtt tcttagcgag 1440

gttgggctgt tcatcatgtc tggactattt cacgacccag gggctgacca ccatctatca 1500

gattgagcat tactccatgg atgatctggc aágtctgaaa atccctgagc aatttcgaca 1560

tgcgatctgg aagggcatcc tggaccaccg gcagctccac gaattctcct ccccttctca 1620

tctcctgcgg accccaagca gtgcctctac agtcagtgtg ggctccagtg agacccgggg 1680

tgagcgtgtt attgatgctg tgcgattcac cctccgccag accatctctt tcccaccccg 1740

agatgagtgg aatgacttca actttgacaí ggatgctcgc cgcaataagc aacagcgcat 1800

caaagaggag ggggagtgag cctcaccatg tgagctcttc ctatccctct cctaactgcc 1860

agccccctaa aagcactcct gcttaatctt caaagccttc tccctagctc ctccccttcc 1920

tcttgtctga tttcttaggg gaaggagaag taagaggcta cctcttacct aacatctgac 1980

ctggcatcta attctgattc tggctttaag ccttcaaaac tatagcttgc agaactgtag 2040

ctgccâtggc taggtagaag tgagcaaaaa agagttgggt gtctccttaa gctgcagaga 2100

tttctcattg acttttataa agcatgttca cccttatagt ctaagactat atatataaat 2160

gtataaatat acagtataga tttttgggtg gggggcattg agtattgttt aaaatgtaat 2220ttaaatgaaa gaaaattgag ttgcacttat tgaccatttt ttaatttact tgttttggat 2280

ggcttgtcta tactccttcc cttaaggggt atcatgtatg gtgataggta tctagagctt 2340

aatgctacat gtgagtgcga tgatgtacag attctttcag ttctttggat tctaaataca 2400

tgccacatca aacctttgag tagatccatt tccattgctt attatgtagg taagactgta 2460

gatatgtatt cttttctcag tgttggtata ttttatatta ctgacatttc ttctagtgat 2520

gatggttcac gttggggtga tttaatccag ttataagaag aagttcatgt ccaaacggtc 2580

ctctttagtt tttggttggg aatgaggaaa attcttaaaa ggcccatagc agccagttca 2640

aaaacacccg acgtcatgta tttgagcata tcagtaaccc ccttaaattt aatacccaga 2700

jCaccttatct tacaatgttg attgggaaaa catttgctgc ccattacaga ggtattaaaa 2760

ctaaatttca ctactagatt gactaactca aatacacatt tgctactgtt gtaagaattc 2820

<210> 89

<211> 991

<212> DNA

<213> humano<400> 89

cttatctcgg cttcgtttct ggagggccag gaacaaacag gcttcaaagc caagggcttg 60

gctggcacac agggggcttg gtccttcacc tctgtcccct ctccctacgg acacatataa 120

gaccctggtc acacctggga gaggaggaga ggagagcata gcacctgcag caagatggat 180

gtgggcagca aagaggtcct gatggagagc ccgccggact actccgcagc tccccggggc 240

cgatttggca ttccctgctg cccagtgcac ctgaaacgcc ttcttatcgt ggtggtggtg 300

gtggtcctca tcgtcgtggt gattgtggga gccctgctca tgggtctcca catgagccag 360

aaacacacgg agatggttct ggagatgagc attggggcgc cggaagccca gcaacgcctg 420gccctgagtg agcacctggt taccactgcc accttctcca tcggctccac tggcctcgtggtgtatgact accagcagct gctgatcgcc tacaagccag cccctggcac ctgctgctacatcatgaaga tagctccaga gagcatcccc agtcttgagg ctctcaatag aaaagtccacaacttccaga tggaatgctc tctgcaggcc aagcccgcag tgcctacgtc taagctgggc

caggcagagg ggcgagatgc aggctcagca ccctccggag gggacccggc cttcctgggc 720

atggccgtga acaccctgtg tggcgaggtg ccgctctact acatctagga cgcctccggt 780

gagcagggtc agtggaagcc ccaacgggaa aggaaacgcc ccgggcaaag ggtcttttgc 840

agcttttgca gacgggcaag aagctgcttc tgcccacacc gcagggacaa accctggaga 900

aatgggagct tggggagagg atgggagtgg gcagaggtgg cacccagggg cccgggaact 960

cctgccacaa cagaataaag cagcctgatt g 991

480540600660<210>

90

<211>

1580

<212>

DNA

<213> humano

<40Ú> 90

eatcctgcca cçcctagçct tgctggggac gtgaaccctc tcccçgogcc tgggaagtct 6Θ

tcttggcace gggacccga gaatccccac ggsagccagt «caaa&ggg atgaaaaggg i20gtgtttcgg gcaetgsgag aagcctgíat -cccasggccc ctceeagagc aggaatctgg 160gacccaggag tgecagcecc acecacgcag a*cctt|s>cca tga$agctcc ^cacctccacctrtccgccg cc^ctg^cgc cegggetefcg ecgaa^eige: tgecgcíget eatggegeaa 300ctcteggccg Otgaggeggc ssctgetccte caaaatgaca egcgcttgga eecegaasfcc 360utsfctccc cgigc-gcgcg cggetegcag cectsgcaeg tcte^ctctt caacsgcctc 420tcg^ccact gcgcs^tçt cctggtggac «ag&gttsss tgctgacgoc cgcgcãttíic 4«c?ggaaa«agc cactgtgggc tcgagtaggg gatgaccace tgctgcttct tcag&gagag 540cagctççgcí ggaceactcg etctgttgçc catxccsagt accaccagga -cteaggcecc €60atectgcéas ggegaacgjia ígagcacgat ctcatgttgc tgaagcsggc caggeccgtagtgctgsgigc cecgcgtccg ggccctgcag cttccctacc gct^tgeíca gcccggasac 72.0cagtgccags -ttgctggetg gggçaceaçg gçcgçceggà gagtgaagta eaacaagggc 7S0ctgaectgct ccageatcee tatcctgagc cctaaagagt gtgaggtctt ctaccctggc <M0gtggtcacca açaacatgat atgtgctggs ctggaccggg gecaggaccc Xtgccagagt 900gactctggag gcceectggt ctgtgacgag accctccaae gcatcctctc etggggecgtt S60

tae«.ce?gtg gctetígeeca ^catccaect gtctaeaecc agatetgeaa atacatgtec 1020

tagatcaata aagtcatacg ctecaact^a tccagatgct aegetc&age tgatceagat 2080

Sttatgctcc Xgctgattca ^atgceeaga ggctceateg tccatectct tcctcceeag 1240

icg^ctgaac tcsocecwgi tetgaaetgt tcaaaeetet ^ecgceetcc aeaeetctaa 1200

acatetcecc tctcacctca ttcceecaec tatcceeatt ctctgcetgt 1260

aaàtgcagftã agt@gt®gtâ «ággtfttatt eeagagaâ§c cágsaâgceg gt^àteaç-cç SJO

agcctctgag agcagrtaet ggggtcacce aacetgaett cctctgccac teeetgctgrt 1380gtgactttgg geaageeaag «sccetctct gaaecteagç ttcctcatet geaaaatggg W40

aacaatgaeg t^ectaecte ttagacstgt tgtgageaga ctatgatata acatgrgtat 1500gtaáatéttc atggtgattg tcatgtaagg cttaacacag tgggtggtga gttctgacta ISSO

aaggttacct gtvgfcegtga 1S80

5<40ê> SWJ

cateetsgeeâ CCCCtggcct tgetggggac gtgaãeecte teceegegce tgggaagcet $0

gggacccgga gaateeccac ggaagecágt teeasaaggei atgãaaasgg 129

^gegttrtcgg gcaetpssag sagcetgtat tceagggccc cteecagage aggastetgg IBQ

gacççaggag tgççagectc aeecaegeag atcet^gcca sgagagetcc ^cseetee&c 24Õ

ctefeccgcef cctctgpegc ccgggetesg gegaasetge tgeegctgct aatggegeaa 30©

etctgggecs ea^s^g^c jetscteecc eaaaáegses cgcgettgga K^ftjee Í60

tatggctcce cgtgegcgcg cagetegcas ecctggeasg: tetcgctett eaaeggce-te 420

«cgetonct gegegggtpt «ctggtggae «agagttgge tgcteassgc 4β©

g^aascaagc cictgtgwic M9«9tigg9 gatgaecacc tgetecitct teagggsgsgi S40

«gcícq^c spKoetcg ««jttgtc eateeeaagt; aeeaceaggg «etcagiecce «00«tcetgeeaa ssesu^iei tgaaeaeget ctcfttgttgc tgaagecgge eisggcecgta

S^idcggggc cagcgt«g ggccctgcag ctteectace getgtgetea geecggagac ?Zõ

cagtgccagg ttgetfgetg gggeaecaeg gcegceesgá gagtgaagta eaaca&ggge /Sti

ctgaectfct ecagcatcac tatcctgsgc eetaaagagt gtgaggtett etaeeetggc MO

gtggtcacca aeaacttgat stftgetgga ctggaecggg gççsggaccc ttgecasagt 900

iKtctgpg g«cce«|ft c«g<pcgig aecctceaag geateetete gitggggcgtt 960

tacecetgtg sctetsgecca gcatco^et ftctswaeec agatetgeaa ataestgtee M»

tggateaata MgtcitKg ctccãactg* tecagatget aegeteeage tgatccagat aoso

gttmtgctec tgctgateca gâf^ceeap ggetecateg teesteetet tcctceccag 1140

tcggetgaae tcteeceteg tetgcaetgt tcaaacctet gcegeectec Maeetctaa 1200

aatetccce tteceeeaec tateceeatí «ecgeetgt âetgaagctf 12(60

aaâtgcâgga Sgtggtggea, aaggftttâtt ctagâgaagc ca#gaagccg gteãteaeee 1320

agtctetgag ageagttact ggggtcaecc aacctgaCtt çctct§cçae tcectgctgt IB&&

gtgaetttgg gcsageeaag efceetctet gaaceteagt: tteetcatct gcaaaatggg, M4G

aaeaatgaeg tfcetaecte ttagaeatgt t$tgagga£2 ctatgatata aeatgt^tat mm

ptaãatcttc atggtgattg teatgtaagg çttaâcacaej tgggtggtga gttctgacta 15&Daaggttücct gttglcgtpi<210> 91<211> 3359

<212> DNA<213> humano

<400> 91

cacaccttcg gcagcaggag ggcggcagct tctcgcaggc ggcagggcgg gcggccagga 60

tcatgtccac caccacatgc caagtggtgg cgttcetcct gtccatcctg gggctggccg 120

gctgcatcgc ggccaccggg atggacatgt ggagcaccca ggacctgtac gacaaccccg 180

tcacctccgt gttccagtac gaagggctct ggaggagctg cgtgaggcag agttcaggct 240

trcaccgaatg caggccctat ttcaccatcc tgggacttcc agccatgctg caggcagtgc 300

gagccctgat gatcgtaggc atcgtcctgg gtgccattgg cctcctggta tccatctttg 360

ccctgaaatg catccgcatt ggcagcatgg aggactctgc caaagccaac atgacactga 420

cctccgggat catgttcatt gtctcaggtc tttgtgcaat tgctggagtg tctgtgtttg 480

ccaacatgct ggtgactaac ttctggatgt ccacagctaa catgtacact ggcatgggtg 540

ggatggtgca gactgttcag accaggtaca catttggtgc ggctctgttc gtgggctggg 600

tcgctggagg cctcacactS" attgggggtg tgatgatgtg catcgcctgc cggggcctgg 660

caccagaaga aaccaactac aaagccgttt cttatcatgc ctcaggcçac agtgttgcct 720

àcaagcctgg aggcttcaag gccagcactg gctttgggtc caacaccaaa aacaagaaga 780

tatacgatgg aggtgcccgc acagaggacg aggtacaatc ttatccttcc aagcacgact 840

atgtgtaatg ctctaagacc tctcagcacg ggcggaagaa actcccggag agctcaccca 900

aaaaacaagg agatcccatc tagatttctt cttgcttttg actcacagct ggaagttaga 960

aaagcctcga tttcatcttt ggagaggcca aatggtctta gcctcagtct ctgtctctaa 1020

atattccacc ataaaacagc tgagttattt atgaattaga ggctatagct cacattttca 1080

atcctctatt tcttttttta aatataactt tctactctga tgagagaatg tggttttaat 1140

ctctctctca cattttgatg atttagacag actccccctc ttcctcctag tcaataaacc 1200

cattgatgat ctatttccca gcttatcccc aagaaaactt ttgaaaggaa agagtagacc 1260

caaagatgtt attttctgct gtttgaattt tgtctcccca cccccaactt ggctagtaat 1320

aaacacttac tgaagaagaa gcaataagag aaagatattt gtaatctctc cagcccatga 1380

tctcggtttt cttacactgt gatcttaaaa gttaccaaac caaagtcatt ttcagtttga 1440

ggcaaccaaa cctttctact gctgttgaca tcttcttatt acagcaacac cattctagiga ISOOgtttcctgag ctctccactg gagtcctctt tctgtcgcgg gtcagaaatt gtccctagat 1560

gaatgagaaa attatttttt ttaatttaag tcctaaatat agttaaaata aataatgttt 1620tagtaaaatg atacactatc tctgtgaaat agcctcaccc ctacatgtgg atagaaggaa 1680atgaaaaaat aattgctttg acattgtcta tatggtactt tgtaaagtca tgcttaagta 1740

caaattccat gaaaagctca ctgatcctaa ttctttccct ttgaggtctc tatggctctg 1800attgtacatg atagtaagtg taagccatgt aaaaagtaaa taatgtctgg gcacagtggc 1860

tcacgcctgt aatcctagca ctttgggagg ctgaggagga aggatcactt gagcccagaa 1920

gttcgagact agcctgggca acatggagaa gccctgtctc tacaaaatac agagagaaaa 1980

aatcagccag tcatggtggc ctacacctgt agtcccagca ttccgggagg ctgaggtggg 2040

aggatcactt gagcccaggg aggttggggc tgcagtgagc catgatcaca ccactgcact 2100

ccagccaggt gacatagcga gatcctgtct aaaaaaataa aaaataaata atggaacaca 2160

gcaagtccta ggaagtaggt taaaactaat tctttaaaaa aaaaaaaaag ttgagcctga 2220

attaaatgta atgtttccaa gtgacaggta tccacatttg catggttaca agccacxgcc 2280

agttagcagt agcactttcc tggcactgtg gtcggttttg ttttgttttg ctttgtttag 2340

agacggggtc tcactttcca ggctggcctc aaactcctgc actcaagcaa ttcttctacc 2400

etggcctccc aagtagctgg aattacaggt gtgcgccatc acaactagct ggtggtcagt 2460

.tt-tgttactc tgagagctgt tcacttctct gaattcacct agagtggttg gaccatcaga 2520

tgtttgggca aaactgaaag ctctttgcaa ccacacacct tccctgagct tacatcactg 2580

cccttttgag cagaaagtct aaattccttc caagacagta gaattccatc ccagtaccaa 2640

agccagatag gccccctagg aaactgaggt aagagcagtc tctaaaaact acccacagca 2700

gcattggtgc aggggaactt ggccattagg ttattatttg agaggaaagt cctcacatca 2760

atagtacata tgaaagtgac ctccaagggg attggtgaat actcataagg atcttcaggc 2820

tgaacagact atgtctgggg aaagaacgga ttatgcccca ttaaataaca agttgtgttc 2880

aagagtcaga gcagtgagct cagaggccct tctcactgag acagcaacat ttaaaccaaa 2940

ccagaggaag tatttgtgga actcactgcc tcagtttggg taaaggatga gcagacaagt 3000

caactaaaga aaaaagaaaa gcaaggagga gggttgagca atctagagca tggagtttgt 3060

taagtgctct ctggatttga gttgaagagc atccatttga gttgaaggcc acagggcaca 3120

atgagctctc ccttctacca ccagaaagtc cctggtcagg tctcaggtag tgcggtgtgg 3180

ctcagctggg tttttaatta gcgcattctc tatccaacat ttaattgttt gaaagcctcc 3240

atatagttag attgtgcttt gtaattttgt tgttgttgct ctatcttatt gtatatgcat 3300

tgagtattaa cctgaatgtt ttgttactta aatattaaaa acactgttat cctacagtt 3359

<210> 92<211> 733<212> DNA

<213> humano

<400> 92

gggatccgga gcccaaatct tctgacaaaa ctcacacatg cccaccgtgc ccagcacctg 60

aattcgaggg tgcaccgtca gtcttcctct tccccccaaa acccaaggac accctcatga 120tctcccggac tcctgaggtc acatgcgtgg tggtggacgt áagccacgaa gaccctgagg 180tcaagttcaa ctggtacgtg gacggcgtgg aggtgcataa tgccaagaca aagccgcggg 240aggagcagta caacagcacg taccgtgtgg tcagcgtcct caccgtcctg caccaggact 300ggctgaatgg caaggagtac aagtgcaagg tctccaacaa agccctccca acccccatcg E€0agaaaaccat ctccaaagcc aaagggcagc cccgagaacc acaggtgtac accctgcccc 420catcccggga tgagctgacc aagaaccagg tcagcctgac ctgcctggtc aaaggcttct 480atccaagcga catcgccgtg. gagtgggaga gcaatgggca gccggagaac aactacaaga 540ccacgcctcc cgtgctggac tccgacggct CCttCttCCt ctacagcaag ctcaccgtgg 600acaàgagcag gtggcagcag gggaacgtct tctcatgctc cgtgatgcat gaggctctgc 660acaaccacta cacgcagaag agcctctccc tgtctccggg taaatgagtg cgacggccgc 720gactctagag gat 733<210> 93 <211> 1076 <212> DNA <213> humano

<400> 93 atggtggttg aggttgattc catgccggct gcctcttctg tgaagaagcc atttggtctc 60aggágcaaga tgggcaagtg gtgctgccgt tgcttcccct gctgcaggga gagcggcaag 120agcaacgtgg gcacttctgg agaccacgac gactctgcta tgàagacact caggagcaag 180atgggcaagt ggtgccgcca ctgcttcccc tgctgcaggg ggagtggcaa gagcaacgtg 240ggcgcttctg gagaccacga cgactctgct atgaagacac tcaggaacaa gatgggcaag 300tggtgctgcc actgcttccc ctgctgcagg gggagcggca agagcaaggt gggcgcttgg 360ggagactacg atgacagtgc cttcatggag çccággtacc acgtccgtgg agaagatctg 420gacaagctcc acagagctgc ctggtggggt aaagtcccca gaaaggatct catcgtcatg 480ctcagggaca ctgacgtgaa caagaaggac aagcaaaaga ggactgctct acatctggcc 540tctgccaatg ggaattcaga ágtagtaaaa ctcctgctgg acagacgatg tcaacttaat 600gtccttgaca acaaaaagag gacagctctg ataaaggccg tacaatgcca ggaagatgaa 660tgtgcgttaa tgttgctgga acatggcact gatccaaata ttccagatga gtatggaaat 720accactctgc actacgctat ctataatgaa gataaattaa tggccaaagc actgctctta 780tatggtgctg atatcgaatc aaaaaacaag catggcctca caccactgtt acttggtgta 840catgagcaaa aacagcaagt cgtgaaattt ttaatcaaga aaaaagcgaa tttaaatgca 900ctggatagat atggaaggac tgctctcata cttgctgtat gttgtggatc agcaagtata 960gtçagccttc tacttgagca aaatattgat gtatcttctc aagatctatc tggacagacg 1020

gccagagagt atgctgtttc tagtcatcat catgtaattt gccagttact ttctga 1076<210> 94<211> 3675<212> DNA<213> humano

<400> 94

tccgagctga ttacagacac caaggaagat gctgtaaaga gtcagcagcc acagccctgg 60

ctagctggcc ctgtgggcat ttattagtaa agttttaatg acaaaagctt tgagtcaaca 120

cacccgtggg taattaacct ggtcatcccc accctggaga gccatcctgc ccatgggtga 180

tcaaagaagg aacatctgca ggaacacctg atgaggctgc acccttggcg gaaagaacac 240

ctgacacagc tgaaagcttg gtggaaaaaa cacctgatga ggctgcaccc ttggtggaaa 300

gaacacctga cacggçtgaa agcttggtgg aaaaaacacc tgatgaggct gcatccttgg 360

tggagggaac atctgacaaa attcaatgtt tggagaaagc gacatctgga aagttcgaac 420

agtcagcaga agaaacacct agggaaatta cgagtcctgc-aaaagaaaca tctgagaaat 480

ttacgtggcc agcaaaagga agacctagga agatcgcatg ggagaaaaaa gaagacacac 540

ctagggaaat tatgagtccc gcaaaagaaa catctgagaa atttacgtgg gcagcaaaag 600

oaagacctag gaagatcgca tgggagaaaa aagaaacacc tgtaaagact ggatgcgtgg 660

caagagtaac atctaataaa actaaagttt tggaaaaagg aagatctaag atgattgcat 720

gtcctacaaa agaatcatct acaaaagcaa gtgccaatga tcagaggttc ccatcagaat 780

ccaaacaaga ggaagatgaa gaatattctt gtgattctcg gagtctcttt gagagttctg 840

caaagattca agtgtgtata cctgagtcta tatatcaaaa agtaatggag ataaatagag 900

aagtagaaga gcctcctaag aagccatctg ccttcaagcc tgccattgaa atgcaaaact 960

ctgttccaaa taaagccttt gaattgaaga atgaacaaae attgagagca gatccgatgt 1020

tcccaccaga atccaaacaa aaggactatg aagaaaattc ttgggattct gagagtctct 1080

gtgagactgt ttcacagaag gatgtgtgtt tacccaaggc tacacatcaa aaagaaatag 1140

ataaaataaa tggaaaatta gaagagtctc ctaataaaga tggtcttctg aaggctacct 1200

gcggaatgaa agtttctatt ccaactaaag ccttagaatt gaaggacatg caaactttca 1260

aagcagagcc tccggggaag ccatctgcct tcgagcctgc cactgaaatg caaaagtctg 1320

tcccaaataa agccttggaa ttgaaaaatg aacaaacatt gagagcagat gagatactcc 1380

catcagaatc caaacaaaag gactatgaag aaagttcttg ggattctgag agtctctgtg 1440

agactgtttc acagaaggat gtgtgtttac ccaaggctcc atcaaaaaga aatagataaa 1500

ataaatggaa aattagaagg gtctcctgtt aaagatggtc ttctgaaggc taactgcgga 1560

atgaaagttt ctattccaac taaagcctta gaattgatgg acatgcaaac tttcaaagca 1620gagcctcccg agaagccatc tgccttcgag cctgccattg aaatgcaaaa gtctgttcca 1680

aataaagcct tggaattgaa gaatgaacaa acattgagag cagatgagat actcccatca 1740

gaatccaaac aaaaggacta tgaagaaagt tcttgggatt ctgagagtct ctgtgagact 1800

gtttcacaga aggatgtgtg tttacccaag gctccatcaa aaagaaatag ataaaataaa 1860

tggaaaatta gaagagtctc ctgataatga tggttttctg aaggctccct gcagaatgaa 1920

agtttctatt ccaactaaag ccttagaatt gatggacatg caaactttca aagcagagcc 1980

tcccgagaag ccatctgcct tcgagcctgc cattgaaatg caaaagtctg ttccaaataa 2040

agccttggaa ttgaagaatg aacaaacatt gagagcagat cagatgttcc cttcagaatc 2100

aaaacaaaag aagttgaaga aaattcttgg gattctgaga gtctccgtga gactgtttca 2160

cagaaggatg tgtgtgtacc caaggctaca catcaaaaag aaatggataa aataagtgga 2220

aaattagaag attcaactag cctatcaaaa atcttggata cagttcattc ttgtgaaaga 2280

gcaagggaac ttcaaaaaga tcactgtgaa caacgtacag gaaaaatgga acaaatgaaa 2340

.•iCJe»

aagaagtttt gtgtactgaa aaagaaactg tcagaagcaa aagaaataaa atcacagtta 2400

gagaaccaaa aagttaaatg ggaacaagag ctctgcagtg tgaggtttct cacactcatg 2460

aaaatgaaaa ttatctctta catgaaaatt gcatgttgaa aaaggaaatt gccatgctaa 2520

aactggaaat agccacactg aaacaccaat accaggaaaa ggaaaataaa tactttgagg 2580

acattaagat tttaaaagaa aagaatgctg aacttcagat gaccctaaaa ctgaaagagg 2640

aatcattaac taaaagggca tctcaatata gtgggcagct taaagttctg atagctgaga 2700

acacaatgct cacttctaaa ttgaaggaaa aacaagacaa agaaatacta gaggcagaaa 2760

ttgaatcaca ccatcctaga ctggcttctg ctgtacaaga çcatgatcaa attgtgacat 2820

caagaaaaag tcaagaacct gctttccaca ttgcaggaga tgcttgtttg caaagaaaaa 2880

tgaatgttga tgtgagtagt acgatatata acaatgaggt gctccatcaa ccactttctg 2940

aagctcaaag gaaatccaaa agcctaaaaa ttaatctcaa ttatgcggag atgctctaag 3000

agaaaataca ttggtttcag aacatgcaca aagagaccaa cgtgaaacac agtgtcaaát 3060.

gaaggaagct gaacacatgt atcaaaacga acaagataat gtgaacaaac acactgaaca 3120

gcaggagtct ctagatcaga aattatttca actacaaagc aaaaatatgt ggcttcaaca 3180

gcaattagtt catgcacata agaaagctga caacaaaagc aagataacaa ttgatattca 3240

ttttcttgag aggaaaatgc aacatcatct cctaaaagag aaaaatgagg agatatttaa 3300

ttacaataac catttaaaaa accgtatata tcaatatgaa aaagagaaag cagaaacaga 3360

aaactcatga gagacaagca gtaagaaact tcttttggag aaacaacaga ccagatcttt 3420

actcacaact catgctagga ggccagtcct agcatcacct tàtgttgaaa atcttaccaa 3480

tagtctgtgt caacagaata cttattttag aagaaaaatt catgatttct tcctgaagcc 3540

tacagacata aaataacagt gtgaagaatt acttgttcac gaattgcata aagctgcaca 3600

ggattcccat ctaccctgat gatgcagcag acatcattca atccaaccag aatctcgctc 3660

tgtcactcag gctgg 3675<210> 95<211> 2658<212> DNA

<213> humano<40Ò> 95

acccagaaga ccgtgccttg cctggaagtc ctgcctgtag gcctgaagga cttgccctaa 60

cagagcctca acaactacct ggtgattcct acttcagccc cttggtgtga gcagcttctc 120

aacatgaact acagcctcca cttggccttc gtgtgtctga gtctcttcac tgagaggatg 180

tgcatccagg ggagtcagtt caacgtcgag gtcggcagaa gtgacaagct ttccctgcct 240

ggctttgaga acctcacagc aggatataac aaatttctca ggcccaattt tggtggagaa 300

cccgtacaga tagcgctgac tctggacatt gcaagtatct ctagcatttc agagagtaac 360

atggactaca cagccaccat atacctccga cagcgctgga tggaccagcg gctggtgttt 420

gaaggcaaca agagcttcac tctggatgcc cgcctcgtgg agttcctctg ggtgccagat 460

acttacattg tggagtccaa gaagtccttc ctccatgaag tcactgtggg aaacaggctc 540

atccgcctct tctccaatgg cacggtcctg tatgccctca gaatcacgac aactgttgca 600

tgtaacatgg atctgtctaa ataccccatg gacacacaga catgcaagtt gcagctggaa 660

agctggggct atgatggaaa tgatgtggag ttcacctggc tgagagggaa cgactctgtg 720

cgtggactgg aacacctgcg gcttgctcag tacaccatag agcggtattt caccttagtc 780

accagatcgc agcaggagac aggaaattac actagattgg tcttacagtt tgagcttcgg 840

aggaatgttc tgtatttcat tttggaaacc tacgttcctt ccactttcct ggtggtgttg 900

tcctgggttt cattttggat ctctctcgat tcagtccctg caagaacctg cattggagtg 960

acgaccgtgt tatcaatgac eacactgatg atcgggtccc gcacttctct tcccaacacc 1020

aactgcttca tcaaggccat cgatgtgtac ctggggatct gctttagctt tgtgtttggg 1080

gccttgctag aatatgcagt tgctcactac agttccttac agcagatggc agccaaagat .1140

agggggacaa caaaggaagt agaagaagtc agtattacta atatcatcaa cagctccatc 1200

tccagcttta aacggaagat cagctttgcc agcattgaaa tttccagcga caacgttgac 1260

tacagtgact tgacaatgaa aaccagcgac aagttaaagt ttgtcttccg agaaaagatg 1320

ggcaggattg ttgattattt cacaattcaa aaccccagta atgttgatca ctattccaaa 1380

ctactgtttc ctttgatttt tatgctagcc aatgtatttt actgggcata ctacatgtat 1440ttttgagtca atgttaaatt tcttgcatgc cataggtctt caacaggaca agataatgat 1500

gtaaatggta ttttaggcca agtgtgcacc cacatccaat ggtgctacaa gtgactgaaa 1560

taatatttga gtctttctgc tcaaagaatg aagctccaac cattgttctã agctgtgtag 1620

àagtcctagc attataggat cttgtaatag aaacatcagt ccattcctct ttcatcttaa 1680

tcaaggacat tcccatggag cccaagatta caaatgtact cagggctgtt tattcggtgg 1740

ctccctggtt tgcatttacc tcatataaag aatgggaagg agaccattgg gtaaccctca 1800 .

agtgtcagaa gttgtttcta aagtaactat acatgttttt tactaaatct ctgcagtgct 1860

tataaaatac attgttgcct atttagggag taacattttc tagtttttgt ttctggttaa 1920

aatgaaatat gggcttatgt caattcattg gaagtcaatg cactaactca ataccaagat 1980

gagtttttaa ataatgaata ttatttaata ccacaacaga attatcccca atttccaata 2040

agtcctatca ttgaaaattc aaatataagt gaagaaaaaa ttagtagatc aacaatctaa 2100

acaaatccct cggttctaag atacaatgga ttccccatac tggaaggact ctgaggcttt 2160

attcccccac tatgcatatc ttatcatttt attattatac acacatccat cctaaactat 2220

actaaagccc ttttcccatg catggatgga aatggaagat ttttttttaa cttgttctag 2280

aagtcttaat atgggctgtt gccatgaagg cttgcagaat tgagtccatt ttctagctgc 2340

ctttattcac atagtgacgg ggtactaaaa gtactgggtt gactcagaga gtcgctgtca 2400

ttctgtcatt gctgctactc taacactgag caacactctc ccagtggcag atcccctgta 2460

tcattccaag aggagcattc atccctttgc tctaatgatc aggaatgatg cttattagaa 2520

aacaaactgc ttgacccagg aacaagtggc ttagcttaag taaacttggc tttgctcaga 2580

tccctgatcc ttccagctgg tctgctctga gtggcttatc ccgcatgagc aggagcgtgc 2640

tggccctgag tactgaac 2658

<210> 96<211> 2531<212> DNA

<213> humano<400> 96

gcagtgtgag gcaatcgctc tatccttgac cccttccttt gcacagtgag tgatggcgtt 60tttatctcct gatgatgatg cacagccttc agcgggggac atttaagacg cagaacacca 120ggtccaggçt gcagctgcgg gactcagagg cgaagcttga ggggctcagg aaggacgaag 180aaccaccctt gagagaagag gcagcagcag cggcggcagc agcagcggca gcgaccccac 240cactgccaca tttgccagga aacaatgctg ctagcgacat tcaagctgtg cgctgggagc 300tcctacagac acatgcgcaa catgaagggg ctgaggcaac aggctgtgat ggccatcagc 360caggagctga accggagggc cctggggggc cccaccccta gcacgtggat taaccaggtt 420cggcggcgga gctctctact cggttctcgg ctggaagaga ctctctacag tgaccaggag 480

ctggcctatc tccagcaggg ggaggaggcc atgcagaagg ccttgggcat ccttagcaac 540

caagagggct ggaagaagga gagtcagcag gacaatgggg acaaagtgat gagtaaagtg 600

gtcccagatg tgggcaaggt gttccggctg gaggtcgtgg tggaccagcc catggagagg 660

ctctatgaag agctcgtgga gcgcatggaa gcaatggggg agtggaaccc caatgtcaag 720

gagatçaagg tcctgcagaa gatcgggggg ccccgtgact ttgtgagcgt gcgctgtgcc 780

aagcgccgag gctccacctg tgtgctggct ggcatggcca cagacttcgg gaacatgcct 840

gagcagaagg gtgtcatcag ggcggagcac ggtcccactt gcatggtgct tcacccgttg 900

gctggaagtc cctctaagac caaacttacg tggctactca gcatcgacct caaggggtgg 960

ctgcccaaga gcatcatcaa ccaggtcctg tcccagaccc aggtggattt tgccaaccac 1020

ctgcgcaagc gcctggagtc, ccaccctgcc tctgaagcca ggtgttgaag accagcctgc 1080

tgttcccaac tgtgcccagc tgcactggta cacacgctca tcaggagaat ccctactgga 1140

agcctgcáag tctaagatct ccatctggtg acagtgggat gggtggggtt cgtgtttaga 1200

gtatgacact aggattcaga ttggtgaaag tttttagtac caagaaaaca gggatgaggc 1260

tcttggatta aaaggtaact tcattcactg attagctatg acatgagggt tcaggcccct 1320

aaaataattg taaaactttt tttctgggcc cttatgtacc cacctaaaac catctttaaa 1380

atgctagtgg ctgatatggg tgtgggggat gctaaccaca gggcctgaga agtcttgctt 1440

tatgggctca agaatgccat gcgctggcag tacatgtgca caaagcagaa tctcagaggg 1500

tctcctgcag ccctctgctc ctcccggccg ctgcacagca acaccacaga acaagcagca 1560

ccccacagtg ggtgccttcc agaaatatag tccaagcttt ctctgtggaa aaagacaaaa 1620

ctcattagta gacatgtttc cctattgctt tcataggcac cagtcagaat aaagaatcat 1680

aattcacaca aacatcagtc tttgttttaa tattgtactg ttaaaaaaat ctatgcagct 1740

gggtgcagtg gctcacgcct gtaatcccag cattttggga ggctgaggta ggcggatcac 1800

aaggtcagga gatcgagacc.atcctggcca acatggtgaa accccgtctc tactaaaata 1860

caaaaaatta gctgggtgtg gtggcgcaaa cctgtagtcg tagctacttg ggaggctgag 1920

gcaggggaat cacttgaacc ccggaggcgg aggttgtagt gggccgagat tgtgccactg 1980

cgctccagcg tgggcgacag agtgagactc catctcaaaa aaaaaaaaaa aaaaatctat 2040

gctagtagat tacaacttca cactagagga gttctggaca aagcttttaa ttagtcaaac 2100

taaattaagg ctcattaaaa ggaaaggaac tactgggaaa ttatgcaatt caataattta 2160

gactctgtta ccaggatctt tcataaaaat ttaatttcca taatcataac ctaaatgagt 2220

tcttaaagaa ttctataagc aatagctgat taatgggccc tggaagatga agattataac 2280

tgtttattta cctaattaaa aggaaaggca gtgccaaata tgagaggata aacaatatta 2340gttaacattt ctgttattta tgatgccaat tagtagtaag ataattccac agctgtcaac 2400tttgtttggg gctggcaact tctctgctta aacaggctaa aagtttagta ttctgggaga 2460agtggctgga agaaggggta atatggtgaa agcaaattcc ctttcccagg agtcaagaga 2520atttatgtga g 2531<210> 97<211> 2849<212> DNA<213> humano

<400> 97

cgggcgccgc aggagcgagt gagctgggag cgaggggcga aggcgcggag aagcccggcc 60

gcccggtggg cggcagaagg ctcágccgag gcggcggcgc cgactccgtt ccactctcgg 120

cccggatcca ggcctccggg ttcccaggcg ctcacctccc tctgacgcac tttaaagagt 180

ctcccccctt ccacctcagg gcgagtaata gcgaccaatc atcaagccat ,ttaccaggct 240

tcggaggaag ctgtttatgt gatccccgca ctaattaggc tcatgaacta acaaatcgtt 300

tgcacaactt gtgaagaagc gaacacttcc atggattgtc cttggactta gggcgccctg 360

occgcctttt gcagaggaga aaaaactttt tttttttttt gcctcccccg agaactttcc 420

ccccttctcc tccctgcctc taactccgat ccçcccacgc catctcgcca aaaaaaaaaa 480

aaaaaaaaaa aaagaaaaaa aaagaaaaaa aaagaaaaaa aattacccca atccacgcct 540

gcaaattctt ctggaaggat tttcccccct ctcttcaggt tgggcgcgtt tggtgcaága 600

ttctcgggat cctcggcttt gcctctccct ctccctcccc cctcctttcc tttttccttt 660

cctttccttt ctttcttcct ttccttcccc ccacccccac ccccacccca aacaaacgàg 720

tccccaattc tcgtccgtcc tcgccgcggg cagcgggcgg cggaggcagc gtgcggcggt 780

cgccaggagc tgggagccca gggcgcccgc tcctcggcgc agcatgttcc agccggcgcc 840

caagcgctgc ttcaccatcg agtcgctggt ggccaaggac agtccectgc c.cgcctcgcg 900

ctccgaggac cccatccgtc ccgcggcact cagctacgct aactccagcc ccataaatcc 960

gttcctcaac ggcttccact cggccgccgc cgccgccgcc ggtaggggcg tctactccaa 1020

cccggacttg gtgttcgccg aggcggtctc gcacccgccc aaccocgccg tgccagtgca 1080

cccggtgccg ccgccgcacg ccctggccgc ccacccccta ccctcctcgc actcgccaca 1140

ccccctattc gcctcgcagc agcgggatcc gtccaccttc tacccctggc tcatccaccg 1200

ctaccgatat ctgggtcatc gcttccaagg gaacgacact agccccgaga \gtttcctttt 1260

gcacaacgcg ctggcccgaa agcccaagcg gatccgaacc gccttctccc cgtcccagct 1320

tctaaggctg gaacacgcct ttgagaagaa tcactacgtg gtgggcgccg aaaggaagca 1380

gctggcacac agcctcagcc tcacggaaac tcaggtaaaa gtatggtttc agaaccgaag 1440aacaaagttc aaaaggcaga agctggagga agaaggctca çattcgcaac aaaagaaaaa ISQQ

agggacgcac catattaacc ggtggagaat cgccaccaag caggcgagtc cggaggaaat 1560

agacgtgacc tcagatgatt aaaaacataa acctaacccc acagaaacgg acaacatgga 1620

gcaaaagaga cagggagagg tggagaagga aaaaacccta caaaacaaaa acaaaccgca 1680

acacgttca ccgagaaagg gagagggaat cggagggagc agcggaatgc ggcgaagact 1740

ctggacagcg agggcacagg gtcccaaacc gaggccgcgc caagatggca gaggatggag 1800

gctccttcat caacaagcga ccctcgtcta aagaggcagc tgagtgagag acacagagag 1860

aaggagaaag agggagggag agagagaaag agagagaaag agagagagag agagagagag 1920

agaaagctga acgtgcactc tgacaagggg agctgtcaat caaacaccaa aceggggaga 1980

caagatgatt ggcaggtatt ccgtttatca cagtccactt aaaaaatgat gatgatgata 2040

aaaaccacga cccaaccagg cacaggactt ttttgttttt tgcacttcgc tgtgtttccc 2100

ccccatcttt aaaaataatt agtaataaaa aacaaaaatt ccatatctag ccccatccca 2160

cacctgtttc aaatccttga aatgcatgta gcagttgttg ggcgaatggt gtttaaagac 2220

cgaaaatgaa ttgtaatttt cttttccttt taaagacagg ttctgtgtgc tttttatttt 2280

gatttttttt cccaagaaat gtgcagtctg taaacacttt ttgatacctt ctgatgtcaa 2340

agtgattgtg caagctaaat gaagtaggct cagcgatagt ggtcctctta cagagaaacg 2400

gggagcagga cgacgggggg gctgggggtg gcgggggagg gtgcccacaa aaagaatcag 2460

gacttgtact gggaaaaaaa cccctaaatt aattatattt cttggacatt ccctttccta 2520

acatcctgag gcttaaaacc ctgatgcaaa cttctccttt cagtggttgg agaaattggc 2580

cgagttcaac cattcactgc aatgcctatt ccaaacttta aatctatcta ttgcaaaacc 2640

tgaaggactg tagttagcgg ggatgatgtt aagtgtggcc aagcgcacgg cggcaagttt 2700

tcaagcactg agtttctatt ccaagatcat agacttacta aagagagtga caaatgcttc 2760

cttaatgtct tctataccag aatgtaaata tttttgtgtt ttgtgttaat ttgttagaat 2820

tctaacacac tatatacttc caagaagta 2849

<210> 98<211> 3308<212> DNA<213> humano

<400> 98

aaaagataga tcctgctcca ggagccggga agcctcgccc tggccagctg tgctgggcac 60

ctcccctgcc tgcttcctgg cccacttgca ggcaaggtga gggcatgcga atggctgcca 120

ctgcctgggc ggggctccaa gggccacccc tccccaccct ctgtcccgca gtgaggacgg 180

gactctactg ccgagaccag gctcacgctg agaggtgggc catgacctcc gagacctctt 240ccggaagcca ctgtgccagg agcaggatgc tgcggcgacg ggcccaggaa gaggacagca 300

ccgtcctgat cgatgtgagc ccccctgagg cagagaagag gggctcttac gggagcacag 360

cocacgcctc ggagccaggt ggacagcaag cggccgcctg cagagctggg agtcctgcca 420

agccccggat cgcagacttc gtcctcgttt gggaggagga cctgaagcta gacaggcagc 480

aggacagtgc cgcccgggac agaacagaca tgcacaggac ctggcgggag acttttctgg 540

ataatettcg tgcggctggg ctgtgtgtag accagcagga cgtccaggac gggaacacca €00

cagtgcacta cgccctcctc. agcgcctcct gggctgtgct ctgctactac gccgaagacc 660

tgcgcctgaa gctgcccttg caggagttac ccaaccaggc ctccaactgg tcggccggcc 720

tgctggcatg gctgggcatc cccaacgtcc tgctggaggt tgtgccagac gtaccccccg 780

agtáctactc ctgccggttc agagtgaaca agctgccacg cttcctcggg agtgacaacc 840

aggacacctt cttcacaagc accaagaggc accaaattct,gtttgagatc ctggccaaga 900

ccccgtatgg ccacgagaag aaaaacctgc ttgggatcca ccagctgctg gcagagggtg 960

tcctcagtgc cgccttcccc ctgcatgacg gccccttcaa gacgccccca gagggcccgc 1020

aggctccacg cctcaaccag cgccaagtcc ttttccagca ctgggcgcgc tggggcaagt 1080

ggaacaagta ccagcccctg gaccacgtgc gcaggtactt cggggagaag gtggccctct 1140

acttcgcctg gctcgggttt tacacaggct ggctcctgcc agcggcagtg gtgggcacac 1200

tggtgttcct ggtgggctgc ttcctggtgt tctcagacat acccacgcag gaactgtgtg 1260

gcagcaagga cagcttcgag atgtgcccac tttgcctcga ctgccctttc tggctgctct 1320

ccagcgcctg tgccctggcc caggccggcc ggctgttcga ccacggcggc accgtgttct 1380

tcagcttgtt catggcactg tgggccgtgc tgctgctgga gtactggaag cggaagagcg 1440

ccacgctggc ctaccgctgg gactgctctg actacgagga cactgaggag aggcctcggc 1500

cccagtttgc cgcctcagcc cccatgacag ccccgaaccc catcacgggt gaggacgagc 1560

cctacttccc tgagaggagc cgcgcgcgcc gcatgctggc cggctctgtg gtgatcgtgg 1620

tgatggtggc cgtggtggtc atgtgcctcg tgtctatcat cctgtaccgt gccatcatgg 1680

ccatcgtggt gtccaggtcg ggcaacaccc ttctcgcagc ctgggcctct cgcatcgcca 1740

gcctcacggg gtctgtagtg aacctcgtct tcatcctcat cctctccaag atctatgtat 1800

ccctggccca cgtcctgaca cgatgggaaa tgcaccgcac ccagaccaág ttcgaggacg 1860

ccttcaccct caaggtgttc atcttccagt tcgtcaactt ctactcctca cccgtctaca 1920

ttgccttctt caagggcagg tttgtgggat acccaggcaa ctaccacacc ttgtttggag 1980

tccgcaatga ggagtgcgcg gctggaggct gcctgatcga gctggcacag gagctcctgg 204D

tcatcatggt gggcaagcag gtcatcaaca acatgcagga ggtcctcatc ccgaagctaa 2100agggctggtg gcagaagttc cggcttcgct ccaagaagag gaaggcggga gcttctgcag 2160gggctagcca ggggccctgg gaggacgact atgagcttgt gccctgtgag ggtctgtttg 2220acgagtacct ggaaatggtg ctgcagttcg. gcttcgtcac catcttcgtg gccgcctgtc 2280cgctcgcgcc gctcttcgcc ctgctcaaca actgggtgga gatccgcttg gacgcgcgca 2340agttcgtctg cgagtaccgg cgccctgtgg ccgagcgcgc ccaggacatc ggcatctggt 2400tccacatcct ggcgggcctc acgcacctgg cggtcatcag caacgccttc ctcctggcct 2460tctcgtccga cttcctgccg cgcgcctact accggtggac ccgcgcccac gacctgcgcg 2520gcttcctcaa cttcacgctg gcgcgagccc cgtcctcctt cgccgccgcg cacaaccgca 2S80cgtgcaggta tcgggctttc cgggatgacg atggacatta ttcccagacc tactggaatc 2640ttcttgccat ccgcctggcc ttcgtcattg tgtttgagca tgtggttttc tccgttggcc 2700gcctcctgga cctcçtggtg cctgacatec cagagtctgt ggagatcaaa gtgaagcggg 2760agtactacct ggctaagcag gcactggctg agaatgaggt tctttttgga acgaacggaa 2820caaaggatga gcagcccaag ggctcagagc tcagctcccarctggacaccc ttcacggttc 2880ccaaggccag ccagctgcag cagtgacgcc tggaaggaca tctggtggtc cttaggggag 2940tggcccctcc tgagccctgc. gagcagcgtc cttttcctct tccctcaggc agcggctgtg 3000tgaaccgctg gctgctgttg tgcctcatct ctgggcacat tgcctgcttc cccccagcgc 3060cggcttctct cctcagagcg cctgtcactc catccccggc agggagggac cgtcagctca 3120caaggccctc itttgtttcct gctcccagac ataagcccaa ggggcccctg cacccaaggg 3180accctgtccc tcggtggcct ccccaggccc ctggacacga cagttctcct caggcaggtg 3240ggctttgtgg tcctcgccgc ccctggccac atcgccctct. cctcttacac ctggtgacct 3300tcgaatgt 3308

<210> 99<211> 551<212> DNA

<213> humano<400> 99

accccatccg ctggctctca cccctcggag acgctcgccc gacagcatag tacttgccgc 60ccagçcacgc ccgcgcgcca gccaccatgc taggtaacaa gcgactgggg ctgtccggac 120tgaccctcgc cctgtccctg ctcgtgtgcc tgggtgcgct ggccgaggcg tacccctcca 180agccggacaa cccgggcgag gacgcaccag cggaggacat ggccagatac tactcggcgc 240tgcgacacta catcaacctc atcaccaggc agagatatgg aaaacgatcc agcccagaga 300cactgatttc agacctcttg atgagagaaa gcacagaáaa tgttcccaga actcggcttg 360aagaccctgc aatgtggtga tgggaaatga gacttgctct ctggcctttt cctattttca 420gcccatattt catcgtgtaatgctgaattc tgcaatgtttatcatgcatt caacgagaatc cacccatcct accaatgcat gcagccactgtcctttgtca tcattgtata tatgtgtgtt taaataaagt

480540551<210> 100

<211> 1607

<212> DNA

<213> humano<400> 100

aatgactcct ttcggtaagt gcagtggaag ctgtacactg cccaggcaaa gcgtccgggc 60

agcgtaggcg ggcgacccag atcccagcca gtggacttag cccctgtttg ctcctccgat 120

aactggggtg accttggtta atattcacca gcagcctccc ccgttgcccc tctggatcca 180

ctgcctaaat acggacgagg acagggccct gtctcctcag cttcaggcac caccactgac 240

ctgggacagt gaatcgacaa tgccgtcttc tgtctcgtgg ggcatcctcc tgctggcagg 300

cctgtgctgc ctggtccctg tctccctggc tgaggatccc cagggagatg ctgcccagaa 360

gacagataca tcccaccatg atcaggatca cccaaccttc aacaagatca cccccaacct 420

ggctgagttc gccttcagcc tataccgcca gctggcacac cagtccaaca gcaccaatat 480

cttcttctcc ccagtgagca tcgctacagc ctttgcaatg ctctccctgg ggaccaaggc 540

tgacactcac gatgaaatcc tggagggcct gaatttcaac ctcacggaga ttccggaggc 600

tcagatccat gaaggcttcc aggaactcct ccgtaccctc aaccagccag acagccagct 660

ccagctgacc accggcaatg gcctgttcct cagcgagggc ctgaagctag tggataagtt 720

tttggaggat gttaaaaagt tgtaccactc agaagccttc actgtcaact tcggggacac 780

cgaagaggcc aagaaacaga tcaacgatta cgtggagaag ggtactcaag ggaaaattgt 840

ggatttggtc aaggagcttg acagagacac agtttttgct ctggtgaatt acatcttctt 900

taaaggcaaa tgggagagac cctttgaagt caaggacacc gaggaagagg acrtccacgt 960

ggaccaggtg accaccgtga aggtgcctat gatgaagcgt ttaggcatgt ttaacatcca 1020

gcactgtaag aagctgtcca gctgggtgct gctgatgaaa tacctgggca atgccaccgc 1080

catcttcttc ctgcctgatg aggggaaact acagcacctg gaaaatgaac tcacccacga 1140

tatcatcacc aagttcctgg aaaatgaaga cagaaggtct gccagcttac atttacccaa 1200

actgtccatt actggaacct atgatctgaa gagcgtcctg ggtcaactgg gcatcactaa 1260

ggtcttcagc aatggggctg acctctccgg ggtcacagag gaggcacccc tgaagctctc 1320

caaggccgtg cataaggctg tgctgaccat cgacgagaaa gggactgaag ctgctggggc 1380

catgttttta gaggccatac ccatgtctat cccccccgag gtcaagttca acaaaccctt 1440

tgtcttctta atgattgaac aaaataccaa gtctcccctc ttcatgggaa aagtggtgaa 1500

tcccacccaa aaataactgc ctctcgctcc tcaacccctc ccctccatcc ctggccccct IStfO

ccctggatga cattaaagaa gggttgagct ggtccctgcc tgcaaaa 1607<210> 101<211> 1753<212> DNA<213> humano

<400> 101

cagccccgcc cctacctgtg gaagcccagc cgcccgctcc cgcggataaa aggcgcggag 60

tgtccccgag gtcagcgagt gcgcgctcct cctcgcccgc cgctaggtcc atcccggccc 120

agccaccatg tccatccact tcagctcccc ggtattcacc tcgcgctcag ccgccttctc 180

gggccgcggc gcccaggtgc gcctgagctc cgctcgcccc ggcggccttg gcagcagcag 240

cctctacggc ctcggcgcct cacggccgcg cgtggccgtg cgctctgcct atgggggccc 300

ggtgggcgcc ggcatccgcg aggtcaccat taaccagagc ctgctggccc cgctgcggct 360

ggacgccgaç.ccctccctcc agcgggtgcg ccaggaggag agcgagcaga tcaagaccct 420

caacaacaag tttgcctcct tcatcgacaa ggtgcggttt ctggagcagc agaacaagct 480

gctggagacc aagtggacgc tgctgcagga gcagaagtcg gccaagagca gccgcctccc 540

agacatcttt gaggcccaga ttgctggcct tcggggtcag ettgaggcac tgcaggtgga 600

tgggggccgc ctggaggcgg agctgcggag catgcaggat gtggtggagg acttcaagaa 660

taagtacgaa gatgaaatta accaccgcac agctgctgag aatgagtttg tggtgctgaa 720

gaaggatgtg gatgctgcct acatgagcaa ggtggagctg gaggccaagg tggatgccct 780

gaatgatgag atcaacttcc tcaggaccct caatgagacg gagttgacag agctgcagtc 840

ccagatctcc gacacatctg tggtgctgtc catggacaac agtcgctccc tggacctgga 900

cggcatcatc gctgaggtca aggcgcagta tgaggagatg gccaaatgca gccgggctga 960

ggctgaagcc tggtaccaga ccaagtttga gaccctccag gcccaggctg ggaagcatgg 1020

ggacgacctc cggaataccc ggaatgagat ttcagagatg aaccgggcca tccagaggct 1080

gcaggctgag atcgacaaca tcaagaacca gcgtgccaag ttggaggccg ccattgccga 1140

ggctgaggag cgtggggagc tggcgctcaa ggatgctcgt gccaagcagg aggagctgga 1200

agccgccctg cagcggggca agcaggatat ggcacggcag ctgcgtgagt accaggaact 1260

catgagcgt:g aagctggccc tggacatcga gatcgccacc taccgcaagc tgctggaggg 1320

cgaggagagc cggttggctg gagatggagt gggagccgtg aatatctctg tgatgaattc 1380

cactggtggc agtagcagtg gcggtggcat tgggctgacc ctcgggggaa ccatgggcag 1440

caatgccccg agcttctcca gcagtgcggg tcctgggctc ctgaaggctt attccatccg 1500

gaccgcatcc gccagtcgca ggagtgcccg cgactgagcc gcctcccacc actccactcc 1560

tccagccacc acccacaatc acaagaagai tcccacccct gcctcccatg cctggtccca 1620

agacagtgag acagtctgga aagtgatgtc agaatagctt ccaataaagc agcctcattc 1680

tgaggcctga gtgatccacg tgaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1740

aaaaaaaaaa aaa 1753<210> 102

<211> 2276

<212> DNA

<213> humano

<400> 102

aagcccagca gccccggggc ggatggctcc ggccgcctgg ctccgcagcg cggccgcgcg 60cgccctcctg cccccgatgc tgctgctgct gctccagccg ccgccgctgc tggcccgggc 12Ctctgccgccg gacgcccacc acctccatgc cgagaggagg gggccacagc cctggcatgc 180agccctgccc agtagcccgg cacctgcccc tgccacgcag gaagcccccc ggcctgccag 240cagcctcagg cctccccgct gtggcgtgcc cgacccatct gatgggctga gtgcccgcaa 300ccgacagaag aggttcgtgc tttctggcgg gcgctgggag aagacggacc tcacctacag 360gatccttcgg ttcccatggc agttggtgca ggagcaggtg cggcagacga tggcagaggc 420cctaaaggta tggagcgatg tgacgccact cacctttact gaggtgcacg agggccgtgc 480tgacatcatg atcgacttcg ccaggtactg gcatggggac gacctgccgt ttgatgggcc 540tgggggcatc ctggcccatg ccttcttccc caagactcac cgagaagggg atgtccactt 600cgactatgat gagacctgga ctatcgggga tgaccagggc acagacctgc tgcaggtggc 660agcccatgaa tttggccacg tgctggggct gcagcacaca acagcagcca aggccctgat 720gtccgccttc tacacctttc gctacccact gagtctcagc ccagatgact gcaggggcgt 780tcaacaccta tatggccagc cctggcccac tgtcacctcc aggaccccag ccctgggccc 840ccaggctggg átagacacca atgagattgc accgctggag ccagacgccc cgccagatgc 900ctgtgaggcc tcctttgacg cggtctccac catccgaggc gagctctttt tcttcaaagc 960gggctttgtg tggcgcctcc Qtgggggcca gctgcagccc ggctacccag cattggcctc 1020tcgccactgg cagggactgc ccagccctgt ggacgctgcc ttcgaggatg cccagggcca 1080catttggttc ttccaaggtg ctcagtactg ggtgtacgac ggtgaaaagc cagtcctggg 1140ccccgcaccc ctcaccgagc tgggcctggt gaggttcccg gtccatgctg ccttggtctg 1200gggtcccgag aagaacaaga tctacttctt ccgaggcagg gactactggc gtttccaccc 1260cagcacccgg cgtgtagaca gtcccgtgcc ccgcagggcc actgactgga gaggggtgcc 1320ctctgagatc gacgctgcct tccaggatgc tgatggctat gcctacttcc tgcgcggccg 1380cctctactgg aagtttgacc ctgtgaaggt gaaggctctg gaaggcttcc cccgtctcgt 1440gggtcctgac ttctttggct gtgccgagcc tgccaacact tt-cctctgac catggcttgg I6OO

atgccctcag gggtgctgac ccctgccagg ccacgaatat caggctagag acccatggcc 1560

atctttgtgg ctgtgggcac caggcatggg actgagccca tgtctcctca gggggatggg 1620

gtggggtaca accaccatga caactgccgg gagggccacg caggtcgtgg tcacctgcca 1680

gcgactgtct cagactgggc agggaggctt tggcatgact taagaggaag ggcagtcttg 1740

ggcccgctat gcaggtcctg gcaaacctgg ctgccctgtc tccatccctg tccctcaggg 1800

tagcaccatg gcaggactgg gggaactgga gtgtccttgc tgtatccctg ttgtgaggtt 1860

ccttccaggg gctggcactg aagcaagggt gctggggccc catggccttc agccctggct 1920

gagcaactgg gctgtagggc agggccactt cctgaggtca ggtcttggta ggtgcctgca 1980

tctgtctgcc ttctggctga caatcctgga aatctgttct ccagaatcca ggccaaaaag 2040

ttcacagtca aatggggagg ggtattcttc atgcaggaga ccccaggccc tggaggctgc 2100

aacatacctc aatcctgtcc caggccggat cctcctgaag cccttttcgc agcactgcta 2160

tcctccaaag ccattgtaaa tgtgtgtaca-gtgtgtataa accttcttct tctttttttt 2220

tttttaaact gaggattgtc attaaacaca gttgttttct aaaaaaaaaa aaaaaa 2276

<210> 103

<211> 7381

<212> DNA

<213> humano<400> 103'

tacagcccca aggtcgctcc ctctggggcc ctttcttccc cattcttccc agcagcccaa 60

agctctggtg ggacaggggc agcccctggg gagggaggag aggacccagg aacccggcta 120

ggagggtggc ccacccattt ccagtgtgac ctgttcccat tcccccatgt ctcctcccat 180

ccctcccgcc actcagctca ggctgatgag aagcagagca acgggtgtat cggtgttttc 240

tttcctggtg gggtagtggg gtggggctga ggagagaaaa gggtgattag cgtggggccc 300

cgecctcttt tgtcctcttc ccaggttccc tggccccttc ggagaaacgc acttggttcg 360

ggccagccgc ctgaggggac gggctcacgt ctgctcctca cactgcagct gctgggccgt 420

ggagcttccc cagggagcca gggggacttt tgccgcagcc atgaaggggg cacgctggag 480

gagggtcccc tgggtgtccc tgagctgcct gtgtctctgc ctcctt-ccgc atgtggtccc 540

aggaaccaca gaggacacat taataactgg aágtaaaact cctgccccag tcacctcaac 600

aggctcaaca acagcgacac tagagggaca atcaactgca gcttcttcaa ggacctctaa 660

tcaggacata tcagcttcat ctcagaacca ccagactaag agcacggaga ccaccagcaa 720

agctcaaacc gacaccctca cgcagatgat gacatcaact cttttttctt ccccaagtgt 780

acacaatgtg atggagactg ttacgcagga gacagctcct ccagatgaaa tgaccacatc 840atttccctcc agtgtcacca acacactcat gatgacatca aagactataa caatgacaac 900

ctccacagac tccactcttg gaaacacaga agagacatca acagcaggaa ctgaaagttc 960

taccccagtg acctcagcag tctcaataac agctggacag gaaggacaat cacgaacaac 1020

ttcctggagg acctctatcc aagacacatc agcttcttct cagaaccact ggactcggag 10δ0

cacgcagacc accagggaat ctcaaaccag caccctaaca cacagaacca cttcaactcc 1140

ttctttctct ccaagtgtac acaatgtgac agggactgtt tctcagaaga catctccttc 1200

aggtgaaaca gctacctcat ccctctgtag tgtcacaaac acatccatga tgacatcaga 1260

gaagataaca gtgacaacct ccacaggctc cactcttgga aacccagggg agacatcatc 1320

agtacctgtt actggaagtc ttatgccagt cacctcagca gccttagtaa cagttgatcc 1380

agaaggacaa tcaccagcaa ctttctcaag gacttctact caggacacaa cagctttttc 1440

taagaaccac cagactcaga gcgtggagac caccagagta tctcaaatca.acaccctcaa 1500

caccctcaca ccggttacaa catcaactgt tttatcctca ccaagtggat tcaacccaag 1560

tggaacagtt tctcaggaga cattcccttc tggtgaaaca accatctcat ccccttccag 1620

tgtcagcaat acattcctgg taacatcaaa ggtgttcaga atgccaatct ccagagactc 1680

tactcttgga aacacagagg agacatcact atctgtaagt ggaaccattt ctgcaatcac 1740

ttccaaagtt tcaaccatat ggtggtcaga cactctgtca acagcactct cccccagttc 1800

tctacctcca aaaatatcca cagctttcca cacccagcag agtgaaggtg cagagaccac 1860

aggacggcct catgagagga gctcattctc tcçaggtgtg tctcaagaaa tatttactcc 1920

acatgaaaca acaacatggc cttcctcatt ctccagcaaa ggccacacaa cttggtcaca 1980

aacagaactg ccctcaacat caacaggtgc tgccactagg cttgtcacag gaaatccatc 2040

tacaagggca gctggcacta ttccaagggt cccctctaag gtctcagcaa taggggaacc 2100

aggagagccc accacatact cctcccacag cacaactctc ccaaaaacaa caggggcagg 2160

cgcccagaca caatggacac aagaaacggg gaccactgga gaggctcttc tcagcagccc 2220

aagctatagt gtgattcaga tgataaaaac ggccacatcc ccatcttctt cacctatgct 2280

-ggatagacac acatcacaac aaattacaac ggcaccatca acaaatcatt caacaataca 2340

ttccacaagc acctctcctc aggaatcacc agctgtttcc caaaggggtc acactcgagc 2400

cccgcagacc acacaagaat cacaaaccac gaggtccgtc tcccccatga ctgacaccaa 2460

gacagtcacc accccaggtt cttccttcac agccagtggg cactcgccct cagaaattgt 2520

tcctcaggac gcacccacca taagtgcagc aacaaccttt gccccagctc ccaccgggaa 2530

tggtcacaca acccaggccc cgaccacagc actgcaggca gcacccagca gccatgatgc 2640

caccctgggg ccctcaggag gcacgtcact ttccaaaaca ggtgccctta ctctggccaa 2700

ctctgtagtg tcaacaccag ggggcccaga aggacaatgg acatcagcct ctgccagcac 2760ctcacctgac acagcagcag ccatgaccca tacccaccag gctgagagca cagaggcctc 282Õ

tggacaaaca cagaccagcg aaccggcctc ctcagggtca cgaaccacct cagcgggcac 2880

agctacccct tcctcatccg gggcgagtgg cacaacacct tcaggaagcg aaggaatatc 2940

cacctcagga gagacgacaa ggttttcatc aaacccctcc agggacagtc acacaaccca 3000

gtcaacaacc gaattgctgt ccgcctcagc cagtcatggt gccatcccag taagcacagg 3060

aatggcgtct tcgatcgtcc ccggcacctt tcatccçacc ctctctgagg cctccactgc 3120

agggagaccg acaggacagt caagcccaac ttctcccagt gcctctcctc aggagacagc 3180

cgccatttcc cggatggccc agactcagag gacaggaacc agcagagggt ctgacactat 3240

cagcctggcg tcccaggcaa ccgacacctt ctcaacagtc ccacccacac ctccatcgat 3300

cacatccagt gggcttacat ctccacaaac ccagacccac actctgtcac cttcagggtc 3360

tggtaaaacc ttcaccacgg ccctcatcag caacgccacc cctcttcctg tcaccagcac 3420

ctcctcagcc tccacaggtc acgccacccc tcttgçtgtc agcagtgcta cctcagcttc 3480

cacagtatcc tcggactccc ctctgaagat ggaaacatca ggaatgacaa caccgtcact 3540

gaagacagac ggtgggagac gcacagccac atcaccaccc cccacaacct cccagaccat 3600

catttccacc attcccagca ctgccatgca cacccgctcc acagctgccc ccatccccat 3660

cctgcctgag agaggagttt ccctcttccc ctatggggca ggcgccgggg acctggagtt 3720

cgtcaggagg accgtggact tcacctcccc actcttcaag ccggcgactg gcttccccct 3780

tggctcctct ctccgtgatt ccctctactt cacagacaat ggccagatca tcttcccaga 3840

gtcagactac cagattttct cctaccccaa cccactccca acaggcttca caggccggga 3900

ccctgtggcc ctggtggctc cgttctggga cgatgctgac ttctccactg gtcgggggac 3960

cacattttat caggaatacg agacgttcta tggtgaacac agcctgctag tccagcaggc 4020

cgagtcttgg attagaaaga tgacaaacaa cgggggctac aaggccaggt gggccctãaa 4080

ggtcacgtgg gtcaatgccc acgcctatcc tgcccagtgg accctcggga gcaacaccta 4140

ccaagccatc ctctccacgg acgggagcag gtcctatgcc ctgtttctct accagagcgg 4200

tgggatgcag tgggacgtgg cccagcgctc aggcaacccg gtgctcatgg gcttctctag 4260

tggagatggc tatttcgaaa acagcccact gatgtcccag ccagtgtggg agaggtatcg 4320

ccctgataga ttcctgaatt ccaactcagg cctccáaggg ctgcagttct acaggctaca 4380

ccgggaagaa aggcccaact accgtctcga gtgcctgcag tggctgaaga gccagcctcg 4440

gtggcccagc tggggctgga accaggtctc ctgcccttgt tcctggcagc agggacgacg 4500

ggacttacga ttccaacccg tcagcatagg tcgctggggc ctcggcagta ggcagctgtg 4560

cagcttcacc tcttggcgag gaggcgtgtg ctgcagctac gggccctggg gagagtttcg 4620tgaaggctgg cacgtgcagc gtccttggca gttggcccag gaactggagc cacagagctg 4<680

gtgctgccgc tggaatgaca agccctacct ctgtgccctg taccagcaga ggcggcccca 4740

cgtgggctgt gctacataca ggcccccaca gcccgcctgg atgttcgggg acccccacat 4800caccaccttg gatggtgtca gttacacctt caatgggctg çgggacttcc tgctggtcgg 4860

ggcccaagac gggaactcct ccttcctgct tcagggccgc accgcccaga ctggctcagc 4920

ccaggccacc aacttcatcg cctttgcggc tcagtaccgc tccagcagcc tgggccccgt 4980

eacggtccaa tggctccttg agcctcacga cgcaatccgt gtcctgctgg ataaccagac 5040

tgrgacattt cagcctgacc atgaagacgg cggaggccag gagacgttca acgccaccgg 5100

agtcçtcctg agçcgcaacg gctctgaggt ctcggccagc ttcgacggct gggccaccgt 5160

ctcggtgatc gcgctctcca acatcctcca cgcctccgcc agcctcccgc ccgagtacca 5220

gaaccgcacg gaggggctcc tgggggtctg gaataacaat ccagaggacg acttcaggat 5280

gcccaatggc tccaccattc ccccagggag ccctgaggag atgcttttcc actttggaat. 5340gacctggcag atcaacggga caggcctcct tggcaagagg.aatgaccagc tgccttccaa 5400

cttcacccct gttttctact cacaactgca aaaaaacagc tcctgggctg aacatttgat 5460ctccaactgt gacggagata gctcatgcat ctatgacacc ctggccctgc gcaacgcaag 5520

catc-ggactt cacacgaggg aagtcagtaa aaactacgaç caggcgaacg ccaccçtcaa 5580

tcagtacccg ccctccatca atggtggtcg tgtgattgaa gcctacaagg ggcagaccac 5640

gctgattcag tacaccagca atgctgagga tgccaacttc acgctcagag acagctgcac 5700

cgacttggag ctctttgaga atgggacgtt gctgtggaca cccaagtcgc tggagccatt 5760

cactctggag attctagcaa gaagtgccaa gattggcttg gcatctgcac tccagcccag 5820

gactgtggtc tgccattgca atgcagagag ccagtgtttg tacaatcaga ccagcagggt 5880

gggcaactcc tccctggagg tggctggctg caagtgtgac gggggcacct tcggccgcta 5940

ctgcgagggc tccgaggatg cctgtgagga gccgtgcttc ccgagtgtcc actgcgttcc 6000

tgggaagggc tgcgaggcct gccctccaaa cctgactggg gatgggcggc actgtgcggc 6060

tctggggagc tctttcctgt gtcagaacca gtcctgccct gtgaattact gctacaatca 6120

aggccactgc tacatctccc agactctggg ctgtcagccc atgtgcacct gccccccagc 6180

cttcactgac agccgctgct tcctggctgg gaacaacttc agtccaactg tcaacctaga 6240

acttccctta agagtcatcc agctcttgct cagtgaagag gaaaatgcct ccatggcaga 6300ggtcaacgcc tcggtggcat acagactggg gaccctggac atgcgggcct ttctccgcaa 6360

cagccaagtg gaacgaatcg attctgcagc accggcctcg ggaagcccca tccaacactg 6420

gatggtcatc tcggagttcc agtaccgccc tcggggcccg gtcattgact tcctgaacaa 6480

ccagctgctg gccgcggtgg tggaggcgtt cttataccac gttccacgga ggagtgagga 6540gcccaggaac gacgtggtct tccagcccat ctccggggaa gacgtgcgcg atgtgacagc 6600

cctgaacgtg agcacgctga aggcttactt cagatgcgat ggctacaagg gctacgacct 6660

ggtctacagc ccccagagcg gcttcacctg cgtgtccccg tgcagtaggg gctactgtga 672Ü

ccatggaggc cagtgccagc acctgcccag tgggccccgc tgcagctgtg tgtccttctc 6780

catctacacg gcctggggcg agcactgtga gcacctgagc atgaaactcg acgcgttctt 6840

cggcatcttc tttggggccc tgggcggcct cttgctgctg ggggtcggga cgttcgtggt Í5900

cctgcgcttc tggggttgct ccggggccag gttctcctat ttcctgaact cagctgaggc 6960

cttgccttga aggggcagct gtggcctagg ctacctcaag actcacctca tccttaccgc 7020

acatttaagg cgccattgct tttgggagac tggaaaaggg aaggtgactg aaggctgtca 7080

ggattcttca aggagaatga atactgggaa tcaagacaag actatacctt atccataggc 7140

gcaggtgcac agggggaggc cataaagatc aaacatgcat ggatgggtcc tcacgcagac 7200

acacccacag aaggacacta gcctgtgcac gcgcgcgtgc acacacacac acacacacac 7260

gagttcataa tgtggtgatg gccctaagtt aagcaaaatg cttctgcaca caaaactctc 7320tggtttactt caaattaact ctatttaaat aaagtctctc tgactttttg tgtctccaaaa

7380

7381

<210> 104<211> 2323<212> DNA<213> humano

<400> 104

agctatgatc gcaacacctt ggtggccatc gtggtgggtg tggggcgcct catcactggc 60

atggaccgag gcctcatggg catgtgtgtc aacgagcggc gacgcctcat tgtgcctccc 120

cacctgggct atgggagcat cggcctggcg gggctcattc caccggatgc caccctctac 180

ttcgatgtgg ttctgctgga tgtgtggaac aaggaagaca ccgtgcaggt gagcacattg 240

ctgcgcccgc cccactgccc ccgcatggtc caggacggcg actttgtccg ctaccactac 300

aatggcaccc tgctggacgg cacctccttc gacaccagct acagtaaggg cggcacttat 360

gacacctacg tcggctctgg ttggctgatc aagggcatgg accaggggct gctgggcatg 420

tgtcctggag agagaaggaa gattatcatc cctccattcc tggcctatgg cgagaaaggc 480

tatgggacag tgatcccccc acaggcctcg ctggtctttc acgtcctcct gattgacgtg 540

cacaacccga aggacgctgt ccagctagag acgctggagc tcccccccgg ctgtgtccgc 600

agagccgggg ccggggactt catgcgctac cactacaatg gctccttgat ggacggcacc 660

ctcttcgatt ccagctactc ccgcaaccac acctacaata cctatatcgg gcagggttac 720

atcatccccg ggatggacca ggggctgcag ggtgcxtgca tqggggaacg ccggagaatt 780accatccccc cgcacctcgc ctatggggag aatggaactg gagacaagat ccctggctct 540

gccgtgctaa tcttcaacgt ccatgtcatt gacttccaca accctgcgga tgtggtggaa 900

atcaggacac tgtcccggcc atccgagacc tgcaatgaga ccaccaagct tggggacttt 960

gttcgatacc attacaactg ttctttgctg gacggcaccc agctgttcac ctcgcatgac 1020

tacggggccc cccaggaggc gactctcggg gccaacaagg tgatcgaagg cctggacacg 1080

ggcctgcagg gcatgtgtgt gggagagagg cggcagctca tcgtgccccc gcacctggcc 1140

cacggggaga gtggagcccg gggagtccca ggcagtgctg tgctgctgtt tgaggtggag 1200

ctggtgtccc gggaggatgg gctgcccaca ggctacctgt ttgtgtggca caaggaccct 1260

cctgccaacc tgtttgaaga catggacctc aacaaggatg gcgaggtccc tccggaggag 1320

ttctccacct tcatcaaggc tcaagtgagt gagggcaaag gacgcctcat gcctgggcag 1380

gaccctgaga aaaccatagg agacatgttc cagaaccagg accgcaacca ggacggcaag 1440

atcacagtcg acgagctcaa gctgaagtca gatgaggacg aggagcgggt ccacgaggag 1500

ctctgagggg cagggagcct ggccaggcct gagacacaga ggcccactgc gagggggaca IS60

gtggcggtgg gactgacctg ctgacagtca ccctccctct gçtgggatga ggtccaggag 1620

ccaactaaaa caatggcaga ggagacatct ctggtgttcc caccacccta gatgaaaatc 1680

cacagcacag acctctaccg tgtttctctt ccatccctaa accacttcct taaaatgttt 1740

ggatttgcaa agccaatttg gggcctgtgg agcctggggt tggatagggc catggctggt 1800

cccccaccat acctcccctc cacatcactg acacagctga gcttgttatc catctcccca 1860

aactttctct ttctttgtac ttcttgtcat ccccactccc agcccctatt cctctatgtg 1920

acagctggct aggacccctc tgccttcctt cccaatcctg actggctcct agggaagggg 1980

aaggctcctg gagggcagcc ctacctctcc catgcccttt gccctcctcc ctcgoctcca 2040

gtggaggctg aigctgaccct gggctgctgg aggccagact gggctgtagt tagcttttca 2100

tccctaaaga aggctttccc taaggaacca tagaagagag gaagaaaaca aagggcatgt 2160

gtgagggaag ctgcttgggt gggtgttagg gctatgaaat cttggatttg gggctgaggg 222Ό

gtgggaggga gggcagagct ctgcacactc aaaggctaaa ctggtgtcag tccttttttc 2280

ctttgttcca aataaaagat taaaccaaaa aaaaaaaaaa aaa 2323

<210> 105<211> 741<212> DNA<213> humano

<400> 105 „

tcacgtgacc cgggcgcgct gcggccgccc gcgcggaccc ggcgagaggc ggcggcggga 60

gcggcggtga tggacgggtc cggggagcag cccagaggcg gggggcccac cagctctgag 120300360

cagatcatga agacaggggc ccttttgctt caggggatga ttgccgccgt ggacacagac 180tccccccgag aggtcttttt ccgagtggca gctgacatgt tttctgacgg caacttcaac 240tggggccggg ttgtcgccct tttctacttt gccagcaaac tggtgctcaa ggccctgtgcaccaaggtgc cggaactgat cagaaccatc atgggctgga cattggactt cctccgggagcggctgttgg gctggatcca agaccagggt ggttgggacg gcctcctctc ctactttggg 420

480540600

acgcccacgt ggcagaccgt gaccatcttt gtggcgggag tgctcaccgc ctcgctcaccatctggaaga agatgggctg aggcccccag ctgccttgga ctgtgttttt cctccataaattatggcatt tttctgggag gggtggggat tgggggacat gggcattttt cttacttttgtaattattgg ggggtçtggg gaaaagtggt cttgaggggg taataaacct ccttcgggac 660acaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 720aaaaaaaaaa aaaaaaaaaa a 741

<210> 106

<211> 2373

<212> DNA

<213> humano

<400> 106 „

cccaggccca ccccacccag cacccctggc gcagggactg ctggaacctg gctgtgcgcg bü

ctgtcgcttt aagacagact ctgccggcgc cgtccggagc cttagaaacc ggccccggat 120

cgcgagccgg agccggagcc ggagccgggg ccggccgggc tgctgaggcc cgagcggcag 180

gagcgcagcg cggagcgctg agccaggcgc ccagtcgcga gaagctgccg ccgcctctgc 240

ccgcccggcg ccgcagcccc gggcggtcca tggggcgggc acggcgtcgc tgcaggcgcc 300

ggcagccctg gagggcagcc gcttaggcgc tgcgctcttg tccccgcagg tcgcagccag 360

ggcggcgggg cgcgcccagc cccggcccct ggagcgcccg ccgcggtccc cacctccatg 420

gacgccttca aggggggcat gagcctggag cggctgccgg aggggctccg gccgçcgccg 480

ccgccacccc atgacatggg gcccgccttc cacctggccc ggcccgccga cccccgcgag 540

ccgctcgaga actccgccag cgagtcgtct gacacggagc tgccagagaa ggagcgcggc 600

ggggaaccca aggggcccga ggacagtggt gcgggaggca cgggctgcgg cggcgcagac 660

gacccagcca agaagaagaà gcagcggcgg caacgtacgc acttcacaag ccagcagttg 720

caagagctag aggccacgtt ccagaggaac cgctaccccg acatgagcat gagggaggag 780

atcgccgtgt ggaccaacct caccgagccg cgcgtgcggg tctggttcaa gaaccggcga

gccaagtggc gtaagcgcga gcgtaaccag cagctggacc tgtgcaaggg tggctacgtg

ccgcagttca gcggcctagt gcagccctac gaggacgtgt acgccgccgg ctactcctac

aacaactggg ccgccaagag cctggcgcca gcgccgctct ccaccaagag cttcaccttc

8409009601020ttcaactcca

tccatgacca

ctcaacaaca

tgcccgtacg

ctagccagcc

ggcccggcct

cgggccggcg

tcgcaagccc

tcccactccg

caaaaaaaaa

gatgagttgc

ggaggcccac

ggggaggacg

cctgcggact

aagttgccct

tggggcgggc

agccgcacac

atattaaggc

atctcagaac

ggctaggagg

agtcgagccg

ctctccggcc

tctgtctata

tgagcccgct

tgccgtccag

tcaacaacct

gcactcccgc

tgcggctcaa

cgggcctcaa

gccggagcgg

cagctcaccg

ggttggtttt

aaaaaaaaaa

aatttctctc

tccgcggagg

acctcgtatc

ggatgtgcgg

ctccgagcta

gttgggtttg

ggccccggcg

cacggagcga

accccagcct

tggccctctg

gcagagcaag

cgcgcccctg

tcgactaaaa

gtcgtcgcag

catgggccca

caccggctcc

ctcgccctac

gtccaaacag

cgcgtgccag

ggaagggcgc

cgccgcggac

gtgtttgctt

aaagcaaaaa

gggatggcgc

gcacgcggcg

ccgcgtcccc

ggcctggact

ggcccggccg

gggggacggt

cgçctggtag

cagcgggcag

tgagcttagc

tctgggcgaa

gggcgcggcc

tttacagcgt

aaaaaaaaaa

tocatgttct

ggcgccgtgc

tcgctcaact

agcgtctacc

cactcgtcgt

tacaacagct

gggcgcggag

ctcacacctg

ttccggaccc

gacgtcggag

gggtggtgtg

cggtaggcga

gccgcgctgg

tgcctaggat

agagcgcctt

gcccccagcc

agcctcgctg

tgcgggcctg

tgcaggccca

cagccccctc

ccagggccct

ccctgtgtat

aaa

cagcacccag

ctggcatgcc

cggccatgtc

gggacacgtg

ttggctacgg

gaccgccccg

gacgcacgcg

cgcagccccc

cactctgccc

aaaagtgccg

tgtgtgttcc

gcgccgaggc

atccggactg

ttcccgaccc

agctcgagtc

caggatcggg

gccccgcgcc

gcgggaggtg

ggccctctgc

ctcaccgccc

gcgcccactt

gttggactga

■ctccatctcc

caactcgggc

gccgggcgct

caactcgagc

cgccctgcag

ccgcac-cacg

gggccccggc

tcctcccact

tccaaaaaga

cgaaaaaatg

cacgggcccc

ccagcggccg

agtggccggg

cgtacaaacc

ggatccgtgt

cactcagtgg

ccggagccct

ggggaggtcc

tctgctcccg

gccgtgcaag

tgcacacccg

ctgtaataaa

<210><211><212><213>

<400> 107

1071314DNAhumano

1080114012001260132013801440ISOO156016201680174018001860192019802040210021602220228023402373

cgacaaccag ctagcgtgca 60gcagtcctcc ggcgaccccg 120ggcatccgag agccaagatg 180ccaccaccac caccattaca 240tggagacgat gcccctctac 300ttggaagacg acattcgccc tgatataaaa gatgatatat atgaccccac ctacaaggat 360

aaggaaggçc caagccccaa ggttgaatat gtctggagaa acatcatcct tatgtctctg 420

ctacacttgg gagccetgta tgggatcact ttgattccta cctgcaagtt ctàcacctgg 480

ctttgggggg tattctacta ttttgtcagt gccctgggca taacagcagg agctcatcgt 540

ctgtggagcc accgctcrtta caaagctcgg ctgcccctac ggctctttct gatcattgcc €00

aacacaatgg cattccagaa tgatgtctat gaatgggctc gtgaccaccg tgcccaccac 660

aagttttcag aaacacatgc tgatcctcat aattcccgac gtggcttttt cttctctcac 720

gtgggttggc tgcttgtgcg caaacaccca gctgtcaaag agaaggggag tacgctagac 780

ttgtctgacc tagaagctga gaaactggtg atgttccaga ggaggtacta caaacctggc 840

ttgctgatga tgtgcttcat cctgccçacg cttgtgccct ggtatttctg gggtgaaâct 900

tttcaaaaca gtgtgttcgt tgccactttc ttgcgatatg ctgtggtgct taatgccacc 960

tggctggtga acagtgctgc ccacctcttc ggatatcgtc cttatgacaa gaacattagc 1020

ccccgggaga atatcctggt ttcacttgga gctgtgggtg agggcttcca caactaccac 1080

cactcctttc cctatgacta ctctgccagt gagtaccgct ggcacatcaa cttcaccaca 1140

ttcttcattg attgcatggc cgccctcggt ctggcctatg accggaagaa agtctccaag 1200

gccgccatct tggccaggat taaaagaacc ggagatggàa actaaaaaaa aaaaaaaaaa 1260

aaáaaaaaaa aaaaaaaaaa aaaaaaaaaa aaaaataaaa aaaaaaaaaa aaaa 1314

Claims

1. Método de identificação de origem de uma metástase de umaorigem desconhecida, compreendendo as etapas deа. obtenção de uma amostra contendo células metastáticas;b. medição de Biomarcadores associados a, pelo menos, doiscarcinomas diferentes;c. combinação dos dados dos Biomarcadores em um algoritmo,em que o algoritmoi. normaliza os Biomarcadores contra uma referência; eii. impõe um limite de corte que otimiza a sensibilidade e especi-ficidade de cada Biomarcador1 pondera a prevalência dos carcinomas e se-leciona um tecido de origem;d. a determinação de origem com base na probabilidade maisalta, determinada pelo algoritmo, ou a determinação que o carcinoma não éderivado de um conjunto particular de carcinomas; ee. opcionalmente, a medição de Biomarcadores1 específicos para um oumais carcinomas adicionais diferentes, e a repetição das etapas c) e d) paraos Biomarcadores adicionais.

2. Método de acordo com a reivindicação 1, em que os genesMarcadores são selecionados de, pelo menos um, de um grupo correspon-dente a:i. SP-B, TTF, DSG3, KRT6F, p73H ou SFTPC;ii. F5, PSCA, ITGB6, KLK10, CLDN18, TR10 ou FKBP10; ouiii. CDH17, CDX1 ou FABP1.

3. Método de acordo com a reivindicação 2, em que os genesMarcadores são SP-B, TTF, DSG3, KRT6F, p73H ou SFTPC.

4. Método de acordo com a reivindicação 3, em que os genesMarcadores são SP-B, TTF e DSG3.

5. Método de acordo com a reivindicação 4, em que os genesMarcadores compreendem ainda ou são substituídos por KRT6F, p73H e/ouSFTPC.

6. Método de acordo com a reivindicação 2, em que os genesMarcadores são F5, PSCA1 ITGB6, KLK10, CLDN18, TR10 ou FKBP10.

7. Método de acordo com a reivindicação 6, em que os genesMarcadores são F5 e PSCA.

8. Método de acordo com a reivindicação 7, em que os genesMarcadores compreendem ainda ou são substituídos por ITGB6, KLK10,CLDN18, TR10 e/ou FKBP10.

9. Método de acordo com a reivindicação 1, em os genes Mar-cadores são CDH17, CDX1 ou FABP1.

10. Método de acordo com a reivindicação 9, em que o geneMarcador éCDH17.

11. Método de acordo com a reivindicação 10, em que o geneMarcador compreende ainda ou é substituído por CDX1 e/ou FABP1.

12. Método de acordo com uma das reivindicações 1 a 11, emque a expressão gênica é medida usando, pelo menos, uma indicada pelasSEQ ID Nos: 11 a 58.

13. Método de acordo com a reivindicação 2, em que os genesMarcadores são selecionados ainda entre Marcadores específicos de sexo,selecionado de, pelo menos um, entrei. no caso de um paciente masculino, KLK3, KLK2, NGEP ouNPY; ouii. no caso de paciente feminina, PDEF, MGB, PIP, B305D, B726ou GABA-Pi; e/ou WT1, PAX8, STAR ou EMX2.

14. Método de acordo com a reivindicação 13, em que o geneMarcador é KLK2.

15. Método de acordo com a reivindicação 14, em que o geneMarcador é KLK3.

16. Método de acordo com a reivindicação 15, em que o geneMarcador compreende ainda ou é substituído por NGEP e/ou NPY.

17. Método de acordo com a reivindicação 13, em que os genesMarcadores são PDEF, MGB, PIP, B305D, B726 ou GABA-Pi.

18. Método de acordo com a reivindicação 17, em que os genesMarcadores são PDEF and MGB.

19. Método de acordo com a reivindicação 18, em que os genesMarcadores compreendem ainda ou são substituídos por PIP1 B305D, B726ou GABA-Pi.

20. Método de acordo com a reivindicação 13, em que os genesMarcadores são WT1, PAX8, STAR ou EMX2.

21. Método de acordo com a reivindicação 20, em que o geneMarcador é WT1.

22. Método de acordo com a reivindicação 21, em que o geneMarcador compreende ainda ou é substituído por PAX8, STAR ou EMX2.

23. Método de acordo com uma das reivindicações 13 a 22, emque a expressão gênica é medida usando, pelo menos, uma indicada pelasSEQ ID NOs: 11-58.

24. Método de acordo com a reivindicação 1 ou 2, compreen-dendo ainda a obtenção de informação clínica adicional, incluindo o local demetástase para determinar a origem do carcinoma.

25. Método de obtenção de conjuntos mais adequados de bio-marcadores para carcinoma, compreendendo as etapas de uso de metásta-ses de origem conhecida, a determinação de Biomarcadores para as mes-mas e a comparação dos Biomarcadores a Biomarcadores de metástases deorigem desconhecida.

26. Método para prover direção de terapia pela determinação daorigem de uma metástase de origem desconhecida, de acordo com uma dasreivindicações 1 a 3 e a identificação do tratamento apropriado para a mes-ma.

27. Método para prover um prognóstico pela determinação daorigem de uma metástase de origem desconhecida, de acordo com uma dasreivindicações 1 a 3 e a identificação do prognóstico correspondente para amesma.

28. Método para busca de Biomarcadores, compreendendo adeterminação do nível de expressão de um gene Marcador em uma metás-tase em particular, a medição de um Biomarcador para o gene Marcadorvisando a determinação da expressão do mesmo, a análise da expressão dogene Marcador, de acordo com a reivindicação 1, e a determinação se o ge-ne Marcador é eficazmente específico para o tumor de origem.

29. Composição compreendendo pelo menos uma seqüênciaisolada, selecionada entre as indicadas pelas SEQ ID Nos: 11 a 58.

30. Kit para condução de um ensaio como definido em uma dasreivindicações 1 a 3, compreendendo reagentes de detecção de Biomarca-dores.

31. Microarranjo ou chip de gene para condução do método co-mo definido em uma das reivindicações 1 a 3.

32. Portfólio diagnóstico/prognóstico, compreendendo seqüên-cia isoladas de ácido nucleico, seus complementos ou partes dos mesmos,de uma combinação de genes como definidos em uma das reivindicações 2a 11 ou 13 a 22, em que a combinação é suficiente para medir ou caracteri-zar a expressão gênica em uma amostra biológica com células metastáticas,em relação a células de carcinomas diferentes ou de tecido normal.

33. Método de acordo com uma das reivindicações 2 a 11 ou 13a 22, compreendendo ainda a medição da expressão de pelo menos um ge-ne, na amostra, cuja expressão é constitutiva.