WO2005093631A1 - 特異的塩基配列探索方法 - Google Patents

特異的塩基配列探索方法 Download PDF

Info

Publication number
WO2005093631A1
WO2005093631A1 PCT/JP2005/005290 JP2005005290W WO2005093631A1 WO 2005093631 A1 WO2005093631 A1 WO 2005093631A1 JP 2005005290 W JP2005005290 W JP 2005005290W WO 2005093631 A1 WO2005093631 A1 WO 2005093631A1
Authority
WO
WIPO (PCT)
Prior art keywords
base sequence
base
exon
sequence
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2005/005290
Other languages
English (en)
French (fr)
Inventor
Shinichi Morishita
Tomoyuki Yamada
Yuki Naito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BIO-THINK TANK Co Ltd
Bio Think Tank Co Ltd
Original Assignee
BIO-THINK TANK Co Ltd
Bio Think Tank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BIO-THINK TANK Co Ltd, Bio Think Tank Co Ltd filed Critical BIO-THINK TANK Co Ltd
Priority to US10/593,753 priority Critical patent/US20070202504A1/en
Priority to JP2006511480A priority patent/JP4991287B2/ja
Priority to EP05721340A priority patent/EP1732021A4/en
Publication of WO2005093631A1 publication Critical patent/WO2005093631A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to a method, an apparatus, a program, and the like for searching for a base sequence that specifically appears in a base sequence of a gene.
  • DNA has a structure in which nucleotides including bases of adenine (A), cytosine (C), guanine (G), and thymine (T) are arranged side by side.
  • a and T and G and C form a double helix structure.
  • the nucleotide sequence of the DNA that expresses the gene (hereinafter referred to as the “gene sequence”). Transcribed into RNA (Ribonucleic Acid), spliced to produce mRNA (messenger RNA), and the protein is synthesized. It has been known.
  • RNA is a nucleic acid having D-ribose as a sugar component and adenine (A), cytosine (C), guanine (G), and peracil (U) as bases.
  • A adenine
  • C cytosine
  • G guanine
  • U peracil
  • RNA interference is a phenomenon in which the presence of double-stranded RNA in a cell destroys the mRNA of a specific sequence and suppresses gene expression. This phenomenon was first discovered in experiments with nematode cells. Later, this phenomenon became known to occur in mammalian cells, and attracted attention. This is because the function of a specific gene can be investigated by artificially causing RNA interference to suppress the function of a specific gene. The discovery of RNA interference has also given rise to the possibility of developing drugs that exert the effect of suppressing the action of specific genes.
  • FIG. 1 is a diagram schematically showing the process of RNA interference.
  • RNA interference is thought to occur through the following processes.
  • SiRNAs of approximately 21 to 23 base pairs in length ( short interfering RNA) 101 binds to the multi-protein complex and forms RISC (
  • RNA-induced silencing complex 102 is formed.
  • RISC binds to mRNA103 having homology to the siRNA, and degrades the mRNA so that the mRNA does not function (in FIG. 1, fragments 104 and 105 represent fragments formed by degrading mRNA).
  • two base sequences have homology means that two base sequences have a complementarity or incomplete complementarity.
  • complementarity means that pairs of A and T, G and C, and A and U are completely formed in the entire two base sequences. Therefore, homology refers to the occurrence of a pair other than A and T, G and C, and A and U in a part of two base sequences other than base pairs having three types of complementarity!
  • RNA interference homology is often determined to be 80% or more, preferably 90% or more, and more preferably 95% or more.
  • the number of base sequences of the two base sequences is considered. The presence or absence of homology between them may be determined. It is also known that G and U may form pairs with three types of complementary base pairs, A and T, G and C, and A and U. In some cases, the presence or absence of base pairs between U and U is also taken into account to determine the presence or absence of homology.
  • microarray is a kind of synthesized DNA chip on a base plate such as glass oligo DNA of about 15 to 30 bases in length (e.g., Non-Patent Document 2 see.) 0
  • FIG. 2 illustrates processes such as gene analysis and genetic diagnosis using a microarray.
  • oligo DNA on the microarray that is complementary or homologous to that DNA Are combined (hybridized) (reference 204).
  • the type of DNA (202) and the like are determined by detecting the fluorescence with the fluorescent dye of the label to determine where the oligo DNA hybridized.
  • FIG. 2 several oligo DNAs are not shown on the microarray, but in the actual microarray, oligo DNAs are arranged in the order of 10,000 in a region of about 0.5 inch in length and width.
  • Non-Patent Document 1 Angela Reynolds et al., ⁇ Rational siRNA design for RNA interference " ⁇ Nature Biotechnology ⁇ Published online 1 February 20 04.
  • Non-Patent Document 2 Naoki Sugimoto, “Genetic Chemistry”, 19 pages, published by Kagaku Doujin Inc., 2002
  • the problem to be solved by the present invention is to efficiently determine a nucleotide sequence that specifically appears in a given gene. “Specific” means that it appears only in that gene and not in other genes. Thereby, the base sequence of the siRNA for suppressing only the given gene is obtained. In addition, an oligo DNA sequence that detects only a given gene can be obtained.
  • FIG. 3 shows the relationship between a DNA sequence and an expressed gene sequence transcribed into mRNA.
  • FIG. 3 (A) shows the power of four DNA sequences.These powers show a part of the entire DNA sequence for simplicity. It is shown as corresponding. It is known that the DNA sequence has exons, which constitute the expressed gene, and introns, which do not constitute the expressed gene. Referring to FIG. 3 (A), it is assumed that the components are exons with reference numerals 301, 302, 303, 304, 305, and 306, and that they are other component S introns.
  • FIG. 3 (B) shows the expressed gene sequence. As shown in FIG. 3 (B), one exon does not always appear in only one expressed gene sequence, but may appear in more than one expressed gene sequence. For example, exon 302 forms a certain expressed gene by being conjugated to exon 301, but forms another expressed gene by being conjugated to exon 303.
  • part of exon is exon.
  • part of exon 302 is exon 304
  • part of exon 303 is exon 305 and exon 306.
  • the base sequence of one exon or a part thereof appears in a plurality of expressed gene sequences. For this reason, for example, when searching for a nucleotide sequence that specifically appears in exon 302, there will be more than one search result, and it may be determined that the nucleotide sequence does not appear specifically. In order to eliminate the possibility, if multiple search results are obtained, it is necessary to scrutinize the search results and separately check whether the sequence power appears specifically in a specific exon .
  • One way to avoid such a phenomenon is to perform a search on the entire genome sequence. However, if such a search is performed, a base sequence that covers the exon boundaries of the expressed gene sequence will not be searched. In other words, when the expressed gene sequence is formed by joining a plurality of exons in a genomic sequence, a part of the base sequence is included in one exon, and the remaining part of the base sequence is included in another etherson. , That is, the boundary force of etason, which is a base located at the end of exon, is not searched if it is included in the base sequence, because the base sequence does not appear as it is in the genome sequence.
  • nucleotide sequence when a certain nucleotide sequence appears more than once across the boundaries of exons of an expressed gene sequence, it cannot be determined that the nucleotide sequence is not specific. Alternatively, even if a sequence that crosses the boundary of Exxon is specific, it cannot be determined that the sequence is specific.
  • the present invention provides a nucleotide sequence that specifically appears in an expressed gene (more precisely, a nucleotide sequence that specifically appears in one etason, or a nucleotide sequence that specifically appears in an expressed gene by binding to an exon. It is an object of the present invention to provide a method, an apparatus, a database, a program, and the like for efficiently detecting an emerging base sequence). Means for solving the problem
  • a search is performed using, as a database of base sequences, a union of a union of exon base sequences and a set of base sequences across exon boundaries of an expressed gene.
  • nucleotide sequence straddling the exon boundary of the expressed gene can be integrated as appropriate. Thus, the number of records in the database can be reduced.
  • a pair of bases regarded as incompatible may be specified.
  • the distribution of nonconformities may be specified.
  • An example of a distribution so specified is the length of consecutive non-incompatible bases (ie, the length of consecutive occurrences of base pairs). If this length exceeds a certain level, it is thought that in RNA interference, siRNA binds to mRNA despite the presence of mismatched nucleotide sequences. Therefore, in order to exclude such a bond, it is not compatible! Specify the length of the consecutive bases.
  • a base sequence set is generated from the base sequence of exon and the base sequence appearing at the boundary of exon, and a search is performed to determine whether the base sequence specifically appears in the expressed gene. Can be determined based on the number of search results.
  • FIG. 4 is a diagram for explaining the union of exons and the nucleotide sequence straddling the exon boundaries of the expressed gene.
  • a base sequence that straddles the boundaries of exons constituting an expressed gene is referred to as a “boundary base sequence” t.
  • FIG. 4 (A) is a diagram for explaining the union of exon base sequences.
  • FIG. 4 (A) shows four DNA sequence portions as shown in FIG. 3 (A), which show a part of one DNA sequence as a whole, and The base sequence is shown as corresponding to the top and bottom! / ⁇ .
  • Exxon 301, 302, 303, 304, 305, 306 Assume that the relationship is as shown in the diagram. That is, suppose that the exon that overlaps or is in an inclusive relation with exon 301 is exon 304 power S, and exon 303 is exon 305, 306 as the exon of exonson 302. In such a case, arrays 401, 402, and 403 are obtained as a union of these exons.
  • sequence 401 is the exon 301 itself
  • sequence 402 is the sum of the exon 302 and the exon 304.
  • This exon 304 is part of exon 302 Therefore, the array 402 becomes the exon 302 itself.
  • sequence 403 becomes exon 303 itself.
  • FIG. 4 shows a case where one exon includes another exon and has a relationship like the relationship between exon 302 and exon 304. Another relation is that the base sequences of two exons that are not included are partially overlapping. This case will be described later with reference to FIGS.
  • the lower part of FIG. 4 is a diagram for explaining a boundary base sequence.
  • the base sequence joining the right and left portions 404 and 405 of the border at the junction is the border base sequence.
  • the base sequence joining portions 406 and 407 is the boundary base sequence.
  • the length of the boundary base sequence is the length of the base sequence for which a search is performed to check whether or not the specific sequence appears in the expressed gene sequence. Assuming that the length is N, there are N-1 types of boundary base sequences.
  • FIG. 5 illustrates N-1 types of boundary base sequences. It is assumed that exon 501 and exon 502 join to constitute an expressed gene.
  • the N-lmer (“mer” is the unit of the length of the base sequence and the length of one base is defined as lmer) 503 at the right end of exon 501 and the lmer at the left end of Etherson 502 By joining part 504, one boundary base sequence is obtained.
  • These N-1 base sequences do not have an inclusion relationship but have a partially overlapping relationship, and can be combined into one, as in the case of obtaining the union of exons.
  • FIG. 6 is a diagram for explaining the integration of base sequences. That is, when the nucleotide sequence 601 and the nucleotide sequence 602 overlap each other, the nucleotide sequence 601 and the nucleotide sequence 602 are integrated to obtain the nucleotide sequence 604. .
  • the base sequence 604 is obtained by joining three parts: a part obtained by removing the part 603 from the base sequence 601; a part 603; and a part obtained by removing the part 603 from the base sequence 602. ⁇ Section 4: Nucleotide Sequence Integration Processing>
  • FIG. 7 is a diagram for accurately explaining the integration.
  • the bases that make up the base sequence of DNA can be numbered sequentially with the base at the end of the DNA (for example, the end called the "end" depending on the chemical structure of the DNA) as 1. .
  • the bases at the end point 701 can be numbered as 1, 2, 3,... Such a number is referred to as a base position.
  • the addition of 1024 above the base A appearing in the base sequence 704 indicates that the base A appears at the 1024th position from the 5 ′ end of DNA.
  • nucleotide sequence 706 is obtained by integrating nucleotide sequences 704 and 705.
  • FIG. 8 illustrates a table used for calculating a union of base sequences, particularly integration.
  • the “calculation” here is preferably performed by operating a program using a computer.
  • the tables may be managed by a database management system or the like.
  • the table in FIG. 8 has columns named “left end position” and “right end position”. Each row stores the left and right base positions of the exon base sequence. Also, the left and right base positions of the nucleotide sequence straddling the exon boundary may be stored (as described later, integration of the nucleotide sequence straddling the exon boundary requires a somewhat complicated operation).
  • each row in the table has a row number such as 1 for row 801 and 2 for row 802. Therefore, row 801 is referred to as “first row” and row 802 is referred to as “second row”.
  • attribute information of Exon may be accumulated in association with each row stored in the table illustrated in FIG.
  • the attribute information of Exxon may be stored by adding a column to the table illustrated in FIG.
  • attribute information refers to information including (1) information indicating the sequence position of exon or (2) information identifying a gene constituted by exon.
  • Information indicating exon sequence position is information indicating at which position in the genome sequence exon exists. For example, D It is the position of the end force of NA. This information is stored in the column at the left end position or right end position of the table shown in FIG.
  • “information for identifying a gene constituted by exon” is information representing a gene containing the base sequence of the etason, for example, the name of the gene. In addition to the information indicating the exon sequence position and the information identifying the gene that constitutes the exon, there are the exon length and the like.
  • FIG. 9 illustrates a flowchart of a process for calculating a union of base sequences, particularly integration.
  • “calculation” is preferably performed using a computer. Therefore, the processing of the flowchart illustrated in FIG. 9 is preferably performed by a computer.
  • the rows are sorted in ascending order by the value of the column named left end position. That is, the rows in the table illustrated in FIG. 8 are arranged such that the value of the column at the left end position of the (N + 1) th row is not smaller than the left end position of the Nth row and the value of the column at the left end position. Do the change.
  • step S902 2 is substituted for a variable r.
  • the variable r is a variable indicating what line is currently being processed.
  • step S903 it is determined whether the value of r is equal to or less than the value of the total number of rows. That is, it is determined whether the r-th row exists in the table. If so (if branching to step S903: Y), perform step S904 and subsequent steps. Otherwise (step S903: when branching to N), the processing for all the rows is completed.
  • step S904 it is determined whether or not the base sequence represented by the r-th line and the base sequence represented by the (r-1) -th line have an inclusion relationship or a partially overlapping relationship. That is, the value of the column at the left end position of the (r ⁇ 1) th row ⁇ the value of the leftmost column of the first row: and the value of the column of the leftmost position of the rth row ⁇ the (r1) th row Check if the value in the column at the right end of the eye holds.
  • step S905 if the condition is satisfied (step S905: branch to Y), the flow branches to step S906; otherwise (if branch to step S905: N), the flow proceeds to step S909. Branch.
  • step S906 the value of the column at the left end position of the (rl) -th row is substituted for the column at the left end position of the r-th row.
  • step S907 the value of the column at the right end position of the r-th row is (r 1) If it is smaller than the value at the right end position of the row, substitute the value at the right end position of the (r-1) th line into the column at the right end position of the rth row.
  • the steps S906 and S907 the unified base sequence represented by the ( r1 ) th line and the rth line is represented by the rth line. Therefore, the (r1) -th line is unnecessary, so the (r1) -th line is deleted in step S908.
  • step S908 the (r-1) th line, which is not deleted and deleted from the (r-1) th line, may be moved to another table and accumulated.
  • information on which sequence the exon position is originally derived from can be stored in the separate table, and search can be performed.
  • step S907 it is assumed that the attribute information accumulated and associated with the r-th line is merged with the attribute information accumulated and associated with the (r1) -th line. You may do it.
  • merging a character string expressing attribute information accumulated in association with the r-th line and a character string expressing attribute information accumulated in association with the (r 1) -th line Connect.
  • the character string obtained in this manner may be used as attribute information to be stored in association with the (r-1) th lines.
  • "" is used as a delimiter such as "A, B", and "A" and "B” are accumulated.
  • step S909 the value of r is incremented by 1 in order to perform processing for the next row, and the process returns to step S903.
  • FIG. 10 illustrates a method of obtaining a nucleotide sequence by integrating N-1 types of boundary nucleotide sequences when two exons are joined to constitute an expressed gene. It is assumed that exon 1001 and exon 1002 are joined to constitute an expressed gene.
  • the nucleotide sequence obtained by integrating the border nucleotide sequences at the boundary between exon 1001 and exon 1002 is the nucleotide sequence 1003 of the N-lmer at the right end of exon 1001 and the nucleotide sequence 1004 of the N-lmer at the left end of exon 1002. Is joined to form a 2N-2mer base sequence.
  • each of the lengths of exon 1001 and exon 1002 needs to be at least N-lmer.
  • FIG. 11 illustrates a case where an exon having a length of less than N-lmer is present.
  • the exon 1101, 1102, 1103, and the exon 1101, 1102, 1103 are joined together to form one expressed gene, and the exons 1101, 1102, 1 Assume that 104 are joined to form another expressed gene.
  • the length of the exon 1102 is less than N-lmer, and that the exon 1103 and the exon 1104 have a partially overlapping relationship.
  • the portions denoted by reference numerals 1105, 1106, 1107, and 1108 are assumed to be introns.
  • the boundary base sequence when the boundary base sequence is determined, the one corresponding to the solid line portion with the reference numerals 1109 and 1110 is obtained.
  • a search to determine whether a nucleotide sequence appears specifically in an expressed gene is performed on the union of exons 1101, 1102, 1103, and 1104, and on the union of these boundary nucleotide sequences as a sum Will be.
  • a set of base sequences obtained by performing the following integration operation on a set of border base sequences may be used instead of the set of border base sequences.
  • FIG. 12 illustrates a table used to perform the integration operation.
  • the table has columns of “expressed gene”, “left end position”, and “right end position”.
  • the column of “expressed gene” stores an identifier for identifying an expressed gene in which the boundary base sequence appears.
  • such identifiers are represented by arranging the exon codes constituting the expressed gene.
  • “Left end position” and “right end position” have the same meaning as in the table of FIG. 8, and store the position of the left end base and the position of the right end base of the boundary base sequence.
  • the integration operation can also be performed by running a program on a computer. In that case, the table may be managed and operated by the database management system. Further, such a program can be recorded on a medium such as a flexible disk, an optical disk, and a memory stick.
  • one row of the table in FIG. 12 is created corresponding to one border base sequence.
  • “left end position” is described.
  • “right The value set in the column of "end position” is made unique. That is, a process is performed so that a set of values in the column of “left end position” and “right end position” does not appear in the table more than once.
  • an index is defined for a pair of a column at the left end position and a column at the right end position, and when a new row is to be added to the table, the index is set.
  • the index referred to here has the value of a set consisting of the leftmost position of the table, the name column and the rightmost position,! /, And the name column as a key, and uniquely identifies the table row number or table row as a value. Has the value of the column to be identified. If you refer to the index, and if there is already a row in the table where the value pair of the column named left end position and right end position of the new row to be added is the same, adding a row to the table is do not do. If a row that has the same pair of values in the column named left and right end of the row to be added is not already stored, add the row to the table. As a result, a set of border base sequences is obtained.
  • elements of a set of boundary base sequences are integrated.
  • integration is performed between those having the same value in the sequence of expressed genes.
  • the border nucleotide sequence of exons 1101, 1102, and 1103 is integrated with the border nucleotide sequence of the expressed gene consisting of exons 1101, 1102, and 1103, and the border nucleotide sequence of exons 1101, 1102, and 1104 is Do not integrate.
  • the table is sorted by the value of the column of the expressed gene, and the table is divided by creating a set of rows having the same value of the column of the expressed gene. Apply the processing shown in the flowchart in. The reason why integration is performed between the same values of the sequence of expressed genes in order to prevent generation of a base sequence which is impossible for the expressed genes. As a result of such processing, base sequences with reference numerals 1113 and 1114 are obtained.
  • FIG. 13 illustrates a flowchart of a process of integrating a set of boundary base sequences described above.
  • information on the boundary base sequence is added to the table so that the set of values in the columns at the left end position and the right end position does not overlap.
  • an integration operation is performed for each set of rows having the same column value of the expressed gene. That is, group the tables so that the values of the columns of the expressed genes are the same.
  • SQL Structured Query Language
  • FIG. 14 illustrates a flowchart of a process of the base sequence set generation method according to the first embodiment of the present invention.
  • the method for generating a base sequence set according to the present embodiment includes a candidate base length obtaining step, an exon base sequence set obtaining step, a boundary base sequence set generating step, and a union generating step. These steps correspond to S1401, S1402, S1403, and S1404 of the flowchart illustrated in FIG. 14, respectively. As can be seen from the following explanations, these steps can be executed by causing a computer to execute a program. Further, such a program can be recorded on a medium such as a flexible disk, an optical disk, and a memory stick.
  • the length of a base sequence of a base sequence candidate that appears specifically in the base sequence of the expressed gene (hereinafter, referred to as “candidate base sequence length”) is obtained.
  • the length of the candidate nucleotide sequence to be obtained is, if the set of nucleotide sequences generated by the method of generating a nucleotide sequence set according to the present embodiment is aimed at designing siRNA, the upper limit thereof is preferably 30 or less, More preferably, it is 22 or less, further preferably 20 or less, and the lower limit thereof is preferably 13 or more, more preferably 16 or more, and still more preferably 18 or more. For example, 19 is a suitable value.
  • the upper limit is preferably 30 or less.
  • the “boundary base sequence set generation step” (S1403), a boundary base sequence set is generated.
  • the ⁇ boundary base sequence set '' is information indicating a base sequence existing over an exon boundary in an expressed gene composed of a plurality of exon forces, and includes the length obtained in the candidate base sequence length obtaining step.
  • Information showing base sequences of the same length for powerful sets Thus, it is a set obtained by integrating information indicating base sequences having the same expressed gene and overlapping base sequence positions. Specifically, it is a set of base sequences obtained by the processing described in Section 5 or in Sections 6 and 7 above.
  • the "union generation step” (S1404) is the union of the set of base sequences obtained in the exon base sequence set obtaining step and the set of base sequences generated in the boundary base sequence set generation step. This is a step of generating a set.
  • the union set in this step is basically obtained by the operation of taking the union of simple sets. There are two exceptions, however, that are not simple union operations on sets.
  • nucleotide sequence that is an element of the union of the exon nucleotide sequences and is located at the end of the expressed gene and has N-lmer or less
  • a nucleotide sequence is defined as the boundary nucleotide sequence or Since they are included in the integrated nucleotide sequence (that is, they are in an inclusion relationship), it is necessary to remove such nucleotide sequence.
  • nucleotide sequence that is an element of the union of the exon nucleotide sequences and is located not at the end of the expression gene but in the middle and is 2N-2mer or less
  • such a nucleotide sequence is However, it may be included in the boundary nucleotide sequence or the nucleotide sequence obtained by integrating it (it is always included when it is less than N-lmer). If such a nucleotide sequence exists, remove it.
  • FIG. 15 exemplifies a table storing the base sequence obtained in the union generation step S 1404 in FIG.
  • the column of “left end position” stores the position of the base sequence of the left end base in the DNA sequence in the DNA sequence
  • the column of “base sequence” stores the base sequence.
  • a base sequence that specifically appears in a given gene can be determined efficiently. That is, if a base sequence appears specifically, when a set of base sequences is searched using that base sequence, the search result is 1; otherwise, there are a plurality of search results.
  • FIG. 16 illustrates a flowchart of a specific base sequence search method according to Embodiment 2 of the present invention.
  • the specific base sequence search method according to the present embodiment includes a specific base sequence candidate obtaining step, a base sequence searching step, and a determining step. Minutes from the following description As described above, these steps can be executed by a computer by a program. Further, such a program can be recorded on a medium such as a flexible disk, an optical disk, and a memory stick.
  • specific nucleotide sequence candidates are nucleotide sequence candidates that appear specifically in the nucleotide sequence of the expressed gene. Although any nucleotide sequence may be a candidate, for example, it is evaluated whether or not it is highly likely to specifically appear in the nucleotide sequence by a method known in the art, and the possibility of specifically appearing is high.
  • a base sequence for which an evaluation value is obtained may be a candidate. The method known as the prior art mentioned here is as follows: (1) A base sequence identical or similar to the base sequence information of an expressed gene is obtained from base sequence information published in databases such as NCBI's RefSeq.
  • a search was performed using existing homology search means such as BLAST, FASTA, and ssearch, and (2) the total number of base sequence information of genes irrelevant to the expression gene among the searched base sequences and the expression gene
  • Based on the sum for example, based on the magnitude of the sum, determine whether or not the force is specific to the nucleotide sequence of the expressed gene.
  • the computer is caused to read a character string or the like representing the specific base sequence candidate that has been input manually using a keyboard or the like.
  • the “base sequence search step” (S1602), a matching base sequence is searched for from a set of base sequences.
  • the “base sequence set” is a set including the union of the union of exon base sequences and the set of boundary base sequences.
  • the base sequence set is, for example, the union of the union of exon base sequences described in the first section and the set of boundary base sequences described in the second section. Alternatively, it may be a set generated by the base sequence set generation method according to the first embodiment.
  • the union of exon base sequences may be obtained by performing the integration process described in Section 4 on exon base sequences.
  • the base sequence set may be exon, because the genome sequence has not been decoded, etc.
  • the base sequence set may be the entire set of gene sequences.
  • the elements of the union of the exon base sequences are associated with information indicating the exon sequence position or information identifying the gene constituted by the exon. , You can.
  • the "boundary base sequence” is as described in the second section. In other words, it is a nucleotide sequence existing over the boundaries of exons in an expressed gene composed of a plurality of exons, and has the same length as the nucleotide sequence of the specific nucleotide sequence candidate.
  • the “compatible base sequence” is a base sequence compatible with the base sequence represented by the specific base sequence candidate obtained in the specific base sequence candidate obtaining step.
  • ⁇ the two base sequences match '' means that the bases constituting the two base sequences are compared for each pair, and the number of pairs that do not satisfy the predetermined binary relation is equal to or less than a predetermined number.
  • the binary relation often means that the bases forming a pair are the same.
  • the binary relation satisfies only the reflection rule.
  • a binary relation may be used in consideration of the fact that the bases G and U are bonded.
  • whether or not two base sequences are compatible may be determined by considering the number of consecutive suitable bases, etc., without determining whether or not the adaptability is dependent only on the binary relation.
  • the term “predetermined number or less” may mean, for example, 20% or less, preferably 10% or less, more preferably 5% or less. Research on such a search method has been advanced in the field of bioinformatics.
  • a method using a computer such as a method using FASTA, BLAST, or Smith-Waterman dynamic programming method, is known (see, for example, David W. Mount, "Biomformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2001.)
  • the "determining step” is based on whether or not there are a plurality of matching base sequences in the search result in the base sequence searching step, based on the specificity obtained in the specific base sequence candidate obtaining step.
  • the potential base sequence candidate is determined to be a specific base sequence.
  • the term “specific nucleotide sequence” means a nucleotide sequence that appears specifically in an expressed gene.
  • the determination step if the matching base sequence of the search result is 1, the specific base sequence candidate is the specific base sequence. It should be determined that. If the matching base sequence in the search result is 2 or more, it is determined that the base sequence is not a specific base sequence. If the matching base sequence in the search result is 0, it is determined that there is no similar sequence. When the matching base sequence in the search result is 0, it is estimated that such a specific base sequence candidate has no effect. Therefore, in order for the computer to execute the judgment step, it is necessary to obtain the number of search result sets and make a judgment.
  • Embodiment 3 of the present invention is directed to the specific base sequence search method according to Embodiment 2, wherein the set of boundary base sequences is obtained by integrating base sequences as described in Sections 4 and 7. It is what it was.
  • a set of boundary base sequences is information indicating (1) a base sequence existing across exon boundaries in an expressed gene composed of a plurality of exons, and (2) a specific base sequence.
  • the base sequence included in the integrated base sequence may appear in the union of the exon base sequences, and it is necessary to remove such base sequence. This is as described in the first embodiment.
  • the information indicating the base sequence means, for example, each row stored in the table illustrated in Fig. 8 or each row stored in the table illustrated in Fig. 12.
  • the number of elements to be searched can be reduced, and the size of a set can be reduced. It also improves search speed.
  • Embodiment 4 of the present invention is a specific base sequence search method in which the specific base sequence search method according to Embodiment 2 or 3 further includes a step of obtaining an allowable number of matches.
  • FIG. 17 illustrates a flowchart of the specific base sequence search method according to the present embodiment. .
  • This flowchart is obtained by adding SI 702, which is a step of acquiring an allowable number of adaptations, to the flowchart of FIG.
  • the “acceptable number of conforming steps” acquires the acceptable number of conforming steps.
  • the “acceptable number of matches” is a numerical value that indicates how many bases are tolerated as the degree of matching between the base sequence of the base sequence set and the base sequence represented by the specific base sequence candidate. Preferably, it is a value of 1, 2, 3, 4, or 5.
  • “base mismatch” means that a base pair does not satisfy a predetermined binary relation.
  • the computer reads the number of allowable adaptations that is input by inputting a force such as a keyboard or by selecting a radio button displayed on the screen.
  • a search is performed based on the allowable number of matches obtained in the allowable number of matches obtaining step.
  • search is performed using BLAS T described above.
  • “based on the allowable number of matches” means that the search is performed so that the number of mismatched base pairs is equal to or less than the allowable number of matches.
  • BLAST a search is usually performed using a portion where 7 bases are consecutively the same, and when the candidate base sequence length is 19 and the allowable number of matches is 3, It is not possible to search for a base mismatch at the X position.
  • a base sequence in which the base at position X is replaced with another base is generated, and a base sequence that matches or is complementary to the base sequence represented by the specific base sequence candidate is searched. You may do it.
  • a method of performing a search by specifying the allowable number of matches see Tomoyuki YAMADA and Sinichi MORISHITA, "Computing Highly Specific and
  • Embodiment 5 of the present invention a specific base sequence search method including a step of acquiring a base pair determined to be incompatible in the base sequence search step will be described.
  • the specific base sequence search method according to the present embodiment is a method in which the specific base sequence search method according to the fourth embodiment further includes an incompatible base pair acquisition step.
  • the "incompatible base pair acquisition step” refers to the base sequence search step! Obtain the base pair to be used. This acquisition is performed by acquiring base pairs input from a keyboard connected to a computer, reading information indicating base pairs recorded on a medium, acquiring information input through a communication line, and the like. It is done by doing.
  • the base sequence search step it is usual that if the bases are not the same, they are treated as incompatible. However, it is known that, for example, G and U are combined to form a pair, and therefore, it may not be desirable to regard the G and U pair as incompatible. Thus, in the present embodiment, it is possible to acquire a base pair determined to be incompatible.
  • a base pair determined to be incompatible may be obtained indirectly by obtaining a base pair determined to be compatible. Further, the acquired base pair may be acquired in association with the degree of matching or mismatch. For example, a value of 1 may be assigned to the same base pair, and a value of 0.5 may be assigned to a G and U pair, for example. Note that the mismatching base pair acquisition step is performed before the base sequence search step S1703 is performed. For example, after executing the step of obtaining an incompatible base pair, the flowchart illustrated in FIG. 17 is executed.
  • the specific base sequence search method according to the present embodiment is a method in which the specific base sequence search method according to any one of Embodiments 2 to 5 further includes a mismatch distribution information acquisition step.
  • the "mismatch distribution information obtaining step” obtains distribution information as a degree of matching between the base sequence of the base sequence set and the base sequence represented by the specific base sequence candidate.
  • Distribution information is information indicating the distribution of occurrence of base mismatch. Examples of distribution information include two or more consecutive mismatches of base groups, few mismatches at the ⁇ terminal side of specific base sequence candidates, and continuous mismatches of bases with specific base sequence candidates. It does not occur more than a predetermined number of times. The purpose of obtaining distribution information in this way is, for example, even if there is an inconsistency in the same number of bases, if the inconsistency in bases continues, the nucleic acid is less likely to hybridize.
  • the distribution information may be, for example, a program for determining whether the distribution of base mismatches is a predetermined distribution.
  • the information may be information for selecting a number of types of the distribution of base incompatibility in advance and selecting them. For example, a number may be assigned to the distribution of non-conformity of the base, and information indicating the number may be used.
  • the processing in the base sequence search step is performed, for example, as follows. That is, the search is performed by further considering the distribution information acquired in the nonconforming distribution information acquisition step. For example, first, the search in any of Embodiments 2 to 5 is performed, and from the results of the search, those that satisfy the mismatch distribution information-for example, those in which two or more base mismatches do not exist consecutively, and the specific base sequence candidate ⁇ Select the one that has few mismatches at the terminal side and is not regarded as mismatched! / ⁇ The bases do not continuously occur more than the specified number! ⁇ .
  • the method for searching for a specific base sequence according to Embodiment 7 of the present invention is the method for searching for a specific base sequence according to any one of Embodiments 2 to 6, wherein the specific base sequence candidate is selected from the oligo DNA of the microarray. This method is used as a base sequence candidate.
  • the method for searching for a specific base sequence according to Embodiment 8 of the present invention is the method for searching for a specific base sequence according to any one of Embodiments 2 to 6, wherein the specific base sequence candidate is a candidate for the siRNA base sequence. This is a method for searching for a specific base sequence.
  • FIG. 19 illustrates a functional block diagram of a specific base sequence search device according to Embodiment 9 of the present invention.
  • the specific base sequence search device according to the present embodiment is, for example, a device for using the specific base sequence search method according to the second embodiment.
  • the specific base sequence search device 1900 includes a base sequence set storage unit 1901, a specific base sequence candidate acquisition unit 1902, and a base sequence search unit 1903.
  • a configuration represented by a functional block diagram is realized by hardware such as a CPU, a memory, and other LSIs of an arbitrary computer.
  • the software is realized by a program loaded in a memory or the like. It can also be realized by cooperation between hardware and software. In particular, when software is used, these units can be realized by installing and executing a program on a computer. For example, the program is recorded on various recording media, and is mechanically read by a computer for implementing the specific base sequence search device 1900 as necessary.
  • the “recording medium” refers to any “portable physical medium” such as a flexible disk, a magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, flash disk, and various computer systems. Like a fixed physical medium such as ROM, RAM, HD, etc., built in the PC, or a communication line or carrier wave when transmitting a program via a network represented by LAN, WAN, or the Internet. This includes “communications media” that hold programs for a short period of time.
  • the computer is not limited to a mainframe computer but may be an information processing device such as a workstation or a personal computer.
  • peripheral devices such as a printer and a scanner may be connected to such an information processing device.
  • the "program” is a data processing method described in an arbitrary language or description method, and may be in any form such as a source code or a binary code. Note that a “program” is not necessarily limited to a single configuration, but may be distributed and configured as multiple modules or libraries, or may operate in conjunction with a separate program typified by an operating system. Including those that achieve the above. It should be noted that a specific configuration for reading the recording medium in the specific base sequence search device 1900, a reading unit, an installation procedure after reading, or the like can use a known configuration or procedure.
  • the force-specific base sequence search device 1900 is connected to an external system that provides an external database for gene base sequence information and the like, an external program such as a homology search, and the like.
  • the configuration may be communicably connected via a network.
  • a powerful configuration provides a website for running external programs.
  • the external system may be configured as a WEB server, an ASP server, or the like.
  • the base sequence set storage units 1901 and Z or the specific base sequence candidate obtaining unit 1902 may be communicably connected to an external system.
  • the configuration of the communication network is not particularly limited.
  • the communication network is configured by a communication device such as a router or a wired or wireless communication line such as a dedicated line.
  • the “base sequence set storage unit” 1901 holds a base sequence set.
  • base sequence set refers to a set containing the union of the union of exon base sequences and the set of boundary base sequences existing across exon boundaries in an expressed gene composed of a plurality of exons. It is. For example, a set generated by the method described in the first embodiment. Alternatively, it is a set searched in the base sequence search step in the method of the second embodiment or the like.
  • the base sequence set storage unit 1901 converts the base sequence set into a predetermined format and format using, for example, a memory device such as a RAM or a ROM, a fixed disk device such as a hard disk, or a storage device using a flexible disk or an optical disk.
  • “Specific Base Sequence Candidate Acquisition Unit” 1902 acquires a specific base sequence candidate that is a candidate for a base sequence that appears specifically in the base sequence of an expressed gene. For example, it is entered in the text area of a web page displayed on a web browser running on a computer that can communicate via a communication network such as the Internet, and the browser power is converted into text information using HTTP (HyperText Transfer Protocol). By receiving the transmitted specific base sequence candidate, the specific base sequence candidate is obtained. Therefore, when the specific base sequence search device 1900 is realized using a computer, the communication interface Interface, input / output interface for inputting / outputting data to / from mouse, keyboard, and display, and module of program for inputting / outputting data using its driver. This corresponds to the base sequence candidate acquisition section 1902.
  • the "base sequence search unit” 1903 converts the specific base sequence candidate obtained by the specific base sequence candidate obtaining unit 1902 from the base sequences included in the base sequence set stored in the base sequence set storage unit 1901. Search for a matching base sequence that is a base sequence that matches. For this search, for example, a program that executes the algorithm (for example, BLAST) described in any of Embodiments 2 to 4 is used. The search result may be sent back to the browser that sent the specific nucleotide sequence candidate. For example, the number of search results may be returned, or a base sequence suitable for a specific base sequence candidate may be returned by acquiring information on an expressed gene.
  • the specific base sequence candidate obtaining unit 1902 may return the result of determining whether the specific base sequence candidate obtained is a specific base sequence or not. Good. Also, a program written in JAVA (registered trademark) or the like is operating inside the browser, and the program determines whether or not the specific base sequence candidate is a specific base sequence. You can.
  • the specific base sequence search device 1900 is implemented using a computer, data transfer to and from a module corresponding to the specific base sequence candidate acquisition unit 1902 is performed under the control of the computer CPU. And a module that exchanges data with a module equivalent to the base sequence set storage unit 1901 and searches for a base sequence set stored on a hard disk, etc., corresponds to the base sequence search unit 1903 I do.
  • the specific base sequence search device 1900 may include a unit that accumulates the results of the search by the base sequence search unit 1903.
  • a unit that accumulates the specific base sequence candidate acquired by the specific base sequence candidate acquisition unit 1902 and the result of the search performed by the base sequence search unit 1903 in association with each other may be provided.
  • the tenth embodiment of the present invention is directed to the specific base sequence searching apparatus according to the ninth embodiment, wherein the boundary base sequence set includes information indicating a base sequence existing over an exon boundary in an expressed gene composed of a plurality of exon forces. Then, for a set consisting of information indicating a base sequence having the same length as the base sequence length of the specific base sequence candidate, a base sequence having the same expression gene and having a duplicated base sequence position is compared.
  • This is a specific base sequence search device obtained based on a set obtained by integrating the information shown.
  • the specific base sequence search device according to the present embodiment is, for example, a device for using the specific base sequence search method according to the third embodiment.
  • the specific base sequence search device integrates base sequence sets stored in the base sequence set storage unit 1901 into boundary base sequences by the processing described in Section 7, etc. This is a specific base sequence search device as a set obtained by performing the above.
  • the number of elements of the base sequence set can be reduced, so that the disk space used by the base sequence set storage unit 1901 can be saved.
  • the search speed can be improved by reducing the number of elements.
  • FIG. 20 illustrates a functional block diagram of a specific base sequence search device according to Embodiment 11 of the present invention.
  • the specific base sequence search device 2000 includes a base sequence set storage unit 1901, a specific base sequence candidate acquisition unit 1902, a base sequence search unit 1903, and an allowable number acquisition unit 2001. Therefore, the specific base sequence search device according to the present embodiment has a configuration in which the specific base sequence search device according to the ninth or tenth embodiment has an allowable number acquisition unit.
  • the same reference numerals are assigned to parts to which the same definition can be applied. However, in the actual production, just because the same code is assigned does not necessarily mean that the structure is the same.
  • the specific base sequence search device according to the present embodiment is, for example, a device for using the specific base sequence search method according to the fourth embodiment.
  • the "acquired allowable number of matching units" 2001 determines how many base mismatches are allowed as the degree of matching between the base sequence of the base sequence set and the base sequence represented by the specific base sequence candidate. Acquires the acceptable number of matches, which is a numerical value indicating. For example, when a specific base sequence candidate is transmitted from a browser, both the browser power and the allowable number of matches may be transmitted.
  • the allowable number of conformity acquisition unit 2001 acquires the acceptable number of conformity transmitted as such. Also, the configuration may be such that the allowable number of conformances is directly input.
  • the base sequence search unit 1903 performs a search based on the allowable number of matches obtained by the allowable number of matches obtaining unit 2001.
  • the method of this search is as described in the fourth embodiment.
  • FIG. 21 illustrates a functional block diagram of a specific base sequence search device according to Embodiment 12 of the present invention.
  • the specific base sequence search device 2100 includes a base sequence set storage unit 1901, a specific base sequence candidate acquisition unit 1902, a base sequence search unit 1903, an allowable number acquisition unit 20001, and an incompatible base pair acquisition unit 2101. And Therefore, the specific base sequence search device according to the present embodiment has a configuration in which the specific base sequence search device according to the eleventh embodiment further includes an incompatible base pair acquisition unit 2101.
  • the specific base sequence search device according to the present embodiment is, for example, a device for using the specific base sequence search method according to the fifth embodiment.
  • Incompatible base pair acquisition unit 2101 acquires a base pair determined to be incompatible in the search by the base sequence search unit. For example, text information indicating a base pair to be determined to be incompatible is acquired. Alternatively, by obtaining a pair of bases to be determined to be compatible (eg, G and U), a pair of bases to be determined to be incompatible may be obtained indirectly. Therefore, the input / output interface for inputting / outputting data from / to a communication interface, a mouse, a keyboard, and a display, and a module for a program for inputting / outputting data using the driver. Corresponds to the mismatched base pair acquisition unit 2101.
  • the processing flow of the specific base sequence search device according to the present embodiment is the same as that of the specific base sequence search device according to the eleventh embodiment. However, before searching for a compatible base sequence, the mismatched base pair obtaining unit 2101 obtains a base pair determined to be mismatched in the search performed by the base sequence searching unit. (Embodiment 13: Mainly corresponds to claims 15 and 16)
  • FIG. 22 illustrates a functional block diagram of a specific base sequence search device according to Embodiment 13 of the present invention.
  • the specific base sequence search device 2200 includes a base sequence set storage unit 1901, a specific base sequence candidate obtaining unit 1902, a base sequence searching unit 1903, an allowable number obtaining unit 20001, and a non-conforming distribution information obtaining unit 2201.
  • the specific base sequence search device 2200 may further include an incompatible base pair acquisition unit. Therefore, the specific base sequence search device according to the present embodiment has a configuration in which the specific base sequence search device according to any one of Embodiments 9 to 12 includes the nonconforming distribution information acquisition unit 2201.
  • the specific base sequence search device according to the present embodiment is, for example, a device for using the specific base sequence search method according to the sixth embodiment.
  • the "mismatch distribution information acquisition unit" 2201 is information indicating the distribution of occurrence of mismatches of bases as the degree of matching between the base sequence of the base sequence set and the base sequence represented by the specific base sequence candidate. Get certain distribution information. Examples of the distribution information are as described in the sixth embodiment. Therefore, the input / output interface for inputting / outputting data from / to a communication interface, a mouse, a keyboard, and a display, and a module for a program for inputting / outputting data using the driver. Corresponds to the nonconforming distribution information acquisition unit 2201.
  • the base sequence search unit 1903 performs a search based on the distribution information acquired by the mismatch distribution information acquisition unit 2201. For example, a search is performed as in the eleventh embodiment or the twelfth embodiment, and a search is performed based on distribution information from an intermediate result that is a result of the search. That is, from the interim results, those that match the distribution information are selected and used as the final search results.
  • Embodiment 14 of the present invention is a base sequence set holding device. That is, a set including the union of the union of exon base sequences and the set of boundary base sequences that are base sequences that extend across the exon boundaries in the expressed gene composed of a plurality of exon forces. This is a device that holds a set of base sequences in a searchable manner.
  • the form of the base sequence set holding apparatus is a device in which the hard disk that realizes the base sequence set storage unit 1901 of the specific base sequence search device 1900 according to Embodiment 8 is an external hard disk device. Further, a server device having a hard disk that realizes the base sequence set storage unit 1901 of the specific base sequence search device 1900 may be used.
  • the base sequence set holding device makes it possible to realize a search based on various search algorithms.
  • the base sequence set holding device is characterized in that the held set of boundary base sequences is replaced by a base sequence existing across exon boundaries in an expressed gene composed of a plurality of exons.
  • a base sequence that has the same expression gene and duplicates the base sequence position for a set consisting of information indicating a base sequence having the same length as the base sequence length to be used as a search input.
  • This is a base sequence set holding device that is obtained based on a set obtained by integrating information indicating sequences.
  • the specific base sequence searching device according to the tenth embodiment is configured so that the base sequence set accumulation unit is another device. For example, this is a mode obtained by accumulating data stored in the base sequence set storage unit of the specific base sequence search device according to the tenth embodiment in a NAS (Network Attached Storage) or a SAN (Storage Area Network). .
  • the required disk space can be reduced.
  • a base sequence set is generated from the base sequence of exon and the base sequence appearing at the boundary of exon, and the search is performed. Therefore, it is determined whether or not the base sequence appears specifically in the expressed gene. Since it can be determined based on the number of search results, it is useful for determining a specific base sequence.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

発現遺伝子に特異的に現れる塩基配列を効率よく決定する。かかる目的を達成するために、発現遺伝子が、エクソン(301)…(306)で構成され、特に、エクソン(301)とエクソン(302)、エクソン(302)とエクソン(303)が接合するとした場合、エクソンの塩基配列(301)…(305)の和集合である塩基配列(401)…(403)と、エクソン(301)とエクソン(302)、エクソン(302)とエクソン(303)の境界にまたがって存在する塩基配列(404)と(405)、(406)と(407)、を接合して得られる境界塩基配列と、の集合を作り、この集合に対して検索を行なう。もし、発現遺伝子に特異的に現れる塩基配列であれば、検索結果数は1となり、そうでなければ、複数となる。

Description

特異的塩基配列探索方法
技術分野
[0001] 本発明は、遺伝子の塩基配列に特異的に現れる塩基配列を検索する方法、装置、 プログラムなどに関する。 背景技術
[0002] ワトソンとクリックとによる DNA(Doexyribo Nucleic Acid)の構造の解明に基づき、塩 基配列に基づく遺伝子情報の研究が発展している。 DNAは、アデニン (A)、シトシ ン(C)、グァニン (G)、チミン (T)の塩基の 、ずれかを含むヌクレオチドが並んで 、る 構造を持ち、細胞の核の中では、通常、 Aと T、 Gと C、の結合により、二重らせんの 構造となっている。遺伝子を表現する DNAのヌクレオチドの配列(以下、「遺伝子配 列」と呼ぶ)力 RNA (Ribonucleic Acid)に転写され、スプライシングを経て、 mRNA (messenger RNA)が生成され、たんぱく質の合成がされることが知られている。 RNA は、 D-リボースを糖成分として、アデニン (A)、シトシン (C)、グァニン (G)、ゥラシル (U)を塩基とする核酸である。遺伝子配列のうち、たんぱく質の情報を持つ部分がェ クソンと呼ばれ、そうでない部分は、イントロンと呼ばれる。したがって、スプライシング により、 RNAのイントロン部分が切除されることとなる。
[0003] 近年、 RNA干渉と呼ばれる現象が発生することが知られるようになった。 RNA干渉 とは、細胞内の 2本鎖 RNAの存在により、特定の配列の mRNAを破壊し、遺伝子の 発現を抑制する現象である。この現象は、最初、線虫の細胞を用いた実験で発見さ れた。その後、この現象は、哺乳動物細胞でも起きることが知られるようになり、注目 を集めることとなった。人為的に RNA干渉を起こすことにより、特定の遺伝子の働き を抑制することにより、その特定の遺伝子の働きを調べることができるからである。ま た、 RNA干渉の発見により、特定の遺伝子の働きを抑制する効果を発揮する薬を開 発できる可能性も生まれてきた。
[0004] 図 1は、 RNA干渉の過程の概略を示す図である。 RNA干渉は、以下のようなプロ セスを経て発生すると考えられている。およそ 21から 23塩基対の長さの siRNA( short interfering RNA) 101がマルチ.タンパク質複合体と結合し、 RISC (
RNA- induced silencing complex) 102を形成する。 RISCは、その siRNAと相同性を 持つ mRNA103と結合し、その mRNAを分解することにより、その mRNAが機能し なくなる(図 1において、断片 104、 105力 mRNAが分解されてできた断片を表わし ている)。ここで、「二つの塩基配列が相同性を有する」とは、 2つの塩基配列が相補 性を有している力、または、不完全な相補性を有していることをいう。ここに「相補性」 とは、二つの塩基配列の全体において、 Aと T、 Gと C、 Aと Uとの対が完全に形成さ れていることをいう。したがって、相同性とは、二つの塩基配列の一部に、 Aと T、 Gと C、 Aと Uと ヽぅ三種類の相補性を有する塩基対以外の対が発生して!/ヽることを意味 する。なお、どのような場合に、二つの塩基配列の間に相補性を有する塩基対がど れだけの存在すれば、その二つの塩基配列が相同性を有すると判断されるかについ て説明すると次のようになる。すなわち、 RNA干渉の場合には、 80%以上、好ましく は 90%以上、さらに好ましくは 95%以上の場合に、相同性を有すると判断される場 合が多い。また、相補性を有する塩基対の割合のみならず、相補性を有する塩基列 が塩基配列中にどれだけの個数連続して現れて 、るかを考慮に 、れて、二つの塩 基配列の間の相同性の有無を判断することもある。また、 Aと T、 Gと C、 Aと Uとの 3種 類の相補性を有する塩基対に、 Gと Uとの対が形成される可能性もあることが知られ ているので、 Gと Uとの塩基対の存在も考慮に入れて相同性の有無を判断することも ある。
[0005] したがって、 RNA干渉を発生させ、目的とする遺伝子の働きを抑制するためには、 siRNAの配列を決定することが重要である。すなわち、目的とする遺伝子だけに現 れ、他の遺伝子の塩基配列と相同性を持たない、 siRNAの配列を決定することが重 要である。
[0006] なお、哺乳類においては、ある遺伝子の特定領域と相同性を有する siRNAの全て が RNA干渉を起こすわけではないことが知られている。そのため、 RNA干渉を発生 させるための siRNAの塩基配列の評価方法が提案されている(例えば、非特許文献 1参照。 ) oこの知見からすると、本発明は、塩基配列の評価の前段階として実施され るべきものである。あるいは、塩基配列の評価を行なった後に、高い評価値が得られ た塩基配列の中から本発明を実施して特定領域と相同性を有する塩基配列を得るよ うにしてもよい。
[0007] また、近年、マイクロアレイを用いた遺伝子解析や遺伝子診断などが実施されて!ヽ る。「マイクロアレイ」とは、長さが 15から 30塩基程度のオリゴ DNAをガラスなどの基 板上に合成した DNAチップの一種である(例えば、非特許文献 2参照。 )0
[0008] 図 2は、マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を例示する。
ガラスなどの基板上に合成したオリゴ DNAを持つマイクロアレイ 201上に、蛍光色素 などの標識 203を付加された DNA (202)を流すと、その DNAと相補性あるいは相 同性を持つマイクロアレイ上のオリゴ DNAとが結合 (ハイブリダィズ)する(符号 204) 。どの場所のオリゴ DNAとハイブリダィズしたかを、標識の蛍光色素による蛍光を検 出することにより、 DNA (202)の種類などを判定する。図 2では、マイクロアレイ上に 数本のオリゴ DNAし力示されていないが、実際のマイクロアレイは、縦横の長さが 0. 5インチ程度の領域に万のオーダーでオリゴ DNAが配置される。
[0009] したがって、どのような塩基配列を持つオリゴ DNAをマイクロアレイに配置するかを 決めることは、マイクロアレイの設計において、極めて重要な工程である。
非特許文献 1 : Angela Reynolds他著、〃 Rational siRNA design for RNA interference"^ Nature Biotechnology ^ Published online 1 February 20 04.
非特許文献 2 :杉本直己著、 "遺伝子化学"、 19ページ、株式会社化学同人発行、 2 002年
発明の開示
発明が解決しょうとする課題
[0010] 本発明が解決しょうとする課題は、与えられた遺伝子に特異的に現れる塩基配列 を効率よく決定することである。「特異的」とは、その遺伝子にだけ現れ、他の遺伝子 には現れないことを意味する。これにより、与えられた遺伝子だけを抑制するための si RNAの塩基配列が得られる。また、与えられた遺伝子だけを検出するオリゴ DNAの 配列が得られる。
[0011] 既に遺伝子の塩基配列のデータベースが構築されている力 そのような既存のデ ータベースを使用して特異的に現れる塩基配列を決定するには困難が伴う。これに ついて以下説明する。
[0012] 図 3は、 DNA配列と、 mRNAに転写される発現遺伝子配列と、の関係を示す。図 3
(A)には、 4本の DNA配列の部分が示されている力 これらは、分かりやすさのため に、一つの DNA配列全体の一部を示しており、同じ部分の塩基配列が上下に対応 するように示されている。 DNA配列には、発現遺伝子を構成するェクソンの部分と、 発現遺伝子を構成しないイントロンの部分と、力 Sあることが知られている。図 3 (A)に ぉ ヽて、符号 301、 302、 303, 304, 305, 306の咅分力 ^ェクソンであり、他の咅分 力 Sイントロンであるとする。図 3 (B)は発現遺伝子配列を示す。図 3 (B)に示すように、 一つのェクソンは、一つの発現遺伝子配列にだけ現れるとは限らず、複数の発現遺 伝子配列に表れる場合がある。例えば、ェクソン 302は、ェクソン 301と接合されるこ とにより、ある発現遺伝子を構成するが、ェクソン 303と接合されることにより、別の発 現遺伝子を構成する。
[0013] また、ェクソンの一部がェクソンとなっている場合がある。例えば、図 3 (A)において ェクソン 302の一部が、ェクソン 304となり、また、ェクソン 303の一部が、ェクソン 30 5、ェクソン 306になっている。
[0014] したがって、発現遺伝子配列を格納するデータベースにおいては、一つのェクソン 、またはその一部、の塩基配列が、複数の発現遺伝子配列に表れることになる。この ため、例えば、ェクソン 302に特異的に現れる塩基配列を検索すると、検索の結果は 一つではなぐ複数あることになり、特異的に現れる塩基配列でないと判断されてしま う可能性がある。その可能性を排除するため、検索の結果が複数得られた場合には 、検索の結果を精査して、特定のェクソンだけに特異的に現れる配列力どうかのチェ ックを別途行なう必要がある。
[0015] このような現象を避ける一つの方法としては、ゲノム配列全体に対して検索を行なう ものがある。しかし、このような検索を行なうと、発現遺伝子配列のェクソンの境界をま たぐ塩基配列が検索されないことになつてしまう。すなわち、発現遺伝子配列が、ゲノ ム配列中の複数のェクソンが接合してできる場合において、塩基配列の一部分が一 のェクソンに含まれ、その塩基配列の残りの部分が他のエタソンに含まれる場合、す なわち、ェクソンの端に位置する塩基であるエタソンの境界力 その塩基配列の中に 含まれる場合には、その塩基配列はゲノム配列中にそのまま現れることはないので、 検索されない。このため、ある塩基配列が、発現遺伝子配列のェクソンの境界をまた ぐように複数回現れる場合には、その塩基配列が特異的なものでな 、と 、う判断を行 なうことができない。もしくは、ェクソンの境界をまたぐような配列が特異的であったとし ても、その配列が特異的であると 、う判断を行なうこともできな 、。
[0016] そこで、本発明は、発現遺伝子に特異的に現れる塩基配列(より正確に言えば、一 つのエタソンに特異的に現れる塩基配列、又は、ェクソンが結合することにより発現 遺伝子に特異的に現れる塩基配列)を効率よく検出する方法、装置、データベース、 プログラムなどを提供することを目的とする。 課題を解決するための手段
[0017] 本発明にお 、ては、塩基配列のデータベースとして、ェクソンの塩基配列の和集合 と、発現遺伝子のェクソンの境界をまたぐ塩基配列の集合と、の和集合を用いて検索 を行なう。これにより、発現遺伝子配列に特異的に現れる塩基配列であれば、検索の 結果は一となる。また、特異的に現れる塩基配列でなければ、検索の結果は複数と なる。結果として、検索結果を調べるだけで、特異的に現れる塩基配列力どうかを直 ちに判定することができる。これにより、課題が解決される。
[0018] なお、発現遺伝子のェクソンの境界をまたぐ塩基配列は、適宜統合することが可能 である。これにより、データベースのレコード数を減少させることもできる。
[0019] また、相同性の程度を指定するために、検索の際に、いくつまでの塩基のミスマツ チ (不適合)を許すかどうかを指定するようにしてもよい。また、力 tlえて、相同性の程度 を指定するために、不適合とみなす塩基の対を指定してもよい。また、不適合の発生 の分布を指定してもよい。このように指定される分布の例としては、不適合でない塩 基が連続する長さ (すなわち、塩基の対が連続して発生する長さ)がある。この長さが ある程度以上の長さになると、 RNA干渉においては、不適合の塩基配列があるにも かかわらず siRNAが mRNAに結合してしまうと考えられている。そこで、そのような結 合を排除するために、不適合でな!、塩基が連続する長さを指定する。
[0020] なお、本発明においては、ゲノム配列中のどの部分がェクソンであり、また、イントロ ンであるかについて力 検索に用いられる塩基配列のデータベースの構成に大きな 影響を与える。以下の説明では、すでに研究された結果を用いることを主に想定して いるが、今後の研究成果を取り入れて、塩基配列のデータベースを構成することが可 能である。
発明の効果
[0021] 本発明においては、ェクソンの塩基配列と、ェクソンの境界に現れる塩基配列と、 から塩基配列集合を生成して、検索を行なうことにより、発現遺伝子に特異的に現れ る塩基配列かどうかを検索結果数に基づいて決定できる。
発明を実施するための最良の形態
[0022] 以下、本発明を実施するための最良の形態を、図を用いて、実施形態として説明 する。なお、本発明は、これら実施形態に何ら限定されるものではなぐその要旨を逸 脱しな 、範囲にぉ 、て、種々なる態様で実施し得る。
[0023] (発明の概要)
実施形態について説明する前に、本発明の概要をいくつかの節に分けて説明する
[0024] 図 4は、ェクソンの和集合と、発現遺伝子のェクソンの境界をまたぐ塩基配列と、を 説明するための図である。なお、以下では、発現遺伝子を構成するェクソンの境界を またぐ塩基配列を、「境界塩基配列」 t 、うことにする。
[0025] <第一節:ェクソンの塩基配列の和集合 >
図 4 (A)は、ェクソンの塩基配列の和集合を説明するための図である。図 4 (A)に は、図 3 (A)のように、 4本の DNA配列の部分が示されているが、これらは、一つの D NA配列全体の一部を示しており、同じ部分の塩基配列が、上下に対応するように示 されて!/ヽる。ェクソン 301、 302、 303、 304、 305、 306力図のような関係にあるとす る。すなわち、ェクソン 301と重なり、又は、包含関係にあるェクソンは他になぐエタ ソン 302のー咅として、ェクソン 304力 Sあり、ェクソン 303のー咅にェクソン 305、 306 があるとする。このような場合に、これらのェクソンの和集合として、配列 401、 402、 4 03が得られる。すなわち、配列 401は、ェクソン 301そのものであり、配列 402は、ェ クソン 302とェクソン 304との和である。このェクソン 304は、ェクソン 302の一部であ るので、配列 402は、ェクソン 302そのものとなる。同様に、配列 403は、ェクソン 303 そのものとなる。図 4においては、ェクソン 302とェクソン 304との関係のように、あるェ クソンが他のェクソンを包含して 、る関係にある場合が示されて 、る。他の関係として は、包含ではなぐ二つのェクソンの塩基配列の一部だけ重なっている場合がある。 この場合については、後に図 6、図 7などを用いて説明する。
[0026] <第二節:境界塩基配列 >
図 4の下部は、境界塩基配列を説明するための図である。ェクソン 301とェクソン 3 02とが接合して発現遺伝子を構成する場合、その接合における境界の左右の部分 4 04と 405とを接合した塩基配列が、境界塩基配列となる。同様に、ェクソン 302とエタ ソン 303とが接合する場合、部分 406と 407を接合した塩基配列が、境界塩基配列と なる。なお、ここでの境界塩基配列の長さは、発現遺伝子配列に特異的に現れるか どうかを調べるための検索が行なわれる塩基配列の長さである。その長さを Nとすると 、境界塩基配列は、 N— 1通りあることになる。
[0027] 図 5は、 N— 1通りの境界塩基配列を例示する。ェクソン 501とェクソン 502とが接合 して発現遺伝子を構成するとする。この場合、ェクソン 501の右端の N— lmer(「mer 」は、塩基配列の長さの単位であり、 1塩基の長さを lmerとする)の部分 503と、エタ ソン 502の左端の lmerの部分 504と、を接合することにより、境界塩基配列が一つ 得られる。以下、同様に、 N— 2merの部分 505と 2merの部分 506、 · ··、 2merの部分 507と N— 2merの部分 508、 lmerの部分 509と N— lmerの部分 510、の N— 2通り の塩基配列が得られる。これら N— 1通りの塩基配列は、包含関係にはなく一部だけ が重なっている関係にあり、ェクソンの和集合を求める場合のように、統合して一つに まとめることが可能である。
[0028] <第三節:塩基配列の統合 >
図 6は、塩基配列の統合を説明するための図である。すなわち、塩基配列 601と塩 基配列 602とが、部分 603の重なっている関係にある場合、塩基配列 601と塩基配 列 602とを統合して、塩基配列 604が得られることが示されている。塩基配列 604は 、塩基配列 601から部分 603を除いた部分、部分 603、塩基配列 602から部分 603 を除いた部分の 3つを接合することにより得られる。 [0029] <第四節:塩基配列の統合の処理 >
図 7は、統合を正確に説明するための図である。図 7の上部に示すように、 DNAの 塩基配列を構成する塩基は、 DNAの端 (例えば、 DNAの化学構造により、「 末端 」と呼ばれる端)の塩基を 1として順に番号を付けることができる。例えば、端点 701を 5'末端とし、端点 702を 3'末端として、端点 701の塩基より、 1、 2、 3、…のように塩 基に番号をつけることができる。このような番号を、塩基位置ということにする。図 7の 下部 703において、例えば、塩基配列 704に現れる塩基 Aの上に 1024が付されて いるのは、その塩基 Aは、 DNAの 5 '末端より、 1024番目に現れることを示す。塩基 配列 704と 705とが、一部だけが重なっている関係にあるとする。すなわち、塩基配 列 1026番目と 1027番目との部分重なっている。この場合、塩基配列 704と 705とを 統合することにより、塩基配列 706が得られる。
[0030] 図 8は、塩基配列の和集合、特に統合、を計算するために用いるテーブルを例示 する。ここでいう「計算」は計算機を用いてプログラムを動作させて行なうのが好適で ある。その場合には、テーブルとしては、データベース管理システムなどで管理される ようになつていてもよい。図 8のテーブルは、「左端位置」と「右端位置」という名の列を 有している。各行は、ェクソンの塩基配列の左端と右端の塩基位置を格納する。また 、ェクソンの境界をまたぐ塩基配列の左端と右端の塩基位置を格納してもよい(後に 説明するように、ェクソンの境界をまたぐ塩基配列の統合には、やや複雑な操作が必 要となる場合がある。図 8のテーブルを使用することができるのは、限られた場合であ る)。なお、テーブルの各行には、行 801には 1が、行 802には 2力 という具合に行 番号が付いているとする。従って、行 801を「第 1行目」、行 802を「第 2行目」という。
[0031] また、図 8に例示されたテーブルに格納される各行に関連づけて、ェクソンの属性 情報が蓄積されていてもよい。例えば、図 8のテーブルの行番号と、ェクソンの属性 情報と、を関連付けて蓄積する別のテーブルがあってもよい。あるいは、ェクソンの属 性情報は、図 8に例示されたテーブルに列を追加してその列に格納されてもよい。こ こに、「属性情報」とは、(1)ェクソンの配列位置を示す情報または(2)ェクソンが構 成する遺伝子を識別する情報を、含む情報をいう。「ェクソンの配列位置を示す情報 」とは、ェクソンがゲノム配列のどの位置に存在するかを示す情報である。例えば、 D NAの端力もの位置である。この情報は、図 8に例示されたテーブルの左端位置また は右端位置の列に格納されているが、和集合を求める際に、左端位置または右端位 置の列に格納されている値が変化するので、別に格納してもよい。また、「ェクソンが 構成する遺伝子を識別する情報」とは、そのエタソンの塩基配列を含む遺伝子を表 わす情報、例えば、遺伝子の名前など、である。また、ェクソンの配列位置を示す情 報、ェクソンが構成する遺伝子を識別する情報、以外には、ェクソンの長さなどがあ る。
[0032] 図 9は、塩基配列の和集合、特に統合、を計算するための処理のフローチャートを 例示する。上述したように、「計算」は計算機を用いて行なうのが好適である。したが つて、図 9に例示されるフローチャートの処理は、計算機で行なうのが好適である。ス テツプ S901において、左端位置という名前の列の値により、昇順に行をソートする。 すなわち、図 8に例示された表の行を、 N+ 1行目の左端位置という名前の列の値が N行目の左端位置と 、う名前の列の値より小さくならな 、ように、並び替えることを行 なう。次にステップ S902において、変数 rに 2を代入する。変数 rは、現在、何行目の 処理を行なって 、るかを示す変数である。
[0033] ステップ S903において、 rの値が、全行数の値以下であるかどうかを判断する。す なわち、第 r行目がテーブルに存在するかどうかを判断する。もし、そうならば (ステツ プ S903 :Yへ分岐する場合)、ステップ S904以下を行なう。そうでなければ (ステップ S 903 : Nへ分岐する場合)、全ての行に対する処理が終わったことになる。
[0034] ステップ S904にお 、て、第 r行目が表わす塩基配列と第 (r~l)行目が表わす塩基 配列が包含関係または一部が重なる関係にあるかどうかを調べる。すなわち、第 (r~ 1)行目の左端位置の列の値≤第1:行目の左端の列の値、かつ、第 r行目の左端位置 の列の値≤第 (r 1)行目の右端位置の列の値、が成立するかどうかを調べる。ステ ップ S 905において、成立する場合 (ステップ S 905 : Yへ分岐する場合)には、ステツ プ S906へ分岐し、そうでなければ (ステップ S905 :Nへ分岐する場合)、ステップ S9 09へ分岐する。
[0035] ステップ S906にお 、て、第 r行目の左端位置の列へ、第 (r~l)行目の左端位置の 列の値を代入する。ステップ S907において、第 r行目の右端位置の列の値が第 (r 1)行目の右端位置の値より小ならば、第 r行目の右端位置の列へ、第 (r-1)行目の 右端位置の値を代入する。ステップ S906とステップ S907により、第 (r 1)行目と第 r 行目とが表わす塩基配列を統合したものが、第 r行目により表わされるようになる。し たがって、第 (r 1)行目は不要となるので、ステップ S908により、第 (r 1)行目を削 除する。これにより、全行数の値は 1減ることとなる。その後、ステップ S903へ戻る。な お、ステップ S908において、第 (r~l)行目を削除して消滅させるのではなぐ第 (r~ 1)行目を別のテーブルに移動して蓄積してもよい。これにより、例えば、ェクソンの位 置力 元来どの配列に由来しているものであるかという情報をその別のテーブルに蓄 積することができ、検索が可能となる。
[0036] なお、ステップ S907にお 、て、第 r行目に関連付けて蓄積されて 、る属性情報を、 第 (r 1)行目に関連付けて蓄積されて 、る属性情報にマージすることを行なってもよ い。マージの例としては、第 r行目に関連付けて蓄積されている属性情報を表現する 文字列と、第 (r 1)行目に関連付けて蓄積されている属性情報を表現する文字列と 、を連接する。このように連接して得られた文字列を第 (r~l)行目に関連づけて蓄積 される属性情報としてもよい。例えば、第 (r-1)行目に関連付けて、「A、 B」のように 区切りとして「、」が用いられて「A」と「B」とが蓄積され、第 r行目に関連付けて「C」が 蓄積されていれば、「A、 B」と「C」とを、区切りを示す「、」とともに連接して得られる「A 、 B、 C」を第 (r 1)行目に関連付けて蓄積してもよい。このようにすることにより、エタ ソンの和集合の要素がどのエタソンに由来している力 例えば、どの遺伝子に関係し ているか、を容易に知ることができる。
[0037] ステップ S909においては、次の行に対する処理を行なうために、 rの値を 1増加さ せ、ステップ S903へ戻る。
[0038] <第五節:境界塩基配列の統合が直ちに求められる場合 >
図 10は、二つのェクソンが接合して発現遺伝子を構成する場合における N— 1通り の境界塩基配列を統合した塩基配列の求め方を例示する。ェクソン 1001とェクソン 1002とが接合して発現遺伝子を構成するとする。この場合、ェクソン 1001とェクソン 1002との境界における境界塩基配列を統合した塩基配列は、ェクソン 1001の右端 の N— lmerの塩基配列 1003と、ェクソン 1002の左端の N— lmerの塩基配列 1004 を接合した 2N— 2merの塩基配列となる。ただし、図 10においては、ェクソン 1001と ェクソン 1002のそれぞれの長さが N— lmer以上である必要がある。
[0039] <第六節:境界塩基配列の統合が直ちに求められな!/、場合 >
図 11は、長さが N— lmer未満のェクソンが存在する場合を例示する。図 11におい て、符号 1101、 1102、 1103、 1104を付した咅分力 Sェクソンであるとし、ェクソン 11 01、 1102、 1103力接合して一つの発現遺伝子を構成し、ェクソン 1101、 1102、 1 104が接合して別の発現遺伝子を構成するとする。また、ェクソン 1102の長さは N— lmer未満とし、ェクソン 1103とェクソン 1104は、一部が重なった関係にあるとする。 符合 1105、 1106、 1107、 1108を付した部分はイントロンであるとする。
[0040] この場合、境界塩基配列を求めると、符号 1109、 1110が付されたものの実線部分 に相当するものが得られる。発現遺伝子に特異的に現れる塩基配列かどうかを判断 するための検索は、ェクソン 1101、 1102、 1103、 1104の和集合に、これらの境界 塩基配列の集合を和としてカ卩えた集合に対して行なうことになる。あるいは、これらの 境界塩基配列の集合の代わりに、境界塩基配列の集合に対して次のような統合の操 作を行なって得られる塩基配列の集合を用いてもょ 、。
[0041] <第七節:境界塩基配列の統合を求める一般的な処理 >
図 12は、統合の操作を行なうために使用するテーブルを例示する。テーブルは、「 発現遺伝子」、「左端位置」、「右端位置」の列からなっている。「発現遺伝子」の列は 、境界塩基配列が現れる発現遺伝子を識別する識別子を格納する。図 12では、発 現遺伝子を構成するェクソンの符号を並べたものにより、そのような識別子が表わさ れている。「左端位置」と「右端位置」とは、図 8のテーブルにおける意味と同じ意味を 持ち、境界塩基配列の左端の塩基の位置と、右端の塩基の位置と、を格納する。な お、統合の操作も、計算機でプログラムを動作させることにより実行することが可能で ある。その場合、テーブルは、データベース管理システムにより管理されて操作が行 なわれるようになっていてもよい。また、そのようなプログラムはフレキシブルディスク、 光ディスク、メモリスティックなどの媒体に記録することもできる。
[0042] まず、一つの境界塩基配列に対応して、図 12のテーブルの行が一つ作られるが、 境界塩基配列の集合がテーブルに格納されるようにするために、「左端位置」と「右 端位置」の列の値の組がユニークになるようにする。すなわち、「左端位置」と「右端 位置」の列の値の組が複数回テーブルに現れな 、ようにする処理を行なう。この処理 を高速に行なうためには、例えば、左端位置の列と右端位置の列との組みに対して 索引を定義しておき、テーブルに新たな行を追加しょうとする際には、その索引を参 照して、すでにテーブルに格納されて 、る行の左端位置と右端位置と 、う列の値の 組に同じものがあるかどうかを調べるようにすればよい。ここにいう索引は、キーとして テーブルの左端位置と 、う名前の列と右端位置と!/、う名前の列との組の値を持ち、バ リューとしてテーブル行番号やテーブルの行を一意に特定する列の値を持つ。もし、 索引を参照して、新たに追加しょうとする行の左端位置と右端位置という名前の列の 値の組が同じなるような行が既にテーブルにあれば、テーブルに行を追加することは しない。もし、新たに追加しょうとする行の左端位置と右端位置という名前の列の値の 組が同じなるような行がまだ格納されていなければ、テーブルに行を追加する。これ により、境界塩基配列の集合が得られる。
[0043] 次に、境界塩基配列の集合の要素の統合を行なう。この統合の際には、発現遺伝 子の列の値が同じものの間で統合を行なう。すなわち、ェクソン 1101、 1102、 1103 の境界塩基配列は、ェクソン 1101、 1102、 1103から構成される発現遺伝子の境界 塩基配列と統合することとし、ェクソン 1101、 1102、 1104から構成される発現遺伝 子とは統合しないようにする。このために、例えば、テーブルにおいて、発現遺伝子 の列の値でソートを行ない、発現遺伝子の列の値が同じ行の集まりを作ることにより テーブルを分割して、それぞれの分割に対して、図 9のフローチャートで示される処 理を適用する。このように発現遺伝子の列の値が同じものの間で統合を行なうのは、 発現遺伝子にあり得な 、塩基配列が生成されることを防ぐためである。このような処 理の結果、符合 1113、 1114が付された塩基配列が得られる。
[0044] 図 13は、以上説明した境界塩基配列の集合に対する統合の処理のフローチャート を例示する。まず、最初のステップとして、左端位置、右端位置の列の値の組に重複 が発生しないように、境界塩基配列の情報をテーブルに付加する。次のステップとし て、発現遺伝子の列の値が同じである行の集合ごとに、統合の操作を行なう。すなわ ち、テーブルを、発現遺伝子の列の値が同じになるようにテーブルをグルーピングす ることにより (例えば、 SQL (Structured Query Language)における group by 節を用いることにより)テーブルをいくつかの小テーブルに分割し、それぞれの小テ 一ブルに対して図 9のフローチャートで示される処理を適用する。
[0045] (実施形態 1:主に請求項 20、 24に対応する)
図 14は、本発明の実施形態 1に係る塩基配列集合生成方法の処理のフローチヤ ートを例示する。本実施形態に係る塩基配列集合生成方法は、候補塩基長取得ス テツプと、ェクソン塩基配列集合取得ステップと、境界塩基配列集合生成ステップと、 和集合生成ステップと、を含む。これらのステップは、図 14に例示されたフローチヤ 一卜の S1401、 S1402、 S1403、 S 1404にそれぞれ対応する。以下の説明力ら分 かるように、これらのステップは、計算機にプログラムを動作させて実行させることが可 能である。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティ ックなどの媒体に記録することも可能である。
[0046] 「候補塩基長取得ステップ」 (S1401)は、発現遺伝子の塩基配列に特異的に現れ る塩基配列の候補の塩基配列の長さ(以下、「候補塩基配列長」という。)を取得する ステップである。取得される候補塩基配列長は、本実施形態に係る塩基配列集合生 成方法により生成される塩基配列の集合が、 siRNAの設計を目的とするならば、そ の上限は、好ましくは 30以下、より好ましくは、 22以下、さらに好ましくは 20以下であ り、その下限は、好ましくは 13以上、より好ましくは 16以上、さらに好ましくは 18以上 である。例えば、 19が好適な値である。また、その塩基配列の集合力 マイクロアレイ のオリゴ DNAの設計を目的とするならば、その上限は 30以下であるのが好ましい。
[0047] 「ェクソン塩基配列集合取得ステップ」(S1402)は、ェクソンの塩基配列の和集合 を取得する。本明細書において「取得」という単語は、生成の意味を含むとする。もし 、ここでェクソンの塩基配列の和集合を生成するのであれば、上記の第四節で述べ たように生成する。
[0048] 「境界塩基配列集合生成ステップ」 (S1403)は、境界塩基配列集合を生成する。「 境界塩基配列集合」とは、複数のェクソン力 構成される発現遺伝子におけるェクソ ンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長取 得ステップで取得された長さと同じ長さの塩基配列を示す情報、力 なる集合に対し て、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合 すること〖こより得られる集合である。具体的には、上記の第五節、又は、第六節、第七 節で説明した処理により得られる塩基配列の集合である。
[0049] 「和集合生成ステップ」(S 1404)は、ェクソン塩基配列集合取得ステップで取得さ れた塩基配列の集合と、境界塩基配列集合生成ステップで生成された塩基配列の 集合と、の和集合を生成するステップである。このステップにおける和集合は、基本 的には、単純な集合の和を取る操作で得られるものである。ただし、例外として、単純 な集合の和の操作にならない場合が 2つある。まず、ェクソンの塩基配列の和集合の 要素である塩基配列であって、発現遺伝子の端に配置され、 N— lmer以下のものが ある場合は、そのような塩基配列は境界塩基配列またはそれを統合した塩基配列に 含まれている (すなわち、包含関係にある)ので、そのような塩基配列を除去する必要 がある。また、ェクソンの塩基配列の和集合の要素である塩基配列であって、発現遺 伝子の端ではなく中間に配置され、 2N— 2mer以下のものがある場合には、そのよう な塩基配列が、境界塩基配列またはそれを統合した塩基配列に含まれる可能性が ある (N— lmer以下である場合には必ず含まれる)ので、そのような塩基配列が存在 すれば除去する。
[0050] 図 15は、図 14の和集合生成ステップ S 1404で得られた塩基配列を格納したテー ブルを例示する。例えば、「左端位置」の列には塩基配列の左端の塩基の塩基配列 の DNA配列における位置を格納し、「塩基配列」の列には、塩基配列を格納する。 他に、発現遺伝子の識別子などの情報を格納するための列があってもょ 、。
[0051] 本実施形態により生成される塩基配列の集合に対して検索を行なうことにより、与え られた遺伝子に特異的に現れる塩基配列を効率よく決定できることとなる。すなわち 、特異的に現れる塩基配列であれば、その塩基配列を用いて塩基配列の集合を検 索すると、検索結果は 1となり、そうでなければ、検索結果は複数となる。
[0052] (実施形態 2 :主に請求項 1、 2、 23に対応する)
図 16は、本発明の実施形態 2に係る特異的塩基配列探索方法のフローチャートを 例示する。本実施形態に係る特異的塩基配列探索方法は、特異的塩基配列候補取 得ステップと、塩基配列検索ステップと、判断ステップと、を含む。以下の説明から分 かるように、これらのステップは、プログラムによって計算機に実行させることが可能で ある。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティック などの媒体に記録することも可能である。
[0053] 「特異的塩基配列候補取得ステップ」 (S1601)は、特異的塩基配列候補を取得す る。「特異的塩基配列候補」とは、発現遺伝子の塩基配列に特異的に現れる塩基配 列の候補である。任意の塩基配列を候補としてもよいが、例えば、従来技術として知 られる方法により塩基配列に対して特異的に現れる可能性が高いかどうかの評価を 行な 、、特異的に現れる可能性が高!、と!、う評価値が得られた塩基配列を候補とし てもよい。ここにいう従来技術として知られている方法としては、(1)発現遺伝子の塩 基配列情報と同一または類似の塩基配列を、 NCBIの RefSeqなどのデータベース で公開されている塩基配列情報などから、例えば、 BLAST, FASTA、 ssearchなど の既存のホモロジ検索手段を用いて検索し、(2)検索された塩基配列のうち発現遺 伝子とは無関係の遺伝子の塩基配列情報の総数や発現遺伝子とは無関係の遺伝 子の塩基配列情報に付された同一類似の度合いを示す値—例えば、 BALST、 FA STA、 ssearchの場合における「E value」—に基づいて、同一または類似の度合い を示す値の逆数の総和を算出して、その総和を求め、(3)その総和に基づいて—例 えば、総和の大小などに基づ 、て—発現遺伝子の塩基配列に特異的である力否か を判断する方法がある。特異的塩基配列候補取得ステップを計算機に実行させるた めには、キーボードなど力 入力された特異的塩基配列候補を表わす文字列などを 読み取ることを計算機に行なわせる。
[0054] 「塩基配列検索ステップ」(S1602)は、塩基配列集合の中から、適合塩基配列を 検索する。「塩基配列集合」とは、ェクソンの塩基配列の和集合と、境界塩基配列の 集合と、の和集合を含む集合である。塩基配列集合は、例えば、第一節で説明した ェクソンの塩基配列の和集合と、第二節で説明した境界塩基配列の集合と、の和集 合である。あるいは、実施形態 1に係る塩基配列集合生成方法にて生成された集合 であってもよい。ェクソンの塩基配列の和集合については、ェクソンの塩基配列に対 して第四節で説明した統合の処理を行なって得られるものであってもよい。また、塩 基配列集合は、ゲノム配列が解読されてない等の理由によって、ェクソンであるか、 あるいは、その境界にまたがって存在するのかが不明な配列をさらに含んでいてもよ い。場合によっては、塩基配列集合は、遺伝子の配列の集合全体となってもよい。ま た、第四節の終わりの部分で説明したように、ェクソンの塩基配列の和集合の要素に は、ェクソンの配列位置を示す情報またはェクソンが構成する遺伝子を識別する情 報が関連付けられて 、てもよ 、。
[0055] 「境界塩基配列」とは、第二節で述べた通りである。すなわち、複数のェクソンから 構成される発現遺伝子におけるェクソンの境界にまたがって存在する塩基配列であ り、特異的塩基配列候補の塩基配列と同じ長さの塩基配列である。「適合塩基配列」 とは、特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表 わす塩基配列と適合する塩基配列である。ここに「2つの塩基配列が適合する」とは、 2つの塩基配列を構成する塩基を、対ごとに比較を行なった結果、所定の二項関係 を満たさない対が所定の数以下であることをいう。ここでいう二項関係とは、多くの場 合、対を構成する塩基が合い等しいことをいう。すなわち、数学の集合論の言葉で説 明すれば、二項関係が反射律のみを満たす場合である。また、塩基の Gと Uとが結合 しゃすいことを考慮に入れた二項関係を用いてもよい。また、二項関係のみに依存し て適合力どうかを判断せず、適合する塩基の連続する数などを考慮に入れて、 2つ の塩基配列が適合するかどうかを判断してもよい。「所定の数以下」とは、例えば、 20 %以下、好ましくは 10%以下、より好ましくは 5%以下を意味してもよい。このような検 索の方法については、バイオインフォマティクスの分野で研究が進んでおり、例えば 、 FASTA、 BLAST,スミス-ウォーターマンダイナミックプログラミング法を使う方法 など、計算機を用いて行なう方法が知られている(例えば、 David W. Mount著、 " Biomformatics: Sequence and Genome Analysis 、 Cold spring Harbo r Laboratory Press、 2001年など参照。)。
[0056] 「判断ステップ」(S1603)は、塩基配列検索ステップでの検索結果に、適合塩基配 列が複数あるかどうかに基づ 、て、特異的塩基配列候補取得ステップにて取得され た特異的塩基配列候補が特異的塩基配列である力判断する。ここに「特異的塩基配 列」とは、発現遺伝子に特異的に現れる塩基配列を意味する。判断ステップでは、検 索結果の適合塩基配列が 1であれば、特異的塩基配列候補が特異的塩基配列であ ると判断すればよい。もし、検索結果の適合塩基配列が 2以上であれば、特異的塩 基配列でないと判断する。もし、検索結果の適合塩基配列が 0であれば、類似のもの が存在しないと判断する。検索結果の適合塩基配列が 0となる場合には、このような 特異的塩基配列候補は、何の効果ももたらさないと推定される。したがって、計算機 に判断ステップを実行させるには、検索結果集合の数を取得させて判断をさせること になる。
[0057] (実施形態 3 :主に請求項 3に対応する)
本発明の実施形態 3は、実施形態 2に係る特異的塩基配列探索方法において、境 界塩基配列の集合を、第四節、第七節にあるように塩基配列の統合をして得られる 集合としたものである。
[0058] すなわち、境界塩基配列の集合を、(1)複数のェクソンから構成される発現遺伝子 におけるェクソンの境界にまたがって存在する塩基配列を示す情報であって、(2)特 異的塩基配列候補の長さと同じ長さの塩基配列を示す情報、力 なる集合に対して 、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合す ることにより得られる集合としたものである。なお、統合ができなくなるまで、すなわち、 完全に統合の処理を行なう必要はない。また、統合の処理により、ェクソンの塩基配 列の和集合の中に、統合されて得られる塩基配列に含まれる塩基配列が現れる場 合があり、そのような塩基配列を取り除く必要が出てくるのは、実施形態 1で述べたと おりである。
[0059] 塩基配列を示す情報とは、例えば、図 8に例示されたテーブルに格納された各行、 あるいは、図 12に例示されたテーブルに格納された各行、を意味する。
[0060] 本実施形態にぉ 、ては、統合が行なわれるので、検索が行なわれる要素を減少さ せることができ、集合のサイズを小さくすることができる。また、検索のスピードを向上 させることがでさる。
[0061] (実施形態 4 :主に請求項 4に対応する)
本発明の実施形態 4は、実施形態 2または 3に係る特異的塩基配列探索方法に、 適合許容数取得ステップを含ませた特異的塩基配列探索方法である。
[0062] 図 17は、本実施形態に係る特異的塩基配列探索方法のフローチャートを例示する 。このフローチャートは、図 16のフローチャートに適合許容数取得ステップである SI 702を追加したものである。
[0063] 「適合許容数取得ステップ」とは、適合許容数を取得する。「適合許容数」とは、塩 基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合 いとして、いくつの塩基の不適合まで許容するかを示す数値である。好ましくは、 1、 2 、 3、 4、 5のいずれかの値である。ここでいう「塩基の不適合」とは、塩基の対が所定 の二項関係を満たさな ヽことを ヽぅ。計算機に適合許容数取得ステップを実行させる ためには、例えば、キーボードなど力も入力されたり、画面に表示されたラジオボタン の選択により入力されたりする適合許容数を計算機に読み取らせる。
[0064] 本実施形態にぉ 、ては、塩基配列検索ステップでは、適合許容数取得ステップで 取得された適合許容数に基づいて検索が行なわれる。例えば、前に説明した BLAS Tなどを用いて検索を行なう。この場合、「適合許容数に基づいて」とは不適合となる 塩基対の数が適合許容数以下になるように検索を行なうことを意味する。ただし、 BL ASTにおいては、通常、 7塩基が連続して同じになる部分を用いて検索が行なわれ るため、候補塩基配列長が 19で適合許容数が 3である場合には、図 18の Xの位置 で塩基の不適合がある場合を検索することができない。そこで、特異的塩基配列候 補において、 Xの位置の塩基を他の塩基に置き換えた塩基配列を生成して、特定記 塩基配列候補が表わす塩基配列と一致しまたは相補性のある塩基配列を検索する ようにしてもよい。なお、適合許容数を指定して検索を行なう方法としては、 Tomoyuki YAMADA and Sinichi MORISHITA, "Computing Highly Specific and
Noise-Tolerant Oligomers Efficiently, To appear in Journal of Bioinformatics and Computational Biology, Imperial College Pressに述べられている方法力 Sある。
[0065] (実施形態 5 :主に請求項 5に対応する)
本発明の実施形態 5として、塩基配列検索ステップにて不適合と判断する塩基の 対を取得するステップを含む特異的塩基配列探索方法について説明する。
[0066] 本実施形態に係る特異的塩基配列探索方法は、実施形態 4に係る特異的塩基配 列探索方法が、さらに、不適合塩基対取得ステップを含む方法である。
[0067] 「不適合塩基対取得ステップ」とは、塩基配列検索ステップにお!/、て不適合と判断 する塩基の対を取得する。この取得は、計算機に接続されたキーボードから入力され た塩基対を取得することにより行なわれたり、媒体に記録された塩基対を示す情報を 読み込んだり、通信回線を通じて入力される情報を取得したりすることにより行なわれ る。塩基配列検索ステップにおいては、同一の塩基でなければ不適合と扱うのが通 常である。しかし、例えば、 Gと Uとが結合して対を形成することが知られているので、 Gと Uとの対を不適合とみなしたくない場合もある。そこで、本実施形態においては、 不適合であると判断する塩基の対を取得することができるようにする。なお、不適合で あると判断する塩基の対を取得するかわりに、適合すると判断する塩基の対を取得 することにより、間接的に不適合であると判断する塩基の対を取得してもよい。また、 取得される塩基の対は、適合あるいは不適合の程度を関連付けて取得されるように なってもよい。例えば、同じ塩基の対であれば 1という値を割り当て、例えば、 Gと Uの 対には、 0. 5という値を割り当ててもよい。なお、不適合塩基対取得ステップは、塩基 配列検索ステップ S 1703が実行されるまでに実行される。例えば、不適合塩基対取 得ステップを実行してから、図 17に例示されるフローチャートを実行する。
[0068] (実施形態 6 :主に請求項 6、 7に対応する)
本発明の実施形態 6として、塩基の不適合の発生の分布を指定して検索を行なう 特異的塩基配列探索方法につ!、て説明する。
[0069] 本実施形態に係る特異的塩基配列探索方法は、実施形態 2から 5の ヽずれかに係 る特異的塩基配列探索方法が、さらに、不適合分布情報取得ステップを含む方法で ある。
[0070] 「不適合分布情報取得ステップ」とは、塩基配列集合の塩基配列と特異的塩基配 列候補が表わす塩基配列との適合の度合いとして、分布情報を取得する。「分布情 報」とは、塩基の不適合の発生の分布を示す情報である。分布情報の例としては、塩 基の不適合が連続して 2以上存在しない、特異的塩基配列候補の^末端側には不 適合が少ない、特異的塩基配列候補との塩基の不適合が連続して所定の回数以上 発生しない、などがある。このように分布情報を取得する目的としては、例えば、同じ 数の塩基の不適合があっても、塩基の不適合が連続などして 、ると核酸がハイブリダ ィズしにくくなるので、適合許容数を満たしていても、塩基の不適合が連続などしてい る塩基配列を排除することがある。また、塩基の不適合があっても、不適合とみなされ ない塩基が連続している場合には、不適合な部分があるにもかかわらず、ハイブリダ ィズする可能性が出てくるので、そのような場合を排除することを目的として、不適合 とみなされな 、塩基が所定の値以上連続しな 、ことを指定する。
[0071] 分布情報は、例えば、塩基の不適合の分布が所定の分布となっているかどうかを 判定するプログラムであってもよい。あるいは、あらかじめ塩基の不適合の分布の類 型をいくつ力決めておき、それらを選択するための情報であってもよい。例えば、塩 基の不適合の分布に番号をつけておき、その番号を示す情報であってもよ 、。
[0072] 本実施形態においては、塩基配列検索ステップの処理は、例えば、次のように行な う。すなわち、不適合分布情報取得ステップで取得された分布情報をさらに考慮に入 れて、検索が行なわれる。例えば、まず、実施形態 2から 5のいずれかにおける検索 を行ない、検索の結果から、不適合分布情報を満たすもの-例えば塩基の不適合が 連続して 2以上存在しないもの、特異的塩基配列候補の^末端側に不適合が少な いもの、不適合とみなされな!/ヽ塩基が所定の数以上連続して発生しな!ヽもの-を選択 する。
[0073] (実施形態 7 :主に請求項 8に対応する)
本発明の実施形態 7に係る特異的塩基配列探索方法は、実施形態 2から 6のいず れか一の特異的塩基配列探索方法において、特異的塩基配列候補を、マイクロアレ ィのオリゴ DNAの塩基配列の候補とした方法である。
[0074] これにより、従来技術のように検索結果を精査する必要が無くなるので、マイクロア レイのオリゴ DNAの設計を効率よく行なうことができる。
[0075] (実施形態 8 :主に請求項 9に対応する)
本発明の実施形態 8に係る特異的塩基配列探索方法は、実施形態 2から 6のいず れか一の特異的塩基配列探索方法において、特異的塩基配列候補を、 siRNAの塩 基配列の候補とした特異的塩基配列探索方法である。
[0076] これにより、従来技術のように検索結果を精査する必要が無くなるので、 siRNAの 配列の決定を効率よく行なうことができる。
[0077] (実施形態 9 :主に請求項 10、 11、 21に対応する) 図 19は、本発明の実施形態 9に係る特異的塩基配列探索装置の機能ブロック図を 例示する。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態 2に係 る特異的塩基配列探索方法を使用するための装置である。
[0078] 特異的塩基配列探索装置 1900は、塩基配列集合蓄積部 1901と、特異的塩基配 列候補取得部 1902と、塩基配列検索部 1903と、を有する。なお、本明細書におい て、機能ブロック図により表わされる構成は、ハードウェアとしては、任意の計算機の CPU,メモリ、その他の LSIなどにより実現される。また、ソフトウェアとしては、メモリ にロードされたプログラムなどにより実現される。また、ハードウェアとソフトウェアとの 連携により実現することもできる。特にソフトウェアが用いられて実現される場合には、 これらの部は、計算機にプログラムをインストールして実行することにより実現可能で ある。例えば、プログラムは、各種の記録媒体に記録され、必要に応じて特異的塩基 配列探索装置 1900を実現するための計算機に機械的に読み取られる。ここで、「記 録媒体」とは、フレキシブルディスク、光磁気ディスク、 ROM, EPROM、 EEPROM 、 CD-ROM, MO、 DVD,フラッシュディスク等の任意の「可搬用の物理媒体」や、 各種計算機システムに内蔵される ROM、 RAM, HD等の任意の「固定用の物理媒 体」、あるいは LAN、 WAN,インターネットに代表されるネットワークを介してプログラ ムを送信する場合の通信回線や搬送波のように短期にプログラムを保持する「通信 媒体」を含むものとする。なお、ここにいう計算機とは、メインフレーム計算機に限定さ れることはなぐワークステーションやパーソナルコンピュータなどの情報処理装置で あってもよい。また、そのような情報処理装置には、プリンタやスキャナなどの周辺装 置がされに接続されて 、てもよ 、。
[0079] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法で あり、ソースコードやバイナリコート等の形式を問わない。なお、「プログラム」は必ずし も単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構 成されるものや、オペレーティングシステムに代表される別個のプログラムと協同して その機能を達成するものをも含む。なお、特異的塩基配列探索装置 1900において 記録媒体を読み取るための具体的な構成、読み取り手段、あるいは、読み取り後のィ ンストール手順等は、周知の構成や手順を用いることができる。 [0080] ここでは図示を省略している力 特異的塩基配列探索装置 1900は、遺伝子の塩 基配列情報等に関する外部データベースゃホモロジ検索等の外部プログラム等を提 供する外部システムに、インターネット等の通信網を介して通信可能に接続された構 成であってもよい。力かる構成により、外部プログラムを実行するウェブサイトが提供さ れる。外部システムは、 WEBサーバや ASPサーバ等として構成されてもよい。例え ば、塩基配列集合蓄積部 1901及び Z又は特異的塩基配列候補取得部 1902が外 部システムに通信可能に接続されてもよい。通信網の構成は特には限定されないが 、例えば、ルータ等の通信装置や専用線等の有線又は無線の通信回線により構成さ れる。
[0081] 「塩基配列集合蓄積部」 1901は、塩基配列集合を保持する。「塩基配列集合」とは 、ェクソンの塩基配列の和集合と、複数のェクソンから構成される発現遺伝子におけ るェクソンの境界にまたがって存在する境界塩基配列の集合と、の和集合を含む集 合である。例えば、実施形態 1で説明した方法により生成された集合である。あるい は、実施形態 2の方法などの塩基配列検索ステップにて検索がされる集合である。塩 基配列集合蓄積部 1901は、塩基配列集合を、例えば、 RAM, ROMなどのメモリ装 置、ハードディスクなどの固定ディスク装置、フレキシブルディスクや光ディスクを用い る蓄積装置を用いて所定のフォーマット、形式としてのデータとして入出力可能に蓄 積する。したがって、特異的塩基配列探索装置 1900が計算機を用いて実現される 場合には、これら蓄積のための装置との入出力を行なうドライバ及び、そのドライバを 用いてデータの入出力を行なうプログラムのモジュールなど力 塩基配列集合蓄積 部 1901に相当する。
[0082] 「特異的塩基配列候補取得部」 1902は、発現遺伝子の塩基配列に特異的に現れ る塩基配列の候補である特異的塩基配列候補を取得する。例えば、インターネットな どの通信網によって通信を行なうことができる計算機で動作するウェブブラウザに表 示されたウェブページのテキストエリアに入力され、 HTTP (HyperText Transfer Protocol)を用いてそのブラウザ力もテキスト情報などとして送信された特異的塩基 配列候補を受信することにより、特異的塩基配列候補の取得がされる。したがって、 特異的塩基配列探索装置 1900が計算機を用いて実現される場合には、通信インタ 一フェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための 入出力インターフェースにおける入出力を行なうドライノく、及び、そのドライバを用い てデータの入出力を行なうプログラムのモジュールなど力 特異的塩基配列候補取 得部 1902に相当する。
[0083] 「塩基配列検索部」 1903は、塩基配列集合蓄積部 1901に蓄積された塩基配列集 合に含まれる塩基配列から、特異的塩基配列候補取得部 1902で取得された特異 的塩基配列候補と適合する塩基配列である適合塩基配列を検索する。この検索に は、例えば、実施形態 2から 4のいずれかで説明したアルゴリズム (例えば、 BLAST) を実行するプログラムを用いる。検索の結果は、特異的塩基配列候補を送信したブ ラウザに返信するようになっていてもよい。例えば、検索の結果の件数を返信したり、 特異的塩基配列候補に適合する塩基配列を発現遺伝子に関する情報を取得して返 信を行なったりしてもよい。また、検索の結果の件数に応じて、特異的塩基配列候補 取得部 1902が取得した特異的塩基配列候補が特異的塩基配列であるかどうかを判 断した結果を返信するようになっていてもよい。また、ブラウザの内部で JAVA (登録 商標)などで記述されたプログラムが動作しており、そのプログラムにより、特異的塩 基配列候補が特異的塩基配列であるかどうかを判断するようになって 、てもよ 、。な お、特異的塩基配列探索装置 1900が計算機を用いて実現される場合には、計算機 の CPUによる制御の下で、特異的塩基配列候補取得部 1902に相当するモジユー ルなどとデータの受け渡しを行ない、また、塩基配列集合蓄積部 1901に相当するモ ジュールなどとデータの受け渡しを行な 、、ハードディスクなどに蓄積された塩基配 列集合の検索を行なうモジュールなどが、塩基配列検索部 1903に相当する。
[0084] また、特異的塩基配列探索装置 1900には、塩基配列検索部 1903による検索の 結果を蓄積する部が備わっていてもよい。特異的塩基配列候補取得部 1902で取得 された特異的塩基配列候補と、塩基配列検索部 1903による検索の結果と、を関連 付けて蓄積する部が備わっていてもよい。このような部を備えることにより、同じ特異 的塩基配列候補が特異的塩基配列候補取得部 1902で複数回取得される場合には 、二回目以降は、この部に蓄積された情報を検索することにより、応答スピードを速く することができる。 [0085] (実施形態 10 :主に請求項 12に対応する)
本発明の実施形態 10は、実施形態 9の特異的塩基配列探索装置において、境界 塩基配列集合を、複数のェクソン力 構成される発現遺伝子におけるェクソンの境界 にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の 塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺 伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することによ り得られる集合に基づ 、て得られるものとした特異的塩基配列探索装置である。本実 施形態に係る特異的塩基配列探索装置は、例えば実施形態 3に係る特異的塩基配 列探索方法を使用するための装置である。
[0086] すなわち、本実施形態に係る特異的塩基配列探索装置は、塩基配列集合蓄積部 1901に蓄積される塩基配列集合を、境界塩基配列に第七節などで説明した処理に よる統合の処理を行なった集合とした特異的塩基配列探索装置である。
[0087] 統合を行なうことにより、塩基配列集合の要素数を減少させることができるので、塩 基配列集合蓄積部 1901が使用するディスクスペースを節約することができる。また、 要素数の減少による検索速度の向上も実現される。
[0088] (実施形態 11:主に請求項 13に対応する)
図 20は、本発明の実施形態 11に係る特異的塩基配列探索装置の機能ブロック図 を例示する。特異的塩基配列探索装置 2000は、塩基配列集合蓄積部 1901と、特 異的塩基配列候補取得部 1902と、塩基配列検索部 1903と、適合許容数取得部 20 01と、を有する。したがって、本実施形態に係る特異的塩基配列探索装置は、実施 形態 9または 10に係る特異的塩基配列探索装置が適合許容数取得部を有した構成 となっている。なお、本明細書においては、同じ定義が適用できる部には、同じ符号 を割り当てることとする。ただし、実際の製造においては、同じ符号が割り当てられて いるからといって、つくりなどが同じになるとは限らない。なお、本実施形態に係る特 異的塩基配列探索装置は、例えば実施形態 4に係る特異的塩基配列探索方法を使 用するための装置である。
[0089] 「適合許容数取得部」 2001は、塩基配列集合の塩基配列と特異的塩基配列候補 が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するか を示す数値である適合許容数を取得する。例えば、特異的塩基配列候補がブラウザ から送信されるときに、そのブラウザ力も適合許容数も送信されてもよい。適合許容数 取得部 2001は、そのように送信される適合許容数を取得する。また、適合許容数を 直接入力する構成であってもよ 、。
[0090] 本実施形態においては、塩基配列検索部 1903は、適合許容数取得部 2001にて 取得された適合許容数に基づいて検索を行なう。この検索の方法については、実施 形態 4で述べたとおりである。
[0091] (実施形態 12 :主に請求項 14に対応する)
図 21は、本発明の実施形態 12に係る特異的塩基配列探索装置の機能ブロック図 を例示する。特異的塩基配列探索装置 2100は、塩基配列集合蓄積部 1901と、特 異的塩基配列候補取得部 1902と、塩基配列検索部 1903と、適合許容数取得部 20 01と、不適合塩基対取得部 2101と、を有する。したがって、本実施形態に係る特異 的塩基配列探索装置は、実施形態 11に係る特異的塩基配列探索装置が、さらに、 不適合塩基対取得部 2101を有する構成となっている。本実施形態に係る特異的塩 基配列探索装置は、例えば実施形態 5に係る特異的塩基配列探索方法を使用する ための装置である。
[0092] 「不適合塩基対取得部」 2101は、塩基配列検索部による検索において、不適合と 判断する塩基の対を取得する。例えば、不適合と判断するべき塩基の対を示すテキ スト情報を取得する。あるいは、適合と判断するべき塩基の対 (例えば、 Gと U)を取 得することにより、間接的に不適合と判断するべき塩基の対を取得するようになって いてもよい。したがって、通信インターフェースや、マウス、キーボード、ディスプレイと のデータの入出力を行なうための入出力インターフェースにおける入出力を行なうド ライノく、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュール などが不適合塩基対取得部 2101に相当する。
[0093] 本実施形態に係る特異的塩基配列探索装置の処理の流れは、実施形態 11に係る 特異的塩基配列探索装置と同じである。ただし、適合塩基配列を検索する前に、不 適合塩基対取得部 2101により塩基配列検索部による検索において、不適合と判断 する塩基の対を取得することが行なわれる。 [0094] (実施形態 13 :主に請求項 15、 16に対応する)
図 22は、本発明の実施形態 13に係る特異的塩基配列探索装置の機能ブロック図 を例示する。特異的塩基配列探索装置 2200は、塩基配列集合蓄積部 1901と、特 異的塩基配列候補取得部 1902と、塩基配列検索部 1903と、適合許容数取得部 20 01と、不適合分布情報取得部 2201と、を有する。また、特異的塩基配列探索装置 2 200は、さらに、不適合塩基対取得部を有していてもよい。したがって、本実施形態 に係る特異的塩基配列探索装置は、実施形態 9から 12のいずれかに係る特異的塩 基配列探索装置が、不適合分布情報取得部 2201を有した構成となっている。本実 施形態に係る特異的塩基配列探索装置は、例えば実施形態 6に係る特異的塩基配 列探索方法を使用するための装置である。
[0095] 「不適合分布情報取得部」 2201は、塩基配列集合の塩基配列と特異的塩基配列 候補が表わす塩基配列との適合の度合!、として、塩基の不適合の発生の分布を示 す情報である分布情報を取得する。分布情報の例としては、実施形態 6で述べたと おりである。したがって、通信インターフェースや、マウス、キーボード、ディスプレイと のデータの入出力を行なうための入出力インターフェースにおける入出力を行なうド ライノく、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュール などが不適合分布情報取得部 2201に相当する。
[0096] 本実施形態においては、塩基配列検索部 1903は、不適合分布情報取得部 2201 で取得された分布情報に基づいて検索を行なう。例えば、実施形態 11または実施形 態 12におけるように検索を行ない、その検索の結果である中間結果から、分布情報 に基づいて検索を行なう。すなわち、中間結果から、分布情報に合致するものを選択 して、最終的な検索の結果とする。
[0097] (実施形態 14 :主に請求項 17、 18に対応する)
本発明の実施形態 14は、塩基配列集合保持装置である。すなわち、ェクソンの塩 基配列の和集合と、複数のェクソン力 構成される発現遺伝子におけるェクソンの境 界にまたがって存在する塩基配列である境界塩基配列の集合と、の和集合を含む集 合である塩基配列集合を、検索可能に保持する装置である。
[0098] したがって、本実施形態に係る塩基配列集合保持装置の形態としては、例えば実 施形態 8に係る特異的塩基配列探索装置 1900の塩基配列集合蓄積部 1901を実 現するハードディスクが外付けハードディスク装置になっているものを挙げることがで きる。また、特異的塩基配列探索装置 1900の塩基配列集合蓄積部 1901を実現す るハードディスクを有するサーバ装置であってもよ 、。
[0099] 本実施形態に係る塩基配列集合保持装置により、様々な検索アルゴリズムに基づ く検索を実現することが可能となる。
[0100] (実施形態 15 :主に請求項 19、 22に対応する)
本発明の実施形態 15は、実施形態 14の塩基配列集合保持装置において、保持さ れる境界塩基配列の集合を、複数のェクソンから構成される発現遺伝子におけるェ クソンの境界にまたがって存在する塩基配列を示す情報であって、検索の入力となる 塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺 伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することによ り得られる集合に基づいて得られるものとした、塩基配列集合保持装置である。すな わち、実施形態 10に係る特異的塩基配列探索装置の塩基配列集合蓄積部を、別の 装置とした形態である。例えば、実施形態 10に係る特異的塩基配列探索装置の塩 基配列集合蓄積部に蓄積されるデータを、 NAS (Network Attached Storage) や SAN (Storage Area Network)に蓄積させることにより得られる形態である。
[0101] 本実施形態にお!、ては、境界塩基配列に対して統合の操作が行なわれるので、必 要なディスクスペースを減少させることができる。
産業上の利用可能性
[0102] 本発明においては、ェクソンの塩基配列と、ェクソンの境界に現れる塩基配列と、 から塩基配列集合を生成して、検索を行なうので、発現遺伝子に特異的に現れる塩 基配列かどうかを検索結果数に基づ 、て決定できるので、特異的塩基配列を決定す る上で有用である。
図面の簡単な説明
[0103] [図 1]RNA干渉の過程の概略を示す図
[図 2]マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程の一例図
[図 3]DNA配列と mRNAに転写される発現遺伝子配列との関係の一例図 [図 4]ェクソンの和集合と発現遺伝子のェクソンの境界をまたぐ塩基配列の一例図 [図 5]N— 1通りの境界塩基配列の一例図
圆 6]塩基配列の統合を説明するための図
圆 7]塩基配列の統合を説明するための図
圆 8]塩基配列の和集合を計算するために用いるテーブルの一例図
[図 9]塩基配列の和集合を計算するためのフローチャート
[図 10]境界塩基配列の統合の求め方の一例図
[図 11]長さが N— lmer未満のェクソンが存在する場合の一例図
[図 12]統合の操作を行なうために使用するテーブルの一例図
[図 13]統合の処理のフローチャート
圆 14]本発明の実施形態 1に係る塩基配列集合生成方法の処理のフローチャート [図 15]和集合生成ステップで得られた塩基配列を格納したテーブルの一例図 圆 16]本発明の実施形態 2に係る特異的塩基配列探索方法のフローチャート 圆 17]本発明の実施形態 4に係る特異的塩基配列探索方法のフローチャート 圆 18]候補塩基配列長が 19で適合許容数が 3である場合に BLASTでは検索でき な 、と考えられる塩基配列のミスマッチを示す図
圆 19]本発明の実施形態 9に係る特異的塩基配列探索装置の機能ブロック図 [図 20]本発明の実施形態 11に係る特異的塩基配列探索装置の機能ブロック図 [図 21]本発明の実施形態 12に係る特異的塩基配列探索装置の機能ブロック図 [図 22]本発明の実施形態 13に係る特異的塩基配列探索装置の機能ブロック図 符号の説明
301 ェクソン
302 ェクソン
303 ェクソン
304 ェクソン
305 ェクソン
306 ェクソン
401 ェクソンの和集合の一要素 402 ェクソンの和集合の一要素 403 ェクソンの和集合の一要素 404 境界塩基配列の一部 405 境界塩基配列の一部 406 境界塩基配列の一部 407 境界塩基配列の一部

Claims

請求の範囲
[1] 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列 候補を取得する特異的塩基配列候補取得ステップと、
ェクソンの塩基配列の和集合と、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取 得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基 配列である適合塩基配列を検索する塩基配列検索ステップと、
前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基 づ 、て、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候 補が特異的塩基配列である力判断する判断ステップと、
を含む特異的塩基配列探索方法。
[2] 前記エタソンの塩基配列の和集合の要素には、ェクソンの配列位置を示す情報ま たはエタソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられてい る請求項 1に記載の特異的塩基配列探索方法。
[3] 前記境界塩基配列の集合は、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さ と同じ長さの塩基配列を示す情報、力 なる集合に対して、発現遺伝子が同じで、塩 基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に 基づいて得られるものである請求項 1または 2に記載の特異的塩基配列探索方法。
[4] 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との 適合の度合 ヽとして、 Vヽくつの塩基の不適合まで許容するかを示す数値である適合 許容数を取得する適合許容数取得ステップを含み、
前記塩基配列検索ステップでは、前記適合許容数取得ステップにて取得された適 合許容数に基づいて検索を行なう請求項 1から 3のいずれか一に記載の特異的塩基 配列探索方法。
[5] 前記塩基配列検索ステップにおいて不適合と判断する塩基の対を取得する不適合 塩基対取得ステップを含む請求項 4に記載の特異的塩基配列探索方法。
[6] 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との 適合の度合 、として、塩基の不適合の発生の分布を示す情報である分布情報を取 得する不適合分布情報取得ステップを含み、
前記塩基配列検索ステップでは、前記不適合分布情報取得ステップで取得された 分布情報に基づいて検索を行なう請求項 1から 5のいずれか一に記載の特異的塩基 配列探索方法。
[7] 前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項 6に 記載の特異的塩基配列探索方法。
[8] 前記特異的塩基配列候補は、マイクロアレイのオリゴ DNAの塩基配列の候補であ る請求項 1から 7のいずれか一に記載の特異的塩基配列探索方法。
[9] 前記特異的塩基配列候補は、 siRNAの塩基配列の候補を示す請求項 1から 7の いずれか一に記載の特異的塩基配列探索方法。
[10] ェクソンの塩基配列の和集合と、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合を保持する塩基配列集合蓄積部と、 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列 候補を取得する特異的塩基配列候補取得部と、
前記塩基配列集合蓄積部に蓄積された塩基配列集合に含まれる塩基配列から、 前記特異的塩基配列候補取得部で取得された特異的塩基配列候補と適合する塩 基配列である適合塩基配列を検索する塩基配列検索部と、
を有する特異的塩基配列探索装置。
[11] 前記エタソンの塩基配列の和集合の要素には、ェクソンの配列位置を示す情報ま たはエタソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられてい る請求項 10に記載の特異的塩基配列探索装置。
[12] 前記境界塩基配列の集合は、 複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さ と同じ長さの塩基配列を示す情報、力 なる集合に対して、発現遺伝子が同じで、塩 基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に 基づ 、て得られるものである請求項 10または 11に記載の特異的塩基配列探索装置
[13] 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との 適合の度合 ヽとして、 Vヽくつの塩基の不適合まで許容するかを示す数値である適合 許容数を取得する適合許容数取得部を有し、
前記塩基配列検索部は、前記適合許容数取得部にて取得された適合許容数に基 づいて検索を行なう請求項 10から 12のいずれか一に記載の特異的塩基配列探索 装置。
[14] 前記塩基配列検索部による検索において不適合と判断する塩基の対を取得する 不適合塩基対取得部を有する請求項 13に記載の特異的塩基配列探索装置。
[15] 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との 適合の度合 、として、塩基の不適合の発生の分布を示す情報である分布情報を取 得する不適合分布情報取得部を有し、
前記塩基配列検索部は、前記不適合分布情報取得部で取得された分布情報に基 づいて検索を行なう請求項 10から 14のいずれか一に記載の特異的塩基配列探索 装置。
[16] 前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項 15 に記載の特異的塩基配列探索装置。
[17] ェクソンの塩基配列の和集合と、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合を、検索可能に保持する塩基配列集合 保持装置。
[18] 前記エタソンの塩基配列の和集合の要素には、ェクソンの配列位置を示す情報ま たはエタソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられてい る請求項 17に記載の塩基配列集合保持装置。
[19] 前記境界塩基配列の集合は、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列を示す情報であって、検索の入力となる塩基配列の長さと同じ長さ の塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の 位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて 得られるものである請求項 17または 18に記載の塩基配列集合保持装置。
[20] 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取 得する候補塩基配列長取得ステップと、
ェクソンの塩基配列の和集合を取得するェクソン塩基配列集合取得ステップと、 複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと 同じ長さの塩基配列を示す情報、力 なる集合に対して、発現遺伝子が同じで、塩 基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集 合を生成する境界塩基配列集合生成ステップと、
前記ェクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境 界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する 和集合生成ステップと、
を含む塩基配列集合生成方法。
[21] 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列 候補を取得する特異的塩基配列候補取得ステップと、
ェクソンの塩基配列の和集合と、複数のェクソンから構成される発現遺伝子におけ るェクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、の 和集合を含む集合である塩基配列集合に含まれる塩基配列から、前記特異的塩基 配列候補取得ステップで取得された特異的塩基配列候補と適合する塩基配列であ る適合塩基配列を検索する塩基配列検索ステップと、
を計算機に実行させるための特異的塩基配列探索プログラム。
[22] 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取 得する候補塩基配列長取得ステップと、
ェクソンの塩基配列の和集合を取得するェクソン塩基配列集合取得ステップと、 複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと 同じ長さの塩基配列を示す情報、力 なる集合に対して、発現遺伝子が同じで、塩 基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集 合を生成する境界塩基配列集合生成ステップと、
前記ェクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境 界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する 和集合生成ステップと、
を計算機に実行させるための塩基配列集合生成プログラム。
[23] 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列 候補を取得する特異的塩基配列候補取得ステップと、
ェクソンの塩基配列の和集合と、
複数のェクソン力 構成される発現遺伝子におけるェクソンの境界にまたがって存 在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取 得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基 配列である適合塩基配列を検索する塩基配列検索ステップと、
前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基 づ 、て、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候 補が特異的塩基配列である力判断する判断ステップと、
を計算機に実行させるための特異的塩基配列探索プログラム。
PCT/JP2005/005290 2004-03-26 2005-03-23 特異的塩基配列探索方法 Ceased WO2005093631A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/593,753 US20070202504A1 (en) 2004-03-26 2005-03-23 Method Of Searching Specific Base Sequence
JP2006511480A JP4991287B2 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法
EP05721340A EP1732021A4 (en) 2004-03-26 2005-03-23 METHOD FOR SEARCHING A SPECIFIC BASE SEQUENCE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-093301 2004-03-26
JP2004093301 2004-03-26

Publications (1)

Publication Number Publication Date
WO2005093631A1 true WO2005093631A1 (ja) 2005-10-06

Family

ID=35056388

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/005290 Ceased WO2005093631A1 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法

Country Status (4)

Country Link
US (1) US20070202504A1 (ja)
EP (1) EP1732021A4 (ja)
JP (1) JP4991287B2 (ja)
WO (1) WO2005093631A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250016A1 (en) * 2007-04-04 2008-10-09 Michael Steven Farrar Optimized smith-waterman search
US9430526B2 (en) * 2008-09-29 2016-08-30 Teradata Us, Inc. Method and system for temporal aggregation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1706826A4 (en) * 2002-01-25 2008-01-30 Applera Corp METHOD FOR TASKING, ACCEPTANCE AND PERFORMANCE OF ORDERS FOR PRODUCTS AND SERVICES
JP3530846B2 (ja) * 2002-02-28 2004-05-24 株式会社日立製作所 スプライスバリアント比較表示方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
POSPISIL H. ET AL: "EASED: Extended Alternatively Spliced EST Database.", NUCL.ACIDS RES., vol. 32, 1 January 2004 (2004-01-01), pages D70 - D74, XP002989647 *
See also references of EP1732021A4 *

Also Published As

Publication number Publication date
JPWO2005093631A1 (ja) 2008-02-14
JP4991287B2 (ja) 2012-08-01
US20070202504A1 (en) 2007-08-30
EP1732021A4 (en) 2009-07-29
EP1732021A1 (en) 2006-12-13

Similar Documents

Publication Publication Date Title
Pliatsika et al. MINTbase: a framework for the interactive exploration of mitochondrial and nuclear tRNA fragments
Kim et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
Flicek et al. Sense from sequence reads: methods for alignment and assembly
Pavesi et al. Weeder Web: discovery of transcription factor binding sites in a set of sequences from co-regulated genes
Garber et al. Computational methods for transcriptome annotation and quantification using RNA-seq
Zhang et al. Constraint and turnover in sex-biased gene expression in the genus Drosophila
Nilsson et al. Competitive binding-based optical DNA mapping for fast identification of bacteria-multi-ligand transfer matrix theory and experimental applications on Escherichia coli
Baehrecke et al. Visualization and analysis of microarray and gene ontology data with treemaps
Paladin et al. RepeatsDB in 2021: improved data and extended classification for protein tandem repeat structures
Sun et al. Toward fast and accurate SNP genotyping from whole genome sequencing data for bedside diagnostics
Gerlach et al. GUUGle: a utility for fast exact matching under RNA complementary rules including G–U base pairing
Panigrahi et al. FusionHub: a unified web platform for annotation and visualization of gene fusion events in human cancer
Reisinger et al. Introducing the PRIDE Archive RESTful web services
Kimura et al. Ultrafast SNP analysis using the Burrows–Wheeler transform of short-read data
Fujibuchi et al. CellMontage: similar expression profile search server
Ebrahimi et al. Fast and accurate matching of cellular barcodes across short-reads and long-reads of single-cell RNA-seq experiments
Vineetha et al. SPARK-MSNA: Efficient algorithm on Apache Spark for aligning multiple similar DNA/RNA sequences with supervised learning
Passalacqua et al. Coexpression enhances cross-species integration of single-cell RNA sequencing across diverse plant species
Wang et al. Transfer learning for clustering single-cell RNA-seq data crossing-species and batch, case on uterine fibroids
Liu et al. A suite of web-based programs to search for transcriptional regulatory motifs
Cheng et al. CAGI 5 splicing challenge: improved exon skipping and intron retention predictions with MMSplice
Ausiello et al. pdbFun: mass selection and fast comparison of annotated PDB residues
Pireddu et al. The Path-A metabolic pathway prediction web server
WO2005093631A1 (ja) 特異的塩基配列探索方法
Petri et al. De novo clustering of large long-read transcriptome datasets with isONclust3

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006511480

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWE Wipo information: entry into national phase

Ref document number: 2005721340

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005721340

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10593753

Country of ref document: US

Ref document number: 2007202504

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10593753

Country of ref document: US