WO2007126088A1 - バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム - Google Patents

バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム Download PDF

Info

Publication number
WO2007126088A1
WO2007126088A1 PCT/JP2007/059268 JP2007059268W WO2007126088A1 WO 2007126088 A1 WO2007126088 A1 WO 2007126088A1 JP 2007059268 W JP2007059268 W JP 2007059268W WO 2007126088 A1 WO2007126088 A1 WO 2007126088A1
Authority
WO
WIPO (PCT)
Prior art keywords
bioitem
bio
item
correlation score
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/059268
Other languages
English (en)
French (fr)
Inventor
Tetsuro Toyoda
Norio Kobayashi
Yoshiki Mochizuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RIKEN
Original Assignee
RIKEN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RIKEN filed Critical RIKEN
Priority to US11/992,492 priority Critical patent/US7921105B2/en
Priority to JP2008513314A priority patent/JP5180822B2/ja
Priority to EP07742703A priority patent/EP2015208A4/en
Publication of WO2007126088A1 publication Critical patent/WO2007126088A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/941Human sciences

Definitions

  • Neo item search device bio item search terminal device, bio item search method, and program
  • the present invention relates to genes, gene polymorphisms, diseases, drugs, neurology in information processing fields that require information retrieval, including biology (including genetics, epidemiology, system biology), chemistry, etc.
  • the present invention relates to a bio-item search apparatus that prioritizes and searches information related to “bio-items” and bio-items such as resources, proteins, persons, groups, organizations, compounds, technical terms, and literature folders.
  • Patent Document 1 is a method for estimating the gene interrelationship and the timing power of expression of each gene.
  • Patent Document 2 prioritizes a linked search that searches for an object that connects the end point key to the end point key, retrieves more promising ones from a large number of genes, and presents them with priority. It is a device to do.
  • Patent Document 3 is a device that simultaneously searches for keywords and keywords related to the keywords, and groups the keywords related to each other.
  • Patent Document 4 discloses grouping keywords.
  • Patent Document 5 is an apparatus for extracting design data with a plurality of design data capabilities, and an apparatus for evaluating design data by statistical processing.
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2003-141123
  • Patent Document 2 Japanese Patent Laid-Open No. 2001-290822
  • Patent Document 3 JP-A-8-30629
  • Patent Document 4 Japanese Patent Laid-Open No. 2006-72671
  • Patent Document 5 JP-A-10-149376
  • Non-patent document 1 Akihiko Takano et al., "Development of general-purpose associative engine and its application to large-scale document analysis", [online], 2002, Akihiko Takano, [March 23, 2007 search], Internet ⁇ URL : Http://geta.ex.nii.ac.jp/pdf/itx2002.pdf>
  • Patent Document 1 is intended to investigate the relationship of gene regulation of related genes from the timing of gene expression.
  • a DNA microarray or the like is used. There is a problem that it is necessary to acquire the timing data.
  • Patent Document 2 has a problem that selection of the end point key involves trial and error of the user and it is still difficult to select an appropriate keyword.
  • the column corresponds to each word, and it is not possible to prepare a matrix with a combination of multiple words like a conditional expression that combines keywords with bioitem names or Boolean logic expressions as one column.
  • a problem that extra time was spent in the calculation process. For this reason, there has been a need for a method capable of calculating a correlation score at high speed without performing a calculation operation on a matrix having the same number of rows as the number of documents at the time of retrieval.
  • There is also a method that can calculate statistically interpretable significance probabilities as correlation scores. Was needed.
  • the above keyword is used for a combination of a keyword inputted by a user, an arbitrary bio item 1, an arbitrary bio item 2, and a powerful three party.
  • a table consisting of the number of documents in the above-mentioned literature classified into eight categories (3 (3), whether or not (2) is included, whether or not the bio-item 1 is included, and whether or not the bio-item 2 is included (3 It was not possible to generate a high-dimensional document count table.
  • the present invention has been made in view of the above, and does not require setting of groupings for prioritization or association, and examines the number of documents related to a keyword with respect to the entire document set.
  • a correlation score between a keyword and a bio item is obtained by statistical processing, a ranking display and a related item can be found, a bio item search device, a novel item search terminal device, a bio item search method, and a program are provided. It is for the purpose.
  • a novel item search device in solving the problem of positional cloning, a novel item search device, a bioitem search method, and a method for searching a gene related to a keyword using a large set of documents and displaying a target gene in a higher rank result, and The purpose is to provide a program.
  • bioitem search terminal device a bioitem search method
  • program a bio-item search device that can be evaluated with statistical significance probabilities, can be combined with other probabilities of probabilities, can be comprehensively evaluated, and can be ranked at high speed.
  • the purpose is to provide a bio-item search method and program.
  • the bio-item search device searches for a target bio-item from a keyword input by a user, at least a control device, a storage device, and an output
  • the storage device has a document in which the bioitem name is described for each bioitem.
  • a bio-item reference set storing means for storing the no-item reference set, and the control device searches the bio-item reference set for the keyword in each of the bio-item reference sets.
  • the number of documents Nh including the key word is obtained as a candidate for the number of documents obtaining means for each bio item, and the bio item having the number of documents Nh obtained by the document number obtaining means is 1 or more.
  • a table creation means for generating a correlation score between the bio item and the keyword based on statistical calculation using the reference number table for each candidate bio item, Output means for outputting the candidate bioitem to the output device based on the correlation score calculated by the correlation score calculation means.
  • the bioitem search device is the bioitem search device according to claim 1, wherein the storage device includes all the documents included in each bioitem document set. All document set storage means for storing all document sets, and the document number acquiring means further searches the keyword from the all document sets, acquires the document number Nk including the keyword,
  • the table creation means includes: a) the number of documents Nh, b) the number of documents not including the keyword and including the bioitem name (documents of the bioitem document set of the bioitem) Nh), c) Number of documents including the above keyword and not including the above item name (Nk—Nh), and d) Not including the above keyword and the above bio Create the above-mentioned document number table consisting of at least one of the number of documents not including the item name (the total number of documents in the above-mentioned all document set-the number of documents in the above-mentioned no-item document set Nk + Nh) It is characterized
  • the bioitem search device is the bioitem search device according to claim 1 or 2, wherein the storage device includes any two of the bioitems.
  • a bio-item relation database that stores the two co-occurrence correlation scores of the two bio-items in association with each other, and the control device adds the co-occurrence correlation score stored in the bio-item relation database to the co-occurrence correlation score.
  • a related bio-item extracting means for extracting the bio-item having a correlation with the candidate bio-item as a related bio-item,
  • a synthetic correlation score calculating means for obtaining a synthetic correlation score between the related novel item and the keyword by synthesizing the correlation score of the candidate bioitem and the co-occurrence correlation score; and the output means Is characterized in that the related bio-item is output to the output device based on the synthetic correlation score calculated by the synthetic correlation score calculating means.
  • the bio-item search device is the bio-item search device according to claim 3, wherein the control device is one of the two bio-items. Obtained by searching the other bioitem name from the bioitem literature set, i) the number of documents including the one bioitem name and the other bioitem name, j ) Number of documents not including the one bioitem name and including the other bioitem name, k) including the one bioitem name and not including the other bioitem name! /, The number of documents, and m) use the co-occurrence document number table that includes at least one of the number of documents that does not include the one bio-item name and does not include the other bio-item name.
  • the co-occurrence correlation score calculating means for calculating the co-occurrence correlation score based on the statistical calculation, and the co-occurrence correlation score calculated by the co-occurrence correlation score calculating means for the two bio items.
  • the bio-item relation database is stored in the bio-item relation database in association with each other.
  • the bioitem search device is the bioitem search device according to claim 3 or 4, wherein the synthetic correlation score calculation means sets the synthetic correlation score to the following mathematical formula 1. Or synthesizing based on the approximate expression of Equation (1).
  • P l— (1 PI) (1 ⁇ 2) ⁇ ⁇ ⁇ (Formula 1)
  • is the above-mentioned synthetic correlation score
  • P1 is the above-mentioned correlation score of the candidate bioitem
  • ⁇ 2 is the above-mentioned co-occurrence correlation score.
  • the bioitem search device is the bioitem search device according to any one of claims 1 to 5, wherein the storage device is configured to store the bioitem search device for each bioitem.
  • a position information database that stores and stores genome position information indicating the position on the genome chromosome corresponding to the item, and a position on the genome chromosome corresponding to the target bioitem input by the user.
  • region information storage means for storing genomic region information indicating a genomic region, wherein the control device stores the candidate bioitem or the related bioitem in the location information database.
  • a position based on the genomic position information corresponding to the bio item is included in the genomic area of the genomic area information. The whether was judged, if it is determined to be included in the genomic region, characterized by the further this having a genomic region determining means, for controlling to output the candidate bio item or the associated biological items.
  • the bioitem search device is the bioitem search device according to any one of claims 1 to 6, wherein the storage device is configured to store the bioitem search device for each bioitem.
  • An identifier information database for storing identifier information indicating an identifier corresponding to an item in association with each other, and one or a plurality of the identifier information corresponding to the target bio item input by the user are stored.
  • a target bio-item identifier storage means wherein the control device is based on the identifier information of the novel item stored in the identifier information database for the candidate bio-item or the related bio-item.
  • the identifier is one or more of the identifier information stored in the target bioitem identifier storage means.
  • An identifier determining means for controlling whether to output the candidate neuro item or the related bio item when it is determined whether or not the identifier is included in the identifier. It is characterized by that.
  • the bio-item search device according to claim 8 is any one of claims 1 to 7.
  • the number-of-documents acquisition means includes the other biometric document set of the candidate bioitems out of any two of the candidate bioitems.
  • the number Ns of documents including the item name and the keyword is acquired by searching, and the table creation means includes the number of documents Ns, the document number table related to the two candidate bioitems, and the upper two A three-dimensional document number table is created based on the co-occurrence document number table relating to the candidate bioitem, and the correlation score calculating means uses the three-dimensional document number table, Co-occurrence keyword correlation that calculates the co-occurrence keyword correlation score between the above two candidate bioitems and the above keyword based on the above statistical calculation Core calculating means, wherein the output means associates the co-occurrence keyword correlation score calculated by the co-occurrence keyword correlation score calculation means with the two candidate bioitems, and outputs the output. Output to the device.
  • the bioitem search device is the bioitem search device according to claim 8, wherein the co-occurrence keyword correlation score calculation means uses the three-dimensional document number table.
  • the correlation score of the two candidate bioitems when the keyword is included is calculated as a correlation score with the keyword, and the correlation score of the two candidate bioitems when the keyword is not included is used as the correlation score without the keyword.
  • bioitem search device is the bioitem search device according to any one of claims 1 to 9, wherein the statistical calculation calculates the correlation score based on a test. It is characterized by doing.
  • bioitem search apparatus is the bioitem search apparatus according to any one of claims 1 to 9, wherein the statistical calculation is performed by Fisher's Exact Test (Fisher's Exact Test). ), Using chi-square test or Bayesian conditional probability.
  • Fisher's Exact Test Fisher's Exact Test
  • the bio-item search device is any one of claims 1 to 11.
  • the output unit may determine whether the candidate bioitem or the related bioitem is based on the corresponding correlation score, the co-occurrence keyword correlation score, or the synthetic correlation score.
  • search result order output means for ranking and outputting to the output device.
  • bioitem search device is the bioitem search device according to any one of claims 1 to 12, wherein the bioitem name includes a concept word.
  • the bioitem search terminal device is connected to the bioitem search device according to claims 1 to 13, and includes at least a control unit, an input unit, and an output unit.
  • the terminal device wherein the control unit controls the user to input the keyword, the genomic region information, and Z or the identifier information via the input unit, and the input Based on at least the keyword transmitted by the transmitting means that transmits the keyword, the genomic region information, and Z or the identifier information input by the control means to the bioitem search device, and the transmitting means.
  • the candidate bioitem, the related bioitem, or the top output from the bioitem search device Receiving a co-occurrence keyword-correlation score, and the receiving output means for outputting to the output unit, you comprising the.
  • the bioitem search method according to claim 15 is a novel item search device including at least a control device, a storage device, and an output device, which searches for a target bioitem from a keyword input by a user.
  • the keyword is searched for the keyword in the bioitem document set, and the number Nh of documents including the keyword in the bioitem document set is calculated.
  • the step of acquiring the number of documents to be acquired for each bioitem and the number of documents to be acquired is selected as a candidate bioitem.
  • the bioitem with the number of documents Nh acquired in the above step is selected as a candidate bioitem.
  • a) the number of documents Nh and Z or b) the number of documents not including the keyword and including the bioitem name The number of documents in the bioitem document set Nh), a table creation step for creating a document number table composed of the bioitem document set, and for each candidate bioitem, based on statistical calculation using the document number table, the bioitem and A correlation score calculating step for calculating a correlation score with the keyword, and an output step for outputting the candidate bioitem to the output device based on the correlation score calculated in the correlation score calculating step It is characterized by including these.
  • the program according to claim 16 is a program for searching a target bioitem from a keyword input by a user, and causing a bioitem search device including at least a control device, a storage device, and an output device to execute.
  • the storage device includes a novel item document set storage unit that stores a bioitem document set having a document in which the bioitem name is described for each bioitem, and is executed in the control device.
  • the keyword is also searched for the key force of the bioitem document set, and the number of documents including the above keyword in the bioitem document set is acquired for each of the novel items. Obtained in the step and the number of documents acquisition step described above.
  • the candidate bioitem selection step for selecting the bioitem as a candidate bioitem, and for each candidate bioitem, a) the number of documents Nh and Z or b) the above keyword
  • a table creation step for creating a document number table composed of the number of documents not including the bioitem name (the number of documents Nh of the bioitem document set of the nanoitem)
  • a correlation score calculating step for calculating a correlation score between the bioitem and the keyword based on statistical calculation using the document number table, and the correlation score calculated in the correlation score calculating step
  • bioitems such as bioitem names (for example, gene names, disease names, protein names, drug names, etc.) are conventionally used.
  • the expression form (phenotype) t words and phrases used in the description in natural language and their logical expressions (such as AND, OR, NOT), and You can use any keyword that has a wild card (such as “*” for any character string or “?” For any character).
  • each document is a document describing the phenotype and genotype of each patient in the research for searching for a disease-related gene polymorphism, and each genotype is each bioitem
  • the phenotype As a keyword, the gene type most correlated with the phenotype can be searched at high speed in the order of statistical significance probability.
  • a promising bioitem for example, a gene can be obtained by performing statistical processing based on the number of documents related to a keyword, a keyword, and a bioitem (for example, a gene). ) Can be ranked higher.
  • the ranking is performed between the bio-items based on the correlation score, and output (for example, display, printing, storage in a recording medium, etc.) allows the user to It can be expected to increase the accuracy of finding the target bio item.
  • the user designates the position on the genome sequence by inputting the genome region (interval) information of the target bioitem, and the novel item (in this interval)
  • the bio-item power related to the keyword exists in the S interval, even if this genetic It has the effect of being able to acquire genes that co-occur in the literature with the child and that exist in the interval.
  • the bioitem name includes a concept word, so that more accurate search accuracy can be improved.
  • the number of documents including the keyword input by the user is retrieved from the document set, and the number of documents including the keyword input by the user is obtained from the bioitem document set.
  • bioitem name is composed of a combination of a plurality of words
  • documents including bioitems are extracted in advance as a bioitem document set.
  • the strength of association between a keyword input by a user and a bio item can be evaluated with a statistical significance probability. Therefore, it is possible to improve the reliability of the judgment criteria when the user selects the target bio item.
  • bio-items similar to a keyword and related bio-items related to the bio-item similar to the keyword can be ranked at high speed based on statistical significance probability. Therefore, the reliability of the judgment criteria when the user selects the target bio-item can be further increased.
  • a bio-item related to a keyword does not exist in a novel item group (hereinafter referred to as "group") designated by identifier information input by a user, etc. Even if there is no search result (solution), it is possible to infer related neuro items related to the bioitem and existing in the group.
  • a keypad is used for a combination consisting of a keyword entered by a user, any one bio item, and any other bio item, which is a three-person force.
  • 3 dimensional literature that also has the power of the number of documents that are classified into 8 categories, including whether or not it contains a node, does not include the force that includes one bio item, or does not include the force that includes the other bio item
  • a table (3D table of the number of documents) is generated at high speed, and the co-occurrence keyword correlation score is calculated and output using the 3D table of documents, so the co-occurrence relationship between one bioitem and the other bioitem is strong. It is possible to show the user how it differs depending on the presence or absence of keywords.
  • FIG. 1 is a principle configuration diagram showing the basic principle of the present invention.
  • FIG. 2 is a diagram showing an example of a document number table.
  • FIG. 3 is a diagram showing an example of a document number table for correlation score calculation.
  • FIG. 4 is a block diagram showing an example of the configuration of the bio-item search apparatus to which the present invention is applied.
  • FIG. 5 is a flowchart showing an example of direct search processing of the system according to the present embodiment.
  • FIG. 6 is a flowchart showing an example of indirect search processing of the system in the present embodiment.
  • FIG. 7 is a diagram schematically showing the relationship between keywords and bio items.
  • FIG. 8 is a diagram schematically showing a method of creating a three-dimensional document number table.
  • FIG. 9 is a diagram showing an example of a document table for calculating “correlation score with keyword” and “correlation score without keyword”.
  • FIG. 10 is a diagram showing a data flow when searching for a bio item in the single interval mode.
  • FIG. 11 is a diagram showing an outline of a bioitem full-text searcher 120.
  • FIG. 12 is a flowchart showing the operation in the single interval mode.
  • FIG. 13 is a diagram showing a data flow when searching for a bio item in a single interval mode with respect to a catalog set.
  • Figure 14 shows bio items in single interval mode against the catalog set. It is the figure which represented the operation
  • FIG. 15 is a conceptual diagram showing a data flow of multiple interval mode search.
  • FIG. 16 is a flowchart showing an operation of multiple interval mode search.
  • FIG. 17 is a diagram illustrating an example of a system architecture for document retrieval.
  • FIG. 18 is a diagram illustrating an example of an architecture of a document number acquisition server.
  • FIG. 19 is a diagram showing an example of the architecture of a distributed document search server.
  • FIG. 20 is a diagram showing an example of the architecture of a catalog search system.
  • FIG. 21 is a diagram showing an example of a catalog search result display screen in single interval mode.
  • FIG. 22 is a diagram showing an example of a document search result display screen in a multiple interval mode.
  • FIG. 23 is a diagram showing an example of a document indirect search result display screen in the single interval mode.
  • FIG. 24 is a diagram showing an example of a document direct search result display screen in the single interval mode.
  • FIG. 25 is a diagram showing an example of a direct search result display screen using a plurality of document set types in a single interval mode (when no interval is specified).
  • FIG. 26 is a diagram showing an example of a direct search result and indirect search result display screen using a plurality of document set types in the single interval mode.
  • FIG. 27 is a diagram showing an example of a direct search result and indirect search result display screen using a plurality of document set types in the single interval mode.
  • FIG. 28 is a diagram showing an example of a direct search result and indirect search result display screen using a plurality of document set types by specifying an identifier column in the single interval mode.
  • FIG. 29 is a diagram showing an example of a search result display screen using a plurality of document set types in a multiple interval mode.
  • FIG. 30 is a diagram showing an example in which details of related documents between the keyword diabetes and the mouse gene Rrad are displayed.
  • FIG. 31 is a diagram showing an example displaying details of related literature between the mouse gene Insr and the mouse gene Irsl.
  • FIG. 32 is a diagram showing an example of a document number table for bio item 1 and bio item 2.
  • FIG. 33 is a diagram showing an example in which the user designates the method of creating the composite document number table in the above (5) and (6) on the Web browser which is the user client 500.
  • FIG. 34 is a block diagram showing an example of the configuration of the bioitem search terminal device 600.
  • FIG. 35 is a flowchart showing an example of processing of the bioitem search terminal device 600.
  • FIG. 1 is a principle configuration diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features.
  • the bio-item search device is configured to search for a target bio-item (eg, gene, gene polymorphism, disease, drug, bioresource, document folder, protein, etc.) from a keyword input by a user. , Person, group, organization, compound, technical term, etc.).
  • the nano item search device includes at least a control device, a storage device, and an output device.
  • the “document folder” defines a set of one or more documents, and a folder that can store document data files on a computer can be cited as an example.
  • the folder name of the document folder or the document folder Name can be preferably used, and a set of documents including all documents included in the folder or all documents included in the document folder is stored in the bioitem.
  • Bio-item literature set can be preferably used, and a set of documents including all documents included in the folder or all documents included in the document folder is stored in the bioitem.
  • the bioitem search apparatus stores a bioitem document set having a document describing the bioitem bioitem name for each bioitem ("bioitem document set file 106b" in Fig. 1). ).
  • the present bioitem search apparatus may store all the document sets having all the documents included in the bioitem l to n bioitem document sets stored in the bioitem document set file 106b ( Figure 1 “All Document Set File 106a”).
  • document is a form of document data that can identify a group of document data that can be recorded in a storage device by!,, File name or identifier.
  • MEDLINE Medical Literature Analysis and Retrieval System
  • “literature set” is data generated based on one or more documents, and is configured to calculate the number of documents in which the keyword is described for any keyword.
  • a document set is data including index information so that the number of documents can be calculated at high speed for any keyword. The present invention is not limited to this.
  • Bio item name is the name of the bio item.
  • the bio-item name may include a concept word that may be composed of a combination of a plurality of words.
  • the bio-item search device of the present invention when a keyword is input by a user (SA-1), each bio-item stored in the bio-item reference set file 106b.
  • the keywords in the item literature set are also searched for keywords, and the number Nh of documents containing the keywords in the no item literature set is obtained for each bioitem l to n (SA-2).
  • All documents stored in all document set files 106a The key of the document set may also be searched for keywords, and the number Nk of documents including the keyword in all document sets may be obtained.
  • the bio-item search device selects bio-items in the bio-item literature set in which the number of acquired documents Nh is 1 or more as a candidate bio-item (SA-3)
  • the bioitem search apparatus performs a) the number of documents Nh and Z or b) the number of documents not including the keyword and including the bioitem name (no item of the bioitem). Create a document count table consisting of the number of documents in the document set Nh) (SA-4).
  • this bio-item search device includes the above-mentioned a), b), and c) the keyword and the bio-item name! /, The number of documents (Nk-Nh), and d) the keyword
  • a document number table composed of at least one of the number of documents (the total number of documents in all document sets and the number of documents in the bio item document set Nk + Nh) may be created.
  • the “document number table” will be described with reference to FIGS.
  • FIG. 2 is a diagram showing an example of the document number table.
  • the number-of-documents table includes: a) the number of documents including keywords and including bioitem names; b) the number of documents including no keywords and including candidate bioitem names; c) keywords At least one of the four items a) to d), including the number of documents that contain and do not contain bioitem names, and d) the number of documents that do not contain keywords and do not contain candidate bioitem names. You are composed.
  • FIG. 3 is a diagram showing an example of a document number table for correlation score calculation.
  • this bio-item search apparatus has the number of documents Nh in item a) and (Ng – Nh in item b). ), (Nk-Nh) in item c) and (Nail-Nk + Nh-Ng) in item d), and consisting of at least one of the four items a) -d) Create a document number table.
  • Ng is the number of documents in the bioitem document set of the corresponding bioitem
  • Nail is the total number of documents in all document sets stored in the all document set file 106a.
  • the literature table of the present invention is not limited to the one-dimensional or two-dimensional document table described above, but may be a three-dimensional document table. The embodiment of the three-dimensional document table will be described in detail later.
  • the bio-item search apparatus uses the number-of-documents table created for each candidate bio-item based on statistical calculation to calculate the correlation score between the candidate bio-item and the keyword.
  • SA-5 statistical calculation
  • Fisher's exact test, chi-square test, or Bayesian conditional probability may be used for statistical calculation.
  • the correlation probability between each candidate bioitem and the keyword can be reflected in the correlation significance, and a correlation score that can be statistically interpreted can be calculated.
  • the significance probability of the test is used as the correlation score
  • the correlation score is defined and used so that the stronger the correlation, the smaller the value of the correlation score. May be.
  • a correlation score may be used in which the correlation tends to be stronger as the item a) of the document count table is larger. Correlation scores defined as tending to weaken may be used. It is also possible to use a correlation score that is defined so that the correlation becomes weaker as item c) in the document number table is larger. In addition, the item is defined only from item a) in the document number table so as to satisfy the above tendency. The correlation score can be used, and only the items a) and b) in the document count table can be used to satisfy the above trend. The correlation score can also be used, and the document count table can satisfy the above trend.
  • Correlation scores defined only from items a) and c) may be used, and only items a), b), and c) in the literature table should be used to satisfy the above trend. It is also possible to use a correlation score that also defines item a), item b), item c) and item d) force in the document number table so as to satisfy the above tendency. In addition, it is based on all the values of items a), b), c), and d) in the number of documents table. It is not necessary to calculate items that are not based on the definition of. In addition, one correlation score defined based on two or more types of the correlation scores may be used as the correlation score.
  • the present bio-item search device uses the calculated correlation score as a candidate bar.
  • the item is output to the output device (SA-6).
  • this bio-item search device may rank candidate bio-items and output them to the output device.
  • the bio-item search device includes a bio-item relationship database 106c that stores any two bio-items and the co-occurrence correlation scores of the two bio-items in association with each other. Configured.
  • the bio-item search device uses the bio-item reference set of one bio-item of the two bio-items to select the name of the other bio-item. I) the number of documents including one bioitem name and including the other bioitem name, j) the number of documents not including one bioitem name and including the other bioitem name, k) the number of documents that contain one novel item name and not the other bioitem name, and m) the number of other bioitem names but not the other bioitem name!
  • a co-occurrence correlation score is calculated based on statistical calculations using the co-occurrence document count table that also includes at least one of the forces (SA-7). Then, the bioitem search apparatus stores the calculated co-occurrence correlation score in the bioitem relation database 106c in association with the two bioitems (SA-8).
  • the bio-item search device uses a bio-item having a correlation with a selected candidate bio-item based on the co-occurrence correlation score stored in the bio-item relationship database 106c. Extract as a related bioitem (SA-9).
  • the bio-item search apparatus obtains a composite correlation score between the related bio-item and the keyword by synthesizing the correlation score and the co-occurrence correlation score of the original candidate bio-item ( SA—10).
  • the composite correlation score may be calculated based on Equation 1 below.
  • Equation 1 is the co-occurrence correlation score.
  • Max ⁇ A, B ⁇ is a function that selects the lesser of A and B
  • bio-item search device outputs the related bio-item to the output device based on the calculated composite correlation score (SA-11).
  • SA-11 composite correlation score
  • the bio-item search apparatus may store, in association with each bio-item, genomic position information indicating the position on the genome chromosome corresponding to the bio-item (“position information database 106d in FIG. 1). ").
  • the bioitem search device Regarding the related bioitem, the position on the genome corresponding to the bioitem stored in the position information database 106d is determined whether it is included in the genome region input by the user, and the genome region If it is determined that the candidate bioitem or the related bioitem is output, control is performed to output the candidate bioitem or the related bioitem (SA-12).
  • the bio-item search apparatus may store, in association with each bio-item, identifier information indicating an identifier corresponding to the bio-item ("identifier information database 106e" in FIG. 1).
  • the bio-item search apparatus will search for a candidate bio-item or related bio-item.
  • the identifier based on the identifier information corresponding to the bioitem stored in the identifier information database 106e is input by the user. Whether or not it is included in one or a plurality of identifiers is determined, and when it is determined that it is included, control is performed to output the candidate bioitem or the related bioitem (SA-13).
  • the computer may cause the computer to execute a program for transmitting the keyword input by the user operating the computer from the computer to the control device of the bioitem search device.
  • a program for transmitting the keyword input by the user operating the computer from the computer to the control device of the bioitem search device.
  • an HTML (Neoper Text Markup Language) file that can be interpreted by the web browser of the computer can be used as the program.
  • a bio-item search terminal device may be used as the computer!
  • the bio item search terminal device is connected to the bio item search device via a network and includes at least a control unit, an input unit, and an output unit.
  • the nano item search terminal device controls the user to input keywords, genome region information, and identifier information via the input unit, and transmits the keywords and the like to the bio item search device 100.
  • the search result candidate bio item, related bio item, or co-occurrence keyword correlation score
  • output from is received and output to the output unit.
  • FIG. 4 is a block diagram showing an example of the configuration of the bio-item search apparatus to which the present invention is applied, and conceptually shows only the portion related to the present invention in the configuration.
  • the bioitem search apparatus 100 schematically shows a communication such as a control unit 102 such as a CPU that performs overall control of the entire bioitem search apparatus 100, a router connected to a communication line, and the like.
  • a communication control interface unit 104 connected to a device (not shown), an input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and tables
  • These units are communicably connected to the network 300 via an arbitrary communication path.
  • the identifier information database 106e is a storage means such as a fixed disk device, and stores various programs, tables, files, database web pages, etc. used for various processes.
  • the bio item document set file 106b stores a bio item document set storage that stores a document describing a bio item name of a nano item for each bio item. Means. As shown in FIG. 4, the bioitem document set file 106b stores a bioitem document set that is a set of documents including a bioitem name for each bioitem l to n.
  • the all document set file 106a is a document set storage unit that stores all document sets having all documents included in the bioitem document sets of these bioitems 1 to n.
  • the bio-item relationship database 106c is bio-item relationship storage means for storing the correlation scores of any two bio items and the corresponding two nano items as co-occurrence correlation scores.
  • the bio-item relationship database 106c stores two bio-items related to each other whose co-occurrence correlation score is lower than the superiority level and determined to have a significant correlation. Also good.
  • the position information database 106d is position information storage means for storing, in association with each bioitem, genome position information indicating the position on the corresponding genome chromosome.
  • the identifier information database 106e is an identifier information storage unit that stores, in association with each item, identifier information indicating a corresponding identifier.
  • the communication control interface unit 104 controls communication between the bioitem search device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with other terminals via a communication line.
  • the input / output control interface unit 108 controls the input device 112 and the output device 114.
  • the output device 114 in addition to a monitor, a speaker can be used.
  • a keyboard, a mouse, a microphone, and the like can be used.
  • the monitor also works as a pointing device with the mouse. Can be realized.
  • the user can input keywords, intervals, and identifiers via the input device 112 such as a keyboard, and can view the search results output via the output device 114 such as a monitor. Become a configuration! /
  • the control unit 102 has a control program such as an OS (Operating System), a program that defines various processing procedures, and an internal memory for storing necessary data. Information processing for executing various processes is performed by these programs.
  • the control unit 102 includes a document number acquisition unit 102a, a candidate bioitem selection unit 102b, a table creation unit 102c, a correlation score calculation unit 102d, a co-occurrence correlation score calculation unit 102e, and a bioitem relationship database creation unit 102f.
  • the number-of-documents acquisition unit 102a searches for the key keywords of each bioitem l to n bioitem document set stored in the bioitem document set file 106b, It is a document number acquisition means for acquiring the number Nh of documents including a keyword for each bioitem 1 to n.
  • the document number acquisition unit 102a searches for keywords in all document sets stored in the all document set file 106a, and acquires the number Nk of documents including the keywords in all document sets. Good.
  • the number-of-documents acquisition unit 102a searches the number Ns of documents including the name of the other bioitem and including the keyword from among the candidate item set of one of the two candidate bioitems. You may get it.
  • candidate bioitem selection unit 102b selects candidate bioitems that select bioitems in the bioitem document set with the number of documents Nh acquired by the document number acquisition unit 102a being 1 or more as candidate bioitems. Means.
  • the table creation unit 102c generates, for each candidate bioitem selected by the candidate bioitem selection unit 102b, a) the number of documents Nh, b) the number of documents that do not include a keyword and include a bioitem name. Number of references in the bioitem's new item reference set Nh), c) Number of references that include keywords and do not include bioitem names (Nk—Nh), and d) Number of references that do not include keywords and do not include bioitem names (Total literature for all literature sets
  • the table creation unit 102c is based on the document number Ns acquired by the document number acquisition unit 102a, the document number table related to the two candidate bioitems, and the co-occurrence document number table related to the two candidate bioitems. You can also create a 3D document table
  • the correlation score calculation unit 102d calculates a correlation score between the candidate bioitem and the keyword for each candidate bioitem based on statistical calculation using the document number table created by the table creation unit 102c. Correlation score calculation means.
  • the correlation score calculation unit 102d may use Fisher's exact test, Chi-square test, or Bayesian conditional probability as a statistical calculation.
  • 102d is configured to include a co-occurrence keyword correlation score calculation unit 102m.
  • the co-occurrence keyword correlation score calculation unit 102m calculates a co-occurrence keyword correlation score between two candidate bioitems and a keyword based on statistical calculation using the three-dimensional document number table created by the table creation unit 102c.
  • the co-occurrence keyword correlation score calculation unit 102m calculates the correlation score of the two candidate bioitems including the keyword as the correlation score with the keyword, and calculates the correlation score of the two candidate bioitems when the keyword is not included. It is also possible to calculate as a keyword-less correlation score, and use both the keyword-related correlation score and the keyword-less correlation score as well as Z or a comparison result as the co-occurrence keyword correlation score.
  • the co-occurrence correlation score calculation unit 102e is obtained by searching the name of the other bioitem from one bioitem document set of any two bioitems. J) the number of documents including the name of the other bioitem, j) the number of documents not including the name of one bioitem and the name of the other bioitem, k) the number of documents including the name of one bioitem and the other bioitem Item name is not included!
  • the number of documents, and m) —V item that does not include the other bioitem name and does not include the other bioitem name, and at least one of four items i) to m) Number of co-occurrence document tapes This is a co-occurrence correlation score calculation means for calculating a co-occurrence correlation score based on statistical calculation using a network.
  • the co-occurrence correlation score calculation unit 102e searches for one of the bio-item names and Z or the other bio-item name in the all-document set stored in the all-document set file 106a, thereby obtaining the item i). ⁇ ! The value of n) may be obtained.
  • the co-occurrence correlation score calculation unit 102e may use Fisher's exact test, Chi-square test, or Bayesian conditional probability as a statistical calculation.
  • the bioitem relationship database creating unit 102f associates the co-occurrence correlation score calculated by the co-occurrence correlation score calculation unit 102e with the two bioitems and stores them in the bioitem relationship database 106c. It is a relational database.
  • the related bioitem extraction unit 102g has a correlation with the candidate bioitem selected by the candidate bioitem selection unit 102b based on the co-occurrence correlation score stored in the neuroitem relationship database 106c. It is a related novel item extraction means for extracting as a related bioitem.
  • the composite correlation score calculation unit 102h generates a correlation score between the related bioitem and the keyword of the candidate bioitem, which is a source of extraction by the related bioitem extraction unit 102g, This is a composite correlation score calculation means that is obtained by synthesizing the co-occurrence correlation score stored in the bioitem relation database creation unit 102f.
  • the composite correlation score calculation unit 102h may calculate the composite correlation score based on the following formula 1 or an approximate formula of formula 1 (the following formulas 11 and 12).
  • P is a composite correlation score
  • P1 is a correlation score with the keyword of the candidate bioitem
  • P2 is a co-occurrence correlation score between the candidate bioitem and the related bioitem.
  • Max ⁇ A, B ⁇ is a function that selects the lesser of A and B
  • the composite correlation score calculation unit 102h inputs two genome regions (intervals).
  • the multiple interval mode when calculating the overall correlation score (total P) with the keywords of two candidate bioitems (bioitem 1, bioitem 2), combine them using one of the following formulas: You can configure it! /
  • the output unit 102i is an output unit that outputs the candidate bioitem to the output device 114 based on the correlation score calculated by the correlation score calculation unit 102d.
  • the output unit 102i may output the related bioitem to the output device 114 based on the composite correlation score calculated by the composite correlation score calculation unit 102h.
  • the output unit 102i may output the co-occurrence keyword correlation score calculated by the co-occurrence keyword correlation score calculation unit 102m to the output device 114 in association with the two candidate bio items.
  • the output unit 102i may be configured not to output a candidate bioitem or a related bioitem corresponding to V when the correlation score or the composite correlation score is less than a predetermined superiority level.
  • the output unit 102i includes a search result order output unit 102 ⁇ .
  • the search result order output unit 102 ⁇ ranks and outputs the corresponding candidate bioitems or the related bioitems to the output device 114 based on the correlation score, the co-occurrence keyword correlation score, or the combined correlation score.
  • Result order Output means.
  • the search result order output unit 102 ⁇ may output a candidate bioitem or a related bioitem with a small correlation score or a combined correlation score.
  • the genomic region determination unit 103 ⁇ 4 for the candidate bioitem or the related bioitem, stores the genomic region in which the position based on the corresponding genomic position information stored in the positional information database 106d is input by the user. It is determined whether it is included in the genomic region (interval) based on the information, and when it is determined that it is included in the genomic region, the corresponding genomic region is controlled so that the corresponding candidate bioitem or related bioitem is output. It is a fixed means.
  • the genomic region determination unit 103 ⁇ 4 includes the position on the genome of the candidate bioitem selected by the candidate bioitem selection unit 102b in the genomic region (interval) input by the user. If it is determined that there is no such item, the related neuro item extraction unit 102g may be instructed to extract related bio items related to the candidate bio item!
  • the identifier determination unit 102k for the candidate bioitem or the related bioitem, the identifier based on the corresponding identifier information stored in the identifier information database 106e is based on the identifier information input by the user. It is an identifier determination unit that determines whether or not it is included in one or a plurality of identifiers, and controls to output a corresponding candidate bioitem or related bioitem when it is determined to be included.
  • the bio-item search device 100 is connected to an external system 250 that provides an external database related to literature information, an external program such as a bio-item search program, and a nano-item search terminal device 600.
  • an external system 250 that provides an external database related to literature information
  • an external program such as a bio-item search program
  • a nano-item search terminal device 600 Alternatively, it may be configured to be communicably connected via the network 300.
  • a network 300 has a function of interconnecting the bioitem search device 100, the external system 250, and the bioitem search terminal device 600, such as the Internet, LAN, public telephone line network, etc. It is.
  • an external system 250 is mutually connected to the bioitem search apparatus 100 via the network 300, and external programs such as an external database related to literature information, bioitem search programs, etc. are provided to the user. It has a function to provide a website that executes
  • the external system 250 may be configured as a WEB server, ASP server, or the like, and its hardware configuration is configured by an information processing device such as a commercially available workstation, personal computer, or its accessory device. You may do it.
  • Each function of the external system 250 is realized by a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 250 and a program for controlling them.
  • the bio-item search terminal device 600 is connected to the nano-item search device 100 via the network 300, and at least the control unit, the input unit, and the output It is configured with a part.
  • the bio-item search terminal device 600 controls the user to input keywords, genome region information, and identifier information via the input unit, and transmits the key table and the like to the bio-item search device 100, and the bio-item search device 100
  • the candidate bioitem, the related bioitem, or the co-occurrence keyword correlation score output from the search terminal device 600 is received and output to the output unit.
  • direct search means searching for bioitems directly related to a keyword, and is a search in which candidate bioitems are output as search results (direct search solution).
  • indirect search means inference between bio-items and searching for bio-items indirectly related to keywords, and related bio-items are output as search results (solution of bio-item inference). It is a search.
  • FIG. 5 is a flowchart showing an example of the direct search process of the system according to the present embodiment.
  • the control unit 102 of the bioitem search apparatus 100 causes the user to input a keyword via the input device 112 and receives the keyword (SB-1).
  • 102a searches keywords of the bioitem document set stored in the bioitem document set file 106b, and obtains the number Nh of documents including the keyword in the bioitem document set for each of the bioitems l to n.
  • SB-2 the document number acquisition unit 102a searches the central keyword of all document sets stored in the all document set file 106a, and acquires the number Nk of documents including the keyword in all document sets.
  • the candidate bioitem selection unit 102b selects, as candidate bioitems, bioitems in the bioitem document set in which the acquired number of documents Nh is 1 or more (SB-3).
  • the table creation unit 102c a) Number of documents Nh, b) Number of documents that do not include a keyword and include a bioitem name (the bioitem document set of the bioitem) N)), c) the number of documents that include the keyword and do not include the bioitem name (Nk-Nh), and d) the number of documents that do not include the keyword and include the bioitem name (of the entire document set) Create a document number table consisting of at least one of the following four items: total number of documents-number of documents in the no-item document set-Nk + Nh) (SB-4).
  • the correlation score calculation unit 102d uses the document number table created by the processing of the table creation unit 102c, based on Fisher's exact test, the candidate bioitem group that constitutes the candidate bioitem group. Calculate correlation scores between items and keywords (SB-5).
  • the output unit 102i outputs a candidate bioitem group to the output device based on the correlation score calculated by the correlation score calculation unit 102d (SB-6).
  • FIG. 6 is a flowchart showing an example of the indirect search process of the system according to the present embodiment.
  • the co-occurrence correlation score calculation unit 102e is obtained by searching for the name of the other bioitem from the bioitem literature set of one bioitem among the two bioitems.
  • the bio-item relationship database creation unit 102f performs the co-occurrence correlation score calculation unit 10
  • the co-occurrence correlation score calculated by 2e is stored in the bioitem relationship database 106c in association with the two bioitems (SC-2).
  • the above is the creation process of the bio-item relation database 106c. This creation process is performed in advance before performing a direct search or an indirect search.
  • the novel item search device 100 causes the user to input a key word via the input device 112, and directly executes the search (SC-3-7).
  • SC-3 to 7 correspond to SB-1 to 5 for direct search, and will not be described.
  • the transition process from direct search to indirect search is configured as a linear process as shown in Fig. 6, and the candidate bioitem force selected by SC-5 Genomic region determination unit 103 ⁇ 4 If it is determined by the processing that it is not included in the interval input by the user, the process proceeds to SC-8, and the candidate bioitem determined to be not included in the interval to the related bioitem extraction unit 102g. As a configuration that orders the extraction of related bio-items that are correlated with.
  • the related bioitem extraction unit 102g is based on the co-occurrence correlation score stored in the bioitem relationship database 106c corresponding to the candidate bioitem selected by the candidate bioitem selection unit 102b. Then, related noise items with correlation are extracted (SC-8).
  • the composite correlation score calculation unit 102h uses the correlation score (P1) calculated by the correlation score calculation unit 102d as the composite correlation score P between the related novel item and the keyword extracted by the related bioitem extraction unit 102g. And the bio-item relation database 106c, and the (co-occurrence) correlation score (P2) between the candidate bio-item obtained by the candidate bio-item selection unit 102b and the related bio-item extracted by the related neuro-item extraction unit 102g Is obtained by synthesis using Equation 1 below (SC-9).
  • the output unit 102i outputs the related neuro item extracted by the related bioitem extraction unit 102g to the output device based on the composite correlation score calculated by the composite correlation score calculation unit 102h (SC-10). .
  • the user can specify information (genome region information) related to the range (genome region) on the genome sequence, which is called "interval”.
  • This genome region determination function allows the user of the bioitem search apparatus 100 to narrow down the search results in consideration of the position of the bioitem on the genome sequence, for example, in solving the problem of positional cloning. Become.
  • the genome region determination unit 103 ⁇ 4 uses the location information database 106d for the candidate bioitem selected by the candidate bioitem selection unit 102b or the related bioitem extracted by the related bioitem extraction unit 102g. To extract the corresponding genome position information.
  • the genome region determination unit 103 ⁇ 4 determines whether or not the position on the genome based on the acquired genome position information is included in the genome region (interval) input by the user.
  • the genome region determination unit 103 ⁇ 4 determines that the candidate bioitem force interval exists, the genome region determination unit 103 ⁇ 4 instructs the output unit 102i to output this bioitem as an appropriate search result (solution). On the other hand, if it is determined that it is not included in the interval, the bio item is rejected as inappropriate as a search result (solution). At this time, the related bioitem extraction unit 102g may be instructed to extract bioitems related to this bioitem.
  • “internary” includes cases where both an interval or identifier column or an interval identifier column is specified. In this case, that is, when both the interval or identifier column or the interval identifier column is input by the user, the genome region determination unit 103 ⁇ 4 performs the above-described genome region determination process for each input. You can do it! /
  • FIG. Fig. 7 is a diagram schematically showing the relationship between keywords and bio-items.
  • the correlation score calculation unit 102d uses the literature number table of bio item 1 and keywords, A correlation score between the candidate bioitem and the keyword is calculated.
  • bioitem 1 corresponds to a candidate bioitem related to a keyword
  • nanoitem 2 corresponds to a related bioitem obtained by inference.
  • bio item 1 corresponds to a neuro item belonging to one genomic region
  • bio item 2 corresponds to the other genomic region. It corresponds to the bio item belonging to.
  • bio item 1 in FIG. 7 is a bio item belonging to interval 1
  • bio item 2 is a bio item belonging to interval 2. That is, in the multiple interval mode, bioitem 1 is a bioitem belonging to interval 1 and related to the keyword, and bioitem 2 is a bioitem belonging to interval 2 and related to the keyword.
  • the correlation score calculation unit 102d calculates a correlation score between the candidate bioitem and the keyword using the reference number table of bioitem 1 and the keyword, and the co-occurrence correlation score calculation unit l02e
  • the co-occurrence correlation score is calculated using the literature table with bio item 2.
  • the composite correlation score calculation unit 10 02h includes the correlation score calculation unit.
  • a combined correlation score is calculated by combining the correlation score calculated by 102d and the co-occurrence correlation score calculated by the co-occurrence correlation score calculation unit 102e.
  • correlation score 1, correlation score 2 and two bio-item co-occurrence correlation scores are combined to calculate a new correlation score (“synthesis correlation score”). Based on these correlation scores, ranking is performed between each bio-item pair and displayed. As described above, even in the multiple interval mode, even if the ranking function by statistical processing is used, the accuracy of finding the desired novel item can be further improved.
  • Bio Item Query ml OR m2 OR- ⁇ -OR mp, referred to as “Bio Item Query”.
  • Q is a query that obtains a document that does not contain any of these names.
  • the previous bioitem query is represented as Q1.
  • a is the number of documents that satisfy Q1 and include keywords
  • b is the number of documents that satisfy Q1 and do not contain keywords
  • c is the number of documents that satisfy Q1 and include keywords
  • d is the number of documents that satisfy Q1 and do not contain keywords
  • a reference number table is also generated for the relationship between bioitem 1 and bioitem 2 (for example, the co-occurrence correlation between a candidate bioitem and a related bioitem), and each value of the table a), b), c) and d) are the numbers of documents shown below.
  • the bio item query for bio item 1 is Q
  • the bio item query for bio item 2 is
  • a) is the number of documents that satisfy Q1 and Q2.
  • b) is the number of documents that satisfy Q1 and Q2.
  • c) is the number of documents that satisfy Q1 and Q2.
  • d) is the number of documents that satisfy Q1 and Q2.
  • a co-occurrence correlation score is calculated based on statistical calculation using the created document number table. For statistical calculation, for example, the Fisher's exact test or chi-square test, or the Bayes conditional probability is applied to calculate the P value.
  • the correlation score between the candidate bioitem and the related bioitem (co-occurrence correlation score) and the correlation score between the keyword and the candidate bioitem are not directly calculated.
  • the correlation score P (“synthetic correlation score”) between the related bioitem and the keyword is obtained indirectly. Specifically, it is calculated using Equation 1 below.
  • P1 is a co-occurrence correlation score between the related bioitem and the candidate bioitem
  • P2 is a correlation score between the candidate bioitem and the keyword.
  • each interval mode first, a direct search is performed for each interval, and a set of bio-items is obtained as a result of the search. Next, each collective force is also extracted and configured one by one. All bio-item pairs are created, and each bio-item pair co-occurs on one document as described above to check whether it corresponds to the two bio-items.
  • a new correlation score is calculated by synthesizing the correlation score between the bioitem and the keyword for each of the two bioitems and the correlation score of the two bioitems. Based on these correlation scores, each bio-item pair is ranked and displayed.
  • an expression for obtaining the total correlation function is expressed by, for example, Expression 2 or Expression 3 below.
  • the number-of-documents acquisition unit 102a includes, among any two bioitems, the number of documents including the name of the other bioitem and including a keyword from the bioitem document set of one bioitem. Get Ns by searching.
  • the table creation unit 102c generates a three-dimensional document number table based on the document number Ns, the document number table related to the two bioitems, and the co-occurrence document number table related to the two bioitems. create.
  • a method of creating a three-dimensional document table will be described with reference to FIG.
  • FIG. 8 is a diagram schematically showing a method of creating a three-dimensional document number table.
  • the table creation unit 102c has eight items s), t), u), v), w), x), y), and z), that is, a force including a keyword.
  • the table creation unit 102c creates a combination of any two bioitems created by the process of the co-occurrence correlation score calculation unit 102e. Create a database of co-occurrence document count tables consisting of four items i), j), k), and m).
  • the document number acquisition unit 102a to the table creation unit 102c create a document number table between each bioitem and the keyword.
  • the number of documents table created here is a), b), c), and d) for one bioitem, and e), f), g), and h) Corresponds to the number of documents table.
  • the table creation unit 102c uses the bioitem literature set corresponding to the neuroitem 1 for the combination of arbitrary candidate bioitems 1 and 2 using the bioitem literature set corresponding to the nanoitem 1 by the process of the literature number obtaining unit 102a. Search for documents containing name 2 and obtain the number of documents Ns, and use it as s).
  • the correlation score calculation unit 102d uses the co-occurrence keyword correlation score calculation unit 102m to perform a co-occurrence key between two candidate bioitems and a keyword based on statistical calculation using a three-dimensional document number table. A word correlation score is calculated.
  • the co-occurrence keyword correlation score calculation unit 102m calculates a correlation score of two candidate bioitems when including a keyword as a "correlation score with keyword” using a three-dimensional document count table, The correlation score between the two candidate bioitems when no keyword is included may be calculated as the “correlation score without keyword”.
  • the co-occurrence keyword correlation score calculation unit 102m calculates both the “correlation score with keyword” and the “correlation score without keyword” and Z or the comparison result as the co-occurrence keyword correlation score. In other words, this reflects the co-occurrence keyword correlation that reflects how the strength of the co-occurrence correlation between bio item 1 and bio item 2 changes depending on the presence or absence of keywords. A "score" can be calculated.
  • FIG. 9 is a diagram showing an example of a document table for calculating “correlation score with keyword” and “correlation score without keyword”.
  • the co-occurrence keyword correlation score calculation unit 102m divides the three-dimensional document count table into two two-dimensional document tables and includes a document group including keywords input by the user.
  • the correlation score between bio item 1 and bio item 2 is calculated for each of the literature groups not included. That is, the former is a “correlation score with keywords” and the latter is a “correlation score without keywords”.
  • the co-occurrence keyword correlation score calculation unit 102m compares the “correlation score with keyword” with the “correlation score without keyword”.
  • the former has a stronger correlation, it can be determined that the relationship between bioitem 1 and bioitem 2 is more important in the genre specified by the keyword, and that information is co-occurrence keyword correlation. It can be presented to users as a score. If the latter is stronger, the relationship between bioitem 1 and bioitem 2 can be judged to be stronger than the genre specified by the keyword, and that information can be used as a co-occurrence keyword correlation score. Can be presented to the user.
  • the “concept word” is a phrase indicating a specific topic or field.
  • the concept word query R nl OR n2 OR-- ⁇ ⁇ np is defined.
  • the concept word query is a query for obtaining a document including at least one of the concept words. If the item query is Q, and its concept word query is R, for example, a no item query with the concept word added is defined by Q AND R, which is a query that retrieves documents that satisfy Q and R. is there.
  • a bio item query to which a concept word is added is used instead of the bio item query.
  • the bio item name is GRB2-related adaptor protein 2, Grap2, Gads, GRID, Grb2—related adaptor downstream of Sch, Mona, Grf40, GRB2L, GrbX, GRAP-2, GrpL Query
  • Q ⁇ grb2 related adaptor protei n 2 "OR grap2" OR “gads” OR “grid”
  • grb2 related adaptor downstre am of sch “OR” mona " OR “grf40” OR “grb21” OR “grbx” OR "grap ⁇
  • bio-item name is X-ray repair complementing defectiv repair in Chinese hamster cells o, Xrcc6, Kup70, Ku70, Xrcco, u22pl
  • bio-item search system a genome region (range on the genome sequence) called a “interval” and a keyword input by a user are received, and the bio-item is related to the keyword. Get what exists.
  • this bio-item search system has two types of search methods: bio-item search in single interval mode that specifies one internal and bio-item search in multiple interval mode that specifies two intervals. .
  • the designation of the interval the column of the bioobject identifier can be designated instead of the interval, or, both the interval and the identifier column of the bio object can be designated.
  • the search result is included in the identifier column even if the identifier column of the bio object is specified instead of the interval or at the interval.
  • the present invention does not prevent the present invention from being implemented in the same casing (for example, the above-described bio-item search apparatus 100) or a plurality of different casings. . That is, in this embodiment, for convenience of explanation, the configuration (102a to 102k) of the control unit 102 of the bioitem search apparatus 100 may be described using these configurations.
  • the search system does not necessarily function in the same housing.
  • This bio-item search system in the present embodiment has the following features.
  • 1) the ability of bio-items such as genes related to the keyword, even if they are not present in the S internal, the ability to literate them together The relationship between the extracted two genes or the relationship between the two genes obtained through experiments, etc. By applying this relationship to the bio item, another bio item existing in the interval can be inferred and obtained.
  • the document set handled in this example is 1) a document set in which the bio item and the document have a many-to-many relationship (“document set”), and 2) a document in which the bio item and the document have a one-to-one relationship. It may be classified into sets (“catalog sets”).
  • FIG. 11 is a diagram showing an outline of the bioitem full-text searcher 120.
  • FIG. 12 is a flowchart showing the operation in the single interval mode. In FIGS. 10 and 12, or in FIGS. 11 and 12, there is a difference in the order and number of some steps. This is not limited to the number of steps in this embodiment. Is shown.
  • the no-item full-text searcher 120 is configured such that the document number acquisition means, candidate bioitem selection means, table creation means, and correlation score calculation described above. It functions as a means.
  • the control device of the bioitem search system other than the bioitem full-text searcher 120 in FIG. 10 mainly serves as a genome region determination means, a related bioitem extraction means, a synthetic correlation score calculation means, an output means, etc. Function.
  • the storage device of the full text searcher 110 in the bioitem full text searcher 120 includes a document set file that stores two types of document data D1 and D2. That is, the document data D1 is data obtained by collecting documents related to at least one neuro item for each document set type l to m, and for obtaining the number of documents related to or not related to the keyword. Used (corresponds to the full literature set).
  • the document data D2 is data collected for all the bioitems l to r by generating a set of documents associated with the bioitems l to r.
  • D 2 is used to obtain the number of documents related to the keyword and related to the bio-item by performing a full-text search with a keyword for a set of documents (reference set) for each bio-item. Equivalent to a literature set).
  • the bio-item full-text searcher 120 receives the keyword and the interval (SD-1), the bio-item l to r for each reference set type l to m.
  • a full-text search is performed using keywords for the two types (Dl, D2) of documents, and the number of documents Nk related to the keywords for D1 and the number of documents Nh related to the keywords for D2 are obtained ( SD—2-3).
  • the bioitem full-text searcher 120 calculates a correlation score for each of the literature set types l to m by statistical calculation using the literature table for each of the bioitems l to r (SD-4).
  • the bio-item full-text searcher 120 sets, for each bio item l to r, the smallest one of the correlation scores for each document set type l to m as the correlation score of the bio item.
  • the bio-item full-text searcher 120 may control to exclude bio-items whose minimum correlation score is equal to or greater than a predetermined threshold from the direct search solution! /.
  • a search process for bioitem 1 will be described as a specific example. That is, as shown in FIG. 11, the bioitem full-text searcher 120 searches the keyword for each literature set type l to m of the bioitem 1 by the processing of the full-text searcher 110, and the number of documents including the keyword ( Nk for D1 and Nh) for D2 are obtained for each of the literature set types l to m (SD-3). Then, the noo item full-text searcher 120 creates a document number table using the number of documents Nh and Z or the number of documents Nk, and based on statistical calculation, calculates the correlation score between bioitem 1 and the keyword.
  • the full-text search item 120 uses the minimum correlation score among the correlation scores between the bioitem 1 and the keyword calculated for the literature set types l to m as the correlation score for the keyword of the bioitem 1. (SD-5).
  • the bio-item full text searcher 120 is the smallest Bioitems whose correlation score is greater than or equal to the threshold may be excluded from the solution (SD-5).
  • the no-item full-text searcher 120 executes the above processing of SD-3 to 5 for items 2 to r and collects solutions (SD-3). ⁇ Five).
  • the correlation score refers to the P value (0 ⁇ P value ⁇ 1) calculated based on Fisher's exact test for the null hypothesis.
  • a hypothesis that “there is no relation between the appearance of a keyword and a bio item in a document set” is set.
  • the P-value is small enough, the null hypothesis is rejected, so a small correlation score means that the bioitem has a strong correlation with the keyword.
  • extracting a neuro item i (candidate bio item) having a minimum correlation score equal to or less than a threshold value selects a bio item having a significantly strong correlation with the keyword.
  • a new document is created by synthesizing the document number table for each of the bioitems l to r, for each of the document set types l to m.
  • a number table may be generated, and a correlation score between a bio item and a keyword may be calculated based on statistical calculation using the document number table. That is, for each bioitem 1 to r, the document number table shown in FIG. 2 is created for each document set type l to m, but all items a in the document number table for each document set type l to m are added together.
  • the document number table configured in this way is hereinafter referred to as a combined document number table.
  • the bio-item search system When bio-item i is extracted as a solution by the full-text search unit 120, the bio-item search system, for each bio-item i selected as a solution! /, the position force on the genome of each bioitem i The force existing in the interval (including the identifier column) input by the user Determine whether or not (SD-6). If it is determined that the bio item exists in the interval (SD-6, Yes), the bio item search system moves to the step after SD-9 and uses the nano item as a correlation score. To output to the output device. In other words, the solution output here is a direct search solution.
  • FIG. 24 is a diagram showing an example of a direct search result display screen.
  • the user inputs “diabetes” in the keyword input field (MD-1), and designates the “1” chromosome in the interval input field (MD-2). Yes.
  • “Ptprn” is listed as the candidate bioitem at the top of the direct search result, and its correlation score (P-value) is displayed in the correlation score display field (MD-3) as “6.87E”.
  • -245 is output.
  • the candidate bioitems are arranged in ascending order of correlation score, that is, in descending order of correlation (6.87E-245 ⁇ 7.29E-217 ⁇ 2.50E-103).
  • the bio-item search system judges the position power on the genome of the related bio-items among the extracted related bio-items, and determines the power / power of existing in the input by the user. For related neuro items that exist in the node (SD-8, Yes), move on to the steps after SD-9. In other words, by obtaining a solution based on the inference of a new item, the user can obtain an indirect search solution that satisfies the interval even if the result search S interval is not satisfied.
  • the bio-item search system performs processing by the composite correlation score calculation unit 102h.
  • the correlation score (co-occurrence correlation score) between the neuro item and the related bio item and the correlation score between the keyword and the bio item are synthesized, and a new correlation score (synthetic correlation score) is obtained.
  • the bio-item search system determines that the composite correlation score satisfies the predetermined level as a result of the calculation by the composite correlation score calculation unit 102h (below a predetermined threshold value), the bio-item search system sets the null hypothesis. It may be controlled to deny and output the related bio item as a solution.
  • the bio-item search system arranges the obtained bio-items (candidate bio-items and related bio-items) based on the correlation score or the synthesized correlation score by the processing of the output unit 102i (SD — 10) Output the HTML document displaying the search results to the user (SD-11).
  • FIG. 23 is an example of the indirect search result display screen in the single interval mode.
  • Fig. 23 shows an example of searching for a mouse gene using the document set species MEDLINE.
  • the user inputs “diabetes mouse” and “insulin” in the keyword input field (MC-1), and in the chromosome number input field (MC-2) in the interval input field. “11” is entered, and “1” to “10000000” (bps) are set in the position input field (MC-3).
  • the related bioitems are sorted and output according to the combined correlation score (P value) of the keyword and bioitem, and the top bioitem display column (MC-4)
  • the related bio item “I gl pl” related to the candidate bio item “Hypism” is displayed, and “8.06E-8” is displayed in the composite correlation score display column (MC-5).
  • Co-occurrence on one document! /, 2 2 bio-items !, 1 /, 2 2D document number table (“co-occurrence document number table”) and correlation score between 2 bio-items (“Co-occurrence correlation score”) is calculated in advance.
  • the co-occurrence document number table is: 2 bio-items are bio-item 1 and bio-item 2, respectively.
  • A Number of documents including both bio-item 1 name and bio-item 2 name
  • B bio-item 1
  • C Number of documents including the name of bioitem 1 without the name of bioitem 1
  • D Number of documents including the name of bioitem 1 and bioitem 2
  • a four-dimensional table consisting of C and D values. This co-occurrence document table is subjected to statistical calculations such as the Fisher's exact test, and the P-value is calculated as the co-occurrence correlation score.
  • B is 0 and C is not 0! /
  • And only the relationship of bio-item 1 ⁇ bio-item 2 is obtained, and when B is not 0 and C is 0, no-item 2 ⁇ Only the relationship of bio item 1 is given, otherwise bio item bio item 2 is given in both directions.
  • bio-item relationship may or may not have a direction. That is, two bio-items il and i2 may have il ⁇ i2 or il ⁇ i2 only in one direction, or il i2 in both directions. However, in the inference of bioitems in single interval mode, when the inferred source item io and the inferred destination bioitem id are used, only the bioitem relationship io ⁇ id is applied.
  • FIG. 13 shows the flow of data when searching bio items in single interval mode for a catalog set.
  • FIG. 14 shows the operation as a flowchart.
  • the full-text searcher 110 includes an all-document set file 106a that stores all document sets having all catalog documents.
  • the all document set file 106a may include all document set files for each of a plurality of catalog set types, or a single all document set file that is a collection of all document sets of all catalog set types.
  • the full-text searcher 110 does not store the bio-item document set, so the control device does not acquire the number of documents for calculating the correlation score.
  • the correlation score between the keyword and bio-item is defined as 0 for convenience, and “0” is always calculated.
  • control device of the bioitem search system determines whether or not the hit neuro item exists in the interval by the processing of the genome region determination unit 103 ⁇ 4 (SE-4) 0
  • FIG. 21 is a diagram showing an example of a result display screen of the single interval mode search for the catalog set.
  • Fig. 21 shows an example of searching for a mutant mouse using a catalog set type mouse bioresource catalog.
  • the user has entered “diabetes” in the keyboard input field (MA-1) (the interval is not specified in this example), and the correlation score in the catalog search results.
  • the (P-value) display field (MA-2) is output as 0.00E0.
  • FIG. 15 is a conceptual diagram showing the data flow of multiple interval mode search
  • FIG. 16 is a flowchart showing the operation.
  • the bio-item search system generates, as bio-item pairs, a combination of all bio-items composed of bio-items belonging to the no-item group 1 and no-items belonging to the bio-item group 2 ( SF—4).
  • the bioitem search system refers to the bioitem relationship database 106c, and extracts bioitem pairs having a certain bioitem relationship (for example, the co-occurrence correlation score is equal to or less than a threshold) (SF— Five).
  • bioitem relationship if the bio-item pair is il and i2, the direction of the relationship between il and i2 that is il ⁇ i2 or il i2 or il i2 is irrelevant.
  • the bio-item search system calculates the correlation score between the extracted bio-item pair and the keyword calculated for each of the two bio-items and the co-occurrence correlation score between the bio-items using Equation 2 or Based on Equation 3, etc., a new correlation score (co-occurrence keyword correlation score) is calculated (SF-6).
  • a new correlation score co-occurrence keyword correlation score
  • the bioitem search system determines that the co-occurrence keyword correlation score satisfies a predetermined level as a result of the calculation by the process of the co-occurrence keyword correlation score calculation unit 102m, the null hypothesis is denied, and the You may control to output bio item pairs as solutions.
  • the bio-item search system sorts the bio-item pair groups obtained as a solution based on the total correlation score (co-occurrence keyword correlation score) by the processing of the output unit 102i (SF-7), Present (output) to the user (SF-8).
  • SF-7 total correlation score
  • SF-8 Present (output) to the user
  • FIG. 22 is a diagram illustrating a display example of a result of multiple interval search.
  • the example in Fig. 22 shows an example in which a mouse gene is searched using the document set type MEDLINE.
  • the mode setting field (MB-2) is set to multiple intervals mode (Tmultiple intervals), and the user enters "" breast cancer "" in the keyword input field (MB-1).
  • the chromosome 9 region (“63214874” to “111011533”) is entered in the interval 1 entry field (MB-3), and the chromosome number “9” is placed in the interval 2 entry field (MB-4). Enter the 15th area (“25275696" to "92307904").
  • the top-level search result is “Cdc25a” in the No Item 1 result display column (MB-5), and the Bio Item 2 result display column ( MB—6) shows “Myc” as a search result.
  • the number of documents including both bio items (Co-cited) (Documents) display column (MB-7) displays “46”, and the combined correlation score (total P value) of both bio items. )
  • the display column (MB-8) is displayed as “1.43E-131”. As described above, in the multiple interval mode, the user can obtain a bio-item pair having a high overall correlation considering the genome region.
  • FIG. 17 is a diagram showing an example of the system architecture of the bio-item search system.
  • this bio-item search system is mainly composed of three software components. That is, this bioitem search system is configured by a user client 500, a system management server 400, and a backend 200 as shown in FIG. Further, the back end 200 includes a back end management server 201, a document number acquisition server 202, and distributed document search servers 210a to 210x distributed.
  • the system management Sano 00 is connected to a plurality of knock ends 200-l to n constructed for each bio-item type l to n (mouse gene, human gene, drug, metabolite, bioresource, disease, etc.). If necessary, distributed parallel processing is executed between the back ends.
  • FIG. 1 knock ends 200-l to n constructed for each bio-item type l to n (mouse gene, human gene, drug, metabolite, bioresource, disease, etc.).
  • FIG. 17 illustrates a mouse back end 200-1 and a chemical back end 200-n.
  • Bioitems, such as drugs, that do not have a genome sequence are treated as virtual genes that do not have a position on the genome sequence. The operation of this bio-item search system The procedure will be described.
  • the user client (Web browser) 500 allows the user to input keywords, intervals, identifier strings, and the like.
  • the user can input an interval, or a sequence of identifiers, or both an interval and a sequence of identifiers. Or both an interval and an identifier column.
  • the user client 500, Q sending these requests data input by the user, the system management server 4 00
  • the system management server 00 that has received the request data analyzes the request, selects the backend 200 to be requested for processing, and transmits the request to the backend management server 201 of the selected backend 200.
  • the back-end management server 201 that has received the request transmits the keyword to the document number acquisition server 202.
  • the document number acquisition server 202 that has received the keyword uses the document number acquisition document set (all document set) group and relates to the number of documents (Nk) related to the keyword for each document set type 1 to m and the keyword.
  • Nk the number of documents related to the keyword for each document set type 1 to m and the keyword.
  • a set of the number of documents (, Nk) is acquired and returned to the notend management server 201.
  • the back-end management server 201 transmits the request received in (2) and the set of documents obtained in (3) to each of the document search servers 210a to 210x arranged in a distributed manner. Ask for reason.
  • FIG. 17 is a diagram showing an example of the system architecture of the bioitem search system.
  • Figure 19 shows the distribution 2 is a diagram illustrating an example of an architecture of a document search server 210.
  • the back-end management server 201 sends a request (keyword, interval, identifier column, etc.) from the back-end management server 201 via the interface 211 and the keyword obtained from the document count acquisition server 202.
  • a set of the number of related documents Nk, the number of documents not related to the keyword, and Nk is received and transmitted to the full text searcher 212.
  • the full-text search unit 212 performs a full-text search using keywords for the related reference set of bioitem 1 (the number of references is N1), and obtains the number of references Nh related to the novel item 1.
  • the item area determination unit 212i checks whether bioitem 1 exists in the interval.
  • item area determiner 212i adopts bio item 1 as a search result when it is determined that it is included in an inverter, and executes (3).
  • the bio-item 1 identifier and the correlation score calculator 212d obtained in (3) are transmitted to the full-text searcher 212 for the P-value pair of bio-item 1 and the keyword.
  • the full text searcher 212 uses the bioitem inference unit 212e to determine the bioitem X related to bioitem 1. Extract and obtain correlation score P (co-occurrence correlation score) between bio item 1 and bio item X.
  • the control device adopts the bio item X as a search result, and the correlation score calculation unit 102d performs a correlation score between the bio item X and the keyword.
  • the correlation score and the co-occurrence correlation score are also determined by synthesis.
  • the bio-item inference unit 212e transmits the identifier of the bio item X and the composite P-value to the full-text search unit 212.
  • biospecies of the bioitem is different from the species of the genome sequence in the region (interval) specified by the user. However, if there is a homology relationship, apply this relationship.
  • the correlation score calculator 212d creates the document number table shown in FIG. 3, and this table power is also calculated by statistical calculation such as Fisher's exact test, Chi-square test, or Bayesian conditional probability.
  • the full text searcher 212 executes (2) and (3) for other bioitems, that is, bioitem 2 to bioitem r.
  • the full-text document search unit 212 returns a list of bio-item / P-value pairs obtained as a search result to the back-end management server 201 via the interface 211.
  • the interface 211 receives a request from the back-end management server 201, that is, a keyword, an interval, the list obtained in (5), the number of documents Nk related to the keyword obtained from the document number acquisition server, and the keyword The number of documents not related to, Nk is received and sent to the full text searcher 212.
  • the document searcher 212 executes (2) (0) for bio item 1 and interval 2.
  • the document searcher 212 creates all pairs of the bioitem group obtained in (5) and the bioitem. For each bioitem pair, do the following:
  • V and B be the bio items that make up the pair, g and g, respectively. This pair is
  • the bio-item reasoner 2 1 2 e checks whether the received pair is related to the two bio-items constituting this bio-item pair, for example, based on the co-occurrence correlation score. If there is a relationship, the bio-item reasoner 2 1 2 e obtains the two-dimensional sentence bull ⁇ and the correlation score between the two bio-items. And bio-item reasoner 2 1 2
  • the full text searcher 2 1 2 first executes (3) on the bio item and calculates the correlation score with the key word. Next, for the pair received in (8), the total correlation score to / is calculated using Equation 2 or Equation 3 described above. When this total correlation score is below the default level, no item X no item 1, correlation score,. ,,, One,
  • the six pairs received in (8) are sent to the backend management server 201 as one of the solutions.
  • the full text searcher 212 executes (7), (8), and (9) for other bioitems.
  • FIG. 20 is a diagram showing an example of the architecture of a catalog search system.
  • the document search server 210 acquires a document related to the keyword in order to acquire a document related to the keyword. That is, the document search server 210 stores all document sets having all catalog documents, and performs a full-text search using keywords for the document sets. To obtain documents related to the keyword.
  • the knock-end management server 201 uses the bio-item relation database 206c to acquire bio-items corresponding to each document obtained in (3) in order to select candidate bio-items. Further, the knock-end management server 201 uses the location information database 206d for each bio item to check whether the bio item exists in the interval V.
  • the bio item that exists in the interval is the solution.
  • a bio-item search may be performed using a search system for both the document set and the catalog set by simultaneously issuing a search request to the search system for the document set and the search system for the catalog set, and collecting the results.
  • the correlation score of the catalog document search result is always 0, the result of the catalog is always ranked higher in the result display page displayed to the user.
  • each distributed search server 210 that has received the request and the number of documents, the number of documents related to the keyword for each of the bio-item groups 1 to r for which the distributed document search server 210 is in charge for each document set type 1 to m Nh To get.
  • the following procedures (i) to (ii) are executed for the bioitems whose number Nh is 1 or more in any of the literature set types l to m.
  • the distributed document search server 210 refers to the position information database by the processing of the genome region determination unit 103 ⁇ 4, and the position power on the genome of the bioitem (candidate bioitem) whose number of documents Nh is 1 or more. When it is determined that it exists in the interval (region on the genome), based on the set of the number of documents obtained in (3) and Z or the number of obtained documents Nh Calculate the correlation score. If the distributed document search server 210 determines that the correlation score is lower than the predetermined significance level (below a predetermined threshold), the null hypothesis is denied, and the bioitem is returned to the backend management server 201 as a solution.
  • the GO distributed document search server 210 determines that a bioitem (candidate bioitem) having a document number Nh force Si or more does not exist in the user-specified interval by the process of the genome region determination unit 103 ⁇ 4.
  • a bio-item-bio-item relationship (based on a co-occurrence correlation score, for example) obtained from a compelling document is applied, a bio-item related to the bio-item (related bio-item) is obtained. To do.
  • the distributed document search server 210 checks whether or not each related bioitem (each related neuroitem) exists in the interval by the processing of the genome region determination unit 103 ⁇ 4. When it is determined that the distributed document search server 210 exists in the interval, the correlation score of the original candidate bioitem is obtained by statistical calculation based on the set of the number of documents obtained in (3). Then, the distributed document search server 210 further calculates a total correlation score (synthetic correlation score) by synthesizing the correlation score value and the correlation score (co-occurrence correlation score) of the bioitem bioitem relationship, and The related bio item is returned to the back end management server 201 as a solution.
  • a total correlation score synthetic correlation score
  • the knock-end management server 201 receives the search results (solutions) from all the distributed document search servers 210a to 210x by (0, GO processing), and returns the results to the system management server 00.
  • the two intervals are interval 1 and interval 2, respectively.
  • the document search server 210 that has received the request and the number of documents from the back-end management server 201 is associated with keywords for each of the bio-items l to r in charge and for each document set type l to m.
  • the number Nh is obtained, and the following procedure is executed for bioitems (candidate bioitems) with the number Nh of one or more of literature set types l to m.
  • the GO distributed document search server 210 determines that the relevant neuro item (candidate bioitem) exists in the interval 1, it is based on the set of the number of documents obtained in (3) and Z or the obtained number of documents Nh. And the correlation score between the keyword and the bio item by statistical calculation Calculate When the distributed document search server 210 determines that the correlation score is below a predetermined significance level (predetermined threshold value), the null hypothesis is denied and the bioitem (candidate bioitem) is found in the interval 1 Return to the backend management server 201 as an item.
  • predetermined significance level predetermined threshold value
  • the backend management server 201 also receives the search results (solution) for all the distributed document search servers 210a to x, and receives the request received in (2) and the number of documents obtained in (3). Is sent to each of the distributed document search servers 210a to 210x to request a document search process. Each document search server 210a-x executes the following procedures (iii)-(v).
  • Each document search server 210 acquires the number of documents Nh related to the keyword for each document set type 1 to m for each bioitem l to r in charge. For each bioitem (each candidate bioitem) with the number of documents of any of the literature set types l to m greater than or equal to 1, execute the following procedure.
  • each document search server 210 determines that the bioitem (candidate bioitem) exists in the interval 2, the document search server 210 performs statistical calculation based on the number of documents obtained in (3). Further, a correlation score between the keyword and the bio item is calculated. When this correlation score falls below a predefined significance level (predetermined threshold), execute (V).
  • predefined significance level predetermined threshold
  • Each document search server 210 generates all pairs of the neuro item and the bio item existing in the internal 1. Among these, a pair having a bio-item-noio item relationship (stored in the bio-item relationship database) previously obtained from the literature is selected based on the co-occurrence relationship. Further, the correlation score for each selected bio item pair is calculated by synthesizing the correlation score obtained in (iv) and the correlation score (co-occurrence correlation score) of the bio item bio-item relationship. The bio-item pair whose correlation score is lower than the predetermined significance level (predetermined threshold) is returned to the back-end management server 201.
  • predetermined significance level predetermined threshold
  • the knock-end management server 201 receives the search results from all the distributed document search servers 210a to 210x by the processes (i) to (v), and then returns the search results to the system management server 400. .
  • the system management server 00 receives the search results from all the selected back-end management servers 201 and summarizes the search results for each solution bioitem.
  • a solution bioitem that is a search result
  • a plurality of solutions are obtained (a plurality of candidate bioitems that are passed through from the keyword to the solution bioitem are obtained).
  • the solution with the lowest overall correlation score is the solution of the bio item.
  • the system management server 00 sorts the obtained solution list in ascending order of correlation score, converts this result into an HT ML document, and returns it to the user client 500.
  • the previous system may be implemented as a Web service!
  • the system management server 00 may be implemented as a Web server, configured to accept a request from a Web browser that is the user client 500 via the Internet, and transmit the result in the HTML document format.
  • a display example on the Web browser of the processing result transmitted from the Web server to the client 500 in the above-described embodiment will be summarized.
  • FIGS. 21 to 29 are 20 distributed workstations each equipped with an Intel (registered trademark) Xeon (trade name) 3.6 GHz CPU and 2 GB memory. It has been executed using.
  • the search target bioitems used in the examples here are mouse genes, human genes, metabolites, drugs, disease names, and mouse mutants.
  • the number of bioitems is 58,237 for mouse genes, 22,707 for human genes, 9,350 for metabolites, 1,015 for drugs, 1,884 for disease names, and 12,280 for mouse mutants.
  • the literature set species used here are MEDLINE, PPI, Mutant Mouse Catalog, OMIM, Mouse Gene Catalog, Human Gene Catalog, Metabolite Catalog, Drug Catalog, and Disease Name Catalog.
  • the number of references in each set of references used as input for this bioitem search device is MEDLINE 16,335,424, PPI 22,476, mutant mouse catalog 12,28 (H, OMIM 17,974, mouse gene catalog 58,237, human remains, respectively.
  • the number of documents of each document set type used in this example is the total number of documents stored in the document full-text searcher 212 (included in the document set collected for each bioitem).
  • the total number of references is MEDLINE 16,112,25 6 cases, PPI 87,288 cases, mutant mouse catalog 27,035 cases, OMIM 23,023 cases, mouse gene catalog 58,237 cases, human gene catalog 22,707 cases, and metabolite catalogs.
  • the number of documents of each document set type stored in the full-text searcher 204 is MEDLINE 6,940,248, PPI 22,476, mutant mouse catalog 12,280, OMIM 14,451, mouse gene catalog 58,237, human gene catalog.
  • FIG. 21 is an example of a catalog search result display screen in the single interval mode, and shows an example of searching for a mutant mouse using a document set type mutant mouse catalog.
  • 52 solutions were obtained, and the search time was 0.109 seconds.
  • Fig. 22 is an example of a document search result display screen in the multiple interval mode, and shows an example of searching for a mouse gene using the document set type MEDLINE. In this example, 13 solutions were obtained, and the search time was 2.045 seconds.
  • FIG. 23 is an example of a document indirect search result display screen in the single interval mode, and shows an example of searching for a mouse gene using the document set type MEDLINE.
  • 5 solutions were obtained, and the search time was 0.858 seconds.
  • FIG. 24 is an example of the document direct search result display screen in the single interval mode, and shows an example of searching for a mouse gene using the document set type MEDLINE. In this example, 9 solutions were obtained, and the search took 0.858 seconds.
  • Fig. 25 is an example of a direct search result display screen using a plurality of document set types in single interval mode (however, no interval is specified!).
  • Reference set types MEDLINE, PPI, mutant mouse It is a figure showing an example of searching mouse genes, human genes, metabolites, drugs, mutant mice, and diseases using catalogs, OMIM, mouse gene catalog, human gene catalog, metabolite catalog, drug catalog, disease name catalog . In this example, 8,371 solutions were obtained, and the search time was 3.41 seconds.
  • FIG. 26 is an example of a direct search result and indirect search result display screen using multiple document set types in single interval mode.
  • FIG. 5 is a diagram showing an example of searching for a mouse gene using a gene catalog, a human gene catalog, a metabolite catalog, a drug catalog, and a disease name catalog. In this example, 5,438 solutions are obtained, and the search time is 1.902 seconds.
  • Fig. 27 shows an example of a direct search result and indirect search result display screen using multiple document set types in single interval mode.
  • Document set types MEDLINE, PPI, mutant mouse catalog, OMIM, mouse gene
  • FIG. 27 shows the example using the Boolean logic formula which also comprises the identifier power of a human gene as a keyword in the example which searches a mouse gene using a catalog, a human gene catalog, a metabolite catalog, a medicine catalog, and a disease name catalog.
  • “HGNC: 2744” and “HGNC: 28 040” are entered as human gene identifiers.
  • 15 solutions were obtained, and the search time was 1.468 seconds.
  • Fig. 28 is an example of a direct search result and indirect search result display screen using a plurality of document set types by specifying an identifier column in the single interval mode.
  • the document set type MEDLINE It is a figure which shows the example which searches a mouse gene using PPI, a mutant mouse catalog, OMIM, a mouse gene catalog, a human gene catalog, a metabolite catalog, a medicine catalog, and a disease name catalog.
  • “MGI: 99 454, MGI: 96575” is input by the user as an identifier column.
  • two solutions were obtained, and the search time was 0.736 seconds.
  • Fig. 29 shows an example of a search result display screen using multiple document set types in multiple interval mode.
  • MEDLINE Document set types
  • PPI mutant mouse force tag
  • OMIM mouse gene catalog
  • human gene catalog It is a figure which shows the example which searches a mouse gene using a disease name catalog. In this example, 17 solutions were obtained, and the search time was 1.928 seconds.
  • FIG. 18 is a diagram illustrating an example of the architecture of the document number acquisition server.
  • the document number acquisition server 202 includes an interface 203 and a document full text searcher 204.
  • Document full text searcher 204 collects all documents related to the bioitem document set for each document set type 1 to m (all document sets: all associated with at least one bioitem! /) All document set files that store a set of documents).
  • the number of documents Nk related to the keyword and the number of documents Nk related to the keyword are obtained for each document set type 1 to m.
  • the index format of Apac he Lucene (trademark) is preferably desired! /, But the present invention does not limit this file format.
  • FIG. 19 is a diagram illustrating an example of the architecture of the distributed document search server 210.
  • the distributed document search server 210 is composed of five components: an interface 211, a full document search device 212, an item area determination device 212i, a correlation score calculator 212d, a no item inference unit 212e, and a no item name table 212f.
  • the distributed document search server 210 includes a nano item document set file that stores each bio item document set group obtained by equally dividing the bio item document set by the number of distributed document search servers 210a to 210x. That is, in the full text searcher 212, a set of related documents (bioitem document set) is arranged for each of the bioitems 1 to r of the assigned bioitem document set. At this time, related document groups are arranged and arranged for each document set type as shown in FIG.
  • the format of the bioitem reference set file is preferably the Apache Lucene (trademark) index format, but the present invention does not limit this file format.
  • the bioitem reasoner 212e includes a database (bioitem relational database) table in which relational data between two bioitems is stored. There are two types of relationships between two bio-items: A) and B). [0274] A) Relationships extracted from co-occurrence relationships in literature
  • the names of the two bioitems coexist in one literature.
  • the two-dimensional document number table and the correlation score are pre-calculated for each of the literature set types l to m. Is made into a database.
  • the two-dimensional document number table means that the two bio items are bio item 1 and bio item 2, respectively: a: number of documents including both bio item 1 name and bio item 2 name, b : Number of documents including the name of bio item 1 but not including the name of bio item 2, c: Number of documents including the name of bio item 2 without including the name of bio item 1, d: Name of bio item 1 is also bio item
  • This is a two-dimensional document number table consisting of the values of a, b, c, and d for the number of documents that do not include the name of 2.
  • the co-occurrence relationship correlation score is a P value calculated by testing the two-dimensional document number table using Fisher's exact test.
  • a P-value is given as a correlation score (co-occurrence relationship correlation score) for the relationship between two bioitems, and a database is created. At this time, the 2D document number table is not defined.
  • each distributed document search server 210 is as follows.
  • Interfacing 2 1 1 is a request (keyword, interval, etc.) from the packend management server 2 0 1 and various document sets obtained from the document number acquisition server 2 0 2 (1 ⁇ i ⁇ m) The number of documents related to the key word (1 ⁇ i ⁇ m) and the number of documents not related to the key word
  • N k d '(l ⁇ in ⁇ , ⁇ ⁇ '> is received and sent to the full text searcher 2 1 2.
  • the full-text document searcher 212 uses, for example, the following (for bioitem 1 (represented as g.)) (
  • the full-text document searcher 2 1 2 represents the bio-item 1 related document (bio-item document set of bio-item 1) of the document set type l (d); Search for a full-text search using keywords and obtain the number of hit documents. This number is
  • the document full text searcher 212 executes (3) for the other document set types, that is, the document set type 2 to the document set type m.
  • the full text searcher 2 1 2 calculates the minimum value of the correlation scores,,-, and P m for the various document sets 1 to m obtained in (3) and (4), and uses this as a keyword. And the correlation score between bio item 1 and ⁇ .
  • P k — g is below a predetermined level (predetermined threshold value)
  • use bio-item area discriminator 2 1 2i to check whether bio-item 1 is included in the interval. (ii) is executed.
  • bio item 1 When included in the interval, bio item 1 is adopted as a search result, and the triple set obtained by bio item 1, correlation score ff , (3) and (4) ⁇ i ⁇ m ) List of solutions
  • bioitem reasoning 2 1 2 e uses bioitem group X ⁇ Xq related to bioitem 1 (represented as •• 'gf, respectively). obtain.
  • bioitem x (l ⁇ i ⁇ q)
  • the bioitem included in the interval is selected using the bioitem area determination device 2 1 2i.
  • the biological species of the bio item Even if the species of the genome sequence in the region (interval) specified by the user is different, this homology relationship is applied if a homology relationship exists.
  • this homology relationship is applied if a homology relationship exists.
  • (ii) can be executed even when bio item 1 is included in the interval.
  • the user instruction in the calculation of the correlation scores / ⁇ _, Bio item 1 and bar Ioaitemu; the correlation score / 1 with literature number table ⁇ of each document set species l ⁇ m ', ⁇ , ⁇ ⁇ ⁇
  • a new document count table is created by synthesizing any or all of the document count tables, and the correlation score between the bio item and the key is calculated based on statistical calculation using the reference count table. May be calculated. That is, the document number table ', --- d ' shown in Fig. 31 is created for each document set type l to m, but the document number table /-'' for each document set type l to m, The value ⁇ is the sum of all the terms a in '' ⁇ .
  • a new composite document number table (a table in which the value A is assigned to a, the value B is assigned to b, the value C is assigned to c, and the value D is assigned to d) in FIG. 31 may be generated.
  • FIG. 32 is a diagram showing an example of a document number table of bioitem 1 and bioitem 2.
  • the number-of-documents table shows: a) the number of documents including bioitem 1 and including 2 bioitems, b) the number of documents not including bioitem 1 and including 2 bioitems. C) Number of documents containing bioitem 1 and no 2 bioitems, and d) No bioitem 1 and 2 bioitems At least one of the four items a) to d) of the number of documents is also configured.
  • FIG. 33 is a diagram showing an example in which the user designates the method of creating the composite document count table in the above (5) and (6) on the Web browser which is the user client 500.
  • the tab for selecting the document set type used for associating the keyword with the mouse gene in (5) (MEDLINE selection tab MK-3, PPI selection tab MK-4, mouse m utant selection tab MK-5, mouse gene record selection tab MK-6) is displayed.
  • the method for creating the composite document number table in (5) can be selected from three methods: weak, strong, and none (not shown in the figure) for each document set type.
  • weak for the document set types for which weak is set
  • a composite document number table is created from the two-dimensional document number table of these document set types.
  • the score is set to 0.
  • the document set type set to strong has the same effect as the operation of the document server for the power log set, and the function to search the document set and the catalog set at the same time is realized.
  • a document set type for which none is set is excluded from the document set type to be searched.
  • FIG. 33 an example of specifying the mouse gene-mouse gene relationship used in (6) is shown. That is, as shown in the left figure of Fig. 33, the relationship between the mouse gene and the mouse gene from which the co-occurrence relationship force in the literature was also extracted is shown in the selection tab (PPI selection tab MK-1 and MEDLINE selection tab MK — 2) is displayed.
  • the method for creating the composite document number table in (6) can be selected from three methods of weak, strong, and none (not shown in the figure) for the document set type.
  • a composite document number table is created from the two-dimensional document number table of these document set types.
  • FIG. 30 shows an example of displaying details of the related literature between the keyword diabetes and the mouse gene Rrad that were hit under the conditions of FIG. 33
  • FIG. 31 shows the related literature between the mouse gene Insr and the mouse gene Irsl. It is the figure which showed the example which displayed the detail of.
  • the correlation score calculator 2 1 2 d receives the quadruplet ⁇ ⁇ '', c from the full text searcher 2 1 2. Then, the correlation score calculator 2 1 2 d creates the 2D document number table shown in Table 1 below, and uses this Fisher's exact test to determine the P value. The pair of the obtained P value and 2D document count table is returned to the full text searcher 2 1 2.
  • the distributed document search server 210 executes (2) for other bioitems, that is, bioitem 2 to bioitem r.
  • the distributed document search server 210 returns all solutions stored in the storage device (memory) to the backend management server 201 via the interface 211.
  • each distributed document search server 210 is as follows.
  • the distributed document search server 210 searches for the item existing in the internal 1 to operate in the above-mentioned single interval mode (1), (2), (3), (4), (5) ( i) are executed in this order, and the obtained solution is returned to the back-end management server 201 via the interface 211.
  • the knock end management server 201 collects the solutions returned from all the distributed document search servers 210a to 210x and generates a solution list L.
  • the back-end management server 201 transmits a request including the solution list L to each of the distributed document search servers 210a to 210x in order to search for bioitems existing in the interval 2 and obtain a result.
  • the full text searcher 212 performs the following operations.
  • the interface 2 1 1 receives a request from the backend management server 2 0 1, that is, a keyword, interval, identifier column, and each document set type d 2 obtained from the document count acquisition server 2 0 2, Receive a set of the number of documents related to the key word of (1 ⁇ i ⁇ m) '(1 ⁇ i ⁇ m) and the number of documents not related to the keyword " ⁇ "' (1 ⁇ i ⁇ m). Send to search unit 2 1 2.
  • the full text searcher 212 executes (3), (4), and (5) (0 for No Item 1 and Inner 2.
  • Bio Item 1 is a solution, 14) is executed.
  • the full-text document searcher 212 creates all the novel item pairs that can be constructed from each solution bioitem and bioitem 1 in the solution list L. Perform (a) and (b) below for each bio-item pair!
  • the The items are g and g, respectively. Inferring this item pair with bio-items
  • step (c) Repeat step (a) for other novel item pairs.
  • the full text searcher 2 1 2 executes (6) for bioitem 1 (represented by) and bioitem X (represented by g x ), and obtains a correlation score P gg between them.
  • the correlation score between the key word and bio item 1 is precedeand the correlation score between the keyword and bio item X is P k — g .
  • the triplet ⁇ g ,, ⁇ , — gt > is the correlation score calculator 2 1 2 Send to d and execute (1 6) to get the overall correlation score ⁇ When this overall correlation score ⁇ is below the default level, bioitem 1, bioitem, correlation score , P k — g P, P gg , (7) is stored on the storage device (memory) as a solution.
  • the correlation score calculator 2 1 2 d receives the triplet ⁇ ,, / ⁇ 1) from the full text searcher 2 1 2. Correlation score calculator 2 1 2 d is the overall correlation score
  • Min (a, b) is a function that returns the lesser of a and b.
  • the distributed document search server 210 executes (13) for other bioitems, that is, bioitem 2 to bioitem r.
  • the distributed document search server 210 calculates all the solutions stored in the storage device (memory).
  • the distributed document search server 210 has a function for realizing the three-dimensional document number table. The detailed operation is described below. The following variables are used: a, b, c, d, e, f, g, h, i, j, k, m, s, t, u, v, w, x, y, and ⁇ . 8 variables [corresponding!
  • the interface 211 receives one of the solutions and the keyword from the backend management server 201 and transmits them to the full text searcher 212.
  • the full text searcher 212 acquires the name of the bio item 2 from the bio item name table 212f.
  • the document full text searcher 212 is also configured with a document set, a correlation score, and a two-dimensional document count table power for the three items of the relationship between bioitem 1, nanoitem 2, and bioitem that make up the solution. Get a list of triples. At this time, all the document sets that have a two-dimensional document number table in all three triplets are acquired. Execute (4) for each acquired document set d.
  • the full-text search unit 212 searches the document including the keyword and the name of the bioitem 2 with respect to the bioitem 1 related document set of the document set d (no item document set of bioitem 1). Obtain the number of documents and let it be s.
  • the full text searcher 212 generates a set of the solution received in (1) and the 3D document count table group received in (4), and backend management via the interface 211. Return to Sano 201. This is the end of the detailed analysis of the number of hit documents. [0310] [Effects of introducing concept words]
  • the P value is calculated with a bio item query that consists only of bio item names, the ranking of hit bio items is inaccurate, but the P value is calculated with a bio item query that introduces concept words. In this case, the accuracy of the ranking result is greatly improved.
  • the file path names of these documents all include the path name of the document folder.
  • the bio-item search apparatus 100 is described as an example of the case where the bio-item search apparatus 100 performs processing mainly in the form of a stand-alone. May be configured to perform processing in response to a request from another terminal device configured in a separate case and return the processing result to the client terminal.
  • FIG. 34 is a block diagram showing an example of the configuration of the bio-item search terminal device 600.
  • the bioitem search terminal device 600 is mutually connected to the bioitem search device 100 via the network 300, and includes at least a control unit 602, an input unit 612, and an output unit 614. It is comprised with. [0315]
  • the novel item search terminal device 600 controls the user to input keywords, genome region information, and identifier information via the input unit 612 by the processing of the input control unit 602a, and the processing of the transmission unit 602b.
  • the relevant keyword is transmitted to the bioitem search device 100, and the candidate bioitem, the related bioitem, or the co-occurrence keyword correlation score output from the bioitem search device 100 is received by the processing of the reception output unit 602c. And output to the output unit 612.
  • FIG. 35 is a flowchart showing an example of processing of the bio-item search terminal device 600.
  • the bio-item search terminal device 600 controls the input / output interface unit 608 by the processing of the input control unit 602a, and provides a keyword to the user via the input unit 612. And user input information such as genome region information and identifier information is controlled (SG-1).
  • the bio-item search terminal device 600 controls the communication control interface unit 604 by the processing of the transmission unit 602b, and transmits user input information such as keywords to the bio-item search device 100 (SG — 2).
  • the bio-item search terminal device 600 controls the communication control interface unit 604 by the processing of the reception output unit 602c, and outputs the candidate bio-item, the related novel item, or the output from the bio-item search device 100, or Co-occurrence keyword correlation score etc. are received (SG-3).
  • the bio-item search terminal device 600 controls the input / output control interface unit 608 to output the candidate bio-item or the related bio-item to the output unit 612 based on the corresponding correlation score or the like (SG - Four).
  • the above is another embodiment when the present invention is applied to a client terminal (bioitem search terminal device 600).
  • each illustrated component is functionally schematic, and is not necessarily physically configured as illustrated.
  • the processing functions performed by the control unit 102 may be a CPU (Central Processing Unit) and It can be realized by a program that is interpreted and executed by the CPU, or can be realized as hardware by wired logic.
  • the program is recorded on a recording medium to be described later, and is mechanically read by the bio item search device 100 as necessary.
  • the storage unit 106 such as ROM or HD stores a computer program for performing various processes by giving instructions to the CPU in cooperation with an OS (Operating System). This computer program is executed by being loaded into the RAM, and constitutes a control unit in cooperation with the CPU.
  • the computer program may be stored in an application program server connected to the bioitem search apparatus 100 via an arbitrary network 300, and may be downloaded in whole or in part as needed. It is also possible to do.
  • a program that causes a computer to execute the method according to the present invention can also be stored in a computer-readable recording medium.
  • this “recording medium” means any “portable physical medium” such as a flexible disk, magneto-optical disk, ROM, EPROM ⁇ EEPROM, CD-ROM, MO, DVD, or LAN, WAN, It shall include “communication media” that holds the program in a short period of time, such as communication lines and carrier waves when transmitting the program via a network represented by the Internet.
  • a "program” is a data processing method described in an arbitrary language or description method, and may be in any form such as source code or binary code.
  • the ⁇ program '' is not necessarily limited to a single configuration, but is distributed as a plurality of modules and libraries, or cooperates with a separate program represented by an OS (Operating System). And those that achieve that function.
  • OS Operating System
  • a well-known configuration and procedure can be used for the stall procedure and the like.
  • Various databases and the like (all document set files 106a to identifier information database 106e) stored in the storage unit 106 include memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, and optical disks. This is a storage means for storing various programs, tables, database web page files, etc. used for various processing and website provision.
  • the bio-item search apparatus 100 connects software (including programs, data, and the like) that connects an information processing apparatus such as a known personal computer or workstation to the information processing apparatus to implement the method of the present invention. Realize by implementing! /.
  • the specific form of distribution and integration of the devices is not limited to the one shown in the figure, and all or a part of them may be functionally or physically distributed in arbitrary units according to various additions, etc. Can be integrated and configured.
  • bio-item search device and a no-item that enable ranking display and related item discovery that do not require extra calculation processing time during search. Since search terminal devices, bio-item search methods, and programs can be provided, in information processing fields that require information search, including biology (including genetics, epidemiology, system biology) and chemistry Is available.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 バイオアイテム毎に、バイオアイテム文献セットを記憶し、各バイオアイテム文献セットにおいて、キーワードを該バイオアイテム文献セットの中から検索し、該バイオアイテム文献セットのうちキーワードを含む文献数Nhを、バイオアイテム毎に取得し、文献数Nhが1以上であるバイオアイテムを候補バイオアイテムとして選出し、候補バイオアイテム毎に、a)文献数Nh、および/または、b)キーワードを含まず且つバイオアイテム名を含む文献数、から構成される文献数テーブルを作成し、候補バイオアイテム毎に、文献数テーブルを用いて統計計算に基づいて、バイオアイテムとキーワードとの相関スコアを算出し、算出された相関スコアに基づいて、候補バイオアイテムを出力する。

Description

明 細 書
ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム 検索方法、および、プログラム
技術分野
[0001] 本発明は、生物学 (遺伝学、疫学、システムバイオロジーを含む)、化学等を含む、 情報検索を必要とする情報処理分野において、遺伝子、遺伝子多型、疾患、薬品、 ノ^オリソース、蛋白質、人物、集団、組織、化合物、専門用語、文献フォルダなどの "バイオアイテム"およびバイオアイテムに関する情報に対して優先順位を付けて検 索するバイオアイテム検索装置に関するものである。
背景技術
[0002] 利用者により指定されたキーワードに対して文献セットの検索を行い、その結果から キーワードに関連するバイオアイテム(以下、一例として遺伝子で説明する)の取得を 行う既存のソフトウェアシステムにおいては、各文献についてキーワードとの相関スコ ァを計算し、文献のランキングを行った後、各文献に記述されている遺伝子関連語 句を表示する手法が用いられて 、る。
[0003] ここで、キーワードに関連の深い有望な遺伝子を見つける方法として、特許文献 1 は、遺伝子相互関係を各遺伝子の発現のタイミング力も推定する方法である。また、 特許文献 2は、端点キーと端点キーを結ぶオブジェクトを検索する連結検索を行って 優先付けし、多数の遺伝子の中からより有望なものを取り込み検索して、優先度をつ けて提示する装置である。
[0004] また、キーワードの選定を容易にするために、キーワードをグループィ匕して関連す るキーワードを検索する方法としては、以下の特許文献 3から 5に記載のものがある。 すなわち、特許文献 3は、キーワードと、キーワードに関連したキーワードとを同時に 検索するものであり、互いに関連するキーワードをグループ分けする装置である。ま た、特許文献 4には、キーワードをグループィ匕することが開示されている。また、特許 文献 5は、複数の設計データ力 実績のある設計データを抽出する装置であり、統計 処理により設計データを評価する装置である。 [0005] また、非特許文献 1 (2001年度 成果報告論文)に記載の汎用連想計算エンジン( GETA: Generic Engine for Transposabie Associationパま、文書検索におけ 頻 度付きインデックスデータ(どの文書にどの単語が何回出現するというデータ)を典型 とする大規模かつ粗な行列を対象として、行と行あるいは列と列 (具体的には文書間 および単語間)の類似度を内積型メジャーで高速計算するツールである。
[0006] 特許文献 1 :特開 2003— 141123号公報
特許文献 2:特開 2001— 290822号公報
特許文献 3:特開平 8 - 30629号公報
特許文献 4 :特開 2006— 72671号公報
特許文献 5 :特開平 10— 149376号公報
非特許文献 1:高野明彦ほか、 "汎用連想計算エンジンの開発と大規模文書分析へ の応用"、 [online], 2002年、高野明彦、 [平成 19年 3月 23日検索]、インターネット < URL: http://geta.ex.nii.ac.jp/pdf/itx2002.pdf>
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、キーワードから文献セットを検索し、ヒットした文献に含まれる遺伝子 を抽出する従来の方法においては、必ずしもキーワードに関連の深い有望な遺伝子 を上位に抽出することができないという問題がある。また従来の方法では、キーワード の選定が難しぐ利用者の熟達を要するという問題がある。
[0008] 特に、特許文献 1の方法は、関連する遺伝子を遺伝子発現のタイミングから遺伝子 制御の関連を調べることを目的とするものであり、関連を調べるためには、 DNAマイ クロアレイなどを用いてのタイミングデータの取得を要するという問題がある。
[0009] また、特許文献 2の方法では、両端点キーの選定は、利用者の試行錯誤を伴うもの であり、依然として適切なキーワードを選定することが困難であるという問題がある。
[0010] また、特許文献 3から 5のいずれか一つに記載の装置または方法では、いずれもグ ループ化するために予めキーワードの設定を必要し、目的とする遺伝子に到達する ためのキーワードの選定が難しぐまた手作業でのグループィ匕の設定は煩わしいとい う問題がある。 [0011] また、特許文献 1から 5のいずれの装置または方法においても、ポジショナルクロー ニングの問題解決において、遺伝子のゲノム範囲上を考慮して検索結果を絞り込む ことができない、という問題点があった。
[0012] 総じて、利用者が入力したキーワードと遺伝子との関連性の強さを統計学的な有意 性確率で評価することができない問題があった。そして、文献セットからキーワードを 検索しヒットした文献に含まれる遺伝子を抽出する従来の方法における、必ずしもキ 一ワードに関連の深 、有望な遺伝子を上位に抽出することができな 、と 、う課題は、 上述した方法 ·装置を用 V、ても解決できな 、と 、う問題があった。
[0013] また、非特許文献 1に記載の GETAを用いて、キーワードと各バイオアイテム名との 類似度を計算する場合には、該キーワードを列とし各文献の文書を行とする行列と、 該バイオアイテム名を列とし各文献の文書を行とする行列との間で、行列どうしの演 算処理が必要となる。これを文献数が 1千万件以上ある場合に適用しょうとすると、該 文献数と同じ行数の行列どうしの演算処理を検索実行のたびにバイオアイテム名の 個数と同じ回数繰り返す必要があり、計算処理に膨大な時間が力かってしまうという 問題があった。
[0014] また、非特許文献 1に記載の GETAにお!/、ては、ポジショナルクローニングの問題 解決において、検索結果であるバイオアイテムおよび関連するバイオアイテムを、そ れらのゲノム位置で絞り込むことができな力つた。また、 GETAで計算される類似度 は関連性の強さを有意性確率で表すものではないため統計学的な解釈ができず、 他の有意性確率と合成して総合的な評価をすることができな力つた。また、 GETAで は、キーワードと類似するバイオアイテム、および、キーワードと類似するノ ィオアィテ ムに関連する関連バイオアイテムを統計学的な有意性確率に基づいて高速に順位 付けすることができな力つた。さらに、 GETAが扱う行列では列が各単語に対応して おり、バイオアイテム名やブール論理式でキーワードを組み合わせた条件式のような 複数の単語の組合せを 1つの列とする行列で準備できないため、計算処理に余計な 時間が力かってしまう問題があった。このため、検索時に文献数と同じ行数の行列ど うしの演算処理をすることなぐ相関スコアを高速に計算できる方法が必要とされてい た。また、統計学的に解釈可能な有意性確率を相関スコアとして計算できる方法が 必要とされていた。
[0015] また上述した方法'装置を用いても、利用者が入力したキーワードと、任意のバイオ アイテム 1と、任意のバイオアイテム 2と、力 なる 3者の組合せに対して、上記キーヮ ードを含むか含まないか、上記バイオアイテム 1を含む力含まないか、上記バイオア ィテム 2を含むか含まないか、の 8通りの分類項目に分類される上記文献の文献数か らなるテーブル(3次元の文献数テーブル)を高速に生成することはできなカゝつた。
[0016] 本発明が解決しょうとする課題には上述した問題が一例として挙げられる。
[0017] 本発明は、上記に鑑みてなされたものであって、優先付け又は関連付けのための グループィ匕の設定を必要としないで、文献セット全体に対してキーワードに関連する 文献数を調べることにより、キーワードとバイオアイテムとの相関スコアを統計処理に より求め、ランキング表示 ·関連アイテムの発見を可能とするバイオアイテム検索装置 、 ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラムを提供 することを目的とするものである。また、ポジショナルクローニングの問題解決におい て、大規模な文献セットを用いてキーワードに関連する遺伝子を検索し、目的とする 遺伝子をより上位に結果表示させる、ノィォアイテム検索装置、バイオアイテム検索 方法、および、プログラムを提供することを目的とする。
[0018] また、計算処理に膨大な時間がかかる、キーワードを含む文献の数と同じ行数の行 列どうしの演算処理をすることなぐ検索時に余計な計算処理時間を力けずに済む、 ノィォアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、 および、プログラムを提供することを目的とする。また、統計学的な有意性確率で評 価することができ、他の有意性確率と合成して総合的な評価をすることができ、高速 に順位付けすることができる、バイオアイテム検索装置、バイオアイテム検索方法、お よび、プログラムを提供することを目的とする。
課題を解決するための手段
[0019] このような目的を達成するため、請求項 1に記載のバイオアイテム検索装置は、利 用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくとも制 御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において、上記記 憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有する ノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段、を備え、上 記制御装置は、上記各バイオアイテム文献セットにおいて、上記キーワードを該バイ ォアイテム文献セットの中力 検索し、該バイオアイテム文献セットのうち上記キーヮ ードを含む文献数 Nhを、上記バイオアイテム毎に取得する文献数取得手段と、上記 文献数取得手段によって取得された上記文献数 Nhが 1以上である上記バイオアイ テムを、候補バイオアイテムとして選出する候補バイオアイテム選出手段と、上記候 補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上記キーワードを含 まず且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテ ム文献セットの文献数 Nh)、から構成される文献数テーブルを作成するテーブル 作成手段と、上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算 に基づ!/、て、該バイオアイテムと上記キーワードとの相関スコアを算出する相関スコ ァ算出手段と、上記相関スコア算出手段によって算出された上記相関スコアに基づ いて、上記候補バイオアイテムを上記出力装置に出力する出力手段と、を備えたこと を特徴とする。
[0020] また、請求項 2に記載のバイオアイテム検索装置は、請求項 1に記載のバイオアイ テム検索装置において、上記記憶装置は、上記各バイオアイテム文献セットに含ま れる全ての上記文献を有する全文献セットを記憶する全文献セット記憶手段、を更に 備え、上記文献数取得手段は、更に、上記キーワードを上記全文献セットの中から 検索し、上記キーワードを含む文献数 Nkを取得し、上記テーブル作成手段は、上記 候補バイオアイテム毎に、上記 a)上記文献数 Nh、上記 b)上記キーワードを含まず 且つ上記バイオアイテム名を含む文献数 (該バイオアイテムの上記バイオアイテム文 献セットの文献数 Nh)、 c)上記キーワードを含み且つ上記ノィォアイテム名を含ま ない文献数 (Nk— Nh)、および、 d)上記キーワードを含まず且つ上記バイオアイテ ム名を含まな 、文献数 (上記全文献セットの総文献数—上記ノィォアイテム文献セッ トの文献数 Nk + Nh)、のうち少なくとも一つカゝら構成される上記文献数テーブルを 作成すること、を特徴とする。
[0021] また、請求項 3に記載のバイオアイテム検索装置は、請求項 1または 2に記載のバイ ォアイテム検索装置において、上記記憶装置は、任意の 2つの上記バイオアイテムと 、該 2つの上記バイオアイテムの共起相関スコアと、を対応付けて記憶するバイオア ィテム関係データベース、を更に備え、上記制御装置は、上記バイオアイテム関係デ ータベースに記憶された上記共起相関スコアに基づ 、て、上記候補バイオアイテム と相関関係を有する上記バイオアイテムを関連バイオアイテムとして抽出する関連バ ィォアイテム抽出手段と、
上記関連ノィォアイテムと上記キーワードとの合成相関スコアを、該候補バイオアイ テムの上記相関スコアと上記共起相関スコアとを合成することによって求める合成相 関スコア算出手段と、を更に備え、上記出力手段は、上記合成相関スコア算出手段 によって算出された上記合成相関スコアに基づいて、上記関連バイオアイテムを上 記出力装置に出力すること、を特徴とする。
[0022] また、請求項 4に記載のバイオアイテム検索装置は、請求項 3に記載のバイオアイ テム検索装置において、上記制御装置は、上記任意の上記 2つの上記バイオアイテ ムのうち、一方の上記バイオアイテム文献セットの中から、他方の上記バイオアイテム 名を検索することにより得られた、 i)上記一方の上記バイオアイテム名を含み且つ上 記他方の上記バイオアイテム名を含む文献数、 j)上記一方の上記バイオアイテム名 を含まず且つ上記他方の上記バイオアイテム名を含む文献数、 k)上記一方の上記 バイオアイテム名を含み且つ上記他方の上記バイオアイテム名を含まな!/、文献数、 および、 m)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオ アイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テー ブルを用いて、上記統計計算に基づいて、上記共起相関スコアを算出する共起相関 スコア算出手段と、上記共起相関スコア算出手段によって算出された上記共起相関 スコアを、上記 2つの上記バイオアイテムに対応付けて、上記バイオアイテム関係デ ータベースに格納するバイオアイテム関係データベース化手段と、を備えたことを特 徴とする。
[0023] また、請求項 5に記載のバイオアイテム検索装置は、請求項 3または 4に記載のバイ ォアイテム検索装置において、上記合成相関スコア算出手段は、上記合成相関スコ ァを、下記の数式 1、または、該数式 1の近似式に基づいて、合成すること、を特徴と する。 P= l—(1 PI) (1 Ρ2) · · · (数式 1)
(ここで、 Ρは、上記合成相関スコアであり、 P1は、上記候補バイオアイテムの上記相 関スコアであり、 Ρ2は、上記共起相関スコアである。 )
[0024] また、請求項 6に記載のバイオアイテム検索装置は、請求項 1乃至 5のいずれか一 つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテ ム毎に、該バイオアイテムに対応するゲノム染色体上の位置を示すゲノム位置情報 を関連付けて記憶する位置情報データベースと、上記利用者により入力された、上 記目的とする上記バイオアイテムに対応する上記ゲノム染色体上の位置を含む、ゲノ ム領域を示すゲノム領域情報を記憶する領域情報記憶手段と、を更に備え、上記制 御装置は、上記候補バイオアイテムまたは上記関連バイオアイテムについて、上記 位置情報データベースに記憶された、該バイオアイテムに対応する上記ゲノム位置 情報に基づく位置が、上記ゲノム領域情報の上記ゲノム領域に含まれるか否かを判 断し、上記ゲノム領域に含まれると判断された場合に、該候補バイオアイテムまたは 該関連バイオアイテムを出力するよう制御するゲノム領域判定手段、を更に備えたこ とを特徴とする。
[0025] また、請求項 7に記載のバイオアイテム検索装置は、請求項 1乃至 6のいずれか一 つに記載のバイオアイテム検索装置において、上記記憶装置は、上記バイオアイテ ム毎に、該バイオアイテムに対応する識別子を示す識別子情報を関連付けて記憶す る識別子情報データベースと、上記利用者により入力された、上記目的とする上記バ ィォアイテムに対応する、一つ又は複数の上記識別子情報を記憶する目的バイオア ィテム識別子記憶手段と、を更に備え、上記制御装置は、上記候補バイオアイテムま たは上記関連バイオアイテムにつ 、て、上記識別子情報データベースに記憶された 、該ノィォアイテムの上記識別子情報に基づく上記識別子が、上記目的バイオアイ テム識別子記憶手段に記憶された上記識別子情報の上記一つまたは複数の上記識 別子に含まれるか否かを判断し、該識別子に含まれると判断された場合に、該候補 ノィォアイテムまたは該関連バイオアイテムを出力するよう制御する識別子判定手段 、を更に備えたことを特徴とする。
[0026] また、請求項 8に記載のバイオアイテム検索装置は、請求項 1乃至 7のいずれか一 つに記載のバイオアイテム検索装置において、上記文献数取得手段は、任意の 2つ の上記候補バイオアイテムのうち、一方の上記候補バイオアイテムの上記バイオアイ テム文献セットの中から、他方の上記バイオアイテム名を含み且つ上記キーワードを 含む文献数 Nsを検索により取得し、上記テーブル作成手段は、上記文献数 Ns、上 記 2つの上記候補バイオアイテムに係る上記文献数テーブル、および、上記 2つの上 記候補バイオアイテムに係る上記共起文献数テーブルに基づ 、て、 3次元の上記文 献数テーブルを作成し、上記相関スコア算出手段は、上記 3次元の上記文献数テー ブルを用いて、上記統計計算に基づいて、上記 2つの上記候補バイオアイテムと上 記キーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算 出手段、を備え、上記出力手段は、上記共起キーワード相関スコア算出手段によつ て算出された上記共起キーワード相関スコアを、上記 2つの上記候補バイオアイテム と対応付けて、上記出力装置に出力すること、を特徴とする。
[0027] また、請求項 9に記載のバイオアイテム検索装置は、請求項 8に記載のバイオアイ テム検索装置において、上記共起キーワード相関スコア算出手段は、上記 3次元の 上記文献数テーブルを用いて、上記キーワードを含む場合の上記 2つの候補バイオ アイテムの相関スコアをキーワードあり相関スコアとして算出し、上記キーワードを含 まない場合の上記 2つの候補バイオアイテムの相関スコアをキーワードなし相関スコ ァとして算出し、該キーワードあり相関スコアと該キーワードなし相関スコアとの、両方 および Zまたは比較結果を、上記共起キーワード相関スコアとして算出すること、を 特徴とする。
[0028] また、請求項 10に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか 一つに記載のバイオアイテム検索装置において、上記統計計算は、検定に基づいて 上記相関スコアを算出すること、を特徴とする。
[0029] また、請求項 11に記載のバイオアイテム検索装置は、請求項 1乃至 9のいずれか 一つに記載のバイオアイテム検索装置において、上記統計計算は、フィッシャーの 正確確率検定 (Fisher's Exact Test),カイ二乗検定、または、ベイズ条件付確率を 用いること、を特徴とする。
[0030] また、請求項 12に記載のバイオアイテム検索装置は、請求項 1乃至 11のいずれか 一つに記載のバイオアイテム検索装置において、上記出力手段は、上記候補バイオ アイテムまたは上記関連バイオアイテムを、対応する上記相関スコア、上記共起キー ワード相関スコア、または、上記合成相関スコアに基づいて、順位付けして出力装置 に出力する検索結果順序出力手段、を備えたことを特徴とする。
[0031] また、請求項 13に記載のバイオアイテム検索装置は、請求項 1乃至 12のいずれか 一つに記載のバイオアイテム検索装置において、上記バイオアイテム名は、概念語 を含むこと、を特徴とする。
[0032] また、請求項 14に記載のバイオアイテム検索端末装置は、請求項 1乃至 13に記載 のバイオアイテム検索装置に接続された、少なくとも制御部と入力部と出力部を備え たバイオアイテム検索端末装置であって、上記制御部は、上記利用者に、上記入力 部を介して上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報 を入力させるよう制御する入力制御手段と、上記入力制御手段によって入力された、 上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を、上記バ ィォアイテム検索装置に送信する送信手段と、上記送信手段によって送信された、 少なくとも上記キーワードに基づいて上記バイオアイテム検索装置から出力された、 上記候補バイオアイテム、上記関連バイオアイテム、または、上記共起キーワード相 関スコアを受信し、上記出力部に出力する受信出力手段と、を備えたことを特徴とす る。
[0033] また、請求項 15に記載のバイオアイテム検索方法は、利用者により入力されたキー ワードから目的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力 装置とを備えたノィォアイテム検索装置において実行されるバイオアイテム検索方法 であって、上記記憶装置は、上記バイオアイテム毎に、該バイオアイテム名が記載さ れた文献を有するバイオアイテム文献セットを記憶するバイオアイテム文献セット記憶 手段、を備えており、上記制御装置において実行される、上記各バイオアイテム文献 セットにおいて、上記キーワードを該バイオアイテム文献セットの中力 検索し、該バ ィォアイテム文献セットのうち上記キーワードを含む文献数 Nhを、上記バイオアイテ ム毎に取得する文献数取得ステップと、上記文献数取得ステップにお 、て取得され た上記文献数 Nhが 1以上である上記バイオアイテムを、候補バイオアイテムとして選 出する候補バイオアイテム選出ステップと、上記候補バイオアイテム毎に、 a)上記文 献数 Nh、および Zまたは、 b)上記キーワードを含まず且つ上記バイオアイテム名を 含む文献数 (該バイオアイテムの上記バイオアイテム文献セットの文献数 Nh)、か ら構成される文献数テーブルを作成するテーブル作成ステップと、上記候補バイオア ィテム毎に、上記文献数テーブルを用いて統計計算に基づいて、該バイオアイテム と上記キーワードとの相関スコアを算出する相関スコア算出ステップと、上記相関スコ ァ算出ステップにお 、て算出された上記相関スコアに基づ 、て、上記候補バイオア ィテムを上記出力装置に出力する出力ステップと、を含むことを特徴とする。
また、請求項 16に記載のプログラムは、利用者により入力されたキーワードから目 的のバイオアイテムを検索する、少なくとも制御装置と記憶装置と出力装置とを備え たバイオアイテム検索装置に実行させるプログラムであって、上記記憶装置は、上記 バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオアイテム 文献セットを記憶するノィォアイテム文献セット記憶手段、を備えており、上記制御装 置において実行される、上記各バイオアイテム文献セットにおいて、上記キーワード を該バイオアイテム文献セットの中力も検索し、該バイオアイテム文献セットのうち上 記キーワードを含む文献数 Nhを、上記ノィォアイテム毎に取得する文献数取得ステ ップと、上記文献数取得ステップにお 、て取得された上記文献数 Nhが 1以上である 上記バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ス テツプと、上記候補バイオアイテム毎に、 a)上記文献数 Nh、および Zまたは、 b)上 記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該ノィォアイテムの 上記バイオアイテム文献セットの文献数 Nh)、から構成される文献数テーブルを作 成するテーブル作成ステップと、上記候補バイオアイテム毎に、上記文献数テーブル を用 、て統計計算に基づ 、て、該バイオアイテムと上記キーワードとの相関スコアを 算出する相関スコア算出ステップと、上記相関スコア算出ステップにお 、て算出され た上記相関スコアに基づいて、上記候補バイオアイテムを上記出力装置に出力する 出力ステップと、を含む方法をバイオアイテム検索装置に実行させることを特徴とする 発明の効果 [0035] 本発明によれば、バイオアイテムを検索するためのキーワードにつ 、ては、従来手 法ではバイオアイテム名(例えば、遺伝子名や疾患名や蛋白質名や薬品名等)など のバイオアイテムを特定する語句に限られていた力 本手法においては、表現形 (フ エノタイプ) t ヽつた自然言語での記述で使われる単語やフレーズやその論理式 (AN Dや ORや NOT等)、さらにはワイルドカード (任意の文字列を表す〃 * "や任意の一文 字を表す"?〃等)等力もなる任意のキーワードを用いることができる。
[0036] また、本発明によれば、疾患関連遺伝子多型の探索研究における各患者の表現 型と遺伝子型を記述した文書を各文献とし、各遺伝子型を各バイオアイテムとすれば 、表現型に関する語句をキーワードとして用いることで、該表現型に最も相関する遺 伝子型を統計学的な有意性確率の順位で高速に検索することができる。
[0037] また、本発明によれば、キーワード、キーワードとバイオアイテム(一例として、遺伝 子等)に関連する文献数に基づいた統計処理を行うことにより、有望なバイオアイテ ム(一例として、遺伝子)をより上位にランキングさせることが可能となる。
[0038] また、本発明によれば、相関スコアに基づ 、て、各バイオアイテム間でランキングを 行い、出力(例えば、表示、印刷、記録媒体への格納等)することにより、利用者が目 的とするバイオアイテムの発見精度をより高める効果が期待できる。
[0039] また、本発明によれば、キーワードに関連するノィォアイテムがゲノム領域 (以下「ィ ンターバル」と呼ぶ)に存在しない場合など直接検索の検索結果 (直接検索による解 )がない場合であっても、そのバイオアイテムに関連しインターバルに存在する関連 ノィォアイテムを推論することができる。このようにバイオアイテム間の推論を実行し、 推論検索による解を求めることにより、キーワードと間接的に関係のあるバイオアイテ ムをも検索することができる。
[0040] また、本発明によれば、間接検索 (バイオアイテムの推論)によって、目的とするバイ ォアイテムに到達するためのキーワードをより柔軟に選択することが可能となる。
[0041] また、本発明によれば、利用者は、目的とするバイオアイテムのゲノム領域 (インタ 一バル)情報を入力することによってゲノム配列上の位置を指定し、このインターバル に存在するノィォアイテム(一例として、遺伝子など)の抽出において、キーワードに 関連するバイオアイテム力 Sインターバルに存在して 、な 、場合であっても、この遺伝 子と文献上で共起し当該インターバルに存在する遺伝子を取得することができるとい う効果を奏する。
[0042] また、本発明によれば、バイオアイテム名は、概念語を含むことにより、より正確な検 索精度の向上を図ることができる。
[0043] また、本発明によれば、利用者が入力したキーワードを含む文献の数を文献セット から検索して取得し、かつ、利用者が入力したキーワードを含む文献の数をバイオア ィテム文献セットから検索して取得し、これらスカラー量力 相関スコアを計算すること により、文献数と同じ行数の行列どうしの演算処理をすることなぐ相関スコアを計算 することを可能にすることができ、バイオアイテム検索に力かる処理時間をより短縮で きる。
[0044] また、本発明によれば、バイオアイテム名が複数の単語の組合せカゝら構成される場 合でも、事前にバイオアイテムを含む文献のみをバイオアイテム文献セットとして抽出 しておくことにより、検索時には余計な計算処理時間をかけないで済むという効果を 奏する。
[0045] また、本発明によれば、利用者が入力したキーワードとバイオアイテム(一例として、 遺伝子など)との関連性の強さを統計学的な有意性確率で評価することができ、他の 有意性確率と合成して総合的な評価をすることができるため、利用者が目的とするバ ィォアイテムを選ぶ際の判断基準の信頼性をより高めることができる。
[0046] また、本発明によれば、キーワードと類似するバイオアイテム、および、キーワードと 類似するバイオアイテムに関連する関連バイオアイテムを、統計学的な有意性確率 に基づいて高速に順位付けすることができるため、利用者が目的とするバイオアイテ ムを選ぶ際の判断基準の信頼性をより高めることができる。
[0047] また、本発明によれば、キーワードに関連するバイオアイテムが、利用者により入力 された識別子情報により指定されたノィォアイテム群 (以下「グループ」と呼ぶ)に存 在しない場合など直接検索の検索結果 (解)がない場合であっても、そのバイオアイ テムに関連しグループに存在する関連ノィォアイテムを推論するこができる。
[0048] また、本発明によれば、利用者により入力されたキーワードと、任意の一方のバイオ アイテムと、任意の他方のバイオアイテムと、の 3者力 成る組合せに対して、キーヮ ードを含むか含まないか、一方のバイオアイテムを含む力含まないか、他方のバイオ アイテムを含む力含まないか、の 8通りの分類項目に分類される文献数力もなる 3次 元の文献テーブル (文献数 3次元テーブル)を高速に生成し、文献数 3次元テーブル を用いて共起キーワード相関スコアを算出して出力するので、一方のバイオアイテム と他方のバイオアイテムの共起関係の強さ力 キーワードの有無でどのように違うかを 利用者に提示することができる。
図面の簡単な説明
[図 1]図 1は、本発明の基本原理を示す原理構成図である。
[図 2]図 2は、文献数テーブルの一例を示す図である。
[図 3]図 3は、相関スコア計算用の文献数テーブルの一例を示す図である。
[図 4]図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すブ ロック図である。
[図 5]図 5は、本実施形態における本システムの直接検索処理の一例を示すフローチ ヤートである。
[図 6]図 6は、本実施形態における本システムの間接検索処理の一例を示すフローチ ヤートである。
[図 7]図 7は、キーワードとバイオアイテム間の関係を模式的に示した図である。
[図 8]図 8は、 3次元の文献数テーブルを作成する方法を模式的に示した図である。
[図 9]図 9は、「キーワードあり相関スコア」と「キーワードなし相関スコア」を算出するた めの文献テーブルの一例を示す図である。
[図 10]図 10は、シングルインターバルモードでバイオアイテムを検索する際のデータ の流れを示した図である。
[図 11]図 11は、バイオアイテム全文検索器 120の概要を示す図である。
[図 12]図 12は、シングルインターバルモードにおける動作をフローチャートで表した 図である。
[図 13]図 13は、カタログセットに対し、シングルインターバルモードでバイオアイテム を検索する際のデータの流れを示した図である。
[図 14]図 14は、カタログセットに対し、シングルインターバルモードでバイオアイテム を検索する際の動作をフローチャートとして表した図である。
[図 15]図 15は、マルチプルインターバルモード検索のデータの流れを示す概念図で ある。
[図 16]図 16は、マルチプルインターバルモード検索の動作を表すフローチャートで ある。
[図 17]図 17は、ドキュメント検索用システムアーキテクチャの一例を示す図である。
[図 18]図 18は、文献数取得サーバのアーキテクチャの一例を示す図である。
[図 19]図 19は、分散文献検索サーバのアーキテクチャの一例を示す図である。
[図 20]図 20は、カタログ検索用システムのアーキテクチャの一例を示す図である。
[図 21]図 21は、シングルインターバルモードにおけるカタログ検索結果表示画面の 一例を示す図である。
[図 22]図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画 面の一例を示す図である。
[図 23]図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示 画面の一例を示す図である。
[図 24]図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示 画面の一例を示す図である。
[図 25]図 25は、シングルインターバルモード (インターバルを指定しない場合)におけ る複数の文献セット種を用いた直接検索結果表示画面の一例を示す図である。
[図 26]図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、 直接検索結果と間接検索結果の表示画面の一例を示す図である。
[図 27]図 27は、シングルインターバルモードにおける複数の文献セット種を用いた直 接検索結果と間接検索結果の表示画面の一例を示す図である。
[図 28]図 28は、シングルインターバルモードにおける識別子の列を指定して複数の 文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例を示す図 である。
[図 29]図 29は、マルチプルインターバルモードにおける複数の文献セット種を用いた 検索結果表示画面の一例を示す図である。 [図 30]図 30は、キーワード diabetesとマウス遺伝子 Rradとの関連文献の詳細を表示し た例を示す図である。
[図 31]図 31は、マウス遺伝子 Insrとマウス遺伝子 Irslの間の関連文献の詳細を表示 した例を示した図である。
[図 32]図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を示 す図である。
[図 33]図 33は、ユーザクライアント 500である Webブラウザ上で上記(5)、 (6)におけ る合成文献数テーブルの作成の方法を利用者が指定する例を示した図である。
[図 34]図 34は、バイオアイテム検索端末装置 600の構成の一例を示すブロック図で ある。
[図 35]図 35は、バイオアイテム検索端末装置 600の処理の一例を示すフローチヤ一 トである。
符号の説明
100 バイオアイテム検索装置
102 制御部
102a 文献数取得部
102b 候補バイオアイテム選出部
102c テーブル作成部
102d 相関スコア算出部
102e 共起相関スコア算出部
102f バイオアイテム関係データベース化部
102g 関連バイオアイテム抽出部
102h 合成相関スコア算出部
1021 出力部
10¾ ゲノム領域判定部
102k 識別子判定部
102m 共起キーワード相関スコア算出部
102η 検索結果順序出力部 104 通信制御インターフェース部 106 記憶部
106a 全文献セットファイル
106b バイオアイテム文献セットファイル 106c バイオアイテム関係データベース 106d 位置情報データベース
106e 識別子情報データベース 108 入出力制御インターフェース部 110 全文検索器
112 入力装置
114 出力装置
120 バイオアイテム全文検索器
200 バックエンド
201 バックエンド管理サーバ
202 文献数取得サーバ
203 インターフェース
204 文献全文検索器
206d 位置情報データベース
206c バイオアイテム関係データベース
210 分散文献検索サーバ
211 インターフェース
212 文献全文検索器
2121 アイテム領域判定器
212d 相関スコア計算器
212e バイオアイテム推論器
212f バイオアイテム名テーブル
250 外部システム
300 ネットワーク 400 システム管理サーバ
500 ユーザクライアント
600 バイオアイテム検索端末装置
602 制御部
602a 入力制御部
602b 送信部
602c 受信出力部
604 通信制御インターフェース部
606 記憶部
608 入出力制御インターフェース部
612 入力部
614 出力部
発明を実施するための最良の形態
[0051] 以下に、本発明に力かるバイオアイテム検索装置、ノィォアイテム検索端末装置、 バイオアイテム検索方法、および、プログラムの実施の形態を図面に基づいて詳細 に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
[0052] [本発明の概要]
以下、本発明の概要について図 1〜図 3を参照して説明し、その後、本発明の構成 および処理等について詳細に説明する。図 1は、本発明の基本原理を示す原理構 成図である。本発明は、概略的に、以下の基本的特徴を有する。
[0053] 一例として図 1に示すように、本バイオアイテム検索装置は、利用者により入力され たキーワードから目的のバイオアイテム (例えば、遺伝子、遺伝子多型、疾患、薬品、 バイオリソース、文献フォルダ、蛋白質、人物、集団、組織、化合物、専門用語等)を 検索するバイオアイテム検索装置である。ノィォアイテム検索装置は、少なくとも制 御装置と記憶装置と出力装置とを備えている。ここで、「文献フォルダ」とは、 1以上の 文献力 なる集合を規定するものであり、コンピュータ上で文書データのファイルを格 納させることができるフォルダを例として挙げることができる。この場合、文献フォルダ のバイオアイテム名として、該文献フォルダのフォルダ名または該文献フォルダのパ ス名(絶対パス、相対パス、インターネット上における Universal Resource Locator) を好適に用いることができ、該フォルダに含まれる文献または該文献フォルダ以下に 含まれるすべての文献を有する文献セットを該バイオアイテムのバイオアイテム文献 セットとすることができる。
[0054] そして、本バイオアイテム検索装置は、バイオアイテム毎に、該バイオアイテムのバ ィォアイテム名が記載された文献を有するバイオアイテム文献セットを記憶する(図 1 の「バイオアイテム文献セットファイル 106b」)。ここで、本バイオアイテム検索装置は 、これらバイオアイテム文献セットファイル 106bに記憶された、バイオアイテム l〜nの ノィォアイテム文献セットに含まれる全ての文献を有する全文献セットを記憶してもよ い(図 1の「全文献セットファイル 106a」 )。
[0055] ここで、「文献」とは、記憶装置に記録できるひとまとまりの文書データを!、 、、フアイ ル名又は識別子で特定可能な文書データも文献の一形態である。具体的には、文 献の一例として、 MEDLINE (Medical Literature Analysis and Retrieval System
On— Line)データベースや OMIM (Online Mendelian Inheritance in Man)デー タベースの各レコードを挙げることができる。さらに、文書データをファイルとして扱う 場合は、該文書データおよび該文書データのファイルパス名をあわせてひとつの文 献とすることもできる。また、「文献セット」とは 1つ以上の文献に基づいて生成された データであり、任意のキーワードに対して、そのキーワードが記載されている文献数 を算出できるように構成されたデータである。好ましい実施の形態としては、文献セッ トは、任意のキーワードに対して、該文献数を高速に算出できるように、インデックス 情報を含むデータである力 本発明がこれに限定されるものではない。また、「バイオ アイテム名」は、バイオアイテムの名称である。ここで、バイオアイテム名は、複数の単 語の組合せ力 構成されてもよぐ概念語を含んで 、てもよ!/、。
[0056] 図 1に示すように、まず、本発明の本バイオアイテム検索装置は、利用者によりキー ワードが入力されると(SA— 1)、バイオアイテム文献セットファイル 106bに記憶され た各バイオアイテム文献セットの中力もキーワードを検索し、ノィォアイテム文献セッ トのうちキーワードを含む文献の数 Nhを、バイオアイテム l〜n毎に取得する(SA— 2 ) oここで、本バイオアイテム検索装置は、全文献セットファイル 106aに記憶された全 文献セットの中力もキーワードを検索し、全文献セットのうちキーワードを含む文献の 数 Nkを取得してもよい。
[0057] つぎに、本バイオアイテム検索装置は、取得された文献数 Nhが 1以上であるバイオ アイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する(SA—3)
[0058] そして、本バイオアイテム検索装置は、候補バイオアイテム毎に、 a)文献数 Nh、お よび Zまたは、 b)キーワードを含まず且つバイオアイテム名を含む文献の数 (該バイ ォアイテムのノィォアイテム文献セットの文献数 Nh)、から構成される文献数テー ブルを作成する(SA— 4)。ここで、本バイオアイテム検索装置は、上記 a)、上記 b)、 並びに、 c)キーワードを含み且つバイオアイテム名を含まな!/、文献数 (Nk— Nh)、 および、 d)キーワードを含まず且つノィォアイテム名を含まな 、文献数 (全文献セッ トの総文献数 バイオアイテム文献セットの文献数 Nk+Nh)、のうち少なくとも一 つから構成される文献数テーブルを作成してもよい。ここで、「文献数テーブル」につ いて、図 2および図 3を用いて説明する。図 2は、文献数テーブルの一例を示す図で ある。
[0059] 図 2に示すように、文献数テーブルは、 a)キーワードを含み且つバイオアイテム名を 含む文献の数、 b)キーワードを含まず且つ候補バイオアイテム名を含む文献の数、 c )キーワードを含み且つバイオアイテム名を含まない文献の数、および、 d)キーワード を含まず且つ候補バイオアイテム名を含まな 、文献の数、の 4つの項目 a)〜d)のう ち少なくとも一つカゝら構成される。次に、この文献数テーブルに文献数を格納し、文 献数テーブルを作成する方法の一例を、図 3を参照して説明する。図 3は、相関スコ ァ計算用の文献数テーブルの一例を示す図である。
[0060] 図 3に示すように、図 2の説明で用いた記号に対応付けて説明すると、本バイオアイ テム検索装置は、項目 a)に文献数 Nhを、項目 b)に (Ng— Nh)を、項目 c)に (Nk— Nh)を、および、項目 d)に(Nail— Nk+Nh— Ng)を設定し、 4つの項目 a)〜d)のう ち少なくとも一つから構成される文献数テーブルを作成する。ここで、 Ngは、対応す るバイオアイテムのバイオアイテム文献セットの文献数であり、 Nailは、全文献セットフ アイル 106aに記憶された全文献セットの総文献数である。ここで、本発明の文献テー ブノレは、上記の 1次元または 2次元の文献テーブルに限られず、 3次元の文献テー ブルであってもよい。なお、 3次元の文献テーブルの実施の形態は、後に詳しく説明 する。
[0061] つづいて、図 1に戻り、本バイオアイテム検索装置は、候補バイオアイテム毎に、作 成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテムとキー ワードとの相関スコアをそれぞれ算出する(SA— 5)。ここで、統計計算は、検定を用 いてもよぐフィッシャーの正確確率検定、カイ二乗検定、または、ベイズ条件付確率 を用いてもよい。これにより、各候補バイオアイテムとキーワードとの相関スコアに検 定での有意性確率を反映させ、統計学的に解釈可能な相関スコアを算出することが できる。また、相関スコアとして検定の有意性確率を用いる場合は、相関が強いほど 当該相関スコアの値が小さくなる力 逆に、相関が強いほど値が大きくなるように、相 関スコアを定義して用いてもよい。このほか、相関スコアの定義として、文献数テープ ルの項目 a)が大きいほど相関が強くなる傾向に定義した相関スコアを用いてもよぐ また、文献数テーブルの項目 b)が大きいほど相関が弱くなる傾向に定義した相関ス コアを用いてもよい。また、文献数テーブルの項目 c)が大きいほど相関が弱くなる傾 向に定義した相関スコアを用いてもよぐまた、上記傾向を満たすように、文献数テー ブルの項目 a)のみから定義した相関スコアを用いてもよぐまた、上記傾向を満たす ように文献数テーブルの項目 a)および項目 b)のみ力 定義した相関スコア用いても よぐまた、上記傾向を満たすように文献数テーブルの項目 a)および項目 c)のみから 定義した相関スコアを用いてもよぐまた、上記傾向を満たすように文献数テーブル の項目 a)、項目 b)および、項目 c)のみ力 定義した相関スコアを用いてもよぐまた 、上記傾向を満たすように文献数テーブルの項目 a)、項目 b)、項目 c)および項目 d) 力も定義した相関スコアを用いてもよい。また、上記相関スコアの定義力 文献数テ 一ブルの項目 a)、項目 b)、項目 c)、および、項目 d)のすベての値に基づかな!/、場 合は、該相関スコアの定義に基づ力ない項目を算出しなくてもよい。この他、 2種類 以上の上記相関スコアに基づいて定義された 1つの相関スコアを上記相関スコアとし て用いてもよい。
[0062] 最後に、本バイオアイテム検索装置は、算出された相関スコアに基づいて、候補バ ィォアイテムを出力装置に出力する(SA— 6)。ここで、本バイオアイテム検索装置は 、候補バイオアイテムを順位付けして出力装置に出力してもよい。
[0063] 次に、本発明の別態様について説明を行う。
[0064] 本発明の別態様における本バイオアイテム検索装置は、任意の 2つのバイオアイテ ムと、 2つのバイオアイテムの共起相関スコアと、を対応付けて記憶するバイオアイテ ム関係データベース 106cを備えて構成される。
[0065] ここで、共起相関スコアの算出の一例として、本バイオアイテム検索装置は、上記 2 つのバイオアイテムのうち、一方のバイオアイテムのバイオアイテム文献セットの中か ら、他方のバイオアイテム名を検索することにより得られた、 i)一方のバイオアイテム 名を含み且つ他方のバイオアイテム名を含む文献数、 j)一方のバイオアイテム名を 含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のノィォアイテム名を含 み且つ他方のバイオアイテム名を含まない文献数、および、 m)—方のバイオアイテ ム名を含まず且つ他方のバイオアイテム名を含まな!/ヽ文献数、のうち少なくとも一つ 力も構成される共起文献数テーブルを用いて、統計計算に基づいて、共起相関スコ ァを算出する (SA— 7)。そして、本バイオアイテム検索装置は、算出された共起相 関スコアを、上記 2つのバイオアイテムに対応付けて、バイオアイテム関係データべ ース 106cに格納しておく(SA— 8)。
[0066] まず、本発明の別態様における本バイオアイテム検索装置は、バイオアイテム関係 データベース 106cに記憶された共起相関スコアに基づいて、選出された候補バイオ アイテムと相関関係を有するバイオアイテムを、関連バイオアイテムとして抽出する(S A— 9)。
[0067] つぎに、本バイオアイテム検索装置は、関連バイオアイテムとキーワードとの合成相 関スコアを、元となった候補バイオアイテムの相関スコアと共起相関スコアとを合成す ることによって求める(SA— 10)。
[0068] ここで、合成相関スコアは、下記の数式 1に基づいて、算出してもよい。
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
(ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムの相関スコアであり
、 P2は、共起相関スコアである。 ) [0069] また、ここで、上記数式 1の近似式として、 P1や P2が 1より十分小さいという仮定の もとに、これら P1や P2同士の積を 0とみなす下記の近似式 (数式 1 1)を適用しても よい。
P = P1 + P2 · · · (数式 1— 1)
また、数式 1を対数のままで計算したい場合には、数式 1を対数で計算できるように 近似した下記の近似式 (数式 1 2)を適用してもよ!/ヽ。
Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)
(ここで、 Max{A, B}は A, Bのうち小さくない方を選ぶ関数である)
[0070] 最後に、本バイオアイテム検索装置は、算出された合成相関スコアに基づいて、関 連バイオアイテムを出力装置に出力する(SA— 11)。以上が、本発明の別態様の説 明である。
[0071] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応 するゲノム染色体上の位置を示すゲノム位置情報を関連付けて記憶してもよい(図 1 の「位置情報データベース 106d」 )。
[0072] この場合、利用者により目的とするバイオアイテムに対応するゲノム染色体上の位 置を含むゲノム領域情報の入力があると (SA— 1)、本バイオアイテム検索装置は、 候補バイオアイテムまたは関連バイオアイテムにつ 、て、位置情報データベース 106 dに記憶された、該バイオアイテムに対応するゲノム上の位置力 利用者により入力さ れたゲノム領域に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に 、該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する(SA— 12)。
[0073] ここで、本バイオアイテム検索装置は、バイオアイテム毎に、バイオアイテムに対応 する識別子を示す識別子情報を関連付けて記憶してもよ ヽ (図 1の「識別子情報デ ータベース 106e」)。
[0074] この場合、利用者により目的とするノィォアイテムに対応する一つ又は複数の識別 子情報の入力があると (SA—1)、本バイオアイテム検索装置は、候補バイオアイテム または関連バイオアイテムについて、識別子情報データベース 106eに記憶された、 該バイオアイテムに対応する識別子情報に基づく識別子が、利用者により入力され た一つ又は複数の識別子に含まれるカゝ否かを判断し、含まれると判断した場合に、 該候補バイオアイテムまたは該関連バイオアイテムを出力するよう制御する(SA— 1 3)。
[0075] また、利用者がコンピュータを操作して入力したキーワードを、該コンピュータから 上記バイオアイテム検索装置の上記制御装置に、ネットワーク経由で送信するため のプログラムを該コンピュータに実行させてもよい。好適には該コンピュータのウェブ ブラウザが解釈可能な HTML (ノヽィパーテキストマークアップランゲージ)のファイル を上記プログラムとして用いることができる。
[0076] ここで、上記コンピュータとしてバイオアイテム検索端末装置を用いてもよ!、。バイオ アイテム検索端末装置は、ネットワークを介して、本バイオアイテム検索装置と相互に 接続され、少なくとも制御部と入力部と出力部を備えて構成される。ノィォアイテム検 索端末装置は、利用者に、入力部を介してキーワードやゲノム領域情報や識別子情 報を入力させるよう制御し、当該キーワード等をバイオアイテム検索装置 100に送信 し、ノィォアイテム検索端末装置 600から出力された検索結果 (候補バイオアイテム 、関連バイオアイテム、または、共起キーワード相関スコア)を受信し、出力部に出力 するよう構成してちょい。
[0077] 以上で、本発明の概要の説明を終える。
[0078] [バイオアイテム検索装置の構成]
まず、本バイオアイテム検索装置の論理構成について、図 4を参照しながら説明す る。図 4は、本発明が適用される本バイオアイテム検索装置の構成の一例を示すプロ ック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
[0079] 図 4においてバイオアイテム検索装置 100は、概略的に、バイオアイテム検索装置 100の全体を統括的に制御する CPU等の制御部 102、通信回線等に接続されるル ータ等の通信装置(図示せず)に接続される通信制御インターフェース部 104、入力 装置 112や出力装置 114に接続される入出力制御インターフェース部 108、および 、各種のデータベースやテーブルなどを格納する記憶部 106を備えて構成されてお り、これら各部は任意の通信路を介してネットワーク 300に通信可能に接続される。
[0080] 記憶部 106に格納される各種のデータベースやテーブル(全文献セットファイル 10 6a〜識別子情報データベース 106e)は、固定ディスク装置等のストレージ手段であ り、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースゃゥェ ブページ等を格納する。
[0081] これら記憶部 106の各構成要素のうち、バイオアイテム文献セットファイル 106bは、 バイオアイテム毎に、ノィォアイテムのバイオアイテム名が記載された文献を有する ノィォアイテム文献セットを記憶するバイオアイテム文献セット記憶手段である。図 4 に示すように、バイオアイテム文献セットファイル 106bは、バイオアイテム l〜n毎に、 バイオアイテム名を含む文献の集合であるバイオアイテム文献セットを記憶して 、る。
[0082] また、全文献セットファイル 106aは、これらバイオアイテム l〜nのバイオアイテム文 献セットに含まれる全ての文献を有する全文献セットを記憶する文献セット記憶手段 である。
[0083] また、バイオアイテム関係データベース 106cは、任意の 2つのバイオアイテムと、対 応する 2つのノィォアイテムの相関スコアを共起相関スコアとして記憶するバイオアイ テム関係蓄積手段である。ここで、好ましい実施の形態として、バイオアイテム関係デ ータベース 106cは、共起相関スコアが優位水準を下回っており、有意な相関関係が あると判断された互いに関連する 2つのバイオアイテムを記憶してもよい。
[0084] また、位置情報データベース 106dは、バイオアイテム毎に、対応するゲノム染色体 上の位置を示すゲノム位置情報を関連付けて記憶する位置情報蓄積手段である。
[0085] また、識別子情報データベース 106eは、ノィォアイテム毎に、対応する識別子を 示す識別子情報を関連付けて記憶する識別子情報蓄積手段である。
[0086] また、図 4において、通信制御インターフェース部 104は、バイオアイテム検索装置 100とネットワーク 300 (またはルータ等の通信装置)との間における通信制御を行う 。すなわち、通信制御インターフェース部 104は、他の端末と通信回線を介してデー タを通信する機能を有する。
[0087] また、図 4において、入出力制御インターフェース部 108は、入力装置 112や出力 装置 114の制御を行う。ここで、出力装置 114としては、モニタの他、スピーカを用い ることができる。また、入力装置 112としては、キーボード、マウス、およびマイク等を 用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を 実現することができる。なお、本実施の形態においては、利用者は、キーボードなど の入力装置 112を介して、キーワードやインターバルや識別子を入力し、モニタなど の出力装置 114を介して、出力された検索結果を閲覧できる構成となって!/、る。
[0088] また、図 4において、制御部 102は、 OS (Operating System)等の制御プログラ ム、各種の処理手順等を規定したプログラム、および所要データを格納するための内 部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理 を行う。制御部 102は、機能概念的に、文献数取得部 102a、候補バイオアイテム選 出部 102b、テーブル作成部 102c、相関スコア算出部 102d、共起相関スコア算出 部 102e、バイオアイテム関係データベース化部 102f、関連バイオアイテム抽出部 1 02g、合成相関スコア算出部 102h、出力部 102i、ゲノム領域判定部 10¾、識別子 判定部 102kを備えて構成されている。
[0089] このうち、文献数取得部 102aは、バイオアイテム文献セットファイル 106bに記憶さ れた、各バイオアイテム l〜nのバイオアイテム文献セットの中力 キーワードを検索し 、各ノィォアイテム文献セットのうちキーワードを含む文献の数 Nhをバイオアイテム 1 〜n毎に取得する文献数取得手段である。ここで、文献数取得部 102aは、全文献セ ットファイル 106aに記憶された全文献セットの中カゝらキーワードを検索し、全文献セッ トのうちキーワードを含む文献の数 Nkを取得してもよい。また、文献数取得部 102a は、任意の 2つの候補バイオアイテムのうち、一方の候補バイオアイテムのノィォアイ テム文献セットの中から、他方のバイオアイテム名を含み且つキーワードを含む文献 数 Nsを検索により取得してもよい。
[0090] また、候補バイオアイテム選出部 102bは、文献数取得部 102aにより取得された文 献数 Nhが 1以上であるバイオアイテム文献セットのバイオアイテムを、候補バイオア ィテムとして選出する候補バイオアイテム選出手段である。
[0091] また、テーブル作成部 102cは、候補バイオアイテム選出部 102bにより選出された 候補バイオアイテム毎に、 a)文献数 Nh、 b)キーワードを含まず且つバイオアイテム 名を含む文献の数 (該バイオアイテムのノィォアイテム文献セットの文献数 Nh)、 c )キーワードを含み且つバイオアイテム名を含まない文献数 (Nk— Nh)、および、 d) キーワードを含まず且つバイオアイテム名を含まな 、文献数 (全文献セットの総文献 数 バイオアイテム文献セットの文献数 Nk+Nh)、の 4つの項目 a)〜d)うち少な くとも一つカゝら構成される文献数テーブルを作成するテーブル作成手段である(図 2 および図 3を参照。なお、 Nkと Nhの値は、文献数取得部 102aにより取得される。;)。 ここで、テーブル作成部 102cは、文献数取得手段 102aにより取得された文献数 Ns 、 2つの候補バイオアイテムに係る文献数テーブル、および、 2つの候補バイオアイテ ムに係る共起文献数テーブルに基づ ヽて、 3次元の文献テーブルを作成してもよ ヽ
[0092] また、相関スコア算出部 102dは、候補バイオアイテム毎に、テーブル作成部 102c により作成された文献数テーブルを用いて統計計算に基づいて、候補バイオアイテ ムとキーワードとの相関スコアを算出する相関スコア算出手段である。ここで、相関ス コア算出部 102dは、統計計算として、検定を用いてもよぐフィッシャーの正確確率 検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。ここで、 102dは、 図 4に示すように、共起キーワード相関スコア算出部 102mを備えて構成されて 、る。 共起キーワード相関スコア算出部 102mは、テーブル作成部 102cにより作成された 3次元の文献数テーブルを用いて、統計計算に基づいて、 2つの候補バイオアイテム とキーワードとの共起キーワード相関スコアを算出する共起キーワード相関スコア算 出手段である。ここで、共起キーワード相関スコア算出部 102mは、キーワードを含む 場合の 2つの候補バイオアイテムの相関スコアをキーワードあり相関スコアとして算出 し、キーワードを含まない場合の 2つの候補バイオアイテムの相関スコアをキーワード なし相関スコアとして算出し、キーワードあり相関スコアとキーワードなし相関スコアと の、両方および Zまたは比較結果を、共起キーワード相関スコアとしてもよい。
[0093] また、共起相関スコア算出部 102eは、任意の 2つのバイオアイテムのうち、一方の バイオアイテム文献セットの中から、他方のバイオアイテム名を検索することにより得 られた、 i)一方のノィォアイテム名を含み且つ他方のバイオアイテム名を含む文献 数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含む文献数、 k)一方のバイオアイテム名を含み且つ他方のバイオアイテム名を含まな!/、文献数、 および、 m)—方のバイオアイテム名を含まず且つ他方のバイオアイテム名を含まな V、文献数、の 4つの項目 i)〜m)うち少なくとも一つから構成される共起文献数テープ ルを用いて、統計計算に基づいて、共起相関スコアを算出する共起相関スコア算出 手段である。ここで、共起相関スコア算出部 102eは、全文献セットファイル 106aに記 憶された全文献セットの中力 一方のバイオアイテム名および Zまたは他方のバイオ アイテム名を検索することにより、項目 i)〜! n)の値を得てもよい。ここで、共起相関ス コア算出部 102eは、統計計算として、検定を用いてもよぐフィッシャーの正確確率 検定、カイ二乗検定、または、ベイズ条件付確率を用いてもよい。
[0094] また、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 102e によって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイオア ィテム関係データベース 106cに格納するバイオアイテム関係データベース化手段で ある。
[0095] また、関連バイオアイテム抽出部 102gは、ノィォアイテム関係データベース 106c に記憶された共起相関スコアに基づいて、候補バイオアイテム選出部 102bにより選 出された候補バイオアイテムと相関関係を有するバイオアイテムを、関連バイオアイ テムとして抽出する関連ノィォアイテム抽出手段である。
[0096] また、合成相関スコア算出部 102hは、関連バイオアイテムとキーワードとの合成相 関スコアを、関連ノィォアイテム抽出部 102gによる抽出の元となった候補バイオアイ テムのキーワードとの相関スコアと、バイオアイテム関係データベース化部 102fに記 憶された共起相関スコアとを合成することによって求める合成相関スコア算出手段で ある。ここで、合成相関スコア算出部 102hは、合成相関スコアを、下記の数式 1、ま たは、数式 1の近似式(下記の数式 1 1および 1 2)に基づいて、算出してもよい。 ここで、 Pは、合成相関スコアであり、 P1は、候補バイオアイテムのキーワードとの相 関スコアであり、 P2は、候補バイオアイテムと関連バイオアイテムとの共起相関スコア である。
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
P = P1 + P2 · · · (数式 1— 1)
Log (P) =Max{Log (Pl) , Log (PI) } · · · (数式 1 2)
(ここで、 Max{A, B}は A, Bのうち小さくない方を選ぶ関数である)
[0097] ここで、合成相関スコア算出部 102hは、ゲノム領域 (インターバル)を 2つ入力する マルチプルインターバルモードの際、 2つの候補バイオアイテム(バイオアイテム 1、 バイオアイテム 2)のキーワードとの総合相関スコア (総合 P)を求める場合、以下に掲 げる 、ずれかの数式を用いて合成するよう構成してもよ!/、。
総合 P= l—(1 PI) (1— P2) (1— P3)…(数式 2)
総合 P = Min{ l—(1一 PI) (1一 P2) , 1一 (1一 PI) (1一 P3) } · · · (数式 3) (ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイ テム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコ ァ、 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である(図 7参照))。
[0098] また、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに基 づいて、候補バイオアイテムを出力装置 114に出力する出力手段である。ここで、出 力部 102iは、合成相関スコア算出部 102hによって算出された合成相関スコアに基 づいて、関連バイオアイテムを出力装置 114に出力してもよい。また、出力部 102iは 、共起キーワード相関スコア算出部 102mによって算出された共起キーワード相関ス コアを、 2つの候補バイオアイテムと対応付けて、出力装置 114に出力してもよい。こ こで、出力部 102iは、相関スコアまたは合成相関スコアが所定の優位水準に満たな V、場合は、対応する候補バイオアイテム又は関連バイオアイテムを出力しな 、構成と してもよい。ここで、出力部 102iは、図 4に示すように、検索結果順序出力部 102ηを 備えて構成されている。検索結果順序出力部 102ηは、相関スコア、共起キーワード 相関スコア、または、合成相関スコアに基づいて、対応する候補バイオアイテムまた は上記関連バイオアイテムを、順位付けして出力装置 114に出力する検索結果順序 出力手段である。一例として、検索結果順序出力部 102ηは、候補バイオアイテムま たは関連バイオアイテムを、対応する相関スコアまたは合成相関スコアの小さなもの 力も出力してもよい。
[0099] また、ゲノム領域判定部 10¾は、候補バイオアイテムまたは関連バイオアイテムに ついて、位置情報データベース 106dに記憶された、対応するゲノム位置情報に基 づく位置が、利用者により入力されたゲノム領域情報に基づくゲノム領域 (インターバ ル)に含まれるか否かを判断し、ゲノム領域に含まれると判断した場合に、対応する 候補バイオアイテムまたは関連バイオアイテムを出力するよう制御するゲノム領域判 定手段である。ここで、本実施の形態において、ゲノム領域判定部 10¾は、候補バイ ォアイテム選出部 102bによって選出された候補バイオアイテムのゲノム上の位置が 、利用者により入力されたゲノム領域 (インターバル)に含まれないと判断した場合に 、関連ノィォアイテム抽出部 102gに対して、当該候補バイオアイテムに関連する関 連バイオアイテムを抽出するよう命令を出す構成としてもよ!、。
[0100] また、識別子判定部 102kは、候補バイオアイテムまたは関連バイオアイテムにつ いて、識別子情報データベース 106eに記憶された、対応する識別子情報に基づく 識別子が、利用者により入力された識別子情報に基づく一つまたは複数の識別子に 含まれるか否かを判断し、含まれると判断した場合に、対応する候補バイオアイテム または関連バイオアイテムを出力するよう制御する識別子判定手段である。
[0101] 以上が、バイオアイテム検索装置 100内部の論理構成である。ここで、バイオアイテ ム検索装置 100は、図 4に示すように、文献情報に関する外部データベースやバイ ォアイテム検索プログラム等の外部プログラム等を提供する外部システム 250、およ び、ノィォアイテム検索端末装置 600に、ネットワーク 300を介して通信可能に接続 して構成されていてもよい。ここで、図 4において、ネットワーク 300は、バイオアイテム 検索装置 100と外部システム 250とバイオアイテム検索端末装置 600とを相互に接 続する機能を有し、例えば、インターネット、 LAN,公衆電話回線網等である。
[0102] 図 4において、外部システム 250は、ネットワーク 300を介して、バイオアイテム検索 装置 100と相互に接続され、利用者に対して文献情報等に関する外部データベース やバイオアイテム検索プログラム等の外部プログラム等を実行するウェブサイトを提供 する機能を有する。ここで、外部システム 250は、 WEBサーバや ASPサーバ等とし て構成していてもよぐそのハードウェア構成は、一般に市販されるワークステーショ ン、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してい てもよい。また、外部システム 250の各機能は、外部システム 250のハードウェア構成 中の CPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等および それらを制御するプログラム等により実現される。
[0103] また、図 4にお 、て、バイオアイテム検索端末装置 600は、ネットワーク 300を介して 、 ノ ィォアイテム検索装置 100と相互に接続され、少なくとも制御部と入力部と出力 部を備えて構成される。バイオアイテム検索端末装置 600は、利用者に、入力部を介 してキーワードやゲノム領域情報や識別子情報を入力させるよう制御し、当該キーヮ 一ド等をバイオアイテム検索装置 100に送信し、バイオアイテム検索端末装置 600か ら出力された、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相 関スコアを受信し、出力部に出力するよう構成される。
[0104] 以上で、本バイオアイテム検索装置および本バイオアイテム検索システムの構成の 説明を終える。
[0105] [本バイオアイテム検索装置の処理]
次に、このように構成された本実施の形態における本バイオアイテム検索装置 100 の処理の一例について、以下に図 5および図 6を参照して詳細に説明する。
[0106] ここで「直接検索」とは、キーワードと直接関係するバイオアイテムを検索することを いい、候補バイオアイテムが検索結果 (直接検索の解)として出力される検索のことで ある。一方、「間接検索」とは、バイオアイテム間の推論を行い、キーワードと間接的に 関係するバイオアイテムを検索することを 、、関連バイオアイテムが検索結果 (バイ ォアイテム推論の解)として出力される検索のことである。
[0107] [直接検索処理]
直接検索処理の詳細について図 5を参照して説明する。図 5は、本実施形態にお ける本システムの直接検索処理の一例を示すフローチャートである。
[0108] 図 5に示すように、バイオアイテム検索装置 100の制御部 102は、入力装置 112を 介して利用者にキーワードを入力させ、キーワードを受信すると(SB— 1)、文献数取 得部 102aは、バイオアイテム文献セットファイル 106bに記憶された各バイオアイテム 文献セットの中力もキーワードを検索し、バイオアイテム文献セットのうちキーワードを 含む文献の数 Nhを、バイオアイテム l〜n毎に取得する(SB— 2)。ここで、文献数取 得部 102aは、全文献セットファイル 106aに記憶された全文献セットの中力 キーヮ ードを検索し、全文献セットのうちキーワードを含む文献の数 Nkを取得してもよ 、。
[0109] つぎに、候補バイオアイテム選出部 102bは、取得された文献数 Nhが 1以上である バイオアイテム文献セットのバイオアイテムを、候補バイオアイテムとして選出する(S B— 3)。 [0110] つづいて、テーブル作成部 102cは、候補バイオアイテム毎に、 a)文献数 Nh、 b)キ 一ワードを含まず且つバイオアイテム名を含む文献の数 (該バイオアイテムのバイオ アイテム文献セットの文献数 Nh)、 c)キーワードを含み且つバイオアイテム名を含 まない文献数 (Nk— Nh)、および、 d)キーワードを含まず且つバイオアイテム名を含 まな 、文献数 (全文献セットの総文献数 -ノィォアイテム文献セットの文献数 - Nk + Nh)、の 4つの項目のうち少なくとも一つから構成される文献数テーブルを作成し 記憶装置に格納する(SB— 4)。
[0111] つぎに、相関スコア算出部 102dは、テーブル作成部 102cの処理により作成された 文献数テーブルを用いて、フィッシャーの正確確率検定に基づ 、て候補バイオアイ テム群を構成する候補バイオアイテムとキーワードとの相関スコアをそれぞれ算出す る(SB— 5)。
[0112] そして、出力部 102iは、相関スコア算出部 102dによって算出された相関スコアに 基づいて候補バイオアイテム群を出力装置に出力する(SB— 6)。
[0113] これにて、直接検索の処理が終了する。
[0114] [間接検索処理 (バイオアイテムの推論) ]
つぎに、間接検索処理について、図 6を参照して説明する。図 6は、本実施形態に おける本システムの間接検索処理の一例を示すフローチャートである。
[0115] まず、バイオアイテムの推論に用いるバイオアイテム関係データベースの作成処理 について説明する。共起相関スコア算出部 102eは、 2つのバイオアイテムのうち、一 方のバイオアイテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を 検索することにより得られた、 i)一方のバイオアイテム名を含み且つ他方のバイオア ィテム名を含む文献数、 j)一方のバイオアイテム名を含まず且つ他方のバイオアイテ ム名を含む文献数、 k)一方のノィォアイテム名を含み且つ他方のバイオアイテム名 を含まない文献数、および、 m)—方のバイオアイテム名を含まず且つ他方のバイオ アイテム名を含まない文献数、のうち少なくとも一つ力も構成される共起文献数テー ブルを用いて、フィッシャーの正確確率検定に基づいて、 2つのバイオアイテム間の 共起相関スコアを算出する(SC— 1)。
[0116] つぎに、バイオアイテム関係データベース化部 102fは、共起相関スコア算出部 10 2eによって算出された共起相関スコアを、 2つのバイオアイテムに対応付けて、バイ ォアイテム関係データベース 106cに格納する(SC— 2)。以上が、バイオアイテム関 係データベース 106cの作成処理である。なお、この作成処理は、直接検索または間 接検索を行う前に予め実行されている。
[0117] つづいて、ノィォアイテム検索装置 100は、入力装置 112を介して利用者にキーヮ ードを入力させ、直接検索を実行する(SC— 3〜7)。ここで、 SC— 3〜7は、直接検 索の SB— 1〜5に対応するので説明を省略する。
[0118] ここで、直接検索から間接検索の移行処理については、図 6に示すように直線的な 処理の構成とする他、 SC— 5で選出された候補バイオアイテム力 ゲノム領域判定 部 10¾の処理により、利用者により入力されたインターバルに含まれないと判断する 場合に、 SC— 8に進み、関連バイオアイテム抽出部 102gに対して、当該インターバ ルに含まれないと判断された候補バイオアイテムと相関関係のある関連バイオアイテ ムの抽出を命令する構成としてもょ 、。
[0119] つぎに、関連バイオアイテム抽出部 102gは、候補バイオアイテム選出部 102bによ つて選出された候補バイオアイテムに対応する、バイオアイテム関係データベース 10 6cに記憶された共起相関スコアに基づ 、て、相関関係のある関連ノィォアイテムを 抽出する(SC— 8)。
[0120] そして、合成相関スコア算出部 102hは、関連バイオアイテム抽出部 102gにより抽 出された関連ノィォアイテムとキーワードとの合成相関スコア Pを、相関スコア算出部 102dによって算出された相関スコア(P1)と、バイオアイテム関係データベース 106c 力も得られる、候補バイオアイテム選出部 102bで得られた候補バイオアイテムと関連 ノィォアイテム抽出部 102gにより抽出された該関連バイオアイテムとの(共起)相関 スコア(P2)と、を下記の数式 1を用いて合成することによって求める(SC— 9)。
合成13= 1— (1ー?1) (1ー?2) ' ' ' (数式1)
[0121] そして、出力部 102iは、関連バイオアイテム抽出部 102gによって抽出された関連 ノィォアイテムを、合成相関スコア算出部 102hによって算出された合成相関スコア に基づいて出力装置に出力する(SC— 10)。
[0122] これにて関接検索の処理が終了する。 [0123] [ゲノム領域判定処理]
ここで、ゲノム領域判定部 10¾によるゲノム領域判定処理にっ 、て詳細に説明す る。
[0124] 入力装置 112において、利用者はキーワードのほ力 「インターバル」と呼ぶゲノム 配列上の範囲 (ゲノム領域)に関する情報 (ゲノム領域情報)を指定することができる。 このゲノム領域判定機能により、バイオアイテム検索装置 100の利用者は、例えばポ ジショナルクローニングの問題解決にお 、て、バイオアイテムのゲノム配列上の位置 を考慮して検索結果を絞り込むことが可能となる。
[0125] すなわち、ゲノム領域判定部 10¾は、候補バイオアイテム選出部 102bによって選 出された候補バイオアイテム、または、関連バイオアイテム抽出部 102gによって抽出 された関連バイオアイテムについて、位置情報データベース 106dに基づいて対応 するゲノム位置情報を取り出す。
[0126] つぎに、ゲノム領域判定部 10¾は、取得したゲノム位置情報に基づくゲノム上の位 置が、利用者によって入力されたゲノム領域 (インターバル)に含まれるか否かを判断 する。
[0127] そして、ゲノム領域判定部 10¾は、候補バイオアイテム力インターバルに存在する と判断した場合は、検索結果 (解)として適切として、このバイオアイテムを出力するよ う出力部 102iに指示する。一方、インターバルに含まれないと判断した場合は、検索 結果 (解)として不適としてバイオアイテムを棄却する。このとき、このバイオアイテムに 関連するバイオアイテムを抽出するよう、関連バイオアイテム抽出部 102gに指示する 構成としてもよい。ここで、「インターノ レ」は、インターバルあるいは識別子の列、ある いはインターバルの識別子の列の両方が指定されて 、る場合も含んでもょ 、。この 場合、すなわち、利用者によりインターバルあるいは識別子の列、あるいはインター バルの識別子の列の両方が入力された場合、ゲノム領域判定部 10¾は、入力され たそれぞれにつ 、て上記のゲノム領域判定処理を実行してもよ!/、。
[0128] [テーブル作成処理'相関スコア算出処理]
ここで、キーワードとバイオアイテム (候補バイオアイテム、関連バイオアイテム)の関 係性を定量的に評価する手法として、テーブル作成部 102cの処理によるテーブル 作成処理、および、相関スコア算出部 102d、共起相関スコア算出部 102e、および、 合成相関スコア算出部 102hの処理による相関スコア算出処理について、図 7を用い て詳細に説明する。図 7は、キーワードとバイオアイテムの間の関係を模式的に示し た図である。
[0129] すなわち、図 7に示すように、直接検索の場合には、ノィォアイテム 1が候補バイオ アイテムに相当し、相関スコア算出部 102dは、バイオアイテム 1とキーワードとの文献 数テーブルを用いて、候補バイオアイテムとキーワードとの相関スコアを算出する。
[0130] また、間接検索の場合には、バイオアイテム 1がキーワードに関係する候補バイオ アイテムに相当し、ノィォアイテム 2が推論により得られる関連バイオアイテムに相当 する。
[0131] また、マルチプルインターバルモード (利用者によりゲノム領域が 2つ入力された場 合)では、バイオアイテム 1は、一方のゲノム領域に属するノィォアイテムに相当し、 バイオアイテム 2は、他方のゲノム領域に属するバイオアイテムに相当する。ここで、 図 7におけるバイオアイテム 1が、インターバル 1に属するバイオアイテムとなり、バイ ォアイテム 2が、インターバル 2に属するバイオアイテムとなる。すなわち、マルチプル インターバルモードでは、バイオアイテム 1はインターバル 1に属しキーワードに関係 するバイオアイテム、バイオアイテム 2はインターバル 2に属しキーワードに関係する バイオアイテムである。
[0132] ここで、マルチプルインターバルモードについて説明する。相関スコア算出部 102d は、バイオアイテム 1とキーワードとの文献数テーブルを用いて、候補バイオアイテム とキーワードとの相関スコアを算出し、共起相関スコア算出部 l〇2eは、バイオアイテ ム 1とバイオアイテム 2との文献テーブルを用いて、共起相関スコアを算出する。この とき、バイオアイテム 2とキーワードとの相関スコアは、バイオアイテム 2とキーワードと の文献数テーブルを用 、て直接求めることができな 、ので、合成相関スコア算出部 1 02hは、相関スコア算出部 102dにより算出された相関スコアと、共起相関スコア算出 部 102eにより算出された共起相関スコアを合成することにより、合成相関スコアを算 出する。
[0133] すなわち、文献数取得部 102a、候補バイオアイテム選出部 102b、および、ゲノム 領域判定部 10¾の処理により、各インターバル 1 · 2について直接検索が行われ、検 索の結果としてそれぞれバイオアイテムの集合 (候補バイオアイテム群 1、候補バイオ アイテム群 2)が得られる。つぎに、共起キーワード相関スコア算出部 102mの処理に より、各集合力もそれぞれ 1つずつバイオアイテムを取り出し、構成される全てのノ ィ ォアイテムペアを作成し、各ノィォアイテムペアが上で述べた 1文献上で共起して ヽ る 2バイオアイテムに該当する力否かを、調べる。
[0134] そして、該当する場合には、当該 2バイオアイテムそれぞれについてのバイオアイテ ムとキーワードとの相関スコア (相関スコア 1、相関スコア 2)、 2バイオアイテムの共起 相関スコアの 3つの相関スコアを合成して新たな相関スコア(「合成相関スコア」)を計 算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキングを行い、 表示する。このようにマルチプルインターバルモードにぉ 、ても統計処理によるランキ ング機能により、 目的とするノィォアイテムの発見精度をより高めることができるという 効果を奏する。
[0135] ここで、キーワードとバイオアイテム 1の間の関係に着目する。この関係性を定量的 に評価するため、図 2に示したような文献数を集計した文献数テーブルを作成しても よい。
[0136] いま、バイオアイテムの名前(バイオアイテム名) ml, m2, · · 'mpが与えられたとき 、これらの名前のうち少なくとも一つ含む文献を取得するクエリを Q=ml OR m2 OR- · -OR mpと表し、「バイオアイテムクエリ」と呼ぶ。また、 Qの否定、すなわちこ れらの名前が一つも含まれない文献を取得するクエリを, Qと表す。バイオアイテム 1 につ 、てのバイオアイテムクエリを Q 1と表す。
[0137] 図 2の文献数テーブルにおいて、
aは、 Q1を満たし、かつキーワードを含む文献数
bは、 Q1を満たし、かつキーワードを含まない文献数
cは、,Q1を満たし、かつキーワードを含む文献数
dは、,Q1を満たし、かつキーワードも含まれない文献数
である。
[0138] このテーブルに、一例として、フィッシャーの正確確率検定の手法等を適用して P値 ("ΡΊま、国際標準ではイタリック体で表記される。)を算出する。 Ρ値が 0に近いほどバ ィォアイテムとキーワードとの関係が強いことを示し、この値を用いてヒットしたバイオ アイテムのランキングを行う。
[0139] 同様に、バイオアイテム 1とバイオアイテム 2の間の関係(一例として、候補バイオア ィテムと関連バイオアイテムの共起相関関係)においても文献数テーブルが生成され 、テーブルの各値 a)、 b)、 c)、 d)は以下に示す文献数である。いま、バイオアイテム 1についてのバイオアイテムクエリを Q、バイオアイテム 2についてのバイオアイテムク
1
エリを Q
2とする。
[0140] このとき、図 2の文献数テーブルにおいて、
a)は、 Q1を満たし、かつ Q2を満たす文献数
b)は、 Q1を満たし、かつ, Q2を満たす文献数
c)は、,Q1を満たし、かつ Q2を満たす文献数
d)は、,Q1を満たし、かつ, Q2を満たす文献数
である。
[0141] 上記作成した文献数テーブルを用いて、統計計算に基づいて、共起相関スコアを 算出する。統計計算としては、例えば、フィッシャーの正確確率検定やカイ二乗検定 等の検定、または、ベイズ条件付確率等を適用して P値を算出する。
[0142] これにて、テーブル作成処理と相関スコア算出処理の説明を終える。
[0143] [合成相関関数スコア算出処理]
合成相関関数スコア算出処理の一例について以下に説明する。直接検索によって
、相関関係が十分にある候補バイオアイテムが得られても、候補バイオアイテムのゲ ノム上の位置力 利用者により入力されたインターバルに含まれていなければ、解と して不適であるため棄却される。しかし、候補バイオアイテム力 バイオアイテム関係 データベースを用いて、関連バイオアイテムを導き出したときに、新たな相関スコアを 求める必要がある。
[0144] この場合、直接、関連バイオアイテムとキーワードの相関スコアを求めたのでは、不 適切である。何故なら、関連バイオアイテムは、候補バイオアイテムを介して間接検 索によって、はじめて得られた検索結果であり、直接検索の結果である検索数(ほぼ oに等しい)を代入しても、 p値は、 1に近い値となり、候補バイオアイテム群は、検索 結果の上位に出力されることはないため、従来技術の課題を解決することにはならな いからである。
[0145] そこで、直接、関連バイオアイテムとキーワードの相関スコアを求めるのではなぐ候 補バイオアイテムと関連バイオアイテムとの相関スコア(共起相関スコア)と、キーヮー ドと候補バイオアイテムとの相関スコアとを合成することによって、間接的に関連バイ ォアイテムとキーワードの相関スコア P (「合成相関スコア」)を求める。具体的には、下 記の数式 1を使って計算する。
[0146] P= l—(1 PI) (1— Ρ2) · · · (数式 1)
ここで、 P1は、関連バイオアイテムと候補バイオアイテムとの共起相関スコアであり、 P2は、候補バイオアイテムとキーワードとの相関スコアである。
[0147] また、マルチプルインターバルモードでは、まず、各インターバルについて直接検 索が行われ、検索の結果としてそれぞれバイオアイテムの集合が得られ、つぎに、各 集合力もそれぞれ 1つずっノィォアイテムを取り出し、構成される全てのバイオアイテ ムペアを作成し、各バイオアイテムペアが上で述べた 1文献上で共起して 、る 2バイ ォアイテムに該当するか否かを調べる。
[0148] そして、該当する場合には、当該の 2バイオアイテムそれぞれについてのバイオアイ テムとキーワードとの相関スコア、 2バイオアイテムの相関スコアを合成して新たな相 関スコアを計算する。これらの相関スコアに基づき、各バイオアイテムペア間でランキ ングを行い、表示する。この際の、総合相関関数を求める式は、例えば、次の数式 2 あるいは数式 3で表される。
[0149] 総合 P= l—(1 PI) (1 -P2) (1 P3) · · · (数式 2)
総合 P = Min{ l—(1 PI) (1 P2) , 1 1 PI) (1 P3) } · · · (数式 3) ここで、 P1は、バイオアイテム 1とバイオアイテム 2の相関スコア、 P2は、バイオアイ テム 1とキーワードとの相関スコア、 P3は、バイオアイテム 2とキーワードとの相関スコ ァである。 Min{A, B}は A, Bのうち大きくない方を選ぶ関数である(図 7参照)
[0150] [共起キーワード相関スコア算出処理:文献数 3次元テーブル]
3次元の文献数テーブルを用いた共起キーワード相関スコア算出処理について、 以下に図 8および図 9を参照しながら説明する。
[0151] まず、文献数取得部 102aは、任意の 2つのバイオアイテムのうち、一方のバイオア ィテムのバイオアイテム文献セットの中から、他方のバイオアイテム名を含み且つキ 一ワードを含む文献の数 Nsを検索により取得する。
[0152] つぎに、テーブル作成部 102cは、文献数 Ns、 2つのバイオアイテムに係る文献数 テーブル、および、 2つのバイオアイテムに係る共起文献数テーブルに基づいて、 3 次元の文献数テーブルを作成する。ここで、 3次元の文献テーブルの作成方法を、 図 8を参照しながら説明する。図 8は、 3次元の文献数テーブルを作成する方法を模 式的に示した図である。
[0153] 図 8に示すように、テーブル作成部 102cは、 8つの項目 s)、 t)、 u)、 v)、 w)、 x)、 y )、および、 z)すなわち、キーワードを含む力含まないか、ノィォアイテム 1を含むか 含まないか、バイオアイテム 2を含む力含まないか、の 8通りの分類項目に分類される 文献の文献数からなるテーブル(3次元の文献数テーブル)を生成する。
[0154] ここで、 3次元の文献テーブルを高速に作成するために、テーブル作成部 102cは 、共起相関スコア算出部 102eの処理により作成された、任意の 2つのバイオアイテム の組合せについての、 i)、 j)、 k)、および、 m)の 4つの項目からなる共起文献数テー ブルをデータベース化しておく。
[0155] そして、利用者によりキーワードが入力された場合に、文献数取得部 102a〜テー ブル作成部 102cは、それぞれのバイオアイテムとキーワードとの間で文献数テープ ルを作成する。なお、ここで作成される文献数テーブルは、一方のバイオアイテムに おける a)、 b)、 c)、および、 d)および他方のバイオアイテムにおける e)、 f)、 g)、およ び、 h)カゝら成る文献数テーブルに対応する。
[0156] そして、テーブル作成部 102cは、任意の候補バイオアイテム 1, 2の組み合わせに 対し、文献数取得部 102aの処理により、ノィォアイテム 1に対応するバイオアイテム 文献セットを用いて、キーワードおよびバイオアイテム名 2を含む文献を検索し、該文 献数 Nsを取得して、 s)とする。
[0157] そして、テーブル作成部 102cは、
a = s + w b = t + x
c = u + y
d = v + z
e = s + u
f = t + v
g = w + y
h = x + z
i = s + t
j = u + v
k = w + x
m = y + z
の関係式が成立していることを利用して、 w = a— s、 u=e— s、 t = i— sを計算し、さら に、 v=f— 1、 x=k— w、 y=c— u、 z = d— vを計算する。さらに、 z = d— vを計算する ことで、 s)〜z)の 8つの項目力も成る 3次元の文献数テーブルを生成する。以上によ り、 s)〜z)の 8つの項目をそれぞれ検索により取得する場合に比べて、 3次元の文献 テーブルを高速に作成することができる。
[0158] つづいて、相関スコア算出処理の説明に移る。すなわち、相関スコア算出部 102d は、共起キーワード相関スコア算出部 102mの処理により、 3次元の文献数テーブル を用いて、統計計算に基づいて、 2つの候補バイオアイテムとキーワードとの共起キ 一ワード相関スコアを算出する。
[0159] ここで、共起キーワード相関スコア算出部 102mは、 3次元の文献数テーブルを用 いて、キーワードを含む場合の 2つの候補バイオアイテムの相関スコアを「キーワード あり相関スコア」として算出し、キーワードを含まない場合の 2つの候補バイオアイテム の相関スコアを「キーワードなし相関スコア」として算出してもよい。この場合、共起キ 一ワード相関スコア算出部 102mは、「キーワードあり相関スコア」と「キーワードなし 相関スコア」との、両方および Zまたは比較結果を、共起キーワード相関スコアとして 算出する。すなわち、これにより、バイオアイテム 1とバイオアイテム 2の共起相関の強 弱がキーワードの有無でどのように変化しているかを反映する「共起キーワード相関 スコア」を算出することができる。
[0160] 以下に、共起キーワード相関スコアの算出方法の一例を、図 9を用いて示す。なお
、本発明はこの例に限定されるものではない。図 9は、「キーワードあり相関スコア」と「 キーワードなし相関スコア」を算出するための文献テーブルの一例を示す図である。
[0161] 図 9に示すように、共起キーワード相関スコア算出部 102mは、 3次元の文献数テ 一ブルから 2つの 2次元文献テーブルに分けて、利用者により入力されたキーワード を含む文献群と含まない文献群のそれぞれについて、バイオアイテム 1とバイオアイ テム 2との相関スコアを算出する。すなわち、前者が「キーワードあり相関スコア」であ り、後者が「キーワードなし相関スコア」である。
[0162] 次に、共起キーワード相関スコア算出部 102mは、「キーワードあり相関スコア」と、「 キーワードなし相関スコア」とを比較する。ここで、もし、前者の方が強い相関であるな らば、キーワードで指定されるジャンルにおいてバイオアイテム 1とバイオアイテム 2の 関連性は重要性が高いと判定でき、その情報を共起キーワード相関スコアとして利 用者に提示することができる。また、後者の方が強い相関であるならば、バイオアイテ ム 1とバイオアイテム 2の関連性はキーワードで指定されるジャンル以外にぉ 、て強 いと判定でき、その情報を共起キーワード相関スコアとして利用者に提示することが できる。
[0163] [概念語クエリ追加処理]
これまで述べたようなバイオアイテムと文献との対応付けにバイオアイテムの名前の みを用いる方法では、正しく文献に対応させることはできない場合が発生する。その 理由は、同じ語が異なる意味で使われることがあるからである。例えば、マウス遺伝子 fozzyは、一般用語として「柔軟性がある」などの意味で文献中に出現する。このように 、ノ ィォアイテム名が、文献検索上混同が生じる名称であった場合、正しい検索結果 が出力されないという問題がある。
[0164] このような問題を解決するため、関係付け精度を上げる手法として、バイオアイテム 毎に概念語クエリを追加する処理を以下に示す。
[0165] ここで「概念語」とは、特定の論題、分野を示す語句である。いま、概念語 nl, η2, · •·ηρが与えられたとき、概念語クエリ R=nl OR n2 OR - - ·ΟΚ npが定義され る。ここで概念語クエリは、概念語のうち少なくとも一つを含む文献を取得するクエリ である。ノィォアイテムクエリを Q、その概念語クエリを Rとすると、例えば、概念語を 追カ卩したノィォアイテムクエリを Q AND Rで定義し、これは Qかつ Rを満たす文献 を取得するクエリである。文献数テーブルの生成にあたっては、バイオアイテムクエリ の代わりに概念語を追加したバイオアイテムクエリが用いられる。
[0166] 例えば、バイオアイテムの名前が GRB2- related adaptor protein 2, Grap2, Gad s, GRID, Grb2— related adaptor downstream of Sch, Mona, Grf40, GRB2L, GrbX, GRAP-2, GrpLのとき、バイオアイテムクエリ Q〃grb2— related adaptor protei n 2" OR grap2" OR "gads" OR "grid" OR "grb2- related adaptor downstr earn of sch" OR "mona" OR 〃grf40〃 OR 〃grb21〃 OR 〃grbx〃 OR 〃grap¥— 2 " OR 〃grp こ対して、概念語 Rを追加したバイオアイテムクエリ rgrb2-related ada ptor protein 2 OR grap2" OR gads OR grb2— related adaptor downstre am of sch" OR "mona" OR "grf40" OR "grb21" OR "grbx" OR "grap¥— 2" OR 〃grpl〃) AND ("adaptor protein OR "adaptor proteins" OR monocytic " OR "monocyte")
を設定する処理を行う。 AND以下の部分が概念語クエリである。
[0167] また他の例として、バイオアイテムの名前が X- ray repair complementing defectiv e repair in Chinese hamster cells o, Xrcc6, Ku p70, Ku70, Xrcco, u22pl のとき、ノ ィオアィァムクエリ Q x¥— ray repair complementing defective repair in Chinese hamster cells o OR xrcc6〃 OR "ku p70〃 OR 〃ku70〃 OR xrcc6 " OR 〃g22pl"に対して、概念語 Rを追加したバイオアイテムクエリ ("x¥-ray repair complementing derective repair in Chinese hamster cells 6 OR xrcco OR "ku p70" OR "ku70" OR "xrcc6" OR "g22pD AND ("x ray" OR "dna repair OR "hamsters" OR hamster" OR "thyroid" OR autoantigen" OR "dna¥- binding proteins" OR 〃dna¥- pkcs" OR "bax¥- binding")を設定する処理 を行う。ここで AND以下の部分が概念語クエリである。
[0168] 以上で、概念語追加処理の詳細についての説明を終える。
[0169] [実施例] 本発明の本実施の形態における実施例について以下に図 10〜図 33を参照しなが ら説明する。本実施例におけるバイオアイテム検索システムでは、利用者により入力 された「インターバル」と呼ばれるゲノム領域 (ゲノム配列上の範囲)とキーワードを受 信し、キーワードと関係のあるバイオアイテムであって、インターバルに存在するもの を取得する。また、本バイオアイテム検索システムは、インターノ レを 1つ指定するシ ングルインターバルモードによるバイオアイテム検索と、インターバルを 2つ指定する マルチプルインターバルモードによるバイオアイテム検索の 2種類の検索法を備えて いる。ここで、インターバルの指定については、インターバルの代わりにバイオォブジ ェタトの識別子の列を指定することも、ある 、はインターバルとバイオオブジェクトの識 別子の列の両方を指定することもできる。以下、インターノ レの代わりにあるいはイン ターバルともにバイオオブジェクトの識別子の列を指定する場合であっても、検索結 果が該識別子の列に含まれていることもインターバルに存在すると言う。なお、以下 に、本バイオアイテム検索システムの説明で示すように、本発明は、同一筐体 (例え ば、上述のバイオアイテム検索装置 100)または異なる複数の筐体で実施されること を妨げない。すなわち、本実施例においては、説明上簡便のため、バイオアイテム検 索装置 100の制御部 102の各構成(102a〜102k)を用いて説明することがあるが、 これら各構成は、本バイオアイテム検索システムにおいて必ずしも同一筐体で機能 するわけではない。
本実施例における本バイオアイテム検索システムは、以下の特徴を有する。すなわ ち、 1)キーワードに関連する遺伝子等のバイオアイテム力 Sインターノ レに存在しなく とも、あら力じめ文献力 抽出された 2遺伝子間の関係あるいは実験などで得られた 2 遺伝子間の関係を該バイオアイテムに適用することにより、インターバルに存在する 別のバイオアイテムを推論して得ることができる。
2)薬品や細胞などインターバルが存在しな 、バイオアイテムにつ 、ても、キーワード に関連するバイオアイテムの検索と、推論検索を行うことができる。
3)本バイオアイテム検索システムでは、複数の文献セット種 l〜mを扱うことができる 。具体的な文献セット種の一例として、 MedLineデータベース、 OMIMデータべ一 スによる文献セットなどが挙げられる。 4)統計処理によるキーワードとバイオアイテムとの関連スコアの算出を可能にし、この 値に基づき、検索結果オブジェクトに順位付けを行うことができる。
5)バイオアイテムの検索を数秒で実行することができる。ここで、本実施例が取り扱う 文献セットを、 1)バイオアイテムと文献が多対多の関係にある文献セット(「ドキュメン トセット」)、 2)バイオアイテムと文献が 1対 1の関係にある文献セット(「カタログセット」 )に分類してもよい。
[0171] 以下に、それぞれ文献セットに、ドキュメントセット Zカタログセットを用いた例を、シ ングルインターバルモード/マルチプルインターバルモードの 2種類の検索法につ いて実施した例を詳細に説明する。
[0172] [a.ドキュメントセットに対するシングルインターバルモード検索]
ドキュメントセットに対するシングルインターバルモード検索について、図 10〜図 12 、図 23および図 24を参照しながら説明する。図 10は、シングルインターバルモード でノィォアイテムを検索する際のデータの流れを示した図である。図 11は、バイオア ィテム全文検索器 120の概要を示す図である。また、図 12は、シングルインターバル モードにおける動作をフローチャートで表した図である。なお、図 10と図 12、または、 図 11と図 12においては、一部ステップの順序 ·数に違いがある力 これは本実施例 力 図 12におけるフローの順序'ステップ数に限られないことを示している。
[0173] ここで、本実施例においては、図 10に示すように、ノィォアイテム全文検索器 120 は、上述した、文献数取得手段や、候補バイオアイテム選出手段や、テーブル作成 手段や、相関スコア算出手段等として機能する。また、図 10におけるバイオアイテム 全文検索器 120以外のバイオアイテム検索システムの制御装置は、主に、ゲノム領 域判定手段や、関連バイオアイテム抽出手段や、合成相関スコア算出手段や、出力 手段等として機能する。
[0174] また、図 11に示すように、バイオアイテム全文検索器 120における全文検索器 110 の記憶装置は、 2種類の文献データ D1と D2を記憶する文献セットファイルを備えて いる。すなわち、文献データ D1は、各文献セット種 l〜mについて、少なくとも 1つの ノィォアイテムに関連付けられて 、る文献を収集したデータで、キーワードに関連す る或いは関連しな 、文献数を取得するために用いられる(全文献セットに相当する)。 一方、文献データ D2は、バイオアイテム l〜r毎に関連付けられた文献の集合を生 成し、その文献集合をすベてのバイオアイテム l〜rについて集めたデータである。 D 2は、各バイオアイテムについての、文献の集合 (文献セット)に対しキーワードによる 全文検索が行われ、キーワードに関連しかつ該バイオアイテムに関連する文献数を 取得するために用いられる (バイオアイテム文献セットに相当する)。
[0175] 図 10〜図 12に示すように、バイオアイテム全文検索器 120は、キーワードとインタ 一バルを受信すると(SD— 1)、バイオアイテム l〜r毎に、文献セット種 l〜m毎の 2 種類 (Dl、 D2)の文献セットに対してキーワードによる全文検索を実行し、 D1につい てキーワードに関連する文献数 Nkと、 D2につ 、てキーワードに関連する文献数 Nh を取得する(SD— 2〜3)。
[0176] そして、バイオアイテム全文検索器 120は、バイオアイテム l〜r毎に、文献テープ ルを用いて、統計計算により、文献セット種 l〜m毎の相関スコアを計算する(SD— 4
) o
[0177] そして、バイオアイテム全文検索器 120は、各バイオアイテム l〜rについて、文献 セット種 l〜m毎の相関スコアのうち最小のものを、当該バイオアイテムの相関スコア とする。ここで、バイオアイテム全文検索器 120は、最小の相関スコアが所定の閾値 以上のバイオアイテムを、直接検索の解から除くよう制御してもよ!/、。
[0178] ここで、以上の SD— 3〜5の処理について、図 11に示すように、具体例として、バイ ォアイテム 1についての検索処理について説明する。すなわち、図 11に示すように、 バイオアイテム全文検索器 120は、全文検索器 110の処理により、バイオアイテム 1 の文献セット種 l〜m毎に、キーワードを検索し、キーワードを含む文献の数(D1に おいて Nk、 D2において Nh)を文献セット種 l〜m毎に取得する(SD— 3)。そして、 ノィォアイテム全文検索器 120は、文献数 Nhおよび Zまたは文献数 Nkを用いて文 献数テーブルを作成し、統計計算に基づいて、バイオアイテム 1とキーワードとの相 関スコアを文献セット種 l〜m毎に算出する(SD— 4)。そして、ノィォアイテム全文 検索器 120は、文献セット種 l〜mについて算出された、バイオアイテム 1とキーヮー ドとの相関スコアのうち、最小の相関スコアを、当該バイオアイテム 1のキーワードに 対する相関スコアとする(SD— 5)。ここで、バイオアイテム全文検索器 120は、最小 の相関スコアが閾値以上のバイオアイテムを、解から除外してもよ 、(SD— 5)。
[0179] そして、図 11および図 12に示すように、ノィォアイテム全文検索器 120は、以上の SD— 3〜5の処理を、アイテム 2〜rについても実行し、解を収集する(SD— 3〜5)。 ここで、相関スコアとは、具体例として、帰無仮説について、フィッシャーの正確確率 検定に基づいて計算される P値 (0≤P値≤ 1)を指す。本発明の本実施例における帰 無仮説には、「文献セットにおいてキーワードとバイオアイテムの出現には関連がな い」という仮説が設定されている。すなわち、 P値が十分小さければ帰無仮説が棄却 されるので、相関スコアが小さいことは、そのバイオアイテムがキーワードと相関が強 いということを意味する。そして、最小の相関スコアが閾値以下であるノィォアイテム i (候補バイオアイテム)を抽出することは、キーワードと相関が有意に強いバイオアイ テムを選出することとなる。
[0180] さらには、以上の SD—3〜5の処理において、各バイオアイテム l〜rについて、各 文献セット種 l〜mの 、ずれかあるいは全ての文献数テーブルを合成して新たな文 献数テーブルを生成し、この文献数テーブルを用いて、統計計算に基づいてバイオ アイテムとキーワードとの相関スコアを算出してもよい。すなわち、各バイオアイテム 1 〜rについて、文献セット種 l〜m毎に図 2に示す文献数テーブルが作成されるが、 各文献セット種 l〜mの文献数テーブルの項 aを全て足し合わせた値 A、項 bを全て 足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し合わせた値 Dから構 成される新たな文献数テーブル(図 2において aに値 A、 bに値 B、 cに値 C、 dに値 D を代入したテーブル)を生成してもよ!/ヽ。このようにして構成される文献数テーブルを 、以下、合成文献数テーブルと呼ぶ。
[0181] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜m の中から任意に 1つ以上選び出し、合成文献数テーブルを生成し、これを用いてバ ィォアイテムとキーワードとの相関スコアを算出し、さらに合成文献数テーブル作成の 対象とならな 、各文献セット種のそれぞれにつ 、て、文献数テーブルからバイオアイ テムとキーワードとの相関スコアを算出し、これらの相関スコアの中力も最小の相関ス コアを該バイオアイテムの相関スコアとしてもよい。なお、ここでは、合成文献数テー ブルを生成し相関スコアを計算する方法を記したが、本発明は、このような相関スコ ァの計算方法に限定されるものではない。
[0182] ノィォアイテム全文検索器 120により解としてバイオアイテム iが抽出されると、図 10 および図 12に示すように、バイオアイテム検索システムは、解として選出された各バ ィォアイテム iにつ!/、て、位置情報データベース 106dまたは識別子情報データべ一 ス 106eを参照して、各バイオアイテム iのゲノム上の位置力 利用者により入力された インターバル (識別子の列などを含む)に存在している力否かを判断する(SD— 6)。 そして、バイオアイテムがインターバルに存在していると判断した場合には(SD— 6、 Yes)、バイオアイテム検索システムは、 SD— 9以降のステップに処理を移し、該ノ ィ ォアイテムを相関スコアに基づいて出力装置に出力する。すなわち、ここで出力され る解は、直接検索による解となる。ここで、直接検索の結果表示画面の一例を、図 24 を参照して説明する。図 24は、直接検索の結果表示画面の一例を示す図である。
[0183] 図 24に示すように、利用者は、キーワード入力欄(MD— 1)に「diabetes」を入力し 、インターバル入力欄 (MD— 2)には第「1」番染色体を指定している。この例では、 直接検索の結果の最上位には「Ptprn」が候補バイオアイテムとして挙げられており、 その相関スコア(P- value)は、相関スコア表示欄(MD— 3)に、「6.87E- 245」と出力さ れている。そして候補バイオアイテムは、相関スコアの小さいもの順に、つまり、相関 関係が高 、もの順に並べられて 、る (6.87E-245< 7.29E-217< 2.50E-103)。
[0184] 再び SD— 6の説明に戻り、図 10および図 12に示すように、解とされたバイオアイテ ムのゲノム上の位置力、インターバルに存在していないと判断した場合には(SD— 6 、 No)、バイオアイテム関係データベース 106cを参照して、当該バイオアイテムに関 連する関連バイオアイテムを抽出する(SD— 7)。
[0185] そして、バイオアイテム検索システムは、抽出された関連ノィォアイテムのうち、関 連バイオアイテムのゲノム上の位置力 利用者により入力されたインターノ レに存在 している力否力判断し、インターノ レに存在する関連ノィォアイテムについて(SD— 8、 Yes)、 SD— 9以降のステップに処理を移す。すなわち、ノィォアイテムの推論に よる解を求めることにより、利用者は、直接検索の結果力 Sインターバルを満たさない場 合でも、インターバルを満たす間接検索の解を得ることができる。
[0186] そして、バイオアイテム検索システムは、合成相関スコア算出部 102hの処理により 、当該ノィォアイテムと関連バイオアイテム間の相関スコア(共起相関スコア)と、キー ワードとバイオアイテムとの相関スコアとを合成し、新たな相関スコア (合成相関スコア
)を計算する(SD— 9)。ここで、バイオアイテム検索システムは、合成相関スコア算出 部 102hの処理による計算の結果、合成相関スコアが既定の水準を満たしていると判 断した場合 (所定の閾値以下)に、帰無仮説を否定し、該関連バイオアイテムを解と して出力するよう制御してもよい。
[0187] そして、バイオアイテム検索システムは、得られたバイオアイテム (候補バイオアイテ ム、関連バイオアイテム)群を、出力部 102iの処理により、相関スコアまたは合成相 関スコアに基づいて整列させ(SD— 10)、利用者に検索結果を表示した HTML文 書を出力する(SD— 11)。ここで、図 23は、シングルインターバルモードにおける間 接検索結果表示画面の一例である。
[0188] 図 23の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。図 23の例では、利用者は、キーワード入力欄(MC— 1)に「"diabetes mouse" 」と「insulin」を入力し、インターバル入力欄のうち、染色体番号入力欄 (MC— 2)に、 「11」を入力し、ポジション入力欄(MC— 3)に、「1」から「10000000」 (bps)を設定して いる。
[0189] 図 23の検索結果によると、関連バイオアイテム群は、キーワードとバイオアイテムの 合成相関スコア (P値)に従って並べ替え出力されており、最上位のバイオアイテム表 示欄 (MC— 4)には、候補バイオアイテム「Hypism」に関係する関係バイオアイテム「I gl pl」が表示され、合成相関スコア表示欄(MC— 5)には、「8.06E-8」と表示されて いる。
[0190] 以上が、シングルインターバルモード検索の説明である。ここでバイオアイテム関係 について説明を行う。ノィォアイテム関係とは、以下に掲げるいずれかである。
[0191] 1)一文献上で共起して!/、る 2バイオアイテムを!、1/、、 2バイオアイテム間の 2次元文 献数テーブル (「共起文献数テーブル」 )と相関スコア(「共起相関スコア」 )があらかじ め計算される。ここで、共起文献数テーブルとは、 2バイオアイテムをそれぞれバイオ アイテム 1、バイオアイテム 2とすると、 A:バイオアイテム 1の名前とバイオアイテム 2の 名前を両方含む文献数、 B:バイオアイテム 1の名前を含みバイオアイテム 2の名前を 含まな 、文献数、 C:バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む 文献数、 D:バイオアイテム 1の名前もバイオアイテム 2の名前も含まな 、文献数の A 、 B、 C、および、 Dの 4項目の値力 構成される 2次元テーブルをいう。この共起文献 テーブルを、フィッシャーの正確確率検定等の検定など統計計算を行い、共起相関 スコアとして P値を計算する。このとき、バイオアイテム関係の向きについては、 Bが 0 かつ Cが 0でな!/、ときバイオアイテム 1→バイオアイテム 2の関係のみを、 Bが 0でなく かつ Cが 0のときノィォアイテム 2→バイオアイテム 1の関係のみを、それ以外の場合 はバイオアイテム バイオアイテム 2の両方向の関係を与える。
[0192] 2)実験などから関係性が見いだされた 2バイオアイテムをいう。このとき相関スコアを P値として与える。バイオアイテム関係には向きがあっても向きがなくてもよい。すなわ ち 2バイオアイテム ilと i2について il→i2あるいは il^i2の片方向の関連性のみがあ る場合でも、 il i2の両方向の関連性があってもよい。ただし、シングルインターバル モードのバイオアイテムの推論においては、推論元のノィォアイテム io、推論先のバ ィォアイテム idとするとき、バイオアイテム関係 io→idのみが適用される。
[0193] [b.カタログセットに対するシングルインターバルモード検索]
カタログセットに対するシングルインターバルモード検索処理の例を、図 13、図 14、 および、図 21を用いて説明する。文献セットがカタログセットの場合、バイオアイテム と文献は 1対 1の関係で格納される。図 13はカタログセットに対し、シングルインター バルモードでバイオアイテムを検索する際のデータの流れを示した図である。また図 14はその動作をフローチャートとして表したものである。
[0194] 文献セットがカタログセットの場合、全文検索器 110は、全カタログ文献を有する全 文献セットを記憶する全文献セットファイル 106aを備える。全文献セットファイル 106 aには、複数のカタログセット種毎に全文献セットファイルを備えても、全てのカタログ セット種の全文献セットを集めた一つの全文献セットファイルを備えてもょ 、。全文検 索器 110は、キーワードとインターノ レを受信すると(SE—1)、全てのカタログセット( 全文献セットに相当する)に対して検索を実行し、キーワードに関連する文献を取得 する(SE— 2)。次に、全文検索器 110は、検索の結果、各文献に関連付けられてい るバイオアイテムを取得する(SE— 3)。 [0195] 文献セットがカタログセットである場合、全文検索器 110は、バイオアイテム文献セ ットを記憶していないので、制御装置は、相関スコア算出のための文献数は取得せ ず、この際のキーワードとバイオアイテムとの相関スコアは、便宜的に 0と定義され、 常に「0」を算出する。
[0196] その後、バイオアイテム検索システムの制御装置は、ゲノム領域判定部 10¾の処 理により、ヒットしたノィォアイテムがインターバルに存在しているか否かを判断する( SE-4) 0
[0197] 制御装置は、ゲノム領域判定部 10¾の処理により、バイオアイテム力 インターバ ルに存在していると判断した場合、出力部 102iの処理により、存在していると判断さ れたバイオアイテムを解として出力する(SE— 5)。ここで、図 21は、カタログセットに 対するシングルインターバルモード検索の結果表示画面の一例を示す図である。
[0198] 図 21の例は、カタログセット種マウスバイオリソースカタログを用いてミュータントマウ スを検索する例を示している。図 21に示す結果表示画面では、利用者は、キーヮー ド入力欄(MA— 1)に「diabetes」を入力しており(この例ではインターバルは指定して いない)、カタログ検索の結果における相関スコア(P-value)表示欄(MA— 2)は、 0. 00E0と出力される。
[0199] [c.マルチプルインターバルモード検索]
マルチプルインターバルモードの検索について図 15、図 16、および、図 22を参照 しながら説明する。なお、マルチプルインターバルモードの検索では、カタログセット に対してはバイオアイテムの検索は行えず、ドキュメントセットに対してのみバイオアイ テムの検索が行われる。ここで、利用者によりバイオアイテム検索システムに入力され る 2つのインターバルをそれぞれ「インターバル 1」、「インターバル 2」と呼ぶ。図 15は 、マルチプルインターバルモード検索のデータの流れを示す概念図であり、図 16は 、その動作を表すフローチャートである。
[0200] 図 15および図 16に示すように、まず、キーワードとインターバル 1およびインターバ ル 2を受信すると(SF—1)、バイオアイテム検索システムは、インターバル 1、インター バル 2それぞれについて、ドキュメントセットに対しキーワードの直接検索を行う(SF —2、 3)。すなわち、インターバル 1を満たす直接検索の解の集合をバイオアイテム 群 1として取得し、インターバル 2を満たす直接検索の解の集合をバイオアイテム群 2 として取得する。ここで、直接検索の処理内容については、上述したので説明を省略 する。
[0201] つぎに、バイオアイテム検索システムは、ノィォアイテム群 1に属するバイオアイテ ムと、バイオアイテム群 2に属するノィォアイテムとのそれぞれから構成される全ての バイオアイテムの組み合わせをバイオアイテムペアとして生成する(SF— 4)。
[0202] そして、バイオアイテム検索システムは、バイオアイテム関係データベース 106cを 参照して、一定のバイオアイテム関係 (例えば、共起相関スコアが閾値以下等)を有 するバイオアイテムペアを抽出する(SF— 5)。ここで、バイオアイテム関係は、バイオ アイテムペアを il、 i2とすると、 il→i2か il i2かあるいは il i2である力 ilと i2の 間の関係の向きは問わな 、。
[0203] そして、バイオアイテム検索システムは、抽出されたノィォアイテムペアについて、 当該 2バイオアイテムそれぞれについて算出されたキーワードとの相関スコアと、バイ ォアイテム間の共起相関スコアとを、数式 2あるいは数式 3などに基づいて合成し、新 たな相関スコア(共起キーワード相関スコア)を算出する(SF— 6)。ここで、バイオア ィテム検索システムは、共起キーワード相関スコア算出部 102mの処理による計算の 結果、共起キーワード相関スコアが既定の水準を満たすと判断した場合は、帰無仮 説は否定され、該バイオアイテムペアを解として出力するよう制御してもよ 、。
[0204] そして、バイオアイテム検索システムは、解として得られたバイオアイテムペア群を、 出力部 102iの処理により、総合相関スコア(共起キーワード相関スコア)に基づき整 列し (SF— 7)、利用者に提示(出力)する(SF— 8)。ここで、マルチプルインターバ ルモードにおける検索の結果表示画面の例を、図 22を参照して説明する。図 22は、 マルチプルインターバル検索の結果表示例を表す図である。
[0205] 図 22の例は、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。図 22に示す例では、モード設定欄(MB— 2)はマルチプルインターバルモード ( Tmultiple intervals )に設定されており、利用者は、キーワード入力欄(MB— 1)に 「"breast cancer"」を入力し、インターバル 1入力欄(MB— 3)に染色体第「9」番の 領域(「63214874」〜「111011533」 )を、インターバル 2入力欄(MB— 4)に染色体第「 15」番の領域(「25275696」〜「92307904」 )を入力して 、る。
[0206] このように利用者による入力があった場合、図 22に示すように最上位の検索結果は 、 ノィォアイテム 1結果表示欄(MB— 5)に「Cdc25a」、バイオアイテム 2結果表示欄( MB— 6)に「Myc」が検索結果として表示されている。また、両バイオアイテムを含む( Co-cited)文献数 (Documents)表示欄(MB— 7)には、「46」件と表示されており、両 バイオアイテムの合成された相関スコア(総合 P値)表示欄(MB— 8)は、「1.43E- 131 」と表示されている。このようにマルチプルインターバルモードでは、利用者は、ゲノム 領域を考慮した、総合的に相関関係の高いバイオアイテムペアを得ることができる。
[0207] 以上で、マルチプルインターバルモードとシングルインターバルモードの 2種類の 検索法について用いて実施した例の説明を終える。
[0208] [バイオアイテム検索システムの実装例]
本発明の本実施の形態を実用的な分散型アーキテクチャに適用したバイオアイテ ム検索システムの実装例を、図 17を参照しながら説明する。本実施の形態における 本実施例においては検索機能を分散配置された複数のコンピュータ上で稼動させる 構成としたので、これらが並列に処理を進める結果、処理時間の短縮を図ることがで き、一連の検索動作が数秒から 1秒程度で完了する。ここで、図 17は、バイオアイテ ム検索システムのシステムアーキテクチャの一例を示す図である。
[0209] 図 17に示すように、本バイオアイテム検索システムは、大きく 3つのソフトウェアコン ポーネントから構成される。すなわち、本バイオアイテム検索システムは、図 17に示 すように、ユーザクライアント 500、システム管理サーバ 400、バックエンド 200から構 成される。さらに、バックエンド 200は、バックエンド管理サーバ 201と、文献数取得サ ーバ 202と、分散配置される分散文献検索サーバ 210a〜xから構成される。また、シ ステム管理サーノ 00は、バイオアイテム種 l〜n (マウス遺伝子、ヒト遺伝子、薬品、 代謝物、ノ ィオリソース、疾患等)毎に構築された複数のノックエンド 200— l〜nと 接続され、必要に応じてバックエンド間で分散並列処理が実行される。図 17におい ては、マウス用バックエンド 200— 1と薬品用バックエンド 200— nが例示されている。 ゲノム配列を持たな 、バイオアイテム、例えば薬品などはゲノム配列上の位置を持た ない仮想の遺伝子として取り扱われる。以下、本バイオアイテム検索システムの動作 手順について説明する。
[0210] (1)ユーザリクエストの送信
まず、ユーザクライアント(Webブラウザ) 500は、利用者にキーワード、インターバ ル、識別子の列等を入力させる。ここで、利用者はインターバル、あるいは識別子の 列、あるいはインターバルと識別子の列の両方を入力することができる力 以下単に「 インターバル」と記述する場合であっても、インターバル、あるいは識別子の列、ある いはインターバルと識別子の列の両方のいずれかを表す。そして、ユーザクライアン ト 500は、利用者により入力されたこれらのリクエストデータを、システム管理サーバ 4 00に送る Q
[0211] (2)バックエンドへの処理の依頼処理の発動と結果の取得
リクエストデータを受信したシステム管理サーノ 00は、リクエストを解析し、処理を 依頼すべきバックエンド 200を選択し、選択したバックエンド 200のバックエンド管理 サーバ 201にリクエストを送信する。
[0212] (3)キーワードに関連する文献数の取得処理の発動と結果の取得
そして、リクエストを受信したバックエンド管理サーバ 201は、文献数取得サーバ 20 2にキーワードを送信する。キーワードを受信した文献数取得サーバ 202は、文献数 取得用文献セット (全文献セット)群を用いて、文献セット種 1〜m毎にキーワードに関 連する文献数 (Nk)とキーワードに関連しな 、文献数 (,Nk)の組を取得し、ノ ッタエ ンド管理サーバ 201に返す。
[0213] (4)分散並列処理による文献検索処理の発動と結果の取得
そして、バックエンド管理サーバ 201は、(2)で受信したリクエストと、(3)で得た文 献数の組とを、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処 理を依頼する。
[0214] [1種類のドキュメントセットにおける分散文献サーバの動作]
ここで、文献セット種が 1種類で、かつその文献セット種がドキュメントセットである場 合のバックエンドの動作について図 17および図 19を参照しながら説明する。すなわ ち、各分散文献検索サーバ 210の動作は次の通りである。ここで、図 17は、バイオア ィテム検索システムのシステムアーキテクチャの一例を示す図である。図 19は、分散 文献検索サーバ 210のアーキテクチャの一例を示す図である。
[0215] (1)バックエンド管理サーバ 201は、インターフェース 211を介して、バックエンド管 理サーバ 201からリクエスト(キーワード、インターバル、識別子の列等)と、文献数取 得サーバ 202から得たキーワードに関連する文献数 Nkと、キーワードに関連しない 文献数, Nkの組を受信し、文献全文検索器 212に送信する。
[0216] (2)文献全文検索器 212は、バイオアイテム 1の関連文献セット (文献数を N1とする )に対し、キーワードによる全文検索を行い、ノィォアイテム 1に関係する文献数 Nhを 取得する。この文献数 Nhが 1以上のとき、アイテム領域判定器 212iは、バイオアイテ ム 1がインターバルに存在するかを調べる。
[0217] (0アイテム領域判定器 212iは、インターノ レに含まれていると判断したとき、バイオ アイテム 1を検索結果として採用し、(3)を実行する。すなわち、アイテム領域判定器 212iは、バイオアイテム 1の識別子と( 3)で得られた相関スコァ計算器 212dの処理 による、バイオアイテム 1とキーワードとの P値の組を文献全文検索器 212に送信する
[0218] GOアイテム領域判定器 212iは、バイオアイテム 1がインターバルに含まれていない と判断したとき、文献全文検索器 212は、ノィォアイテム推論器 212eを用いてバイ ォアイテム 1に関連するバイオアイテム Xを抽出し、バイオアイテム 1とバイオアイテム X 間の相関スコア P (共起相関スコア)を取得する。そして、バイオアイテム Xがインタ 一バルに存在すると判断したとき、制御装置は、バイオアイテム Xを検索結果として採 用し、相関スコア算出部 102dの処理により、バイオアイテム Xとキーワードとの相関ス コアを求め、この相関スコアと共起相関スコア力も合成 P値を合成により求める。この 合成 P値が既定の水準を下回っているとき、バイオアイテム推論器 212eは、バイオア ィテム Xの識別子と合成 P値の組を文献全文検索器 212に送信する。
[0219] ここで、バイオアイテム 1がインターバルに存在するか否かの判定において、当該バ ィォアイテムの生物種と利用者により指定された領域 (インターバル)のゲノム配列の 生物種と異なる場合であっても、ホモロジ一関係が存在する場合にはこの関係を適 用してちょい。
[0220] (3)分散文献全文検索器 212は、 Nh、 Nl、 Nk、および、,Nk ( = Nall— Nk)を 相関スコア計算器 212dに送信する。相関スコア計算器 212dは、図 3に示した文献 数テーブルを作成し、このテーブル力もフィッシャーの正確確率検定、カイ二乗検定 、または、ベイズ条件付確率等の統計計算により P値を求める。
[0221] (4)文献全文検索器 212は、(2)と(3)をその他のバイオアイテム、すなわちバイオ アイテム 2からバイオアイテム rまでについて実行する。
[0222] (5)文献全文検索器 212は、検索結果として得られたバイオアイテムと P値の組のリ ストを、インターフェース 211を介してバックエンド管理サーバ 201に返す。
[0223] ここで、マルチプルインターバルモードでの分散文献検索サーバ 210の動作につ いて、説明する。
[0224] まず、インターバル 1に存在するバイオアイテムを検索するため、上記シングルイン ターバルモードでの動作(1)、(2) (i)、(3)、(4)、(5)の順で実行する。
[0225] 次にインターバル 2に存在するバイオアイテムを検索し結果を得るため、以下に掲 げる動作を行う。
[0226] (6)インターフェース 211は、バックエンド管理サーバ 201からリクエスト、すなわち キーワード、インターバル、(5)で得られたリスト、文献数取得サーバから得たキーヮ ードに関連する文献数 Nkとキーワードに関連しない文献数, Nkの組を受信し、文 献全文検索器 212に送信する。
[0227] (7)文献検索器 212は、バイオアイテム 1、インターバル 2について(2) (0を実行す る。
[0228] (8)文献検索器 212は、(5)で得られたバイオアイテム群と当該バイオアイテムとの すべてのペアを作成する。各バイオアイテムペアにつ 、て以下を実行する。
[0229] (i)V、まペアを構成するバイオアイテムをそれぞれ g、 gとする。このペアをバイオア
1
ィテム推論器 212eに送る。
[数 1] (ii)バイオアイテム推論器 2 1 2 eは受け取ったペアについて、 このバイオアイテムペア を構成する 2バイオアイテムに関係があるかを、 例えば共起相関スコアに基づレ、て調べる。 関係がある場合には、 バイオアイテム推論器 2 1 2 eは、 2バイオアイテム間の 2次元文 ブル Γ と相関スコア を取得する。 そして、 バイオアイテム推論器 2 1 2
Figure imgf000057_0001
[0230] [数 2]
( 9 ) 文献全文検索器 2 1 2は、 まずバイオアイテムについて (3 ) を実行しキーヮー ドとの相関スコアを計算する。 次に (8 ) で受け取った組について、 上述した数式 2また は数式 3を用いて、 総合相関スコア to/を計算する。 この総合相関スコア が既定の水 準を下回っているときノくィォアイテム Xノくィォアイテム 1、相関スコア ,。,、 、 一、
( 8 ) で受け取った組の 6つ組を解の一つとしてバックェンド管理サーバ 2 0 1に送信す る。
[0231] (10)文献全文検索器 212は、(7)、(8)、(9)をその他のバイオアイテムについて 実行する。
[0232] 以上で、分散文献検索サーバ 210の動作の実施例の説明を終える。
[0233] [1種類のカタログセットにおける分散文献サーバの動作]
文献セット種が 1種類で、かつその文献セット種がカタログセットである場合のバック エンドの動作について、図 20を参照して説明を行う。図 20は、カタログ検索用システ ムのアーキテクチャの一例を示す図である。
[0234] カタログセット用検索システムとドキュメント用検索システムとの違いは、ノックエンド 200の構成である。上記ドキュメント用検索システムで説明した手順「(1)ユーザリク ェストの送信」、「(2)バックエンドへの処理の依頼処理の発動と結果の取得」、「(5) 結果 HTMLドキュメント送信による検索結果の表示」、についてはドキュメント検索用 検索システムの手順と同様である。
[0235] (3)キーワードに関連する文献の取得処理の発動と結果の取得
文献検索サーバ 210は、キーワードに関連する文献の取得のため、キーワードに 関連する文献の取得を行う。すなわち、文献検索サーバ 210は、全てのカタログ文献 を有する全文献セットを記憶し、この文献セットに対してキーワードによる全文検索を 行い、キーワードに関連する文献を取得する。
[0236] (4)バイオアイテムの取得 (解バイオアイテムの選択)
ノックエンド管理サーバ 201は、候補バイオアイテムの選択のために、(3)で得られ た各文献に該当するバイオアイテムを、バイオアイテム関係データベース 206cを用 いて取得する。さらに、ノ ックエンド管理サーバ 201は、各バイオアイテムのために、 位置情報データベース 206dを用いて当該バイオアイテムがインターバルに存在して V、るかを調べる。ここでインターバルに存在して 、るバイオアイテムが解となる。
[0237] これにて、カタログセット検索システムのアーキテクチャの説明を終える。
[0238] [ドキュメントセット、カタログセットに対する同時検索機能]
ドキュメントセット用検索システムとカタログセット用検索システムシステムへ同時にリ タエストを発動し、これらの結果をまとめることで、ドキュメントセットとカタログセット双 方の検索システムを用いてバイオアイテム検索を行ってもよい。このとき、カタログドキ ュメント検索結果の相関スコアは常に 0であるから、利用者に表示される結果表示べ ージにお 、てはカタログの結果が常に上位にランキングされる。
[0239] [複数種類の文献セット種における分散文献サーバの動作]
文献セット種が複数種類である場合のバックエンドの動作にっ 、て説明する。この 場合、上で示したように複数のドキュメントセット検索システムと複数のカタログセット 用検索システムへ同時にリクエストを発動し、これらの結果をまとめることも可能である 力 以下に掲げる方法を用いてもよい。
[0240] ここでシングルインターバルモードでの動作を以下に説明する。リクエストと文献数 の組を受理した各分散検索サーバ 210では、該分散文献検索サーバ 210が担当す るバイオアイテム群 1〜r毎に、文献セット種 1〜m毎にキーワードに関連する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以上のバイオアイテ ムについて、以下に掲げる手続き (i)〜 (ii)を実行する。
[0241] (0分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、位置情報デ ータベースを参照し、文献数 Nhが 1以上であるバイオアイテム (候補バイオアイテム) のゲノム上の位置力 インターバル (ゲノム上の領域)に存在すると判断したとき、 (3) で得た文献数の組および Zまたは取得した文献数 Nhに基づ 、て、統計計算により 相関スコアを計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準 を下回る(所定の閾値以下)と判断すると、帰無仮説は否定され、当該バイオアイテム を解としてバックエンド管理サーバ 201に返す。
[0242] GO分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、文献数 Nh 力 Si以上であるバイオアイテム (候補バイオアイテム)が、利用者指定のインターバル に存在しな 、と判断したとき、あら力じめ文献から取得されたバイオアイテム-バイオ アイテム関係(一例として、共起相関スコアに基づくもの)を適用して、当該バイオアイ テムに関連するバイオアイテム(関連バイオアイテム)を取得する。
[0243] つぎに、分散文献検索サーバ 210は、ゲノム領域判定部 10¾の処理により、この関 連する各バイオアイテム(各関連ノィォアイテム)がインターバルに存在するか調査 する。分散文献検索サーバ 210は、インターバルに存在していると判断した場合には 、(3)で得た文献数の組に基づいて、統計計算により元の候補バイオアイテムの相関 スコアを求める。そして、分散文献検索サーバ 210は、更にこの相関スコアの値と該 バイオアイテム バイオアイテム関係の相関スコア(共起相関スコア)とを合成して総 合相関スコア (合成相関スコア)を算出し、当該関連バイオアイテムを解としてバック エンド管理サーバ 201に返す。
[0244] ノックエンド管理サーバ 201は、(0、 GOの処理による、すべての分散文献検索サー バ 210a〜xから検索結果 (解)を受け取り、システム管理サーノ 00に結果を返す。
[0245] 次に、マルチプルインターバルモードでの動作 (i)〜(v)を以下に説明する。 2つのィ ンターバルをそれぞれインターバル 1、インターバル 2とする。
[0246] (0バックエンド管理サーバ 201からリクエストと文献数の組を受理した文献検索サー バ 210は、担当するバイオアイテム l〜r毎に、文献セット種 l〜m毎にキーワードに 関係する文献数 Nhを取得する。文献セット種 l〜mのいずれかの文献数 Nhが 1以 上のバイオアイテム (候補バイオアイテム)について、以下に掲げる手続きを実行する
[0247] GO分散文献検索サーバ 210は、当該ノィォアイテム (候補バイオアイテム)がインタ 一バル 1に存在すると判断したとき、 (3)で得た文献数の組および Zまたは取得した 文献数 Nhに基づいて、統計計算によりキーワードと該バイオアイテムとの相関スコア を計算する。分散文献検索サーバ 210は、相関スコアが既定の有意水準 (所定の閾 値)を下回ると判断したときは、帰無仮説は否定され、当該バイオアイテム (候補バイ オアィテム)をインターバル 1に存在するバイオアイテムとしてバックエンド管理サーバ 201に返す。
[0248] そして、バックエンド管理サーバ 201は、すべての分散文献検索サーバ 210a〜x 力も検索結果 (解)を受け取り、(2)で受信したリクエスト、 (3)で得た文献数の 3つ組 を、分散配置された各文献検索サーバ 210a〜xに送信して文献検索処理を依頼す る。各文献検索サーバ 210a〜xは以下に掲げる手続き (iii)〜(v)を実行する。
[0249] (iii)各文献検索サーバ 210は、担当するバイオアイテム l〜r毎に、文献セット種 1〜 m毎にキーワードに関係する文献数 Nhを取得する。文献セット種 l〜mのいずれか の文献数 Nhが 1以上の各バイオアイテム (各候補バイオアイテム)について、以下に 掲げる手続きを実行する。
[0250] (iv)各文献検索サーバ 210は、当該バイオアイテム (候補バイオアイテム)がインタ 一バル 2に存在すると判断したとき、(3)で得た文献数の組に基づいて、統計計算に よりキーワードと該バイオアイテムとの相関スコアを計算する。この相関スコアが既定 の有意水準 (所定の閾値)を下回るとき、 (V)を実行する。
[0251] (V)各文献検索サーバ 210は、インターノ レ 1に存在するノィォアイテムと当該バイ ォアイテムとのすべてのペアを生成する。このうち、あらかじめ文献から取得した (バイ ォアイテム関係データベースに記憶された)バイオアイテムーノィォアイテム関係を 持つペアを、共起関係に基づいて選抜する。さらに、選抜された各バイオアイテムぺ ァについて相関スコアを、(iv)で求めた相関スコアと、バイオアイテム バイオアイテ ム関係の相関スコア(共起相関スコア)と、を合成して算出する。この相関スコアが既 定の有意水準 (所定の閾値)を下回るバイオアイテムペアをバックエンド管理サーバ 2 01に返す。
[0252] ノックエンド管理サーバ 201は、(i)〜(v)の処理による、すべての分散文献検索サー バ 210a〜xから検索結果を受け取った後、これらの検索結果をシステム管理サーバ 400に返す。
[0253] (5)結果 HTMLドキュメント送信による検索結果の表示 以上の(4)を実行後、システム管理サーノ 00は、選択したすべてのバックエンド 管理サーバ 201から検索結果を受け取り、検索結果を解バイオアイテム毎にまとめ 上げる。このとき、検索結果である各解バイオアイテム (候補バイオアイテムまたは関 連バイオアイテム)について、一般には複数の解が得られる(キーワードから解バイオ アイテムに達するまでに経由する候補バイオアイテムが複数得られる)。このうち最も 総合相関スコアの小さい解を該バイオアイテムの解とする。次に、システム管理サー ノ 00は、得られた解リストを相関スコアの小さい順にソートし、さらにこの結果を HT MLドキュメントに変換してユーザクライアント 500に返す。
[0254] ここで、本実施例につ!、ての本システムは Webサービスとして実装されて!、てもよ い。すなわち、システム管理サーノ 00は Webサーバとして実装され、インターネット を介してユーザクライアント 500である Webブラウザからリクエストを受理し、結果を H TMLドキュメント形式で送信するように構成してもよい。また、ここで、上述した本実 施例における Webサーバからクライアント 500に対して送信された処理結果の Web ブラウザにおける表示例を要約する。
[0255] 以下、図 21〜図 29に示す例は、いずれも Intel (登録商標)社製 Xeon (商品名) 3 . 6GHzの CPUと 2GBのメモリとを備えた分散型ワークステーションを、 20台用いて 実行させたものである。
[0256] ここでの実施例にお!、て用いた検索対象バイオアイテムは、マウス遺伝子、ヒト遺伝 子、代謝物、薬品、疾患名、マウスミュータントである。各バイオアイテム数は、マウス 遺伝子 58,237件、ヒト遺伝子 22,707件、代謝物 9,350件、薬品 1,015件、疾患名 1,884 件、マウスミュータント 12,280件である。
[0257] さらに、ここで用いた文献セット種は、 MEDLINE、 PPI、ミュータントマウスカタログ 、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ 、疾患名カタログである。本バイオアイテム検索装置の入力として用いた各文献セット 種の文献数は、それぞれ MEDLINE 16,335,424件、 PPI 22,476件、ミュータントマ ウスカタログ 12,28(H 、 OMIM 17,974件、マウス遺伝子カタログ 58,237件、ヒト遺 伝子カタログ 22,707件、代謝物カタログ 9,350件、薬品カタログ 1,015件、疾患名 カタログ 1,884件である。 [0258] また、この実施例において用いた各文献セット種の文献数については、文献全文 検索器 212に格納されている文献の総数 (各バイオアイテム毎にまとめられた文献セ ットに含まれる文献数の合計)は、文献セット種毎にそれぞれ MEDLINE 16,112,25 6件、 PPI 87,288件、ミュータントマウスカタログ 27,035件、 OMIM 23,023件、マウ ス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350 件、薬品カタログ 1,015件、疾患名カタログ 1,884件である。また、文献全文検索器 204に格納されている各文献セット種の文献数は、それぞれ MEDLINE 6,940,248 件、 PPI 22,476件、ミュータントマウスカタログ 12,280件、 OMIM 14,451件、マウ ス遺伝子カタログ 58,237件、ヒト遺伝子カタログ 22,707件、代謝物カタログ 9,350件 、薬品カタログ 1,015件、疾患名カタログ 1,884件である。
[0259] すなわち、図 21はシングルインターバルモードにおけるカタログ検索結果表示画面 の一例で、文献セット種ミュータントマウスカタログを用いてミュータントマウスを検索 する例を示している。この例では、 52個の解が得られ、検索に要した時間は 0.109秒 であった。
[0260] また、図 22は、マルチプルインターバルモードにおけるドキュメント検索結果表示画 面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示して いる。この例では、 13個の解が得られ、検索に要した時間は 2.045秒であった。
[0261] また、図 23は、シングルインターバルモードにおけるドキュメント間接検索結果表示 画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示し ている。この例では、 5個の解が得られ、検索に要した時間は 0.858秒であった。
[0262] また、図 24は、シングルインターバルモードにおけるドキュメント直接検索結果表示 画面の一例で、文献セット種 MEDLINEを用いてマウス遺伝子を検索する例を示し ている。この例では、 9個の解が得られ、検索に要した時間は 0.858秒であった。
[0263] また、図 25は、シングルインターバルモード(ただしインターバルを指定しな!、)に おける複数の文献セット種を用いた直接検索結果表示画面の一例で、文献セット種 MEDLINE, PPI、ミュータントマウスカタログ、 OMIM,マウス遺伝子カタログ、ヒト 遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝 子、ヒト遺伝子、代謝物、薬品、ミュータントマウス、疾患を検索する例を示す図である 。この例では、 8,371個の解が得られ、検索に要した時間は 3.41秒であった。
[0264] また、図 26は、シングルインターバルモードにおける複数の文献セット種を用いた、 直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代 謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例を 示す図である。この例では、 5,438個の解が得られ、検索に要した時間は 1.902秒であ る。
[0265] また、図 27は、シングルインターバルモードにおける複数の文献セット種を用いた 直接検索結果と間接検索結果の表示画面の一例で、文献セット種 MEDLINE、 PPI 、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、代 謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス遺伝子を検索する例で キーワードとしてヒト遺伝子の識別子力も構成されるブール論理式を用いた例を示す 図である。図 27に示すように、ヒト遺伝子の識別子として「HGNC:2744」と「HGNC:28 040」が入力されている。この例では、 15個の解が得られ、検索に要した時間は 1.468 秒であった。
[0266] また、図 28は、シングルインターバルモードにおける識別子の列を指定して複数の 文献セット種を用いた、直接検索結果と間接検索結果の表示画面の一例で、文献セ ット種 MEDLINE、 PPI、ミュータントマウスカタログ、 OMIM、マウス遺伝子カタログ 、ヒト遺伝子カタログ、代謝物カタログ、薬品カタログ、疾患名カタログを用いてマウス 遺伝子を検索する例を示す図である。図 28に示すように、識別子の列として「MGI:99 454,MGI:96575」が利用者により入力されている。この例では、 2個の解が得られ、検 索に要した時間は 0.736秒であった。
[0267] また、図 29は、マルチプルインターバルモードにおける複数の文献セット種を用い た検索結果表示画面の一例で、文献セット種 MEDLINE、 PPI、ミュータントマウス力 タログ、 OMIM、マウス遺伝子カタログ、ヒト遺伝子カタログ、疾患名カタログを用いて マウス遺伝子を検索する例を示す図である。この例では、 17個の解が得られ、検索 に要した時間は 1.928秒であった。
[0268] [文献数取得サーバ] 文献数取得サーバ 202のアーキテクチャについて、図 18を用いて説明する。図 18 は、文献数取得サーバのアーキテクチャの一例を示す図である。
[0269] 図 18に示すように、文献数取得サーバ 202は、インターフェース 203と文献全文検 索器 204を備える。文献全文検索器 204は、文献セット種 l〜m毎にバイオアイテム 文献セットに関連する全ての文献を収集した文献セット (全文献セット:少なくとも 1つ のバイオアイテムに関連付けられて!/、る全ての文献の集合)群を記憶する全文献セッ トファイルを備える。この全文献セットに対してキーワードによる全文検索を行うことに より、文献セット種 l〜m毎に、キーワードに関連する文献数 Nkと関連しない文献数 ,Nkとを取得する。ここで、全文献セットファイルの形式については、好適には Apac he Lucene (商標)のインデックス形式が望まし!/、が、本発明はこのファイル形式を制 限するものではない。
[0270] [分散文献検索サーバ]
次に分散文献検索サーバ 210のアーキテクチャについて、図 19を参照して説明す る。図 19は、分散文献検索サーバ 210のアーキテクチャの一例を示す図である。
[0271] 分散文献検索サーバ 210は、 5つのコンポーネント、すなわちインターフェース 211 、文献全文検索器 212、アイテム領域判定器 212i、相関スコア計算器 212d、および 、 ノィォアイテム推論器 212e、 ノィォアイテム名テーブル 212fから構成される。
[0272] そして、分散文献検索サーバ 210は、当該バイオアイテム文献セットを分散文献検 索サーバ 210a〜xの数で均等分割された各バイオアイテム文献セット群を記憶する ノィォアイテム文献セットファイルを備える。すなわち、文献全文検索器 212には、割 り当てられたバイオアイテム文献セットのバイオアイテム l〜r毎に、関連文献のセット (バイオアイテム文献セット)群が配置されている。このとき、関連する文献群は、図 19 に示されているように文献セット種毎にまとめられて配置される。ここで、バイオアイテ ム文献セットファイルの形式については、好適には Apache Lucene (商標)のインデッ タス形式が望ましいが、本発明はこのファイル形式を制限するものではない。
[0273] また、バイオアイテム推論器 212eには、 2バイオアイテム間の関係データが格納さ れたデータベース(バイオアイテム関係データベース)テーブルが備わって 、る。 2バ ィォアイテム間の関係には、以下の 2種類 A)と B)が存在する。 [0274] A)文献上の共起関係から抽出される関係
2つのバイオアイテムの名前が一文献上に共存していることを、文献上で 2バイオア ィテムが共起して 、ると 、う。このような共起関係力も抽出された 2バイオアイテムにつ いて、 2次元文献数テーブルと相関スコア(共起関係相関スコア)がそれぞれ文献セ ット種 l〜m毎にあら力じめ計算され、データベース化される。ここで、 2次元文献数テ 一ブルとは、該 2バイオアイテムをそれぞれバイオアイテム 1、バイオアイテム 2とする と、 a :バイオアイテム 1の名前とバイオアイテム 2の名前を両方含む文献数、 b :バイオ アイテム 1の名前を含みバイオアイテム 2の名前を含まな 、文献数、 c:バイオアイテム 1の名前を含まずバイオアイテム 2の名前を含む文献数、 d:バイオアイテム 1の名前 もバイオアイテム 2の名前も含まない文献数の a、 b、 c、および、 dの値から構成される 2次元文献数テーブルをいう。また、共起関係相関スコアは、 2次元文献数テーブル をフィッシャーの正確確率検定により検定を行うことにより算出される P値である。
[0275] B)実験など文献共起以外の方法で抽出される関係
2つのバイオアイテムの関係に相関スコア(共起関係相関スコア)として P値を与え てデータベース化する。このとき 2次元文献数テーブルは定義されな 、。
[0276] ここで、シングルインターバルモードでの動作の場合、各分散文献検索サーバ 210 の動作は次の通りである。
[0277] ·シングルインターバルモードでの動作
[数 3]
( 1 ) ィンターフェ一ス 2 1 1は、 パックェンド管理サーバ 2 0 1からリクエス ト (キ 一ワード、 インターバル等) と、 文書数取得サーバ 2 0 2から得た各種文献セット (1≤ i ≤m)のキーヮードに関連する文献数 ( 1≤ i ≤m)とキーヮードに関連しない文献数
,nk d' ( l≤ i n との組〈 ,→^'〉を受信し、 文献全文検索器 2 1 2に送信する。
[0278] (2)文献全文検索器 212は、例えばバイオアイテム 1 (g.と表す。 )について、次の(
3)、(4)、(5)の動作を行う。
[0279] [数 4] (3) まず、 文献全文検索器 2 1 2は、 文献セッ ト種 l (d ,と表す。 ;)のバイオアイテム 1関連文献 (バイオアイテム 1のバイオアイテム文献セット) 群 (文献数を?^'とする)に対 し、キーワードによる全文検索を行い、 ヒットする文献数 を取得する。 この文献数 が
1以上のとき、 6つ組〈" , ," ,," 〉を相関スコア計算器 2 1 2 dに送信し、 (8) を実 行して 2次元文献数テーブル: T」Siと相関スコア ^ g|を求め、 3っ組く :?^,/^^を生成 する。
[0280] (4)文献全文検索器 212は、(3)を他の文献セット種、すなわち文献セット種 2から 文献セット種 mにつ 、て実行する。
[0281] [数 5]
(5) 文献全文検索器 2 1 2は、 (3)、 (4) で得られた各種文献セット 1〜mについて の相関スコア尸 ,--,P m の最小値を計算し、これをキーワードとバイオアイテム 1との 相関スコア/^ ^とする。 Pkg が既定の水準 (所定の閾値) を下回っているとき、 バイオア ィテム領域判定器 2 1 2iを用いてバイオアイテム 1がインターバルに含まれているかを調 ベ、 以下の (i) · (ii) を実行する。
(L直接検索) インターバルに含まれているとき、 バイオアイテム 1を検索結果として採 用し、 バイオアイテム 1、 相関スコア ff 、 ( 3 ) と ( 4 ) で得られた 3つ組 ≤ i ≤m)のリストから構成される組を解の
Figure imgf000066_0001
一^ 3として記憶装置 (メモ リ) 上に保持する。
(ii.推論検索) インターバルに含まれていないとき、 バイオアイテム推論 2 1 2 eを用 いてバイオアイテム 1に関連するバイオアイテム群 X ·· Xq (これらをそれぞれ •• ' gf と表す。 )を得る。 各バイオアイテム x,(l≤ i ≤ q)について、 バイオアイテム領域判定器 2 1 2iを用いてインタ一バルに含まれているバイオアイテムを選出する。 選出された各バ ィォアイテム xiについて (6)、 (7) を実行する。 ここで、バイオアイテムがインターバルに存在するか否かの判定において、該バイ ォアイテムが薬品など位置を持たな 、バイオアイテムセットに属して 、る場合には、 常にインターバルに存在するものとして処理される。また、該バイオアイテムの生物種 と利用者により指定された領域 (インターバル)のゲノム配列の生物種とが異なる場合 でも、ホモロジ一関係が存在する場合にはこのホモロジ一関係を適用する。さらには
、利用者の指示により、バイオアイテム 1がインターバルに含まれているときであって も (ii)を実行させることもできる。
[数 6] また、 利用者の指示により、 キーワードとバイオアイテム 1との相関スコア ^ S|を、 各 文献セット種 1〜! nの文献数テーブル 7 > - - - k dm のいずれかあるいは全ての文献数テー ブルを合成して新たな文献数テーブルを生成し、 この文献数テーブルを用いて、 統計計算 に基づいてバイオアイテムとキーワードとの相! ¾スコアを算出してもよい。 すなわち、 上 記 (3 )、 (4 ) により文献セット種 l〜m毎に図 2に示す文献数テーブル ,- - - , Ttm 力'; 作成されるが、 各文献セット種 l〜mの文献数テーブル Γ , · · · ,Τά"' の項 aを全て足し合 わせた値 A、 項 bを全て足し合わせた値 B、項 cを全て足し合わせた値 C、項 dを全て足し 合わせた値 Dから構成される新たな文献数テーブル (図 2において aに値 A、 bに値 B、 c に値 C、 dに値 Dを代入したテーブル) を生成してもよレ、。 このようにして構成される文 献数テーブルを、 以下、 合成文献数テーブルと呼ぶ。
あるいは、 合成文献数テーブル作成の対象となる文献セット種を l〜m の中から任意に 1 つ以上選び出し、 合成文献数テーブルを生成し、 これを用いてバイオアイテムとキーヮー ドとの相関スコアを算出し、 さらに合成文献数テーブル作成の対象とならない各文献セッ ト種のそれぞれについて、 文献数テーブルからバイオアイテムとキーヮ一ドとの相関スコ ァを算出し、 これらの相関スコアの中から最小の相関スコアを該バイオアイテムの相関ス コア Pk_„ としてもよい。 [数 7]
(( 66 )) ババイイオオアアイイテテムム 11にに関関連連すするるババイイオオアアイイテテムムののううちちのの一一つつババイイオオアアイイテテムム X, ((ここ れれをを とと表表すす))ににつついいてて、、ババイイオオアアイイテテムム推推論論器器 22 11 22 eeをを用用いいてて以以下下にに記記すす方方法法にに従従レレ、、、、 ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム 間間のの相相関関ススココアアとと 22次次元元文文献献数数テテーーブブルルをを取取得得すするる,, ババイイオオアアイイテテムム 11ととババイイオオアアイイテテムム ^^ととのの関関連連がが文文献献上上のの共共起起にによよりり得得らられれてていいるる場場合合にに はは、、 すすべべててのの該該文文献献セセッットト (( 11≤≤ ii ≤≤mm)) のの 22次次元元文文献献数数テテーーブブルル 77^^ とと相相関関ススココァァ PP ;;__gg をを取取得得しし 33つつ組組 をを生生成成しし、、 そそううででなないい場場合合ににはは相相関関ススココアア//^^しし
Figure imgf000068_0001
( 1≤ j ≤ s , sは文献上の共起ではなく実験などから見出されたバイオアイテム関係 e .. の数)を取得し、 3つ組〈 , ^を生成する。 ここで は空の文献数テーブルを表す。 このようにして得たすべての相関スコア/^し g ( 1≤ i ≤m) , Pg e;_g ( l≤ j ≤ s ) の最 小値を計算し、 この値をバイオアイテム 1とバイオアイテム X,間の相関スコア ρ „ とす る。 8]
また、 利用者の指示により、 相関スコア/^ _ の算出において、 バイオアイテム 1とバ ィォアイテム; との相関スコア/1 を、 各文献セッ ト種 l〜mの文献数テーブル τ ' ,···,τά· のいずれかあるいは全ての文献数テーブルを合成して新たな文献数テ 一ブルを生成し、 この文献数テーブルを用いて、 統計計算に基づいてバイオアイテムとキ ーヮードとの相関スコアを算出してもよい。すなわち、文献セット種 l〜m毎に下記の図 3 1に示す文献数テーブル ' ,--- d" が作成されるが、各文献セット種 l〜mの文献数テ 一ブル/—' ,· · ''Τ. " の項 aを全て足し合わせた値 Α、 項 bを全て足し合わせた値 Β、 項 c を全て足し合わせた値 C、 項 dを全て足し合わせた値 Dから構成される新たな合成文献数 テーブル (図 3 1において aに値 A、 bに値 B、 cに値 C、 dに値 Dを代入したテーブル) を生成してもよい。 この合成文献数テーブルから算出された相関スコアと、 文献上の共起 ではなく実験などから見出されたバイオアイテム関係の相関スコア/^ , ( 1≤ j ≤ s ) の最小値を計算し、 この値をバイオアイテム 1とバイオアイテム 間の相関スコア/^ _ とする。
[数 9] あるいは、合成文献数テーブル作成の対象となる文献セット種を文献セット種 l〜mの中 から任意に 1 つ以上選び出し、 合成文献数テーブルを生成し、 これを用いてバイオアイテ ムとキ一ワードとの相関スコアを算出し、 さらに合成文献数テーブル作成の対象とならな い各文献セット種のそれぞれについて、 文献数テーブルからバイオアイテムとキーワード との相関スコアを算出し、 これらの相関スコアと文献上の共起ではなく実験などから見出 されたバイオアイテム関係の相関スコア i ^ ( 1≤ j≤ s ) の最小値を計算し、 この値 をバイオアイテム 1とバイオアイテム 間の相関スコア としてもよい。 ここで、図 32は、バイオアイテム 1とバイオアイテム 2との文献数テーブルの一例を 示す図である。図 32に示すように、文献数テーブルは、 a)バイオアイテム 1を含み且 つバイオアイテム 2名を含む文献の数、 b)バイオアイテム 1を含まず且つバイオアイ テム 2名を含む文献の数、 c)バイオアイテム 1を含み且つバイオアイテム 2名を含まな い文献の数、および、 d)バイオアイテム 1を含まず且つバイオアイテム 2名を含まない 文献の数、の 4つの項目 a)〜d)のうち少なくとも一つ力も構成される。ここで、図 33は 、ユーザクライアント 500である Webブラウザ上で上記(5)、 (6)における合成文献数 テーブルの作成の方法を利用者が指定する例を示した図である。
[0285] 図 33右図に示すように、(5)でキーワードとマウス遺伝子の関連付けに用いる文献 セット種の選択タブ(MEDLINE選択タブ MK— 3、 PPI選択タブ MK— 4、 mouse m utant選択タブ MK— 5、 mouse gene record選択タブ MK— 6)が表示される。すな わち、(5)における合成文献数テーブルの作成方法については、各文献セット種に ついて、 weak, strong, none (図には表示されていない)の 3種類の方法から選択でき る。ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次 元文献数テーブルから合成文献数テーブルが作成される。また、 strongが設定され た文献セット種については、該文献セット種の(3)で得られるキーワードにヒットする 文献数 n力^以上であるとき、該文献セット種のキーワードとバイオアイテムとの相関 h
スコアが 0に設定される。このように、 strongに設定された文献セット種に対しては、力 タログセットに対する文献サーバの動作と同様の効果を奏し、ドキュメントセットとカタ ログセットとを同時に検索する機能が実現される。また、 noneが設定された文献セット 種については、検索対象の文献セット種から除外される。
[0286] また、図 33左図に示すように、(6)で用いるマウス遺伝子—マウス遺伝子間関係を 指定する例が示されている。すなわち、図 33左図に示すように、文献上の共起関係 力も抽出されたマウス遺伝子—マウス遺伝子間の関係について、該文献セット種の 選択タブ(PPI選択タブ MK— 1、 MEDLINE選択タブ MK— 2)が表示される。すな わち、(6)における合成文献数テーブルの作成方法については、文献セット種につ いて、 weak、 strong, none (図には表示されていない)の 3種類の方法から選択できる。 ここで、 weakが設定された文献セット種については、これらの文献セット種の 2次元文 献数テーブルから合成文献数テーブルが作成される。また、 strongが設定された文 献セット種については、共起する文献が 1つ以上存在するとき、該文献セット種の該 2 バイオアイテム間の相関スコアが 0に設定される。また、 noneが設定された文献セット 種については、検索対象の文献セット種から除外される。このように、利用者が各文 献セット種の各種選択を行うことにより、図 30や図 31で示すような検索表示結果を得 ることができる。ここで、図 30は、図 33の条件でヒットした、キーワード diabetesとマウス 遺伝子 Rradとの関連文献の詳細を表示した例を示し、図 31はマウス遺伝子 Insrとマ ウス遺伝子 Irslの間の関連文献の詳細を表示した例を示した図である。
[0287] [数 10]
(7) 相関スコア/^と Pg,_g とを相関スコア計算器 2 1 2 dに送信し (9) を実行し、 総合相関スコア/;。, a/を得る。 ここで得られた総合相関スコア ,。,が既定の水準を下回って いるとき、 バイオアイテム xi、 バイオアイテム 1、 相関スコア ,。,、 Pkg、 、 尸 — 、 (6) で得られたすべての 3つ組のリストから構成される 6つ組を解の一つとして記憶装置 (メ モリ) 上に保持する。
[0288] [数 11]
(8) 相関スコア計算器 2 1 2 dは、 文献全文検索器 2 1 2から 4つ組^ Λ' ', ク を受信する。 そして、 相関スコア計算器 2 1 2 dは、 下記の表 1に示す 2次元文献数テ一 ブルを作成し、 この表 1からフィッシャーの正確確率検定を適用し P値を求める。 求めら れた P値と 2次元文献数テーブルの組を文献全文検索器 2 1 2に返す。
[表 1]
相関スコア計算用 2次元文献数テーブル
Figure imgf000071_0001
[0289] [数 12]
(9)相関スコア計算器 2 1 2 dは、文献全文検索器 2 1 2から相関スコア/^ e と Pe e を受信し、 相関スコア計算器 2 1 2は総合相関スコア , =1— (1— Α^χΐ -尸 を計 算し、 この値を文献全文検索器 2 1 2に返す。
[0290] そして、(6)、(7)、(8)をバイオアイテム 1に関連するその他のバイオアイテムにつ いて実行する。 [0291] (10)分散文献検索サーバ 210は、(2)をその他のバイオアイテム、すなわちバイオ アイテム 2からバイオアイテム rにつ 、て実行する。
[0292] (11)分散文献検索サーバ 210は、記憶装置 (メモリ)上に保持されたすベての解を 、インターフェース 211を介してバックエンド管理サーバ 201に返す。
[0293] ここで、マルチプルインターバルモードでの動作の場合、各分散文献検索サーバ 2 10の動作は次の通りである。
[0294] ·マルチプルインターバルモードでの動作
まず、分散文献検索サーバ 210は、インターノ レ 1に存在するノィォアイテムを検 索するため、上記シングルインターバルモードでの動作(1)、 (2)、 (3)、 (4)、 (5) (i) の順に実行し、得られた解を、インターフェース 211を介してバックエンド管理サーバ 201に返す。次に、ノ ックエンド管理サーバ 201は、すべての分散文献検索サーバ 2 10a〜xから返された解をまとめ上げ、解リスト Lを生成する。
[0295] つぎに、バックエンド管理サーバ 201は、インターバル 2に存在するバイオアイテム を検索し結果を得るため、各分散文献検索サーバ 210a〜xに解リスト Lを含むリクェ ストを送信する。文献全文検索器 212は以下に掲げる動作を行う。
[0296] [数 13]
( 1 2 ) まず、 ィンターフェース 2 1 1は、 バックェンド管理サーバ 2 0 1からリクェ ス ト、 すなわちキーワード、 インターバル、 識別子の列、 文書数取得サーバ 2 0 2から得 た各文献セット種 d , ( 1≤ i ≤m)のキーヮードに関連する文献数 ' ( 1≤ i ≤m)とキー ワードに関連しない文献数" ^"' ( 1≤ i ≤m)との組を受信し、 文献全文検索器 2 1 2に送 信する。
[0297] (13)文献全文検索器 212は、ノィォアイテム 1、インターノ レ 2について、(3)、 (4 )、および (5) (0を実行する。バイオアイテム 1が解であるとき、(14)を実行する。
[0298] (14)文献全文検索器 212は、解リスト Lの各解バイオアイテムとバイオアイテム 1か ら構成できる全てのノィォアイテムペアを作成する。各バイオアイテムペアにつ!、て 以下の (a)および (b)を実行する。
(a) いま、バイオアイテムペアの一つについて、このバイオアイテムペアを構成するバ ィォアイテムをそれぞれ g、 gとする。このノィォアイテムペアをバイオアイテム推論
1
器 212eに送り、 g、 gに関係があるかを調べる。
1
(b) (a)の結果、 g、 gの間に関係があった場合には、(15)を実行する。
1
(c) (a)を他のノィォアイテムペアについても実行する。
[0299] [数 14]
( 1 5 )文献全文検索器 2 1 2は、バイオアイテム 1 ( と表す)とバイオアイテム X ( gx と表す) について (6 ) を実行し、 これらの間の相関スコア Pg g,を得る。 いま、 キ―ヮ一 ドとバイオアイテム 1の相関スコアを „ 、 キーワードとバイオアイテム Xの相関スコア を Pkg とする。 3つ組〈g,,^, — gt〉を相関スコア計算機 2 1 2 dに送信し、 (1 6 ) を実 行して総合相関スコア ^^を得る。 この総合相関スコア^^が既定の水準を下冋つている とき、バイオアイテム 1、バイオアイテム 、相関スコア 。,、 Pkg P 、 Pg g, ( 6 ) で得られたすべての 3つ組のリストから構成される 7つ組を解の一つとして記憶装置 (メ モリ) 上に保持する。
[0300] [数 15]
( 1 6 ) 相関スコア計算器 2 1 2 dは、 文献全文検索器 2 1 2から 3つ組〈 , ,/ ^一 ) を受信する。 相関スコア計算器 2 1 2 dは総合相関スコア
P,ala, = Min(l— (1 Pk_gi )(1― Pg> _gx ),1— (1 Pkg' )(1― — ))を計算し、文献全文検索器 2 1 2に返す。 ここで Min(a,b)は a、 bのうち大きくない方の値を返す関数である。
[0301] ( 17)分散文献検索サーバ 210は、(13)をその他のバイオアイテム、すなわちバイ ォアイテム 2からバイオアイテム rにつ 、て実行する。
[0302] ( 18)分散文献検索サーバ 210は、記憶装置 (メモリ)上に保持されたすベての解を
、インターフェース 21 1を介してバックエンド管理サーバ 201に返す。
[0303] [ヒットした文献数のより詳細な解析]
ヒットした文献数のより詳細な解析について、先に示した図 8を用いて説明を行う。 シングルインターバルモードの推論検索の解、マルチプルインターバルモードの解に ついては、 2つのバイオアイテムにそれらの間の関係が与えられ、これら 2バイオアイ テムと 2バイオアイテム間の関係の三者それぞれについて(3)、(4)、(6)で得られる 文献セット、相関スコア、 2次元文献数テーブル力も構成される 3つ組のリストが存在 する。いま、文献セット d (l≤i≤m)について、三者すベての 2次元文献数テーブルが 存在するとき、図 8に掲げる 3次元文献数テーブルが構成できる。
[0304] 分散文献検索サーバ 210にはこの 3次元文献数テーブルを実現するための機能が 備わっている。以下詳細な動作を記す。なお、以下使用する変数 a、 b、 c、 d、 e、 f、 g 、 h、 i、 j、 k、 m、 s、 t、 u、 v、 w、 x、 y、および、 ζίま、図 8の各変数【こ対応して!/ヽる。
[0305] (1)インターフェース 211はバックエンド管理サーバ 201から解の一つとキーワード を受信し、文献全文検索器 212に送信する。
[0306] (2)文献全文検索器 212は、バイオアイテム名テーブル 212fからバイオアイテム 2 の名前を取得する。
[0307] (3)文献全文検索器 212は、解を構成するバイオアイテム 1、ノィォアイテム 2、バ ィォアイテム間の関係の三者について、文献セット、相関スコア、 2次元文献数テー ブル力も構成される 3つ組のリストを取得する。このとき、三者すベての 3つ組に 2次 元文献数テーブルが存在するようなすべての文献セットを取得する。取得した各文 献セット dにつ 、て (4)を実行する。
[0308] (4)文献全文検索器 212は、文献セット dのバイオアイテム 1関連文献セット (バイオ アイテム 1のノィォアイテム文献セット)群に対し、キーワードかつバイオアイテム 2の 名前を含む文献を検索し、該文献数を得て sとする。さら〖こ、文献セット dのそれぞれ キーワードとバイオアイテム 1の 2次元文献数テーブルを a)、 b)、 c)、および、 d)、キ 一ワードとバイオアイテム 2の 2次元文献数テーブルを e)、 f)、 g)、および、 h)、バイ ォアイテム 1とバイオアイテム 2の 2次元文献数テーブルを i)、 j)、 k)、および、 m)とす るとさ、 w=a— s、 u = e— s、 t = i— s、 v=f— 、 x = k— w、 y = c— u、 ζ = α— v それ ぞれ計算し、図 8に示す 3次元の文献数テーブルを生成する。
[0309] (5)文献全文検索器 212は、(1)で受け取った解と、(4)で受け取った 3次元文献 数テーブル群との組を生成し、インターフェース 211を介して、バックエンド管理サー ノ 201に返す。以上で、ヒットした文献数のより詳細な解析の説明を終える。 [0310] [概念語導入の効果]
また、バイオアイテム名のみ力 構成されるバイオアイテムクエリで P値を計算した場 合、ヒットしたバイオアイテムのランキングが不正確であつたが、概念語を導入したバ ィォアイテムクエリで P値を計算してもよぐこの場合、ランキング結果の精度が大幅に 改善される。
[0311] [他の実施の形態]
さて、これまで本発明の実施の形態について説明した力 本発明は、上述した実施 の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種 々の異なる実施の形態にて実施されてよいものである。
[0312] また、本発明を文献フォルダの検索に用いる場合を説明する。例えば、文献フオル ダのパス名として、
/home/ document/ diabetes/
があり、その文献フォルダ内に 3つの文献がそれぞれ下記のファイルパス名でフアイ ルとして存在する場合、これらの文献のファイルパス名はすべて該文献フォルダのパ ス名を含むため、該文献フォルダのパス名をバイオアイテム名にして本発明の方法を 適用させることで、これら文献を有する文献セットを、該文献フォルダのバイオアイテ ム文献セットとして作成することができる。
/home/ document/ diabetes/ patient 1
/home/ document/ diabetes/ patient2
/home/ document/ diabetes/ patient3
[0313] また、上述の実施の形態では、バイオアイテム検索装置 100が主にスタンドアロー ンの形態で処理を行う場合を一例に説明した力 実施例で示したようにバイオアイテ ム検索装置 100とは別筐体で構成される他の端末装置からの要求に応じて処理を行 い、その処理結果を当該クライアント端末に返却するように構成してもよい。図 34は、 バイオアイテム検索端末装置 600の構成の一例を示すブロック図である。
[0314] すなわち、図 34に示すように、バイオアイテム検索端末装置 600は、ネットワーク 30 0を介して、バイオアイテム検索装置 100と相互に接続され、少なくとも制御部 602と 入力部 612と出力部 614を備えて構成される。 [0315] ノィォアイテム検索端末装置 600は、入力制御部 602aの処理により、利用者に、 入力部 612を介してキーワードやゲノム領域情報や識別子情報を入力させるよう制 御し、送信部 602bの処理により、当該キーワード等をバイオアイテム検索装置 100 に送信し、受信出力部 602cの処理により、バイオアイテム検索装置 100から出力さ れた、候補バイオアイテム、関連バイオアイテム、または、共起キーワード相関スコア を受信し、出力部 612に出力するよう構成される。ここで、図 35は、バイオアイテム検 索端末装置 600の処理の一例を示すフローチャートである。
[0316] 図 35に示すように、まず、バイオアイテム検索端末装置 600は、入力制御部 602a の処理により、入出力インターフェース部 608を制御して、入力部 612を介して、利 用者にキーワードやゲノム領域情報や識別子情報等の利用者入力情報を入力させ るよう制御する(SG— 1)。
[0317] そして、バイオアイテム検索端末装置 600は、送信部 602bの処理により、通信制 御インターフェース部 604を制御して、キーワード等の利用者入力情報をバイオアイ テム検索装置 100に送信する(SG— 2)。
[0318] そして、バイオアイテム検索端末装置 600は、受信出力部 602cの処理により、通信 制御インターフェース部 604を制御して、バイオアイテム検索装置 100から出力され た、候補バイオアイテム、関連ノィォアイテム、または、共起キーワード相関スコア等 を受信する(SG— 3)。
[0319] そして、バイオアイテム検索端末装置 600は、候補バイオアイテムまたは関連ノ ィ ォアイテムを、対応する相関スコア等に基づいて、出力部 612に出力するよう入出力 制御インターフェース部 608を制御する(SG— 4)。以上が、本発明をクライアント端 末 (バイオアイテム検索端末装置 600)に適用した場合の他の実施の形態である。
[0320] また、実施の形態において説明した各処理のうち、自動的に行われるものとして説 明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われ るものとして説明した処理の全部または一部を公知の方法で自動的に行うこともでき る。
[0321] このほか、上記文献中や図面中で示した処理手順、制御手順、具体的名称、各処 理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成 につ 、ては、特記する場合を除 、て任意に変更することができる。
[0322] また、バイオアイテム検索装置 100に関して、図示の各構成要素は機能概略的なも のであり、必ずしも物理的に図示の如く構成されて 、ることを要しな 、。
[0323] 例えば、バイオアイテム検索装置 100の各装置が備える処理機能、特に制御部 10 2にて行われる各処理機能については、その全部または任意の一部を、 CPU (Cent ral Processing Unit)および当該 CPUにて解釈実行されるプログラムにて実現す ることができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可 能である。尚、プログラムは、後述する記録媒体に記録されており、必要に応じてバイ ォアイテム検索装置 100に機械的に読み取られる。すなわち、 ROMまたは HDなど の記憶部 106などは、 OS (Operating System)として協働して CPUに命令を与え 、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータ プログラムは、 RAMにロードされることによって実行され、 CPUと協働して制御部を 構成する。
[0324] また、このコンピュータプログラムは、バイオアイテム検索装置 100に対して任意の ネットワーク 300を介して接続されたアプリケーションプログラムサーバに記憶されて いてもよぐ必要に応じてその全部または一部をダウンロードすることも可能である。
[0325] また、本発明に係る方法をコンピュータに実行させるプログラムを、コンピュータ読 み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキ シブルディスク、光磁気ディスク、 ROM, EPROMゝ EEPROM、 CD-ROM, MO 、 DVD等の任意の「可搬用の物理媒体」、あるいは、 LAN, WAN,インターネットに 代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のよ うに、短期にプログラムを保持する「通信媒体」を含むものとする。
[0326] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法で あり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずし も単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構 成されるものや、 OS (Operating System)に代表される別個のプログラムと協働し てその機能を達成するものをも含む。なお、実施の形態に示した各装置において記 録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のイン ストール手順等については、周知の構成や手順を用いることができる。
[0327] 記憶部 106に格納される各種のデータベース等(全文献セットファイル 106a〜識 別子情報データベース 106e)は、 RAM, ROM等のメモリ装置、ハードディスク等の 固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種 処理やウェブサイト提供に用いる各種のプログラムやテーブルやデータベースゃゥェ ブページ用ファイル等を格納する。
[0328] また、バイオアイテム検索装置 100は、既知のパーソナルコンピュータ、ワークステ ーシヨン等の情報処理装置を接続し、該情報処理装置に本発明の方法を実現させる ソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよ!/、。
[0329] 更に、装置の分散,統合の具体的形態は図示するものに限られず、その全部また は一部を、各種の付加等に応じた任意の単位で、機能的または物理的に分散,統合 して構成することができる。
産業上の利用可能性
[0330] 以上詳述に説明したように、本発明によれば、検索時に余計な計算処理時間をか けずに済む、ランキング表示や関連アイテムの発見を可能とする、バイオアイテム検 索装置、ノィォアイテム検索端末装置、バイオアイテム検索方法、および、プログラム を提供することができるので、生物学 (遺伝学、疫学、システムバイオロジーを含む) や化学等を含む、情報検索を必要とする情報処理分野において利用可能である。

Claims

請求の範囲
[1] 利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくと も制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において、 上記記憶装置は、
上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオア ィテム文献セットを記憶するバイオアイテム文献セット記憶手段、
を備え、
上記制御装置は、
上記各ノィォアイテム文献セットにぉ 、て、上記キーワードを該バイオアイテム文献 セットの中から検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献 数 Nhを、上記バイオアイテム毎に取得する文献数取得手段と、
上記文献数取得手段によって取得された上記文献数 Nhが 1以上である上記バイ ォアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出手段と、 上記候補バイオアイテム毎に、
a)上記文献数 Nh、および Zまたは、
b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイ テムの上記バイオアイテム文献セットの文献数 Nh)、
から構成される文献数テーブルを作成するテーブル作成手段と、
上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づ ヽて 、該ノ ィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出手段と 上記相関スコア算出手段によって算出された上記相関スコアに基づ 、て、上記候 補バイオアイテムを上記出力装置に出力する出力手段と、
を備えたことを特徴とするバイオアイテム検索装置。
[2] 請求項 1に記載のバイオアイテム検索装置にぉ 、て、
上記記憶装置は、
上記各ノィォアイテム文献セットに含まれる全ての上記文献を有する全文献セット を記憶する全文献セット記憶手段、 を更に備え、
上記文献数取得手段は、更に、
上記キーワードを上記全文献セットの中から検索し、上記キーワードを含む文献数 Nkを取得し、
上記テーブル作成手段は、
上記候補バイオアイテム毎に、
上記 a)上記文献数 Nh、
上記 b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイ ォアイテムの上記ノィォアイテム文献セットの文献数 Nh)、
c)上記キーワードを含み且つ上記バイオアイテム名を含まな!/、文献数 (Nk-Nh) ゝおよび、
d)上記キーワードを含まず且つ上記バイオアイテム名を含まな!/、文献数 (上記全 文献セットの総文献数 上記ノィォアイテム文献セットの文献数 Nk + Nh)、 のうち少なくとも一つから構成される上記文献数テーブルを作成すること、 を特徴とするバイオアイテム検索装置。
請求項 1または 2に記載のノィォアイテム検索装置において、
上記記憶装置は、
任意の 2つの上記ノィォアイテムと、該 2つの上記バイオアイテムの共起相関スコア と、を対応付けて記憶するバイオアイテム関係データベース、
を更に備え、
上記制御装置は、
上記バイオアイテム関係データベースに記憶された上記共起相関スコアに基づい て、上記候補バイオアイテムと相関関係を有する上記バイオアイテムを関連バイオア ィテムとして抽出する関連バイオアイテム抽出手段と、
上記関連ノィォアイテムと上記キーワードとの合成相関スコアを、該候補バイオアイ テムの上記相関スコアと上記共起相関スコアとを合成することによって求める合成相 関スコア算出手段と、
を更に備え、 上記出力手段は、
上記合成相関スコア算出手段によって算出された上記合成相関スコアに基づ 、て 、上記関連バイオアイテムを上記出力装置に出力すること、
を特徴とするバイオアイテム検索装置。
[4] 請求項 3に記載のバイオアイテム検索装置において、
上記制御装置は、
上記任意の上記 2つの上記バイオアイテムのうち、一方の上記バイオアイテム文献 セットの中から、他方の上記バイオアイテム名を検索することにより得られた、 i)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名 を含む文献数、
j)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム 名を含む文献数、
k)上記一方の上記バイオアイテム名を含み且つ上記他方の上記バイオアイテム名 を含まない文献数、および、
m)上記一方の上記バイオアイテム名を含まず且つ上記他方の上記バイオアイテム 名を含まない文献数、
のうち少なくとも一つから構成される共起文献数テーブルを用いて、上記統計計算 に基づいて、上記共起相関スコアを算出する共起相関スコア算出手段と、
上記共起相関スコア算出手段によって算出された上記共起相関スコアを、上記 2つ の上記バイオアイテムに対応付けて、上記バイオアイテム関係データベースに格納 するバイオアイテム関係データベース化手段と、
を備えたことを特徴とするバイオアイテム検索装置。
[5] 請求項 3または 4に記載のバイオアイテム検索装置にぉ 、て、
上記合成相関スコア算出手段は、
上記合成相関スコアを、下記の数式 1、または、該数式 1の近似式に基づいて、合 成すること、
P= l—(1 PI) (1 Ρ2) · · · (数式 1)
(ここで、 Pは、上記合成相関スコアであり、 P1は、上記候補バイオアイテムの上記相 関スコアであり、 P2は、上記共起相関スコアである。 )
を特徴とするバイオアイテム検索装置。
[6] 請求項 1乃至 5のいずれか一つに記載のバイオアイテム検索装置において、 上記記憶装置は、
上記ノィォアイテム毎に、該バイオアイテムに対応するゲノム染色体上の位置を示 すゲノム位置情報を関連付けて記憶する位置情報データベースと、
上記利用者により入力された、上記目的とする上記ノィォアイテムに対応する上記 ゲノム染色体上の位置を含む、ゲノム領域を示すゲノム領域情報を記憶する領域情 報記憶手段と、
を更に備え、
上記制御装置は、
上記候補バイオアイテムまたは上記関連バイオアイテムにつ 、て、上記位置情報 データベースに記憶された、該バイオアイテムに対応する上記ゲノム位置情報に基 づく位置が、上記ゲノム領域情報の上記ゲノム領域に含まれる力否かを判断し、上記 ゲノム領域に含まれると判断した場合に、該候補バイオアイテムまたは該関連バイオ アイテムを出力するよう制御するゲノム領域判定手段、
を更に備えたことを特徴とするバイオアイテム検索装置。
[7] 請求項 1乃至 6のいずれか一つに記載のバイオアイテム検索装置において、 上記記憶装置は、
上記ノィォアイテム毎に、該バイオアイテムに対応する識別子を示す識別子情報 を関連付けて記憶する識別子情報データベースと、
上記利用者により入力された、上記目的とする上記ノィォアイテムに対応する、一 つ又は複数の上記識別子情報を記憶する目的バイオアイテム識別子記憶手段と、 を更に備え、
上記制御装置は、
上記候補バイオアイテムまたは上記関連バイオアイテムにつ 、て、上記識別子情 報データベースに記憶された、該バイオアイテムの上記識別子情報に基づく上記識 別子が、上記目的バイオアイテム識別子記憶手段に記憶された上記識別子情報の 上記一つまたは複数の上記識別子に含まれるか否かを判断し、該識別子に含まれる と判断した場合に、該候補バイオアイテムまたは該関連バイオアイテムを出力するよ う制御する識別子判定手段、
を更に備えたことを特徴とするバイオアイテム検索装置。
[8] 請求項 1乃至 7のいずれか一つに記載のバイオアイテム検索装置において、
上記文献数取得手段は、
任意の 2つの上記候補バイオアイテムのうち、一方の上記候補バイオアイテムの上 記バイオアイテム文献セットの中から、他方の上記バイオアイテム名を含み且つ上記 キーワードを含む文献数 Nsを検索により取得し、
上記テーブル作成手段は、
上記文献数 Ns、上記 2つの上記候補バイオアイテムに係る上記文献数テーブル、 および、上記 2つの上記候補バイオアイテムに係る上記共起文献数テーブルに基づ いて、 3次元の上記文献数テーブルを作成し、
上記相関スコア算出手段は、
上記 3次元の上記文献数テーブルを用いて、上記統計計算に基づいて、上記 2つ の上記候補バイオアイテムと上記キーワードとの共起キーワード相関スコアを算出す る共起キーワード相関スコア算出手段、
を備え、
上記出力手段は、
上記共起キーワード相関スコア算出手段によって算出された上記共起キーワード 相関スコアを、上記 2つの上記候補バイオアイテムと対応付けて、上記出力装置に出 力すること、
を特徴とするバイオアイテム検索装置。
[9] 請求項 8に記載のバイオアイテム検索装置において、
上記共起キーワード相関スコア算出手段は、
上記 3次元の上記文献数テーブルを用いて、
上記キーワードを含む場合の上記 2つの候補バイオアイテムの相関スコアをキーヮ ードあり相関スコアとして算出し、上記キーワードを含まない場合の上記 2つの候補 バイオアイテムの相関スコアをキーワードなし相関スコアとして算出し、該キーワード あり相関スコアと該キーワードなし相関スコアとの、両方および Zまたは比較結果を、 上記共起キーワード相関スコアとして算出すること、
を特徴とするバイオアイテム検索装置。
[10] 請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、 上記統計計算は、
検定に基づいて上記相関スコアを算出すること、
を特徴とするバイオアイテム検索装置。
[11] 請求項 1乃至 9のいずれか一つに記載のバイオアイテム検索装置において、 上記統計計算は、
フィッシャーの正確確率検定 (Fisher's Exact Test),カイ二乗検定、または、ベイズ 条件付確率を用いること、
を特徴とするバイオアイテム検索装置。
[12] 請求項 1乃至 11の 、ずれか一つに記載のバイオアイテム検索装置にぉ 、て、 上記出力手段は、
上記候補バイオアイテムまたは上記関連バイオアイテムを、対応する上記相関スコ ァ、上記共起キーワード相関スコア、または、上記合成相関スコアに基づいて、順位 付けして出力装置に出力する検索結果順序出力手段、
を備えたことを特徴とするバイオアイテム検索装置。
[13] 請求項 1乃至 12のいずれか一つに記載のバイオアイテム検索装置において、 上記バイオアイテム名は、概念語を含むこと、
を特徴とするバイオアイテム検索装置。
[14] 請求項 1乃至 13に記載のバイオアイテム検索装置に接続された、少なくとも制御部 と入力部と出力部を備えたバイオアイテム検索端末装置であって、
上記制御部は、
上記利用者に、上記入力部を介して上記キーワード、上記ゲノム領域情報、および Zまたは、上記識別子情報を入力させるよう制御する入力制御手段と、
上記入力制御手段によって入力された、上記キーワード、上記ゲノム領域情報、お よび zまたは、上記識別子情報を、上記バイオアイテム検索装置に送信する送信手 段と、
上記送信手段によって送信された、少なくとも上記キーワードに基づいて上記バイ ォアイテム検索装置から出力された、上記候補バイオアイテム、上記関連バイオアイ テム、または、上記共起キーワード相関スコアを受信し、上記出力部に出力する受信 出力手段と、
を備えたことを特徴とするバイオアイテム検索端末装置。
利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくと も制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置において実行 されるバイオアイテム検索方法であって、
上記記憶装置は、
上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオア ィテム文献セットを記憶するバイオアイテム文献セット記憶手段、
を備えており、
上記制御装置にお ヽて実行される、
上記各ノィォアイテム文献セットにぉ 、て、上記キーワードを該バイオアイテム文献 セットの中から検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献 数 Nhを、上記バイオアイテム毎に取得する文献数取得ステップと、
上記文献数取得ステップにおいて取得された上記文献数 Nhが 1以上である上記 バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ステツ プと、
上記候補バイオアイテム毎に、
a)上記文献数 Nh、および Zまたは、
b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイ テムの上記バイオアイテム文献セットの文献数 Nh)、
から構成される文献数テーブルを作成するテーブル作成ステップと、
上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づ ヽて 、該ノィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステツ プと、
上記相関スコア算出ステップにお 、て算出された上記相関スコアに基づ 、て、上 記候補バイオアイテムを上記出力装置に出力する出力ステップと、
を含むことを特徴とするバイオアイテム検索方法。
利用者により入力されたキーワードから目的のバイオアイテムを検索する、少なくと も制御装置と記憶装置と出力装置とを備えたバイオアイテム検索装置に実行させる プログラムであって、
上記記憶装置は、
上記バイオアイテム毎に、該バイオアイテム名が記載された文献を有するバイオア ィテム文献セットを記憶するバイオアイテム文献セット記憶手段、
を備えており、
上記制御装置にお ヽて実行される、
上記各ノィォアイテム文献セットにぉ 、て、上記キーワードを該バイオアイテム文献 セットの中から検索し、該バイオアイテム文献セットのうち上記キーワードを含む文献 数 Nhを、上記バイオアイテム毎に取得する文献数取得ステップと、
上記文献数取得ステップにおいて取得された上記文献数 Nhが 1以上である上記 バイオアイテムを、候補バイオアイテムとして選出する候補バイオアイテム選出ステツ プと、
上記候補バイオアイテム毎に、
a)上記文献数 Nh、および Zまたは、
b)上記キーワードを含まず且つ上記バイオアイテム名を含む文献数 (該バイオアイ テムの上記バイオアイテム文献セットの文献数 Nh)、
から構成される文献数テーブルを作成するテーブル作成ステップと、
上記候補バイオアイテム毎に、上記文献数テーブルを用いて統計計算に基づ ヽて
、該ノィォアイテムと上記キーワードとの相関スコアを算出する相関スコア算出ステツ プと、
上記相関スコア算出ステップにお 、て算出された上記相関スコアに基づ 、て、上 記候補バイオアイテムを上記出力装置に出力する出力ステップと、 を含む方法をバイオアイテム検索装置に実行させることを特徴とするプログラム。
PCT/JP2007/059268 2006-04-28 2007-04-27 バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム Ceased WO2007126088A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/992,492 US7921105B2 (en) 2006-04-28 2007-04-27 Bioitem searcher, bioitem search terminal, bioitem search method, and program
JP2008513314A JP5180822B2 (ja) 2006-04-28 2007-04-27 バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
EP07742703A EP2015208A4 (en) 2006-04-28 2007-04-27 BIOITEM SEARCHER, BIOITEM SEARCH ENDDER, BIOITEM SEARCH PROCESS, AND CORRESPONDING PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006125786 2006-04-28
JP2006-125786 2006-04-28

Publications (1)

Publication Number Publication Date
WO2007126088A1 true WO2007126088A1 (ja) 2007-11-08

Family

ID=38655608

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/059268 Ceased WO2007126088A1 (ja) 2006-04-28 2007-04-27 バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム

Country Status (4)

Country Link
US (1) US7921105B2 (ja)
EP (1) EP2015208A4 (ja)
JP (1) JP5180822B2 (ja)
WO (1) WO2007126088A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018008541A1 (ja) * 2016-07-06 2018-01-11 日本電信電話株式会社 フィッシャー正確検定計算装置、方法及びプログラム
WO2018008544A1 (ja) * 2016-07-06 2018-01-11 日本電信電話株式会社 フィッシャー正確検定計算装置、方法及びプログラム
US11210599B2 (en) 2016-12-28 2021-12-28 Fujitsu Limited Information processing apparatus and method
JP2024502513A (ja) * 2020-12-23 2024-01-22 ビージーアイ ゲノミクス カンパニー., リミテッド 遺伝子の関連度を決定するための方法およびデバイス

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101451562B1 (ko) * 2007-08-10 2014-10-24 삼성전자주식회사 휴대용 단말기의 데이터 저장 방법 및 장치
US8260763B2 (en) * 2010-01-15 2012-09-04 Hewlett-Packard Devlopment Company, L.P. Matching service entities with candidate resources
KR101694727B1 (ko) * 2015-12-28 2017-01-10 주식회사 파수닷컴 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language
BR112022003279A2 (pt) * 2019-10-01 2022-05-24 Jfe Steel Corp Sistema de busca de informações
JP7657588B2 (ja) * 2020-12-28 2025-04-07 株式会社日立製作所 計算機システム、及び、その方法
CN113297435B (zh) * 2021-07-27 2021-10-15 中国石油天然气集团有限公司 一种基于基因码的物资管理方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830629A (ja) 1994-07-13 1996-02-02 Fuji Xerox Co Ltd 文書処理装置
JPH10149376A (ja) 1996-11-18 1998-06-02 Matsushita Electric Ind Co Ltd 設計データ管理装置及びその方法
JP2001290822A (ja) 2000-04-05 2001-10-19 Iyaku Bunshi Sekkei Kenkyusho:Kk 候補遺伝子に優先度をつける装置
JP2003044481A (ja) * 2001-08-02 2003-02-14 World Fusion Co Ltd 研究遺伝子産物の重要性を予測するシステム
JP2003141123A (ja) 2001-10-30 2003-05-16 Mamoru Kato 遺伝子発現量データと遺伝子配列データから、遺伝子間の制御関係を推定するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
JP2006072671A (ja) 2004-09-01 2006-03-16 Nec Corp 検索支援システム、検索支援装置、検索支援方法及び検索支援プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2396495A1 (en) * 2000-01-25 2001-08-02 Cellomics, Inc. Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data
US20020133498A1 (en) * 2001-01-17 2002-09-19 Keefer Christopher E. Methods, systems and computer program products for identifying conditional associations among features in samples
AU2002256173A1 (en) * 2001-04-09 2002-10-21 Mds Proteomics, Inc. Methods and systems for searching genomic databases
US7155453B2 (en) * 2002-05-22 2006-12-26 Agilent Technologies, Inc. Biotechnology information naming system
US7162465B2 (en) * 2001-12-21 2007-01-09 Tor-Kristian Jenssen System for analyzing occurrences of logical concepts in text documents
US20050197783A1 (en) * 2004-03-04 2005-09-08 Kuchinsky Allan J. Methods and systems for extension, exploration, refinement, and analysis of biological networks
EP1547009A1 (en) * 2002-09-20 2005-06-29 Board Of Regents The University Of Texas System Computer program products, systems and methods for information discovery and relational analyses
JP4257677B2 (ja) * 2002-10-31 2009-04-22 株式会社 ワールドフュージョン 研究遺伝子産物データ分類システム
US20050160082A1 (en) * 2004-01-16 2005-07-21 The Regents Of The University Of California System and method of context-specific searching in an electronic database
US20050240583A1 (en) * 2004-01-21 2005-10-27 Li Peter W Literature pipeline
JP2006099388A (ja) * 2004-09-29 2006-04-13 Hitachi Software Eng Co Ltd テキストマイニングサーバ及びテキストマイニングシステム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830629A (ja) 1994-07-13 1996-02-02 Fuji Xerox Co Ltd 文書処理装置
JPH10149376A (ja) 1996-11-18 1998-06-02 Matsushita Electric Ind Co Ltd 設計データ管理装置及びその方法
JP2001290822A (ja) 2000-04-05 2001-10-19 Iyaku Bunshi Sekkei Kenkyusho:Kk 候補遺伝子に優先度をつける装置
JP2003044481A (ja) * 2001-08-02 2003-02-14 World Fusion Co Ltd 研究遺伝子産物の重要性を予測するシステム
JP2003141123A (ja) 2001-10-30 2003-05-16 Mamoru Kato 遺伝子発現量データと遺伝子配列データから、遺伝子間の制御関係を推定するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
JP2006072671A (ja) 2004-09-01 2006-03-16 Nec Corp 検索支援システム、検索支援装置、検索支援方法及び検索支援プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP2015208A4
TAKANO A. ET AL.: "Han'yo Renso Keisan Engine no Kaihatsu to Daikibo Bunsho Bunseki eno Oyo", 2002, XP003018928, Retrieved from the Internet <URL:http://www.geta.ex.nii.ac.jp/pdf/itx2002.pdf> *
TSUJIMOTO H. ET AL.: "Rensogata Joho Kensaku System no Genomic database eno Oyo to sono Heiretsuka", ANNUAL CONFERENCE OF JSAI (DAI 14 KAI) RONBUNSHU, THE JAPANESE SOCIETY OR ARTIFICIAL INTELLIGENCE, 2002, pages 168 - 170, XP003018927 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018008541A1 (ja) * 2016-07-06 2018-01-11 日本電信電話株式会社 フィッシャー正確検定計算装置、方法及びプログラム
WO2018008544A1 (ja) * 2016-07-06 2018-01-11 日本電信電話株式会社 フィッシャー正確検定計算装置、方法及びプログラム
JPWO2018008541A1 (ja) * 2016-07-06 2019-04-25 日本電信電話株式会社 フィッシャー正確検定計算装置、方法及びプログラム
US11544350B2 (en) 2016-07-06 2023-01-03 Nippon Telegraph And Telephone Corporation Fisher's exact test calculation apparatus, method, and program
US11210599B2 (en) 2016-12-28 2021-12-28 Fujitsu Limited Information processing apparatus and method
JP2024502513A (ja) * 2020-12-23 2024-01-22 ビージーアイ ゲノミクス カンパニー., リミテッド 遺伝子の関連度を決定するための方法およびデバイス

Also Published As

Publication number Publication date
EP2015208A4 (en) 2010-09-22
US20090112850A1 (en) 2009-04-30
JP5180822B2 (ja) 2013-04-10
JPWO2007126088A1 (ja) 2009-09-10
EP2015208A1 (en) 2009-01-14
US7921105B2 (en) 2011-04-05

Similar Documents

Publication Publication Date Title
JP5180822B2 (ja) バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
Xu et al. An in silico approach to identification, categorization and prediction of nucleic acid binding proteins
Liu et al. HITS-PR-HHblits: protein remote homology detection by combining PageRank and hyperlink-induced topic search
Mazandu et al. Gene ontology semantic similarity tools: survey on features and challenges for biological knowledge discovery
Mammalian Gene Collection (MGC) Program Team* Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences
Bairoch et al. The SWISS-PROT protein sequence data bank and its supplement TrEMBL in 1998
Hersh et al. TREC genomics special issue overview
Coordinators Database resources of the national center for biotechnology information
US20040186828A1 (en) Systems and methods for enabling a user to find information of interest to the user
WO2007149623A2 (en) Full text query and search systems and method of use
Birkland et al. BIOZON: a hub of heterogeneous biological data
Shatkay Hairpins in bookstacks: information retrieval from biomedical text
Pasche et al. Variomes: a high recall search engine to support the curation of genomic variants
Baltoumas et al. NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes
Serna García et al. CoVEffect: interactive system for mining the effects of SARS-CoV-2 mutations and variants based on deep learning
Kumar et al. Augmented training of hidden Markov models to recognize remote homologs via simulated evolution
Koussounadis et al. Improving classification in protein structure databases using text mining
Lee et al. Using annotations from controlled vocabularies to find meaningful associations
KR101106174B1 (ko) 온톨로지 기반의 단백질 상호작용 검색 엔진
Wood et al. Website Review: How to get the best from fission yeast genome data
Jones et al. Using the PRIDE proteomics identifications database for knowledge discovery and data analysis
Ravichandran et al. Ongoing development of two‐dimensional polyacrylamide gel electrophoresis data standards
Lal et al. State-of-the-Art Information Retrieval Tools for Biological Resources
Mulder et al. Interpro and interproscan
Masseroli et al. Web resources for gene list analysis in biomedicine

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2008513314

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07742703

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2007742703

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11992492

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE