JP2009128968A - 表記ゆれ解析装置 - Google Patents
表記ゆれ解析装置 Download PDFInfo
- Publication number
- JP2009128968A JP2009128968A JP2007300178A JP2007300178A JP2009128968A JP 2009128968 A JP2009128968 A JP 2009128968A JP 2007300178 A JP2007300178 A JP 2007300178A JP 2007300178 A JP2007300178 A JP 2007300178A JP 2009128968 A JP2009128968 A JP 2009128968A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- document
- extracted
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims description 33
- 201000010099 disease Diseases 0.000 claims description 20
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 20
- 238000003745 diagnosis Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 206010022000 influenza Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
【解決手段】 類似文書発見手段2が、文書収集手段1に記憶されている電子カルテのうち記述内容が類似するものを選出し、専門用語抽出手段3が、前記選出された類似の電子カルテの記述に出現する診療に関する単語を抽出し、同一表記語抽出手段4が、前記抽出された各単語のうち、各電子カルテに共通して出現する共通語を特定する。そして、表記違い語対応抽出手段5が、前記抽出された各単語のうちの共通語以外で且つ異なる電子カルテから抽出された単語の組を対象に、各単語の概念が同一であるか(同義語であるか)を判定し、対応表構成手段6が、同義語と判定された単語の組を対応表形式で出力する。
【選択図】 図1
Description
例えば、同義語がその表記の直後に丸括弧などで示されることが多いという事実を利用して、同義語対を抽出する方法が提案されている(特許文献1参照)。
例えば、単語間の同義関係の推定に、それらが出現する文書におけるそれらの単語の近傍の単語の統計情報を利用して判定する発明が提案されている(特許文献2参照)。
例えば、同一意味内容の文書(単言語パラレルコーパス)を用いて、表記ゆれを発見する発明が提案されている(特許文献3参照)。
本例では、A病院とB病院の2つのサイトがそれぞれ電子カルテを保有しており、2病院が統合するなどの理由により両病院間でのコミュニケーションを円滑にするために、各電子カルテで用いられている単語の対応表を作る必要が生じた場合を例に説明する。
本例の表記ゆれ解析装置は、文書収集手段1、類似文書発見手段2、専門用語抽出手段3、同一表記語抽出手段4、表記違い語対応抽出手段5、対応表構成手段6、を備えている。
本例で扱う電子カルテは、図2にデータ構成を例示するように、各電子カルテを識別する文書ID、所見・主訴及び病名などの診療結果を記述したテキストデータからなる実データ、電子カルテの作成者や作成日時などの属性データ、を含んでいる。なお、文書収集手段1は、電子カルテの収集の際にその収集元のサイトの識別コード(本例では病院の識別コード)を属性データに付加しており、どのサイトから収集した電子カルテかを事後的に把握できるようにしている。
例えば、診断結果が同一の病名について記述される電子カルテでほぼ同じ単語が用いられる一方、異なる単語についてはそれらが同一の概念を表す場合が多いという性質に基づいて、診断結果として記述された病名又はその識別コードが共通する電子カルテ同士を類似と判断する。例えば、疾患の発生に時期的な特徴のある病気(例えばインフルエンザ)についてはその診断結果に係る電子カルテが同時期に作成され、各電子カルテでほぼ同じ単語が用いられる一方、異なる単語についてはそれらが同一の概念を表す場合が多いという性質に基づいて、作成時期が共通性を有する電子カルテ同士を類似と判断する。
また、上記の各手法を複数組合せてもよく、これにより、類似の電子カルテを選出する精度が高められる。
本例では、公知の固有名抽出技術を利用して単語抽出を行っているが、例えば、ストップワードと一般語を除去する方法など、他の方法を利用して単語抽出することもできる。
なお、抽出した各単語は、電子カルテ毎にリストとして保持してもよく、抽出元の電子カルテの該当部分にタグを付してもよい。
本例では、各単語の共通性を、単なる文字列の同一性を見て判定することで処理の簡略化を図っているが、語の活用などの表記変化を加味して判定してもよい。また、類似の電子カルテが3以上ある場合に、本例では、全ての電子カルテに出現するものを共通語としているが、例えば、少なくとも2つの電子カルテに出現するものを共通語としてもよく、所定割合以上の電子カルテに出現するものを共通語としてもよい。
なお、特定した各共通語は、リストとして保持してもよく、電子カルテ毎の単語リスト中の各単語に共通語を示すフラグを付してもよく、抽出元の電子カルテの該当部分に共通語を示すタグを付してもよい。
(1)抽出元の電子カルテを作成した主体が異なる場合に同義語として肯定的に評価する。
この評価基準は、電子カルテの作成主体(医師又はその医師が所属する科や病院など)が同じ場合には表記ゆれが少ない(つまり、或る概念の表記が統一化されている)一方、作成主体が異なる場合には或る概念について異なる表記を用いる場合が多いという性質に基づいている。なお、この基準を採用するにあたり、作成主体の名称又はその識別コードが電子カルテに付加(又は属性データとして記録)されていることを要する。
この評価基準は、各単語の構成文字が一部異なる場合や構成文字が同じでその並びが異なる場合のように、表記が類似する単語は同一の概念を表す場合が多いという性質に基づいている。
この評価基準は、その単語周辺を自然言語処理した際の品詞などの形態素情報や構文情報(例えば「が格」に出現)が類似するなど、出現パターンに構文的な共通性が有る単語は同一の概念を表す場合が多いという性質に基づいている。なお、この基準を採用するにあたり、形態素解析や構文解析などの自然言語解析機能が必要となる。
この評価基準は、電子カルテにおいて単語が出現する項目名(フィールド名)、絶対的な出現位置、或いは周辺に共通して出現する単語を考慮した相対的な出現位置など、電子カルテにおける出現位置に共通性が有る単語は同一の概念を表す場合が多いという性質に基づいている。
この評価基準は、診断結果が同一の病名について記述される電子カルテでほぼ同じ単語が用いられる一方、異なる単語についてはそれらが同一の概念を表す場合が多いという性質に基づいている。なお、病名や識別コードの特定は、例えば病名欄に記述された単語を病名と特定し、例えば所定の規則に従った文字列を識別コードと特定するといったように、種々の手法により行うことができる。
この評価基準は、疾患の発生に時期的な特徴のある病気(例えばインフルエンザ)については、その診断結果に係る電子カルテが同時期に作成されて各電子カルテでほぼ同じ単語が用いられる一方、異なる単語についてはそれらが同一の概念を表す場合が多いという性質に基づいている。なお、この基準を採用するにあたり、作成日時が電子カルテに付加(又は属性データとして記録)されていることを要する。
ここで、評価基準を満たすか否かの判断は、評価基準に対する適合度を算出し、これを予め定めた閾値と比較して行ってもよい。なお、複数の評価基準を用いる場合には、各評価基準に対する適合度を評価基準毎の閾値と個別に比較して同義語の判定を行ってもよく、各評価基準に対する適合度を集約して算出した総括的な適合度を閾値と比較して同義語の判定を行ってもよい。また、各評価基準に対する適合度を評価基準毎の閾値と個別に比較して評価する場合には、或る評価基準について評価し、当該評価基準に適合する場合にのみ次の評価基準について評価するというように、評価対象を絞り込みつつ処理を行うことで、処理負担の軽減を図るようにしてもよい。
対応表の出力は、液晶ディスプレイ等の表示手段により表示出力して利用者に提示してもよく、用紙等の媒体に印刷手段により印刷出力して利用者に提示してもよく、情報を記憶保持する記憶手段に出力して事後的に利用できるようにしてもよい。
類似文書発見手段2が、文書収集手段1に記憶されている電子カルテのうち記述内容が類似するものを選出し(ステップS1)、専門用語抽出手段3が、前記選出された類似の電子カルテの記述に出現する診療に関する単語を抽出し(ステップS2)、同一表記語抽出手段4が、前記抽出された各単語のうち、各電子カルテに共通して出現する共通語を特定する(ステップS3)。そして、表記違い語対応抽出手段5が、前記抽出された各単語のうちの共通語以外で且つ異なる電子カルテから抽出された単語の組を対象に、各単語の概念が同一であるか(同義語であるか)を判定し(ステップS4)、対応表構成手段6が、同義語と判定された単語の組を対応表形式で出力する(ステップS5)。
すなわち、本例の表記ゆれ解析装置は、各種演算処理を行うCPU、CPUの作業領域となるRAM、基本的な制御プログラムを記憶するROM、本発明に係る各機能を実現するためのプログラム等を記憶するHDD、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F、他の装置との間で通信を行うインターフェースである通信I/F、等のハードウェア資源を有するコンピュータで構成されている。
また、本発明に係る表記ゆれ解析装置の各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、専用のハードウエアモジュールで構成してもよい。
また、本発明に係る表記ゆれ解析装置の各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
2:類似文書発見手段、
3:専門用語抽出手段、
4:同一表記語抽出手段、
5:表記違い語対応抽出手段、
6:対応表構成手段
Claims (8)
- 診療結果を記述した電子的な文書を複数記憶する記憶手段と、
記述内容が類似する複数の文書を選出する選出手段と、
文書中の記述に出現する診療に関する単語を抽出する抽出手段と、
前記選出した各文書から抽出した単語のうち各文書に共通して出現する単語を特定する特定手段と、
前記選出した各文書から抽出した単語のうち前記特定した単語以外で且つ異なる文書から抽出した単語の組を対象に、単語の概念の同一性に係る所定の基準を満たすか否かを判定する判定手段と、
所定の基準を満たすと判定された単語の組を出力する出力手段と、
を備えたことを特徴とする表記ゆれ解析装置。 - 前記文書には、その作成主体を示す作成主体情報が付加されており、
前記判定手段は、前記対象の各単語を抽出した文書に付加された作成主体情報が異なる場合に所定の基準を満たすと判定することを特徴とする請求項1に記載の表記ゆれ解析装置。 - 前記判定手段は、前記対象の各単語の表記が類似する場合に所定の基準を満たすと判定することを特徴とする請求項1又は請求項2に記載の表記ゆれ解析装置。
- 前記判定手段は、前記対象の各単語に係る構文が共通性を有する場合に所定の基準を満たすと判定することを特徴とする請求項1乃至請求項3のいずれか1項に記載の表記ゆれ解析装置。
- 前記判定手段は、前記対象の各単語を抽出した文書における該単語の出現位置が共通性を有する場合に所定の基準を満たすと判定することを特徴とする請求項1乃至請求項4のいずれか1項に記載の表記ゆれ解析装置。
- 前記判定手段は、前記対象の各単語を抽出した文書に診断結果として記述された病名又はその識別コードが共通する場合に所定の基準を満たすと判定することを特徴とする請求項1乃至請求項5のいずれか1項に記載の表記ゆれ解析装置。
- 前記判定手段は、前記対象の各単語を抽出した文書の作成時期が共通性を有する場合に所定の基準を満たすと判定することを特徴とする請求項1乃至請求項6のいずれか1項に記載の表記ゆれ解析装置。
- コンピュータを、
診療結果を記述した電子的な文書を複数記憶する記憶手段と、
記述内容が類似する複数の文書を選出する選出手段と、
文書中の記述に出現する診療に関する単語を抽出する抽出手段と、
前記選出した各文書から抽出した単語のうち各文書に共通して出現する単語を特定する特定手段と、
前記選出した各文書から抽出した単語のうち前記特定した単語以外で且つ異なる文書から抽出した単語の組を対象に、単語の概念の同一性に係る所定の基準を満たすか否かを判定する判定手段と、
所定の基準を満たすと判定された単語の組を出力する出力手段として機能させるための表記ゆれ解析プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007300178A JP5151412B2 (ja) | 2007-11-20 | 2007-11-20 | 表記ゆれ解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007300178A JP5151412B2 (ja) | 2007-11-20 | 2007-11-20 | 表記ゆれ解析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2009128968A true JP2009128968A (ja) | 2009-06-11 |
| JP5151412B2 JP5151412B2 (ja) | 2013-02-27 |
Family
ID=40819871
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007300178A Expired - Fee Related JP5151412B2 (ja) | 2007-11-20 | 2007-11-20 | 表記ゆれ解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5151412B2 (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014232389A (ja) * | 2013-05-28 | 2014-12-11 | Kddi株式会社 | 辞書生成装置 |
| JP2018136744A (ja) * | 2017-02-22 | 2018-08-30 | 日本電信電話株式会社 | 文書の表記のゆらぎの検出装置および文書の表記のゆらぎの検出方法 |
| CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
| JP2021149476A (ja) * | 2020-03-18 | 2021-09-27 | 富士通株式会社 | 情報提示プログラム、情報提示方法、及び情報提示装置 |
| JP2022082960A (ja) * | 2020-11-24 | 2022-06-03 | Psp株式会社 | 情報登録支援プログラム、情報登録支援システムおよび情報登録支援方法 |
| JP2023148993A (ja) * | 2022-03-30 | 2023-10-13 | 学校法人金井学園 | 医療用単語意味表現学習方法を用いた病名学習済みモデルとこれを用いた解釈性のある病名推定システム及びその推定方法 |
| JP2024027087A (ja) * | 2022-08-16 | 2024-02-29 | 之江実験室 | 汎用モデルに基づく標準的な医学用語管理システム及び方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
| JP2007233446A (ja) * | 2006-02-27 | 2007-09-13 | Oki Electric Ind Co Ltd | 同義語対抽出装置及び同義語対抽出方法 |
-
2007
- 2007-11-20 JP JP2007300178A patent/JP5151412B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006251843A (ja) * | 2005-03-08 | 2006-09-21 | Advanced Telecommunication Research Institute International | 同義語対抽出装置及びそのためのコンピュータプログラム |
| JP2007233446A (ja) * | 2006-02-27 | 2007-09-13 | Oki Electric Ind Co Ltd | 同義語対抽出装置及び同義語対抽出方法 |
Non-Patent Citations (2)
| Title |
|---|
| CSNG200500058003; 小野 大樹: '退院サマリからの診断に関する言語情報の抽出' 電子情報通信学会技術研究報告 Vol.103 No.295 IEICE Technical Report 第103巻、第295号, 20030901, page 13-18, 社団法人電子情報通信学会 * |
| JPN6012041848; 小野 大樹: '退院サマリからの診断に関する言語情報の抽出' 電子情報通信学会技術研究報告 Vol.103 No.295 IEICE Technical Report 第103巻、第295号, 20030901, page 13-18, 社団法人電子情報通信学会 * |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014232389A (ja) * | 2013-05-28 | 2014-12-11 | Kddi株式会社 | 辞書生成装置 |
| JP2018136744A (ja) * | 2017-02-22 | 2018-08-30 | 日本電信電話株式会社 | 文書の表記のゆらぎの検出装置および文書の表記のゆらぎの検出方法 |
| JP2021149476A (ja) * | 2020-03-18 | 2021-09-27 | 富士通株式会社 | 情報提示プログラム、情報提示方法、及び情報提示装置 |
| JP7452141B2 (ja) | 2020-03-18 | 2024-03-19 | 富士通株式会社 | 情報提示プログラム、情報提示方法、及び情報提示装置 |
| JP2022082960A (ja) * | 2020-11-24 | 2022-06-03 | Psp株式会社 | 情報登録支援プログラム、情報登録支援システムおよび情報登録支援方法 |
| CN113239206A (zh) * | 2021-06-18 | 2021-08-10 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
| CN113239206B (zh) * | 2021-06-18 | 2023-05-12 | 广东博维创远科技有限公司 | 一种裁判文书精准化数据归类分析方法及计算机可以读取的存储装置 |
| JP2023148993A (ja) * | 2022-03-30 | 2023-10-13 | 学校法人金井学園 | 医療用単語意味表現学習方法を用いた病名学習済みモデルとこれを用いた解釈性のある病名推定システム及びその推定方法 |
| JP2024027087A (ja) * | 2022-08-16 | 2024-02-29 | 之江実験室 | 汎用モデルに基づく標準的な医学用語管理システム及び方法 |
| JP7526316B2 (ja) | 2022-08-16 | 2024-07-31 | 之江実験室 | 汎用モデルに基づく標準的な医学用語管理システム及び方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5151412B2 (ja) | 2013-02-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5866370B2 (ja) | テキスト入力の際の関連用語の提案 | |
| JP5154832B2 (ja) | 文書検索システム及び文書検索方法 | |
| CN115812204A (zh) | 将用于训练人工智能模型的内容结构化的计算机实施的方法 | |
| JP5151412B2 (ja) | 表記ゆれ解析装置 | |
| JP2017509946A (ja) | コンテキスト依存医学データ入力システム | |
| KR20180050885A (ko) | 의료 데이터의 매핑 방법, 장치 및 컴퓨터 프로그램 | |
| Song et al. | Detecting language associated with home healthcare patient’s risk for hospitalization and emergency department visit | |
| CN111597789A (zh) | 一种电子病历文本的评估方法及设备 | |
| Grossman et al. | A method for harmonization of clinical abbreviation and acronym sense inventories | |
| US9881004B2 (en) | Gender and name translation from a first to a second language | |
| JP2011002997A (ja) | 医用情報システム | |
| CN111177309A (zh) | 病历数据的处理方法及装置 | |
| Xie et al. | An automated algorithm using free-text clinical notes to improve identification of transgender people | |
| Wang et al. | Radiology text analysis system (RadText): architecture and evaluation | |
| JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
| JP2008021267A (ja) | 文献検索システム、文献検索処理方法及び文献検索処理プログラム | |
| Sedghi et al. | Mining clinical text for stroke prediction | |
| JP2017167738A (ja) | 診断処理装置、診断処理システム、サーバ、端末装置、診断処理方法及びプログラム | |
| CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
| US20200250551A1 (en) | Knowledge acquisition device, knowledge acquisition method, and recording medium | |
| JP2007140861A (ja) | 情報処理システム、情報処理方法、およびプログラム | |
| CN119252449A (zh) | 基于大模型的导诊方法、设备、介质及产品 | |
| US8756234B1 (en) | Information theory entropy reduction program | |
| Saggion et al. | A multi-level annotated corpus of scientific papers for scientific document summarization and cross-document relation discovery | |
| JP2009211639A (ja) | 文書処理装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101021 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101118 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110505 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120806 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121004 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121119 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5151412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |