JP7526316B2 - 汎用モデルに基づく標準的な医学用語管理システム及び方法 - Google Patents

汎用モデルに基づく標準的な医学用語管理システム及び方法 Download PDF

Info

Publication number
JP7526316B2
JP7526316B2 JP2023093632A JP2023093632A JP7526316B2 JP 7526316 B2 JP7526316 B2 JP 7526316B2 JP 2023093632 A JP2023093632 A JP 2023093632A JP 2023093632 A JP2023093632 A JP 2023093632A JP 7526316 B2 JP7526316 B2 JP 7526316B2
Authority
JP
Japan
Prior art keywords
term
subdivision
standard
attributes
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023093632A
Other languages
English (en)
Other versions
JP2024027087A (ja
Inventor
▲勁▼松 李
紫怡 ▲兪▼
宗峰 ▲楊▼
雨 田
天舒 周
Original Assignee
之江実験室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江実験室 filed Critical 之江実験室
Publication of JP2024027087A publication Critical patent/JP2024027087A/ja
Application granted granted Critical
Publication of JP7526316B2 publication Critical patent/JP7526316B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は医学分野の技術分野に関し、特に汎用モデルに基づく標準的な医学用語管理システム及び方法に関する。
ビッグデータ時代の到来に伴い、医療ビッグデータの医学分野での応用価値も徐々に掘り起こして利用されるようになる。ところが、この過程において、マルチソースの医学データは統一された標準を有せず、過去に規範的な制約がないため、各業界において既存の医療データを最大限に合理的に利用できず、これも医学情報化構築及び医学研究発展の妨害要素となる。
現在、各大国内外の権威機構が発表した標準的な医学用語集は既に異なる分野に広く応用及び認可されているが、複数のニーズシーンに対応できて異なるサービスプラットフォーム間の壁を突破できる中国語の標準的な医学用語システムがまだない。このため、今の段階において、中国語の標準的な用語の現実の世界におけるカバー率が40%よりも低いだけであり、医療人工知能の応用ニーズを満たすことができない。
既存の中国語医学用語管理方法において、第1としては、snowflakeアルゴリズムによって同義の医学用語をマーキングし、概念を中心として統合した後、単一分類におけるツリーデータ構造医学辞書を構築し、第2としては、英語の医学用語リソース例えばSNOMED CTに対して機械翻訳及び大量の手動補正を行う。
第1形態においては、異なるソースから取得された医学用語を分類して、異なる意味の医学用語を取得し、概念を中心として同義の集まり及び語義の分類を実現し、更に異なる意味の医学概念をsnowflakeアルゴリズムによってマーキングし、異なる概念識別子に基づいて統合して医学概念リストを取得するとともに、正確な分類を満たすようにJaccard類似度アルゴリズムによって同じソースの医学用語に対して類似度の計算を行う。このような方法によってインクリメントIDを実現し、IDの一意性及びインデックス性能を確保する。その構築された用語システムは構造が単一で、拡張性が低く、多様なデータソース及び絶えず更新している応用シーンニーズを満たすための汎化能力及び柔軟性がない。用語内部及び用語間の関連情報を効果的に利用しないため、用語集の後続のメンテナンス及び拡張のために依然として多くの人件費を要する必要がある。1つの標準的な用語概念を追加する場合を例とし、従来の技術案は元の用語リストに同義の概念が存在するかどうかを判断することにより概念の分類又は追加を行うことができるだけである。追加した概念と元の用語リストにおける用語との間に階層関係がある場合、新たな概念を有効なノードの位置に自動的に追加できず、追加概念と既存概念との間に情報の関連がある場合、それも識別できず、従って関連情報を記憶するのであり、従来技術は用語自身の既存情報を効果的に利用して同類用語の集まりを行うことができず、手動で管理及びメンテナンスする必要があり、標準化された用語管理システム及び反復閉ループを効果的に形成することができない。
第2形態においては、大量の手動補正を行わずに機械翻訳のみを行う条件において、翻訳結果が専門概念から大きく外れることを回避できず、中国国内外言語の使用習慣の相違も無視しやすく、用語をマッピングする際に取得したリコール率が極めて低いことが多い。リコール率を向上させる必要がある場合、管理及びメンテナンスのために倍になる人件費及び資金コスト、並びに長い時間サイクルを要する。
現在、構築された用語システムは構造が単一で、拡張性が低く、多様なデータソース及び業務ニーズを満たすための汎化能力がなく、用語ライブラリを持続的且つ効率的に管理及び最適化するための柔軟性がない。主な表現は以下のとおりである。第(1)として、ソース情報を保留せず、標準的な用語と非標準的な用語とのマッピング関係を確立・記憶しない。第(2)として、用語内部及び用語間の関連関係を合理的に利用せず、標準的な用語概念の追加の場合には、元の用語リストに同義の概念が存在するかどうかを判断することにより概念の分類又は追加を行うことができるだけであり、追加する必要がある概念と元の用語リストにおける用語との間に階層関係がある場合、新たな概念を有効なノードの位置に自動的に追加できず、追加する必要がある概念は特定の応用ニーズを満たす必要があって、より高い階層に位置する場合、その中の関連情報を効果的に利用してそのサブクラスの同類用語の集まりを行い、第(3)として、用語ライブラリの後続の反復は多くの人件費を要し、効率的で標準化された用語管理システム及び反復閉ループを形成できない。
実際のニーズシーンを例とし、用語ライブラリがDRG又はDIPシステムの業務ニーズを満たす必要がある場合、用語を関連する標準データベース例えばICD-10医療保険バージョン、ICD-9-CM-3医療保険バージョンにマッピング又は遡及できるように確保する必要があり、1つの標準概念を例とし、臨床所見概念「下肢痛」は現在確立された標準的な用語ライブラリに存在せず且つ追加される必要がある場合、それを「四肢痛」及び「下肢臨床所見」のノードに自動的に追加して上記2つの用語概念のサブノードとする必要があるとともに、元に「四肢痛」ノードにある「下腿痛」、「足部痛」、「左下肢痛」を「下肢痛」のサブノードに一括で補正する必要があり、そして、身体部位情報「下肢」を発病部位に自動的に関連付けする必要がある。明らかに、従来技術はまだ上記用語の自動化管理プロセスを完了できない。
このために、上記技術的問題を解決するように汎用モデルに基づく標準的な医学用語管理システム及び方法を提供する。
上記技術的問題を解決するために、本発明は汎用モデルに基づく標準的な医学用語管理システム及び方法を提供する。
本発明が用いる技術案は以下のとおりである。
汎用モデルに基づく標準的な医学用語管理システムであって、 オープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得し、且つ構築されたシーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性名称に対応する細分の属性内容を取得することに用いられ、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性名称及び複数種類の副次的な細分の属性名称を含む用語情報処理モジュールと、 前記細分の属性内容から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了するための用語関係ネットワーク構築モジュールと、 異なる前記用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得するための用語ライブラリ自己増幅モジュールと、 前記用語ライブラリに対して可視化管理を行うための可視化管理モジュールと、を備える。
更に、前記可視化管理モジュールは、 ユーザーのプレビューデータを提供し、標準的な用語の可視化クエリを行い、異なる次元の選別条件に応じて対応する用語を選別するとともに、ユーザーログインインターフェース入口及び用語管理インターフェース入口を提供し、標準的な用語のトップレベルカテゴリ、同義語、親ノード用語、サブノード用語及び/又は属性情報を含む次元の標準的な用語情報を表示し、それと同時に関連用語詳細インターフェースに入る入口を提供するための標準的な医学用語クエリユニットと、 ユーザーが可視化インターフェースを介して標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うための用語編集ユニットと、 用語監査者が第二者監査を行い、監査者が用語監査結果の判定を行うための用語監査ユニットと、 ユーザーが異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保するための用語マッピングユニットと、を備える。
本発明は汎用モデルに基づく標準的な医学用語管理方法を更に提供し、 用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得し、且つ構築されたシーケンスラベリングモデルによって分割して前記細分の属性名称に対応する細分の属性内容を取得し、前記細分の属性内容が標準的な単語であり、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性名称及び複数種類の副次的な細分の属性名称を含むステップS1と、 前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了するステップS2と、 用語ライブラリ自己増幅モジュールによって異なる用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得するステップS3と、 可視化管理モジュールによって前記用語ライブラリに対して可視化管理を行い、前記可視化管理が標準的な医学用語クエリユニット、用語編集ユニット、用語監査ユニット及び用語マッピングユニットを備えるステップS4と、を含む。
更に、前記ステップS1は具体的に、 用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、元の用語の階層関係、関連関係及び/又は符号化情報を保持してソースタグを付けて、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得するサブステップS11と、 事前訓練言語モデルによってシーケンスラベリングモデルを構築して、前記シーケンスラベリングモデルによってオープンソース標準用語データを分割して細分の属性内容を取得するサブステップS12と、を含む。
更に、前記サブステップS12は具体的に、 事前訓練言語モデルによってオープンソース標準用語データにおける各文字/単語のベクトル表現を計算するサブステップS121と、 前記ベクトル表現に対して自己注意メカニズムによって各文字/単語の出力状態を計算するサブステップS122と、 前記出力状態に対して完全接続ニューラルネットワークにより計算を行って各文字/単語が各種類の細分の属性カテゴリに属する確率を取得し、シーケンスラベリングモデルの構築を完了するサブステップS123と、 前記オープンソース標準用語データを前記シーケンスラベリングモデルによって分割して細分の属性内容を取得し、前記細分の属性内容が標準的な単語であり、前記細分の属性内容が主要な細分の属性内容及び副次的な細分の属性内容を含むサブステップS124と、を含む。
更に、前記ステップS2は具体的に、 前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から任意の標準的な語義単語を検索し、アルゴリズムによってカルテテキストの細分の属性と前記任意の標準的な語義単語との語義類似度を取得し、語義類似度が最も高い標準的な単語を選択して標準化マッピング関係を確立するサブス
テップS21と、 アルゴリズムによって分割して副次的な細分の属性を取得し、現在のカルテテキストには説明タイプを定義できる親ノードが存在し、且つ分割して取得された主要な細分の属性にはタイプ情報が含まれない場合、主要な細分の属性を情報追加して情報に対応する細粒度サブノードに補正し、標準化マッピング関係の補正を完了するサブステップS22と、 単一の用語カテゴリが複数のタイプの副次的な細分の属性を含むことに起因して補正後の主要な細分の属性が複数ある場合、最も多く存在する主要な細分の属性のカルテテキストにおける親ノードを最後の主要な細分の属性として選択するサブステップS23と、 アルゴリズムによって分割して取得された結果は各次元の情報に欠損があって、データソース自身に階層構造が存在することである場合、前記用語カテゴリの親ノード分割結果によって情報補完を行い、用語関係ネットワークの設立を完了するサブステップS24と、を含む。
更に、前記サブステップS21は具体的に、 前記カルテテキストの細分の属性及び前記標準的な単語から前記カルテテキストの細分の属性と前記標準的な単語を含む文セット、前記カルテテキストの細分の属性及び前記標準的な単語の左側に位置する文セット、並びに前記カルテテキストの細分の属性及び前記標準的な単語の右側に位置する文セットを取得するサブステップS211と、 いずれか1対の文セットの平均値を計算して、最終的な平均値の組み合わせによって語義類似度を取得し、語義類似度が最も高い標準的な単語を選択して標準化マッピング関係を確立するサブステップS212と、を含む。
更に、前記ステップS3は具体的に、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが有効である場合、直接にマッピング結果とし、標準化マッピングが無効である場合、前記カルテテキストの細分の属性から前記標準的な単語における他の可能な細分の属性カテゴリ及び標準的な語義単語への標準化マッピングを、アルゴリズムが推奨する、手動で監査する必要があるマッピング結果として改めて計算し、異なる用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得する。
更に、前記ステップS3は具体的に、 語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが無効である場合、カルテテキストを分割して取得したカルテテキストの細分の属性と標準的な語義単語との距離を計算するサブステップS31と、 標準的な語義単語を距離に応じて降順で配列し、上位K個の標準的な単語を取って細分の属性との距離が最も近い標準的な単語セットを構成するサブステップS32と、 細分の属性カテゴリにおける標準的な語義単語の推奨スコアを計算し、すべての細分の属性カテゴリを推奨スコアに応じて降順で配列し、上位k1個の細分の属性カテゴリを取ってアルゴリズムが推奨する細分の属性から標準的な用語システムにおける細分の属性カテゴリへマッピングするアルゴリズム推奨キューを構成するサブステップS33と、 すべての標準的な単語を語義類似度に応じて降順で配列し、上位k2個の標準的な単語を取って細分の属性から細分の属性カテゴリにおける標準的な単語へマッピングするアルゴリズム推奨キューを構成するサブステップS34と、 すべてのアルゴリズム推奨キューを組み合わせて、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得するサブステップS35と、を含む。
更に、前記ステップS4は具体的に、ユーザーが異なる選別条件に応じて、標準的な医学用語クエリユニットによって対応する用語を選別することと、ユーザーが用語編集ユニットによって標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うことと、用語監査者が用語監査ユニットによって用語監査結果の判定を行うことと、ユーザーが用語マッピングユニットによって異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保することと、を含む。
本発明の有益な効果は以下のとおりである。 第1として、本発明が構築した標準的な医学用語ライブラリは異なる科学研究及び業務使用シーンを満たすことができ、異なるプラットフォーム及び権威機構の標準的な医学用語と互換的であり、又はそれに遡及することができ、設計された構造体が用語の各種類の組み合わせ拡張をサポートすることができ、 第2として、本発明は複数の標準的な用語の間且つ単一標準的な用語内部の関連情報を保持して利用し、アルゴリズム及び論理ルールによって標準的な用語概念の自動追加及び集まりの推奨を行い、 第3として、本発明は標準的な用語ライブラリに対する一部の人件費による効率的で半自動化の管理及びメンテナンスをサポートすることができる。各権威機構が発表した標準的な医学用語及び多施設臨床データと良好なフィードバックメカニズムを形成する。
図1は本発明に係る汎用モデルに基づく標準的な医学用語管理システムの模式図である。 図2は本発明の実施例に係る用語関係ネットワークの構造図である。
以下の少なくとも1つの例示的な実施例についての説明は実際に説明的なものであって、本発明及びその応用又は使用を制限するものではない。本発明の実施例に基づいて、当業者が創造的な労力を要することなく取得したすべての他の実施例は、いずれも本発明の保護範囲に属する。
図1を参照し、汎用モデルに基づく標準的な医学用語管理システムであって、 オープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得し、且つ構築されたシーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性名称に対応する細分の属性内容を取得することに用いられ、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性名称及び複数種類の副次的な細分の属性名称を含む用語情報処理モジュールと、 前記細分の属性内容から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了するための用語関係ネットワーク構築モジュールと、 異なる前記用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得するための用語ライブラリ自己増幅モジュールと、 前記用語ライブラリに対して可視化管理を行うための可視化管理モジュールと、を備え、 前記可視化管理モジュールは、 ユーザーのプレビューデータを提供し、標準的な用語の可視化クエリを行い、異なる次元の選別条件に応じて対応する用語を選別するとともに、ユーザーログインインターフェース入口及び用語管理インターフェース入口を提供し、標準的な用語のトップレベルカテゴリ、同義語、親ノード用語、サブノード用語及び/又は属性情報を含む次元の標準的な用語情報を表示し、それと同時に関連用語詳細インターフェースに入る入口を提供するための標準的な医学用語クエリユニットと、 ユーザーが可視化インターフェースを介して標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うための用語編集ユニットと、 用語監査者が第二者監査を行い、監査者が用語監査結果の判定を行うための用語監査ユニットと、 ユーザーが異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保するための用語マッピングユニットと、を備える。
実施例 汎用モデルに基づく標準的な医学用語管理方法であって、下記ステップを含む。
ステップS1では、用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得し、且つ構築されたシーケンスラベリングモデルによって分割して前記細分の属性名称に対応する細分の属性内容を取得し、前記細分の属性内容が標準的な単語であり、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性名称及び複数種類の副次的な細分の属性名称を含み、 ステップS11では、用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、元の用語の階層関係、関連関係及び/又は符号化情報を保持してソースタグを付けて、用語カテゴリ及び用語カテゴリに対応する細分の属性名称を取得し、 オープンソース標準用語データの間に対応関係がある場合、該情報を一括で保持し、機構又は個人が異なるシーンニーズに直面する場合に依然としてデータを効果的に利用及び変換することができ、情報交換をスムーズに行うように確保する。
ステップS12では、事前訓練言語モデルによってシーケンスラベリングモデルを構築して、前記シーケンスラベリングモデルによってオープンソース標準用語データを分割して細分の属性内容を取得する。
ステップS121では、事前訓練言語モデルによってオープンソース標準用語データにおける各文字/単語のベクトル表現を計算し、 オープンソース標準用語データXについては、それに含まれるすべての文字及びすべての単語を一体に接合する場合、
Figure 0007526316000001
と示されてもよく、ここで、
Figure 0007526316000002
がXに含まれる合計m個の文字であり、
Figure 0007526316000003
がXに含まれる合計n個の単語である。文字/単語xの医学用語Xにおける開始位置がhead[x]と記され、終了位置がtail[x]と記される。まず事前に訓練されたBertモデルによって各文字/単語のベクトル表現をemb(x)として計算し、 ステップS122では、前記ベクトル表現に対して自己注意メカニズムによって各文字/単語の出力状態を計算し、 各文字/単語xのxに対する注意重みwi,jを計算し、
Figure 0007526316000004
ここで、
Figure 0007526316000005
がxとxの相対位置ベクトルを示し、MとMがいずれも事前に訓練されたBertモデルによって訓練して取得した重み行列パラメータである。自己注意メカニズムによって各文字/単語xの位置での出力状態output(x)を計算し、
Figure 0007526316000006
ステップS123では、前記出力状態に対して完全接続ニューラルネットワークにより計算を行って各文字/単語が各種類の細分の属性カテゴリに属する確率を取得し、シーケンスラベリングモデルの構築を完了し、 最後に出力状態に対して1層の完全接続ニューラルネットワークによって文字/単語xが各種類の細分の属性に属する確率分布prob(x)を計算し、
Figure 0007526316000007
ここで、Wが行列パラメータであり、bがベクトルパラメータであり、それらがシーケンスラベリングモデル全体によって訓練して取得したもの
であり、Wの行数とbの次元がいずれも医療用語の細分の属性のカテゴリ数に等しく、softmaxがベクトルのSoftmax関数を示す。prob(x)はオープンソース標準用語データに対するシーケンスラベリングモデルの最終出力であって、確率からなるベクトルであり、次元がオープンソース標準用語データの細分の属性カテゴリの数に等しい。prob(x)のk番目の要素は文字/単語xが第k種類の細分の属性カテゴリに属する確率を示し、最も大きな要素はアルゴリズムが許可するxが属する細分の属性カテゴリ及び対応する確率を示す。
ステップS124では、前記オープンソース標準用語データを前記シーケンスラベリングモデルによって分割して細分の属性内容を取得し、前記細分の属性内容が標準的な単語であり、前記細分の属性内容が主要な細分の属性内容及び副次的な細分の属性内容を含む。
すべてのカテゴリの用語に対して方向性のある内部細分の属性情報構造の設計を行い、各種類の用語カテゴリにはいずれも1種類の主要な細分の属性名称及び複数種類の副次的な細分の属性名称が含まれるとともに、異なるカテゴリ用語間の関係の定義を完了する。
ステップS2では、前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了し、図2を参照し、 図2における「Acute panmyelosis with myelofibrosis」とは「骨髄線維症を伴う急性汎骨髄症」のsnomed ctの用語集における対応する英語概念を指す。
カルテテキストから分割して取得されたカルテテキストの細分の属性aについては、前記標準的な単語からカルテテキストの細分の属性aとの語義類似度が最も高い標準的な語義単語
Figure 0007526316000008
を検索し、カルテテキストの細分の属性aと標準的な語義単語
Figure 0007526316000009
との間に標準化マッピング関係を確立する。例えば、漢方製剤の名称情報におけるケイカを物質であるドケイガイ、スイダンカにマッピングすることができる。操作の名称用語における粒子放射を物理エネルギーである電離放射線及び物質である放射性同位体にマッピングすることができる。それと同時に、属性チェーン「活性成分」、「物理エネルギー」、「目標物質」によって情報の関連付けを行う。
ステップS21では、前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から任意の標準的な語義単語を検索し、アルゴリズムによってカルテテキストの細分の属性と前記任意の標準的な語義単語との語義類似度を取得し、語義類似度が最も高い標準的な単語を選択して標準化マッピング関係を確立し、 ステップS211では、前記カルテテキストの細分の属性及び前記標準的な単語から前記カルテテキストの細分の属性と前記標準的な単語を含む文セット、前記カルテテキストの細分の属性及び前記標準的な単語の左側に位置する文セット、並びに前記カルテテキストの細分の属性及び前記標準的な単語の右側に位置する文セットを取得し、
Figure 0007526316000010
で前記標準的な単語におけるカルテテキストの細分の属性aと同じ細分の属性カテゴリを有する任意の標準的な単語を示す場合、カルテテキストの細分の属性aと任意の標準的な単語
Figure 0007526316000011
との語義類似度は2つの部分に分けられ、第1部分はそれらのベクトル表現の類似度即ち
Figure 0007526316000012
であり、ここで、cosが計算ベクトルのコサイン類似度を示す。第2部分はカルテテキストの細分の属性aと任意の標準的な単語
Figure 0007526316000013
の文脈との類似度であり、ここの文脈とは病院のカルテテキストにおけるカルテテキストの細分の属性aと任意の標準的な単語
Figure 0007526316000014
を含む文、並びにカルテテキストの細分の属性a及び任意の標準的な単語
Figure 0007526316000015
の左側又は右側に位置する文を指す。
Figure 0007526316000016

Figure 0007526316000017
及び
Figure 0007526316000018
でそれぞれ病院から取得された大量のカルテテキストにおけるカルテテキストの細分の属性aを含む文セット、カルテテキストの細分の属性aの左側に位置する文セット及びカルテテキストの細分の属性aの右側に位置する文セットを示し、同様に
Figure 0007526316000019

Figure 0007526316000020
及び
Figure 0007526316000021
でそれぞれ任意の標準的な単語
Figure 0007526316000022
を含む文セット、任意の標準的な単語
Figure 0007526316000023
の左側に位置する文セット及び任意の標準的な単語
Figure 0007526316000024
の右側に位置する文セットを示す。
ステップS212では、いずれか1対の文セットの平均値を計算して、最終的な平均値の組み合わせによって語義類似度を取得し、語義類似度が最も高い標準的な単語を選択して標準化マッピング関係を確立する。
文セット
Figure 0007526316000025

Figure 0007526316000026
との語義類似度はこの2つのセットにおけるいずれか1対の文のベクトル表現類似度の平均値として定義され、計算方法は、以下の通りであり、
Figure 0007526316000027
ここで、
Figure 0007526316000028

Figure 0007526316000029
がそれぞれセット
Figure 0007526316000030
及び
Figure 0007526316000031
における文の個数を示す。emb(u)とemb(v)がそれぞれ文u及びvのベクトル表現を示し、事前に訓練された言語モデルにより計算して取得したものである。cosが計算ベクトルのコサイン類似度を示す。同じ方法で計算してカルテテキストの細分の属性aと任意の標準的な単語
Figure 0007526316000032
の左側の文セットとの語義類似度
Figure 0007526316000033
及び右側の文セットとの語義類似度
Figure 0007526316000034
を取得する。最終的に上記2つの部分の結果を組み合わせてカルテテキストの細分の属性aと任意の標準的な単語
Figure 0007526316000035
との語義類似度
Figure 0007526316000036
を取得し、
Figure 0007526316000037
ここで、
Figure 0007526316000038
が手動で設定した重みパラメータであり、本実施例においてw=w=0.4、w=w=0.1を取る。オープンソース標準用語データから該細分の属性カテゴリにおける任意の標準的な単語
Figure 0007526316000039
をトラバースし、語義類似度が最も高い標準的な単語
Figure 0007526316000040
即ちカルテテキストの細分の属性aの標準化マッピング結果を選択し、標準化マッピング関係の構築を完了する。
ステップS22では、アルゴリズムによって分割して副次的な細分の属性を取得し、現在のカルテテキストには説明タイプを定義できる親ノードが存在し、且つ分割して取得された主要な細分の属性にはタイプ情報が含まれない場合、主要な細分の属性を情報追加して情報に対応する細粒度サブノードに補正し、標準化マッピング関係の補正を完了し、 例えば、データ「喀黄膿痰」については、アルゴリズムによって分割して取得した結果は、評価対象が痰であり、一般説明#1が黄であり、一般説明#2が膿であるということであり、細分の属性「黄」及び「膿」がそれぞれ細分の属性「色」及び「炎症形態」のノードにあるため、評価対象「痰」を「喀痰の性状」及び「喀痰の色」に補正し、又は上記用語の同一親ノード「喀痰の外観」を評価対象として用いる必要がある。
ステップS23では、単一の用語カテゴリが複数のタイプの副次的な細分の属性を含むことに起因して補正後の主要な細分の属性が複数ある場合、最も多く存在する主要な細分の属性のカルテテキストにおける親ノードを最後の主要な細分の属性として選択し、 ステップS24では、アルゴリズムによって分割して取得された結果は各次元の情報に欠損があって、データソース自身に階層構造が存在することである場合、前記用語カテゴリの親ノード分割結果によって情報補完を行い、用語関係ネットワークの設立を完了する。
例えば、原データ「生体外血管を介する治療」については、用語を分割してから主語を取得できない場合、その親ノード「薬物の静脈バイパス移植[誘導]圧迫療法」を分割して取得した情報で補完し、操作方法が「移植」である。データソースが階層構造を有しない場合、主語を該カテゴリにおける最も高いノード即ち「操作方法」で代替する。オープンソース標準用語データには一般的に親子階層構造の情報があるため、属性関係ネットワークを改善する必要があるだけである。取得された細分の属性が非常に完全な医学用語については、該用語と細分の属性単語とを定義された関係タイプによって関連付けする必要があるだけであり、細分の属性の完全性がない場合、上記論理に基づいて補完してから関連付けすれば、用語関係ネットワークを形成することができる。
ステップS3では、用語ライブラリ自己増幅モジュールによって異なる用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得し、 前記ステップS3は具体的に、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが有効である場合、直接にマッピング結果とし、標準化マッピングが無効である場合、前記カルテテキストの細分の属性から前記標準的な単語における他の可能な細分の属性カテゴリ及び標準的な語義単語への標準化マッピングを、アルゴリズムが推奨する、手動で監査する必要があるマッピング結果として改めて計算し、異なる用語カテゴリに対してインクリメント推奨を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得する。
処理する必要があるカルテテキストはタイルフォーマットであり、即ち自身に階層関係が含まれない場合、取得された細分の属性情報によって階層構造の判断を行い、先に親子関係を関連付けし、更に属性関係を関連付けする。
アルゴリズムはHIS、EMRシステムにおけるデータ記憶ルールに従って、異なる分類における用語に対応する選別ソースを特定する。例えば、症状、疾病類用語を電子カルテにおける診断、主訴、既往歴、補助検査ソースから取得し、操作類用語を試験検査、画像学的検査、手術などのソースから取得することができ、薬物の名称を医者の指示、外来処方箋などのソースから取得することができる。病院から大量のカルテテキストデータを取得し、マッピングを完了できない情報の場合には、同様に分割して取得された細分の属性単語の名称、用語カテゴリなどに基づいて、アルゴリズムが推奨する記憶及び補正対象のキューを形成する。カルテテキストから分割
して取得されたカルテテキストの細分の属性aについては、上記方法でそれを標準的な用語システムにおける標準的な単語
Figure 0007526316000041
にマッピングし、それらの語義類似度が条件
Figure 0007526316000042
を満たす場合、今回の標準化マッピングが有効であると見なし、直接に今回のマッピング結果を標準的な用語システムに記憶することができ、ここで、cが手動で設定した閾値であり、本実施例においてc=0.9を取る。上記条件を満たさない場合、カルテテキストの細分の属性aから標準的な単語
Figure 0007526316000043
への標準化マッピングが無効であると見なし、カルテテキストの細分の属性aからオープンソース標準用語データにおける他の可能な細分の属性カテゴリ及び標準的な単語への標準化マッピングを、アルゴリズムが推奨する、手動で監査する必要があるマッピング結果として改めて計算する必要があり、 ステップS31では、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが無効である場合、カルテテキストを分割して取得したカルテテキストの細分の属性と標準的な語義単語との距離を計算し、 オープンソース標準用語データにおけるすべての標準的な単語のセットをAとし、カルテテキストの細分の属性カテゴリCにおけるすべての標準的な単語セットをAとし、カルテテキストから分割して取得したカルテテキストの細分の属性a及び標準的な用語システムにおける標準的な単語
Figure 0007526316000044
については、それらのベクトル表現に基づいてそれらの距離を
Figure 0007526316000045
として計算し、ここで、
Figure 0007526316000046
が計算ベクトルのモジュロを示す。
ステップS32では、標準的な語義単語を距離に応じて降順で配列し、上位K個の標準的な単語を取って細分の属性との距離が最も近い標準的な単語セットを構成し、 すべての標準的な単語
Figure 0007526316000047

Figure 0007526316000048
に応じて降順で配列し、上位K個の標準的な単語を取って細分の属性aとの距離が最も近い標準的な単語セットA(a,K)を構成し、本実施例においてK=1000を取る。
ステップS33では、細分の属性カテゴリにおける標準的な語義単語の推奨スコアを計算し、すべての細分の属性カテゴリを推奨スコアに応じて降順で配列し、上位k1個の細分の属性カテゴリを取ってアルゴリズムが推奨する細分の属性から標準的な用語システムにおける細分の属性カテゴリへマッピングするアルゴリズム推奨キューを構成し、 標準的な用語システムにおける各細分の属性カテゴリCの細分の属性aに対する推奨スコアscore(a,C)は細分の属性カテゴリCにおける標準的な単語がセットA(a,K)に含まれる数として定義され、計算公式は、
Figure 0007526316000049
である。すべての細分の属性カテゴリCをscore(a,C)に応じて降順で配列し、上位k個の細分の属性カテゴリを取ってアルゴリズムが推奨する、細分の属性aから標準的な用語システムにおける細分の属性カテゴリへマッピングするアルゴリズム推奨キュー
Figure 0007526316000050
を構成し、本実施例においてk=5を取る。
ステップS34では、すべての標準的な単語を語義類似度に応じて降順で配列し、上位k2個の標準的な単語を取って細分の属性から細分の属性カテゴリにおける標準的な単語へマッピングするアルゴリズム推奨キューを構成し、 細分の属性カテゴリ
Figure 0007526316000051
については、上記方法で標準的な用語システムにおける細分の属性カテゴリCにおける任意の標準的な単語
Figure 0007526316000052
と細分の属性aとの語義類似度
Figure 0007526316000053
を計算し、すべての標準的な単語
Figure 0007526316000054

Figure 0007526316000055
に応じて降順で配列し、上位k個の標準的な単語を取って細分の属性aから細分の属性カテゴリCにおける標準的な単語へマッピングするアルゴリズム推奨キュー
Figure 0007526316000056
を構成し、本実施例においてk=3を取る。
ステップS35では、すべてのアルゴリズム推奨キューを組み合わせて、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得する。
すべてのcand(a,C)を組み合わせて出力とすれば、細分の属性aから標準的な用語システムへ標準化マッピングを行うアルゴリズムが推奨する、手動で監査及び記憶すべき推奨キュー
Figure 0007526316000057
を形成する。
例えば、アルゴリズムによって臨床データ「超音波監視による子宮鏡手術をする」を分割して操作方法「超音波監視」を取得し、「子宮鏡」をそれぞれ「超音波誘導」、「顕微鏡検査」に標準化することができ、器具「子宮鏡」を直接マッピングして標準概念「子宮鏡」を取得することができる。該臨床用語が標準的な用語ライブラリ「超音波誘導による子宮鏡検査」の関係ネットワークマップに一致する場合、直接マッピングすることができ、用語の追加を行う必要がない。例えば、アルゴリズムによって臨床データ「両下肢赤腫」を分割して発病部位「両下肢」、相関形態学「赤腫」を取得するが、「赤腫」は標準的な用語ライブラリにおいて直接マッピングできる標準概念がまだない。アルゴリズムは語義に基づいて推奨キューを形成する。
表1 分割・組み合わせについての推奨
Figure 0007526316000058
表2 標準概念へのマッピングについての推奨
Figure 0007526316000059
用語管理者はアルゴリズム推奨結果に基づいて分割・組み合わせ及び標準マッピングの選択を行い、用語「両下肢赤腫」を「発病部位」+「相関形態学」に分割し、用語「赤腫」と標準概念を正しく関連付けする。
同一用語カテゴリにおける用語については、細分の属性が重なる用語は既定の集まりの論理、標準概念の命名ルールに従って概念の追加及び対応する情報関連付けを行うことができ、一部の論理ルールの例は下記表3に示される。
表3 論理ルールの例
Figure 0007526316000060
ステップS4では、可視化管理モジュールによって前記用語ライブラリに対して可視化管理を行い、前記可視化管理が標準的な医学用語クエリユニット、用語編集ユニット、用語監査ユニット及び用語マッピングユニットを備える。
前記ステップS4は具体的に、ユーザーが異なる選別条件に応じて、標準的な医学用語クエリユニットによって対応する用語を選別することと、ユーザーが用語編集ユニットによって標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うことと、用語監査者が用語監査ユニットによって用語監査結果の判定を行うことと、ユーザーが用語マッピングユニットによって異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保することと、を含む。
該モジュールは医学用語標準化管理プラットフォームソフトウェアを構築する。モジュールは標準的な医学用語クエリ、用語編集、用語監査、用語マッピングの4つの部分に分けられる。
用語クエリ部分は、ユーザーのプレビューデータを提供し、標準的な用語の可視化クエリを行い、ユーザーが異なる次元の選別条件に応じて対応する用語を選別することができ、それと同時にユーザーログインインターフェース入口及び用語管理インターフェース入口を提供する。該標準的な用語のトップレベルカテゴリ、同義語、親ノード用語、サブノード用語、属性情報を含むが、それらに限らない標準的な用語の多次元情報を表示するとともに、関連用語詳細インターフェースに入る入口を提供する。
用語編集部分は、ユーザーが可視化インターフェースを介して標準的な用語の追加、削除、補正、並びに標準的な用語の同義語の追加及び削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行う。
用語監査部分は、用語の更新品質を確保するように用語監査者が第二者監査を行うことに供する。それと同時に、該ページから現在の監査対象の用語をプレビューすることができる。監査詳細ページに用語の具体的な更新内容を表示し、該ページには同時に監査者が用語監査結果の判定を行う。
用語マッピング部分は、ユーザーが異なるソースの医学データに対して標準化マッピングを行い、4.3における一部の過程を可視化し、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による該プラットフォームにおける用語のワンクリックマッピング及び推奨キューの形成を確保し、管理者が用語ライブラリにおける参照データを反復するものとし、用語ライブラリを更新・拡張する効率及び性能を向上させる。
以上の説明は本発明の好適な実施例であって、本発明を制限するためのものではなく、当業者であれば、本発明に対して種々の変更及び変化を行うことができる。本発明の主旨及び原則内に行われるいかなる補正、等価置換、改良などは、いずれも本発明の保護範囲内に含まれるべきである。

Claims (8)

  1. 汎用モデルに基づく標準的な医学用語管理システムであって、用語情報処理モジュール、用語関係ネットワーク構築モジュール、用語ライブラリ自己増幅モジュール及び可視化管理モジュールを含み、
    前記用語情報処理モジュールは、オープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、臨床所見、身体部位及び形態学的異常を含む用語カテゴリ及び用語カテゴリに対応する、偏側、頻度、主体症状を含む細分の属性の名称を取得し、且つ構築されたシーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性の名称に対応する細分の属性内容を取得することに用いられ、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性の名称及び複数種類の副次的な細分の属性の名称を含み、前記細分の属性内容は細分の属性に対応する具体的な表現語であり、
    前記用語関係ネットワーク構築モジュールは、前記細分の属性の内容から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了することに用いられ、
    前記用語関係ネットワーク構築モジュールによる具体的な過程は、
    前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から任意の標準的な語義単語を検索し、アルゴリズムによってカルテテキストの細分の属性と前記任意の標準的な語義単語との語義類似度を取得し、前記カルテテキストの細分の属性の語義類似度が最も高い標準的な単語を選択して、前記カルテテキストの細分の属性と選択された前記語義類似度が最も高い標準的な単語との間に標準化マッピング関係を確立するステップと、
    アルゴリズムによって前記カルテテキストを分割して副次的な細分の属性を取得し、用語ライブラリには説明タイプを定義できる親ノードが存在し、且つ分割して取得された主要な細分の属性にはタイプ情報が含まれない場合、副次的な細分の属性の用語ライブラリにおける親ノードから情報を選択して主要な細分の属性を情報追加して、情報に対応する細粒度サブノードに補正し、標準化マッピング関係の補正を完了し、前記説明タイプは細分の属性の単語を分類して定義することに用いられ、前記細粒度サブノードは情報のより細粒度のサブノードであるステップと、
    単一の用語カテゴリが複数のタイプの副次的な細分の属性を含むことに起因して補正後の主要な細分の属性が複数ある場合、用語ライブラリにおける最も多く存在する主要な細分の属性の親ノードを最後の主要な細分の属性として選択するステップと、
    アルゴリズムによって分割して取得された結果は各次元の情報に欠損があって、データソース自身に階層構造が存在することである場合、用語ライブラリにおける前記用語カテゴリの親ノード分割結果によって情報補完を行い、用語関係ネットワークの設立を完了するステップと、を含み、
    前記用語ライブラリ自己増幅モジュールは、異なる前記用語カテゴリに対して処理を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得することに用いられ
    前記用語ライブラリ自己増幅モジュールは具体的に、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが有効である場合、直接にマッピング結果とし、標準化マッピングが無効である場合、前記カルテテキストの細分の属性から前記標準的な単語における他の可能な細分の属性の名称及び標準的な語義単語への標準化マッピングを、アルゴリズムが推奨する、手動で監査する必要があるマッピング結果として改めて計算し、異なる用語カテゴリに対して処理を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得し、
    前記可視化管理モジュールは、前記用語ライブラリに対して可視化管理を行うことに用いられる
    ことを特徴とする汎用モデルに基づく標準的な医学用語管理システム。
  2. 前記可視化管理モジュールは、標準的な医学用語クエリユニット、用語編集ユニット、用語監査ユニット及び用語マッピングユニットを含み、
    前記標準的な医学用語クエリユニットは、ユーザーのプレビューデータを提供し、標準的な用語の可視化クエリを行い、異なる次元の選別条件に応じて対応する用語を選別するとともに、ユーザーログインインターフェース入口及び用語管理インターフェース入口を提供し、標準的な用語のトップレベルカテゴリ、同義語、親ノード用語、サブノード用語及び/又は属性情報を含む次元の標準的な用語情報を表示し、それと同時に関連用語詳細インターフェースに入る入口を提供することに用いられ、
    前記用語編集ユニットは、ユーザーが可視化インターフェースを介して標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うことに用いられ、
    前記用語監査ユニットは、用語監査者が第二者監査を行い、監査者が用語監査結果の判定を行うことに用いられ、
    前記用語マッピングユニットは、ユーザーが異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保することに用いられる
    ことを特徴とする請求項1に記載の汎用モデルに基づく標準的な医学用語管理システム。
  3. 汎用モデルに基づく標準的な医学用語管理方法であって、ステップS1~ステップS4を含み、
    前記ステップS1では、用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、臨床所見、身体部位及び形態学的異常を含む用語カテゴリ及び用語カテゴリに対応する、偏側、頻度、主体症状を含む細分の属性の名称を取得し、且つ構築されたシーケンスラベリングモデルによって分割して前記細分の属性の名称に対応する細分の属性の内容を取得し、前記細分の属性の内容が標準的な単語であり、各種類の前記用語カテゴリがいずれも1種類の主要な細分の属性の名称及び複数種類の副次的な細分の属性の名称を含み、前記細分の属性の内容は細分の属性に対応する具体的な表現語であり、
    前記ステップS2では、前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から語義類似度が最も高い標準的な語義単語を検索して標準化マッピング関係を確立して、前記標準化マッピング関係を補正及び追加し、用語関係ネットワークの設立を完了し、
    前記ステップS2はサブステップS21~サブステップS24を含み、
    前記サブステップS21では、前記シーケンスラベリングモデルによってカルテテキストを分割してカルテテキストの細分の属性を取得し、用語関係ネットワーク構築モジュールによって前記標準的な単語から任意の標準的な語義単語を検索し、アルゴリズムによってカルテテキストの細分の属性と前記任意の標準的な語義単語との語義類似度を取得し、前記カルテテキストの細分の属性の語義類似度が最も高い標準的な単語を選択して、前記カルテテキストの細分の属性と選択された前記語義類似度が最も高い標準的な単語との間に標準化マッピング関係を確立し、
    前記サブステップS22では、アルゴリズムによって前記カルテテキストを分割して副次的な細分の属性を取得し、現在のカルテテキストには説明タイプを定義できる親ノードが存在し、且つ分割して取得された主要な細分の属性にはタイプ情報が含まれない場合、副次的な細分の属性の用語ライブラリにおける親ノードから情報を選択して主要な細分の属性を情報追加して、情報に対応する細粒度サブノードに補正し、標準化マッピング関係の補正を完了し、前記説明タイプは細分の属性の単語を分類して定義することに用いられ、前記細粒度サブノードは情報のより細粒度のサブノードであり、
    前記サブステップS23では、単一の用語カテゴリが複数のタイプの副次的な細分の属性を含むことに起因して補正後の主要な細分の属性が複数ある場合、用語ライブラリにおける最も多く存在する主要な細分の属性の親ノードを最後の主要な細分の属性として選択し、
    前記サブステップS24では、アルゴリズムによって分割して取得された結果は各次元の情報に欠損があって、データソース自身に階層構造が存在することである場合、用語ライブラリにおける前記用語カテゴリの親ノード分割結果によって情報補完を行い、用語関係ネットワークの設立を完了し、
    前記ステップS3では、用語ライブラリ自己増幅モジュールによって異なる用語カテゴリに対して処理を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得し
    前記ステップS3は具体的に、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが有効である場合、直接にマッピング結果とし、標準化マッピングが無効である場合、前記カルテテキストの細分の属性から前記標準的な単語における他の可能な細分の属性の名称及び標準的な語義単語への標準化マッピングを、アルゴリズムが推奨する、手動で監査する必要があるマッピング結果として改めて計算し、異なる用語カテゴリに対して処理を行い、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得し、
    前記ステップS4では、可視化管理モジュールによって前記用語ライブラリに対して可視化管理を行い、前記可視化管理が標準的な医学用語クエリユニット、用語編集ユニット、用語監査ユニット及び用語マッピングユニットを備える
    ことを特徴とする汎用モデルに基づく標準的な医学用語管理方法。
  4. 前記ステップS1は具体的に、サブステップS11~サブステップS12を含み、
    前記サブステップS11では、用語情報処理モジュールによってオープンソース標準用語データを整理統合し、前記オープンソース標準用語データの定義及び用語の意味に対して用語の分類を行って、元の用語の階層関係、関連関係及び/又は符号化情報を保持してソースタグを付けて、用語カテゴリ及び用語カテゴリに対応する細分の属性の名称を取得し、
    前記サブステップS12では、事前訓練言語モデルによってシーケンスラベリングモデルを構築して、前記シーケンスラベリングモデルによってオープンソース標準用語データを分割して細分の属性の内容を取得する
    ことを特徴とする請求項3に記載の汎用モデルに基づく標準的な医学用語管理方法。
  5. 前記サブステップS12は具体的に、サブステップS121~サブステップS124を含み、
    前記サブステップS121では、事前訓練言語モデルによってオープンソース標準用語データにおける各文字/単語のベクトル表現を計算し、
    前記サブステップS122では、前記ベクトル表現に対して自己注意メカニズムによって各文字/単語の出力状態を計算し、
    前記サブステップS123では、前記出力状態に対して完全接続ニューラルネットワークにより計算を行って各文字/単語が各種類の細分の属性の名称に属する確率を取得し、シーケンスラベリングモデルの構築を完了し、
    前記サブステップS124では、前記オープンソース標準用語データを前記シーケンスラベリングモデルによって分割して細分の属性の内容を取得し、前記細分の属性の内容が標準的な単語であり、前記細分の属性の内容が主要な細分の属性の内容及び副次的な細分の属性の内容を含む
    ことを特徴とする請求項4に記載の汎用モデルに基づく標準的な医学用語管理方法。
  6. 前記サブステップS21は具体的に、サブステップS211~サブステップS212を含み、
    前記サブステップS211では、前記カルテテキストの細分の属性及び前記標準的な単語から前記カルテテキストの細分の属性と前記標準的な単語を含む文セット、前記カルテテキストの細分の属性及び前記標準的な単語の左側に位置する文セット、並びに前記カルテテキストの細分の属性及び前記標準的な単語の右側に位置する文セットを取得し、
    前記サブステップS212では、いずれか1対の文セットにおけるいずれか1対の文のベクトル表現の類似度の平均値を計算して、最終的な平均値の組み合わせによって語義類似度を取得し、語義類似度が最も高い標準的な単語を選択して標準化マッピング関係を確立する
    ことを特徴とする請求項3に記載の汎用モデルに基づく標準的な医学用語管理方法。
  7. 前記ステップS3は具体的に、サブステップS31~サブステップS35を含み、
    前記サブステップS31では、語義類似度によって標準化マッピングの有効性を判断し、標準化マッピングが無効である場合、カルテテキストを分割して取得したカルテテキストの細分の属性と標準的な語義単語との距離を計算し、
    前記サブステップS32では、標準的な語義単語を距離に応じて降順で配列し、上位K個の標準的な単語を取って細分の属性との距離が最も近い標準的な単語セットを構成し、
    前記サブステップS33では、細分の属性の名称における標準的な語義単語の推奨スコアを計算し、すべての細分の属性の名称を推奨スコアに応じて降順で配列し、上位k1個の細分の属性の名称を取ってアルゴリズムが推奨する細分の属性から標準的な用語システムにおける細分の属性の名称へマッピングするアルゴリズム推奨キューを構成し、
    前記サブステップS34では、すべての標準的な単語を語義類似度に応じて降順で配列し、上位k2個の標準的な単語を取って細分の属性から細分の属性の名称における標準的な単語へマッピングするアルゴリズム推奨キューを構成し、
    前記サブステップS35では、すべてのアルゴリズム推奨キューを組み合わせて、用語関係ネットワークの拡張を完了し、完全な用語ライブラリを取得する
    ことを特徴とする請求項3に記載の汎用モデルに基づく標準的な医学用語管理方法。
  8. 前記ステップS4は具体的に、ユーザーが異なる選別条件に応じて、標準的な医学用語クエリユニットによって対応する用語を選別することと、ユーザーが用語編集ユニットによって標準的な用語の追加、削除及び/又は補正、標準的な用語の同義語の追加及び/又は削除、標準的な用語の属性情報の補正を含む用語エンティティの編集を行うことと、用語監査者が用語監査ユニットによって用語監査結果の判定を行うことと、ユーザーが用語マッピングユニットによって異なるソースの医学データに対して標準化マッピングを行い、マッピング不可能なデータに対して推奨キューを構築し、用語管理者による用語のワンクリックマッピング及び推奨キューの形成を確保することと、を含む
    ことを特徴とする請求項3に記載の汎用モデルに基づく標準的な医学用語管理方法。
JP2023093632A 2022-08-16 2023-06-07 汎用モデルに基づく標準的な医学用語管理システム及び方法 Active JP7526316B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210980851.1A CN115080751B (zh) 2022-08-16 2022-08-16 一种基于通用模型的医学标准术语管理系统及方法
CN202210980851.1 2022-08-16

Publications (2)

Publication Number Publication Date
JP2024027087A JP2024027087A (ja) 2024-02-29
JP7526316B2 true JP7526316B2 (ja) 2024-07-31

Family

ID=83244777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023093632A Active JP7526316B2 (ja) 2022-08-16 2023-06-07 汎用モデルに基づく標準的な医学用語管理システム及び方法

Country Status (2)

Country Link
JP (1) JP7526316B2 (ja)
CN (1) CN115080751B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544278B (zh) * 2022-12-05 2023-03-28 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN115994227B (zh) * 2023-03-23 2023-06-06 北京左医科技有限公司 医学术语标准化模型的构建方法、装置、终端设备及介质
CN117973393B (zh) * 2024-03-28 2024-06-07 苏州系统医学研究所 面向医学文本中关键医学信息的精准语义比对方法及系统
CN118838910B (zh) * 2024-06-21 2025-01-24 中国标准化研究院 一种基于标准档案的术语管理服务系统及方法
CN118675755B (zh) * 2024-08-22 2024-11-15 中国人民解放军总医院第二医学中心 基于大数据的肾脏康复报告评估方法及平台
CN118939719B (zh) * 2024-10-15 2025-01-24 浙江农商数字科技有限责任公司 一种银行数据的标准化管理方法
CN118969163B (zh) * 2024-10-16 2025-02-14 潍坊医学院附属医院 一种护理病历表生成方法及系统
CN119495408B (zh) * 2024-10-31 2026-01-02 深圳市长城网信息科技股份有限公司 一种医疗质量控制指标解读方法、系统、介质及程序产品
CN119721188A (zh) * 2025-02-27 2025-03-28 北京百卓网络技术有限公司 一种基于专病数据库的联邦学习方法及装置
CN120183589B (zh) * 2025-03-03 2025-09-19 中国航天科工集团七三一医院 一种基于大数据的医疗病历质量监控方法及系统
CN120452830B (zh) * 2025-07-11 2025-09-16 中国人民解放军空军军医大学 一种基于人工智能的泌尿外科诊疗数据智能化处理系统
CN121210673A (zh) * 2025-09-09 2025-12-26 中国建筑标准设计研究院有限公司 一种建筑工程领域术语库的构建应用方法及系统
CN120823938B (zh) * 2025-09-16 2025-11-28 西安几何数字信息技术有限公司 一种基于ai的病历智能解析与预填报系统
CN121031761B (zh) * 2025-10-30 2026-01-27 山东舜德数据管理软件工程有限公司 一种基于大模型的金融知识库构建方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128968A (ja) 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 表記ゆれ解析装置
CN110929503A (zh) 2019-11-27 2020-03-27 上海交通大学 基于医学同义词在线编辑检索系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610192B1 (en) * 2006-03-22 2009-10-27 Patrick William Jamieson Process and system for high precision coding of free text documents against a standard lexicon
CN105069124B (zh) * 2015-08-13 2018-06-15 易保互联医疗信息科技(北京)有限公司 一种自动化的国际疾病分类编码方法及系统
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统
CN109446340A (zh) * 2018-10-17 2019-03-08 长沙瀚云信息科技有限公司 一种医学标准术语本体管理系统及方法、设备和存储介质
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及系统、电子设备、计算机可读介质
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN114692620B (zh) * 2020-12-28 2025-01-17 阿里巴巴集团控股有限公司 文本处理方法及装置
CN113436698B (zh) * 2021-08-27 2021-12-07 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法
CN113657109B (zh) * 2021-08-31 2025-06-17 深圳平安医疗健康科技服务有限公司 基于模型的临床术语的标准化方法、装置和计算机设备
CN114330309B (zh) * 2021-12-31 2025-08-19 腾讯科技(深圳)有限公司 术语处理方法、装置、设备及存储介质、程序产品

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128968A (ja) 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 表記ゆれ解析装置
CN110929503A (zh) 2019-11-27 2020-03-27 上海交通大学 基于医学同义词在线编辑检索系统

Also Published As

Publication number Publication date
CN115080751B (zh) 2022-11-11
JP2024027087A (ja) 2024-02-29
CN115080751A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
JP7526316B2 (ja) 汎用モデルに基づく標準的な医学用語管理システム及び方法
US11521751B2 (en) Patient data visualization method and system for assisting decision making in chronic diseases
Pezoulas et al. Medical data quality assessment: On the development of an automated framework for medical data curation
WO2021143779A1 (zh) 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统
CN107731269A (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN103778346B (zh) 医疗信息处理方法和装置
CN114328975A (zh) 一种药学知识图谱构建方法和装置
CN119381009B (zh) 基于结构熵层次知识树的检索增强方法及其系统
CN114780733B (zh) 基于dikw图谱的专利智能修改方法、辅助答复方法及系统
CN116737945B (zh) 一种患者emr知识图谱映射方法
Ren et al. Application of ontology in medical heterogeneous data integration
Chen et al. Graph-empowered Text-to-SQL generation on Electronic Medical Records
CN121506527A (zh) 一种临床研究的智能化数据处理方法
CN121117924A (zh) 多模态信息融合方法、装置、电子设备和介质
CN121191682A (zh) 结合知识图谱的用药知识智能问答系统及方法
CN116956869A (zh) 文本标准化方法、装置、电子设备及存储介质
Paslaru Bontas et al. Generation and management of a medical ontology in a semantic web retrieval system
CN113704223A (zh) 基于多源异构的农业科学数据关联融合方法
Zhao et al. Construction and application of radiologic interpretation knowledge graph based on three-layer structure model
CN121390321B (zh) 一种基于知识图谱和检索增强生成的医疗问答方法
CN120977608B (zh) 基于联邦图数据的生物医学知识抽取融合共享方法及系统
Zhang et al. Construction of MeSH-like obstetric knowledge graph
Schäfer et al. A graph-based data model for digital health applications
Chen et al. Constructing Medical Image Domain Ontology with Anatomical Knowledge
CN119724612A (zh) 一种基于静疗系统的信息共享方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230607

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240719

R150 Certificate of patent or registration of utility model

Ref document number: 7526316

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150