The process of extracting disease name from medical documents is actively carried out in the research of the medical language processing field. Until now, it was almost the case to use a standard disease name typified by ICD standard disease name for disease name extraction. However, in actual medical practice, abbreviations and English names are often used instead of official disease names.
In this way, it is not possible to respond to requests to extract all the information on symptoms and disease name with just a standard disease name. Therefore, we extracted terms related to the symptoms and disease name actually used in the medical field from electronic medical records and discharge summaries.

We social computing laboratory named above data "J-MeDic".

オリジナルデータのダウンロード

下記のデータをダウンロードしてください.

オンライン検索

下記のフォームに, 症状や病名等を記入し, 検索ボタンを押してください.
当該記入データが万病辞書に記載されている場合, 万病辞書内のデータをオンラインで閲覧することができます.







どのようにしてつくられたか?

 厚生労働科学研究費(カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築及び自動構造化機能を有した入力機構の開発)の補助により作成

カルテ文章調査の結果, 延べ45万症状表現(種類数約6.2万種類)が得られました.そのうちの28.3%(種類数約1.7万種類)が, 標準病名のみではカバーされていないことが分かりました. このうち高頻度(30回出現する5,600病名)の症状表現について医療従事者3名によりコーディングを行い, 意見が食い違ったものはその曖昧性も残したまま辞書リソース化しました.

特徴

(1)約13万の症状・病名に関する語彙を備える

  • 協力医療機関で得られたテキストから, 症状・病名に関する語を自動抽出しました.

(2)ICD-10標準病名との対応付け

  • 症状・病名に関する語に対して, その語に最も近いICD-10病名を付与しています.
病名・症状とICD-10

データ仕様

オリジナルデータ(xlsx形式)

  • 協力医療機関から提供されたデータにおける出現頻度が100件以上のものを取り出した結果データです.
  • ICD-10対応標準病名マスターVer.4.01の病名をすべて含み, かつそれだけでは補うことが難しい医療現場で得られた症状や病名を追加しています.
万病辞書ファイル(xlsx形式)のフォーマット
カラム名 説明
①表層形 万病辞書あるいはICD-10対応標準病名マスターから抽出した症状, 病名.
例)11β−水酸化酵素欠損症, 18常染色体異常等
②ICD-10コード ICD-10対応標準病名マスターに記載されているICD-10コード.
③ICD-10対応標準病名 ICD-10対応標準病名マスターに記載されている標準病名.
④信頼度レベル S:ICD-10対応標準病名マスターに記載されている症状・病名(約25000病名).
A: 3名の医療従事者が同じコードを付与した症状・病名.
B: 1名以上の医療従事者が同じコードを付与した症状・病名.
C: 何らかの理由でコード付与ができなかった, あるいはコードがない症状・病名.
D: 計算機が自動的に割り当てた症状・病名.
⑤ラベル ICD-10や標準病名から作成した複合文字列.

   


【仕様上の注意点】:ICD-10コードに対応付かない, あるいは複数のICD-10コードに対応する症状・病名の場合はICD-10コードの欄に「-1」を付与しています.

仕様上の注意


MeCab用辞書データ(バイナリ形式)

  • 万病辞書ファイル(CSV形式)を形態素解析器MeCabで利用できる形式へ変換したものです.
  • ICD-10対応標準病名マスターの標準病名に加えて, "標準病名では検索できないが, 医療現場の電子カルテから得られた様々な症状"を元にICD-10対応病名を付与しています.
  • ICD-10対応標準病名に加え, 簡単にマッピングできない症状や主訴等を拾うことで, 症状・病名に関する語彙が拡張され, 医療言語処理に応用が可能です.

万病辞書の応用例

電子カルテからの病名情報を用いた研究

  • ①電子カルテ病名⇒②ICD-10病名⇒③万病辞書という手順で病名情報の紐付けが可能です.
  • 電子カルテから万病辞書を用いて潜在的な病名・症状を抽出できる可能性があります.

レセプトからの病名抽出に関する研究

  • ①診療報酬請求コード(レセプト病名)⇒②ICD-10病名⇒③万病辞書という手順で病名情報の紐付けが可能です.
  • 実際の診療に利用されているレセプト病名から, 患者の主訴や症状を検索するような試みが可能です.

医療従事者に対する診断支援, 教育システム構築に関する研究

  • 多くの症状から病名診断につなげる診断支援システム, あるいは医療従事者に対する教育システム等の構築が考えられます.

形態素解析・MeCabについて

形態素解析とは

  • 一般的に文章を最小単位(形態素)に分割し, その形態素の品詞や読みなどを判別します.
  • かな漢字変換やWEB検索エンジンなどで用いられています.

形態素解析器MeCabについて

  • MeCabは オープンソースの形態素解析エンジンです.
  • 従来の形態素解析器(ChaSenやKAKASIなど) に比べ高速に解析ができます.
  • Windows環境で使えるバイナリが配布されています.
  • 様々なプログラミング言語から呼び出すことができます.(バインディングが可能 (perl/ruby/python/java/C#) )
  • 次の結果は, 「私は糖尿病です」を MeCab で形態素解析した結果です.入力文が適切に分割され, 適切な品詞が割り当てられています.
    C:\ mecab
    私は糖尿病です
    私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
    は 助詞,係助詞,*,*,*,*,は,ハ,ワ
    糖尿 名詞,一般,*,*,*,*,糖尿,トウニョウ,トーニョー
    病 名詞,接尾,一般,*,*,*,病,ビョウ,ビョー
    です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
    EOS

    私は糖尿病です
  • MeCabは単語のラティス構造を構築し, ラティス構造から単語の境界を決定する手法であるため, 高精度で単語を分割することができます. そしてMecabの辞書に万病辞書を追加することで, 電子カルテ・文書記録等から症状・病名に関する重要なキーワードを抽出することが可能です.
    ラティス構造

※詳細は, MeCab公式ホームページをご確認ください.

利用手順


①MeCab用辞書データをダウンロードしてください.


ManbyoDicL.dic(MeCab用辞書)

②形態素解析器MeCabのインストール

  • 下記ホームページより形態素解析器Mecabをインストールしてください.
    MeCab公式ホームページ
  • Windows環境で使用する場合, "Binary package for MS-Windows"版を選択します.
  • GUIではなくCUI(コマンドプロンプト)で動くので, 環境変数のpathを追加してください.
    「マイコンピュータ」→「プロパティ」→「詳細設定」→「環境変数」でユーザ環境変数またはシステム環境変数の, 「変数:Path」に追加.
  • "ManbyoDicL.dic"等, 使用するファイルをCドライブの直下等に配置してください.

③ディレクトリの確認

  • コマンドプロンプト上にて, ファイルを配置したディレクトリへ移動してください.
    ※下記の例では, “C:\ディレクトリ“にファイルが配置されているのが確認できます.
dir_move


④Mecabでの万病辞書データの読み込み

  • コマンドプロンプト上にて, "mecab -u ManbyoDicL.dic"と入力します.

    MeCab実行
  • 入力後, 傷病名を含んだ言葉を入力してください.(例:私は糖尿病になった後, 悪化して心不全になり入院しました)
  • 打ち込んだ言葉に対して万病辞書が適用され, 解析結果が表示されます.(pythonでの実行例)
    解析結果

    表示例)
    C:\ mecab
    私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 糖尿病 名詞,サ変接続,*,*,*,*,糖尿病;ICD=E14/LV=S/糖尿病,トウニョウビョウ,トウニョウビョウ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ なっ 動詞,自立,*,*,五段・ラ行,連用タ接続,なる,ナッ,ナッ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 後 名詞,非自立,副詞可能,*,*,*,後,ノチ,ノチ , 記号,読点,*,*,*,*,, ,, ,, 悪化 名詞,サ変接続,*,*,*,*,悪化,アッカ,アッカ し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ て 助詞,接続助詞,*,*,*,*,て,テ,テ 心不全 名詞,サ変接続,*,*,*,*,心不全;ICD=I509/LV=S/心不全,シンフゼン,シンフゼン に 助詞,格助詞,一般,*,*,*,に,ニ,ニ なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ 入院 名詞,サ変接続,*,*,*,*,入院,ニュウイン,ニューイン し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS


【注意】:WindowsのDOSコマンドプロンプトの表示画面は, デフォルトの文字コードがシフトJISです.このため, MeCab側の文字コードがUTF-8の場合は文字化けする場合があります.適宜WindowsDosコマンドプロンプトの文字コードを変更してご使用ください.

ご使用上の注意

  • 万病辞書は, 可能な限り細心の注意を払って作成しています. しかし, 万病辞書は完全に間違いがないことを保証しておりません. 結果的に万病辞書を使用して何らかの問題が発生した場合, 提供元である本研究室は一切の責任を負いません. そのため, 研究利用等でご使用になる場合には自己責任でご活用いただくようお願いいたします.

Menu

 

Copyright(C) sociocom.jp All Rights Reserved.