万病辞書Manbyo Dictionary

万病辞書Concept

 医療文書から病名を抽出する処理は、医療言語処理分野の研究では盛んに行われています。 従来まで、病名抽出にはICD標準病名に代表されるような定型的な病名を用いることがほとんどでした。
しかし、実際の医療現場では正式名称ではなく略記や英語名を用いることが少なくありません。 このように、定型的な病名コードだけでは症状や病名に関する情報をすべて抽出したいといった要望には応えることができません。
そこで、医療従事者が記載した電子カルテや退院サマリから、症状や病名に関連する語を広く抽出したデータを作成しました。
 ソーシャルコンピューティング研究室ではこのデータを「万病辞書」まんびょうじしょと名付け、ここに一般公開します。

オリジナルデータ(xlsx形式)

ManbyoDicL.dic(MeCab用辞書)

万病辞書はどのようにしてつくられたか?

 厚生労働科学研究費( カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築及び自動構造化機能を有した入力機構の開発)の補助により作成

カルテ文章調査の結果、延べ45万症状表現(種類数としては6.2万種類)が得られ、その28.3%(種類数としては87.5%)が、標準病名でカバーされていないことが分かった。 このうち高頻度(頻度30回出現の5,600病名)を扱い医療従事者3名によりコーディングを行い、意見が食い違ったものはその曖昧性も残したまま辞書リソース化しました。

万病辞書の特徴

(1)約13万の症状・病名に関する語彙を備える

  • 医療現場(東京大学・内科学会)で得られたテキストから、症状・病名に関する語を抽出しています。

(2)ICD10標準病名と対応付け

  • 症状・病名に関する語に対して、その語に最も近いICD10病名を付与しています。
  • 現在すでにカルテに出現する80%(ただし種類数としては20%)の症状/病名を標準病名に変換可能です。
病名・症状とICD10

(3)頻度情報を備える

  • 医療現場で得られたテキスト情報から各語彙の頻度を集計し、これを頻度情報として追加しています。

(4) 信頼度レベルを定義

  • 作成手順(機械学習、人手によるマッピング等)の違いにより、独自の信頼度を定義しています。

(5) 症状が発生している体の部位情報を備える

  • 症状や病名からそれらが発生している体の部位を推定しています。
部位の推定

万病辞書データ

オリジナルデータ(xlsx形式)

  • 東京大学病院から提供されたデータにおける出現頻度が100件以上のものを取り出した結果データです。
  • ICD10対応標準病名マスターVer.4.01の病名をすべて含み、かつそれだけでは補うことが難しい医療現場で得られた症状や病名を追加しています。
万病辞書ファイル(xlsx形式)のフォーマット
カラム名 説明
①表層形 万病辞書あるいはICD10対応標準病名マスターから抽出した症状、病名。
例)11β−水酸化酵素欠損症、18常染色体異常等
②ICD10コード ICD10対応標準病名マスターに記載されているICD10コード。
③ICD10対応標準病名 ICD10対応標準病名マスターに記載されている標準病名。
④信頼度レベル S:ICD10対応標準病名マスターに記載されている症状・病名(約25000病名)。
A:3名の医療従事者が同じコードを付与した症状・病名。
B:1名以上の医療従事者が同じコードを付与した症状・病名。
C:何らかの理由でコード付与ができなかった、あるいはコードがない症状・病名。
D:計算機が自動的に割り当てた症状・病名。
⑤ラベル ICD10や標準病名から作成した複合文字列。

   


【仕様上の注意点】:ICD10コードに対応付かない、あるいは複数のICD10コードに対応する症状・病名の場合はICD10コードの 欄に「-1」を付与しています。

仕様上の注意


MeCab用辞書データ(バイナリ形式)

  • 万病辞書ファイル(CSV形式)を形態素解析器MeCabで利用できる形式へ変換。
  • 標準病名マスターICD10対応病名に加えて、”標準病名では検索できないが、医療現場の電子カルテから得られた様々な症状”を元にICD10対応病名を付与しています。
  • ICD10対応標準病名に加え、簡単にマッピングできない症状や主訴等を拾うことで、症状・病名に関する語彙が拡張され、医療言語処理に応用が可能です。
  • 信頼度レベル( S, A, B, C, D )に応じて、データの確認作業を行えます。

万病辞書の応用例

電子カルテからの病名情報を用いた研究

  • ①電子カルテ病名⇒②ICD10病名⇒③万病辞書という手順で病名情報の紐付けが可能です。
  • 電子カルテから万病辞書を用いて潜在的な病名・症状を抽出 できる可能性があります。

医療従事者に対する診断支援、教育システム構築に関する研究

  • 多くの症状から病名診断につなげる診断支援システム、あるいは医療従事者に対する教育システム等の構築が考えられます。

レセプトからの病名抽出に関する研究

  • ①診療報酬請求コード(レセプト病名)⇒②ICD10病名⇒③万病辞書という手順で病名情報の紐付けが可能です。
  • 実際の診療に利用されているレセプト病名から、患者の主訴や症状を検索するような試みが可能です。

形態素解析・MeCabについて

形態素解析とは

  • 一般的に文章・言語を最小単位に分割(⇒このことを形態素といいます。)し、その言語の品詞や読みなどを判別します。
  • かな漢字変換やWEB検索エンジンなどで用いられています。

形態素解析器MeCabについて

  • MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
  • 従来の形態素解析器(ChaSenやKAKASIなど) に比べ高速に解析ができます。
  • Windows環境で使えるバイナリが配布されています。
  • 様々なプログラミング言語から呼び出すことができます。(バインディングが可能。(perl/ruby/python/java/C#))
  • 次の結果は、「私は糖尿病です」を MeCab で形態素解析した結果です。入力文が適切に分割され、適切な品詞が割り当てられています。
    C:\ mecab
    私は糖尿病です
    私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
    は 助詞,係助詞,*,*,*,*,は,ハ,ワ
    糖尿 名詞,一般,*,*,*,*,糖尿,トウニョウ,トーニョー
    病 名詞,接尾,一般,*,*,*,病,ビョウ,ビョー
    です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
    EOS

    私は糖尿病です
  • MeCabは単語のラティス構造を構築し、ラティス構造から単語の境界を決定する手法であるため、高精度で単語を分割することができます。そして万病辞書を追加することで、電子カルテ・文書記録等から症状・病名に関する重要なキーワードを抽出することが可能です。
    ラティス構造

※詳細は、MeCab公式ホームページをご確認ください。

MeCab用辞書形式データの利用手順


(ここではWindows環境で使用される方向けに説明しています。)

形態素解析器MeCabのインストール

  • 下記ホームページより形態素解析器Mecabをインストールしてください。
    MeCab公式ホームページ
  • Windows環境で使用する場合、"Binary package for MS-Windows"版を選択します。
  • GUIではなくCUI(コマンドプロンプト)で動くので、環境変数のpathを追加してください。
    「マイコンピュータ」→「プロパティ」→「詳細設定」→「環境変数」でユーザ環境変数またはシステム環境変数の、「変数:Path」に追加。
  • "ManbyoDicL.dic"等、使用するファイルをCドライブの直下等に配置してください。

ディレクトリの移動

  • コマンドプロンプト上にて、ファイルを配置したディレクトリへ移動します。
    ※下記の例では、“C:\ディレクトリ“にファイルが配置されているのが確認できます。
dir_move


万病辞書データの読み込み

  • コマンドプロンプト上にて、"mecab -u ManbyoDicL.dic"と入力します。

    MeCab実行
  • 入力後、傷病名を含んだ言葉を入力してください。(例:私は糖尿病になった後、悪化して心不全になり入院しました)
  • 打ち込んだ言葉に対して万病辞書が適用され、解析結果が表示されます。(pythonでの実行例)
    解析結果

    表示例)
    C:\ mecab
    私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 糖尿病 名詞,サ変接続,*,*,*,*,糖尿病;ICD=E14/LV=S/糖尿病,トウニョウビョウ,トウニョウビョウ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ なっ 動詞,自立,*,*,五段・ラ行,連用タ接続,なる,ナッ,ナッ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ 後 名詞,非自立,副詞可能,*,*,*,後,ノチ,ノチ 、 記号,読点,*,*,*,*,、,、,、 悪化 名詞,サ変接続,*,*,*,*,悪化,アッカ,アッカ し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ て 助詞,接続助詞,*,*,*,*,て,テ,テ 心不全 名詞,サ変接続,*,*,*,*,心不全;ICD=I509/LV=S/心不全,シンフゼン,シンフゼン に 助詞,格助詞,一般,*,*,*,に,ニ,ニ なり 動詞,自立,*,*,五段・ラ行,連用形,なる,ナリ,ナリ 入院 名詞,サ変接続,*,*,*,*,入院,ニュウイン,ニューイン し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ まし 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ EOS


【注意】:WindowsのDOSコマンドプロンプトの表示画面は、デフォルトの文字コードがシフトJISです。このため、MeCab側の文字コードがUTF-8の場合は文字化けする場合があります。適宜WindowsDosコマンドプロンプトの文字コードを変更してご使用ください。

ご使用上の注意

  • 万病辞書は、可能な限り細心の注意を払って作成しています。 しかし、万病辞書は完全に間違いがないことを保証しておりません。 結果的に万病辞書を使用して何らかの問題が発生した場合、提供元である本研究室は一切の責任を負いません。 そのため、研究利用等でご使用になる場合には自己責任でご活用いただくようお願いいたします。

Copyright(C) sociocom.jp All Rights Reserved.