医療文書から病名を抽出する処理は, これまで医療言語処理分野の研究では盛んに行われてきました. 病名抽出にはICDのような標準規格で規定された病名を用いることがほとんどでした.
しかし, 実際の医療現場では正式名称ではなく略記や英語名を用いることが少なくありません. このように, 定型的な病名コードだけでは症状や病名に関する情報をすべて抽出したいといった要望には応えることができません.
そこで, 医療従事者が記載した電子カルテや退院サマリから, 症状や病名に関連する語を広く抽出したデータを作成しました.
ソーシャル・コンピューティング研究室ではこのデータを"万病辞書"と名付けました.
各種データも本サイトで公開していますので, ご自由に使用ください.
なお,英語での紹介ページは,こちらをご覧ください.

データ


 ■最新バージョン
 ・更新日:2017/11/17, データ:MANBYO_v9, ファイルサイズ:1.49MB
 ■過去バージョン
 ・更新日:2017/08/23, データ:MANBYO_v5, ファイルサイズ:9.34MB

仕様


万病辞書のファイル構成
カラム名 説明
①表層形 万病辞書あるいはICD-10対応標準病名マスターから抽出した症状, 病名
(例:11β−水酸化酵素欠損症, 18常染色体異常等)
②ICD-10コード ICD-10対応標準病名マスターに記載されているICD-10コード
③ICD-10対応標準病名 ICD-10対応標準病名マスターに記載されている標準病名
④信頼度レベル S:ICD-10対応標準病名マスターに記載されている症状・病名(約25000病名)
A+: 3名の医療従事者が同じコードを付与した症状・病名
A: 2名の医療従事者が同じコードを付与した症状・病名
B+: 1名以上の医療従事者がコードを付与した症状・病名
B: 確信度は低いものの,1名以上の医療従事者がコードを付与した症状・病名
C: 何らかの理由でコード付与ができなかった, あるいはコードがない症状・病名
D: 計算機が自動的に割り当てた症状・病名
⑤ラベル ICD-10や標準病名から作成した複合文字列

ファイル内容の抜粋例


信頼度レベルごとの件数(MANBYO_v9)

仕様上の注意

オンラインデモ

下記のフォームに, 症状や病名等を記入し, 検索ボタンを押してください.
万病辞書内のデータをオンラインで閲覧することができます.




よみがなの自動付与

病名や症状には,よみがなを付与するとさらに利便性が高まります. そこで本研究室では,
万病辞書の病名や症状に 自動的によみがなを付与する「万病辞書 よみがなくん」を開発し,公開しています.

特徴

万病辞書は, 厚生労働科学研究費(カルテ情報の自動構造化システムと疾患数理モデルの逐次的構築及び自動構造化機能を有した入力機構の開発)の補助により作成されました. カルテ文章調査の結果, 延べ45万症状表現(種類数約6.2万種類)が得られました.そのうちの28.3%(種類数約1.7万種類)が, 標準病名のみではカバーされていないことが分かりました.
このうち高頻度(30回出現する5,600病名)の症状表現について医療従事者3名によりコーディングを行い, 意見が食い違ったものはその曖昧性も残したまま辞書リソース化しました. ICD-10対応標準病名マスターVer.4.01の病名をすべて含み, かつそれだけでは補うことが難しい医療現場で得られた症状や病名を備えています.

辞書

約13万の症状・病名に関する語彙を備える

  •  協力医療機関で得られたテキスト情報から, 約13万種類の症状・病名に関する語を抽出しました.

ICD-10標準病名との対応付け

  •  症状・病名に関する語に対して, その語に最も近いICD-10病名を付与しました.
病名・症状とICD-10

 

応用例

電子カルテからの病名情報を用いた研究

  •  ①電子カルテ病名⇒②ICD-10病名⇒③万病辞書という手順で病名情報の紐付けが可能です.
  •  電子カルテから万病辞書を用いて潜在的な病名・症状を抽出できる可能性があります.

レセプトからの病名抽出に関する研究

  •  ①診療報酬請求コード(レセプト病名)⇒②ICD-10病名⇒③万病辞書という手順で病名情報の紐付けが可能です.
  •  実際の診療に利用されているレセプト病名から, 患者の主訴や症状を検索するような試みが可能です.

医療従事者に対する診断支援, 教育システム構築に関する研究

  •  多くの症状から病名診断につなげる診断支援システムや医療従事者に対する教育システム等の構築が考えられます.

MeCab用辞書データ

MeCab用辞書データは, 万病辞書ファイルを代表的な形態素解析器であるMeCabで利用できる形式へ変換したものです. ICD-10対応標準病名マスターの標準病名に加えて, "標準病名では検索できないが, 医療現場の電子カルテから得られた様々な症状"を元にICD-10対応病名を付与しています. ICD-10対応標準病名に加え, 簡単にマッピングできない症状や主訴等を拾うことで, 症状・病名に関する語彙が拡張され, 医療言語処理に応用が可能です.

■更新日:2017/07/12, ファイルサイズ:8.0MB

MeCab用辞書の利用手順

①形態素解析器MeCabのインストール

  •  ■下記のウェブサイトから形態素解析器Mecabをインストールしてください.
      MeCab公式サイト
  •  ■Mecabが存在するディレクトリを環境変数のpathに追加してください.
  •  ■使用する辞書データ(ManbyoDicL.dic等)をCドライブの直下等に配置してください.

②ディレクトリの確認

  •  ■コマンドプロンプト上にて, ファイルを配置したディレクトリへ移動してください.
     ※下記の例では, “C:\ディレクトリ“にファイルが配置されているのが確認できます.
dir_move


③辞書データの読み込み

  •  ■コマンドプロンプト上にて, "mecab -u ManbyoDicL.dic"と入力してください.

    MeCab実行

  •  ■傷病名を含んだ言葉を入力してください.(例:私は糖尿病になった後, 悪化して心不全になり入院しました)
  •   (打ち込んだ言葉に対して万病辞書が適用され, 解析結果が表示されます.(pythonでの実行例))
    解析結果

使用上の注意

万病辞書は, 可能な限り細心の注意を払って作成しています. しかし, 万病辞書は完全に間違いがないことを保証しておりません. 結果的に万病辞書を使用して何らかの問題が発生した場合, 提供元である本研究室は一切の責任を負いません. そのため, 研究利用等でご使用になる場合には自己責任でご活用いただくようお願いいたします.