抽出ルールの変更

  1. ■ルールファイル

    AEXフォルダの「S_rule_mecab.tsv」がルールファイルです。
    rule1

  2. ■ルールファイルのレイアウト

    [No,][症状][ICD][カテゴリー][SearchNo][検索文字列][除外文字列]
    の順でタブ区切りになっているので、エクセルで読み込むと内容を確認することができます。
    rule2

  3. ■ルールファイルの編集
    • 1行7項目のタブ区切りデータです。編集する際は必ずテキストエディタで編集してください。
       注意)保存形式は「UTF-8」「改行=LF」としてください

      [No]・・・大項目番号(3行目以降は省略可能)
      [症状]・・・大項目の症状(3行目以降は省略可能)
      [ICD] ・・・ICDコード
      [カテゴリー]・・・病名
      [SearchNo]・・・ルールファイル作成時の通番
      [検索文字列]・・・病名が推測される症状の文字列【例:インフルエンザ】
      [除外文字列]・・・検索文字列で間違えて抽出されると予想される文字列【例:予防接種】


    • [検索文字列]と[除外文字列]の書き方

      1.病名が推測される症状の文字列を考えます。
       【例:病名が下痢の場合の症状は、「下痢、げり、おなかを下す、おなかがゆるい」など】
      2.同じパターンのものをまとめる場合「|」or 、「+」andを使用することができます。
       【例1:(下痢|げり)、例2:おなか+(下す|ゆるい)】
      3.Mecabの単語の区切れで半角スペースを入れる必要があります。 →Mecabの単語の区切れの調べ方
       【例1:( 下痢 | げ り )、例2:おなか + ( 下す | ゆるい )】
      rule3