Methods for users and papers

分析方法と論文記載用情報

KOTOPY で実行できる分析について、研究報告・論文・発表資料に記載しやすい形で、 仕組み、指定できる条件、結果の見方をまとめています。

Writing example

方法節に書くときの例

KOTOPY を用いて日本語テキストを形態素解析し、SURFACE を単位として頻度分析を行った。 その後、名詞を対象に LDA を実行し、トピック数を10、出現文書数2未満の語を除外する条件でトピックを推定した。
AI機能を使った場合

統計分析とは分けて、要約や解釈の補助として利用した範囲を明記することをおすすめします。 モデル名、主な入力、温度など、結果に影響する設定も補助的に記録すると再確認しやすくなります。

共有URLの活用

分析結果の共有URLを発行しておくと、共同研究者や指導教員と同じ画面を見ながら表や図を確認できます。 論文や発表資料に載せる前の確認、補足資料の整理にも便利です。

個人情報や未公開データを含む場合は、共有先を確認してください。

Paper checklist

論文・研究報告に記載するとよい項目

分析全体

分析条件の再確認ができるよう、少なくとも次の項目を残すことをおすすめします。

  • 使用ツール: KOTOPY
  • 対象文書数、対象期間、対象データの説明
  • 使用辞書名、オリジナル辞書を使った場合はその概要
  • 語の形: 表記そのまま(SURFACE)または辞書の基本形(LEMMA)
  • 品詞や除外語などの絞り込み条件

分析別パラメータ

分析ごとに、画面で指定した値を方法節に書くと条件が明確になります。

  • TF-IDF: 語の形、対象文書数
  • N-Gram: N の値、語の形
  • 共起分析: 注目語、前後何語まで見るか、語の形
  • LDA: トピック数、対象語フィルタ、語の形
  • PCA: 分析単位、特徴量、語の形
  • パターン分析: パターン種類、探索範囲、単語条件

結果の確認と共有

表や図の見え方をそろえて確認できるよう、共有URLの活用をおすすめします。

  • 共同研究者や指導教員と同じ分析結果画面を確認できます
  • 結果の表や図を示す場合は、対象語フィルタの有無も併記すると明確です
  • 個人情報や未公開データを含む場合は、共有先を確認してください

引用

必要に応じて、利用日とURLを添えて記載してください。

  • KOTOPY Web. 日本語テキスト分析支援システム. 利用日: YYYY-MM-DD.
  • 辞書・形態素解析器は、プロジェクトの研究記録にも保存されます。

Common

共通仕様

形態素解析

日本語文を語に分け、語の表記、基本形、品詞情報を付けます。 多くの分析は、この語の一覧をもとに集計します。

  • SURFACE: 本文に出ている表記
  • LEMMA: 辞書上の基本形
  • POS1〜POS4: 品詞階層
  • GOSHU: UniDic系辞書で利用できる語種情報

辞書

分析結果は使用辞書の影響を受けます。論文・研究報告では、辞書名を明記することをおすすめします。

  • 対応辞書: IPADIC、UniDic(CWJ)、NEologd、NAIST-jdic、JUMAN辞書、SudachiDict、Juman++、Kuromoji
  • オリジナル辞書を使った場合は、追加した専門語や固有名詞の内容を記録
  • 同じ文書でも辞書が変わると語の分割や基本形が変わる場合があります

対象語の絞り込み

結果表示や一部の分析では、品詞や除外語を使って対象語を絞れます。

  • 品詞条件: POS1〜POS4 を指定
  • 除外語: SURFACE または LEMMA を対象に指定
  • LDAでは「名詞のみ」「名詞+動詞+形容詞」または保存済みの絞り込み設定を選択
  • 絞り込みを使った場合は、論文中に条件を明記

Dictionaries

実装辞書と出典情報

KOTOPY で選択できる組み込み辞書・解析器の説明、出典、ライセンス、関連URLです。 カスタム辞書を使った場合は、プロジェクトで選んだカスタム辞書の編集画面から内容を確認できます。

IPADIC

IPADIC

IPA 辞書系の標準的な MeCab 辞書。

内部名
ipadic
系列
ipadic
ライセンス
BSD-3-Clause-with-ICOT-term
クレジット
Nara Institute of Science and Technology / ICOT
URL
https://taku910.github.io/mecab/

UniDic(CWJ)

UNIDIC

国語研が整備した現代書き言葉 UniDic。

内部名
cwj
系列
unidic
ライセンス
GPL v2.0 / LGPL v2.1 / modified BSD triple license
クレジット
The UniDic Consortium / NINJAL
URL
https://clrd.ninjal.ac.jp/unidic/

mecab-ipadic-NEologd

NEOLOGD

Web 由来の新語・固有名詞を増やした IPADIC 系 MeCab 辞書。

内部名
neologd
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Toshinori Sato and contributors
URL
https://github.com/neologd/mecab-ipadic-neologd

NAIST-jdic

NAIST_JDIC

IPADIC の後継系として使える NAIST 作成の MeCab 辞書。

内部名
naist_jdic
系列
ipadic
ライセンス
BSD-3-Clause
クレジット
Nara Institute of Science and Technology
URL
https://osdn.net/projects/naist-jdic/

JUMAN 辞書(MeCab)

JUMANDIC

JUMAN の辞書を MeCab で使える形にした辞書。

内部名
jumandic
系列
ipadic
ライセンス
BSD-3-Clause-style
クレジット
University of Tokyo / mecab-jumandic contributors
URL
https://packages.debian.org/source/bookworm/mecab-jumandic

SudachiDict small

SUDACHI_SMALL

UniDic 語彙を中心にした Sudachi の小さい辞書。SudachiDict は UniDic と NEologd の一部を含みます。

内部名
sudachi_small
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Works Applications Co., Ltd.; includes UniDic and part of NEologd
URL
https://github.com/WorksApplications/SudachiDict

SudachiDict core

SUDACHI_CORE

Sudachi の標準辞書。基本語彙を広く含む。SudachiDict は UniDic と NEologd の一部を含みます。

内部名
sudachi_core
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Works Applications Co., Ltd.; includes UniDic and part of NEologd
URL
https://github.com/WorksApplications/SudachiDict

SudachiDict full

SUDACHI_FULL

固有名詞などを多く含む Sudachi の大きい辞書。SudachiDict は UniDic と NEologd の一部を含みます。

内部名
sudachi_full
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Works Applications Co., Ltd.; includes UniDic and part of NEologd
URL
https://github.com/WorksApplications/SudachiDict

Juman++

JUMANPP

JUMAN 系の形態素解析器。意味的なつながりも考慮する。

内部名
jumanpp
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Kyoto University NLP group / Juman++ contributors
URL
https://github.com/ku-nlp/jumanpp

Kuromoji

KUROMOJI

Java 製の日本語形態素解析器。MeCab-IPADIC 辞書/モデルを使い、IPADIC 系の出力形式で扱う。

内部名
kuromoji
系列
ipadic
ライセンス
Apache License 2.0
クレジット
Atilika Inc. / Apache Lucene contributors; uses MeCab-IPADIC dictionary/statistical model
URL
https://www.atilika.com/ja/kuromoji/

Standard analyses

基本分析

検索

指定語を含む箇所を文書横断で探し、前後の文脈を確認します。

方法
検索語に一致する箇所を、改行・句点・またはその両方で区切った範囲から抽出します。
指定条件
検索語、区切り方法
結果
ファイル名、行、前文脈、ヒット語、後文脈。KWIC表としてCSV出力できます。

頻度分析

語ごとの出現回数を数え、文書群全体と文書別の頻度を確認します。

方法
形態素解析後の語を単位として出現回数を合計します。空白や改行は集計対象から除外します。
指定条件
画面上は標準設定で実行。表示時に品詞・除外語・文書列を切り替えできます。
結果
SURFACE、LEMMA、品詞、総頻度、文書別頻度。

特徴語分析(TF-IDF)

各文書に特徴的な語を重みづけします。

方法
文書ごとの語の出現をもとに TF-IDF を計算します。語の形は SURFACE または LEMMA を選べます。
指定条件
語の形(SURFACE / LEMMA)
前提
文書が2件以上必要です。

連続語句分析(N-Gram)

連続して出てくる語のまとまりを抽出し、特徴的な表現を確認します。

方法
N個の連続する語を1つの単位として数えます。たとえば N=2 は2語の並びを数えます。
指定条件
N の値(2〜5)、語の形(SURFACE / LEMMA)
前提
先に頻度分析を完了している必要があります。

共起分析

注目語の前後に現れる語を集計し、語同士の結びつきを調べます。

方法
注目語の前後 N 語に出る語を数え、MI と T-score を算出します。
指定条件
注目語、前後何語まで見るか(1〜5)、語の形(SURFACE / LEMMA)
指標
MI は共起の相対的な強さ、T-score は出現回数を考慮した結びつきの強さを表します。

Advanced analyses

応用分析

話題分析(LDA)

文書群に含まれる話題のまとまりを推定します。

方法
Latent Dirichlet Allocation により、文書ごとのトピック分布とトピックごとの上位語を推定します。
指定条件
トピック数(2〜50)、語の形(SURFACE / LEMMA)、対象語フィルタ
既定条件
学習回数10、乱数の種42、出現文書数2未満の語を除外、50%超の文書に出る語を除外、各トピック上位15語を表示。

分布マップ(PCA)

語や文書の傾向を2次元の図に配置します。

方法
頻度またはTF-IDFの表を標準化し、主成分分析で2次元へ圧縮します。
指定条件
分析単位(語 / 文書)、特徴量(頻度 / TF-IDF)、語の形(SURFACE / LEMMA)
補助機能
文書単位の分布では、K-means による2〜10グループの自動分類も利用できます。

パターン分析

文中の語の並びと品詞から、関係パターンを抽出します。

方法
形態素解析結果をもとに、あらかじめ定義したルールで語同士の関係を抽出します。
指定条件
パターン種類、探索範囲、かかり元・かかり先の単語条件
パターン
主語-述語、目的語-動詞、間接目的語、形容詞→名詞、名詞の名詞、原因マーカー。

AI features

AI機能の扱い

再現性のために記録するとよい項目

AI機能は、同じ入力でもモデルの更新や生成処理の性質により文章が完全には一致しない場合があります。 論文・研究報告では、実行日、利用したAI機能、モデル名、主な入力、下記の補助パラメータ、結果画面または共有URLを控えておくことをおすすめします。

AIレポート作成

頻度分析やN-Gramなどの結果をもとに、概要、注目語、仮説、追加調査の観点を文章化します。

主な入力
対象語プリセット、参照する分析結果、対象文書の概要。
利用上の注意
統計値そのものではなく、結果を読むための補助情報として扱ってください。
記載方法
論文では、非AI分析の結果と、AIによる要約・解釈支援を分けて記載することをおすすめします。
補助パラメータ
既定の推論モデルは anthropic.claude-3-5-sonnet-20240620-v1:0。 temperature=0.1、出力上限(max_tokens)は標準520、詳細900です。 頻度分析を基礎材料とし、複数文書ではTF-IDF、N-Gram、パターン分析、共起分析も参照します。 注目語候補は最大8件、頻度の根拠行は上位30行を使います。

AIチャット

プロジェクト内文書をもとに質問し、関連箇所を参照しながら回答を確認できます。

主な入力
質問文、対象プロジェクト、必要に応じて参照する分析結果。
利用上の注意
回答は文書確認の補助です。重要な引用や主張は、元文書と分析結果で確認してください。
記載方法
研究で使った場合は、AIチャットを探索的な補助として用いたことを明記してください。
補助パラメータ
既定モードは bedrock_rag_v1、埋め込みモデルは amazon.titan-embed-text-v2:0、 推論モデルは anthropic.claude-3-5-sonnet-20240620-v1:0。 文書は800文字ごとに分割し、前後120文字を重ねます。 1文書あたり最大200分割、準備時の1文書上限は200,000文字です。 回答では根拠候補を最大5件使い、質問文は最大1,200文字、回答は標準設定で最大900文字・9行に整えます。

AI文書分類

文書の内容をベクトル化し、近い文書同士をグループ化します。

方法
文書ベクトルを作成し、K-means で分類します。グループ名、要約、分類理由はAIが補助的に生成します。
指定条件
グループ数の決め方(自動 / 手動)、手動時のグループ数。利用には文書10件以上が必要です。
記載方法
分類結果を使う場合は、グループ数の決め方、文書数、AI生成の要約を利用した範囲を明記してください。
補助パラメータ
既定の埋め込みモデルは amazon.titan-embed-text-v2:0、要約モデルは anthropic.claude-3-5-sonnet-20240620-v1:0。 各文書は先頭2,000文字をベクトル化に使います。 自動グループ数はK-meansで候補を比較して選び、手動時は2〜20件かつ文書数の半数以下に丸めます。 K-meansと2次元配置の乱数の種は42、K-meansの初期化回数は10です。 グループ説明は代表文書を最大6件使い、要約生成はtemperature=0、max_tokens=500です。

Result views

可視化と結果確認

ワードクラウド

頻度分析の上位語を大きさで表します。対象語の絞り込み条件を反映できます。

円グラフ

頻度分析の上位語の割合を表示します。表示件数を切り替えできます。

時系列グラフ

文書順や日付情報に沿って語の推移を確認します。

ネットワーク図

N-Gramや共起の結果から、語同士のつながりを図で確認します。

比較分析

同じ種類の分析結果を2つ選び、頻度やスコアの差を比較します。

表形式の確認

検索、並べ替え、絞り込みを使って、分析結果を表で確認します。