分析全体
分析条件の再確認ができるよう、少なくとも次の項目を残すことをおすすめします。
- 使用ツール: KOTOPY
- 対象文書数、対象期間、対象データの説明
- 使用辞書名、オリジナル辞書を使った場合はその概要
- 語の形: 表記そのまま(SURFACE)または辞書の基本形(LEMMA)
- 品詞や除外語などの絞り込み条件
Methods for users and papers
KOTOPY で実行できる分析について、研究報告・論文・発表資料に記載しやすい形で、 仕組み、指定できる条件、結果の見方をまとめています。
Writing example
KOTOPY を用いて日本語テキストを形態素解析し、SURFACE を単位として頻度分析を行った。 その後、名詞を対象に LDA を実行し、トピック数を10、出現文書数2未満の語を除外する条件でトピックを推定した。
統計分析とは分けて、要約や解釈の補助として利用した範囲を明記することをおすすめします。 モデル名、主な入力、温度など、結果に影響する設定も補助的に記録すると再確認しやすくなります。
分析結果の共有URLを発行しておくと、共同研究者や指導教員と同じ画面を見ながら表や図を確認できます。 論文や発表資料に載せる前の確認、補足資料の整理にも便利です。
個人情報や未公開データを含む場合は、共有先を確認してください。
Paper checklist
分析条件の再確認ができるよう、少なくとも次の項目を残すことをおすすめします。
分析ごとに、画面で指定した値を方法節に書くと条件が明確になります。
表や図の見え方をそろえて確認できるよう、共有URLの活用をおすすめします。
必要に応じて、利用日とURLを添えて記載してください。
Common
日本語文を語に分け、語の表記、基本形、品詞情報を付けます。 多くの分析は、この語の一覧をもとに集計します。
分析結果は使用辞書の影響を受けます。論文・研究報告では、辞書名を明記することをおすすめします。
結果表示や一部の分析では、品詞や除外語を使って対象語を絞れます。
Dictionaries
KOTOPY で選択できる組み込み辞書・解析器の説明、出典、ライセンス、関連URLです。 カスタム辞書を使った場合は、プロジェクトで選んだカスタム辞書の編集画面から内容を確認できます。
IPA 辞書系の標準的な MeCab 辞書。
国語研が整備した現代書き言葉 UniDic。
Web 由来の新語・固有名詞を増やした IPADIC 系 MeCab 辞書。
IPADIC の後継系として使える NAIST 作成の MeCab 辞書。
JUMAN の辞書を MeCab で使える形にした辞書。
UniDic 語彙を中心にした Sudachi の小さい辞書。SudachiDict は UniDic と NEologd の一部を含みます。
Sudachi の標準辞書。基本語彙を広く含む。SudachiDict は UniDic と NEologd の一部を含みます。
固有名詞などを多く含む Sudachi の大きい辞書。SudachiDict は UniDic と NEologd の一部を含みます。
JUMAN 系の形態素解析器。意味的なつながりも考慮する。
Java 製の日本語形態素解析器。MeCab-IPADIC 辞書/モデルを使い、IPADIC 系の出力形式で扱う。
Standard analyses
指定語を含む箇所を文書横断で探し、前後の文脈を確認します。
語ごとの出現回数を数え、文書群全体と文書別の頻度を確認します。
各文書に特徴的な語を重みづけします。
連続して出てくる語のまとまりを抽出し、特徴的な表現を確認します。
注目語の前後に現れる語を集計し、語同士の結びつきを調べます。
Advanced analyses
文書群に含まれる話題のまとまりを推定します。
語や文書の傾向を2次元の図に配置します。
文中の語の並びと品詞から、関係パターンを抽出します。
AI features
AI機能は、同じ入力でもモデルの更新や生成処理の性質により文章が完全には一致しない場合があります。 論文・研究報告では、実行日、利用したAI機能、モデル名、主な入力、下記の補助パラメータ、結果画面または共有URLを控えておくことをおすすめします。
頻度分析やN-Gramなどの結果をもとに、概要、注目語、仮説、追加調査の観点を文章化します。
プロジェクト内文書をもとに質問し、関連箇所を参照しながら回答を確認できます。
文書の内容をベクトル化し、近い文書同士をグループ化します。
Result views
頻度分析の上位語を大きさで表します。対象語の絞り込み条件を反映できます。
頻度分析の上位語の割合を表示します。表示件数を切り替えできます。
文書順や日付情報に沿って語の推移を確認します。
N-Gramや共起の結果から、語同士のつながりを図で確認します。
同じ種類の分析結果を2つ選び、頻度やスコアの差を比較します。
検索、並べ替え、絞り込みを使って、分析結果を表で確認します。