Knowledgeocean
製品特徴 機能・動作環境 価格

コンセプト抽出機能

自由記述された文章から、コンセプトといわれる言葉(名詞、動詞、形容詞といった単語や、名詞+動詞などの何がどうしたといった概念語)を抽出し、出現文書数・出現頻度により重み付けを行います。

文書中にどのような言葉がよく使われているのか、といった全体的な傾向をつかむことができます。また、ある特定のコンセプトに着目し、ある言葉が含まれる文章はどんな傾向にあるのか、といった分析も可能です。コンセプト抽出方法は、目的に合わせて「主要語抽出」「概念抽出」の切り替えが可能です。

主要語抽出と概念抽出の違い

【要語抽出】…名詞、動詞、形容詞といった、単体の単語を抽出します。(例:「PC」「買う」「格好いい」)【概念抽出】…何がどうした、といった概念が抽出できます。


コンセプト一覧画面

コンセプト一覧画面
その他機能1

また、概念抽出のルールを設定する「ナレッジオーシャン辞書ツール」により、名詞のみ、動詞のみ、といった抽出したい品詞の設定や、抽出後に「否定」や「疑問」といった属性を付与するかどうかの設定などができます。(例:「格好いいPC」「(要求)買う」「(否定)好き」)※概念抽出では、奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座で開発された形態素解析システム「茶筌(ChaSen)」を使用しています。

抽出結果の表示

抽出されたコンセプトは、何回(Term Frequency)、何文書に(Document Frequency)出現するかにより重要度を算出しているため、統計的な分析も可能となります。 コンセプト抽出の結果はCSV出力することが可能です。


コンセプト一覧画面
その他機能2

新規・既存コンセプト識別

コンセプト一覧画面
その他機能2

新規・既存コンセプト識別

コンセプト比較(新出コンセプト抽出)

抽出結果の傾向分析

特定のコンセプトに着目し、あるコンセプトが含まれる文書の文書属性を使い、各属性毎にどのような傾向を持つのかをグラフ表示します。

属性統計画面でのCSV出力

属性統計結果のCSV出力と、各属性項目で文書を絞り込んだCSV出力の機能が追加されました。

コンセプト共起抽出機能

コンセプト抽出で抽出されたコンセプトファイルから、ユーザ指定の”コンセプトの距離”をもとにコンセプトの共起ファイルを作成し、各コンセプト同士の相関関係をグラフやネットワーク図により視覚的に表示します。

コンセプトの距離とは?

以下のサンプルでは”明日、福岡ドームでダイエーホークスの試合を観戦します。”というサンプル文章をコンセプト抽出した場合のコンセプトの距離の確認図です。

このように物理的な距離(抽出されたコンセプトが隣同士の場合は1、その隣は2…)によってコンセプトの距離が決定します。

コンセプト共起抽出の表示機能

コンセプト共起ファイル参照

共起しているコンセプトの組を表示します。

コンセプト共起ネットワーク図

共起しているコンセプトをネットワーク表示します。

コンセプト共起比較図

選択した複数の評価コンセプトと共起するコンセプトとの共起度を比較します。(例: 評価コンセプトを「商品A」「商品B」「商品C」とし、共起コンセプトを「品質が良い」「値段が安い」「デザインが良い」で比較した場合は、各商品ごとにどのような評価がされているか、といった情報を得ることができます。)


コンセプト共起ファイル

コンセプト共起ネットワーク図

コンセプト共起比較図
 

類似文書分析

自由記述された文書群をコンセプトの出現傾向からパターン分類することで、どのようなパターンの文書が多いのかといった傾向を把握することができます。
例えば、消費者からの問合せについて分析を行い、頻繁に発生している問合せを知ることで、FAQ等の作成に役立てることができます。


 

カテゴリ分類機能

コンセプト抽出結果のコンセプトを元に、分析ファイルをユーザ側で任意のカテゴリグループに分類することができます。

カテゴリ分類の機能

分類カテゴリファイルの編集&参照

ユーザ指定のカテゴリ分類を定義&参照を行います。

分類結果ファイルの参照

分類結果の参照を行います。


分類カテゴリファイルの編集&参照

分類結果ファイルの参照

類似文書検索

検索元の文字列(文章)と類似する文章を検索することが可能です。該当する文書は、類似度が付与されます。


類似文書検索

辞書ファイル メンテナンス

辞書ファイルメンテナンス

ユーザ辞書のダウンロード・アップロードをGUIで行えますので、各ユーザはエクスプローラで自分の編集したい辞書ファイルを探す手間が無くなり作業の効率化にも繋がります。


ユーザ辞書ツール

 

ユーザ辞書ツール

ユーザ辞書の各機能

ユーザ辞書ツールは、テキストマイニング分析を行う上で非常に重要なツールとなります。 テキストマイニング分析を各ユーザで行う際には、自社特有の表現や単語(製品名などの固有名詞)をKnowledgeoceanに単語と認識してもらわなくてはなりません。また、”NTTデータ”や”エヌ・ティ・ティ・データ”など本来同じ意味の単語を同義語とみなす作業が発生します。 ユーザ辞書ツールはそのような作業を各ユーザで簡単に行なえる仕組みをご提供します。 コンセプトのドラッグ&ドロップや、その他操作性向上の為の工夫を追加しております。


ユーザ辞書ツール

その他

ユーザ辞書選択機能

目的毎に作成した複数のユーザ辞書の切り替えをメイン画面上で行う事が出来ます。 この機能により辞書の切替が容易になりますので、多目的の分析もスムーズに行う事が可能です。


ユーザ辞書選択機能

 

各種ツールの提供

1.含有コンセプトCSV出力ツール

各文書で検出されたコンセプトをCSV出力する事が可能ですのでデータマイニングツールとの連携等を可能にするツールです。

2.分析CSVファイル改行削除ツール

分析ファイルのCSVファイルに不要な改行がある場合、分析データのインポートに失敗する場合があります。 このツールを使ってCSVファイルから改行を削除することが可能です。

3.CSVファイル項目絞り込みツール

分析ファイルを用意する前に予め特定の項目で絞り込んだCSVファイルを作成することが可能です。
ユーザ指定のカテゴリ分類を定義&参照を行います。

推奨動作環境

サーバー
OS

Windows 2000 Server
Windows Server 2003/2003x64※1/2003
R2/2003 R2 x64※1

Windows XP Professional ※2
※1 64ビットOS環境においてKnowledgeocean
は32ビットアプリケーションの為、32ビットモード
での動作となります。
※2 Knowledgeoceanをスタンドアローン環境で
利用する場合に選択する事ができます。

WEBサーバ Internet Information Service (IIS) 5.0/5.1※3
/6.0
※3 Microsoft Windows XP Professionalに
添付されているWEBサーバです。
Knowledgeoceanをスタンドアローン環境で利用
する場合に選択する事ができます。
CPU Pentium-Vプロセッサ1GHz以上
メモリ 512MB以上
ハードディスク アプリケーションで100MB以上

(データ格納部はデータ件数に依存する為
含みません)

クライアント
ブラウザ Internet Explorer6.0SP1以上推奨
  Java2のインストールが必要