「Excelの玉手箱」アドインコレクション－株式会社フリーフォーマット

検索・分析

機能408

Webページ熟語抽出

Webページで多く使用されている熟語を調べたい！


		Webページで使用されている漢字熟語、カタカナ用語、英単語を抽出し、その出現頻度を集計します。

	朝日、読売、日経のWebサイトのトップページを調べて、使用されている熟語を調べる

■ トップページの熟語を抽出機能を実行すると、抽出結果が次のような形式でシートに記入されます。シートの各列の内容は次のとおりです。

列	内　容
Ａ	抽出された漢字熟語が記入されます。
Ｂ	熟語の出現頻度が記入されます。
Ｃ	熟語が抽出された年月日が記入されます。
Ｄ	熟語が抽出されたサイトのURLが記入されます。

　

列Ｃ、Ｄは、抽出の度に更新され、最新の抽出年月日とURLが記入されます。

	任意のシートに熟語を抽出するサイトのURLを記入します。　 ■ URLの記入 URLは列Ａの１行目から連続して記入します。機能メニューで抽出する熟語の種別を指定します。　 ■ 抽出する熟語の種別指定
		サイトのURLを記入したシート（）をアクティブにしてから、機能メニューの［実行］をクリックして機能を実行します。
	■ 機能の実行サイトが順次調べられ、熟語が抽出されます。　 ■ 抽出結果の例（カタカナ用語）
		集計結果の記録のため自動挿入されるシートは以下のとおりです。

	熟語種別	シート名
	漢字熟語	FF漢字熟語リスト
	カタカナ用語	FFカタカナ用語リスト
	英単語	FF英単語リスト

		ユーザー指定文字について
	この機能では、同一文字種が２文字以上連続している場合に「熟語」と判断します。スペース、改行、記号、数字などの文字は区切り文字として扱われ、熟語や単語を分割します。　英単語の場合は、アルファベットの大文字、小文字以外は原則的に区切り文字となりますが、機能メニューの「ユーザー指定文字」に区切り文字として除外する文字を指定することができます。これにより、＠やピリオドで区切られたメールアドレスや、：// で区切られたサイトURLなどを英単語として抽出することができます。たとえば、次のようなサイトURLの場合、 http://www.freeformat.co.jp/AddInIndex.htm 通常は、http、www、freeformat、co、jp、AddInIndex、htm の７つの単語が抽出されます。サイトURLを１つの単語として抽出する場合は、ユーザー指定文字として、コロン（：）、スラッシュ（/）、ピリオド（．）を指定することにより、これらの文字で分割されること無く、ひとつの単語として抽出することができるようになります。　　 ■ ユーザー指定文字の設定例　ユーザー指定文字を複数指定する場合は、それぞれを半角スペースで区切ります。

類似機能

機能368：熟語抽出

機能372：カタカナ用語抽出

機能376：英単語抽出

機能697：単語リスト作成

関連機能

機能416：国語辞書一括検索

この機能のトップに戻る

　

2008.08.27/2017.03.16/2017.06.12