cafebabe.jp 日々のよしなしごとをのたまうブログ.

184月/110

自然言語を対象としたバースマーク


あらゆる文章にもその文章の主題や著者特有の言い回しなど,何らかの特徴が出るはずである.そのため,自然言語で書かれた文章からでもバースマークが抽出できるはずである.Yangらはこの考えのもと,自然言語を対象としたバースマークを提案した.

文章は数多くの単語で構成され,それらの単語は名詞や動詞などに分類することが可能である.Yangらはそれら単語の品詞ごとの出現頻度に着目したバースマークを提案している.

ある文章中に存在する全ての名詞のうち,特定の辞書に載っている単語のみを取り出し,その出現頻度を名詞バースマークと定義している.同様に動詞バースマーク形容詞バースマーク副詞バースマークを提案している.

提案されているバースマークの評価は英文で行われており,日本語の場合でもそのまま適用できるのか,また,適用して意味があるのかは新たに評価実験を行って確かめる必要があるだろう.実装については chasen を使えば比較的簡単だろう(と楽観的に考えている).

参考文献

  • Jianlong Yang, Jianmin Wang, Deyi Li, "Detecting the Theft of Natural Language Text Using Birthmark," iih-msp, pp. 699-702, 2006 International Conference on Intelligent Information Hiding and Multimedia, 2006.
 
Comments (0) Trackbacks (0)

No comments yet.


Leave a comment

Spam Protection by WP-SpamFree

No trackbacks yet.