Jul 12, 2014

ひとと話をするとき、ぼくらが tf-idf に従っているということ

ぼくら技術者は基本的に技術の話が大好きなものだから、技術者同士で集まれば、ついつい技術の話をしがちだ。そんな調子で技術の話をはじめたとき、横で聞いていたひとりが、

「お前らは技術の話をやめろ。もっと一般のひとにもわかるような話をしろ」

と、諭すようにいって、はっとした。共通する話題は他にも多いのに、なぜぼくらは技術の話を選んだか。

帰り道、電車に揺られ名前も知らないひとびとの話にぼんやりと耳をかたむけているときふと思ったのは、

「ぼくらは tf-idf に従って話題を選んでいるのではないか」

ということだった。

tf-idf は情報検索の分野でよく知られた指標で、「ある文書における、ある単語の重要度」をはかる。その単語がその文書内に登場すればするほど重要度はあがり、その単語が他の文書に登場すればするほど重要度はさがる。ふたつめの点が面白いところで、これはつまり、「ある文書にとって、他のたくさんの文書に登場するようなありふれた単語は、あまり重要ではない」ということをいっている。

tf-idf で、文書をひとに、単語を話題に、置き換えてみる。すると tf-idf は、「あるひとにとって、ほかのたくさんのひとが持っているようなありふれた話題は、あまり重要ではない」ということを意味する指標に変化する。

技術を話題にできるひとは少ない。恋愛を話題にできるひとはそれよりも多い。天気を話題にできるひとはもっと多いことだろう。全世界あわせて71億人のなかのひとりと話すとき、71億人ができる話をしようと思うだろうか。貴重な話題を共にするひとに出会ったなら、せっかくの機会を活かそうとすることだろう。ぼくらは tf-idf に従っている。

そういう話を、どこか別の場所でした。ぼくはまだ技術から抜け出せそうにない。

No comments:

Post a Comment