シェアする

検索は難しい?!

2010年に書いたものの再掲です。

最近は、インターネットでの検索が当たり前のようになっているが、実際に必要な情報にたどり着くというのは、やはり難しい。

昔は、データベースの検索を専門に行う「サーチャー」という仕事まであった。これは、データベースのコマンドを操作すること自体が難しいということもあったが、やはり正しいと思われる検索結果に至ることも難しかったことも確かだ。その原因はデータベースの仕組み自体が貧弱で、そもそもキーワード型のデータベースでは、適切にキーワードが設定されていなければ、検索されることすら難しかったわけで、そこを人間が類義語などを推測して、検索対象を広げて補って、目標に達するということも必要とされた。

Google の検索など、近年の全文検索型のデータベースでは、多くの場合、対象とするファイル(ドキュメント)の中で、その被検索語がどの程度の重要性を持っているか、という評価値を持っていて、評価値の高い順から検索結果が表示されるという方式が取られている。その評価値に作り方がデータベースによって異なっていて、検索結果の信頼度を左右する重要な要素になっている。被検索語を本文とは別にメタデータの形で、添付することも重要な方法である。

この評価値の作り方を推測し、検索結果の上位にくるようにする技術を SEO (Search Engine Optimization) と呼ぶわけだが、利用者にとっては時には迷惑な話で、商品広告ばかりが上位にきて、肝心な情報に行き着けないということでは有益な検索サービスとはいえない。そこで、検索エンジン側と SEO 対策を行い上位に出したい側とがしのぎを削るような自体がおこり、さまざまな工夫がされていると考えられる。

しかし、単独のキーワードを指定しての検索の場合には、Wikipedia の見出し語になっている場合、Wikipedia がだいたいトップにくるが、まあ、検索結果を見て、それほどおかしいと思うことはない結果が出てくるのではなかろうか。

このように、無料で手軽に検索が出来るのだから、もっと誰でもが活用していてもよさそうに思うが、意外とそうでもない。最近は、人に聞く前に検索くらいすればいいのにと思うのだが、私などでも何かを聞かれると、Google で検索してそれで答えることだってある。

「吉村伸」を Google で検索すると、7,000件ほどヒットするが、この Web が最初に出て、二番目が Wikipedia である。そこから下となるとなぜその順番ででるのかなあ?と思うようなものだが、あとは別の条件を加えてみるとか、検索ツールを使い新しい順に出すとかして、欲しい情報を見つけだそうと試みるのが、検索の正しい使い方だろう。

細かい問題を解決しようとすると、それだけでは不足し、やはり対象が人間が書いたものであるならば、人間が類義語を考えたり、検索語の組み合わせを変えてみたりしながら探さなければならないだろう。

先日も、FreeBSDで、php が core dump してしまうという問題に会い、こんなことがなぜ残っているのかと疑問ではあったし、検索するとその現象が存在して、自分のところの特殊な条件でないことも分かったのだが、意外に苦労した。

昔も百科事典でなにか調べ物をしようとするときには、ある項目を見て、その中に出てくる言葉で分からないものがあると、さらにその言葉を調べということを繰り返し、問題の解決を行うということがあったと思うが、今はハイパーテキストのリンクをたどっていけば、それを行うことができるので非常に便利だ。そういう点で、リンクを適切に記述してある Web ほど有効性が高い。

しかし、私は子どものころ、50音順にならべてある百科事典が嫌いだった。結局何冊も書棚から降ろしてくることになり、その重たい本に埋もれるからだった。図鑑、辞典は分野ごとに整理されているもののほうが好きで、そうした本の索引から目指す項目に飛び込めば、その周辺を読めば、関連する情報が手に入る。50音順では隣は全く関係のない項目だ。

たしかに検索は便利だが、この50音順辞典のようなところがあって、周辺が有効であるとは限らない。Blog の中に飛び込んだような場合には、まったくバラバラだ。

そういう点で、編集を行いパッケージングする出版活動は重要だろう。場合によっては検証、追試を行い、確認を行い、公表する。インターネットの情報が検索サービスによって得られるからと言って、確かな情報が万人が得られるわけではない。

ただ、だからと言って検索を全くしないで自分で努力しないというのも問題がある。有益な情報がたくさんあることは間違いないことなのだから。

最終更新日: $Date: 2010-01-09 17:04:21+09 $