全文検索エンジンについての選択肢あれこれ

自分が作りたいものが、検索エンジンがないと実現できないことが
判明したので、検索エンジンを作ることにしました!
と言いたいところだけど、まずは、
オープンソースでの検索エンジンについて調べてみました。
  • Senna
    • Wikipediaによると2ch検索で使われているなど実績がある
    • 日本語に強そう
    • MySQLやPostgreSQLをベースに動くみたい
  • Apache Lunece
    • 読みはルシーン
    • Cassandraと同じApacheプロジェクト
    • 日本語に弱そう、できないこともなさそうだが、手間はかかるのかな?
    • Wikipediaによると1000万ドキュメントを1台でできるらしい。
    • 例のごとくJavaで動く
  • Lux
    • C++のAPIが提供されている
    • 日本人が開発しているので日本語に強そう
  • Hyper Estraier
    • tokyocabinetなどの作者の平林幹雄さん作成の検索エンジン
    • 早そう
    • 中身はtokyocabinetと思いきや、QDBM
    • メンテされてない?十分に枯れてるから?
    • 1000万以上のドキュメントも分散処理できる
うーむ。迷う。
魅力を感じるのは、luceneとhyper estraier。
これからいじってみようとおもう。

人気の投稿