Visto a grande quantidade de informação disponível, é necessário algum mecanismo para recuperar esta informação, seja ela: publicações e/ou livros de uma biblioteca digital, registros médicos, documentos compartilhados por meio de uma LAN, conteúdo de blogs (inclusive este =) e quaisquer outras páginas disponíveis na web, tweets, bookmarks, ... Uma boa alternativa é utilizar
search engines. Mas, em vez de perder tempo criando uma, a melhor opção é utilizar alguma das várias opções já disponíveis na comunidade open source.
Entretanto, antes de escolher, é preciso considerar certos fatores, como: velocidade de indexação, tamanho do índice, tipo de armazenamento do índice, tipo de arquivos suportados para indexação (geralmente , html, pdf, doc, textos), suporte ou não para indexação incremental, performance e relevância. Vik Singh realizou um estudo comparativo entre as principais open source search engines. Neste
estudo, ele realizou dois experimentos visando determinar quais as principais vantagens e desvantagens de cada uma delas. Ao final,
Lucene apresentou os melhores resultados, de qualquer forma, vale a pena conferir os demais resultados.
Referência:
Vik Singh.
A Comparison of Open Source Search Engines. http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-source-search-engines-and-indexing-twitter/