Ma lecture de l'architecture de Percolator : un composant du moteur de recherche Google

le 15/11/2010 par Marc Bojoly

En avril 2010, Google a mis à jour son système d'indexation. Caffeine - le nom de ce projet - est sans doute passé inaperçu pour le grand public mais il représente un changement profond pour Google. Il n'améliore pas directement la page de recherche, comme a pu le faire instant search, mais il améliore le mécanisme d'indexation, ce qui permet de fournir des résultats pertinents. Pour l'utilisateur final, cette amélioration permet de réduire le délai entre le moment où une page est découverte sur le web et le moment où elle est prise en compte dans la recherche Google, ce qui rend les nouvelles pages disponibles plus rapidement. Google a publié récemment un papier de recherche sur Percolator, l'un des services qui sous-tend Caffeine. Les précédents papiers de recherche de Google concernaient Map/Reduce et Google File System. Ces deux papiers sont devenus les fondations de Hadoop à propos duquel j'ai récemment écrit une série d'articles. J'étais donc très intéressé de découvrir cette nouvelle architecture. Après l'avoir lu, j'ai choisi d'écrire cet article en anglais, pour vous donner, non pas à proprement parler un résumé, mais ma compréhension de cette nouvelle architecture.