Por: David Tang Um motor de busca funciona, na seguinte ordem: 1) Rastreamento; 2) Pesquisa em profundidade de rastreamento profundo (DFS); 3) Pesquisa Fresh Crawling Breadth-first (BFS); 4) Indexação; 5) Pesquisando.
Os mecanismos de pesquisa da web funcionam armazenando informações sobre um grande número de páginas da web, que eles recuperam da própria WWW. Essas páginas são recuperadas por um rastreador da web (também conhecido como spider) - um navegador da web automatizado que segue todos os links que vê; exclusões podem ser feitas pelo uso de robots.txt. O conteúdo de cada página é então analisado para determinar como deve ser indexado. Os dados sobre as páginas da web são armazenados em um banco de dados de índice para uso em consultas posteriores. Alguns mecanismos de pesquisa, como o Google, armazenam toda ou parte da página de origem (conhecida como cache), bem como informações sobre as páginas da web, enquanto alguns armazenam cada palavra de cada página que encontra, como o AltaVista. Esta página em cache sempre contém o texto de pesquisa real, pois é o que foi realmente indexado, portanto, pode ser muito útil quando o conteúdo da página atual foi atualizado e os termos de pesquisa não estão mais nela. Esse problema pode ser considerado uma forma branda de linkrot, e o manuseio do Google com ele aumenta a usabilidade ao satisfazer as expectativas do usuário de que os termos de pesquisa estarão na página retornada. Isso satisfaz o princípio da menor surpresa, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas em cache muito úteis, mesmo além do fato de que podem conter dados que podem não estar mais disponíveis em outro lugar. Isso satisfaz o princípio da menor surpresa, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas em cache muito úteis, mesmo além do fato de que podem conter dados que podem não estar mais disponíveis em outro lugar. Isso satisfaz o princípio da menor surpresa, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. O aumento da relevância da pesquisa torna essas páginas em cache muito úteis, mesmo além do fato de que podem conter dados que podem não estar mais disponíveis em outro lugar. Quando um usuário chega ao mecanismo de pesquisa e faz uma consulta, normalmente fornecendo palavras-chave, o mecanismo procura o índice e fornece uma lista das páginas da web mais correspondentes de acordo com seus critérios, geralmente com um breve resumo contendo o título do documento e, às vezes, partes do texto. A maioria dos mecanismos de pesquisa oferece suporte ao uso dos termos booleanos AND, OR e NOT para especificar a consulta de pesquisa. Um recurso avançado é a pesquisa por proximidade, que permite definir a distância entre as palavras-chave.
A utilidade de um motor de busca depende da relevância dos resultados que apresenta. Embora possa haver milhões de páginas da Web que incluem uma palavra ou frase específica, algumas páginas podem ser mais relevantes, populares ou confiáveis do que outras. A maioria dos mecanismos de pesquisa emprega métodos para classificar os resultados para fornecer os "melhores" resultados primeiro. A forma como um mecanismo de pesquisa decide quais páginas são as melhores correspondências e em que ordem os resultados devem ser exibidos varia muito de um mecanismo para outro. Os métodos também mudam com o tempo, conforme o uso da Internet muda e novas técnicas evoluem.
A maioria dos mecanismos de pesquisa na web são empreendimentos comerciais sustentados por receitas de publicidade e, como resultado, alguns empregam a prática controversa de permitir que os anunciantes paguem para ter suas listagens classificadas em uma posição superior nos resultados de pesquisa.
A grande maioria dos mecanismos de pesquisa é administrada por empresas privadas usando algoritmos proprietários e bancos de dados fechados, sendo os mais populares atualmente Google, MSN Search e Yahoo! Pesquisa. No entanto, a tecnologia de mecanismo de busca de código aberto existe, como Dig, Nutch, Senas, Egothor, OpenFTS, DataparkSearch e muitos outros. Fonte do artigo: http://www.ArticleGeek.com - Conteúdo de site gratuito e https://www.activesearchresults.com/articles/how_search_engines_work.php |
Nenhum comentário:
Postar um comentário