Первыми, кто запатентовал систему учета внешних ссылок стала компания Google.
Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме
и о том, как он может влиять на ранжирование результатов поиска.
PageRank рассчитывается для каждой веб-страницы отдельно, и
определяется PageRank’ом (цитируемостью) ссылающихся на нее страниц. Своего рода
замкнутый круг.
Главная задача заключается в том, чтобы найти
критерий, выражающий важность страницы. В случае с PageRank таким критерием была
выбрана теоретическая посещаемость страницы.
Рассмотрим модель
путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что
пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы.
Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того,
что посетитель покинет сайт и вновь начнет просмотр документов со случайной
страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на
каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие,
перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом
равноправны). Продолжая путешествие до бесконечности, он побывает на популярных
страницах много раз, а на малоизвестных - меньше.
Таким образом,
PageRank веб-страницы определяется как вероятность нахождения пользователя на
данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети
равна единице, так как пользователь обязательно находится на какой-либо
странице.
Поскольку оперировать вероятностями не всегда удобно, то
после ряда преобразований с PageRank можно работать в виде конкретных чисел
(как, например, мы привыкли видеть его в Google ToolBar, где каждая страница
имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем,
что: - каждая страница в сети (даже если на нее нет внешних ссылок)
изначально имеет ненулевой PageRank (хотя и очень маленький); - каждая
страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на
которые ссылается. При этом переданный PageRank обратно пропорционален числу
ссылок на странице – чем больше ссылок, тем меньший PageRank передается по
каждой; - PageRank передается не полностью, на каждом шаге происходит
затухание (та самая вероятность 15%, когда пользователь начинает просмотр с
новой, случайно выбранной, страницы).
Рассмотрим теперь, каким
образом PageRank может влиять на ранжирование результатов поиска (говорим
«может», так как в чистом виде PageRank уже давно не участвует в алгоритме
Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит
очень просто – после того как поисковая система нашла ряд релевантных документов
(используя текстовые критерии), отсортировать их можно согласно PageRank – так
как логично будет предположить, что документ, имеющий большее число качественных
внешних ссылок, содержит наиболее ценную информацию.
Таким образом,
алгоритм PageRank "вытесняет" наверх в поиске те документы, которые и без
поисковика наиболее популярны.
Источник: |