Делаем свою поисковую систему. Часть 1.
21 Май 2011 // Поисковая оптимизация и продвижение
Своя поисковая система – А почему бы и нет?
Я думаю, всем было бы интересно как работают Яндекс или Google. Поэтому давайте рассмотрим пример построения своей поисковой системы в интернете. Для кого-то это прольет свет на то, почему используются такие приемы как покупка статей и бэклинков, а так же внутренняя оптимизация.
Первое что нам понадобиться – это паук индексатор, который будет бродить по интернету и индексировать страницы сайтов. Вся проиндексированная информация будет храниться в кластере базы данных.
Принцип работы паука очень прост, заходим на сайт проходим по внутренним страницам сайта, выделяем ссылки на другие сайты, сохраняем нужное в базу.
Помимо паука понадобиться семантический анализатор. Семантический анализатор будет обрабатывать страницу: выделять текст, определять ключевые слова и фразы, смотреть вхождение ключевых слов в заголовок страницы, определять тематику сайта, фильтровать страницы и сайты с недоброкачественным контентом(дорвеи и гс).
Помимо поискового робота и семантического анализатора, понадобиться система ранжирования страниц в поиске. Ранжировать страницы можно по следующим факторам:
1. Количество страниц на сайте.
2. Количество обратных ссылок.
3. Количество внешних ссылок.
4. Тошнота
5. Вхождения ключевика в заголовок.
6. Тематика.
7. Возраст доменного имени.
8. Зона доменного имени.
9. Качество обратных ссылок. Если обратная ссылка находится в маленьком блоке с другими ссылками, 98% это сапа или куплена, поэтому ее вес будет минимальным. Если обратная ссылка находиться в тексте, значит она более качественна.
10. Возраст обратных ссылок. Чем дольше ссылка держиться на другом сайте, тем она естественнее.
11. Вхождение ключевика в метатэги.
12. Количество выделений жирным в тексте.
13. Вхождение ключевого слова в домен и url.
14. Встречался ли данный текст раньше в на других сайтах.
Параметров может быть больше, я привел лишь основные. На основе этих параметров можно построить формулу веса страницы в поиске по отношению к другим страницам. Для каждого параметра сперва будет определяться вес затем считаться общий, на основе которого по данному ключевому запросу будет определено положение сайта в выдаче.
Хотелось бы отметить что это лишь простейший вариант ранжирования. У яндекса, например, все гораздо сложнее. Формула расчета веса определяется динамически, некоторые параметры могут быть откинуты и вовсе. Но для нас главное получить число, на основе которого будет происходить сортировка. Нужно разложить веса которые относятся к бэклинкам, а которые к семантики. Допустим формула могла бы выглядеть вот так :
((ВЕС бэклинков)*(СР. ЗАЧЕНИЕ ВЕСА СЕМАНТИКИ)*(СР. ЗНАЧ. ВЕСА ФАКТОРОВ))/100 = Вес страницы по запросу.
После чего все значения запишем в базу. Повторюсь это лишь простейший вариант.
Пока что все, в следующей статье мы поговорим об апдейтах и прочих вещах, которые я еще не рассмотрел.
