Делаем свою поисковую систему. Часть 1.

21 Май 2011 // Поисковая оптимизация и продвижение

Своя поисковая система – А почему бы и нет?

Я думаю, всем было бы интересно как работают Яндекс или Google. Поэтому давайте рассмотрим пример построения своей поисковой системы в интернете. Для кого-то это прольет свет на то, почему используются такие приемы как покупка статей и бэклинков, а так же внутренняя оптимизация.

Первое что нам понадобиться – это паук индексатор, который будет бродить по интернету и индексировать страницы сайтов. Вся проиндексированная информация будет храниться в кластере базы данных.

Принцип работы паука очень прост, заходим на сайт проходим по внутренним страницам сайта, выделяем ссылки на другие сайты, сохраняем нужное в базу.

Помимо паука понадобиться семантический анализатор. Семантический анализатор будет обрабатывать страницу: выделять текст, определять ключевые слова и фразы, смотреть вхождение ключевых слов в заголовок страницы, определять тематику сайта, фильтровать страницы и сайты с недоброкачественным контентом(дорвеи и гс).

Помимо поискового робота и семантического анализатора, понадобиться система ранжирования страниц в поиске. Ранжировать страницы можно по следующим факторам:

1. Количество страниц на сайте.

2. Количество обратных ссылок.

3. Количество внешних ссылок.

4. Тошнота

5. Вхождения ключевика в заголовок.

6. Тематика.

7.  Возраст доменного имени.

8.  Зона доменного имени.

9. Качество обратных ссылок. Если обратная ссылка находится в маленьком блоке с другими ссылками, 98% это сапа или куплена, поэтому ее вес будет минимальным. Если обратная ссылка находиться в тексте, значит она более качественна.

10. Возраст обратных ссылок. Чем дольше ссылка держиться на другом сайте, тем она естественнее.

11. Вхождение ключевика в метатэги.

12. Количество выделений жирным в тексте.

13. Вхождение ключевого слова в домен и url.

14. Встречался ли данный текст раньше в на других сайтах.

Параметров может быть больше, я привел лишь основные. На основе этих параметров можно построить формулу веса страницы в поиске по отношению к другим страницам. Для каждого параметра сперва будет определяться вес затем считаться общий, на основе которого по данному ключевому запросу будет определено положение сайта в выдаче.

Хотелось бы отметить что это лишь простейший вариант ранжирования. У яндекса, например, все гораздо сложнее. Формула расчета веса определяется динамически, некоторые параметры могут быть откинуты и вовсе. Но для нас главное получить число, на основе которого будет происходить сортировка. Нужно разложить веса которые относятся к бэклинкам, а которые к семантики. Допустим формула могла бы выглядеть вот так :

((ВЕС бэклинков)*(СР. ЗАЧЕНИЕ ВЕСА СЕМАНТИКИ)*(СР. ЗНАЧ. ВЕСА ФАКТОРОВ))/100 = Вес страницы по запросу.

После чего все значения запишем в базу. Повторюсь это лишь простейший вариант.

Пока что все, в следующей статье мы поговорим об апдейтах и прочих вещах, которые я еще не рассмотрел.

Google Bookmarks Digg Reddit del.icio.us Ma.gnolia Technorati Slashdot Yahoo My Web News2.ru БобрДобр.ru RUmarkz Ваау! Memori.ru rucity.com МоёМесто.ru Mister Wong

Оставить комментарий