Node.js role for OUTSTANDING project (RTB, Big Data, Machine Learning)! Let’s talk today!

Введение в поисковую оптимизацию для разработчиков

В данной статье речь пойдет о важном вопросе, с которым неизбежно сталкиваются разработчики и владельцы онлайн-проектов, в бизнес-модели которых поисковый трафик занимает не последнее место.

Мы поговорим о том, как сделать проект более дружественным к поисковым системам, чего избегать и как при разработке концепции сайта заложить краеугольные камни будущих высоких позиций в поисковой выдаче.

Прежде всего нам нужно упрощенно понять, как работают поисковые системы, собирая информацию, и на основании каких факторов те или иные страницы ранжируются выше или ниже в результатах поиска.

Итак, рассмотрим краткую схему работы поисковой машины.

Схема работы поисковой машины

Здесь мы можем выделить следующие важные этапы:

  1. Передвижение поискового паука по ссылкам и сбор информации с найденных страниц в базу
  2. Анализ полученных текстов и создание индекса на основе расчета различных факторов (теги Title, текст страниц, ссылки с других источников и т.д.)
  3. Анализ запроса, введенного пользователем в строку поиска, и возврат списка страниц, соответствующих запросу в порядке убывания степени соответствия (или релевантности).

Исходя из этого, мы можем разбить задачу грамотного, с точки зрения поисковой оптимизации, создания онлайн-проекта на две большие части:

  1. Обеспечение максимально полного включения проекта в индексы поисковых машин + наличие уникального текста (по принципу чем больше — тем лучше)
  2. Обеспечение наилучшего сочетания факторов ранжирования с целью достижения более высоких позиций.

Рассмотрим этот процесс на практике.

Включение в индексы поисковых машин

Как сайты и страницы попадают в индекс? Восемь-десять лет назад для того, чтобы поисковая машина узнала о существовании нашего сайта, необходимо было добавлять свой проект в очередь на индексацию через специальную форму для каждой поисковой машины.

Сейчас этого уже делать не нужно. Поисковый паук узнает о существовании новых сайтов и новых страниц путем:

  1. Ссылок с других страниц
  2. Передачи информации из Google Bar (при посещении пользователем страниц браузером с установленным GoogleBar)
  3. Нахождения текстового упоминания урл-адреса (без тегов <a href=""></a>)

Таким образом, для того, чтобы обеспечить максимально полное включение нашего только что созданного проекта в индекс нужно:

  1. Создать внятную внутреннюю ссылочную структуру (в идеале — текстовые ссылки вида <a href=""></a>, в качестве альтернативы — графические ссылки с возможностью изменения атрибутов <img alt="">)
  2. Получить ссылки на проект извне

Для облегчения индексации имеет смысл зарегистрироваться в Google Webmaster Tools, создать карту сайта в XML формате и засабмитить ее в своем аккаунте (как это сделать, можно узнать, прочитав справку Google Webmaster Tools).

Типичные грабли, на которые наступают разработчики — это:

  • Флеш — эта проблема уже не так актуальна, как была ранее, однако до сих пор приходится встречать проекты, в которых используется неиндексируемое флеш-меню или контент зашит в флеш. Поэтому лучшим выходом будет умеренное и аккуратное использование флеш элементов в оформлении — если меню выполнено на флеше, продублируйте его текстовыми ссылками и ни в коем случае не зашивайте основной текст сайта в флеш-вставки.
  • JavaScript/AJAX —— модные и удобные технологии, однако поисковые машины не способны оценить их шарм. Тем не менее, при грамотном подходе их использование вполне допустимо и оправдано. К примеру, весь из себя web 2.0-ный сайт Digg.com представлен в базе Google 9 миллионами страниц, причем доступен к индексации не только основной текст статей, но и многочисленные комментарии пользователей.
  • Дублирование контента — зачастую, одни и те же страницы доступны по нескольким адресам, также частенько доступны к индексации результаты внутреннего поиска по сайту, результаты сортировки (к примеру, если на сайте есть перечень товаров с несколькими полями, доступными для сортировки), иногда даже в индексе можно найти административную часть. Также желательно делать 301-й редирект с версии site.com на www.site.com чтобы в индексе не было разных версий одинаковых страниц. Также следует позаботиться о том, чтобы в урл-адресах не фигурировали ID сессий.
  • Очистка кода — в идеале код должен быть валидным, теги — парными, CSS и Javascript вынесены в отдельный файл. По возможности, смысловые части страницы желательно располагать ближе к началу кода.
  • Неверные коды сервера — при работе с одним клиентским проектом мы обнаружили, что страницы ошибок возвращают код «200 ОК» вместо 404 Not Found, в результате чего индекс Google был нещадно заспамлен множеством мусорных страниц.

Также по возможности стоит использовать ЧПУ адреса вида www.site.com/travel/Ukraine/Crimea — несмотря на то, что поисковики уже нормально индексируют динамические адреса, не стоит забывать о пользователях, которые в своих сайтах/блогах в большинстве случаев ставят ссылки копипастом из адресной строки браузера, и в этом случае мы получим насыщенную ключевыми словами ссылку (почему это важно мы вскоре узнаем). Особенно это актуально для западных проектов.

В идеале у вас должен получиться проект, в котором каждая страница имеет уникальный контент, уникальный ЧПУ адрес, аккуратный корректный код и легко доступна для индексации посредством продуманной внутренней ссылочной структуры.

Обеспечение высоких позиций

Следующая задача — намного более сложна, чем включение в индекс поисковиков. Нужно продумать проект таким образом, чтобы максимально полно воздействовать на факторы, которыми руководствуются поисковые машины при сортировке результатов поиска.

Итак, что влияет на ранжирование? Все факторы можно разбить на два блока (мы будем рассматривать западные поисковые машины, однако общие принципы ранжирования, аналогичны и для поисковых машин Рунета):

1) Внутренние — факторы, находящиеся на стороне сайта:

a. Возраст домена
b. Соответствие доменного имени запросу
c. Соответствие урл-адреса и названия документа запросу (travel/Ukraine/Crimea/kerch.php)
d. Тег <title>
e. Наличие искомых слов в тексте и общая релевантность текста страницы запросу (в т.ч. форматирование текста <h1>, <h2> и т.д.)
f. Тег <img alt="" />
g. Тексты внутренних ссылок

На что в связи с этим нужно ориентироваться при проектировке онлайн-проекта?

  1. Желательно заложить возможность гибкого управления (например, задание по шаблону на основании различных критериев) url-адресами в пределах сайта вплоть до задания их вручную
  2. Обязательно нужно заложить возможность гибкого управления тегами Title с возможностью задавать их вручную
  3. Нужно стараться сделать доступным для индексации как можно большего объема текста, в том числе и комментарии пользователей, поскольку, чем больше текста, тем больше вероятность что он будет релевантным в ответ на очередной длинный низкочастотный запрос пользователя.
  4. При форматировании текста желательно использовать стандартные HTML теги для оформления (заголовки <h1>, <h2>, теги <strong> и т.д.)
  5. Необходимо дать возможность прописывать атрибуты ALT для изображений, несущих смысловую нагрузку.

2) Внешние — факторы, находящиеся вне сайта и указывающие поисковой машине на авторитетность сайта и соответствие определенных его страниц искомому запросу, иными словами — ссылки.

Понятие авторитетности (веса) и ссылок, как инструмента его передачи, является краеугольным камнем поисковой оптимизации.

Почему голос Путина авторитетен? Потому что Путин известен, иными словами на него чаще ссылаются, его имя постоянно на слуху. Мерилом оценки авторитетности в сети выступают ссылки. Чем больше ссылок на страницу, тем она авторитетнее, и чем авторитетней ссылающийся сайт — тем больший вес имеет ссылка.

Если ссылка на www.ebay.com имеет текст Online Auction, это является сигналом для поисковой машины что сайт ebay.com релевантен запросу «Online Auction», причем сигнал тем более сильный, чем более авторитетен ссылающийся сайт. Учет текстов ссылающихся ссылок (как внешних, так и внутренних, о чем часто забывают) называется ссылочным ранжированием.

На сегодня ссылочное ранжирование — фактор номер один в поисковой оптимизации.

Из всего вышесказанного следует два важных для проектировки узла вывода:

  1. Страницы, которые планируется продвигать по более конкурентным запросам, следует располагать повыше в структуре сайта (в одном клике от главной страницы), так как главная страница почти всегда имеет больший среди всех иных страниц сайта вес, соответственно, чем дальше от нее страница, тем меньше веса она получает.
  2. Внутренние ссылки должны активно использовать нужные ключевые слова в качестве текстов.
  3. При проектировании сайта желательно закладывать в концепцию разделы, содержащие контент — раздел статей, блог и т.д. Это позволит привлекать естественные ссылки, а также получать дополнительные переходы с поиска на страницы со статьями, посты в блогах и т.д

Итоги

Думайте о том, как будут искать вас пользователи на этапе продумывания концепции сайта и планирования его архитектуры, ведь чем раньше заложить эти вопросы в разработку, тем дешевле в итоге все обойдется: делать с самого начала грамотно в разы легче, чем переделывать что-то и копаться в чужом коде. Конечно, наилучшим вариантом будет консультация со специалистом по продвижению на этапе подготовки технического задания; если же подобная возможность отсутствует — у вас будет возможность воспользоваться приведенными здесь советами :)

Роман Вилявин, Promodo

  • Популярное

19 комментариев

Подписаться на комментарииОтписаться от комментариев Комментарии могут оставлять только пользователи с подтвержденными аккаунтами.

также к вопросу о вреде: могут ли быть случаи, когда за дубликат признается оригинальная статья, а за оригинал перепост на более «известном» (выше ТИЦ, PR?) ресурсе. правда, я не до конца уверен в правильности формулировки вопроса

Константин, вы все верно сформулировали. Это единственный случай, когда в результате неверного определения первоисточника и признания дубликатом оригинала, может быть негативный итог для проекта в результате чьих-тьо действий со стороны. Теоретически такое возможно, но на практике — практически не встречалось (или нам везло).

2 Roman Viliavinспасибо за пояснениетакже к вопросу о вреде: могут ли быть случаи, когда за дубликат признается оригинальная статья, а за оригинал перепост на более «известном» (выше ТИЦ, PR?) ресурсе. правда, я не до конца уверен в правильности формулировки вопроса

а гуглобомбы можно считать вредом со стороны?

Константин, вред — это когда сайт теряет поисковый трафик, попадает в бан, под фильтры и так далее. Отранжировать любой сайт по запросу «капец стране» можно, потратив на это 5$ на ссылки. Это вред не онлайн-проекту, а имиджу скорее. И то, только в случае пиара этого дела СМИ.

а гуглобомбы можно считать вредом со стороны?

А как насчет негативного действия?

Евгений, со стороны сайту навредить теоретически невозможно. И за все время практической работы я также не видел таких ситуаций.

Интересная, хорошо структурированная статья. Говоря о внешних ссылках, не стоит забывать, что тэги a rel= «nofollow» не индексируются и соответственно не приносят сайту пользы. А как насчет негативного действия? Кто-то сможет прокомментировать?

спасибо. статья открыла некоторые простые, но истины:)

Мету Катсу з Гугла більше подобається з www, і думаю для цього є підстави, включаючи ті що вище вказано by Николай.>> Чем больше ссылок на страницу, тем она авторитетнее, и чем авторитетней ссылающийся сайт — тем больший вес имеет ссылка.Не зовсім так. Більше значення має співпадіння по тематиці. Якщо наприклад мій сайт про помідори, то мені краще щоб на нього був лінк з іншого сайту про помідори з авторитетом «3», ніж з сайта про велосипеди з авторитетом «4» чи «5». Причому також є дуже важливим який текст лінку.

И Google и Yandex давно дают возможность вебмастерам обозначить адрес сайта.Тема то для разработчиков. Это они должны иметь представление о том, что строить надо.А по поводу того что PDA и WAP добавились, так это не проблема. Пусть и набирают эти специальные субдомены. Отсутствие WWW в этом не помеха.Короче тема старая. Многие давно все ресурсы перевели в без WWW. При чем по разному это делали.И в выйгрыше те, кто понимает для чего им это нужно.

> Согласен с Web, www — это архаизмНе согласен ни с Web’ом ни с Лив Жорналом! Так как WWW. очень удачное решение, когда ваш сайт имеет еще и PDA и WAP версии (что в последнее время стало довольно популярно).Таким образом можно легко сделать 2 версии на отдельных субдоменах (можно и по другому, рулить css, но это не всегда возможно и т д...) при этом все легко поймут что есть и WWW. и что есть WAP. версии сайта...Быть может лет 5 назад это были и «архаизм», но не сейчас... Хуже, когда у людей есть сайт на WWW, а если ввести адрес без WWW — то сайт не работает, но это уже клиника... и это не сюда...;) -

Насчет «дублирование контента» хочу добавить — Гугл объявил о новом теге rel="canonical«, так что теперь можно объяснить боту какая версия страницы является «оригинальной».

Макс, боюсь, что не поможет, стянут парсером вместе с тегом в день появления и зальют на другом сайте. Как определить первоисточник?:) Кроме учета авторитетности проекта, других идей пока нет!

Согласен с Web, www — это архаизм

Насчет «дублирование контента» хочу добавить — Гугл объявил о новом теге rel= «canonical», так что теперь можно объяснить боту какая версия страницы является «оригинальной».

Также желательно делать 301-й редирект с версии http://site.com на http://www.site.com чтобы в индексе не было разных версий одинаковых страниц.

Скорее всего наоборот. Надо делать редирект с версии http://www.site.com на http://site.com

Хорошая статья. Спасибо. Надеюсь, автор продолжит публиковать свои работы.Слушал Романа как-то на конференции — очень понравилось...

PageRrank (by google) — для кожної окремої сторінкиТИЦ (by yandex) — для сайту вціломуСтатья классная!

PageRank — для кожної сторінкиНаприкладhttp://www.developers.org.ua/ — PR 5http://www.developers.org.ua/f.../ — PR 3 (Якщо вірити http://www.prchecker.info/check_page_rank.php)

... главная страница почти всегда имеет больший среди всех иных страниц сайта вес...Поправте мене якщо я помиляюсь, але, здається, той же PageRank вираховується не для окремих сторінок, а тільки для сайту в цілому.

Рома, спасибо за статью. Ждем новые творения:)

Подписаться на комментарии