2. 1. Введение
2. Зеркала, домены и поддомены
3. Протокол HTTPS
4. Системы управления и анализа содержимого
5. Семантические адреса и параметры URL
6. Карты сайта
7. Управление поведением поисковых сканеров
8. Коды ответов сервера
9. Кроссбраузерность и адаптивность
3. 1.Введение.
Техническая оптимизация сайта — это комплекс процедур, направленных
на изменение и дополнение технических свойств сайта, с целью улучшения
его взаимодействия с поисковыми системами.
Основная задача технической оптимизации — обеспечить максимально
полную и быструю индексацию страниц сайта.
Техническая оптимизация — это непрерывный процесс, который построен на
взаимодействии оптимизатора и программиста с постоянным анализом
результатов, с целью контроля и определения результативности.
4. 1.Введение. Модель взаимодействия систем.
Модель оптимизации
(процессы и условия
задаются
оптимизатором)
CMS сайта (процессы
известны программисту)
Поисковая система (о
процессах можно судить
по внешним
проявлениям)
5. 2. Зеркала, домены и поддомены
WWW (англ. World Web Wide) — это по сути поддомен.
Зеркало — это домен который содержит информацию
идентичную другому домену.
Так как site.ru и www.site.ru для поисковых систем – это
разные адреса, ссылки, указывающие на не основное зеркало
сайта, не учитываются для продвигаемого домена. Склейка
зеркал позволит объединить ссылочные массы каждого из
доменов, что положительно скажется на росте позиций сайта.
Технический поддомен не содержит полезной информации.
Как пример технического поддомена можно привести домен
mail — доступ к почте.
www.site.ru
WWW
smtp
ftp
dav ldap
irc
print
6. 2. Определение основного и др. зеркал
Если сайт только создан и не продвигался, то основным зеркалом рекомендуется делать
доменное имя без www. Для сайтов в индексе поисковых систем основное зеркало можно
определить по результатам поисковой выдачи.
7. 2. Определение имени основного зеркала
Для поиска проиндексированных в Google
поддоменов используется сочетание нескольких
операторов — «site:», «-» и «inurl:». Пример
поискового запроса с исключением из
результатов выдачи страниц с основного сайта
www.domain.ru.
site:domain.ru -inurl:http://www.domain.ru/
WHOIS (от англ. who is - кто есть) – это интернет протокол используемый для получения
информации о доменных именах включая, адрес сервера ассоциированного с доменом,
информацию об администраторе домена, на кого он зарегистрирован и др.
nic.ru/whois
8. 2. Определение имени основного зеркала
Для поисковой системы Google главное зеркало
указывается в настройках сайта в Google Search
Console
Яндекс Вебмастер выводит
предупреждение при попытке
указать неглавное зеркало в
качестве основного адреса сайта.
9. 3. Протокол HTTPS
В начале 2017 года, браузер Google Chrome начал отмечать сайты на HTTP
как небезопасные.
В файле robots.txt значение директивы «Host:» (основное зеркало) должно
быть указано полностью с протоколом HTTPS.
Host: https://site.ru
Host: www.site.ru
Приоритетное ранжирование
Сайты с протоколом HTTPS
ранжируются более
приоритетно в поисковой
выдаче Google
Защита пользовательских
данных
Защита данных обеспечивается
криптографическим протоколом
шифрования SSL/TLS
Доверие к сайту
Пользователь испытывает
безусловное доверие к сайту,
который заботится о его
безопасности и
конфиденциальности
10. HTTPSHTTP
Новый сайт:
перенаправление на HTTPS
устанавливается сразу.
Сайт который уже в индексе:
перенаправление устанавливается после
индексации контента по новому протоколу.
Версия сайта с HTTPS является таким же зеркалом сайта, как и зеркало на другом
домене. Безопасная версия имеет приоритет в ранжировании.
3. Протокол HTTPS
12. 4.Системы управления и анализа содержимого
CMS (англ. Content management system, CMS) — информационная система используемая для
обеспечения и организации совместного процесса создания, редактирования и управления
содержимым (контентом).
Популярные CMS:
1С-Битрикс
MODx
WordPress
Joomla
Drupal
OpenCart / ocStore
13. 4.Системы управления и анализа содержимого
Программы для анализа сайтов:
Xenu's Link Sleuth (бесплатная)
Screaming Frog (платная)
Netpeak Spider и Netpeak Checker (платная)
Visual SEO Studio (бесплатная)
14. 5. Семантические адреса и параметры URL
Совокупность всех элементов адреса Интернет ресурса называется URL (англ. Uniform Resource
Locator). Часть адреса после доменного имени вместе с параметрами GET запроса называется URI
(англ. Uniform Resource Identifier).
Семантический адрес — URN (англ. Uniform Resource Name) имя состоящее из лексем какого-либо
языка, вместо абстрактных идентификаторов, и отражающий иерархию сайта. Такой адрес, как
правило, не содержит параметров GET запроса и наименований служебных файлов (index.php).
Сленговое название ЧПУ (аббр. от “человекопонятный URL”) не отражает сути, т.к. термин
относится прежде всего к URN, а не ко всему адресу.
scheme://user:password@host:port/path?query=1&v=2#anchor
URL
URI
Query
15. 5. Семантические адреса, параметры URL. AJAX
AJAX (ˈeɪdʒæks, от англ. Asynchronous Javascript and XML —
«асинхронный JavaScript и XML») — подход к построению
интерактивных пользовательских интерфейсов веб-
приложений, заключающийся в «фоновом» обмене данными
браузера с веб-сервером.
В результате, при обновлении данных веб-страница не
перезагружается полностью, и веб-приложения становятся
быстрее и удобнее.
16. 5. Семантические адреса и параметры URL
В Google Search Console нужно перейти в “Сканирование” >> “Параметры URL” и добавить
необходимые параметры.
17. 5. Семантические адреса и параметры URL
В Яндекс Метрике для фильтрации GET параметров нужно перейти в “Настройки” >> “Фильтры” и в
блоке “Операции” добавить операцию вырезания параметра.
18. 6. Карта сайта sitemap.xml
Sitemaps — XML-файлы с информацией для поисковых систем о страницах веб-сайта, которые
подлежат индексации.Типы карт сайта:
структурная (только адреса страниц)
агрегированная (смешанный контент)
мультимедиа (изображения, видео)
Основные XML дескриптор индексного файла:
loc – адрес ресурса
lastmod – дата последнего изменения файла (необязательно)
changefreq – частота изменения (необязательно)
19. 6. Карта сайта sitemap.xml
В файлах индекса карт сайта используются следующие дескрипторы XML:
sitemapindex – родительский тег в начале и конце файла
sitemap – родительский тег для каждого файла Sitemap, указанного в файле (дочерний тег тега
sitemapindex)
21. 7. Управление поведением поисковых сканеров
robots.txt — служебный файл с директивами для поисковых систем. С
помощью директив можно указывать какие страницы заносить в поисковый
индекс, а какие исключить.
Файл размещается в корне сайта — /robots.txt
Разрешено использовать метасимволы:
* — любая (в том числе пустая) последовательность символов,
добавляется к концу каждого правила
$ — конец строки адреса, отменяет “жадность”
Disallow – это директива, запрещающая сканирование определенных URI
(англ. Universal Resource Identifier) отвечающих маске.
Чтобы разрешить поисковой системе доступ к определенному URI или
разделу сайта используется директива — Allow.
22. 7. Валидатор robots.txt
Текст после символа # не учитывается поисковыми
системами и используется для комментариев
User-agent — это наименование сканера поисковой
системы
User-Agent: * — директива для всех поисковых систем.
User-Agent: Yandex — директива для всех роботов
Яндекса
User-Agent: Googlebot — директива для основного
робота Google
23. 7. Директивы Host и Sitemap
Директива Host указывает, но не гарантирует выбор ПС указанного главного
зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким
приоритетом.
Host: https://site.ru
Host: www.site.ru
Директива Sitemap указывает путь к файлу карты сайта (xml), который содержит список всех
ресурсов сайта. Если файлов sitemap несколько, то они могут последовательно включать друг-
друга или быть все явно указаны в robots.txt
24. 7. Частые ошибки
Явное указание метасимвола * в конце строки не является ошибкой, но нужно
помнить, что этот символ подразумевается даже если не указан явно.
Директива Clean-param описывает динамические параметры, которые не
влияют на их содержимое. Эта директива, как и директива Host,
обрабатывается только Яндекс. Но использование Clean-param считается
ошибкой при валидации с помощью Google Search Console.
Disallow: /search
Disallow: /search?
Disallow: /search/
Clean-param: r /
Disallow: ?r=
25. 7. Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса
URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта
подходит несколько директив, то робот выбирает последнюю в порядке появления в
сортированном списке.
26. 7. Другие способы управления индексацией
Для закрытия от индексации ПС Google требуется добавить в код всех страниц сайта, закрытых в
файле robots.txt мета-тег <meta name="googlebot" content="noindex">.
Другой метод управления поведением сканеров поисковых систем это использования
специального HTML мета-дескриптора <meta name="robots" content="noindex" />.
Для запрета индексирования служебных участков текста вы можете использовать HTML
дескриптор <noindex>
Атрибут rel="nofollow" используется в HTML дескрипторе <a> в формате:
<a href="url" rel="nofollow">текст ссылки</a>
Для страниц с одинаковым содержимым можно указать канонический адрес:
<link rel="canonical" href= "http://www.example.com/blog" >
27. 8. Коды ответов сервера
Код состояния HTTP — код состояния является частью первой строки ответа сервера. Он
представляет из себя целое число из 3 арабских цифр. Первая цифра указывает на класс
состояния. За кодом ответа обычно следует отделенная пробелом поясняющая фраза на
английском языке, которая разъясняет человеку причину именно такого ответа.
Выделяют пять классов кодов состояния:
28. 8. Перенаправления
Перенаправление (сленг. редирект от англ. redirect) используют для перенаправления посетителей
сайта с одной страницы на другую.
301 (Moved Permanently) — редирект является постоянным редиректом, который передает около
90-99% ссылочного веса. Данный редирект указывает, что страница перемещена по новому адресу
и старый URL следует считать устаревшим.
29. 8. Перенаправления
Для чего используют 301 редирект: склейка зеркал; склейка доменов; переезд страницы на новый
URL (например, ЧПУ).
Технически перенаправления
устанавливаются разными способами в
зависимости от используемого веб-
сервера. При использовании наиболее
популярного сервера Apache, правила
перенаправлений чаще всего
прописываются в служебнов файле
.htaccess
30. 8. 404 ошибка
При запросе документа с несуществующим адресом, страница должна отдавать 404 отклик
сервера и выводить сообщение, что адрес набран неверно.
31. 8. Неинформативные страницы и дубли
Наличие дублей крайне негативно сказывается на продвижении сайта, поэтому все имеющиеся
дубли страниц необходимо исключить из индекса. Для этого используется склейка с помощью 301
редиректа.
32. 9. Кроссбраузерность и адаптивность
Кроссбраузерность — это способность сайта корректно отображаться в разных браузерах (без
перекосов, съездов, с правильной интерпретацией всех правил CSS).
За основу берутся самые популярные браузеры — IE, Opera, Mozilla Firefox, Сафари, Хром. Сайт
должен корректно отображается во всех браузерах.
33. 10. Микроразметка (микроформат)
Микроразметка — это семантическая разметка данных, которая используется для
структурирования информации и ее последующего удобного представления.
Schema.org — это независимы стандарт микоразметки HTML для поисковых систем.
34. 11. Оптимизация скорости загрузки страниц
Goole Page Speed Insights
измеряет скорость загрузки веб-
страниц. URL проверяется
дважды – с помощью обычного и
мобильного агента пользователя.
Чем больше оценка – тем лучше.
PageSpeed Insights определяет,
как можно улучшить следующие
показатели:
● время загрузки верхней
(видимой) части страницы
● время загрузки страницы до
ее полного отображения в
браузере.
35. 11. Оптимизация скорости загрузки страниц
Профайлинг загрузки ресурсов сайта можно производить в браузере с помощью инструментов
разработчиков.
Также существует множество других
инструментов для проверки не только
скорости загрузки страниц сайта, но и
нагрузочного тестирования. Например
онлпайн инструмент loadimpact.com
36. 11. Оптимизация кода страниц
Основные методы оптимизации кода:
Очистка кода от комментариев и др. служебной информации
Использование асинхронной загрузки скриптов JavaScript
Использование сжатия
Сжатие изображений большого размера
Настройка кеширования
Перемещение скриптов
Проверить применяется ли кэширование
можно с помощью онлайн сервисов,
например https://varvy.com/tools/gzip/
Editor's Notes
Представится. Адрес списка вопросов. Собрать список присутствующих.
Озвучить продолжительность лекции. Примерно 10 мин. на слайд.
Определение тех. оптимизации.
Непрерывный процесс. - почему?
Модели.
CMS - определение.
Грамотная речь и терминология.
Белый, серый и черный ящики.
Эффективность оптимизации.
Спросить кто знает - чеклисты, roadmap и mindmap, todo-list
Название сайта.
Разрешение имен, национальные домены.
www - поддомен
При запуске проекта важно определить список всех поддоменов, включая технические.
доменное имя сайта в поиске
последовательность действий для изменений основного зеркала
Методы поиска поддоменов
Основное зеркало в robots.txt
WHOIS
Что такое протокол?
что такое HTTPS
протокол в robots
достоинства
Склейка
адресная строка
информация о сертификате
Переезд сайта
Просмотр информации о сертификате
относительные ссылки и HTTPS
смешанный контент
https://developer.chrome.com/devtools
Короткое описание всех CMS
Бан программ
Самописные краулеры
URL, URI, URN
GET параметры
Локальные ссылки
ЧПУ
TODO: добавить URN в схему
AJAX
Дубли и страницы с GET параметрами
несуществующие страницы
канонические адреса
Не влияет на сканирование
типы
дескрипторы
максимальный размер 50 МБ, не более 50000 ссылок.
https://support.google.com/webmasters/answer/75712?hl=ru
https://www.sitemaps.org/protocol.html
Назначение файла robots.txt
Метасимволы
Disallow
Allow
Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются.
Если строки User-agent: Yandex и User-agent: *отсутствуют, считается, что доступ роботу не ограничен.