Заказать SEO-услуги
Согласен с правилами обработки персональных данных
Скорость ответа - до 30 минут!

Главная    Блог    Разное    

Регулярные выражения – примеры использования в работе SEO-специалиста

like 253
252
1

Регулярные выражения в SEO помогают решать рутинные задачи быстрее и эффективнее. Поскольку спектр применения их не ограничивается построением различных отчётов в метриках, мы на живых примерах наших проектов покажем, где и как применять регулярку, чтобы максимально упростить себе жизнь.

Как выделить трафик карточек товара в Яндекс.Метрике

Регулярные выражения в Яндекс.Метрике незаменимы при формировании всевозможных отчётов, а в некоторых случаях без них и вовсе не обойтись при выделении трафика различных видов страниц. Такие отчёты очень просто построить, если на сайте присутствует уникальный идентификатор вложенности, например, для карточки товара это может быть /tovar/, /product/, /item/ и др., о чём расскажем позже.

Но когда URL карточки товара имеет вид /catalog/avtobagazhniki/89522/320419, то без регулярных выражений уже никуда. В таких случаях URL карточки имеет два последних уровня вложенности, которые состоят только из цифр.
Для построения регулярного выражения нам пригодятся следующие операторы:

  • «\» – экранирование;
  • «\d» – любой символ цифры;
  • «+» – один или более предыдущих символов;
  • «$» – конец строки.

Получаем следующее регулярное выражение:

\/\d+\/\d+$

Далее используем это выражение при создании отчёта: Отчёты – Стандартные отчёты – Источники – Поисковые системы.

построение стандартного отчёта в Яндекс.Метрике

Добавляем сегмент: Визиты в которых – Поведение – Страница входа.

В поле после знака «~» вводим наше регулярное выражение.

регулярные выражения в Яндекс.Метрике

В итоге имеем отчёт по трафику карточек товара.

трафик карточек товара в Яндекс.Метрике

Как выделить трафик английской версии сайта в Яндекс.Метрике

Если на сайте присутствует уникальный идентификатор вложенности английской версии сайта, например, /en/, тогда для построения регулярного выражения нам нужны следующие операторы:

  • «\» – экранирование;
  • «.» – любой символ;
  • «*» – любое количество предыдущих символов;
  • «$» – конец строки.

\/en\/.*$

Используя предыдущий алгоритм построения отчёта, мы можем выделить трафик страниц, имеющих вложенность /en/.

трафик раздела сайта в Яндекс.Метрике

Примечание: большинство интернет-магазинов используют уникальные идентификаторы вложенности для листингов (/catalog/, /shop/ и др.) и карточек товара (/tovar/, /product/ и др.), что позволяет выделять данным способом трафик для различных видов страниц сайта, немного откорректировав регулярное выражение:

  • \/catalog\/.*$
  • \/shop\/.*$
  • \/product\/.*$ и т. д.

Если уникального идентификатора нет – придётся написать индивидуальное регулярное выражение, как мы показывали в предыдущем примере.

Как исключить брендовый трафик в Яндекс.Метрике

В первую очередь нам необходимо составить список различных вариантов написания названия сайта, которые будут включать как правильные, так и неправильные раскладки клавиатуры. Например, для интернет-магазина gazonov.com брендовые запросы будут следующие:

  • gazonov – правильное написание;
  • газонов – правильное написание кириллицей;
  • газоновком – вариант правильного написания кириллицей;
  • пфящтщм – название с неправильной раскладкой;
  • ufpjyjd – название с неправильной раскладкой;
  • ufpjyjdrjv – вариант названия с неправильной раскладкой.

Нам пригодятся следующие операторы:

  • «|» – «ИЛИ»;
  • «$» – конец строки.

Получаем следующее регулярное выражение:

gazonov|газоновком|пфящтщм|ufpjyjd|ufpjyjdrjv$

Из данного выражения мы специально исключаем фразу «газонов», которая часто присутствует в не брендовых запросах, обыграем её позже.

Также могут встречаться всевозможные варианты запросов с учётом доменной зоны, чтобы учесть это, нам нужны следующие операторы:

  • «\» – экранирование;
  • «\s» – пробельный символ;
  • «.» – любой символ.

Получаем следующее регулярное выражение:

\.com|\.com\s|\scom\s|\.ком\s|\sком\s|газонов\scom|газонов\sком$

Объединив оба выражения, получаем:

gazonov|газоновком|пфящтщм|ufpjyjd|ufpjyjdrjv$|\.com|\.com\s|\scom\s|\.ком\s|\sком\s|газонов\scom|газонов\sком$

Далее используем это выражение при создании отчёта: Отчёты – Стандартные отчёты – Источники – Поисковые запросы.

как исключить брендовый трафик

Добавляем сегмент: Визиты в которых – Источники – Последний значимый источник – Поисковая фраза.

В поле указываем начало отрицания «!» (мы ведь исключаем брендовый трафик), а после знака «~» вводим наше регулярное выражение.

брендовый трафик в Яндексе

В итоге имеем отчёт, из которого исключён брендовый трафик.

брендовый трафик в Яндекс.Метрике

Для наглядности можно сравнить объёмы брендового и не брендового трафика на сайте.

доля брендового трафика

Парсинг данных с помощью регулярных выражений в Netpeak Spider

При парсинге с помощью Netpeak Spider присутствует возможность извлекать данные со страниц с использованием регулярок. Это может быть полезным в случае ребрендинга сайта или приведения в порядок написания названия компании, если оно в разное время существования сайта писалось по-разному.

Для этого в настройках Netpeak Spider выбираем «Парсинг», а вид парсинга «RegExp». В поле вводим наше регулярное выражение. Не забываем при необходимости учитывать регистр и задавать название поля для извлечённых данных.

парсинг данных с помощью регулярных выражений

В панели параметров парсинга, помимо выбранных стандартных, появляется пункт «Парсинг», который также нужно будет отметить.

настройки парсинга в Netpeak Spider

После окончания парсинга получить отчёт с извлечёнными данными можно следующим образом: База данных – Все данные парсинга.

отчёт с данными парсинга с помощью регулярных выражений

Этот отчёт будет содержать все варианты написания компании, которые удовлетворяют условию в регулярном выражении.

Регулярные выражения при работе с семантикой в Key Collector

При работе с семантикой регулярки также могут ускорить рабочий процесс. В Key Collector существует возможность фильтрации по регулярным выражениям.

Разберём на примере фильтрации фраз, которые в себе содержат лишь год. Это можно сделать и через обычный текстовый фильтр, но с помощью регулярного выражения процесс ускоряется в разы.

Для выделения фраз, которые включают слова с четырьмя цифрами, редактируем условия фильтрации с учётом следующего регулярного выражения:

\d{4}

регулярные выражения в Key Collector

Аналогичные действия можно провести с помощью быстрого фильтра.

быстрый фильтр в Key Collector по регулярному выражению

В итоге мы получим список фраз, которые удовлетворяют условию фильтрации и регулярному выражению.

Онлайн-сервисы для проверки регулярки

Regex101

проверка регулярного выражения онлайн в regex101

Regex101.com, пожалуй, самый удобный вариант онлайн-сервиса, где реализована проверка регулярных выражений. Предлагает поддержку нескольких языков, предусмотрен собственный справочник с детальным объяснением регулярок и подсказками, а также библиотека шаблонов.

Debuggex

debuggex сайт для проверки регулярного выражения

Debuggex имеет более ограниченный функционал, но позволяет визуализировать регулярное выражение в виде наглядной схемы, что позволяет лучше его понимать и в некоторых случаях более эффективно проводить отладку.

Tools.icoder.uz

проверка регулярных выражений в tools.icoder.uz

Tools.icoder.uz позволит произвести как онлайн-проверку регулярного выражения, так и замену содержимого. Имеет русскоязычный интерфейс, что станет преимуществом в сравнении с предыдущими двумя сервисами. Предусмотрена небольшая библиотека популярных шаблонов.

Бонус. Важно помнить, что одну и ту же задачу можно решить с помощью абсолютно разных регулярных выражений. Мы подготовили небольшую шпаргалку по ним.

Якоря Кванторы
^ Начало строки * 0 или больше
\A Начало текста *? 0 или больше, нежадный
$ Конец строки ‘+ 1 или больше
\Z Конец текста ‘+? 1 или больше, нежадный
\b Граница слова ? 0 или 1
\B Не граница слова ?? 0 или 1, нежадный
\< Начало слова {3} Ровно 3
\> Конец слова {3,} 3 или больше
{3,5} 3, 4 или 5
{3,5}? 3, 4 или 5, нежадный
Символьные классы Специальные символы
\c Управляющий символ \ Экранирующий символ
\s Пробел \n Новая строка
\S Не пробел \r Возврат каретки
\d Цифра \t Табуляция
\D Не цифра \v Вертикальная табуляция
\w Слово \f Новая страница
\W Не слово \e Escape-символ
Утверждения Диапазоны
?= Вперед смотрящее . Любой символ, кроме переноса строки (\n)
?! Отрицательное вперед смотрящее (a|b) a или b
?<= Назад смотрящее (…) Группа
?!= или ? Отрицательное назад смотрящее (?:…) Пассивная группа
?> Однократное подвыражение [abc] Диапазон (a или b или c)
?() Условие [если, то] [^abc] Не a, не b и не c
?()| Условие [если, то, а иначе] [a-q] Буква между a и q
?# Комментарий [A-Q] Буква в верхнем регистре между A и Q
[0-7] Цифра между 0 и 7

Расскажите, а какие у вас самые частые задачи в SEO, для которых используются регулярные выражения? Если же вы не нашли подходящих готовых решений, оставляйте комментарии – подумаем над ними вместе. 🙂

Необходим более глубокий анализ сайта? Обращайтесь к нам — мы сможем Вам помочь!

Заказать аудит сайта

Подписаться на рассылку

Еще по теме:


Сергей З.

SEO-аналитик

Работу в сфере IT начинал с должности контент-менеджера. Уже при создании своих личных проектов постепенно узнавал, что такое SEO, увлекло. Вдохновляюсь сложными и интересными задачами.

Мои увлечения: велоспорт и книги.

Девиз: «Другой жизни не будет!»

Оцените мою статью: 

1 Star2 Stars3 Stars4 Stars5 Stars (6 оценок, среднее: 5,00 из 5)

Есть вопросы?

Задайте их прямо сейчас, и мы ответим в течение 8 рабочих часов.

Siteclinic logo
Наверх

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *


Мы продвигаем: