unknown robot что это

Unknown robot что это

последнее время очень сильно атакуют боты какие то

ложат сайт, что появляется 508 ошибка
как решить проблему?

Прогон по твиттеру, постинг в 1500 аккунтов
Постинг в твиттер аккаунты, для ускорения индексации ваших сайтов, сателлитов, дорвеев.

Варианты есть, зависит от конкретной ситуации:

— можно блочить ботов поименно
— можно блочить слишком часто приходящих за короткое время
— можно блочить по стране
— вариант по времени (ночью, например, накидываются)

Цитата
Zhezkazganetcs пишет: как решить проблему?

Начать с анализа логов

Zhezkazganetcs, заблокирую по юзер-агенту или по ip с помощью htaccess

Пример блокировки по юзер-агенту

Coder, как посмотреть в метрике что за боты?
Отфильтрованы по статистическим правилам 7 558
вот они это кто? как их определить чтобы блочить?
просто не хочется всех подряд блочить

Цитата
sharkson пишет: заблокирую по юзер-агенту или по ip с помощью htaccess Пример блокировки по юзер-агенту

опять же это все хорошо и все замечательно
но кто этот юзер-агент среди Отфильтрованы по статистическим правилам
или как в метрике посмотреть что за боты, потому что сам не нашел а в гугле тоже нет инфы

я не могу понять кто это Отфильтрованы по статистическим правилам и как их заблочить
они создают 4-6 запросов в секунду

Источник

Что такое отказы в Яндекс Метрике, и как бороться с ботами и нулевыми заходами

Отказ в Яндекс Метрике — это просмотр страницы меньше 15 секунд и возвращение пользователя в поиск. В метрике показатель не должен превышать 20%, но каждый вебмастер пытается снизить показатель до минимальных значений.

Отказы считаются одним из важных показателей ранжирования. Если процент большой, поисковая система считает, что сайт не нравится пользователям, а значит, некачественный, и как следствие понижение позиций в выдаче. А значит, меньше посетителей, читателей и клиентов из поиска.

Но бывает что из-за неправильных настроек метрики или траблов этой системы, растет технический показатель отказов. К примеру, к одной из ваших страниц прилепливается бот и, заходя на нее несколько раз в день, а иногда в час, начисто валит всю статистику. Поэтому если у вас много отказов в метрике, на факт, что они от пользователей.

Моя история борьбы с отказами выбиваемыми ботами

Стоило моим сайтам выйти на посещаемость более 40 уников в сутки, как прилетало счастье со стороны нулевых отказов, сделанных не пользователями, а ботами.

Через неделю после перезапуска этого сайта я зашел на вебвизор, чтобы посмотреть, как идут дела. Картина была просто удручающая, суммарно отказы завалили за красную линию в 20%. Спустя 2 месяца работы над сайтом — просто опускаются руки. Примерно пятая часть заходов — по 0 сек. Яндекс учитывает эти заходы как отказы, и соответственно понижает его в выдаче.

Отказы зафиксированы как одиночные с разных IP, так и по несколько хитов с одних и тех же направлений.

Несколько недель упорного труда просто накрывается медным тазом. И так, далее я расскажу, как мне удалось вернуть отказы в норму и значительно сократить — нулевые заходы.

Как отсечь ботов в «Яндекс метрике»

Вначале я обратился в службу Яндекса. Что-то типа: «Эй, парни, вы тут ботов считаете, как посетителей и лепите отказы». На что мне ответили, что я могу самостоятельно отсечь их в Метрике.

По совету специалиста из службы поддержки я перешел в отчет «Роботы» по пути Отчеты — Стандартные отчёты — Мониторинг — Роботы. Внизу страницы находится подраздел называющийся «Фильтрация роботов». В нем три пункта:

У меня стояла отметка на первом пункте. Она ставится по умолчанию на всех счетчиках Яндекс. Метрики. Я поставил на третью, и нужно признать, часть нулевых отказов ушла. Но только часть.

Фильтрация роботов по User-Agent

Но вебвизор не отображает IP адреса, с которых был заход с нулевым временем присутствия на сайте. Я разработал простое решение, основанное на модификации Яндекс счетчика таким образом, чтобы IP адрес каждого посетителя добавлялся в отдельную колонку, и можно было точечно ограничить в доступе к сайту адреса, с которых идут отказы.

Модификации Яндекс счетчика для отображения IP адресов

Для начала необходимо создать php файл, например ip.php в котором будет размещена функция, возвращающая IP посетителя, далее предлагаю исходный код функции:

Теперь остаётся только модифицировать код счетчика Яндекса, чтобы он отображал IP в отдельную колонку. В моем случае код счетчика размещён в отдельном файле metrika.php, который просто инклудится в файле header.php директивой include.

Далее, код самого Яндекс счетчика

Внимание, недавно код счетчика изменился, поэтому статья исправлена с учетом этих изменений

Код счетчика Яндекс отличается только идентификатором и дополнительными опциями, если они включены. Например, если у вас включен вебвизор, то в строке
появляется webvisor:true

Теперь модифицируем счетчик так, чтобы он мог отображать IP посетителя, ниже показан завершенный пример файла metrika.php, то есть то, как он должен выглядеть.

Будьте внимательны, полученное значение IP вначале строки

Источник

Как отсечь ботов и свои посещения в «Яндекс Метрике»

Чтобы как можно лучше оценить отдачу от веб-ресурса, требуются максимально точные данные аналитики с целью возможности их объективной оценки. Возьмем, к примеру, такой показатель, как конверсия вашего веб-ресурса.

Предположим, что в день к вам заходит 100 пользователей согласно данным метрики. То есть в месяц выходит 3000 пользователей. Из них совершили заказ и принесли прибыль 450 человек. Естественно, что конверсия будет (450/3000)*100% равна 15% процентам. Но вы ведь тоже периодически посещаете сайт для проверки работоспособности. Таким образом, посчитанные ранее цифры не будут являться до конца правильными.

Допустим, заходите несколько раз в день с утра днем и вечером или заходят на ресурс ваши сотрудники, не представляющие целевой трафик. Пусть эта цифра в качестве примера будет равна 400 посещениям. Тогда подсчет будет следующий: (450/(3000-400))*100%=17 процентов. Как видим, учтя нецелевые посещения, мы получили реальную конверсию.

Чтобы не следить за каждым сотрудником и не производить подсчет ваших тех же заходов и других действий на сайте, в «Яндекс Метрике» присутствует возможность отсечения из общих данных «своих» посещений. Именно эту функциональную возможность мы и рассмотрим в первой части нашей статьи.

Как отсечь «свои» посещения в «Yandex. Metrica»

Авторизовываемся, и входим на главную страницу необходимого нам счетчика. Нажимаем «Настройка».

Видим и переходим в раздел «Фильтры».

Чтобы ваши визиты не отображались больше в выводимых для анализа данных, достаточно поставить галочку напротив пункта «Не учитывать мои визиты» и не забыть кликнуть по кнопке «Сохранить».

Работа с исключением ваших посещений связана с файлами cookies, которые запоминает сервис. Благодаря анализу вышепредставленного файла, «Яндекс. Метрика» не учитывает вас, как нового пользователя. Естественно, если файлы будут очищены и пусты, то первый заход будет считаться, как будто вы новый пользователь.

Разобравшись со «своими» визитами, следует обратить внимание и на другие возможности «Фильтров», которые учитывают исходные данные.

Следующие типы данных можно отфильтровать при использовании рассматриваемого функционала:

«IP-адрес посетителя». Особенно актуален, когда у вас есть штат сотрудников, которым необходимо периодически заглядывать и лазить по сайту. Достаточно знать IP-шники компьютеров, с которых они заходят или IP маршрутизатора, который производит раздачу на офис или отдел.

При необходимости фильтр можно удалить, нажав соответствующий «крестик».

«URL страницы». Позволяет отфильтровать те адреса страниц сайтов, которые не нужны для аналитики. Например, нам не нужно данные с перехода какого-либо внешнего источника, так как они редкие и не имеют целевого трафика. В данном типе фильтрации обращаем внимание на поле «Условия», содержащий следующие подпункты: «Содержит», «Начинается с…», «Равно», «Только сайт и дополнительные домены».

Если с первыми тремя пунктами все понятно, то последний требует пояснения. Выставив данное значение, в отчете будут отображены только те просмотры страниц веб-ресурса и его дополнительных доменов/поддоменов, которые указаны на странице редактирования во вкладке «Общие». Визуализацию подобного пример фильтра можно просмотреть ниже.

«Заголовок страницы». Дает возможность исключить для отображения из исходных данных аналитики определенные страницы/группу страниц, в которых содержится определенный заголовок. Операция по установке такого фильтра подобна случаю, который рассмотрели ранее. Выставляем, не забываем «Сохраниться».

Как отключить фильтры, но их не удалять?

Достаточно среди разнообразия условий, которые выставили, поставить галочки напротив тех фильтров, которые не нужны.

При нажатии на «»Сохранить» мы увидим, что в нашем примере будет учитываться только условие, которое стоит без «флажка».

Промежуточный подытог: фильтры, разработанные в сервисе «Яндекс Метрика», позволяют не только не учитывать системой «свои» посещения, но и не отображать те данные и источники, которые не представляют важного значения, что позволяет сосредоточиться на более целевых показателях, производя их точный расчет из-за изначально правильных данных.

Теперь переходим ко второй, части статьи, в которой рассмотрим вопрос, касающийся «отсечения» ботов.

Каким образом отсечь ботов в «Яндекс. Метрике»

Напомним, где можно посмотреть отчет «Роботы». Переходим в «Отчеты», «Стандартные отчёты», «Мониторинг», «Роботы».

Другой способ – воспользоваться поиском.

Теперь вернемся к возможности отсечения ботов поисковой системы в отображении данных. Работать будем в разделе «Фильтры». Как зайти, мы описывали ранее.

Обратим внимание на последний подраздел внизу страницы, называющийся «Фильтрация роботов», содержащий три подпункта:

Так как в рассмотренном нами разделе («Фильтры») остался пункт «Операции», то тоже по нему пробежимся.

Зачем нужны «Операции»

Эта опция позволяет создать строгие/обычные правила, позволяющие произвести модификацию URL-адресов страниц, показываемых в отчетах. Принцип добавления и установки правил такой же, как при добавлении фильтров. Рассмотрим, какие есть операции и для чего они нужны:

«Заменить домен» — производит замену домена в отчетах (адресов страниц);

Возможности «Операций» достаточно широки, чтобы подстроить под себя и оптимизировать отображаемые данные метрики, таким образом, каким вам необходимо.

При настройке «Фильтров», «Операций» учтите следующие моменты:

Можно создать не больше 60 «правил». 30 на фильтры и 30 на операции;

Настройка действует только с того момента, как были добавлены и сохранены опции. Старые данные, которые были ранее, не поменяются и будут также отображаться, как ранее.

Заключение

С ее помощью можно выявить «правильные» исходные данные и произвести грамотную аналитику и расчет. Для реального повышения конверсии и других параметров, влияющих на отдачу сайта и естественно следующее за этим увеличение прибыли, необходимо использовать опытных профессионалов в продвижении и задействовании различных каналов рекламы и других инструментов, привлекающих больший целевой трафик потенциально заинтересованных клиентов.

Источник

Анализ файлов robots.txt крупнейших сайтов

Robots.txt указывает веб-краулерам мира, какие файлы можно или нельзя скачивать с сервера. Он как первый сторож в интернете — не блокирует запросы, а просит не делать их. Интересно, что файлы robots.txt проявляют предположения веб-мастеров, как автоматизированным процессам следует работать с сайтом. Хотя бот легко может их игнорировать, но они указывают идеализированное поведение, как следует действовать краулеру.

По существу, это довольно важные файлы. Так что я решил скачать файл robots.txt с каждого из 1 миллиона самых посещаемых сайтов на планете и посмотреть, какие шаблоны удастся обнаружить.

Я взял список 1 млн крупнейших сайтов от Alexa и написал маленькую программу для скачивания файла robots.txt с каждого домена. После скачивания всех данных я пропустил каждый файл через питоновский пакет urllib.robotparser и начал изучать результаты.

Найдено в yangteacher.ru/robots.txt

Огороженные сады: банят всех, кроме Google

Среди моих любимых питомцев — сайты, которые позволяют индексировать содержимое только боту Google и банят всех остальных. Например, файл robots.txt сайта Facebook начинается со следующих строк:

(Предупреждение: Краулинг Facebook запрещён без письменного разрешения. См. http://www.facebook.com/apps/site_scraping_tos_terms.php )

Это слегка лицемерно, потому что сам Facebook начал работу с краулинга профилей студентов на сайте Гарвардского университета — именно такого рода активность они сейчас запрещают всем остальным.

Требование письменного разрешения перед началом краулинга сайта плюёт в лицо идеалам открытого интернета. Оно препятствует научным исследованиям и ставит барьер для развития новых поисковых систем: например, поисковику DuckDuckGo запрещено скачивать страницы Facebook, а поисковику Google можно.

В донкихотском порыве назвать и посрамить сайты, которые проявляют такое поведение, я написал простой скрипт, который проверяет домены и определяет тех, которые внесли Google в белый список тех, кому разрешено индексировать главную страницу. Вот самые популярные из этих доменов:

(В оригинальной статье указаны также аналогичные списки китайских, французских и немецких доменов — прим. пер.)

Я включил в таблицу пометку, позволяет ли сайт ещё DuckDuckGo индексировать свою заглавную страницу, в попытке показать, насколько тяжело приходится в наши дни новым поисковым системам.

У большинства из доменов в верхней части списка — таких как Facebook, LinkedIn, Quora и Yelp — есть одно общее. Все они размещают созданный пользователями контент, который представляет собой главную ценность их бизнеса. Это один из их главных активов, и компании не хотят отдавать его бесплатно. Впрочем, ради справедливости, такие запреты часто представляются как защита приватности пользователей, как в этом заявлении технического директора Facebook о решении забанить краулеры или глубоко в файле robots.txt от Quora, где объясняется, почему сайт забанил Wayback Machine.

Далее по списку результаты становятся более противоречивыми — например, мне не совсем понятно, почему census.gov позволяет доступ к своему контенту только трём основным поисковым системам, но блокирует DuckDuckGo. Логично предположить, что данные государственных переписей принадлежат народу, а не только Google/Microsoft/Yahoo.

Хотя я не фанат подобного поведения, но вполне могу понять импульсивную попытку внести в белый список только определённые краулеры, если учесть количество плохих ботов вокруг.

Боты плохого поведения

Я хотел попробовать ещё кое-что: определить самые плохие веб-краулеры в интернете, с учётом коллективного мнения миллиона файлов robots.txt. Для этого я подсчитал, сколько разных доменов полностью банят конкретный useragent — и отранжировал их по этому показателю:

user-agent	Тип	Количество
MJ12bot	SEO	15156
AhrefsBot	SEO	14561
Baiduspider	Поисковая система	11473
Nutch	Поисковая система	11023
ia_archiver	SEO	10477
WebCopier	Архивация	9538
WebStripper	Архивация	8579
Teleport	Архивация	7991
Yandex	Поисковая система	7910
Offline Explorer	Архивация	7786
SiteSnagger	Архивация	7744
psbot	Поисковая система	7605
TeleportPro	Архивация	7063
EmailSiphon	Спамерский скрапер	6715
EmailCollector	Спамерский скрапер	6611
larbin	Неизвестно	6436
BLEXBot	SEO	6435
SemrushBot	SEO	6361
MSIECrawler	Архивация	6354
moget	Неизвестно	6091

В списке боты нескольких определённых типов.

Первая группа — краулеры, которые собирают данные для SEO и маркетингового анализа. Эти фирмы хотят получить как можно больше данных для своей аналитики — генерируя заметную нагрузку на многие сервера. Бот Ahrefs даже хвастается: «AhrefsBot — второй самый активный краулер после Googlebot», так что вполне понятно, почему люди хотят заблокировать этих надоедливых ботов. Majestic (MJ12Bot) позиционирует себя как инструмент конкурентной разведки. Это значит, что он скачивает ваш сайт, чтобы снабдить полезной информацией ваших конкурентов — и тоже на главной странице заявляет о «крупнейшем в мире индексе ссылок».

Вторая группа user-agents — от инструментов, которые стремятся быстро скачать веб-сайт для персонального использования в офлайне. Инструменты вроде WebCopier, Webstripper и Teleport — все они быстро скачивают полную копию веб-сайта на ваш жёсткий диск. Проблема в скорости многопоточного скачивания: все эти инструменты очевидно настолько забивают трафик, что сайты достаточно часто их запрещают.

Наконец, есть поисковые системы вроде Baidu (BaiduSpider) и Yandex, которые могут агрессивно индексировать контент, хотя обслуживают только языки/рынки, которые не обязательно очень ценны для определённых сайтов. Лично у меня оба эти краулера генерируют немало трафика, так что я бы не советовал блокировать их.

Объявления о работе

Это знак времени, что файлы, которые предназначены для чтения роботами, часто содержат объявления о найме на работу разработчиков программного обеспечения — особенно специалистов по SEO.

Источник

Блокировка ботов и снижение нагрузки на сервер

Исследуя логи сервера, можно найти огромное число ботов, которые буквально атакуют ваш сайт изо дня в день, создавая огромную нагрузку на сервер. Блокировка ненужных ботов – логичный этап развития крупных проектов.

Вторая сторона медали – исследование вашего проекта конкурентами через сервисы, например: ahrefs, semrush, serpstat, linkpad и другие. Если вы делаете SEO-продвижения с помощью PBN-сетей, через эти сервисы можно очень легко отследить всю вашу сеть, после чего “настучать” в Google для последующего бана всей сети сайтов читера. Чтобы этого не случилось, следует уделить время закрытию от ботов этих сервисов.

Есть и другие преимущества от блокировки, например: частичная защита от воровства контента, защита от замысла ддос и хакерских атак. Обычно все это делается с предварительным анализом сайта, которые проводятся некоторыми из нижеуказанных ботов.

Как заблокировать AhrefsBot, SemrushBot, MJ12bot и других ботов?

Существует 2 известных мне метода надежной блокировки от плохих ботов:

Если вы знаете другие методы, обязательно напишите в комментариях!

Источник

unknown robot что это