spam score что это

Письмо из домена в домен попадают в спам [РЕШЕНО]

Всем привет, ситуация странная. С одного ящика домена на другой ящик письма попадают в спам. Хотя X-Spam-Flag и прочие параметры говорят, что это не спам. Заголовки письма, что попадает в СПАМ:

Заголовки письма, которое не попадает в СПАМ:

Во втором письмо файл в формате doc, в первом файлы в формате rtf. Пока выявлена закономерность, что письма с файлами в формате rtf попадают в спам, если их отсылать с одного ящика домена на другой, в тоже время письма с этими же вложениями, отправленные с другого почтового домена в спам не попадают.

Не все письма с вложениями в формате rtf попадают в спам. Но на заголовках разницы не видно.

По логам dovecot происходит следующее:

В dovecot подключено правило:

Но оно срабатывает только если X-Spam-Flag «YES», пробовал отключать amavis, spamassasin и clamav, всё равно письма с вложениями попадают в спам.

Чёткой закономерности выявить не получается.

Подскажите куда смотреть ещё.

Такое поведение на разных ящиках.

Письмо с такими же файлами во вложении с внешних почтовых серверов в спам не попадают.

РЕШЕНИЕ

Проблема была в том, что не проставлялась DKIM подпись. Были проблемы в настройке amavis и проблемы в указании правильного порта в MTA Postfix.

Происходило следующее: приходило письмо вроде как из домена, но без подписи и из-за этого оно могло попасть в СПАМ.

Источник

Чем и как чистить доноров для линкбилдинга и аутрич (в англоязычном SEO)

Важность правильного отбора сайтов для получения ссылок в SEO сложно переоценить. Обычно на профессиональном сленге это называется “чисткой”, а сайты рассматриваемые в качестве вероятных площадок для размещения ссылок – “донорами”.

Чистка доноров преследует несколько целей:

Выбраковать сайты с низкими показателями траста, DR, DA, трафика и пр.

Выбраковать сайты с высоким показателем токсичности (переспам).

Это основные задачи. По желанию, сюда можно добавить: удаление сайтов систематически продающие ссылки, находящиеся в списках автоматических ссылочных бирж, недавно созданные сайты и т. д.

На рынке существуют десятки SEO инструментов, многие из которых являются универсальными сборками сервисов по всем (или почти всем) аспектам SEO.

Несмотря на кажущуюся универсальность, каждый инструмент имеет свою собственную специализацию. Одни лучше других справляются с мониторингом ссылочных профилей конкурентов, другие – с поиском ключевых слов для семантики, третьи – с проверкой позиций сайтов в поисковых системах и т. д.

В подобных – универсальных SEO сервисах чистка доноров обычно сводится к ручному отбору сайтов согласно выбранным параметрам качества. У каждого инструмента имеется свой собственный параметр качества, который высчитывается по собственному алгоритму. При этом важно понимать, что это сугубо “синтетические” SEO параметры, к которым поисковые системы не имеют никакого отношения.

Для отбора токсичных сайтов и сайтов находящихся под фильтрами поисковиков понадобятся иные инструменты, имеющие в своем арсенале параметры низкого качества (SPAM, Toxic параметры).

MOZ Spam Score – от MOZ (используется многими другими SEO тулами).

СПАМ – от СheckTrust

DTOXRISK – от LinkResearchTools

Как и в случае с параметрами качества, они также являются результатом сугубо собственного понимания о “плохих” сайтах для получения ссылок. Но именно благодаря этому есть возможность значительно более тщательно провести чистку доноров.

CheckTrust будет интересен прежде всего для русскоязычного SEO, поскольку имеет синхронизацию с многими популярными биржами ссылок (Sapa, Rokee, Rotapost, GoGetLinks и др.) Это позволяет проверять ссылки бирж на качество не выходя из кабинета CheckTrust.

Это же является большим преимуществом, если вы, напротив, решили не работать с сайтами присутствующими в биржах ссылок – в таком случае вам нужно при создании проекта включить проверку “Биржи ссылок”.

CheckTrust позволяет проверять сайты сразу по многим параметрам, при этом стоимость проверки не зависит от количества выбранных параметров.

Расскажу про самые интересные из них.

Мое мнение – нельзя делать выводы о сайте на основании одного какого-либо параметра. Обязательно нужно смотреть общую картину анализируя разные параметры одновременно. В любом случае, лучше ошибиться и забраковать подозрительный, но вероятно хороший сайт чем наоборот. Я обращаю внимание на Спам параметр если его значение является более 25. В этом случае я осторожно отношусь к таким донорам.

Параметр Траст, по моим наблюдениям, имеет плотную корреляцию с Majestic Citation Flow, который также доступен для проверки в сервисе. Обычно я не рассматриваю для работы сайты с Траст параметром ниже 22.

Поскольку я занимаюсь исключительно англоязычным SEO, то проверка на ИКС, Яндекс индекс, тИЦ – для меня не представляют интереса.

Для англоязычного SEO наиболее интересными будут:

Возраст по Webarchive – позволяет отсеять недавно созданные сайты, обычно это сайты, созданные на скорую руку специально для продажи ссылок.

IP адрес сайта – позволяет заметить сайты, имеющие один и тот же IP адрес. Как правило это сайты, принадлежащие одному владельцу, единой PBN сети. Проверка по IP будет особенно важной если вы получили уже готовый список сайтов для покупки ссылок от сторонних линкбилдеров.

Биржи ссылок – таким образом исключаю ссылки, находящиеся в Ру-биржах, что снижает вероятность пропустить зафильтрованные поисковиками сайты.

Принцип определения сайтов, имеющих вероятные штрафы от Google, сводится к обязательному падению органического трафика. Проверка SimilarWeb Посетителей и его динамика (в графическом виде) показывают, как менялся общий трафик на сайт и его часть с поисковиков.

Само по себе плавное снижение общего трафика не является показателем чего-либо негативного. Но проверив дополнительно SimilarWeb трафик с поиска, который рассчитывается в процентах от общего трафика, можно более-менее точно определить наличие у сайта серьезных проблем.

Процент органического трафика будет стремиться к нулю, если сайт имеет бан или фильтры от Google. Таким образом, если трафик с поиска по SimilarWeb менее 30% (при его просадке за последнее время) это означает вероятные фильтры от поисковых систем.

Вот пример как выглядят в CheckTrust два сайта с высокой вероятностью поисковых санкций:

Бывает еще две ситуации, когда низкий процент поискового трафика не означает санкции поисковиков:

Важный момент: иногда параметры SimilarWeb могут быть равны нулю и это может быть ошибочным значением. Поэтому важно смотреть также другие параметры и проводить параллель между их значениями. К примеру, если не новый сайт имеет низкий параметр Траста, падение Citation Flow и процент органического трафика близкий к нулю – с высокой вероятностью этот сайт будет иметь штрафы от поисковых систем.

Этот сервис является одним из многих SEO инструментов от LinkResearchTools (LRT) продающихся по SaaS подписке. Основное назначение LRT это помощь при снятии Google штрафов и борьба с негативным SEO. Link Opportunities Review Tool это инструмент обратного действия – вы проверяете не существующий ссылочный профиль пострадавшего сайта, а предварительно – перед тем как выставить ссылки.

Для этого LinkResearchTools имеет собственный и довольно сложный механизм определения вредоносных ссылок, основанный на собственном параметре DTOXRISK. На выходе DTOXRISK выдает “диагноз” по каждому проверяемому сайту:

Фактически Link Opportunities Review Tool симулирует размещение ссылки на указанном вами сайте с последующим вычислением риска для акцептора. При этом, что интересно, значение имеет не только сам донор, но и сайт-акцептор. Т. е. если взять один и тот же список доноров и проверить его применение для разных акцепторов – результаты проверки могут иметь некоторые различия.

Это в большей степени закрытая информация, но по моим наблюдениям – система выявляет не только внешние показатели донора, но и его ссылочные связи с другими сайтами.

Это позволяет, к примеру, определить сайты, принадлежащие к единой PBN сети, несмотря на их разные IP адреса. Или определить сайты, которые резко потеряли органический трафик (не важно по каким причинам). Или заспамленные сайты.

Кроме оценки степени риска, можно посмотреть объяснение – по какой причине система так считает. Для этого в таблице результатов есть указание Правил (Rules) по каждому проверенному донору:

Вот наиболее интересные из них:

Это лишь малая часть подобных правил. Благодаря такой многогранной проверке шанс отбраковать плохие доноры значительно повышается.

Link Power это оценка влияния исходя из количества ссылок ведущих на акцептор (что-то типа Google PR до 2013 года выпуска).

Link Trust – непосредственно траст сайта, страницы, под-домена. Рассчитывается с учетом передаваемого траста от других ссылающихся сайтов.

Таким образом вам не обязательно покупать подписку на весь инструмент, чтобы определить Link Power и Link Trust для нужного вам сайта. Конечно, это касается только этих двух параметров – для чистки доноров и оценки рисков нужно приобретать подписку.

Несмотря на всю продуманность и логичность LRT, его результаты не являются совершенно точными с точки зрения восприятия Google. Про это прямо указано в описании к сервису:

“Мы не претендуем на доступ к алгоритмам и методам оценки Google, поскольку они не публикуются и не являются общедоступными для третьих лиц. Мы используем материалы, опубликованные Google, и делаем личные выводы из нашего многолетнего опыта в области поисковой оптимизации, отзывов клиентов, наблюдений из тысяч отчетов и текущего тестирования и настройки наших систем в соответствии с нашим опытом и знаниями.

SEO не точная наука. Поэтому мы даем вам только мнения и рекомендации. Мы просим вас просмотреть и дважды проверить автоматизированные результаты. Принимайте свои личные решения в отношении любых действий, основываясь на своем собственном опыте и непосредственном просмотре характера и содержания сайтов, отображаемых как потенциально вредные для вашего ссылочного профиля. Ссылки, оцененные программой как вредоносные, не всегда влияют на рейтинг вашей поисковой системы.

Link Detox не является продуктом Google.

Алгоритмы LinkDetoxGenesis, DTOXRISK и DomainDTOXRISK основаны на наших личных исследованиях, опыте и оценках. Алгоритмы и отчеты, созданные программами LinkDetox и LinkResearchTools, не отражают официальную политику или позицию Google или других операторов поисковой системы.”

Можно ли чистить доноров руками, без использования каких-либо SEO программ?

Конечно, но на это уйдет намного больше времени. Если вам необходимо несколько ссылок в неделю/месяц и у вас много свободного времени – вы можете отобрать площадки для линкбилдинга вручную.

На какие критерии важно смотреть при отборе доноров?

Насколько тематическая релевантность важна при проверке доноров?

Очень важна, но релевантность для Google прежде всего определяется по релевантности текущей страницы, где размещена ссылка. Это в первую очередь и уже после – общая релевантность домена. Это позволяет создавать успешные, тематически релевантные публикации на сайтах универсального направления (к примеру – на новостных сайтах) или даже на сайтах других тематик.

Существует ли способ определить фильтр у конкретной страницы если нет возможности проанализировать ее органический трафик?

Существует. Для этого нужно проверить индексацию текста на данной странице, предварительно разбив контент на сегменты. Объясняется это тем, что не одинаковая индексируемость текста на странице – является вероятным следствием наложения фильтров Google.

Для того чтобы проверить это – копируем фрагмент текста (6 – 10 слов) в поиск Google предварительно выделив в «кавычки». Проделываем это для разных сегментов текста – в начале, середине, нижней части статьи и т. д. При этом обращаем внимание не только на отсутствие страницы в результатах поиска, но и на занимаемую позицию. Таким образом, если на первых местах будет указана не проверяемая страница, а другие сайты – это может означать:

Читайте также:  twitch turbo что дает

Вероятные фильтры со стороны Google

Почему поисковая видимость имеет большое значение для отбора доноров?

Потому что само наличие запросов в топ Google означает, что у сайта “все в порядке со здоровьем”. И наоборот – если на сайте нет страниц занимающих топовые позиции – это может сигнализировать как о санкциях Google, так и о слабом сайте, вероятно заброшенном или созданном только для продажи ссылок.

Существует ли способ быстро определить поисковую видимость для списка сайтов?

Существует. Многие популярные SEO инструменты позволяют проверить видимость – к примеру Ahrefs (из платных) и RealTrust (из бесплатных).

RealTrust позволяет быстро определить видимость доноров по Google и Яндексу, плюс указывает количество входящих и исходящих ссылок. Также можно выбрать один из четырех регионов: Москва, Киев, Минск, Петербург. Поэтому этот инструмент будет особенно хорош именно для русскоязычных проектов.

Насколько возраст сайта важен при оценке донора?

Источник

Spam score что это

In this guide you’ll learn more about the Spam Score metric in Link Explorer and the Links section of your Campaign.

Looking for information on how to investigate and improve your Spam Score? Be sure to check out our Investigating Spam Score guide.

Quick Links

What Is Spam Score?

Within Link Explorer, Spam Score represents the percentage of sites with similar features to the site you’re researching which we’ve found to be penalized or banned by Google. Spam Score is based on our machine learning model which identified 27 common features among the millions of banned or penalized sites in the data we fed it.

A score of 1%-30% is considered a Low Spam Score.

A score of 31%-60% is considered a Medium Spam Score.

A score of 61%-100% is considered a High Spam Score.

A high Spam Score for your site, or a site you’re looking at, doesn’t mean this site is necessarily spammy. It’s a sign that you should do some more investigation into the quality and relevance of this site. Read more about how to use Spam Score.

You can access Spam Score through the Link Explorer tool, and through the Links section of your Moz Pro Campaign.

Spam Score Breakdown

The first thing you’ll see is the Spam Score on the right-hand side for the site you entered. You’ll also see a breakdown for the percentage of Linking Domains pointing to your site which fall into each Spam Score rating.

In the below example, 86.7% of the Linking Domains pointing to the queried site have a Low Spam Score of 1%-30%. The queried site itself, has a score of 4%.

Below the Spam Score Breakdown you’ll see a chart with all the inbound links for the queried site, sorted by descending Spam Score. You can export to CSV, or click on the inbound link to do some investigating.

How To Use Spam Score

Your Spam Score

This does not mean that your site is definitely spammy. The percentage represents a wide variety of potential signals ranging from content concerns to low authority metrics.

Since this is based on correlation with penalization rather than causation, the solution isn’t necessarily to change these factors on your site. If you have not had any penalties you shouldn’t be concerned about a Low or Medium score. It is best to use this percentage figure to judge the quality of inbound links to your site, giving you a signal to help you determine which of those links needs some further investigation and, perhaps, even removal.

Another site’s Spam Score

Again, this doesn’t mean that these sites are spammy. This percentage represents a wide variety of potential signals ranging from content concerns to low authority metrics.

Since this is just based on correlation with penalization, rather than causation, the solution isn’t necessarily to disregard sites or disavow links with higher Spam Scores. Instead, we’d recommend using it as a guide for kick starting investigations. Be sure to check out a site’s content and its relevance in linking back to you before disregarding or disavowing.

Export Your Data

You can export your data to CSV using the button on the right. Once your report is ready, you can download it from the Export Notifications flag on the top right.

Please note: The number of rows you’re able to export from Link Explorer is dependent on your subscription level.

Spam Score Signals

We utilized machine learning and a massive set of training data, consisting of known penalized and banned domains, to identify these key signals that are correlated with sites that have been penalized or banned.

We have listed these numerically, but this number has no bearing on the importance of each signal.

Here’s a rundown of the 27 signals we use:

1. Low number of pages found Our crawlers discovered only a small number of pages on this domain. This is not an inherent problem, but many spam sites have small numbers of pages, hence the correlation.

3. Domain name length The length of the subdomain and root domain is similar to those used by spam sites.

4. Domain name contains numerals Numeric characters being included in the domain name is often associated with spam sites.

5. Google Font API Present Domains which do not use special fonts (e.g. Google Font API) are often more likely to be spam sites. Lacking this special font feature was common among spam sites we found.

6. Google Tag Manager Google Tag Manager is almost never present on spam sites.

7. Doubleclick Present The Doubleclick ad tag is almost never present on spam sites.

8. Phone Number Present Spam sites rarely have real phone numbers present on their pages.

9. Links to LinkedIn Almost no spam sites have an associated LinkedIn page, hence lacking this feature is correlated with spam.

10. Email Address Present Email addresses are almost never present on spam sites.

11. Defaults to HTTPS Few spam sites invest in SSL certificates; HTTPS is often a good trust signal.

12. Use of Meta Keywords Pages that use the meta keywords tag are more likely to be spam than those that don’t.

13. Visit Rank Websites with very few visits in clickstream panels were more often spam than those with high numbers of visits.

14. Rel Canonical Utilizing a non-local rel=canonical tag is often associated with spam.

15. Length of Title Element Pages with very long or very short titles are correlated with spam sites.

16. Length of Meta Description Pages with very long or very short meta description tags are correlated with spam sites.

17. Length of Meta Keywords Pages with very long meta keywords tags are often found on spam sites.

18. Browser Icon Spam sites rarely use a favicon; non-spam sites often do.

19. Facebook Pixel The Facebook tracking pixel is almost never present on spam sites.

20. Number of External Outlinks Spam sites are more likely to have abnormally high or low external outlinks.

21. Number of Domains Linked-To Spam sites are more likely to have abnormally high or low unique domains to which they link.

22. Ratio of External Links to Content Spam sites are more likely to have abnormal ratios of links to content.

23. Vowels/Consonants in Domain Name Spam sites often have many sequential vowels or consonants in their domain name.

24. Hyphens in Domain Name Spam sites are more likely to use multiple hyphens in their domain name.

25. URL Length Spam pages often have abnormally short or long URL path lengths.

26. Presence of Poison Words Spam sites often employ specific words that are associated with webspam topics like pharmaceuticals, adult content, gaming, and others.

27. Uses High CPC Anchor Text Spam sites often employ specific words in the anchor text of outlinks that are associated with webspam topics like pharmaceuticals, adult content, gaming, and others.

Understanding Link Explorer Terminology

Источник

Проверка на спам: 7 лучших сервисов для тестирования писем

Блочный редактор писем, готовые шаблоны email, формы подписки и автоматизация. Запускайте email-рассылки, чтобы быть на связи со своими клиентами.

Мы собрали 7 сервисов, которые помогут оценить, куда попадёт письмо: во «Входящие» или в «Спам». Они пригодятся, чтобы проверить рассылку перед отправкой или выяснить причину, если она уже попала в «Спам».

Матчасть

Спам — это массовая рассылка рекламы тем, кто не соглашался её получать. Спам бывает не только в email — нежелательные сообщения могут приходить и в SMS, и в мессенджерах.

Что влияет на попадание в спам ↓

Попадет рассылка в спам или нет, решают спам-фильтры. Это алгоритмы почтовых провайдеров (Mail.ru, Gmail), которые оценивают несколько показателей:

Рассылка уже попала в спам. Что делать? ↓

2. Написать письмо в техподдержку почтового провайдера. У нас есть подробный гайд, как это сделать.

3. Ждать ответ. Если вы устранили причину, то, скорее всего, рассылку разблокируют. Если вы не знаете причину, из-за которой письмо попало в спам, то, возможно, техподдержка подскажет, что нужно исправить.

Источник

Профессия – убивать спам. Все, что вы хотели узнать о тонкостях настройки Spamassassin

Архив номеров / 2005 / Выпуск №10 (35) / Профессия – убивать спам. Все, что вы хотели узнать о тонкостях настройки Spamassassin

СЕРГЕЙ СУПРУНОВ

Профессия – убивать спам.

Все, что вы хотели узнать о тонкостях настройки Spamassassin

Спам, без преувеличения, одна из серьезнейших проблем современного Интернета. На борьбу с этим явлением мобилизованы десятки программ. И наиболее успешным продуктом является, пожалуй, Spamassassin.

Пакет Spamassassin – один из самых популярных инструментов для борьбы со спамом, свободно распространяемый под лицензией Apache. Будучи написанным на языке Perl, он имеет высокий уровень переносимости и наверняка будет работать на любой UNIX-подобной операционной системе. Этим же обусловлена и относительная медлительность этого фильтра. В данной статье будет рассмотрено использование Spamassassin на FreeBSD, однако основные принципы работы сохранятся неизменными и на других платформах.

Тактика и используемые системы вооружения

В основе Spamassassin лежит метод детектирования спама по ряду характерных признаков. Некоторые из них представлены в таблице 1. Каждому признаку назначается определенное количество баллов. В процессе анализа сообщения баллы для найденных соответствий суммируются, и окончательное решение принимается в зависимости от того, превысил ли итоговый результат некоторое пороговое значение. Помимо простых признаков, наподобие приведенных выше, Spamassassin использует и ряд довольно сложных, основанных на других методах детектирования спама. Так, в состав Spamassassin входит статистический обучаемый анализатор, работающий на основе байесового классификатора. В отличие от таких инструментов, как DSPAM, письмо не признается однозначно спамом в случае «положительного результата» такого анализа, а лишь получает некоторый «довесок» к общему баллу. Причем вы можете самостоятельно настраивать величину этого довеска в зависимости от того, насколько вы доверяете статистическим анализаторам.

Таблица 1. Примеры характерных признаков спама

Заголовок сообщения слишком длинный

Поле заголовка «Replay-To» пустое

Тема сообщения содержит фразу «Your Family»

Сообщение передавалось только через доверенные узлы

Spamassassin также может проверять принадлежность адреса отправителя одному или нескольким блок-листам реального времени (RBL). Опять-таки результат такой проверки лишь добавит баллы в общую копилку.

Рассматриваемый фильтр умеет взаимодействовать и с системами, основанными на сигнатурном анализе (Razor, Pyzor, DCC). По умолчанию включен только Pyzor, поскольку DCC не является открытой системой, а сервис Razor полностью бесплатен только в случае персонального использования.

Благодаря такому интегральному подходу вы получаете возможность очень гибко настраивать методы детектирования спама в зависимости от конкретных задач, которые вы ставите перед фильтром. При этом ни один из методов (если, конечно, ему не присвоить балл, заведомо превышающий порог срабатывания) не выносит окончательного решения о признании сообщения спамом, что при грамотной настройке способствует снижению числа ложных срабатываний.

Развертывание комплекса на местности

Установка выполняется традиционно: на FreeBSD лучше всего воспользоваться коллекцией портов; пользователи Linux могут установить Spamassassin из исходных кодов либо поискать в сети готовый прекомпилированный пакет для своего дистрибутива. Более того, поскольку Spamassassin разработан на Perl, его можно установить непосредственно из коллекции CPAN, как и любой другой Perl-модуль:

cpan> o conf prerequisites_policy ask

cpan> install Mail::SpamAssassin

Далее мы будем предполагать, что пакет устанавливается из коллекции портов:

Вместе с командами make и make install вы можете указать ряд дополнительных параметров (см. таблицу 2).

Таблица 2. Некоторые опции, полезные при инсталляции

Отключить поддержку SSL

Включить поддержку MySQL

Включить поддержку PostgreSQL

Включить поддержку сигнатурного анализатора Vipul’s Razor

Включить поддержку запросов SPF

Использовать Yahoo DomainKeys

Использовать базу IP-адресов с географической привязкой

Устанавливать вспомогательные инструменты

Замечание: при первой установке из коллекции портов вы получите представленное на рис. 1 диалоговое окно, где сможете отметить нужные параметры визуально, без ввода дополнительных параметров в командной строке. Ваш выбор будет сохранен в /var/db/ports/p5-Mail-SpamAssassin/options, и при последующих установках (например, при обновлении версии пакета) вы уже не будете получать этот диалог.

Рисунок 1. Конфигурационный диалог

Поясню смысл приведенных выше опций.

Поддержка SSL позволяет клиенту и серверу Spamassassin взаимодействовать друг с другом по защищенному каналу. Если и клиентское, и серверное ПО предполагается использовать только в пределах одной и той же машины, эту опцию можно отключить.

Если вы планируете использовать байесовый анализатор, то поддержка MySQL или PostgreSQL позволит вам хранить статистические данные, накапливаемые анализатором, в базе данных. Кроме того, в БД могут храниться настройки пользователей и автоматически формируемый «белый» список. Если ни одна из СУБД не поддерживается, будут использоваться «плоские» файлы.

Включение поддержки Razor позволит вам стать активным участником этой системы. То есть Spamassassin сможет не только проверять принадлежность сигнатуры сообщения к базе спама, но и отправлять извещения (рапорты) об обнаруженном спаме или ложных срабатываниях.

Запросы SPF (Sender Policy Framework, см. http://spf.pobox.com) позволяют использовать систему DNS для проверки того, является ли IP-адрес источника сообщения легитимным SMTP-сервером. Для SMTP-серверов администратор размещает в соответствующей зоне DNS запись типа TXT, информирующую о том, что с данного IP-адреса предусмотрена отправка сообщений электронной почты. Если для адреса источника такая TXT-запись отсутствует, то получатель вправе отклонить запрос на соединение.

Yahoo DomainKeys (см. http://antispam.yahoo.com/domainkeys) действует аналогично SPF, но вместо простой пометки хранит в соответствующей зоне публичный ключ SMTP-сервера, позволяющий верифицировать цифровые подписи получаемых электронных сообщений (которые подписываются автоматически при отправке).

Поддержка базы IP-адресов, сопоставленных со странами, позволит вам использовать фильтрацию по географическому признаку. Однако нельзя забывать, что некоторые компании могут использовать зарубежный хостинг. Поэтому не следует придавать подобным проверкам слишком большой вес.

Наконец, установка дополнительного инструментария позволит вам получить ряд вспомогательных программ (подробнее о них будет рассказано в следующем разделе).

Если вы выполняете установку вручную, будьте готовы к тому, что в процессе инсталляции придется удовлетворить большое число зависимостей (различные модули Perl). Список необходимых модулей можно найти в файле INSTALL дистрибутива.

Также не забудьте добавить следующую строчку в /etc/rc.conf:

Это необходимо для того, чтобы демон Spamassassin мог запускаться из стартового сценария /usr/local/etc/rc.d/sa-spamd.sh.

Дислокация и приведение в полную боевую готовность

По умолчанию (установка из портов, prefix не используется) исполнимые файлы пакета размещаются в /usr/local/bin. Размещение и назначение основных конфигурационных файлов разъясняется в таблице 3.

Таблица 3. Размещение конфигурационных файлов

Основной файл конфигурации (общесистемный)

Прочие рабочие файлы конфигурации

Загружаемые модули (plugins), совместимые с версией 3.0

Загружаемые модули (plugins), совместимые с новой версией 3.1

Конфигурация по умолчанию

Пользовательские настройки и файлы данных

Обратите внимание, что настоятельно не рекомендуется вносить изменения в файлы, размещаемые в каталоге /usr/local/share/spamassassin, поскольку они будут перезаписаны при обновлении версии пакета, и вы потеряете все свои настройки. Если вам нужно что-то изменить, просто укажите строку с нужными параметрами в рабочем конфигурационном файле в каталоге /usr/local/etc/mail/spamassassin.

Следующие подразделы описывают некоторые наиболее полезные параметры конфигурации.

Настройка набора тестов

Имена тестов и значения по умолчанию можно узнать в файле /usr/local/share/spamassassin/50_scores.cf. Чтобы полностью отключить какой-либо тест, присвойте ему значение 0.0.

Сами тесты (как правило – регулярные выражения) находятся в этом же каталоге в других cf-файлах. При желании вы можете создавать и свои проверки по аналогии с имеющимися. Как вы можете увидеть, для этого существует несколько групп правил (header, body, rawbody, meta, uri и др.).

Подробно синтаксис правил описывается на странице справки perldoc Mail::SpamAssassin::Conf.

Белые и черные списки

Spamassassin можно настроить для особой обработки сообщений от конкретного отправителя или адресованных конкретному получателю.

Для этого существует группа параметров, определяющих «белые» и «черные» списки:

Существуют и другие параметры, позволяющие более гибко работать со списками пользователей. Подробности смотрите в документации.

Опции сетевых проверок

Фильтр Spamassassin умеет проводить ряд сетевых тестов, таких как проверка на принадлежность адреса отправителя доверенной сети, поиск IP-адреса в списках RBL, и т. п.

Некоторые параметры, которые вы можете использовать в своем конфигурационном файле, приведены ниже:

Параметры обучения статистического анализа

Статистическому анализатору в Spamassassin отводится весьма важная роль, поскольку только благодаря ему удается достичь непревзойденной точности срабатывания. Так как этот инструмент довольно сильно нагружает систему, то его тонкая подстройка может иметь решающее значение.

Если вы получаете письма преимущественно на одном (или нескольких) конкретном языке (например, русском), то может быть полезным указать такой параметр:

В данном примере разрешенными языками объявляются русский и английский, сообщения же в других локалях будут попадать под действие ряда правил (например, CHARSET_FARAWAY) и получать соответствующий балл.

Параметр report_safe указывает на то, что следует делать с оригинальным сообщением, если оно будет признано спамом: либо оставить как есть (значение 0), либо приложить к отчету как вложение (значение 1), либо добавить к отчету как текст (значение 2).

Помимо описанных выше параметров, влияющих на процесс обработки входящих сообщений, существует ряд настроек, с помощью которых администратор может управлять способом хранения данных или загрузкой подключаемых модулей:

Если вы устанавливали вспомогательные инструменты, то найти их можно будет в каталоге /usr/local/share/spamassassin/tools. Все они снабжены подробными комментариями или POD-документацией в самом тексте сценария. Здесь я приведу лишь краткое описание некоторых скриптов:

Report Date : 2005-10-13

Period Beginning : четверг, 13 октября 2005 г. 00:00:00

Period Ending : пятница, 14 октября 2005 г. 00:00:00

Reporting Period : 24.00 hrs

Total spam detected : 737 ( 54.51%)

Total ham accepted : 615 ( 45.49%)

Total emails processed : 1352 ( 56/hr)

Average spam threshold : 12.00

Average spam score : 17.85

Average ham score : 4.66

Spam kbytes processed : 5255 ( 219 kb/hr)

Ham kbytes processed : 10632 ( 443 kb/hr)

Total kbytes processed : 15887 ( 662 kb/hr)

Spam analysis time : 2057 s ( 86 s/hr)

Ham analysis time : 1434 s ( 60 s/hr)

Total analysis time : 3491 s ( 145 s/hr)

Statistics by Hour

2005-10-13 00 12 ( 27%) 32 ( 72%)

2005-10-13 01 102 ( 75%) 33 ( 24%)

2005-10-13 23 0 ( 0%) 0 ( 0%)

Done. Report generated in 25 sec by sa-stats.pl, version 6256.

Этот отчет позволяет оценить долю спама в общем объеме электронной почты, нагрузку на систему и канал связи, а также распределение нагрузки по времени суток.

Первый столбец показывает средний балл писем от указанного адресата, во втором столбце выводится расшифровка того, как именно этот балл был получен. Обратите внимание, что в качестве IP-адреса используются лишь первые два октета, то есть оценивается только принадлежность отправителя к некоторой сети. Подробнее про автоматический «белый» список рассказано в следующем разделе.

AWL (Auto White List) – система, используемая в Spamassassin по умолчанию, начиная с версии 3.0. Принцип работы AWL заключается в следующем: для всех отправителей ведется база данных, в которой сохраняется число обработанных сообщений и набранный в сумме балл. При получении письма с адреса, фигурирующего в базе AWL, рассчитывается его «чистый» балл (без учета AWL), а окончательный балл проставляется как производное значение от рассчитанного «чистого» и взятого из базы исторического значения.

Например, если ранее с адреса rrryyy@mail.ru было получено два сообщения, набравших в сумме 22.2 балла (см. листинг в предыдущем разделе, поясняющий работу утилиты check_whitelist), и приходит третье письмо с «чистым» баллом 1.8, то итоговый балл будет равняться:

Таким образом, система AWL учитывает «кредитную историю» отправителя, доверяя в большей степени тем, кто в прошлом вел себя хорошо.

Отключить использование AWL можно, указав в конфигурационном файле следующую строку:

Кроме того, вы можете подстраивать работу системы, указывая весовой коэффициент для расчета итогового балла, отличный от 1:

Теперь итоговый балл для приведенного выше примера будет равен 6.45, то есть находиться ближе к «чистому» значению.

Взаимодействие с MTA

SpamAssassin может быть подключен практически ко всем популярным почтовым серверам: Sendmail, Postfix, Qmail, Exim, Courier-MTA, Communigate Pro и некоторым другим. Подробные инструкции можно получить на странице http://wiki.apache.org/spamassassin/IntegratedInMta.

Для работы с Sendmail Spamassassin обычно подключается через milter. В сети можно найти несколько «мильтеров» для работы со Spamassassin.

Мы будем использовать имеющийся в коллекции портов spamass-milter:

После установки нужно будет добавить в /etc/rc.conf строку для автоматического запуска spamass-milter при загрузке системы:

Наконец, добавляем поддержку этой программы в конфигурационный mc-файл Sendmail (обычно соответствует доменному имени сервера, например /etc/mail/myserver.ru.mc):

MAIL_FILTER(`spamassassin’, `S=local:/var/run/spamass-milter.sock, F=, T=C:15m;S:4m;R:4m;E:10m’)dnl

Если вы используете и другие фильтры (например, clmilter из пакета ClamAV), то перечислите их в одной строке «confINPUT_MAIL_FILTERS», поскольку такая запись должна быть только одна.

Как вариант, вместо строк MAIL_FILTER можно использовать INPUT_MAIL_FILTER. В этом случае второе определение не потребуется.

Теперь осталось пересобрать cf-файл, запустить Spamassassin и spamass-milter и перезагрузить Sendmail:

Последние три команды можно заменить полной перезагрузкой сервера, если режим его работы позволяет это сделать.

В процессе работы каждое сообщение анализируется, в него добавляются заголовки, отражающие результат проверки, однако независимо от того, признается письмо спамом или нет, оно передается дальше. Вопросы обработки таких сообщений рассматриваются в следующем разделе.

Помимо приведенного выше способа, большой эффективности можно достичь, используя procmail. Ниже приведен пример конфигурации:

# Отправляем все сообщения (до 256000 байт) на обработку

# Все сообщения с X-Spam-Status = Yes помещаем в карантин

Если у вас запущен демон spamd, то вместо вызова spamassassin лучше использовать клиент spamc, который будет обращаться к находящемуся в памяти серверу. Это позволит избежать запуска отдельного экземпляра скрипта для обработки каждого входящего сообщения.

Помимо возможности индивидуальной настройки для каждого пользователя, вы можете здесь же организовать обработку сообщений, о чем мы сейчас и поговорим.

Дальнейшая участь спама

Пакет Spamassassin предназначен только лишь для пометки анализируемых сообщений (в заголовке или модифицируя тему письма). Дальнейшие действия, такие как удаление спама или перемещение его в карантин, требуют подключения внешних программ, умеющих это делать.

Наиболее популярным решением является уже упоминавшийся в предыдущем разделе procmail (там же приведен пример занесения спама в отдельный почтовый ящик). Этот способ можно использовать как глобально (для всех пользователей сервера организовать один карантин), что может быть удобно в пределах одной организации, так и индивидуально, настроив каждому пользователю свой карантин (эту возможность по достоинству оценят провайдеры). Недостатком такого подхода является отсутствие удобного инструмента для работы с карантином, так как если периодически закачивать содержимое карантина с помощью почтового клиента и обрабатывать его таким образом, то это сводит на нет все преимущества использования фильтра.

На странице http://wiki.apache.org/spamassassin/SpamQuarantine предлагается два других решения: использование веб-интерфейса Maia Mailguard и программы SpamAssassin Quarantine (SAQ). Чтобы не перегружать статью, оставлю их вам для самостоятельного изучения (возможно, об особенностях этих программ мы поговорим в другой раз).

На своем сервере я ограничился только пометкой спама, предоставив пользователям возможность самостоятельно решать, что делать с ним дальше.

Проверка боеготовности и обучение личного состава

После того как Spamassassin будет установлен и настроен, убедиться в его работоспособности можно, просмотрев заголовки приходящих сообщений. Для писем, прошедших обработку, в заголовке должно присутствовать что-то похожее:

X-Spam-Status: No, score=-0.7 required=12.0 tests=ALL_TRUSTED,AWL,

MAILTO_TO_SPAM_ADDR,NO_REAL_NAME autolearn=ham version=3.1.0

X-Spam-Checker-Version: SpamAssassin 3.1.0 (2005-09-13) on myserver.ru

Таким образом, можно считать, что фильтр работает.

Для писем, признанных спамом, будет формироваться отчет (пример приведен на рис. 2). Текст сообщения можно изменять в настройках фильтра (используются строки report в конфигурационном файле). Помимо текста, извещающего пользователя, что сообщение было признано спамом, ниже дается подробная расшифровка того, какой тест сколько баллов внес в итоговый результат. Подобная детализация очень полезна для анализа причин ложного срабатывания, если оно произойдет. Оригинальное сообщение по умолчанию прикладывается к отчету как вложение (это поведение можно настроить с помощью параметра конфигурации report_safe).

Рисунок 2. Так для пользователя выглядит спам

Несколько слов нужно сказать о работе байесового анализатора. Если его работа разрешена и включено автообучение, то он будет анализировать каждое сообщение и инициировать обучение для писем, признанных спамом или набравших минимальный балл. Однако заметьте, что результаты статистического анализа станут учитываться фильтром только после того, как будет набрана достаточная учебная база (по умолчанию, по 200 экземпляров спама и не спама). Тренировать фильтр вы можете как вручную, так и положившись на автообучение (что потребует некоторого времени).

После того как будет накоплена достаточная база, в заголовках обработанных писем будет появляться и информация о выполнении тестов BAYES_xx:

X-Spam-Status: Yes, score=14.9 required=12.0 tests=BAYES_99,EXTRA_MPART_TYPE,

SUBJECT_ENCODED_TWICE autolearn=no version=3.1.0

X-Spam-Checker-Version: SpamAssassin 3.1.0 (2005-09-13) on myserver.ru

Как видите, для этого сообщения байесовый тест дал результат от 99 до 100% вероятности того, что письмо – спам. Совместно с другими тестами письмо набрало 14.9 баллов, что позволило отнести его к спаму, несмотря на достаточно высокий порог срабатывания.

Основываясь на личном опыте использования фильтра, могу сказать, что сразу после установки (поскольку дело было на работающем сервере, то необходимый порог срабатывания был на период тестирования установлен на достаточно высоком уровне – 12 баллов) Spamassassin стал отмечать примерно половину приходящего спама. Специального обучения статистического анализатора я не проводил, целиком полагаясь на самообучение. Спустя сутки фильтр накопил достаточную базу и стал учитывать результаты байесовой классификации. При этом точность срабатывания возросла примерно до 91%. Ложных срабатываний пока не наблюдалось.

Предварительное обучение фильтра наборами заранее отсортированных на спам и легальную почту сообщений позволит задействовать байесовый анализатор значительно раньше, а также еще больше повысить точность срабатывания. Команды, «скармливающие» фильтру такие сообщения, представлены ниже:

Рубрика: Безопасность / Электронная почта
Learned tokens from 20 message(s) (20 message(s) examined)
Learned tokens from 5 message(s) (5 message(s) examined)

Последним параметром указывается либо файл (в формате mailbox), либо каталог, содержащий примеры писем (например, в формате msg). Нужно заметить, что обучение может выполняться довольно долго (у меня обработка 25 сообщений заняла почти минуту).

Вполне естественно, что Spamassassin, как и любой другой антиспамовый фильтр, будет пропускать часть спама (всегда найдутся грамотно составленные сообщения, успешно проходящие через большинство правил). Сбор таких писем в отдельную папку и периодическая передача их Spamassassin в режиме обучения позволят в будущем повысить точность срабатывания за счет более высокого балла, присваиваемого письму статистическим анализатором.

После обучения вы можете просмотреть дамп базы:

0.000 0 3 0 non-token data: bayes db version

0.000 0 2792 0 non-token data: nspam

0.000 0 623 0 non-token data: nham

0.000 0 131028 0 non-token data: ntokens

0.000 0 1010692073 0 non-token data: oldest atime

0.000 0 1129590682 0 non-token data: newest atime

0.000 0 1129530349 0 non-token data: last journal sync atime

0.000 0 0 0 non-token data: last expiry atime

0.000 0 0 0 non-token data: last expire atime delta

0.000 0 0 0 non-token data: last expire reduction count

0.049 0 1 1129026204 91a35b559c

0.958 1 0 1129026743 92485c309a

0.049 0 1 1129028552 f92317eba2

К процессу обучения можно приобщить и пользователей. Создайте специальные почтовые ящики для спама и не спама (например, sa-spam@myserver.ru и sa-ham@myserver.ru) и проинструктируйте своих пользователей на первый из них пересылать пропущенный спам (так называемый false negative), на второй – хорошие сообщения, ошибочно признанные спамом (false positive).

Далее настройте cron на периодическую загрузку писем из соответствующих почтовых ящиков в режиме обучения.

Второй путь – настроить procmail на обработку таких писем, что называется, на лету (пример взят со страницы http://wiki.apache.org/spamassassin/ProcmailToForwardMail):

Здесь помимо инициализации обучения для поступающих писем их копии также сохраняются в папке spam, которая может пригодиться в будущем для ручного обучения фильтра.

Подробнее о режимах обучения смотрите страницу справочного руководства man sa-learn и соответствующие Wiki-страницы.

Усиление за счет внешней СУБД

По умолчанию Spamassassin хранит данные (автоматически формируемый «белый» список, историю статистического анализатора) в отдельных файлах в формате DBM. Для повышения производительности можно перенести их во внешнюю базу данных. Spamassassin умеет работать с MySQL и PostgreSQL (поддержка СУБД должна быть включена на этапе установки пакета). Рассмотрим настройку для работы с базой PostgreSQL.

Сначала вам нужно будет подготовить базу данных для работы. Саму БД придется создать вручную, а заодно и пользователя, который будет владельцем нашей базы. А поскольку Spamassassin использует хранимые процедуры на языке PL/pgSQL, то также потребуется подключить и язык программирования к вновь созданной базе:

Замечание: pgsql – имя администратора PostgreSQL, который имеет право создавать базы и пользователей, sauser – вновь создаваемый пользователь-владелец БД Spamassassin, sabase – база данных Spamassassin.

Далее нужно сформировать правильную структуру БД, для чего воспользуемся готовыми SQL-сценариями, которые можно будет найти в каталоге sql распакованного дистрибутива (при установке из портов это будет каталог /usr/ports/mail/p5-Mail-SpamAssassin/work/Mail-SpamAssassin-3.1.0/sql):

CREATE TABLE bayes_expire (

id integer NOT NULL default «0»,

runtime integer NOT NULL default «0»

CREATE INDEX bayes_expire_idx1 ON bayes_expire (id);

Этой командой мы создали нужные таблицы, индексы и функции в базе sabase для хранения данных статистического анализатора. Теперь осталось указать в конфигурационном файле local.cf соответствующие настройки и перезапустить фильтр:

Если у вас уже накоплена статистическая база в формате DBM, то перенести их в СУБД можно следующим образом. Перед тем как менять настройки в конфигурационном файле, сделайте резервную копию базы:

После того как настройки будут изменены для работы с СУБД, восстановите данные из сформированной резервной копии:

Поскольку формат резервной копии не зависит от используемого модуля базы данных, то sa-learn самостоятельно выполнит конвертирование данных в соответствии с используемой базой данных.

Также поддерживается хранение во внешней БД пользовательских настроек и «белых» списков. Для подготовки таблиц нужно выполнить следующие команды:

А в конфигурационном файле указать аналогичные приведенным выше опции подключения к базе данных:

Дополнительные сведения можно получить из файлов README.* в указанном выше каталоге sql.

Индивидуальный защитный комплект

Spamassassin может быть установлен и для персонального использования без необходимости иметь права администратора системы. Например, если у вас есть учетная запись на сервере, то сможете установить Spamassassin в своем домашнем каталоге и настроить его на проверку почты с помощью procmail. В этом случае вы сможете настроить фильтр именно так, как хотите, не обращаясь к системному администратору сервера. Прежде чем вы установите Spamassassin в свой домашний каталог, вам потребуется указать в ваших переменных окружения пути к модулям и библиотекам Perl, если это не было сделано ранее. Должны быть определены переменные PATH, MANPATH, PER5LIB и LANG.

Прежде чем собрать пакет из исходников, сконфигурируйте его на установку в свой домашний каталог:

# perl Makefile.PL PREFIX=$HOME && make && make install

Как видите, фильтр Spamassassin может быть предельно гибко настроен для борьбы со спамом. Он предоставляет администратору возможность как глобально определять правила фильтрации всей почты, так и переложить часть настроек на пользователей, которые смогут подстраивать работу Spamassassin под свои предпочтения. В то же время данному фильтру присущи и традиционные проблемы, сопровождающие различные анализаторы. Так, прием сообщения осуществляется полностью, то есть снижения почтового трафика не будет. Высокая нагрузка на сервер, особенно в случае включенного синтаксического анализа, требует более мощного (а следовательно, более дорогого) оборудования. Вероятность ложных срабатываний (хотя и очень небольшая) на ответственных серверах вынуждает заносить письма, признанные спамом, в карантин, что помимо расходования дискового пространства требует также времени на периодический контроль помещенных туда писем. Тем не менее использование Spamassassin позволит упростить жизнь пользователям электронной почты, а при достаточно внимательной настройке – даже добиться весьма хороших результатов при минимуме ложных срабатываний.

Источник

Читайте также:  vsd формат что это
Информ портал о технике и не только