targeturl bp что это

Продвижение товаров на Wildberries

Как лучше продвинуть Ваш товар и увеличить продажи?

Для продвижения может использоваться 2 пути:

В целом алгоритм данной площадки работает так: чем выше рейтинг поставщика/товаров, чем больше их процент выкупа и общее количество продаж, тем выше агрегатор будет показывать предложения именно этого партнера. И наоборот – товары/поставщики с низкими показателями невыгодны площадке и они будут опускаться алгоритмом вниз. Таким образом «Вайлдберриз» стремится заработать деньги и всячески поощряет своих успешных партнеров и наказывает слабых, потому что первые приносят прибыль, а вторые тянут весь маркетплейс вниз.

Площадка будет поощрять тех поставщиков, по товарам которых количество заказов больше, влияют на это следующие факторы:

Как же увеличить продажи товаров на «Wildberries»

1. Провести SEO-оптимизацию карточек товаров, чтобы они выше ранжировались на самой площадке, а также могли выводиться в ТОП10 поисковой выдачи Яндекс/Google по определенным низкочастотным запросам.

1.1 Оптимизировать названия товаров, используя вхождения ключевых слов (цвет, материал и т.д.).

1.2 Добавлять оптимизированные описания товаров (СЕО описания с вхождением ключевых слов). Описания должны быть при этом максимально информативными и реальными, чтобы на пункте самовывоза «Wildberries» покупатель не получил то, что не ожидал увидеть (другими словами, чтобы не было возвратов из-за недостоверной информации).

1.3 Использовать качественные фотографии. Изображений, при этом, не должно быть много, но они должны представлять товар со всех сторон:

Фото товаров должны учитывать:

Главная фотография должна быть просто шедевром и выделяться на изображений товаров конкурентов.

1.4 Использовать видео и фото 360 для всех товаров.

2. Анализировать продажи – это обязательная составляющая успешного ведения бизнеса с «Wildberries».

В том числе, необходимо исследовать и тренды, нишу, поисковые запросы, конкурентов.

Желательно работать только с флагманами и убирать с площадки те товары, которые не продаются и тянут рейтинг поставщика вниз.

3. Отслеживать отзывы/отвечать на вопросы о товарах.

Таким образом, можно будет выделять непопулярные и ходовые товары или обнаружить проблемы с товарами.

4. Следить за наполненностью складов и пропорционально продажам отгружать на них товары.

По товару можно смотреть, на каких складах дефицит больше, а на какие меньше. Если связать это с наличием по складам и с реальными продажами и заказами, то становится понятно на какие склады везти.

Товар, отгруженный на определенный склад мало того, что неохотно предлагается клиентам «дальних» для этого склада регионов, но и может вовсе быть убран с продаж. Отгружая на Новосибирский склад можно быть уверенным, что товар не будет показываться клиентам из Сочи или Питера, а склад в Краснодаре будет просто невидим для клиентов из Владивостока.

Распределяя товар пропорционально спросу и продажам на склады по всей стране, вы обеспечите своей компании максимальные продажи.

Если у Вас уже достигнуты большие обороты продаж товаров, то ниже лайфхак распределения по складам для популярных позиций:

5. Следить за логистикой – напрямую связано с предыдущим пунктом.

Товары, которые доставляются с дальнего от пользователя склада в увеличенные сроки доставки, заказывать не будут. А у конкурента похожий товар может быть доставлен быстрее, т.к. находится на ближнем к пользователю складе, соответственно, пользователь купит этот товар.

Что дополнительно сделать для увеличения продаж:

Данные инструменты достаточно дорогие и подойдут крупным и известным брендам/магазинам.

Форматы размещений на площадках «Wildberries»:

2. Использовать внешний трафик на свои товары.

2.1 Сделать связку «Instagram» + «Wildberries» – направлять трафик из социальной сети на агрегатор.

Это позволит упростить логистику, заказы и оплату канала продаж «Инстаграм» Кроме того, появится возможность «примерок» – возможности посмотреть товар вживую.

Сейчас для заказа в социальной сети необходимо списаться с продавцом по директу, перевести деньги непонятно куда и ждать товар непонятно сколько. А вдруг товар не подойдет или будет брак? «Вайлдберриз» же возьмет все эти нюансы на себя:

Таким образом, сразу появляется и доверие (ведь можно примерить, оплатить при получении и т.д.) и удобство, и бренд и т.д.

Однако рекомендуется рекламировать именно тот товар, который пользуется максимальным спросом. Выберите 1-3 флагмана и все рекламные бюджеты тратьте именно на них!

3. Выкупать свой товар.

Это поднимает показатели, особенно в фильтре «Рейтинг». Данная схема немного «серая» и заниматься этим надо сознательно, учитывая тот факт, что «Вайлдберриз» отслеживает подобные схемы. Низкий выкуп по Вашей компании в целом опускает ее рейтинг.

4. Использовать разные бар коды к одному и тому же товару.

Это увеличит их «повторяемость», например, если пользователь листает каталог в определенном разделе и уже однажды пропустил взглядом Ваш товар в общем списке среди всех производителей.

5. Поработать/поэкспериментировать с ценой.

Завысьте цену (в разумных пределах), сделайте ее максимальной по рынку, а затем добавьте существенную от 30 до 70% скидку. Используйте магию числа 9 или 95 (4.99 или 19.95). Найдите максимум, при котором количество заказов, умноженное на маржу, приносит Вам больше всего денег.

Что входит в стоимость работ:

1. Проведение глубокой аналитики Вашего сайта и ресурсов конкурентов опытными специалистами – SEO-оптимизатором, маркетологом;

2. Подготовка подробных файлов-отчетов с рекомендациями по улучшению показателей;

3. Оценка стоимости реализации всех найденных точек роста после согласования с Вами.

Схема работы

Согласование с Вами

Оценка реализации найденных
точек роста

Наши предложения по продвижению на маркетплейсах

Маркетплейс Wildberries OZON
Количество товаров для проработки в месяц От 10 От 10
Загрузка новых товаров в маркетплейс + +
Анализ конкурентов и трендов продаж + +
Корректировка контента существующих товаров + +
Общение с техподдержкой + +
Цена (руб.) От 10 000 От 10 000
Заказать Заказать

Закажите внутреннюю оптимизацию Вашего магазина на маркетплейсах по ссылке.

Источник

Профи Wildberries: UTM-метки Wildberries. Полезные для Вайлдберриз, бесполезные для поставщика (targetUrl)

Аналитика и консультация по поставкам на маркетплейсы Wildberries, Я.Маркет, Ozon, Lamoda, Aliexpress. Секреты маркетплейсов

ВАЖНО. Сайт WBCON.RU не является официальным партнером Маркетплейсов и его Поддержкой. Информация на сайте собрана из открытых источников и носит информационный характер. Информация на странице может быть не актуальна. За актуализацией обращайтесь в Поддержку Маркетплейса и/или в ЛК Поставщика

Небольшая статья для тех, кто хотел для отслеживания эффективности внешней рекламы использовать для трафика на Wildberries UTM-метки…

СРАЗУ СКАЖУ, ВАШИ UTM МЕТКИ ОТПРАВЛЕННЫЕ НА ВАЙЛДБЕРРИЗ ВЫ БОЛЬШЕ НИКОГДА НЕ УВИДИТЕ. ДА, ВАШИ UTM-МЕТКИ БЕСПОЛЕЗНЫ. ВЫ НИКАК НЕ ОТСЛЕДИТЕ СВОИ МЕТКИ, НО ВОТ ВАЙЛДБЕРРИЗ КРЕПИТ К ССЫЛКАМ СВОИ И ВОТ ЧТО ОНИ ЗНАЧАТ

При открытии страницы товара в браузере Вы можете увидеть метки, которые цепляются к ссылке на товар вида https://www.wildberries.ru/catalog/15556062/detail.aspx

Все они имеют вид «targetUrl=»

Ну так вот… Каждое значение после «=» означает источник, откуда на карточку пришел покупатель. Их достаточное количество и по всем есть четкое понимание.

Буду показывать на примере как раз этого артикула…

«targetUrl=GP»

GP-значение, которое, как я считаю, можно перевести как «Group Page». Выдается эта utm-метка в том случае, если переход на карточку был с каталога.

«targetUrl=ES»

ES-значение, которое, как я считаю, можно перевести как «Entitled Search». Выдается эта utm-метка в том случае, если переход на карточку был по поиску, но поиск был по полному наименованию товара.

«targetUrl=XS»

XS-выдается эта utm-метка в том случае, если переход на карточку был по поиску с компьютера. Основная метка для поиска

Читайте также:  какие сосиски можно при гастрите

«targetUrl=MS»

MS-выдается эта utm-метка в том случае, если переход на карточку был по поиску на мобильном устройстве. Аналог XS для мобильной версии сайта. Основная метка для поиска

«targetUrl=BP»

BP-значение, которое, как я считаю, можно перевести как «Brand Page«. Она выдается при переходе со страницы бренда

«targetUrl=SP»

SP-значение, которое, как я считаю, но тут не уверен, можно перевести как «Simple Page«. Она выдается при вводе в поиск артикула товара

Введите в поиск на Вайлдберрис артикул — 15556062

«targetUrl=EX»

EX-значение, которое, как я считаю, можно перевести как «EXTERNAL«. Например такой меткой помечаются прямые заходы на карточку (иногда оставляет пустым, но в логах заказа EX идет)

«targetUrl=LC»

LC-такой меткой помечаются заходы на карточку товара из отзывов покупателя

Второстепенные UTM-метки

«targetUrl=PB»

PB-значение, которое, как я считаю, переводится «Рекламный Блок» или «PR Block. Эта метка используется при переходе по товару из рекламного блока в карточке товара.

«targetUrl=WR»

WR-эта метка используется при переходе к товару из «С этим товаром рекомендуют»

«targetUrl=ST»

ST-эта метка используется при переходе к товару из тегов и под карточкой «C этим товаром искали» или из тегов над списком в поиске

«targetUrl=SG»

SG-эта метка используется при переходе к товару из блока «Похожие товары»

«targetUrl=AB»

AB-эта метка используется при переходе к товару из блока «C этим товаром покупали»

«targetUrl=VS»

VS-эта метка используется при переходе к товару с функционала в карточке другого товара «Похожие по фото».

«targetUrl=IR»

IR-эта метка используется при переходе к товару если вы в поиск на сайте или приложении загрузите фото для поиск.

«targetUrl=IM»

IM-эта метка используется при переходе к товару если вы кликнули «Возможно, Вам понравится» на внутренней странице

«targetUrl=MI»

MI-эта метка используется при переходе к товару если вы кликнули «Возможно, Вам понравится» на главное странице

«targetUrl=RG»

RG-эта метка используется при переходе к товару если вы кликнули «Вы смотрели» на главное странице

Так что Вайлдберриз знает откуда пришел покупатель…

Источник

Опасный target=»_blank»

Большинство создают внешние ссылки через target=»_blank» и не знают одного интересного нюанса — страница, на которую мы попадем таким образом, получит частичный контроль над ссылающейся на нее страницей через js свойство window.opener.

Через window.opener.location мы сможем сделать редирект на, к примеру, фишинговую страницу. Это своего рода tabnabbing, только более продвинутый. Так как жертва меньше всего ожидает подмены страницы, в открытой ранее, доверенной вкладке браузера.

Проблема далеко не новая, но до сих пор актуальная, и как вижу, не многие о ней знают.

Проблема так же существует в facebook.

Для примера — открываем пост, кликаем по ccылке. Смотрим что случилось с вкладкой, на которой мы открывали данный пост.

Скрыл публикацию в FB ввиду жалоб на надобность восстанавливать доступ к аккаунту после перехода по ссылке (пруф). Можно самому попробовать разместить скрытую публикацию на страницу sli.su/kitten.html либо посмотреть как это работает на хабре

На странице sli.su/kitten.html есть такой код:

Он создает редирект с ранее доверенной страницы. Это происходит потому, что браузеру никто не сообщил, что открываемая страница не должна иметь доступа к родительской вкладке. На момент публикации без проблем отрабатывает в chrome 50, firefox 45, opera 36.

Таким грешат многие сайты, а некоторые, даже не считают это за проблему «на своей стороне» sites.google.com/site/bughunteruniversity/nonvuln/phishing-with-window-opener

Варианты решения проблемы:

1. Добавить в ссылки:

Это так же может быть

2. Открывать все внешние ссылки через свою, промежуточную страницу, на которой должен отработать код:

3. Открывать ссылки в новой вкладке через js:

Источник

Что интересного можно купить на Вайлдберриз?

Маркетплейс Wildberries — один из самых популярных интернет-магазинов в России. Каждый день на этой популярной площадке приобретаются тысячи товаров, товарный ассортимент магазина постоянно растёт, включая в себя всё новые бренды и товарные позиции. Если вы только присматриваетесь к предлагаемым в магазине товарам, мы порекомендуем вам популярную продукцию, на которую стоит обратить ваше внимание. Ниже разберём, что же такого интересного можно сегодня купить на площадке Вайлдберриз? И к каким товарам стоит присмотреться особо.

Конструктор советский средний танк Т-34/85

Во время вынужденного карантина спрос на «домашние» товары существенно вырос. Особенно популярны различные конструкторы, позволяющие с пользой скоротать длинные вечера как ребёнку, так и взрослому. Одним из таких конструкторов является конструктор модели танка Т-34/85 с пушкой 3I/IC-C-53 образца осени 1944 года, являющего лучшим танком Второй Мировой войны.

Детали конструктора состоят из пластмассы, скрепляются при помощи специального клея от предприятия «Звезда». Краски и клей продаются отдельно от конструктора.

Интерьерный конструктор «Комната маленькой принцессы»

Полностью русифицированный румбокс от официального дистрибьютера, популярный у девочек https://www.wildberries.ru/catalog/6720783/detail.aspx. Готовый для творчества интерьерный конструктор, позволяющий создать кукольный театр в миниатюре. Все детали выполнены из безопасных материалов и весьма реалистичны. Для работы румбокса, который можно купить на Вайлдберриз, понадобятся 2 батарейки АА.

Набор для шитья текстильной куклы на Вайлдберриз

Наборы для шитья кукол – популярное хобби, которое может стать украшением интерьера, так и игрушкой для вашей дочери или внучки. В комплект для шитья куклы Рози входят ткани для пошива тела и одежды куклы, кукольная обувь, волосы, соответствующая фурнитура (ленты, пуговицы) и аксессуары.

Имеются подробные выкройки и фото инструкция. Очень интересная вещица, которую можно купить сегодня на Wildberries.

Светодиодный детский ночник «Единорог» от Zeimas, обладает таймером автовыключения, может похвалиться сенсорным датчиком и пультом дистанционного управления. Корпус выполнен из силикона, мягкий и приятный на ощупь. Даёт мягкий рассеянный свет, поддерживает девять цветов свечения. Имеет продолжительное время работы от батареи.

Купить холсты на подрамнике Малевич на Wildberries

Готовые к работе холсты для профессиональной живописи. Являют собой среднезернистое грунтованное полотно из 100% хлопка с плотностью 380 г/м2, натянутое на подрамник из дерева. В комплектацию товара входят клинья, регулирующие натяжение полотна. Если вы ищете, что же такого интересного и оригинального в качестве подарка можно купить на маркетплейсе Вайлдберриз, то рекомендуем присмотреться к этому товару.

Можно приобрести глину для лепки Candy Clay

Алмазная мозайка «Яркий букет» на Вайлдберриз

Алмазная мозайка «Яркий букет» размером 30х40 см предлагает вам собрать картину стразами на холсте с клейкой основой. Собрать алмазную мозайку совсем несложно, вам понадобится лишь усидчивать и аккуратность.

Очень интересный набор для выжигания по дереву и ткани

Данный электроприбор предназначается для выжигания по дереву и ткани с функцией гильоширования (выжигания рисунка на ткани). Используются различные ткани из искусственных и синтетических волокон. Такие электроприборы рекомендуются для развития детского творчества, пригодны для уроков труда и домашних занятий.

Подставка под горячее «Символ года»

Интересная подставка под горячее «Символ года» имеет круглую форму с вешалкой, и может использоваться как подставка под посуду, а также как украшение интерьера вашей кухни. Вешалка из цветного шнура позволит удобно подвесить подставку в нужном месте. Необычный подарок, который можно купить недорого на Вайлдберриз.

Удобраня подставка для разделочных досок на Wildberries

Универсальная подставка для разделочных досок выполнена из черного металла размером 12,5 х 9 х 10,5 см. Во время готовки вы можете использовать подставку для планшета или поваренной книги, сделав процесс готовки удобнее и привлекательнее. Закажите ее на Вайлдберриз для умелой хозяйки.

Читайте также:  безлактозные сливки что это такое

Набор кованых профессиональных ножей с ножеточкой

В состав данного набора профессиональных ножей а входят 4 вида ножей:

Также в этот очень интересный комплект, который можно купить в интернет-магазине Wildberries, входят магнитный настенный держатель и двухзонная точилка для ножей.

Самоклеящийся настенный держатель для инвентаря

Данный настенный держатель станет отменным решением для хранения хозяйственного инвентаря в вашем жилище. Инструмент легко и удобно устанавливается, будет служить стильным и удобным аксессуаром для вашего помещения. Установка держателя не повреждает поверхность стены.

Постельное белье со свечением в темноте можно купить для ребенка

Постельное бельё «Непоседа» является хитом продаж Вайлдберриз. Его особенностью является свечение в темноте и яркий, трендовый дизайн с любимыми куклами LOL. Порадуйте своего ребёнка ярким и оригинальным бельём, завоевавшим сердца миллионов девочек по всему миру.

Коробка для белья на Вайлдберриз

Складная удобная коробка для хранения белья на 16 ячеек, размером 30х30х10см. Станет удобным помощником в организации вашего быта и пространства. Ваши вещи не будут валяться по всему ящику, а займут причитающееся им место, где вы всегда сможете их найти. Очень интересная покупка на маркетплейсе Вайлдберриз.

Робот-пылесос PVCR 0726W

Данный популярный робот-пылесос прекрасно проникает под мебель, куда не добирается обычный пылесос. Робот оборудован инфракрасными датчиками для ориентации в пространстве, он легко объезжает мебель и другие препятствия. Упасть ему не позволят имеющегося у него датчики антипадения. Робот способен работать без подзарядки 200 минут.

Фитнес-браслет Mi Smart Band 5

Данный фитнес-браслет от Xiaomi – несомненный хит второй половины 2020 года. Устройство обладает сенсорным AMOLED дисплеем, вибрацией для входящих вызовов, уведомлений и будильника. Браслет измеряет шаги и пройденные километры, проверит пульс, позволит разбокировать смартфон и многое другое.

Контактный гриль Inicio GC241

Гриль Inicio GC241 от «Tefal» является многофункциональным устройством, позволяющим готовить любые блюда за считанные минуты. Высокая мощность прибора гарантирует хорошую прожарку, а высококачественное покрытие панелей позволяет их очищать с помощью даже бумажного полотенца. Отличный и качественный выбор.

Кофемашина Philips EP1224/00 с капучинатором

Данная кофемашина от Philips подарит вам кофе с великолепным вкусом и ароматом, приготовленным при идеальной температуре с помощью функционала интеллектуальной системы заваривания. С помощью классического каппучинатора вы сможете сделать вкуснейший каппучино или латте макиато. Машина позволяет выставить объём порции кофе и его крепость, а автоматическая программа сообщит о необходимости удаления налёта.

Видео-инструкция

Выше мы перечислили, что интересного можно сейчас купить в популярном интернет-магазине Вайлдберриз. Разумеется, приведённый выше список далеко не полон, и каждый покупатель может найти в богатом ассортименте магазина что-то себе по вкусу. Если вы нашли на WB то, что искали, что можете порекомендовать другим покупателям. Делитесь этим в комментариях к данному материалу.

Источник

Русские Блоги

вебмагическое руководство

webmagic архитектура и дизайн ссылки на следующие два элементы, благодаря двумя из следующих пунктов:

Webmagic следуетПротокол Apache 2.0Вы можете использовать и изменять. Есть неудобства или проблемы, добро пожаловать на GitHubОтправить вопросИлимодуль обсуждения ощиныЗадайте вопросы.

Скачать и установить

Используйте Maven

webmagic использует maven для управления зависимостями. Добавьте соответствующие зависимости в проект для использования webmagic:

Структура проекта

Webmagic в основном включает в себя два пакета:

webmagic-core

Основная часть webmagic содержит только базовые модули сканера и основные экстракторы. webmagic-core стремится быть подобной учебнику реализацией веб-сканеров.

webmagic-extension

Модуль расширения webmagic предоставляет несколько более удобных инструментов для написания сканеров. Включая сканер определения формата аннотации, JSON, распределенную поддержку.

webmagic также содержит два доступных пакета расширений, поскольку эти два пакета основаны на мощных инструментах, поэтому они извлекаются из основного пакета, эти пакеты необходимо загружать и компилировать самостоятельно:

webmagic-saxon

webmagic-selenium

В проекте вы можете полагаться на различные пакеты по мере необходимости.

Не используя maven

Пользователи, которые не используют maven, могут загрузить версию с пакетом jar для двоичных файлов (спасибоoschina):

вbin/libВ каталоге все пакеты jar, от которых зависит проект, можно импортировать непосредственно в IDE.

Первая рептилия

Пользовательский PageProcessor

PageProcessor является частью webmagic-core. Настройте PageProcessor для реализации собственной логики сканирования. Ниже приведен фрагмент кода для сканирования блога osc:

Здесь метод page.addTargetRequests () используется для увеличения URL-адреса для обхода, а page.putField () используется для сохранения результата извлечения. page.getHtml (). xpath () извлекает результаты в соответствии с определенным правилом. Здесь извлечение поддерживает связанные вызовы. После вызова toString () преобразуется в одну строку, а all () преобразуется в список строк.

Выполните этот основной метод, вы можете увидеть результаты сканирования в консоли. По умолчанию webmagic имеет интервал сканирования 3 секунды, наберитесь терпения. Вы можете изменить это значение с помощью site.setSleepTime (int). На сайте также есть несколько методов для изменения свойств сканирования.

Использование аннотаций

Расширение webmagic включает в себя метод написания сканера в режиме аннотации, просто добавьте аннотацию на основе POJO для завершения сканера. Ниже приведен фрагмент кода, извлекающий блог ощины, функция точно такая же, как OschinaBlogPageProcesser:

В этом примере определяется класс Model, поля которого «title», «content» и «tags» являются атрибутами для извлечения. Этот класс можно использовать в Pipeline.

Подробное использование аннотаций приведено в модуле аннотаций webmagic-extension ниже.

Детали модуля

webmagic-core

модуль модуля webmagic-core

Под webmagic-core понимается подразделение модуля scrapy, разделенное на Spider (всю структуру планирования всего сканера), Downloader (загрузка страниц), PageProcessor (извлечение ссылок и анализ страниц), планировщик (управление URL-адресами), Pipeline (автономный анализ и сохранение). Несколько частей. Просто scrapy реализует расширения через промежуточное ПО, а webmagic реализует расширения, определяя эти интерфейсы и внедряя их различные реализации в основной класс платформы Spider.

Класс паука (планирование ядра)

SpiderЭто входной класс сканера. Вызов интерфейса Spider использует цепочечный дизайн API. Все остальные функции реализованы посредством внедрения интерфейса в Spider. Ниже приведен пример запуска более сложного Spider.

Основной процесс обработки Spider очень прост, код выглядит следующим образом:

Spider также включает метод test (String url), который выбирает только одну страницу для проверки эффекта извлечения.

PageProcessor (анализ страниц и извлечение ссылок)

Анализ страницы является частью вертикального сканера, который нуждается в настройке. В вебмагическом ядре, поPageProcessorИнтерфейс для реализации пользовательских сканеров. PageProcessor имеет два основных метода: открытый процесс void (страница страницы) и открытый сайт getSite ().

public void process(Page page)

По правуPageОперации с объектами для реализации логики сканера. Объект Page содержит два наиболее важных метода: addTargetRequests () может добавлять URL-адреса в очередь для извлечения, а метод put () может сохранять результаты для последующей обработки. Данные страницы можно получить с помощью Page.getHtml () и Page.getUrl ().

public Site getSite()

SiteОбъект определяет имя домена искателя, начальный адрес, интервал сканирования, кодировку и другую информацию.

SelectorЭто независимый модуль, разработанный webmagic для упрощения извлечения страниц, который является основным направлением деятельности webmagic-core. Он интегрирует CSS Selector, XPath и регулярные выражения и может выполнять цепное извлечение.

Webmagic включает в себя класс для автоматического извлечения тела страницыSmartContentSelector, Я верю, что Evernote Clearly будет впечатлен своей технологией автоматического извлечения текста. Эта техника также называетсяReadability, Конечно, реализация читабельности в Webmagic по-прежнему груба, но все же есть некоторая обучающая ценность.

Читайте также:  анэхогенная структура что это значит

XPath-анализ webmagic использует другой проект с открытым исходным кодом автора: анализатор XPath на основе JsoupXsoupXsoup сделал некоторые расширения синтаксиса XPath для поддержки некоторых пользовательских функций. Эти функции используются в конце XPath /name-of-function() Например: «//div[@class=’BlogStat’]/regex(‘\\d+-\\d+-\\d+\\s+\\d+:\\d+’)» 。

Основанный на Saxon, webmagic обеспечивает поддержку синтаксиса XPath 2.0. Синтаксис XPath 2.0 поддерживает внутренние функции, управление логикой и т. Д. Это полный язык. Если вы знакомы с синтаксисом XPath 2.0, вы можете попробовать его (необходимо ввестиwebmagic-saxonПакет).

webmagic-samplesВ пакете для обучения есть несколько PageProcessors, настроенных для сайта.

Downloader (Скачать страницу)

DownloaderЯвляется ли интерфейс страницы загрузки в webmagic основным методом:

public Page download(Request request, Task task)

public void setThread(int thread)

Поскольку Downloader обычно включает такие функции, как пул соединений, которые тесно связаны с многопоточностью, этот метод определен.

В настоящее время существует несколько реализаций Downloader:

Планировщик (управление URL)

SchedulerЭто модуль управления webmagic. Вы можете настроить свой собственный менеджер URL, внедрив Планировщик. Планировщик включает в себя два основных метода:

public void push(Request request,Task task)

public Request poll(Task task)

Возьмите запрос от планировщика и выполните его позже.

В настоящее время webmagic имеет три реализации планировщика:

Простая очередь памяти быстрая и поточно-ориентированная.

Используя очередь сохранения файла, ее можно использовать для задач загрузки, которые занимают много времени. После того, как задача остановлена ​​в середине (ручная остановка или сбой программы), при следующем выполнении будет продолжено сканирование с приостановленного URL-адреса.

Используйте redis для хранения очередей URL. Используя тот же сервер Redis для хранения URL-адресов, Webmagic может быть легко развернут на нескольких компьютерах для достижения эффекта распределенного сканирования.

Трубопровод (постобработка и персистенция)

PipelineЭто интерфейс для конечного результата извлечения для вывода и сохранения. Включает только один метод:

public void process(ResultItems resultItems,Task task)

ResultItemsЭто объект, который объединяет результаты извлечения. Результат извлечения может быть получен через ResultItems.get (ключ). Задача также является объектом, используемым для различения разных задач.

Webmagic включает в себя следующие реализации конвейера:

Выведите результаты прямо на консоль для тестирования.

Результаты выводятся в файл, каждый URL-адрес сохраняется на отдельной странице, а результат MD5 URL-адреса используется в качестве имени файла. Через конструктор public FilePipeline(String path) Определите путь хранения,Следующие классы используют постоянство файлов, большинство из них используют этот метод для указания пути

В настоящее время Webmagic не поддерживает постоянство в базе данных, но в сочетании с другими инструментами сохранение в базе данных также легко. Может пожелать посмотреть здесьWebmagic в сочетании с JFinal, чтобы сохранить кусок кода в базе данных, Поскольку JFinal в настоящее время не поддерживает maven, этот код не включен в примеры webmagic.

webmagic-extension

Модуль аннотации

Расширение webmagic включает модуль аннотаций. Почему есть аннотации?

Поскольку подход PageProcessor является гибким и мощным, он не решает две проблемы:

Основой аннотации является класс Model, который сам по себе является POJO. Этот класс Model используется для передачи и сохранения окончательных просканированных данных страницы. Метод аннотации напрямую связывает извлечение с данными для удобства написания и обслуживания.

Метод аннотации фактически реализуется PageProcessor-ModelPageProcessor, поэтому он не влияет на код ядра webmagic. Возьмем программу, которая захватывает OschinaBlog в качестве примера:

Раздел примечаний включает в себя следующее:

TargetUrl

«TargetUrl» означает, что эта модель соответствует URL для обхода и содержит два значения: URL-адреса, соответствующие этому условию, будут добавлены в очередь на сканирование, URL-адреса, соответствующие этому условию, будут сканироваться этой моделью. TargetUrl можетsourceRegionУкажите регион, в котором извлекается URL-адрес (только XPath).

TargetUrl использует регулярные выражения, соответствующиеhttp://my.oschina.net/flashsword/blog/150039URL в формате «.webmagic изменил регулярное выражение». «Только представляет символ». «И не представляет никакого символа, а« * »представляет«. * », Например« http: //*.oschina ». «.net / *» представляет URL-адрес для всех доменных имен второго уровня Ощины.

Похож на TargetUrlHelpUrlHelpUrl сказал: просто захватите URL для извлечения ссылки, а не извлекайте из нее контент. Например, страница тела блога соответствует TargetUrl, а страница списка соответствует HelpUrl.

ExtractBy

Для поля

«ExtractBy» может использоваться как для классов, так и для полей. При использовании в полях определяет правила для извлечения полей. Правила извлечения используются по умолчаниюXPathВы также можете выбрать CSS Selector, регулярное выражение (установив тип).

ExtractBy также имеет несколько расширенных атрибутов.multiУказывает, следует ли извлекать список. Конечно, если установлено значение multi, вам нужно поле List для его хранения.notnullЭто означает, что это поле не может быть пустым, если оно пустое, весь объект отбрасывается.

Для класса

Когда «ExtractBy» используется в классе, он ограничивает область для извлечения поля. Multi все еще поддерживается при использовании в классе, multi означает, что одна страница может извлекать несколько объектов.

ExtractByUrl

ExtractByUrl указывает, что информация извлекается из URL-адреса. Поддерживаются только регулярные выражения.

ComboExtract

ComboExtract является дополнением к ExtractBy, которое поддерживает комбинацию правил извлечения в форме и или или.

Тип преобразования

Режим аннотации webmagic поддерживает преобразование типов результатов извлечения, поэтому результаты извлечения не обязательно должны быть строковыми, но могут быть любыми. В webmagic есть встроенная поддержка основных типов (необходимо убедиться, что результат извлечения может быть преобразован в соответствующий тип).

Результат извлечения также может быть java.util.Date Введите, но вам нужно указать, как форматируется дата:

Вы также можете написать реализацию ObjectFormatter Класс интерфейса выполняет свое собственное разрешение типа. Чтобы использовать свой собственный класс, вам нужно позвонить ObjectFormatters.put() Зарегистрируйте этот класс.

AfterExtractor

Интерфейс AfterExtractor является дополнением к отсутствию возможностей извлечения методов аннотации. После реализации интерфейса AfterExtractor,После заполнения полей с аннотациямивызовafterProcess()Метод, в этом методе вы можете напрямую обращаться к извлеченным полям, дополнять поля, которые нужно извлечь, и даже выполнять некоторые простые операции вывода и сохранения (не очень рекомендуется). Эта часть может относиться кWebmagic в сочетании с JFinal, чтобы сохранить кусок кода в базе данных。

OOSpider

PageModelPipeline

Вы можете выбрать метод вывода результата, определив PageModelPipeline. Здесь новый ConsolePageModelPipeline () является реализацией PageModelPipeline, которая будет выводить результаты на консоль.

PageModelPipeline в настоящее время включает в себя ConsolePageModelPipeline 、 JsonFilePageModelPipeline 、 FilePageModelPipeline Три реализации.

Paging

Работа с разбивкой на страницы одного элемента данных (например, нескольких страниц одной новостной статьи) является проблемой для сканеров. Текущее решение Webmagic для разбивки на страницы: В режиме аннотации Модель реализуетPagedModelИнтерфейс, и представил PagedPipeline как первый конвейер для реализации. Для получения подробной информации, пожалуйста, обратитесь к коду для сбора новостей NetEase в webmagic-samples:us.codecraft.webmagic.model.samples.News163

Что касается нумерации страниц, вот подробная статья о реализации вебмагической нумерации страниц.Некоторые мысли о ползании для реализации нумерации страниц, В настоящее время функция разбивки на страницы не реализована распределенным способом. Если вы используете RedisScheduler для распределенного сканирования, не используйте функцию разбивки на страницы.

распределенный

В расширении webmagic redis используется для управления URL-адресами для достижения распределенного эффекта. Однако для распределенных сканеров только программа может работать в распределенном режиме, и она не может удовлетворить потребности крупномасштабного сканирования. Webmagic может добавить некоторые функции управления задачами и мониторинга на более поздней стадии. Пользователи также могут отправлять код и вносить свой вклад в webmagic.

Источник

Информ портал о технике и не только