аплифт что это такое

uplift

Полезное

Смотреть что такое «uplift» в других словарях:

Uplift — may refer to: * Biological uplift, the theoretical prospect of upgrading the capacities of non human animals or other intelligences ** Uplift Universe, the setting for a series of novels by David Brin in which Biological Uplift is a central… … Wikipedia

uplift — or uplift brassiere [up lift′; ] also, and for n. always [, up′lift΄] vt. 1. to lift up, or elevate 2. to raise to a higher moral, social, or cultural level or condition n. ☆ 1. the act or process of lifting up; elevation 2. a) the act or process … English World dictionary

uplift — index edify, elevate, elevation, enhance, heighten (elevate), meliorate, promotion (advancement) … Law dictionary

uplift — (v.) mid 14c., from UP (Cf. up) + LIFT (Cf. lift) (v.) … Etymology dictionary

uplift — [v] elevate, inspire boost, brighten, bring up, cheer, elate, excite, exhilarate, improve, lift up*, perk up*, raise spirits; concepts 7,22 … New thesaurus

uplift — ► VERB 1) raise. 2) (be uplifted) (of an island, mountain, etc.) be created by an upward movement of the earth s surface. 3) elevate morally or spiritually. ► NOUN 1) an act of uplifting. 2) support from a garment for a woman s bust … English terms dictionary

uplift — upliftment, n. v. /up lift /; n. /up lift /, v.t. 1. to lift up; raise; elevate. 2. to improve socially, culturally, morally, or the like: to uplift downtrodden and deprived peoples. 3. to exalt emotionally or spiritually. v.i. 4. to become… … Universalium

uplift — uplifts, uplifting, uplifted VERB (The verb is pronounced [[t]ʌplɪ̱ft[/t]]. The noun is pronounced [[t]ʌ̱plɪft[/t]].) If something uplifts people, it helps them to have a better life, for example by making them feel happy or by improving their… … English dictionary

Источник

Туториал по Uplift моделированию. Часть 2

В первой части мы познакомились с uplift моделированием и узнали, что метод позволяет выбирать оптимальную стратегию коммуникации с клиентом, а также разобрали особенности сбора данных для обучения модели и несколько базовых алгоритмов. Однако эти подходы не позволяли оптимизировать uplift напрямую. Поэтому в этой части разберем более сложные, но не менее интересные подходы.

Трансформация классов

Class Transformation approaсh, Class Variable Transformation approach, Revert Label approach

Достаточно интересный и математически подтвержденный подход к построению модели, представленный еще в 2012 году на ICML [1], который заключается в прогнозировании немного измененной целевой переменной.

где — новая целевая переменная -ого клиента
— целевая переменная -ого клиента
— бинарный флаг коммуникации: при — -й клиент попал в целевую (treatment) группу, где была коммуникация; при — -й клиент попал в контрольную (control) группу, где не было коммуникации.

Другими словами, новый класс равен 1, если мы знаем, что на конкретном наблюдении результат при взаимодействии был бы таким же хорошим, как и в контрольной группе, если бы мы могли знать результат в обеих группах:

Распишем подробнее, чему равна вероятность новой целевой переменной:

Также допустим, что , т.е. во время эксперимента контрольные и целевые группы были разделены в равных пропорциях. Тогда получим следующее:

Таким образом, увеличив вдвое прогноз нового таргета и вычтя из него единицу, мы получим значение самого uplift, т.е.

Исходя из допущения, описанного выше: , данный подход следует использовать только в случаях, когда количество клиентов, с которыми мы прокоммуницировали, равно количеству клиентов, с которыми коммуникации не было.

Трансформация классов (регрессия)

На предыдущий тип трансформации классов накладываются серьезные ограничения: целевая переменная может быть только бинарной, а контрольная и целевая группы должны быть распределены в равных пропорциях. Давайте рассмотрим более общий подход из [2], не имеющий таких ограничений.

Трансформируем исходную целевую переменную по следующей формуле:

Где — новая целевая переменная для -ого клиента
— флаг коммуникации для -ого клиента
— propensity score или вероятность отнесения к целевой группе:

Здесь важно отметить, что можно оценить как долю объектов с в выборке. Или воспользоваться способом из [3], в котором предлагается оценить как функцию от , обучив классификатор на имеющихся данных , а в качестве целевой переменной взяв вектор флага коммуникации .

После применении формулы получаем новую целевую переменную и можем обучить модель регрессии с функционалом ошибки . Так как именно при применении MSE предсказания модели являются условным математическим ожиданием целевой переменной.

Покажем, что условное матожидание трансформированного таргета и есть желаемый causal effect из первой части статьи:

Напомним также, что наблюдаемую целевую переменную можно представить в виде:

Где — потенциальные реакции для каждого -го объекта в зависимости от значения , которые мы хотели бы (но не можем) наблюдать одновременно.

Перепишем формулу трансформации с учетом этого:

Так как при случайном разбиении на целевую и контрольную группы не должно зависить от , то:

Получим, что преобразованная целевая переменная позволяет оценивать uplift:

Многоклассовая модель

Generalized Lai Method

Так как мы можем взаимодействовать с клиентами и наблюдать их реакцию , то разделим их на 4 непересекающихся класса:

Картинка взята и адаптирована из [4]

Попробуем разобраться, как соотносятся между собой обозначенные выше 4 класса и типы клиентов из первой части, которых мы хотим найти (не беспокоить, потерянный, лояльный, убеждаемый). Их главное различие в том, что классы CR, CN, TR, TN мы можем наблюдать непосредственно по их реакции на коммуникацию, в то время как типы клиентов мы наблюдать не можем. При этом они связаны между собой: каждый из четырех классов может содержат по 2 типа клиента одновременно.

В этом подходе [4] предлагается прогнозировать вероятности отнесения клиента к каждому из этих 4 классов и обучить модель многоклассовой классификации:

Тогда uplift можно будет рассчитать следующим образом:

Мы суммируем вероятности принадлежности к классам и , так как они содержат тип убеждаемый, который мы хотим найти, и вычитаем вероятности принадлежности к классам и , так как они содержат тип не беспокоить, которого наоборот хотелось бы избежать.

Когда выборки по своему объему сильно не сбалансированы, предлагается рассчитывать uplift так:

Где — доля клиентов в тестовой группе, — доля клиентов в контрольной группе, .

Нормировка необходима тогда, когда целевая группа мала по сравнению с контрольной группой, так как в этом случае доля TR и TN клиентов также будет небольшой.

Методы, основанные на деревьях

Decision trees for uplift modeling, Causal trees

Стоит отметить, что предыдущие методы имеют следующие недостатки:

Хочется взять хорошо зарекомендовавший себя метод и изменить его так, чтобы непосредственно оптимизировать аплифт. Например, авторы статьи [5] предлагают использовать деревья решений с другим критерием разбиения. Дерево строится так, чтобы максимизировать расстояние (дивергенцию) между распределениями целевой переменной у контрольной и целевой групп. Формально для каждого разбиения это можно записать так:

Где — распределения целевой переменной в контрольной и целевой группах
— дивергенция (расхождение) между двумя распределениями

Есть несколько видов дивергенции D, которые используют для решения этой задачи:

Где распределения представлены как

Если получается так, что в вершине при разбиении остаются объекты одной группы (контрольной или целевой), то дивергенция сводится к стандартному для деревьев критерию (KL-дивергенция — к энтропийному критерию, Евклидово расстояние и хи-квадрат — к критерию Джини).

Также важное условие разбиения — это сведение к минимуму разницы между количеством объектов, попавших в левую и правую дочернюю вершину. Слева на картинке изображен пример плохого разбиения, когда высокое значение величины uplift в левой дочерней вершине достигается за счет того, что в него попало всего 30 объектов из 1000.

Картинка взята и адаптирована из [7]

Чтобы контролировать количество объектов в разбиении, можно воспользоваться формулой взвешенной дивергенции (после разбиения):

Где и — количество объектов, попавших в левую и правую дочернюю вершину соответственно
— распределения целевой переменной в целевой и контрольной группе для левой и правой дочерних вершин

После реализации дерева с новым критерием разбиения можно использовать этот алгоритм в качестве базового алгоритма в ансамблях, например, в случайном лесе или градиентном бустинге, а также применять стандартные для деревьев методы борьбы с переобучением, такие как стрижка (pruning) или ранняя остановка (early stopping).

Заключение

Цикл обзорных статей не раскрывает всех подходов к прогнозированию uplift, однако охватывает наиболее популярные и интересные для нас. На сегодняшний день не существует идеального метода, который на разных данных и на протяжении долгого времени выигрывал бы по качеству у других. Этот факт мотивирует исследователей разрабатывать новые подходы (например, любопытная статья 2019 года о применении бандитов к решению данной задачи [8]). В дальнейшем мы планируем рассмотреть метрики качества для оценки прогнозируемого uplift.

Uplift моделирование используется не только для задач маркетинга, но и в медицине, политике, экономике и в других сферах. То есть, когда поведение объектов может изменяться под некоторым контролируемым воздействием, такой подход может быть более предпочтительным, чем другие.

Статья написана в соавторстве с Максимом Шевченко (maks-sh)

Источник

Аплифт что это такое

С помощью Uplift-моделирования компании могут узнать, как именно улучшить коммуникации, считает Валерий Бабушкин, начальник отдела по управлению развитием данных X5 Retail Group. 22 ноября эксперт выступит на AI Conference в Москве с докладом «Uplift-моделирование: зачем и как?».

В интервью для московской AI Conference специалист рассказал, чем полезно Uplift-моделирование, какому бизнесу стоит его использовать, и поделился кейсом своей компании.

Интервьюер: AI Conference (AIC).
Респондент: Валерий Бабушкин, начальник отдела по управлению развитием данных X5 Retail Group (ВБ).

AIC: Как вы считаете, компаниям в каких индустриях стоит использовать Uplift-моделирование?

ВБ: Uplift-моделирование – это поиск оптимальной стратегии коммуникаций. Соответственно, этот метод подойдет любой компании, которая работает с широкой аудиторией, предлагает покупателям скидки, запускает акции и предложения.

Чем чаще и дольше люди пользуются каким-то сервисом, тем больше денег они приносят компании. В 90-95% случаев аналитика о коммуникациях начинается с модели оттока. Она выдает данные о том, с какой вероятностью конкретный пользователь перестанет пользоваться услугами и покупать товары.

Если вероятность ухода клиента высокая, организация предлагает клиенту скидку – он воспользуется предложением и продолжит покупать товары и пользоваться услугами. Компания, в свою очередь, заработает на этой продаже больше, чем потеряет на скидке.

Важно учесть четыре варианта развития событий, когда клиенту предлагают скидку:

AIC: Подходит ли такой метод ML начинающему бизнесу?

ВБ: Когда компания только выходит на рынок, у нее еще нет клиентской базы или она небольшая. Соответственно, такой бизнес вряд ли начнет предлагать скидки пользователям, чтобы удержать или вернуть их. В общем, такой метод не подходит «новичкам».

Теоретически сделать Uplift-моделирование на начальной стадии можно, но без крупной базы клиентов его будет не на чем построить.

AIC: Что именно о пользователях удается выяснить с помощью Uplift-моделирования?

ВБ: Со стороны Uplift-модели компании не нужны данные о пользователе. Главное – понять, как изменится поведение конкретного клиента, когда ему будет предложена скидка.

Если вероятность, что человек купит товар без скидки, составляет 50%, а со скидкой – 70%, значит, Uplift в этом случае – 20%. Затем, зная, сколько стоит коммуникация с клиентом, компания может посчитать, какую прибыль принесут эти 20%. В результате можно решить, выгодна ли скидка.

AIC: Какие данные использует Uplift-моделирование, чтобы проанализировать поведение пользователей?

ВБ: Это данные о покупках и о профиле покупателей. Модель отбирает максимально схожих клиентов, которые отличаются друг от друга только методом коммуникаций с ними. Поэтому желательно собрать максимум информации о пользователях: историю покупок, возраст, пол и т.д.

AIC: Как именно определить, какие пользователи готовы купить товар только со скидкой?

ВБ: В Uplift-моделировании очень важно собрать данные, на которых можно «обучиться». Для этого собирают обучающий набор – абсолютно похожие друг на друга покупатели. Например, в группу объединяется 1000 человек со схожим поведением в плане предпочтения продуктов. Среди них выбирают 500 случайных людей, отправляют им рассылку о скидке, остальные остаются без предложения.

Далее важно проследить за изменениями в какой-либо метрике – среднем чеке или конверсии. Изменения в этом случае происходят только в результате коммуникации, например рассылки.

Если клиенты покупали товар в 70% случаев, а со скидкой купили в 80% ситуаций, значит, Uplift составляет 10%. На основе этих данных скидки и предложения рассылаются целенаправленно.

AIC: Какой из методов Uplift-моделирования самый эффективный в ритейле?

ВБ: Существует подход, при котором строятся две модели и производится вычитание. Может быть достаточно и одной модели.

Самый эффективный подход – предсказывать и моделировать Uplift напрямую.

AIC: Когда получены результаты Uplift-моделирования, какие дальнейшие действия необходимо предпринимать?

ВБ: Получая результаты, компания знает, как действовать дальше – кому и когда стоит предлагать скидки и акции.

Например, если у компании десятки миллионов пользователей, а скидка нужна только одному миллиону, SMS-рассылки должны охватывать только миллион человек. Рассылка «по всем» будет пустой тратой денег. Если учесть, что предложения о скидках делают не один раз в год, потраченная на бессмысленные рассылки сумма может достигать миллиардов рублей в год.

AIC: Расскажите о реальном применении Uplift-моделирования на примере вашей компании. Каких результатов удалось добиться, использовав этот метод ML?

ВБ: В рамках пилота мы применили Uplift-моделирование к аудитории в 500 тысяч человек. В результате акция, где X5 Retail Group впервые применила этот метод машинного обучения, привела к росту среднего чека и конверсии.

В крупном бизнесе с большим оборотом воздействие даже на 1% пользователей приносит огромные деньги. Поэтому чем больше бизнес, тем важнее задуматься о его оптимизации с помощью больших данных.

AIC: О чем вы расскажете на AI Conference в Москве?

ВБ: На конференции я расскажу о способах построения Uplift-моделей, подробно разберу и сравню три из них. Также я объясню, какие варианты построения моделей существуют внутри каждого из этих методов, какими могут быть цели и как применить все это на практике.

Узнайте больше об Uplift-моделировании и его преимуществах от эксперта X5 Retail Group на AI Conference!

Источник