Логистическая регрессия

Линейная регрессионная модель не всегда способна качественно предсказывать значения зависимой переменной. Выбирая для построения модели линейное уравнение, мы естественным образом не накладываем никаких ограничений на значения зависимой переменной. А такие ограничения могут быть существенными.

Например, при проектировании оптимальной длины шахты лифта в новом здании необходимо учесть, что эта длина не может превышать высоту здания вообще.

Линейная регрессионная модель может дать результаты, несовместимые с реальностью. С целью решения данных проблем полезно изменить вид уравнения регрессии и подстроить его для решения конкретной задачи.

Вообще, логит регрессионная модель предназначена для решения задач предсказания значения непрерывной зависимой переменной, при условии, что эта зависимая переменная может принимать значения на интервале от 0 до 1.

В силу такой специфики, ее часто используют для предсказания вероятности наступления некоторого события в зависимости от значений некоторого числа предикторов.

Можно использовать логит регрессию и для решения задач с бинарным откликом. Такие задачи появляются, когда зависимая переменная может принимать только два значения.

Приведем конкретный пример. Пусть требуется предсказать эффективность операции по пересадке сердца. Такие операции очень сложны и результата от их проведения может быть только два — пациент жив или умер (точнее, пережил ли он месяц после трансплантации — этот срок является определяющим).

В качестве предикторов используются данные предоперационного обследования и клинические параметры, например, возраст, уровень холестерина в крови, давление, группа крови и т. д. Задача свелась к классификации пациентов на две группы. Для первой группы прогноз положительный, для второй — отрицательный. Решение подобной задачи может повлиять на принятие решения о проведении операции — стоит ли вообще проводить пересадку, если вероятность пережить месяц после трансплантации для пациента невелика?

Математическая основа логистической регрессии

Итак, как уже было сказано, в логит регрессионной модели предсказанные значения зависимой переменной или переменной отклика не могут быть меньше (или равными) 0, или больше (или равными) 1, не зависимо от значений независимых переменных; поэтому, эта модель часто используется для анализа бинарных зависимых переменных или переменных отклика.

При этом используется следующее уравнение регреcсии (термин логит был впервые использован Berkson, 1944):

Легко увидеть, что независимо от регрессионных коэффициентов или величин х. предсказанные значения (у ) в этой модели всегда будут лежать в диапазоне от 0 до 1.

Термин логит произошел от того, что эту модель легко линеаризовать с помощью логит преобразования. Предположим, что бинарная зависимая переменная y является непрерывной вероятностью p. лежащей в диапазоне от 0 до 1. Тогда можно преобразовать эту вероятность p следующим образом:

Это преобразование называется логит или логистическим преобразованием.

Заметим, что p’ теоретически может принимать любые значения от минус до плюс бесконечности. Поскольку логит преобразование решает проблему 0/1 границ для исходной зависимой переменной (вероятности), то можно использовать эти (логит преобразованные) значения в обычном линейном уравнении регресии.

Фактически, при проведении логит преобразования обеих частей логит регрессионного уравнения, приведенного выше, мы получим стандартную линейную модель множественной регрессии:

Подобное уравнение нам уже знакомо. Решив его, мы получим значения регрессионных коэффициентов, по которым затем можно восстановить вероятность р .

Особенности логит регрессии

Однако, применение логистического преобразования к уравнению логит регрессии порождает определенные проблемы.

При решении задачи линейной регрессии мы подгоняли к наблюдаемым значениям некоторую гиперповерхность — прямую в случае простой регрессии, плоскость — в случае двух независимых переменных. Также мы требуем нормальность и некоррелированность ошибок.

При переходе к уравнению логит регрессии подгоняемая поверхность уже не будет иметь такой простой вид. Также, нас не спасет уже и нормальность ошибок.

Все это делает невозможным использования методов оценивания, применяемых для линейных задач.

Например, в случае одной независимой переменной для простой регрессии применялся известный метод наименьших квадратов. В случае простой логит регрессии такой метод уже неприменим. Неприменимыми являются и подобные методы для решения задач с большим числом предикторов.

Поэтому для решения задач логит регрессии используется только метод максимального правдоподобия. Вкратце, процесс оценки регрессионных коэффициентов сводится к максимизации вероятности появления конкретной выборки (при заданных наблюдаемых значениях). Это приводит к часто невысокому проценту корректной классификации. Логит регрессия также слабо устойчива к излишней подгонке.