Как найти лямбда уилкса

Обновлено: 02.07.2024

Эта статья требует внимания специалиста по статистике . Пожалуйста , добавьте причину в или разговоре параметр для этого шаблона , чтобы объяснить проблему с статьей. WikiProject Statistics может помочь нанять эксперта. ( Ноябрь 2008 г. )

СОДЕРЖАНИЕ

Распределение лямбды Уилкса определяются из двух независимых Уишарта распределенных переменных , как распределение коэффициента их детерминантов , [1]

независимый и с м ≥ п

где p - количество измерений. В контексте проверки отношения правдоподобия m обычно является степенями свободы ошибки, а n - степенью свободы гипотезы, то есть полными степенями свободы. [1] n + m

Вычисления или таблицы распределения Уилкса для более высоких измерений не всегда доступны, и обычно прибегают к приближениям. Одно приближение приписывается М.С. Бартлетту и работает для больших m [2], что позволяет аппроксимировать лямбду Уилкса распределением хи-квадрат.

Другое приближение приписывается Ч. Р. Рао . [1] [3]

Существует симметрия между параметрами распределения Уилкса, [1]

Λ ( p , m , n ) ∼ Λ ( n , m + n − p , p )

Распределение может быть связано с произведением независимых бета-распределенных случайных величин.

Таким образом, его можно рассматривать как многомерное обобщение бета-распределения.

Отсюда непосредственно следует, что для одномерной задачи, когда распределения Уишарта являются одномерными с (т. Е. Распределенными хи-квадрат), тогда распределение Уилкса равно бета-распределению с определенным набором параметров, p = 1

Из соотношений между бета -распределением и F-распределением лямбда Уилкса может быть связана с F-распределением, когда один из параметров лямбда-распределения Уилкса равен 1 или 2, например [1]

Пусть имеется n наблюдений, характеризующихся набором из к признаков. Тогда каждое наблюдение представляет собой случайный вектор x=(x1 x2 . xk ) T . Задача дискриминации состоит в разбивке всего множества реализаций рассматривае­мой многомерной величины на некоторое число групп (обла­стей) Ri (i=1, 2, . l) и последующем отнесении нового наблю­дения к одной из них, используя некое решающее правило. При этом информация об истинной принадлежности объекта считается недоступной или требует чрезмерных материальных и временных затрат.

Правило дискриминации выбирается в соответствии с опре­деленным принципом оптимальности — минимизации средних потерь от неправильной классификации, исходя из априорных вероятностей рi извлечения объекта из группы Ri. Решающее правило считается наилучшим в определенном смысле слова, если никакое другое правило не может дать меньшей величины функции потерь.

Априорные вероятности могут быть известны заранее и за­даны пользователем непосредственно при работе в модуле либо получены определенным образом (пропорционально объему групп, равные для всех групп). В качестве средних потерь чаще всего принимают вероятность ложной классификации наблюде­ния.

Построение решающего правила также можно рассматри­вать как задачу поиска / непересекающихся областей R. Дискриминантные функции в этом случае дают определение этих областей путем задания их границ в многомерном пространстве. В рассматриваемом модуле реализовано два направления проведения дискриминантного анализа: линейный и пошаго­вый. В первом случае в модель включаются все переменные и процедура аналогична построению множественной регрессии, где в качестве зависимой переменной выступает группа, а все остальные независимые; во втором — они проходят специаль­ный отбор, то есть на каждом шаге просматриваются все пере­менные и находится та из них, которая вносит наибольший вклад в различие между совокупностями (она включается в модель в первую очередь), затем вторая и т.д. (пошаговый метод с включением). В анализе используется и обратная процедура: сначала включаются все переменные в модель, а затем на каж­дом шаге устраняют переменные, вносящие наименьший вклад в дискриминацию (пошаговый с исключением).

В ходе процедуры автоматически вычисляются функции клас­сификации, предназначенные для определения той группы, к которой наиболее вероятно принадлежит новый объект. Коли­чество функций классификации равно числу имеющихся групп. Наблюдение считается принадлежащим той группе (совокупно­сти), для которой получено наивысшее значение функции клас­сификации или наивысшее значение апостериорной вероятно­сти (вероятности, с которой новое наблюдение принадлежит к этому классу, вычисленное на основе априорной вероятности и расстояния Махаланобиса).

Так же для каждого наблюдения можно вычислить расстоя­ния Махаланобиса до центроидов имеющихся групп. В каче­стве центроида может быть взят вектор средних значений на­блюдений группы. Наблюдение признается принадлежащим к той группе, к которой он ближе, т.е. когда расстояние Махала­нобиса до нее минимально.

Более подробно описываемые процедуры будут рассмотре­ны в ходе знакомства с модулем Дискриминантный анализ.

Стартовая панель модуля Дискриминантный анализ.


Задание входных параметров

Для того чтобы войти в модуль Дискриминантный анализ, следует нажать на кнопку переключателя модулей и выбрать нужную строку. На экране появится стартовая панель:


Рассмотрим основные этапы проведения дискриминантного анализа в системе STATISTICA на следующем примере. На рисунке 6.2 приведена электронная таблица с данными услов­ной классификации 12 стран мира по уровню медицинского обеспечения населения. Страны условно разбиты на три груп­пы в соответствии с высоким, удовлетворительным и низким уровнем медицинского обеспечения на основе следующих по­казателей:

ВВП — ВВП, определенное на основе паритета покупа­тельной способности, в % к США;

РАСХЗДРА — расходы на здравоохранение, в % к ВВП;

ЧИСВРАЧ — число врачей на 10 тыс. чел. населения;

СМЕРТНОС — смертность населения по причине болезней органов кровообращения на 100 тыс. чел. населения.

Задача состоит в том, чтобы на основе аналогичных показа­телей классифицировать страны: Россию, Грецию, Данию и Ка­захстан.

Рассмотрим входные параметры стартовой панели модуля.

При проведении анализа прежде всего следует выбрать пере­менные. Зададим их с помощью кнопки Переменные. На экра­не откроется диалоговое окно, предлагающее выбрать группирующую перемененную и список независимых:

В нашем примере группирующей переменной является УРОМЕДОБ — уровень медицинского обеспечения, а независимы­ми — ВВП, РАСХЗДРА, ЧИСВРАЧ и СМЕРТНОС.

Кнопка Коды для группирующей переменной позволяет за­дать коды для каждой группы наблюдений. Обработка пропусков имеет два режима: игнорирование на­блюдений, содержащих пропущенные данные в любой из пере­менных (пропущенные данные удаляются построчно), и замена пропущенных данных средними значениями по соответствую­щим показателям.

После настройки нужных параметров, нажав ОК, перейдем в следующее диалоговое окно Определение модели.


В окошке Метод можно выбрать один из трех методов ана­лиза: стандартный, пошаговый с включением и пошаговый с исключением.

Если выбран Стандартный метод, то все выбранные пере­менные будут одновременно включены в модель.

В методе Пошаговый с включением на каждом шаге в мо­дель выбирается переменная с наибольшим F-значением, при этом пользователь должен установить его минимальную вели­чину. Процедура заканчивается, когда все переменные, имею­щие F-значение больше значения, указанного в поле F-вклю­чить, вошли в модель.

Если выбран Пошаговый анализ с исключением, то в урав­нение будут включены все выбранные пользователем независи­мые переменные, которые затем удаляются в зависимости от величины F-значения. Переменная с наименьшим значением исключается из модели первой. Шаги заканчиваются, когда нет переменных, имеющих F-значение меньше определенного пользователем в поле F-исключить. Заметим, что значение F-включить всегда должно быть больше, чем значение F-ис­ключить.

Если при проведении анализа пользователь хочет включить все переменные, то следует установить в поле F-включить очень маленькую величину, например 0.0001, а в поле F-исключить — 0.0.

Если же требуется исключить все переменные, то в поле F-включить устанавливается большое значение, например 0.9999, а в F-исключить немногим меньшее значение того же порядка, например 9998.

Поле Число шагов определяет максимальное число шагов анализа, по достижении которых процедура закончится, даже если еще не все переменные прошли отбор на основе их F-значений.

Поле Толерантность позволяет исключить из модели неин­формативные переменные. Значение толерантности вычисляется как 1 минус квадрат множестственного коэффициента корреля­ции переменной со всеми другими переменными в модели. Если i толерантность имеет значение меньшее, чем значение по умол­чанию 0.01 (или установленное специально пользователем), то эта переменная признается неинформативной и не включается в модель, поскольку не несет дополнительной информации по сравнению с остальными переменными.

В отличие от стандартной для пошаговых процедур преду­смотрено два режима вывода результатов анализа: на каждом шаге и на заключительном шаге. В первом случае программа выводит на экран диалоговое окно полных результатов на каж­дом шаге, начиная с нулевого.


Режим на заключительном шаге выводит окно с результата­ми только на последнем шаге, однако оно содержит опцию для просмотра основных итоговых статистик и для пошаговой процедуры.

Опция Корреляции, статистики и графики для групп вызы­вает на экран диалоговое окно Описательные статистики, ко­торое дает пользователю возможность просмотреть средние зна­чения, стандартные отклонения, дисперсии и корреляции ис­пользуемых переменных.

Средние значения и стандартные отклонения можно посмот­реть для всех групп вместе и для каждой группы. Кроме того, имеется возможность вычислить объединенные внутригрупповые или полные корреляции.

6.3. Анализ результатов Стандартного метода классификации

Рассмотрим результаты дискриминантного анализа, полу­ченные с помощью установки Стандартный метод. В верхней информационной части окна содержатся основные параметры вычислительной процедуры: число переменных в модели, зна­чение лямбды Уилкса (0,0015060), приближенное значение ста­тистики F-критерия, соответствующее лямбде Уилкса, — F (8,12) = 37,15298 и рассчитанный для него уровень значимости (р Соседние файлы в папке Статистика

В задачах построения объяснительных моделей часто встает вопрос о нахождении критерия, по которому можно было бы классифицировать данные (построение дискриминирующей функции) и определить переменные, которые различают две или более возникающие совокупности (группы).

Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы.

После выпуска большинство учащихся естественно должно попасть в одну из названных категорий.

Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Пусть имеется n наблюдений, разбитых на k групп (классов).

Каждое наблюдение характеризуется набором из m значений (независимые переменные). Также для каждого наблюдения известно, к какой из k групп оно принадлежит. Принадлежность объектов к разным классам выражается в том, что для объектов данного класса имеет распределение , j=1,…,k.

Задача состоит в том, чтобы для нового наблюдения определить группу (класс), к которой оно принадлежит.

Дискриминантный анализ предполагает, что являются m-мерными нормальными распределениями , j=1,…,k и имеющими плотности:

Формула для pj(x)

, (1)

Здесь - m-мерный вектор средних значений, а - невырожденная ковариационная матрица ().

В таком случае, исходя из принципа максимального правдоподобия, будем считать областью притяжения закона множество таких наблюдений , где плотность распределения больше других. См. рис. 1.

В данном примере, где графики плотности пересекаются только в одной точке, получается, что вся прямая разбивается на 2 области притяжения.

Области притяжения для m=1

Рис. 1. Области притяжения для k=2, m=1

Это равносильно тому, что линейно связанная с логарифмом плотности величина:


, j=1,…,k (2)

имеет наименьшее значение среди . Таким образом, n+1 наблюдение будет отнесено к i-группе, если (x)- имеет наименьшее значение.

Оценка качества дискриминации

Рассмотрим модель Фишера, которая является частным случаем нормальной дискриминантной модели при .

При k =2 нетрудно проверить, что поверхность, задаваемая условием , разделяет два класса уравнением:

Линейную функцию часто называют дискриминантной функцией, как функцию, описывающую гиперплоскость, по которой разделяются две группы. Мы же будем под дискриминантной функцией понимать линейную часть функции (x).

Обозначим через расстояние Махаланобиса между и . Чем более далекими в метрике Махаланобиса являются и , тем меньше вероятность ошибочной классификации.

Расстояние Махаланобиса является мерой расстояния между двумя точками x и y в пространстве, определяемым двумя или более коррелированными переменными.

Можно заметить, что в случае, когда переменные не коррелированны (), расстояние Махаланобиса совпадет с евклидовым.

При k>2 с помощью гиперплоскостей m–мерное пространство разбивается на k частей. В каждой из них содержится только одна точка из – та, к которой все точки данной части находятся ближе, чем к остальным в смысле расстояния Махаланобиса. См. рис. 2.

Области притяжения для m=2

Рис. 2. Области притяжения для k=3, m=2

Для проверки гипотезы о равенстве средних в качестве статистик критерия используют статистики Уилкса (лямбда Уилкса):

Здесь T = – общая матрица рассеяния, матрица внутриклассового разброса: ,

Формула для Ej

где - матрица рассеяния j-го класса.

Очевидно, что ее значение меняется от 1.0 (нет дискриминации) до 0.0 (полная дискриминация).

Оказывается, что верно матричное тождество:

где R = – матрица разброса между элементами класса, – число элементов в j-м классе.

1. Касательно U-статистики Уилкса http://www.ievbran.ru/kiril/Library/Boo . ent383.htm
Цитирую: "Другим, в некоторых случаях более точным способом проверки гипотезы Ho является использование U-статистики Уилкса (она же – лямбда Вилкса), которая вычисляется как отношение детерминантов (det) матрицы внутригрупповой ковариации W и полной ковариационной матрицы Т :

1. Критерий Уилкса получен на основе предположений, которые для реальных данных не выполняются.
2. Если Вы хотите применять какой-либо индекс, то не имеет значения, как он получен - прочтен на потолке или рассчитан с помощью сомнительной модели. Важна его характеристика - прогностическая сила.

1. Значит линейную модель рейтинга (по типу модели Альтмана) можно получить и на основе непараметрического подхода? Нельзя достоверно сказать, что модель Альтмана основана на классическом дискриминантном анализе Фишера?
2. Тогда в каком случае нормальность распределения значений дискриминантных переменных в каждом классе и равенство матриц ковариаций является необходимым условием?
3. Если классификация производиться на основе нескольких дискриминантных функций, например:
M1=a+b*x1+c*x2
M2=d+e*x1+f*x2
M3=g+h*x1+i*x2
и объект классифицируется в тот класс, для которого значение дискриминантной функции максимально, то и такие модели могут быть получены на основе как параметрического, так и непараметрического подхода?

1. Я просто пытаюсь понять: любая ли линейная модель дискриминации (использующая классификацию на основе рейтинга и сравнения его с порогом или байесовскую процедуру классификации) может быть получена как на основе параметрического, так и на основе непараметрического подхода? Или же любая линейная модель дискриминации обязательно основана на нормальности распределения дискриминантных переменных в каждом классе и равенстве матриц ковариаций?

Попробую сформулировать проще - то есть эти предположения должны соблюдаться только для модели, основанной на классическом линейном дискриминантном анализе Фишера?

Точнее:
классический линейный дискриминантный анализ Фишера
исходит из (опирается на, основан на) вероятностно-статистической модели, согласно которой
1) каждый из классов описывается многомерным нормальным распределением,
2) причем ковариационные матрицы для всех классов совпадают (следовательно, классы отличаются только математическими ожиданиями).

Классический линейный дискриминантный анализ Фишера дает определенные формулы для расчета параметров (коэффициентов) индекса (дискриминантная плоскость задается условием: индекс равен константе).
Эти формулы могут формально использовать и тогда, когда про справедливость предпосылок 1) и 2) ничего не известно.

число групп: ;
число объектов в каждой группе: ;
число дискриминантных переменных: ;
дискриминантные переменные измеряются в интервальной шкале;
дискриминантные переменные линейно независимы;
ковариационные матрицы групп примерно равны;
дискриминантные переменные в каждой группе подчиняются многомерному нормальному закону распределения."

Конечно, неверные.
Автор этого опуса использует для дискриминации линейную функцию, предполагает многомерную нормальность.
Это - очень частная постановка с математической точки зрения.
И предпосылки для реальных данных неверны, в т.ч.

Дискриминантный анализ - это гораздо более широкая и практичная область знаний.

Уважаемый Александр Иванович! Можно ли узнать, а на основе каких предположений получен критерий Уилкса? Я так понимаю, что для применения этого критерия эти же предположения должны соблюдаться?

Уважаемый Александр Иванович! Можно ли узнать в каком-либо источнике о предположениях, используемых в критерии Уилкса?

Читайте также: