ГЛАВА 3. МОДЕЛИРОВАНИЕ ТРЕНДА: одномерные зависимости

Дальше

Назад

Начало

Конец

Список

3.3.2. Классификация алгоритмов комплексации

Коллектив предикторов g чаще всего представляют в виде линейной комбинации из базового или суженного (наиболее информативного) множества исходных предикторов:

где y_k - вектор расчетных значений, полученных по k-му индивидуальному алгоритму для каждого момента времени, k=(1, 2, ..., m), w _k - вектор неизвестных коэффициентов.

Задача комплексации эквивалентна определению совокупности векторов w _k, удовлетворяющих заданным ограничениям и минимизирующим некоторый критерий качества.

Число различных алгоритмов синтеза непрерывных коллективных предикторов постоянно возрастает, а их классификация может быть весьма условной. Тем не менее выделим алгоритмы комплексации без адаптации, в которых предполагается, что компоненты вектора весовых коэффициентов w _k неизменны для всех моментов времени (вектор превращается в скалярную величину), и алгоритмы с адаптацией, если элементы вектора w _k пересчитываются (адаптируются) при переходе от точки t к точке t+1.

К группе алгоритмов без адаптации могут быть отнесены следующие:

простое усреднение, когда единственный коллективный предиктор строится как среднее арифметическое всех прогнозов-индивидуумов;

селективное усреднение, когда выбирается наилучший предиктор (в смысле вектора критериев C), полученный простым усреднением некоторого наиболее информативного набора исходных предикторов (Makridakis, Winkler, 1983);

регрессионные алгоритмы, где коэффициенты w _k определяются как коэффициенты регрессии по той или иной модификации метода наименьших квадратов (Дайитбегов и др., 1984);

метод, названный "модельным штурмом", который для построения функции

g = F( y₁, y₂, ..., y_m; t)

использует многорядный алгоритм МГУА (Брусиловский, Розенберг, 1983);

алгоритм факторного анализа, когда базовый набор исходных предикторов выражается через небольшое число главных компонент - линейных комбинаций индивидуальных прогнозов, к которым на последующих шагах может быть применен любой другой алгоритм комплексации (Горелик, Френкель, 1983);

использование для комплексации классической задачи математического программирования (Бронштейн, Брусиловский, 1984), когда ищется минимум целевой функции

где p_s - задаваемые исследователем неотрицательные весовые коэффициенты (приоритеты) отдельных критериев C_s;

алгоритм, предложенный одновременно и независимо Дж.Дикинсоном (Dikinsen, 1975) и Э.Б.Ершовым (1975) и основанный на минимизации дисперсии ошибки коллективного предиктора.

К адаптивным алгоритмам относятся алгоритмы Бейтса-Гренджера (Bates, Grander, 1965), Ньюболда-Гренджера (Newbald, Grander, 1974), Лукашина (1979) и др.

Очевидно, что подавляющее большинство неадаптивных алгоритмов комплексации основано на тривиальных методах обработки многомерных наблюдений.

Обозначим как G₁ коллективный прогноз временного ряда NH₄⁺ , полученный как среднее арифметическое сопряженных значений по 8 описанным выше индивидуальным моделям.

Использование описанного выше шагового метода получения регрессионной модели дает следующее линейное уравнение:

G₂ = -44.5 + 0.832 R₂ + 0.48 R₈ + 0.779 R₇ - 0.748 R₅.

Если в регрессионном уравнении учесть также все парные взаимодействия индивидуальных прогнозов, то коллективный предиктор будет иметь вид:

G₃ = 59.6 - 0.203 R₁ - 0.6 R₈ + 0.00973 R₂ R₈ + 0.0138 R₇ R₈ -

- 0.0079 R₅ R₈ - 0.0024 R₆ R₈ - 0.0033 R₄ R₈.

Аналогичная модель, полученная по комбинаторному алгоритму МГУА (см. описание в разд. 3.2.3) с использованием внутреннего критерия - среднеквадратической ошибки на всей выборке, выражается следующим полиномиальным уравнением

G₄ = 0.5805 R₇ - 0.1864 R₈ + 0.0098 R₂ R₈ - 0.002 R₆ R₈ - 0.0024 R₁ R₅.

Более строгий подход к специфике и исходным предпосылкам синтеза коллектива предикторов демонстрирует алгоритм Дикинсона-Ершова, общее описание которого приводится ниже.

Пусть исходные предикторы, входящие в базовый набор, удовлетворяют следующим условиям:

ошибки каждого предиктора есть независимые и случайные величины, подчиняющиеся нормальному закону распределения с нулевым средним и постоянной дисперсией;

исходные предикторы являются несмещенными в смысле Бейтса-Гренджера (Bates, Grander, 1969), т.е. не дают систематической недооценки или переоценки фактических значений временного ряда.

На компоненты вектора w _k налагаются ограничения нормировки:

, w _k > 0 , k = 1, 2, ..., m ,

С учетом сделанных допущений, дисперсия ошибки коллективного предиктора вычисляется по формуле

Минимизируя d _m методом неопределенных множителей Лагранжа:

легко получить искомый вектор весовых коэффициентов w _opt.

На практике дисперсии ошибок d _ij оказываются неизвестными, поэтому Дж.Дикинсон (Dikinsen, 1975) предлагает использовать их оценки S_ij. Э.Б.Ершов (1975) для определения w _opt применял метод максимального правдоподобия и постулировал нормальность совместного распределения ошибок индивидуальных предикторов, входящих в базовый набор.

Kоллектив предикторов Дикинсона-Ершова для набора исходных моделей R₁-R₈ ряда NH₄⁺ имеет вид:

G₅ = -20.088 - 0.144 R₁ + 0.9597 R₂ + 0.0746 R₃ - 0.359 R₄ - 1.153 R₅ + 0.045 R₆ + 1.247 R₇ + 0.331 R₈

Интересно отметить, что во всех синтезированных коллективах G₂-G₅, если ориентироваться на коэффициенты уравнений, достаточно скромный вклад вносит наилучшая исходная модель R₂ (и уж совсем незаметна индивидуально сильная модель сплайновой интерполяции R₃). В то же время неожиданную "популярность" приобрела весьма специфическая модель полигармоничного тренда R₈, совсем не блиставшая в рейтинге индивидуалов. Этот факт служит подтверждением высказанного выше тезиса о ценности для коллектива "зерен нетривиальности", рассыпанных в исходных моделях.

Алгоритм Бейтса-Гренджера, в его каноническом описании, предназначен для синтеза коллектива, имеющего минимальную возможную дисперсию ошибки по двум исходным моделям y₁ и y₂:

g_i = w _i R_i1 + (1 - w _i) R_i2, i = 1,2,...,n.

При этом постулируются все исходные допущения, декларированные в методе Дикинсона-Ершова, а вектор w _i можно рассматривать как оценку вектора w _opt, вычисленную в точке i в условиях отсутствия достоверной информации об элементах ковариационной матрицы ошибок. Для расчета вектора весовых коэффициентов используют различные адаптационные процедуры, обладающие необходимыми свойствами сходимости и эффективности.

Для того, чтобы алгоритм Бейтса-Гренджера мог быть использован в случае произвольного числа исходных предикторов, применяют специально разработанные многошаговые и комбинированные процедуры.

Сравнительный анализ эффективности каждого из рассмотренных методов комплексации проведем с использованием знакомого нам по предыдущему разделу набора критериев:

№ модели	Средне-квадра-тич. ошибка	Cредний модуль ошибки	Макси-мальный модуль ошибки	Критерий регуляр- ности	Коэффи-циент корре-ляции	Критерий Дарбина-Уотсона
G₁	58.4	38	277	0.739	0.711	1.49
G₂	47.8	34	218	0.605	0.797	1.93
G₃	42.8	30.7	178	0.541	0.841	1.93
G₄	43.9	31	210	0.556	0.831	1.91
G₅	47.9	34.2	197	0.607	0.796	1.87
G₆	54.2	36.9	276	0.686	0.727	1.71

Использованные в таблице номера соответствуют следующим коллективам предикторов:

G₁ - среднее значение индивидуальных прогнозов;

G₂ - линейная регрессионная модель;

G₃ - нелинейная регрессионная модель;

G₄ - модель по комбинаторному алгоритму МГУА;

G₅ - коллектив предикторов по алгоритму Дикинсона-Ершова;

G₆ - коллектив предикторов по алгоритму Бейтса-Гренджера.

Нетрудно заметить, что безусловным аутсайдером по всем критериям оценки является простое усреднение частных прогнозов (G₁). Это естественно, поскольку составить работоспособный коллектив без учета уровня компетентности его членов - невыполнимая задача в любой сфере деятельности. Не претендуя в настоящей работе на глобальные обобщения, следует отметить явное преимущество нелинейных регрессионных методов (G₃) и алгоритмов МГУА (G₄) над другими процедурами. Они позволяют расширить класс функций, в котором ищется предиктор-коллектив, до класса полиномов произвольной степени от многих аргументов и использовать в качестве целевой функции не только дисперсию ошибок, но и любой другой критерий. Кроме того, для их применения не требуется выполнения условия нормировки весовых коэффициентов.

График интерполяции ряда NH₄⁺ коллективом предикторов, полученный с помощью нелинейной регрессионной модели (G₃), представлен на рис. 3.9.

Дальше

Назад

Начало

Конец

Список