Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению

2.2.8. Параметрические модели тренда

Для коротких временных рядов наиболее употребительны параметрические методы выделения тренда. В этом случае делается попытка представить временной ряд в виде суммы детерминированной функции времени f(t, a), зависящей от небольшого числа неизвестных параметров, и случайной компоненты. Для оценки вектора неизвестных параметров a* обычно применяется метод наименьших квадратов (МНК), состоящий в минимизации суммы квадратов отклонений

[x(t) - f(t, a*)]2 Þ min.

Нет необходимости приводить здесь описание методологии МНК и расчетных формул применительно к линейному и нелинейному регрессионному анализу, поскольку все это доступно практически в любом руководстве по математической статистике (Дрейпер, Смит, 1973; Кендалл, Стьарт, 1973; Енюков, 1986). Остается лишь предостеречь от от популярных, к сожалению, приемов необоснованной "линеаризации", т.е. использования линейного формализма МНК для расчета коэффициентов уравнения в той или иной нелинейной форме. Например, для расчета коэффициентов экспоненциального уравнения регрессии часто логарифмируют исходные данные, после чего используют формулы МНК для коэффициентов линейного уравнения, получая при этом заведомо искаженные результаты. Минимизация суммы квадратов отклонений между уровнями ряда и прогнозируемыми значениями, вычисленными по нелинейным уравнениям связи, в настоящей работе проводилась по методу Нелдера-Мида, реализующему прямой поиск по деформируемому многограннику (Банди, 1988).

Традиционной проблемой является выбор наилучшего вида модели тренда. В качестве такого критерия отбора может быть использована доля объясненной дисперсии, называемая коэффициентом детерминации:

R2 = 1 - s2ост / s2ряда ,

где s2ост - дисперсия остатков; s2ряда - дисперсия исходного ряда.

Непосредственная оценка коэффициента детерминации по приведенной формуле через выборочные дисперсии приводит к смещенной оценке, поэтому для построения несмещенной оценки вводится поправочный коэффициент, учитывающий число оцениваемых параметров. Получающийся при этом коэффициент называют скорректированным коэффициентом детерминации:

r2 = 1 - (1 - R2 )*[n/(n - k)] ,

где n - число наблюдений; k - число оцениваемых параметров (или число независимых переменных). В отличие от коэффициента R2, значение которого при включении в регрессионную модель дополнительной независимой переменной может лишь возрасти, коэффициент r2 может и уменьшиться, если снижение дисперсии остатков оказалось менее существенным по сравнению с ростом числа оцениваемых параметров.

В табл. 2.3 приведен список моделей-претендентов тренда и соответствующие им значения скорректированного коэффициента детерминации.

Таблица 2.3

Значения коэффициента r2 для различных моделей рядов

Вид модели

Ряд СКОРОСТЬ

Ряд NH4+

Ряд NCAL

at + b

e(at + b)

at2 + bt + c

a ln(t + b)

a/(1 + e(bct))

a(t + b)c

0.0663

0.0572

0.1947

0.0590

0.1250

0.0371

0.1516

-

0.2343

0.1393

-

0.1635

0.0596

-

0.0539

0.0528

-

-

Примечание: a, b и c – коэффициенты уравнения регресcии.

Набор несложных функций, используемых для параметрических моделей тренда, применим для выделения самой общей тенденции недлинных рядов и прогнозирования на небольшом временном лаге. Например, трудно выбрать иную модель тренда ряда NCAL (см. рис. 2.13), чем линейная функция

x(t) = - 0.02171 t + 3.4826 .

Однако даже среднесрочный прогноз с использованием этого уравнения вряд ли принесет удовлетворение гидробиологам: к августу 1991 г. предполагается полное исчезновение каляноидов.

Несложный анализ наилучшей функции параметрического тренда ряда СКОРОСТЬ - квадратичной параболы

x(t) = - 0.000091 t2 + 0.0248 t + 4.18

дает нулевую скорость ветра в марте 1951 г. и в июне 1991 г., а за пределами этого периода в качестве прогноза предполагается ветер с жутковатой отрицательной скоростью.

Попытка прогнозировать концентрацию NH4+ по уравнению

x(t) = 0.015 t2 - 1.417 t + 87

даже на ближайший временной отрезок приводит к мысли об экологической катастрофе: круто устремленная вверх парабола совершенно не учитывает резкий спад уровней ряда в последний период.

Поскольку для геофизических и биометрических рядов, так или иначе связанных с явлениями периодичности разной природы, характерны "горбы", перегибы и прочие нестабильности тренда, более эффективные прогнозирующие модели могут быть получены с использованием сплайнов, полиномов высоких степеней, а также методами группового учета аргументов, о чем речь пойдет в последующих главах.

Для получения расчетных уровней ряда, характеризующихся отчетливым сезонным фактором, как и при экспоненциальном сглаживании, могут быть использованы индексы сезонности. Например, элиминация линейного тренда f(t) ряда NCAL с учетом индексов сезонности s(t), представленных на графике рис. 2.10, существенно снижает вариабельность ряда остатков

es(t) = x(t) - f(t) - s(t),

по сравнению с рядом e(t), полученным без учета сезонности: стандартное отклонение для остатков уменьшается с 2.8 до 2.26, а скорректированный коэффициент детерминации увеличивается с 0.0596 до 0.359.

 

Дальше К следующему разделу Назад К предыдующему разделу Начало К началу разделу Конец К концу разделу Список К оглавлению