On estimation of the noise variance in high-dimensional linear models

11/25/2017 ∙ by Yuri Golubev, et al. ∙ 0

We consider the problem of recovering the unknown noise variance in the linear regression model. To estimate the nuisance (a vector of regression coefficients) we use a family of spectral regularisers of the maximum likelihood estimator. The noise estimation is based on the adaptive normalisation of the squared error. We derive the upper bound for the concentration of the proposed method around the ideal estimator (the case of zero nuisance).

READ FULL TEXT VIEW PDF
POST COMMENT

Comments

There are no comments yet.

Authors

page 1

page 2

page 3

page 4

This week in AI

Get the week's most popular data science and artificial intelligence research sent straight to your inbox every Saturday.

1 Введение и основной результат

В настоящей работе рассматривается задача оценивания уровня шума по наблюдениям

(1)

где – известная  - матрица с , – неизвестный мешающий вектор, а – стандартный дискретный белый гауссовский шум, т.е. вектор, компоненты которого являются независимыми гауссовскими случайными величинами с нулевым средним и единичной дисперсией.

Стандартный подход к оцениванию основан на методе максимального правдоподобия, который дает следующую оценку:

Статистические свойства этой оценки хорошо известны и могут быть легко установлены с помощью метода главных компонент. Пусть и – собственные векторы и собственные числа матрицы , т. е.

Определим следующие векторы в :

Нетрудно проверить, что , являются ортонормальными векторами в . Дополним эту систему векторов какими-нибудь другими ортонормальными векторами до полной ортонормальной системы.

Тогда для линейных статистик получим следующее представление:

(2)

где , а — стандартный белый гауссовский шум. Поскольку – полная система векторов в , то очевидно, что статистические модели (1) и (2) являются математически эквивалентными. Заметим однако, что эта эквивалентность уже не бесспорна с вычислительной точки зрения. Дело в том, что для того, чтобы формально перейти от (1) к (2) нужно вычислить спектральное разложение . Это может быть в принципе достаточно дорогостоящая операция при больших и плохой обусловленности . Как мы увидим далее, вычисление спектрального разложения часто не является необходимым. Поэтому в этой статье мы будем использовать представление (2) в основном для доказательств математических результатов, а строить оценки, используя наблюдения (1).

В силу эквивалентности (1) и (2) легко проверить, что

и мы видим, что, во-первых, оценка максимального правдоподобия является смещенной. Поэтому, как правило, в статистике используется ее несмещенная модификация

Во-вторых, ни , ни не используют данные . В задачах классической статистики и это не приводит к существенным потерям качества оценивания. В то же время существует достаточно широкий класс статистических задач, в которых и при этом собственные числа достаточно быстро убывают. В этих задачах мы, естественно, уже не сможем хорошо оценивать если не будем использовать .

Классическим примером такой задачи является оценивание в нелинейной регрессионной модели

(3)

где – стандартный белый шум, – известные регрессоры, а – неизвестная мешающая гладкая функция, принадлежащая, например, классу Соболева

здесь – производная порядка функции . Более подробно эта модель будет рассмотрена в параграфе 2.

Другим хорошо известным примером являются обратные задачи, возникающие при дискретизации интегральных уравнений Фредгольма первого рода [1].

Когда размерность велика, а собственные числа достаточно быстро убывают очевидно, что наблюдения , (см. (2)) могут содержать существенную статистическую информацию о . Ясно, что эту информацию можно извлечь, но при этом понятно также, что сделать это каким-то простым способом невозможно, поскольку эти наблюдения содержат неизвестные ‘‘мешающие’’ величины .

Понятно также, что для того, чтобы построить достаточно хорошие оценки , надо вычесть из наблюдений некоторую оценку вектора , а для этого нужно, естественно, оценивать . Как мы видели раньше, стандартную оценку максимального правдоподобия применять не имеет смысла. Поэтому далее в статье мы будем пользоваться спектральными регуляризациями этой оценки, которые вычисляются следующим образом:

(4)

здесь

  • – классическая оценка максимального правдоподобия неизвестного вектора ;

  • – заданная функция , индексированная параметром регуляризации .

Матрица , которая сглаживает в спектральной области оценку максимального правдоподобия, формально определяется через спектральное разложение следующим образом:

Как правило, функции , используемые для регуляризации оценки максимального правдоподобия, обладают следующими естественными свойствами:

Кроме того, семейство функций часто является упорядоченным, т.е. таким, что для любых :
либо

либо

На исключительную полезность этого свойства при адаптивном (основанном на наблюдениях) выборе параметра регуляризации , по-видимому, впервые обратил внимание А. Кнайп [2].

На первый взгляд может показаться, что для вычисления нужно вычислять спектральное разложение . Однако это не всегда так и на самом деле все зависит от того, каковы функции . Рассмотрим, например, метод регуляризации Тихонова

Заметим, что

  • является решением линейного уравнения

  • допускает следующее представление:

    где

Таким образом, регуляризация Тихонова, с одной стороны, вычисляется как решение системы линейных уравнений, а с другой стороны, представляет собой семейство упорядоченных спектральных регуляризаций. Примеры других спектральных регуляризаций, которые вычисляются рекуррентно, можно найти, например, в [3].

Отметим однако, что если в качестве используется, например, , то для того, чтобы построить соответствующие оценки из (4), необходимо уже вычислять спектральное разложение .

Далее, не оговаривая этого особо, будем предполагать, что для оценивания используется семейство оценок из (4) с упорядоченным семейством функций регуляризации . Соответствующая оценка вычисляется как

(5)

Таким образом, мы имеем семейство оценок дисперсии и, в принципе, задача состоит в том, чтобы выбрать в этом семействе наилучшую оценку на основе имеющихся наблюдений .

Для этого прежде всего нужно определить, что понимается под наилучшей оценкой. Представим себе идеальную ситуацию, когда . В этом случае мы наблюдаем чистый белый шум

и поэтому оценить в этом случае можно легко с помощью

Понятно, что ничего принципиально лучшего, чем эта псевдо-оценка не существует. Поэтому мы будем измерять качество оценки величиной ее отклонения от , а именно, величиной

Очевидно, что чем меньше эта величина, тем лучше мы оцениваем уровень шума с помощью . Поэтому основная задача в этой работе – минимизация по на основе имеющихся наблюдений. При этом будем предполагать, что параметр регуляризации принадлежит отрезку , а величина зависит от и стремится к при .

Обозначим для краткости

Для простоты предположим, что

(6)

Ясно, что без ограничения общности можно считать (см. (2)), что и при . Тогда из (2) и (5) находим

(7)

Воспользуемся также следующим простым тождеством:

(8)

Тогда с помощью (7) и (8) приходим к

(9)

Заметим, что второе слагаемое в правой части этого соотношения имеет порядок , а третье (см. (6)) . Поэтому третьим слагаемым можно пренебречь если в наряду с (6) выполняется также
Условие A. При всех

где – некоторая постоянная.

Как мы увидим далее последнее слагаемое в правой части (9) мало по сравнению с первым и поэтому из (9) получаем следующую аппроксимацию:

(10)

Напомним, что наша цель – выбрать параметр регуляризации так, чтобы величина была бы минимальной. Для этого нужно на основе имеющихся наблюдений каким-то образом контролировать слагаемые в правой части (10).

Рассмотрим сначала второе слагаемое, а именно, случайный процесс

Нам этот процесс очевидно не известен поскольку у нас нет доступа к шумам . Единственное, что можно сделать в этой ситуации – это построить детерминированную верхнюю границу для модуля этого процесса, т.е. найти в некотором смысле минимальную функцию такую, что

где здесь и далее , а обозначает постоянные величины, значения которых могут меняться, но не зависят от параметров рассматриваемой задачи. Поиск такой функции – нетривиальная задача, приближенное решение которой дает следующая теорема.

Т е о р е м а 1.

Пусть

и

(11)

где

(12)

Тогда для любого

(13)

Доказательство этого результата приведено в приложении. Оно по-сути основано на методе, который хорошо известен и используется при доказательстве закона повторного логарифма [4].


Замечание. Функция из (11) не является минимальной детерминированной огибающей для . По-видимому, таковой является функция

которая наряду с обеспечивает выполнение неравенства

для любого . К сожалению, строгого доказательства этой гипотезы у нас нет.


Объединяя (13) и (10), приходим к следующему неравенству:

(14)

которое справедливо для любого, зависящего от наблюдений, параметра регуляризации .

Очевидно, что мы хотели бы выбрать так, чтобы правая часть в (14) была бы как можно меньше. Это идея приводит к выбору

(15)

Очевидно, что этот параметр регуляризации нельзя использовать так как он зависит от неизвестного вектора . Поэтому наш следующий шаг состоит в том, чтобы оценить правую часть в (15) по наблюдениям и тем самым построить оценку для . Это можно сделать относительно просто, заменив на (см. (2)). Таким образом, мы получаем следующую оценку для :

(16)

Эта оценка, как видно, зависит от уровня шума, который мы и хотим оценить. Поэтому вместо подставим в правую часть (16) ее простую оценку

Заметим также, что при выполнении (6)

Таким образом, (16) приводит к следующему методу выбора параметра регуляризации:

(17)

Чтобы описать статистические свойства оценки , нам потребуются следующие дополнительные обозначения:

(18)
Т е о р е м а 2.

Пусть выполняется условие А и таковы, что

(19)

Тогда для любого , при всех

(20)

Замечания.

  1. Хорошо известно и легко проверить, что при

    где – стандартная гауссовская случайная величина. Поэтому неравенство (20) фактически описывает члены второго порядка в разложении по степеням . При этом выбор оптимального параметра регуляризации происходит с помощью минимизации этих членов. Отметим, что это типичная ситуация для задач семи-параметрического оценивания, см., например, [5, 6]. Подчеркнем также, что в отличии от этих статей, минимизация членов второго порядка в настоящей работе основана на имеющихся наблюдениях.

    Наиболее близкой по математическим методам к настоящей работе является статья [7], хотя в ней рассматривается на первый совершенно другая статистическая задача оценивания квадратичного функционала.

    Отметим еще, что в современной статистике теория оптимальности первого порядка семи-параметрических оценок хорошо разработана [8]. В ней оптимальными оценками считаются все такие , что

    К сожалению, класс подобного рода оценок оказывается очень широким и в нем невозможно определить наилучшую оценку или, что эквивалентно, сказать какой параметр регуляризации будет наилучшим.

  2. На первый взгляд кажется, что оптимальную оценку для можно получить если использовать наилучшую оценку для . На самом деле, как показывает теорема 2, это не так. Хорошо известно (см., например, [2]), что наилучший параметр регуляризации при оценивании минимизирует

    в то время как при оценивании оптимальное минимизирует

    Подчеркнем, что при малых (см. (11))

  3. Условие является, по-видимому, техническим. На практике можно использовать . К сожалению, математического доказательства этого предположения у нас нет.

  4. Величина , как правило, мала (см. параграф 2). Поэтому, выражение в круглых скобках в правой части (20) будет в этом случае близко к .

2 Оценивание уровня шума в нелинейной регрессии

В этом параграфе мы применим теорему 2 к задаче минимаксного адаптивного оценивания в нелинейной модели регрессии (3), предполагая, что число наблюдений велико. Термин ‘‘минимаксный’’ означает, что нас будет интересовать величина

где – некоторая оценка , построенная по наблюдениям (3).

Для того чтобы оценить неизвестную функцию , будем использовать семейство сглаживающих сплайнов

(21)

Поскольку этот метод является стандартным в непараметрической статистике, мы опустим его мотивацию и вычислительные аспекты, которые представлены, например, в [9].

Хорошо известно, что получить простую эквивалентную статистическую модель рассматриваемой задачи можно с помощью базиса Деммлера-Райнша [10]. Базисные функции этого базиса обладают очень полезным свойством двойной ортогональности

где – собственные числа базиса, которые зависят, естественно, от регрессоров . Чтобы упростить изложение, мы ограничимся асимптотическими равномерно распределенными регрессорами, т.е. такими, что

Известно (см, например, [11]), что в этом случае и при

(22)

Легко проверить, что для эмпирических коэффициентов Фурье

справедливо представление

(23)

где – стандартный белый гауссовский шум, а

Заметим, что из свойства двойной ортогональности вытекает, что сглаживающий сплайн из (21) может быть представлен следующим образом:

где

и что соболевский эллипсоид в терминах коэффициентов Фурье , имеет вид

Поэтому статистическая модель наблюдений (23) будет эквивалентна модели (2) если в последней положить

Несложно проверить, воспользовавшись (22), что при

где

и поэтому

Оценка уровня шума, основанная на сглаживающих сплайнах, вычисляется как

где

(24)

а

Для максимального на классе смещения этой оценки получаем следующую границу сверху:

Поэтому для любого при (см. (18))

Отсюда сразу же вытекает (см. (18)), что при

Поэтому для оценки уровня шума из (24) в силу теоремы 2 справедлива следующая асимптотическая (при ) верхняя граница:

(25)

здесь .

Несмотря на то, что рассматриваемая статистическая модель является стандартной в непараметричекой статистике и в ее рамках предложено много подходов к оцениванию , ничего не известно об оптимальности верхней границы (25). По-видимому, эту границу нельзя улучшить с точностью до множителя , но доказательства этой гипотезы у нас, к сожалению, нет, хотя в качестве ее подтверждения можно сослаться на [13], где близкий факт доказан для задачи оценивания квадратичного функционала.

3 Приложение

3.1 Вспомогательные результаты

Л е м м а 1.

Пусть , – независимые , а – детерминированная последовательность. Тогда для любого , зависящего от справедливо неравенство

Л е м м а 2.

Пусть

Тогда для любого

где постоянная определена в (12).

Доказательство этих результатов вытекает из упорядоченности последовательностей и , (см., например, леммы 4 и 6 в [12]).

Нам также потребуется также еще один простой факт.

Л е м м а 3.

Пусть – положительная случайная величина с ограниченным средним , а – случайная величина с ограниченным экспоненциальным моментом для некоторого . Тогда

(26)

где