Прогнозы и гадания

Прогноз — не гадайте по картам, а используйте статистическую модель.

Прогноз — это термин, известный не только из статистики, в целом можно сказать, что это утверждение о событии, которое произойдет в будущем, чешский термин — это прогноз. Предсказание основано не на случайности (догадках, гаданиях), а на знании настоящего и прошлого. Методы прогнозирования различаются, но часто основаны на научных теориях.

Область, которая много занимается предсказаниями, — это статистика. Однако предсказание понимается несколько шире, чем классическое предсказание будущего. Статистика строит прогнозы даже в ситуации, когда неизвестные значения не связаны с будущим временем. Например. статистика определяет вероятность постановки определенного диагноза у пациента в зависимости от результатов физиологических измерений. Затем для конкретного пациента мы прогнозируем, был ли поставлен диагноз, так что это не прогноз будущего, а текущее неизвестное состояние. С другой стороны, статистика ограничивается только численными прогнозами.

Преимущество статистики при прогнозировании состоит в том, что нет необходимости знать научную теорию прогнозируемой проблемы. Ее знания, безусловно, полезны, но не обязательны. Таким образом, статистика позволяет нам предсказывать ситуации, которые теоретически очень сложны или в которых мы даже не знаем точной теории. Способ, которым статистика предсказывает неизвестное, основан на статистической модели.

Статистика предсказывает значение конкретной переменной или группы переменных, таких как будущий ВВП, ее прогноз в основном состоит из числа. Прогнозируемая нами переменная называется зависимой, объясненной, прогнозируемой или целевой. Прогноз основан на том факте, что на целевую переменную каким-то образом влияют другие переменные, которые называются независимыми, объясняющими или предикторами. При прогнозировании мы знаем значения предикторов, но не знаем значение целевой переменной, которое мы просто определяем по модели.

гадания

Статистическая модель показывает, как целевая переменная зависит от предикторов. Ключевым фактом является то, что модель не должна фиксировать и на практике никогда не фиксирует цепочку причин и следствий, по которым предикторы определяют целевую переменную. Фактически, модель имеет тенденцию быть упрощением реальности. Модель не стремится точно предсказать целевую переменную и всегда предполагает ошибку. Чем меньше ошибка, тем лучше модель.

При построении прогноза сначала выбирается модель, которая отражает наше представление о характере зависимости, затем оцениваются параметры модели и прогноз рассчитывается в соответствии с предполагаемой моделью. Модель не является фиксированной структурой, но содержит неизвестные параметры, которые позволяют адаптировать ее к конкретной ситуации. Например. мы хотим смоделировать зависимость расхода топлива от скорости двигателя внутреннего сгорания, в качестве модели мы определяем линию о уравнении.

расход = a + b * скорость + e,

где a и b — неизвестные параметры, а e — ошибка модели..

Необходимо указать неизвестные параметры. Для этого необходимы так называемые исторические данные, которые представляют собой набор случаев, когда мы знаем как целевую переменную, так и все предикторы. При оценке модели мы стараемся выбирать неизвестные параметры, чтобы наша модель лучше всего отражала зависимость от исторических данных.

Предполагаемая модель отражает эмпирическую зависимость, то есть зависимость, обнаруженную в данных, но она может совсем не соответствовать реальной зависимости, которая может быть очень сложной и для обнаружения которой у нас может даже не быть всех предикторов. Приведенное выше уравнение потребления может дать точные прогнозы потребления с хорошо оцененными параметрами, но это не означает, что мы нашли точную теоретическую модель потребления. Расход, вероятно, будет зависеть от других переменных, таких как нагрузка на двигатель, вязкость масла, материал блока цилиндров и т. Д. Зависимость от скорости также, вероятно, не будет строго линейной.

Хотя модели не описывают фактические зависимости, они обычно используются для прогнозов. Это оправдано тем, что модель описывала зависимость от исторических данных, и предположением, что при вставке нового значения в модель оно снова даст точный прогноз. Однако всегда необходимо действовать предусмотрительно. Мы проверили модель только для значений предикторов в интервале, соответствующем историческим данным. Установка значения за пределами этого интервала может привести к плохим прогнозам. Например. если модель расхода оценивалась в 1000 — 5000 об / мин, ее прогноз для 10000 скоростей очень ненадежен.

Основная задача при поиске прогнозов — выбрать подходящую модель. Статистика выявила множество типов алгоритмов моделирования, различающихся в основном характером целевой переменной. Существуют модели, подходящие для прогнозирования числовой целевой переменной, а также модели для прогнозирования целевой переменной, которая принимает только определенные нечисловые значения (например, образование, цвет и т. Д.) — категоризированная переменная. Очень широко проработанный вариант — моделирование двузначной переменной (явление произошло или не произошло). Выбор алгоритма моделирования зависит не только от его точности, но и от возможностей его интерпретации. Модели в форме уравнений легче всего интерпретировать. Однако при интерпретации всегда необходимо иметь в виду, что наша модель является лишь эмпирической конструкцией.

Оценить параметры модели сегодня пользователям не составит труда, но при условии наличия соответствующего статистического программного обеспечения. Без него необходимо ограничиться только базовыми простейшими алгоритмами моделирования. Но даже со статистическим ПО у пользователей остается достаточно задач. Самое сложное — это подготовка данных. Об их подготовке в целом говорить не приходится, только учтите, что на подготовку данных также влияет выбранный алгоритм моделирования. Каждая модель имеет определенные предположения, к которым мы должны подойти как можно ближе. Работа не заканчивается на момент оценки модели, но ее еще нужно проверить. Некоторые индикаторы качества модели являются стандартной частью самих алгоритмов моделирования, но также целесообразно проверить прогностическую способность самой модели. Для этого мы разделяем исторические данные на часть, где оценивается модель (обучающий набор), и часть, где мы сравниваем прогнозы модели и фактические значения (тестовый набор). Статистика снова предлагает широкий спектр показателей соответствия прогноза и реальности.

Если модель в порядке, мы можем использовать ее прогнозы. Обычно нас не устраивает сам прогноз, но нам также потребуется дополнительная информация. Для численных прогнозов это обычно доверительные интервалы. Они созданы так, чтобы фактическое значение лежало в интервале с выбранной вероятностью, чаще всего 95%. Для категоризированных переменных это вероятность предсказанной категории. Мы получаем прогнозы и дополнительную информацию, подставляя в модель значения предикторов неизвестного случая и вычисляя прогноз. Здесь также целесообразно использовать статистическое программное обеспечение, поскольку некоторые модели не являются простыми уравнениями, а расчет прогноза требует больших вычислительных затрат.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *