Нормальное распределение: понимание гистограмм и вероятностей
В данной статье мы продолжаем исследование нормального распределения, рассматривая концепцию гистограмм и вводя функцию массы вероятности.
Данная статья является частью серии статей о статистике в электротехнике, которую мы начали с обсуждения статистического анализа и описательной статистики. Затем мы исследовали три описательных статистических показателя с точки зрения применения в обработке сигналов.
Затем мы коснулись стандартного отклонения (в частности, определения компенсации размера выборки при вычислении стандартного отклонения и понимания взаимосвязи между стандартным отклонением и среднеквадратичным значением).
В прошлой статье мы представили нормальное распределение в электротехнике, заложив основу для нашего текущего обсуждения: понимание вероятностей в измеренных данных.
Понимание гистограмм
В предыдущей статье мы начали обсуждение нормального распределения, обратившись к форме этой гистограммы:
Я думаю, что большинство людей, работающих в области науки или техники, хотя бы смутно знакомы с гистограммами, но давайте сделаем шаг назад.
Что такое гистограмма?
Гистограммы – это визуальные представления 1) значений, присутствующих в наборе данных, и 2) частоты появления этих значений. Показанная выше гистограмма может представлять множество различных типов информации.
Представим, что она представляет собой распределение значений, полученных нами при измерении разницы, округленной до ближайшего милливольта, между номинальным и фактическим выходным напряжением линейного стабилизатора, который подвергался различным температурам и условиям эксплуатации. Так, например, примерно 8000 измерений показали разницу в 0 мВ между номинальным и фактическим выходными напряжениями, а примерно 1000 измерений показали разницу в 10 мВ.
Гистограммы – чрезвычайно эффективный способ обобщения больших объемов данных. Взглянув на гистограмму выше, мы можем быстро найти частоту отдельных значений в наборе данных и определить тенденции или закономерности, которые помогут нам понять взаимосвязь между измеренным значением и частотой.
Гистограммы с интервалами
Когда набор данных содержит так много разных значений, что мы не можем удобно связать их с отдельными столбцами гистограммы, мы используем объединение в интервалы (биннинг). То есть мы определяем диапазон значений как интервал, группируем результаты измерений в эти интервалы и создаем по одному столбцу для каждого интервала.
Следующая гистограмма, которая была сгенерирована из нормально распределенных данных со средним значением 0 и стандартным отклонением 0,6, использует интервалы вместо отдельных значений:
Горизонтальная ось разделена на десять интервалов одинаковой ширины, и каждому интервалу назначен один столбец. Все результаты измерений, попадающие в числовой интервал, влияют на высоту соответствующего столбца (метки на горизонтальной оси показывают, что интервалы не одинаковой ширины, но это просто потому, что значения меток округлены).
Гистограммы и вероятность
В некоторых ситуациях гистограмма не дает нужной нам информации. Мы можем посмотреть на гистограмму и легко определить частоту измеренного значения, но не можем легко определить вероятность измеренного значения.
Например, если я посмотрю на первую гистограмму, я знаю, что примерно 8000 измерений показали разницу в 0 В между номинальным и фактическим напряжениями стабилизатора, но я не знаю, какова вероятность того, что результат случайно выбранного измерения или нового измерения сообщит о разнице в 0 В.
Это серьезное ограничение, потому что вероятность отвечает на чрезвычайно распространенный вопрос: каковы шансы, что…?
Каковы шансы, что у моего линейного стабилизатора погрешность выходного напряжения будет менее 2 мВ? Какова вероятность того, что частота битовых ошибок моего канала передачи данных будет выше 10-3? Какова вероятность того, что из-за шума мой входной сигнал превысит порог срабатывания? И так далее.
Причина этого ограничения заключается в том, что гистограмма просто четко не передает размер выборки, то есть общее количество измерений (теоретически общее количество измерений можно определить, сложив значения всех столбцов гистограммы, но это было бы утомительно и неточно).
Если мы знаем размер выборки, мы можем разделить количество появлений на размер выборки и таким образом определить вероятность. Давайте рассмотрим пример.
Красные пунктирные линии заключают в себя столбцы, которые указывают на погрешности напряжения менее 2 мВ, а числа, написанные внутри столбцов, указывают точное количество появлений этих трех значений погрешности напряжения. Сумма этих трех чисел составляет 23 548. Таким образом, на основе этого примера по сбору данных вероятность получения погрешности менее 2 мВ составляет 23 548/100 000 ≈ 23,5%.
Функция массы вероятности
Если наша основная цель при создании гистограммы – передать информацию о вероятности, мы можем изменить всю гистограмму, разделив все счетчики вхождений на размер выборки.
Полученный график является аппроксимацией функции массы вероятности. Например:
Всё, что мы на самом деле выполнили, это изменили числа на вертикальной оси. Тем не менее, теперь мы можем посмотреть на отдельное значение или на группу значений и легко определить вероятность появления.
Хочу прояснить следующую деталь: я сказал, что мы аппроксимируем функцию массы вероятности, когда берем гистограмму и делим значения на размер выборки. Истинная функция массы вероятности представляет собой идеализированное распределение вероятностей, что означает, что для этого потребуется бесконечное количество измерений.
Таким образом, когда мы работаем с реалистичными размерами выборки, гистограмма, созданная на основе измеренных данных, дает нам только приближение функции массы вероятности.
Масса вероятности против плотности вероятности
Стоит подчеркнуть, что функция массы вероятности является дискретным эквивалентом функции плотности вероятности (о которой мы говорили в предыдущей статье).
В то время как функция плотности вероятности является непрерывной и предоставляет значения вероятности, когда мы интегрируем функцию в указанном диапазоне, функция массы вероятности дискретизируется и дает нам вероятность, связанную с конкретным значением или интервалом.
Эти две функции передают одну и ту же общую статистическую информацию о переменной или о сигнале, но делают это по-разному.
Обратите внимание на разницу между двумя названиями: вертикальная ось функции массы вероятности указывает массу вероятности, как количественное значение. Вертикальная ось функции плотности вероятности указывает плотность вероятности относительно горизонтальной оси; чтобы определить количественное значение вероятности, мы должны интегрировать эту плотность по горизонтальной оси.
Заключение
Мы рассмотрели функции массы и плотности вероятности, и теперь мы готовы изучить кумулятивную функцию распределения и исследовать вероятности нормального распределения с точки зрения стандартного отклонения. Об этом мы поговорим в следующей статье.