Определение статистической значимости из t-тестов, применяемых к инженерным системам

Добавлено24 октября 2020 в 23:31

В данной статье обсуждаются важные аспекты t-тестирования с помощью примера эксперимента, представленного в предыдущей статье.

Добро пожаловать в серию статей о статистике в электротехнике. Ближе к концу серии вы можете задаться вопросом о базовых строительных блоках, которые ведут к этому моменту. Если вы хотите наверстать упущенное, просмотрите список предыдущих статей в оглавлении выше. В противном случае перейдите к следующему разделу, чтобы узнать больше о том, как мы можем получить статистическую значимость из t-тестов, применяемых к инженерным системам.

Обзор наших расчетных t-значений

Как было описано в предыдущей статье, в ходе нашего воображаемого эксперимента мы получили следующие результаты измерений, касающиеся рабочей температуры и коэффициента пакетных ошибок (PER):

PER
0,0010290
0,0010113
0,0010380
0,0010198
0,0009702
0,0010486
0,0010503
0,0009941
0,0010067

После вычисления выборочного среднего и выборочного стандартного отклонения мы определили, что t = 2,13. Поскольку критическое значение было t* = 1,86, мы обнаружили, что t > t*, и, следовательно, мы отвергли нулевую гипотезу.

Одностороннее и двустороннее тестирование

Одним из сомнительных аспектов нашего эксперимента было предположение, что повышение температуры приведет только к равной или худшей производительности относительно PER. Из-за этого предположения наш анализ не рассматривал возможность корреляции более высокой температуры с улучшением PER, и это было отражено в использовании одностороннего теста:

Рисунок 1 Односторонний тест из предыдущей статьи — Рисунок 1 – Односторонний тест из предыдущей статьи

Верно ли это предположение? Температуры, которые значительно превышают комнатную температуру, приводят к тому, что электронные схемы ведут себя не так, как хотелось бы.

Однако на взаимосвязь между температурой и производительностью системы влияют различные факторы, которые взаимодействуют потенциально сложным образом. Кроме того, наш пример построен на системе беспроводной связи, и поведение радиочастотной схемы особенно трудно предсказать.

Таким образом, мы можем решить спланировать эксперимент иначе. Поскольку мы беремся за нагрев лаборатории, настройку системы, сбор данных и т.д., возможно, имеет смысл поискать доказательства того, что повышение температуры может вызвать статистически значимое изменение PER.

Мы больше не ищем просто ухудшение PER. Теперь мы предполагаем, что повышенная рабочая температура может привести к более высокому или более низкому PER, а это означает, что нам нужен двусторонний тест.

Двусторонний тест с таким же уровнем значимости имеет такое же количество вероятностной массы в области отклонения, но эта область разделена на две части: одна выше среднего, а другая ниже среднего. Следовательно, критическое значение изменится:

Рисунок 2 Двусторонний тест с тем же уровнем значимости — Рисунок 2 – Двусторонний тест с тем же уровнем значимости

Произошло кое-что интересное: наше t-значение 2,13 не превышает критического значения! Другими словами, наш анализ теперь показывает, что эксперимент не продемонстрировал взаимосвязи между температурой и PER.

Этот пример заставляет задуматься о двух вещах. Во-первых, нам нужно быть осторожными с предположениями, которые приводят нас к одностороннему или двустороннему тесту, потому что эти предположения могут быть определяющими факторами в нашей оценке статистической значимости.

Во-вторых, проверка значимости не является надежной чисто математической процедурой. Помимо выбора одностороннего или двустороннего тестирования, у нас есть сам порог значимости, который является довольно произвольным. Верно, что двусторонний тест переместил t-значение из области отклонения, но мы могли бы переместить его обратно в область отклонения, выбрав ⍺ = 0,1 вместо ⍺ = 0,05.

Влияние размера выборки на статистическую значимость

Отказ от нулевой гипотезы происходит, когда t-значение больше критического значения. Таким образом, если наша цель – продемонстрировать статистическую значимость, нам нужно более высокое t-значение. Давайте еще раз посмотрим на уравнение, которое мы используем для вычисления t-значений:

\[t=\frac{\bar{x}-\mu}{s/\sqrt{n}}\]

Если мы увеличиваем размер выборки (обозначается, как n), величина \(s/ \sqrt{n}\) уменьшается, а это вызывает увеличение t-значения. Таким образом, если мы хотим получить более высокое t-значение, всё, что нам нужно сделать, это увеличить размер выборки.

Например: если я возьму точно те же самые результаты измерений PER, но скопирую набор данных пять раз (и поэтому размер выборки станет n = 54), t-значение увеличится с исходного t = 2,13 до t = 5,48. Если мы собираем больше данных, мы увеличиваем t-значение, даже если новые измерения не приводят к заметным изменениям среднего или стандартного отклонения.

Что еще хуже, с увеличением размера выборки уменьшается критическое значение. При n = 9 было ν = 8 и t* = 1,860. При n = 54 мы имеем ν = 53 и t* = 1,674. В целом, большие размеры выборки облегчают достижение статистической значимости, поскольку они, как правило, приводят к более высоким t-значениям и более низким критическим значениям.

Это известная проблема статистического анализа, в котором мы вычисляем p-значение и сравниваем его с уровнем значимости. Вы можете узнать больше об этом в статье, озаглавленной «Using Effect Size—or Why the P Value Is Not Enough». В этой статье указывается, что очень большой размер выборки может привести к статистически значимому p-значению, даже если реальный эффект незначителен.

Заключение

Надеюсь, что эта статья и предыдущая статья помогли вам понять, как t-тест может быть полезен при определении характеристик или устранении неисправностей в электронной системе. Также хорошо бы помнить, что статистическая значимость имеет свои ограничения.

Возможно, в следующей статье мы обсудим размер эффекта, на который не влияет размер выборки, и функции, которые являются важным дополнением к статистической значимости.

PER / Packet Error Rate / Коэффициент пакетных ошибокt-значениеt-тест / t-критерийДвустороннее тестированиеМасса вероятностиРазмер выборкиСтандартное отклонениеСтатистикаСтатистическая значимость

Оглавление

Обзор наших расчетных t-значений

Одностороннее и двустороннее тестирование

Влияние размера выборки на статистическую значимость

Заключение

Теги