Большую часть времени, когда вы запускаете статистику, вы хотите использовать статистическое программное обеспечение. Эти инструменты созданы для выполнения вычислений, таких как t -тесты, тесты хи-квадрат, корреляции и так далее. Excel не предназначен для анализа данных. Но это не значит, что вы не можете этого сделать.
К сожалению, статистические функции Excel не всегда интуитивно понятны. И они обычно дают вам эзотерические результаты. Таким образом, вместо использования функций статистики, мы собираемся использовать надстройку статистики Excel: пакет анализа данных.
Пакет инструментов, несмотря на довольно неудачное написание, включает в себя широкий спектр полезных статистических функций. Давайте посмотрим, что мы можем сделать со статистикой Excel.
Добавление пакета анализа данных Excel
Хотя вы можете делать статистику без пакета анализа данных, с ним гораздо проще. Чтобы установить Toolpak в Excel 2016, выберите «Файл»> «Параметры»> «Надстройки» .
Нажмите « Перейти» рядом с «Управление: надстройки Excel».
В появившемся окне установите флажок рядом с Пакетом инструментов анализа и нажмите кнопку ОК .
Если вы правильно добавили набор инструментов анализа данных в Excel, вы увидите кнопку « Анализ данных» на вкладке « Данные », сгруппированную в раздел « Анализ »:
Если вы хотите еще больше возможностей, обязательно ознакомьтесь с другими надстройками
Описательная статистика в Excel
Независимо от того, какой статистический тест вы выполняете, вы, вероятно, сначала захотите получить описательную статистику Excel. Это даст вам информацию о средних значениях, медиане, дисперсии, стандартном отклонении и ошибке, эксцессах, асимметрии и множестве других цифр.
Выполнение описательной статистики в Excel легко. Нажмите « Анализ данных» на вкладке «Данные», выберите « Описательная статистика» и выберите диапазон ввода. Нажмите стрелку рядом с полем диапазона ввода, щелкните и перетащите, чтобы выбрать ваши данные, и нажмите Enter (или щелкните соответствующую стрелку вниз), как показано в GIF ниже.
После этого обязательно сообщите Excel, имеют ли ваши данные метки, хотите ли вы выводить данные на новом листе или на том же листе, а также хотите ли вы получить сводную статистику и другие параметры.
После этого нажмите ОК , и вы получите описательную статистику:
Студенческий т-тест в Excel
T- тест является одним из самых основных статистических тестов, и его легко вычислить в Excel с помощью Toolpak. Нажмите кнопку « Анализ данных» и прокрутите вниз, пока не увидите параметры t -test.
У вас есть три варианта:
- t-тест: две пары для средних значений должны использоваться, когда ваши измерения или наблюдения были спарены. Используйте это, когда вы делали два измерения одного и того же человека, например, измеряли артериальное давление до и после вмешательства.
- t-критерий: две выборки, предполагающие равные отклонения, должны использоваться, когда ваши измерения независимы (что обычно означает, что они были сделаны на двух разных предметных группах). Мы обсудим часть «равных дисперсий» чуть позже.
- t-критерий: две выборки, предполагающие неравные отклонения , также предназначены для независимых измерений, но используются, когда отклонения не равны.
Чтобы проверить, равны ли отклонения ваших двух выборок, вам нужно запустить F-тест. Найдите F-Test Two-Sample для отклонений в списке инструментов анализа, выберите его и нажмите OK .
Введите два набора данных в поля ввода диапазона. Оставьте альфа-значение на уровне 0,05, если у вас нет причин для его изменения — если вы не знаете, что это значит, просто оставьте. Наконец, нажмите ОК .
Excel выдаст вам результаты на новом листе (если вы не выбрали Выходной диапазон и ячейку на текущем листе):
Вы смотрите на P-значение здесь. Если оно меньше 0,05, у вас неравные отклонения . Таким образом, чтобы запустить t -test, вы должны использовать опцию неравных отклонений.
Чтобы запустить t -тест, выберите соответствующий тест в окне инструментов анализа и выберите оба набора данных таким же образом, как вы делали для F-теста. Оставьте значение альфа на 0,05 и нажмите ОК .
Результаты включают все, что вам нужно сообщить для t- теста: средние значения, степени свободы (df), t-статистику и P-значения для одно- и двусторонних тестов. Если значение P составляет менее 0,05, два образца значительно различаются.
Если вы не уверены, следует ли использовать одно- или двусторонний t- тест, обратитесь к этому объяснителю из UCLA .
ANOVA в Excel
Пакет инструментов анализа данных Excel предлагает три типа дисперсионного анализа (ANOVA). К сожалению, это не дает вам возможности запустить необходимые дополнительные тесты, такие как Tukey или Bonferroni. Но вы можете увидеть, есть ли связь между несколькими разными переменными.
Вот три теста ANOVA в Excel:
- ANOVA: Single Factor анализирует дисперсию с одной зависимой переменной и одной независимой переменной. Предпочтительно использовать несколько t- тестов, когда у вас более двух групп.
- ANOVA: двухфакторный с репликацией подобен парному t- тесту; это включает многократные измерения на единственных предметах. «Двухфакторная» часть этого теста указывает на наличие двух независимых переменных.
- ANOVA: двухфакторный без репликации включает две независимые переменные, но не репликации в измерении.
Здесь мы рассмотрим однофакторный анализ. В нашем примере мы рассмотрим три набора чисел, помеченных «Вмешательство 1», «Вмешательство 2» и «Вмешательство 3.». Чтобы запустить ANOVA, нажмите « Анализ данных» , затем выберите « ANOVA: однофакторный фактор» .
Выберите диапазон ввода и убедитесь, что в Excel указано, находятся ли ваши группы в столбцах или строках. Я также выбрал здесь «Метки в первом ряду», чтобы названия групп отображались в результатах.
После нажатия OK мы получаем следующие результаты:
Обратите внимание, что значение P меньше 0,05, поэтому мы получаем значительный результат. Это означает, что есть существенная разница между по крайней мере двумя группами в тесте. Но поскольку Excel не предоставляет тесты для определения того, какие группы отличаются, лучшее, что вы можете сделать, это посмотреть на средние значения, отображаемые в сводке. В нашем примере Intervention 3 выглядит так, как будто она отличается.
Это не является статистически обоснованным. Но если вы просто хотите увидеть, есть ли разница, и посмотреть, какая группа, вероятно, вызывает это, это сработает.
Двухфакторный ANOVA сложнее. Если вы хотите узнать больше о том, когда использовать двухфакторный метод, посмотрите это видео с Sophia.org, а также примеры « без репликации » и « с репликацией » из Real Statistics.
Корреляция в Excel
Вычисление корреляции в Excel намного проще, чем t- тест или ANOVA. Используйте кнопку « Анализ данных» , чтобы открыть окно «Инструменты анализа» и выбрать « Корреляция» .
Выберите диапазон ввода, определите группы в виде столбцов или строк и скажите Excel, есть ли у вас метки. После этого нажмите ОК .
Вы не получите никаких показателей значимости, но вы можете увидеть, как каждая группа соотносится с другими. Значение, равное единице, является абсолютной корреляцией, указывающей, что значения в точности совпадают. Чем ближе к единице значение корреляции, тем сильнее корреляция.
Регрессия в Excel
Регрессия является одним из наиболее часто используемых статистических тестов в промышленности, и Excel предоставляет удивительные возможности для этого расчета. Мы запустим быструю множественную регрессию в Excel здесь. Если вы не знакомы с регрессией, ознакомьтесь с руководством HBR по использованию регрессии для бизнеса .
Допустим, нашей зависимой переменной является артериальное давление, а двумя независимыми переменными являются вес и потребление соли. Мы хотим посмотреть, что является лучшим показателем артериального давления (или если они оба хороши).
Нажмите « Анализ данных» и выберите « Регрессия» . На этот раз вы должны быть осторожны при заполнении полей ввода. Поле Input Y Range должно содержать вашу единственную зависимую переменную. Поле Input X Range может включать несколько независимых переменных. Для простой регрессии не беспокойтесь об остальном (хотя не забудьте сообщить Excel, если вы выбрали метки).
Вот как выглядит наш расчет:
После нажатия OK вы получите большой список результатов. Я выделил P-значение здесь для веса и потребления соли:
Как вы можете видеть, значение P для веса больше 0,05, поэтому здесь нет существенной зависимости. Однако значение P для соли ниже 0,05, что указывает на то, что он является хорошим предиктором артериального давления.
Если вы планируете представлять данные регрессии, помните, что вы можете добавить линию регрессии к диаграмме рассеяния в Excel. Это отличное наглядное пособие. для этого анализа.
Статистика Excel: удивительно способна
Хотя Excel не известен своей статистической мощью, он на самом деле обладает некоторыми действительно полезными функциями, такими как инструмент PowerQuery , который удобен для таких задач, как объединение наборов данных . (Узнайте, как создать свой первый сценарий Microsoft Power Query Script .) Существует также дополнение статистики для Data Analysis Toolpak, которое действительно раскрывает некоторые из лучших функций Excel. Я надеюсь, что вы узнали, как использовать Toolpak, и что теперь вы можете поиграть самостоятельно, чтобы выяснить, как использовать больше его функций.
Теперь вы можете поднять свои навыки работы с Excel на новый уровень с нашими статьями об использовании функции поиска целей в Excel для дополнительного анализа данных и поиска значений с помощью vlookup . В какой-то момент вы также можете узнать, как импортировать данные Excel в Python импортировать данные Excel в импортировать данные Excel в