Оценка выборки и ее математическое «улучшение»


Экологу значительно проще работать с данными, в которых все значения для одной выборки похожи друг на друга и, соответственно, существенно отличаются от данных другой выборки. Природа сложней, чем мы думаем, и нередко выдает нам вариационные ряды, поражающие своей неравномерностью. В статистике существуют подходы, работающие с выборками разного рода, и методы, «улучшающие» вариационные ряды. Оценка размера выборки. Условно считается, что если ваша выборка содержат 50 или более повторностей можно использовать параметрические методы, даже если ваша выборка не подчиняется закону нормального распределения. Если выборка меньше, что встречается значительно чаще, то надо провести тест на нормальность. Тест на нормальность. В программе STATISTICAL) этот тест проводится при помощи следующих операций: Statistics / Distribution Fitting / выбираете Continuous Distributions: Normal / выбираете вашу колонку значений как Variable, во вкладке Options в Kolmogorov- Smimov test выбираете Yes (continuous), анализируете выборку нажатием кнопки Summary. В появившемся окне проверяется нулевая гипотеза (значения выборки не отличаются от нормального распределения). Обращаете внимание на строчку «Kolmogorov-Smimov d =... р = Lilliefors р =... «. Если Kolmogorov-Smimov р и Lilliefors р указаны как «n.s.» или «lt;0,20», «lt;0,15», lt;«0,10» (а это значит, что нулевая гипотеза НЕ отвергается), то смело считайте это ряд нормальным. Если хотя бы один из показателей (Kolmogorov-Smimov или Lilliefors р) равен «lt;0,05» или lt;«0,01», то мы должны сделать вывод, что наши данные с большой вероятностью распределены не нормально.
Например, полученный ряд по численности 11, 14, 15, 15, 16, 16, 16, 17, 17, 17, 17, 18, 18, 18, 18, 18, 19, 19, 19, 19,20, 20, 20, 21, 21, 22, 22, 23, 26, 26, идеален для параметрической статистической обработки — он нормален. Если бы несколько значений «выбивались» из общей картины, и этот ряд кончался бы так ...
21, 22, 23, 156, 245, то получилась бы выборка, распределение в которой нельзя считать нормальным.
Важно отметить, что большинство биологических данных, в ча-
стности численность, распределено НЕ нормально.
3. Приведение к нормальности. Можно произвести преобразование всех имеющихся данных таким образом, чтобы выборки стали более похожими на нормальные. Это достигается 1) математическим преобразованием всех полученных цифр во всех выборках и 2) удалением выбросов (=аутлаеров).
В первом случае следуют такой логике, если, скажем, измененные ряды данных (полученные после математической операции) достоверно отличаются друг от друга, то они и первично равные, хотя в исходном состоянии это различие менее очевидно. Наиболее популярно логарифмирование всех данных по численности - каждое число во всех выборках заменяется натуральным логарифмом этого числа (в программе Excel это можно посчитать функциями LN(...), LG(...) и др.). Это приводит к более нормальному распределению. В дальнейшем работают с новыми рядами значений, а выводы сравнений, конечно, экстраполируют на исходные данные. Логарифмирование эффективно для ослабления влияния одного-двух значений в выборке (например значения 156 и 245 в недавнем примере), резко отличающихся от основной группы. Существуют другие математические способы приведения к нормальности, исходя из характера первичных данных (например, для долей применяют арксинусную трансформацию).
Резко отличающиеся значения называют выбросами или аутлаера- ми. Аутлаеры можно удалить или заменить на ближайшие значения.
Удаление аутлаеров в некоторых случаях имеет свое методическое и биологическое обоснование, но правомерность такой операции до сих пор является предметом дискуссий. В ряде случаев (например, изучение агрегаций) условные выбросы, наоборот, являются весьма необходимыми элементами выборки. 
<< | >>
Источник: Потапов М.Б., Кузнецова Н.А.. Методы исследования сообществ микроартропод: пособие для студентов и аспирантов. 2011

Еще по теме Оценка выборки и ее математическое «улучшение»:

  1. Раскрытие кагатов, выборка корнеплодов и подготовка к посадке
  2. Проектируемые улучшения иcпользование угодий
  3. Средства для улучшения почвы
  4. Математическое моделирование динамики популяций
  5. 2. Распознавание лет свиней улучшенных пород
  6. Математическое описание отбора
  7. Пути улучшения местного скота и создания новых пород
  8. Математические модели в генетике популяций и в теории эволюции
  9. МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ЭМИССИИ МЕТАНА ИЗБОЛОТ В АТМОСФЕРУ
  10. Некоторые закономерности проникновения математических методов и идей в биологию
  11. Часто приписывают определенные математические способности птицам...
  12. ЗАКОНОМЕРНОСТИ ДИНАМИКИ ЧИСЛЕННОСТИ ПОПУЛЯЦИЙ. МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПОПУЛЯЦИЙ
  13.   ОРГАНОЛЕПТИЧЕСКАЯ ОЦЕНКА КОРМОВ 7.1.1. ОЦЕНКА КАЧЕСТВА ЗЕЛЕНЫХ КОРМОВ