Получение, использование и обработка биологической информации
1. Основные понятия
2. Первичная статистическая обработка
3. Статистические коэффициенты, измеряющие степень варьирования переменных
4. Измерение связи между переменными
Биологическая информация – это информация, которая получается в результате проведения исследований в биологии. В любом биологическом исследовании собирается значительная статистическая информация. Эта информация может быть обработана на основе использования различных приёмов и методов математической статистики. Для этого она должна быть представлена в определённой математической форме.
Основные понятия математической статистики
Величина называется случайной, если она принимает свои значения в зависимости от исходов некоторого испытания (опыта), причём для каждого элементарного исхода она имеет единственное значение.
Случайная величина называется дискретной, если множество всех возможных значений её конечно.
В любом исследовании имеется конечное множество объектов, подлежащих изучению. Это множество называется генеральной совокупностью и обозначается N:
N={,e2,…,ez}, где ei- конкретные объекты анализа.
Из этого множества по определённым правилам или случайным образом отбирается множество М:
M={e1m, e2m,…, enm}, MÌN, n<z.
Множество N называется генеральной совокупностью, А множество М – выборочной совокупностью или выборкой.
Например: из 1000 человек выбрано для исследования 100. Объём выборки 100, объём генеральной совокупности – 1000.
Множество М является объектом исследования. Каждый элемент полученной совокупности обладает определённым числом свойств, которые выбираются для исследования. Выделенное свойство объекта называется признаком. Признаки могут быть количественными (возраст, образование, размер территории и т.д.) и качественными (пол, место жительства и т.д.).
Каждый объект характеризуется набором признаков. Каждый признак имеет множество значений. Например, признак «образование» имеет значения: «начальное», «среднее», «высшее» и т.д. Таким образом, каждый объект исследования характеризуется упорядоченным набором значений признаков.
Информацию, характеризующую объект исследования, можно представить в виде матрицы:
z11 z12 … z1n
Z= z21 z22 … z2n
………………
zk1 zk2 …zkn где
строка (zi1, zi2,…, zin) – это вектор, содержащий значения различных признаков для выбранного объекта i.
Столбец (z1j, z2j,…, zkj) – это значение выбранного признака для разных объектов.
Первичная обработка информации
Статистике в биологии присущи специфические черты: высокий уровень практической направленности, обилие детализированных показателей и т.д. Для получения статистической совокупности используется выборочный метод, т.к. невозможно изучить все объекты генеральной совокупности.
После того, как статистическая совокупность собрана, её нужно исследовать. Первыми действиями в исследовании статистических данных является:
1. получение группировки;
2. построение вариационного ряда;
3. отображение его на графике.
Далее определяют количественные показатели, посредством которых определяются общие свойства статистической совокупности. Это: среднее арифметическое, мода и медиана.
Статистическая совокупность, расположенная в порядке возрастания или убывания значения признака, называется вариационным рядом, а её объекты вариантами.
Вариационный ряд называется дискретным, если его члены принимают конкретные изолированные значения.
Если члены вариационного ряда заполняют некоторый интервал, то такой ряд называется непрерывным.
Геометрически дискретное ряд можно интерпретировать следующим образом: на оси абсцисс откладываются варианты xi, а на оси ординат – соответствующие им частоты. Ломаную линию, соединяющую полученные точки, называют полигоном.
Для непрерывного вариационного ряда составляется таблица, в первой строке которой помещены интервалы изменения вариант с шагом h=xi-xi+1, и находят для каждого частичного интервала сумму частот, попавших в i-й и помещают во второй строке таблицы.
xi | x1-x2 | x2-x3 | x3-x4 | … | xi-xi+1 |
mi | m1 | m2 | m3 | … | mi |
Геометрически непрерывный вариационный ряд это не что иное, как гистограмма. А её мы умеем строить!!!
Следующий этап – определение количественных показателей.
Мода – это переменная, которая встречается наиболее часто. Значение определяется вершиной гистограммы.
Среднее арифметическое – величина, которая получается как результат деления суммы всех значений переменной на количество наблюдений. Медиана – величина, разделяющая ряд исходных цифр, представленных в порядке убывания, на две половины. Если число цифр чётное, то берётся среднее арифметическое двух соседних цифр.