Рассмотрим способ нахождения зависимости частоты заболеваемости жителей города бронхиальной астмой от качества воздуха (третья задача из сформулированных выше). Любому человеку понятно, что такая зависимость существует. Очевидно, что чем хуже воздух, тем больше больных астмой. Но это качественное заключение. Его недостаточно для того, чтобы управлять уровнем загрязненности воздуха. Для управления требуются более конкретные знания. Нужно установить, какие именно примеси сильнее всего влияют на здоровье людей, как связана концентрация этих примесей в воздухе с числом заболеваний. Такую зависимость можно установить только экспериментальным путем: путем сбора многочисленных данных их анализа и обобщения.
В таких ситуациях на помощь приходит статистика: наука о сборе, измерении и анализе массовых количественных данных. Существуют медицинская статистика, экономическая статистика, социальная статистика и другие. Математический аппарат статистики разрабатывает раздел науки под названием «Математическая статистика».
Рассмотрим пример из области медицинской статистики.
Известно, что наиболее сильное влияние на бронхиально-легочные заболевания оказывает угарный газ — оксид углерода. Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концентрации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы (рис. 2.12; приводимые в примере данные не являются официальной статистикой, однако правдоподобны).
Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.
с, мг/м3 | Р, бол./тыс. |
2,5 | |
2,9 | |
3,2 | |
3,6 | |
3,9 | |
4,2 | |
4,6 | |
Рис. 2.12. Табличное представление статистических данных
Из полученных данных можно сделать вывод, что при концентрации угарного газа до 3 мг/м3 его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости.
А как построить математическую модель данного явления? Очевидно, нужно получить формулу, отражающую зависимость числа хронических больных Р от концентрации угарного газа С, т.е. функцию зависимости Р от С: Р(С). Вид такой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.
Понятно, что график искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки (рис. 2.13 а), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.
Отсюда следуют основные требования к искомой функции:
‒ она должна быть достаточно простой для использования ее в дальнейших вычислениях;
‒ график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рис. 2.13 б).
Рис. 2.13. Два варианта построения графической зависимости по экспериментальным данным
Полученную функцию, график которой приведен на рис. 2.13 б, принято называть в статистике регрессионной моделью.