Извлечение случайной выборки

Данные - Отобрать наблюдения - Случайная выборка - Подвыборки

Примерно - процентное значение, созданное случайной выборкой объёма.

Точно - точное количество наблюдений в случайной выборке.

Лекция 19 (21.11)

Данные – Отбор данных – Подвыборка

Примерно 20% от всех наблюдений – выбираются случайные 20% респондентов.

Данные – Отбор данных – Подвыборка – Точно

Вводится точное число респондентов из заданного количества.

Сортировка наблюдений

Данные – Сортировать наблюдения (по возрастанию/убыванию)

SORT CASES BY имя переменной (A) – возрастание

SORT CASES BY имя переменной (B) – убывание

Несколько переменных сортировки:

Последовательность переменных в списке будет определять порядок, в котором будут отсортированы наблюдения.

SORT CASES BY переменная 1 (A) переменная 2 (B).

Разделение наблюдений на группы – анализ данных раздельно по группам.

Группа – определённое количество наблюдений с одинаковыми значениями признаков.

Данные – Расщепить файл – Сравнить группы – По з/п (данные сортируются по возрастанию)

Для разделения по группам необходимо сначала отсортировать данные по признаку:

Данные – Сортировать наблюдения

Также позволяет ранжировать по выбранной переменной.

Лекция 20 (27.11)

Категоризация данных

Представление дискретных данных в интервальном вариационном ряде.

Равные интервалы используются тогда, когда вариация признака незначительна. В противном случае могут быть использованы неравные интервалы.

Выводим минимальное и максимальное значение через Анализ - Описательные статистики - Частоты - Статистики - Минимум; максимум.

Min = 15750

Max = 135000

1 группа - 15-30 тыс.

2 группа - 31-60 тыс.

3 группа - 61-90 тыс.

4 группа - 91-135 тыс.

Для организации групп выбираем пункт меню Преобразовать - Перекодировать в другие переменные.

В диалоговом окне выбрать переменную Зарплата, определить имя и метку новой переменной - Изменить - Старые и новые значения.

Выбираем поле Диапазон от наименьшего до указанного, определяем 1 группу - до 30000.

В поле Новое значение указываем "1".

Для определения второй группы в поле Диапазон вводим от и до.

Для организации четвёртой группы используем Диапазон от указанного значения до наибольшего.

В окне Переменные, используя столбец Значения, восстанавливаем Метки значений для 4-х значений.

ГС: пол / новая переменная.

Через кнопку Статистики - Значение Хи-квадрат. Этот коэффициент указывает на наличие/отсутствие связи между исследуемыми данными.

Если значение Хи-квадрат менее 0,05, связь считается статистически независимой, то есть значения зависимой переменной (зарплаты) не зависит от независимой (пол).

Вычисление новых переменных

В SPSS могут быть организованы новые переменные путём выполнения расчётов над имеющимися переменными.

Для формулировки числовых выражений применяют следующие арифметические операторы: +, -, /, *, **(степень).

Пример: имя переменной ± имя новой переменной.

Для построения новой переменной используем пункт меню Преобразовать – Вычислить переменную.

В диалоговом окне Вычислить переменную определяется имя новой переменной, а также тип и методы.

В поле Числовое выражение помещаем имена переменных.

Данная операция соответствует следующему командному синтаксису:

COMPUTE job = prevexp + jobtime

Процентное представление данных:

COMPUTE stag = (jobtime/prevexp) * 100

Применение встроенных функций

1. Функция ABS – возвращает абсолютное значение

COMPUTE job = ABS(prevexp - jobtime)

2. Функция RND – округляет до ближайшего целого числа

3. Функция SORT – возвращает квадратный корень

Статистические функции

Статистические функции рассчитываются для каждого респондента индивидуально, то есть по строкам. Эти функции могут иметь любое число параметров – переменных.

— SUM – возвращает сумму значений допустимых аргументов

— MEAN(переменная 1, переменная 2…) – среднее арифметическое

— SD(переменная 1, переменная 2…) – стандартное отклонение

— VARIANCE(переменная 1, переменная 2, переменная 3) – дисперсия

— CFVAR(переменная 1, переменная 2, переменная 3) – коэффициент вариации

— MIN(переменная 1, переменная 2, переменная 3) – наименьшее значение

— MAX(переменная 1, переменная 2, переменная 3) – наибольшее значение

Подсчёт частоты появления определённых значений

Подсчитать количество появления одного и того же значения или нескольких значений для определённой переменной.

Например: для 9 вариантов выбора видов спорта каждый респондент может отобрать от 0 до 9 видов.

1) Преобразовать – Подсчёт значений наблюдений

2) Задать имя и метку

3) Перенести переменные V02-V12 в список. Вводится отдельное значение, частоту которого необходимо посчитать

4) Задать значения (например, 1)

5) Создана новая переменная, значения которой от 0 до общего числа переменных. Можно задать несколько значений (например, 1,2)