Лекции.Орг


Поиск:




Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

 

 

 

 


Проблемы объективности психодиагностической информации




Объективность психодиагностики вообще и тестовых пока­зателей в частности достигается путем неуклонного соблюде­ния психологом критериев достоверности психодиагностичес­кого измерения, а также путем приобретения опыта получения, использования и интерпретации полученных данных.

Достоверность психодиагностического измерения опреде­ляется валидностью (соответствием тестовых данных измеряе­мому свойству), надежностью (точностью психодиагностичес­ких измерений) и прогностичностью (предположением о раз­витии измеренного свойства) применяемых психологических методик (тестов).

Валидность тестов

Валидностью как элементом достоверности психодиагнос­тического измерения свойств субъекта называется мера соот­ветствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности человека. В теории психометрии определяют два основных типа и по крайней мере одиннадцать видов валидности методик (см. рис. 7).

Рис. 7. Структура валидности

Различают два типа валидности — внешнюю и внутреннюю*. Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность**. Вне­шняя валидизация осуществляется путем расчета репрезента­тивности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабаты­вался стимульный материал и задания к тесту.

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001.— С. 133-193.

** Там же.

 

Репрезентативность выборки — это представительность эк­спериментальной выборки, которая отражает основные свой­ства генеральной совокупности. Репрезентативность опреде­ляется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристи­ками исследуемой популяции с целью определения их одно­родности.

К качественным характеристикам могут быть отнесены со­циально-демографические, видовые, интеллектуальные (обра­зовательные), профессиональные и другие характеристики по­пуляции (группы), которые являются предметом исследования или существенно влияют на него.

Количественная характеристика экспериментальной груп­пы — это минимальная ее численность, сохраняющая свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П. А. Чебышева о вероятности ошибки реп­резентативности, которая гласит: «С вероятностью сколь угод­но близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней» и далее (следствие 1 из теоремы П. А. Чебышева) «...что с вероят­ностью, как угодно близкой к единице («практически досто­верно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик»*.

* Карасев А.И. Основы математической статистики. — М.: Росвузиздат, 1962. — С. 172.

В психологической литературе существует несколько тео­ретических подходов к расчету объема минимально репрезен­тативной выборки*. Часто приводятся таблицы опытно полу­ченных данных**. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10000 и более 10 тыс. человек минимальная выборка составляет соот­ветственно 200, 222, 286, 333, 370, 398 и 400 испытуемых (указ. публ., с. 28). Г. Лоза указывает на следующее соотношение ге­неральной совокупности и объема экспериментальной выбор­ки при проведении социологических исследований 100/16-17 чел., 300/50 чел., 1000/100 чел. и 5000/200 испытуемых. В лек­ции А. Гончарова минимальная репрезентативная выборка от­носительно генеральной совокупности соответственно состав­ляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000 - 400 респондентов.

* Введение в профессию. — М.: Воениздат, 1992; Карасев А.И. Основы математи­ческой статистики. — М.: Росвузиздат, 1962; Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. — СПб.: Питер-Ком, 1999 и др.

** Введение в профессию. — М.: Воениздат, 1992; Москвин С. Выборка в социоло­гическом исследовании // Военно-социологическое исследование, 1993. С. 27-30; Гон­чаров А.И. Методы изучения общественного мнения и социальной информации (Лек­ция). - М.: ГА ВС, 1993.

 

В ходе анализа психологических данных для расчета объема минимальной репрезентативной выборки используются следу­ющие формулы:

1) формула расчета объема минимальной репрезентативной выборки* при нахождении доли элементов генеральной сово­купности, обладающих некоторым признаком (номинальная измерительная шкала):

* Карасев А.И. Основы математической статистики. — М.: Росвузиздат, 1962. — С. 213.

 

2) формула расчета объема минимальной репрезентативной выборки* при нахождении средней признака (интервальная измерительная шкала):

*Там же, с. 212.

 

3) формула расчета объема минимальной репрезентативной выборки*:

где n— объем минимальной репрезентативной выборки испы­туемых;

t — коэффициент кратности ошибки, связанный с вероят­ностью гарантии ошибки выборочного наблюдения (вели­чина t-критерия Стъюдента);

δ — величина стандартного отклонения;

D — размер ошибки доверительного интервала измерения признаков;

N — объем генеральной совокупности;

p — частота проявления данного признака;

q = 1 - р.

* Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. -СПб.: Питер-Ком, 1999. - С. 64-65.

 

Практическое задание. Рассчитать объем минимально-реп­резентативной выборки испытуемых, если объем генеральной совокупности 5000 чел., а вероятность проявления исследуе­мого признака («угадывания» при помощи теста) — 0.8.

Дано: t — коэффициент кратности ошибки, связанный с вероятностью (Pt), с которой требуется гарантировать резуль­таты выборочного наблюдения; D — размер ошибки довери­тельного интервала измерения признаков = 0,05; N — объем генеральной совокупности = 5000; р — частота проявления дан­ного признака = 0.8; q = 1 — р = 0.2.

Определить: n — минимально необходимую численность экспериментальной выборки.

Ответ: n = 235.

Вывод: При повышении достоверности измерений проис­ходит заметное уменьшение объема минимально репрезента­тивной выборки. Аналогичное влияние отказывает точность измерений (D).

Перекрестная валидизация производится путем апроба­ции теста на выборке, отличной от экспериментальной. Пе­рекрестная валидизация осуществляется для того, чтобы оп­ределить границы применения методики по критерию «ха­рактеристика популяции» (для определения уровня развития свойства у детей, подростков, мужчин-женщин, определен­ной группы специалистов и т. д.). В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученными в результате тестирования разных групп испытуемых. Вывод о возмож­ности применения теста на данной популяции делается при помощи параметрических критериев (t-критерий Стъюдента, n — критерий Уэлша).

Практическое задание. Рассчитать объем эксперименталь­ной выборки по критерию обучаемости испытуемых (приме­нялся тест ОСО*).

* ОСО — тест «Оценка общей способности к обучению».

 

Дано:

Группа 1 (школьники 9-го класса — 15 лет):

Количество испытуемых n = 471

Среднее значение показателя Мх = 3.75

Среднеквадратическое отклонение δ = 1.4

 

Группа 2 (школьники 10-го класса — 16 лет):

Количество испытуемых n =178

Среднее значение показателя Мх = 3.66

Среднеквадратическое отклонение δ = 0.8

 

Группа 3 (курсанты училища связи — 18 лет):

Количество испытуемых n=104

Среднее значение показателя Мх = 3.20

Среднеквадратическое отклонение δ=1.1

 

Решение: Для расчетов используется формула t-критерия:

* Экспериментальные выборки значимо не различаются на уровне р≤0.05.

** Экспериментальные выборки значимо различаются на уровне р≤0.05.

Вывод: в результате расчетов выявлено значимое различие показателей обучаемости между первой и третьей и между вто­рой и третьей исследованными группами, которые не могут счи­таться однородными и составлять единую совокупность. Толь­ко между первой и второй выборками по данному критерию не существует значимых различий (р<0.05). В целях проверки валидности первую и вторую группы можно объединить в одну экспериментальную выборку и считать единой популяцией в количестве 649 человек.

Уяснив содержание внешней валидности методик, перейдем к рассмотрению аспектов внутренней валидности.

Внутренняя валидность — это мера соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из пяти элементов:

а) концептуальная (теоретическая) валидность — теорети­ческое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством;

б) содержательная валидность — степень репрезентативно­сти содержания заданий теста измеряемой области психичес­ких свойств;

в) конструктная валидность — степень репрезентативности исследуемого психологического конструкта в результатах теста («насколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта — фактора, свой­ства»)*

г) операционная валидность — степень репрезентативнос­ти в конкретных экспериментальных операциях реальных опе­рациональных условий психической деятельности;

д) эмпирическая валидность — совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся так называемые очевидная и критериальная виды валидности.

* Анастази А. Психологическое тестирование. В 2-х книгах. — М.: Педагогика. Т 1. С. 140.

Очевидная валидность — это представление о тесте, сфере его применения, результативности и прогностической ценно­сти, которое возникает у испытуемого и другого лица, не рас­полагающего специальными сведениями о характере исполь­зования и целях методики.

Критериальная валидность — комплекс характеристик, включающий текущую и прогностическую валидности методи­ки и отражающий соответствие диагноза и прогноза определен­ному кругу критериев развития измеряемого свойства. Крите­риальная валидность оценивается величиной связи, корреля­ции показателя теста с «внешним критерием».

Эмпирическая валидность измеряется при помощи коэффи­циентов валидности.

Текущая [диагностическая (конкурентная)] валидность* мера способности теста дифференцировать испытуемых по изу­чаемому признаку. Текущая валидность теста определяется ис­ходя из его «трудности» и мер изменчивости измеряемого при­знака.

* Текущая, диагностическая и конкурентная валидности здесь употребляются как синонимы.

 

Трудностью теста называется отношение количества решен­ных заданий методик к нерешенным заданиям*. Уровень труд­ности характеризуется коэффициентом трудности (Тт), кото­рый вычисляется по формулам А и Б.

* Анастази А. Психологическое тестирование. В 2-х книгах. — М.: Педагогика. Т. 1.С. 180-182.

 

где Np— количество решенных заданий теста; Nh — количе­ство нерешенных заданий теста.

Оптимальная «трудность теста», рассчитанная с помощью формулы А, должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения край­не затруднительно. На практике критериальная «трудность» рассчитывается для всей тестовой батареи и уже ее значение должно колебаться в пределах 50%, а «трудность» входящих в нее тестов - находиться в пределах «умеренного разброса». Видимо, этот «умеренный разброс» находится в пределах d, то есть ± 16%. (Следует также учитывать 5%-ю ошибку вычисле­ний.)

где δ — стандартное отклонение, которое вычисляется по фор­муле:

Трудность теста, рассчитанного по формуле (Б), находится в пределах от 1 до 25 (цифры 13 и 4 выбраны экспериментально в целях исключения отрицательных и дробных показателей и удобства расчетов). Средняя трудность теста имеет значение 13.

Практическое задание. Рассчитать трудность тестовой бата­реи, состоящей из двух субтестов.

Решение:

К мерам изменчивости измеряемых признаков, как прави­ло, относят характеристики распределения эмпирических дан­ных (нормальность распределения) и характеристики вариации признаков.

Нормальность распределения данных определяет числен­ную характеристику дифференциации испытуемых. Она вычис­ляется при помощи критерия Хи-квадрат Пирсона, а также с использованием коэффициентов асимметрии и эксцесса рас­пределения переменных.

Ширина полосы разброса данных по шкале измерений от min до max; это характеристика вариации признаков. Простей­шими измерителями вариации признаков являются размах ва­риации R (это разность между наибольшим и наименьшим зна­чениями признаков, то есть R = xmax — xmjn) и дискриминатив-ность заданий — субтестов (способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно «максимального» или «минимального» результата теста). Мера соответствия успешности выполнения одного субтеста всей методике является показателем дискриминативности заданий теста и называется коэффициентом дискриминации (индексом дискриминативности). Индекс дискриминативности теста рас­считывается в процессе разработки тестов и тестовой батареи. Он вычисляется при помощи а) точечно-биссериального ко­эффициента корреляции (Rpb) (см. выше) и б) метода контрас­тных групп в виде разности между долей лиц, правильно ре­шивших задание из «высокопродуктивной» и «низкопродуктив­ной» групп (D)*.

* См. Словарь-справочник по психологической диагностике / Бурлачук Л.Ф., Морозов С.М. - Киев, 1989. - С. 47-48.

 

Наибольший интерес представляет характер группировки значений признака вокруг их средней. Мерой ее определения являются дисперсия (среднеквадратическое отклонение) и ко­эффициент вариации (V), который определяется как отноше­ние дисперсии (dx) к среднему (Мх), выраженное в процентах:

Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая ва­риативность признаков говорит о том, что распределение ненор­мально, асимметрично и сильно скошено. Малая вариативность показывает, что тест не дифференцирует испытуемых по измеряе­мому признаку (испытуемые отвечают или решают задание оди­наково). При анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать МЕРУ, которая вырабатывается в процессе накопления опыта диагнос­тической работы и статистической обработки данных.

Прогностическая валидность является элементом содержа­ния достоверности тестов и определяется как степень точнос­ти и обоснованности суждения о диагностируемом психичес­ком свойстве по его результату спустя определенное время после измерения.

Показателем прогностичности теста является степень рег­рессии тестовых данных к объективным критериям. Регрессия представляет собой функцию f (х1 х2 х3,... хn), описывающую зависимость среднего показателя теста, измеряющего данное свойство от заданных фиксированных значений реального про­явления этого свойства (внешнего критерия — у). Эта функция может носить линейный и нелинейный характер (линейная рег­рессия: у = b + ах; параболическая зависимость: у = b + ах + сх2; гиперболическая зависимость: у = b + а/х; показательная функция: у = b + а).

В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линей­ную или множественную линейную регрессию (у = b + а1 х12 х2… +аn хn). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой пере­менной. Коэффициент а показывает угол наклона оси регрес­сии, а свободный член b — отстояние начала оси регрессии от начала координат. Коэффициент корреляции показывает уро­вень прогностичности функции, a R2 - уровень объясняемой дисперсии у за счет изменения х. При использовании тестовой батареи прогноз измеряемого свойства осуществляется посред­ством связанных между собой нескольких зависимых переменных (х1, x2, x3,... xn), которые и формируют множественную ли­нейную регрессию. При использовании множественной линей­ной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его дос­товерность за счет перекрытия разными методиками различных сторон измеряемого свойства.

Надежность тестов*

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 103-132.

 

Надежность — это характеристика психодиагностической методики, отражающая точность психодиагностических изме­рений, а также устойчивость (стабильность) результатов теста к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования.

Наибольшая стабильность результатов наблюдается при применении графических и графологических тестов, показате­ли которых меняются крайне медленно. Медленно изменяется почерк, практически неизменными остаются качество линий рисунков и их композиция.

Наибольшая динамичность показателей наблюдается у ин­теллектуальных тестов, которые напрямую зависят от способ­ности человека накапливать и перерабатывать информацию.

На устойчивость (стабильность) показателей теста влияют следующие факторы:

• состояние и настроение обследуемых;

• мотивация испытуемых к тестированию;

• эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);

• характеристика деятельности (монотонность-динамич­ность, помехи и др.);

• степень обучаемости (или натренированности) испытуе­мых и др.

Надежность результатов тестирования зависит также от а) изменчивости инструмента психологического измерения и б) факторов стабильности самой процедуры измерения. Таким образом, надежность есть степень согласованности результа­тов тестирования, получаемых при первом и последующих измерениях.

На практике наиболее широко применяются шесть типов надежности: надежность ретестовая (тест-ретест надежность); надежность параллельных форм; надежность частей теста (на­дежность как гомогенность тестов); надежность по Кудеру -Ричардсону; надежность интерпретатора («оценщика») и стан­дартная ошибка измерений.

Определение коэффициента надежности в первых двух слу­чаях вычисляется по формулам расчетов коэффициентов кор­реляции (в зависимости от шкалы, в которой измерены дан­ные) между первым и последующим измерениями или между параллельными формами теста.

Расчет коэффициента надежности при исследовании го­могенности теста осуществляется путем разбиения теста на равные субтесты и расчета корреляции между этими частя­ми. Для определения общей надежности теста полученные коэффициенты корреляции вводятся в формулу Спирмена -Брауна:

где R — корреляция «половин» теста.

Если части теста являются отдельными дихотомическими заданиями, например вопросами, на которые может быть два ответа (да или нет), или заданиями с оценкой результата как правильного, так и неправильного, используется формула:

где рi— доля 1-го варианта ответа на i-й вопрос;

qi — доля 2-го варианта на i-й вопрос.

Надежность частей теста может также рассчитываться по формуле Кудера — Ричардсона:

где К — количество равных частей теста;

δxi2 - дисперсия i-й части теста;

δх2 — дисперсия целого теста.

 

При работе с клиническими опросниками, тестами креатив­ности и проективными технологиями надежность методик опре­деляется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Высокие коэффициенты корре­ляции между ними показывают надежность тестовой оценки.

Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квад­рат. Интерпретируется он следующим образом. Например, коэф­фициент корреляции между параллельными формами теста равен 0.75. Коэффициент надежности рассчитывается так: 0.752= 0.56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельно­го теста), а 44% — от ошибок или случайных переменных.

Разберем гипотетический пример определения надежности двух форм теста* в ходе исследования креативности 100 школь­ников. В результате коэффициент надежности взаимозаменяе­мых форм с интервалом ретестирования две недели составил 0.7. Была вычислена надежность-гомогенность тестов при по­мощи формулы Спирмена — Брауна, которая составила 0.8. Надежность интерпретации («оценщика») с привлечением вто­рого специалиста-психолога была равна 0.92. Анализ источни­ков дисперсии ошибок показан в таблице.

* См. Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 120-121.

 

Анализ источников дисперсии ошибок в исследуемом тесте
По надежности взаимозаменяемых форм (с временным интервалом две недели) 1 — 0.7 = 0.3 (ошибка ретеста + ошибка гомогенности)
По надежности эквивалентных половин теста (формула Спирмена — Брауна) 1 — 0.8 = 0.2 (ошибка гомогенности)
Разность 0.3 — 0.2 = 0. 1 (ошибка ретеста)
По надежности интерпретации («оценщика») 1 — 0.92 = 0.08 (различия между интерпретациями)
Суммарная оценка дисперсии ошибок 0.2 + 0.1 + 0.08 = 0.38
Истинная дисперсия 1 — 0.38 = 0.62

 

Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста.

 

«Истинная» дисперсия: 62% Дисперсия ошибок: 38%
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями («оценщиками»). Ошибка гомогенности: 20% Ошибка ретеста: 10% Различия между интерпретациями; 8%

 

Надежность теста можно выразить посредством расчета стандартной ошибки измерений — SEM (стандартная ошибка показателя)*. Она рассчитывается по формуле [33].

где δx — стандартное отклонение показателей теста;

Rxx — значение коэффициента надежности.

* См.: Анастази А., Урбина С. Психологическое тестирование. — СПб., 2001. — С. 127-131.

 

Физический смысл SEM заключается в определении дис­персии показателей конкретного теста вокруг «истинного по­казателя», которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нор­мального распределения психологических данных попадает в интервал Мх ± δx, то примерно два шанса против одного (68: 32), что ошибка измерений будет «колебаться» в пределах ± 1 SEM. При увеличении плотности распределения данных, например –Мx± 3 SEM, увеличивается и вероятность предсказания (99.7:0.3) при соответствующем росте интервала ошибки в обе стороны.

Пример: рассчитаем стандартную ошибку измерений при помощи тестов CFIT и Равена. Интеркорреляция между пока­зателями тестов составляет 0.81. Стандартное отклонение — 15. Результирующий показатель исследуемой методики CFIT ра­вен, допустим, 110 IQ-баллов.

Это означает, что при определении «истинного» IQ и соотно­шении шансов удачного предсказания истины 2: 1 (или 68: 32) ошибка будет колебаться в интервале ±1.5 IQ-баллов. И «ис­тинный» показатель теста находится в пределах от 103.5 до 116.5.

При увеличении вероятности прогноза до соотношения 99.7: 0.3 (3 ± δx) ошибка возрастает до ± 19.5, а «истинный» показа­тель займет место между 90.5 и 129.5.

Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.





Поделиться с друзьями:


Дата добавления: 2016-12-06; Мы поможем в написании ваших работ!; просмотров: 1270 | Нарушение авторских прав


Поиск на сайте:

Лучшие изречения:

Начинайте делать все, что вы можете сделать – и даже то, о чем можете хотя бы мечтать. В смелости гений, сила и магия. © Иоганн Вольфганг Гете
==> читать все изречения...

2282 - | 2063 -


© 2015-2024 lektsii.org - Контакты - Последнее добавление

Ген: 0.008 с.