Надёжность психологического теста

Содержание:

Содержание:

Если вы изучали психологию или другие родственные профессии, концепция надежности наверняка вам знакома. Но … из чего именно он состоит? Надежность в психометрии — это качество или свойство измерительных инструментов. (например, тесты), что позволяет проверить точность, согласованность и стабильность результатов измерений.

В этой статье мы расскажем вам, из чего состоит это свойство, назовем вам несколько примеров, чтобы прояснить концепцию, и мы объясним различные способы расчета коэффициента надежности в психометрике.

Статья по теме: «Психометрия: что это такое и за что отвечает?»

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

  • конвергентную валидизацию — проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
  • дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

Типы критериев валидности

Валидность теста — это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

  • критерий исполнителя (речь идет о квалификации и опыте исследователя);
  • субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
  • физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
  • критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Формальность

Этот пункт определяет подготовленность тестировщика перед началом проверки.

  • Тестирование по тестам – использование написанных заранее тест-кейсов.
  • Исследовательское тестирование – одновременная разработка тестов и их использование.
  • Свободное тестирование – проверка качества без разработки тестов и написания документации. Основывается на интуиции и опыте тестировщика.

Начинающие тестировщики редко работают на свободном уровне. А вот опытные QA-специалисты могут позволить себе проверку без дополнительной подготовки. Мастерство растёт со временем, как и оплата труда тестировщика. О том, сколько получают инженеры, читайте в нашем блоге.

Развитие

Как видно из самого толкования, надежность, точность и добросовестность представляют собой три взаимосвязанных сферы поведения, развивающихся в результате воспитания. Нельзя упускать из поля зрения вопрос об актуальных способностях, относительно которых требовались и развивались надежность, точность и добросовестность. Надежность человека чаще всего отражает то отношение к делу, которое обнаружили воспитатели (оказывающие воспитательное воздействие) по отношению к нему:

Можешь спокойно оставить все как есть, я потом уберу.

Берегись, если опоздаешь еще хоть раз!

Убери свои вещи оттуда, меня прошу оставить в покое!

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием.

Надежность теста — это критерий, который свидетельствует о Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Повышение надежности за счет тестирования

Исследования во время разработки и проектирования программного обеспечения помогают повысить надежность продукта. Тестирование надежности в основном выполняется для исключения режима отказа программного обеспечения. Жизненные испытания продукта всегда следует проводить после завершения проектной части или, по крайней мере, после завершения всего проекта. Анализ отказов и улучшение конструкции достигается посредством испытаний.

Тестирование роста надежности

Это тестирование используется для проверки новых прототипов программного обеспечения, которые изначально должны часто выходить из строя. Выявляются причины выхода из строя и принимаются меры по их уменьшению. Предположим, T — общее время, накопленное для прототипа. n (T) — количество отказов от начала до момента времени T. График для n (T) / T представляет собой прямую линию. Этот график называется графиком Дуэйна. Можно узнать, насколько надежность может быть получена после всех остальных циклов тестирования, и исправить это.

л п п ( Т ) Т знак равно — α л п ( Т ) + б ;                 . . . . . E q 1 {\ displaystyle {\ begin {alignat} {5} ln \ left = — \ alpha ln \ left (T \ right) + b ; \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ….. Уравнение: 1 \ end {alignat}}}

решение уравнения 1 для n (T),

п ( Т ) знак равно K Т 1 — α ;                     . . . . . . E q 2 {\ Displaystyle {\ begin {alignat} {5} n \ left (T \ right) = KT ^ {1- \ alpha}; \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \. ….. Уравнение: 2 \ end {alignat}}}

где K — e ^ b. Если значение альфа в уравнении равно нулю, надежность не может быть улучшена, как ожидалось, для данного количества отказов. Если альфа больше нуля, совокупное время T увеличивается. Это объясняет, что количество отказов не зависит от продолжительности теста.

Разработка тестовых примеров для текущего выпуска

Если в текущую версию программного обеспечения добавляются новые функции, то написание тестового примера для этой операции выполняется иначе.

  • Сначала спланируйте, сколько новых тестовых примеров нужно написать для текущей версии.
  • Если новая функция является частью какой-либо существующей функции, поделитесь между ними тестовыми примерами новых и существующих функций.
  • Наконец, объедините все тестовые примеры из текущей и предыдущей версий и запишите все результаты.

Существует предопределенное правило для подсчета количества новых тестовых примеров для программного обеспечения. Если N — это вероятность появления новых операций для новой версии программного обеспечения, R — это вероятность появления использованных операций в текущем выпуске, а T — количество всех ранее использованных тестовых примеров, тогда

NewTestcases(currentrelease)=(NR)∗T{\displaystyle {\begin{alignedat}{5}NewTestcases_{(currentrelease)}=\left({\frac {N}{R}}\right)*T\end{alignedat}}}

Ситуации, связанные с надежностью

– Мой сын приверженец строгих принципов – весь в отца.

– У моей жены изменчивое настроение, оно колеблется, как былинка на ветру. Еще вчера или час назад она говорит одно, а затем тут же все отрицает.

– Мои отличные качества в работе приводят к тому, что я каждый реестр товаров перепроверяю по пять-шесть раз. Иногда до И вечера еще сижу в бюро.

– Стоит только мне подняться со стула после исповеди, как тут же охватывает сомнение, во всем ли покаялся, поэтому для верности опять становлюсь в очередь и, пока дойду, наверняка, вспомню еще какой-нибудь грех или придумаю то, что, возможно, мог бы совершить.

– С тех пор как я узнал людей, доверяю только своей собаке.

– Если уж он пообещал что-нибудь, то упрямо выполнит обещанное, даже в тех случаях, когда ситуация полностью изменилась.

– Поступки моей жены не предсказуемы: сегодня так, а завтра эдак.

– Лишь эксплуатация по инструкции гарантирует надежность и безопасность

Примеры

Чтобы лучше проиллюстрировать, из чего состоит эта психометрическая концепция, давайте рассмотрим следующий пример: мы используем термометр для измерения дневной температуры в классе. Мы проводим измерения в десять часов утра каждый день в течение недели.

Мы будем говорить, что градусник надежен (имеет высокую надежность), если при ежедневном измерении более или менее одной и той же температуры термометр показывает это так (то есть измерения близки друг к другу, больших скачков нет. или большие разницы).

Однако, если измерения полностью отличаются друг от друга (температура примерно одинакова каждый день), это будет означать, что указанный прибор не обладает хорошей надежностью (поскольку его измерения нестабильны или непротиворечивы во времени).

Другой пример для понимания концепции надежности в психометрии: представьте, что мы ежедневно в течение нескольких дней взвешиваем корзину с тремя яблоками и записываем результаты. Если эти результаты сильно различаются на протяжении последовательных измерений (то есть, когда мы их повторяем), это будет означать, что надежность шкалы невысока, поскольку измерения будут непоследовательными и нестабильными (антагонисты надежности).

Таким образом, надежный инструмент — это тот, который показывает последовательные и стабильные результаты в повторяющихся процессах измерения определенной переменной.

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

Метод проверки внутренней согласованности не берет во внимание постоянство получаемых при повторном исследовании результатов. Он устанавливает взаимосвязь ответов, которые были даны в рамках одного эксперимента

Вопросы теста делятся на два перечня (по определенному принципу), после чего рассчитывается коэффициент корреляции между результатами.

Метод эквивалентных форм заключается в использовании двух или более тестов с разными формулировками заданий, но с одинаковой сутью, формой и степенью сложности выполнения. О надежности теста свидетельствуют одинаковые или приближенные результаты, которые были получены с использованием одного и того же измерительного прибора или вычислительной формулы. Если же итоги сильно расходятся, то, скорее всего, они были искажены намеренно или же испытуемый не очень ответственно подошел к процессу опроса.

Виды валидности теста

Выделяют следующие основные разновидности валидности теста:

  • конструктивная валидность теста — это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
  • валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
  • валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
  • прогностическая валидность — это качественный показатель, который позволяет оценить перспективное развитие параметра.

Какие виды принятия бывают?

Человеку свойственно строить иллюзии и воспринимать мир через призму своих убеждений и ожиданий. Поэтому большинство людей чем-то недовольны. Их не устраивает собственный социальный статус, здоровье, фигура, темперамент, характер и прочие особенности. Многих не устраивает поведение близких. Кроме того, большинство людей недовольно материальным положением и прочими обстоятельствами своей жизни. Соответственно, есть три вида принятия, направленных на эти аспекты.

1. Принятие себя

Объясняя, что такое принятие, обычно в первую очередь говорят об умении принимать себя. Человек может быть недоволен своим слабым здоровьем, физической формой или фигурой. Многие считают, что все их проблемы объясняются нехваткой силы воли или слабым характером, злятся на себя, но ничего не могут поделать.

Но научившись принимать себя таким, как есть, можно избавиться от лишних переживаний, и тогда эти проблемы будут гораздо меньше отравлять жизнь. Принятие себя – это принятие всех своих достоинств и недостатков, сильных и слабых сторон, удач и неудач, мудрых решений и ошибок. Всё это должно быть у гармоничной личности, поэтому не нужно корить и отвергать себя из-за своего несовершенства.

2. Принятие других людей

Сложно найти человека, которого всё устраивало бы в поведении окружающих. Большинству из нас сложно принимать даже близких людей, поскольку мы считаем, что некоторыми своими действиями они причиняют нам боль. И даже понимая, что они делают это не специально, мы всё равно ожидаем, что они не будут так поступать.

Принятие окружающих начинается с понимания того, что у них нет цели причинять вам боль. Они делают то, что хотят или считают правильным для себя. И если вам их действия неприятны, скорее всего, проблема в вас. Это вы не даёте им свободу действовать, как им хочется, а ждёте, что они во всём и всегда будут соответствовать вашим ожиданиям. Просто прекратите винить людей за их выбор и примите их такими, какие они есть.

3. Принятие обстоятельств

Наша жизнь не всегда складывается так, как нам того хотелось бы. И многие люди отказываются принимать это, сетуя на несправедливость. При этом они не замечают, что те, кому «постоянно везёт», на самом деле прикладывают к этому везению значительные усилия. Принятие обстоятельств подразумевает согласие с тем, что определённые вещи в нашей жизни могут не соответствовать нашим ожиданиям.

Важно понимать, что обстоятельства, которые одному кажутся несправедливостью, были бы весьма желанными для другого. Поэтому одним из лучших способов принятия обстоятельств является ведение дневника благодарности

У всех свои критерии восприятия, и вместо того, чтобы сетовать на несправедливость, нужно искать способ улучшить свою жизнь с учётом имеющихся возможностей.

Что такое принятие?

С точки зрения психологии, принятие – это признание человек всех аспектов действительности такими, какие они есть. Это подразумевает, что он признаёт своё тело, темперамент, характер, физическую форму, здоровье, способности и ограничения. Помимо самого субъекта, принятие может относиться к условиям его жизни, родственникам, друзьям и другим окружающим людям. Принятие – это способность видеть себя или другой принимаемый объект целиком, со всеми «хорошими» и «плохими» сторонами.

Принятие является залогом высокого качества жизни и душевного здоровья, поэтому каждый человек должен стремиться к нему. По сути, оно заключается в понимании того, что всё, что когда-либо происходило в вашей жизни, вам нужно. Все эти события давали вам опыт и выковывали ваш характер, делая вас тем, кем вы являетесь сегодня. Это не значит, что нужно покорно смиряться с каждой несправедливостью и подчиняться обстоятельствам. Это значит, что нужно принимать всё, что уже свершилось и как-то повлияло на обстоятельства вашей жизни.

Принятие подразумевает более осознанное восприятие жизни. Получив этот ценный навык, человек буквально избавляется от мешавших ему шор, которые были сформированы навязанными стереотипами. Он получает способность мыслить более ясно, видеть причинно-следственные связи, понимать причины разных событий, предсказывать последствия собственных поступков и решений.

Какие типы или виды тестирования используются в QA процессе?

Теперь, когда мы понимаем, что представляет собой процесс QA, давайте поговорим о различных типах тестов, используемых при тестировании программного обеспечения. Да, их очень много. Но волноваться не стоит. Как только вы поймёте, по каким принципам тесты делятся на группы, вы легко сможете в них ориентироваться.  

Функциональные и нефункциональные тесты

Основные категории тестов — это функциональные и нефункциональные тесты.

При функциональном тестировании мы проверяем, работает ли приложение должным образом. Другими словами, мы проверяем, соответствует ли фактический результат ожидаемому результату.

В нефункциональном тестировании мы проверяем, как наше приложение работает в различных условиях. Нагрузочные тесты, тесты безопасности, стрессовые тесты и тесты удобства пользования — все они попадают в эту категорию.

Знание исходного кода

Если тестировщики знают исходный код до тестирования, речь идет о тестировании “белого ящика” (white box testing). В противном случае мы имеем дело с тестированием “черного ящика” (black box testing), когда тестировщики оценивают только поведение приложения, не зная его внутреннего устройства. Тестирование “серого ящика” (grey box testing) представляет собой комбинацию этих двух подходов. Тестировщикам предоставляется ограниченная информация о внутренней структуре системы.

Подход к выполнению тестов

Некоторые тесты выполняются людьми, и мы говорим о ручном тестировании. При этом подходе тестировщики выполняют тестовые сценарии и создают отчеты о результатах.

Другие тесты выполняются компьютерами. Инженеры по автоматизации тестирования создают сценарии автоматического тестирования и пишут код, который многократно проверяет программное обеспечение на наличие ошибок. Здесь мы имеем дело с автоматическим тестированием.

У каждого из этих подходов есть свои плюсы и минусы. Они дополняют друг друга. Например, ручное тестирование лучше подходит для проверки небольших изменений. Во время ручного тестирования тестировщики часто могут найти такие проблемы, которые остались бы незамеченными, если бы они полагались только на автоматизированные тесты. Ручное тестирование не требует глубоких знаний языков программирования и его достаточно легко освоить. 

В то же время, при работе над большими приложениями, тестирование без использования автоматических тестов может занять слишком много времени. Мы также не можем исключить вероятность человеческих ошибок.

Для каждого отдельно взятого проекта QA специалисты определяют идеальный баланс между ручным и автоматическим тестированием.

Фаза разработки программного обеспечения

Мы разделяем тесты на модульные, интеграционные, системные — в зависимости от того, на каком этапе цикла разработки программного обеспечения находится команда.

Вот еще несколько типов тестов, с которыми вы часто будете сталкиваться в публикациях:

Дымовые тесты (smoke tests) предназначены для проверки базовой функциональности приложения. Это быстро выполнимые тесты, с помощью которых тестировщики следят за тем, чтобы основные функции системы работали правильно.

Регрессионные тесты (regression tests)  помогают проверить, работает ли приложение так, как оно должно работать, после внесения каких-либо изменений, например исправления дефектов.

Нагрузочные тесты (load tests) необходимы для проверки приложения как при средней, так и при пиковой нагрузке.

Кроссбраузерное / кроссплатформенное тестирование помогает анализировать поведение приложения в различных браузерах и системах.

Конечно, это не все типы тестов, которые используются в процессе разработки программного обеспечения. Но знание этих основных категорий поможет вам лучше ориентироваться в теме QA.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием. Надежность теста — это критерий, который свидетельствует о точности измерений. Существенными считаются следующие свойства тестов:

  • воспроизводимость результатов, полученных по итогам исследования;
  • степень точности методики измерения или соответствующих приборов;
  • устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

  • надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
  • стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
  • объективность результата (то есть его независимость от личных предпочтений исследователя).

Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

  • провести тестирование испытуемых по новому тесту;
  • выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
  • рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
  • статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Статьи в журнале «Гуманитарные научные исследования»

Елшанский С.П., Ануфриев А.Ф., Камалетдинова З.Ф., Сапарин О.Е., Семёнов Д.В. Некоторые психометрические показатели русскоязычного варианта Шкалы субъективного счастья С. Любомирски и Х. Леппер

Елшанский С.П., Ануфриев А.Ф., Камалетдинова З.Ф., Сапарин О.Е., Семенов Д.В. Некоторые психометрические показатели русскоязычной версии Шкалы удовлетворенности жизнью

Семенов Д.В., Елшанский С.П., Ануфриев А.Ф., Ефимова О.С. Русскоязычная версия Шкалы инициативы к личностному росту К. Робичек

Елшанский С.П., Ануфриев А.Ф., Камалетдинова З.Ф., Сапарин О.Е., Семёнов Д.В. Некоторые психометрические показатели русскоязычной версии Эмоционального теста М. Фордайса

Выводы

Валидность и надежность тестов — это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

МИНОБРНАУКИ
РФ

Государственное
образовательное учреждение

Высшего
профессионального образования

«Поволжская
государственная социально-гуманитарная
академия»

Кафедра
социальной педагогики, психологии и
педагогики начального образования

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector