طراحی و تحلیل پرسشنامه نوذر نخعی استاد پزشکی اجتماعی دانشگاه علوم پزشکی کرمان کلیات • پرسشنامه مجموعه اي از سؤاالت است كه براي اندازه گيري يك پديده ذهني بكار مي رود .پرسشنامه ميتواند توسط خود فرد تكميل گردد و يا از طريق مصاحبۀ رودرو و يا تلفنی تكميل گردد. • هنر پرسشنامه آن است كه دادههاي نرم و مفاهیم انتزاعی را (آنچه در ذهن پاسخگو مي گذرد) به حالت عيني قابل اندازه گيری (داده سخت) تبدیل می نماید. • هيچگاه درصدد ساخت پرسشنامه برنياييد! • اپنهايم در مقدمه كتاب طراحي پرسشنامه (چاپ سال 1966 ميالدي) بيان ميدارد« :دنيا پر از مردمان فهيمي است كه تصور ميكنند طراحي پرسشنامه كار هركس ي است .اين كتاب براي آنان نوشته نشده است در مجموع هنگام استفاده از پرسشنامه ،پژوهشگر دو راه دارد: الف)استفاده از پرسشنامههاي استاندارد؛ ب) استفاده از پرسشنامههاي پژوهشگر ساخته. • منظور از پرسشنامه استاندارد پرسشنامهاي است كه به واسطه يك پژوهش و با «هدف ساخت پرسشنامه» به دنياي علم معرفي شده باشد ،به طوریکه شواهد روان سنجي و مورد تأييد بودن اين پرسشنامه در قالب يك مقاله علمي – پژوهش ي يا مقاله بين املللي ارائه گرديده باشد .پايان نامه يا ارائه پوستر شواهد مستدلي دال بر استاندارد بودن پرسشنامه تلقي نميشوند ،اگرچه كه برخي پژوهشگران از پايان نامه نيز به عنوان مرجع استاندارد بودن پرسشنامه در پژوهشهاي خود استفاده مينمايند. • به طور کلی استفاده از سواالت استاندارد به دو علت ارجح است: • اول آنکه روایی و ویژگی های روان سنجی این سواالت مستدل تر است • دوم آنکه امکان مقایسه نتایج با یافته های سایر پژوهشگران فراهم می شود. گروه های متفاوتی با این پرسشنامه سروکار خواهند داشت سياستگذاران ،مسئولين و سایر پژوهشگران مشاركت كنندگان كه الزم است پرسشنامه ساده قابل فهم ومختصر باشد تا وقت زيادي از آن گرفته نشده و آنان را خسته ننمايد. واردكننده داده ها به رايانه كه الزم است از نظر كدگذاريساده باشد. مصاحبه گر كه نيازمند يك پرسشنامه كم حجم و غيرپيچيدهجهت تسهيل فرآيند پرسشگري است. • • • • به طور خالصه جهت نهايي شدن يك پرسشنامه سه مرحله الزم است طي شود: -1مرحله او ل :مرحله برنامهريزي و طراحي سؤاالت -2مرحله دوم :مرحله اجراي آزمايش ي از دو بعد شناختي كه در آن قابل قبول بودن و قابل فهم بودن سؤاالت آزمون ميشود -3بعد كمي اصول اخالقي در پرسيدن سؤاالت • رعايت حريم شخص ي ، • رضايت آگاهانه • و حفظ سر مشاركت كنندگان • privacy • - informed consent • - confidentiality چه كنيم ميزان مشارکت و پاسخدهي افراد افزايش يابد؟ • بر اساس يك قاعده سرانگشتي ،در صورتي كه بيش از 70 درصد كساني كه جهت تكميل پرسشنامه دعوت به همكاري شدهاند ،اقدام به تكميل آن نمايند (چه از طريق مصاحبه و چه خودايفا) ،ميتوان چنين نتيجهگيري نمود كه روايي بيروني مطالعه قابل قبول است. • • • • سه علت براي عدم تکمیل پرسشنامه توسط افراد ميتوان متصور شد: الف) عدم دريافت پرسشنامه ب) امتناع از گرفتن پرسشنامه يا پاسخ به سؤاالت ج) فراموش نمودن تكميل پرسشنامه را ه های افزایش پاسخ دهی -1تماس قبلي با پاسخگويان و هماهنگي با آنان -2توجيه پاسخگويان و برقراري ارتباط مناسب با آنان -3تهيه نمودن هديه جهت پاسخگويان -4استفاده از حمايت سازمانها و افراد مورد وثوق جهت جلب مشاركت پاسخگويان -5ارسال پرسشنامه به اسم شخص مخاطب (پاسخگو) به صورت تايپ شده -6تضمين بدون نام بودن پرسشنامه سؤاالت پرسشنامه را در چهار دسته كلي جاي دارد الف) سؤاالت مبتني بر واقعيات موجود كه در مورد خصوصيات افراد و موضوعاتي كه اتفاق افتاده است پرسش مي نمايد .سؤاالت زمينهاي (مانند سن ،جنس، وضعيت تأهل) در اين گروه قرار ميگيرند. ب) سؤاالت رفتار سنجي كه در مورد آنچه كه مردم انجام ميدهند ،پرسش مينمايد .سؤاالت مربوط به سنجش عملكرد افراد در اين گروه قرار ميگيرند ج) سؤاالت آگاهي سنجي كه آگاهي ،اطالعات و مهارت هاي شناختي افراد نسبت به يك موضوع پرسش مينمايد. د) سؤاالت نگرش سنجي و پرسشگري پيرامون حاالت رواني اشخاص .البته پاسخ داده شده به اين سؤاالت به شفافي سه گروه قبل قابل اثبات نيستند چرا كه ذهن افراد را به طور مستقيم نمي توان خواند! سؤاالت رفتار سنجي • سؤاالت رفتارسنجي به دو گروه تهاجمي (حساس) و غيرتهاجمي ميتوانند باشند. • سؤاالت رفتارسنجي غيرحساس برخالف سؤاالت تهاجمي و نيز سؤاالت نگرش سنجي خيلي به نحوه بيان پرسش وابسته نیستند ،و بيشتر تحت تأثير دو عامل می باشند؛ قابل فهم بودن و تأثير حافظه. نکات مهم در طراحی سواالت غير حساس • هنگام پرسش پيرامون عملكرد شخص طي يك مدت خاص و کوتاه (مانند هفته و ماه) بهتر است زمان به طور دقيق ً مشخص شود ،تا اينكه به صورت كلي پرسيده شود .مثال هنگامي كه ميپرسيم« :آيا طي يك ماه،گذشته سيگار ً كشيدهايد» بهتر است با ذكر تاريخ باشد مثال اگر 25آبان اين سؤال را ميپرسيم در پرانتز ذكر نماييم منظور « 25مهر ماه تاكنون». • وقايع چشمگير و برجسته مانند خريد منزل و ازدواج در مقايسه با وقايع كم اهميتتر آسانتر به ياد ميآيند .در خصوص وقايع مهم و برجسته پرسيدن در يك چارچوب زماني دو تا سه سال منطقي به نظر ميرسد ولي در مورد موضوعات معمولي بهتر است بازه زماني مورد سؤال حداكثر بين دو هفته تا يك ماه باشد. Telescoping • به اين مفهوم كه افراد وقايع را نزديكتر از آنچه هست ،به ياد ميآورند .به طور مثال هنگامي كه مي پرسيم در هفته گذشته چندبار با دوستان خود قليان كشيدهايد ،ممكن است ده روز گذشته را تخمين بزنند • توصيه ميشود زمان دو هفته تا يك ماه ،براي پرسشگري پيرامون رفتارها در نظر گرفته شود. • برخالف سؤاالت نگرش سنجي كه تأكيد ميگردد ،سؤاالت كوتاه و مختصر بيان شوند ،بهتر است سؤاالت رفتارسنجي كمي تشريحيتر نوشته شوند تا به حافظه و فهم افراد كمك نموده و پاسخهاي دقيقتري داده شود. • البته متذكر ميگردد كه طوالني نمودن سؤال در مورد سؤاالتي كه پذيرش اجتماعي كمتري دارند به افزايش همكاري پاسخگو كمك بيشتري مينمايد ،ولي در مورد رفتارهای مثبت ممكن است منجر به بيش گزارش دهي شود. • ممكن است از پاسخگو راجع به رفتارهاي ديگران بپرسيم. ً مثال در مورد مقدار مصرف مواد توسط دوستان .در مجموع پرسشگري در مورد رفتار سايرين سبب ميشود 10تا 20 درصد از دقت گزارشات كاسته شود . • ولي در مورد رفتارهاي منفي و يا سؤاالت حساس ممكن است دقت پاسخ ها افزايش يابد روشهاي حساسيت زدايي از سؤاالت تهاجمي متداولترين روش فائق آمدن بر حساسيت سؤاالت استفاده از پرسشنامههاي خود ايفا است .اين روش هم براي حل مشكل كم گزارش دهي در رفتارهاي نامطلوب و هم براي حل مشكل بيش گزارش دهي در خصوص رفتارهاي مطلوب كاربرد دارد • پرسشنامهها به صورت دسته جمعي توزيع گردند .به ويژه در محل هايي كه افراد به طور معمول به شيوة تجمعي حضور دارند • در جمع آوري پرسشنامهها ،محرمانه بودن و غيرقابل ردگيري بودن پرسشنامهها تضمين گردد .به اين شكل كه در وسط كالس يا محل تجمع افراد يك صندوق تعبيه گردد و از افراد خواسته شود پس از تكميل پرسشنامهها ،آنها را داخل اين جبعه دربسته بياندازند تا كس ي دسترس ي مستقيم به پرسشنامه در لحظه تحويل آن نداشته باشد. • روش ديگر استفاده از تكنيك پاسخهاي تصادفي شده است كه حدود نيم قرن پيش ارائه گرديد. • در سالهاي اخير روش هاي سادهتري نيز ارائه شده است كه از آن جمله ميتوان به روش ضربدري اشاره نمود • استفاده از سؤاالت طوالنيتر ميتواند منجر به همكا ري بيشتر مشاركت كنندگان شود ،به طوري كه تا حد 25تا 30 درصد در مقايسه با سؤاالت كوتاه افزايش پاسخ مثبت ميتواند رخ دهد • در پرسيدن راجع به رفتارهاي منفي بهتر است از بازه زماني گذشته استفاده شود تا حال .به طور مثال پرسيده شود: «آيا تا به حال براي يك بار هم شده است لب به الكل زده باشيد؟» به جاي «آيا در حال حاضر الكل استفاده مينماييد؟» در عوض براي رفتارهاي مورد تأييد مانند بستن كمربند ايمني بايد برعكس سؤال نمود • استفاده از روش «همه اين كار را ميكنند» ،براي كاستن از ً قباحت موضوع از ديد پاسخگو ،مثال در متن سؤال بيان ميكنيم« :به نظر ميرسد در حال حاضر مصرف قليان در اماكن عمومي از جمله پاركها رو به افزايش است .شما تا به حال پيش آمده كه با دوستانتان در پارك قليان بكشيد؟». • - everybody does it • يكي از راههاي ديگر آن است كه بنا را براين بگذاريم كه ً پاسخگو اين رفتار را انجام ميهد .مثال به جاي آنكه بپرسيم «آيا سيگار ميكشيد» و سپس سؤال نمايیم «اگر بلي ،روزی چند نخ؟» به اين شكل پرسش نماييم« :روزانه چند نخ سيگار ً اصال» را نيز بگنجانيم ميكشيد؟» و گزينه « • استفاده از نظر تأييدي افراد صاحبنظر براي القاء اين ً ً موضوع كه رفتار مورد سؤال كامال ناپسند نيست .مثال «هنوز برخي از پزشكان ترياك را براي درمان برخي از بيماريها تجويز مينمايند .آيا شما طي يك ماه گذشته ترياك مصرف نمودهايد؟». ً مثال ذكر • آوردن توجيه براي روي آوردن به يك رفتار نادرست . شود كه «برخي براي آنكه بر اعصاب خود مسلط شوند به سيگار روي مي آورند .شما تا به حال شده است كه سيگار بكشيد؟» آری از پشت کوه آمده ام... چه می دانستم این ور کوه باید برای ثروت ،حرام خورد؟ برای عشق خیانت کرد برای خوب دیده شدن دیگری را بد نشان داد برای به عرش رسیدن دیگری را به فرش کشاند وقتی هم با تمام سادگی دلیلش را می پرسم می گویند :از پشت کوه آمده ترجیح می دهم به پشت کوه برگردم و تنها دغدغه ام سالم برگرداندن گوسفندان از دست گرگ ها باشد ،تا اینکه این ور کوه باشم و گرگ "محمد بهمن بیگی" سؤاالت نگرش سنجي • ارزيابيهاي افراد نسبت به پديدههاي پيرامون كه در ذهن خود دارند • نظر پيرامون يك جزء محدود است و با يك سؤال سنجيده ميشود ،در حالیکه مجموعهاي از نظرات تشكيل دهنده نگرش است ،و نگرش پيچيدهتر و مفصلتر از "نظر" است و با چندين سؤال پرسيده ميشود .البته ذكر اين نكته الزم است كه اين دو واژه در بسياري از پژوهشها معادل يكديگر بكار ميروند • در يك تقسيم بندي ،نگرش به دو دسته تصريحي (آشكار) و تلويحي (ضمني) تقسيم ميشود .نگرش تصريحي ،نگرش ي است كه از آن به عنوان نگرش هوشمندانه نيز ياد ميشود .يعني ارزيابي فرد نسبت به وقايع و پديدهاي اجتماعي بر اساس تفكر بر موضوع ص ورت ميپذيرد .به عبارتي نگرش تصريحي نمايانگر افكار عقايد و باور بر مبتني ضمني يا تلويحي نگرش كه حالي در ماست، هاي ً ناخودآگاه اشخاص ي است و لذا در روشهاي اندازه گيري آن گاها به ابزارهاي فيزيولوژيك مانند ميزان تعريق ،رسانش پوستي و ... متوسل ميشوند • در طراحي سؤاالت نگرش سنجي مهمترين و اولين گام آن است كه به اين سؤال در ذهن خود پاسخ دهيم كه «به دنبال چه هستيم» و نه چيزي بيشتر • سؤاالت نگرش سنجي به سه نوع هستند: ي • شناختي ،ارزشيابي و رفتار به بیانی دیگر ميتوان سؤاالت نگرش سنجي به صورت ABC`s of attitudeتقسيم بندي نمود: :Aحرف اول كلمه Affect :Bحرف اول كلمه Behavior :Cحرف اول كلمه Cognition كه حيطه affectيا عاطفي (احساس ي) را می توان معادل حيطه evaluationيا ارزشيابي تلقي نمود. • هنگام طراحي عبارات نگرش سنجي عالوه بر رعايت اص ول كلي طراحي سؤاالت پرسشنامه ،الزم است بار ارزش ي سؤاالت هم از نوع منفي و هم از نوع مثبت باشد. • بهتر است سؤاالت نگرش سنجي پس از طرح سؤاالت رفتارسنجي و آگاهي سنجي قرار داده شوند ،از اين جهت كه پاسخ به سؤاالت رفتارسنجي تحت الشعاع پاسخهاي داده شده به سؤاالت نگرش سنجي قرار نگيرند Example سؤاالت روان نگاري • پژوهشهاي روان نگاري و سبك زندگي برخي اوقات به عنوان AIOيا سنجش «فعاليتها ،عاليق و نظرات» نيز نام برده ميشوند .اين پژوهشها با هدف ترسيم خصوصيات يك جمعيت هدف مانند مصرف كنندگان اكستازي به كار ميروند .از طريق اين پژوهشها ميتوان جهت طراحي اقدامات پيشگيرانه مصرف م واد، چرا اقدامات دقيقتري نمود و تا حدي به اين سؤال پاسخ داد كه افراد متفاوت رفتارهاي متفاوت دارند .به بيان سادهتر اين نوع پژوهشها نيمرخ و عكس و تصوير جمعيت هدف را ترسيم مينمايند- • - activities, interests, and opinions • در صورت تمايل به ساخت پرسشنامههاي پژوهشگر ساخته ،در ابتدا بر اساس بررس ي متون وسيع ،نظرخواهي از افراد صاحبنظر و تشكيل جلسات بحث گروهي متمركز ،الزم است عناوين خصلتهاي متفاوت مشخص و در قالب ً مقياس ليكرت (ارجحا 9درجهاي تا 11درجه ای) از افراد ً راجع به خودشان سؤال شود .مثال خصوصياتي همچون تلقين پذيري ،منطقي بودن ،عاطفي بودن ،اجتماعي بودن، كنجكاو بودن ،درون گرا بودن ،و تكانش ی بودن. • به طور مثال ضمن طرح موضوع ،از مخاطب خواسته می شود دور عدد مناسب را خط بکشد: من خودم را يك آدم كنجكاو ميدانم. • بسيار مخالفم • بسيار موافقم • ً مثال • به طور معمول جهت گروه بندي افراد جمعيت هدف ( مصرف كنندگان شيشه) بر اساس خصوصيات مورد بررس ي ،از روش آماری تحليل خوشهاي استفاده ميشود. سؤاالت آگاهي سنجي • قبل از طرح سؤاالت آگاه سنجي ،الزم است نقشه طرح ً سؤاالت مشخص شود .مثالدر بررس ي «ميزان آگاهي پزشكان عمومي درباره داروي ترامادو ل» پژوهشگران پس از مطالعه متون و مشورت گروهي به اين نتيجه رسيدند كه سؤا الت مورد نظر در اين حيطهها باشند )1 .دسته دارويي و فارماكو كينتينك )2 ،وابستگي )3 ،عالئم مسموميت )4 ،مصارف درماني )5 ،تداخالت دارويي )6 ،اشكال دارويي و دوزاژ ،و )7 عوارض جانبي. مجموع • پس از آن فرمت يا شكل سؤال بايد تعيين گردد .در استفاده از سؤاالت بسته در مقايسه با سؤاالت باز و تشريحي اولويت بيشتري دارد .اگرچه طرح سؤاالت بسته و چند گزينهاي مشكلتر از سؤاالت تشريحي است ،ولي تصحيح آن به خصوص در حجم نمونههاي باال راحتتر است .اينكه پاسخ سؤاالت به صورت چهار گزينهاي باشد ،يا صحيح/غلط ،بهتر است پاسخها به صورت صحيح ،غلط و اطالعي ندارم باشد. • تنها اشكال سؤاالت صحيح/غلط آن است كه احتمال حدس زدن را افزايش ميهد كه براي كاهش اين احتمال از دو شيوه ميتوان استفاده نمود .اول آنكه گزينه «اطالعي ندارم» نيز اضافه شود تا پاسخگو مجبور به انتخاب يكي از دو گزينه «صحيح» يا «غلط» نباشد ،دوم آنكه تعداد سؤاالت بيشتر باشد تا تأثير حدس و گمان در نمرۀ كل كاهش يابد .الزم به ذكر است براي مشاركت كنندگان نيز پاسخ به عبارات صحيح -غلط آسانتر از پاسخ به سؤا الت چهارگزينهاي است .بهتر است به جاي «نميدانم» ،از واژه «اطالعی ندارم» استفاده شود ،تا پاسخگو آن را بياحترامي به خود تلقي ننمايد • در توزيع سؤاالت آگاهي سنجي الزم است در همان زمان پرسشنامهها جمعآوري شوند تا پاسخگو فرصت مراجعه به منابع جهت انتخاب پاسخ صحيح را نداشته باشد .لذا اين پرسشنامهها نبايد از طريق پستي يا شبكه اينترنتي تكميل گردند سؤاالت زمينه اي و دموگرافيك اين گروه از سؤاالت را ميتوان سؤاالت مبتني بر واقعيات موجود نيز ناميد كه در مورد خصوصيات مختلف مرتبط با افراد جمعيت هدف تنظيم ميگردند. به طور معمول سؤال در مورد سن و جنس در زمینه اكثر مطالعات پرسشنامهاي وجود دارد .سؤال در مورد جنس به صورت بسته پرسيده ميشود. مؤنث جنس :مذكر در صورتي كه نقش اجتماعي افراد مورد نظر باشد ،واژه مترادف جنس، genderميباشد و در صورتي كه ماهيت فيزيولوژيك مدنظر باشد واژه مترادف جنس sex ،ميباشد سؤال از سن ميتواند به دو شكل باشد: الف) سن........:سال ب) تاريخ تولد13......./......... /.........: كه در حالت دوم احتمال دقيقتر بودن پاسخ بیشتر است زیرا در حالت اول سؤال حساستر جلوه مينمايد و برخی تمایلی به ذکر سن خود به طور دقیق ندارند. • دقت نماييد كه ساير سؤاالت دموگرافيك در صورتي پرسيده شود كه در تحليل نهايي مورد استفاده قرار گيرند .چرا كه افزودن سؤال اضافي نه تنها سبب خستگي پاسخگو ميشود بپرسد بلكه ميتواند در وي ايجاد حساسيت نمايد و از خود «چرا اين سؤاالت را از من ميپرسند؟» و حتی نزد خود چنين نتیجه گيری نماید که «ممکن است از روی سواالت زمینه ای من را شناسایی کنند». تحصيالت كه پيشنهاد ميشود به صورت گزينه هاي زير مطرح شود: ب) خواندن و نوشتن/ الف) بي سواد ابتدايي د) دبيرستان /ديپلم ناقص ج) راهنمايي يا سيكل و) تحصيالت دانشگاهي هـ) ديپلم • بايد در نظر داشت سؤال در مورد سطح تحصيالت ،شغل ،و درآمد همگي ناظر به طبقه اقتصادي اجتماعي اشخاص ميباشند و اگرچه هيچكدام شاخص مستقيمي از طبقه اقتصادي اجتماعي نميباشند ،شاخص سطح تحصيالت از دو شاخص ديگر عينيتر بوده و مقايسه پذيري نتايج با ساير پژوهشها را بهتر فراهم ميآورد • توصيه ميشود متغيرهاي دموگرافيك در انتهاي پرسشنامه آورده شوند ،چرا كه نه تنها ايجاد حساسيت در پاسخگ و نمينمايند (ممكن است در صورتي كه در ابتداي پرسشنامه آورده شوند ذهن پاسخگو را مشغول خود نموده كه شايد از اين طريق قابل شناسنايي شوند) ،بلكه آوردن آنها در ابتداي پرسشنامه ميتواند به كم نمودن انرژي پاسخگو و خسته نمودن وي در پاسخ به سؤاالت انتهايي منجر شود. Searching the literature • • • • • • • Questionnaire Scale Tool Inventory Instrument Test checklist روشهاي جمعآوري دادهها از طريق پرسشنامه مصاحبه و خودتكميلي • روش مصاحبه به سه شيوه رودر رو ،تلفني و رايانهاي قابل انجام است • چه موقع سؤاالت پرسشنامه را از طريق مصاحبه تكميل نماييم؟ -1بي سواد يا كم سواد بودن مخاطبين -2ماهيت سؤاالت به گونهاي باشد كه نيازمند توضيح براي پاسخگويان باشد. -3مشاركت كنندگان به عللي تمركز حواس چنداني نداشته و الزم باشد از طريق مصاحبه حواس آنان را جمع نمود. -4نياز به جمع آوري دادههاي حساس در شرايطي كه اطمينان داريم بين پاسخگو و مصاحبه كننده حس تفاهم و ارتباط خوبي از پیش برقرار است- - 5استفاده از رفتارهاي غيركالمي سبب مشاركت بيشترمصاحبه شونده و نيز رفع تناقض در پاسخها شود. -6براي كدگذاري پاسخها نياز به قضاوت باشد. روش مصاحبه داراي نقاط ضعفي است -1در روش مصاحبه احتمال كم گزارشدهي رفتارهاي منفي بيشتر ميشود. -2با توجه به آنكه پاسخگويان بسته به سؤالي كه ميپرسند، توضيحات مختلفي دريافت ميكنند ،پرسشگري از يك رويه متحدالشكل براي همه برخوردار نخواهد بود واين ممكن است سوگيري در نتايج ايجاد نمايد. -3خصوصيات پرسشگر و مهارت وي تأثير قابل توجهي بر كيفيت دادههاي جمع آوري شده دارد. -4محرمانه بودن داده ها تا حدي تحت الشعاع قرار ميگيرد. -5مستلزم صرف وقت و هزينه بيشتري ميباشند. اصول و قواعد مهم در طراحي پرسشنامه -1در قالب بندي پرسشنامه اولويت اول بايد به پاسخگو ،در درجه دوم نيازهاي مصاحبه كننده و در نهايت به اپراتور رايانه كه دادهها را وارد نرم افزار ميكند داده شود. -2اندازه و شكل فونتها بايد به گونهاي باشد كه خواندن پرسشنامه براي كليه خوانندگان راحت و بدون زحمت باشد ،هم از نظر سايز فونت و هم از نظر نوع فونت ،قلمهايي همچون زر، ميترا ،لوتوس بيشتر از ساير قلمها توصيه ميشود و اندا زه فونت سؤاالت نيز حتي املقدور از 12كوچكتر نباشد. -3بهتر است سؤاالت شماره گذاري شوند ،تا پاسخگو هم بداند چند سؤال را بايد جواب دهد و هم اينكه ضمن پيشرفت كار ،با پيگيري شمارهها احساس رضايت نمايد. -4در صورتي كه پرسشنامه از حيطههاي مختلف تشكيل شده ً باشد ،مثال نگرش ،عملكرد و آگاهي ،بهتر است براي هريك از گروه هاي سؤاالت نام گذاري مجزا شود. -5بهتر است گزينههاي يك سؤال نيز شماره گذاري شوند. در مواقعي كه گزينهها از نظر مفهومي ،خود از يك ترتيب خاصتبعيت مينمايند ،باالترين شماره يا كد به گزينهاي داده شود كه ً تلويحا و از نظر مفهومي ،عدد بيشتري به آن تعلق ميگيرد .به طور مثال در مقياس ليكرت 5درجهاي به «بسيار مخالفم» کد 1و به «بسيار موافقم» کد 5داده شود. -7سعي شود كه كل سؤال و گزينههاي آن در يك صفحه قرار گيرند. -8برخي براي آنكه پرسشنامه كوتاهتر جلوه نمايد ،به صورت دو ستوني آن را تهيه ميكنند .توصيه ميشود پرسشنامه به صورت يك ستوني تهيه شود .بهتر است گزينههاي سؤاالت چندگزينهاي به صورت عمودي باشد ،ولي ميتوان گزينهها را نيز به صورت رديفي تنظيم نمود -9اگر از پرسشنامه استاندارد استفاده مينماييد ،سعي نماييد قالب بندي پرسشنامه اصلي رعايت شود. -10توصيه ميشود مقدمه ابتدايي پرسشنامه با نام خداوند مهربان شروع شود ،و در سطر دوم نام پرسشنامه آورده شود وپس از آن (سطر سوم) سالم و احترام خطاب به پاسخگو آورده شود .بعد از آن هدف از پژوهش ،تأكيد بر بينام بودن (مگر در پيمايشهاي روند يا كوهورت) نيز ذكر شود ،و سپس از همكاري آنان تشكر گردد .در پايان الزم است نام خانوادگي و عنوان پژوهشگر آورده شود .برخي توصيه مينمايند ،روي هر پرسشنامه يك برگه روكش وجود داشته باشد ،و در برگه روكش موارد مندرج در بند 10آورده شود. 11توصيه ميشود ،پرسشنامه به صورت كتابچه اي درآورده شود .يعنياز وسط صفحه منگنه بخورد نه قسمت گوشه باالي صفحه .زيرا با اين نيز شيوه عالوه بر صرفه جويي در كاغذ ،شكل ظاهري پرسشنامه حرفهاي تر جلوه مينمايد و پاسخگو با جديت بيشتري پرسشنامه را تكميل مينمايد .در صورت استفاده از الگوي يك صفحهاي، پرسشنامهها به صورت يك رو تكثير و منگنه شوند. -12استفاده از كاغذهاي رنگي اولويتي نسبت به كاغذ سفيد ندارد. -13بسته به مخاطب ميتوانيد از حاشيههاي متفاوت ،با استفاده از نرم افزار آفيس جهت زيباتر نمودن ظاهر پرسشنامه استفاده نمايید. ظاهر پرسشنامه اهميت داده شود .البته سعي -14در مجموع سعی شود به ِ شود بيش از دو فونت ،و دو رنگ استفاده نشود .همچنين فضاي خالي به حد كافي وجود داشته باشد. نصیحت سقراط • پیش از آن که سقراط را محاکمه کنند ،از وی پرسیدند : بزرگ ترین آرزویی که در دل داری چیست؟وی پاسخ داد: در آتن بزرگ ترین آرزوی من این است که به باالترین مکان چرا با صعود کنم و با صدای بلند به مردم بگویم :ای رفقا! این حرص و ولع بهترین و عزیزترین سال های عمر خود را به جمع آوری ثروت می گذرانید ،در حالی که آن گونه که باید و شاید در تعلیم و تربیت اطفالتان که مجبور هستید روزی ثروت خود را برای آنان باقی گذارید همت نمی گمارید؟ قواعد محتوايی • سعي شود از عبارات ساده و قابل فهم استفاده شود و از واژههايي كه مبهم هستند و تعابير مختلفي از آن ميشود استفاده نشود ً (مانند احتماال ،ممكن است ،شايد) • از طرح سؤاالت دوپهلو و چند جنبهاي پرهيز شود .سؤال خوب سؤالي است كه فقط يك چيز را اندازهگيري نمايد و يك پاسخ ً سنجي «مصرف سيگار و الكل در داشته باشد .مثال عبارت نگرش ِ سيگار و جوانان رو به افزايش است» ،دو موضوع جداگانه يعني الكل را ميسنجند • - double-barreled • از پرسيدن سؤاالت منفي پرهيز شود .منظور سؤاالتي كه بيان ادبي سؤال از واژههاي منفي استفاده شده باشد نه ً سؤالي كه بار ارزش ي منفي دارد .مثال «ترك الكل از ترك هرويين آسانتر نيست» .زيرا براي مغز پردازش اين سؤا الت دشوار است و عالوه بر آن احتمال خطاي تصادفي نيز افزايش مييابد • ترتيب سؤاالت به گونهاي باشد كه سؤاالت كلي ً در ابتدا و سؤاالت اختصاص يتر بعد از آن آورده شود .مثال در ابتدا ديدگاه مخاطب نسبت به مواد مخدر و سپس نسبت به ترياك ،هروئين و ...به صورت مجزا پرسيده شود و نه بالعكس. افيك انتهاي پرسشنامه آورده ر دموگ سؤاالت چنين هم • ً شوند ،نه ابتداي آن ضمنا سؤاالت رفتارسنجي قبل از سؤاالت نگرش سنجي آورده شوند • سعي شود كه تعداد سؤاالت به حدي باشد كه سبب خستگي سؤاالت متعددي را از منابع مختلف كنار پاسخگو نشود .برخي ِ يكديگر چسبانده و به عنوان پرسشنامه نهايي استفاده مينمايند. ً اين امر اصطالحا Fishing expeditionگفته ميشود يعني سريع سر و ته قضيه را به هم ميآورند! بدون آنكه به اين امر توجه داشته باشند كه آيا تك تك اين سؤاالت ما را به هدف اوليه خود ميرسانند. • يك راه براي پيشگيري از اين آفت آن است كه تك تك سؤا الت را جداگانه بخوانيم و از خود بپرسيم «اطالعات بدست آمده از اين سؤال به چه درد من ميخورد؟» • از سؤاالت مبهم كه هر شخص تفسير خاص خود را از آن ً دارد ،بپرهيزيم .مثال اگر بپرسيم «اهل كجاييد؟ شهر ،روستا» پاسخگو ممكن است برايش اينگونه تداعي شود كه «منظور پرسشگر چیست؟» اين كه كجا به دنيا آمدهام يا كجا بزرگ شدهام يا كجا در حال حاضر زندگي ميكنم • در محيطهاي بسته سعي كنيد اگر پرسشنامه حاوي سؤاالت حساس است ،حتي املقدور سؤال باز در پرسشنامه نهاده نشود .به بيان ديگر پرسشگر ممكن است به اين فكر بيفتد كه «از روي دست خطم ممكن است شناخته شوم». اين توصيه در محيطهايي همچون مدرسه ،دانشگاه ،زندان صدق مي كنند. • در صورتي كه احساس ميكنيد پاسخهاي مشاركت كنندگان ميتواند جالب ،راهگشا و دور از انتظار باشد ،ميتوانيد از سؤال باز استفاده كنيد .با توجه به وقت گير بون تحليل سؤاالت باز ،توصيه ميشود در صورتي از سؤاالت باز استفاده شود كه حجم نمونه كمتر از 50باشد .به هر حال مقدار سؤاالت باز بهتر است محدود و كم باشد. • در مورد مدت زمان مصاحبه توصيه مي شود طول مدت مصاحبه تلفني حداكثر 10دقيقه ،مصاحبه رودر رو حداكثر ً يك ساعت (ارجحا نيم ساعت) و پرسشنامه خود ايفا حداكثر 100سؤال داشته باشد. • بهتر است سؤاالت باز انتهاي پرسشنامه آورده شود ،چون هم وقت گير هستند و هم جريان پاسخ به سؤاالت را كمي تغيير ميدهند. • سعي شود ،سؤال از پاسخ متمايز شود .يا سؤال يا پاسخ، پررنگ شود. • هنگام مرتب نمودن گزينهها ،آنها را از كم به زياد قرار دهید ً (از راست به چپ) .مثال ( )1هرگز )2( ،به ندرت ()3 گاهگاهي ،و ( )4اكثر اوقات. • عالوه بر اين بهتر است در تنظيم گزينههاي يك سؤال كه ً مثال در مقبوليت اجتماعي دارد ،از حداقل آن شروع نماييم . پاسخ به اين سؤال كه «آيا از كمربند ايمني هنگام رانندگي استفاده مينماييد» چنين نوشته شود :هرگز ،بسيار كم ،و ... نظر در مورد تعداد گزينهها در مقياس ليكرت ،الزم است در بگيريم آيا در نظر گرفتن گزينه حد وسط كارگشاست يا خير. ً مثال در صورتي كه هدف رضايت سنجي باشد ،پژوهشگر تمايل دارد بين افراد راض ي و ناراض ي تمايز قائل شود ،لذا در نظر گرفتن گزينه حد وسط الزام چنداني ندارد .ولي هنگامي كه ميخواهيم نگرش افراد را سنجيم ،استفاده از گزينه حدوسط اهميت بيشتري مييابد. اگرچه مراجع متفاوت در اين خصوص نظرات متفاوتي ارايه ميهند ،ولي غالب پرسشنامهها از مقياسهاي پنج درجهاي يا هفت درجهاي استفاده مينمايند • در صورت استفاده از گزينه حدوسط بهتر است به جاي عبارت «نظري ندارم» ،نوشته شود «نه موافق نه مخالف» چون به هر شكل افراد بدون نظر نميتوانند باشند ،و ابراز اينكه «نه موافقم و نه مخالف» خود نوعي اظهارنظر است. الزم به ذكر است نامگذاري مقايسه پنج درجه اي از هفت درجهاي سادهتر است .به نظر ميرسد فرد بودن تعداد گزينهها بر زوج بودن آن اولويت دارد • توجه داشته باشيم كه در برخي مواقع ممكن است آزمودني به سؤاالتي پاسخ دهد كه حتي با نزديك ترين دوست خود هم در ميان نگذاشته باشد .با اين ديدگاه كه پرسشگر فرد غريبهاي است كه وي را نميشناسد و اطالعات نيز قابل ردگيري نميباشند. • مشاركت داوطلبانه و آگاهانه در پژوهش صحت پاسخ به اينگونه سؤاالت حساس را افزايش ميدهد. • هنگام طراحي يك پرسشنامه جديد ميتوان از سؤاالت ً ً پرسشنامههاي نسبتا مشابه استفاده نمود .مثال براي طراحي سؤاالت نگرش سنجي نسبت به قليان ميتوان از سؤاالتي نگرش سنجي نسبت به سيگار كه پيشينه پژوهش ي غنيتري ً دارد استفاده نمود .معموال استفاده از پرسش ها به صورت مگر موردي نياز به كسب اجازه از مبدع پرسشنامه ندارد هر حال آنكه پرسشنامه مورد نظر تحت كپي رايت باشد .به ذكر مراجع مورد استفاده الزم است- ً افراد در • مراقب سوگيری مقبولیت اجتماعی باشید .معموال پاسخ به سؤاالت تمايل دارند كه انساني مثبت و خوب جلوه نمايند .يكي از داليلي كه سبب ميشود در سؤاالت حيطههاي متفاوت (دموگرافيك ،رفتارسنجي ،نگرش سنجي و آگاهي سنجي) افراد گزينههاي مثبت و خوب را عالمت بزنند آن است كه تمايل دارند خود را به گونهاي نشان دهند كه جامعه (اخالقي) توقع دارد كه آنان باشند • جهت فايق آمدن بر سوگيري از مقبوليت اجتماعي پيشنهاد ميشود ،عالوه بر استفاده از تكنيكهاي طرح سؤاالت حساس ،از سؤاالت با بار مثبت و منفي هر دو استفاده شود و عالوه بر آن در هنگام توزيع پرسشنامهها مصاحبه، توضيح و توجيه الزم در جهت جلب مشاركت صادقانه پاسخگويان و غيرقابل شناسايي بودن پرسشنامهها داده شود Cross-cultural adaptation • A previously validated instrument does not necessarily mean it is valid in another time, culture or context. • Instruments that were validated some time ago may not be valid in the present time due to changes in society that occur continuously Stage I: Initial Translation forward translation • Bilingual translators whose mother tongue is the tar-get language. • The two translators should have different profiles, or backgrounds. • Translator 1.One of the translators should be aware of the concepts being examined (clinical perspective) • Translator 2. The other translator should neither be aware nor informed of the concepts being quantified and preferably should have no medical or clinical back-ground. (naïve translator) Stage II: Synthesis of The Translations • It is important that consensus rather than one person’s compromising her or his feelings resolve issues (third independent person). Stage III: Back Translation • Two back-translations are considered a minimum. • The back-translations (BT1 and BT2) are produced by two persons with the source language (English) as their mother tongue. The two translators should neither be aware nor be informed of the concepts explored, and should preferably be without medical background. Stage IV: Expert Committee • The minimum com-position comprises methodologists, health professionals, language professionals, and the translators (forward and back translators) involved in the process up to this point. • The original developers of the questionnaire are in close contact with the expert committee during this part of the process. Equivalence between the source and target version in four areas • Semantic equivalence: Do the words mean the same thing? Are their multiple meanings to a given item? Are there grammatical difficulties in the translation? • Idiomatic Equivalence. Colloquialisms, or idioms, are difficult to translate. Equivalence • Experiential Equivalence. Items are seeking to capture and experience of daily life; however, often in a different country or culture, a given task may simply not be expe-rienced (even if it is translatable). • Conceptual Equivalence. Often words hold different conceptual meaning between cultures (for instance the meaning of partner. Stage V: Test of the Prefinal Version • Ideally, between 30 and 40 persons should be tested. • Each subject completes the questionnaire, and is interviewed to probe about what he or she thought was meant by each questionnaire item and the chosen response. • Equivalence in an applied situation Pretesting • Respondents are probed for their understanding, acceptability and emotional impact of the items in order to detect confusing or misleading items. • Interviews are conducted until a preestablished percentage of under-standing is achieved for all items (e.g.≥90%). Stage VI: • Submission of Documentation to the Developers or Coordinating Committee for Appraisal of the Adaptation Process نکته در ترجمه مترجمين همواره يك ترجمه مفهومي را در ذهن داشته باشند .بهعبارتي در ترجمه لغات و عبارات به جاي ترجمه تحت اللفظي و واژه به واژه ،معادل مفهومي آن را در نظر داشته باشند. سعي شود عبارات ترجمه شده شفاف ،ساده و مختصر باشند .ازجمالت طوالني مشتمل بر چند بند پرهيز شود. مخاطبين متن بايد افراد معمولي باشند ،نه افراد حرفهاي شاغل دربخش سالمت. -از واژههاي فني استفاده نشود پيش آزمون پرسشنامه حداقل تعداد الزم 10نفر ميباشد • ِ الف) برداشت آنها از هريك از سؤاالت چيست؟ ب) آيا ميتوانند سؤال را به زبان خود بازگو نمايند؟ ج) در صورتي كه كلمه يا عبارت خاص ي را نميفهمند ،يا به نظرشان آن عبارت یا واژه توهين آميز و حساسیت زاست است ،مطرح نمايند؟ د) اگر در ترجمه جايگزينهاي متفاوتي براي كلمات يا جمالت وجود داشته باشد ،از مخاطبين پرسيده شود كه كدام را ترجيح ميدهند. اين سؤاالت براي تك تك سؤاالت پرسشنامه بايد تكرار شود اندازه گيري و مفاهیم آن Alternative definition Measurement is the process of linking abstract concepts to empirical indicants. Zellar & Carmines Concepts • • • • • Weight Distance Depression Test anxiety Marital satisfaction Indicants • • • • • Pounds/grams/tons meters, kilometers ????? ????? ????? متغير :خصوصيت قابل اندازه گيري كه مقادير متفاوتي به خود ميگيرد .متغير صفتي است كه به طور مستقيم قابل مشاهده باشد يا اينكه بتوان با يك وسيله اندازه گيري ديگر آن را سنجيد، مانند سن و جنس. مفهوم :صفتي است كه به طور مستقيم قابل اندازه گيري نيست، بلكه به طور غيرمستقيم با يك متغير ديگر سنجيده ميشود .مانند طبقه اقتصادي اجتماعي كه با شاخص سطح تحصيالت يا شغل به طور غيرمستقيم سنجيده ميشود. • سازه :صفتي است كه به طور مستقيم قابل اندازه گيري نيست ،بلكه به طور غيرمستقيم با چند مفهوم يا متغير ديگر سنجيده ميشود .مانند افسردگي كه ميتوان آن را با پرسشنامه استاندارد بك سنجيد .بنابراين پرسشنامهها، ً ماهيتا به دنبال اندازهگيري سازه ميباشند. • چك ليست :فهرستي از سؤاالت عيني و قابل مشاهده كه هر سؤال متغيير خاص خود را ميسنجد (به طور معمول از نظر وجود يا عدم وجود) .به عبارتي چك ليست برخالف سازه كه «صفتي است كه به طور مستقيم قابل اندازه گيري نيست»، مجموعهاي از عبارات و سؤاالت است كه تك تك آنها به طور مستقيم قابل اندازه گيري اند (از طریق مشاهده). مقياس :مجموعهاي از سؤاالت است كه نمره آنها با يكديگر قابل جمع است (با يا بدون وزن دادن) و در نهايت منجر به يك نمره ميشود. ً داده سخت :دادههاي عيني كه به طور مستقيم (غالبا از طریق مشاهده) و فشار خو ن. ياند مانند قد ، به واسطه ابزار آزمايشگاهي قابل اندازه گير ً داده نرم :دادههاي ذهني كه معموال در قالب واژهها و نه اعداد و ارقام بيان ميگردند .هنر پرسشنامه آن است كه دادههاي نرم را به دادههاي سخت (عدد و رقم) تبديل مينمايد. - scale - score - objective - subjective چندبعدي بودن :برخي متغيرها يا سازهها تك بعدياند ،يعني از اجزاء ريزتر تشكيل نشدهاند .مثل تشنگي ،قد و ضريب هوش ي .ولي برخي سازهها در ظاهر تك بعدي ولي در عمل از ابعاد متفاوت تشكيل ً شدهاند .مثال رضايت از بیمارستان اگرچه در ظاهر يك چيز را ميسنجد ولي در درون از ابعاد متفاوتي از جمله تسهيالت و امكانات ،هزينه ،و نحوه برخورد و مهارت پرسنلي ميتواند تشكيل شود. ي :تخصيص اعداد و ارقام به اشياء و رخدادها بر اساس اندازه گير قواعدي مشخص ي عبارت ليكرتي :منظور عبارت يا سؤالي است كه با الگو ليكرتي گزينههاي آن تنظيم شدهاند .به طور مثال« ميزان موافقت خود را با هريك از عبارت زير بيان داريد» .که به دنبال آن در مقابل هر عبارت چنين نوشته ميشود: بسيار مخالفم /مخالفم /نه موافق نه مخالف /موافقم /بسيار موافقم كه اين حالت ليكرت پنج درجهاي است و همانطور كه مالحظه ميشود شامل يك طيف دوقطبي است مقياس ليكرت :منظور مجموعهاي از سؤاالت با مقياس ليكرت است. يكي از سوگيريهايي كه در مقياس ليكرت رخ ميهد .سوگيري فرمانبرداري يا تسليم است .به اين شكل كه برخي پاسخگويان تمايل دارند كه با تمامي عبارت موافقت نمايند .براي همين توصيه ميشود ،سؤاالت نگرش سنجي از هر دو معناي مثبت و منفي برخوردار باشند. • - Likert scale • - acquiescence bias مقياس ليكرت رتبهاي است يا فاصلهاي • از آنجايي كه مقياس ليكرت حاصل جمع نمره تعدادي عبارت ليكرتي است ،لذا حاصل جمع سؤاالت ،يا ميانگين نمره پرسشنامهها به عنوان متغير فاصلهاي ميتواند در نظر گرفته شود .در مورد مقياس مشابه چشمي ،با توجه به آنكه فواصل بين ارقام يكسان است ،نمره حاصله به عنوان متغير فاصلهاي در نظر گرفته ميشود • The debate on Likert scales and how they should be analysed, therefore, clearly and strongly goes to the intervalist position, if one is analysing more than a single Likert item. • Using means and standard deviations, and it is perfectly appropriate to use parametric techniques like Analysis of Variance to analyse Likert scales. ي) :بر اساس اين تئوري • تئوري نمره واقعي (خطاي اندازه گير كالسيك نمرهاي كه از يك پرسشنامه بدست ميآيد (نمره مشاهده شده) برابر است با مجموع نمره واقعي شخص و نمره حاصل از خطا .كه اين خطا به دو دسته خطاي تصادفي و خطاي منظم تقسيم ميشود. • X = T + er + es • - true score theory )- observed score (X )- true score (T )- random error (er )- systematic error (es • • • • • خطاي تصادفي :اين خطا ناش ي از هر عاملي است كه به طور تصادفي اندازه گيري را تحت تأثير قرار ميدهد ،كه از آن به خطاي نمونه گيري نيز ياد ميشود و برخي به آن خطاي خصلتي گ ويند. ً مثالخلق و خوي افراد ميتواند پاسخ افراد را به سؤاالت قرار دهد. پرسشنامه در لحظه تكميل پرسشنامه تحت تأثير خود آنچه كه مهم است خطاي تصادفي ميانگين نمره گروه را جابجا انحراف معيار نميكند ولي ميتواند منجر به به افزايش گوناگوني و نمره گردد • - sampling error. • - trait error • خطاي منظم :اين خطا ناش ي از هر عاملي است كه به صورت منظم اندازه گيري را تحت تأثير قرار ميدهد ،كه از آن به عن وان ً سوگيري نيز ياد ميشود .مثال ِاشكال در طراحي سؤاالت ،یا سوگيري مقبوليت اجتماعي كه شخص عالقه دارد خود را خوب و مثبت نشان دهد .خطاي منظم ،ميانگين نمره گروه هدف را جابجا ً مينمايد .خطاي منظم معموال يك سويه است (برخالف خطاي تصادفي كه هم منجر به نمره باال و هم نمره پايين ميشود و از اين رو يكديگر را خنثي نموده و در نهايت ميانگين نمرات گروه یا نمونه تفاوتي نميكند). بنابراين براي تمايز اين دو خطا اگر فكر ميكنيم عامل خطا سبب ميشود نمرات اشخاص به يك سمت (باال يا پايين تر از واقع) كشيده شوند ،خطاي مربوطه از نوع منظم يا سيستميك است. سایکومتری :ارزیابی قضاوت های ذهنی پيرامون پدیده هایی که به صورت عینی قابل اندازه گيری نیستند .پايايي و روایی دو ابزار اصلی سایکومتری می باشند. • - psychometry • - reliability • - validity True Score Theory Observed Score X = True Ability T + Random Error + e The Error Component X T Two Components: + e The Error Component X T Two Components: er + e The Error Component X T + e Two Components: er • Random Error The Error Component X T + e Two Components: er es • Random Error The Error Component X T + e Two Components: er es • Random Error • Systematic Error What is Random (trait) Error ? • any factors that randomly affect measurement of the variable across the sample • for instance, each person’s mood can inflate or deflate their performance on any occasion • random error adds variability to the data but does not affect average perofrmance for the group frequency Random Error the distribution of X with no random error X Random Error frequency the distribution of X with random error the distribution of X with no random error X Random Error frequency the distribution of X with random error Notice that random error doesn’t affect the average, only the variability around the average the distribution of X with no random error X What is Systematic (method) Error? • any factors that systematically affect measurement of the variable across the sample • systematic error = bias • for instance, asking questions that start “Do you agree with ...” will tend to yield a systematic lower agreement rate • systematic error does affect average performance for the group frequency Systematic Error the distribution of X with no systematic error X Systematic Error frequency the distribution of X with systematic error the distribution of X with no systematic error X Systematic Error frequency the distribution of X with systematic error Notice that systematic error does affect the average -- we call this a bias the distribution of X with no systematic error X Reducing Measurement Error • pilot test your instruments -- get feedback from respondents • train your interviewers or observers • make observation/measurement as unobtrusive as possible • double-check your data • triangulate across several measures that might have different biases • Traditional reliability theory considers only errors that occur randomly; systematic errors, or biases, were generally considered under validity testing. • Random errors may arise due to inattention, tiredness, or mechanical inaccuracy that may equally lead to an overestimation or underestimation of the true quantity. • In classical test theory, reliability refers to the extent to which a score is free of random error. Reliability and Validity Reliable but not Valid Reliability and Validity Neither Valid not Reliable Reliability and Validity Neither Reliable nor Valid Reliability and Validity Reliable and Valid پایایی پايايي كه از آن با عناوين تكرارپذيري و دقت هم ياد ميشود ،در واقع پاسخ به اين سؤال است كه «در صورت تكرار اندازهگيري تا چه حد نتايج قبلي بدست ميآید»- repeatablility - precision • • • • هرچه پراكندگي (گوناگوني) نقاط اصابت تير به سيبل بيشتر باشد ميگوييم پايايي كمتر است .منشاء اين گوناگونيها سه چيز است ً ي الف) تغيير در خصوصيت مورد اندازه گيري ،مثال در اندازه گير عاليم ترك در يك فرد وابسته به ترياك بسته به زمان سمزدايي ارقام بدست آمده متفاوت خواهد بود. ً ب) نوسان و تغيير در ابزار اندازه گيري كه معموال در مورد پرسشنامه در یکی از علل آن اشکال در ترجمه پرسشنامه است .یا به طور مثال مورد دستگاه اندازه گيري فشار خون اگر ستون جيوه دستگاه حباب هوا يها دچار خطا خواهد شد بگيرد ،اندازهگير ج) تغيير در شخص اندازه گير (مصاحبهگر ،مشاهدهگر) .كه ممكن است مصاحبه گر در مصاحبههاي بعدي به علت افزايش تجربه و يا بالعكس كم حوصلگي كيفيت مصاحبهاش تفاوت نمايد. • در واقع ضريب پايايي نسبت واريانس نمره واقعي به واريانس نمره مشاهده شده حاصل از پرسشنامه است ،لذا اگر ضريب پايایي يك پرسشنامه 85صدم بدست آمد ،مفهوم اين عدد آن است كه 15 درصد واريانس مشاهده شده ناش ي از خطاي اندازه گيري است • - reliability coefficient –The smaller the error component in relation to the true score component, the higher the reliability of an item, which is the ratio of the true score to the total (true + error) score. • با توجه به توضيحات فوق تعريف ديگري از پايايي ميتوان ارائه داد« :پايايي به ما نشان ميدهد كه تا چه حد نتايج بدست آمده عاري از خطاي تصادفي است» .به بيان ديگر پايايي خطاهايي را نشان ميدهد كه از نوع تصادفي است و روایی متناظر به خطاي سيستماتيك يا منظم است. :چهار نوع پايايي ميتوان متصور شد ) پايايي دروني (يا سازگاري دروني-1 بازآزمون- پايايي آزمون-2 پايايي بين اندازه گيري ها-3 ي پايايي آزمون مواز-4 • • • • • - internal reliability - internal consistency - test-retest reliability - inter-observer (inter-rater) reliability - parallel test reliability • • • • • پايايي دورني • يكي از راههاي پي بردن به پايايي آن است كه پرسشنامه را به دو نيم كنيم و همبستگي بين نمره دو نيمه را محاسبه نماييم ،كه از آن به روش ً دو نيمه كردن ياد ميكنند .اين روش معموالمنجر به كم تخميني ضريب پايايي پرسشنامه ميشود ،و لذا روش پركاربردتر استفاده از آلفاي كرونباخ است .فلسفه محاسباتي اين ضريب آن است كه بيان ميدارد وقتي كه چند سؤال قرار است يك چيز را اندازه گيري نمايند ،الزم است اين سؤاالت با يكديگر همبستگي داشته باشند • - split-halves method • - Cronbach's alpha ً • .شرط استفاده از اين شاخص آن است كه اوال گزينههاي ً سؤاالت از يك شكل تبعيت نمايند (مثال همگي 5درجهاي ليكرت باشند) و دوم آنكه تعداد سؤاالت حداقل دو تا باشد .اگرچه آلفاي كرونباخ براي دادههاي كمي در نظر گرفته شده است ولي محاسبه آن براي دادههاي رتبهاي (ليكرتي) در تمامي متون متداول است .آلفاي كرونباخ عددي است بين صفر و يك ،كه صفر به مفهوم آن است كه عبارات يا سؤاالت يك پرسشنامه هيچ ربطي به يكديگر ندارند و يك به مفهوم همبستگي كامل است. • اگرچه حداقل عدد قابل قبول آلفاي كرونباخ در مراجع متفاوت تا حدي با يكديگر فرق ميكند ،ولي چنين ميتوان گفت كه ضريب 7/0تا 8/0حداقل قابل قبول براي يك پرسشنامه پژوهشگر ساخته است ،ولي براي پرسشنامههايي كه جهت تشخيص باليني بكار ميروند ،حداقل قابل قبول عدد 9/0ميباشد . • در نظر داشته باشيم كه آلفاي كرونباخ باال نشانه تك بعدي بودن يك پرسشنامه نيست ،چرا كه بسياري مواقع پيش ميآيد كه پرسشنامه شامل دو يا چند بعد است ولي آلفاي كرونباخ تمامي سؤاالت باز هم از حداقل 8/0بيشتر ميشود. از چه راههايي ميتوان آلفاي كرونباخ يك پرسشنامه را افزايش داد؟ افزودن تعداد سؤاالت (عبارات) پرسشنامه ،كه البته تا حد 10پرسش آلفا به طور واضحي افزايش مينمايد ولي پس از آن ،ميزان افزايش بطئي است .با اين حساب شايد بتوان گفت با افزايش تعداد سؤاالت يك پرسشنامه پايايي آن نيز افزايش مييابد .لذا چنين می توان گفت که مقايسه آلفاي كرونباخ دو پرسشنامه با تعداد سؤال متفاوت امر معقولي نيست. متجانستر و همگونتر نمودن سؤاالت سبب افزايش آلفاي كرونباخميشود. ناهمگون بودن افراد مورد بررس ي و آزمودنيها سبب افزايش آلفاي كرونباخ ميشود ،چون ضريب پايايي به واريانس اندازه گيري وابسته است. اگر اكثر آزمودنيها تمام عبارات پرسشنامه را پاسخ ندهند ،بهصورت كاذب آلفاي كرونباخ افزايش مييابد .توصيه ميشود اگر بيش از 15درصد آزمودنيها پاسخ كامل به كل پرسشنامه نداده باشند،آلفا محاسبه نشود. آلفاي كرونباخ به شكل توزيع نمرات نيز ارتباط دارد ،به طوري كههرچه چولگي نمره كل پرسشنامه بيشتر باشد (به عبارتي ميانگين نمرات به بجاي آنكه به مركز مقياس ليكرت نزديك باشد به طرفين تمايل يابد) ،آلفاي كرونباخ كمتر ميشود. ن پايايي آزمون -باز آزمو • اين روش ثبات اندازهگيري در طول زمان را ميسنجد .به اين ترتيب ً كه یک پرسشنامه به همان افراد ،و به فاصله زماني كوتاهي مجددا داده ميشود .مدت زمان حد فاصل اين دو اندازه گيري نه بايد به حدي كوتاه باشد كه به علت يادآوري پاسخها ،نتايج مخدوش گردند و نه به حدي طوالني باشد كه به علت عوامل متفاوت، تغييرات ناخواسته صورت بپذيرد. • - stability over time ً • معموال منابع ،عددي براي فاصله زماني بين دو اندازهگيري ذكر دار نمينمايند ،چون صفت مورد بررس ي نيز خود از اهميت برخور است ،به طوري كه اگر پرسشنامه مربوط به سنجش شخصيت فرد باشد در مقايسه با پرسشنامهاي كه به اندازه گيري س المت عمومي وي مي پردازد از نوسانات كمتري در طول زمان برخوردار خواهد بود .در مجموع فاصله زماني 2هفته در پژوهشهاي پرسشنامهاي متداول است .الزم به ذكر است برخي صاحبنظران به علت تأثيرپذيري اين روش از عوامل مختلف ،استفاده از آزمون – بازآمون در سنجش پايايي را معتبر ندانسته و به هيچ وجه توصيه نمينمايند پايايي بين اندازه گيرها • اين نوع پايايي ،توافق بين اندازه گيريها يا هموژنيني بين آنان را ميسنجد .در واقع 2نفر يا بيشتر ،يك اندازه گيري يا مصاحبه را بر روي يك گروه انجام ميدهند و از طريق اين روش همبستگی یا توافق بين آنان محاسبه ميشود پايايي آزمون موازي • در اين روش دو پرسشنامه مشابه به يك گروه داده ميشود و براي اثبات اين تشابه بايد همبستگي بين نمرات حاصل از ً اين دو پرسشنامه باال باشد .اين روش معموال در پژوهشهاي آموزش ي مورد استفاده بيشتري دارد- . educational research • توصيه صاحبنظران آن است كه براي محاسبه پايايي پرسشنامه ً حتما از دو روش استفاده شود. • در مجموع اگرچه تقسيم بندي فوق براي انواع پايايي ارائه گرديد، ولي محاسبه پايايي توسط نرم افزار به شيوههاي متفاوت قابل انجام است .دقت نماييم توصيه به محاسبه پايايي از حداقل دو روش را با انواع پايايي اشتباه نكنيم ،چرا که دو روش معموال دو ً روش متفاوت نرم افزاری برای محاسبه پایایی می باشند ،و نه الزاما دو نوع پایایی از انواع پایایی که توضیح داده شدند validity روایی تعریف • The extent to which a test measures that which it is intended to measure. • This conception of validity, which reflects the idea of agreement with a criterion, is commonly used in epidemiology and underlies the notions of sensitivity and specificity. • It is a limited conception تعریف • Hence, a more general definition holds that validity describes the range of interpretations that can be appropriately placed on a measurement score: What do the results mean? What can we conclude about a person who produced a particular score on the test? معاین روایی • Ravaجایز ،زساوار • Revaریسامن پشت س تور • Rovaزیبا رو Types of validity (Nunnally) • Content (intrinsic, relevance, representative) validity • Construct (trait, factorial) validity • Predictive (empirical, statistical, criterion related) validity Types of validity (Survey methods in community medicine, Abramson) • • • • Based on judgment: Face validity Content validity Consensual validity Types of validity (Survey methods in community medicine, Abramson) • Based on checks against data: • س نگ تراوزوی هر یک داخل پرانزت نوش ته شده است • Criterion (better measurement) • Convergent & Discriminant (different measure) • Construct (related variable) • Predictive (an event) • Responsiveness (change) Sensibility • Feinstein: Does it make sense? • آای به دملون می چس به؟ • Abramson: Face (logical) validity is a sine qua non Content validity Content validity Content validity تعریف روایی حمتوا • The extent to which an instrument adequately samples the research domain of interest when attempting to measure phenomena. • Content validity concerns the degree to which a scale has an appropriate sample of items to represent the construct of interest روش اندازه گریی • A common procedure is to ask patients and experts in the field to critically review the content of the scale. • Alternatively, more formal focus groups and in-depth interviews may be arranged to explore whether the questionnaire is covering all aspects of the topic relevant to patients. روش اندازه گریی • There is “no agreed upon criterion for determining the extent to which a measure has attained content validity” (Carmines and Zeller (1979), p. 22). • An editorial in Research in Nursing & Health indicated that authors submitting an instrument development manuscript to that journal should include a content validity assessment (Froman & Schmitt, 2003). Sample size CVI • A CVI value can be computed for each item on a scale (which h we refer to as I-CVI) as well as for the overall scale (which we call an S-CVI). To calculate e an item -level CVI (I-C VI), experts are asked to rate the relevance of each item, usually on a 4-point scale. • There are several variations of labeling the 4 ordinal points, but the scale that seems to be used most t often is 1 = not relevant , 2 = somewhat relevant ,3= quite relevant ,4=highly relevant • لطفا مشخص فرمایید هر یک از عبارات زیر ات چه حد اب موضوع مورد اندازه گریی (نگرش نسبت به اخذ زیرمزیی توسط پزشاکن) مرتبط است؟ • Then, for each item, the I-CVI (item -level CVI) is computed as the number of experts giving a rating of either 3 or 4, divided by the number of experts—that is, the proportion in agreement about relevance. • Items with an I-CVI of .78 or higher for three or more experts could be considered evidence of good content validity Criterion Validity • Criterion validity considers whether scores on the instrument agree with a definitive, “gold standard” measurement of the same theme. • This option for validating a measure typically occurs when a new instrument is being developed as a simpler, more convenient alternative to an accepted measurement: can a self-report of anxiety replicate what a psychiatrist would have diagnosed? • Criterion validity may be divided into concurrent and predictive validity, depending on whether the criterion refers to a current or future state. • To illustrate the former, results from a questionnaire on hearing difficulties might be compared with the results of audiometric testing. Concurrent validity • The threshold score that divides these two categories is known as the cutting-point or cutting-score. • For clarity cutting-points will be expressed as two numbers, such as 23/24. • Choosing a cutting-point is challenging. • If the goal is to rule out a diagnosis, a cuttingpoint will be chosen that enhances sensitivity, whereas if the clinical goal is to rule in a disease the cutting-point will be chosen to enhance specificity. • Many times , it is awkward to compare the validity of two tests in terms of both sensitivity and specificity: AUC حساسيت و ویژگي Disease No Yes b a Pos. d c Neg. Test b+d a+c مثبت حقيقي حساسيت = = بيماران a a+c مفهوم حساسيت اگر شخص ی بیمار باشد چند درصد تستش مثبت می شود؟ True positive rate کاربرد تست حساس در رد کردن بیماری است. وقتی بکار می رود که هدفمان غربال گری باشد. حساسيت و ویژگي Disease Yes No Pos. a b Neg. c d Test a+c d b+d b+d منفي حقيقي = سالم ها = ويژگي مفهوم ویژگی اگر شخص ی سالم باشد تستش چند درصد منفی می شود؟ True negative rate کاربرد تست در اثبات بیماری است. وقتی بکار می رود که زدن مارک بیماری (به اشتباه) به شخص تبعات منفی قابل توجهی برای وی دارد. Positive Likelihood Ratio Positive Likelihood Ratio: LR+ = In our example: sensitivity -----------------------1 - specificity 0.8 = ------------ = 8.0 1 - 0.9 Indicates: - How much odds of disease is increased if test is positive - A ratio of something that is desirable (true positives) divided by something undesirable (false positives) General Guidelines: 1 => Test is Useless 1-2 => Rarely important change in pre- to post test odds 2-5 => Small Change 5 - 10 => Moderate Change >10 => Large Change A Measure of Overall Usefulness of a Test: AUC = Area Under (ROC) Curve AUC of Four ROC Curves 100% 100% Sensitivity Sensitivity 100% 50% 0 % 0 % 0 % 1 - Specificity 0 % 100 % 100% 100 % 100% 65% Sensitivity Sensitivity 90% 0 % 1 - Specificity 0 % 1 - Specificity 100 % 0 % 0 % 1 - Specificity 100 % AUC: Interpretation Randomly select a diseased patient and get a score of Y. Now, randomly select a healthy patient and get a score of X. then, AUC = Probability that Y is bigger than X (assume larger test values associated with disease) Rough AUC Guidelines: 0.50 - 0.60 - Not So Good 0.60 - 0.75 Fair 0.75 - 0.90 - Good 0.90 - 0.97 - Very Good 0.97 - 1.00 - Excellent Swets, J.A. (1988) Science, 1285 - 1993 At cut-off of 7/8, the sensitivity and specificity were 100% and 93%, respectively. The area under the curve was 0.99 and statistically significant (P < 0 .001). Item Analysis • To identify poor items in Knowledge tests 200 Item Analysis • The group of statistical techniques applied to items on multiple choice exams in order to improve the assessment. • Generally, item statistics will be somewhat unstable for small groups of students. Perhaps fifty students might be considered a minimum number if item statistics are to be stable. 201 Item-Objective Congruency • This task is to determine whether each item is accurate and the answer correct based on current understanding in the field. The experts also evaluate the grammar and suggest wording changes to improve the items. Item-Objective Congruency • The experts read each item and then rate each item on every objective. Experts suggest assigning -1 for an item that is a poor match with an objective, 0 for a moderate or uncertain match, and +1 for a strong match. Item-Objective Congruency • For an item to be retained, the number of experts who agree should be equal to n - 1. Thus, if there are four experts, three of them (n - 1) must give a rating of +1 to the intended objective for an item to be retained. Determining Item Difficulty • In order to know how difficult an item is, an experienced instructor might use professional judgment initially and then use an item analysis in which the difficulty and discrimination of an item is calculated. Reducing Guessing: The more difficult the item, the greater the effect of guessing Item Difficulty/IF • Tells you the % of students who correctly answered any given item IF= N number of students answering correctly N number of students taking the test Range will be .00 to 1.00, multiply by 100 (move the decimal place two places to the right) to read as a percentage correct 207 -1ضريب دشواری Difficulty Index تعريف: درصد کل آزمون شوندگا ني که به يک سؤال جواب درست مي دهند. • The average difficulty of a test is the average of the individual item difficulties. For maximum discrimination among students, an average difficulty of .60 is ideal. • If 243 students answered item no. 1 correctly and 9 students answered incorrectly, the difficulty level of the item would be 243/252 or .96. اگر تعدادآزمون شوندگان≥ 20نفرباشد،برگه هاي آزمون را کال به دو دسته باال و پايين تقسيم مي کنيم. اگر تعداد بيش از 40نفرباشد،بهترين رقم براي گروه باال و پايين %27است. بطور کلي مي توان ،از 25تا 33درصد راانتخاب نمود. تعدادافرادي که از گروه باال جواب درست داده اند + تعدادافرادي که از گروه پايين جواب درست داده اند کل تعداد افراد گروه باال +کل تعدادافراد گروه پايين مثال ن نتايج يک سؤال ازيک آزمو (تعدادآزمون شوندگان=89نفر) گزينه %27باال %27پايين %46متوسط الف 2 11 20 ب 4 4 5 ج 18 9 15 د 0 0 1 جمع 24نفر 24نفر 41نفر 18 9 48 0.5 بنابراين هرچه ضريب دشواري باالتر باشد ،سؤال آسان تر است. ضريب دشواري مناسب آن است که به 5/0نزديک باشد. بطورکلي ضريب هاي دشواري بين 3/0تا 7/0حداکثر اطالع را در باره تفاوت بين آزمون شوندگان به دست مي دهند. شاخص هاي 4/0و باالتر = سؤاالت بسيار خوب شاخص هاي 3/0تا =39/0تقريبا خوب ولي احتماال بايد بهتر شود. شاخص هاي 2/0تا =29/0سؤاالت لب مرزي كه به نوعي تجديد نظر نياز داشته و يابايد حذف شوند. شاخص هاي زير = 19/0سؤاالت ضعيف كه به تجديدنظراساس ي نيازداشته و يابايد حذف شوند. Ebel,R.L.,and Frisbie ,D.A.(1986).Essentials of educational measurement (4Th ed). KlineP (1993): The Handbookof Psycho logical Testing : London, Routledge. The index of discrimination • is a numerical indicator of how the poorer students answered the item as compared to how the better students answered the item. -2ضريب تميز Discrimination index انتخاب های درست گروه باال -انتخاب های درست گروه پايين تعدادافراد يک گروه(باال يا پايين) Item/Index Discrimination • The degree to which an item separates the students who did well from those who did poorly • Divide the class into groups (probably thirds) by ranking scores ID= IF upper- IF lower • You will have an ID for each item ranging from 1.00 to +1.00 • Values of 0.30- 0.70 and are quite good discriminators 220 Calculation • Sixty students take a test. The top 16 scores and the bottom 16 scores are the upper and lower groups. • For item no. 1, twelve of the sixteen students in the upper group answered the item correctly while seven students in the lower group answered correctly. Point Biserial Correlation • Is a coefficient that represents the 1, 0 (correct, incorrect) correlation between the item response for each student and the student's total test score. • Conceptually, the point biserial is similar to the discrimination index, but the point biserial includes the data for the middle group of students from the score distribution. 222 • Correlations can range between +1 & -1 • A pbsc above .20 means the item is behaving as expected (.30-.70 are recommended) • One would expect that higher scoring students would get each item correct. • If lower scoring students got a particular item correct more often than did higher scoring students, then that item would have a negative point biserial correlation The point biserial correlation • The column “Corrected Item-Total Correlation.” This column displays the corrected point biserial correlation. • Items with pbs below 0.1 should be examined for a possible incorrect key. The point biserial correlation • A positive point biserial tells us that higher scoring students were likely to get the item correct • A negative point biserial tells us high scoring Ss answered incorrectly more times than lower scoring Ss SPSS • Despite the horrible name, it’s really quite easy to do! • This is simply a Pearson correlation when the dichotomous variable is coded with 0 for one category and 1 for the other. • The sign of the correlation will depend entirely on which way the coding of the dichotomous variable was made. • The first item is too easy to discriminate. • The second item operates very well, • and the third item should be revised to improve the a and b foils as well as its discrimination. چه رسم جالبی است !!! • • • • • • • • • ...محبتت را می گذارند پای احتیاجت … ...صداقتت را می گذارند پای سادگیت … ...سکوتت را می گذارند پای نفهمیت … ...نگرانیت را می گذارند پای تنهاییت … ...و وفاداریت را پای بی کسیت … و آن قدر تکرار می کنند که خودت باورت می شود که تنهایی و بی کس و محتاج... ...آدم ها آن قدر زود عوض می شوند … ی... بینداز آن قدر زود که تو فرصت نمی کنی به ساعتت نگاهی ...و ببینی چند دقیقه بين دوستی ها تا دشمنی ها فاصله افتاده است … Reliability • A random error occurs when the answer to a test—the opinion, belief, or feeling that is selected—is different from what one would have selected under ideal test conditions. Waterpipe.sav • An item-to-total score correlation of 0.2 has been cited as the cut-off point below which items should be discarded. Negative alphas • One situation in which negative reliability might occur is when the scale items represent more than one dimension of meaning, and these dimensions are negatively correlated. Negative alphas • values less than 0 or greater than 1.0 may occur, especially when the number of cases and/or items is small. • a negative Cronbach's alpha indicates inconsistent coding (see assumptions) or a mixture of items measuring different dimensions, leading to negative inter-item correlations. The squared multiple correlation, R2 is the R2 for an item when it is predicted from all other items in the scale. The larger the R2, the more the item is contributing to internal consistency. The lower the R2, the more the researcher should consider dropping it. Note the R2 of some items may be low even on a scale which has an acceptable Cronbach's alpha overall. Standardized item alpha • Is the average inter-item correlation when item variances are equal. What are the main measures of reliability? • What if the data are dichotomous or polychotomous? – Reliability should be assessed with some type of Kappa coefficient • What if the data are quantitative (interval or ratio scale? – Reliability should be measured with the Intraclass Correlation Coefficient (ICC) – The various types of ICC and their use is what we will talk about here. Interclass vs Intraclass Correlation Coefficients: What is a class? • What is a class of variables? Variables that share a: – metric (scale), and – variance • Height and Weight are different classes of variables. • There is only 1 Interclass correlation coefficient – Pearson’s r. • When one is interested in the relationship between variables of a common class, one uses an Intraclass Correlation Coefficient. Big Picture: What is the Intraclass Correlation Coefficient? • It is, as a general matter, the ratio of two variances: Variance due to rated subjects (patients) ICC = -------------------------------------------------------------------(Variance due to subjects + Variance due to Judges + Residual Variance) Test-retest reliability (Intra-rater reliability) • As a measure of agreement, the intraclass correlation (ICC) is now normally used to indicate reliability instead of Pearson or rankorder coefficients. • Like the Pearson correlation, the ICC ranges from −1 to +1, but it measures the average similarity of the subjects’ actual scores on the two ratings, not merely the similarity of their relative standings on the two A simple example to how misleading interrater correlations • Computing the interrater r (pearson correlation) between raters 1 and 2, we get 1.00 . • The Intraclass r (Shrout and Fleiss model 2) is 0.056. • Computing the interrater r (pearson correlation) between raters 1 and 4, we also get 1.00 . The Intraclass r for these data is also 1.00 Intraclass Correlation reliability designs • Model 1: Each patient to be rated is rated by a unique rater, with each rater randomly selected from a larger population (a one-way ANOVA random effects model). • Each rater makes only one rating decision. This model assumes you have a large pool of raters, who are randomly assigned to make one rating per patient per variable. So, for a study in which we rate 10 patients on 5 variables, we would need 50 raters. • Model 2: Every patient is rated by each rater. We assume the raters are randomly selected from some population of raters (a two-way random effects model). In essence, each rater rates all patients on all variables. This is the efault model that covers most rating situations. • For example, for a study in which we rate 10 patients on 5 variables, we would need at least 2 raters in order to assess interrater reliability. Each rater would make (10*5)=50 rating judgements. Model 3 • Model 3: Every patient is rated by each rater, BUT, in contrast to Model 2, we assume the raters are THE population of raters (a two-way, fixed-effects model). • However, it is assumed that these are the only two raters who will ever make ratings – no generalizability assumed to other raters. ICC Model Decision Tree (Consideration 1: Raters) Were raters drawn from larger pool? Yes No Did the same subset of raters rate each target? No One-way Random Two-way mixed Yes Two-way random For two-way models you must choose TYPE as well (Consideration 2: Individual rater variability): consistency (interested in whether targets ranked the same) absolute agreement (interested in whether targets got exact same scores) 247 What type of score? • Are you interested in the reliability of an individual rater or the reliability of the mean of all raters? • Typically, if you have more than one rating, you would average them for your analyses, since the average will always be a more reliable measure. • SPSS gives you both, all the time. – Single Measure Intraclass Correlation = reliability of an individual rater – Average Measure Intraclass Correlation = reliability of the mean of the raters 248 • Fleiss, J.L. (1981) Statistical Methods for Rates and Proportions, 2 nd . Edition. New York: Wiley. حساسيت و ویژگي Disease No Yes b a Pos. d c Neg. Test b+d a+c مثبت حقيقي حساسيت = = بيماران a a+c مفهوم حساسيت اگر شخص ی بیمار باشد چند درصد تستش مثبت می شود؟ True positive rate کاربرد تست حساس در رد کردن بیماری است. وقتی بکار می رود که هدفمان غربال گری باشد. حساسيت و ویژگي Disease Yes No Pos. a b Neg. c d Test a+c d b+d b+d منفي حقيقي = سالم ها = ويژگي مفهوم ویژگی اگر شخص ی سالم باشد تستش چند درصد منفی می شود؟ True negative rate کاربرد تست در اثبات بیماری است. وقتی بکار می رود که زدن مارک بیماری (به اشتباه) به شخص تبعات منفی قابل توجهی برای وی دارد. Positive Likelihood Ratio Positive Likelihood Ratio: LR+ = In our example: sensitivity -----------------------1 - specificity 0.8 = ------------ = 8.0 1 - 0.9 Indicates: - How much odds of disease is increased if test is positive - A ratio of something that is desirable (true positives) divided by something undesirable (false positives) General Guidelines: 1 => Test is Useless 1-2 => Rarely important change in pre- to post test odds 2-5 => Small Change 5 - 10 => Moderate Change >10 => Large Change A Measure of Overall Usefulness of a Test: AUC = Area Under (ROC) Curve AUC of Four ROC Curves 100% 100% Sensitivity Sensitivity 100% 50% 0 % 0 % 0 % 1 - Specificity 0 % 100 % 100% 100 % 100% 65% Sensitivity Sensitivity 90% 0 % 1 - Specificity 0 % 1 - Specificity 100 % 0 % 0 % 1 - Specificity 100 % AUC: Interpretation Randomly select a diseased patient and get a score of Y. Now, randomly select a healthy patient and get a score of X. then, AUC = Probability that Y is bigger than X (assume larger test values associated with disease) Rough AUC Guidelines: 0.50 - 0.60 - Not So Good 0.60 - 0.75 Fair 0.75 - 0.90 - Good 0.90 - 0.97 - Very Good 0.97 - 1.00 - Excellent Swets, J.A. (1988) Science, 1285 - 1993 At cut-off of 7/8, the sensitivity and specificity were 100% and 93%, respectively. The area under the curve was 0.99 and statistically significant (P < 0 .001). Construct validity • For many years, criterion validity was the mainstay of validity assessment. Researchers recognized, however, that for many constructs for which they were developing measures, there were no suitable criteria for comparison • براي اندازه گيري مفاهيم ذهني همچون درد ،رضايت و نگرش معيار طاليي وجود ندارد و لذا براي پي بردن به روايي پرسشنامهاي كه به اندازهگيري آنها ميپردازد (صحت اندازه ي) با مشكل نبود يك سنگ ترازو مواجه ميشويم. گير • روايي سازه از طريق مشخص نمودن ساختار دروني يك پرسشنامه و تعيين ارتباط آن با ساير سازهها ،نبود معيار طاليي را جبران مينمايد Three common approachs • Cronbach and Meehl (1955) reasoned that if an instrument measured what it was intended to measure, its relationships with other constructs would conform to the relationships dictated by the theory. • در صورتي كه ضريب همبستگي بين دو پرسشنامه باالي 0/6باشد، نشانه همبستگي قوي بين دو ابزار است اگرچه رقم باالي 0/4قابل قبول است .البته بايد در نظر داشت در انتخاب ابزار و پرسشنامه براي محاسبه ضريب همبستگي بايد توجيه تئوريك براي انتخاب پرسشنامه وجود داشته باشد ،يعني فلسفه انتخاب پرسشنامه بر اساس تجربه پژوهشهاي مشابه و بررس ي متون باشد. • McDowell I. Measuring health : a guide to rating scales and questionnaires 3rd ed, , Oxford University Press, 2006 • Another way to assess construct validity is to examine differences between groups • using the known-groups approach. In this approach, participants are selected based on their membership in one of two or more groups that are expected to differ on the construct of interest. • در يك مطالعه براي پي بردن به روايي سازه پرسشنامه CTQ (پرسشنامهاي كه به بررس ي سوء رفتارهاي دوران كودكي ميپردازد)، انتظار بر آن بود نمره پرسشنامه در افراد وابسته به مواد با افراد سالم متفاوت باشد. • - Childhood Trauma Questionnaire • اين انتظار تلویحی الزم است به استناد بررس ي متون مورد تأييد قرار گرفته باشد ،كما اينكه در اين مطالعه نيز شواهد دال بر صحيح بودن اين پیش فرض ارائه گرديد. تحليل عامل يا روايي عاملي • تحليل عامل بر دو نوع است :اكتشافي و تأييدي در روش اكتشافي كه روش متداولتر است ،پژوهشگر پيش فرض قبلي در مورد عوامل يا سازههاي تشكيل دهنده يك پرسشنامه را ندارد و فقط هدفش اين است كه ببيند ساختار اين پرسشنامه چگونه است و هريك از سؤاالت در كدام فاكتور يا گروه قرار ميگيرد .در حالي كه در تحليل ً عامل تأييدي ،پژوهشگر پيش فرض قبلي دارد مثال ميداند نسخه اصلي پرسشنامه مورد نظر به طور مثال شامل 20سؤال است كه ً فرضا سؤاالت 17 ،16 ،15 ،10 ،18 ،6 ،1و 20در يك عامل و بقيه در عامل ديگر قرار ميگيرند .حال سؤال وي اين است آيا نسخه فارس ي شده كه بريك نمونه ايراني كار شده است همان عوامل با همان اجزا (گویهها) را به ما ميدهد مراحل انجام -1تحليل ابتدايي -2استخراج عوامل -3گردش -4تفسير مفروضات و پيش نيازهاي انجام تحليل عامل Costello AB, Osborne JW. Best Practices in Exploratory Factor Analysis: Four Recommendations for Getting the Most From Your Analysis. Practical Assessment Research & • حجم نمونه Evaluation 2005;10( 7):1-9. نرماليتي دادههاي پرت همبستگي بين گويهها Sampling adequacy - عامل پذير بودن سؤاالت و ارزيابي • • • • استخراج عوامل قرار در بين روش هاي استخراج عامل ،دو روش بيشتر مورد استفاده ميگيرند: (PCA) prinicipal component analysis – 1 (PAF) principal axis factoring & principal -2 factor analysis PCAروش defaultاكثر نرم افزارهاي آماري است. چند فاکتور؟ • استفاده از Eigenvalue • مقدار وارياسيون مرتبط با يك فاكتور كه در SPSSعالوه بر نشان دادن مقدار ،درصدي از كل واريانس كه توسط يك فاكتور تبيين مي شود نيز نشان داده مي شود. نمودار سنگريزه Scree Plot گردش هدف از rotationقابل فهم تر نمودن outputاستrotation . سبب تغيير در جمع eigenvalueنميشود ولي مقادير و به تبع آن درصد eigenvaaueمربوط به فاكتورها را تغيير ميدهد و به همان شكل لودينگ فاكتورها را نيز تغيير ميدهدFactor . loadingكه در روش PCAبه آن Component loading گفته مي شود در واقع ضريب همبستگي بين فاكتور و متغيرها ست. • Rotationمانند استخراج عامل از مسيرهاي گوناگون قابل انجام است و به دو نوع كلي orthogonalو obliqueتقسيم مي- شود. • در روش orthogonalفاكتورهايي كه توليد ميشوند با يكديگر همبستگي ندارند .ولي در روش obliqueفرض بر آن است كه فاكتورها با يكديگر مرتبطتند .روش هاي ،Varimax equamax ،quartimaxاز نوع orthogonalو روش هاي direct obliminو promaxدر زير مجموعه obliqueقرار ميگيرند.