تحليل المعطيات د .خالد علي XLSTAT Data analysis تحليل المعطيات مع التحليل باستخدام برنامجي :الحزم اإلحصائية للعلوم االجتماعية ( ،)SPSSبرنامج XLSTAT مطبوعة موجهة إلى طلبة السنة الثالثة اقتصاد كمي د .خالد علي الجمهورية الجزائرية الديمقراطية الشعبية و ازرة التعليم العالي والبحث العلمي جامعة الشهيد حمة لخضر –الواد- كلية العلوم االقتصادية والتجارية وعلوم التسيير مطبوعة بيداغوجية في مقياس تحليل المعطيات المقياس :تحليل المعطيات. التخصص :اقتصاد كمي. المستوى :السنة الثالثة. تقديم :د .خالد علي قسم العلوم االقتصادية السنة الجامعية2023/2022 : فهرست المحتويات تقديم المادة التعليمية مدخل إلى تحليل المعطيات تمهيد......................................................................................................................: المقصود بتحليل المعطيات.................................................................................................: 01 01 مفهوم تحليل المعطيات....................................................................................................: 01 خطوات تحليل المعطيات...................................................................................................: 02 طرائق تحليل المعطيات....................................................................................................: 02 الفصل األول :مفاهيم إحصائية العرض الجدول للمعطيات..................................................................................................: 04 التحليل وحيد المتغير.......................................................................................................: 04 مقاييس النزعة المركزية.....................................................................................................: 04 مقاييس التشتت............................................................................................................: 09 التحليل ثنائي المتغير.......................................................................................................: مصطلحات................................................................................................................: 11 17 الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات الفضاء الشعاعي...........................................................................................................: 20 الجبر الخطي وحساب المصفوفات..........................................................................................: 23 مفهوم المصفوفات..........................................................................................................: 23 أنواع المصفوفات...........................................................................................................: 24 عمليات على المصفوفات...................................................................................................: 25 الفصل الثالث :التحليل بالمركبات األساسية ()PCA مفهوم التحليل بالمركبات األساسية..........................................................................................: 35 لماذا التحليل بالمركبات األساسية ............................................................................................: 35 معارف أساسية لفهم كيفية عمل الطريقة.....................................................................................: 38 خطوات التحليل بالمركبات الرئيسية..........................................................................................: 49 تمارين محلول ة..............................................................................................................: 63 التطبيق باستخدام برنامج .......................................................................................... XLSTAT 99 التطبيق باستخدام برنامج الحزم اإلحصائية للعلوم االجتماعية (.........................................................)SPSS 115 تمارين مقترحة..............................................................................................................: 141 الفصل الرابع :التحليل العاملي للتوفيقات ()AFC مفهوم التحليل العاملي للتوفيقات.............................................................................................. 144 جداول التقاطع..............................................................................................................: 146 عرض الطريقة..............................................................................................................: 148 تمارين محلولة..............................................................................................................: 179 التطبيق باستخدام برنامج ........................................................................................... XLSTAT 192 التطبيق باستخدام برنامج الحزم اإلحصائية للعلوم االجتماعية(......................................................... )SPSS 204 الفصل الخامس :التصنيف التسلسلي الهرمي ()AHC مفهومه212 ......................................................................................................................: كيف يعمل؟212 .................................................................................................................. التصنيف التصاعدي والتنازلي213 ...............................................................................................: طرائق حساب التقارب والتباعد214 ...............................................................................................: القصور الذاتي داخل الطبقات وبين الطبقات216 ..................................................................................: تمارين محلولة217 ...............................................................................................................: التطبيق باستخدام برنامج الحزم اإلحصائية للعلوم االجتماعية(227 .......................................................... )SPSS التطبيق باستخدام برنامج 234 ...........................................................................................XLSTAT قائمة المراجع 239 ................................................................................................................: تقديم: غالبا ما نطرح العديد من األسئلة إزاء حياتنا ومحيطنا الذي نعيش فيه ،وعن الكيفية التي نتخذ بها القرار الصائب لمواجهة التحديات التي تعترض سبيلنا ،فعندما نحاول البحث عن الجواب الشافي لتلك األسئلة سنجمع كما هائال من البيانات والمعطيات المبعثرة التي قد ال تفيدنا في اتخاذ القرار ،أل ّن النرر إل المعطيات وفحصها بغرض الوصول إل العالقات التي تحكمها ال يفيدنا في عملية التعميم أو التنبؤ ،وليس بالقول الفصل في تحديد المشكلة ،فاالرتباط ال يستلزم السببية ،إذ أنك اكتشفت عالقة بين متغيرين عل أساس التحليل االستكشافي وحده. وبناء عليه ،تهدف هذه المادة التعليمية إل تزويد الطالب بأهم المعارف النررية والتطبيقية ،واألدوات واألساليب االحصائية واإلستداللية التي تمكنه من فهم العالقات بين الرواهر المختلفة والتحليل والتفسير والتنبؤ باألحداث المستقبلية .إضافة إل تزويده بالتقنيات اإلحصائية التي تستخدم لتحليل العالقات بين المتغيرات المتعددة وتقليل األبعاد ،ما يمكنه من تحويل مجموعة كبيرة من المتغيرات األولية إل مجموعة صغيرة من المتغيرات المستخلصة ،التي تساعده في تحليل العالقات بين المتغيرات وفهم األنماط الرئيسية في البيانات. ولقد بني هذا العمل عل أساس منهجي يستند عل ما هو مقرر في البرنامج الوزاري لطبة السنة الثالثة، مبتعدين قدر االمكان عن البراهين الرياضية التي قد ال تفيد الطالب في هذه المرحلة بالقدر الذي قد تكون سببا في تعقيد المادة المدروسة .ولقد حاولنا في هذا العمل سلوك سبيل بسيط في تقديم المادة المدروسة ،انطالقا من عرض بعض المفاهيم الرياضية واالحصائية الالزمة لفهم الطرائق التي سيتم عرضها ،مدعمين ذلك بأمثلة وتمارين ،إضافة إل تيسر فهم العديد من الجوانب ذلك لم يخلو هذا العمل من الرسومات التوضيحية التي ّ المتعلقة بطرائق تحليل المعطيات. مدخل إلى تحليل المعطيات د .خالد علي. مدخل إلى تحليل المعطيات. تمهيد: تحليل المعطيات عملية لتنظيف وتحويل ونمذجة البيانات الكتشاف معلومات مفيدة من أجل اتخاذ بناء على مخرجات ق اررات األعمال .والغرض من تحليل المعطيات هو استخراج معلومات مفيدة ،واتخاذ القرار ً التحليل ،فعندما نتخذ أي قرار في حياتنا اليومية يكون من خالل التفكير فيما حدث في المرة السابقة أو ما بناء عليه ،من سيحدث باختيار هذا القرار المحدد ،هذا ليس سوى تحليل لماضينا أو مستقبلنا واتخاذ الق اررات ً أجل ذلك ،نجمع ذكريات ماضينا أو أحالمنا في المستقبل .وما ذلك إالّ تحليال للمعطيات ،ونفس الشيء الذي يفعله المحلل ألغراض العمل يسمى تحليل المعطيات. ونظ ار ألهمية المناهج الكمية في تشخيص الظواهر المختلفة ،أصبح االهتمام بها من األولويات ،خاصة عندما يتعلق األمر بعملية اتخاذ القرار .فتحليل المعطيات كجزء من هذه المناهج تساهم بشكل كبير في إعطاء تفسيرات لموضوع البحث ،وذلك باستخدام األدوات اإلحصائية المختلفة ،وبالتالي تعتبر وسيلة لتحقيق غاية ما. ما المقصود بالتحليل؟ التحليل يعني التفكيك والدراسة والفحص والتقييم وتحديد األساسي...إلخ ،من أجل الفهم الجيد للعالقات بين الكل واألجزاء بشكل أفضل. المعطيات :ما هو معروف ومقبول منطقيا كنقطة انطالق للبحث. مفهوم تحليل المعطيات: المعطيات المعالجة المعلومات. أيضا بتحليل البيانات االستكشافية ،وهو مجموعة من األساليب اإلحصائية متعددة األبعاد يسمى ً والوصفية ،تساعدنا في فحص البيانات وتدقيقها لتكون أكثر دقة ،ومن ثمة إعادة تشكيلها وتخزينها لنحصل في النهاية على معلومات يمكن على أساسها اتخاذ الق اررات. عموما باإلحصاءات متعددة المتغيرات ،تساعد طرق معينة -في يسمى مما ّ وهي مجموعة فرعية ّ ً هندسيا -على إبراز العالقات التي قد توجد بين البيانات المختلفة واستخالص المعلومات اإلحصائية معظمها ً إيجاز ،إذ يتيح ًا منها ،مما يجعل من الممكن وصف المعلومات الرئيسية الواردة في هذه البيانات بشكل أكثر جدا من البيانات وتحديد الجوانب األكثر إثارة لالهتمام في هيكلها. تحليل المعطيات معالجة كمية كبيرة ً ويعود نجاح هذا التخصص في السنوات األخيرة ،إلى حد كبير إلى التمثيالت الرسومية المتقدمة ،فيمكن لهذه الرسوم البيانية أن تسلط الضوء على العالقات التي يصعب التقاطها عن طريق تحليل البيانات المباشر، ولكن قبل كل شيء ،ال ترتبط هذه التمثيالت برأي مسبق حول قوانين الظواهر التي تم تحليلها ،على عكس طرق اإلحصاء الكالسيكية .وقد بدأت األسس الرياضية لتحليل المعطيات في التطور في مطلع القرن العشرين ،لكن 1 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي. مدخل إلى تحليل المعطيات. مستخدما على نطاق واسع ،من أجل ذلك يرتبط عمليا ،وجعلت منه أجهزة الكمبيوتر هي التي جعلت هذا النظام ً ً طا وثيقًا. تحليل المعطيات بالرياضيات وعلوم الكمبيوتر ارتبا ً أن تحليل المعطيات عبارة عن مجموعة من التقنيات الوصفية ،األداة وبناء على ما سبق تقديمه ّ يتضح ّ ً الرياضية الرئيسية فيها هي جبر المصفوفات ،والتي يتم التعبير عنها دون افتراض نموذج احتمالي مسبق. ولتحليل المعطيات العديد من الطرائق التي تختلف باختالف المجال المستخدمة فيه ،إذ يمكننا استخدام تحليل المعطيات في العلوم الطبيعية والعلوم االجتماعية والمالية. خطوات تحليل المعطيات: تتضمن عملية تحليل المعطيات مجموعة من الخطوات التي ال بد من التعرض إليها بالتسلسل المطلوب حتى تكون النتائج التي يتحصل عليها ذات مغزى ،ويمكن االعتماد عليها في اتخاذ الق اررات الصائبة .وتبدأ العملية بجمع جميع البيانات المتعلقة بالمشكلة المراد دراستها ،ومن ثم معالجتها واستكشافها واستخدامها للعثور على األنماط والرؤى األخرى .ويمكن تلخيصها في اآلتي: تحديد موضوع التحليل تحديد مدى توافر البيانات المناسبة اختيار طرائق التحليل تطبيق وتقييم طرائق التحليل تلخيص وتفسير النتائج طرائق تحليل المعطيات: .1طرائق عاملية ( :)Factorielles methodsتهـ ــدف هذه الطرائق إلى الكشف عن متغيرات كامنة ال يمكن مشاهدتها انطالق ـ ــا م ـ ــن المتغيرات األصلية .وتشمل الطرائق العاملية االختبارات الموالية. تحليل المكونات الرئيسية ( ،)l lapan n eneynal pna yns esylana’l( )PCAالمستخدم في البياناتالكمية ،وطرقه المشتقة: ( -التحليل العاملي التقابلي) ) (l'analyse factorielle des correspondances) (CFAالمستخدم في البيانات النوعية (جدول االرتباط) والتحليل المتعدد بالمعامالت للتوفيقات AFCMأو ACMالذي يعمم السابق. 2 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي. مدخل إلى تحليل المعطيات. -التحليل القانوني والتحليل القانوني المعمم ( L'analyse canonique et l'analyse canonique ،)généraliséeوهما أطر نظرية أكثر من الطرق القابلة للتطبيق بسهولة ،يوسعان العديد من هذه األساليب ويتجاوزان تقنيات الوصف .فالتحليل متعدد العوامل هو عبارة عن جداول مناسبة يتم فيها تنظيم المتغيرات في مجموعات ويمكن أن تكون كمية و/أو نوعية. التحليل العاملي التمييزي ( )DFAأو التحليل التمييزي يجعل من الممكن تحديد المجموعات المتجانسة داخلالمجتمع من وجهة نظر المتغيرات المدروسة. تحليل المكونات المستقلة (األحدث) (( ،)ICA( l'analyse en composantes indépendantesالمشتقمن فيزياء اإلشارة والمعروف في البداية باسم طريقة فصل المصدر األعمى ،أقرب بشكل حدسي إلى طرق التصنيف غير الخاضعة لإلشراف .وتنظم أيقونة االرتباطات الخاصة بالبيانات النوعية والكمية االرتباطات بين المتغيرات في شكل رسوم بيانية. تحليل تاكر بين البطاريات ( )inter-batterie de Tuckerهو وسيط بين التحليل القانوني وتحليل المكون نظر ألن أيضا تحليل المكون الرئيسي في المتغيرات اآللية يشبه االنحدار ًا الرئيسي ،تحليل التكرار المسمى ً أن الوظيفة التي سيتم تعظيمها متغيرات إحدى المجموعات التي تم تحليلها تعتبر تابعة ،والبعض اآلخر مستقل ،و ّ هي مجموع معامالت االرتباط بين المجموعتين. .2طـ ـرائق التصـ ــنيف األوتومـ ــاتيكي ( :)Automatic classificationوهو أسلوب إحصائي متقدم لتصنيف المشاهدات أو األفراد لعدد من المجموعات باالعتماد على مجموعة من المتغيرات ذات التأثير المعنوي .كما يستخدم في تص ـ ــنيف البيانـ ــات إلـ ــى فئـ ــات متجانسـ ــة بالتسلسل أو بدونه ،مـ ــع األخ ــذ بعـ ــين االعتبـ ــار المتغيـ ـرات بناء على نقاطهم في االمتحان. المدروس ــة ،كأن نصنف مثال طلبة السنة الثالثة ً 3 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- الفصل األول :مفاهيم احصائية د .خالد علي الفصل األول :مفاهيم احصائية. الفصل األول :مفاهيم احصائية يهدف هذا الفصل إلى مراجعة بعض المفاهيم االحصائية التي يحتاج إليها الطالب في طرائق تحليل المعطيات ،مثل طريقة حساب المتوسط الحسابي ،االنحراف المعياري ،التباين والتباين المشترك ،االرتباط الخطي البسيط ،القيم المعيارية ،الجداول المتقاطعة ،كاي تربيع...إلخ. عد الجداول التك اررية إحدى النماذج التنظيمية لتجميع المعطيات حتى تعكس العرض الجدولي للمعطيات :تُ ّ صورة الواقع الذي أخذت منه من جانب ،ومن جانب آخر حتى تكون قابلة للتحليل بشكل يناسب احتياجات البحث الذي أعدت ألجله .فبمجرد االنتهاء من ترتيب المعطيات المتحصل عليها ،ال بد من عرضها بكيفية أو بأخرى ،ليتم تحليلها ولكي يكون لها عندئذ معنى قد نسعى إلى اختصارها وتقديمها بكيفية مرسومة أو مصورة واقامة عالقات بينها دائما بهدف جعلها دالة بالنسبة إلى مشكلة البحث .فالجدول إذا هو شكل تقني مختصر تجمع فيه البيانات بشكل متناسب مع خصائصها البحثية التي جمعت من أجلها ،كما أنه الطريق المنهجي نحو تحويل المعطيات إلى دالالتها اإلحصائية التي تنقل الظاهرة المدروسة من مستوى وقوعها إلى مستوى تفسيرها واستخالص النتائج منها. التحليل وحيد المتغير: .1مقاييس النزعة المركزية: .1.1المتوسطات: .1.1.1المتوسط الحسابي ( :)Meanمن أهم المقاييس اإلحصائية ،ويعتمد عليه بشكل كبير في إيجاد الحسابي ما يأتي :يأخذ بعين أهم خصائص الوسط حالة من االتزان بين جميع قيم البيانات اإلحصائية ،ومن ّ ّ العينية؛ ال يمكن استخدام هذا المقياس يعد محدود التأثّر بالتقلبات االعتبار جميع القيم والمشاهدات المتوفّرة؛ ّ ّ اإلحصائي في حال وجود فئات تك اررّية مفتوحة. 1 𝑛 𝑥 = 𝑖𝑋 𝑋̅= ∑𝑛𝑖=1 𝑛 𝑛 مثال :يحتوي الجدول الموالي على نقاط مجموعة من الطلبة في مادتي الرياضيات واالحصاء. الرياضيات 1 2 3 4 5 المجموع 12 11 9 8 12 48 1 𝑛 48 𝑋̅= ∑𝑛𝑖=1 𝑋𝑖 = 𝑥 = =10.4 أن عالمات التالميذ كانت متوسطة في مادة الرياضات. يظهر من النتائج أعاله ّ 5 𝑛 𝑛 4 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. .3.1.1الوسط التوافقي ( :)Harmonic Meanوهو أحد مقاييس النزعة المركزية وهو مقلوب الوسط الحسابي لمقلوبات هذه القيم .ويفضل استخدامه على باقي المتوسطات في حالة إيجاد معدل السرعات ومعدالت التغيير ،وال يمكن استخدامه في حالة إذا كانت إحدى هذه القيم مساوية للصفر. 𝑘 1 1 𝑖𝑛 ∑ = 𝐻 𝑛 𝑖𝑎 𝑖=1 مثال :سائق سيارة يقود بسرعة 60كلم في الساعة عند الذهاب و 30عند العودة .والمطلوب حساب متوسط السرعة. لحسابه يدويا نقسم العدد 1على كل قيمة من قيم المتغير ،ثم نجمع النواتج ونقسم عدد القيم على الناتج الذي تحصلنا عليه .في مثالنا: 1 40 =) 1 30 + 1 ( 1 = 2 60 1 𝐻 .2.1.1الوسط الهندسي ( :)Geometric Meanهو أحد أشكال المتوسطات ،ويستخدم بكثرة في دراسة المعدالت التي تميل إلى الزيادة بنسب ثابتة ،كما يستخدم في دراسة السالسل الزمنية القائمة على مقارنة معدل ما واختالفاته باختالف الزمن .والوسط الهندسي يمتاز بعدم تأثره بالقيم المتطرفة ولكن ال يمكن استخدامه مع القيم السالبة أو الصفر لعدم جواز الجذر للقيم السالبة ذات العدد الزوجي والقيمة صفر تلغي باقي القيم لكون الضرب في الصفر يساوي صف ار .ويعطى بالعالقة: 1 𝑛 𝑛) 𝑖 𝑖𝑎 G= (∏𝑘𝑖=1 مثال :تتزايد أسعار المنازل في الثالث سنوات األخيرة بنسبة .%15 ،%12 ،%9فما هو متوسط معدل الزيادة في أسعار المنازل للسنوات الثالث. G= √1.09 ∗ 1.12 ∗ 1.15= 1.1186 3 ومنه ،متوسط الزيادة السنوية يساوي .%11.86 المرجح (الموزون) (:)Weighted Mean .4.1.1الوسط ّ يعد هذا المقياس من المقاييس المهمة للنزعة المركزية ،وهو من حيث الفكرة يماثل الوسط الحسابي أن الوسط االعتيادي يعتبر مفردات العينة قيد الدراسة لها نفس األهمية والتأثير في حساب االعتيادي ،غير ّ أي مؤشر إحصائي ،ولكن في العديد من الحاالت تكون بعض المفردات أكثر أهمية من غيرها مما يستوجب استخدام مؤشر أخر لحساب المعدل مع األخذ بعين االعتبار أهمية كل مفردة من مفردات العينة ،وهذا المؤشر هو الوسط الحسابي المرجح أو الموزون .وقيمة هذا الوسط أكثر دقة من الوسط االعتيادي ،غير ّأنه أقل استخداما منه. 𝑛 ∑ 𝑖𝑊 𝑖𝑋 𝑋̅= ∑𝑖=1 𝑛 𝑖𝑊 𝑖=1 5 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. مثال :محل يبيع نوع من الفاكهة بأربعة أسعار مختلفة ،باع من النوع األول 5كيلوجرام بسعر 1.2دينار للكيلوجرام ومن النوع الثاني 8كيلوجرام بسعر 0.8دينار ،ومن النوع الثالث باع 12كيلوجرام بسعر 0.4 المرجح يدويا دينار .أحسب الوسط الحسابي المرجح لسعر بيع الكيلوجرام من هذه الفاكهة .لحساب الوسط ّ نستخدم المعادلة التالية: )(5∗1.2)+(8∗0.8)+(12∗0.4 =̅𝑋 = 0.68 5+8+12 .5.1.1الوسط الحسابي المشذب ( :)Trimmed Mean %5يشبه الوسط المقتطع (الذي يطلق عليه أحيانا المتوسط المقطوع أو المقصوص) ،لكنه يقلص أي حدود خارجية يمكن أن تؤثر القيم الخارجية على الوسط (خاصة إذا كان هناك واحد أو اثنين فقط من القيم الكبيرة جدا) ،لذلك غالبا ما يمكن أن يكون الوسط المقصوص مناسبا بشكل أفضل لمجموعات البيانات ذات القيم العالية أو المنخفضة ،غير المنتظمة ،أو بالنسبة للتوزيعات المنحرفة للغاية .ويتم التعبير عن هذه المتوسطات بالنسب المئوية ،إذ تخبرك النسبة المئوية بنوع البيانات المراد إزالتها .على سبيل المثال ،مع خفض متوسط ،٪ 5يتم استبعاد أدنى ٪5وأعلى ٪5من البيانات ،ثم يتم حساب الوسط من ٪90المتبقية من نقاط البيانات. مالحظة :إذا كان الفرق بينه والمتوسط الحسابي أكبر من 5بالمائة ،يعني وجود قيم متطرفة كبيرة والبيانات ال تتبع التوزيع الطبيعي. مثال :حساب الوسط المشذب للبيانات التالية. لحسابه يدويا نقوم بترتيب البيانات من األصغر إلى األكبر ،ثم نحذف %5من األعلى و %5من األسفل، ونحسب المتوسط المشذب من %90المتبقية من البيانات .في مثالنا %5من .1 =20أي سنقوم بحذف أعلى رقم وأدنى رقم (.)32 ،14 الوسط الحسابي لهذه البيانات قبل التشذيب يساوي ( 21.35مجموع جميع القيم مقسوما على عددها) وبعد التشذيب يساوي .21.16 6 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. .2.1الوسيط ( :)Medianوهو القيمة التي تتوسط البيانات اإلحصائية بعد عملية ترتيبها بشكل تصاعدي أهم خصائص الوسيط ما يلي :ال يتأثّر الوسيط بالقيم اإلحصائية المتطرفة؛ ُيستخدم بشكل أو تنازلي ،ومن ّ كبير في حاالت الفئات المفتوحة؛ يستخدم فيما يعرف بالتوزيعات الملتوية. أهم خصائصه :ال .3.1المنوال ( :)Modeيشير إلى القيمة األكثر تكر ا ار في البيانات اإلحصائية ،ومن ّ اإلحصائية الالحقة؛ يتأثّر بشكل كبير بعامل طول الفئة. يمكن االعتماد عليه في العمليات ّ .4.1المجموع ( :)Sumمجموع القيم أو إجماليها. مثال :حسبنا المتوسط والوسيط والمنوال لدرجات االمتحان لتسعون ( )90تلميذا في مجموعة من المواد التي يدرسونها ،وكانت النتائج كما يلي: أن عالمات التالميذ كانت متوسطة في مادتي الرياضات واللغة العربية ،وفوق يظهر من الجدول أعاله ّ المتوسط في مادتي التربية اإلسالمية والرياضة ،بينما متوسط عالماتهم في التربية العلمية كان ضعيفا أن ( ،)3.81مما يدل على ضعف تحصيلهم في هذه المادة ،مقارنة ببقية المواد .كما يتضح من قيم المنوال ّ عالمات التالميذ في مادة الرياضيات كانت أغلبها 9من ،10وكذلك الحال بالنسبة لمادة الرياضة ،وحصل أن منحنى توزيع أغلب التالميذ على عالمة 1من 10في مادة التربية العلمية .ويتبين لنا من الجدول ّ العالمات في مادة التربية العلمية ملتوي نحو اليمين (إلتواء موجب) ،وفي بقية المواد ملتوي نحو اليسار (إلتواء سالب). مالحظة :يكون منحنى التوزيع معتدال في حالة تساوي الوسط والوسيط والمنوال؛ وفي حالة كان الوسط أكبر أما في حالة كان الوسط أقل من من الوسيط وأكبر من المنوال ،يكون إلتواء منحنى التوزيع نحو اليمين؛ ّ الوسيط والمنوال ،فالتوزيع يلتوي نحو اليسار. مثال :2طلبنا من صديقنا تسجيل أجور 24رجال كانوا جالسين في مقهى ،صادفناهم عشوائيا ،ثم قمنا بحساب التك اررات ،الوسط الحسابي ،الوسيط ،المنوال ،والمجموع ،وكانت النتائج كالتالي: 7 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. أن متوسط األجور يساوي أن حجم العينة يساوي ،24وال توجد لدينا قيم مفقودة ،كما ّ يتبين من الجدول ّ أما األجر األكثر تك ار ار في العينة فهو 18000دج ،وهو 174291.66دج ،ووسيطها 29000دجّ ، المنوال ،ومجموع أجور كامل أفراد العينة 4183000دج. أن نتيجة الوسط الحسابي تبدو للوهلة األولى غير منطقية إن قارناها بالوسيط والمنوال ،وللتأكد نالحظ ّ نفحص جدول التك اررات. توجد قيمة لألجر كبيرة جدا مقارنة ببقية األجور ،ربما يكون السبب خطأ في اإلدخال ،أو سبب آخر يمكن تبريره ،بأننا صادفنا في المقهى مليارديرا ،وبياناتنا سليمة .هذا ما نطلق عليه بمنطق االقتصاد رجل أعمال، أما في المنطق اإلحصائي فهو قيمة شاذة تسبب مشكلة في بياناتنا ،علينا وبمنطق علم االجتماع بورجوازيّ ، تبريرها أو حذفها ،لكن لو لم يسجل صديقنا أجر الملياردير فلن تكون عينتنا عشوائية ،ما الحل إذا؟ علينا أن نستخدم الوسيط بدل الوسط الحسابي. أن وسيط األجور هو 29000وهو رقم معقول بالنظر إلى التك اررات ،لو نحذف أجر الملياردير ونعيد الحظ ّ الحساب. 8 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. نعم أصبح متوسط األجور ،29695.65وهو تقريبا مساوي لقيمة الوسيط دون حذف القيمة الشاذة. إن نصف األفراد في المقهى أو 50في المائة منهم يتقاضون وباالعتماد على قيمة الوسيط يمكن القولّ : أجو ار أقل من ،29000و 50في المائة يتقاضون أجو ار أعلى من 29000دج .كما يمكننا الحكم على أن قيمة المتوسط الحسابي أكبر من الوسيط والمنوال ،ما شكل التوزيع من خالل القيم السابقة ،إذ نالحظ ّ أن التوزيع ملتوي نحو اليمين. معناه ّ .2مقاييس التشتت ( :)dispersionمقاييس التشتت مؤشرات إحصائية وصفية تستخدم لقياس مدى التباعد ويعرف التشتت بأنه مقدار تباعد أو اختالف قيم أو االختالف فيما بين قيم مجموعة بيانات أو توزيع تكراريّ . بيانات أو توزيع تكراري عن بعضها البعض أو عن إحدى مقاييس النزعة المركزية ،وتحديدا (الوسط فإن مقاييس التشتت تستخدم لدراسة مدى صالحية الحسابي ،الوسيط ،المنوال) ،وبناء على هذا التعريف ّ عينة عشوائية ألغراض الدراسة ،فكلما زادت قيمة مقاييس التشتت كلما زاد التباعد بين بيانات العينة، وبالتالي عدم صالحيتها للدراسة والعكس صحيح. مالحظة :مقاييس التشتت المطلقة ،هي مقاييس تعتمد القيم المطلقة أو المربعة في حسابها ،وعليه تكون قيمها دائما موجبة. ولتبيين أهمية مقاييس التشتت احصائيا إليك المثال التالي :لدينا بيانات عن أعمار مجموعتين من العبي كرة اليد. لو نقوم بحساب متوسط أعمار الفريقين سنجده كالتالي: 9 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. يظهر من مخرجات التحليل أن متوسط أعمار الفريقين متساوي ،فهل نستطيع الحكم على أعمار الفريقين بأنها متساوية أو مختلفة من خالل الوسط الحسابي فقط ،الجواب ال ولكن لو علمنا أن الوسط الحسابي ألعمار الفريق الثاني 26سنة واختالفها (تشتتها) يساوي صف ار ،والوسط الحسابي ألعمار الفريق األول يبلغ 26سنة وتشتتها يبلغ قيمة معينة غير الصفر ،فنستطيع عندها إعطاء وصفا أفضل للبيانات وبالتالي مقارنة أفضل. .1.2االنحراف المعياري: ∑𝑛 (𝑋𝑖 −𝑋̅)2 𝑛 𝛿= √ 𝑖=1 مثال :لو أردنا دراسة الحالة المادية للمجتمع ،وعلى ضوئها يتم اتخاذ ق اررات معينة ،هنا سوف يتم معرفة أين تتمركز األغلبية وأين الشريحة أو األقلية التي تقع في مدى المعيار أو فوق المعيار أو تحته .كيف يتم ذلك؟ إذا كان االنحراف المعياري يساوي صفرا ،فهذا يعني أنه يساوي الوسط الحسابي أي ال يوجد ال فقر وال غنى، أن الحالة المادية للمجتمع ولكن إن وجد انحراف يساوي مثال 50والمتوسط الحسابي 150فهذا يعني ّ تتمركز بالمعظم بين الـ 100والـ 200وأّنه يوجد فقر تحت الـ 100وغنى فوق الـ .200وكلما زاد االنحراف المعياري عن المتوسط ،فهذا يعني أن هناك تباين كبير حول المتوسط على نطاق واسع ،حيث ال يوجد تجانس. .2.2التباين: ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 1 𝑛 =V 𝑉√=𝛿 ألنه من جانب يأخذ جميع القيم في االعتبار عند حسابه ،ومن يعتبر التباين أحد مقاييس التشتت المهمة ّ جانب آخر يقيس التشتت عن الوسط الحسابي للقيم ،هذا باإلضافة إلى أنه تسهل معالجته رياضيا ،ويدخل في تكوين عدد من المقاييس واالختبارات اإلحصائية المهمة .والفكرة األساسية للتباين هي حساب انحرافات جميع القيم عن وسطها الحسابي (أي حساب الفرق بين كل قيمة والوسط الحسابي) ،وسوف نجد أن بعض القيم أكبر من الوسط فتكون الفروق (أو االنحرافات) بالموجب ،والبعض األخر أصغر من الوسط فتكون الفروق بالسالب ،ودائما يكون مجموع هذه االنحرافات مساويا للصفر .وبتربيع هذه االنحرافات ،ثم حساب أن التباين هو متوسط مربعات انحرافات القيم عن متوسط االنحرافات المربعة نحصل على التباين .أي ّ وسطها الحسابي. 10 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. يفرق بين التباين ( )Varianceوالتغاير (التباين المشترك) (،)Covariance مالحظة :على الطالب أن ّ فالتغاير هو مقياس لكمية تغير متغيرين مع بعضهما (التباين هو حالة خاصة من التغاير؛ يسمى التغاير تباينا عندما يكون المتغيرين متساويين). التحليل ثنائي المتغير(:)Bivariate analysis يهدف إلى تحليل العالقة التي قد تكون بين متغيرين .مثل العالقة بين عدد السكان وعدد خطوط النقل في مدينة ما. مالحظة :العالقة بين متغيرين ،حتى وان كانت قوية ال تعني السببية. الجداول المتقاطعة :تعتمد الجداول المتقاطعة على مبدأ التكرار إال أنها تعطي معلومات أكثر عمقا وداللة بالمقارنة مع ما تعطيه جداول التكرار .حيث تدمج الجداول المتقاطعة متغيرين أو أكثر .مثال إذا كان أحد األسئلة يتعلق بالجنس ” ذكر ،أنثى“ واآلخر عن المستوى التعليمي فإنه في الجداول المتقاطعة تستطيع أن تظهر عدد كل من الذكور واإلناث عند كل مستوى تعليمي. yj yp ..... ..... المجموع y2 y1 n1. n1p ..... n1j ..... n12 n11 X1 n2. n2p ..... n2j ..... n22 n21 X2 ..... ni. ..... nip ..... ..... nij ..... ..... ni2 ..... ni1 ..... 𝑖X ..... nk. ..... nkp ..... ..... ..... nkj ..... ..... ..... nk1 ..... nk1 ..... Xk n.. n.p ..... n.j ..... n.2 n.1 المجموع ..... ..... حيث i :تتغير من واحد إلى j ،kتتغير من واحد إلى .. ،pالمجموع. .1المتوسط الحسابي: .2التباين: 1 𝑖𝑥 𝑋̅= ∑𝑘𝑖=1 𝑛𝑖. 𝑥𝑖 = ∑𝑘𝑖=1 𝑓𝑖. 𝑛 𝑝 1 𝑝 𝑗𝑦 𝑗𝑦̅= ∑𝑗=1 𝑛.𝑗 𝑦𝑗 = ∑𝑗=1 𝑓. 𝑛 ̅̅̅2 := 1 ∑𝑘 𝑛𝑖. 𝑥𝑖 2 = ∑𝑘 𝑓𝑖. 𝑥 2 𝑥 𝑖 𝑖=1 𝑖=1 𝑛 𝑝 1 𝑝 ̅̅̅ 𝑦 2 := ∑𝑗=1 𝑛.𝑗 𝑦𝑗 2 = ∑𝑗=1 𝑓.𝑗 𝑦𝑗2 ̅̅̅2 − (𝑥̅ )2 𝑥 = Var( 𝑥): ̅̅̅ = Var( 𝑦): 𝑦 2 − (𝑦̅)2 𝑛 .3السلسلة الشرطية: 11 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. أن .1.3السلسلة الشرطية بالنسبة للمتغير :Xنشير لها ب ـ ـ ،Xjونقول بأنها السلسلة الشرطية ل ـ ـ Xمع العلم ّ ،Y=yj.ونحسب في هذه الحالة التكرار الشرطي 𝑗. 𝑓𝑖/ 𝑗𝑖𝑓 𝑗𝑖𝑛 = 𝑗𝑛.𝑗 𝑓. =𝑓𝑖/𝑗 : أن .2.3السلسلة الشرطية بالنسبة للمتغير :Yنشير لها ب ـ ـ ،Yiونقول بأنها السلسلة الشرطية ل ـ ـ Yمع العلم ّ ،X=Xi.ونحسب في هذه الحالة التكرار الشرطي 𝑗. 𝑓𝑖/ 𝑗𝑖𝑓 𝑗𝑖𝑛 𝑓𝑖. .4التباين: التباين المشترك: = 𝑛𝑖. =𝑓𝑗/𝑖 : ∑𝑛𝑖=1 𝑛𝑖. 𝑥𝑖2 -𝑥̅ 2 1 𝑁 = )Var(X 1 𝑝 𝑦𝑥=)Cov(X,Y ̅𝑦 ̅𝑥 ̅̅̅-𝑥̅ 𝑦̅= ∑𝑛𝑖=1 ∑𝑗=1 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑗 − 𝑁 يعبر التباين المشترك بين المتغيرين عن نوع العالقة بينهما ،فإذا كان التباين المشترك يساوي صفرا، فالمتغيرين مستقلين عن بعضهما ،واذا كان أكبر من الصفر يرتبطان ارتباطا موجبا ،وان كان أقل من الصفر يرتبطان ارتباطا سلبيا. .5معامل االرتباط الخطي البسيط: )𝑌𝐶𝑜𝑣(𝑋, 𝑌𝛿 𝑋𝛿 =rXY وهو تحليل ثنائي المتغير يقيس قوة االرتباط بين متغيرين واتجاه العالقة ،ومن حيث قوة العالقة تتراوح قيمة معامل االرتباط بين 1+و ،1-وتشير قيمة 1 ±إلى درجة الكمال من االرتباط بين المتغيرين ،وعندما تذهب قيمة معامل االرتباط نحو 0ستكون العالقة بين المتغيرين أضعف ،ويشار إلى اتجاه العالقة بواسطة عالمة المعامل ،وتشير عالمة +إلى وجود عالقة إيجابية وتشير العالمة إلى وجود عالقة سلبية. مالحظة :يمكن تقييم القوة من خالل هذه المبادئ العامة: .............. 0.3< | r |<0.1ارتباط ضعيف /العالقة ضعيفة. .............. 0.5< | r |<0.3ارتباط متوسط /عالقة متوسطة. ................1< | r |< 0.5ارتباط كبير /عالقة قوية. مثال :يحتوي الجدول الموالي على نتائج دراسة للعالقة بين متوسط عدد الساعات ( )Xالتي يقضيها الفرد يوميا في استخدام هاتفه النقال ،وعدد الكتب ( )Yالتي يقرأها في السنة. المجموع 39-51 13-25 26-38 0-12 Y X 12 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. 221 49 52 54 66 0-3 120 6 22 34 58 3-6 74 2 4 9 59 6-9 415 57 78 97 183 المجموع المطلوب: .1حدد: n23 , n32 , n12 , n3. , n.2 , f31 , f3. , fi=2 /j=1 .2أحسب المتوسط الحسابي. .3أحسب التباين المشترك بين المتغيرين. الحل: .1 n23 = 22 22فردا يقضون بين 6-3ساعات يوميا وراء هواتفهم ،يقرؤون في العام بين 38-26كتابا. n32 = 9, n12 = 54 n3. = 74 74فردا يقضون بين 9-6ساعات يوميا في استخدام الهاتف. n.2 = 97 97فردا يقرؤون بين 25-13كتابا في السنة. =0.142 59 415 = f31 %14.2من األفراد يقضون في المتوسط بين 6و 9ساعات يوميا في استخدام هواتفهم .ويقرؤون في السنة بين 0و 12كتابا. %17.8من األفراد يقضون بين 6و 9ساعات من وقتهم في استخدام الهاتف. = 0.317 = 0.178 58 n 183 n.1 74 415 = F3. =fi=2 /j=1 = 21 %31.7من األفراد الذين يقرؤون بين 0و 12كتاب في السنة يقضون من 3إلى 9ساعات يوميا وراء هواتفهم. .2المتوسط الحسابي. المجموع 221 39-51 26-38 13-25 0-12 Y 45 32 19 6 X 49 52 54 66 1.5 0-3 13 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. 120 6 22 34 58 4.5 3-6 74 2 4 9 59 7.5 6-9 415 57 78 97 183 المجموع الوقت المتوسط الستخدام الهاتف هو ،3.437 :ثالثة ساعات و 26دقيقة. متوسط عدد الكتب المقروئة يساوي .19.3 .3حساب التباين المشترك: 1 𝑝 𝑦𝑥=)Cov(X,Y ̅𝑦 ̅𝑥 ̅̅̅-𝑥̅ 𝑦̅= ∑𝑛𝑖=1 ∑𝑗=1 𝑛𝑖𝑗 𝑥𝑖 𝑦𝑗 − 𝑁 المجموع= 22365 2496 3168 960 3307.5 1215 675 66*6*1.5=594, 54*19*1.5=1539…. 1539 2907 1282.5 594 1566 2655 *22365-3.437*19.3= -12.378 1 415 =)Cov(X,Y أن وقت قراءة الكتب أن المتغيرين متعاكسين في االتجاه ،كما ّ التباين المشترك بين المتغيرين سالب ،ما معناه ّ أقل أهمية من الوقت الذي يقضيه الفرد وراء الهاتف. .4حساب معامل االرتباط: )𝑌𝐶𝑜𝑣(𝑋, 𝑌𝛿 𝑋𝛿 𝑛𝑖. 𝑥𝑖2 𝑖𝑥 𝑛𝑖. المجموع 39- =rXY 26-38 51 1 Var(X) = ∑𝑛𝑖=1 𝑛𝑖. 𝑥𝑖2 -𝑥̅ 2 𝑁 13- Y 0-12 25 45 32 19 6 X 497.25 331.5 221 49 52 54 66 1.5 0-3 2430 540 120 6 22 34 58 4.5 3-6 4162.5 555 74 2 4 9 59 7.5 6-9 1426.5 7089.75 415 57 78 97 183 المجموع 221*1.5=331.5, 331.5*1.52=497.25….. *7089.75-3.4372= 5.27 1 415 = )Var(X 𝛿𝑋 = √𝑉𝑋 = √5.27=2.29 14 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. 𝛿𝑌 = 14.10 = -0.38 −12.378 2.29∗14.10 توجد عالقة عكسية متوسطة بين المتغيرين. =rXY .6التوافق واالستقاللية بين متغيرين نوعيين (اختبار كاي تربيع لالستقاللية (.))CHI-SQUARE يستخدم مربع كاي لالستقاللية الختبار العالقة بين متغيرين من النوع اإلسمي أو الترتيبي .ويستخدم اختبار كاي تربيع للترابط الختبار العالقة بين متغيرين فئويين (اسمي أو ترتيبي أو مزيج من االثنين) ،ويشار إليه أيضا باسم اختبار مربع كاي لالستقاللية .وكالهما اسمان صحيحان لالختبار ،حيث ينبع االختالف في المصطلحات فيما إذا كانت الفرضية الصفرية صحيحة (أي االستقاللية) والفرضية البديلة (أي االرتباط). شروطه: -يجب قياس المتغيرين على مستوى ترتيبي أو اسمي (أي البيانات الفئوية). يجب أن يتكون المتغيران لديك من مجموعتين فئتين مستقلتين أو أكثر .المتغيرات المستقلة التي تلبي هذاالمعيار تشمل الجنس (مجموعتان :ذكور واناث) ،المهنة (على سبيل المثال 5 ،مجموعات :الجراح، الطبيب ،الممرضة ،طبيب األسنان ،المعالج) وهكذا. الفرضية الصفرية لالختبار :ال توجد عالقة بين المتغيرين في المجتمع .ويتضمن اختبار ما إذا كانت كبير عن تلك التي يمكن ا تك اررات الخلية المشاهدة (أو االحتماالت المشتركة) في البيانات تختلف اختالفا توقعها ،إذا لم تكن هناك عالقة (أي االستقالل) بين المتغيرات داخل المجتمع. ويمكننا ترجمة هذا الكالم في ظل فرضية االستقاللية .H0 وعلى العكس ،الفرضية البديلة H1 P(X=i et Y=j)= P(X=i) x P(Y=j). P(X=i et Y=j) # P(X=i) x P(Y=j). بعبارة أخرى سنقوم باختبار فرضية العدم: 𝑗H0 ; 𝑓𝑖𝑗 = 𝑓𝑖. *𝑓. في مقابل الفرضية البديلة: 𝑗H1 ; 𝑓𝑖𝑗 # 𝑓𝑖. *𝑓. وعند دراسة ظاهرة كيفية متعلقة بمتغيرتين نوعيين ،يمكن البحث عن وجود اعتمادية أو استقاللية باستخدام اختبار كاي تربيع لالستقاللية ،المعطى بالعالقة: 𝑝 𝑞 (𝑛𝑖𝑗−(𝑛𝑖.∗𝑛.𝑗/𝑛))2 (𝑓𝑖𝑗−𝑓𝑖.∗𝑓.𝑗)2 X = ∑𝑖=1 ∑𝑗=1 = 𝑛𝑛𝑖.∗𝑛.𝑗/ 𝑗𝑓𝑖.∗𝑓. 2 مالحظة :يستخدم التحليل التقابلي جدول االحتماالت ،لذلك فهو ال يقول أي شيء عن الداللة اإلحصائية، فقط يتصور طبيعة االرتباط بين المتغيرين. 15 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. ويتم حساب قيمته ومن ثم مقارنته مع القيمة الجدولية الحرجة بدرجة حرية، r=(p-1)(q-1). ((عدد األسطر()1-عدد األعمدة.))1- أما الفرضية البديلة فتقول الفرضية الصفرية لالختبار (عند مستوى داللة 0.05فأقل) المتغيرين مستقلينّ ، بأنهما غير مستقلين عن بعضهما .ولحساب كاي تربيع ،نحسب التكرار المتوقع لكل خلية في الجدول ّ المتقاطع حسب العالقة الموالية. نضرب مجموع عناصر السطر في مجموع عناصر العمود الذي تنتمي له الخلية ،ونقسم الناتج على المجموع الكلي .أو عن طريق العالقة في معادلة حساب كاي تربيع .ni.*n.j/n.. مثال :نحن مهتمون بالعالقة بين لون العينين ولون الشعر لـمجموعة من 484من اإلناث .وجدول االقتران أو التقاطع الموالي يبين تقاطع المتغيرين الوصفيين ،لون العينين في األسطر ولون الشعر في األعمدة .حيث يشمل متغير لون العينين أربعة خصائص للون العينين ،هي :كستنائي ،عسلي ،أخضر ،أزرق؛ في حين يشمل متغير لون الشعر ثالثة خصائص من لون الشعر ،هي :بني ،أحمر ،أشقر. أشقر 7 10 16 94 بني 119 54 29 84 أحمر 26 14 14 17 كستنائي عسلي أخضر أزرق المطلوب :حساب كاي تربيع وتفسير النتيجة. الحل: سنحسب في الخطوة األولى جدول التك اررات المتوقعة باالعتماد على جدول التقاطع. نضرب مجموع عناصر السطر في مجموع عناصر العمود الذي تنتمي إليه الخلية ،ونقسم الناتج على المجموع الكلي .أو عن طريق العالقة في معادلة حساب كاي تربيع. ni.*n.j/n.. جدول التك اررات النظرية (المتوقعة) أشقر 39.884 20.466 15.481 51.167 أحمر 22.297 11.442 8.654 28.605 بني 89.818 46.090 34.863 115.227 كستنائي عسلي أخضر أزرق مثال :التكرار المتوقع للخلية الناتجة من تقاطع السطر األول مع العمود األول: 152∗286 = 89.818 484 =n11 16 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. جدول حساب كاي تربيع 37.207 7.28 4.304 49.026 97.817 أشقر 27.112 5.352 0.017 35.856 68.337 أحمر 0.614 0.571 3.302 4.708 9.195 بني 9.481 1.357 0.985 8.462 20.285 كستنائي عسلي أخضر أزرق = 9.481 (89.818−(119))2 نحسب درجات الحرية من العالقة: 89.818 =X211 (r-1)(c-1)= (4-1)(3-1)=6 أن قيمة كاي تربيع المحسوبة تساوي ،97.817نقارنها بكاي تربيع الجدولية عند مستوى من الجدول نالحظ ّ أن قيمة كاي تربيع المحسوبة داللة 0.05فأقل ودرجات حرية .6القيمة الجدولية لكاي تربيع ،12.59وبما ّ فإن هناك ارتباط بين األسطر واألعمدة، تقع ضمن منطقة رفض فرضية العدم ،أكبر من القيمة الجدوليةّ ، أي بين لون العينين ولون الشعر. مصطلحات Terminology .1جدول البيانات الكمية :مصفوفة مستطيلة الشكل مكونة من صفوف وأعمدة .كل صف يمثل فرد وكل عمود يمثل متغير .ويطلق عليه أيضا اسم مصفوفة البيانات ،ويرمز له بالرمز .X .2األفراد :كل فرد يقابل صفّا في جدول البيانات ،وتسمية فرد تطلق على أي شيء ،شخص ،حيوان ،بلد، منتج ،شركة...إلخ. .3الخاصية :الخصائص أو الفئات ،هي القيم التي يتخذها متغير اسمي .على سبيل المثال ،متغير الجنس له خاصيتان :ذكر وأنثى .وُيعرف أيضا باسم المجموعةّ أو الفئة. .4التحليل العاملي :التصور األمثل (بمعنى معين) لسحابة من النقاط في فضاء متعدد األبعاد. .5المحاور العاملية :المحاور ،مرتبة حسب أهميتها ،والتي نستخدمها لتصور سحابة النقاط في تحليل العاملي .ويتم تحديدها من خالل اتجاهات التمدد األكبر (القصور الذاتي) لسحابة النقاط. .6سحابة النقط ( :)Cloud of Pointsنسمي الرسم البياني المستخدم لتمثيل مجتمع إحصائي مكون من حرفين ( )X, Yبسحابة النقط ،حيث تشير كل نقطة إلى موضع المشاهدة وفقا للحرفين .وفي معظم األحيان ال نالحظ فقط موقع النقاط ،بل تكون مصحوبة بخط مستقيم يلخص السحابة بشكل أو بآخر ،هذا الخط المستقيم تمثل معادلته الرابط الذي قد يكون موجودا بين الحرفين. 17 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. .7المسافة :المسافة بين نقطتين في سحابة معينة يمكن حسابها بناء على إحداثيات النقاط وفقا لنظرية فيتاغورس ( )Pythogoreanالشهيرة. .8القصور الذاتي ( :)Inertiaمصطلح مستعار من الميكانيك (في الفيزياء) ،يكافئ المفهوم اإلحصائي للتباين .ويعطي القصور الذاتي فكرة عن االنتشار في سحابة من النقاط الموزونة .فإذا كان لألفراد نفس فإن أكبر اتجاه للقصور الذاتي لسحابة النقاط يكون مع اتجاه محورها الرئيسي. الوزن (نفس األهمية)ّ ، فإذا كنت لم تدرس الفيزياء أو الميكانيك ،فأنت ال تعرف أن القصور الذاتي يقيس مقاومة الجسم لتغيير نظر لتوزيع مادتها، حركته الدورانية حول نقطة ما .خذ مثال المكنسة ،إذا أردنا تدويرها حول مركز ثقلها ،و ا يسهل تدويرها حول محور المقبض (الحركة )1بدال من تدويرها مثل العصى (الحركة .)2لذلك ،يكون القصور الذاتي أقل على المحور الذي يعبر المقبض على طوله بالكامل مقارنة بالمحور الذي يخترق قطره (أعلى بقليل من الفرشاة). ويتم قياس القصور الذاتي الكلي كمجموع مربعات مسافات النقاط من مركز ثقل ( )Gسحابة النقط. 18 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي الفصل األول :مفاهيم احصائية. ففي حالة عدم إعطاء كل النقاط نفس الوزن (في الميكانيك ،نقول الكتلة) ،فال بد من أن يتم وزن مربعات المسافات ،لذلك إذا الحظنا أن dمسافة نقطة من مركز ثقل السحابة ،فسيكون لدينا عدد nمن النقاط المتأثرة بالوزن .p I= ∑𝑛𝑖=1 𝑝𝑖 𝑑𝑖2 ويترتب على ذلك أنه كلما زاد عدد النقاط التي نضيفها ،زاد القصور الذاتي (من الصعب مناورة سفينة الشحن أكثر من سفينة الصيد) ونالحظ أيضا أنه بقدر ما نضيف مربعات من المسافات ،فإن النقطة البعيدة عن مركز الثقل يكون لها تأثير أكبر على القصور الذاتي الكلي من النقطة المتوسطة ،عند تساوي الوزن. لذلك ال يتم تعريف القصور فيما يتعلق بالمحور ولكن فيما يتعلق بالنقطة .ففي الحالة التي تكون فيها المتغيرات كمية ،إذا تم تعيين نفس الوزن لجميع المشاهدات ،فإن القصور الذاتي يندمج مع مؤشر التشتت. لذلك ،يكون القصور الذاتي = عدد المشاهدات × التباين ،أو في حالة توفر عدة متغيرات ،فالقصور الذاتي يساوي عدد األفراد في مجموع تباينات المتغيرات ،هذا المجموع هو أثر مصفوفة التباين والتباين المشترك ().)Trace (V وبالتالي ،إذا سعى المرء إلى محور يمر بمركز الثقل Oوالذي يجب أن "يمتص" أقصى قدر من القصور الذاتي ،فمن الضروري تقليل مسافات اإلسقاطات على المحور .وبالتالي ،تسعى طريقة التحليل بالمركبات الرئيسية إلى تحديد المحاور التي تمتص أقصى قدر ممكن من القصور الذاتي .فإذا كانت لدينا سحابة من النقاط على شكل مكنسة ،فإن اتجاه "القصور الذاتي األقصى المتوقع" (أو الحد األدنى من التشوه المتوقع) سوف يندمج مع المقبض ،وسيشمل معظم القصور الذاتي الكلي ،ويتم امتصاص الباقي بواسطة المحور الثاني الذي يتقاطع بشكل عمودي مع األول فوق الفرشاة . 19 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- الفصل الثاني: الفضاء الشعاعي وحساب المصفوفات د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات أوال :الفضاء الشعاعي. المصفوفة ) X(nxpهي المصفوفة األولوية للمعطيات ،تحتوي على nفرد ممثلين في األسطر و pمتغير ممثلين في األعمدة. 𝑝𝑛1 𝑝𝑛2 𝑝𝑖𝑛 .. ] 𝑝𝑛𝑛 أن 𝑗𝑖𝑛 هو العنصر المولّد للمصفوفة .X حيث ّ المتجه (الشعاع) eفي الفضاء .Rn 𝑗𝑛1 𝑗𝑛2 𝑗𝑖𝑛 .. 𝑗𝑛𝑛 𝑛12 𝑛22 𝑛𝑖2 .. 𝑛𝑛2 𝑛11 𝑛21 X(nxp)= 𝑛𝑖1 .. [𝑛𝑛1 𝑥1 .. )u := 𝑥𝑖 ∈ X(n*1 … ] 𝑛𝑥[ شعاع الوحدة في الفضاء .Rn 1 .. )1n= 1 ∈ X(n*1 … ][1 الشعاع الذاتي :نقول عن الشعاع غير الصفري ّ Uαأنه شعاع ذاتي للمصفوفة ) X(pxpإذا وفقط إذا كان: (X(pxp)- 𝜆α 𝐼 p)Uα=0p فإنه يملك pمركبة. أن هذا الشعاع موجود في فضاء ذو بعد ّ ،p وبما ّ الشعاع الذاتي الوحدوي :نقول عن الشعاع الذاتي ّ Uαأنه شعاع الوحدة إذا كانت طويلته تساوي الواحد. ‖𝑈𝛼 ‖=1 طويلة الشعاع :Uα ‖𝑈𝛼 ‖=√𝑥12 + ⋯ + 𝑥𝑝2 وفي حالة كانت طوية الشعاع ال تساوي الواحد ،يمكننا تعديل ذلك بقسمة مركبات الشعاع على طويلته. 𝑢1 ‖ 𝑈‖⁄ 𝛼 𝑢2 ‖ 𝑈‖⁄ * =U 𝛼 … 𝑝𝑢 ⁄ )‖ 𝛼𝑈‖ ( االستقالل الخطي :نقول عن سلسلة األشعة ( )U1,U2,…UPأنها مستقلة خطيا ،إذا وفقط إذا كان: 20 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات α1U1+α2U2+…….+αpUP=0p- α1= α2=…..=αp=0 أما بيانيا ،فيفسر االستقالل الخطي على أساس التعامد ،فسلسلة األشعة ( )U1,U2,…UPتكون مستقلة ّ أن هذه األشعة تكون أساسا للفضاء الشعاعي الجزئي EPإذا كانت خطيا ،إذا كانت متعامدة مثنى مثنى .كما ّ مستقلة خطيا. التحليل في الفضاء ( Rnتحليل المتغيرات في فضاء األفراد) :نعمل في هذا الفضاء على تحليل pمتغير في الفضاء ذو البعد ،nفننظر إلى األفراد كمحاور والمتغيرات كنقاط .فتكون مثال ،إحداثية المتغير األول في هذا الفضاء: )n1=(n11,n21,……,ni1,….nn1 أن احداثية المتغير األول على المحور األول هي n11وعلى المحور الثاني هي n21وعلى المحور n بمعنى ّ هي .nn1ويتم تمثيل المتغيرات في فضاء األفراد كما يلي: الفضاء Rn الفرد األول الفرد i ولحساب المسافة بين الفردين iو ́𝑖 في الفضاء :Rp 2 )’nj=(n1j….,nij,..nnj) , nj’=(n1j’….,nij’,…..nnj ) 𝑑(𝑗, 𝑗′)= ‖𝑗 − 𝑗′‖=√(𝑛1𝑗 − 𝑛1𝑗′ )2 + ⋯ + (𝑛𝑛𝑗 − 𝑛𝑛𝑗′ )2 = √∑𝑛𝑖=1(𝑛𝑖𝑗 − 𝑛𝑖𝑗′ بشرط أن تكون المتغيرات متجانسة (لها وحدة القياس نفسها). التحليل في الفضاء ( Rpتحليل األفراد في فضاء المتغيرات) :نعمل في هذا الفضاء على تحليل nفرد في الفضاء ذو البعد ،pفننظر إلى المتغيرات كمحاور واألفراد كنقاط .فتكون مثال ،إحداثية الفرد األول في هذا الفضاء: )n1=(n11,n12,……,n1j,….n1p 21 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات أن احداثية الفرد األول على المحور األول هي n11وعلى المحور الثاني هي n12وعلى المحور p بمعنى ّ هي .n1pويتم تمثيل األفراد في فضاء المتغيرات كما يلي: الفضاء Rp المتغير األول المتغير j ولحساب المسافة بين الفردين iو ́𝑖 في الفضاء :Rp )ni=(ni1….,nij,..nip) , ni’=(ni’1….,ni’j,…..ni’p 2 𝑝 ) 𝑗𝑑(𝑖, 𝑖′)= ‖𝑖 − 𝑖′‖=√(𝑛𝑖1 − 𝑛𝑖′1 )2 + ⋯ . +(𝑛𝑖𝑝 − 𝑛𝑖′𝑝 )2 = √∑𝑗=1(𝑛𝑖𝑗 − 𝑛𝑖′ 22 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات ثانيا :الجبر الخطي وحساب المصفوفات. د .خالد علي يتم تفسير الطرق االحصائية متعددة المتغيرات باستخدام مفاهيم جبر المصفوفات ،وعليه ،ال بد على من يريد التعامل مع تحليل المعطيات أن يكون على دراية بجبر المصفوفات .وفيما يلي أهم العمليات التي يتم اجرائها على المصفوفات ،ويحتاجها الذي يريد العمل على تحليل المعطيات. .1تعريف المصفوفة :هي مجموعة مستطيلة من األعداد أو من الرموز أو من التعبيرات منتظمة بشكل أعمدة وصفوفُ .يدعى كل عنصر من هذه المجموعة بعنصر أو مدخل للمصفوفة .ويستدل عادة على أي مدخل في مصفوفة ما باسم المصفوفة بحرف التيني صغير وأسفله رقمين صغيرين بحيث يمثل العدد األول رقم الصف والثاني رقم العمود . تدعى الخطوط األفقية في المصفوفة باألسطر بينما تدعى الخطوط العمودية باسم عمود .أما األعداد فتدعى مدخالت المصفوفة أو عناصر المصفوفة .ترمز إلى مصفوفة بحرف التيني كبير وتحته عددين طبيعيين على شكل جداء هما mو nحيث mهو عدد الصفوف و nعدد األعمدة .وبالتالي تعرف المصفوفة بعدد الصفوف واألعمدة ،وتعرف mو nبرتبة المصفوفة .فرتبة المصفوفة Aأعاله هي 4*3أي 4أسطر و3 أعمدة . وفيما يلي ،على سبيل المثال ،مصفوفة تحتوي على صفين وثالثة أعمدة: أما المصفوفة ذات العمود الواحد ،فتحدد بالشكل m × 1وتعرف باسم متجه عمودي .بينما المصفوفة المؤلفة أن المصفوفة هي جدول من من صف وحيد و nعمود تحدد بالشكل 1 × nوتعرف باسم متجه صفي .كما ّ العناصر قد تكون أعدادا حقيقية أو أعدادا مركبة وقد تكون دواال وهي صورة رياضية لوضع األعداد في جدول. ويمكن إجراء عمليتي الجمع والطرح على المصفوفات المتساوية القياس .كما يمكن ضرب المصفوفات بانسجام معين في القياس .ولهذه العمليات العديد من خصائص الحساب العادي ،باستثناء أن ضرب المصفوفات ليس بعملية تبديلية ،وبشكل عام يمكن أن نقول إن A.Bال يساوي .B.A 23 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات .2أنواع المصفوفات: .1.2المصفوفة المربعة :هي المصفوفة التي يكون فيها عدد الصفوف مساويا لعدد االعمدة (.)nxn 1 2 [ =)A(2*2 ] 4 0 .2.2المصفوفة القطرية :مصفوفة مرّبعة جميع عناصرها معدومة ،ما عدى عناصر القطر الرئيسي. 𝑑1 0 0 ] D=[ 0 𝑑2 0 0 0 𝑑3 فإذا كانت كل عناصر القطر الرئيسي متساوية وباقي العناصر معدومة ،سميت بالمصفوفة السلمية .وتكون المصفوفة القطرية قابلة للعكس إذا وفقط إذا كانت جميع عناصر القطر الرئيسي غير صفرية. 0 0 0 2 3 ] 𝑑3 𝑑2 0 1 𝑑1 D-1= 0 [0 .3.2المصفوفة المتناظرة :مصفوفة مرّبعة جميع عناصرها المتناظرة بالنسبة للقطر الرئيسي متساوية. 3 1 2 1 3 6 2 6 4 .4.2مصفوفة الوحدة :مصفوفة قطرية ،وجميع عناصر القطر الرئيسي تساوي الواحد. .5.2المصفوفة المعدومة :مصفوفة كل عناصرها معدومة. 0 0 1 1 0 𝐼𝑑 = 0 1 0 0 .6.2المصفوفة الشاذة :مصفوفة مرّبعة محددها معدوم (.)det (A)=0 .7.2المصفوفة النظامية :مصفوفة مربعة محددها غير معدوم. .8.2المصفوفة المثلثية العلوية :مصفوفة تكون فيها جميع العناصر الواقعة تحت القطر الرئيسي معدومة. 1 7 8 2 0 2 3 6 0 0 4 5 0 0 0 5 .9.2المصفوفة المثلثية السفلية :عكس المصفوفة المثلثية العلوية. .10.2منقول المصفوفة ( :)Transpositionوهي المصفوفة الناتجة عن قلب األسطر أعمدة واألعمدة أسطر ،مع المحافظة على الترتيب. 1 5 5 1 3 5 T ]A=[3 4 2], A =[5 4 8 5 8 9 5 2 9 24 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات مالحظة :منقول منقول المصفوفة Aهي المصفوفة .Aواذا كانت المصفوفة Aمتناظرة فهي تساوي منقولها. .11.2رتبة المصفوفة :هي عدد األسطر (األعمدة) المستقلة خطيا فيها ،وتساوي عدد األسطر (األعمدة) في المصفوفة المكافئة. مالحظة :نعني بمصفوفتين متكافئتين إذا أمكن الحصول على إحداهما من األخرى بإجراء عمليات أولية متتابعة ،حيث نتوقف عن إجراء العمليات األولية عند الحصول على مصفوفة مكافئة مثلثية ،وذلك ألن العمليات األولية على األسطر أو األعمدة ال تؤثر على رتبة المصفوفة. .12.2المصفوفة المتماثلة :نقول عن المصفوفة ّ Aأنها متماثلة ،إذا وفقط إذا كان منقولها ATيسوايها. 1 4 5 1 4 5 T ]A=[4 3 0]------- A = [4 3 0 5 0 7 5 0 7 نقول عن المصفوفتين Aو bأنهما مصفوفتان متماثلتان إذا وجدت مصفوفة ،Pحيث: B= P-1AP, A=PBP-1 .3عمليات على المصفوفات: الم َح ِّدد ( )Determinantلمصفوفة مربعة ،n×nهو عدد .1.3حساب محدد مصفوفة :في الجبر الخطيُ ، يمكن أن يحسب من خالل مداخل المصفوفة المربعة ،يحدد عددا من خصائص التحويل الخطي الذي تصفه ٍ مساويا للصفر إذا وفقط إذا كانت المصفوفة غير معكوسة .ويرمز عادة لمحدد مح ِّدد هذه المصفوفة .ويكون الُ َ مصفوفة ما ( .det (A) ،)Aوقيمته تحدد قابلية المصفوفة للعكس ،كما تحدد رتبة المصفوفة وحلول جملة المعادالت الخطية. مالحظة :ال يمكن حساب المحدد إالّ لمصفوفة مرّبعة .ويمكن حساب المحدد حسب أي سطر أو عمود. .1.1.3محدد مصفوفة :2*2 .2.1.3محدد مصفوفة :3*3يمكن حساب محدد مصفوف 3*3كما يلي: 𝑑 𝑎 𝑔 𝑑 𝑎 𝑔 ℎ ]=[𝑏 𝑒 ℎ ] 𝑏 𝑒 = (a.e.i + d.h.c + g.b.f) – (d.b.i + a.h.f + 𝑖 𝑓 𝑐 𝑖 𝑓 𝑐 𝑑 𝑎 𝑒 𝑏[ =)det (A 𝑓 𝑐 g.e.c). 2 1 0 2 1 )det (A)=[3 3 1] 3 3 = (2*3*5+1*1*4+0*3*2 4 2 5 4 2 (1*3*5+2*1*2+0*3*4)=(34)-(19)=15. 25 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات أو بالطريقة التالية: 𝑔 𝑑 𝑎 𝑒 ℎ 𝑒 𝑏 𝑏 ℎ [det (A)= [𝑏 𝑒 ℎ ]= a []+g []-d ]= a(i*e-h*f)-d(i*b-c*h)+g(b*f𝑖 𝑓 𝑓 𝑐 𝑖 𝑐 𝑖 𝑓 𝑐 e*c). 2 1 0 ]A= [3 3 1 4 2 5 3 1 3 1 3 3 [ det (A)=2 [] – 1 [] + 0 =]= 2*(5*3-1*2)-1*(5*3-1*4)+0=26-11 2 5 4 5 4 2 15. .3.1.3محدد مصفوفة :4*4 −3 + − + − − + − + 2 [ ] ] + − + − 6 − + − + 1 نبحث عن العمود الذي يحتوي على أكبر عدد من األصفار ،في مثالنا العمود الثالث. 0 4 −3 det (A)= -5 [1 −2 6 ]. 3 0 1 في حالة عدم وجود أصفار نستخدم حذف كاوس لتصفير عمود من األعمدة ونتبع الطريقة السابقة. 0 4 0 1 1 5 [ =A 1 −2 0 3 0 0 .2.3خصائص المحدد: أ .إذا أخذت جميع عناصر أي صف أو أي عمود (أو أكثر) القيمة صفر في محدد ما ،فإن قيمة هذا المحدد تتالشى أي تساوي صفر. 0 0 0 det[1 1 2]= ((0*1*4)+(0*2*3)+(0*1*2)-((0*1*4)+(0*2*2)+(0*1*3)=0 3 2 4 ب .إذا تطابقت (قيمة واشارة) العناصر المتناظرة في أي صفين أو أي عمودين في محدد ما ،فإن قيمة هذا المحدد تتالشى أي تأخذ القيمة صفر. 1 −2 8 *det[2 4 5]= ((1*4*8)+(-2*5*1)+(8*2*-2))-((-2*2*8)+(1*51 −2 8 2)+(8*4*1))=(32-10-32)-(-32-10+32)=-10+10=0. ج .إذا كانت جميع عناصر محدد ما كل منها تأخذ القيمة (صفر) ما عدا العناصر التي تقع على القطر الرئيسي ،فإن قيمة هذا المحدد نحصل عليها بضرب عناصر القطر الرئيسي. 1 0 0 det [0 5 0]= 1*5*3=15 0 0 3 26 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات د .محدد مصفوفة قطرية أو مصفوفة مثلثية علوية أو سفلية يساوي جداء عناصر القطر الرئيسي. ه .ال تتغير قيمة المحدد إذا أضيف إلى أي عمود (سطر) من أعمدة المصفوفة مزج خطي لبقية األعمدة (األسطر). .4أثر المصفوفة ( :)Traceأثر المصفوفة المربعة هو مجموع عناصر القطر الرئيسي ،أي مجموع قيمها الذاتية (.)Valeurs Propres 1 5 5 A= [3 4 2], Trace (A)= 1+4+9=14. 5 8 9 .5جمع وطرح مصفوفتين :لجمع وطرح مصفوفتين يجب أن تكونا من نفس الدرجة. 2 4 1 −1 5 3 [ [] - [=] ] 1 −3 0 −4 1 −1 أن جمع المصفوفات عملية تبديلية ال يمكن جمع أو طرح مصفوفتين غير متساويتين في الدرجة .كما ّ وتجميعية ،والمصفوفة المعدومة حيادية في الجمع. .6ضرب المصفوفات: فإن جميع عناصر المصفوفة .1.6ضرب مصفوفة في عدد :إذا تم ضرب مصفوفة في عدد معين (ّ ،)x تضرب في هذا العدد. 3 2 1 15 10 5 ] 5*[4 −1 0]=[20 −5 0 2 6 5 10 30 25 . 2.6ضرب مصفوفة في متجه (شعاع) :عند ضرب شعاع في مصفوفة ال بد أن يكون عدد أعمدة الشعاع يساوي عدد أسطر المصفوفة. 3 2 1 U13=[1 2 3]. A33=[4 −1 0], U13*A33= B13 2 6 5 3 2 1 (*[1 2 3]𝑥 [4 −1 0] =[17 18 16] /(1*3+2*4+3*2),(1*2+22 6 5 1)+3*6),(1*1+2*0+3*5). المصفوفة الناتجة Bتكون رتبتها بعدد صفوف الشعاع Cوأعمدة المصفوفة .A .3.6ضرب مصفوفة في مصفوفة :حتى يمكن ضرب مصفوفتين يجب أن يكون عدد أعمدة األولى يساوي عدد صفوف الثانية .لذلك فالضرب غير تبديلي في المصفوفات. 2 1 3 1 2 5 15 ][4 0 1]X[0 2]= [5 20 0 2 1 1 3 1 7 المصفوفة الناتجة تكون رتبتها بعدد صفوف األولى وأعمدة الثانية .وإلجراء عملية الضرب نقوم بتوزيع صفوف األولى على أعمدة الثانية بالترتيب. 27 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات .7معكوس المصفوفة (:)A-1( )inverse ال يمكن حساب معكوس أي مصفوفة إال إذا كانت مربعة. 𝑎𝑑𝑗 (𝐴)= A-1.adj(A). نحسب المحدد كما رأينا سابقا ،ثم نحسب المرافق: 1 𝐴 det =)Inverse (A 𝑔 𝑑 𝑎 =] adj(A)= [𝑏 𝑒 ℎ 𝑖 𝑓 𝑐 a= (e*i-h*f), d=(b*i-h*c), g=(b*f-e*c), b=(d*i-g*f), e=(a*i-g*c), h=(a*f-d*c), c=(d*h-g*e), f=(a*h-g*b), i=(a*e-d*b). 1 0 −3 ] A = [2 −2 1 0 −1 3 det (A)= (-5)-0+(-3)(-2-0))= 1 −5 6 −2 ]adj (A)= [−3 3 −1 −6 7 −2 نضرب إشارة كل عنصر في المصفوفة في اإلشارة المرافقة له. −5 −6 −2 adj (A)= [ 3 3 ]1 −6 −7 −2 ثم نترك القطر الرئيسي كما هو ونبدل أماكن العناصر المتناظرة بالنسبة للقطر الرئيسي. −5 3 −6 ]adj (A)= [−6 3 −7 −2 1 −2 ومنه −5 3 −6 −5 3 −6 -1 1 ]A = *[−6 3 −7]= [−6 3 −7 1 −2 1 −2 −2 1 −2 مالحظة :معكوس A-1يساوي المصفوفة األصلية. .8القيم الذاتية: تعريف :لتكن Aمصفوفة من الدرجة nيسمى العدد الحقيقي قيمة ذاتية لمصفوفة Aإذا وجد متجه غير صفري Uبحيث يكون . AU=U :يسمى Uالمتجه الذاتي لـلمصفوفة .A مالحظة :للنظام ( A –I )U =0حل غير تافه إذا وفقط إذا كانت المصفوفة A- Iليس لها معكوس، حيث Iهي مصفوفة الوحدة . 28 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات فإن ) det(A-Iعبارة عن كثيرة حدود في أي إذا وفقط إذا كان det (A-I) =0فإذا كان مجهول ّ المجهول تسمى كثيرة الحدود المميزة للمصفوفة .Aولحساب القيم والمتجهات الذاتية لمصفوفة مربعة نتبع ما يلي: أوالً :نحسب كثيرة الحدود المميز ).h() = det (A-I ثانيا :نحسب القيم المميزة للمصفوفة Aوهي عبارة عن حلول المعادلة المميزة .h()=0 ثالثاً :لكل قيمة ذاتية iنحسب المتجه الذاتي المقابل لها ،وذلك بحل نظام المعادالت المتجانس: )A-iI) U=0 مثال :لتكن المصفوفة الموالية: 1 −1 (=𝐴 ) 2 4 إذا: 1 () = det(A − 𝐼) = |1 − |=0 −2 4 − ومنها نجد: (-1)( -4)+2 = 2-5+6=0 مميز كثير الحدود. حصلنا على كثير حدود من الدرجة الثانية ،إليجاد قيم 𝜆 ،نحسب ّ مميز كثير الحدود من الدرجة :2 حيث b :هو معامل 𝜆 a ،معامل ℎ 2 a𝑥 2 +bx+c=0 Δ=𝑏 2 -4ac=(−5)2 -4(1*6)= 25-24=1 c ،الثابت. أن قيمة المميز أكبر من الصفر ،فهي تقبل حالّن: وبما ّ 𝛥√ −𝑏 ± 𝑎2 −(−5)+√1 −(−5)−√1 2 2 =3 = = 2, 𝜆2 اآلن نعين المتجه المميز للقيمة 1=2فنعوض عنها في(A-I) U=0 : ونحصل على: =𝜆 = 𝜆1 X 0 −1 1 ( ) ( = )) ( 1 0 −2 − 4 X2 X1 0 1 1 ( ) ( = ) () −2 −2 X2 0 X1+X2=0 -2X1-2X2=0 X1=-X2 أي أن: 29 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات فإنه يوجد عدد ال نهائي من المتجهات الذاتية المقابلة للقيمة إذا للنظام عدد النهائي من الحلول ،ولذلك ّ .1=2 −1 فإن X1=-1 فإذا حددنا X2=1 ونحصل على ) ّ 1 −1 أن ) (= Xمقابل القيمة .2= 3 وبنفس الطريقة نجد ّ 2 مثال :2عين القيم الذاتية للمصفوفة الموالية: (=.X حساب القيم الذاتية: −1 0 1 1 0 1 0 −2 2 Det(A-λI)=0 1 0 −1 1 0 0 det ([ 1 0 0 ]- λ* [0 1 0])= 0 0 0 1 −2 2 1 1−𝜆 0 −1 1 0 𝜆− 0 𝜆1 − det [ 1 [ ]- 0 [ )]+ (-1 =] 𝜆− [)0 ]= (1- λ −2 1 − λ 2 1−λ 2 2 −2 𝜆2 1− =((1- λ)(- λ)(1- λ)- (1- λ)* 0*2 -0+(-2+2 λ)=(1- λ)(- λ+ λ2)+2 λ-2 - λ+ λ2+ λ2- λ3+2 λ-2= - λ3+2 λ2+ λ-2 حصلنا على كثير حدود من الدرجة الثالثة .ولحل كثير الحدود يمكننا استخدام ثالثة طرق :طريقة المطابقة، طريقة القسمة اإلقليدية ،خوارزمية هورنر. .1طريقة المطابقة :علينا تبسيط كثير الحدود: علينا إيجاد جذر كثير الحدود لدينا ،الذي يحقق .P(λ)=0 نجرب ،2-،2 ،1- ،1وهكذا... نجرب مع :1- P(-1)= (-1)3-2(-1)2-(-1)+2= -1-2+1+2=0 إذا 1-جذر لكثير الحدود ،ويمكننا كتابة كثير الحدود على الشكل: حيث.α=-1 : )P(x)=(x-α)(ax2+bx+c )P(x)=(x+1)(ax2+bx+c ننشر كثير الحدود: P(x)= ax3+bx2+cx+ax2+bx+c P(x)= ax3+(b+a)x2+(c+b)x+c نقوم اآلن بعملية المطابقة: P(x)= ax3+(b+a)x2+(c+b)x+c 30 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات P(λ)= λ3-2 λ2- λ+2 a=1, b+a=-2 b=-3, c=2 نعوض قيم المعامالت في كثير الحدود لدينا ،فنجد: (λ+1)( λ2-3 λ+2)=0 أن: هذا يستلزم ّ λ2-3 λ+2=0أو λ=-1 نحسب المميز لكثير الحدود من الدرجة الثانية: λ+1=0 Δ=𝑏 2 -4ac=(−3)2 -4(1*2)=1 أن قيمة المميز أكبر من الصفر ،فهي تقبل حالّن: وبما ّ 𝛥√ −𝑏 ± 𝑎2 −(−3)−√1 −(−3)+√1 = 𝜆2 = = 1, 𝜆3 =2 =𝜆 2 .2الطريقة الثانية ،القسمة اإلقليدية: 2 - λ3+2 λ2+ λ-2 )- λ3 - λ2 (- 0 3 λ2 + λ -2 -3 λ2-3 λ 0 -2 λ -2 +2 λ +2 0 0 )(λ+1)( λ2-3 λ+2 / λ+1 - λ2 +3 λ -2 .3الطريقة الثالثة ،خوارزمية هورنر: أن 1-جذر للمعادلة ننقله للخانة الملونة باألحمر معكوس اإلشارة ،وفي الخانات باللون األصفر نكتب وجدنا ّ المعامالت بإشارتهم ،ثم في الخانة الملونة باألخضر نضع صفر ،ونضرب افقيا ونجمع عموديا. +2 2 -λ + -1 + -2 λ2 λ3 -2 1 + -2 3 -1 0 0 2 -3 1 + -1 31 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات )( λ+1)( λ2- 3λ+2 .2.4حساب االشعة الذاتية: (A- λI)U=0 حساب الشعاع الذاتي المرتبط ب ـ ـ :λ1=-1 لدينا: 2 0 −1 𝑋1 0 ⌉[ 1 1 0 ] [𝑋2] = ⌈0 0 −2 2 2 𝑋3 λ1=-1 1−𝜆 0 [ 1 𝜆− −2 2 0 −1 𝑋1 ⌉0 ] [𝑋2] = ⌈0 0 1 − 𝜆 𝑋3 حتى نصل على الحل ببساطة نستخدم حذف كاوس (تعتمد على تصفير المثلث أسفل القطر الرئيسي): R1 2 0 −1 *1/2 1 0 −1/2 [ [1 1 ]1 0 0 ] r2= R2-1*R1 R2 1 −2 2 2 −2 2 2 R3 نجري العملية فتصبح المصفوفة كما يلي: 1 0 −1/2 1 0 −1/2 *2 ] [ 0 1 1/2 [0 1 1/2 ] *-2 r3= R3-2R2 r = R +2*R 3 3 1 −2 2 2 0 2 1 نجري العمليات فتصبح المصفوفة الجديدة كما يلي: 1 0 −1/2 ] [0 1 1/2 0 0 0 يمكننا اآلن إيجاد المتجهات الذاتية: X1= 1/2X3 X2= -1/2X3 وعليه، X1- 1/2X3= 0 X2 + 1/2X3 =0 X3= X3 1/2𝑋3 1/2 1/2 V1= [−1/2𝑋3]=X3 [−1/2]= [−1/2]. 𝑋3 1 1 الشعاع الذاتي المرافق للقيمة الذاتية :λ2=1 0 0 −1 1 −1 0 −2 2 0 نبدل السطرين األول والثاني في مكان بعضهما فتصبح المصفوفة كما يلي: 1 −1 0 *2 1 −1 0 1 −1 0 0 0 −1 0 0 −1 /-1 0 0 1 −2 2 0 r3= R3+2*R1 0 0 0 0 0 0 −1 0 𝜆1− 0 𝜆− 2 𝜆1− 1 −2 32 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات X1 – X2 = 0 X1= X2 X3= 0 𝑥2 ]V2= [𝑥2 0 1 ]V2= [1 0 الشعاع الذاتي المرافق للقيمة الذاتية :λ3=2 −1 0 −1 1 −2 0 −2 2 −1 −1 ]V3= [−1/2 1 مثال :2احسب القيم والمتجهات الذاتية للمصفوفة: 0 ]0 2 1 2 A= [0 3 2 −4 0 1 0 0 0]-𝜆 [0 1 0])=0 0 0 1 2 1 2 det([0 3 2 −4 det(A- 𝜆𝐼) =0 𝜆3− =] −4 𝜆1− 2 0 0 0 𝜆3− 0 0 []-2 []+0 det([ 0 𝜆3− [)𝜆 0 ])= (1 − 𝜆2 2− 𝜆 −4 2 − 2 2 𝜆 −4 2 − =])(1 − 𝜆)[(3 − 𝜆)(2 − 𝜆) − (−4)(0)]-2[(2 − 𝜆)(0) − (2)(0 (1 − 𝜆)[(3 − 𝜆)(2 − 𝜆)]-------- 𝜆1=3, 𝜆2=2, 𝜆3=1 0 0 ]2 0 0 1 (A- 𝜆𝐼)U =0 0 1 0 0 𝑢1 0 ]0]-𝜆 [0 1 0]) [𝑢2 ]=[0 0 0 1 𝑢3 0 2 3 D= [0 0 1 2 ([0 3 2 −4 𝜆1=3 −2 2 0 𝑢1 0 [0 0 ]0 ] [𝑢2 ]=[0 2 −4 −1 𝑢3 0 33 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي الفصل الثاني :الفضاء الشعاعي وحساب المصفوفات إذاً لدينا نظام متجانس من المعادالت الخطية ،نقوم بحلها بواسطة حذف كاوس: −2 2 0 −2 2 0 −2 2 0 *1 [0 ][ 2 −4 −1] + [ 0 −2 −1 0 ]0 0 0 0 0 0 0 2 −4 −1 −2 2 0 𝑢1 0 ][ 0 −2 −1] [𝑢2 ]=[0 0 0 0 𝑢3 0 -2𝑢1 +2𝑢2 =0-------- 𝑢1 =𝑢2 1 -2𝑢2 -𝑢3 =0 -------- 𝑢2 = - 𝑢3 2 𝑢3 = 𝑢3 1 1 𝑢1 = − 𝑢3 − 2 2 1 ]U1=[𝑢 = − 𝑢 ]….𝑢3 = 1--- U1=[− 1 3 2 2 𝑢3 = 𝑢3 1 0 − 2 ] U2= [0], U3= [ 0 1 1 1 1 2 − ]0 1 االستقطار ( :)diagonalizationهو تحويل المصفوفة إلى مصفوفة قطرية مماثلة لها. A=PDP-1 −2 0 ]0 1 2 0 −2 0 1 2 0 ]0 1]=[0 3 0 2 0 2 −4 2 2 0 0 0]*[ 2 1 −2 1 − 0 2 U= [− 1 0 2 1 1 1 2 0 0 -1 A= [0 3 0],U = [ 2 −2 2 −4 2 1 1 − 0 − 3 0 2 2 A= [− 1 0 0 ]*[0 2 2 0 0 1 1 1 34 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث: التحليل بالمركبات األساسية PCA د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. التحليل بالمركبات األساسية Principal component analysis هو أسلوب رياضي يقوم على أساس تحويل مجموعة من المتغيرات المترابطة فيما بينها إلى مجموعة جديدة من المتغيرات غير المترابطة (أو المتعامدة )Orthogonal -تدعى بالمركبات الرئيسية .فكل مركبة رئيسية هي عبارة عن توليفة خطية تضم جميع المتغيرات األصلية .والهدف من هذه الطريقة هو التمثيل البياني ألكبر قدر ممكن من المعلومات الموجودة في جدول البيانات الكمية ،الذي يحتوي على nفرد وp متغير ،فكل فرد يمثل في فضاء ذو pبعد ،وكل متغير يمثل في فضاء ذو nبعد. وهو أداة مرنة للغاية تسمح بتحليل مجموعات البيانات التي قد تحتوي ،على سبيل المثال ،الخطية المتعددة ،القيم المفقودة ،البيانات الفئوية ،والقياسات غير الدقيقة .والهدف هو استخراج المعلومات المهمة من البيانات والتعبير عن هذه المعلومات كمجموعة من المؤش ارت الموجزة تسمى المكونات الرئيسية. فعلى سبيل المثال ،يمكننا عن طريق استخدام التحليل بالمركبات األساسية بناء مؤشر اقتصادي يقيس القدرة االقتصادية لمجموعة من األفراد .ويمكن استخدامه أيضا كخطوة وسيطة تكون فيها مخرجاتها جزًءا من تحليل الحق ،مثل :االنحدار أو التجميع أو التصنيف ،كما يمكن استخدامه في تقليل البيانات. لماذا التحليل بالمركبات األساسية؟ لنفترض أنه لدينا مجموعة من الخاليا: الحظ ّأنه من غير الممكن مالحظة أي اختالفات بين الخاليا أعاله .سنقوم بتحليل الحمض الريبي النووي الرسول ( )RNAلتحديد الجينات النشطة في كل خلية ،حتى نتمكن من تحديد وظيفتها. خاليا مناعية خاليا جذعية خاليا عصبية 35 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. والبيانات في الجدول الموالي ،تمثل عدد الجينات المنسوخة في كل خلية. الخلية1 الخلية 2 الخلية 3 الخلية 4 الجين 1 3 0.25 2.8 0.1 الجين 2 2.9 0.8 2.2 1.8 الجين 3 2.2 1 1.5 3.2 الجين 4 الجين 5 الجين 6 الجين 7 الجين 8 الجين 9 2 1.3 1.5 1.1 1 0.4 1.4 1.6 2 2.2 2.7 3 2 1.6 2.1 1.2 0.9 0.6 0.3 0 3 2.8 0.3 0.1 سنقوم بتعيين موقع قياس كل جين على رسم بياني ثنائي البعد بين خليتين فقط. الجين 1 3 0.25 الجين 2 2.9 0.8 الجين 3 2.2 1 الجين 4 2 1.4 الجين 5 1.3 1.6 الجين 6 1.5 2 الجين 7 1.1 2.2 الجين 8 1 2.7 الجين 9 0.4 3 موقع قياس كل جين على الخليتين 2،1 3 2,9 2 1,5 1,1 1 3,5 3 2,2 2,5 2 1,3 1,5 الخلية 1 الخلية 1 الخلية 2 1 0,4 0,5 0 3,5 2,5 3 2 1,5 1 0,5 0 الخلية 2 أن الجين األول منسوخ في الخلية األولى بشكل جيد ،ومنسوخ في الخلية يظهر من الشكل أعاله ّ أن هناك عالقة عكسية الثانية بشكل ضعيف ،وكذلك الحال بالنسبة للجين الثاني ،وهكذا .وبشكل عام يظهر ّ بين الخلية األولى والثانية ،وهذا يعني أنهما نوعان مختلفان من الخاليا بما أنهما يستخدمان نوعا مختلفا من الجينات .لنفترض اآلن أننا نريد تحديد العالقة بين ثالثة خاليا ،سنحتاج إلى ثالث رسومات بيانية لتمثيل العالقة بين كل خليتين ،أو بدالً من ذلك نرسم رسم بياني واحد ثالثي األبعاد يوضع العالقة بين الخاليا الثالثة. 36 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. يمكننا مالحظة أن الجين األول منسوخ في الخليتين األولى والثالثة بشكل جيد ،ومنسوخ في الخلية أما الجين التاسع فمنسوخ في الخلية 2بشكل جيد ،ومنسوخ في الخليتين 1و 3بشكل الثانية بشكل ضعيفّ ، ضعيف. إما مقارنة إلى هذا الحد األمر يسير نوعا ما ،لكن لو كان لدينا 4خاليا أو أكثر مثال ،فلدينا حلينّ ، كل خليتين على حدة ،وسنحتاج إلى رسم العديد من الرسومات ومحاولة فهم كل رسم لوحده ،أو رسم بياني جدا. واحد بأربعة أبعاد أو أكثر ونجعل األمر صعبا ً ً إضافة إلى ذلك لنالحظ اآلن الصورة التي أمامنا من بعد واحد ()1ére composante principal ومن بعدين (.)2éme composante principal قبل ذلك يقول الخبراء إن الرؤية ثالثية األبعاد تنتج عنها مشاكل بصرية أكبر من مجرد صعوبة الرؤية مثل مشكلة كسل العين .لو نظرنا فقط للصورة الموجودة على اليمين ( 2éme composante )principalفهل سنكون متأكدين بنسبة مائة في المائة أنها صورة جمل ،بالطبع ال ،ربما تكون صورة 37 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. لحصان أو إنسان متخفي...الخ .سنكون متأكدين بنسبة 20في المائة ّأنه جمل .اآلن لو ننظر إلى الصورة على اليسار يمكننا التأكد بنسبة 70في المائة من أنه جمل .واذا نظرنا للصورتين معا سنكون متأكدين بنسبة 90في المائة أن الصورة لجمل. إن النتيجة المهمة من هذه التجربة أنه عند انتقالنا من رؤية ثالثية األبعاد إلى رؤية ثنائية األبعاد ّ سنحتفظ بتسعين في المائة من المعلومات ،والعشرة في المائة الضائعة لم تأثر على ق اررنا في أن الصورة أن تقليل عدد األبعاد مع خسارة طفيفة في المعلومات يكون أفضل لنا التخاذ الق اررات لجمل .بمعنى آخر ّ الصائبة. مالحظة :يمكن أن تكون العشرة في المائة الضائعة تمثل لون الشعر والعينين وتفاصيل الفم....الخ. يسيرا ،إذ يحول الترابط بين كل خليتين من أجل ذلك ّ فإن التحليل بالمركبات الرئيسية يوفر لنا حالً ً من عدمه إلى رسم ثنائي األبعاد ،الخاليا ذات الترابط الكبير (المتشابهة) تُجمع مع بعضها ،واألقل ارتباطا تجمع مع بعضها ،وهكذا ...ثم يتم ترتيب المحاور بحسب أهميتها ،فاالختالفات على طول المحور الرئيسي األول تكون أكثر أهمية من االختالفات على طول المحور الرئيسي الثاني...إلخ. إن الهدف من التحليل بواسطة المركبات الرئيسية هو البحث عن فضاء شعاعي جزئي وعلى ذلك ،ف ّ أقل بعد يسمح لنا بأحسن تمثيل وأكبر كمية من المعلومات ،بشرط أن تكون كل المعطيات ذات طبيعة كمية ،أو بمعنى آخر الهدف من التحليل بالمركبات الرئيسية هو إيجاد نظام للمحاور يسمح لنا بإعادة بناء وضعية كل نقطة بالنسبة لألخرى من خالل إسقاط سحابات النقاط على هذه المحاور ،مما يسمح بتقليص الفضاء المتعدد األبعاد إلى فضاء ذو بعدين ،أي االنتقال من pبعد إلى 2أو 3أبعاد ومن 100في المائة من المعلومات إلى 90أو 80في المائة من المعلومات .كما تسمح لنا الطريقة بتحديد األفراد المتشابهين واألفراد المختلفين ،باإلضافة إلى اكتشاف المتغيرات المسؤولة عن التشابه أو االختالف بين األفراد. أوال ،معارف أساسية لفهم كيفية عمل الطريقة: إن نقطة االنطالق في التحليل بالمركبات الرئيسية ،هو جدول Xيحتوي على عدد pمن المتغيرات البياناتّ : المستمرة تم قياسها على عدد nمن األفراد .على سبيل المثال ،نقاط 5طلبة في ثالثة مواد ،لدينا ثالثة متغيرات وخمسة أفراد ،يتم قياس كل متغير على جميع األفراد ،ووصف كل فرد بعدد من المتغيرات .وفي بعض الحاالت قد نستخدم المتغيرات النوعية. مثال :يحتوي الجدول الموالي على بيانات عن عشرة ( )10منتجات ،تشمل تقييم سعر المنتج وتقييم جودته من خالل بعض المواصفات ،كالذوق ،حجم المنتج ،مدى توفّره في السوق ،جودة التغليف ،وطريقة عرضه (صورة المنتج) (على سلّم من 1إلى .)10ويريد مدير التسويق توزيع هذه المنتجات في السوق على حسب السعر والمواصفات. 38 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الصورة التغليف التوفر الحجم الذوق السعر 9,3 8,32 9,37 6,32 8,18 4,4 المنتج 1 8,2 7,18 8,68 5,9 7,12 4,32 المنتج 2 5,63 5,84 6,79 5,12 5,33 6,11 المنتج 3 7,97 7,78 6,7 5,93 7,07 4,62 المنتج 4 7,38 6,73 6,14 6,38 6,72 5 المنتج 5 5,8 5,02 8,67 5,18 5,08 7,28 المنتج 6 3,65 2,83 7,88 3,13 2,83 8,32 المنتج 7 4,15 3,64 7,63 4 3,42 7,93 المنتج 8 6,39 7,3 5,29 3,73 4,34 4,82 المنتج 9 2,76 2,38 4,43 2,81 2,38 7,59 المنتج 10 دائما إجراء تحليل استكشافي للبيانات ،مثل حساب القيم القصوى مالحظة هامة :قبل إجراء التحليل ،علينا ً والدنيا ،المدى ،مقاييس النزعة المركزية ،مقاييس التشتت ،والنظر في توزيع المتغيرات (مثل مخططات الصندوق والمدرج التكراري) .يساعدنا ذلك في تحديد القيم المتطرفة أو األخطاء أو غيرها من الحاالت الشاذة في البيانات ،التي من الممكن أن تأثر في التحليل وتجعل النتائج عديمة القيمة. إن الهدف من وراء تحليل معطيات الجدول أعاله هو مقارنة المنتجات .2البيانات النشطة والتكميليةّ : العشرة اعتمادا على السعر وجودة المنتج ،أو على السعر والجودة ومدى توفر المنتج في السوق .يمكننا بالتأكيد تضمين جميع المتغيرات واجراء التحليل ،لكن من األفضل تحديد مجموعة من المتغيرات التي تكون أكثر تجانساً وفقًا لموضوع معين ،وأكثر توافقًا مع أهداف التحليل ،كأن نستخدم السعر والجودة (ممثلة في الذوق والحجم والتغليف) لمقارنة المنتجات مع بعضها البعض ،ويكون تفسير التشابه أو االختالف بين المنتجات أسهل .نسمي المتغيرات المختارة ،بالمتغيرات النشطة ( ،)active variablesوتشمل العناصر التي سيتم استخدامها لمقارنة المنتجات فيما بينها .ونسمي بقية المتغيرات غير النشطة بالمتغيرات التكميلية ( .)supplementary variablesوذلك ال يعني أنه لن يتم استخدام المتغيرات التكميلية ،بل يتم استخدامها كمعلومات إضافية قد تساعدنا في شرح التشابه من عدمه بين المنتجات العشرة. .3المسافات ( :)Distancesيمكننا من خالل التحليل بالمكونات األساسية تصور االختالفات بين المنتجات العشرة وفقا للسعر ،باإلضافة إلى تصور االرتباط بين المتغيرات ،وللحصول على هذه التصورات المرئية ،نستخدم تقر ًيبا هندسيا بسيطا فيما يتعلق بمصفوفة البيانات ،فننظر لها من جانبين ،جانب يخص الصفوف وجانب خاص باألعمدة .ويتضمن كل تصور النظر في سحابة من النقاط ،واحدة لألفراد وواحدة للمتغيرات. 39 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل ابملركبات األاسااسي .)PCA د .خالد علي عرض الطريقة: إن نقطة االنطالق في التحليل بالمركبات الرئيسية ،هو جدول Xيحتوي على عدد pمن المتغيرات تم قياسها ّ على عدد nمن األفراد .على سبيل المثال ،نقاط 5طلبة في ثالثة مواد ،لدينا ثالثة متغيرات وخمسة أفراد، يتم قياس كل متغير على عدد األفراد ،ووصف كل فرد بعدد من المتغيرات. الوضعية :Aعدد nمن األفراد في فضاء المتغيرات .مجموع نقط األفراد في هذا الفضاء تشكل ما يسمى بسحابة النقط .) nuage de points()point cloud( NI P=2 في الصورة أعاله سحابة من النقاط (الطيور) ( )e1,e2,…..,ei,….epفي فضاء ذو بعد ،)p=2( pكل نقطة تقابل الطائر الذي يتم وصفه بواسطة pمن المتغيرات الكمية (.)X1, X2,…..Xj,….Xp الوضعية :Bعدد pمن المتغيرات في فضاء األفراد .مجموع نقط المتغيرات في هذا الفضاء تشكل ما يسمى بسحابة النقط .NP ظم القصور الذاتي (العطالة) (نعبر عنه بالتباين والهدف من ذلك ،إسقاط سحابة النقط على المحاور التي تع ّ الكلي) ( )inertie( )inertiaلهذه السحابة. 40 د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. XP RP n2 n1 ni X2 X1 في هذه السحابة تشير كل نقطتين قريبتين من بعضهما إلى منتجين بقيم متشابهة في السعر والمواصفات، في المقابل تشير كل نقطتين متباعدتين عن بعضهما إلى منتجين بأسعار مختلفة للغاية .ولقياس مفهوم التقارب بين نقاط الصف (المنتجات) ،نحتاج إلى تحديد مقياس للمسافة ،والمقياس األكثر بديهية لقياس المسافة في الفضاء ،هي المسافة اإلقليدية بين نقطتين ،والتي تُعطى بالعالقة: 𝑝 𝑑2 (𝑒, 𝑒′)=∑𝑗=1(𝑥𝑖𝑗 − 𝑥𝑖′𝑗 )2 .2.3سحابة المتغيرات :تمثل هذه السحابة االرتباطات بين المتغيرات ،فكل متغير يقيس خاصية ملحوظة على المنتجات .وبالتالي ،نحتاج إلى تحديد المسافة بين نقاط المتغيرات التي تلتقط كثافة وطبيعة االرتباط قيما مرتبطة في بين المتغيرات .حيث تشير نقطتي متغيرين قريبين من بعضهما البعض إلى أنهما يأخذان ً مجموعة المنتجات العشرة ،فإذا عرفنا قيم أحد المتغيرات ،يمكننا معرفة قيم المتغير اآلخر .ويتم قياس فإن تصور االرتباط بين المتغيرات باستخدام معامل االرتباط الخطي ،وعند استخدامنا لهذا المعامل كمسافةّ ، عرضا مر ًئيا لمصفوفة االرتباطات بين المتغيرات. المتغيرات يصبح ً 41 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. Xn Rn 2 J 1 X1 p X2 .4مصفوفة األوزان :يعبر الوزن المخصص لكل فرد عن األهمية التي نريد أن نعطيها له في الدراسة (تمثيل العينة المدروسة في المجتمع) .ويمكن أن يكون لكل فرد وزن 𝑖 نفس األهمية في الدراسة (عينات معدلة ،بيانات مجمعة...،الخ). ،خاصة عندما ال يكون لألفراد 𝑛 ∑ 𝑝𝑖 = 1 𝑖=1 ونكتب المصفوفة القطرية لألوزان على الشكل التالي: وهي مصفوفة متماثلة: فإذا كان لجميع األفراد نفس الوزن ،تكون: 0 0 0 0 ] … 0 𝑛𝑝 0 0 𝑖𝑝 0 0 𝑝1 0 [ =DP 0 0 DPT= DP 1 = 𝑖𝑝 𝑛 1 𝑛𝐼 =DP حيث 𝐼𝑛 :مصفوفة الوحدة. 𝑛 42 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .5مركز ثقل سحابة النقط :لكل سحابة من النقط نقطة متوسطة تسمى بمركز ثقل سحابة النقط. وتعطى احداثيات مركز الثقل بالعالقة: Gj= ∑ni=1 𝑝𝑖 Xi أن النقطة المتوسطة تتوافق مع المفهوم اإلحصائي المتوسط ،نكتب: وبما ّ 𝑛𝑥 𝑛𝑝𝑋̅= ∑𝑛𝑖=1 𝑝𝑖 𝑥𝑖 =𝑝1 𝑥1 +𝑝2 𝑥2 +….+ واذا كان لكل األفراد نفس الوزن ،نكتب: 1 1 ) 𝑛𝑥𝑋̅= ∑ni=1 X i = (𝑥1 +𝑥2 +….+ 𝑛 ونكتب شعاع مركز الثقل GXكما يلي: 𝑛 ̅̅̅ 𝑋1 ̅̅̅ 𝑋 = 2 ∈ M(p, 1). … ̅ ]̅𝑝̅̅𝑋̅[ كما يمكن حسابه من الصيغة المصفوفية التالية: ∑𝑛𝑖=1 𝑥𝑖1 1 𝑛 1 𝑗𝑖𝑥 ∑𝑛𝑖=1 ….. 𝑛 1 ] 𝑝𝑖𝑥 [ ∑𝑖=1 𝑛 =GX 𝑛 𝑛𝐼 𝑃𝐷 𝑇 𝑋 =GX حيث XT :منقول مصفوفة البيانات DP ،مصفوفة األوزان 𝐼𝑛 ،متجه الوحدة. نظر ألن سحابتي األفراد والمتغيرات تقعان في مساحة متعددة األبعاد ،فال يمكننا .6المسافات بين النقاطً :ا مالحظتها مباشرة ،لذلك علينا البحث عن مستوى نعرض عليه سحابة النقاط بطريقة تجعل التكوين الذي تم الحصول عليه أقرب ما يمكن من التكوين األصلي للسحابة في الفضاء متعدد األبعاد .نسمي هذا المستوى بالمستوى العاملي ،ولكي نحصل عليه ،علينا أن نجعل المسافات اإلجمالية بين النقاط المسقطة أقرب ما يمكن إلى المسافات الحقيقية بين النقاط في الفضاء األصلي. إذا فالمبدأ األساسي للتحليل بالمركبات األساسية هو اسقاط سحابة نقط األفراد والمتغيرات من فضاء متعدد األبعاد إلى فضاء جزئي ببعدين أو ثالثة فقط ،مع المحافظة قدر المستطاع على المسافة بين األفراد والمتغيرات ،أي بتعبير آخر التقليل أقصى ما يمكن من التشوه الذي قد يط أر على الساحبتين نتيجة االسقاط. 43 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. RP n1 n3 n2 ni h3 h2 ) 𝑑 (𝑛𝑖 , 𝑛𝑖′ ) = 𝑑 (ℎ𝑖 , ℎ𝑖′ حيث 𝑥𝑖 :هي نقطة في الفضاء ،و 𝑖 ℎهي اسقاطها العمودي. لكن السؤال المطروح كيف نحدد هذا المستوى وعلى أي أساس نختاره؟ لالجابة على هذا السؤال ننظر في الصورة الموالية: 44 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن اإلسقاط على المستوى HAأكثر فائدة من اإلسقاط على المستوى ،HB بالنظر إلى الصورة يمكن القول ّ فعلى األقل يمكننا أن نرى أن الشكل في HAله عالقة بجسم طويل ،وأن أحد نهاياته أوسع من األخرى، وعلى النقيض من ذلك ،فإن جميع نقاط السحابة المسقطة على المستوى HBمشوشة ،وال تنقل فكرة واضحة عن السحابة األصلية ،باستثناء ظل المقبض .وأفضل إسقاط بين االسقاطات الثالث هو االسقاط .HC ولكي نحصل على االسقاط HCيجب علينا البحث عن المستوى الذي يجعل تشتت نقاط السحابة أكبر ما يمكن ،ونكتب: ( 2 𝐻𝑑 MaxH∑𝑖 ∑𝑖′ )𝑖, 𝑖′ فإذا كان Hيمثل فضاء جزئي لإلسقاط ،يمكن كتابة البحث عن الحد األقصى على النحو التالي: ( 2 ( 2 𝐻𝑑 MaxH∑𝑖 ∑𝑖′ 𝐻𝑑 𝑖∑ 𝑛𝑖, 𝑖′)= MaxH{2 }) 𝐺 𝑖, حيث G :هو مركز ثقل سحابة النقط .فتصبح مشكلة الحفاظ على المسافات المسقطة بين جميع أزواج النقاط مشكلة في الحفاظ على المسافات بين كل نقطة ومركز الثقل. أن مرّبع الوتر في مثلث ولحل هذه المشكلة ،نستخدم نظرية فيتاغورس ( ،)Pythagorasالتي تنص على ّ قائم الزاوية يساوي مجموع مرّبع الضلعين. 45 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن االسقاط العمودي للنقطة iهو النقطة ،iHوحسب نظرية فيتاغورس ،فمرّبع نالحظ من الشكل أعاله ّ المسافة بين النقطة iومركز ثقل سحابة النقط Gتساوي مرّبع المسافة بين النقطة iواسقاطها iHزائد مرّبع المسافة بين النقطة iHومركز الثقل ،ونكتب: 2 ( 2 𝐻𝑑 𝑖∑=)𝐺 ∑𝑖 𝑑 2 (𝑖, 𝐻𝑑 𝑖∑𝑖, 𝐺 )+ ) 𝐺 ̂ (𝑖, أيضا المستوى الذي بهذه الطريقة ،فإن مستوى اإلسقاط الذي يضمن أقصى قدر من التشتت بين النقاط ،هو ً يقترب قدر اإلمكان من السحابة األصلية. 2 )𝐺 Max ∑𝑖 𝑑𝐻2 (𝑖, 𝐺) ⇔ Min ∑𝑖 𝑑𝐻̂ (𝑖, بناء على أهميتهم النسبية أو مالئمتهم .فعندما وفي بعض األحيان قد نكون مهتمين بتخصيص أوزان لألفراد ً يكون لجميع األفراد نفس األهمية ،يمكننا إعطاء وزن يساوي التالي: ∑𝑖(𝑥𝑖𝐻 −𝑥̅ 𝐻 )2 𝑛 1 𝑛 لكل منهم ،فيصبح المعيار المالئم على النحو ∑𝑖 𝑑2 (𝑖, 𝐺 )= Max في الحالة العامة حيث يكون لكل فرد وزنه الخاص 𝑖𝑝 حيث: 1 𝑛 Max )𝐺 Max ∑𝑖 𝑝𝑖 𝑑𝐻 2 (𝑖, حاصل ضرب وزن نقطة 𝑖 في مربع المسافة التي تفصلها عن مركز الثقل ()𝐺 ُ .)𝑑𝐻2 (𝑖,يعرف باسم القصور الذاتي للنقطة .في هذه الحالة ،تتضمن المشكلة البحث عن مستوى اإلسقاط الذي يزيد من القصور الذاتي المتوقع. .7تحليل القصور الذاتي (التباين الكلي): )𝐺 𝐼𝑇 = ∑𝑖 𝑝𝑖 𝑑 2 (𝑖, يمكن تقسيم القصور الذاتي الكلي إلى جزئين :القصور الذاتي المتوقع على مساحة جزئية Hوالقصور الذاتي متعامد اإلسقاط على مساحة جزئية ̅ 𝐻. ̅𝐻𝐼 𝐼𝑇 =𝐼𝐻 + من أجل العثور على الفضاء الجزئي األمثل ،نبدأ بالبحث عن فضاء أحادي البعد يحقق أقصى قدر من القصور الذاتي المتوقع .فإذا كان لجميع األفراد نفس الوزن ،فإن هذا الفضاء الجزئي األول يتوافق مع اتجاه أقصى امتداد للسحابة .وبعد العثور على أول فضاء فرعي أحادي البعد ،فإن الخطوة التالية تتضمن إيجاد فضاء فرعي ثنائي األبعاد (أي مستوى) بأقصى قدر من القصور الذاتي المتوقع .ثم نبحث عن فضاء ثالثي األبعاد ،وهكذا دواليك .وفي كل خطوة ،نبحث عن مساحة ذات أبعاد أعلى بحيث يكون القصور الذاتي المتوقع أكبر ما يمكن. 𝑝𝐼 𝐼𝑇 = 𝐼1 + 𝐼2 + ⋯ + 46 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .8االرتباط بين المتغيرات :لو افترضنا أن المتغيرات قد تمت مركزتها وترجيحها بواسطة االنحراف فإن أول ما يجب فعله هو قياس المسافة بين المتغيرات .والعالقة التي تزودنا بفكرة عن التقارب المعياريّ ، بين المتغيرات معطاة بالصيغة التالية: ))𝑑 2 (𝑗, 𝑗′)= (2(1 − 𝑐𝑜𝑟(𝑗, 𝑗′ فإذا كان المتغيرين jو ’ jيقيسان الشيء نفسه (بمعنى وجود ارتباط خطي= ،)1فستكون نقاطهما متطابقة. وفي الحالة التي يكون فيها للمتغيرين ارتباطا خطيا يساوي ( 1-عندما يزيد أحدهما ،ينقص اآلخر) ،سيكون لنقاط المتغيرين مسافة قصوى في اتجاهين متعاكسين .وعندما ال يوفر أحد المتغيرات أي معلومات عن اآلخر ،يكون معامل االرتباط يساوي الصفر ،ويتوافق ذلك مع مسافة وسيطة تشكل فيها المتغيرات زاوية متعامدة. J1 J3 J2 J4 تسمى الدائرة بدائرة االرتباط ،نصف قطر هذه الدائرة يساوي الواحد ( ،)1والذي يعبر عن االرتباط التام .وكل متغير يمثل بمتجه ينطلق من مركز الدائرة نحو محيطها .حيث يشكل كل متغيرين قريبين من بعضهما زاوية صغيرة ،ويعني ذلك أنهما يرتبطان بقوة ،ويشكل كل متغيرين مستقلين (معامل االرتباط = )0زاوية قائمة. فيما يكون معامل االرتباط لمتغيرين متعاكسين في اإلتجاه (متقابلين بالنسبة للدائرة) مساويا لـ ـ .1- أيضا إلى العثور على مستوى إسقاط يوفر أكبر قدر من وبشكل مشابه لسحابة نقاط األفراد ،نسعى ً المعلومات حول االرتباطات بين المتغيرات .أو بتعبير أدق ،نبحث عن مستوى يوفر معلومات حول الزوايا بين المتغيرات ،أي حول ارتباطاتها. المرجحة (:)Normalized .9طريقة المركبات الرئيسية البسيطة ( )non-normalizedو ّ .1.9طريقة المركبات الرئيسية البسيطة ( :)non-normalizedتستخدم هذه الطريقة في حالة كانت جميع المتغيرات متجانسة ،أي لها وحدة القياس نفسها ،مثل نقاط طلبة في ثالث مواد ،لدينا ثالثة متغيرات كلها تقاس بالدرجة .ويتم العمل في هذه الحالة على جدول البيانات الممركز ،حيث يتم مركزة أو توسيط البيانات حول متوسطها الحسابي. 47 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ألن شكل مالحظة :نقوم بحساب المتوسطات الحسابية من أجل مركزة البيانات وتسهيل العمليات الحسابيةّ ، سحابة النقط ال يتغير عند مركزة البيانات. مالحظة :النقاط التي تكون قريبة من مركز ثقل سحابة النقط ،تمثل المعلومات التي يتم فقدها عند االسقاط، ألنها ستكون ممثلة أفضل في المحور الرابع أو الخامس...الخ. المرجحة ( :)Normalizedتستخدم هذه الطريقة في حالة كانت المتغيرات .2.9طريقة المركبات الرئيسية ّ المرجح .وغالبا ما غير متجانسة وليس لها وحدة القياس نفسها .ويتم العمل على جدول الكميات الممركز و ّ المخفضة أكثر مالئمة ،أي التي يكون انحرافها المعياري ،1من أجل جعلها قابلة يكون العمل مع المتغيرات ّ للمقارنة مع بعضها البعض ،واختزال وحدات القياس لتصبح كل المتغيرات بدون وحدة قياس ،بحيث تكون المسافات مستقلة عن وحدات القياس. ومن أجل فهم السبب وراء اختزال البيانات نأخذ المثال الموالي :في الجدولين أدناه لدينا عينتين تمثالن نفس المجتمع (تفاح). العينة 1 التباين العينة 2 الوزن (غ) القطر (ملمتر) الوزن (غ) القطر (سنتمتر) 100 70 100 7 95 65 95 6.5 6.25 6.25 6.25 0.00625 فإن الوزن والقطر سيأثران بالتساوي في تشكيل في الحالة األولى عند البحث عن المركبة األساسية األولىّ ، المحور (لهما نفس التباين) ،بينما في الحالة الثانية الوزن يفوق بكثير القطر. 48 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ثانيا ،خطوات التحليل بالمركبات الرئيسة: .1جدول األفراد مقابل المتغيرات (مصفوفة البيانات) :تستخدم طريقة المركبات األساسية مع الجداول التي تحتوي على بيانات ذات طبيعة كمية ،حيث نشير بالرمز Xijإلى قيمة المتغير Xjالتي لوحظت على الفرد . eiوتتم اإلشارة إلى جدول البيانات األولية الذي سنقوم من خالله بعملية التحليل بالرمز Xويأخذ الشكل التالي: Xp Xj X2 X1 X1p X1j X12 X11 1 X2p X2j 𝑗𝑖𝑋 X22 X21 2 Xi2 Xi1 i Xnp Xnj Xn2 Xn1 Xip ….. n Xjيمثل المتغير 𝑋𝑖𝑗 .)j=1,…j=p( ،jتمثل قيمة المتغير Xjعند الفرد .iونكتب مصفوفة البيانات األولية Xكما يلي: .2مصفوفة األوزان واحداثيات مركز ثقل سحابة النقط: 𝑝𝑥1 𝑝𝑥2 𝑥𝑖𝑝 ∈ M(n .. ] 𝑝𝑛𝑥 𝑗𝑥1 𝑗𝑥2 𝑗𝑖𝑥 .. 𝑗𝑛𝑥 𝑥12 𝑥22 𝑥𝑖2 .. 𝑥𝑛2 𝑥11 𝑥21 X= 𝑥𝑖1 .. [𝑥𝑛1 .1.2مصفوفة األوزان :في حالة أعطينا لكل فرد في الدراسة نفس الوزن (األهمية) ،نحسب مصفوفة األوزان ،من العالقة: 1 𝑛𝐼 =DP .2.2مركز ثقل سحابة النقط: 𝑛 1 Gj= ∑ni=1 pi Xi = ∑ni=1 Xi 𝑛 ̅̅̅ 𝑋1 ̅̅̅ 𝑋 = 2 … ̅ ̅ ̅ ]̅𝑝̅𝑋[ كما يمكن حسابه من الصيغة المصفوفية: 1 𝑥 𝑛∑ 𝑛 𝑖=1 𝑖1 𝑛 1 𝑥 ∑ 𝑗𝑖 𝑛 𝑖=1 ….. 𝑛 ] 𝑝𝑖𝑥 [ ∑𝑖=1 =GX 1 𝑛 𝑛𝐼 𝑃𝐷 𝑇 𝑋 =GX 49 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. حيث XT :منقول مصفوفة البيانات DP ،مصفوفة األوزان 𝐼𝑛 ،متجه الوحدة. .3المصفوفة الممركزة : :نحسب المصفوفة الممركزة XCمن الصيغة المصفوفية: XC= X-1nGXT حيث X :مصفوفة البيانات األولية 1n ،متجه الوحدة GXT ،منقول مركز ثقل سحابة النقط. 𝑝𝑔 )⋮ ] ∈ M(n, p 𝑝𝑔 وتكتب المصفوفة الممركزة كما يلي: 𝑔1 ⋮ [=] 𝑝𝑔 𝑔1 ⋯ ⋱ ⋯ … 𝑔2 1 .. T 1nGX = 1 *[𝑔1 .. ][ 1 𝑝𝑔 … 𝑥1𝑝 − … )… . ] ∈ M(n, p 𝑝𝑔 … 𝑥𝑛𝑝 − 𝑥11 − 𝑔1 … [ = XC 𝑥𝑛1 − 𝑔1 ويمكننا كذلك حساب الجدول الممركز مباشرة بطرح الوسط الحسابي لكل متغير من قيم العمود المقابل له. 𝑗̅𝑋̃ 𝒊𝒋 =𝑿𝒊𝒋 - 𝑿 مالحظة :عند مركزة البيانات يصبح مركز ثقل سحابة النقط الجديد يساوي .0 GX=(0,0,0). .4المصفوفة المعيارية :الختزال البيانات نقسم احداثيات كل عمود في المصفوفة الممركزة على االنحراف المعياري المقابل له .وعليه ،نحسب ّأوال االنحراف المعياري. 1 𝑠𝑗 = √𝑛 ∑𝑛𝑖=1(𝑋𝑖𝑗 − 𝑔𝑗 )2 ........j=1,…..,p ولدينا المصفوفة القطرية لمقلوب اإلنحرافات المعيارية: 50 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. ] ونحسب المصفوفة المعيارية من العالقة التالية: 0 …. 0 د .خالد علي. 1⁄ 𝑠1 …. 0 0 1⁄ 𝑠𝑝−1 …. 0 0 𝐷1 = … . . 1⁄ 𝑝𝑠 0 …. 0 𝑆 [ XCR=XC* 𝐷1 𝑆 وتكون المصفوفة الممركزة والمعيارية أو المرجحة على النحو التالي: )∈ M(n, p 𝑝𝑔𝑥1𝑝 − 𝑝𝑠 …. 𝑝𝑔𝑥𝑛𝑝 − … … 𝑥11 −𝑔1 𝑠1 … 𝑥𝑛1 −𝑔1 =XCR … ] 𝑝𝑠 [ 𝑠1 المرجح مباشرة بقسمة احداثيات كل عمود في الجدول الممركز على ويمكن كذلك حساب الجدول الممركز و ّ االنحراف المعياري المقابل له .وفقا للعالقة: 𝑗̅𝑋 𝑋𝑖𝑗 − = 𝑗𝑖𝑍 𝑗𝑆 .5حساب مصفوفة التباين والتباين المشترك :Vفي حالة كانت المتغيرات متجانسة نستخدم هذه المصفوفة، ويتم حساب التباين والتباين المشترك من الصيغة المصفوفية: 𝐶𝑋 𝑃𝐷 𝑇𝐶𝑋=V حيث XC :المصفوفة الممركزة XCT ،منقول المصفوفة 𝐷𝑃 .XCالمصفوفة القطرية لمصفوفة األوزان. مالحظة :عندما يكون لجميع األفراد نفس الوزن: 1 = 𝑃𝐷 𝑛 أو بحساب التباين من العالقة الموالية: 𝑝 1 2 ) 𝑗̅𝑥 V(𝑋, 𝑋) = ∑ (𝑥𝑖𝑗 − 𝑛 𝑗=1 والتباين المشترك من العالقة التالية: 𝑝 1 ) 𝑗̅𝑦 𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖𝑗 − 𝑥̅𝑗 ) ∗ (𝑦𝑖𝑗 − 𝑛 𝑗=1 مالحظة :مصفوفة التباين والتباين المشترك ،مصفوفة متماثلة (تساوي منقولها): 1 VT= 𝑋𝐶 𝑋𝐶𝑇 =V 𝑛 51 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. مالحظة :عند استخدام مصفوفة التباين والتباين المشترك ،يحسب القصور الذاتي الكلي من العالقة: 𝑝 )𝑗(𝑟𝑎𝑉 𝐼𝑇 = Trace (V)= ∑𝑗=1 .6مصفوفة االرتباطات :في حالة كانت المتغيرات غير متجانسة نستخدم مصفوفة االرتباطات ،ويتم حساب االرتباط بين المتغيرات باستخدام الصيغة المصفوفية اآلتية: 𝑇 𝑅𝐶𝑋 =R 𝑅𝐶𝑋 𝑃𝐷 مالحظة :عندما يكون لجميع األفراد نفس الوزن: 1 = 𝑃𝐷 𝑛 أو من الصيغة المصفوفية التالية: R= 𝐷1 𝑉𝐷1 أو باستخدام معامل االرتباط المعطى بالعالقة: 𝑆 𝑆 )𝑌𝐶𝑜𝑣 (𝑋, 𝑌𝛿 𝑋𝛿 =rXY مالحظة :مصفوفة االرتباط مصفوفة متماثلة (تساوي منقولها): 1 1 𝑇 𝑇 𝑅𝐶𝑋 𝑅𝐶𝑋 =RT 𝑅𝐶𝑋 = 𝑋𝐶𝑅 = R 𝑛 𝑛 مالحظة :عند استخدام مصفوفة االرتباطات ،يحسب القصور الذاتي الكلي من العالقة: 𝑃 :عدد المتغيرات. 𝑃 =)𝐼𝑇 = Trace (R .7القيم والمتجهات الذاتية :تتمثل الخطوة األولى من طريقة التحليل بالمركبات الرئيسية في البحث عن المعرف بواسطة متجه وحدوي ،uتكون النقاط المسقطة عليه تتمتع أفضل محور من الفضاء الجزئي، ّ بأقصى قدر من التباين .بمعنى آخر ،سيتم ايجاد المتجه uبحيث تكون المسافات بين أزواج النقاط المسقطة قريبة قدر اإلمكان من المسافات األصلية. 52 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. i hi u الموجه بواسطة الشعاع uتعطى بالعالقة: اسقاط (احداثيات) نقطة الصف (الفرد) iعلى الخط ّ 𝑝 𝑗𝑢 ) 𝑗̅𝑥 hi= ∑𝑗=1(𝑥𝑖𝑗 − القصور الذاتي لجميع النقاط المسقطة على uتعطى بالعالقة: 𝜆 = ∑𝑛𝑖=1 𝑝𝑖 ℎ𝑖2 إذا فالهدف هو البحث عن المتجه uالذي يعظّم القيمة الذاتية 𝜆. تبين األشعة الذاتية اتجاهات القصور الذاتي األقصى ،ونطلق عليها اسم المحاور العاملية .في هذه االتجاهات نقوم باسقاط األفراد ونسميها المركبات األساسية (يتم الحصول على كل مركبة أساسية كمجموعة خطية من المتغيرات األصلية). Fα= u1x1+ …..+….+upxp وتحتوي كل مركبة على تباين يساوي القيمة الذاتية المرتبطة بها. V(Fα)= 𝜆α أسلوبا ننتقل فيه من المتغيرات األصلية ،ولكل باختصار ،يمكن النظر إلى تحليل المركبات األساسية باعتباره ً منها أهمية معينة من خالل تباينها ،إلى متغيرات جديدة ،هذه المتغيرات الجديدة هي مزيج خطي من المتغيرات األصلية ،ولها أهمية تُعطى من خالل تباينها الذي يتضح أنه قيمها الذاتية. .1.7القيم الذاتية :لحساب القيم الذاتية للمصفوفة ( Vمصفوفة التباين والتباين المشترك) نعتمد على العالقة: حيث ⃗⃗⃗ هو الشعاع الذاتي للمصفوفة .V 𝑈𝜆=VU 53 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. ويمكن كتابة العالقة السابقة كما يلي: د .خالد علي. (V- 𝜆𝐼)U=0 وحتى تقبل المعادلة حال غير صفري ،ال بد أن يكون: |V- 𝜆𝐼|=0 وهي العالقة التي تسمح بحساب القيم الذاتية للمصفوفة .V ولحساب القيم الذاتية للمصفوفة ( Rمصفوفة االرتباط) نعتمد على العالقة: حيث ⃗⃗⃗ هو الشعاع الذاتي للمصفوفة .R 𝑈𝜆=RU ويمكن كتابة العالقة كما يلي: (R- 𝜆𝐼)U=0 وحتى تقبل المعادلة حال غير صفري ،ال بد أن يكون: |R- 𝜆𝐼|=0 وهي العالقة التي تسمح بحساب القيم الذاتية للمصفوفة .R .2.7المتجهات الذاتية :كل قيمة ذاتية يقابلها شعاع ذاتي ،ولتحديد األشعة الذاتية نعتمد على ما يلي: الشعاع الذاتي األول U1الذي يرافق القيمة الذاتية األولى ،يحدد من العالقة:(V- 𝜆1 𝐼)U1=0 أو حيث يكون: (R- 𝜆1 𝐼)U1=0 U1T*U1=1 الشعاع الذاتي الثاني U2الذي يرافق القيمة الذاتية الثانية ،يحدد من العالقة:(V- 𝜆2 𝐼)U2=0 أو حيث يكون: (R- 𝜆2 𝐼)U2=0 U2T*U2=1 U1T*U2=0 أن األشعة الذاتية تكون متعامدة مثنى مثنى. بمعنى ّ 54 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. المفسر بواسطة المركبات األساسية :من الممكن تحديد القصور الذاتي .8نسبة القصور الذاتي (التباين) ّ الكلي المفسر بواسطة كل مركبة أساسية من القيم الذاتية (كل قيمة ذاتية تعتبر كمركبة أساسية) ،وكذلك كمية المعلومات التي يحفظها كل محور عاملي .فبعد حساب القيم الذاتية لمصفوفة االرتباط نقوم بترتيبها تنازليا من األكبر إلى األصغر ،ثم نشكل جدول القيم الذاتية كما يلي: الرقم القيمة الذاتية 1 𝜆1 2 𝜆2 3 𝜆3 ..... ……. i 𝜆i …. ….. p 𝜆p النسبة المئوية 𝜆1 𝑝 𝑖𝜆 ∑𝑖=1 𝜆1 + 𝜆2 𝑖𝜆 ∑𝑝𝑖=1 𝜆3 𝑝 𝑖𝜆 ∑𝑖=1 ∑𝑝𝑖=1 𝜆𝑖 =p النسبة المئوية الصاعدة 𝜆1 𝑝 𝑖𝜆 ∑𝑖=1 𝜆1 + 𝜆2 𝑖𝜆 ∑𝑝𝑖=1 𝜆1 + 𝜆2 + 𝜆3 𝑖𝜆 ∑𝑝𝑖=1 ………… 𝑖𝜆 ⋯ 𝜆1 + 𝜆2 + 𝑖𝜆 ∑𝑝𝑖=1 ……. 𝑖𝜆 𝑖𝜆 ∑𝑝𝑖=1 ………. …….. 𝑝𝜆 𝑝 𝑖𝜆 ∑𝑖=1 =1 𝑝 𝑖𝜆 ∑𝑖=1 𝑝 𝑖𝜆 ∑𝑖=1 1 -كل قيمة ذاتية iتمثل المساهمة المطلقة للمحور αفي التباين الكلي ( .)Inertieفاعتمادا على نظرية heygensيمكننا تفكيك التباين الكلي لألفراد كما يلي: 𝑝𝜆 𝐼0 = 𝐼𝛥∗1 +𝐼𝛥∗2 +… . . +𝐼𝛥∗𝑝 =𝜆1 +𝜆2 + ⋯ + -تقاس المساهمة المطلقة للمحور في التباين الكلي بالعالقة: 𝐶𝑎 (𝛥𝑘 /𝐼0 )= 𝜆k أن كل محور تقاس مساهمته المطلقة بالقيمة الذاتية المقابلة له. معنى ذلك ّ -تقاس المساهمة النسبية للمحور αمن العالقة: 𝑘𝜆 )𝑉(𝑐𝑎𝑟𝑇 -تمثل القيمة 𝜆 +𝜆2 𝑖 = 𝑘𝜆 𝑝𝜆𝜆1 +𝜆2 +⋯+ =) 𝐶𝑟 (𝛥𝑘 /𝐼0 ∑𝑝1نسبة القصور الذاتي الكلي المفسر بالمستوى العاملي األول (المحور األول والثاني)، 𝑖=1 وتقاس نسبة تمثيل المستوى من العالقة: 𝜆1 +𝜆2 )𝑉(𝑐𝑎𝑟𝑇 = 𝜆1 +𝜆2 𝑝𝜆𝜆1 +𝜆2 +⋯+ =) 𝐶𝑟 (𝛥1 ⊕ 𝛥2 /𝐼0 55 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. وكقاعدة عامة تكون المركبات الرئيسية المتحصل عليها جيدة وكافية إلعطاء صورة واضحة عن سحابة النقاط في المخطط العاملي إذا كانت نسبة القصور الذاتي الكلي المفسر بالمركبات الرئيسية أكبر من 75 في المائة. مالحظة :القيمة الذاتية األولى تعطينا الشعاع الذاتي األول ،والذي يعطينا بدوره المحور العاملي األول (المستقيم ،)∆1 :وهذا األخير يعطينا المركبة الرئيسية األولى ) (F1وبنفس الطريقة القيمة الذاتية الثانية تعطينا الشعاع الذاتي الثاني ،والذي يعطينا بدوره المحور العاملي الثاني ،وهذا األخير يعطينا المركبة الرئيسية الثانية .ثم المحورين 1و 2يشكالن لنا المستوي العاملي األول ،حيث يكون الشعاع الذاتي األول متعامد مع الشعاع الذاتي الثاني. .9تحديد عدد المحاور التي تأخذ في التحليل :توجد عدة معايير تسمح بتحديد عدد المحاور التي تؤخذ في التحليل ،من بينها: أ .محك كايزر ( :)Kaiserحسب هذا المعيار نأخذ فقط العوامل التي تزيد قيمها الذاتية عن .1 ب .معيار التمثيل البياني للقيم الذاتية :بعد إنشاء التمثيل البياني باألعمدة للقيم الذاتية نقوم برسم مستقيم يربط بين أكبر عدد من القيم الذاتية ،والقيم الكبيرة التي ال تنتمي للمستقيم تمثل المحاور التي تؤخذ في التحليل .أو نربط بين رؤوس األعمدة بخطوط مستقيمة ،وأين تشكل لنا شكل مرفق ( )Codeنتوقف عند تلك القيمة الذاتية (المرفق يؤخذ). وعند استخدام برنامج SPSSيتم استخدام محك كاتل ،حيث يتم القيام بفحص الرسم Scree plotواختيار العوامل التي تقع قبل تحول المنحنى إلى مسار أفقي. ج .معيار نسبة المستوي األول :إذا كانت قيمة النسبة المعلومات قليل ،وال داعي إلنشاء المستوى العاملي الثاني. د .معيار نسبة المحور الثالث :إذا كانت قيمة النسبة أكبر من ،%80فذلك دليل على أ ّن فقدان أكبر من %15فال بد من إنشاء المستوى العاملي الثاني. .9التحليل في فضاء المتغيرات وفي فضاء األفراد :من وجهة نظر مصفوفية ،يتكون PCAمن دراسة مصفوفة البيانات XCRالمحددة بمصفوفة مترية 𝑝𝐼 في الفضاء 𝑝 Rوالمصفوفة المترية Nفي الفضاء 𝑛R تأتي المصفوفة XCRمحددة بالطريقة التالية: -في الفضاء 𝑝:R 𝑇 𝑅𝐶𝑋 N𝑋𝐶𝑅 U= 𝜆U………..UTU=1 في الفضاء 𝑛:R56 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. وتكتب عالقة العبور كالتالي: د .خالد علي. 1 T 𝑇 𝑅𝐶𝑋 𝑅𝐶𝑋 𝑁 2 NV= 𝜆V………V V=1 1 1 𝑇 𝑅𝐶𝑋 =U 𝑉 𝑃2 𝜆√ 1 𝑈 𝑅𝐶𝑋 𝑃2 1 𝜆√ =V 𝑇 𝑅𝐶𝑋( ،تتزامن هذه المصفوفة مع مصفوفة االرتباطات في المصفوفة المتماثلة التي نريد تقطيرها ) 𝑅𝐶𝑋𝑁 حالة استخدام الطريقة المرجحة؛ أو مع مصفوفة التباين المشترك في حالة الطريقة البسيطة. .1.9التحليل في فضاء المتغيرات (الفضاء الشعاعي :)Rpتحليل األفراد في فضاء المتغيرات. .1.1.9المركبات األساسية لألفراد على المحاور :المركبات الرئيسية هي المتغيرات التي تحددها العوامل الرئيسية ،وتحتوي على إحداثيات األفراد ،التي يتم حسابها عن طريق اإلسقاط المتعامد لصفوف المصفوفة الممركزة أو المعيارية على االتجاهات المحددة بواسطة المتجهات الذاتية .Uαويتم حساب المركبات الرئيسية من خالل تقطير المصفوفة Vأو .R .1.1.1.9في حالة استخدام مصفوفة التباين والتباين المشترك :إذا كان Uαهو المتجه الذاتي للعدد nمن األفراد ،يتم الحصول على إحداثيات إسقاطات nمن النقاط ببساطة عن طريق: ومنه: ∝𝑗𝑈) 𝑗̅𝑋 ∑𝑝𝑗=1(𝑥1𝑗 − ∝𝐹1 𝑝 ∝𝐹2 ̅ ∑ 𝑗̅𝑋̃ 𝒊𝒋 =𝑿𝒊𝒋 - 𝑿…………………… ∝𝑗𝑈) 𝑗𝑋 Fα= [ ]= 𝑗=1(𝑥2𝑗 − .. .. ] ∝𝑗𝑈) 𝑗̅𝑋 𝐹𝑛∝ [∑𝑝 (𝑥𝑛𝑗 − وتكتب بالصيغة المصفوفية اآلتية: 𝑗=1 𝑝 ∝𝑗𝑈 𝒋𝒊 ̃ 𝑿 Fα=∑𝑗=1 Fα= XCUα حيث F :هي المركبة الرئيسية XC ،المصفوفة الممركزة Uα ،الشعاع الذاتي المرافق للقيمة الذاتية 𝛼𝜆. مالحظات: (ألن المركبات ممركزة). متوسطات المركبات الرئيسية معدومة ّ ̅̅̅̅ Fα =0 أن تباين كل مركبة أساسية يساوي القيمة الذاتية المرتبطة بها. كما ّ V(Fα) = 𝜆α .2.1.1.9حالة استخدام مصفوفة االرتباطات :يتم حساب إحداثيات األفراد على المحور αكما يلي: 57 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. 𝑗̅𝑋𝑥 − د .خالد علي. 𝑗∑𝑝𝑗=1( 1 ومنه: ∝𝑗𝑈) 𝑗𝑆 ∝𝐹1 𝑗̅𝑋𝑥2𝑗 − 𝑝 𝑗̅𝑋𝑿𝒊𝒋 − ∝𝐹2 ∑ ( =𝒁…………………… ∝𝑗𝑈) 𝑗𝑆 Fα= [ ]= 𝑗=1 𝒋𝑺 .. .. ∝𝑛𝐹 ̅𝑋𝑥 − ∝𝑗𝑈)𝑗 𝑗𝑛 (∑𝑝𝑗=1 𝑗𝑆 [ ] ∝𝑗𝑢 𝑗̅𝑋𝑿𝒊𝒋 − 𝑗𝑆 𝑝 Fα=∑𝑗=1 وتكتب بالصيغة المصفوفية التالية: Fα= XCRUα حيث F :هي المركبة الرئيسية XCR ،المصفوفة الممركزة Uα ،الشعاع الذاتي المرافق للقيمة الذاتية .وتكون (ألن المركبات ممركزة). متوسطات المركبات الرئيسية معدومة ّ ̅̅̅̅ Fα =0 أن تباين كل مركبة أساسية يساوي القيمة الذاتية. كما ّ V(Fα) = 𝜆α .2.1.9جودة تمثيل األفراد على المحاور :في الواقع العملي قد يكون عدد المتغيرات كبير جدا ،مما يجعل من الصعب مالحظة موقع كل نقطة على المحاور العاملية ،لذلك فنحن بحاجة إلى حساب جودة تمثيل كل نقطة على المحاور ،حتى يسهل تفسير المخطط .ويكون تمثيل الفرد جيدا على المحور العاملي ،إذا كانت قيمة تجب الزاوية التي يشكلها الفرد مع المستوى مساوية للواحد. Cos2(θ)=1 ويتم قياس جودة تمثيل األفراد على المحاور ،باستخدام تجب الزاوية التي يشكلها مع المستوى ،وفقا للعالقة: )𝑖( 𝐹𝛼2 2 𝑝∑= 𝛼𝑖Cos θ 2 )𝑖( 𝛼𝐹 𝛼=1 كلما اقتربت هذه القيمة من الواحد ،كان الفرد ممثال أحسن تمثيل. .3.1.9نسبة مساهمة األفراد في تشكيل المحاور :نحسب نسبة مساهمة األفراد في تشكيل المحاور ،لكي ن تمكن من تفسير المركبات األساسية .وهي كمية التباين لكل فرد التي يتم تفسيرها بواسطة المحور العاملي. ويحسب بتربيع المركبات األساسية لألفراد ثم القسمة على ثقل المصفوفة (عدد األفراد) مضروبة في القيمة الذاتية المقابلة لها: )𝑖( 𝐹 2 𝛼 = 𝒊𝜶𝑪 𝛼𝜆𝒏 58 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .2.9التحليل في فضاء األفراد (الفضاء الشعاعي ( )Rnتحليل المتغيرات في فضاء األفراد) :على نفس الخطوات التي استخدمناها في تمثيل األفراد في فضاء المتغيرات ،سنقوم بتمثيل المتغيرات في فضاء األفراد، غير أننا سنقوم بتغيير األساس في هذا الفضاء. .1.2.9احدثيات المتغيرات النشطة :يتم الحصول على إحداثيات المتغيرات النشطة عن طريق اإلسقاط المتعامد ألعمدة المصفوفة الممركزة أو المعيارية على االتجاهات المحددة بواسطة المتجهات الذاتية ،Vα والموزونة. 𝑇 𝑅𝐶𝑋 𝛼𝑈 𝛼𝜆√ =𝑈𝑅 𝑃𝑋𝐶𝑅 𝑈𝛼 = 𝐷 1 𝜆√ 1 2 1 𝑇 𝑅𝐶𝑋 =Gα = 𝛼𝑉 𝑃 𝜆√ 𝛼𝑈 𝛼𝜆√=Gα .2.2.9االرتباط الخطي بين المتغيرات األصلية والمركبات األساسية :من أجل دراسة االرتباط بين المكونات األساسية المتحصل عليها والمتغيرات األولية ،نحن مهتمون بدراسة العالقات المتبادلة بين المتغيرات الجديدة واألصلية .أوالً نحدد التباين المشترك بين المتغير األولي Xjوالمكون الرئيسي .Fα 1 1 1 Cov(Xj, Fα)= FαTXj= (XUα)TXj= UαTXTXj 𝑛 𝑛 𝑛 0 0 0 .. .. .. 1 T T T T = Uα X Xj 1 = Uα V 1 =𝜆𝛼 Uα 1 =𝜆𝛼 Uαj 𝑛 .. .. .. ][ 0 ][0 ][0 نستنتج االرتباط بين Xjو :Fα 𝑗𝛼𝑈 𝑗𝑆 𝑗𝛼𝑈 𝑗𝑆 𝛼𝜆√ = 𝑗𝛼𝑈 𝛼𝜆 𝛼𝜆 √𝑆𝑗2 = ) 𝛼Cov(X𝑗 ,F ) 𝛼𝐹(𝑟𝑎𝑉) 𝑗𝑋(𝑟𝑎𝑉√ =)Cor(Xj, Fα 𝛼𝜆√ =)Cor(Xj, Fα في حالة استخدام طريقة المركبات الرئيسية البسيطة تكتب العالقة السابقة بالصيغة المصفوفية اآلتية: Cor= 𝐷√𝜆 ∗UT∗ 𝐷1 𝑆 T حيث :𝐷√𝜆 :المصفوفة القطرية لجذور القيم الذاتية 𝜆 :U .منقول مصفوفة المتجهات الذاتية:𝐷1 ، 𝛼 𝑆 المصفوفة القطرية لمقلوبات االنحرافات المعيارية. وفي حالة استخدام طريقة المركبات الرئيسية المرجحة تكتب العالقة السابقة على الشكل: وتكتب مصفوفيا على النحو التالي: Cor(Xj, Fα)= √𝜆𝛼 Uαj 𝜆√𝐷𝑈 =Cor 59 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. وتعطي هذه األخيرة جودة تمثيل المتغير jعلى المحور ،Eαوكلما اقتربنا من 1في القيمة المطلقة ،كان تمثيل المتغير أفضل .وتسمح لنا عالمة االرتباط بمعرفة ما إذا كان المتغير يساهم بشكل إيجابي أو سلبي غالبا ما نمثل هذه البيانات بيانياً بترابطات ثنائية األبعاد باستخدام ما يسمى بدائرة في تشكيل المحور .و ً االرتباط .بتعبير أدق ،يتم اختيار محورين Ejو Ek؛ ونرسم النقاط التي تمثل إحداثياتها ارتباطات كل من المتغيرات مع المكونين األساسيين F1و . F2 على المستوى العاملي األول ،يتوافق اإلحداثي السيني مع االرتباط بين كل متغير أولي والمكون الرئيسي F1؛ وينسق العالقة مع المركبة الثانية .F2وكلما كان المتغير أقرب إلى دائرة االرتباط ،كان تمثيله أفضل جيدا في بالمستوى قيد الدراسة .واذا كان هناك متغيرين قريبين من دائرة االرتباط (وبالتالي يتم تمثيلهما ً ٍ قويا .وعلى العكس فعندئذ يكونان مرتبطان ارتباطًا المستوى المدروس) وقريبان من بعضهما البعض، إيجابيا ً ً من ذلك ،فإذا كان متغيرين قريبين من دائرة االرتباط ولكنهما متعاكسان بشكل متماثل فيما يتعلق باألصل سلبا بقوة. سيكونان مرتبطين ً .3.2.9المركبات الرئيسية للمتغيرات على المحاور: 𝑇 𝑅𝐶𝑋 =Gα 𝛼𝑉 1 2 𝑈 𝑅𝐶𝑋 𝑃𝐷 1 𝜆√ =V .4.3.9جودة تمثيل المتغيرات على المحاور: 2 ∝𝑗𝐺 2 𝐶𝑜𝑠 (𝑗, ∝) = 2 )𝑑 (𝑗, 0 تتطابق مسافة المتغير إلى األصل مع االنحراف المعياري للمتغير تحت PCAالبسيط ،وفي المقابل ،عند مرجح ،تكون المسافة مساوية لـ .1 إجراء ّ PCA 2 )𝛼 𝐶𝑜𝑠 (𝑗, 𝛼) = 𝐶𝑜𝑟 (𝑗, .5.3.9نسبة مساهمة المتغيرات في تشكيل المحاور: 2 القصور الذاتي المتوقع على المحور في الفضاء :Rn 60 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. د .خالد علي. 𝑝 2 ∝𝑗𝐺 ∑ = ∝𝜆 مساهمة المتغيرات في القصور الذاتي لهذا المحور: 2 ∝𝑗𝐺 ∝𝜆 𝑗 = )∝𝐶𝑡𝑟(𝑗, مع مراعاة صيغة حساب إحداثيات المتغيرات: 2 ∝𝑗𝑢 = )∝𝐶𝑡𝑟(𝑗, *100 .10تمثيل األفراد والمتغيرات على المستوى :في هذا المخطط يتم تمثيل احداثيات كل من األفراد والمتغيرات على نفس المخطط .ولتفسير هذا المخطط ،نتبع القواعد التالية: -تقارب نقطتي فردين تعني التشابه. -تقارب نقطتي متغيرين تعني الترابط. أن المتغير يأثر في سلوك ذلك الفرد. -تقارب نقطة فرد مع نقطة متغير تعني ّ .11إضافة أفراد أو متغيرات: .1.11إضافة أفراد: ̅̅̅̅ 𝑋𝑋𝑖𝑗 − 𝑗 ] 𝑗𝑠 = 𝑗𝑖𝑋 [ =XC ̅̅̅̅ 𝑋+ 𝑗𝑋𝑖𝑗 − + + = 𝑗𝑖𝑋→𝑋𝐶 −− 𝑗𝑠 𝑝𝑋1 ] 𝑋 𝑝𝑛𝑋 𝑗𝑋1 𝑗𝑖𝑋 𝑗𝑛𝑋 + 𝑗𝑖𝑋 𝑋11 [ 𝑋𝑖1 𝑋𝑛1 =X المركبات األساسية للفرد المضاف في حالة استخدام طريقة المركبات األساسية البسيطة: 𝛼𝑈 𝐹𝛼+ = 𝑋𝐶+ وفي حالة استخدام طريقة المركبات األساسية المرجحة: + 𝑅𝐶𝑋 = 𝐹𝛼+ 𝛼𝑈 .2.11المتغيرات التكميلية: ] ̅̅̅̅̅ + 𝑗𝑖𝑟 −𝑟𝑗 + 𝑠𝑗 + = ] [𝑋 + → 𝑋𝑖𝑗+ 𝑗̅𝑟𝑟𝑖𝑗 − 𝑗𝑠 = 𝑗𝑖𝑋 → 𝑋[ =X 𝑝𝑟1 ) 𝑟𝑖𝑝 ](𝑟𝑖𝑗+ 𝑝𝑛𝑟 𝑗𝑟1 𝑗𝑖𝑟 𝑗𝑛𝑟 𝑟11 R= [ 𝑟𝑖1 𝑟𝑛1 احداثيات المتغيرات التكميلية :يتم تحديد المتغيرات التكميلية باستخدام القاعدة السابقة حول حساب 𝑇+ 𝑅𝐶𝑋 مصفوفة البيانات التي تحتوي على المتغيرات التكميلية ،مع األخذ في االعتبار اإلحداثيات ،دع العالقات االنتقالية لدينا ما يلي: 61 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. في حالة استخدام طريقة المركبات البسيطة: 1 𝑈 𝑋 ) ∝ 𝐶 ( 𝑇𝐺𝛼+ = 𝑛 𝑋𝐶+ ∝𝜆 √ وفي حالة استخدام طريقة المركبات األساسية المرجحة: 𝑈 𝑋 1 ∝ 𝑅𝐶 𝑇+ 𝑅𝐶𝑋 𝑛 = 𝐺𝛼+ ( ) ∝𝜆 √ يتم حساب إسقاط المتغيرات التكميلية من هذه العالقة بين إحداثيات المتغير واسقاط األفراد .في PCA مساويا للعالقة بين المتغيرات والمكون الرئيسي. المرجح ،يكون هذا اإلسقاط ّ ً 62 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. التمرين األول :لديك المصفوفة التالية: د .خالد علي. تمارين محلولة −1 0 1 ] 0 −1 1 المطلوب: [=X .1أحسب العالقة المصفوفية ،XTXهل المصفوفة الناتجة مربعة ،وهل هي متناظرة. .2أحسب القيم الذاتية والمتجهات الذاتية المرافقة لها. أن: .3أثبت ّ 𝑖𝜆 𝑖∑=)trac(XTX)=trac(D الحل: .1 −1 0 ]X = [ 0 −1 1 1 −1 0 1 0 −1 −1 0 1 T [ ∗ ]X X= =[ 0 −1 ]=[0 ]1 −1 0 −1 1 1 1 −1 −1 2 المصفوفة الناتجة مصفوفة مربعة ( ،)3*3وهي متناظرة. T .2حساب القيم والمتجهات الذاتية: 𝜆1− 0 −1 det(X X- 𝜆I)=0- [ 0 𝜆1− −1 ]=0 −1 𝜆 −1 2 − =))(1 − 𝜆)(( 1 − 𝜆)(2 − 𝜆)-(-1)(-1))+(-1)((-1)(0)-( 1 − 𝜆)(-1 T =)𝜆 (1 − 𝜆)(( 1 − 𝜆)(2 − 𝜆)-1)-( 1 − 𝜆)= (1 − 𝜆)( 1 − 𝜆)(2 − 𝜆)- (1 − 𝜆)- (1 − =)𝜆 (1 − 𝜆)[( 1 − 𝜆)(2 − 𝜆) − 1 − 1]=(1 − 𝜆)(2−𝜆-2𝜆+𝜆2-1-1)=(1 − 𝜆)( 𝜆2-3 𝜆(1 − 𝜆)( 𝜆-3 )=0-- 𝜆1=3, 𝜆2=1, 𝜆3=0 3 0 0 ]D= [0 1 0 0 0 0 𝜆1=3 XTX𝑢 = 𝜆u −2 0 −1 𝑥 0 ](X X−𝜆) 𝑢= [ 0 −2 −1] [𝑦]=[0 −1 −1 −1 𝑧 0 إذاً لدينا نظام متجانس من المعادالت الخطية ،نقوم بحلها بواسطة حذف كاوس: T 63 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. 1 1 0 2 0 ][0 1 1 ] [0 2 0 0 0 0 د .خالد علي. 1 0 0 *-0.5 2 −2 −1] [0] + 1 0 −1 − 2 1 [0 0 *-0.5 + −2 0 −1 0 ][ 0 −2 −1] [0 −1 −1 −1 0 1 X=- z 2 1 Y=- z 2 1 1 Z=Z 1 − − − z 2 2 2 )U= ( 1 )- U= 𝑧 (− 1)….. z=1- U1= (− 1 − z 2 2 2 𝑧 1 1 3 1 1 2 2 2 √ = ‖U1‖= √(− )2 + (− )2 + (1)2 √6 6 √6 − 6 √6 − ) وبالطريقة نفسها نحسب بقية المتجهات الذاتية. √3 3 √3 3 √3 )(3 .3 =, v3 3 =v1 ( √2 − 2 √2 2 =v2 ) ( 0 −1 −1 1 3 0 0 2 ]D= [0 1 0], U= [−1 1 1 2 0 0 0 1 0 1 -1 T D= U X XU-- tr(D)=tr(U-1 XTXU)=tr(U-1U XTX)=tr(I XTX). tr(XTX)= 1+1+2=4=tr(D)=3+1+0. التمرين الثاني :لديك المصفوفة التالية. 4 5 ]X= [6 7 8 0 .1أحسب المصفوفة الممركزة والمعيارية. .2احسب مصفوفة التباين والتباين المشترك (بطريقتين). 64 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .3أحسب القيم الذاتية لمصفوفة التباين والتباين المشترك. الحل: .1حساب المصفوفة الممركزة والمعيارية: .1.1المصفوفة الممركزة: XC= X-1nGXT 1 (4 + 6 + 8)/3 6 T [ =GX ]]= [ ], GX = [6 4], 12= [1 (5 + 7 + 0)/3 4 1 −2 1 4 5 XC=[6 7]-[[1] ∗ [6 4]]= [ 0 ]3 1 2 −4 8 0 .2.1المصفوفة المعيارية: XCR=XC* 𝐷1 𝑆 0 ] 0.34 S1=√ ((−2)2 + (2)2 ) = 1.63, S2= 2.94, 𝐷1 = [0.61 1 0 3 𝑆 −2 1 −1.22 0.34 0.61 0 XCR=[ 0 ]= [ 0 [*] 3 ] 1.02 0 0.34 1.22 −1.36 2 −4 .2حساب مصفوفة التباين والتباين المشترك. ط .1باستخدام عالقة التباين وعالقة التباين المشترك اليجاد العناصر.V12 ،V22 ،V11 : 𝑝 1 2 ) 𝑗̅𝑥 V(𝑋, 𝑋) = ∑ (𝑥𝑖𝑗 − 𝑛 𝑗=1 1 1 V11= (4+0+4)=2.666, V22= (1+9+16)=8.666. 3 والتباين المشترك من العالقة التالية: 3 𝑝 1 ) 𝑗̅𝑦 𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖𝑗 − 𝑥̅𝑗 ) ∗ (𝑦𝑖𝑗 − 𝑛 𝑗=1 1 V12=V21= ((-2)(1)+(0)(3)+(2)(-4))=-3.333 3 2.666 −3.333 [=V ] −3.333 8.666 ط .2نستخدم الصيغة المصفوفية: 1 𝐶𝑋 𝑇𝐶𝑋 =V 𝑛 1 2.666 −3.333 ] [=] 3 −3.333 8.666 −4 −2 0 2 ]*[ 0 3 −4 2 1 −2 [ =V 3 1 65 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .3حساب القيم الذاتية للمصفوفة .V 𝜆 2.666 − −3.333 [>det(V-𝜆I)=0 )𝜆 ]=0(2.666 − 𝜆)( 8.666 −𝜆 −3.333 8.666 − ( −3.333)( −3.333)= 23.10−2.666𝜆-8.666 𝜆+ 𝜆2-11.10=0 𝜆2-11.33 𝜆+12=0 Δ= b2-4ac= (-11.33)2-4(1)(12)=80.36 −(−11.33)+√80.36 −(−11.33)−√80.36 == 10.14, 𝜆2 =1.18. 2 2 =𝜆1 التمرين الثالث :يحتوي الجدول الموالي على نقاط 6طلبة في ثالثة مواد (تحليل المعطيات ،جزئي، رياضيات). رياضيات جزئي تحليل المعطيات 0 1 8 صابر 5 6 4 فريد 7 8 6 أحالم 7 4 10 محمد 5 2 8 سهام 6 3 0 يوسف المطلوب :تحليل الجدول بواسطة المركبات األساسية باتباع الخطوات الموالية. .1تشكيل مصفوفة البيانات وحساب مركز ثقلها ومصفوفة األوزان ،وحساب االنحرافات المعيارية ،ومن ثم (المخفضة). إيجاد كل من المصفوفة الممركزة والمصفوفة المعيارية ّ .2حدد طريقة المركبات األساسية التي تستخدم في التحليل (البسيطة -المرجحة). .3حساب مصفوفة التباين والتباين المشترك ( )Vومصفوفة االرتباطات. .4حساب القيم الذاتية واألشعة الذاتية. .5حساب التباين الكلي بطريقتين. .6تشكيل جدول القيم الذاتية ،وتحديد موثوقية المركبات الرئيسية المتحصل عليها. .7حساب المركبات األساسية لألفراد على المحاور. .8حساب جودة تمثيل األفراد على المحاور. .9حساب نسبة مساهمة األفراد في تشكيل المحاور. .10حساب احداثيات المتغيرات على المحاور ومعالمالت االرتباط بين المتغيرات والمركبات الرئيسية ،ثم رسم دائرة االرتباط. 66 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .11حساب جودة تمثيل المتغيرات على المحاور. .12حساب نسبة مساهمة المتغيرات في تشكيل المحاور. .13تمثيل األفراد والمتغيرات على المخطط العاملي والتعليق عليه. وفسره. .14مثل األفراد والمتغيرات على المخطط العاملي ّ .14لنفرض أننا أضفنا طالب جديد (صالح) كانت نقاطه على الترتيب ( ،)11 ،7 ،8أحسب المركبات األساسية للفرد المضاف. .15لنفرض أننا أضفنا مقياس جديد (تاريخ الفكر) ( ،.)9،4،10 ،3،6 ،4أحسب احداثياته. .16مثل الفرد المضاف والمتغير المضاف على المخطط العاملي. الحل: .1تشكيل مصفوفة البيانات وحساب مركز ثقلها مصفوفة األوزان ،وحساب االنحرافات المعيارية ،ومن ثم (المخفضة). إيجاد كل من المصفوفة الممركزة والمصفوفة المعيارية ّ .1.1مصفوفة البيانات: 0 5 7 7 5 ]6 .2.1مركز ثقل سحابة النقط للمصفوفة .X 1 6 8 4 2 3 8 4 6 =X 10 8 [0 1 ∑𝑛𝑖=1 𝑥𝑖1 … 𝑛 1 𝑗𝑖𝑥 GX= 𝑛 ∑𝑖=1 ... 𝑛 1 𝑥 ∑ 𝑝𝑖 𝑛 𝑖=1 8 + 4 + 6 + 10 + 8 + 0 6 1 ]GX = ([ 1 + 6 + 8 + 4 + 2 + 3 ]) = [4 6 0+5+7+7+5+6 5 𝑛 .3.1مصفوفة األوزان: 1 𝑛𝐼 = 𝑝𝐷 𝑛 0 0 0 1 = 0 6 0 ]1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 1 1 0 * = 𝐷𝑝 = 𝐼6 6 6 0 0 [0 67 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .4.1حساب االنحرافات المعيارية: = √10 = 3.266 (8−6)2 +(4−6)2 +(6−6)2 +(10−6)2 +(8−6)2 +(0−6)2 = √5.667 = 2.3805 = √5.667 = 2.3805 .5.1المصفوفة الممركزة: 4 5 2 −3 −5 4 5 −2 2 0 4 5 0 4 2 = 4 5 4 0 2 4 5 2 −2 0 ] 4 5] [−6 −1 1 .6.1المصفوفة الممركزة المعيارية: 6 (1−4)2 +(6−4)2 +(8−4)2 +(4−4)2 +(2−4)2 +(3−4)2 6 (0−5)2 +(5−5)2 +(7−5)2 +(7−5)2 +(5−5)2 +(6−5)2 6 0 ] 0 0.420 XC= X-1nGXT 0 6 5 6 7 6 − 7 6 5 6 ] [ 6 6 1 6 8 4 2 3 0 0.420 0 ∑6 𝑆1 = √ 𝑗=1 ∑6 𝑆2 = √ 𝑗=1 ∑6 𝑆3 = √ 𝑗=1 0.306 𝐷1 = [ 0 𝑆 0 1 1 ]16= 11 , GXT= [6 4 5 1 ][1 0 1 8 5 1 4 7 1 6 =)]-( *[6 4 5 1 7 10 1 5 8 ] [1 ] [ 6 0 1 6 8 4 2 3 8 4 XC= 6 10 8 [0 XCR=XC* 𝐷1 𝑆 0.612 −1.260 −2.1 2 −3 −5 −0.612 0.84 0 −2 2 0 0.306 0 0 0 1.68 0.84 4 2 XCR= 0 *[ 0 0.420 =] 0 1.224 0 0.84 4 0 2 0 0 0.420 0.612 −0.840 0 2 −2 0 ] [−1.837 −0.420 0.42 ] [−6 −1 1 أن المتغيرات متجانسة .2طريقة المركبات األساسية التي تستخدم في التحليل (البسيطة -المرجحة) :بما ّ ولها نفس وحدات القياس ،يمكننا استخدام طريقة المركبات األساسية البسيطة. .3حساب مصفوفة التباين والتباين المشترك ( :)Vيمكننا حسابها بطريقتين: .1.3باستخدام عالقتي التباين والتباين المشترك اليجاد العناصر.V23 ،V13 ،V12 ،V33 ،V22 ،V11 : 𝑝 1 2 ) 𝑗̅𝑥 V(𝑋, 𝑋) = ∑ (𝑥𝑖𝑗 − 𝑛 𝑗=1 68 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. 1 د .خالد علي. 1 1 6 6 V11= (4+4+16+4+36)=10.666, V22= (9+4+16+4+1)=5.666, V33= (25+4+4+1)=5.666 6 التباين المشترك من العالقة التالية: 𝑝 1 ) 𝑗̅𝑦 𝐶𝑜𝑣(𝑋, 𝑌) = ∑(𝑥𝑖𝑗 − 𝑥̅𝑗 ) ∗ (𝑦𝑖𝑗 − 𝑛 𝑗=1 1 V12=V21= ((2)(-3)+(-2)(2)+(0)(4)+(4)(0)+(2)(-2)+(-6)(-1))=-1.333 6 1 V13=V31= ((2)(-5)+(-2)(0)+(0)(2)+(4)(2)+(2)(0)+(-6)( 1))=-1.333 6 1 V23=V32= ((-3)(-5)+( 2)(0)+(4)(2)+(0)(2)+(-2)(0)+(-1)( 1))=3.666 6 10.666 −1.333 −1.333 V=[−1.333 5.666 ] 3.666 −1.333 3.666 5.666 .2.3نقوم اآلن بحسابها مستخدمين الصيغة المصفوفية: 1 −5 0 10.666 −1.333 −1.333 2 =[−1.333 5.666 ] 3.666 2 −1.333 3.666 5.666 0 ]1 .3.3حساب مصفوفة االرتباطات: 0 =] 0 0.420 0 0.420 0 −1.333 0.306 3.666 ]*[ 0 5.666 0 𝐶𝑋 𝑇𝐶𝑋 =V 𝑛 2 −3 −2 2 4 2 −6 0 4 *]0 −2 −1 4 0 2 0 1 2 −2 [−6 −1 2 −2 0 V= [−3 2 4 6 −5 0 2 1 R= 𝐷1 𝑉𝐷1 𝑆 𝑆 −1.333 5.666 3.666 0.306 0 0 10.666 R= [ 0 0.420 0 ]*[−1.333 0 0 0.420 −1.333 1 −0.171 −0.171 −0.171 1 0.647 −0.171 0.647 1 .4حساب القيم الذاتية واألشعة الذاتية لمصفوفة التباين والتباين المشترك. .1.4القيم الذاتية :نبحث عن جذور كثير الحدود المميز ،المعرف بمحدد (.)V- 𝜆 I3 10.666 −1.333 −1.333 𝜆 0 0 V- 𝜆 I3=[−1.333 5.666 ]3.666 ] -[0 𝜆 0 −1.333 3.666 5.666 𝜆 0 0 𝜆 10.666 − −1.333 −1.333 3 2 det(V- 𝜆 I3)= [ −1.333 𝜆 5.666 − 3.666 ]=- 𝜆 +22𝜆 -136𝜆+192 −1.333 3.666 𝜆 5.666 − 3 2 - 𝜆 +22𝜆 -136𝜆+192=0 69 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 𝜆1 = 12, 𝜆2 =8 , 𝜆3 =2 .2.4المتجهات الذاتية :لكل قيمة ذاتية نحسب متجهها الخاص: 12 0 0 D= 0 8 0 0 0 2 𝜆1 = 12 VU= 𝜆U 𝑎 𝑎 10.666 −1.333 −1.333 [−1.333 5.666 ] 𝑏[3.666 ] [𝑏 ]=12 𝑐 −1.333 3.666 𝑐 5.666 نستخدم حذف كاوس في حل النظام المتجانس من المعادالت الخطية. −1.333 −1.333 −1.333 *-1 −1.333 −1.333 −1.333 *-1 ] [−1.333 −6.333 3.666 [−1.333 −6.333 3.666 ] + + −1.333 3.666 −6.333 0 5 −5 −1.333 −1.333 −1.333 −1.333 −1.333 −1.333 [ 0 [ 0 −5 5 ] *1 −5 ] 5 + 0 5 −5 0 0 0 -1.333a-1.333b-1.333c=0……1 -5b+5c=0---------- b=c...2 c=c بتعويض 2في 1نجد: -1.333a-2.666b=0---- a=-2b −2 𝑏−2 ] U1= [ 𝑏 ]=b[ 1 1 𝑏 ولكي يكون متجه موجه للمحور العاملي األول (الرئيسي) ،يجب أن تكون طويلته تساوي .1 ‖𝑈1 ‖=√(−2)2 + (1)2 + (1)2= 2.499 نقوم بتعديله ،بقسمة مركباته على طويلته: −2⁄ 2.499 −0.8 1⁄ =U1 ] 2.499 = [ 0.4 0.4 1⁄ 2.499 [ ] 𝜆1 = 8 70 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 0 0.577 −0.8 0.577 0 ]U2= [0.577], U3= [−0.707]............ U=[ 0.4 0.577 −0.707 0.707 0.577 0.4 0.577 0.707 .5حساب التباين الكلي بطريقتين. .1.5الطريقة األولى :التباين الكلي يساوي أثر مصفوفة التباين والتباين المشترك. 𝐼𝑇 = trac(V)= 10.666+5.666+5.666= 22 .2.5الطريقة الثانية :التباين يساوي مجموع القيم الذاتية للمصفوفة .V 𝑝 𝐼𝑇 = ∑𝑗=1 𝜆𝑖 = 12+8+2=22 .6تشكيل جدول القيم الذاتية ،وتحديد موثوقية المركبات الرئيسية المتحصل عليها. Fi القيمة الذاتية 12 54.545 54.545 F2 8 36.364 90.909 F3 2 9.091 100 F1 النسبة المئوية النسبة المئوية المتصاعدة تكون المركبات الرئيسية المتحصل عليها جيدة وكافية إلعطاء صورة واضحة عن سحابة النقط في المخطط أن نسبة العاملي إذا كانت نسبة التباين الكلي المفسر بالمركبات الرئيسية أكبر من 75في المائة .نالحظ ّ المفسر بالمركبة المفسر بواسطة المركبة األساسية األولى يساوي 54.54في المائة ،ونسبة التباين التباين ّ ّ المفسر بواسطة المركبتين معا 90.90في الرئيسية الثانية يساوي 36.36في المائة .فتكون نسبة التباين ّ المائة ،وهي نسبة كافية إلعطاء صورة واضحة جدا لسحابة النقاط على المخطط العاملي ،أي حفظ أكبر قدر من المعلومات. * معايير اختيار عدد المحاور: -حسب محك كايزر كل قيمة ذاتية تفوق متوسط القيم الذاتية تأخذ كمركبة رئيسية. 𝑝 1 1 𝜆̅= ∑𝑖=1 𝜆𝑖 = (12+8+2)= 7.333 3 وعليه ،نحتفظ بالمحورين األول والثاني فقط. 𝑝 -حسب معيار التمثيل البياني: 71 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. Scree plot 100,000100 14 12,000 90,909 12 80 8,000 60 8 54,545 6 40 Valeur propre )Variabilité cumulée (% 10 4 20 2,000 2 0 0 F3 F1 F2 axe بحسب معيار التمثيل البياني نحتفظ فقط بالمحورين األول والثاني. .7حساب احداثيات األفراد على المحاور. Fα= XCUα −4.9 −3.46 −1.41 0 2.45 0 −1.41 −1 2.45 3.46 −1.41 = √2 −2.45 3.46 1.41 1 −2.45 0 1.41 ] √2 [ 4.9 ] −3.46 1.41 ̅̅̅ F 𝛼 =0 F3 -1,414 -1,414 -1,414 1,414 1,414 1,414 F1 -4,9 2,45 2,45 -2,45 -2,45 4, 9 F2 -3,464 0,000 3,464 3,464 0,000 -3,464 −5 −2 0 √6 1 2 * √6 2 1 [ 0 √6 ]1 1 √3 1 √3 1 √3 2 −3 −2 2 0 4 =Fα 4 0 2 −2 [−6 −1 صابر فريد أحالم محمد سهام يوسف .8حساب جودة تمثيل األفراد على المحاور. )𝑖( 𝐹𝛼2 2 𝑝∑= 𝛼𝑖Cos θ 2 )𝑖( 𝛼𝐹 𝛼=1 كلما اقتربت هذه القيمة من الواحد ،كان الفرد ممثال أحسن تمثيل. =0.632 −4.92 (−4.9)2 +(−3.446)2 +(−1.414)2 =Cos2 𝜃11 72 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. F3 0,053 0,250 0,100 0,100 0,250 0,053 د .خالد علي. F1 0,632 0,750 0,300 0,300 0,750 0,632 F2 0,316 0,000 0,600 0,600 0,000 0,316 صابر فريد أحالم محمد سهام يوسف أن صابر وفريد وسهام ويوسف ممثلين جيدا على المحور األول .أحالم ومحمد ممثلين يظهر من الجدول ّ جيدا على المحور الثاني .وكل األفراد غير ممثلين بشكل جيد على المحور الثالث. .9حساب نسبة مساهمة األفراد في تشكيل المحاور. )𝑖( 𝐹 2 𝛼 = 𝒊𝜶𝑪 = 0.25 وبنفس الطريقة حتى نحسب جميع القيم. F3 16,667 16,667 16,667 16,667 16,667 16,667 𝛼𝜆𝒏 (−3.464)2 6∗8 F2 25,000 0,000 25,000 25,000 0,000 25,000 = )𝐹22 (1 6𝜆2 F1 33,333 8,333 8,333 8,333 8,333 33,333 == 0.333, C21 (−4.9)2 6∗12 = )𝐹12 (1 6𝜆1 =C11 صابر فريد أحالم محمد سهام يوسف نسبة مساهمة صابر ويوسف في تشكيل المحور األول متساوية ،ونسبة مساهمة صابر وأحالم ومحمد ويوسف في تشكيل المحور الثاني متساوية. .10حساب احداثيات المتغيرات على المحاور ،ورسم دائرة االرتباط. .1.10حساب احداثيات المتغيرات على المحاور. = G3 1.632 [1.632], 1.632 𝛼𝑈 𝛼𝜆√ =Gα −2.771 0.577 =][ 1.414 ], G2=√8 [0.577 1.414 0.577 F3 0,000 -1,000 1,000 F2 1,632 1,632 1,632 F1 -2,771 1,385 1,385 −0.8 =] G1= √𝜆1 𝑈1 = √12 [ 0.4 0.4 0 0 ]√2 [−0.707]= [−1 0.707 1 تحليل المعطيات جزئي رياضيات 73 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .2.10االرتباط بين المتغيرات والمركبات األساسية. Cor= 𝐷√𝜆 ∗UT∗ 𝐷1 𝑆 0 =] 0 0.42 0 0.42 0 0.4 0.306 0.577]*[ 0 0.707 0 F3 0.582 0.685 0.420 0.4 0.577 −0.707 F2 0.582 0.685 -0.420 F1 -0.848 0.499 0 3.464 0 0 𝐷√𝜆 [ 0 2.828 ] 0 0 0 1.414 3.464 0 0 −0.8 Cor=[ 0 2.828 0 ]*[0.577 0 0 1.414 0 −0.848 0.582 0.582 ][ 0.499 0.685 0.685 0 −0.42 0.42 تحليل المعطيات جزئي رياضيات .2.10رسم دائرة االرتباط :نرسم دائرة االرتباط بتحديد احداثية كل متغير على المخطط العاملي ،ثم نرسم دائرة انطالقا من المركز نصف قطرها يساوي .1 )Variables (axes F1 et F2 : 90,91 % 1 0,75 0,5 0 -0,25 )F2 (36,36 % 0,25 -0,5 -0,75 -1 1 0,75 0,5 0,25 0 -0,25 -0,5 -0,75 -1 )F1 (54,55 % Variables actives أن االرتباط بين متغير تحليل المعطيات والمركبة األساسية األولى قوي وعكسي (سالب) ،كما يرتبط يظهر ّ أن االرتباط بين متغير الجزئي والمركبة ايجابيا بشكل متوسط مع المركبة األساسية الثانية .في حين ّ األساسية األولى متوسط ،وهو متوسط كذلك مع المركبة الثانية .وال يوجد ارتباط بين متغير الرياضيات مع المركبة األولى ،ويرتبط بالمركبة الثانية ارتباطا سلبيا متوسطا. 74 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .11جودة تمثيل المتغيرات على المحاور: 2 ∝𝑗𝐺 2 𝐶𝑜𝑠 (𝑗, ∝) = 2 )𝑑 (𝑗, 0 ………………𝑑 2 (1,0)=(3.262)2 =10.666 2 𝐺11 )𝑑 2 (1,0 2 = )𝐶𝑜𝑠 (1, 1 في التحليل بالمركبات الرئيسية البسيطة تتطابق المسافة إلى األصل مع االنحراف المعياري للمتغير. = 0.749 = 0.338 (1.385)2 5.666 = 2 𝐺21 )𝑑 2 (2,0 (−2.828)2 = )= 0.49, 𝐶𝑜𝑠 2 (2, 1 = 2 𝐺11 10.666 (1.632)2 )𝑑 2 (1,0 2 𝐺12 10.666 )𝑑 2 (1,0 = = )𝐶𝑜𝑠 2 (1, 1 = )𝐶𝑜𝑠 2 (1, 2 وبعد اتمام جميع العمليات نجد: F3 0 0.176 0.176 F2 2.50 0.470 0.470 F1 0.749 0.338 0.338 تحليل المعطيات جزئي رياضيات .12نسبة مساهمة المتغيرات في تشكيل المحاور: 2 ∝𝑗𝐺 ∝𝜆 = )∝𝐶𝑡𝑟(𝑗, = 0.6664 (−2.828)2 وبعد اتمام جميع العمليات نجد: F3 0,000 50 50 F2 33.33 33.33 33.33 F1 66.64 15.98 15.98 12 = 2 𝐺11 𝜆1 = )𝐶𝑡𝑟(1,1 تحليل المعطيات جزئي رياضيات .13تمثيل األفراد والمتغيرات على المخطط العاملي والتعليق عليه :في هذا المخطط يتم تمثيل احداثيات كل من األفراد والمتغيرات على نفس المخطط. 75 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. )Biplot (axes F1 et F2 : 90,91 % أحالم 4 محمد تحليل المعطيات جزئي رياضيات 3 2 سهام فريد 0 -1 )F2 (36,36 % 1 -2 -3 يوسف 6 صابر 2 4 -2 0 -4 -4 -6 )F1 (54,55 % Variables actives Observations actives لتفسير هذا المخطط ،نتبع القواعد التالية: -تقارب نقطتي فردين تعني التشابه. -تقارب نقطتي متغيرين تعني الترابط. أن المتغير يأثر في سلوك ذلك الفرد. تقارب نقطة فرد مع نقطة متغير تعني ّومن خالل المخطط أعاله نستنتج ما يلي: أن األفراد المتواجدين يرتبط متغير تحليل المعطيات مع المحور األول بقوة وفي اتجاه عكسي ،معنى ذلك ّعلى يمين المخطط نقاطهم ضعيفة في تحليل المعطيات (أحالم ،فريد ،يوسف) ،نقطة يوسف ضعيفة جدا، واألفراد المتواجدين يسار المخطط نقاطهم أفضل (صابر ،محمد ،سهام). -نقاط أحالم في الجزئي والرياضيات متقاربة وأفضل من بقية األفراد ،نقطة محمد في تحليل المعطيات أفضل من البقية. نقطتي فريد وسهام متعاكسة في تحليل المعطيات ،سهام أفضل ،ونقطة فريد في الجزئي أفضل من سهام،بينما تتقارب نقاطهما في الرياضيات (يقعان على المحور األول وال ترتبط الرياضيات مع هذا المحور). -نقاط صابر ضعيفة جدا في الجزئي والرياضيات ،وجيدة في تحليل المعطيات (تمثيل صابر جيد على أن الجزئي والرياضيات ال يرتبطان المحور األول ،ونسبة مساهمته في تشكيل المحور أفضل من البقية ،كما ّ بالحمور األول ،في حين يرتبط تحليل المعطيات بقوة مع المحور األول). .14حساب المركبات األساسية للفرد المضاف. المركبات األساسية للفرد المضاف في حالة استخدام طريقة المركبات األساسية البسيطة: 𝛼𝑈 𝐹𝛼+ = 𝑋𝐶+ 76 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ]𝑋𝐶+ = [2 3 6 −0.8 0.577 0 ] ∗ ]3 2 [ 0.4 0.577 −0.707]=[0.4 4.039 −0.707 0.4 0.577 0.707 .15احداثية المتغير التكميلي( ،تاريخ الفكر) (.)9،4،10 ،3،6 ،4 ]𝑋 = [8 7 11 𝑈 𝑋 𝐹𝛼+ =[2 1 ) ∝ 𝐶 ( 𝑇𝐺𝛼+ = 𝑛 𝑋𝐶+ ∝𝜆 √ 2 −3 −5 −2 −2 2 0 0 0 4 2 −3 = 𝑋𝐶+ 4 0 2 4 2 −2 0 −2 [−6 −1 1 ]3 2 −3 −5 −2 2 −2 0 4 2 −6 −2 2 −2.822 0 √6 1 2 4 0 −2 −1 1.411 0 4 2 + 1 1 −3 𝐺1 =6 [ *] = * √6 √12 −5 0 2 2 0 1 1.411 4 0 2 1 −2 0 −3 4 −2 3 2 −2 0 [ ] 0.588 [−6 −1 1 ] √6 1 2 −3 −5 2 −2 0 4 2 −6 −2 2 1.630 0 √3 1 1 1 −3 2 4 0 −2 −1 1.630 0 4 2 [ 𝐺2+ =6 *] * = 3 √8 −5 √ 0 2 2 0 1 1.630 4 0 2 1 −2 0 −3 4 −2 3 0 2 −2 0 ][−6 −1 1 ] [√3 77 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. التمرين الرابع :يحتوي جدول المعطيات الكمية الموالي على معدل تساقط األمطار ()precipitation ودرجات الح اررة القصوى ( )extreme temperaturesوالدنيا ( )lower temperaturesبستة مدن جزائرية. T-lower 5.9 -1.8 2.8 -2.4 7.2 -0.9 T-extreme 23.7 15.5 13.1 13.5 21.1 20.3 P 12.04 17.18 11.83 6.23 16.99 3.87 جيجل سطيف خنشلة تبسة عنابة البيض لدينا ستة واليات (أفراد) مقابل ثالثة متغيرات (معدل التساقط ،درجات الح اررة القصوى ،درجات الح اررة أن متوسط معدل التساقط في والية جيجل ،12.04ومتوسط درجات الح اررة القصوى الدنيا) ،يمكن مالحظة ّ ،23.7والدنيا .5.9ونكتب مصفوفة البيانات األولية Xكما يلي: .1مصفوفة األوزان المرتبطة باألفراد: 23.7 5.9 15.5 −1.8 13.1 2.8 13.5 −2.4 21.1 7.2 ]20.3 −0.9 12.04 17.18 11.83 =X 6.23 16.99 [ 3.87 أن جميع األفراد في مثالنا لهم نفس األهمية في الدراسة ،يكون لهم نفس الوزن ،ونكتب: بما ّ 1 𝑛𝐼 =DP 𝑛 .2مركز ثقل سحابة النقط. 0 0 1 0 =…..DP 6 0 0 ]1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 𝐼6 = 0 0 0 [0 1 Gj= ∑ni=1 pi Xi = ∑ni=1 Xi 𝑛 (12.04 + 17.18 + 11.83 + 6.23 + 16.99 + 3.87)=11.36 1 6 1 (23.7+15.5+13.1+13.5+21.1+20.3)= 17.87 (5.9 − 1.8 + 2.8 − 2.4 + 7.2 − 0.9)=1.8 6 1 6 =G1 =G2 =G3 78 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 11.36 ]GX= [17.87 1.8 كما يمكن حسابه من الصيغة المصفوفية: 𝑛𝐼 𝑃𝐷 𝑇 𝑋 =GX 1 6 0 0 0 0 0 0 0 0 0 1 6 0 12.04 17.18 11.83 6.23 16.99 3.87 0 0 * ] GX= [ 23.7 15.5 13.1 13.5 21.1 20.3 0 0 5.9 −1.8 2.8 −2.4 7.2 −0.9 1 1 11.36 0 0 1 * ]=[17.87 1 0 0 1.8 1 1 ]0 [1 0 0 0 0 0 0 0 [0 0 1 ]6 6 1 6 1 6 0 0 .3المصفوفة الممركزة :نحسب المصفوفة الممركزة XCمن الصيغة المصفوفية: XC= X-1nGXT حيث X :مصفوفة البيانات األولية 1n ،متجه الوحدة GXT ،منقول مركز ثقل سحابة النقط. 1 1 11.36 1 =GX= [17.87] ∈ M(3, 1), 16 )∈ M(6, 1 1 1.8 1 ] [1 1 12.04 23.7 5.9 0.68 5.83 4.1 1 17.18 15.5 −1.8 5.82 −2.37 −3.6 1 11.83 13.1 2.8 0.47 −4.77 1 = XC ]∗ [11.36 17.87 1.8 1 6.23 13.5 −2.4 −5.13 −4.37 −4.2 1 16.99 21.1 7.2 5.63 3.23 5.4 ( [ ] ) ][ 3.87 20.3 −0.9 ][−7.49 2.43 −2.7 1 ويمكننا كذلك حساب الجدول الممركز من العالقة: 𝑗̅𝑋̃ 𝒊𝒋 =𝑿𝒊𝒋 - 𝑿 T-lower 5.9-1.8 -1.8-1.8 2.8-1.8 -2.4-1.8 7.2-1.8 P 12.04-11.36 17.18-1136 11.83-11.36 6.23-11.36 16.99-11.36 T-extreme 23.7-17.87 15.5-17.87 13.1-17.87 13.5-17.87 21.1-17.87 جيجل سطيف خنشلة تبسة عنابة 79 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. -0.9-1.8 1.8-1.8 د .خالد علي. 3.87-11.36 11.36-11.36 20.3-17.87 17.87-17.87 البيض GX مالحظة :عند مركزة البيانات يصبح مركز ثقل سحابة النقط الجديد يساوي .0 GX=(0,0,0). .4المصفوفة الممركزة المعيارية (تخفيض البيانات): نحسب االنحراف المعياري. 1 𝑠𝑗 = √𝑛 ∑𝑛𝑖=1(𝑋𝑖𝑗 − 𝑔𝑗 )2 ........j=1,…..,p ونحسب المصفوفة المعيارية من العالقة التالية: XCR=XC* 𝐷1 االنحرافات المعيارية للمتغيرات: = 4.98 𝑆 (12.04−11.36)2 +(17.18−11.36)2 +(11.83−11.36)2 +(6.23−11.36)2 +(16.99−11.36)2 +(3.87−11.36)2 6 ∑6 𝛿𝑃 = √ 𝑗=1 𝛿T−extreme =4.04 , 𝛿T−lower =3.76 = 0.136 حساب المصفوفة الممركزة والمعيارية: 0.68 4.98 0 0.201 0 0 0 =[ 0 0.248 ] 0 0 0 0.266 1 ]3.76 = 𝑋11 −𝑋̅1 𝜎1 0 1 4.04 0 = 𝑍11 1 4.98 0 [0 = 𝐷1 𝑆 0.68 5.83 4.1 5.82 −2.37 −3.6 0.201 0 0 1 XCR= 0.47 −4.77 *[ 0 0.248 =] 0 −5.13 −4.37 −4.2 0 0 0.266 5.63 3.23 5.4 ][−7.49 2.43 −2.7 1.090 −0.957 0.266 −1.117 1.436 ]−0.718 1.443 −0.587 −1.181 −1.082 0.800 0.601 0.137 1.169 0.094 −1.030 1.131 [−1.504 ويمكن كذلك حساب الجدول الممركز المعياري مباشرة بقسمة احداثيات كل عمود في الجدول الممركز على االنحراف المعياري المقابل له .وفقا للعالقة: 𝑗̅𝑋 𝑋𝑖𝑗 − = 𝑗𝑖𝑍 𝑗𝑆 80 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 𝑋11 −𝑋̅1 12.04−11.36 4.98 T-lower 1.090 -0.957 0.266 -1.117 1.436 -0.718 0 1 P 0.137 1.169 0.094 -1.030 1.131 -1.504 0 1 T-extreme 1.443 -0.587 -1.181 -1.082 0.800 0.601 0 1 = 𝑆1 = 𝑍11 جيجل سطيف خنشلة تبسة عنابة البيض GX 𝑆 .5تحديد طريقة المركبات األساسية المستخدمة: ألن وحدات المتغيرات غير متجانسة في حالتنا هذه ال يمكننا استخدام طريقة المركبات األساسية البسيطةّ ، (درجة الح اررة تقاس بالدرجة ،والتساقط بالمللتر) ،وعلينا اختزال الوحدات ،وبالتالي استخدام طريقة المركبات المرجحة. األساسية ّ .6مصفوفة االرتباطات :في حالة كانت المتغيرات غير متجانسة نستخدم مصفوفة االرتباطات ،ويتم حساب االرتباط بين المتغيرات باستخدام الصيغة المصفوفية اآلتية: 1.090 −0.957 0.266 −1.117 1.436 ]−0.718 1.443 −0.587 −1.181 −1.082 0.800 0.601 𝑇 𝑅𝐶𝑋 =R 𝑅𝐶𝑋 𝑃𝐷 0.137 1.169 −1.504 0.094 ∗ ] 0.601 −1.030 −0.718 1.131 [−1.504 1.131 −1.030 0.094 1.169 0.137 1.436 −1.117 0.266 −0.957 1.090 0.09 0.49 1 ]0.62 0.62 1 1 R=6 [1.443 −0.587 −1.181 −1.082 0.800 باستخدام معامل االرتباط المعطى بالعالقة: )𝑌𝐶𝑜𝑣 (𝑋, 𝑌𝛿 𝑋𝛿 1 R= [0.09 0.49 =rXY وبعد اتمام جميع العمليات تكون مصفوفة االرتباطات كما يلي: =0.09 1.722 4.98∗4.04 =r12=r21 81 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 0.09 0.49 1 ]0.62 0.62 1 1 R= [0.09 0.49 يظهر من مصفوفة االرتباطات أن متغير معدل تساقط األمطار مستقل عن متغير درجات الح اررة القصوى، معامل االرتباط= ،0.09ويرتبط بشكل متوسط مع متغير درجات الح اررة الدنيا ( .)r=0.49في حين يرتبط متغيري درجات الح اررة الدنيا والقصوى بقوة (.)r=0.62 .7القيم والمتجهات الذاتية: نحسب القيم الذاتية لمصفوفة االرتباط باستخدام المحدد. 1 0.09 0.49 1 0 0 1 − 𝜆 0.09 0.49 det([0.09 1 0.62] − 𝜆 [0 1 0])=0-det([ 0.09 1 − 𝜆 0.62 ]) = 0 0.49 0.62 1 0 0 1 𝜆 0.49 0.62 1 − ∗ (1 − 𝜆)[(1 − 𝜆)(1 − 𝜆) − 0.62 ∗ 0.62]-0.09[(1 − 𝜆)(0.09) − 0.62 0.49]+0.49[(0.62)(0.09) − 0.49 ∗ (1 − 𝜆)]= - 𝜆3+3 𝜆2-2.367 𝜆+0.422=0 ونكتب المصفوفة القطرية للقيم الذاتية على الشكل التالي: 𝜆1= 1.83, 𝜆2= 0.92, 𝜆3= 0.25. 1.83 0 0 D= [ 0 0.92 ] 0 0 0 0.25 لكل قيمة ذاتية نحسب المتجه الذاتي المرافق لها. 𝜆1= 1.83 𝑈1 1 − 1.83 0.09 0.49 0 [ 0.09 1 − 183 ]]0.62 [ 𝑈2 ] = [0 0.49 0.62 1 − 1.83 𝑈3 0 (R- 𝜆1𝐼 )U1=0 إذاً لدينا نظام متجانس من المعادالت الخطية ،نقوم بحلها بواسطة حذف كاوس: −0.835 0.09 0.49 1 −0.108 −0.586 *-0.09 *-1.197 [ 0.09 [0.09 −0.835 −0.835 ] 0.62 0.62 ] + 0.49 0.62 −0.835 0.49 0.62 −0.835 1 −0.108 −0.586 *-0.49 1 −0.108 −0.586 [ 0 [0 −0.826 0.673 ] *-1.211 ] −0.826 0.673 + 0.49 0.62 −0.835 0 0.673 −0.548 1 −0.108 −0.586 1 −0.108 −0.586 [0 1 −0.815] *-0.673 [0 1 ]−0.815 + 0 0.673 −0.548 0 0 0 U1-0.108U2-0.586U3=0-----U1= 0.108U2+0.586U3 U2-0.815U3= 0-------- U2= 0.815U3 U3=U3 82 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. U1= 0.674 U3 0.674U3 0.674 0.674 𝑈0.815 [ =U ]3 ]<-- U=𝑈3 [0.815]….. U3=1--- U= [0.815 𝑈3 = 𝑈3 1 1 علينا تحويله إلى شعاع الوحدة ،نحسب طويلته ثم نقسم مركباته على الطويلة. ‖𝑈‖= √0.6742 + 0.8152 + 12 = 1.455 0.674⁄ 1.455 0.46 0.815⁄ =U ]1.455 = [0.56 0.69 1⁄ 1.455 [ ] ‖𝑈‖= √0.462 + 0.562 + 0.692 =1 وبعد حساب بقية المتجهات الذاتية ،نكتب مصفوفة المتجهات الذاتية الوحدوية على النحو التالي: 0.46 0.79 0.41 ] U=[0.56 −0.61 0.56 0.69 −0.03 −0.72 أن: ويمكننا إثبات ّ U1T*U1=1 0.46 [0.46 0.56 0.69]*[0.56]= 1 0.69 T U1 *U2= 0 0.79 [0.46 0.56 0.69]*[−0.61]=0 −0.03 -1 T أن مصفوفة المتجهات الذاتية Uمصفوفة قابلة للعكسية ومعكوسها يساوي منقولها ( .)U =Uوعلى كما ّ أن مصفوفة االرتباط قابلة لالستقطار ،حيث: ذلك يمكننا إثبات ّ R=UDU-1 0.46 0.79 0.41 1.83 0 0 0.46 0.56 0.69 R= [0.56 −0.61 0.56 ]*[ 0 0.92 0 ]*[0.79 −0.61 −0.03]=R 0.69 −0.03 −0.72 0 0 0.25 0.41 0.56 −0.72 83 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. المفسر بواسطة المركبات األساسية: .8نسبة التباين ّ F1 القيمة الذاتية 1.835 Fi المفسر نسبة التباين ّ 1.83 1.83+0.92+0.25 النسبة المتصاعدة 61 *61=100 F2 0.92 30.67 90.67 F3 0.25 8.33 100 يحتفظ المحور األول بـ ـ ـ % 61من المعلومات ،ويحفظ المحور الثاني % 30.67من المعلومات ،في حين يحتفظ المحور الثالث بنسبة % 8.33من المعلومات. أن كل قيمة ذاتية تمثل المساهمة المطلقة للمحور في التباين الكلي ،نجد: وبما ّ المساهمة المطلقة للمحور العاملي األول في التباين الكلي تساوي .0.611.83 =0.6100 3 = 𝜆1 )𝑅(𝑐𝑎𝑟𝑇 = 𝜆1 𝑝𝜆𝜆1 +𝜆2 +⋯+ المساهمة المطلقة للمحور العاملي الثاني في التباين الكلي تساوي .0.30510.92 =0.3067 3 = 𝜆2 )𝑅(𝑐𝑎𝑟𝑇 = 𝜆2 𝑝𝜆𝜆1 +𝜆2 +⋯+ =) 𝐶𝑟 (𝛥1 /𝐼0 =) 𝐶𝑟 (𝛥2 /𝐼0 -المساهمة المطلقة للمحور العاملي الثالث في التباين الكلي تساوي .0.0832 المساهمة النسبية للمحور العاملي األول في التباين الكلي تساوي 61.17في المائة. المساهمة النسبية للمحور العاملي الثاني في التباين الكلي تساوي 30.51في المائة. المساهمة النسبية للمحور العاملي الثالث في التباين الكلي تساوي 8.32في المائة. نسبة التمثيل للمستوى األول:1.83+0.92 =91.66% 3 = 𝜆1 +𝜆2 )𝑉(𝑐𝑎𝑟𝑇 = 𝜆1 +𝜆2 𝑝𝜆𝜆1 +𝜆2 +⋯+ =) 𝐶𝑟 (𝛥1 ⊕ 𝛥2 /𝐼0 إن نسبة التمثيل الخاصة بالمركبة الرئيسية األولى F1تساوي 61في المائة من وبناء عليه ،يمكن القولّ : التباين الكلي ،ونسبة التمثيل الخاصة بالمركبة الرئيسية الثانية تساوي 30.67في المائة .فتكون نسبة التمثيل على المخطط العاملي في الفضاء R2المتكون من المحورين األول والثاني ،والممثلة بنسبة تباين كلي 91.66في المائة ،مما يعني إعطاء صورة واضحة لسحابة النقاط على المخطط العاملي. .9تحديد عدد المحاور التي تأخذ في التحليل: .1حسب معيار كايزر ،نأخذ فقط العوامل التي تزيد قيمها الذاتية عن ،1وعليه نأخذ مركبة واحدة. .2معيار التمثيل البياني: 84 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. Scree plot 2 100 1,8 80 1,4 1,2 60 1 0,8 40 Valeur propre )Variabilité cumulée (% 1,6 0,6 0,4 20 0,2 0 0 F3 F1 F2 axe حسب هذا المعيار نأخذ القيمتين األولى والثانية. .3حسب هذا المعيار نتوقف. 1.83+0.92 =91.66% 3 = 𝜆1 +𝜆2 )𝑉(𝑐𝑎𝑟𝑇 = .4حسب هذا المعيار ال داعي إلنشاء المستوى العاملي الثاني. 𝜆1 +𝜆2 𝑝𝜆𝜆1 +𝜆2 +⋯+ =) 𝐶𝑟 (𝛥1 ⊕ 𝛥2 /𝐼0 ∗ 100= 8.33 0.25 3 = .10احداثيات األفراد على المحاور: 𝜆3 𝑝 𝑖𝜆 ∑𝑖=1 Fα= XCRUα حيث F :هي المركبة الرئيسية XCR ،المصفوفة الممركزة Uα ،الشعاع الذاتي المرافق للقيمة الذاتية .أو باستخدام العالقة التالية: ∝𝑗𝑢 −0.805 0.079 1.310 0.840 0.787 −0.814 −0.120 −0.224 0.362 −0.122 ] −1.533 0.237 𝑗𝑖𝑥 𝑗𝑆 𝑝 Fα=∑𝑗=1 1.090 1.623 −0.957 −0.451 0.46 0.79 0.41 0.266 −0.435 =] *[0.56 −0.61 0.56 −1.117 −1.850 0.69 −0.03 −0.72 1.436 1.959 [−0.851 ]−0.718 ̅F̅̅1̅=0, F ̅̅̅2̅=0, ̅F̅̅3̅=0 0.137 1.443 1.169 −0.587 F= 0.094 −1.181 −1.030 −1.082 1.131 0.800 [−1.504 0.601 1 1 V(F1) = ∑6𝑖=1 𝐹12 (𝑖)= ((1.623)2 + (−0.451)2 + (−0.435)2 + (−1.850)2 + = 1.835=𝜆1 لو نستخدم العالقة السابقة نحصل على النتيجة نفسها: 6 ) (−0.851)2 𝑢𝑗∝ …. + 𝑗𝑖𝑥 𝑗𝑆 6 2 )(1.959 𝑝 Fiα=∑𝑗=1 85 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. د .خالد علي. 𝑥 𝑥 𝑥 𝑆3 𝑆2 𝑆1 F11=( 11 𝑢11 + 12 𝑢21 + 13 𝑢31 )= ((0.137*0.46)+(1.443*0.56)+(1.090*0.69))=1.623 0.25 F3 0.079 0.840 -0.812 -0.224 -0.122 0.237 0.92 F2 -0.805 1.310 0.787 -0.120 0.362 -1.533 .11جودة تمثيل األفراد على المحاور: 1.835 F1 1.623 -0.451 -0.435 -1.850 1.959 0.851 𝜆 جيجل سطيف خنشلة تبسة عنابة البيض )𝑖( 𝐹 2 Cos2θ𝑖𝛼 =∑𝑝 𝛼 2 )𝑖( 𝛼𝐹 𝛼=1 = 0.982 وبعد اتمام جميع العمليات نجد: Cos2 𝜃i3 0.999 0.731 0.551 0.986 0.996 0.981 (−1.844)2 (−1.844)2 +(−0.119)2 +0.224 2 Cos2 𝜃i2 0.197 0.653 0.423 0.004 0.034 0.753 Cos2 𝜃i1 0.802 0.078 0.128 0.982 0.962 0.228 = )𝐹12 (4 )∑3𝛼=1 𝐹12 (4 =Cos2 𝜃41 جيجل سطيف خنشلة تبسة عنابة البيض أن جيجل وتبسة وعنابة ممثلين بشكل جيد على المحور األول ،وغير ممثلين من النتائج أعاله يمكن القول ّ في المحور الثاني ،بينما بقية الواليات تمثيلهم أفضل على المحور الثاني. .12نسبة مساهمة األفراد في تشكيل المحاور: = 0.25 )𝑖( 𝐹𝛼2 𝛼𝜆𝒏 (−0.804)2 6∗0.92 = 𝒊𝜶𝑪 = )𝐹22 (1 6𝜆2 == 0.241, C21 (1.629)2 6∗1.835 = )𝐹12 (1 6𝜆1 =C11 86 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. وبنفس الطريقة حتى نحسب جميع القيم. C3i 0.198 0.116 0.049 0.208 0.240 0.187 د .خالد علي. C2i 0.117 0.312 0.113 0.003 0.024 0.430 C1i 0.241 0.019 0.017 0.310 0.347 0.065 جيجل سطيف خنشلة تبسة عنابة البيض يظهر من الجدول أن نسب مساهمة واليات :جيجل تبسة وعنابة في تشكيل المحور األول متقاربة ،بينما لم يكن لسطيف وخنشلة والبيض مساهمة في تشكيل المحور األول ،وكان للبيض نسبة ال بأس بها في تشكيل المحور الثاني مع سطيف. .13احدثيات المتغيرات النشطة :يتم الحصول على إحداثيات المتغيرات النشطة عن طريق اإلسقاط المتعامد ألعمدة المصفوفة الممركزة و/أو المعيارية على االتجاهات المحددة بواسطة المتجهات الذاتية ،Vα 𝛼𝑈 𝛼𝜆√ =Gα 0.46 0.62 0.79 0.76 ]G1=√𝜆1 U1= √1.835 [0.56]= [0.76], G2=√𝜆2 U2= √0.92 [−0.61]=[−0.59 0.69 0.93 −0.03 −0.03 0.41 0.21 ] G3=√𝜆3 U3= √0.25 [ 0.56 ]=[ 0.28 −0.72 −0.36 وتكون احداثتيات المتغيرات النشطة على المحاور كما يلي: G1 G2 G3 P 0.62 0.76 0.21 T-max 0.76 -0.59 0.28 T-min 0.93 -0.03 -0.36 .14حساب معامالت االرتباط الخطي بين المتغيرات األصلية والمركبات األساسية: 𝜆√𝐷𝑈 =Cor 0 0 =] 0 √0.92 0 √0.25 √1.835 0.41 0.56 ]*[ 0 0.69 −0.03 −0.72 0 0.623 0.758 0.205 [0.759 −0.585 ] 0.28 0.935 −0.029 −0.360 0.79 0.46 Cor= [0.56 −0.61 87 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. يمكننا حساب :Vα 0.49 0.137 1.443 1.090 −0.14 1.169 −0.587 −0.957 0.62 1 1 1 1 1 0.094 −0.13 [* −1.181 0.266 = V1= 𝑃2 𝑋𝐶𝑅 𝑈1 *( )2 =]0.76 𝜆1 −0.56 √1.835 6 −1.030 −1.082 −1.117 0.93 1.131 0.800 1.436 0.59 ][−1.504 0.601 −0.718 ][−0.25 −0.34 0.06 0.49 −0.34 0.06 0.56 0.69 −0.14 0.56 0.69 V2= 0.34 , V3= −0.66 ----------------------------V= −0.13 0.34 −0.66 −0.05 −0.17 −0.56 −0.05 −0.17 0.16 −0.11 0.59 0.16 −0.11 ][−0.66 ] [ 0.20 ] [−0.25 −0.66 0.20 1 0.49 −0.34 0.06 −0.14 0.56 0.69 −1.030 1.131 −1.504 −0.13 0.34 −0.66 = *] −1.082 0.800 0.601 −0.56 −0.05 −0.17 −1.117 1.436 −0.718 0.59 0.16 −0.11 ] [−0.25 −0.66 0.20 وتكون المركبات األساسية للمتغيرات على المحاور كما يلي: G1 G2 G3 0.62 0.76 0.21 0.76 -0.59 0.28 0.93 -0.03 -0.36 𝑇 𝑅𝐶𝑋 =Cor 𝛼𝑉 𝑁2 0.094 −1.181 0.266 0.137 1.169 [1.443 −0.587 √6 1.090 −0.957 0.205 ] 0.276 −0.360 1 0.761 −0.586 −0.023 = 0.617 [0.763 0.933 P T-max T-min ونرسم دائرة االرتباط بتحديد احداثية كل متغير على المخطط العاملي ،ثم نرسم دائرة انطالقا من مركز الثقل لسحابة النقط نصف قطرها يساوي .1 88 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. )Variables (axes F1 et F2 : 91,69 % 1 0,75 0,5 0 -0,25 )F2 (30,57 % 0,25 -0,5 -0,75 -1 1 0,25 0,5 0,75 -1 -0,75 -0,5 -0,25 0 )F1 (61,12 % Variables actives أن المتغيرات أن هناك عالقة قوية بين درجة الح اررة الدنيا والمركبة األساسية األولى ،كما ّ يمكن مالحظة ّ الثالثة لهم عالقة موجبة مع المحور األول .وعالقة سالبة بين كل من درجة الح اررة القصوى والدنيا مع المحور الثاني. .15المركبات الرئيسية للمتغيرات على المحاور: 1 𝑇 𝑋 𝛼𝑈 𝑅𝐶𝑋 𝐶𝑅 𝑃 2 𝜆 1 𝛼 0.49 −0.34 0.06 −0.14 0.56 0.69 −1.504 −0.13 0.34 −0.66 = *]] 0.601 −0.56 −0.05 −0.17 −0.718 0.59 0.16 −0.11 ] [−0.25 −0.66 0.20 𝑇 𝑅𝐶𝑋 =Gα = 𝛼𝑉 𝑇 𝑅𝐶𝑋 =Gα = 𝛼𝑉 −1.030 −1.082 −1.117 1.131 0.800 1.436 1.169 0.094 −0.587 −1.181 −0.957 0.266 0.137 [[1.443 1.090 1.865 −1.435 −0.057 1.515 [1.870 2.286 0.503 ] 0.677 −0.882 .16جودة تمثيل المتغيرات على لمحاور: 2 ∝𝑗𝐺 𝐶𝑜𝑠 (𝑗, ∝) = 2 )𝑑 (𝑗, 0 2 F3 0,041 0,077 0,131 F2 0,574 0,342 0,001 F1 0,385 0,580 0,868 P T-extreme T-lower 89 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .17نسبة مساهمة المتغيرات في تشكيل المحاور: F3 16,392 31,033 52,574 F1 20,992 31,658 47,350 F2 62,616 37,309 0,075 P T-extreme T-lower .18تمثيل األفراد والمتغيرات على المخطط العاملي :في هذا المخطط يتم تمثيل احداثيات كل من األفراد والمتغيرات على نفس المخطط. )Biplot (axes F1 et F2 : 91,69 % P 2 سطيف 1,5 خنشلة 1 0 T-lower تبسة -0,5 جيجل )F2 (30,57 % عنابة 0,5 -1 T-extreme -1,5 البيض -2 3 2 1 -1 0 -2 -3 )F1 (61,12 % Variables actives Observations actives لتفسير هذا المخطط ،نتبع القواعد التالية: -تقارب نقطتي فردين تعني التشابه. -تقارب نقطتي متغيرين تعني الترابط. أن المتغير يأثر في سلوك ذلك الفرد. تقارب نقطة فرد مع نقطة متغير تعني ّومن خالل المخطط أعاله نستنتج ما يلي: يرتبط متغير التساقط مع المحور الثاني ،ويرتبط متغير درجة الح اررة الدنيا مع المحور األول ايجابيا ،فيمايرتبط متغير درجة الح اررة القصوى سلبيا مع المحور الثاني. -المدن (عنابة ،جيجل) التي تتواجد على يمين المخطط العاملي لها احداثيات عالية مع المحور األول، ألن متغير درجات الح اررة الدنيا يرتبط بقوة مع المحور ستكون لهم قيم مرتفعة بالنسبة لدرجات الح اررة الدنياّ ، األول. -المدن التي تقع يسار المخطط ،لها احداثيات ضعيفة مع المحور األول ،وبالتالي ستكون لها قيم منخفضة بالنسبة لدرجات الح اررة الدنيا. المدن التي تقع أعلى المخطط نسبة تساقط األمطار فيها مرتفعة (سطيف ،خنشلة ،عنابة ،جيجل) ،والمدنالتي تقع أسفل المخطط نسبة التساقط فيها ضعيفة (تبسة ،البيض). 90 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. سطيف وخنشلة تتشابهان في نسب التساقط ودرجات الح اررة الدنيا والقصوى ،بينما مدينة البيض أبرد منمدينة تبسة ،ونسبة تساقط األمطار في تبسة أعلى من البيض. التمرين الخامس :يحتوي الجدول الموالي على قياسات ضغط الدم االنقباضي وضغط الدم االنبساطي لستة أفراد. SBP 126 128 128 130 130 132 DBP 78 80 82 82 84 86 عادل أمين جود أفنان رشيد وسيم المطلوب :إجراء التحليل بالمركبات الرئيسية متبعا جميع الخطوات. الحل: .1حساب المتوسطات الحسابية واالنحرافات المعيارية لجدول البيانات الكمية (المصفوفة :)X 78 80 82 82 84 ]86 1 𝑗𝑖𝑋 𝑋̅= ∑𝑛𝑖=1 𝑛 126 128 128 =X 130 130 [132 1 ̅̅̅̅̅̅ 𝑋𝑆𝐵𝑃 = (126+128+128+130+130+132)=129 6 1 ̅̅̅̅̅̅ 𝑋DBP = (78+80+82+82+84+86)=82 p ̅̅̅j )2 (XJ −X n = 6 ∑ j=1 √ = δj ∑6𝑗=1(126−129)2 +(128−129)2 +(128−129)2 +(130−129)2 +(130−129)2 +(132−129)2 6 = 2.828 √ = 𝛿1 2.098 ∑6𝑗=1(78−82)2 +(80−82)2 +(82−82)2 +(82−82)2 +(84−82)2 +(86−82)2 6 .2يمكننا استنتاج مركز ثقل سحابة النقط لجدول البيانات الكمية. √ = 𝛿2 ̅̅̅ 𝑋 129 [=] GX=[ 1 ] ̅̅̅ 82 𝑋2 91 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ويكون الجدول على النحو اآلتي: DBP 78 80 82 82 84 86 82 2.828 SBP 126 128 128 130 130 132 129 2.098 عادل أمين جود أفنان رشيد وسيم GX δj .3حساب جدول البيانات الكمية الممركز والمعياري: .1.3جدول البيانات الكمية الممركز: 𝑿̃𝒊𝒋 =𝑿𝒊𝒋 - 𝒋̅̅̅ 𝑿 SBP DBP عادل -3 -4 أمين -1 -2 جود -1 0 أفنان 1 0 رشيد 1 2 وسيم 3 4 ويمكن كذلك حساب المصفوفة الممركزة من الصيغة المصفوفية التالية: XC= X-1nGXT .2.3جدول البيانات الممركز والمعياري: 1 1 T 1 =1n ], GX = [129 82 1 1 ] [1 126 78 1 −3 −4 128 80 −1 −2 1 XC= 128 82 - 1 *[129 82]= −1 0 130 82 1 1 0 130 84 1 1 2 ][132 86] [1 [3 ]4 𝑗̅𝑥 𝑥𝑖𝑗 − =𝑧 𝑗𝜎 92 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. SBP DBP -1.428 -1.412 -0.476 -0.706 -0.476 0 0.476 0 0.476 0.706 1.428 1.412 ويمكننا حساب المصفوفة الممركز المعيارية من الصيغة اآلتية: عادل أمين جود أفنان رشيد وسيم XCR=XC* 𝐷1 𝑆 0 ] 0.353 0.476 [=] 0 0 1 1 0 2.828 𝐷1 = [2.098 𝑆 −3 −4 −1.428 −1.412 −1 −2 −0.476 −0.706 −0.476 0 0 XCR= −1 0 *[0.476 =] 0 0.353 1 0 0.476 0 1 2 0.476 0.706 [3 ] [ 4 1.428 ] 1.412 .4تحديد طريقة المركبات الرئيسية المستخدمة في التحليل :المتغيرين متجانسين ولهما نفس وحدة القياس، لذلك يمكننا استخدام طريقة المركبات الرئيسية البسيطة. .5حساب مصفوفة التباين والتباين المشترك: نحسب تباين المتغير من المعادلة الموالية: 𝑁 1 2 ) 𝑗̅𝑥 V(𝑋, 𝑋) = ∑ (𝑥𝑖𝑗 − 𝑁 𝑘=1 وتباين المتغيرين X1و X2من المعادلة التالية: 𝑁 1 ) 𝑗̅𝑌 𝑐𝑜𝑣(𝑋, 𝑌) = ∑(𝑋𝑖𝑗 − 𝑋̅𝑗 ) ∗ (𝑌𝑖𝑗 − 𝑁 𝑘=1 2 1 V11= ((126 − 129) + (128 − 129) +(128 − 129)2 +(130 − 129)2 + 2 6 (130 − 129)2 +(132 − 129)2 )= 3.667 1 V22= ((78 − 82)2 + (80 − 82)2 +(82 − 82)2 +(82 − 82)2 + (84 − 82)2 +(86 − 6 2 1 82) )= 6.667 𝑐𝑜𝑣(𝑆𝐵𝑃, 𝐷𝐵𝑃) = 𝑐𝑜𝑣(𝐷𝐵𝑃, 𝑆𝐵𝑃) = (12+2+0+0+2+12)=4.667 6 3.667 4.667 [ =V ] 4.667 6.667 93 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ويمكننا كذلك حساب مصفوفة التباين والتباين المشترك من الصيغة المصفوفية التالية: 1 V= XcTXc 𝑛 −3 −4 −1 −2 1 −3 −1 −1 1 1 3 −1 0 3.667 4.667 [ =V *] [= ] 6 −4 −2 0 0 2 4 1 0 4.667 6.667 1 2 [3 ]4 .6حساب القيم والمتجهات الذاتية لمصفوفة التباين والتباين المشترك: .1.6حساب القيم الذاتية باستخدام المحدد: det(V- 𝜆𝐼) =0 3.667 4.667 1 0 𝜆 3.667 − 4.667 [( det [ 𝜆]- [(])=0 - det ])=0 4.667 6.667 0 1 4.667 𝜆 6.667 − ((3.667 − 𝜆)( 6.667 − 𝜆))-((4.667)(4.667))=24.447-3.667 𝜆-6.667 𝜆+ 𝜆221.78=0 𝜆2-10.334 𝜆+2.667=0 Δ=b2 -4ac= (-10.334)2-4*1*2.667=96.123 أن قيمة المميز أكبر من الصفر ،فهي تقبل حالن. وبما ّ ومنه: −(−10.334)−√96.123 = 0.265 2∗1 𝛥√ −𝑏 ± 𝑎2 −(−10.334)+√96.123 = 𝜆 = 10.068, 2∗1 =𝜆 =𝜆 𝜆1=10.068, 𝜆2=0.265 ونكتب مصفوفة القيم الذاتية Dعلى النحو التالي: 10.068 0 ] 0 0.265 [ =D F2 F1 القيمة الذاتية 0,265 10.068 2,563 97,437 النسبة)(% الصاعدة100,000 97,437 % أن نسبة التباين المفسر بواسطة المركبتين الرئيسيتين األولى والثانية يساوي .100 يظهر من الجدول أعاله ّ .2.6حساب المتجهات الذاتية المرافقة: (V- 𝜆𝐼)U =0 𝜆=10.068 94 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 3.667 4.667 1 0 3.667 − 10.068 4.667 [( [ 𝜆]- [ ])U=0 - ] 𝑈=0 4.667 6.667 0 1 4.667 6.667 − 10.068 −6.402 4.667 𝑈1 0 [ ] [=] [ ∗ ] 4.667 −3.402 𝑈2 0 إذاً لدينا نظام متجانس من المعادالت الخطية ،نقوم بحلها بواسطة حذف كاوس: −6.402 4.667 0 *-0.156 1 −0.729 0 *-4.667 [ | |] [ | |] 4.667 −3.402 0 4.667 −3.402 0 + 1 −0.729 0 [ | |] 0 0 0 U1-0.729U2=0--- U1=0.729U2 U2=U2 0.729𝑈2 0.729 0.729 [=U |] <---U =U2 =|…….. U2=1- U 𝑈2 = 𝑈2 1 1 شعاع الوحدة المرافق للقيمة الذاتية األولى: ‖U2 ‖= √(0.729)2 ∗ (1)2 = 1.237 0.729 0.589 U=|1.237 |1 |=|0.808 1.237 𝜆=0.265 3.402 4.667 𝑈1 0 [ ] [=] [ ∗ ] 4.667 6.402 𝑈2 0 إذاً لدينا نظام متجانس من المعادالت الخطية ،نقوم بحلها بواسطة حذف كاوس: 3.402 4.667 0 *0.294 1 1.372 0 *-4.667 [ | |] [ | |] 4.667 6.402 0 4.667 6.402 0 + 1 1.372 0 [ | |] 0 0 0 U1+1.372U2=0--- U1=-1.372U2 U2=U2 −1.372𝑈2 −1.372 −1.372 [=U |] <--- U=U2 | =|…….. U2=1- U | 𝑈2 = 𝑈2 1 1 شعاع الوحدة المرافق للقيمة الذاتية الثانية: ‖U‖= √(−1.372)2 ∗ (1)2 = 1.697 −1.372 −0.808 U=| 1.697 | 1 |=| 0.589 1.697 ونكتب مصفوفة األشعة الذاتية: 0.589 −0.808 ] 0.808 0.589 [ =U 95 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .7حساب احداثيات األفراد على المحاور: Fα= XCUα −3 −4 −5 −068 −1 −2 −2.205 0.370 −1 0 0.589 −0.808 −0.589 −0.808 =Fα [* =] 1 0 0.808 0.589 0.589 0.808 1 2 2.205 −0.370 [3 [ 5 ]4 ] 0.068 F2 -0,068 0,370 -0,808 0,808 -0,370 0,068 F1 -5,000 -2,205 -0,589 0,589 2,205 5,000 عادل أمين جود أفنان رشيد وسيم .8نسبة مساهمة األفراد في تشكيل المحاور: = 0.41376 وبنفس الطريقة حتى نحسب جميع القيم. F2 0,291 8,617 41,092 41,092 8,617 0,291 F1 41,376 8,050 0,574 0,574 8,050 41,376 (−5)2 6∗10.068 = )𝐹 2 (1 C11= 1 6𝜆1 عادل أمين جود أفنان رشيد وسيم عادل ووسيم يساهمان بالنسبة نفسها في تشكيل المحور األول ،ويساهمان معا بنسبة .%82.752في حين يساهم كل من جود وأفنان في تشكيل المحور الثاني بنفس النسبة ،كما أنهما معا يساهمان بنسبة %82.184في تشكيل المحور الثاني. .9جودة تمثيل األفراد على المحاور: =1 (−5)2 (−5)2 +(−0.068)2 =Cos2 𝜃11 96 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. F2 0,000 0,027 0,653 0,653 0,027 0,000 د .خالد علي. F1 1,000 0,973 0,347 0,347 0,973 1,000 عادل أمين جود أفنان رشيد وسيم عادل ،أمين ،رشيد ،وسيم ،ممثلين على المحور األول أحسن تمثيل .بينما تمثيل جود وأفنان كان على المحور الثاني بشكل جيد. .10احداثيات المتغيرات على المحاور: = G2 =√𝜆2 U2 1.869 |, 2.564 | Gα=√𝜆𝛼 Uα 0.589 = G1 =| =√𝜆1 U1 | √10.068 0.808 −0.808 −0.416 |=| | | √0.265 0.589 0.303 F1 F2 SBP 1,869 -0,416 DBP 2,564 0,303 .11االرتباط بين المتغيرات األصلية والمركبات الرئيسية: Cor= 𝐷√𝜆 ∗UT∗ 𝐷1 𝑆 3.173 0 10.068 0 ] [ =] 0 0.514 0 √0.265 3.173 0 0.589 0.808 0.476 0 0.890 0.905 [=Cor [*] [*] =] 0 0.353 −0.198 0.107 0 0.514 −0.808 0.589 √ [ = 𝜆 √𝐷 F2 0.905 0.107 F1 0.890 -0.198 SBP DBP 97 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. )Variables (axes F1 and F2: 100,00 % 1 0,75 0,5 0 -0,25 )F2 (2,56 % 0,25 -0,5 -0,75 -1 1 0,75 0,5 0,25 0 -0,25 -0,5 -0,75 -1 )F1 (97,44 % Active variables 98 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. التطبيق باستخدام XLSTAT تقديم البرنامج: ظهر برنامج XLSTATسنة ،1995ويعد من أفضل البرامج التي تتيح تحليل البيانات عبر العديد من الحلول اإلحصائية ،وهو برنامج متكامل وموثوق وسهل االستخدام ألي شخص .كما ّأنه متوافق مع جميع بدءا من Excel 97حتى .Excel 2016ويأتي مع واجهة بعدة لغات إصدارات ً ،Microsoft Excel (لألسف ال يتوفر على اللغة العربية ،ربما بسبب عدم استخدامه في البيئة العربية) ،مع توفّر نسخة تجريبية بكامل الصالحيات لمدة شهر ،يمكن تنزيلها من موقع البرنامج. www.xlstat.com طبعا البرنامج غير مجاني ،ومكلف نوعا ما بالنسبة للطلبة والباحثين بصفة عامة ،وقد اجتهدت في توفير نسخة مجانية تعمل بكل الصالحيات ،يمكن تنزيلها من قناتي على اليوتوب ،مع شرح كيفية التثبيت. ولقد تطورت بنية البرنامج بشكل كبير على مدى السنوات الخمس الماضية من أجل مراعاة التطورات في Microsoft Excelوقضايا التوافق بين األنظمة األساسية .يعتمد البرنامج على تطبيق Visual Basic للواجهة ،وعلى C ++للحسابات الرياضية واإلحصائية. والملفت لالنتاه في البرنامج ّأنه يحتوي على الغالبية العظمى من االختبارات االحصائية ،كما ّأنه يتفوق على كل البرامج األخرى من الناحية الرسومية واالختيارات المتاحة أثناء تنفيذ بعض االختبارات ،كما سنرى ذلك في هذا التطبيق. مثال :يحتوي الجدول الموالي على بيانات عن عشرة ( )10منتجات ،تشمل سعر المنتج وتقييم جودته من خالل بعض المواصفات ،كالذوق ،حجم المنتج ،مدى توفّره في السوق ،جودة التغليف ،وطريقة عرضه (صورة المنتج) .ويريد مدير التسويق توزيع هذه المنتجات في السوق على حسب السعر والمواصفات. الصورة 9,3 8,2 5,63 7,97 7,38 5,8 3,65 4,15 6,39 2,76 التغليف 8,32 7,18 5,84 7,78 6,73 5,02 2,83 3,64 7,3 2,38 التوفر 9,37 8,68 6,79 6,7 6,14 8,67 7,88 7,63 5,29 4,43 الحجم 6,32 5,9 5,12 5,93 6,38 5,18 3,13 4 3,73 2,81 الذوق 8,18 7,12 5,33 7,07 6,72 5,08 2,83 3,42 4,34 2,38 السعر 4,4 4,32 6,11 4,62 5 7,28 8,32 7,93 4,82 7,59 المنتج 1 المنتج 2 المنتج 3 المنتج 4 المنتج 5 المنتج 6 المنتج 7 المنتج 8 المنتج 9 المنتج 10 ولتنفيذ التحليل في برنامج XLSTATنتبع الخطوات اآلتية: 99 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. في الخطوة األولى وبعد تنصيب XLSTATعلى برنامج Excelيمكنك فتحه مباشرة من األيقونة التي ستظهر على سطح المكتب لديك ،أو من خالل برنامج .Excel في الخطوة الثانية ننقل الجدول إلى برنامج .Excel نضغط على .Analyzing data من القائمة المنسدلة نختار ،PCAفيظهر صندوق الحوار التالي: 100 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .1نحدد أعمدة المتغيرات بالضغط على العالمة – ثم تحديد كل المتغيرات. تحت الخيار ( Data formayشكل البيانات) ،يمكنك تحديد إن كانت البيانات عبارة عند جدول بيانات ،أو مصفوفة االرتباط او مصفوفة التباين المشترك. .2نعود لمربع الحوار الرئيسي ونضغط على عالمة – لتحديد عمود تسميات األفراد ،في مثالنا النتجات. 101 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .4من PCA typeنختار طريقة المركبت الرئيسية المستخدمة (البسيطة ،المرجحة) ،يستخدم البرنامج بشكل آلي مصفوفة اإلرتباط ،يمكنك اختيار استخدام مصفوفة التباين والتباين المشترك أو مصفوفة اإلرتباط، أو سبيرمان. .5نضغط :Options .1.5تصفية العوامل :يمكنك تنشيط أحد الخيارين التاليين لتقليل عدد العوامل التي يتم عرض نتائجها: تفسره العوامل -الحد األدنى :قم بتنشيط هذا الخيار ثم أدخل الحد األدنى للتباين الكلي الذي يجب أن ّ المختارة -.العدد األقصى :قم بتنشيط هذا الخيار لتعيين عدد العوامل التي يجب مراعاتها. 102 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .2.5التوحيد القياسي :إذا كان تنسيق بياناتك هو "المالحظات/المتغيرات" ،يمكنك اختيار كيفية حساب االرتباط (أو التباين) :بالمقام ) (nأو). (n - 1 .3.5التدوير :أدخل عدد العوامل التي سيتم تطبيق التدوير عليها ،ثم اختر طريقة التدوير المراد تطبيقها، وحدد Kaiser Normalizationلتطبيق تسوية كايزر أثناء حساب الدوران. .6األفراد والمتغيرات المضافة (:)Supplementary observations قم بتنشيط هذا الخيار إذا كنت تريد حساب إحداثيات األفراد والمتغيرات المضافة .ال تؤخذ المتغيرات واألفراد المضافة في االعتبار عند حساب مصفوفة االرتباط وللحسابات الالحقة. .7خيارات البيانات ( .)Data options 103 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. البيانات مفقودة ( :)Missing dataعدم قبول البيانات المفقودة :قم بتنشيط هذا الخيار بحيث ال يتابع XLSTATالعمليات الحسابية إذا تم الكشف عن القيم المفقودة. إزالة المشاهدات ( :)Remove the observationsقم بتنشيط هذا الخيار إلزالة المشاهدات التي تحتوي على بيانات مفقودة. الحذف الزوجي ( :)Pairwise deletionقم بتنشيط هذا الخيار إلزالة المالحظات التي تحتوي على بيانات مفقودة فقط عندما تكون المتغيرات المضمنة في العمليات الحسابية بها بيانات مفقودة .على سبيل المثال، عند حساب االرتباط بين متغيرين ،لن يتم تجاهل المالحظة إال إذا كانت البيانات المقابلة ألحد المتغيرين مفقودة. تقدير البيانات المفقودة ( :)Estimate missing dataقم بتنشيط هذا الخيار لتقدير البيانات المفقودة قبل بدء الحساب. المتوسط أو الوسيط ( :)Mean or modeقم بتنشيط هذا الخيار لتقدير البيانات المفقودة باستخدامالمتوسط (المتغيرات الكمية) أو الوسيط (المتغيرات النوعية). أقرب جار :قم بتنشيط هذا الخيار لتقدير البيانات المفقودة لمالحظة من خالل البحث عن أقرب جارللمالحظة. استبدل البيانات المفقودة بـ :0إذا كان تنسيق بياناتك هو "مصفوفة االرتباط" أو "مصفوفة التغاير" ،يمكنك تنشيط هذا الخيار الستبدال البيانات المفقودة بـ .0 .8المخرجات (:)Outputs 104 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. اإلحصاء الوصفي ( :)Descriptive statisticsقم بتنشيط هذا الخيار لعرض اإلحصائات الوصفيةللمتغيرات المحددة. االرتباطات ( :)Correlationsقم بتنشيط هذا الخيار لعرض مصفوفة االرتباط أو التغاير وفقًا لنوعالخيارات المختارة في عالمة التبويب عام (.)General * مستوى داللة االختبار ( :)Test significanceعند اختيار ارتباط في عالمة التبويب "عام" في مربع الحوار ،قم بتنشيط هذا الخيار الختبار مستوى داللة االرتباطات. * اختبار بارتليت للكروية ( :)Bartlett's sphericityقم بتنشيط هذا الخيار إلجراء اختبار بارتليت للكروية (مؤشر للعالقة بين المتغيرات ،إذ يجب أن يكون مستوى الداللة لهذه العالقة أقل من 0.05وذلك حتى أن مصفوفة االرتباط األصلية ليست بمصفوفة الوحدة). أن هذه العالقة دالة إحصائيا ،و ّ نستطيع التأكيد على ّ وحدد مستوى الداللة لالختبار (الذي تقبل أو ترفض عنده فرضية العدم). مقياس كايز-ماير-أولكين ( :)KMOقم بتنشيط هذا الخيار لحساب مقياس Kaiser-Meyer-Olkinلكفاية أخذ العينات. -القيم الذاتية ( :)Eigenvaluesحدد هذا الخيار لعرض الجدول والرسم البياني للقيم الذاتية ( scree ،)plotلتحديد عدد المركبات الرئيسية. -تحميل العوامل ( :)Factor loadingsحدد هذا الخيار لعرض المركبات الرئيسية للمتغيرات على المحاور العاملية. االرتباط بين المتغيرات والمركبات الرئيسية ( :)Variables/Factors correlationsحدد هذا الخيارلعرض جدول االرتباطات بين المركبات الرئيسية والمتغيرات األصلية. 105 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. -إحداثيات المتغيرات على المحاور ( :)Factor scoresحدد هذا الخيار لعرض جدول احداثيات المتغيرات على المحاور. المساهمات ( :)Contributionsقم بتنشيط هذا الخيار لعرض جداول المساهمة للمتغيرات واألفراد فيتشكيل المحاور. جيب التمام التربيعي ( :)Squared cosinesقم بتنشيط هذا الخيار لعرض جودة تمثيل األفرادوالمتغيرات على المحاور. .9الرسوم البيانية (:)Charts تحتوي هذه النافذة على أربعة نوافذ فرعية: -المتغيرات: * مخططات االرتباط ( :)Correlations chartsقم بتنشيط هذا الخيار لعرض دائرة االرتباطات بين المكونات والمتغيرات األولية. * متجهات ( :)Vectorsحدد هذا الخيار لعرض المتغيرات األصلية في شكل متجهات داخل الدائرة. * توجيه التسميات ( :)Orientate labelsيسمح هذا الخيار (متوفر فقط مع Excel 2010واإلصدارات األحدث) بعرض تسميات المتغيرات مع المتجه. * تسميات ملونة ( :)Colored labelsقم بتنشيط هذا الخيار إلظهار التسميات بنفس لون النقاط. * لون حسب المجموعة ( :)Color by groupقم بتنشيط هذا الخيار ،إذا كنت تريد تلوين نقاط متغيرة وفقًا لمستويات متغير نوعي ،ثم حدد سلسلة عمودية من البيانات تحتوي على عدد من الصفوف يساوي عدد المتغيرات النشطة .إذا تم تحديد رؤوس للجدول الرئيسي ،فيجب تضمين رأس في هذا التحديد. 106 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. * تغيير حجم النقاط باستخدام جيب التمام التربيعي ( :)Cos2قم بتنشيط هذا الخيار بحيث تتناسب أحجام النقاط المتغيرة مع المجموع المقابل لجيب التمام المرّبع داخل الفضاء الفرعي المحدد. * عامل التصفية :قم بتنشيط هذا الخيار لتعديل عدد المتغيرات المعروضة. -المشاهدات ( :)observationsقم بتنشيط هذا الخيار لعرض المخططات التي تمثل المشاهدات في المساحة الجديدة. الرسومات ( :)Biplotsقم بتنشيط هذا الخيار لعرض المخططات التي تمثل المالحظات والمتغيرات فينفس الوقت في المساحة الجديدة. مالحظة :لم يتم التطرق لبعض الخيارات التي تحتاج لفهم بعض متقدم في الغحصاء وتحليل البيانات. .10نضغط okفيقوم البرنامج بالعمليات الحسابية ،ثم يظهر لك مربع حوار صغير الختيار عدد المحاور. تم استخالص 6مركبات رئيسية ،المركبتين األولي والثانية تفسران %95.83من التباين ،لذلك سنكتفي بهما ،ونضغط ،Doneللمواصلة. يمكنك تحديد المحاور التي سيتم تدويرها ،في مثالنا نريد تدوير المحورين األول والثاني .نضغط .Done .1الجدول األول :ملخص إحصائي. Std. deviation 2,138 2,134 1,583 Mean 6,123 5,702 7,158 Obs. without missing data Minimum Maximum 10 2,760 9,300 10 2,380 8,320 10 4,430 9,370 Obs. with missing Variable Observations data 10 0 السعر 10 0 الذوق 10 0 الحجم 107 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. 1,335 1,996 1,597 4,850 5,247 6,039 د .خالد علي. 6,380 8,180 8,320 2,810 2,380 4,320 10 10 10 10 10 10 0 0 0 التوفر التغليف الصورة يعرض الجدول أعاله المتغيرات ،وعدد المشاهدات لكل متغير ،والمشاهدات التي تحتوي على قيم مفقودة، وأقل وأكبر قيمة ،إضافة إلى المتوسط واالنحراف المعياري لكل متغير .هذا الجدول مفيد في فحص اولي للبيانات الكتشاف القيم المفقودة والشاذة ،وشكل انتشار البيانات...الخ .نالحظ مثال أن عدد المشاهدات لكل أن القيم الدنيا لمتغيري الذوق والتغليف متساويتين واألمر متغير ،10وال توجد لدينا قيم مفقودة ،كما يظهر ّ نفسه تقريبا بالنسبة للقيم القصوى ،مما يدل على تشابه تفضيالت األفراد بالنسبة للذوق والتغليف....وهكذا يمكننا من خالل هذا الجدول استنتاج العديد من األمور التي تساعدنا فيما بعد في عملية التحليل. .2الجدول الثاني :مصفوفة االرتباطات. الصورة -0,913 0,974 0,896 0,450 0,960 1 التوفر -0,092 0,479 0,484 1 0,263 0,450 التغليف -0,953 0,904 0,807 0,263 1 0,960 الحجم -0,742 0,960 1 0,484 0,807 0,896 الذوق -0,859 1 0,960 0,479 0,904 0,974 السعر 1 -0,859 -0,742 -0,092 -0,953 -0,913 Variables السعر الذوق الحجم التوفر التغليف الصورة أن االرتباط بين المتغيرين دال احصائيا عند مستوى داللة القيم المكتوبة بخط ثخين داخل الجدول تعني ّ أن جميع االرتباطات عالية بين المتغيرات ،ايجابا أو سلبا .في الحقيقة هذا 0.05فأقل .يمكننا مالحظة ّ إن أبرز شروطه أن تككون االرتباطات بين األمر يمثل مشكلة التعدد الخطي في التحليل العاملي ،إذ ّ المتغيرات غير مبالغ فيها (أكبر من .)0.9وفي الغالب يمكننا معالجة هذا األمر بالنظر في االرتباط بين متغيرين ،يزيد ارتباطهما عن 0.9ونحذف احداهما ثم نعيد التحليل. .3الجدول الثالث :اختبار بارتليت للدائرية (الكروية): 83,235 7,261 15 < 0,0001 0,95 )Chi-square (Observed value )Chi-square (Critical value DF )p-value (Two-tailed alpha أختبار Bartilettللدائرية sphericityمؤشر للعالقة بين المتغيرات ،إذ يجب أن يكون مستوى الداللة لهذه أن مصفوفة االرتباط أن هذه العالقة دالة إحصائيا ،و ّ العالقة أقل من 0.05وذلك حتى نستطيع التأكيد على ّ األصلية ليست بمصفوفة الوحدة (بمعنى أن المتغيرات مستقلة عن بعضها البعض) .الفرضية الصفرية الختبار بارتليت للكروية ،هي أن مصفوفة اإلرتباط هي مصفوفة الوحدة ،أو أن المصفوفة لها واحد على أن مستوى داللة االختبار أقل من p-( 0.05 القطر الرئيسي وصف ار فيما عدا ذلك .ويظهر من النتائج ّ 108 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن مصفوفة االرتباط األصلية ليست بمصفوفة الوحدة .ولذلك نرفض ،)value < 0,0001مما يدل على ّ فرضية العدم. الجدول الرابع :مقياس كايزر-ماير-أولكين لمدى كفاية أخذ العينات (:)Kaiser-Meyer-Olkin 0,712 0,745 0,735 0,358 0,816 0,728 0,713 السعر الذوق الحجم التوفر التغليف الصورة KMO اختبار ) (KMOهو مقياس لمدى مالءمة بياناتك لتحليل العوامل ،يقيس االختبار مدى كفاية أخذ العينات قيما بين 0و .1وكقاعدة أساسية تشير قيم KMO لكل متغير في النموذج وللنموذج الكامل .ويأخذ ً KMO بين 0.8و 1إلى أن أخذ العينات مناسب ،وتشير قيم KMOاألقل من 0.6إلى أن أخذ العينات غير كاف وأنه ينبغي اتخاذ إجراء عالجي .وقد وضع بعض المؤلفين هذه القيمة عند ،0.5لذلك استخدم حكمك الخاص للقيم بين 0.5و .0.6وتعني قيم KMOالقريبة من الصفر أن هناك ارتباطات جزئية كبيرة مقارنة بمجموع االرتباطات .بمعنى آخر ،هناك ارتباط واسع االنتشار يمثل مشكلة كبيرة لتحليل العوامل. الجدول الخامس :القيم الذاتية لمصفوفة االرتباط: F6 0,005 0,077 100,000 F5 0,009 0,151 99,923 F4 0,035 0,576 99,772 F3 0,202 3,365 99,196 F2 0,989 16,487 95,831 F1 4,761 79,343 79,343 Eigenvalue )Variability (% Cumulative % كل قيمة ذاتية تعتبر مركبة أساسية .يعرض الجدول أعاله عدد القيم الذاتية لمصفوفة االرتباط ،والتباين المفسر بواسطة كل مركبة أساسية .المركبتين األولى والثانية تفسران معا 95.831في المائة من التباين الكلي .لذلك سنكتفي فقط بالمركبتين األولى والثانية. الشكل رقم :1التمثيل البياني للقيم الذاتية: 109 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. Scree plot 5 100 4,5 4 80 3 60 2,5 2 40 Eigenvalue )Cumulative variability (% 3,5 1,5 1 20 0,5 0 0 F6 F5 F3 F4 F2 F1 axis يمثل قيم الجذور الكامنة لكل عامل على المحور الصادي ورقم المكون على المحور السيني ،ويعتبر الرسم البياني معيا ار آخر يمكن استخدامه باإلضافة إلى معيار اإلبقاء على العوامل التي يزيد جذرها الكامن عن الواحد الصحيح لتحديد العوامل في التحليل العاملي واإلبقاء فقط على تلك التي تكون في المنطقة شديدة أن هناك عامل واحد فقط جذره الكامن أكبر من واحد ،ويوجد عامل ثاني يقع في المرفق، االنحدار .الحظ ّ ويساوي الواحد تقريبا ،يمكننا أخذه إذا اعتمدنا على محكات أخرى بخالف محك كايزر. الجدول السادس :المتجهات الذاتية المرتبطة بالقيم الذاتية لمصفوفة االرتباط. F6 0,056 -0,567 0,173 -0,072 -0,277 0,751 F5 0,504 0,570 -0,419 -0,208 -0,070 0,444 F4 0,572 -0,288 0,174 -0,076 0,743 -0,033 F3 0,301 0,249 0,751 -0,355 -0,356 -0,174 F2 0,392 0,056 0,133 0,881 -0,221 -0,014 F1 -0,414 0,453 0,426 0,208 0,436 0,456 السعر الذوق الحجم التوفر التغليف الصورة لكل قيمة ذاتية متجهها الخاص. الجدول السابع( :تحميل العوامل) احداثيات المتغيرات على المحاور. F6 0,004 -0,039 0,012 -0,005 -0,019 0,051 F5 0,048 0,054 -0,040 -0,020 -0,007 0,042 F4 0,106 -0,054 0,032 -0,014 0,138 -0,006 F3 0,135 0,112 0,338 -0,160 -0,160 -0,078 F2 0,390 0,056 0,132 0,876 -0,220 -0,014 F1 -0,903 0,988 0,930 0,454 0,952 0,995 السعر الذوق الحجم التوفر التغليف الصورة 110 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الجدول الثامن :مصفوفة االرتباطات بين المتغيرات والمركبات الرئيسية. F6 0,004 -0,039 0,012 -0,005 -0,019 0,051 F4 0,106 -0,054 0,032 -0,014 0,138 -0,006 F5 0,048 0,054 -0,040 -0,020 -0,007 0,042 F2 0,390 0,056 0,132 0,876 -0,220 -0,014 F3 0,135 0,112 0,338 -0,160 -0,160 -0,078 F1 -0,903 0,988 0,930 0,454 0,952 0,995 السعر الذوق الحجم التوفر التغليف الصورة أما متغير يظهر ّ أن المتغيرات (الذوق ،الحجم ،التغليف ،الصورة) ترتبط ايجابيا وبقوة مع المحور األولّ ، السعر ،ف يرتبط سلبا وبقوة مع المحور األول ،ويرتبط ايجابيا مع المحور الثاني ،لكن االرتباط ضعيف ( .)0.39فيما يرتبط متغير التوفر بقوة مع المحور الثاني. الشكل الثاني :دائرة االرتباط. )Variables (axes F1 and F2: 95,83 % 1 0,75 0,5 0 -0,25 )F2 (16,49 % 0,25 -0,5 -0,75 -1 1 0,75 0,5 0,25 -0,25 0 -0,5 -0,75 -1 )F1 (79,34 % Active variables المتغيرات التي تقع يمين الرسم على وبالقرب من المحور األول ،ارتباطها قوي وموجب معه ،ومتغير سعر المنتج يقع يسار الرسم تقريبا على محيط الدائرة وبالقرب من المحور األول ،مما يعني ّأنه مرتبط سلبا وبقوة اما متغير التوفر فهو قريب من المحور الثاني مع المحور األول ،ويرتبط بالمحور الثاني ارتباطا ضعيفاّ . وفي يمين المخطط ،مما يعني ارتباطه بالمحور الثاني ايجابيا. الجدول التاسع :نسبة مساهمة المتغيرات في تشكيل المحاور. F6 0,312 32,135 3,002 0,525 F5 25,384 32,526 17,564 4,307 F4 32,723 8,320 3,031 0,582 F3 9,083 6,181 56,454 12,608 F2 15,355 0,314 1,763 77,657 F1 17,144 20,525 18,187 4,321 السعر الذوق الحجم التوفر 111 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. 7,693 56,334 د .خالد علي. 55,234 0,111 0,485 19,734 12,653 3,021 4,891 0,020 19,043 20,780 التغليف الصورة متغيرات (السعر ،الذوق ،التوفر ،التغليف ،الصورة) تساهم بنسب متقاربة في تشكيل المحور األول ،فيما يساهم متغير التوفر بنسبة كبيرة في تشكيل المحور الثاني ،وال يساهم في تشكيل المحور األول .ومتغير السعر فقط من يساهم بنسبة مقاربة في تشكيل المحور الثاني لنسبته في تشكيل المحور األول. الجدول العاشر :جودة تمثيل المتغيرات على المحاور. F6 0,000 0,001 0,000 0,000 0,000 0,003 F4 0,011 0,003 0,001 0,000 0,019 0,000 F5 0,002 0,003 0,002 0,000 0,000 0,002 F3 0,018 0,012 0,114 0,025 0,026 0,006 F2 0,152 0,003 0,017 0,768 0,048 0,000 F1 0,816 0,977 0,866 0,206 0,907 0,989 السعر الذوق الحجم التوفر التغليف الصورة أن المتغير ممثل بشكل جيد على المحور .متغيرات (السعر ،الذوق، القيم بالخط الثخين (قيم كبيرة) ،وتعني ّ الحجم ،التغليف ،الصورة) ممثلة بشكل جيد على المحور األول ،ومتغير التوفر ممثل بشكل جيد على المحور الثاني. الجدول الحادي عشر :إحداثيات األفراد على المحاور. F6 -0,027 0,012 -0,169 -0,029 0,103 0,042 0,016 0,030 0,043 -0,021 F5 0,152 -0,161 -0,103 0,116 -0,027 -0,003 0,057 -0,067 -0,046 0,082 F4 -0,067 -0,359 0,129 0,091 0,002 0,218 -0,057 0,127 0,201 -0,284 F3 -0,324 -0,271 0,290 0,182 0,846 0,211 -0,338 0,052 -0,888 0,239 F2 0,807 0,438 -0,178 -0,709 -0,783 1,315 1,093 0,862 -1,732 -1,112 F1 3,229 2,267 -0,041 1,987 1,515 -0,278 -2,856 -2,063 -0,115 -3,646 المنتج 1 المنتج 2 المنتج 3 المنتج 4 المنتج 5 المنتج 6 المنتج 7 المنتج 8 المنتج 9 المنتج 10 112 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الشكل الثالث :تمثيل األفراد والمتغيرات على المخطط العاملي. )Biplot (axes F1 and F2: 95,83 % 6 التوفر 5 4 3 المنتج 6 المنتج 1 المنتج 8 الحجم المنتج 2 الذوق المنتج 7 1 )F2 (16,49 % السعر 2 0 الصورة المنتج 3 المنتج 4 المنتج 5 التغليف المنتج 10 المنتج 9 -1 -2 -3 4 3 2 1 -1 0 -2 -3 -4 )F1 (79,34 % Active observations Active variables ترتبط المتغيرات (الحجم ،الذوق ،الصورة ،التغليف) مع المحور األول طرديا وبقوة ويقابلها في جهة اليسار سعر المنتج (يرتبط عكسيا وبقوة مع المحور األول) (المحور األول يعرض جودة المنتجات مقارنة بالسعر)، لذلك فالمنتجات التي تقع يمين الرسم (تحمل المواصفات السابقة) ،والممثلة جيدا على المحور األول، منتجات بمواصفات أو جودة عالية (المنتجات ،)5،4،2،1 :وسعرها مرتفع ،وعلى المؤسسة توزيع تلك المنتجات أو بيعها في مناطق األغنياء .بينما المنتجات التي تتموضع على يسار المحور األول (،)10،8،7 فهي منتجات أقل جودة ،وأسعارها منخفضة. أ ّما المحور الثاني فيعرض لنا التوفّر ،فالمنتجات التي تكون أعلى هذا المحور (قريب من مواصفة التوفر) هي منتجات متوفرة في السوق ويمكن الحصول عليها بسهولة ،والمنتجات التي تتموضع أسفله هي منتجات غير متوفرة في السوق وال يمكن الحصول عليها بسهولة .فالمنتج رقم 6هو المنتج األكثر توفًّار في السوق أما المنتج الثالث (الحظ ّأنه قريب من مكان وجود خاصية التوفّر) .والمنتج التاسع غير متوفّر في السوقّ ، فهو غير ممثل جيدا عى المحورين (األول والثاني) ،بمعنى أنه منتج غير مرغوب فيه. الجدول الثاني عشر :نسبة مساهمة األفراد في تشكيل المحاور. 113 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. F6 1,585 0,326 61,726 1,868 23,163 3,779 0,541 1,938 4,084 0,988 د .خالد علي. F5 25,546 28,748 11,636 14,913 0,834 0,010 3,606 4,895 2,384 7,429 F4 1,301 37,257 4,791 2,378 0,001 13,687 0,948 4,664 11,690 23,281 F3 5,212 3,634 4,170 1,649 35,484 2,198 5,652 0,134 39,035 2,832 F2 6,580 1,939 0,322 5,075 6,201 17,471 12,074 7,511 30,328 12,498 F1 21,902 10,800 0,003 8,295 4,819 0,163 17,129 8,937 0,028 27,925 المنتج 1 المنتج 2 المنتج 3 المنتج 4 المنتج 5 المنتج 6 المنتج 7 المنتج 8 المنتج 9 المنتج 10 الجدول الثالث عشر :جودة تمثيل األفراد على المحاور. F6 0,000 0,000 0,165 0,000 0,003 0,001 0,000 0,000 0,000 0,000 F4 0,000 0,023 0,096 0,002 0,000 0,025 0,000 0,003 0,011 0,005 F5 0,002 0,005 0,061 0,003 0,000 0,000 0,000 0,001 0,001 0,000 F3 0,009 0,013 0,486 0,007 0,197 0,023 0,012 0,001 0,205 0,004 F2 0,058 0,034 0,184 0,111 0,169 0,910 0,126 0,148 0,780 0,084 F1 0,930 0,924 0,010 0,876 0,631 0,041 0,861 0,847 0,003 0,906 المنتج 1 المنتج 2 المنتج 3 المنتج 4 المنتج 5 المنتج 6 المنتج 7 المنتج 8 المنتج 9 المنتج 10 المنتجات ( )1 ،2 ،4 ،5 ،7 ،8 ،10ممثلة بشكل جيد على المحور األول ،والمنتجين 9 ،6ممثلين على أن المنتج الثالث غير ممثل على المحورين األول والثاني ،وممثل بشكل أفضل المحور الثاني .فيما يظهر ّ أن هذا المنتج غير مرغوب فيه ،وعلى على المحور الثالث ،وهذا سبب اقترابه من مركز الثقل ،ودليل على ّ المؤسسة سحبه من السوق. 114 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. التطبيق على برنامج SPSS نستخدم نفس المثال السابق .علينا نقل معطيات الجدول إلى البرنامج. سنقوم اآلن بعملية التحليل ،لكن عندما نختار تحليل البيانات باستخدام المركبات الرئيسية ،فإن جزًءا من العملية يتضمن التحقق من إمكانية تحليل بياناتنا باستخدام التحليل بالمركبات الرئيسية .وللقيام بذلك على بيانتنا أن تجتاز أربعة افتراضات مطلوبة حتى تكون النتائج صحيحة .وال يجب عليك أن تتفاجأ إذا تم انتهاك واحد أو أكثر من هذه االفتراضات (أي لم يتم الوفاء بها) .لن يكون ذلك موجودا عند العمل مع بيانات العالم غالبا ما الحقيقي بدالً من أمثلة الكتب التعليمية .ومع ذلك ،حتى عندما تفشل بياناتك في افتراضات معينةً ، يكون هناك حل لمحاولة التغلب على ذلك .أوالً ،دعنا نلقي نظرة على هذه االفتراضات األربعة: االفتراض رقم :1لديك متغيرات متعددة يجب قياسها على المستوى المستمر (على الرغم من استخدام كثيرا) .تتضمن أمثلة المتغيرات المستمرة (أي متغيرات النسبة أو الفاصل الزمني) وقت المتغيرات الترتيبية ً المراجعة (يقاس بالساعات) ،والذكاء (المقاس باستخدام درجة الذكاء) ،وأداء االختبار (يقاس من 0إلى ،) 100والوزن (يقاس بالكيلوغرام) ،وما إلى ذلك .تتضمن أمثلة المتغيرات الترتيبية المستخدمة بشكل شائع اسعا من مقاييس ليكرت (على سبيل المثال ،مقياس مكون من 7نقاط من أوافق بشدة إلى في PCAنطاقًا و ً ال أوافق بشدة). االفتراض رقم :2ي جب أن تكون هناك عالقة خطية بين جميع المتغيرات .سبب هذا االفتراض هو أن التحليل بالمركبات الرئيسية يعتمد على معامالت ارتباط بيرسون .وعلى هذا النحو يجب أن تكون هناك عالقة خطية بين المتغيرات. االفتراض رقم :3يجب أن يكون لديك كفاية ألخذ العينات ،وهو ما يعني ببساطة أنه لكي تحصل على نتائج موثوقة من التحليل بالمركبات الرئيسية ،يلزم وجود أحجام عينات كبيرة بما يكفي .بشكل عام تمت التوصية بحد أدنى من 150مشاهدة ،أو من 5إلى 10مشاهدات لكل متغير كحد أدنى لحجم العينة .وهناك عدة 115 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. طرق الكتشاف كفاية أخذ العينات :مقياس كايزر-ماير-أولكين ) (KMOلكفاية أخذ العينات لمجموعة البيانات اإلجمالية؛ ومقياس KMOلكل متغير فردي. االفتراض رقم :4يجب أن تكون بياناتك مناسبة للتحليل العاملي .إذ يجب أن يكون لديك ارتباطات كافية بين المتغيرات من أجل تقليل المتغيرات إلى عدد أقل من المكونات .الطريقة التي يستخدمتها SPSS الكتشاف ذلك هي اختبار Bartlettللكروية. االفتراض رقم :5يجب أالّ يكون هناك قيم متطرفة كبيرة .القيم المتطرفة مهمة ألنها يمكن أن يكون لها تأثير غير متناسب على نتائجك. مالحظة :يمكنك التحقق من االفتراضات 2و 3و 4و 5باستخدام SPSSفقط .تذكر أنه إذا لم تقم بإجراء االختبارات اإلحصائية على هذه االفتراضات بشكل صحيح ،فقد ال تكون النتائج التي تحصل عليها صالحة. من القائمة الرئيسية Analyzeاختر Dimension Reductionثم. Factor Analyze> Dimension Reduction>Factor... 116 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. -1ننقل المتغيرات إلى مربع ( .Variableالمتغيرات الكمية فقط). -2نضغط :Descriptives ( Univariate descriptives .1الوصف وحيد المتغير) :حدد هذا الخيار لعرض االحصاءات الوصفية للمتغيرات ،مثل المتوسط الحسابي واالنحراف المعياري وعدد المشاهدات الصالحة لكل متغير. ( Initial solution .2الحل المبدئي) :حدد هذا الخيار لعرض االشتراكيات (الشيوع) ()Communalities المفسر( Percentage والجذور الكامنة (القيم الذاتية) ( ،)Eigenvaluesالنسب المئوية والمتراكمة للتباين ّ .)and Cumulative percentage of Variance الشيوع ( :)Communalitiesمجموع إسهامات المتغير في العوامل المختلفة التي أمكن استخالصها في المصفوفة العاملية – وحيث أن المتغير الواحد يسهم بمقادير مختلفة في كل عامل ،سواءا كانت إسهاماته 117 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. جوهرية أو كانت غير ذات داللة ،فإن مجموع مربعات هذه اإلسهامات أو التشبعات على عوامل المصفوفة هي قيمة شيوع المتغير أو االشتراكيات. ثم من Correlation Matrixنختار: Coefficients .3لحساب معامالت مصفوفة االرتباط. .4من خالل التأشير على مستويات األهمية (الداللة) ( )significance levelsنحصل على مصفوفة العالقات من أجل االطالع عليها والتأكد من شرط عدم وجود ارتباط عالي بين المتغيرات ،أي أعلى من 90 المتغيرت التي بينها هذه النسبة العالية من االرتباط. ا %بين أي متغيرين ،حيث يتم استبعاد تلك .5من خالل التأشير على المحدد ( )Determinantنحصل على محدد المصفوفة ،وذلك لقياس مشكلة االرتباط الذاتي ،إذ يجب أالّ تقل قيمة المحدد عن ،0.0001فإذا كانت قيمته أقل من ذلك ننظر إلى المتغيرت المرتبطة عاليا ،أكثر من 0.80ونحذف أحدهما. ا .6ونؤشر على KMO AND Bartletts test of spherictyلنحصل من خالل قياس KMOعلى مدى كفاية عدد أفراد العينة ويجب أن تكون قيمته أكبر من 0.5حتى تكون العينة كافية ،وهذا شرط أساسي يجب تحقيقه ،أما فيما يتعلق بأختبار Bartilettللدائرية sphericityفهو مؤشر للعالقة بين المتغيرات ،إذ يجب أن هذه العالقة دالة أن يكون مستوى الداللة لهذه العالقة أقل من 0.05وذلك حتى نستطيع التأكيد على ّ أن مصفوفة االرتباط األصلية ليست بمصفوفة الوحدة. إحصائيا ،و ّ الفرضية الصفرية الختبار بارتليت للكروية ،هي أن مصفوفة اإلرتباط هي مصفوفة الوحدة ،أو أن المصفوفة لها واحد على القطر الرئيسي وصف ار فيما عدا ذلك. مالحظة :ما هو اختبار) Kaiser-Meyer-Olkin (KMO؟ اختبار ) (KMOهو مقياس لمدى مالءمة بياناتك لتحليل العوامل ،يقيس االختبار مدى كفاية أخذ العينات لكل متغير في النموذج وللنموذج الكامل. قيما بين 0و .1وكقاعدة أساسية تشير قيم KMOبين 0.8و 1إلى أن أخذ العينات مناسب، ويأخذ ً KMO وتشير قيم KMOاألقل من 0.6إلى أن أخذ العينات غير كاف وأنه ينبغي اتخاذ إجراء عالجي .وقد وضع بعض المؤلفين هذه القيمة عند ،0.5لذا استخدم حكمك الخاص للقيم بين 0.5و .0.6وتعني قيم KMO القريبة من الصفر أن هناك ارتباطات جزئية كبيرة مقارنة بمجموع االرتباطات .بمعنى آخر ،هناك ارتباط واسع االنتشار يمثل مشكلة كبيرة لتحليل العوامل. .7بالتأشير على ( Inverseالمعكوسات)، .8بالتأشير على إعادة تقدير المصفوفة (،)Reproduced .9نؤشر على ( Anti-Imageمصفوفة االرتباطات الجزئية الصورية) (العكسية) الختبار كفاية أخذ العينات لكل متغير ،ويتم الحصول على مصفوفة االرتباطات الجزئية ،التي يمكننا من خاللها معرفة مدى كفاية أخذ 118 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. العينات لكل متغير على حدة .ويجب أن تكون قيم معامالت االرتباط في قطر المصفوفة أكبر من أو تساوي ،0.5وكل متغير معامل ارتباطه أقل من 0.5يحذف ويعاد التحليل. -3نضغط : Extraction .1.3نختار طريقة االستخراج ،وتوجد سبعة طرق ،ما يهمنا منها طريقة المكونات األساسية Principle .Components Analysis :Analyze .2.3تعني المصفوفة المراد تحليلها وتتضمن: -من خالل التأشير على الحقل Correlation Matrixنحصل على مصفوفة االرتباط. من خالل التأشير على الحقل Covariance Matrixنحصل على مصفوفة التباين المشترك. .3.3تحت الخيار ،Displayمن خالل التأشير على Unrotated factor solutionنحصل على حل العوامل قبل التدوير ،وذلك من أجل مقارنة نتائجه مع نتائج rotated factor solutionفإذا كانت متفقة مع بعضها من حيث عدد العوامل تكون النتائج دقيقة ،أما إذا اختلفت النتيجتان فإننا نقوم بفحص االشتاركيات لنقرر عدد العوامل ،وعادة يستخدم هذا الخيار عندما يكون عدد المتغيرات كبيرا ،أي أكثر من 200متغير. ومن خالل التأشير على Scree plotوالذي يعني الرسم البياني )سكري( (يطلق عليه كذلك اسم منحنى الصخرة ) ويستخدم لتحديد العدد األقصى من العوامل التي يمكن استخالصها قبل أن يبدأ التباين الخاص في السيطرة على التباين العام .يقوم البرنامج بالتمثيل البياني لرقم الجذر المميز على المحور األفقى وقيمة الجذر على المحور الرأسي ،فيكون عدد العوامل مساويا لرقم الجذر المميز المناظر إلى اإلنحناء المرفقي 119 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. للمنحنى ( ،)Corresponding to an elbow in curveفالنقطة التي ينتهي عندها هذا اإلنحناء تتوقف عندها الجذور المميزة الكبيرة وتبدأ الجذور المميزة الصغيرة ،والتي يتم استبعادها من التحليل. :Extract .4.3بالتأشير على Eigenvaluesنحصل على قيمة الجذر الكامن ،والبرنامج يحدد قيمة الجذر الكامن لتكون أكبر من ( 1حسب محك كايزر) .ومن خالل التأشير على الحقل Number of Factorsيتم استخراج عدد من العوامل بعد أن يتم تحديدها من قبل الباحث .استخدام هذا الخيار يلغي الخيار األول ،والمتعلق بقيمة الجذر الكامن. .5.3يوجد في أسفل صندوق الحوار خيا ار لتحديد الحد األعلى لعدد تك اررات الخوارزمية الضرورية للوصول للحل المناسب ( )Maximum iterations for Convergence 25وبإمكان الباحث أن يغير هذا الرقم المحدد مسبقا من قبل البرنامج بما يتناسب مع أهداف وطبيعة البحث. .6.3نضغط .Continue -4نضغط :Rotation .1.4نختار طريقة التدوير ( ،)Methodليتم تدوير العوامل .وتوجد خمسة طرق لعملية التدوير: None -وتعني عدم إجراء عملية التدوير. -طريقة التدوير المتعامدة التي تؤدي إلى زيادة تباين مربع تشبعات العوامل على كافة المتغيرات ( ،)Varimaxوهي من أفضل طرق التدوير المتعامد ،الفتراضها وجود استقاللية بين العوامل. -قائمة على طريقة التدوير المائل ( ،)Direct Obliminوتؤدي إلى قيم أعلى للجذور الكامنة. طريقة ( :)Quartimaxوهي طريقة أخرى للتدوير المتعامد ،تؤدي إلى تخفيض عدد العوامل التيتحتاجها لتفسير كل متغير. طريقة ) :(Equamaxتقع في الوسط بين طريقتي Varimaxو .Quartimax120 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. : Promaxطريقة أخرى للتدوير المائل وهي أسرع في العمليات الحسابية من طريقة ،Direct Obliminلذلك فهي تستخدم في بعض األحيان في العينات الكبيرة العدد. .2.4كما يتضمن صندوق الحوار خياران للعرض (:)Display -العوامل بعد التدوير Rotated Solutionوهذا الحقل محدد سلفا من قبل البرنامج. -الرسوم البيانية للتشبعات ) Loading Plot(sباإلمكان تحديد هذا الحقل واضافته للحقل األول. :Maximum Iterations for Convergence .3.4عدد مرات تدوير العوامل ،نتركها كما هي 25 دورة ،في غالب األحيان ربما ال يصل البرنامج لهذا العدد من الدورات. .4.4نضغط .Continue -5نضغط :Scores .1.5نختار Save as variablesليتم حفظ العوامل المستخرجة كمتغيرات .وعند تحديد هذا الحقل فإنه سيتم تفعيل طرق حساب الدرجات ،التي يمكن استخدامها في إجراء عمليات إحصائية إضافية وفقا الحتياجات البحث ،ويمكن اختيار طريقة الحفظ ،Regression :أو طريقة ،Bartlettأو بطريقة .Anderson-Rubin مالحظة :في مثالنا سنحدد طريقة االنحدار ،الستخدام العوامل المستخرجة في تحليل االنحدار فيما بعد. .2.5نؤ ّشر على Display factor score coefficient matrixلعرض مصفوفة معامالت الدرجات. .3.5نضغط .Continue -6نضغط :Options 121 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. .1.6نختار طريقة معالجة البيانات المفقودة. .2.6نختار طريقة عرض المعامالت ،بطريقة اإلخراج حسب الحجم ( ،)Sorted by sizeيتم ترتيب التشبعات على العوامل وفقا لمقدارها .كما يمكننا إخفاء عرض القيم المطلقة للتشبعات التي تقل عن قيمة معينة ( ،)Suppress absolute values less thanوبالتأشير على المربع الصغير أمام هذا الخيار يتم تفعيل القيم التي يرغب الباحث بوضعها إلخفاء المعلومات المتعلقة بالقيم األقل (التشبعات) ،علما بأن هذه القيمة محددة سلفا في البرنامج .0.10 مالحظة :في مثالنا جعلناه ،0.30كل متغير تشبعه على عامل معين أقل من 0.30يتم إخفائه. .3.6نضغط .Continue -7نضغط أخي ار على okفتظهر النتائج التالية: يخبرنا هذا التحذير أنه قد تم فقط استخراج مركبة أساسية واحدة ،لذلك لن يتم عرض التمثيل البياني للمحاور العاملية .وقد حصلنا على هذه النتيجة ألننا استخدمنا محك كايزر في تحديد عدد العوامل المستخرجة ،مما يعني وجود عامل واحد فقط جذره الكامن أكبر من الواحد الصحيح .كما سنرى فيما بعد عند تحليل جدول العوامل الكامنة. الجدول األول :جدول اإلحصاءات الوصفية. 122 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. يعرض هذا الجدول المتوسط الحسابي واالنحراف المعياري للمتغيرات التي أدخلناها للتحليل وعدد المفردات (( )Nاألفراد مقابل المتغيرات). الجدول الثاني :مصفوفة االرتباطات. يتضح من الجدول بأننا حصلنا على مصفوفة معامالت االرتباطات البينية ،التي تعد الحل األولي للعالقات بين المتغيرات الداخلة في التحليل العاملي .ونالحظ أن قيمة المحدد تساوي 0.000001374 ( )Determinant = 1,374E-6أقل بكثير من 0.0001وبالتالي يتوجب علينا أن ننظر في المتغيرات التي قيمة معامل االرتباط بينها أعلى من 0.80ونحذف إحداها ،ثم نعيد التحليل .يمكننا من مصفوفة أن معامل االرتباط بين الحجم والذوق مرتفع جدا ( ،)0.96ودال احصائيا ،وكذلك الحال االرتباط مالحظة ّ بين التغليف والسعر وصورة المنتج والسعر (ارتباط عكسي ذو داللة احصائية) .وبين صورة المنتج والذوق...الخ. الجدول الثالث :قياس جودة االختبار ،ومدى صالحية البيانات للتحليل العاملي. 123 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. يتضح من الجدول بأننا قد حصلنا على قيمة قياس KMOوهي أكبر من 0.5وهذا يدل على زيادة االعتمادية للعوامل التي نحصل عليها من التحليل العاملي ،وكذلك نحكم بكفاية حجم العينة ،كما نجد أن قيمة مستوى الداللة الختبار بارتلت للدائرية تساوي 0.0001وهي أقل من 0.05وهذا يؤكد على وجود عالقة دالة إحصائيا بين المتغيرات ومصفوفة االرتباط ليست بمصفوفة الوحدة ،وبذلك يمكن إجراء التحليل العاملي. الجدول الرابع :مصفوفة االرتباطات الجزئية. تبين لنا هذه المصفوفة مدى كفاية كل متغير للتحليل العاملي ،لذلك يجب أن تكون االرتباطات الجزئية لكل ّ متغير في القطر أكبر من ،0.5وكل متغير أقل من هذه القيمة علينا حذفه .في حالتنا علينا حذف متغير التوفر ( ،)0.358واعادة التحليل. الجدول الرابع :االشتراكيات (الشيوع): 124 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. القاعدة ّأنه كلما كانت قيمة االستخالص ( )Extractionأكبر من 75بالمائة ،فذلك دليل على ّأنها تمثل البيانات تمثيال جيدا .مثال الذوق لديه أكبر تشبع (.)0.977 المفسر ،وهو من أهم الجداول لدينا. الجدول الخامس :جدول التباين ّ يفسر هذا الجدول العوامل ،و ّأيها أكثر تأثيرا ،من خالل قيمة ( Eigenvaluesالجذر الكامن) ،فكلما كانت ّ المكون المتحصل عليه يساهم في تفسير التباين بين المتغيرات، قيمة هذا األخير أكبر من واحد ( )1كان ّ أن Eigenvaluesللعامل األول يساوي 4.761وهو أكبر من واحد ،ونسبة تفسيره للتباين 79.34 ونالحظ ّ بالمائة .وعلى ذلك ،واستنادا لمحك كايزر فقد تم استخراج العامل األول فقط ،واستبعدت بقية العوامل. يمثل العمود األول من الجدول عدد العوامل المستخلصة 6 ،عوامل ،ويحتوي العمود الثاني على قيمة الجذر الكامن لكل عامل ،فيما يعرض العمود الثالث نسبة تفسير التباين لكل عامل (النسبة 79.34تحسب بقسمة 4.761على .)6ويعرض العمود الرابع على التكرار النسبي التجميعي. أن هناك عامل مالحظة مهمة :تم عرض العوامل قبل التدوير فقط ،ولم يعرض العوامل بعد التدوير ،بسب ّ واحد فقط قد تم استخالصه. مالحظة :عدد الجذور الكامنة يساوي عدد المتغيرات. 125 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. إن الرسم البياني يمثل قيم الجذور الكامنة لكل عامل على المحور الصادي ورقم المكون على المحور السيني ،ويعتبر الرسم البياني معيا ار آخر يمكن استخدامه باإلضافة إلى معيار اإلبقاء على العوامل التي يزيد جذرها الكامن عن الواحد الصحيح لتحديد العوامل في التحليل العاملي واإلبقاء فقط على تلك التي تكون في أن هناك عامل واحد فقط جذره الكامن أكبر من واحد ،ويوجد عامل ثاني يقع المنطقة شديدة االنحدار .الحظ ّ في المرفق ،ويساوي الواحد تقريبا ،يمكننا أخذه إذا اعتمدنا على محكات أخرى بخالف محك كايزر. ولو عدنا إلى ملف الداتا لدينا سنجد أن البرنامج قد استخرج العامل األول وأنشأ له متغير جديد (.)FAC1_1, 126 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الجدول السادس :مصفوفة العوامل قبل التدوير. أن كل يمكننا من خالل هذا الجدول إلقاء نظرة أولية على تمثيل المتغيرات في العامل المستخرج ،القاعدة ّ تشبعه على العامل من 1يكون أكبر تأثي ار في ذلك العامل .مثال متغير صورة المنتج قيمة متغير تقترب قيمة ّ تشبعها على العامل تشبعه على العامل ،0.995وكذلك متغيرات :الذوق والتغليف والحجم والسعر ،فكلها قيم ّ ّ األول مرتفعة ،ماعدة متغير التوفر فقيمة تشبعه ضعيفة نوعا ما .كما تشير القيم السالبة إلى ارتباط سالب للمتغير مع العامل. الجدول السابع :مصفوفة االرتباط المقدرة. 127 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الجدول الثامن :مصفوفة العوامل بعد التدوير. بسب استخالص عامل واحد فقط لن تتم عملية التدوير. الجدول التاسع: 128 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. الجدول العاشر: وكما أسلفنا ،وبالنظر إلى معيار التمثيل البياني للقيم الذاتية ،يمكننا أخذ عامل ثاني .نعيد التحليل بنفس الطريقة ،من مربع الحوار Extractionفقط سنحدد عدد العوامل المستخلصة ونجعلها .2 129 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. ونعود لمربع الحوار الرئيسي ونضغط موافق .لن يتغير أي شيء في أغلب الجداول فقط سيكون التغيير في بعضها ،كما يلي: المفسر. جدول التباين ّ يفسران 95.83من التباين .وقد معا ّ نالحظ ّأنه عند تحديد عدد العوامل المستخلصة بـ ـ 2للعامل ،العاملين ً أن عملية التدوير قد تمت. عرض لنا البرنامج العوامل بعد التدوير ،أي ّ ولو عدنا إلى ملف الداتا لدينا سنجد أن البرنامج قد استخرج العاملين األول والثاني وأنشأ لهما متغيرين جديدين (.)FAC1_1, FAC2_1 130 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. مصفوفة العوامل قبل التدوير: تشبعه على العامل من 1يكون أكبر تأثي ار في ذلك أن كل متغير تقترب قيمة ّ كما عرفنا سابقا ،القاعدة ّ تشبعه على العامل األول 0.995وغير متشبع على العامل الثاني، العامل ،فمثال متغير صورة المنتج قيمة ّ تشبعها على العامل األول أفضل فيكون في العامل األول ،وكذلك العوامل :الذوق والتغليف والحجم ،كلها قيم ّ أن متغير السعر متشبع على المحور األول ،لكن بقيمة سالبة ،القيمة السالبة هنا من الثاني .بينما نالحظ ّ متشبع على العامل الثاني أفضل فإنه أما متغير التوفّر ّ ّ تعني ّ أن هذا المتغير له ارتباط عكسي مع العاملّ . من األول. 131 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. مصفوفة العوامل المدورة: يمكننا من خالل هذه المصفوفة مالحظة أنه فيما عدى متغير التوفر الذي يتشبع على العامل الثاني أفضل من العامل األول ،بقية المتغيرات تتشبع على العامل األول. المحاور العاملية: 132 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. لم يتم انشاء هذا الرسم البياني عند اختيار عامل واحد (مركبة أساسية واحدة) ،لكن عند اختيار عاملين تم انشاءه .ويمكننا من خالله اتخاذ القرار بشأن توزيع منتجاتنا في السوق. أن جميع المتغيرات ،ما عدى متغير التوفر ،قريبة من الخط (المحور األول) الذي يمثل يمكننا مالحظة ّ العامل األول (المركبة الرئيسية األولى) ،ومتغير التوفر قريب من الخط (المحور الثاني) الذي يمثل العامل الثاني .لكن ماذا تعني لنا هذه النتائج؟ ماذا يعرض لنا المحور األول وماذا يعرض المحور الثاني؟ الحظ تموضع مواصفات المنتجات األربعة (الحجم ،الذوق ،الصورة ،التغليف) حول المحور األول في جهة أن اليمين ،ويقابله في جهة اليسار السعر ،فالمحور األول يعرض جودة المنتجات مقارنة بالسعر ،هذا يعني ّ المنتجات التي تحمل المواصفات األربعة السابقة ،منتجات بمواصفات أو جودة عالية ،وسعرها مرتفع ،وعلى المؤسسة توزيع تلك المنتجات أو بيعها في مناطق األغنياء .بينما المنتجات التي تتموضع في يسار المحور األول ،فهي منتجات متوسطة أو قليلة الجودة ،وسعرها منخفض. أما المحور الثاني فيعرض لنا التوفّر ،فالمنتجات التي تكون أعلى هذا المحور (قريب من مواصفة التوفر) ّ هي منتجات متوفرة في السوق ويمكن الحصول عليها بسهولة ،والمنتجات التي تتموضع أسفله هي منتجات غير متوفرة في السوق وال يمكن الحصول عليها بسهولة. 133 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. مالحظة :برنامج SPSSينشأ فقط رسما للمتغيرات في فضاء األفراد ولتحديد األفراد في فضاء المتغيرات، في مثالنا المنتجات (تموضع المنتجات وكيفية توزيعها في السوق على حسب مواصفات كل منتج وسعره)، نقوم برسم المنحنى البياني الخاص بالمنتجات ،من خالل عمل اآلتي: Graphs>Legacy Dialogs>Scatter/Dot نختار Simple Scatterثم .Define 134 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. -1ننقل العامل Fac2_2إلى محور العينات (.)Y -2ننقل العامل Fac2_2إلى محور السينات (.)X -3ننقل متغير المنتجات إلى خانة ( Label Cases byتسمية الحاالت بواسطة). -4نضغط Optionsونختار Display chart with case labelsثم .Continue 135 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. -5نضغط .ok 136 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن المنتجات :األول والثاني والرابع والخامس تتموضع لو قمنا بمطابقة الرسمين البيانيين ،يمكننا مالحظة ّ على يمين المحور األول ،مما يدل على أنها منتجات بجودة عالية ،وسعرها مرتفع .بينما المنتجات 10،8،7 تتموضع يسار المحور األول ،مما يعني أنها منتجات أقل جودة ،وأسعارها منخفضة .والمنتج رقم 6هو المنتج األكثر توفًّار في السوق (الحظ ّأنه قريب من مكان وجود خاصية التوفّر) .والمنتج التاسع غير متوفّر أما المنتج الثالث فهو غير ممثل تمثيال جيد في التحليل ،بمعنى أنه منتج غير مرغوب فيه. في السوقّ ، مالحظة :تساعدنا طريقة المكونات األساسية في التخلص من مشكلة التعددية الخطية بين المتغيرات ،أثناء استخدام تحليل االنحدار المتعدد ،فلو اختبرنا تحليل االنحدار بين السعر ومواصفات المنتجات العشرة (الذوق ،الحجم ،التوفر ،التغليف ،الصورة). Analyze>Regression>Linear... النتيجة: 137 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن نالحظ أن هناك ارتباط قوي جدا بين السعر ومواصفات المنتج ،بلغ معامل االرتباط ،0.987كما ّ تفسر 97بالمائة من تغير السعر ارتفاعا أو انخفاضا ،بمعنى ّأنه إذا كانت المواصفات الخمسة للمنتج ّ أن المواصفات جيدة فالسعر يكون مرتفع كثي ار والعكس صحيح .ويظهر من جدول تحليل التباين ّ ANOVA االختبار دال إحصائيا عند مستوى داللة 0.01فأقل ( .)P=0.003لنرى اآلن إن كان هناك تعدد خطي يوضح النتائج. بين المتغيرات المستقلة (مواصفات المنتج) ،والجدول الموالي ّ الحظ قيم معامل تضخم التبيان ،)variance inflation factor( VIFإذا كانت قيم هذا المعامل بين 5 أن االرتباط عالي وقد يكون مشكلة ،واذا تجاوزت قيمته ،10فيمكنك افتراض أن و ،10فذلك يشير إلى ّ معامالت االنحدار يتم تقديرها بشكل سيء بسبب التعدد الخطي .وفي مثالنا هذا أغلبية قيم معامل تضخم التباين عالية ،ما عدى القيمة المقابلة لصفة التوفر ،مما يدل على وجود تعددية خطية بين المتغيرات. نجري اآلن تحليل االنحدار المتعدد بين السعر والعوامل التي استخلصناها بطريقة المكونات األساسية ،بنفس الطريقة ،فقط في مكان المتغيرات المستقلة (المواصفات) نختار العوامل المستخلصة ،وهما العاملين FAC1_1و.FAC2_1 138 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. النتيجة: أن االختبار معنوي عند مستوى داللة .0.0001 أن معاملي االرتباط والتفسير تقريبا نفسهما ،كما ّ الحظ ّ لنرى اآلن قيم معامل تضخم التباين في الجدول الموالي. 139 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. أن قيم معامل تضخم التباين VIFتساوي واحد ،وهي أقل من ،5مما يعني عدم وجود تعددية خطية. الحظ ّ 140 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. تمارين مقترحة: .1يحتوي الجدول الموالي على معطيات تقييم ستة أفراد لثالثة عالمات من الشكالطة (جيد= ،2متوسط=،1 رديئ=.)0 C B A 0 1 2 فريد 0 1 1 علي 1 0 0 حنان 1 0 2 وسيم 1 0 1 أمين 0 1 0 نرجس المطلوب :إجراء التحليل بالمركبات الرئيسية على الجدول مع التمثيل البياني. .2إليك مجموعة من صور شخصيات كرتونية (أبطال خارقين). السؤال المطروح عليك ،أي واحد من هؤالء األبطال الخارقين تشعر ّأنه يشبهك؟ ضع اجاباتك في الجدول الموالي مستعينا باالقتراحات التالية: -لديه قوى خارقة ( 0أو )1 يرتدي لباس متميز (تصنيف بين 1و )3 -يعمل في فريق (التصنيف بين 1و )10 لديه معدات خاصة (تصنيف بين 1و )10 -ذكر /أنثى ( 1أو )0 141 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الثالث :التحليل بالمركبات األساسية. الجنس لديه معدات خاصة د .خالد علي. يعمل في فريق يرتدي لباس متميز لديه قوى خارقة Superman Batman Spiderman Hulk Ironman Catwoman x-or Daredevil Wonderwoman Bioman x-men Tortues Ninja بعد مأل الجدول قم بتحليله بواسطة المركبات األساسية. .3في دراسة للجودة في أربعة مطاعم تتضمن جودة الخدمة والطعام والسعر ،طلب من خبير في التذوق تقييم المطاعم األربعة على مقياس من 3-إلى .3وقد تم جمع البيانات في الجدول الموالي. السعر الطعام الخدمة -1 3 -2 R1 0 1 -1 R2 -1 -1 2 R3 2 -3 1 R4 المطلوب :إجراء التحليل بالمركبات الرئيسية. 142 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- د .خالد علي. الفصل الثالث :التحليل بالمركبات األساسية. 143 تحليل المعطيات جامعة الشهيد حمة لخضر -الواد- الفصل الرابع :التحليل العاملي للتوفيقات د .خالد علي التحليل بالمعامالت للتوفيقات ()CA التحليل العاملي للتوفيقات تعد طريقة التحليل بالمعامالت للتوفيقات ( )Correspondence Analysisضمن أهم الطرائق العاملية الستكشاف البيانات ومن أبرزها في التحليل المتعدد األبعاد ،وأكثرها انتشا ار وشيوعا في األبحاث والدراسات العلمية ،خاصة في مجال العلوم االنسانية ،بسبب ارتباطها الوثيق بتحليل البيانات النوعية .وتشبه هذه الطريقة في تطبيقها طريقة التحليل بالمركبات األساسية التي تستخدم لتحليل البيانات الكمية ،غير أنها تدرس العالقات بين متغيرين قياسهما نوعي فئوي أو ترتيبي. وسيتم في هذا الفصل شرح طريقة عملها بشيء من التفصيل الذي يزيل اللبس والغموض الذي يكتنفها، عبر التطرق إلى خطواتها واحدة تلوى األخرى ،مستعينين في ذلك بأمثلة توضيحية وتمارين محلولة ،إضافة إلى توضيح كيفية استخدام بعض البرامج اإلحصائية المشهورة في إجراء التحليل. أوال ،مفهوم التحليل العاملي للتوفيقات: هو أسل وب تحليل عاملي مخصص لمعالجة جداول البيانات حيث تكون القيم موجبة ومتجانسة ،مثل جداول التقاطع (التي تشكل الجزء األكبر من الجداول التي تتم معالجتها بهذه الطريقة) .وقد تم تقديم هذا النوع من التحليل في الستينيات من قبل الفرنسي بن زكري ( )J .P.Benzecriخالل الفترة .1990-1970ويهدف التحليل العاملي التقابلي إلى تحديد الروابط الممكنة بين المتغيرات النوعية ،ويستخدم المبادئ المشتركة نفسها بين جميع طرق التحليل العاملي لحساب الروابط بين المتغيرات ،والسماح بتقليل أبعاد البيانات إلعادتها مرة أخرى إلى مساحة تحفظ أو تشرح أقصى ما يمكن من المعلومات. ويطبق التحليل العاملي للتوفيقات بشكل أساسي على جداول التوافيق ) .(Contingency tableهذه الجداول تحتوي على أفراد عند تقاطع السطر iوالعمود .jويتعلق األمر بتقسيم مجتمع أو عينة الدراسة وفقًا ألي وغالبا ما تركز حرفين X ،في السطر و Yفي العمود مثال ،ولذلك فهي خصائص نوعية اسمية و/أو ترتيبية. ً الدراسات التقليدية لمثل هذه الجداول على االعتمادية (التوافق) أو االستقاللية بين المتغيرين ،ويتم ذلك عادةً باستخدام اختبار كاي تريبع. وترتك ــز الدارس ــة في التحليل العاملي للتوفيقات ح ـ ــول معطي ـ ـات كيفيـ ــة مسـ ــتمدة مـ ــن د ارس ــة ظـ ــاهرة معينـ ــة ،مشـ ــكلّة مـ ــن عدد pمن مستويات التصنيف التي تمـ ـثّل متغيرين نوعيين ( )Y ,Xوالحك ــم عل ــى م ــدى التواف ــق الموج ــود بينهمـ ــا. 144 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA لدينا العدد nمن األفراد ومتغيرين نوعيين ( ،)qualitativeالمتغير النوعي يحتوي على مستوى أو مجموعة من المستويات أو الخصائص ،مثال( :اللون :بني) هذا المتغير بخاصية واحدة؛ (اللون :بني، أحمر) هذا المتغير بخاصيتين ،وهكذا .متغيرين ( ،)Y, Xمع خاصيتين( ،الخاصية pللمتغير )X (الخاصية qللمتغير .)Y X Y 1 j المتغيرات األف ـ ـ ـ ـ ـ ـ ـ ـ ـ ـراد i p n n12 n11 1 n22 n21 2 n32 n31 3 np2 np1 nn2 nn1 ….. p األف ـ ـ ـ ـ ـ ـ ـ ـ ـ ـراد Y X ….. n خصائص أو مستويات المتغير النوعي :هي مختلف القيم التي يمكن أن يأخذها المتغير ،إذا عبرنا عنها بأرقام .فعلى سبيل المثال ،خصائص متغير نوع السيارة رونو ومارسيدس ،فإذا رمزنا لرونو بالرمز 1 ولمرسيدس بالرمز ،2فمتغير نوع السيارة يأخذ القيمة 1أو .2 145 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يمكننا من خالل المعطيات بناء جدول يحتوي على متغيرين ومجموعة من الخصائص ،هذا الجدول يساعدنا في دراسة سحابتين نقطيتين تصفان التقارب بين نقاط األسطر (خصائص المتغير األول) مع نقاط األعمدة (خصائص المتغير الثاني). ثانيا ،جداول التوافيق أو التقاطع ):(Contingency table هو جدول يسجل تكرار كل تركيب ممكن من متغيرين أو أكثر .يستخدم هذا النوع من الجداول عادة في تحليل البيانات الستكشاف العالقة بين متغيرين فئويين .وعادةً ما يتم عرض المتغيرات كأعمدة وصفوف في الجدول ،ويتم عرض التك اررات في خاليا الجدول. فعلى سبيل المثال ،يمكن استخدام جدول التوافيق لدراسة العالقة بين الجنس وتفضيالت األكل لدى البالغين ،فيكون المتغيران هما الجنس وتفضيالت األكل ،مع الفئات الممكنة لكل متغير (على سبيل المثال ،ذكر وأنثى للجنس ،ولحم ،نباتي ،ونباتي صرف لتفضيالت األكل) .وتسجل التك اررات لكل تركيب ممكن من الجنس وتفضيالت األكل في خاليا جدول التوافيق. ويتم استخدام جدول التوافيق لحساب مقاييس االرتباط بين المتغيرات ،مثل معامل ارتباط بيرسون أو أيضا لتحديد العالقات بين المتغيرات ولتحديد االختالفات معامل كاي تربيع لالستقاللية .كما يمكن استخدامه ً و .𝑋2ويكون على الشكل بين المجموعات .ويتم الحصول على جدول التوافيق Nمن تقاطع المتغيرين 1 التالي: جدول التوافيق 𝑛𝑖. q j 1 𝑛1. n1q n1j n11 1 𝑛𝑖. niq nij ni1 i 𝑛𝑝. npq 𝑞𝑛. npj 𝑗𝑛. np1 𝑛.1 p 𝑗𝑛. 𝑛.. Xبـ pمن الخصائص (المستويات) المتغير Yبعدد qمن الخصائص (المستويات) 𝑗𝑖𝑛 تعبر عن عدد األفراد الذين يحققون النموذج بالنسبة للخاصية iوفي نفس الوقت الخاصية ( jتحدد عدد المفردات التي تشكل في نفس الوقت خصائص المتغيرين .)Y Xأو بتعبير آخر عدد التك اررات التي من أجلها يأخذ المتغير Xالقيمة 𝑖 ويأخذ المتغير Yالقيمة 𝑗𝑌. 146 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 𝑛𝑖.تعبر عن مجموع أفراد السطر ،iالنقطة بعد الحرف iتعني مجموع األفراد في السطر .i 𝑞 𝑗𝑖𝑛 𝑛𝑖. = ∑𝑗=1 تعبر عن مجموع أفراد العمود ،jالنقطة قبل الحرف jتعني المجموع. 𝑗ّ 𝑛. 𝑝 𝑛..تعبر عن مجموع األفراد في األسطر واألعمدة ،أو بعبارة أخرى حجم العينة. 𝑗𝑖𝑛 𝑛.𝑗 = ∑𝑖=1 𝑞 𝑝 𝑗𝑖𝑛 𝑛.. = ∑𝑖=1 ∑𝑗=1 مثال :نحن مهتمون بالعالقة بين لون العينين ولون الشعر لـمجموعة إناث تتكون من 484فردا .وجدول االقتران أو التقاطع الموالي يبين تقاطع المتغيرين الوصفيين ،لون العينين في األسطر ولون الشعر في األعمدة .حيث يشمل متغير لون العينين أربعة خصائص ،هي :كستنائي ،عسلي ،أخضر ،أزرق؛ في حين يشمل متغير لون الشعر ثالثة خصائص ،هي :بني ،أحمر ،أشقر. الجدول رقم .1 أشقر 7 10 16 94 أحمر 26 14 14 17 بني 119 54 29 84 كستنائي عسلي أخضر أزرق سيكون من المثير لالهتمام معرفة ما إذا كانت العالقات موجودة بين خصائص المتغيرين ،وكذلك لعمل تمثيل مرئي للبيانات يسلط الضوء على أقوى االرتباطات. 147 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA شعر أشقرا ،واألشخاص ذوي الشعر البني أن األشخاص ذوي األعين الزرقاء يملكون في أغلبهم ًا يمكننا مالحظة ّ جدا ،وسيكون شرح ألن الجدول صغير ً هم األكثر بين من يملكون ً أعينا كستنائية .نحن قادرون على رؤية هذا ّ أو وصف الرابط بين متغيرين نوعيين أكثر صعوبة عندما يكون عدد الخصائص أكبر أو عندما يكون المشروع افيا (أي ليس لدينا فكرة مسبقة عن االرتباط بين المتغيرات). استكش ً في التحليل العاملي للتوفيقات ،سنستخدم فكرة المسافة بين الصفوف والمسافة بين األعمدة لتوضيح جميع الخصائص على نفس الرسم البياني من أجل تصور العالقات بين تلك الخصائص .لذلك سنسعى إلى تمثيل خصائص المتغيرين بشكل مرئي في نفس المستوى بحيث تكون خاصيتين مترابطتين إيجابيا( ،خاصيتين يكون متوقعا في ظل االستقالل) قريبتين من بعضهما البعض. الرقم فيهما أكبر مما كان ً ثالثا ،عرض الطريقة: .1بناء جدول التقاطع :لتشكيل جدول التقاطع ( )Contingency tableنظيف إلى الجدول السابق (الجدول رقم ) 1عمودا على يمينه ،تحتوي كل خلية منه على مجموع قيم السطر المقابل لها .ونضيف أسفله سطر تحتوي كل خلية منه على مجموع قيم العمود المقابل لها .ويمكن كتابة الجدول السابق على الشكل التالي: جدول التقاطع 𝒏𝒊. 152 78 59 195 484 أشقر 7 10 16 94 127 أحمر 26 14 14 17 71 بني 119 54 29 84 286 كستنائي عسلي أخضر أزرق 𝒋 𝒏. العمود باللون األصفر يطلق عليه هامش السطر (سمي كذلك ألنه عمود لكنه يحتوي على مجموع أرقام كل سطر .فعلى سبيل المثال ،هامش السطر األول= ،119+26+7=152ويحتوي على مجموع األفراد بلون عينين كستنائي مهما كان لون شعرهم .والسطر باللون األخضر يطلق عليه هامش العمود (سمي كذلك ألنه سطر لكنه يحتوي على مجموع أرقام كل عمود ،فعلى سبيل المثال ،هامش العمود األول= ،119+54+29+84=286 ويحتوي على مجموع األفراد بلون الشعر بني مهما كان لون أعينهم. ويمكن من جدول التقاطع مالحظة ّأنه لدينا متغير لون العينين 𝑋 بأربعة خصائص (كستنائي ،عسلي ،أخضر، أزرق) ،هذا المتغير فئوي .ولدينا متغير لون الشعر ،Yهذا المتغير كذلك فئوي بثالثة خصائص (بني ،أحمر، أشقر) .على سبيل المثال ،لون العينين كستنائي خاصية من خصائص المتغير Xولون الشعر بني خاصية من معا 119فردا ،بمعنى آخر لدينا في خصائص المتغير ،Yعدد األفراد في العينة الذين يملكون الخاصيتين ً فردا لون أعينهم كستنائي ولون شعرهم بني .ويمكن التعبير عن الكالم السابق رياضيا على الشكل العينة ً 119 التالي: 148 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA n11 = 119 ويمكن كذلك اختصار الجدول السابق على شكل مصفوفة ،كاآلتي: 26 7 14 10 ] 14 16 17 94 نحسب المجموع الكلي: 119 54 [ =*N 29 84 𝑞 𝑝 𝑗𝑖𝑛 n..=∑𝑖=1 ∑𝑗=1 n..= 484 .2تحويل البيانات: إن استخدام ألن طريقة التحليل العاملي للتوفيقات تعتمد اعتمادا كليا في تحليل البيانات على التك اررات النسبية ،ف ّ ّ جدول التقاطع لن يكون مفيدا .لذلك تعتبر المجاميع الهامشية على السطر والعمود جد مهمة ،وعلى افتراض وجود ارتباط (عالقة) بين المتغيرين ،فوصف هذه العالقة يقتضي تحويل الجدول االبتدائي من التك اررات المطلقة إلى التك اررات النسبية .وعلى ذلك ،فإ ّن أول خطوة في التحليل هي تحويل البيانات ،والعمل على جدول التك اررات النسبية ،وجدولي األسطر واألعمدة ).(Profils Lignes et Profils Colonnes . 1.2جدول التك اررات النسبية :لبناء جدول التك اررات النسبية نحتاج إلى حساب التك ار ار النسبي في كل خلية من خاليا جدول التقاطع ،بقسمة قيمتها على المجموع الكلي ،وفقا للصيغة الموالية: 𝑗𝑖𝑛 حيث تعبر )𝑓𝑖𝑗 = 𝑛 = P(X=i, Y=j .. 𝑗𝑖 عن التكرار النسبي في كل خلية .أي نسبة األفراد الذين يحققون الخاصية iللمتغير X والخاصية jللمتغير Yمعا .كما يمكن كذلك اعتبارها احتماال لتحقق الخاصيتين معا .ويكون جدول التك اررات النسبية على الشكل التالي: 𝑓𝑖. q j 1 𝑓1. f1p fj f11 1 𝑓𝑖. fiq fij fi1 i 𝑓𝑝. fpq 𝑞𝑓. fpj 𝑗𝑓. fp1 𝑓.1 p 𝑗𝑓. 𝑓.. 149 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA تمثل 𝑓𝑖.نسبة األف ا رد الذين يحققون الخاصية iللمتغير Xمهما كانت الخاصية jللمتغير .Yوتمثل 𝑗. نسبة األفراد الذين يحققون الخاصية jللمتغير Yمهما كانت الخاصية iللمتغير 𝑓.. .Xتمثل نسبة كل األفراد في أن مجموع التك اررات النسبية في هامش السطر يساوي الواحد ،ومجموع العينة المدروسة ،وتساوي الواحد .كما ّ التك اررات النسبية في هامش العمود يساوي الواحد ،ونكتب: ∑𝑝𝑖=1 𝑓𝑖𝑗 =𝑓𝑖. , ∑𝑞𝑗=1 𝑓𝑖𝑗 =𝑓.𝑗 , 𝑓.. =∑𝑝𝑖=1 ∑𝑞𝑗=1 𝑓𝑖𝑗 =1 وتكتب مصفوفة التك اررات النسبية على الشكل التالي: 119 26 7 𝑞𝑓11 ⋯ 𝑓1 1 1 54 14 10 ⋱ =⋮ )= ∗N*....... N ⋮ ( =N [ ] 𝑛.. 484 29 14 16 𝑞𝑝𝑓 ⋯ 𝑓𝑝1 84 17 94 0.246 0.054 0.014 0.112 0.029 0.021 [ =N ] 0.060 0.029 0.033 0.174 0.035 0.194 ويكون جدول التك اررات النسبية كاآلتي: جدول التك اررات النسبية 𝒇𝒊. 0.314 0.161 0.122 0.403 1 أشقر 0.014 0.021 0.033 0.194 0.262 بني 0.246 0.112 0.060 0.174 0.591 أحمر 0.054 0.029 0.029 0.035 0.147 وتحسب التك اررات الهامشية لألسطر واألعمدة كما يلي: كستنائي عسلي أخضر أزرق 𝒋𝒇. 𝑞 𝑝 )𝑓𝑖. = ∑𝑗=1 𝑓𝑖𝑗 =P(X=i), 𝑓.𝑗 = ∑𝑖=1 𝑓𝑖𝑗 =P(X=j ∑𝑝𝑖=1 ∑𝑞𝑗=1 𝑓𝑖𝑗 = ∑𝑝𝑖=1 𝑓𝑖. =∑𝑞𝑗=1 𝑓.𝑗 =1 152 =0.314 286 =0.591 484 =) 484 84 484 =) + 7 26 + 119 ( = 𝑗𝑓1. = ∑3𝑗=1 𝑓1 + ( = 𝑓.1 = ∑4𝑖=1 𝑓𝑖1 + 484 484 484 119 54 29 + 484 484 484 أن نسبة 24.6في المائة من األفراد في العينة المدروسة لون أعينهم كستنائي يظهر من الجدول أعاله مثالّ ، أن ما نسبته 31.4في المائة من األفراد ذوي أعين كستنائية اللون مهما كان لون ولون شعرهم بني ،كما ّ شعرهم ،ونسبة 59.1في المائة من األفراد لون شعرهم بني مهما كان لون أعينهم ،وهذا ما يطلق عليه االحتمال الشرطي. 150 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .2.2جدول التك اررات النسبية لألسطر :ويسمى كذلك بملف تعريف األسطر ،ونحصل عليه بقسمة كل قيمة في جدول التقاطع على إجمالي العمود المقابل ،أو بقسمة كل قيمة في جدول التك اررات النسبية على إجمالي العمود المقابل ،بتعبير آخر قسمة كل سطر iفي المصفوفة Nعلى ثقله ) .(𝑓𝑖.مما يعني أننا سنتعامل مع الجدول كأسطر فقط ،والقيمة 𝑗𝑖𝑓 𝑓𝑖. تمثل احتمال الحصول على الخاصية jمن المتغير Yمع العلم أن الخاصية iمن المتغير Xمحققة .ونكتب: 𝑞 / ∑𝑗=1 𝑓𝑖/𝑗 =1 𝑗𝑖𝑓 )𝑖=𝑋𝑃(𝑌=𝑗, 𝑓𝑖. = )𝑖=𝑋(𝑃 هذا الجدول يمكن كذلك تمثيله بـ ـ pمن النقط ،ونكتب: 𝑞𝑖𝑓 =)𝑓𝑗/𝑖 =P(Y=j, X=i 𝑗𝑖𝑓 𝑓 𝑓 𝑓𝑖. 𝑓𝑖. 𝑓𝑖. 0.246 0.053 0.014 𝑓𝑖. )…………./)i=1…..,…,p(. )= (0.783,0.169,0.046 ). …, … Li= ( 𝑖1, 𝑖2 , , ( =) , 0.314 0.314 0.314 q في فضاء ذو بعد (R ) qكل نقطة يتم وزنها باالحتمال 𝑖. . 𝑓11 𝑓12 𝑓13 𝑓1. , 𝑓1. , 𝑓1. ( = =L1 IRq )A(I Li fi. ) n 𝑞𝑖𝑓 𝑓𝑖. …, 𝑗𝑖𝑓 𝑓 𝑓 𝑓𝑖. 𝑓𝑖. 𝑓𝑖. … Li= ( 𝑖1, 𝑖2 , )A(I)=(Li, fi. كل سطر يتم تمثيله في الفضاء ،Rqكل نقطة Liمرتبطة بالوزن ،fi.هذا الوزن يتناسب وعدد المفردات في السطر .Li.وبناء على المعطيات السابقة يكون جدول التك اررات النسبية لألسطر في مثالنا على النحو اآلتي: جدول التك اررات النسبية لألسطر المجموع 1 1 1 1 1 أشقر 0,046 0,128 0,271 0,482 0.262 أحمر 0,169 0,179 0,237 0,087 0.147 بني 0,783 0,692 0,492 0,431 0.591 كستنائي عسلي أخضر أزرق المتوسط 151 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA أن أن ٪69من األشخاص ذوي األعين العسلية لديهم شعر بني .كما ّ يظهر من السطر الثاني ،العمود األولّ ، ٪59.1من األفراد لديهم شعر بني .كما يعبر السطر باللون األخضر عن المتوسطات الهامشية ،التي تمثل مركز سحابة النقاط في الفضاء ،Rqويسمى هذا السطر كذلك بالسطر المتوسط .Lm 𝑗𝑖𝑛 𝑗𝑛. 𝑛𝑖. 𝑛 = 𝑛∗ 𝑛 𝑖. ∑𝑝𝑖=1 ]𝑓.𝑞 ]= [0.591 0.147 0.262 ونحدد المصفوفة القطرية للتك اررات النسبية الهامشية لألسطر على الشكل التالي: 0.314 0 0 0 0 0.161 0 0 ⋮ )= [ 0 ] 0 0 0.122 0 𝑓𝑝. 0 0 0 0.403 وتكتب مصفوفة التك اررات النسبية لألسطر على النحو التالي: ] 0.045 0.172 0.783 0.130 0.180 0.696 0.270 0.238 0.492 0.481 0.087 0.432 أو تحسب من الصيغة المصفوفية اآلتية: 0.045 0.130 ] 0.270 0.481 0.172 0.180 0.238 0.087 0 1 ⋱ ⋯ ⋮ ) √𝑓𝑝. 0.314 0.021 0.314 0.029 0.314 0.112 0.161 0.033 0.161 0.029 0.122 0.194 0.122 0.035 ]0.403 0.403 𝑓1. = 0.161 0.060 ⋮ 0.122 0.174 ) [0.403 0.054 0.029 0.029 0.035 1 √𝑓1. ⋮ 0 0 0.246 0.112 [* 0.060 0 0.174 1 ]0.403 0 =, Dr-1/2 0 ⋯ ⋮ ⋱ ⋯ 1 ) 𝑓𝑝. ( 0 0 0 1 𝑓𝑝. 1 0 1 𝑓1. ⋮ 0 ⋯ 𝑓11 𝑓1. ⋮ 𝑓𝑝1 =Xr 𝑓 ( 𝑝. 1 0.314 0.161 0.122 ⋯ ⋱ ⋯ 𝑓1. ⋮ ( =Dr 0 ⋱ ⋯ 𝑞𝑝𝑓 Xr =Dr-1.N 0.014 0.783 0.021 0.696 [=] 0.033 0.492 0.194 0.432 ⋯ [= 0.014 0.054 0.246 𝑞𝑓1 𝑗𝑓. Lm= [𝑓.1 0 0 0 0 [ 0 =Xr =Dr-1.N =Dr-1 ( مالحظة :إذا كان لون الشعر ولون العينين متغيرين مستقلين ،فإن األسطر في جدول األسطر ستكون جميعها فإن االعتمادية بين المتغيرات ستكون دالة على التشابه (أو المسافة) بين مماثلة للسطر المتوسط .وبالتاليّ ، األسطر. 152 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .2.3جدول التك اررات النسبية لألعمدة :ويسمى كذلك بملف تعريف األعمدةـ ،ونحصل عليه بقسمة كل قيمة على إجمالي الصف المقابل .بتعبير آخر قسمة كل عمود jفي المصفوفة Nعلى ثقله ) 𝑗 .(𝑓.مما يعني أننا سنتعامل مع الجدول كأعمدة فقط ،والقيمة أن الخاصية jمن المتغير Yمحققة. 𝑗𝑖𝑓 تمثل احتمال الحصول على الخاصية iمن المتغير Xمع العلم 𝑗𝑓. 𝑗𝑖𝑓 )𝑗=𝑌𝑃(𝑋=𝑖, 𝑝 = /∑𝑖=1 𝑓𝑖/𝑗 =1 )𝑗=𝑌(𝑃 𝑗𝑓. =)𝑓𝑖/𝑗 =P(X=i, Y=j جدول التك اررات النسبية لألعمدة المتوسط 0.314 0.161 0.123 0.403 1 أحمر 0,366 0,197 0,197 0,239 1 أشقر 0,055 0,079 0,126 0,740 1 بني 0,416 0,189 0,101 0,294 1 كستنائي عسلي أخضر أزرق المجموع أن ٪40.3من األفراد لديهم أعين زرقاء اللون. يظهر من العمود المتوسط ،مثالّ ، كم ا يعبر العمود باللون األخضر عن المتوسطات الهامشية ،التي تمثل مركز سحابة النقاط في الفضاء ،Rp ويسمى هذا العمود كذلك بالعمود المتوسط .Cm 𝑛 𝑗𝑖𝑛 𝑗𝑛. 𝑖. ∗ = 𝑛 𝑛 𝑛 𝑗. ∑𝑞𝑗=1 ]Cm=[0.314 0.161 0.123 0.403 وعند دراسة وتحميل خصائص المتغير Yفي فضاء خصائص المتغير ،Xتكون احداثيات النقطة jفي الفضاء RPهي: 𝑓𝑝𝑗 T ) , j=1….,q 𝑗𝑓. ,….,…. 𝑗𝑓1 𝑗𝑓. ( = Fj X ونحدد المصفوفة القطرية للتك اررات النسبية الهامشية لألعمدة على الشكل التالي: 0 ⋯ 1 ⋱ ⋯ ⋮ ) 𝑞√𝑓. 0 0.591 0 0 ⋮ )=[ 0 0.147 ] 0 𝑞𝑓. 0 0 0.262 ⋯ ⋱ ⋯ 𝑓.1 ⋮ ( = Dc 0 0 ⋯ 1 1 ⋱ ⋯ 1 √𝑓.1 1.692 0 0 -1/2 =[ 0 6.803 ⋮ = 0 ], DC 0 0 3.817 0 ( وتكتب مصفوفة التك اررات النسبية لألعمدة على النحو التالي: ⋮ ) 𝑞𝑓. 𝑓.1 ⋮ 0 =DC-1 ( 153 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 𝑓𝑝1 𝑓.1 0.416 0.189 0.101 0.294 ]= [0.366 0.197 0.197 0.239 0.055 0.079 0.126 0.740 ⋮ 𝑞𝑝𝑓 ) أو يمكن حسابها من الصيغة المصفوفية اآلتية: 𝑞𝑓. ⋯ ⋱ ⋯ 𝑓11 𝑓.1 ⋮ 𝑞𝑓1 = Xc 𝑓 𝑞( . Xc=Dc-1.NT 1.692 0 0 0.246 0.112 0.060 0.174 [ 0 6.803 ]0 ]*[0.054 0.029 0.029 0.035 0 0 3.817 0.014 0.021 0.033 0.194 مالحظة :كما كان الحال مع جدول األسطر ،إذا كان لون الشعر والعينين متغيرين مستقلين ،فإن األعمدة في فإن االعتمادية بين المتغيرات ستكون دالة على جدول األعمدة ستكون جميعها مماثلة للعمود المتوسط ،وبالتاليّ ، التشابه (أو المسافة) بين األعمدة. .4.2مركز الثقل لجدولي األسطر واألعمدة :يحدد مركز ثقل األسطر واألعمدة ،كما يلي: حيث: Gr= (𝑓.1 , … . , 𝑓.𝑞 )T, Gc(𝑓1. , … . 𝑓𝑝. )T. Grمتجه ذاتي ل ـ q*1و GCمتجه ذاتي ل ـ ـ .p*1 Gr= [0.314 0.161 0.123 0.403]T Gc=[0.591 0.147 0.262]T .3المسافة إلى األصل في جدول األسطر واألعمدة: يقصد بالمسافة إلى األصل ،المسافة بين كل سطر والسطر المتوسط في جدول األسطر ،والمسافة بين كل عمود والعمود المتوسط في جدول األعمدة .ولحساب المسافة بين نقطتين في فضاء ثنائي البعد نستخدم المسافة األقليدية أو مسافة كاي تربيع ،وسواء استخدمنا ّأيا منهما سنصل إلى نفس االستنتاجات ،لكن ما يميز مسافة كاي تربيع ،هو ضمان التكافئ التوزيعي ،والعالقة شبه المركزية بين السحب النقطية. مالحظات: -تظل المسافة المربعة بين صفين كما هي سواء قبل أو بعد تجميع عمودين بنفس العمود. -تظل المسافة المربعة بين عمودين كما هي سواء قبل أو بعد تجميع صفين بنفس السطر. .1.3المسافة إلى األصل في جدول األسطر :من أجل حساب المسافة إلى األصل في جدول األسطر ،نحسب مسافة كاي تربيع بين كل سطر والسطر المتوسط ،اعتمادا على العالقة اآلتية: 154 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 1 𝑗𝑖𝑓 𝑑𝑋2 2 (i, Lm)= ∑𝑗=1 𝑓.𝑗 ( 𝑓𝑖. − 𝑓. 𝑗)2 𝑞 نعتمد في الحساب على جدول التك اررات النسبية لألسطر. =(0.046-0.262)2 1 0.262 المجموع 1 1 1 1 1 أشقر 0,046 0,128 0,271 0,482 0.262 أحمر 0,171 0,179 0,237 0,087 0.147 (0.171-0.147)2 + 1 0.147 بني 0,783 0,692 0,492 0,431 0.591 كستنائي عسلي أخضر أزرق المتوسط (0.783-0.591)2 + 1 0.591 وعليه ،يكون جدول المسافات بين األسطر والسطر المتوسط كما يلي: DISTO2 0.245 0.093 0.073 0.251 = ), Lmكستنائي(d2 0.245 كستنائي عسلي أخضر أزرق أن الل ون الكستنائي للعينين يختلف اختالفا كبي ار عن اللونين العسلي واألخضر ويتشابه مع اللون يمكننا مالحظة ّ األزرق. . 2.3المسافة إلى األصل في جدول األعمدة :نحسب المسافة بين كل خاصية في جدول األعمدة والعمود المتوسط (الموقع بالنسبة للمتوسط). 𝑗𝑖𝑓 1 𝑗. 𝑖. d2𝑥 2 (j, cm)= ∑𝑗=1 𝑓 ( 𝑓 − 𝑓𝑖. )2 𝑝 نعتمد في الحساب على جدول التك اررات النسبية لألعمدة. المتوسط 0.314 0.161 0.123 0.403 أشقر 0,055 0,079 0,126 0,740 1 بني 0,416 0,189 0,101 0,294 1 أحمر 0,366 0,197 0,197 0,239 1 كستنائي عسلي أخضر أزرق المجموع 1 1 1 , Cm) = 0.314بني( d2𝑥 2 (0.416-0.314)2 + (0.189-0.161)2 + (0.101-0.123)2+ 0.161 0.123 (0.294-0.403)2= 0.071 أشقر أحمر بني 0.538 0.130 0.071 1 0.403 DISTO² يمكننا مالحظة أن أصحاب الشعر األشقر مختلفين في لون العينين عن بيقة األفراد. 155 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .4المسافة بين األسطر في جدول األسطر ،والمسافة بين األعمدة في جدول األعمدة: .1.4المسافة بين األسطر :قد نرغب في إجراء تحليل أكثر عمقا ،ولمعرفة ذلك علينا حساب المسافة بين كل سطرين (نعني خاصيتين) في جدول األسطر ،ولعمل ذلك نستخدم المسافة األقليدية في فضاء ثنائي البعد: 𝑓𝑖′𝑗 2 ) 𝑓𝑖′ . − 𝑗𝑖𝑓 𝑓𝑖. (d2)i, i’(= ∑𝑗=1 𝑝 لكن ،هذه المسافة ال تأخذ في االعتبار أهمية كل عمود .الخيار األكثر حكمة هو أخذ مسافة مربع كاي ،والتي تأخذ في االعتبار أهمية كل عمود. 𝑓𝑖′𝑗 2 ) نضع: 𝑓𝑖′ . − 𝑗𝑖𝑓 ( 1 𝑝 𝑓.𝑗 𝑓𝑖. d2𝑥 2 )i, i’(= ∑𝑗=1 𝑗𝑓𝑖′ 𝑗𝑖𝑓 𝑖′ . 𝑖. 𝑗=𝑥𝑖𝑗 , 𝑓 =𝑥𝑖′ 𝑓 وعليه ،يمكن كتابة العالقة بالصيغة المصفوفية التالية: 1 1 ) 𝑗(𝑥𝑖𝑗 − 𝑥𝑖′ 𝑓.1 ’) 𝑗d2𝑥 2 )i, i’(=) 𝑥𝑖𝑗 − 𝑥𝑖′ 𝑗𝑓. 1 [ ] 𝑞𝑓. ) 𝑗d2𝑥 2 )i, i’(=( 𝑥𝑖𝑗 − 𝑥𝑖′𝑗 )DC-1(𝑥𝑖𝑗 − 𝑥𝑖′ q أن جدول فكل سطر في جدول التك اررات النسبية لألسطر ( )Liيعتبر كنقطة Miفي الفضاء ،Rوهذا يعني ّ التك اررات النسبية لألسطر يمثل سحابة من النقط في الفضاء .Rqونكتب: 𝑗𝑖𝑓 𝑗𝑓𝑖. √𝑓. = 𝑗𝑖𝑥 1 𝑗√𝑓. = 𝑗𝑖𝐵 Mi=(𝐵𝑖1 , 𝐵𝑖2 , … . 𝐵𝑖𝑗 , … . 𝐵𝑖𝑞 (………/ نعود إلى جدول التك اررات النسبية والهامشية ونقوم بحساب المسافات بين خصائص المتغير األول .سنحسب المسافة بين اللون الكستنائي للعينين واللون العسلي ،وبين اللونين الكستنائي واألخضر ،والكستنائي واألزرق ،ثم العسلي واألخضر ،العسلي واألزرق ،األخضر واألزرق. المجموع 1 1 1 1 1 أشقر 0,046 0,128 0,271 0,482 0.262 أحمر 0,171 0,179 0,237 0,087 0.147 بني 0,783 0,692 0,492 0,431 0.591 كستنائي عسلي أخضر أزرق 156 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- التحليل بالمعامالت للتوفيقات ()CA (0.046 − 1 0.262 د .خالد علي 1 (0.171 − 0.179)2 + 0.147 (0.783 − 0.692)2+ 1 0.591 وبنفس الطريقة نحسب بقية المسافات ،ونلخص النتائج في الجدول الموالي: أزرق 0.982 0.650 0.328 0 أخضر 0.365 0.167 0 0.328 كستنائي 0 0.04 0.365 0.982 عسلي 0.04 0 0.167 0.650 =)عسلي ,كستنائي(d2 0.128)2 =0.04 كستنائي عسلي أخضر أزرق أن األشخاص ذوو األعين الكستنائية لديهم شعر يشبه األشخاص ذوي األعين العسلية يمكننا مالحظة ،مثالّ ، أكثر من األشخاص ذوي العيون الزرقاء ،وذوي األعين العسلية لديهم شعر يشبه شعر ذوي األعين الخضراء أكثر من ذوي األع ين الزرقاء ،وذوي األعين الكستنائية لديهم شعر يشبه شعر ذوي األعين الخضراء أكثر من ذوي األعين الزرقاء. .2.4حساب المسافة بين كل عمودين (تحليل خاص) (بين كل نقطتين) :حساب المسافة بين كل عمودين ،وفقا للعالقة الموالية: 𝑓𝑖𝑗′ 𝑗𝑖𝑓 1 .𝑗′ 𝑗. 𝑖. d2𝑥 2 )j, j’(= ∑𝑛𝑖=1 𝑓 ( 𝑓 − 𝑓 )2 سنحسب المسافة بين لون الشعر بني وبني داكن ،وبين بني وأحمر ،بني وأشقر ،ثم بني داكن وأحمر ،بني داكن وأشقر ،وأخي ار أحمر مع أشقر .باالعتماد على جدول التك اررات النسبية لألعمدة. 0.314 0.161 0.123 0.403 1 أشقر 0,055 0,079 0,126 0,740 1 أحمر 0,366 0,197 0,197 0,239 1 بني 0,416 0,189 0,101 0,294 1 كستنائي عسلي أخضر أزرق المجموع 1 1 1 ) = 0.314أحمر ,بني( d2𝑥 2 (0.416-0.3.66)2 + (0.189-0.197)2 + (0.101-0.197)2 + 161 0.123 (0.294-0.239)2 = 0.08 أشقر 0.983 1.026 0 بني 0 0.08 0.983 أحمر 0.08 0 1.026 1 0.403 بني أحمر أشقر أصحاب الشعر األحمر أقرب إلى أصحاب الشعر البني من البقية. المعمق لالرتباطات بين شروط المتغيرين ،ويستخرج .5مؤشر التجاذب والتنافر :يستخدم هذا المؤشر للتحليل ّ من العالقة التالية: 157 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 𝑗𝑖𝑓 𝑓 𝑓= 𝑗𝑖𝑡 أن iو jتتجاذب ،والعكس صحيح. t 𝑖𝑗>1نقول ّ 𝑗𝑖. . t 𝑖𝑗 = 1نقول ّأنه ال يوجد ارتباط بين السطر iوالعمود .j بالعودة إلى مثالنا ،نحسب مؤشر التجاذب والتنافر للعنصر في الخلية األولى من السطر األول أين يتقاطع السطر األول مع العمود األول (كستنائي ،بني)𝑡11 . ، =1.325 وبعد إتمام العمليات نجد: 0.246 0.314∗0.591 = 𝑡11 الجدول رقم :5مؤشر التجاذب والتنافر بين شروط المتغيرين. أشقر 0.175 0.489 1.041 1.841 أحمر 1.166 1.224 1.629 0.595 بني 3251. 1.172 0.838 0.730 كستنائي عسلي أخضر أزرق يظهر من النتائج ما يلي: توجد عالقة تجاذب بين لون العينين كستنائي ولون الشعر بني ( )1.325وكستنائي مع أحمر ( .)1.166وبين لون العينين عسلي ولون الشعر بني ( )1.48وأحمر ( ،)1.224ولون العينين أخضر تتجاذب مع لون الشعر أحمر وأشقر. مؤشر التجاذب والتنافر يساوي ( )0.489بين لون العينين عسلي ولون الشعر أشقر ،وكذلك الحال بالنسبة للون العينين أخضر ولون الشعر بني وأزرق مع بني ومع أحمر ،مما يعني وجود تنافر بين تلك الخصائص. .6اختبار كاي تربيع ( )CHI-SQUAREلإلستقاللية: على اعتبار أنه ليس لدينا أي معلومة حول العالقة بين المتغيرين Xو ،Yإذ يمكن أن يكونا مستقلين ،فيكون استخدامنا للتحليل التقابلي غير مجد .وعلى ذلك ،علينا البحث في وجود استقالية بين المتغيرين من عدمه. ويمكننا ترجمة هذا الكالم في ظل فرضية االستقاللية .H0 وعلى العكس ،الفرضية البديلة H1 P(X=i et Y=j)= P(X=i) x P(Y=j). P(X=i et Y=j) # P(X=i) x P(Y=j). بعبارة أخرى سنقوم باختبار فرضية العدم: 𝑗H0 ; 𝑓𝑖𝑗 = 𝑓𝑖. *𝑓. 158 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA في مقابل الفرضية البديلة: 𝑗H1 ; 𝑓𝑖𝑗 # 𝑓𝑖. *𝑓. وعند دراسة ظاهرة كيفية متعلقة بمتغيرتين نوعيين ،يمكن البحث عن وجود اعتمادية أو استقاللية باستخدام اختبار كاي تربيع لالستقاللية ،المعطى بالعالقة: 𝑝 𝑞 (𝑛𝑖𝑗−(𝑛𝑖.∗𝑛.𝑗/𝑛))2 (𝑓𝑖𝑗−𝑓𝑖.∗𝑓.𝑗)2 X = ∑𝑖=1 ∑𝑗=1 = 𝑛𝑛𝑖.∗𝑛.𝑗/ 𝑗𝑓𝑖.∗𝑓. 2 مالحظة :يستخدم التحليل التقابلي جدول االحتماالت ،لذلك فهو ال يقول أي شيء عن الداللة اإلحصائية ،فقط يتصور طبيعة االرتباط بين المتغيرين. ويتم حساب قيمته ومن ثم مقارنته مع القيمة الجدولية الحرجة بدرجة حرية، ((عدد األسطر()1-عدد األعمدة.))1- r=(p-1)(q-1). بأنهما أما الفرضية البديلة فتقول ّ الفرضية الصفرية لالختبار (عند مستوى داللة 0.05فأقل) المتغيرين مستقلينّ ، غير مستقلين عن بعضهما .ولحساب كاي تربيع ،نحسب التكرار المتوقع لكل خلية في الجدول المتقاطع حسب العالقة الموالية. نضرب مجموع عناصر السطر في مجموع عناصر العمود الذي تنتمي له الخلية ،ونقسم الناتج على المجموع الكلي .أو عن طريق العالقة في معادلة حساب كاي تربيع .ni.*n.j/n.. بالعودة إلى مثالنا ،سنحسب في الخطوة األولى جدول التك اررات المتوقعة باالعتماد على جدول التقاطع. نضرب مجموع عناصر السطر في مجموع عناصر العمود الذي تنتمي إليه الخلية ،ونقسم الناتج على المجموع الكلي .أو عن طريق العالقة في معادلة حساب كاي تربيع. ni.*n.j/n.. جدول التك اررات النظرية (المتوقعة) أشقر 39.884 20.466 15.481 51.167 أحمر 22.297 11.442 8.654 28.605 بني 89.818 46.090 34.863 115.227 كستنائي عسلي أخضر أزرق مثال :التكرار المتوقع للخلية الناتجة من تقاطع السطر األول مع العمود األول: 159 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 152∗286 = 89.818 جدول حساب كاي تربيع المجموع 37.207 7.28 4.304 49.026 97.817 أشقر 27.112 5.352 0.017 35.856 68.337 أحمر 0.614 0.571 3.302 4.708 9.195 بني 9.481 1.357 0.985 8.462 20.285 كستنائي عسلي أخضر أزرق المجموع = 9.481 نحسب درجات الحرية من العالقة: 484 =n11 (89.818−(119))2 89.818 =X211 (r-1)(c-1)= (4-1)(3-1)=6 أن قيمة كاي تربيع المحسوبة تساوي ،97.817نقارنها بكاي تربيع الجدولية عند مستوى من الجدول نالحظ ّ أن قيمة كاي تربيع المحسوبة تقع داللة 0.05فأقل ودرجات حرية .6القيمة الجدولية لكاي تربيع ،12.59وبما ّ فإن هناك ارتباط بين األسطر واألعمدة ،أي بين ضمن منطقة رفض فرضية العدم ،أكبر من القيمة الجدوليةّ ، لون العينين ولون الشعر. مالحظات :حتى تكون النتائج التي تم التوصل إليها في اختبار كاي تربيع موثوقة ،ال بد من توفر بعض الشروط. ألن القيم الصغيرة تؤدي إلى تضخيم -أن تكون 80في المائة على األقل من التك اررات النظرية أكبر من ّ ،5 قيمة كاي تربيع. ألن درجات الحرية ال تأخذ بعين االعتبار حجم العينة. -يجب أن يكون حجم العينة كبي ار نوعا ماّ ، .7مساهمة كل خلية من خالليا جدول التقاطع في قيمة كاي تربيع :يمكن معرفة مساهمة كل خلية من خاليا جدول التقاطع في قيمة كاي تربيع المحصلة من خالل العالقة التالية: (𝑓𝑖𝑗 −𝑓𝑖. 𝑓.𝑗 )2 𝑗𝑓𝑖. 𝑓. = (𝑛𝑝𝑞 −𝑒𝑝𝑞 )2 𝑞𝑝𝑒 = 2 𝑞𝑝𝑟 𝑋2 = 𝑞𝑝𝐶 160 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA ) 𝑗𝑖𝑒(𝑛𝑖𝑗 − = 𝑗𝑖𝑟 𝑗𝑖𝑒√ حيث 𝑟𝑖𝑗 :هي البواقي المعيارية 𝐶𝑝𝑞 ،هي المساهمة النسبية في قيمة كاي تربيع (المساهمة في المعلومة التي تحملها كل خانة من خانات الجدول). توزيع البواقي يتبع التوزيع الطبيعي تقريبا ،في حالة كانت قيمة الخطأ المعياري أكبر من القيمة المطلقة لـ ـ ـ 2 فهي دالة احصائيا. = 3.079 )(119−89.818 √89.818 جدول البواقي المعيارية أشقر -5.207 -2.313 0.131 5.988 بني 3.079 1.165 -0.993 -2.909 أحمر 0.784 0.756 1.817 -2.169 = ) (𝑛11 −𝑒11 √𝑒11 = 𝑟11 كستنائي عسلي أخضر أزرق يمكننا كذلك باالعتماد على الجدول تحديد الخاصيات التي تتجاذب وتتنافر من خالل اإلشارة ،فعندما تكون اإلشارة موجبة فهي تتجاذب ،وعندما تكون سالبة تتنافر. حساب المساهمة النسبية لكل خلية في قيمة كاي تربيع. = جدول المساهمة النسبية لكل خلية في قيمة كاي تربيع المجموع 0.314 0.072 0.043 0.5 0.929 أشقر 0.277 0.054 0.000 0.366 0.697 بني 0.031 0.013 0.010 0.086 0.14 أحمر 0.006 0.005 0.033 0.048 0.092 )(3.079 97.817 = 2 𝑟11 𝑋2 = 𝐶11 كستنائي عسلي أخضر أزرق المجموع .8القصور الذاتي الكلي (التباين الكلي) :يقصد به كمية المعلومات المتوفرة في البيانات .والقصور الذاتي الكلي في الفضاء Rpهو العزم الكلي لسحابة النقط ،وبالتالي فهو المتوسط المرجح لمربع المسافات لكل النقاط بالنسبة لمركز البيانات ،ونكتب: (𝑓𝑖𝑗−𝑓𝑖.∗𝑓.𝑗)2 𝑗𝑓𝑖.∗𝑓. 𝑗𝑖𝑓 − 𝑓.𝑗 )2=∑𝑛𝑖=1 ∑𝑗=1 𝑝 ( 1 𝑓.𝑗 𝑓𝑖. 𝑝 𝑝 It= ∑𝑖=1 𝑓𝑖. 𝑑𝑥22 (i,G)= ∑𝑖=1 وتعطى صيغة القصور الذاتي الكلي لسحابة نقط األسطر واألعمدة مقارنة بمركز ثقل كل منهما ،بالعالقتين: 𝑝 )Inertie (L, GL)= ∑𝑖=1 𝑓𝑖. 𝑑𝑥22 (i,GL 𝑞 )Inertie (L, GC)= ∑𝑖=1 𝑓.𝑗 𝑑𝑥22 (j,Gc 161 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA لدينا: 𝑗𝑖𝑓 − 𝑓. 𝑗)2 ( 1 𝑞 𝑓.𝑗 𝑓𝑖. بالتعويض نجد: 𝑑𝑋2 2 (i, GL)= ∑𝑗=1 𝑗𝑖𝑓 1 2 ( − 𝑓. )𝑗 𝑓.𝑗 𝑓𝑖. 𝑓 𝑗𝑖𝑓 𝑞 𝑓𝑖. 𝑞 𝑓𝑖. 𝑓𝑖𝑗−𝑓𝑖.∗𝑓.𝑗 2 𝑞 𝑝 𝑝 𝑝 2 ( =∑𝑖=1 ∑𝑗=1 ( − 𝑓. 𝑗) =∑𝑖=1 ∑𝑗=1 ∗) =∑𝑖=1 ∑𝑗=1 𝑖. 2 (𝑓𝑖𝑗 − 𝑓𝑖. 𝑓.𝑗 𝑓𝑖. 𝑗𝑓. 𝑓𝑖. 𝑓∗𝑗𝑓. 𝑞 𝑝 𝑝 Inertie (L, GL)= ∑𝑖=1 𝑓𝑖. 𝑑𝑥22 (i,GL)= ∑𝑖=1 𝑓𝑖. ∗ ∑𝑗=1 𝑖. 𝑋2 𝑛.. = (𝑓𝑖𝑗−𝑓𝑖.∗𝑓.𝑗)2 𝑗𝑓𝑖.∗𝑓. 𝑝 𝑓. 𝑗)2= ∑𝑛𝑖=1 ∑𝑗=1 وعليه ،فالتباين الكلي-فاي مرّبع -لسحابة األسطر يمكن حسابه بقسمة قيمة مربع كاي على حجم العينة. = 0.202 مالحظة :القصور الذاتي لسحابة األسطر تساوي القصور الذاتي لسحابة األعمدة. 2 97.817 𝑋2 484 .. = 𝑛 =Ph2 Inertie (L, GL)= ∑𝑖=1 𝑓𝑖. 𝑑𝑥22 (i,GL)= Inertie (L, GC)= ∑𝑖=1 𝑓.𝑗 𝑑𝑥22 (j,Gc)= Ph 𝑝 𝑞 .1.8حساب القصور الذاتي الذي تحمله كل خاصية في جدول األسطر: القصور الذاتي = وزن الخاصية xالمسافة بينها والسطر المتوسط. القصور الذاتي الذي تحمله كل خاصية = وزنها xبعدها عن السطر المتوسط. )= 0.314 x 0.245= 0.133كستنائي() x d ²كستنائي() =poidsكستنائي(Inertie مالحظة :ثقل كل خاصية في جدول األسطر هو نفسه قيمتها في هامش السطر. DISTO² Poids INERTIE 0.07688 0.314 0.245 0.01505 0.161 0.093 0.00889 0.122 0.073 0.10129 0.403 0.251 كستنائي عسلي أخضر أزرق المجموع 0,202 القصور الذاتي الكلي هو ،0.202وهو كمية المعلومات المتوفرة في البيانات( .هذا المؤشر مهم في عملية التحليل) ،يستخدم في تقييم جودة التمثيل الرسومي للبيانات. 162 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .2.8حساب القصور الذاتي الذي تحمله كل خاصية في جدول األعمدة: المجموع 0.202 أشقر 0.538 أحمر 0.130 0.141 0.019 0.262 0.147 بني 0.071 DISTO² 0.042 Inertie Poids 0.591 أن خاصية الشعر يمكننا مالحظة أن أصحاب الشعر األشقر مختلفين في لون العينين عن بيقة األفراد .كما ّ األشقر هي األكثر حمال للمعلومات من بقية الخصائص. .9تحديد المركبات األساسية :تتمثل طريقة التحليل العاملي للتوفيقات في تلخيص الروابط الرئيسية الموجودة بين خصائص المتغيرين Xو ،Yوتهدف إلى تقليل األبعاد .ويمكن اعتبار التحليل العاملي للتوفيقات على أنه تحليل للمكونات الرئيسية مزدوج ،أحدهما على الصفوف واآلخر على األعمدة. .1.9مصفوفة المعلومات :بنفس الطريقة التي نستخدمها في التحليل بالمركبات الرئيسية ،نشكل مصفوفة المعلومات ،مصفوفة التباين والتباين المشترك ،Vبين خصائص المتغير ( Yمحور الفضاء .)Rqونعتمد على جدول التك اررات النسبية لألسطر في ايجاد التباين المشترك بين الخاصيتين jو’ .jغير أننا وان كنا في التحليل بالمركبات الرئيسية ،نستخدم المسافة األقليدية لحساب المسافة بين أي نقطتين ،فال نقوم بذلك في التحليل التقابلي قبل اجراء تحويل مسبق الحداثيات نقط سحابة األسطر أو األعمدة ،هذا التحويل يكتب في الفضاء Rq على النحو التالي: 𝑗𝑖𝑓 1 √𝑓.𝑗 𝑓𝑖. = 𝑗𝑖𝐵 فيكون المتوسط الحسابي المرجح: 1 𝑗𝑓. 𝑗√𝑓. = 𝑗𝑖𝑓 ∑ 1 = 𝑗𝑖𝑓 𝑗√𝑓.𝑗 √𝑓. 𝑗𝑖𝐵 𝑋̅j= ∑𝑖 𝑓𝑖. 𝑖∑= 𝑗𝑖𝑓 𝑗𝑓𝑖. √𝑓. أن: وهذا يعني ّ وتكون مصفوفة التباين والتباين المشترك للسحابة ) B(Iبالنسبة للمحور jعلى الشكل التالي: 𝑞… . . 𝑣1 𝑞… . . 𝑣2 ]… . . … . . 𝑞𝑞𝑣 … . . -التباين Vjjالذي يميز تشتت سحابة النقط على طول المحور jيعطى بالعالقة: 𝑋̅𝑗 =∑𝑖 𝑓𝑖. 𝑗𝑋̅j=√𝑓. 𝑣12 𝑣22 … 𝑣𝑞2 𝑣11 𝑣21 … [ =V 𝑣𝑞1 163 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- التحليل بالمعامالت للتوفيقات ()CA − √𝑓.𝑗 )2 د .خالد علي 𝑗𝑖𝑓 √𝑓.𝑗 𝑓𝑖. ( 𝑉𝑗𝑗 = ∑𝑖 𝑓𝑖. (𝐵𝑖𝑗 − √𝑓.𝑗 )2= ∑𝑖 𝑓𝑖. التباين المشترك:)𝑉𝑗𝑗′ = ∑ 𝑓𝑖. (𝐵𝑖𝑗 − √𝑓.𝑗 ) (𝐵𝑖𝑗′ − √𝑓.𝑗 ′ 𝑖 ونسمي التباين الكلي للسحابة ) B(Iبأثر المصفوفة ،Vونكتب: 𝑗𝑗𝑉 𝑗∑ =)𝑉𝐵 = trace (V ويتم إسقاط السحابة ) B(Iبشكل متعامد على محور ذو متجه وحدوي ،uبطريقة تجعل المعلومات المفقودة من اإلسقاط في حدها األدنى .وكما هو الحال في التحليل بالمركبات الرئيسية نبحث عن تعظيم العالقة ،uTVu تحت الشرط ،uTu=1وذلك عبر البحث عن القيمة الذاتية األكبر للمصفوفة .V لدينا: )𝑉𝑗𝑗′ = ∑ 𝑓𝑖. (𝐵𝑖𝑗 − √𝑓.𝑗 ) (𝐵𝑖𝑗′ − √𝑓.𝑗 ′ 𝑖 وبتعويض 𝑗𝑖𝐵 بقيمتها نجد: 𝑗𝑖𝑓 𝑓𝑖𝑗 ′ ( 𝑉𝑗𝑗′ = ∑ 𝑓𝑖. ( ) 𝑗− √𝑓. )− √𝑓.𝑗 ′ 𝑓 𝑓 𝑓 𝑓 √ √ 𝑖. 𝑗. 𝑖. .𝑗′ 𝑖 ويمكن كذلك كتابتها على النحو التالي: 𝑗𝑓𝑖𝑗′ − 𝑓𝑖. 𝑓. 𝑗𝑓𝑖𝑗 − 𝑓𝑖. 𝑓. ( 𝑉𝑗𝑗′ = ∑ 𝑓𝑖. () ) 𝑓 𝑓 𝑓 𝑓 √ √ 𝑖. .𝑗′ 𝑖. .𝑗′ 𝑖 نضع: ))= rij ……………(i=1….p, j=1…..q rijهو العنصر المولّد للمصفوفة ،Rحيث: 𝑗𝑓𝑖𝑗 −𝑓𝑖. 𝑓. √𝑓𝑖. 𝑓.𝑗′ ( V=RTR كما يمكن كذلك استخدام الصيغة المصفوفية اآلتية لحساب المصفوفة ،Rوالتي من خاللها يمكننا حساب مصفوفة المعلومات .V −1 2 −1 2 𝑐𝐷) 𝑚𝑇𝐿 𝑚𝐶 R=𝐷𝑟 (𝑁 − V=RTR بالعودة إلى مثالنا سنحسب المصفوفة Vبكل الطرق المتاحة ،لنتمكن من معرفة أيها أيسر وأقل جهدا في حساب مصفوفة المعلومات. 164 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA باستخدام صيغتي التباين والتباين المشترك للمصفوفة .Vلدينا ثالثة خصائص للمتغير ( Yلون الشعر :بني ،أحمر ،أشقر). 𝑉13 ] 𝑉23 𝑉33 نستخدم صيغة التباين: 𝑉11 V= [𝑉21 𝑉31 𝑉12 𝑉22 𝑉32 𝑉𝑗𝑗 = ∑𝑖 𝑓𝑖. (𝐵𝑖𝑗 − √𝑓.𝑗 )2 لحساب: 𝑉11 , 𝑉22 , 𝑉33 =𝑉11 = 𝑓1. (𝐵11 − √𝑓.1 )2+𝑓2. (𝐵21 − √𝑓.1 )2+𝑓3. (𝐵31 − √𝑓.1 )2+𝑓4. (𝐵41 − √𝑓.1 )2 0.492 0.246 0.692 0.314 (0.314√0.591 − √0.591)2+ 0.161(0.161√0.591 − √0.591)2+ 0.122(0.122√0.591 − √0.591)2+ 0.174 0.029 0.029 0.033 0.021 0.403(0.403√0.591 − √0.591)2= 0.042 0.054 𝑉22 = 0.314 (0.314√0.147 − √0.147)2+ 0.161(0.161√0.147 − √0.147)2+ 0.122(0.122√0.147 − √0.147)2+ 0.035 0.403(0.403√0.147 − √0.147)2= 0.019 0.014 𝑉33 = 0.314 (0.314√0.262 − √0.262)2+ 0.161(0.161√0.262 − √0.262)2+ 0.122(0.122√0.262 − √0.262)2+ 0.194 0.403(0.403√0.262 − √0.262)2= 0.140 ونستخدم العالقة: 𝑗𝑖𝑓 𝑓𝑖𝑗 ′ ( ) 𝑗− √𝑓. ])− √𝑓.𝑗 ′ 𝑗𝑓𝑖. √𝑓. 𝑓𝑖. √𝑓.𝑗′ ([ 𝑉𝑗𝑗′ = ∑ 𝑓𝑖. 𝑖 لحساب التباين المشترك بين الثنائيات: − − 0.692 (0.161 0.161√0.591 0.029 ( 0.122√0.147 − √0.147)+ )− √0.591 0.492 0.054 ()− √0.591 0.314√0.147 (0.122 0.122√0.591 0.035 0.246 V12, V13, V23 (V12 =V21 =0.314 0.314√0.591 0.029 − √0.147)+ 0.161√0.147 0.174 ( )√0.591 √0.147)+ 0.403(0.403 0.591 − √0.591) (0.403 0.147 − √0.147)= 0.016. وبعد اتمام جميع العمليات نجد: √ √ −0.075 ] −0.039 0.140 0.016 0.019 −0.039 0.042 V= [ 0.016 −0.075 نحسب المصفوفة Vباستخدام المصفوفة .R165 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA لدينا: ) )=0.055 0.112−0.161∗0.591 )= -0.131 √0.161∗0.591 0.174−0.403∗0.591 وهكذا حتى نكمل بقية األعمدة: −0.237 − 0.102 0.011 ] 0.274 0.037 0.039 0.082 −0.098 باستخدام الصيغة المصفوفية: (=)= 0.183, r21 √0.403∗0.591 0.183 −0.131 −0.098]* 0.055 −0.044 0.274 [ −0.131 −1 2 𝑗√𝑓𝑖. 𝑓. 0.264−0.314∗0.591 (=)=-0.044, r41 −0.237 − 0.102 0.011 ] 0.274 𝑗𝑓𝑖𝑗 −𝑓𝑖. 𝑓. ( = rij ( =r11 √0.314∗0.591 0.060−0.122∗0.591 √0.122∗0.591 0.037 0.039 0.082 −0.098 (=r31 0.183 R= 0.055 −0.044 [ −0.131 −0.044 0.082 0.011 0.183 0.055 V=RTR= [ 0.037 0.039 −0.237 −0.102 −0.075 ] −0.039 0.140 0.042 V= [ 0.016 −0.075 0.016 0.019 −0.039 −1 2 𝑐𝐷) 𝑚𝑇𝐿 𝑚𝐶 R=𝐷𝑟 (𝑁 − V=RTR = 0.014 0.021 ]0.033 0.194 0.054 0.029 0.029 0.035 0 0 1 0 1 1 ]√0.262 √0.147 0 0.246 0.112 [( 0.060 0.174 0 0 0 0 0 1 0 1 1 ]√0.403 √0.122 0 √0.161 1 √0.314 0 =R 0 0 0 [ 0 0.314 √0.591 0.161 [ ] ∗ [0.591 0.147 0.262]) 0 0.122 0.403 [ 0 0.140 0.037 −0.238 0.055 0.035 −0.103 [ ] −0.045 0.083 0.006 −0.131 −0.100 0.272 166 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 0.140 0.037 −0.238 0.140 0.055 −0.045 −0.131 0.055 0.035 −0.103 V= [ 0.037 ] 0.035 [*]0.083 −0.100 −0.045 0.083 0.006 −0.238 −0.103 0.006 0.272 −0.131 −0.100 0.272 0.042 0.016 −0.075 V = [ 0.016 ]0.019 −0.039 −0.075 −0.039 0.141 .2.9تحديد القيم واألشعة الذاتية: فإن المرحلة الموالية هي حساب القيم والمتجهات الذاتية لهذه المصفوفة ،من بعد تحديد مصفوفة المعلوماتّ ، خالل المحدد ،كما نفعل مع التحليل بالمركبات الرئيسية ،غير ّأنه في التحليل العاملي للتوفيقات تكون أحد القيم الذاتية لمصفوفة التباين معدومة ،والشعاع الذاتي الوحدوي المرافق لها مركباته تساوي المتوسطات الهامشية على المحاور .هذه القيمة المعدومة تستثنى من الدراسة. 0.016 −0.075 ] 0.019 − λ −0.039 −0.039 0.141 − λ وبحل كثير الحدود نحصل على قيم الجذور المميزة ،كما في الجدول الموالي: 0.042 − λ det (V- λI)= [ 0.016 −0.075 القيمة الذاتية نسبة التمثيل النسبة التجميعية 0.191 95 95 0.011 5 100 0.000 0 100 تعبر القيم الذاتية عن مدى التشتت على كل عامل والتي من خاللها يمكننا تقييم جودة التمثيل على العامل، فنسبة التمثيل على المحور األول بلغت 95في المائة ،وهي نسبة جيدة .وكلما كان مجموع القيم الذاتية التي نأخذها في التحليل قريبة من الكثافة الكلية للبيانات كانت جودة التمثيل أفضل. مالحظة :إذا كانت القيمة الذاتية معدومة فإ ّن الشعاع الذاتي المرافق لها هو شعاع تافه وال يؤخذ بعين االعتبار، أي ال يطلب تحديده. تحديد عدد المحاور: عند اجراء طريقة التحليل العاملي بالتوفيقات من خالل جدول التقاطع ،الذي يحوي pصف و qعمود .فإذا فإن العدد األقصى للمحاور الذي يمكن االحتفاظ به هو ،q-1 كان عدد األسطر أكبر من عدد األعمدة (ّ ،)p>q وبالنسبة للحالة الثانية ( ،)q>pفالعدد األقصى للمحاور هو .p-1 )𝐻𝑚𝑎𝑥 = min(𝑞 − 1, 𝑝 − 1 1 واعتمادا على قاعدة كايزر ،فإننا نحتفظ بالمحور الذي يوفر نسبة كثافة أعلى من . 𝑥𝑎𝑚𝐻 167 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA فبالنسبة لمثالنا عدد األسطر أكبر من عدد األعمدة ،والعدد األقصى للمحاور هو ،)3-1=2( q-1وهذا يعني أننا سنحتفظ بالمحور الذي يوفر على األقل 50في المائة من المعلومة ،ولذلك نحتفظ بالمحور األول وجوبا، والمحور الثاني نحتفظ به فقط لعرض التمثيل البياني. األشعة الذاتية الوحدوية للمصفوفة :V U2 U1 0.47 -0.46 -0.88 -0.24 0.009 0.86 .10حساب المركبات الرئيسية لسحابة األسطر وسحابة األعمدة: .1.10حساب المركبات الرئيسية لسحابة األسطر :تمر المحاور األساسية من مركز البيانات .gوعليه، فاحداثيات النقطة iلسحابة النقط ) B(Iعلى المحور αذو شعاع التوجيه الوحدوي Uαهو جداء احداثيات النقطة iفي الفضاء Rqذو المبدأ gمع مركبات الشعاع الذاتي الوحدوي .Uα 𝑈𝛼1 … 𝑗𝑖𝑓 𝑝𝑖𝑓 𝑓𝑖1 [(= 𝛼𝑈𝑋 = )𝑖( 𝛼𝐹 [ … − √𝑓.1 ] , [ − √𝑓.𝑗 ] , … . , 𝑗𝛼𝑈 )] 𝑞− √𝑓. 𝑗𝑓𝑖. √𝑓. 𝑞𝑓𝑖. √𝑓. 𝑓𝑖. √𝑓.1 … ) 𝑝𝛼𝑈( 𝑓 𝑈 𝑓 𝑞 𝑞 𝑞 𝑗𝑖 𝑗𝑖 𝑗𝛼 ( 𝑗𝛼𝑈 𝐹𝛼 (𝑖) = ∑𝑗=1 (− √𝑓.𝑗 )= ∑𝑗=1 𝑗) − ∑𝑗=1 𝑈𝛼𝘫 √𝑓. 𝑓 𝑓 𝑓 𝑓 𝑗𝑖. √ . 𝑗𝑖. √ . لدينا: ∑𝑞𝑗=1 𝑈𝛼𝘫 √𝑓.𝑗 =0 فتكون احداثيات النقطة iعلى المحور αهي: ) Uαj fij q Fα (i) = ∑j=1( f i. √f.j ويمكن كذلك استخدام الصيغة المصفوفية اآلتية في حساب المركبات الرئيسية لملف األسطر. 𝛼𝑈 ∗ 𝐻 = 𝛼𝐹 وبالعودة إلى مثالنا ،تكون المركبات الرئيسية لملف األسطر (لون العينين) كما يلي: =-0.498 (−0.46)0.783 (−0.24)0.171 (0.86)0.046 √0.262 + √0.147 + √0.591 = U13 f13 f1. √f.3 + U11 f11 U12 f12 f1. √f.2 + f1. √f.1 = )F1 (1 مالحظة :يعتمد في الحساب على جدول التك اررات النسبية أو على جدول التك اررات النسبية لألسطر ،نحصل على نفس النتيجة. 168 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA وبعد حساب جميع المركبات ،يمكن تلخيصها في الجدول الموالي. F1 -0.491 -0.305 0.018 0.500 F2 0.057 -0.016 -0.269 0.043 كستنائي عسلي أخضر أزرق .1.1.10حساب المركبات القياسية لسحابة األسطر :باالستعانة بعبارة االنتقال بين التحليلين RPو ،Rqتعتبر العبارة 𝘫𝛼𝑈 𝑗√𝑓. احداثية العمود jلسحابة النقط ) B(Jعلى المحور ،αنرمز لها بالرمز )𝑗( 𝛼̃ 𝐺 ،فتصبح العالقة السابقة كما يلي: fij q )𝑗( 𝛼̃𝐺 ) Fα (i) = ∑j=1( f i. وحتى تتحقق عبارة االنتقال بين التحليلين نقسم العبارة أعاله على 𝛼 ،√λفتصبح العبارة النهائية الحداثيات النقطة iمن سحابة النقط ) B(Iفي الفضاء Rqعلى المحور αكاآلتي: fij 1 1 q )𝑗( 𝛼̃𝐺 ) 𝐹̃α (i)= λ Fα (i)= λ ∑j=1( f 𝛼√ i. 𝛼√ أن ) 𝐹̃α (iتمثل االحداثيات القياسية ( )Coordonnées Standardsللنقطة iمن سحابة النقط ) B(Iفي حيث ّ الفضاء Rqعلى المحور .α وعليه ،يمكننا حساب المركبات القياسية لجدول األسطر في مثالنا كما يلي: (−0.498)=-1.123 1 √0.191 =)F1 (1 ونلخص النتائج في الجدول الموالي: F1 -1.123 -0.697 0.042 1.142 F2 0.556 -0.154 -2.608 0.417 1 √λ1 =)𝐹̃1 (1 كستنائي عسلي أخضر أزرق .2.10حساب المركبات الرئيسية لسحابة األعمدة :وبنفس خطوات التحليل السابقة يمكننا استنتاج العبارة النهائية لحساب االحداثيات القياسية للنقطة jمن سحابة النقط ) B(Jعلى المحور αفي الفضاء .Rp f )∑pi=1( ij ) 𝐹̃α (i λ f 1 𝛼√ 𝑗. فإن: وبنفس النمط السابقّ ، )𝑗( 𝛼𝐺 1 𝛼√λ = )𝑗( 𝛼̃ 𝐺 =)𝑗( 𝛼̃ 𝐺 169 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA وتكون عبارة حساب المركبات األساسية لسحابة األعمدة على النحو التالي: f 1 )∑pi=1( ij) 𝐹𝛼 (i λ f 𝛼√ 𝑗. = )𝑗( 𝛼𝐺 ويمكن كذلك حساب المركبات الرئيسية لسحابة األعمدة باستخدام الصيغة المصفوفية اآلتية: 𝐺𝛼 (𝑗)=√λ𝛼 *Uα وبالعودة إلى مثالنا ،نحسب المركبات الرئيسية لسحابة األعمدة: (0.500))= - 0.174 0.591 (0.018) + 0.060 0.591 (−0.305) + 0.112 0.591 (−0.491) + 0.264 ( 1 √λ1 0.591 = )𝐺1 (1 0.259 مالحظة :نستخدم جدول التك اررات النسبية ،أو جدول التك اررات النسبية لألعمدة وسنصل إلى النتيجة نفسها. G2 0.060 -0.241 -0.001 G1 -0.259 -0.267 0.734 بني أحمر أشقر ومنه يمكننا استنتاج االحداثيات القياسية لسحابة األعمدة. G2 0.584 -2.333 -0.010 G1 -0.593 -0.611 1.677 بني أحمر أشقر .11المساهمة النسبية في تشكيل المحاور: .1.11المساهمة النسبية لألسطر في تشكيل المحور :αلحساب مساهمة السطر iفي تشكيل المحور α نستخدم العالقة الموالية: 𝑓 (𝐹 (𝑖))2 𝛼𝐶𝑖𝛼 = 𝑖. λ 𝛼 =0.3960 وبعد اتمام جميع العمليات نلخص النتائج في الجدول الموالي: المحور الثاني 9.7 0.4 82.9 7 100 المحور األول 39.60 7.8 0 52.6 100 0.314∗(−0.491)2 0.191 = 𝑓1. (𝐹1 (1))2 λ1 = 𝐶11 كستنائي عسلي أخضر أزرق المجموع 170 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يساعدنا حساب نسبة مساهمة كل سطر في تشكيل المحورين األول والثاني على معرفة أهمية كل خاصية لدينا في إنشاء المحور العاملي .وكقاعدة عامة ،إذا كانت مساهمة كل سطر في تشكيل المحور تفوق القيمة 1 𝑝 25( ، أن خاصيتي اللون الكستنائي فإن هذه الخاصية مهمة في تشكيل هذا العامل .ويظهر من النتائج ّ في المائة) ّ للعين واللون األزرق مهمتين في تشكيل المحور األول ،بينما ليس لهما أهمية في تشكيل المحور الثاني، وخاصية اللون األخضر مهمة جدا في تشكيل المحور الثاني وليس لها أي أهمية في تشكيل المحور األول .بينما خاصية اللون العسلي غير مهمة بالنسبة للمحورين معا. .2.11المساهمة النسبية لألعمدة في تشكيل المحور :αلحساب مساهمة العمود jفي تشكيل المحور αنستخدم العالقة الموالية: 𝑓.𝑗 (𝐺𝛼 (𝑗))2 𝛼λ = 𝛼𝑗𝐶 =0.207 0.591∗(−0.259)2 0.191 وبعد اتمام جميع العمليات نلخص النتائج في الجدول الموالي: المحور الثاني 20.1 79.9 0 100 بنفس المنطق السابق ،ومقارنة بالنسبة 1 𝑞 المحور األول 20.7 5.5 73.8 100 = 𝑓.1 (𝐺1 (1))2 λ1 = 𝐶11 بني أحمر أشقر المجموع ( 33.33في المائة) ،فإن خاصية الشعر األشقر مهمة في تشكيل المحور األول وليس لها أي أهمية أو مساهمة في تشكيل المحور الثاني .بينما العكس بالنسبة لخاصية الشعر األحمر. .12نسبة التمثيل على المحاور: .1.12نسبة تمثيل األسطر على المحور :αلحساب نسبة تمثيل السطر iعلى المحور αنستخدم الصيغة الموالية (مربع جيب التمام): (𝐹∝ (𝑖))2 2 𝑝∑= ∝𝑖𝜃 𝑠𝑜𝑐 2 ))𝑖( ∝𝐹(∝=1 (−0.491)2 = (−0.491)2 +(0.057)2= 0.9877 وبعد اتمام جميع العمليات نلخص النتائج في الجدول الموالي: (𝐹 (1))2 𝑐𝑜𝑠 2 𝜃11 =∑𝑝 1 2 ))∝=1(𝐹∝ (1 171 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA المجموع 𝟐𝒊𝜽 𝟐𝒔𝒐𝒄 𝟏𝒊𝜽 𝟐𝒔𝒐𝒄 100 100 100 100 1.3 0.3 99.5 0.7 98.7 99.7 0.5 99.3 كستنائي عسلي أخضر أزرق أن نسبة تمثيل كل من خاصية اللون الكستنائي والعسلي واألزرق جيدة على المحور األول يظهر من النتائج ّ وعلى العكس نسبة تمثيل خاصية اللون األخضر جيدة على المحور الثاني. .2.12نسبة تمثيل األعمدة على المحور :αلحساب نسبة تمثيل العمود jعلى المحور αنستخدم الصيغة الموالية (مربع جيب التمام): (𝐺∝ (𝑗))2 2 𝑞∑= ∝𝑗𝜃 𝑠𝑜𝑐 2 ))𝑗( ∝𝐺(∝=1 (−0.259)2 = (−0.259)2 +(0.060)2= 0.9571 وبعد اتمام جميع العمليات نلخص النتائج في الجدول الموالي: المجموع 𝟐𝒋𝜽 𝟐𝒔𝒐𝒄 𝟏𝒋𝜽 𝟐𝒔𝒐𝒄 100 100 100 5.1 44.9 0 94.90 55.1 100 (𝐺1 (1))2 𝑞∑= 𝑐𝑜𝑠 𝜃11 2 2 ))∝=1(𝐺∝ (1 بني أحمر أشقر أن نسبة تمثيل كل من خاصيتي لون الشعر بني وأشقر جيدة على المحور األول وعلى العكس يظهر من النتائج ّ بالنسبة للمحور الثاني ،فيما نسبة تمثيل خاصية الشعر األشقر جيدة على المحور األول والثاني. .13النقطة اإلضافية :في حالة أردنا إضافة نقطة سطر أو عمود لم ندخلها في التحليل ،يكفي فقط حساب االسقاط باستخدام المقياس المختار تحت الفضاء الجزئي. .1.13إضافة نقطة في العمود :لتكن النقطة Kفي العمود التالي: 𝑘𝑛1 𝑘𝑛. … 𝑘𝑖𝑛 𝑛 = 𝑘𝑗𝑋 𝑘. … 𝑘𝑝𝑛 لتمثيل هذا العمود ،نحسب المركبة الرئيسية للنقطة المضافة ،kباستخدام العالقة: ] 𝑘[ 𝑛. 172 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 𝑛 )∑𝑖 𝑖𝑘 𝐹𝛼 (i 𝑘𝑛. 1 𝛼 𝑘𝑗G = 𝛼√λ .2.13إضافة نقطة سطرية :لتكن النقطة zفي السطر التالي: 𝑛𝑧1 𝑛𝑧. … 𝑧𝑖𝑛 𝑛 = 𝑧𝑖𝑋 𝑧. … 𝑞𝑧𝑛 لتمثيل هذا السطر ،نحسب المركبة الرئيسية للنقطة المضافة ،zباستخدام العالقة: 𝑛 )∑𝑖 𝑧𝑗 𝐹𝛼 (j .14التمثيل البياني: 𝑛𝑧. 1 ] [ 𝑛𝑧. 𝛼 𝑧𝑖F = 𝛼√λ بسبب تماثل خصائص المتغيرين ،يمكننا بفضل خاصية التمثيل الثنائي في طريقة التحليل العاملي بالتوفيقات دمج سحابتي األسطر واألعمدة في تمثيل بياني واحد ،فيكون لهما مركز البيانات ( )gنفسه .كما أن الطريقة توفر العديد من التمثيالت والعروض البيانية ،التي تستخدم وفقا للحاجة من إنشائها. .1.14تمثيل بياني متناظر لألسطر واألعمدة :وهو األكثر استخداما ،إذ يتم تمثيل خصائص المتغيرين معا على نفس المستوى ،مستعينين باحداثيات األسطر واألعمدة ،والمسافات بين النقاط تكون على أساس مصفوفة القياس لكاي تربيع .كما يمكن اضافة عالمات إلى الرسم على شكل قطع ناقص (Confidence )(ellipsesيمكن تحديد هذا الخيار في برنامج )xlstatلخصائص المتغيرين .واذا كان المركز يقع داخل هذا أن هذه الخاصية ال تساهم في عالقة االرتباط بين المتغيرين. القطع ،فذلك يعني ّ 173 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يظهر من الرسم البياني أعاله تداخل بين خاصيتي اللون الكستنائي والعسلي للعينين ،مما يشير إلى تشابه لون الشعر لألفراد الذين يملكون هاتين الخاصيتين .كما ترتبط خاصية اللون األزرق للعينين مع اللون األشقر للشعر، واللون األخضر للعينين يرتبط عكسيا مع اللون األحمر للشعر .وتجدر اإلشارة هنا إلى ّأنه ال يمكن تفسير التقارب بين األسطر واألعمدة مباشرة من هذا الرسم. .2.14التمثيل البياني المتناظر لألسطر: 174 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA تساعدنا عالمات القطع الناقص في تحديد الخاصيات التي تساهم في االرتباط بين المتغيرين ،فإذا كان المبدأ أن خاصية اللون يقع ضمن عالمات القطع الناقص لخاصية ما فهذا يعني أنها ال تساهم في االرتباط .نالحظ ّ األخضر للعينين ال تساهم في االرتباط بين المتغيرين ،في حين تساهم خاصية اللون األزرق بشكل كبير في االرتباط بين المتغيرين. .3.14التمثيل البياني المتناظر لألعمدة: أن خاصية اللون األشقر للشعر تساهم بشكل جيد في االرتباط بين المتغيرين ،على عكس خاصية اللون يظهر ّ األحمر للشعر. .4.14تمثيل غير متناظر لألسطر: 175 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يتم في هذا الرسم تمثيل خصائص المتغير ،Xأي األسطر ،باستخدام المركبات األساسية وتمثيل خصائص المتغير Yباستخدام المركبات القياسية .ويساعدنا ذلك في تحليل خصائص المتغير Xبالنسبة لخصائص أن أن اللون األزرق للعينين يرتبط ارتباطا قويا مع اللون األشقر للشعر ،بمعنى ّ المتغير .Yويظهر من الرسم ّ أشقر. ا األفراد الذين لديهم أعين زرقاء يملكون في أغلبهم شع ار .5.14تمثيل غير متناظر لألعمدة: 176 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يتم في هذا الرسم تمثيل خصائص المتغير ،Yأي األعمدة ،باستخدام المركبات األساسية ،وتمثيل خصائص المتغير Xباستخدام المركبات القياسية .ويساعدنا ذلك في تحليل خصائص المتغير Yبالنسبة لخصائص المتغير .X .6.14التمثيل البياني لنسب مساهمة األسطر: يتم في هذا الرسم تمثيل خصائص المتغير Xبالمركبات الرئيسية ،وتمثل خصائص المتغير Yباحداثيات نسب المساهمة .وتستخرج احداثيات نسب المساهمة لألسطر بقسمة المركبات القياسية على الجذر التربيعي لثقل ∝̃𝐹 الخاصية المحددة ،وهي المتوسط الهامشي ( ). 𝑓𝑖. F2 0,311 -0,062 -0,910 0,265 F1 -0,629 -0,280 0,015 0,725 كستنائي عسلي أخضر أزرق .7.14التمثيل البياني لنسب مساهمة األعمدة: يتم في هذا الرسم تمثيل خصائص المتغير Yبالمركبات الرئيسية ،وتمثل خصائص المتغير Xباحداثيات نسب المساهمة .وتستخرج احداثيات نسب المساهمة لألعمدة بقسمة المركبات القياسية على الجذر التربيعي لثقل ∝̃𝐺 الخاصية المحددة ،وهي المتوسط الهامشي ( ). 𝑗𝑓. 177 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA F2 0,449 -0,894 -0,005 F1 -0,456 -0,234 0,859 بني أحمر أشقر 178 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA تمارين محلولة يعبر المتغير األول عن التمرين األول :يحتوي الجدول الموالي على متغيرين لكل منهما ثالثة خصائصّ ، مجموعة من التجهيزات المكتبية (خزانة ،مكتب ،كرسي) ،فيما يعبر المتغير الثاني عن ألوان هذه التجهيزات (رمادي ،بني ،أسود). المجموع 9 15 6 30 أسود 5 6 1 12 بني 3 8 1 12 رمادي خزانة 1 مكتب 1 كرسي 4 المجموع 6 المطلوب: .1حساب جدول التك اررات النسبية (مصفوفة االحتماالت) ،N .2حساب جدول التك اررات النسبية لألسطر ( )Xrوالسطر المتوسط ( ،)Lmوالمصفوفة القطرية للسطر المتوسط، ثم حساب المسافة بين االسطر وبين األسطر والسطر المتوسط ،والكثافة لكل خلية ،مع التعليق على النتائج. .3حساب جدول التك اررات النسبية لألعمدة ( )Xjوالعمود المتوسط ( ،)Cmوالمصفوفة القطرية للعمود المتوسط، ثم حساب المسافة بين االعمدة وبين األعمدة والعمود المتوسط ،والكثافة لكل خلية ،مع التعليق على النتائج. .4حساب مؤشر التجاذب والتنافر لهذا الجدول ،والتعليق على النتائج. أن هناك ارتباط بين األسطر واالعمدة ،أي بين نوع التجهيز واللون. .5هل يمكن القول ّ .6حساب مصفوفة المعلومات ،Vباستخدام الطرق المتاحة. .7حساب القيم والمتجهات الذاتية لجدول األسطر ،وتحديد عدد المحاور التي تأخذ في التحليل. .8حساب المركبات الرئيسية والقياسية لسحابتي األسطر واألعمدة. .9حساب المساهمة النسبية لألسطر واألعمدة في تشكيل المحاور. .10حساب نسبة التمثيل لكل من األسطر واألعمدة على المحاور. .11مثل األسطر واألعمدة في المستوى وعلّق على الرسم. 179 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA الحل: .1جدول التك اررات النسبية (مصفوفة االحتماالت): المتوسط أسود رمادي بني 0,033 0,100 0,167خزانة 0.3 0,033 0,267 0,200مكتب 0.5 0,133 0,033 0,033كرسي 0.2 0.2المتوسط 0.4 0.4 1 أن نسبة الخزائن الرمادية اللون في العينة صغيرة ،%3.33وكذلك نسبة المكاتب الرمادية، يظهر من الجدول ّ ان نسبة المكاتب البنية قد بلغت ،%26.7وهي النسبة األعلى....الخ. والكراسي البنية والسوداء .في حين ّ وتكتب مصفوفة االحتماالت على الشكل التالي: 0.1 0.167 3 5 0.033 ] 0.2 8 6]=[0.033 0.267 4 1 1 0.133 0.033 0.033 كما يمكننا استنتاج الوزن النسبي لكل خاصية في الجدول الموالي ،فالوزن النسبي لخاصية اللون رمادي في 1 1 1 N= N*= 30 [1 𝑛 متغير اللون يساوي ،%20والوزن النسبي للخاصية كرسي في متغير التجهيز .%20ويمكن تلخيص األوزان في الجدول الموالي: متغير اللون متغير التجهيز الوزن الخاصية الوزن الخاصية 0,2 رمادي 0.3 خزانة 0,4 بني 0.5 مكتب 0,4 أسود 0.2 كرسي يتم حساب وزن كل خاصية بقسمة مجموع تك ارراتها في كل سطر أو عمود على المجموع الكلي (حجم العينة). .2جدول التك اررات النسبية لألسطر: 𝑗𝑖𝑛 رمادي بني المجموع أسود 0,111 0,333 0,556خزانة 1 0,067 0,533 0,400مكتب 1 0,667 0,167 0,167كرسي 1 0.2المجموع 0.4 0.4 1 السطر المتوسط: 𝑛𝑖. = 𝑗𝑖𝑓 0.2 0.2 0 0 ] Lm= [0.4], Dj= [ 0 0.4 0 0.4 0 0 0.4 180 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA تحليل جدول األسطر: تحليل عام :حساب المسافة بين كل خاصية في جدول األسطر والسطر المتوسط (الموقع بالنسبة للمتوسط).1 𝑗𝑖𝑓 𝑑𝑋2 2 (i, Lm)= ∑𝑗=1 𝑓.𝑗 ( 𝑓𝑖. − 𝑓. 𝑗)2 𝑞 1 1 1 1 1 1 1 1 1 ) = 0.2 (0.111-0.2)2 + 0.4(0.333-0.4)2 + 0.4(0.556-0.4)2= 0.111خزانة(d2 ) = 0.2(0.067-0.2)2 + 0.4(0.533-0.4)2 + 0.4(0.4-0.4)2 = 0.133مكتب(d2 ) = 0.2(0.667-0.2)2 + 0.4(0.167-0.4)2 + 0.4 (0.167-0.4)2 = 1.36كرسي(d2 وعليه ،يكون جدول المسافات كما يلي: DISTO² 0.111 خزانة 0.133 مكتب 1.360 كرسي أن لون الكراسي يختلف عن لون بقية التجهيزات. يمكننا مالحظة ّ تحليل خاص (بين كل نقطتين) :حساب المسافة بين كل سطرين في جدول األسطر ،وفقا للعالقة الموالية:𝑓𝑖′𝑗 2 ) وبالتعويض نجد: 𝑓𝑖′ . − 1 2 𝑗𝑖𝑓 ( 1 𝑝 𝑓.𝑗 𝑓𝑖. d2𝑥 2 )i, i’(= ∑𝑗=1 1 2 1 2 )= 0.2 (0.111 − 0.067) + 0.4 (0.333 − 0.533) + 0.4 (0.556 − 0.4) = 0.165مكتب ,خزانة(d2 1 1 1 1 1 )= 0.2 (0.111 − 0.667)2+0.4 (0.333 − 0.167)2+0.4 (0.556 − 0.167)2 = 1.991كرسي ,خزانة(d2 1 )= 0.2 (0.067 − 0.667)2+0.4 (0.533 − 0.167)2+ 0.4 (0.400 − 0.167)2 = 2.269كرسي ,مكتب(d2 يمكننا استنتاج أن لون الخزائن أقرب إلى لون المكاتب .وبعد اتمام جميع العمليات يكون جدول المسافات كما يلي: كرسي مكتب خزانة 1.991 0.165 0 2.269 0 خزانة مكتب كرسي 0 يمكننا من نتائج الجدول مالحظة أن لون الخزائن والمكاتب متشابه إلى حد كبير ،في حين يختلف لون الخزائن عن الكراسي ،ومن جانب آخر يختلف لون المكاتب عن لون الكراسي اختالفا كبيرا. حساب القصور الذاتي (التباين) :كمية المعلومات التي تحملها كل خاصية في جدول األسطر.181 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA كمية المعلومات التي تحملها كل خاصية = وزنها xبعدها عن السطر المتوسط. 1825 =)خزانة() x d ²خزانة() =poidsخزانة(Inertie x 0.0693= 0.0334 3784 INERTIE RELATIVE INERTIE Poids DISTO² 3.33 0.0333 0.3 0.111 خزانة 6.65 0.0665 0.5 0.133 مكتب 27.2 0.2720 0.2 1.360 كرسي 37.18 0.3718 المجموع أن الخاصية كرسي تحمل أكبر قدر من المعلومات ،بينما الخاصية خزانة تحمل قد ار يتضح من الجدول أعاله ّ قليال من المعلومات مقارنة بالخاصية مكتب التي رغم العدد الصغير للكراسي ( ،)6إالّ أنها تبرز المعلومات أن كمية المعلومات المتوفرة في البيانات تساوي .0.3718هذا المؤشر مهم في عملية بشكل أفضل .كما ّ التحليل. .3جدول التك اررات النسبية لألعمدة: 𝑗𝑖𝑛 𝑗𝑛. = 𝑗𝑖𝑓 المجموع أسود رمادي بني 0,167 0,250 0,417خزانة 0.3 0,167 0,667 0,500مكتب 0.5 0,667 0,083 0,083كرسي 0.2 المجموع 1 1 1 1 العمود المتوسط: 0.3 0.3 0 0 ] Cm= [0.5], Di=[ 0 0.5 0 0.2 0 0 0.2 تحليل جدول األعمدة: تحليل عام :حساب المسافة بين كل خاصية في جدول األعمدة والعمود المتوسط (الموقع بالنسبة للمتوسط).𝑗𝑖𝑓 1 𝑗. 𝑖. d2𝑥 2 (j, cm)= ∑𝑗=1 𝑓 ( 𝑓 − 𝑓𝑖. )2 𝑝 1 1 ) = (0.167-0.3) + (0.167-0.5) + (0.667-0.2)2=1.369رمادي( d 0.2 2 1 1 1 (0.417-0.3) + (0.500-0.5) + (0.083-0.2)2=0.113 حساب التباين: 0.2 2 0.5 1 2 0.3 (0.250-0.3) + (0.667-0.5) + (0.083-0.2)2=0.131 0.2 1 2 0.5 2 0.5 2 2 1 0.3 1 0.3 2 =)بني( d 2 =)أسود( d 182 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 6 )= x 1.369= 0.273رمادي() x d ²رمادي() =poidsرمادي(Inertie 30 رمادي بني أسود DISTO² 1.369 0.131 0.113 المجموع Poids 0.2 0.4 0.4 Inertie 0.2738 0.0524 0.0452 0.3714 أن خاصية اللون يمكننا مالحظة أن انتشار اللون الرمادي في التجهيزات المكتبية مختلف عن بقية األلوان ،كما ّ الرمادي هي األكثر حمال للمعلومات من بقية الخصائص. للتحليل المعمق للعالقة بين األسطر نحسب المسافة بين كل عمودين في هذا الجدول وفقا للعالقة الموالية: 𝑗𝑖𝑓 𝑓𝑖𝑗′ 1 d2𝑥 2 )j, j’(= ∑𝑛𝑖=1 𝑓 ( 𝑓 − 𝑓 )2 .𝑗′ 𝑗. 1 𝑖. 2 1 1 )= 0.3 (0.167 − 0.250) + 0.5 (0.167 − 0.667) + 0.2 (0.667 − 0.083)2 = 2.207بني ,رمادي(d2 1 2 1 1 )= 0.3 (0.167 − 0.417)2 + 0.5 (0.167 − 0.500)2 + 0.2 (0.667 − 0.083)2 = 1.946أسود ,رمادي(d2 1 1 1 )= 0.3 (0.250 − 0.417)2 + 0.5 (0.667 − 0.500)2 + 0.2 (0.083 − 0.083)2 = 0.06أسود ,بني(d2 يمكننا استنتاج أن اللون البني أقرب إلى اللون األسود .وبعد اتمام جميع العمليات يكون جدول المسافات كما يلي: أسود بني رمادي 1.946 2.207 0 0.06 0 رمادي بني أسود 0 .4مؤشر التجاذب والتنافر :نحسب مؤشر التجاذب والتنافر بين شروط المتغيرين باالعتماد على جدول التك اررات النسبية ،باستخدام العالقة: 𝑗𝑖𝑓 𝑓 𝑓= 𝑗𝑖𝑡 𝑗𝑖. . أسود بني رمادي 1.391 0.83 0.55 خزانة 1 1.335 0.33 مكتب 0.412 0.412 3.335 كرسي أن الخاصيتين كرسي ورمادي تتجاذب ،وكذلك الخاصيتين مكتب واللون بني ،وخزانة واللون يظهر من النتائج ّ أما بقية الخصائص فهي تتنافر. االسود .كما ّ أن الخاصية مكتب واللون األسود مستقلتينّ ، 183 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .5كاي تربيع لالستقاللية :سنحسب في الخطوة األولى جدول التك اررات الفرضية (المتوقعة) باالعتماد على جدول التقاطع. أسود بني رمادي 3.6 3.6 1.8 خزانة 6 6 3 مكتب 2.4 2.4 1.2 كرسي نضرب مجموع عناصر السطر في مجموع عناصر العمود الذي تنتمي له الخلية ،ونقسم الناتج على المجموع الكلي .أو عن طريق العالقة في معادلة حساب كاي تربيع. ni.*n.j/n مثال :التكرار المتوقع للخلية الناتجة من تقاطع السطر األول مع العمود األول: = 1.8 ولو حسبناه بالطريقة الثانية نجد نفس النتيجة: 9∗6 30 =Expected frequency n11 n1.*n.1/n=9*6/30=1.8 نستخدم الصيغة الموالية لحساب كاي تربيع. 𝑝 (𝑛𝑖𝑗−(𝑛𝑖.∗𝑛.𝑗/𝑛))2 𝑛 X = ∑𝑖=1 ∑𝑗=1 𝑛𝑛𝑖.∗𝑛.𝑗/ 2 التكرار النظري أو المتوقع 𝑛𝑛𝑖.∗ 𝑛. 𝑗/ 2 2 ))𝑛(𝑛𝑖𝑗−(𝑛𝑖.∗𝑛.𝑗/ ))(1−(1.8 = =X211 = = 0.355 1.8 𝑛𝑛𝑖.∗𝑛.𝑗/ المجموع أسود بني رمادي 0.999 0.544 0.1 0.355 خزانة 2 0 0.667 1.333 مكتب 8.165 0.816 0.816 6.533 كرسي 11.164 1.36 1.583 8.221 المجموع نحسب درجات الحرية من العالقة: (r-1)(c-1)= (3-1)(3-1)=4 184 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA أن قيمة كاي تربيع المحسوبة تساوي ،11.164نقارنها بكاي تربيع الجدولية عند مستوى من الجدول نالحظ ّ أن قيمة كاي تربيع المحسوبة تقع داللة 0.05فأقل ودرجات حرية .4القيمة الجدولية لكاي تربيع ،9.49وبما ّ فإن هناك ارتباط بين األسطر واألعمدة ،أي بين ضمن منطقة رفض فرضية العدم ،أكبر من القيمة الجدوليةّ ، التجهيزات واأللوان. مالحظة مهمة :من الشروط الضرورية الختبار كاي تريبع أن تحتوي 80في المائة من الخاليا على تك اررات ألن القيم المنخفضة للتك اررات المتوقعة تؤدي إلى تضخيم قيمة كاي تربيع ،مما قد ينتج عنه متوقعة تفوق ّ .5 رفض فرضية العدم وهي صحيحة. مالحظة :يمكن حساب التباين الكلي بقسمة قيمة كاي تربيع على حجم العينة. 𝑋 2 11.164 = 0.3721 وهي كمية المعلومات المتاحة من االرتباط بين التجهيزات واأللوان. 30 = 𝑛 =PHI-2 يمكننا كذلك معرفة العالقات ( بين خاصيات كل متغير) التي تساهم بأكبر قدر من المعلومات ،باستخدام األخطاء المعيارية. يتم حساب األخطاء المعيارية من العالقة التالية: 𝑗𝑖𝑒𝑛𝑖𝑗− =Rij 𝑗𝑖𝑒√ يتبع التوزيع الطبيعي تقريبا ،في حالة كانت القيمة المعيارية أكبر من القيمة المطلقة لـ ـ ـ 2فهي دالة احصائيا. أسود جدول األخطاء المعيارية رمادي بني 0.778 -0.316 -0.596 خزانة 0 0.8 -1.54 مكتب -0.903 -0.903 2.577 كرسي 185 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يمكننا كذلك باالعتماد على الجدول تحديد الخاصيات التي تتجاذب وتتنافر من خالل اإلشارة ،فعندما تكون اإلشارة موجبة فهي تتجاذب ،وعندما تكون سالبة تتنافر .وعندما تكون مساوية للصفر فهناك استقاللية بين السطر والعمود. حساب المعلومات التي تحملها كل خلية من العالقة: 𝑅2 C= 2 𝑋 نسبة مساهمة كل خلية في المعلومات % رمادي بني أسود 5.42 0.89 3.181 خزانة 0 5.73 21.24 مكتب 7.30 7.30 59.485 كرسي .6حساب مصفوفة التباين والتباين المشترك .V .1.6حساب مصفوفة المعلومات (التباين والتباين المشترك) وفقا للعالقة المصفوفية: −1 2 −1 2 𝑐𝐷) 𝑚𝑇𝐿 𝑚𝐶 H=𝐷𝑟 (𝑁 − 0 0 1 ]√0.4 −0.092 ] 0.020 0.046 1 V=HTH 1 0 0.033 0.100 0.167 0.3 1 1 H= 0 √0.5 0 ([0.033 0.267 0.200] − [0.5]*[0.2 0.4 0.4]) 0 √0.4 0.133 0.033 0.033 0.2 1 0 0 [ 0 ] [ 0 √0.2 −0.110 −0.058 0.136 H= −0.212 0.150 0 0.465 −0.166 −0.166 0.273 −0.103 −0.110 −0.212 0.465 −0.110 −0.058 0.136 V= −0.058 0.150 −0.166*(−0.212 0.150 =) [ −0.103 0.053 0 −0.092 0.020 0.136 0 −0.166 0.465 −0.166 −0.166 0 √0.2 نحسب القيم الذاتية للمصفوفة Vباستخدام المحدد ،فتكون كما يلي: 0 √0.3 λ1 = 0.34, λ2 =0.03, λ3 =0 .2.6حساب مصفوفة المعلومات باستخدام العالقة: ))= rij ……………(i=1….p, j=1…..q 𝑗𝑓𝑖𝑗 −𝑓𝑖. 𝑓. 𝑗√𝑓𝑖. 𝑓. ( العبارة rijهي العبارة العامة للمصفوفة ،Rحيث: 186 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA V=RTR 0.167−0.3∗0.4 0.1−0.3∗0.4 0.033−0.3∗0.2 √0.3∗0.4 0.2−0.5∗0.4 √0.3∗0.4 0.267−0.5∗0.4 √0.3∗0.2 0.033−0.5∗0.2 −0.110 −0.057 0.135 =R =[ 0.104 0.149 ] 0 √0.5∗0.2 √0.5∗0.4 √0.5∗0.4 0.465 −0.166 −0.166 0.133−0.2∗0.2 0.033−0.2∗0.4 0.033−0.2∗0.4 [ √0.2∗0.2 √0.2∗0.4 ] √0.2∗0.4 −0.110 0.104 0.465 −0.110 −0.057 0.135 T V= R .R= [−0.057 0.149 −0.166] ∗ [ 0.104 0.149 ] 0 0.135 0 −0.166 0.465 −0.166 −0.166 0.237 −0.055 −0.092 V= [−0.055 0.053 ] 0.020 −0.092 0.020 0.046 .3.6حساب مصفوفة المعلومات باستخدام عبارتيي التباين والتباين المشترك: 𝑉13 ] 𝑉23 𝑉33 نستخدم صيغة التباين: − √𝑓.𝑗 )2 𝑉12 𝑉22 𝑉32 𝑗𝑖𝑓 √𝑓.𝑗 𝑓𝑖. 𝑉11 V= [𝑉21 𝑉31 ( 𝑉𝑗𝑗 = ∑𝑖 𝑓𝑖. لحساب: − √0.2)2=0.236 0.133 (− √0.2)2+ 0.2 √0.2∗0.2 ونستخدم صيغة التباين المشترك: 0.033 (− √0.2)2+ 0.5 √0.2∗0.5 𝑗𝑖𝑓 𝑉11 , 𝑉22 , 𝑉33 0.033 √0.2∗0.3 𝑓𝑖𝑗 ′ ( ) 𝑗− √𝑓. ])− √𝑓.𝑗 ′ 𝑗𝑓𝑖. √𝑓. 𝑓𝑖. √𝑓.𝑗′ لحساب: (𝑉11 = 0.3 ([ 𝑉𝑗𝑗′ = ∑ 𝑓𝑖. 𝑖 𝑉12 , 𝑉13 , 𝑉23 . 0.237 −0.055 −0.092 V= [−0.055 0.053 ] 0.020 −0.092 0.020 0.046 .4.6حساب مصفوفة المعلومات من البيانات األصلية (غير المحولة). V=HT*H 𝑗𝑖𝑛 𝑗√𝑛𝑖. ∗𝑛. =H 187 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA 5 3 1 √9∗12 6 √9∗12 8 √9∗6 1 √15∗12 1 √15∗6 4 0.136 0.288 0.481 ]=[0.105 0.596 0.447 √15∗12 0.667 0.117 0.117 1 ] √6∗12 0.481 0.474 0.180 0.190 ]0.447]=[0.180 0.452 0.419 0.117 0.190 0.419 0.445 0.288 0.596 0.117 √6∗12 =H [ √6∗6 0.136 0.136 0.105 0.667 V= [0.288 0.596 0.117] * [0.105 0.667 0.481 0.447 0.117 .7نحسب القيم الذاتية للمصفوفة Vمن خالل المحدد. 0.474 − λ 0.180 0.190 det (W- λI)= [ 0.180 0.452 − λ 0.419 ]= 0 0.190 0.419 0.445 − λ وبحل كثير الحدود نحصل على قيم الجذور المميزة ،كما في الجدول الموالي: القيمة الذاتية C )C(I 1 القيمة الذاتية 1 تعادل القيمة الذاتية 0 0.342 λ1 تعادل القيمة الذاتية األولى 0.003 λ2 تعادل القيمة الذاتية الثانية األشعة الذاتية للمصفوفة :C U2 U1 U 0.706 -0.894 -0.022 -0.699 0.333 1 0.714 0.297 1 تحديد عدد المحاور: )𝐻𝑚𝑎𝑥 = min(𝑞 − 1, 𝑝 − 1 1 واعتمادا على قاعدة كايزر ،فإننا نحتفظ بالمحور الذي يوفر نسبة كثافة أعلى من . 𝑥𝑎𝑚𝐻 لدينا عدد األسطر يساوي عدد األعمدة ،والعدد األقصى للمحاور هو ،)3-1=2( q-1وهذا يعني أننا سنحتفظ بالمحور الذي يوفر على األقل 50في المائة من المعلومة ،ولذلك نحتفظ بالمحور األول وجوبا ،والمحور الثاني نحتفظ به فقط لعرض التمثيل البياني. معيار التمثيل البياني: 188 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA نسبة المعلومات المتاحة التي يتم استرجاعها بواسطة المحور العاملي األول والثاني: القيمة الذاتية W R 0.34 0.3428/0.3722 92.10 0.03 0.0294/0.3722 7.90 المجموع 0.3428+0.0294/0.3722 100 .8حساب المركبات الرئيسية. .1.8حساب المركبات الرئيسية لسحابة األسطر: ) Uαj fij q Fα (i) = ∑j=1( f i. √f.j = 0.3∗0.167 0.3√0.4 + −0.89∗0.033 0.33∗0.100 0.3√0.4 + 0.3√0.2 = )F1 (1 0.22 0.25 ]F1= [ 0.35 ], F2= [−0.14 −1.16 −0.03 المتوسط أسود رمادي بني 0,033 0,100 0,167خزانة 0.3 0,033 0,267 0,200مكتب 0.5 0,133 0,033 0,033كرسي 0.2 0.2المتوسط 0.4 0.4 1 189 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .2.8حساب المركبات الرئيسية لسحابة األعمدة: 𝐾 α ∗ F Ii 𝑗𝐾. −0.009 ] 0.19 −0.18 √ 𝑖∑ 1 √λ =GJjα −1.17 [ = GJ1 = [ 0.30 ], GJ2 .9تمثيل األسطر واألعمدة في المستوى: 0.27 .10المساهمة المطلقة والنسبية لألسطر واألعمدة: .1.10المساهمة المطلقة لعناصر سحابة األسطر على المحور :α (𝐹𝑖𝛼 )2 𝐾𝑖. (0.21)2 9 α αi = 𝐾 * λα *100 α1 = 30 * 0.34 ∗ 100 = 3.89 ونلخص النتائج في الجدول الموالي: αi2 αi1 األسطر 0,026 -0,027 0,016 3.89 0,020 -0,263 فالح مدير إطار 1 190 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA نالحظ من خالل الجدول ّ أن هو المحدد للمحور األول و هو المحدد للمحور الثاني. .2.9المساهمة النسبية لألسطر على المحور :α (𝐹𝑖𝛼 )2 𝐾 𝐾𝑖𝑗 𝐾.𝑗 2 ) ( − 𝐾 𝐾.𝑗 𝐾𝑖. (0.21)2 𝑝 ∑𝑗=1 30 5 12 30 3 12 6 = Ci α C11 = 30 1 ) ( 6 (9−30)2 )+(12(9−30)2 )+(12(9−30)2 191 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA التطبيق باستخدام XLSTAT مثال :تم استطالع رأي رواد السينما حول فيلم شاهدوه ،وطلب منهم تحديد فئات أعمارهم. ممتاز جيد متوسط ضعيف 41 22 29 28 18 23 14 48 14 12 12 6 5 1 49 45 65 57 26 21 7 69 148 170 159 122 106 40 16-24 25-34 35-44 45-54 55-64 65-74 75+ لتنفيذ التحليل العاملي بالتوفيقات في برنامج XLSTATنتبع الخطوات اآلتية: في الخطوة األولى ننقل جدول التقاطع في برنامج Excelبشكل عادي. .1ننقل بيانات جدول التقاطع إلى برنامج .excel .2نضغط على .Analyzing data ومن القائمة المنبثقة نختار ) ،Correspondence Analysis (CAفتظهر النافذة الموالية: 192 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .1نضغط على عالمة – لتحديد حدود جدول التقاطع لدينا ،قم بتضليل جميع خانات الجدول ،بما فيها التسميات. في مثالنا هذا تم تحديد الخاليا من A1حتى ،E8ثم اضغط المربع األزرق للعودة إلى النافذة الرئيسية .بعد ذلك يمكنك تحديد أحد الخيارات التالية: جدول ثنائي االتجاه ( :)Two-way tableحدد هذا الخيار إذا كانت بياناتك تتوافق مع جدول ثنائي االتجاه،حيث تحتوي الخاليا على التك اررات المقابلة للفئات المختلفة لمتغيرين نوعيين (في هذه الحالة يكون جدول التقاطع أكثر دقة) ،أو أي نوع آخر من القيم. 193 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA جدول المشاهدات/المتغيرات ( :)Observations/variables tableحدد هذا الخيار إذا كانت بياناتك تتوافق مع Nمن المشاهدات الموصوفة في متغيرين نوعيين ،ويتوافق هذا النوع من الجداول عادةً مع استطالع يتكون من تلقائيا بتحويل هذا الجدول إلى جدول تقاطع. سؤالين .وأثناء العمليات الحسابية ،سيقوم XLSTAT ً بدءا من خلية في ورقة عمل النطاق أو المدى ( :)Rangeقم بتنشيط هذا الخيار إذا كنت تريد عرض النتائج ًموجودة .ثم حدد الخلية المقابلة. الورقة ( :)Sheetقم بتنشيط هذا الخيار لعرض النتائج في ورقة عمل جديدة من المصنف النشط. -المصنف ( :)Workbookقم بتنشيط هذا الخيار لعرض النتائج في مصنف جديد. -تضمين التسميات ( :)Labels includedهذا الخيار مهم جدا غذا كنت تريد عرض تسميات الصفوف واألعمدة، واذا تم تضمين تسميات األعمدة والصفوف في التحديد. تسميات المتغيرات ( :)Variable labelsيكون هذا الخيار مر ًئيا فقط إذا حددت تنسيق جدول المشاهدات/المتغيرات .قم بتنشيط هذا الخيار إذا كان الصف األول يحتوي على تسميات متغيرة (حالة جدول المشاهدات/ متغيرات) أو تسميات الفئات (حالة جدول منفصل). األوزان :يكون هذا الخيار مر ًئيا فقط إذا حددت تنسيق جدول المشاهدات/المتغيرات .قم بتنشيط هذا الخيار إذاكنت تريد ترجيح المشاهدات .إذا لم تقم بتنشيط هذا الخيار ،فسيتم اعتبار األوزان مساوية لـ .1يجب أن تكون أيضا. األوزان أكبر أو تساوي .0إذا تم تنشيط خيار "التسميات المتغيرة" ،فتأكد من تحديد رأس التحديد ً بالنسبة لمثالنا سنحدد جدول ثنائي االتجاه ( ،)Two-way tableوورقة ( )Sheetلعرض النتائج في ورقة عمل جديدة في نفس المصنف النشط .ونحدد كذلك خيار تضمين التسميات ( ،)Labels includedلعرض أسماء األسطر واألعمدة في المخرجات. .2نضغط :Options 194 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .1.2البيانات التكميلية (( )Supplementary dataوهي ما نطلق عليه النقاط اإلضافية -أنظر الصفحة :) ....إذا حددت هذا الخيار ،فيمكنك إدخال عدد الصفوف و /أو األعمدة التكميلية (الصفوف واألعمدة التكميلية عبارة عن بيانات سلبية ال تؤخذ في االعتبار عند حساب مساحة التمثيل) .يتم حساب إحداثياتهم الحقًا .الحظ أن البيانات التكميلية يجب أن تكون الصفوف و /أو األعمدة األخيرة في جدول البيانات. ٍ عندئذ إدخال عدد .1.1.2تحليل المجموعة الفرعية ( :)Subset analysisإذا حددت هذا الخيار ،يمكنك الصفوف و/أو األعمدة الستبعادها من تحليل المجموعة الفرعية .الحظ أن البيانات المستبعدة يجب أن تكون الصفوف و/أو األعمدة األخيرة في جدول البيانات. .2.2التحليل غير المتناظر ( :)Non-symmetrical analysisيسمح هذا الخيار بحساب التحليل التقابلي غير المتناظر. 1 الصفوف تعتمد على األعمدة ( :)Rows depend on columnsحدد هذا الخيار إذا كنت تعتبر أن متغير الصفيعتمد على متغير العمود واذا كنت تريد تحليل االرتباط بين كليهما مع مراعاة هذه التبعية. تعتمد األعمدة على الصفوف ( :)Columns depend on rowsحدد هذا الخيار إذا كنت تعتقد أن متغير العموديعتمد على متغير الصف واذا كنت تريد تحليل االرتباط بين كليهما مع مراعاة هذه التبعية. .3.2المسافة ( :)Distanceيسمح لنا هذا الخيار بحساب المسافة بين االسطر والسطر المتوسط وبين األسطر مع بعضها مثنى مثنى ،وكذلك بالنسبة لألعمدة .ويمكننا اختيار استخدام مسافة كاي تربيع (،)Chi-Square بحسب الطريقة الكالسيكية للتحليل التقابلي ،أو باستخدام مسافة .Hellinger2هذا الخيار ال يتوفر إذا تم تحديد الخيار غير متناظر (.)non-symmetrical وكخالصة ،تم اقتراح ثالث طرق للتحليل: -التحليل العاملي للتوفيقات الكالسيكي ) :(CAال تحدد خيار "التحليل غير المتناظر" وحدد مسافةChi- .Square -التحليل العاملي للتوفيقات غير المتناظر ) :(NSCAحدد خيار "التحليل غير المتناظر" وحدد مسافةChi- .Square 1 2 - 195 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA التحليل العاملي للتوفيقات باستخدام مسافة ) :Hellinger (HDال تحدد خيار "التحليل غير المتناظر" وحددمسافة .Hellinger -اختبار االستقاللية ( :)Test of independenceقم بتنشيط هذا الخيار إذا كنت تريد أن يقوم XLSTATبحساب بناء على إحصائية مربع كاي. اختبار االستقاللية ً مستوى الداللة ( :)Significance level( )٪أدخل قيمة مستوى الداللة لالختبار (القيمة االفتراضية.)٪5 :* بالنسبة إلى مثالنا سنعتمد على التحليل العاملي للتوفيقات الكالسيكي ).(CA .4.2تصفية العوامل ( :)Filter factorsيمكنك تفعيل أحد الخيارين التاليين لتقليل عدد العوامل المعروضة: الحد األدنى :٪قم بتنشيط هذا الخيار ثم أدخل الحد األدنى للنسبة المئوية التي يجب الوصول إليها لتحديدعدد العوامل المراد عرضها. -العدد األقصى :قم بتنشيط هذا الخيار لتعيين الحد األقصى لعدد العوامل التي يجب مراعاتها عند عرض النتائج. .3نضغط على خيار القيم المفقودة ( :)Missing dataللتعامل مع القيم المفقودة في حالة جداول التقاطع والجداول ذات االتجاهين ،يمكنك تحديد ما يلي من الخيارات: عدم قبول البيانات المفقودة :قم بتنشيط هذا الخيار بحيث يمنع XLSTATالعمليات الحسابية من المتابعة إذاتم الكشف عن بيانات مفقودة. استبدال البيانات المفقودة بـ :0قم بتنشيط هذا الخيار إذا كنت تعتقد أن البيانات المفقودة تعادل القيمة .0 -استبدال البيانات المفقودة بقيمتها المتوقعة :قم بتنشيط هذا الخيار إذا كنت تريد استبدال البيانات المفقودة بالقيمة المتوقعة .وتحسب كما يلي: 𝑗𝑛𝑖. 𝑛. 𝑛 = 𝑗𝑖𝑛𝐸 أما في حالة اختيار خيارات جداول المشاهدات /المتغيرات (:)Observations/variables table ّ -عدم قبول البيانات المفقودة :قم بتنشيط هذا الخيار بحيث يمنع XLSTATالعمليات الحسابية من المتابعة إذا تم الكشف عن بيانات مفقودة. -إزالة المشاهدات :قم بتنشيط هذا الخيار لتجاهل المشاهدات التي تحتوي على بيانات مفقودة. تجميع القيم المفقودة في فئة جديدة :قم بتنشيط هذا الخيار لتجميع البيانات المفقودة في فئة جديدة من المتغيرالمقابل. .4نضغط :Outputs 196 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يمكننا اختيار اظهار المخرجات ،بالترتيب :جدول التقاطع ( ،)Contingency tableعرض ثالثي األبعاد لجدول التقاطع ( ،)3D view of the contingency tableالكثافة لكل خلية في الجدول ( ،)Inertia by cellجدول التك اررات النسبية لألسطر ولألعمدة ( ،)Row and column profilesالقيم الذاتية ( ،)Eigenvaluesمسافة كاي تربيع (Chi- ،)square (or Hellinger) distancesالمركبات الرئيسية لجدولي األسطر واألعمدة (،)Principal coordinates المركبات القياسية لجدولي األسطر واألعمدة ( ،)Standard coordinatesالمساهمة النسبية لألسطر واألعمدة في تشكيل المحاور العاملية ( ،)Contributionsنسبة التمثيل على المحاور (جيب التمام ،)cosinesجدول العرض ثالثي األبعاد (.)Table for 3D visualization التربيعي)( Squared .5نضغط :Charts ( Maps .1.5الخرائط) :كل هذه المخططات البيانية تم شرحها في الدرس بالتفصيل (أنظر الصفحة .).... -المخططات المتناظرة ( :)Symmetric plotsقم بتنشيط هذا الخيار لعرض المخططات التي تلعب فيها نقاط دور متناظ ار .تستند هذه الخرائط على اإلحداثيات الرئيسية لنقاط الصفوف ونقاط األعمدة. الصف ونقاط العمود ًا الصفوف واألعمدة :قم بتنشيط هذا الخيار لرسم مخطط يتم فيه عرض نقاط الصفوف ونقاط األعمدة. الصفوف :قم بتنشيط هذا الخيار إلنشاء مخطط تُعرض فيه نقاط الصف فقط. األعمدة :قم بتنشيط هذا الخيار إلنشاء مخطط تعرض فيه نقاط األعمدة فقط.197 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA -المخططات غير المتناظرة :قم بتنشيط هذا الخيار لعرض المخططات التي تلعب فيها نقاط الصف ونقاط دور غير متناظ ار .تستخدم هذه المخططات من ناحية اإلحداثيات الرئيسية ومن ناحية أخرى اإلحداثيات األعمدة ًا القياسية. الصفوف :قم بتنشيط هذا الخيار لعرض مخطط حيث يتم عرض نقاط الصف باستخدام إحداثياتها الرئيسية،ويتم عرض نقاط األعمدة باستخدام إحداثياتها القياسية. األعمدة :قم بتنشيط هذا الخيار لعرض مخطط حيث يتم عرض نقاط الصف باستخدام إحداثياتها القياسية،ويتم عرض نقاط األعمدة باستخدام إحداثياتها الرئيسية. المتجهات :قم بتنشيط هذا الخيار لعرض المتجهات لإلحداثيات القياسية على المخططات غير المتناظرة. -عامل الطول :قم بتنشيط هذا الخيار لتعديل طول المتجهات. دور غير : -قم بتنشيط هذا الخيار لعرض biplotsالمساهمة التي تلعب فيها نقاط الصف ونقاط العمود ًا متناظر .تستخدم هذه المخططات من ناحية اإلحداثيات الرئيسية ومن ناحية أخرى إحداثيات المساهمة التي تأخذ في االعتبار األوزان. الصفوف :قم بتنشيط هذا الخيار لعرض مخطط حيث يتم عرض نقاط الصف باستخدام إحداثياتها الرئيسية ،ويتم عرض نقاط األعمدة باستخدام إحداثيات مساهمتها. األعمدة :قم بتنشيط هذا الخيار لعرض مخطط حيث يتم عرض نقاط الصف باستخدام إحداثيات مساهمتها ،ويتم عرض نقاط األعمدة باستخدام إحداثياتها الرئيسية. .2.5اضغط موافق ،يظهر مربع الحوار التالي. لدينا جدول متقاطع بسبعة أسطر وأربعة أعمدة .اضغط مواصة ،فيظهر مربع الحوار التالي. 198 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA ان المحورين األول والثاني يفسران معا 97في المائة من التباين (القصور الذاتي) في حدد عدد المحاور ،الحظ ّ سحابة النقط .لذلك ،سنكتفي بهما ،نضغط .Done .1اختبار كاي تربيع لالستقاللية بين األسطر واألعمدة (بين الفئة العمرية والحكم على جودة الفلم): 148,268 28,869 18 <0.0001 0,050 )Chi-square (Observed value )Chi-square (Critical value DF p-value alpha يظهر من الجدول أن قيمة كاي تربيع للقيم المرصودة (المشاهدة) تساوي ،148.268وهي أكبر من قيمة كاي تربيع للقيم المتوقعة (النظرية) ( ،)28.869عند درجات حرية تساوي ،)(7-1)(4-1)( 18ومستوى داللة ،0.0001وهو أقل من مستوى الداللة الحرج ،الذي عنده نقبل أو نرفض فرضية العدم .وعليه ،نرفض فرضية العدم ونقبل الفرضية البديلة ،توجد عالقة بين الفئات العمرية ومستوى الحكم على جودة الفلم. .2القصور الذاتي الكلي: 0,109 Total inertia: .3القيم الذاتية ونسبة المساهمة في تشكيل المحاور ،والنسبة التجميعية المتصاعدة. F2 F3 0,012 0,003 10,674 2,685 97,315 100,000 F1 Eigenvalue 0,095 Inertia % 86,640 Cumulative % 86,640 (بعد) .يمكن تقييم جودة التحليل من خالل تتوافق قيم eigenvaluesمع التباين المستخرج بواسطة كل عامل ُ العودة إلى جدول قيم eigenvaluesأو الرسم البياني أدناه .يعتبر التحليل في هذا المثال ذا نوعية جيدة حيث أن مجموع قيمتي eigenvaluesيضيف ما يصل إلى ٪97من إجمالي القصور الذاتي. 199 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .4الرسم البياني للقيم الذاتية: Scree plot 0,1 100 0,09 0,08 80 0,07 )Inertia (% 60 0,05 0,04 40 Eigenvalue 0,06 0,03 0,02 20 0,01 0 0 F2 F3 F1 axis أن شكل المرفق تشكل عند القيمة الذاتية الثانية. الحظ ّ .5تحليل جدول األسطر: .1.5الوزن ،المسافات ،المسافات المرّبعة إلى األصل ،والقصور الذاتي ،والقصور الذاتي النسبي. Inertia relative Inertia Sq-Distance Distance )Weight (relative 0,720 0,021 0,043 0,027 0,064 0,060 0,066 0,079 0,002 0,005 0,003 0,007 0,007 0,007 0,516 0,014 0,023 0,015 0,055 0,057 0,157 0,718 0,117 0,152 0,124 0,235 0,239 0,396 0,153 0,169 0,203 0,189 0,127 0,114 0,046 16-24 25-34 35-44 45-54 55-64 65-74 75+ الفئات العمرية 34-25و 44-35و 54-45لها أقصر مسافة إلى األصل ،مما يشير إلى أن ملفات تعريف هذه الفئات العمرية قريبة من السطر المتوسط. .2.5جدول الترك اررات النسبية لالسطر (ملف تعريف األسطر). 200 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA Sum ممتاز جيد متوسط سيء 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,198 0,096 0,105 0,109 0,105 0,148 0,226 0,141 0,232 0,061 0,043 0,047 0,035 0,032 0,016 0,067 0,237 0,197 0,236 0,223 0,151 0,135 0,113 0,184 0,333 0,646 0,616 0,621 0,709 0,684 0,645 0,608 16-24 25-34 35-44 45-54 55-64 65-74 75+ Mean يتم عرض ملفات تعريف الصفوف (التكرار النسبي لألسطر) باإلضافة إلى ملف التعريف المتوسط (السطر المتوسط) .في مثالنا ،تكون الملفات الشخصية للفئات العمرية 34-25و 44-35و 54-45قريبة من بعضها البعض ومن الملف الشخصي المتوسط .لقد تم توقع هذا األخير من خالل المسافة إلى األصل. .3.5جدول المسافات (( )Chi-square distancesمسافة مربع كاي) بين الفئات العمرية. 75+ 0,943 0,440 0,448 0,424 0,365 0,235 0 65-74 0,910 0,232 0,273 0,244 0,131 0 0,235 55-64 0,937 0,165 0,227 0,202 0 0,131 0,365 45-54 0,821 0,093 0,034 0 0,202 0,244 0,424 35-44 0,832 0,119 0 0,034 0,227 0,273 0,448 25-34 0,810 0 0,119 0,093 0,165 0,232 0,440 16-24 0 0,810 0,832 0,821 0,937 0,910 0,943 16-24 25-34 35-44 45-54 55-64 65-74 75+ تعطي المسافات بين الصفوف معلومات حول التشابه بين الفئات .مرة أخرى ،يبدو أن الفئات العمرية 34-25 و 44-35و 54-45متشابهة ،مع وجود مسافة أقل من .0.2 .4.5اإلحداثيات الرئيسية (المركبات األساسية) (األسطر): F3 0,008 0,056 -0,055 -0,036 0,083 0,019 -0,118 F2 0,025 -0,056 -0,097 -0,069 0,042 0,152 0,342 F1 0,718 -0,087 -0,103 -0,097 -0,216 -0,183 -0,162 16-24 25-34 35-44 45-54 55-64 65-74 75+ .5.5المركبات القياسية لألسطر: 201 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA F3 0,139 1,027 -1,007 -0,666 1,535 0,358 -2,176 F2 0,234 -0,516 -0,902 -0,640 0,392 1,411 3,164 F1 2,332 -0,282 -0,334 -0,315 -0,702 -0,595 -0,527 16-24 25-34 35-44 45-54 55-64 65-74 75+ اإلحداثيات القياسية هي إحداثيات رئيسية مقسومة على الجذر التربيعي لمعامل القيمة الذاتية المقابلة .ومجموع المربعات المرجح لإلحداثيات القياسية يساوي 1لكل عامل. مثال ،القيمة الذاتية المقابلة للمركبة الرئيسية األولى ،هي ،0.095نقسم كل مركبة رئيسية على هذه القيمة نحصل المركبة القياسية (.)0.718/0.308=2.332 .6.5نسب مساهمة االسطر في تشكيل المحاور: F3 F2 F1 Weight )(relative 0,003 0,178 0,206 0,084 0,298 0,015 0,216 0,008 0,045 0,165 0,077 0,020 0,227 0,457 0,830 0,013 0,023 0,019 0,062 0,040 0,013 0,153 0,169 0,203 0,189 0,127 0,114 0,046 16-24 25-34 35-44 45-54 55-64 65-74 75+ تتوافق المساهمات مع أهمية كل فئة لكل عامل (بعد) ،ومجموع المساهمات يساوي 1لكل عامل .وكقاعدة عامة ،إذا كانت المساهمة أكبر من واحد مقسوما على عدد األسطر ،فإن الفئة مهمة للعامل المحدد .في مثالنا، تعتبر المجموعة 24-16مهمة للعامل ،F1والمجموعتين 74-65و +75مهمة للعامل .F2 .7.5جودة تمثيل األسطر: F3 0,000 0,225 0,129 0,084 0,125 0,007 0,089 F2 0,001 0,226 0,412 0,309 0,032 0,407 0,744 F1 0,999 0,549 0,458 0,607 0,843 0,587 0,167 16-24 25-34 35-44 45-54 55-64 65-74 75+ 202 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يعرض الجدول أعاله جيب التمام التربيعي للصفوف .يمثل جيب التمام التربيعي أهمية كل عامل لكل فئة، ومجموع جيب التمام التربيعي يساوي 1لفئة معينة .في مثالناُ ،يعزى كل التباين في المجموعة 24-16تقر ًيبا إلى العامل.F1 مالحظة :يتم تحليل جدول األعمدة بالطريقة نفسها. .6التمثيل البياني: Symmetric plot )(axes F1 and F2: 97,31 % 0,8 0,6 0,4 75+ ممتاز 0,2 )F2 (10,67 % 65-74 55-64 سيئ 16-24 0 جيد 25-34 45-54 35-44 متوسط -0,2 -0,4 -0,6 1,4 1,2 1 0,8 0,6 0,2 0,4 0 -0,2 -0,4 -0,6 -0,8 )F1 (86,64 % Columns Rows 203 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA التطبيق باستخدام برنامج SPSS مثال :يحتوي الجدول الموالي على مجموعة من الشركات وتقييم خصائص بطاقات في از كارد التي تقدمها كل شركة. المجموع Amazon Flipcart Myntra Naaptol Japong Snapdeal Loacalbania 175 8 8 12 11 15 65 56 سهولة االستعمال 174 25 34 3 3 8 53 48 الدفع اآلمن 224 17 16 12 28 36 51 64 عروض خاصة 206 46 8 8 65 3 35 41 خدمة ما بعد البيع 139 13 14 25 31 5 19 32 موعد التسليم 144 14 15 9 5 13 37 51 سعر تنافسي 1062 123 95 69 143 80 260 292 المجموع نقوم بنقل البيانات من الجدول إلى برنامج .SPSS في الخطوة األولى علينا أن نقوم بترجيح أوزان الحاالت بواسطة التك اررات من خالل األمر Weight Cases الموجود بالقائمة .Data 204 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA …Data> Weight Cases نؤشر على الخيار Weight cases byثم ننقل التكرار إلى الخانة Frequency Variableونضغط ok ألن العملية تتم في الخلفية. سيتم ترجيح أوزان المشاهدات ،ولن يظهر أي تغيير على البياناتّ ، ثم من القائمة الرئيسية Analayzeاختر Dimension Reductionثم Correspondence Analysis Analyze >Dimension Reduction>Correspondence Analysis... 205 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .1ننقل المتغير االسمي (الشركة) إلى خانة الصفف ( ،)Rowوالمتغير االسمي السمات إلى خانة العمود (.)Column .2نضغط Define Rangeونحدد المدى ،في حالتنا هذه توجد 7شركات ،يعني من 1إلى .7 ثم .Continue نضع 1في أدنى قيمة ،و 7في أعلى قيمة ،ثم نضغط ،Updateومن ّ .3نضغط Define Rangeمرة أخرى ونحدد المدى ،في حالتنا هذه توجد 6سمات ،يعني من 1إلى .6 .4نضغط النموذج (:)Model 206 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA .1يمكنك تحديد عدد األبعاد في الحل ،افتراضيا تجدها .2 إما عن طريق كاي تربيع أو بطريقة المسافة .2نختار طريقة حساب المسافة (ّ ،)Distance Measure اإلقليدية. .3نحدد طريقة الترجيح (طريقة التوحيد). :Row and column means are removedيتم توسيط الصفوف واألعمدة ،هذه الطريقة تستخدم فيالتحليل التقابلي القياسي. .4نختار طريقة التماثل ( )Symmetricalأو أي طريقة أخرى من الطرق الخمسة. بالنسبة لطريقة التماثل :لكل ُبعد ،تكون درجات الصف هي المتوسط المرجح لدرجات العمود مقسومة على القيمة المفردة المطابقة ،ودرجات العمود هي المتوسط المرجح لدرجات الصف مقسومة على القيمة المفردة المطابقة، استخدم هذه الطريقة إذا كنت تريد فحص االختالفات أو أوجه التشابه بين فئات المتغيرين. .5نضغط .Continue .6نضغط :Statistics 207 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA يتيح لنا هذا الخيار عرض جدول التقاطع ،وجدولي التك اررات النسبية لألسطر واألعمدة .وكذلك إلقاء نظرة عامة على نقاط الصف والعمود ،مثل القصور الذاتي ومساهمة كل صف أو عمود في القصور الذاتي الكلي...الخ. .7نضغط على Plotsونختار الرسوم البيانية التي نريدها ،ونضغط .Continue 208 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA نعود لمرّبع الحوار الرئيسي ونضغط .ok الجدول األول :جدول التقاطع (التقابل). الجدول الثاني :جدول التك اررات النسبية لألسطر. الجدول الثالث :جدول التك اررات النسبية لالعمدة. ملخص. الجدول الرابعّ : 209 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA هذا الجدول مهم جدا في عملية التحليل ،فهو يحتوي على قيمة كاي تربيع لالستقاللية ،ومستوى الداللة ،ونالحظ أن قيمة كاي تربيع تساوي 269.57عند مستوى داللة ،0.0001وهو أقل من مستوى الداللة الحرج ،0.05 ّ أن متغيرات الصفوف واألعمدة متغيرات مرتبطة وليست مستقلة ،بمعنى آخر ّأنه توجد عالقة وعليه ،يمكن القول ّ بين الشركات والسمات المقاسة .كما نالحظ في العمود الثالث قيمة القصور الذاتي المفسر بواسطة كل مركبة أن أن المركبتين األولى والثانية يفسران معا 92.3في المائة من التباين الكلي .مما يعني ّ أساسية ،ويتضح ّ التمثيل جيد جدا. الجدول الخامس :نسبة مساهمة األسطر في تشكيل المحاور. أن شركة Amazoneساهمت في تشكيل المحور األول بـ ،0.052أي بنسبة 5.2 من العمود السادس نالحظ ّ أن مساهمتها في تشكيل المحور بالمائة ،وكانت مساهمتها في تشكيل المحور الثاني 0.7بالمائة ،مما يعني ّ األول كانت أفضل .وأعلى إسهاما كان لشركة Naaptolفي المحور األول بنسبة 58بالمائة .ثم شركة Jabongفي المحور الثاني بنسبة 30بالمائة .ثم شركة Localbaniaفي المحور الثاني بنسبة 27بالمائة. 210 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- د .خالد علي التحليل بالمعامالت للتوفيقات ()CA الجدول السادس :نسبة مساهمة األعمدة في تشكيل المحاور. أن خدمة ما بعد البيع هي األعلى ّ يوضح الجدول نسبة مساهمة كل سمة في المحورين األول والثاني .نالحظ ّ مساهمة بنسبة 56بالمائة في المحور األول ،ونسبة مساهمة الدفع اآلمن في البعد الثاني كانت 51بالمائة. أن سمة خدمة ما بعد البيع مرتبطة بشركة ،Naaptolوسمة الدفع اآلمن موجودة أكثر لدى شركة يتضح ّ .Snapdeal 211 تحليل المعطيات جامعة الشهيد حمة لخضر –الواد- الفصل الخامس: التصنيف التسلسلي الهرمي AHC د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. طريقة التصنيف التسلسلي Classification Hiérarchique هو أسلوب إحصائي يستخدم لتحديد كيف يمكن تجميع الوحدات المختلفة ،مثل األشخاص أو المجموعات أو أيضا باسم التجميع ،وهو عبارة عن أداة معا ،بسبب الخصائص المشتركة بينها .وُيعرف ً المجتمعات ً استكشافية لتحليل البيانات تهدف إلى تصنيف كائنات مختلفة إلى مجموعات بطريقة معينة ،بحيث عندما يكونون منتمين إلى نفس المجموعة ،يكون لديهم درجة قصوى من االرتباط وعندما ال ينتمون إلى نفس المجموعة ،درجة االرتباط تكون في الحد األدنى .ويمكن من خالله تجميع البيانات في مجموعات عنقودية، وكل عنقود عبارة عن مجموعة من المشاهدات المتجانسة فيما بينها ،بحيث تكون كل العناصر المكونة لكل عنقود متشابهة ،وفي نفس الوقت مختلفة مع العناصر المكونة لعنقود آخر. غالبا ما يستخدم التصنيف بالموازاة مع التحليالت األخرى (مثل التحليل بالمركبات االساسية) .ويجب أن و ً بناء على فهمه للبيانات ،لتحديد ما إذا كانت النتائج التي ينتجها يكون الباحث ًا قادر على تفسير التصنيف ً التحليل ذات مغزى. كيف تعمل؟ أنظر إلى هذه البيانات :كم عدد المجموعات التي تراها؟ ربما سيقول البعض ثالثة مجموعات ،والبعض اآلخر 4أو حتى .5في الواقع ،هناك 5مجموعات جدا ،لذلك يمكننا اعتبار أنها تشكل مجموعة واحدة واإلجابة هي .4هاتان مميزة ،لكن اثنتين منها متقاربة ً معا ،فإننا نعتبر أن المجموعتان المتقاربتان ً أيضا قريبتان ً جدا هما ً نسبيا من مجموعة ثالثة ،إذا قمنا بتجميعها ً 212 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. جدا ،بينما لو كانت ،5فذلك يعني ّأنك تفضل هناك 3مجموعات .لو كانت إجابتك 3فنظرتك عامة ً الحصول على تحليل أدق وأكثر تعمقًا .وبالتالي ،فإن مستوى التعمق هو الذي يحدد التسلسل الهرمي. في التصنيف التسلسلي يتم تمثيل البيانات بواسطة مخطط شجري يدعى ديندوغرام ( ،)Dendrogrammeويعتمد التصنيف في كل مرحلة من التجزئة على جمع العناصر األكثر اقترابا مثنى ومتكرر ،أي ا مثنى .وبالنسبة للمتغيرات يمكن تصنيفها من أجل تقليص عددها ،إذ يمكن أن يكون عددها كبي ار أنّ هناك متغيرات تفسر بنفس القدر ،وبالتالي يسمح التصنيف باختبار المتغيرات األكثر تمثيال. التصنيف التصاعدي والتنازلي :توجد طريقتين للتصنيف التسلسلي ،التصاعدي والتنازلي ،ففي التصاعدي أيضا التجميع التكتلي) نعتبر أوالً أن كل نقطة عبارة عن كتلة ،لذلك هناك عدد من المجموعات (يسمى ً يساوي عدد النقاط ،ثم نبحث عن أقرب مجموعتين ،ونجمعهم في كتلة واحدة ،وتتكرر هذه الخطوة حتى يتم أيضا التكتل االنقسامي) نبدأ بمجموعة تجميع جميع النقاط في مجموعة كبيرة واحدة؛ وفي التنازلي (يسمى ً كبيرة تحتوي على جميع النقاط ،ثم نقسمها على التوالي حتى نحصل على أكبر عدد ممكن من المجموعات كما هو الحال في النقاط. والمفتاح في عملية التصنيف هو المسافة بين المجموعات على المحور ص ،فكلما زاد حجمها ،زاد عدد التجمعات .يوجد في الجزء العلوي من هذا المحور مجموعة واحدة فقط ،وفي أسفل هذا المحور يوجد عدد من العناقيد يساوي عدد األفراد .ف إذا أردنا اآلن إنشاء قسم به مجموعتان ،علينا قطع الشجرة على ارتفاع .1000إذا أردنا 3مجموعات ،فإننا نقطع عند 4 ،600مجموعات عند ،200إلخ. 213 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. مالحظة :إذا كان لدينا العديد من النقاط ،فقد يكون الجزء السفلي من مخطط الديندوقرام غير قابل للقراءة، وهذا هو سبب تمثيل الجزء العلوي من الشجرة فقط (في بعض الحاالت). المسافة بين األفراد في نفس المجتمع :لتجميع األفراد المتشابهين ،ال بد من معيار للتجميع ،وللقيام بذلك علينا فحص جميع المعلومات المتعلقة باألفراد ،مثال في حالة المرضى ،درجة الح اررة ،ضغط الدم...،إلخ أن كل فرد يمثل نقطة في الفضاء: ( ،)𝑥𝑖 , 𝑦𝑖 … ..ولدينا مجموعة من األفراد ،ونفترض ّ فإذا كان هناك متغيرين فقط ( 𝑖𝑦 ،)𝑥𝑖 ,نحصل على سحابة من النقط في المستوى: ) 𝑀𝑖 =(𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , … . }𝑛 NP= {𝑀𝐼 , 𝑖 = 1 … … . . المسافة األقليدية بين فردين ( 𝑗𝑀 )𝑀𝑖 ,في هذا الفضاء تعطى بالعالقة التالية: 𝑑 2 (𝑀𝑖 , 𝑀𝑗 ) = √(𝑥𝑖 − 𝑥𝑗 )2 + (𝑦𝑖 − 𝑦𝑗 )2 هذه المسافة تكون صغيرة إذا كان الفردين متشابهين ،وتكون كبيرة إذا كانا مختلفين .ويمكننا ربط كل سحابة من األفراد بمصفوفة نسميها مصفوفة المسافات: 𝐷 = (𝑑𝑖𝑗 )/ 0 ≤ 𝑖 ≤ 𝑛, 0 ≤ 𝑗 ≤ 𝑛 = ((𝑑 2 )𝑀𝑖 , 𝑀𝑗 ). ألن: وهي مصفوفة بعدد nصفوف و nأعمدة ،معامالتها موجبة ومتماثلة وصفرية القطرّ ، 𝑑 2 (𝑀𝑖 , 𝑀𝑗 )=𝑑 2 (𝑀𝑗 , 𝑀𝑖 )………………..𝑑 2 (𝑀𝑖 , 𝑀𝑖 )=0. لذلك من أجل سحابة بعدد nمن األفراد ،يوجد )𝑛(𝑛−1 2 مسافة يتم حسابها .والى جانب المسافة اإلقليدية، يمكننا تحديد مسافات أخرى (وبالتالي مصفوفات أخرى للمسافات) ،مثال: | 𝑗𝑦 𝑑1 (𝑀𝑖 , 𝑀𝑗 )= |𝑥𝑖 − 𝑥𝑗 | + |𝑦𝑖 − }| 𝑗𝑦 𝑑 ∞ (𝑀𝑖 , 𝑀𝑗 )= 𝑀𝑎𝑥 {|𝑥𝑖 − 𝑥𝑗 |, |𝑦𝑖 − المسافة اإلقليدية بين نقطتين تحسب من العالقة: 2 𝑝 ) 𝑗𝑑(𝑖, 𝑖 ′ ) = √ ∑ (𝑥𝑖𝑗 − 𝑥𝑖′ 𝑗=1 المسافة اإلقليدية مرّبعة ،تحسب من العالقة: 𝑑 2 (𝑖, 𝑖 ′ ) = ∑𝑗=1(𝑥𝑖𝑗 − 𝑥𝑖′𝑗 )2 𝑝 أن السحابة NPتتكون من عدة مجموعات االختالفات بين الطبقات ( :)Ecarts entre classesنفترض ّ أو طبقات ( ،)NP1,NP2,……,NPkونسمي مركز الثقل لكل مجموعة .)G1,G2,……,Gk( Gووزن كل 214 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. 1 مجموعة .)P1, P2,……, Pk( Pفإذا كان لكل األفراد نفس الوزن ( ) ،فإن وزن المجموعة NPJيساوي 𝑛 مجموع أفرادها مقسوما على .nويكون مجموع الوزن لجميع المجموعات يساوي .1ولحساب التقارب والتباعد بين طبقتين ،توجد العديد من الطرائق ،من أهمها: .1مؤشر التجميع ألدنى مسافة (ربط بسيط) :المسافة بين مجموعتين هي المسافة بين أقرب نقطتين .هذا بأن مجموعتان متقاربتان إذا كانت اثنتان على األقل من نقاطهما متقاربة .ويتم فيها تجميع يعادل القول ّ عناصر كل زوج في مجموعة جديدة ،وتكرر العملية إلى غاية تجميع كل األصناف في مجموعة واحدة. )(H1 ,H2)= Min d2(Xi ,Xj .2مؤشر التجميع ألقصى مسافة (الربط الكامل) :تعتبر المسافة بين مجموعتين هي المسافة بين أبعد نقطتين ،وهذا يعادل بالتالي قولنا "مجموعتان متقاربتان إذا كانت جميع نقاطهما متقاربة". )(H1, H2) = Max d2(Xi, Xj .3مؤشر التجميع للمسافة المتوسطة (متوسط االرتباط) :تعتبر المسافة بين مجموعتين هي متوسط جميع المسافات بين نقاط مجموعة واحدة ونقاط المجموعة األخرى .لحسابها ،نقوم بتعداد جميع أزواج النقاط الممكنة من مجموعة إلى أخرى ،ثم نحسب مسافة كل زوج ،ثم نحسب المتوسط. .4الرابط المركزي () :المسافة بين مجموعتين تعتبر المسافة بين النقطتين الوسطى :تجعل طرق االرتباط جيدا ،ألن المسافة بين المجموعات تؤخذ في االعتبار .ومع ذلك ،فهم من الممكن ضمان فصل المجموعات ً ال يضمنون أن التجمعات ضيقة على نفسها (هذا هو مفهوم القصور الذاتي داخل الطبقة) .لحل هذه 215 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. المشكلة ،هناك طريقة وارد التي ،في كل تكرار ،أي في كل مرة يتم فيها تجميع مجموعتين في ،1تسعى إلى تقليل الزيادة في القصور الذاتي داخل الطبقة بسبب تجميع المجموعتين. اقترح وارد هذه الطريقة سنة 1963وتسمح من الحصول على مجموعات بطريقة تصغر من فقدان المعلومات الناتجة من كل تجميع حيث أنها تعتمد على تحليل التباين ،حيث يتمثل في تدنئة أو تصغير مجموع المربعات لكل األزواج الممكن تشكيلها في كل مرحلة ويتم تصنيف المجموعات عن طريق وارد كما يلي: -تحسب مصفوفة التجميع من العالقة: 𝑝 𝑝 ) 𝑙𝐺 𝑑(𝑁𝑃𝑚 , 𝑁𝑃𝑙 )= 𝑚 𝑙 𝑑 2 (𝐺𝑚 , 𝑙𝑝𝑝𝑚 + -يتم تجميع المجموعتين Aو Bمع العنصر Cوفقا للعالقة: )𝐵(𝑛𝐴 +𝑛𝐶 )δ(𝐴,𝐶 )+(𝑛𝐵 +𝑛𝐶 )δ(𝐵,𝐶 )−𝑛𝐶 δ(𝐴, =)δ((A, B) :C 𝐶𝑛𝑛𝐴 +𝑛𝐵 + القصور الذاتي داخل الطبقات والقصور الذاتي بين الطبقات :نسمي القصور الذاتي الكلي (التباين الكلي) لسحابة النقاط NPالمجموع المرجح لمربعات مسافات نقاطها من مركز ثقل السحابة .لذلك ،أذا كانت G فإن القصور الذاتي الكلي لسحابة النقاط: نقطة مركز ثقل سحابة النقاط ،ولجميع النقاط نفس الوزنّ ، 1 𝐼(𝑁𝑃) = (𝑑 2 (𝑀1 , 𝐺)2 + 𝑑 2 (𝑀2 , 𝐺)2 ) + ⋯ + 𝑑 2 (𝑀𝑛 , 𝐺)2 𝑛 واذا كانت سحابة النقط تتكون من عدة طبقات ،تفكك مثنى مثنى ،لتكون أكثر تجانسا من التباين الكلي لكل طبقة .مجموع التباينات لكل الطبقات يسمى التباين داخل الطبقات. ) 𝑘𝑃𝑁(𝐼 𝐼𝒊𝒏𝒕𝒓𝒂 =𝐼(𝑁𝑃1 ) + 𝐼(𝑁𝑃2 ) + ⋯ + إجمالي القصور الذاتي للسحابة بشكل عام ال يساوي مجموع القصور الذاتي للفئات التي تتكون منها ،أي القصور الذاتي داخل الطبقة (باستثناء الحالة التي تكون فيها مراكز الثقل من بين جميع الفئات مشوشة) ألنه أيضا مراعاة تشتت الفئات فيما يتعلق بمركز ثقل السحابة .ويحدد القصور الذاتي بين الطبقات من الضروري ً بواسطة: 𝐼𝒊𝒏𝒕𝒆𝒓 =𝑝̅1 𝑑 2 (𝐺1 , 𝐺)2 +𝑝̅2 𝑑 2 (𝐺2 , 𝐺)2 +…+𝑝̅𝑘 𝑑 2 (𝐺𝑘 , 𝐺)2 حيث 𝑝̅ :الوزن الكلي للطبقة 𝑗𝑃𝑁. مالحظة :الجمود الكلي لسحابة من النقاط مكونة من فئات مختلفة مفككة اثنين اثنين هو مجموع القصور الذاتي داخل الطبقات والقصور الذاتي بين الطبقات ،أي: 𝒓𝒆𝒕𝒏𝒊𝐼 𝐼 (𝑡) = 𝐼𝒊𝒏𝒕𝒓𝒂 + 216 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. تحسب المسافة االقليدية مرّبعة بين نقطتين من العالقة: 𝑑 2 (𝑖, 𝑖 ′ ) = ∑𝑗=1(𝑥𝑖𝑗 − 𝑥𝑖′𝑗 )2 𝑝 وفي حالة كانت المتغيرات غير متجانسة ،علينا مركزة البيانات وترجيحها. التمرين رقم :1لدينا الجدول التالي: Y X 0 1 2 4 4 2 0 0 3 5 M1 M2 M3 M4 M5 .1أحسب المسافات بين األفراد (مصفوفة القرابة) مستخدما المسافة اإلقليدية مرّبعة. صنف األفراد باستخدام مؤشر التجميع ألدنى مسافة ،وارسم الديندوغرام. ّ .2 صنف األفراد باستخدام مؤشر التجميع ألقصى مسافة ،وارسم الديندوغرام. ّ .3 .4تصنيف األفراد وفقا لمؤشر المسافة المتوسطة ،وارسم الديندوغرام. صنف األفراد وفقا لمؤشر وارد ( ،)Wardوارسم الديندوغ ارم. ّ .5 الحل: .1جدول المسافات. 𝑑 2 (𝑖, 𝑖 ′ ) = ∑𝑗=1(𝑥𝑖𝑗 − 𝑥𝑖′𝑗 )2 𝑝 𝑑 2 (𝑀1, 𝑀2) = (2 − 0)2 + (0 − 1)2 =5 وبعد اتمام جميع الحسابات يكون جدول القرابة على النحو التالي: M5 25,000 34,000 29,000 4,000 0 M4 17,000 18,000 13,000 0 4,000 M2 5,000 0 1,000 18,000 34,000 M3 8,000 1,000 0 13,000 29,000 M1 0 5,000 8,000 17,000 25,000 M1 M2 M3 M4 M5 .2تصنيف األفراد باستخدام مؤشر التجميع ألدنى مسافة. ننظر في أدنى مسافة في جدول المسافات ،وهي بين M2و .)1( M3نقوم بوضع M2و M3في مجموعة واحدة ،نسميها Aمثال .ثم في الخطوة الثانية نحسب المسافة بين المجموعة الجديدة Aوبقية األفراد ،كما يلي: 217 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. δ(A, M1)= 𝑀𝑖𝑛[𝑑 2 (M2, M1); 𝑑 2 (M3, M1)] = 𝑑 2 (M2, M1) =5 لحساب المسافة بين Aو ،M1نحسب المسافة بين M2و ،M1وهي ،5ثم بين M3و ،8 ،M1نأخذ أدنى مسافة ،وهي بين M2و.M1 δ(A, M4)= 𝑀𝑖𝑛[𝑑 2 (M2, M4); 𝑑 2 (M3, M4)] = 𝑑 2 (M3, M4) =13 δ(A, M5)= 𝑀𝑖𝑛[𝑑 2 (M2, M5); 𝑑 2 (M3, M5)] = 𝑑 2 (M3, M5) =29 نحصل على المصفوفة الموالية: A 5 13 29 0 M5 25,000 4,000 0 29 M1 0 17,000 25,000 5 M4 17,000 0 4,000 13 M1 M4 M5 A أدنى مسافة في هذه المصفوفة بين M5و ،M4نكرر العملية ،ونقوم بتجميع M4مع M5في مجموعة جديدة ،نسميها .Bونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(B, M1)= 𝑀𝑖𝑛[𝑑 2 (M4, M1 ); 𝑑 2 (M5, M1)] = 𝑑 2 (M4, M1) =17 δ(B, A)= 𝑀𝑖𝑛[𝑑 2 (M4, A); 𝑑 2 (M5, A)] = 𝑑 2 (M4, A) =13 وتصبح المصفوفة كما يلي: A 5 0 13 B 17 13 0 M1 0 5 17 M1 A B أدنى مسافة في هذه المصفوفة بين Aو ،M1نكرر العملية ،ونقوم بتجميع Aمع M1في مجموعة جديدة، نسميها .Cونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(C, B)= 𝑀𝑖𝑛[𝑑 2 (M1, B ); 𝑑 2 (A, B)] = 𝑑 2 (A, B) =13 وتصبح المصفوفة كما يلي: C 13 0 B 0 13 ويكون شكل الديندوغرام على النحو التالي: 218 B C د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. Dendrogramme 14 12 10 6 Dissimilarité 8 4 2 0 M3 M2 M1 M5 M4 .3تصنيف األفراد وفقا ألقصى مسافة ،ورسم الديندوغرام. M4 17,000 18,000 13,000 0 4,000 M5 25,000 34,000 29,000 4,000 0 M2 5,000 0 1,000 18,000 34,000 M3 8,000 1,000 0 13,000 29,000 M1 0 5,000 8,000 17,000 25,000 M1 M2 M3 M4 M5 ننظر في أدنى مسافة في جدول المسافات ،وهي بين M2و .)1( M3نقوم بوضع M2و M3في مجموعة واحدة ،نسميها Aمثال .ثم في الخطوة الثانية نحسب المسافة بين المجموعة الجديدة Aوبقية األفراد ،كما يلي: δ(A, M1)= 𝑀𝑎𝑥[𝑑 2 (M2, M1); 𝑑 2 (M3, M1)] = 𝑑 2 (M3, M1) =8 لحساب المسافة بين Aو ،M1نحسب المسافة بين M2و ،M1وهي ،5ثم بين M3و ،8 ،M1نأخذ أقصى مسافة ،وهي بين M3و.M1 δ(A, M4)= 𝑀𝑎𝑥[𝑑 2 (M2, M4); 𝑑 2 (M3, M4)] = 𝑑 2 (M3, M4) =18 δ(A, M5)= 𝑀𝑎𝑥[𝑑 2 (M2, M5); 𝑑 2 (M3, M5)] = 𝑑 2 (M3, M5) =34 نحصل على المصفوفة الموالية: A 8 18 34 0 M5 25,000 4,000 0 34 M4 17,000 0 4,000 18 219 M1 0 17,000 25,000 8 M1 M4 M5 A د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. أدنى مسافة في هذه المصفوفة بين M5و ،M4نكرر العملية ،ونقوم بتجميع M4مع M5في مجموعة جديدة ،نسميها .Bونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(B, M1)= 𝑀𝑎𝑥[𝑑 2 (M4, M1 ); 𝑑 2 (M5, M1)] = 𝑑 2 (M4, M1) =25 δ(B, A)= 𝑀𝑎𝑥[𝑑 2 (M4, A); 𝑑 2 (M5, A)] = 𝑑 2 (M4, A) =18 وتصبح المصفوفة كما يلي: A 8 0 18 B 25 18 0 M1 0 8 25 M1 A B أدنى مسافة في هذه المصفوفة بين Aو ،M1نكرر العملية ،ونقوم بتجميع Aمع M1في مجموعة جديدة، نسميها .Cونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(C, B)= 𝑀𝑖𝑛[𝑑 2 (M1, B ); 𝑑 2 (A, B)] = 𝑑 2 (A, B) =13 وتصبح المصفوفة كما يلي: B 0 25 C 25 0 B C ويكون شكل الديندوغرام على النحو التالي: Dendrogramme 40 35 30 25 15 10 5 0 M3 M2 M1 M5 M4 220 Dissimilarité 20 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. لقد اختلف شكل الديندوغرام ،فقد تم تجميع M2مع M3لتشكيل المجموعة Aثم تجميع M4و M5لتشكيل المجموعة ،Bوتكونت المجموعة Cمن تجميع M1مع المجموعة ،Aوتجميع المجموعة Cمع المجموعة Bيشكل المجموعة الكلية. .4تصنيف األفراد وفقا لمؤشر المسافة المتوسطة. M4 17,000 18,000 13,000 0 4,000 M5 25,000 34,000 29,000 4,000 0 M2 5,000 0 1,000 18,000 34,000 M3 8,000 1,000 0 13,000 29,000 M1 0 5,000 8,000 17,000 25,000 M1 M2 M3 M4 M5 ننظر في أدنى مسافة في جدول المسافات ،وهي بين M2و .)1( M3نقوم بوضع M2و M3في مجموعة واحدة ،نسميها Aمثال .ثم في الخطوة الثانية نحسب المسافة بين المجموعة الجديدة Aوبقية األفراد ،كما يلي: δ(A, M1)= 𝑀𝑜𝑦[𝑑 2 (M2, M1 ); 𝑑 2 (M3, M1)] = 𝑀𝑜𝑦[5; 8 ] =6.5 δ(A, M4)= 𝑀𝑜𝑦[𝑑 2 (M2, M4 ); 𝑑 2 (M3, M4)] = 𝑀𝑜𝑦[18; 13 ] =15.5 δ(A, M5)= 𝑀𝑜𝑦[𝑑 2 (M2, M5 ); 𝑑 2 (M3, M5)] = 𝑀𝑜𝑦[34; 29 ] =31.5 وتصبح المصفوفة كما يلي: A 6.5 15.5 31.5 0 M5 25,000 4,000 0 31.5 M1 0 17,000 25,000 6.5 M4 17,000 0 4,000 15.5 M1 M4 M5 A أدنى مسافة في هذه المصفوفة بين M5و ،M4نكرر العملية ،ونقوم بتجميع M4مع M5في مجموعة جديدة ،نسميها .Bونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(B, M1)= 𝑀𝑜𝑦[𝑑 2 (M4, M1 ); 𝑑 2 (M5, M1)] = 𝑀𝑜𝑦[17; 25 ] =21 δ(B, A)= 𝑀𝑜𝑦[𝑑 2 (M4, A); 𝑑 2 (M5, A)] = 𝑀𝑜𝑦[15.5; 31.5 ] =23.5 وتصبح المصفوفة كما يلي: B 21 23.5 0 A 6.5 0 23.5 M1 0 6.5 21 221 M1 A B د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. أدنى مسافة في هذه المصفوفة بين Aو ،M1نكرر العملية ،ونقوم بتجميع Aمع M1في مجموعة جديدة، نسميها .Cونحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(C, B)= 𝑀𝑜𝑦[𝑑 2 (M1, B); 𝑑 2 (A, B)] = 𝑀𝑜𝑦[21; 23.5 ] =22.25 وتصبح المصفوفة كما يلي: B 0 22.25 C 22.25 0 B C ويكون شكل الديندوغرام على النحو التالي: Dendrogramme 25 20 10 Dissimilarité 15 5 0 M3 M2 M1 M5 M4 .5تصنيف األفراد وفقا لمؤشر التجميع لوارد. M5 25,000 34,000 29,000 4,000 0 M4 17,000 18,000 13,000 0 4,000 M3 8,000 1,000 0 13,000 29,000 نحسب مصفوفة التجميع وفقا للعالقة: M2 5,000 0 1,000 18,000 34,000 M1 0 5,000 8,000 17,000 25,000 M1 M2 M3 M4 M5 𝑝 𝑝 ) 𝑙𝐺 𝑑(𝑁𝑃𝑚 , 𝑁𝑃𝑙 )= 𝑚 𝑙 𝑑 2 (𝐺𝑚 , d2(8)= 4 1∗1 1+1 𝑙𝑝𝑝𝑚 + =)d2(5)= 2.5 , d(M1, M3 وهكذا حتى نحصل على المصفوفة الموالية: 222 1∗1 1+1 =)d (M1, M2 الفصل السادس :طريقة التصنيف التسلسلي. M4 8.5 9 6.5 0 2 M5 12.5 17 14.5 2 0 د .خالد علي. M3 4 0.5 0 6.5 14.5 M1 0 2.5 4 8.5 12.5 M2 2.5 0 0.5 9 17 M1 M2 M3 M4 M5 ننظر في أدنى مسافة في الجدول أعاله ،وهي بين M2و .)0.5( M3نقوم بوضع M2و M3في مجموعة واحدة ،نسميها Aمثال .ثم في الخطوة الثانية نحسب المسافة بين المجموعة الجديدة Aوبقية األفراد ،كما يلي: )𝐵(𝑛𝐴 +𝑛𝐶 )δ(𝐴,𝐶 )+(𝑛𝐵 +𝑛𝐶 )δ(𝐵,𝐶 )−𝑛𝐶 δ(𝐴, =)δ((A, B) :C 𝐶𝑛𝑛𝐴 +𝑛𝐵 + )(𝑛𝐴 +𝑛𝐶 )δ(𝑀2,𝑀1)+(𝑛𝐵 +𝑛𝐶 )δ(𝑀3,𝑀1)−𝑛𝐶 δ(𝑀2,𝑀3 =)δ(A(M2, M3) :M1 𝐶𝑛𝑛𝐴 +𝑛𝐵 + = 4.166 )(1+1)(2.5)+(1+1)(4)−1(0.5 )(1+1)(9)+(1+1)(6.5)−1(0.5 =10.166 1+1+1 )(1+1)(17)+(1+1)(14.5)−1(0.5 =20.833 1+1+1 وتصبح المصفوفة كما يلي: M5 12.5 20.833 2 0 A 4.17 0 10.17 20.833 M4 8.5 10.17 0 2 M1 0 4.17 8.5 12.5 1+1+1 = =)δ(A(M2, M3) :M4 =)δ(A(M2, M3) :M5 M1 A M4 M5 أدنى مسافة في هذه المصفوفة بين M5و ،M4نكرر العملية ،ونقوم بتجميع M4مع M5في مجموعة جديدة ،نسميها .Bونحسب المسافة بين المجموعة الجديدة وبقية األفراد. =13.333 =20 )(1+1)(8.5)+(1+1)(12.5)−1(2 1+1+1 )(1+1)(10.17)+(1+1)(20.833)−1(2 1+1+1 وتصبح المصفوفة كما يلي: B 13.333 20 0 =)δ(B(M4, M5) :M1 A 4.17 0 20 M1 0 4.17 13.333 =)δ(B(M4, M5) :A M1 A B أدنى مسافة في هذه المصفوفة بين Aو ،M1نكرر العملية ،ونقوم بتجميع Aمع M1في مجموعة جديدة، نسميها .Cونحسب المسافة بين المجموعة الجديدة وبقية األفراد. 223 الفصل السادس :طريقة التصنيف التسلسلي. =20.83 د .خالد علي. )(1+1)(13.333)+(1+1)(20)−1(4.17 1+1+1 وتصبح المصفوفة كما يلي: B 0 20.83 C 20.83 0 =)δ(C(M1, A) :B B C التمرين األول :لديك الجدول الموالي. Y X 10 5 4 8 5 4 2 9 2 2 8 5 7 6 1 4 a b c d e f g h .1أحسب مصفوفة المسافات بين األفراد باستخدام المسافة اإلقليدية. .2استخدم طريقة أدنى مسافة في رسم الديندوغرام. الحل: .1حساب مصفوفة المسافات. √ = ) 𝑑 (𝑖, 𝑖 ′ 𝑑(𝑎, 𝑏) = √(2 − 2)2 + (10 − 5)2 =5 h 2,236 4,472 6,403 1,414 5,000 5,385 7,616 0 g 8,062 3,162 7,280 7,211 6,708 5,385 0 7,616 f 7,211 4,123 2,000 4,123 1,414 0 5,385 5,385 e 7,071 5,000 1,414 3,606 0 1,414 6,708 5,000 d 3,606 4,243 5,000 0 3,606 4,123 7,211 1,414 c 8,485 6,083 0 5,000 1,414 2,000 7,280 6,403 b 5,000 0 6,083 4,243 5,000 4,123 3,162 4,472 a 0 5,000 8,485 3,606 7,071 7,211 8,062 2,236 a b c d e f g h .2استخدم طريقة أدنى مسافة في رسم الديندوغرام. أدنى مسافة في الجدول السابق بين (.)f,e( ،)c,e( ،)d,h 224 𝑑(𝑐, 𝑒) = 𝑑(𝑓, 𝑒) = 𝑑(𝑑, ℎ) = 1.414 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. سنقوم بتجميع ( )c,e,fفي مجموعة واحدة نسميها .G1وتجميع ( )d,hفي مجموعة نسميها G2ثم نحسب المسافة بين المجموعتين الجديدتين وبقية األفراد. δ(G1, a)= 𝑀𝑖𝑛[𝑑(c, a) ; 𝑑(f, a) ; 𝑑(e, a)] = 𝑑(e, a) =7.071 δ(G1, b)= 𝑀𝑖𝑛[𝑑(c, b) ; 𝑑(f, b) ; 𝑑(e, b)] = 𝑑(f, b) =4.123 δ(G1, g)= 𝑀𝑖𝑛[𝑑(c, g) ; 𝑑(f, g) ; 𝑑(e, g)] = 𝑑(f, b) =5.385 δ(G2, a)= 𝑀𝑖𝑛[𝑑(h, a) ; 𝑑(d, a) ] = 𝑑(h, a) =2.236 δ(G2, b)= 𝑀𝑖𝑛[𝑑(h, b) ; 𝑑(d, b) ] = 𝑑(h, a) =4.243 δ(G2, g)= 𝑀𝑖𝑛[𝑑(h, g) ; 𝑑(d, g) ] = 𝑑(h, a) =7.211 ويصبح الجدول كما يلي: δ(G2, G1)= 𝑀𝑖𝑛[𝑑(h, G1) ; 𝑑(d, G1) ] = 𝑑(d, G1) =3.606 g 8.062 3.162 5.385 7.211 0 G2 2.236 4.243 3.606 0 7.211 G1 7.071 4.123 0 3.606 5.385 b a 5 0 4.123 4.243 3.162 0 5 7.071 2.236 8.062 a b G1 G2 g أدنى مسافة في هذا الجدول بين G2و ،aنقوم بتجميع ( )G2, aفي مجموعة واحدة نسميها .G3ثم نحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(G3, b)= 𝑀𝑖𝑛[𝑑(G2, b) ; 𝑑(a, b) ] = 𝑑(G2, b) =4.243 δ(G3, G1)= 𝑀𝑖𝑛[𝑑(G2, G1) ; 𝑑(a, G1) ] = 𝑑(G2, b) =3.606 δ(G3, g)= 𝑀𝑖𝑛[𝑑(G2, g) ; 𝑑(a, g) ] = 𝑑(G2, g) =7.211 ويصبح الجدول كما يلي: G3 G1 g 4.123 3.162 4.243 0 5.385 3.606 5.385 0 7.211 0 3.606 7.211 b 0 4.123 3.162 4.243 b G1 g G3 أدنى مسافة في هذا الجدول بين gو ،bنقوم بتجميع ( )g, bفي مجموعة واحدة نسميها .G4ثم نحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(G4, G1)= 𝑀𝑖𝑛[𝑑(b, G1) ; 𝑑(g, G1) ] = 𝑑(b, G1) =4.123 δ(G4, G3)= 𝑀𝑖𝑛[𝑑(b, G3) ; 𝑑(g, G3) ] = 𝑑(b, G3) =4.243 225 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. ويصبح الجدول كما يلي: G3 G1 G4 0 4.123 3.606 4.243 4.123 0 0 3.606 4.243 G1 G4 G3 أدنى مسافة في هذا الجدول بين G1و ،G3نقوم بتجميعهما في مجموعة واحدة نسميها .G5ثم نحسب المسافة بين المجموعة الجديدة وبقية األفراد. δ(G5, G4)= 𝑀𝑖𝑛[𝑑(G1, G4) ; 𝑑(G3, G4) ] = 𝑑(G1, G4) =4.123 ويصبح الجدول كما يلي: G5 G4 0 4.123 4.123 0 G5 G4 ويكون شكل الديندوغرام كما يلي: Dendrogramme 4,5 4 3,5 3 2 1,5 1 0,5 0 h d a e c f g b 226 Dissimilarité 2,5 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. التطبيق باستخدام برنامج SPSS مثال :لدينا بعض التراكيب الوراثية والصفات المقاسة لمجموعة من األفراد. Analyze>Classify>Hierarchical Cluster... -1ننقل المتغيرات (الصفات الوراثية) إلى مرّبع .Variables -2ننقل المتغير االسمي ،التراكيب الوراثية إلى خانة .Label Cases By -3نختار كيفية إنشاء العناقيد ،بواسطة المشاهدات ( )Casesأو المتغيرات (.)Variables -4نحدد العرض ( ،)Displayإحصاءات ورسوم بيانية ( ،)Statistics, Plotsأو إحصاءات فقط أو رسوم فقط. -5نضغط :Statistics 227 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. .1.5نحدد هذا الخيار لعرض جدول الطبقات (.)Agglomeration schedule .2.5نحدد هذا الخيار لحساب مصفوفة القرابة (جدول المسافات) (.)Proximity matrix .3.5في خانة أعضاء العناقيد ( )Cluster Membershipيمكنك اختيار الحل الوحيد ( Single )solutionوتحدد فيه عدد العناقيد ،أو تختار مدى ( )Range of solutionsتحدد فيه الحد األدنى واألعلى لعدد العناقيد. .4.5نضغط على ،Continueللعودة إلى صندوق الحوار الرئيسي ونضغط على :Plots .1.6نختار رسم الشجرة (الديندوغرام)(.)Dendrogram 228 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. .2.6تحت ( Icicleااللواح الجليدية) نختار رسم األلواح الجليدية لجميع الطبقات او نحدد نطاق معين .كما تعرض مخططات Icicleمعلومات حول كيفية دمج الحاالت في مجموعات عند كل تكرار للتحليل. .3.6يتيح لك تحديد اتجاه المخطط ،رأسي أو أفقي. .4.6ثم .Continue .7نضغط ( Methodالطريقة): .1.7من Cluster Methodنختار طريقة التجميع ،وتوجد عدة طرق: -االرتباط بين المجموعات ( ،)between-groups linkageاالرتباط داخل المجموعات(within- ،)groups linkageأدنى مسافة ( ،)nearest neighborأقصى مسافة ( ،)furthest neighborالمسافة المتوسطة ( ،)centroid clusteringالمسافة الوسيطة ( ،)median clusteringطريقة وارد ( Ward's .)method .2.7من Measureنختار مقياس المسافة اإلقليدية مرّبعة لحساب مصفوفة القرابة بين المتغيرات .توجد العديد من المقاييس ،بحسب نوع قياس المتغيرات: 229 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. -المسافة ( :)Intervalالمسافة االقليدية ( ،)Euclidean distanceالمسافة اإلقليدية مرّبعة ( squared ،)Euclidean distanceجيب التمام ( ،)cosineارتباط بيرسون (،)Pearson correlation ،Minkowski ،block ،Chebychevالمخصصة (.)customized العد ( :)Countsالمسافة اإلقليدية مرّبعة ،ومقياس فاي مرّبع. -الثنائية ( :)Binaryتوجد العديد من المقاييس. .3.7تحويل القيم ( :)Transform Valuesيمكنك تحويل القيم بتوحيد قيم البيانات ألي من الحاالت أو القيم قبل حساب التقريب (غير متاح للبيانات الثنائية) .طرق التوحيد المتاحة هي درجات zوالمدى من 1 إلى ،1والمدى من 0إلى ،1والحد األقصى للحجم ،1والمتوسط ،1واالنحراف المعياري .1 .4.7تحويل القياس ( :)Transform Measuresيسمح لك بتحويل القيم الناتجة عن قياس المسافة .يتم التغير واعادة التدوير إلى تطبيقها بعد حساب قياس المسافة .البدائل المتاحة هي القيمة المطلقة وعالمة ّ النطاق .1-0 .5.7ثم نضغط .Continue .8نضغط :Save -8يسمح لنا بتحديد عدد العناقيد (عضويات المجموعات) لحل واحد أو مجموعة من الحلول.يمكنك تحديد عدد العناقيد مباشرة ،أو اختيار مدى مثال بين 2و .4ويمكن بعد ذلك استخدام المتغيرات المحفوظة في التحليالت الالحقة الستكشاف االختالفات األخرى بين المجموعات .ثم .Continue -9نضغط okفتظهر النتائج الموالية: 230 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. الجدول األول :ملخص المشاهدات. خاص بعدد المشاهدات والقيم المفقودة ،وطريقة التجميع (.)Ward Linkage الجدول الثاني :مصفوفة القرابة بين المتغيرات. يوضح الجدول مصفوفة المسافة بين التركيبات الوراثية ،حيث يظهر أن أدنى مسافة بين التركيب الوراثي azolوالتركيب الوراثي .jumbo3 الجدول الثالث :طريقة التجميع. يظهر الجدول أعاله طريقة التجميع في العناقيد والخطوات التي تم بها التحليل الهرمي. 231 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. الجدول الرابع :أعضاء العناقيد. يبين عضوية كل تركيبة وراثية في العناقيد ،بداية من 4عناقيد وثالثة ثم عنقودين .حيث نالحظ أنه قد تم تجميع التراكيب الوراثية على ثالثة خطوات :في الخطوة األولى تم انشاء أربعة عناقيد ،حيث تم وضع التركيبة الوراثية munaو cameltoohفي العنقود األول ،ووضعت التركيبة الوراثية azolفي العنقود الثاني، والتركيبة الوراثية jumboوضعت في العنقود الثالث ،والتركيبة azegareوضعت في العنقود الرابع .وفي الخطوة الثانية تم انشاء ثالثة عناقيد ،وتم وضع التركيبتين munaو cameltoohفي العنقود األول، والتركيبتين azolو jumboفي العنقود الثاني ،والتركيبة azegareفي العنقود الثالث .وفي الخطوة الثالثة تم إنشاء عنقودين ،حيث وضعت التركيبات الوراثية muna,azegare,cameltoohفي العنقود األول، ووضعت التركيبتين azolو jumboفي العنقود الثاني. أن التركيبة الوراثية azegarوضعت في الخطوة األولى في العنقود الرابع ،ثم في الخطوة الثانية نالحظ مثال ّ دمجت في العنقود الثالث ،وفي الخطوة الثالثة تم دمجها مع العنقود األول. بناء على مصفوفة القرابة بين المتغيرات ،فالمتغيرات التي يكون االرتباط بينها كبي ار يتم وتتم هذه العملية ً أن االرتباط بين التركيبة azegarو munaيساوي وضعها في عنقود واحد .الحظ من مصفوفة القرابة ّ 0.997وبين azegarو cameltoohيساوي ،0.994وبين التركيبتين cameltoohو munaبلغ فإن معامل االرتباط أو القرابة ( ، 0.999الفارق بين 0.02و .)0.05بينما التركيبتين azolوّ ،jumbo بينهما كان .0.999 232 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. توضح تجميع التركيبات داخل العناقيد. رسم األلواح الجليديةّ : رسم الشجرة :يوضح كذلك تجميع العناصر أو التركيبات في العناقيد. توضح مراحل التجميع الثالثة ،التي رأيناها في الجدول الرابع. ولو عدنا إلى ملف الداتا لدينا سنجد البرنامج قد أنشأ ثالث متغيرات جديدة ( CLU4_1, CLU3_1, .)CLU2_1 233 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. حيث يمكننا أن نالحظ خطوات عملية التجميع كما شرحنا سابقا. التطبيق باستخدام برنامج XLSTATS مثال :بالتطبيق على المثال السابق ،التراكيب الوراثية والصفات المقاسة لمجموعة من األفراد. 33,2 40 37,3 28,5 37,5 3,95 4,5 4,3 2,85 2,7 .1من Analyzing dataنختار .AHC تظهر معنا النافذة الموالية: 234 80 83,25 87 83,25 83,25 68 64 66 66 72 muna azol jumbo azegar cameltooh د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. .1نضغط على عالمة – لتحديد نطاق البيانات (األعمدة التي تحتوي على المتغيرات). .2نضغط على عالمة – لتحديد عمود التسميات (العمود األول). .3نحدد نوع التقارب ( )similarities / dissimilarities( :)Proximity typeأوجه التشابه أو االختالف، يحدد نوع البيانات ونوع التقارب ،قائمة الفهارس الممكنة لحساب مصفوفة التقارب. .4نحدد طريقة حساب المسافة ،في مثالنا استخدمنا المسافة اإلقليدية مرّبعة ( squard Euclidean .)distance .5نختار مؤشر التجميع الذي نريد استخدامه ،في مثالنا استخدمنا مؤشر وارد (.)ward’s method .6نضغط :Options 235 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. يمكنك االختيار بين تجميع الصفوف (( )Cluster rowsاألفراد) أو األعمدة ()Cluster columns (المتغيرات) .كما يمكنك مركزة البيانات وترجيحها في حالة كانت وحدات المتغيرات غير متجانسة .وقم تلقائيا بتعريف مستوى االقتطاع، بتنشيط الخيار ( )Truncationإذا كنت تريد من XLSTATأن يقوم ً وبالتالي عدد الفئات التي تريد االحتفاظ بها ،أو إذا كنت تريد تحديد عدد الفئات المراد إنشاؤها (يمكنك السماح لعدد الفئات بالتنوع بين حدين) ،أو المستوى الذي سيتم عنده اقتطاع مخطط الديندوغرام. .7يمكنك كذلك تحديد خيارات القيم المفقودة. .8تحديد المخرجات. .9تحديد الرسوم البيانية. .10اضغط .ok .1الملخص االحصائي: Std. deviation 3,033 2,479 4,516 0,833 Mean 67,200 83,350 35,300 3,660 Maximum 72,000 87,000 40,000 4,500 Obs. Obs. with without missing missing Variable Observations data data Minimum ص1 5 0 5 64,000 ص2 5 0 5 80,000 ص3 5 0 5 28,500 ص4 5 0 5 2,700 يلخص هذا الجدول عدد المشاهدات لكل متغير ،وعدد الحاالت المفقودة ،أكبر وأصغر قيمة ،والمتوسط واالنحراف المعياري لكل متغير. 236 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. .2مصفوفة القرابة (جدول المسافات): cameltooh 46,615 73,490 52,663 117,023 0 azegar 37,863 138,973 93,605 0 117,023 muna azol jumbo muna 0 73,105 69,932 azol 73,105 0 25,393 jumbo 69,932 25,393 0 azegar 37,863 138,973 93,605 cameltooh 46,615 73,490 52,663 يظهر من الجدول أ ّن أدنى مسافة بين التركيبتين azolو.jumbo .3إحصاء العقد: Left son 7 5 1 2 Right son 8 6 4 3 Level Weight Objects 152,572 5 5 75,638 3 3 37,863 2 2 25,393 2 2 Node 9 8 7 6 .4الرسم التخطيطي لمستويات العقد: Levels bar chart 6 7 Node 8 9 200 150 100 50 0 Level ينقل شكل الجدول أعاله معلومات حول بنية البيانات ،فعندما نالحظ قفزات كبيرة ،معنى ذلك ّأنه لدينا مجموعة من الهياكل غير المتجانسة. .5الديندوغرام: 237 د .خالد علي. الفصل السادس :طريقة التصنيف التسلسلي. Dendrogram 180 160 140 120 80 Dissimilarity 100 60 40 20 jumbo azol cameltooh muna azegar 0 يمثل بوضوح كيفية تقدم الخوارزمية لتجميع األفراد ثم المجموعات الفرعية .وفي النهاية ،جمعت الخوارزمية تدريجياً كل األفراد. .6النتائج حسب الفئة. 2 1 1 0,000 0,000 0,000 0,000 azegar 1 3 3 25,258 3,030 4,022 5,021 azol jumbo cameltooh Class Objects Sum of weights Within-class variance Minimum distance to centroid Average distance to centroid Maximum distance to centroid من الجدول أعاله ،يمكننا أن نرى توزيع كل تركيبة وراثية في الفئتين (المجموعتين) .والتباين داخل الفئة، تجانسا أكبر للفئة .2 (يسار على مخطط الديندوغرام) أقل من الفئة ( 1على اليمين) ،مما يؤكد ًا للفئة 2 ً .7النتائج حسب األفراد. Class 1 1 2 1 Observation azol jumbo azegar cameltooh يظهر الجدول أعاله الفئة التي ينتمي لها كل فرد. 238 قائمة المراجع خالد علي.د قائمة المراجع المعتمدة 1. Aluja, T., Morineau, A., Sanchez, G. (2018) Principal Component Analysis for Data Science. https://pca4ds.github.io 2. Ousmane THIARE, Analyse Factorielle des Correspondances (AFC) , othiare@ugb.edu.sn 3. Anderson, T. W. (1963). Asymptotic theory for principal component analysis. "Annals of Mathematical Statistics", 34, 122–148. 4. Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. "Journal of educational psychology" 24, 417–441. 5. Jolliffe, I. T. (1986). Principal component analysis. Springer-verlag. 6. - Michael E. Tipping, christopher m. Bishop (1999). Probabilistic principal component analysis microsoft research. 7. Brigitte Esco.er, Jérôme Pagès (2008). Analyses factorielles simples et multiples : Objectifs, méthodes et interprétation. 8. Charlotte Baey (2019). Analyse de données. https://baeyc.github.io/teaching/ 9. Mohamed ElMerouani (2019), https://elmerouani.jimdofree.com/analyse-des-donn%C3%A9es/ 10. Alboukadel Kassambara, Analyse de données, (2019). http://www.sthda.com/french/ 11. François Husson, Sébastien Lêet Jérôme Pagès (2009). Analyse des données avec R, Presses Universitaires de Rennes, 224 p. (ISBN 978-2-7535-0938-2). 12. Herve´Abdi and Lynne J. Williams, Principal component analysis, “WIREs Computational Statistics”, Volume 2, July/August 2010. 13. D. Chessel, J. Thioulouse & A.B. Dufour, Introduction à la classification Hiérarchique, Biostatistique / Fiche stage7.doc / Page 3 / 07/09/04 /, http://pbil.univ-lyon1.fr/R/stage/stage7.pdf 14. Jean-Marc Lasgouttes, Cours d’analyse de donnees, 2019-2020, INRIA Paris. 15. Anne B Dufour, Analyse en Composantes Principales, Octobre 2013, https://pbil.univ-lyon1.fr/R/pdf/add1.pdf 16. Gilbert Saporta, Ndèye Niang, Analyse en composantes principales, HAL Id: hal-02507732 https://hal-cnam.archives-ouvertes.fr/hal-02507732, Submitted on 13 Mar 2020 17. Jean-Marc Lasgouttes, Variables quantitatives : analyse en composantes principales http://ana-donnees.lasgouttes.net/ 18. MICHEL MAURIN, Sur les qualités des métriques en ACP, Statistique et analyse des données, tome 12, no 3 (1987), p. 58-74 http://www.numdam.org/item?id=SAD_1987__12_3_58_0 19. Mohamed El Merouani, Analyse des donnees: Les methodes factorielles, 2014, http:\\elmerouani.jimdo.com 20. Ricco RAKOTOMALALA, Analyse Factorielle des Correspondances, Université Lumière Lyon 2. 21. Phillip Yelland, An Introduction to Correspondence Analysis, January 2010, https://www.researchgate.net/publication/228417045 22. Dominique LAFFLY, INTRODUCTION À L’ANALYSE FACTORIELLE DES CORRESPONDANCES, Université de Pau, PAU. 23. Rémi Bachelet, L'AFC pour les nuls, http://rb.ec-lille.fr 24. François Husson, Analyse en Composantes Principales, https://www.youtube.com/watch?v=KrNbyM925wI&list=PLnZgp6epRBbRn3FeMdaQgVsFh9Kl0f jqX&index=1&pp=iAQB 25. Analyse de données, https://www.youtube.com/@Comprendrelinformatique 239 د .خالد علي قائمة المراجع المعتمدة 240