تضامنًا مع حق الشعب الفلسطيني |
تحليل العنصر الرئيسي
تحليل العنصر الرئيسي |
تحليل العنصر الرئيسي أو التحليل عبر المركبات الرئيسية (بالإنجليزية: Principal component analysis) هي عملية رياضيّة تنتمي إلى شعبة تحليل البيانات، و التي تتمثل في تحويل عدد من المتغيرات المترابطة إلى عدد أقل من المتغيرات غير المترابطة. المتغيرات الناتجة عن عملية التحويل تسمى بالمركبات (أو المكونات أو المحاور) الرئيسية. القيمة المضافة للعملية هي تسهيل تأويل المعطيات المعقدة، عبر تمكين الباحث والإحصائي من تحقيق أمثل توافق بين التقليل من عدد المتغيرات الواصفة للمعطيات، و فقدان المعلومة الأصلية (التباين) الناتج عن اختزال الأبعاد الأصلية.
تاريخ
تم اختراع تحليل المركبات الرئيسية عام 1901 من قبل كارل بيرسون، منظر اختبار ، محاولةً لتعميم مبادئ وروح نظرية عزم القصور الذاتي المستعملة في الميكانيك. حاول بيرسون، آنذاك، تعميم أعماله في مجالي الانحدار و الارتباط، ليس لتفسير متغير بآخر بل لوصف البيانات و تلخيصها.[1]
في 1930، طور الاقتصادي و الإحصائي الأمريكي هارولد هوتلين الطريقة، في إطار تقعيد نظري شمل طرق التحليل العاملي Factorial analysis، التي انبثقت من طريقة تحليل المركبات الرئيسية. كان أكبر عائق أمام تبني الطريقة هو الكم الهائل من الحسابات المعقدة التي تستهلكها، و التي لم تكن إمكانيات الحساب الآلي المتوفرة في النصف الأول من القرن العشرين تسمح بها، خصوصا على مستوى تقطير المصفوفات و حساب المتجهات الذاتية لمصفوفة التغاير، و هي عمليات حاسمة في تحليل المركبات الرئيسية.[2]
ابتداء من الستينات، و مع تطور الحساب الآلي، كبرت شعبية الطريقة و باقي طرق التحليل العاملي، في مجتمع الإحصائيين، بل و تم تبنيها من طرف مجالات معرفية متنوعة كالاقتصاد[3] و علم الاجتماع و المعلوميات (المعالجة الرقمية، ضغط البيانات،...)
أمثلة استعمال
بصفة عامة، تستعمل الطريقة في الحالات التالية (لائحة غير حصرية):
- في إطار مقاربة استكشافية و وصفية: عندما يكون عدد المتغيرات المفسرة للساكنة الإحصائية كبيرا، يتعذر على الإدراك البشري مقاربة المعطيات عبر رسم بياني شامل، تحليل المركبات الرئيسية يمكن من إيجاد أمثل فضاء (من بعدين أو ثلاثة أبعاد)، يمكن من إسقاط البيانات الأصلية، و استنباط بنيتها العامة، بسرعة. في هذا المستوى من الاستعمال، تحليل المركبات الرئيسية يلعب دورا موجها (و ملهما) لتحاليل إحصائية أكثر عمقا، و يمكن من السبر السريع للبيانات و المتغيرات الناشزة.[4]
- في تحييد ارتباط المتغيرات الواصفة للبيانات: المحاور (أو المركبات) الناتجة عن التحليل غير مرتبطة في ما بينها، مما يمكن من استعمالها كمتغيرات جديدة لوصف البيانات.
- في تنقية المعطيات من الضجيج: في حالة اعتبار الباحث للمحاور الغير الرئيسية، غير مفيدة انطلاقا من نسبة مساهمتها في تفسير القصور الذاتي/التباين الأصلي.
مفاهيم أولية
نعتبر عينة إحصائية مكونة من فردا، حسب قيمهم بالمتغيرات X1, …, XN.
تمثل العينة رياضياتيا عبر مصفوفة M ب K سطرا و N أعمدة:
لكل متغير Xn، نمثل القيم المحققة ب X1, n, …, XK, n.
نمثل المتوسط ب و الانحراف المعياري ب σXn.
إذا كانت القيم المتحققة الممثلة في المصفوفة M ذات احتمالات حدوث متساوية، فإن لكل عنصر نفس الثقل عند حساب خصائص العينة. أما إذا أردنا تمييز كل فرد بثقل معين (قي حالة العينات المعدلة أو المجمعة)، نطبق وزنا على كل تحقق للمتغيرات. تمثل الأوزان (التي يساوي مجموعها 1) في مصفوفة قطرية D حجمها K:
في الحالة البديهية، التي تكون فيها الأوزان متساوية:
، بحيث هي مصفوفة الوحدة.
كل سطر من المصفوفة، الذي يمثل الفرد i، نعتبره نقطة داخل فضاء تآلفي بعده N، بينما كل عمود من المصفوفة، يعتبر متجهة إحداثيات في فضاء متجهي بعده K.
هاتان المقاربتان هما عماد تحليل العنصر الرئيسي، لأن من خلالهما سيتم إيجاد أمثل فضاء (سهل الإدراك ذي بعدين أو ثلاثة) لوصف المعطيات و استنتاج خصائصها الإحصائية. هذه العملية تستلزم عمليات تحويل أولية، مبنية على معارف الجبر الخطي و مفاهيم الجداء القياسي و المعيار و المسافة الأقليديين.
عملية تحويل العينة
نعتبر المتجهة التي هي مركز ثقل عينة البيانات، و نشير إليها ب g.
بحيث هي متجهة داخل كل إحداثياتها تساوي 1.
عملية التحويل تتمثل في تركيز العينات حول مركز ثقلها:
- .
ثم اختزالها عبر الانحراف المعياري لكل متغير:
- .
عملية التحويل هاته ضرورية إذا أراد الباحث تحييد تأثير العوامل التالية:
- عامل وحدة القياس: إذا كانت طبيعة البيانات المدروسة مختلفة (أوزان و مسافات مثلا)، عملية التحويل عبر التركيز و الاختزال تمكن من مقاربة موضوعية للبيانات لا تتأثر بوحدات القياس المختارة.
- عامل التباين: في حالة عدم القيام بعملية التحويل، إذا كان لمتغير تباين كبير، فسيجذب المكونات الرئيسية إليه، حاجبا المعلومات الكامنة في المتغيرات الأخرى.
رغم ذلك، للعملية سلبية في حالة وجود متغير يلعب فقط دور ضجيج إحصائي؛ في هذه الحالة سيكون له نفس المكانة التفسيرية للمتغيرات الأخرى؛ مما يفرض على الباحث مواجهة و مقارنة نتائج تحليل العنصر الرئيسي بعملية تحويل بآخر بدونها، حتى تكون الدراسة أكثر موضوعية.
حساب مصفوفات التغاير و الارتباط
بعد تحويل المصفوفة إلى أو ، يعطي جداؤهما مع منقولتيهما:
- مصفوفة تغاير المتغيرات XN، …، X1 إذا لم يتم اختزال :
- مصفوفة ارتباط المتغيرات، في حالة اختزال :
المصفوفتان الناتجتان هما مربعتان بعداهما N (عدد المتغيرات) و متماثلتان و حقيقيتان. و بالتالي فهما قطورتان (أو قابلتان للجدولة) في قاعدة متعامدة معيارية، حسب المبرهنة الطيفية لكارل فايغستراس.
المبرهنة الطيفية بالنسبة للمصفوفات: لكل مصفوفة متماثلة A حقيقية، توجد مصفوفة متعامدة P و مصفوفة قطرية D، كلتاهما حقيقية، بحيث A تساوي P.D.P−1
معيار القصور و الاستنتاج الحسابي للعناصر الرئيسية
في ما يلي، نعتبر مجموعة البيانات في شكلها المحول (المركز أو المركز المختزل، حسب سياق الدراسة). كل Xn يتم تعويضه ب أو . تستعمل المصفوفة للإشارة إلى أو ، حسب التحويل المختار. المبدأ الأساسي لتحليل العنصر الرئيسي هو إيجاد أمثل محور u، يكون توليفة خطية ل Xn، بحيث يكون تباين البيانات، حول هذا المحور قصويا. بتعبير رياضي، الهدف يتحول إلى إيجاد متجهة u، يكون ناتج إسقاط العينة عليها ذا تباين قصوي. إسقاط عينة المتغيرات X على المتجهة u يكتب كما يلي:
تباين العينة المسقطة πu(M) تساوي:
بحيث C هي مصفوفة مصفوفة التغاير. حسب المبرهنة المشار إليها في فقرة حساب مصفوفات التغاير و الارتباط، C مصفوفة قابلة للتقطير، في قاعدة متعامدة P. باعتبار المصفوفة القطرية المشكلة من القيم الذاتية ل C تكتب العينة المسقطة:
القيم للمصفوفة القطرية تكون مرتبة تنازليا (من الأكبر إلى الأصغر). المتجهة v التي وفقها تكون قيمة قصوية هي المتجهة الذاتية ل C الموافقة للقيمة الذاتية . و بذلك تكون
و يستمر البحث عن محاور الإسقاط الأخرى، بنفس الطريقة، مع إضافة شرط إضافي: أن يكون كل محور مستنتج متعامدا على ما سبقه. المحاور المستنتجة، هي ما يصطلح عليه بالعناصر الرئيسية، و كل محور k يفسر جزءا من التباين الأصلي للعينة مقداره القيمة الذاتية λk.
انظر أيضا
وصلات خارجية
- تحليل العنصر الرئيسي، لأوريا كراني، جامعة كارلوس الثالث، مدريد
- مدخل إلى تحليل المكونات الرئيسية، فيليب بيس، جامعة تولوز
مراجع
- ^ بالإنجليزية: مقالة كارل بيرسون on lines and planes of closest fit to systems of points in space (كيفية إيجاد أمثل المستقيمات و المستويات المقاربة لمنظومة نقط في الفضاء)، نشر في 1901 في Philosofical magazine من موقع قسم الإحصاء الصحي للجامعة الطبية العسكرية بشنغهاي، الصين نسخة محفوظة 22 يونيو 2018 على موقع واي باك مشين. [وصلة مكسورة]
- ^ بالفرنسية: L'analyse des données: histoire, bilan, projets, perspective، مراسلة للإحصائي الفرنسي جان بول بنزكري موجهة لعالم الاجتماع بيير بورديو نسخة محفوظة 04 مارس 2016 على موقع واي باك مشين.
- ^ بالفرنسية: دراسة من موقع وزارة الاقتصاد و المالية المغربية، تستعمل تحليل المكونات الرئيسية في نمذجة متغيرات مفسرة للظرفية الاقتصادية المغربية نسخة محفوظة 24 سبتمبر 2015 على موقع واي باك مشين.
- ^ بالفرنسية: مقال تفصيلي حول تحليل المركبات الرئيسية، من موقع جوليان جاك Julien Jacques أستاذ بجامعة ليل الأولى الفرنسية [وصلة مكسورة] نسخة محفوظة 6 فبراير 2020 على موقع واي باك مشين.
في كومنز صور وملفات عن: تحليل العنصر الرئيسي |