استخراج وتحويل وتحميل

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث
استخراج وتحويل وتحميل

يشير مصطلح الاستخراج والتحويل والتحميل[1] (إي إل تي) في الحوسبة إلى الإجراء العام لنسخ البيانات من مصدر واحد أو أكثر إلى نظام وجهة يمثل البيانات بشكل مختلف أو في سياق مختلف عن المصدر (المصادر). أصبحت عملية الاستخراج والتحويل والتحميل مفهوماً شائعًا في السبعينيات، وغالبًا ما استُخدمت في تخزين البيانات.[2]

يتضمن استخراج البيانات استخراج المعطيات من مصادر متجانسة أو غير متجانسة؛ يعالج تحويل البيانات المعطيات عن طريق تنظيف البيانات وتحويلها إلى تنسيق/ بنية تخزين مناسبة لأغراض الاستعلام والتحليل؛ وأخيرًا، يصف تحميل البيانات إدراج البيانات في قاعدة البيانات الهدف النهائية مثل مخزن البيانات العملياتية، ومتجر البيانات، وبحيرة البيانات ومستودع البيانات.[3][4]

يستخرج نظام الاستخراج والتحويل والتحميل جيد التصميم البيانات من الأنظمة المصدر، ويفرض عليها معايير جودة البيانات وترابطها، ويطابق البيانات ليسمح باستخدام المصادر المنفصلة معًا، وأخيرًا يسلم البيانات بتنسيق جاهز للعرض ليتمكن مطورو التطبيقات من بناء التطبيقات ويتمكن المستخدمون النهائيون من اتخاذ القرارات.[5]

بما أن استخراج البيانات يستغرق وقتاً، فمن الشائع أن تنفذ المراحل الثلاث بالتوازي. أثناء استخراج البيانات تنفذ عملية تحويل أخرى، أثناء معالجة البيانات المتلقاة بالفعل وتجهيزها للتحميل يبدأ تحميل بيانات دون انتظار اكتمال المراحل السابقة.

عادةً ما تدمج أنظمة الاستخراج والتحويل والتحميل البيانات من تطبيقات (أنظمة) متعددة، والتي عادةً ما يطورها ويدعمها موردون مختلفون أو تُستضاف على حواسيب منفصلة. غالبًا ما تدار الأنظمة المنفصلة التي تحتوي على البيانات الأصلية وتُشغل بواسطة موظفين مختلفين. مثلًا، قد يجمع نظام محاسبة التكاليف البيانات من كشوف الرواتب والمبيعات والمشتريات.

الاستخراج

يتضمن الجزء الأول من عملية الاستخراج والتحويل والتحميل استخراج البيانات من النظام (الأنظمة) المصدر. يمثل هذا الجزء في حالات كثيرة أهم جوانب عملية الاستخراج والتحويل والتحميل، لأن استخراج البيانات بشكل صحيح يمهد لنجاح العمليات اللاحقة. تجمع معظم مشاريع تخزين البيانات المعطيات من أنظمة مصدر مختلفة. يمكن لكل نظام منفصل استخدام تنظيم و/ أو تنسيق بيانات مختلف.[6] تتضمن تنسيقات مصادر البيانات العامة قواعد البيانات العلائقية ولغة الترميز القابلة للامتداد وتنسيق جسون والملفات المنفصلة، وقد تتضمن أيضًا بنى قواعد بيانات غير علائقية مثل نظام إدارة المعلومات (آي إم إس) أو غيرها من البنى مثل طريقة الوصول إلى التخزين الافتراضي (في إس ايه إم) أو طريقة الوصول التتابعي المفهرس (آي إس ايه إم)، أو حتى التنسيقات التي جُلبت من مصادر خارجية بوسائل مثل عنكبة الويب (الزحف على الشبكة) أو كشط الشاشة (استخلاص البيانات منها). يعد تدفق مصدر البيانات المستخرجة والتحميل السريع إلى قاعدة البيانات الوجهة طريقة أخرى لإجراء الاستخراج والتحويل والتحميل عند عدم الحاجة إلى تخزين بيانات وسيطة. بشكل عام، تهدف مرحلة الاستخراج إلى تحويل البيانات إلى تنسيق مناسب لمعالجة التحويل.[7]

يتضمن الجزء الأساسي من الاستخراج تحقيق البيانات للتأكد مما إذا كانت البيانات المستخرجة من المصادر تملك القيم الصحيحة/ المتوقعة في مجال معين (مثل نمط/ إعداد افتراضي أو لائحة قيم). إذا لم تحقق البيانات قواعد التحقيق، تُرفض كليًا أو جزئيًا. ويُبلّغ نظام المصدر بالبيانات المرفوضة بالشكل المناسب لإجراء مزيد من التحليل لتحديد السجلات غير الصحيحة وتصحيحها.

التحويل

تطبق سلسلة من القواعد أو الوظائف على البيانات المستخرجة في مرحلة تحويل البيانات لإعدادها للتحميل إلى الهدف النهائي.

وإحدى الوظائف الهامة للتحول هي تنظيف البيانات، التي تهدف إلى نقل البيانات «الصحيحة» فقط إلى الهدف. يكمن التحدي عند تفاعل الأنظمة المختلفة في الربط والتوصيل بين الأنظمة ذات الصلة. فمجموعات الأحرف الموجودة في نظام ما قد لا توجد نظام آخر.

في حالات أخرى، قد يلزم استخدام نوع واحد أو أكثر من أنواع التحويل التالية لتلبية احتياجات العمل والاحتياجات التقنية للخادم أو مستودع البيانات:

  • تحديد أعمدة معينة فقط للتحميل: (أو تحديد أعمدة خالية لعدم تحميلها). مثلًا، إذا كانت البيانات المصدرية تحتوي على ثلاثة أعمدة (المعروفة بـ «السمات»)، مثل الرقم والعمر والراتب فقد يحدد فقط الرقم والراتب. أو قد تتجاهل آلية الاختيار جميع السجلات التي لا يوجد فيها راتب (الراتب = خالي).
  • ترجمة القيم المشفرة: (مثلًا، عندما يرمز النظام المصدر الذكر «1» والأنثى «2»، لكن مستودع البيانات يرمز الذكر «M» والأنثى F»»).
  • ترميز قيم الصورة الحرة: (مثلًا، تعيين «Male» إلى M»»).
  • اشتقاق قيمة محسوبة جديدة: (مثلًا، مبلغ المبيعات = الكمية* سعر الوحدة sale_amount = qty * unit_price).
  • فرز البيانات أو ترتيبها بناءً على قائمة أعمدة لتحسين أداء البحث
  • ربط البيانات من مصادر متعددة (مثل البحث والدمج) وإلغاء تكرار البيانات
  • التجميع (مثل، الإظهار- تلخيص صفوف البيانات المتعددة - إجمالي المبيعات لكل متجر ولكل منطقة، إلخ.)
  • توليد القيم الرئيسية البديلة
  • النقل أو الدوران (تحويل الأعمدة المتعددة إلى صفوف متعددة أو العكس)
  • تقسيم عمود إلى أعمدة متعددة (مثل، تحويل قائمة مفصولة بفواصل والمحددة كسلسلة في عمود واحد إلى قيم فردية في أعمدة مختلفة)
  • تجزيء الأعمدة المتكررة
  • البحث عن وتحقيق البيانات ذات الصلة من الجداول أو الملفات المرجعية
  • تطبيق أي شكل من أشكال تحقيق البيانات؛ قد يؤدي فشل التحقيق إلى الرفض الكامل أو الجزئي للبيانات أو عدم رفضها على الإطلاق، وبالتالي لا تسلم أي بيانات أو تسلم بعضها أو كلها إلى الخطوة التالية وفقًا لتصميم القاعدة ومعالجة الاستثناءات؛ قد ينتج عن العديد من التحويلات السابقة استثناءات، مثل، عندما تحلل ترجمة الكود كودًا غير معروف في البيانات المستخرجة.

التحميل

تحمل مرحلة التحميل البيانات إلى الهدف النهائي، والذي يمكن أن يكون أي مخزن بيانات بما في ذلك ملف منفصل محدد وبسيط أو مستودع بيانات. وفقًا لمتطلبات المؤسسة، تتباين هذه العملية بشكل كبير. قد تكتب بعض مستودعات البيانات معلومات تراكمية فوق معلومات موجودة؛ تُحدث البيانات المستخرجة بشكل متكرر يوميًا أو أسبوعيًا أو شهريًا. قد تضيف مستودعات البيانات الأخرى (أو حتى أجزاء من نفس مستودع البيانات) بيانات جديدة في نموذج تاريخي خلال فترات منتظمة، كل ساعة مثلًا. لفهم ذلك، افترض أن هناك مستودع بيانات يُطلب منه الاحتفاظ بسجلات مبيعات العام الماضي. يكتب مستودع البيانات هذا فوق أي بيانات أقدم من عام بيانات أحدث. ولكن، إدخال البيانات لأي نافذة عام محدد يتم بطريقة تاريخية. يعتبر التوقيت والنطاق اللذين يمكن استبدالهما أو إلحاقهما خيارات تصميم إستراتيجية تعتمد على الوقت المتاح واحتياجات العمل. يمكن أن تحتفظ الأنظمة الأكثر تعقيدًا بسجل تاريخي وسجل تدقيق وفحص لجميع التغييرات التي تطرأ على البيانات المحملة في مستودع البيانات.

عندما تتفاعل مرحلة التحميل مع قاعدة بيانات، تُطبق القيود المحددة في مخطط قاعدة البيانات -وكذلك في المشغلات التي تُنشط عند تحميل البيانات- (على سبيل المثال، التفرد، التكامل المرجعي، الحقول الإلزامية)، والتي تساهم أيضًا في الأداء الكلي لجودة البيانات لعملية الاستخراج والتحويل والتحميل.

مثلًا، قد يكون لدى المؤسسة المالية معلومات عن عميل في عدة أقسام وقد يدرج كل قسم معلومات هذا العميل بطريقة مختلفة. قد يدرج قسم العضوية العميل بالاسم، بينما يدرج قسم المحاسبة العميل حسب الرقم. يمكن أن تجمع عملية الاستخراج والتحويل والتحميل كافة عناصر البيانات هذه وتدمجها في عرض تقديمي موحد، مثل تخزينها في قاعدة بيانات أو مستودع بيانات.

ثمة طريقة أخرى تستخدمها الشركات لاستخدام الاستخراج والتحويل والتحميل وهي نقل المعلومات إلى تطبيق آخر بشكل دائم. مثلًا، قد يستخدم التطبيق الجديد مورّد قاعدة بيانات آخر، ومن المحتمل أن يكون مخطط قاعدة بيانات لديه مختلف تمامًا. يمكن استخدام الاستخراج والتحويل والتحميل لتحويل البيانات إلى تنسيق مناسب للاستخدام للتطبيق الجديد.

من الأمثلة على ذلك نظام استرداد النفقات والتكاليف (إي سي آر إس) الذي تستخدمه الحسابات والاستشارات ومكاتب المحاماة. تنتهي البيانات عادةً في نظام الزمن والفوترة، رغم أن بعض الشركات قد تستخدم البيانات الأولية لتقارير إنتاجية الموظفين في قسم الموارد البشرية (قسم شؤون الموظفين) أو تقارير استخدام المعدات في قسم إدارة المنشآت.

المراجع

  1. ^ Q111421033، ص. 68، QID:Q111421033
  2. ^ Denney، MJ (2016). "Validating the extract, transform, load process used to populate a large clinical research database". International Journal of Medical Informatics. ج. 94: 271–4. DOI:10.1016/j.ijmedinf.2016.07.009. PMC:5556907. PMID:27506144.
  3. ^ Zhao, Shirley (20 Oct 2017). "What is ETL? (Extract, Transform, Load) | Experian". Experian Data Quality (بen-US). Archived from the original on 2019-06-04. Retrieved 2018-12-12.{{استشهاد ويب}}: صيانة الاستشهاد: لغة غير مدعومة (link)
  4. ^ tweet_btn(), Trevor Pott 4 Jun 2018 at 09:02. "Extract, transform, load? More like extremely tough to load, amirite?". www.theregister.co.uk (بEnglish). Archived from the original on 2019-06-04. Retrieved 2018-12-12.
  5. ^ Ralph.، Kimball (2004). The data warehouse ETL toolkit : practical techniques for extracting, cleaning, conforming, and delivering data. Caserta, Joe, 1965-. Indianapolis, IN: Wiley. ISBN:978-0764579233. OCLC:57301227.
  6. ^ "Data Integration Info". Data Integration Info. مؤرشف من الأصل في 2019-06-03.
  7. ^ "ETL-Extract-Load-Process". www.Guru99.com. مؤرشف من الأصل في 2019-06-03.