الوثوقية والإتاحة وقابلية الصيانة

الوثوقية والإتاحة وقابلية الصيانة، مصطلح في مجال هندسة العتاد الحاسوبي يتعلق بهندسة الوثوقية، وارتفاع الإتاحة (أو قابلية الاستفادة)، وتصميم قابلية الصيانة. أول من استخدم العبارة شركة إنترناشيونال بزنس ماشينز (آي بي إم) كمصطلح يصف متانة حواسيبهم الكبيرة.[1][2]

للحواسيب المصممة بمستويات مرتفعة للوثوقية والإتاحة وقابلية الصيانة العديد من المزايا التي تحمي نزاهة البيانات وتساعد في بقائها متاحةً لفترات طويلة من الزمن دون أعطال.[3] تشكل كل من نزاهة البيانات وفترة التشغيل هاتين نقطة إيجابية جيدة لبيع الحواسيب الكبيرة والأنظمة التي تتحمل الأخطاء (ذات سماحية مرتفعة للأخطاء).

تعاريف

رغم نشأة الوثوقية والإتاحة وقابلية الصيانة كمصطلح يتعلق بالعتاد الصلب، فإن تفكير الأنظمة مدد مفهوم الوثوقية والإتاحة وقابلية الصيانة ليشمل الأنظمة بشكل عام، بما فيها البرمجيات.[4]

  • يمكن تعريف الوثوقية بأنها احتمال إنتاج نظام ما لنواتج خرج صحيحة حتى وقت ما محدد t.[5] تتحسن الوثوقية بالمزايا التي تساعد في تجنب عيوب العتاد الصلب، والكشف عنها وإصلاحها. لا يستمر النظام الموثوق بصمت ويخرج نتائج تتضمن معطيات فاسدة غير مصححة. بل يكشف تلك العيوب، ويصحح أخطاءها إن أمكن، على سبيل المثال: بإعادة محاولة العملية عند الأخطاء العابرة (الناعمة) أو المتقطعة، أو في حالة الأخطاء غير القابلة للتصحيح، بعزل الخطأ والإبلاغ عنه لآليات استعادة من مستوى أعلى (قد تنقل العطل للعتاد الصلب الخاص باستبدال الفائض -تجاوز العطل- ...إلخ.)، أو بإيقاف البرنامج المتأثر أو النظام بأكمله والإبلاغ عن الخطأ. يمكن تمييز الوثوقية عن طريق الوقت الوسطي بين الأعطال.[5]
  • تعني الإتاحة احتمال أن يكون النظام يعمل في وقت ما محدد، أي الفترة الزمنية التي يعمل خلالها الجهاز فعليًّا كنسبة مئوية من الزمن الكلي الذي يجب أن يعمل خلاله. قد تعطي أنظمة الإتاحة العالية الإتاحة بدقائق أو ساعات الإطفاء في السنة. تسمح خصائص الإتاحة للنظام أن يبقى عاملًا حتى عند حدوث الأخطاء. يعطل النظام عالي الإتاحة الجزء المعطل ويستمر بالعمل بقدرة مخفضة. بالمقابل، قد ينهار نظام أقل قدرةً ويصبح معطلًا بالكامل. تعطى الإتاحة عادةً على شكل نسبة مئوية من الزمن المتوقع للنظام أن يبقى متاحًا فيه، مثلًا: 99.999 بالمئة («خمس تسعات»).
  • قابلية الصيانة هي البساطة والسرعة التي يمكن للنظام أن تجري صيانته بها؛ إذا ازداد الزمن اللازم لإصلاح نظام معطل، تتناقص الإتاحة. تتضمن قابلية الصيانة عدة طرق لتشخيص النظام عند نشوء المشاكل. يمكن للكشف المبكر عن العيوب تخفيض زمن توقف النظام أو تجنبه بالكامل. مثلًا: يمكن لبعض أنظمة الشركات الاتصال بشكل آلي بمركز خدمات (دون تدخل أشخاص) عند تعرض النظام لعطل في النظام. كان التركيز ينصب عادةً على إجراء الإصلاحات الصحيحة بأقل تدخل ممكن في العمليات العادية.

يُذكر أن هناك فرق بين الوثوقية والإتاحة: إذ تقيس الوثوقية قدرة النظام على العمل بشكل صحيح، بما في ذلك تجنب فساد البيانات، بينما تقيس الإتاحة مدى توفر النظام للاستخدام، رغم أنه قد لا يعمل عندها بالشكل الصحيح. مثلًا: يمكن أن يعمل خادم للأبد وتكون له بالتالي إتاحة مثالية، ولكنه قد يكون غير موثوق، بسبب فساد البيانات فيه بشكل متكرر.[6]

انظر أيضًا

مراجع

  1. ^ Siewiorek، Daniel P.؛ Swarz، Robert S. (1998). Reliable computer systems: design and evaluation. ص. 508. مؤرشف من الأصل في 2022-04-07.. "The acronym RAS (reliability, accessibility and serviceability) came into widespread acceptance at IBM as the replacement for the subset notion of recovery management."
  2. ^ Data Processing Division, International Business Machines Corp., 1970 (1970). "Data processor, Issues 13-17". {{استشهاد بدورية محكمة}}: الاستشهاد بدورية محكمة يطلب |دورية محكمة= (مساعدة) و|مؤلف= باسم عام (مساعدة)صيانة الاستشهاد: أسماء متعددة: قائمة المؤلفين (link)- "The dependability [...] experienced by other System/370 users is the result of a strategy based on RAS (Reliability-Availability-Serviceability)"
  3. ^ Siewert، Sam (مارس 2005). "Big iron lessons, Part 2: Reliability and availability: What's the difference?" (PDF). مؤرشف من الأصل (PDF) في 2020-10-27.
  4. ^ For example: Laros III، James H. (2012). Energy-Efficient High Performance Computing: Measurement and Tuning. SpringerBriefs in Computer Science. et al. Springer Science & Business Media. ص. 8. ISBN:9781447144922. مؤرشف من الأصل في 2020-11-16. اطلع عليه بتاريخ 2014-07-08. Historically, Reliability Availability and Serviceability (RAS) systems were commonly provided by vendors on mainframe class systems. [...] The RAS system shall be a systematic union of software and hardware for the purpose of managing and monitoring all hardware and software components of the system to their individual potential.
  5. ^ أ ب E.J. McClusky & S. Mitra (2004). "Fault Tolerance" in Computer Science Handbook 2ed. ed. A.B. Tucker. CRC Press.
  6. ^ Spencer، Richard H.؛ Floyd، Raymond E. (2011). Perspectives on Engineering. Bloomington, Indiana: AuthorHouse. ص. 33. ISBN:9781463410919. مؤرشف من الأصل في 2020-11-16. اطلع عليه بتاريخ 2014-05-05. [...] a system server may have excellent availability (runs forever), but continues to have frequent data corruption (not very reliable).