أرشفة الويب

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث

أرشفة الويب (بالإنجليزية: Web archiving)‏ هي عملية جمع أجزاء من محتوى الشبكة العنكبوتية العالمية لضمان أن هذه المعلومات محفوظة رقميا في أرشيف للباحثين المستقبليين والمؤرخين والجمهور.[1]

يستخدم أمناء أرشيف الويب عادة برامج زاحف الشبكة لإجراء عمليات الإستخلاص والالتقاط الآلي، نظرا لحجم المعلومات الهائل وكميتها على الشبكة. تعتبر أرشيف الإنترنت أكبر منظمات أرشفة الويب المستندة على نهج الزحف المجمع (bulk crawling approach)؛ حيث أنها تسعى جاهدة للحفاظ على أرشيف للويب بأكمله.

لقد وفرت الورشة الدولية لأرشفة الويب[أ] -منذ إنشائها عام 2001- منصة لتشارك الخبرات وتبادل الأفكار، كما ساهم تأسيس الرابطة الدولية لحفظ الإنترنت[ب] لاحقا عام 2003 في تيسير التعاون الدولى بصورة كبيرة لتطوير المعايير والأدوات مفتوحة المصدر، الازمة لإنشاء أرشيفات الويب. تضافرت هذه التطورات، مع النسبة المتزايدة من الثقافة الإنسانية التي أنشئت وسجلت على الشبكة، في أن تصبح مواجهة المكتبات ودور المحفوظات لتحديات أرشفة الويب أمرا حتميا لا مفر منه.[2]

تشارك جهات مختلفة أيضا مثل المكتبات الوطنية، الأرشيف الوطني، ومختلف اتحادات المنظمات، في أرشفة محتوى الويب ذي الأهمية الثقافية. تتوفر أيضا برمجيات وخدمات أرشفة الويب التجارية للمنظمات التي تحتاج إلى أرشفة محتوى الويب الخاص بشبكاتهم، وذلك من أجل التأريخ المؤسسي للمنظمة، أو لأغراض قانونية أو تنظيمية.

المنشأ والتطور

شملت الممارسات المبكرة لأرشفة الويب إلقاء الضوء على جائزة موقع الإسبوع لحفظ سجل هذه المسابقة. كان هناك ممارسة مبكرة أخرى بالإضافة إلى ذلك، تتضمن قائمة الروابط المهنية مثل: قائمة منظمة العفو الدولية لمجموعات حقوق الإنسان؛ دليل مواقع الويب الخاص بشركة ياهو!؛ الدليل المفتوح وغيرها.

قامت عدة مواقع للسرد في مجالها بتحديث دوري لمؤشرها الخاص بمواقع الويب الجديرة بالاهتمام بحسب فئة المحتوى، وذلك في منتصف تسعينيات القرن العشرين. اعتبر دليل مواقع ياهو عام 1998 أنه قدم اسهامات كبيرة في علم المكتبات الناشئة على الشبكة؛ ليس من حيث نظام التصنيف فقط، بل من حيث اسلوب تصفح المحتوى الذي قامت على تطويره الشركة.

اعتبرت عمليات التماس وتقييم وتصنيف المواقع -من حيث جمعها على نطاق واسع، ثم فرزها يدويا، ثم عرضها إلكترونيا- من أوائل صور تحليل مواقع الويب. تراجعت هذه الطرق اليدوية حتى اختفائها، نتيجة لظهور محركات البحث وتطورها لتعمل استنادا على نظام الخوارزميات الحاسوبية.

جمع ويب

يقوم أمناء أرشفة الويب عامة بحفظ أنواع مختلفة من المحتوى، بما في ذلك: صفحات ويب إتش تي إم إل؛ أوراق النمط؛ جافا سكريبت؛ الصور الرقمية والفيديو الرقمي، كما أنهم يقومون بأرشفة البيانات الوصفية عن الموارد التي جمعت، مثل: وقت الوصول؛ نوع الملف (نوع الوسائط)؛ وطول المحتوى. تفيد هذه البيانات في إقرار عمليات الاستيثاق وتحديد المنشأ للمجموعة المؤرشفة.

أساليب الجمع

التحصيل عن بعد

تعتمد أكثر تقنيات أرشفة الويب شيوعا على زواحف الشبكة (عناكب الشبكة) لأتمتتة عمليات جمع صفحات الويب، حيث تقوم هذه البرمجيات عادة باستعراض تلك الصفحات، بنفس الطريقة التي تمكن المستخدمين من مطالعتها من خلال مستعرضات الويب على أجهزتهم المختلفة، وبالتالي توفر طريقة بسيطة نسبيا لتحصيل المحتوى على الشبكة عن بعد. من أمثلة البرامج الزاحفة التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي:

هناك العديد من الخدمات المجانية التي يمكن استخدامها لأرشفة موارد الويب بناء على الطلب، وذلك اعتمادا على تقنيات الزحف على الشبكة مثل: خدمة ويب سايت، خدمة واي باك مشين وخدمات أخرى.

أرشفة قاعدة البيانات

يشير أرشفة قاعدة البيانات إلى أساليب أرشفة المحتوى الأساسي للمواقع المصممة استنادا على قواعد البيانات. يتطلب الأمر عادة استخراج محتوى قاعدة البيانات إلى مخطط منطقي قياسي، باستخدام إكس إم إل غالبا. هكذا تصبح المحتويات المؤرشفة من قواعد البيانات المتعددة متاحة باستخدام نظام وصول واحد، متى خزنت في تلك الهيئة القياسية الموحدة.

يتمثل هذا النهج من قبل أدوات DeepArc وXinq التي طورتها كل من المكتبة الوطنية الفرنسية والمكتبة الوطنية الأسترالية على التوالي. تمكن أداة DeepArc من تعيين بنية قاعدة البيانات المترابطة إلى مخطط XML، ثم يصدر المحتوى إلى وثيقة إكس إم إل. تسمح أداة Xinq بعد ذلك بتسليم هذا المحتوى عبر الإنترنت، كما تسمح بتكرار وظائف الاستعلام والاسترجاع الأساسية لقاعدة البيانات، وذلك على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما.

أرشفة المعاملات

تعتمد أرشفة المعاملات نهج قائم على الحدث؛ حيث يجمع المعاملات الفعلية التي تجري بين خوادم الويب من جهة الموقع ومتصفحات الويب من جهة الزائر. تستخدم تلك المعاملات في المقام الأول كوسيلة لحفظ أدلة من المحتوى الفعلي الذي طالعه زوار موقع ويب معين في تاريخ معين. قد يمثل هذا أهمية خاصة لدى المنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية من أجل الكشف عن المعلومات والاحتفاظ بها.

يعمل نظام أرشفة المعاملات عادة عن طريق اعتراض كل طلب بروتوكول HTTP واستجابة من خادم الويب، كما يعمل أيضا على تصفية تلك الاستجابات للقضاء على ازدواجية المحتوى، ومن ثم يقوم بتخزينها بصورة دائمة من خلال bitstreams. هناك نظام أرشفة معاملات يتطلب تثبيت برنامج على خادم الويب، وبالتالي لا يمكن استخدامها لجمع المحتوى من موقع بعيد.

الصعوبات والقيود

الزواحف

تستند محفوظات الويب إلى تقنيات الزحف على شبكة الإنترنت، باعتبارها الوسيلة الرئيسية لتجميع صفحات الويب. تتأثر تلك المحفوظات بالصعوبات التي تواجه البرامج الزاحفة على الشبكة فيما يلي:

  • من الممكن أن يطلب بروتكول استبعاد الروبوتات من الزواحف عدم الوصول لبعض أجزاء الموقع المستهدف بالحفظ على شبكة الإنترنت. قد يتجاهل بعض أمناء أرشيف الويب مثل هذا الطلب، ويقومون بتصفح تلك الأجزاء على أية حال.
  • قد تكون أجزاء كبيرة من أحد الموقع على الشبكة مخبأة في الويب الخفي. على سبيل المثال، فإن صفحة النتائج وراء نموذج ويب تكمن في الوبب العميق، لأن الزواحف لا يمكنها تتبع الرابط إلى تلك الصفحة.
  • قد يتسبب فخ الزاحف (على سبيل المثال: التقويمات) في قيام البرنامج بتحميل عددا لانهائيا من صفحات الويب. لذا يقوم المبرمجون عادة بضبط تلك العناكب للحد من عدد الصفحات الديناميكية التي تطلبها أثناء القيام بعمليات حفظ محتوى المواقع.

ومع ذلك، يجب ملاحظة أن أرشيف الإنترنت بتنسيق أصلى (أي: ذلك الأرشيف الذي يمكن تصفح محتوياته بشكل كامل، من روابط عاملة، ملفات ميديا، ونحو ذلك) يكون متاحا فقط من خلال استخدام تكنولوجيا زاحف الشبكة.

أصبح الويب من الضخامة بحيث جعلت من الزحف على جزء كبير منه يستهلك كمية كبيرة من الموارد التقنية المتاحة، كما أن الويب آخذ في التغير بسرعة، حتى أن أجزاء من موقع ما على الشبكة قد تتغير قبل أن تنتهي البرامج الزاحفة من عمليات التقاط محتوياته.

قيود عامة

ضبطت بعض خوادم الويب لتقوم بإرجاع الصفحات التي تطلبها البرامج الزاحفة بطريقة مختلفة عن تلك التي تستجيب بها لطلبات مستعرضات الويب المعتادة.[3] يحدث ذلك عادة لخداع محركات البحث كي تقوم بتوجيه حركة الزائرين لموقع ما، كما يحدث غالبا لتجنب المسائلة، أو من أجل تقديم المحتوى المعزز فقط إلى متصفحات الويب القادرة على عرضه بصورة صحيحة لزائري الموقع.

لا يجب على أمناء أرشيف الويب التعامل مع التحديات التقنية لأرشفة محتوى الشبكة فقط، بل ينبغى عليهم أن يتعاملوا مع قوانين الملكية الفكرية أيضا. أفاد بيتر ليمان بأنه «على الرغم من النظرة الشائعة إلى الويب باعتبارها مصدرا ذي ملكية عامة، فإنها محفوظة الحقوق؛ وبالتالي فإن أمناء محفوظات الويب لا يملكون حقا قانونيا لنسخ الشبكة».[4] ومع ذلك، فإن المكتبات الوطنية في العديد من البلدان لديها الحق القانوني للقيام بنسخ أجزاء من الشبكة بموجب امتداد الإيداع القانوني.[5]

تسمح بعض محفوظات الويب الخاصة غير الربحية لمالكي المحتوى من القيام بإخفاء أو إزالة المحتويات المؤرشفة التي لا يريدون للجمهور أن يصل إليها، حيث أن هذه الخدمات متاحة للجمهور على الشبكة من خلال مواقع الأرشيف الخاصة بها، ومن أمثلتها: WebCite؛ أرشيف الإنترنت ومؤسسة ذاكرة الإنترنت. توجد بعض الأرشيفات الأخرى تقصر الوصول إليها على مواقع جغرافية معينة فقط، أو أن لديها تنظيم محدد لإستخدام مواردها.

توجد أمثلة للاعتراض على خدمات أرشفة الويب، منها الدعوى القضائية التي أقامها أحد المؤلفين ضد شركة جوجل عام 2006 لقيام خدمتها لأرشفة الويب[ج] بحفظ نسخة من قصة قام بنشرها على موقعه، مطالبا الشركة بحذفها من أرشيفهم بدعوى انتهاكها حقوق الملكية؛ لكن صدر حكم المحكمة لصالح جوجل مفاداه أن عمليات أرشفة الويب للمواد ذات حقوق الملكية الفكرية تدرج تحت بند الاستخدام العادل.[6]

جوانب إدارة حفظ أصول الويب

تنطوي عمليات الإدارة لحفظ أصول محتوى الشبكة في أرشيفات الإنترنت على ما يلي:

  • التصديق على موثوقية وسلامة محتوى المجموعة المؤرشفة،
  • جمع أصول الويب القابلة للتحقق،
  • توفير البحث والإسترجاع لأصول الويب،
  • الاستمرارية الدلالية والأنطولوجية وقابلية المقارنة لمحتوى المجموعة المؤرشفة.

وعلى هذا، يجب أن تدرج جوانب أخرى بالإضافة إلى مناقشة أساليب جمع محتوى الويب، تتضمن: طرق توفير إمكانية الوصول، وسائل التصديق، وسبل التنظيم. هناك مجموعة من الأدوات الشائعة التي تتناول هذه الخطوات التنظيمية كالتالي:

  1. هيراتراكس — جمع أصول الويب
  2. NutchWAX — بحث مجموعات أرشيف الويب
  3. واي باك مشين مفتوحة المصدر — بحث وتصفح مجموعات أرشيف الإنترنت باستخدام NutchWax
  4. أداة منسق الويب — اختيار وإدارة مجموعات أرشيف الشبكة
  • ثانيا: مجموعة أدوات مفتوحة المصدر لمعالجة محفوظات الويب:
  1. أدوات WARC — لخلق، وقراءة، وتحليل والتلاعب بملفات WARC برمجيا
  2. أدوات بحث جوجل — لفهرسة والبحث عن النص الكامل والبيانات الوصفية داخل أرشيف الإنترنت
  • ثالثا: مجموعة أدوات مجانية غير مفتوحة المصدر:
  1. WARC Software Development Kit — تمثل مجموعة بسيطة ومدمجة من Erlang modules للتلاعب بملفات WARC (إنشاء/قراءة/كتابة)، وهي ملفات تتبع معيار ISO 28500:2009

انظر أيضاً

الملاحظات

  1. ^ بالإنجليزية: International Web Archiving Workshop (IWAW)
  2. ^ بالإنجليزية: International Internet Preservation Consortium (IIPC)
  3. ^ هي خدمة Google WebCache

المصادر

  1. ^ Habibzadeh، P.؛ Medicine and Natural Sciences، Schattauer GmbH - Publishers for (1 يناير 2013). "Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals". Applied Clinical Informatics. ج. 4 ع. 4: 455–464. DOI:10.4338/aci-2013-07-ra-0055. مؤرشف من الأصل في 2 مارس 2020. اطلع عليه بتاريخ 7 فبراير 2018.
  2. ^ Truman، Gail (2016). "Web Archiving Environmental Scan". Harvard Library Report. مؤرشف من الأصل في 8 ديسمبر 2019. اطلع عليه بتاريخ 7 فبراير 2018.
  3. ^ Habibzadeh، Parham (30 يوليو 2015). "Are current archiving systems reliable enough?". International Urogynecology Journal. ج. 26 ع. 10: 1553–1553. DOI:10.1007/s00192-015-2805-7. ISSN:0937-3462. مؤرشف من الأصل في 26 أكتوبر 2019. اطلع عليه بتاريخ 13 فبراير 2018.
  4. ^ Peter Lyman (أبريل 2002). Archiving the World Wide Web. Building a National Strategy for Preservation: Issues in Digital Media Archiving (Report). 106. CLIR. ص. 38. ISBN:1-887334-91-2. مؤرشف من الأصل في 15 أكتوبر 2019. اطلع عليه بتاريخ 13 فبراير 2018.
  5. ^ "Legal deposit". netpreserve.org. IIPC. مؤرشف من الأصل في 19 يونيو 2017. اطلع عليه بتاريخ 13 فبراير 2018.
  6. ^ "Nevada Court Rules Google Cache is Fair Use". Government Technology. Nevada. 27 يناير 2006. مؤرشف من الأصل في 29 يناير 2006. اطلع عليه بتاريخ 13 فبراير 2018.

وصلات خارجية