الويب كراولر و سكرابين Web Crawler and scraping - برمجة HTML/CSS


البيانات الضخمة  big data

 

إرتئينا في هذا المقال الحديث بشكل مشترك عن الكراولين و السكرابين، كونهما يكملان بعضهما البعض؛ الأول يختص بالتجول عبر صفحات مواقع الويب، و الثاني يختص بإستخلاص البيانات منها :

  • الويب كراولر Web Crawler ، يسمى أيضا زاحف الشبكة، هي تقنية للإبحار الآلي في الشبكة العنكبوتية. يقابلها مفهوم الإبحار البشري في الشبكة المعلوماتية بإستعمال متصفح انترنت.
  • الويب سكراپين web scraping، و يسمى تقشير الويب، هو تقنية إستخراج البيانات من المواقع.

و تتعدد منهجيات زواحف الشبكة بتعدد أهدافها، و لو أن أبرزها يهدف لفهرسة الويب من أجل محركات البحث، كجوجل المشهور بزاحفه المسمى "جوجل بوت". كما يصلح إستعمال زواحف الشبكة للبحث عن الأعطاب و الأخطاء في موقع أو جملة من المواقع. و كذلك قد يكون الغرض من زاحف الويب البحث عن معطيات محددة في الشبكة و تقشيرها، نذكر منها الزواحف الباحثة عن عناويون بريد إلكتروني ( لغرض إغراق أصحابها بالسپام )، و أخرى باحثة عن مواد مرئية كالصور و الفيديوهات. كما تقوم بعض المواقع بإستخدام الزواحف للبحث و إستقدام معلومات متخصصة ( تجميع أخبار فرعية و متخصصة مثلا). أخيرا نشير لوجود فئة من الزواحف صممت بهدف تخزين معلومات الويب و تأريخها لتكوين ذاكرة للنت، و جاء هذا الصنف من الزواحف ليجيب عن إشكال إغلاق المواقع و إختفاء محتوياتها.

و بالرجوع للهدف الأساس من إستعمال زواحف الويب، و هو الهدف المتمثل في فهرسة الويب، لا بد من إستحضار شساعة الويب و الكمية الضخمة من البيانات التي يحتويها و التي من الصعب إستيعابها كليا من طرف زاحف لجوجل بوت. لذلك تعمل الزواحف وفق قاعدة غربلة البيانات و إستقدام جزء منها فقط، ذلك الجزء الذي تمليه السياسات التي تمت برمجتها في زاحف الويب.

و عدا هذا الإشكال، هناك إشكال آخر يتعلق بطبيعة زاحف الويب (الآلية) التي تتناقض و طبيعة صفحات الويب الموجهة للبشر و المصممة خصيصا لهم. لذلك يصعب على الآلي إستخلاص و فهم مضمون الصفحات، مهما كانت برمجة الزاحف متطورة و ذكية. للتغلب على هذا الإشكال طورت مجموعة الويب W3C مفهوم الويب الدلالي Semantic Web، بحيث لا تكتفي صفحات HTML بمضمون يتناسب و البشر، بل تضيف إليه بيانات إضافية تتناسب و الروبوتات. عموما لم يستطع السيمانتيك ويب من تحقيق طفرة معقولة، أغلب المواقع لا تتضمنه، لذلك تصبح عملية التقشير صعبة التعميم آليا. لأخذ فكرة عن الموضوع، نقترح في موقع باينة مثالا للطلب الآلي و تقشير معطيات جدول في صفحة ويب بلغة بيرل.

 

 

0

التعليقات

لا يوجد أي تعليق.

عذراً :
الكتابة في هذا الحيز مخولة فقط للأعضاء المسجلين
من هنا للتسجيل
كونوا سباقين للتسجيل :
بتسجيلكم اليوم ستكونون من أوائل الأعضاء في البوابة، ما سيجعل لكم مكانة مميزة في الموقع.
الأعضاء لهم إمتيازات :
يتمتع الأعضاء بحق التعليق على المقالات. تعاليق و أسئلة و ردود الأعضاء لا تستلزم موافقة مسبقة من الإدارة ( عكس مساهمات الضيوف)