جدول المحتويات:
فيديو: قانون حماية بيانات مستخدمي الإنترنت يدخل حيز التنفيذ 2025
البيانات غير المهيكلة هي البيانات التي لا تتبع تنسيقا محددا للبيانات الكبيرة. وإذا كانت 20 في المائة من البيانات المتاحة للشركات هي بيانات منظمة، فإن 80 في المائة الأخرى غير منظمة. البيانات غير المهيكلة هي في الحقيقة معظم البيانات التي سوف تواجهها. حتى وقت قريب، ومع ذلك، فإن التكنولوجيا لا تدعم حقا تفعل الكثير مع ذلك إلا تخزينه أو تحليله يدويا.
مصادر البيانات الكبيرة غير المهيكلة
البيانات غير المنظمة في كل مكان. وفي الواقع، فإن معظم الأفراد والمنظمات يقومون بحياتهم حول بيانات غير منظمة. كما هو الحال مع البيانات المنظمة، البيانات غير المهيكلة هي إما آلة ولدت أو الإنسان ولدت.
فيما يلي بعض الأمثلة على البيانات غير المهيأة التي تم إنشاؤها بواسطة الجهاز:
-
صور الأقمار الصناعية: ويشمل ذلك بيانات الطقس أو البيانات التي تلتقطها الحكومة في صور المراقبة الساتلية. مجرد التفكير في جوجل الأرض، وتحصل على الصورة.
-
البيانات العلمية: وهذا يشمل الصور الزلزالية، والبيانات الجوية، والفيزياء عالية الطاقة.
-
الصور الفوتوغرافية والفيديو: ويشمل ذلك الأمن والمراقبة والفيديو المرورية.
-
بيانات الرادار أو السونار: وهذا يشمل ملفات الزلازل في المركبات والأرصاد الجوية والأوقيانوغرافية.
تعرض القائمة التالية بعض الأمثلة على البيانات غير المهيأة التي يتم إنشاؤها بواسطة الإنسان:
-
نص داخلي لشركتك: فكر في كل النص داخل الوثائق، والسجلات، ونتائج المسح، والبريد الإلكتروني. معلومات المؤسسة تمثل في الواقع نسبة كبيرة من المعلومات النصية في العالم اليوم.
-
بيانات وسائل الاعلام الاجتماعية: يتم إنشاء هذه البيانات من منصات وسائل الاعلام الاجتماعية مثل يوتيوب، الفيسبوك، تويتر، ينكدين، وفليكر.
-
بيانات الجوال: وهذا يتضمن بيانات مثل الرسائل النصية ومعلومات الموقع.
-
محتوى الموقع: هذا يأتي من أي موقع يقدم محتوى غير منظم، مثل يوتيوب، فليكر، أو إينستاجرام.
والقائمة تطول.
بعض الناس يعتقدون أن مصطلح البيانات غير المهيكلة مضلل لأن كل مستند قد يحتوي على بنية خاصة به أو تنسيق بناء على البرنامج الذي أنشأه. ومع ذلك، ما هو الداخلي للوثيقة هو حقا غير منظم.
حتى الآن، البيانات غير المهيكلة هي أكبر جزء من معادلة البيانات، وحالات الاستخدام للبيانات غير منظم تتوسع بسرعة. على جانب النص وحده، يمكن استخدام تحليلات النص لتحليل النص غير المهيكلة واستخراج البيانات ذات الصلة وتحويل تلك البيانات إلى معلومات منظمة يمكن استخدامها بطرق مختلفة.
على سبيل المثال، قضية شعبية كبيرة لاستخدام البيانات هي تحليلات وسائل الاعلام الاجتماعية للاستخدام مع محادثات العملاء كبيرة الحجم. وبالإضافة إلى ذلك، يتم تحليل البيانات غير منظم من الملاحظات مركز الاتصال، والبريد الإلكتروني، والتعليقات المكتوبة في المسح، وغيرها من الوثائق لفهم سلوك العملاء. ويمكن دمج هذا مع وسائل الاعلام الاجتماعية من عشرات الملايين من المصادر لفهم تجربة العملاء.
دور نظام إدارة المحتوى في إدارة البيانات الكبيرة
تقوم المنظمات بتخزين بعض البيانات غير المنظمة في قواعد البيانات. ومع ذلك، فإنها تستخدم أيضا أنظمة إدارة المحتوى المؤسسة (كمس) التي يمكن أن تدير دورة حياة كاملة من المحتوى. ويمكن أن يشمل ذلك محتوى الويب ومحتوى المستند ووسائل الإعلام الأخرى.
وفقا لجمعية المعلومات وإدارة الصور (إييم)، وهي منظمة غير ربحية تقدم التعليم والبحث وأفضل الممارسات، فإن إدارة المحتوى المؤسسي (إسم) تضم "الاستراتيجيات والأساليب والأدوات المستخدمة لالتقاط وإدارة وإدارة، تخزين، حفظ، وتقديم المحتوى والمستندات المتعلقة بالعمليات التنظيمية. "وتشمل التقنيات المدرجة في إسم إدارة الوثائق، وإدارة السجلات، والتصوير، وإدارة سير العمل، وإدارة محتوى الويب، والتعاون.
نمت صناعة بأكملها حول إدارة المحتوى، والعديد من بائعي إدارة المحتوى يقومون بتوسيع حلولهم للتعامل مع كميات كبيرة من البيانات غير المهيكلة. غير أن التكنولوجيات الجديدة تتطور أيضا للمساعدة في دعم البيانات غير المهيكلة وتحليل البيانات غير المنظمة. بعض هذه الدعم بيانات منظمة وغير منظمة. يدعم بعضها تيارات في الوقت الفعلي. وتشمل هذه التقنيات مثل هادوب، مابريدوس، والتدفق.
الأنظمة التي تم تصميمها لتخزين المحتوى في شكل أنظمة إدارة المحتوى لم تعد حلول قائمة بذاتها. بل من المرجح أن تكون جزءا من حل شامل لإدارة البيانات. على سبيل المثال، قد تقوم مؤسستك بمراقبة خلاصات تويتر التي يمكنها بعد ذلك تشغيل بحث كمس برمجيا.
الآن، الشخص الذي أثار سقسقة يحصل على إجابة مرة أخرى أن يقدم موقع حيث يمكن للفرد العثور على المنتج الذي هو أو هي قد تبحث عنه. أكبر فائدة هي عندما يكون هذا النوع من التفاعل يمكن أن يحدث في الوقت الحقيقي. كما أنه يوضح قيمة الاستفادة من الوقت الحقيقي غير المهيكل والمنظم (بيانات العملاء حول الشخص الذي تغرد)، وشبه منظم (المحتوى الفعلي في كمس) البيانات.
الواقع هو أنك سوف تستخدم على الأرجح نهج هجين لحل مشاكل البيانات الكبيرة الخاصة بك. على سبيل المثال، فإنه ليس من المنطقي لنقل كل ما تبذلونه من المحتوى الإخباري، على سبيل المثال، في هادوب في المباني الخاصة بك لأنه من المفترض أن تساعد في إدارة البيانات غير منظم.
