فيديو: مبادئ الإحصاء 1 - الإحصاء الوصفي و الإحصاء الاستنتاجي 2025
يمكن تصنيف البيانات الواردة في قواعد البيانات والوثائق والبريد الإلكتروني وملفات البيانات الأخرى للتحليل التنبئي إما على أنها بيانات منظمة أو غير منظمة. منظم بيانات منظمة تنظيما جيدا، يتبع ترتيب ثابت، من السهل نسبيا للبحث والاستعلام، ويمكن الوصول إليها بسهولة وفهم من قبل شخص أو برنامج كمبيوتر.
مثال كلاسيكي للبيانات المنظمة هو جدول بيانات إكسيل يحتوي على أعمدة مصنفة. وهذه البيانات المنظمة متسقة؛ رؤوس الأعمدة - عادة مختصرة، وصف دقيق للمحتوى في كل عمود - اقول لكم بالضبط أي نوع من المحتوى المتوقع.
عادة ما يتم تخزين البيانات المنظمة في مخططات محددة جيدا مثل قواعد البيانات. وعادة ما يكون الجدول عبارة عن أعمدة وصفوف تحدد سماتها بوضوح.
غير منظم البيانات، من ناحية أخرى، تميل إلى أن تكون حرة الشكل، غير الجدولية، مشتتة، وليس من السهل استرجاعها؛ تتطلب مثل هذه البيانات تدخلا متعمدا لفهمه. رسائل البريد الإلكتروني المتنوعة، والوثائق، وصفحات الويب، والملفات (سواء كانت نصية أو صوتية و / أو فيديو) في مواقع متفرقة هي أمثلة على بيانات غير منظمة.
من الصعب تصنيف محتوى البيانات غير المهيأة. أنها تميل إلى أن تكون في الغالب النص، وعادة ما يتم إنشاؤها في خليط من الأساليب الحرة الشكل، وإيجاد أي سمات يمكنك استخدامها لوصف أو مجموعة أنها ليست مهمة صغيرة.
محتوى البيانات غير منظم من الصعب أن تعمل مع أو معنى من برمجيا. برامج الكمبيوتر لا يمكن تحليل أو توليد تقارير عن هذه البيانات، وذلك ببساطة لأنه يفتقر إلى هيكل، وليس له السمة المهيمنة الأساسية، والبنود الفردية من البيانات ليس لها أرضية مشتركة.
بشكل عام، هناك نسبة أعلى من البيانات غير المهيكلة من البيانات المنظمة في العالم. البيانات غير المهيكلة تتطلب المزيد من العمل لجعلها مفيدة، لذلك يحصل على المزيد من الاهتمام - وبالتالي يميل إلى استهلاك المزيد من الوقت.
لا تقلل من أهمية البيانات المنظمة والقوة التي تجلبها لتحليلك. ومن الأکثر کفاءة لتحلیل البیانات المنظمة من تحلیل البیانات غیر المنظمة. ويمكن أيضا أن تكون البيانات غير المهيأة مكلفة للتحضير المسبق للتحليل أثناء قيامك ببناء مشروع تحليلي تنبؤي. يمكن أن يكون اختيار البيانات ذات الصلة، والتطهير، والتحولات اللاحقة طويلة ومملة.
ويمكن بعد ذلك استخدام البيانات التي تم تنظيمها حديثا من تلك الخطوات اللازمة قبل المعالجة في نموذج تحليلي تنبؤي. ومع ذلك، قد يتحول التحول بالجملة للبيانات غير المهيأة إلى أن يكون لديك نموذج التحليلات التنبؤية.
تعد استخلاص البيانات وتحليلات النصوص نهجين لتنظيم الوثائق النصية، وربط محتوياتهما، وتجميع وتلخيص بياناتهم، والكشف عن الأنماط في تلك البيانات. كلا التخصصات توفر إطارا غنيا من الخوارزميات والتقنيات لإزالة الألغام المتناثرة عبر بحر من الوثائق.
ومن الجدير بالذكر أيضا أن منصات محركات البحث توفر أدوات متاحة بسهولة لفهرسة البيانات وجعلها قابلة للبحث.
دعنا نقارن البيانات المنظمة وغير المنظمة.
الخصائص | منظم | غير منظم |
---|---|---|
جمعية | نظمت | متناثرة ومشتتة |
مظهر | تم تحديدها بشكل رسمي | نموذج حر |
إمكانية الوصول < | من الصعب الوصول إليها والاستعلام | توفر |
النسبة المئوية أقل | النسبة المئوية أعلى | تحليل |
كفاءة لتحليل | مطلوب معالجة إضافية | عدم وجود هيكل - لديك فقط ل فيريت بها. حتى النص داخل الملفات الرقمية لا يزال لديه بعض هيكل المرتبطة به، وغالبا ما تظهر في البيانات الوصفية - على سبيل المثال، عناوين الوثيقة، التواريخ تم تعديل الملفات الأخيرة، وأسماء المؤلفين. |
نفس الشيء ينطبق على رسائل البريد الإلكتروني: قد تكون المحتويات غير منظمة، ولكن البيانات المنظمة ترتبط بها - على سبيل المثال، التاريخ والوقت الذي تم إرساله، أسماء المرسلين والمستلمين، سواء كانت تحتوي على المرفقات.
خط الفصل بين نوعي البيانات غير واضح دائما. بشكل عام، يمكنك دائما العثور على بعض سمات البيانات غير المهيأة التي يمكن اعتبارها بيانات منظمة. وما إذا كان هذا الهيكل يعكس محتوى تلك البيانات - أو مفيدا في تحليل البيانات - غير واضح في أحسن الأحوال.
لهذه المسألة، يمكن للبيانات المنظمة أن تحمل بيانات غير منظمة داخلها. في نموذج ويب، على سبيل المثال، قد يطلب من المستخدمين تقديم تعليقاتهم على منتج عن طريق اختيار إجابة من خيارات متعددة - ولكن أيضا مع مربع تعليق حيث يمكنهم تقديم تعليقات إضافية.
يتم تنظيم الإجابات من الخيارات المتعددة؛ حقل التعليق غير منظم بسبب طبيعته الحرة الشكل. ومن الأفضل فهم هذه الحالات على أنها مزيج من البيانات المنظمة وغير المنظمة. معظم البيانات هي مركب من الاثنين معا.
للحصول على مشروع تحليلي تنبؤي ناجح، يجب دمج كل من البيانات المنظمة وغير المنظمة في شكل منطقي يمكن تحليله.