كيف تفكر مثل عالم البيانات في 12 خطوات

المقدمة

في الوقت الحالي ، يحظى علماء البيانات بالكثير من الاهتمام ، ونتيجة لذلك ، تنتشر الكتب حول علم البيانات. أثناء البحث عن كتب جيدة عن الفضاء ، يبدو لي أن معظمهم يركزون أكثر على الأدوات والتقنيات بدلاً من الطبيعة الدقيقة لحل المشكلات لعملية علم البيانات. هذا هو حتى واجهت براين غودسي "فكر مثل عالم البيانات" - الذي يحاول قيادة علماء البيانات الطموحين من خلال العملية كطريق مع العديد من الشوك والوجهات التي يحتمل أن تكون غير معروفة. يناقش ما هي الأدوات التي قد تكون أكثر فائدة ، والسبب ، ولكن الهدف الرئيسي هو التنقل في المسار - عملية علم البيانات - بذكاء وكفاءة ونجاح ، للوصول إلى حلول عملية للمشاكل المتمركزة على البيانات الواقعية.

دورة حياة مشروع علم البيانات

في الكتاب ، يقترح براين أن يتكون مشروع علم البيانات من ثلاث مراحل:

  • المرحلة الأولى هي الإعداد - الوقت والجهد المبذول في جمع المعلومات في بداية المشروع يمكن أن يجنبا الصداع الكبير في وقت لاحق.
  • المرحلة الثانية هي بناء المنتج ، من التخطيط إلى التنفيذ ، باستخدام ما تعلمته خلال مرحلة الإعداد وجميع الأدوات التي يمكن أن توفرها الإحصاءات والبرامج.
  • المرحلة الثالثة والأخيرة على وشك الانتهاء - تسليم المنتج ، والحصول على ردود الفعل ، وإجراء المراجعات ، ودعم المنتج ، وختام المشروع.

كما ترون من الصورة ، تشمل هذه المراحل الثلاث 12 مهمة مختلفة. أرغب في استخدام هذا المنشور لتلخيص هذه الخطوات الاثني عشر حيث أعتقد أن أي بيانات طموحة يمكن للعلماء الاستفادة منها.

المرحلة الأولى - الإعداد

تبدأ عملية علم البيانات بالتحضير. تحتاج إلى تحديد ما تعرفه ، وما لديك ، وما يمكنك الحصول عليه ، وأين أنت ، وأين تريد أن تكون. هذا الأخير له أهمية قصوى. يحتاج مشروع في علم البيانات إلى غرض وأهداف مقابلة. فقط عندما يكون لديك أهداف محددة جيدًا ، يمكنك البدء في مسح الموارد المتاحة وكل إمكانيات التحرك نحو هذه الأهداف.

1 - تحديد الأهداف

في مشروع علم البيانات ، كما هو الحال في العديد من المجالات الأخرى ، يجب تحديد الأهداف الرئيسية في بداية المشروع. كل العمل الذي تقوم به بعد تحديد الأهداف هو الاستفادة من البيانات والإحصاءات والبرمجة للتحرك نحو تحقيق تلك الأهداف وتحقيقها.

أولاً ، كل مشروع في علم البيانات لديه عميل. في بعض الأحيان يكون العميل هو الشخص الذي يدفع لك أو لشركتك للقيام بالمشروع - على سبيل المثال ، عميل أو وكالة متعاقدة. في الأوساط الأكاديمية ، قد يكون العميل عالمًا مختبريًا طلب منك تحليل بياناتهم. في بعض الأحيان يكون العميل هو أنت أو رئيسك في العمل أو زميل آخر. بغض النظر عن هوية العميل ، فإن لديهم بعض التوقعات بشأن ما قد يتلقونه منك ، عالم البيانات الذي حصل على المشروع.

لفهم هذه التوقعات ، تحتاج إلى طرح أسئلة جيدة حول البيانات الخاصة بهم. يمثل طرح الأسئلة التي تؤدي إلى إجابات مفيدة ونتائج محسّنة لاحقًا تحديًا مهمًا ودقيقًا يستحق مناقشة أكثر بكثير مما يتلقاه عادة. الأسئلة الجيدة ملموسة في افتراضاتهم ، والإجابات الجيدة هي نجاح قابل للقياس دون تكلفة كبيرة. عادةً ما يبدو الحصول على إجابة من مشروع ما في علم البيانات يشبه الصيغة أو الوصفة أدناه.

على الرغم من أن أحد المكونات في بعض الأحيان - السؤال الجيد ، أو البيانات ذات الصلة ، أو التحليل الثاقب - هو أسهل في الحصول عليه من المكونات الأخرى ، إلا أن العناصر الثلاثة حاسمة الأهمية للحصول على إجابة مفيدة. إن منتج أي سؤال وبيانات وتحليل قديم لا يمثل دائمًا إجابة ، وليس إجابة مفيدة. تجدر الإشارة إلى أنك تحتاج دائمًا إلى أن تكون متعمدًا ومدروسًا في كل خطوة من خطوات المشروع ، وأن عناصر هذه الصيغة ليست استثناءات. على سبيل المثال ، إذا كان لديك سؤال جيد ولكن لا صلة له بالبيانات ، فسيكون من الصعب العثور على إجابة.

الآن هو الوقت المناسب لتقييم أهداف المشروع في سياق الأسئلة والبيانات والأجوبة التي تتوقع أن تعمل معها. عادة ، يتم تحديد الأهداف الأولية مع وضع بعض غرض العمل في الاعتبار. إذا لم تكن تعمل في مجال الأعمال التجارية - كنت تعمل في مجال البحث ، على سبيل المثال - فإن الغرض هو عادة استخدام خارجي للنتائج ، مثل زيادة المعرفة العلمية في مجال معين أو توفير أداة تحليلية لشخص آخر لاستخدامه.

على الرغم من أن الأهداف تنشأ خارج سياق المشروع نفسه ، يجب وضع كل هدف من خلال مرشح عملي يستند إلى علم البيانات. يتضمن هذا المرشح طرح هذه الأسئلة: (1) ما هو ممكن؟ (2) ما هي القيمة؟ (3) ما هي الكفاءة؟ إن تطبيق هذا المرشح على جميع الأهداف المفترضة في سياق الأسئلة الجيدة والإجابات المحتملة والبيانات المتاحة والعقبات المتوقعة يمكن أن يساعدك في الوصول إلى مجموعة قوية من أهداف المشروع التي تكون جيدة وممكنة وقيمة وفعالة لتحقيقها.

2 - استكشاف البيانات

الخطوة الثانية من مرحلة الإعداد لعملية علم البيانات هي استكشاف البيانات المتاحة. يوضح الشكل التالي 3 طرق أساسية يمكن لعالم البيانات الوصول إليها. يمكن أن يكون ملفًا على نظام ملفات ، ويمكن لعالم البيانات قراءة الملف في أداة التحليل المفضلة لديهم. أو يمكن أن تكون البيانات في قاعدة بيانات ، وهي موجودة أيضًا على نظام ملفات ، ولكن من أجل الوصول إلى البيانات ، يتعين على عالم البيانات استخدام واجهة قاعدة البيانات ، وهي طبقة برمجية تساعد في تخزين البيانات واستخراجها. أخيرًا ، قد تكون البيانات وراء واجهة برمجة التطبيقات (API) ، وهي طبقة برمجية بين عالم البيانات وبعض النظم التي قد تكون غير معروفة تمامًا أو أجنبية.

من الأفضل التعرف على بعض النماذج التي قد تأخذها البيانات ، وكذلك كيفية عرض هذه النماذج ومعالجتها. فيما يلي بعض منها: الملفات المسطحة (csv ، tsv) ، HTML ، XML ، JSON ، قواعد البيانات العلائقية ، قواعد البيانات غير العلائقية ، واجهات برمجة التطبيقات. في بعض الأحيان لا يكون لديك خيار لتقرير التنسيق الذي تريده. تأتي البيانات بتنسيق معين ، وعليك التعامل معها. ولكن إذا وجدت أن هذا التنسيق غير فعال ، أو غير عملي ، أو غير شعبي ، فأنت عادة ما تكون حرًا في إنشاء متجر ثانوي للبيانات قد يسهل الأمور ، ولكن بتكلفة إضافية للوقت والجهد ، يلزمك إعداد البيانات الثانوية متجر. بالنسبة للتطبيقات التي تكون فيها كفاءة الوصول مهمة ، يمكن أن تكون التكلفة تستحق العناء. للمشاريع الصغيرة ، ربما لا. يجب عليك عبور هذا الجسر عندما تصل إلى هناك.

الآن بعد أن تعرضت لبعض أشكال البيانات الشائعة ، يجب عليك البحث عنها. فيما يلي الأساليب التي يجب مراعاتها: بحث Google أو الجمع بين مصادر بيانات مختلفة أو كشط الويب أو قياسها / جمعها بنفسك. أنا شخصياً معجب كبير بتجريد الويب. شيئان مهمان يجب أن يعملهما مكشطة الويب بشكل جيد وهما زيارة الكثير من عناوين URL بشكل برمجي والتقاط المعلومات الصحيحة من الصفحات. إذا كنت تريد معرفة شبكة الأصدقاء الخاصة بك على Facebook ، فيمكنك نظريًا كتابة نصوص يزور ملفات تعريف Facebook الخاصة بجميع أصدقائك ، ويحفظ صفحات الملف الشخصي ، ثم يقوم بتوزيع الصفحات للحصول على قوائم بأصدقائهم ، وزيارة أصدقائهم لمحات ، وهلم جرا. هذا يعمل فقط للأشخاص الذين سمحوا لك بمشاهدة ملفات التعريف الخاصة بهم وقوائم الأصدقاء ، ولن يعملوا مع ملفات التعريف الخاصة.

3 - المشاحنات البيانات

الخطوة الثالثة ، هي عملية أخذ البيانات والمعلومات بتنسيقات صعبة أو غير منظمة أو عشوائية ، وتحويلها إلى شيء يمكن أن يستخدمه البرنامج التقليدي. مثل العديد من جوانب علم البيانات ، فهي ليست عملية بقدر ما هي عبارة عن مجموعة من الاستراتيجيات والتقنيات التي يمكن تطبيقها في سياق استراتيجية المشروع الشاملة. ليست المشاحنات مهمة ذات خطوات يمكن وصفها مسبقًا. كل حالة مختلفة وتستغرق بعض حل المشكلات للحصول على نتائج جيدة.

الجدل الجيد يأتي إلى تخطيط متين قبل المشاجرة ثم بعض التخمين والتحقق لمعرفة ما ينجح. إن قضاء بعض الوقت الإضافي على خلافات البيانات يمكن أن يوفر لك الكثير من الألم في وقت لاحق. بشكل عام ، يجب أن يعتمد اختيار خطة تشاحن البيانات اعتمادًا كبيرًا على جميع المعلومات التي تكتشفها أثناء التحقيق في البيانات أولاً. إذا استطعت أن تتخيل تحليل البيانات أو الوصول إليها بطريقة افتراضية - أحاول لعب دور البرنامج النصي المثير للجدل - فيمكنك كتابة نص يقوم بنفس الشيء. تظاهر أنك برنامج نصي مثير للجدل ، تخيل ما قد يحدث مع بياناتك ، ثم اكتب البرنامج النصي لاحقًا. تعد مشكلة تجوال البيانات عملية غير مؤكدة من الأفضل دائمًا استكشافها قليلاً ووضع خطة للجدل استنادًا إلى ما رأيته.

لا توجد طريقة واحدة أو أداة واحدة لتحقيق هدف تنظيف البيانات الفوضوية. إذا أخبرك أحدهم أنه يمتلك أداة يمكنها تغيير أي بيانات ، فإما أن تكون هذه الأداة لغة برمجة أو أنها تكذب. هناك العديد من الأدوات المفيدة للقيام بالعديد من الأشياء ، ولكن لا توجد أداة واحدة يمكنها تغيير البيانات التعسفية. توجد البيانات بأشكال عديدة ولأغراض كثيرة ، فمن المحتمل أنه لا يوجد أي تطبيق على الإطلاق قادر على قراءة البيانات التعسفية بغرض تعسفي. ببساطة ، فإن نزاع البيانات أمر غير مؤكد يتطلب أدوات محددة في ظروف محددة لإنجاز المهمة. يمكنك محاولة استخدام محولات تنسيق الملفات أو برامج تغيير بيانات الملكية وكتابة برنامج نصي لتغيير البيانات.

4 - تقييم البيانات

قد يكون من المغري البدء في تطوير منتج يعتمد على البيانات أو طرق إحصائية معقدة في أقرب وقت ممكن ، لكن فوائد التعرف على بياناتك تستحق التضحية بقليل من الوقت والجهد. إذا كنت تعرف المزيد عن بياناتك - وإذا كنت تحافظ على الوعي بها وكيف يمكنك تحليلها - فستتخذ قرارات أكثر استنارة في كل خطوة خلال مشروع علم البيانات الخاص بك وسوف تجني الفوائد في وقت لاحق. بدون تقييم أولي (الخطوة الرابعة) ، قد تواجه مشكلات مع القيم المتطرفة أو التحيزات أو الدقة أو النوعية أو أي عدد من الجوانب الأخرى الملازمة للبيانات. للكشف عن هذه المعلومات والتعرف عليها بشكل أفضل ، تتمثل الخطوة الأولى من تحليل البيانات بعد المشاحنات في حساب بعض الإحصاءات الوصفية.

الإحصائيات الوصفية هي مجال الوصف الكمي للميزات الرئيسية لمجموعة من المعلومات ، أو الوصف الكمي نفسه. فكر في الوصف ، الحد الأقصى ، الحد الأدنى ، متوسط ​​القيم ، ملخصات مجموعة البيانات. غالبًا ما يكون من الصعب مناقشة الإحصاءات الوصفية دون ذكر إحصاءات استنتاجية. إحصاءات الاستدلال هي ممارسة استخدام البيانات التي يجب عليك استنتاجها أو استنتاجها - معرفة أو الكميات التي ليس لديك فيها قياسات أو بيانات مباشرة. فيما يتعلق بمجموعة بيانات ، يمكنك قول ما يلي:

  • إحصائيات وصفية تسأل ، "ماذا لدي؟"
  • تسأل الإحصاءات الاستنتاجية ، "ماذا يمكنني أن أختتم؟"

يوافق معظم الإحصائيين ورجال الأعمال على حد سواء على أن الأمر يتطلب إحصاءات استنتاجية لاستخلاص معظم الاستنتاجات الرائعة: عندما يبلغ تعداد سكان العالم الذروة ثم يبدأ في الانخفاض ، ما مدى سرعة انتشار الوباء الفيروسي ، ومتى سيرتفع سوق الأوراق المالية ، وما إذا كان الناس على Twitter ، يكون لديك شعور إيجابي أو سلبي بشكل عام حول موضوع وما إلى ذلك. لكن الإحصاءات الوصفية تلعب دورًا مهمًا للغاية في جعل هذه الاستنتاجات ممكنة. من المفيد معرفة البيانات التي لديك وما الذي يمكن أن تفعله لك.

باستخدام الإحصائيات الوصفية ، يمكنك العثور على كيانات ضمن مجموعة بياناتك تتطابق مع وصف مفاهيمي معين. إذا كنت تعمل في مجال البيع بالتجزئة عبر الإنترنت ، فيمكنك اعتبار العملاء ككيانات رئيسية لك ، وقد ترغب في تحديد من يحتمل أن يشتروا نظام ألعاب فيديو جديدًا أو كتابًا جديدًا من قبل مؤلف معين. إذا كنت تعمل في مجال الإعلان ، فقد تبحث عن أشخاص من المرجح أن يردوا على إعلان معين. إذا كنت تعمل في مجال التمويل ، فقد تبحث عن الأسهم في سوق الأوراق المالية التي على وشك الزيادة في السعر. إذا كان من الممكن إجراء بحث بسيط عن هذه التوصيفات ، فستكون المهمة سهلة ولن تحتاج إلى علم أو إحصاءات البيانات. ولكن على الرغم من أن هذه الخصائص ليست متأصلة في البيانات (هل يمكنك تخيل سهم يخبرك بموعد الصعود؟) ، يمكنك غالبًا التعرف عليها عندما تراها ، على الأقل في الماضي. يتمثل التحدي الرئيسي في مشاريع علوم البيانات هذه في إيجاد طريقة للعثور على هذه الكيانات المثيرة للاهتمام في الوقت المناسب.

المرحلة الثانية - البناء

بعد طرح بعض الأسئلة وتحديد بعض الأهداف ، قمت بمسح لعالم البيانات ، وقمت بتغيير بعض البيانات المحددة ، وتعرفت على تلك البيانات. في كل خطوة ، تعلمت شيئًا ما ، والآن قد تكون قادرًا بالفعل على الإجابة على بعض الأسئلة التي طرحتها في بداية المشروع. دعنا ننتقل الآن إلى مرحلة البناء.

5 - تطوير الخطة

الخطوة الخامسة هي وضع خطة. كما هو الحال في مرحلة التخطيط السابقة ، يجب أن تكون الشكوك والمسارات المرنة في طليعة عقلك. أنت تعرف المزيد عن مشروعك الآن ، لذا لم تعد هناك بعض أوجه عدم اليقين التي كانت موجودة من قبل ، ولكن ظهرت بعض المشكلات الجديدة. فكر في خطتك كطريق مبدئي عبر مدينة بها شوارع قيد الإنشاء باستمرار. أنت تعرف المكان الذي ترغب في الذهاب إليه وبضع طرق للوصول إلى هناك ، ولكن عند كل تقاطع قد يكون هناك طريق مغلق أو حركة مرور سيئة أو رصيف يتم سحقه وتنهاره. سيتعين عليك اتخاذ القرارات عند وصولك إلى هذه العقبات ، ولكن في الوقت الحالي ، يكفي وجود خطة احتياطية أو اثنتين.

يمكن أن تتغير الخطط والأهداف في أي وقت ، في ضوء المعلومات الجديدة أو القيود الجديدة أو لأي سبب آخر. يجب عليك توصيل تغييرات مهمة إلى جميع المشاركين في المشروع ، بما في ذلك العميل. من الواضح أن عميل المشروع لديه مصلحة راسخة فيما ينبغي أن يكون عليه المنتج النهائي للمشروع - وإلا فلن يكون المشروع موجودًا - لذلك يجب إطلاع العميل على أي تغييرات في الأهداف. نظرًا لأن معظم العملاء يفضلون أن يكونوا على اطلاع دائم ، فمن المستحسن غالبًا إطلاعهم على خططك ، الجديدة أو القديمة ، حول كيفية تحقيق هذه الأهداف. قد يكون العميل مهتمًا أيضًا بتقرير مرحلي يتضمن النتائج الأولية التي حصلت عليها حتى الآن وكيف حصلت عليها ، ولكنها ذات أولوية منخفضة.

ركز على ما يهتم به العميل: لقد تم إحراز تقدم ، والأهداف المتوقعة الحالية القابلة للتحقيق هي X و Y و Z. قد يكون لديهم أسئلة كبيرة ، وقد يكونوا مهتمين بمعرفة جميع جوانب مشروعك ، ولكن في تجربتي معظمهم ليسوا كذلك. استنتاجك الوحيد والوحيد الذي يجب أن يكون عندك اجتماع مع العميل في هذه المرحلة هو أنك تتواصل بوضوح عن الأهداف الجديدة وأنهم يوافقون عليها. كل شيء آخر هو اختياري.

يمكنك أيضًا التفكير في توصيل خطتك الأساسية إلى العميل ، خاصة إذا كنت تستخدم أيًا من مواردها لإكمال المشروع. قد يكون لديهم اقتراحات أو نصيحة أو معرفة مجال أخرى لم تختبرها بعد. إذا كانت مواردهم مشتركة ، مثل قواعد البيانات وأجهزة الكمبيوتر والموظفين الآخرين ، فسيكونون مهتمين بالتأكيد بسماع كيف ستستخدمهم ومقدارهم.

6 - تحليل البيانات

الخطوة السادسة من عملية علم البيانات لدينا هي التحليل الإحصائي للبيانات. غالبًا ما تُعتبر الطرق الإحصائية ما يقرب من نصف المهارات ، أو ما لا يقل عن ثلث المهارات والمهارات اللازمة لفهم علم البيانات الجيد. الجزء الآخر الكبير هو تطوير البرامج و / أو التطبيق ، والجزء الأصغر المتبقي هو موضوع أو مجال خبرة.

على جانب واحد من الإحصاءات هي الرياضيات ، وعلى الجانب الآخر هي البيانات. توفر الرياضيات - خاصة الرياضيات التطبيقية - الإحصائيات بمجموعة من الأدوات التي تمكن من التحليل والتفسير. في أي حال ، فإن الرياضيات لا تمس العالم الحقيقي بشكل عام استنادًا إلى المنطق تمامًا ودائمًا - دائمًا - بدءًا بمجموعة من الافتراضات ، يجب على الرياضيات أولاً أن تفترض عالماً يمكن أن تصفه قبل أن تبدأ في وصفه. يمكن صياغة كل عبارة رياضية لتبدأ بعلامة if (إذا كانت الافتراضات صحيحة) ، وهذا إذا رفعت العبارة وخاتمتها إلى تجريد. هذا لا يعني أن الرياضيات ليست مفيدة في العالم الحقيقي ؛ بل على العكس تماما. الرياضيات ، بدلاً من أن تكون علماً ، هي أكثر من مفردات يمكن أن تصف بها الأشياء. قد تكون بعض هذه الأشياء في العالم الحقيقي. كما هو الحال مع المفردات والكلمات التي تحتوي عليها ، نادراً ما يكون وصفًا صحيحًا تمامًا. الهدف هو الاقتراب من التصحيح قدر الإمكان.

ومع ذلك ، توفر الرياضيات الكثير من الآلات الثقيلة التي تستخدمها الإحصاءات. غالبًا ما توصف التوزيعات الإحصائية بمعادلات معقدة ذات جذور لها معنى بالمعنى العملي والعلمي. غالبًا ما تستخدم النماذج الإحصائية الملائمة أساليب تحسين رياضية. حتى المساحة التي يفترض فيها أن تكمن بيانات المشروع يجب أن توصف رياضيا ، حتى لو كان الوصف مجرد "مساحة إقليدية ثلاثية الأبعاد.

بالإضافة إلى الرياضيات ، تمتلك الإحصائيات مجموعتها الخاصة من التقنيات التي تركز بشكل أساسي على البيانات.

  • الإحصاءات الوصفية هي نوع من الإحصاءات البسيطة أو البسيطة التي يمكن أن توفر نظرة عامة جيدة للبيانات دون أن تكون معقدة أو يصعب فهمها. عادة ما تبقى الإحصاءات الوصفية قريبة من البيانات.
  • إحصاءات استنتاجية بطبيعتها هي خطوة واحدة أو أكثر من إزالتها من البيانات. الاستدلال هو عملية تقدير الكميات غير المعروفة بناءً على كميات قابلة للقياس وذات صلة. عادةً ما تتضمن الإحصاءات الاستنتاجية نموذجًا إحصائيًا يحدد الكميات القابلة للقياس وغير قابلة للقياس وعلاقاتها مع بعضها البعض. يمكن أن تتراوح الأساليب من الإحصاءات الاستنتاجية من بسيطة إلى معقدة إلى حد كبير ، وتختلف أيضًا في دقتها وتجريدها وقابليتها للتفسير.

النمذجة الإحصائية هي الممارسة العامة لوصف نظام يستخدم بنيات إحصائية ثم استخدام هذا النموذج للمساعدة في تحليل وتفسير البيانات المتعلقة بالنظام. تعتمد كل من الإحصائيات الوصفية والاستنتاجية على النماذج الإحصائية ، ولكن في بعض الحالات يلعب إنشاء وتفسير واضح للنموذج نفسه دورًا ثانويًا.

من خلال النمذجة الإحصائية ، ينصب التركيز الأساسي على فهم النموذج والنظام الأساسي الذي يصفه. النمذجة الرياضية هي مفهوم ذو صلة يركز على بناء النموذج وتفسيره أكثر من التركيز على علاقته بالبيانات. تركز النماذج الإحصائية على علاقة النموذج بالبيانات. فيما يلي بعض المفاهيم المهمة في النمذجة الإحصائية التي يجب أن تكون على دراية بها:

  • المعادلات الخطية ، الأسية ، متعددة الحدود ، المفتاح ، التفاضلية ، غير الخطية.
  • المتغيرات الكامنة.
  • تحديد عدم اليقين: العشوائية والتباين وشروط الخطأ.
  • تركيب نموذج: أقصى تقدير احتمال ، أقصى تقدير خلفي ، تعظيم متوقع ، بايز متغير ، ماركوف تشاين مونتي كارلو ، تركيب زائد.
  • بايزي مقابل إحصائيات متكررة.
  • اختبار الفرضيات.
  • تجمع
  • تحليل المكونات.

أبعد ما يكون عن البيانات الأولية هو مجموعة من التقنيات الإحصائية التي تسمى غالبًا ، لأساليب الصندوق الأسود الأفضل أو الأسوأ. يشير المصطلح الصندوق الأسود إلى فكرة أن بعض الأساليب الإحصائية بها الكثير من القطع المتحركة ذات العلاقات المعقدة مع بعضها البعض بحيث يكون من المستحيل تقريبًا تشريح الطريقة نفسها لأنها تم تطبيقها على بيانات محددة في سياق محدد. العديد من الطرق من التعلم الآلي والذكاء الاصطناعي تناسب هذا الوصف. إذا حاولت تصنيف الأفراد الذين يظهرون في مجموعة بيانات في واحدة من عدة فئات ، وقمت بتطبيق تقنية للتعلم الآلي مثل مجموعة غابات عشوائية أو شبكة عصبية ، فغالبًا ما يكون من الصعب تحديد السبب وراء وجود فرد معين مصنفة بطريقة معينة. تنتقل البيانات إلى الصندوق الأسود ، ويظهر التصنيف ، ولست متأكدًا مما حدث بالضبط فيما بينهما. فيما يلي بعض خوارزميات التعلم الآلي الأكثر شيوعًا والتي ستطبقها على قيم الميزات التي استخرجتها من نقاط البيانات الخاصة بك:

  • غابة عشوائية
  • دعم شاحنات النقل
  • زيادة
  • الشبكة العصبية
  • تعلم عميق

7 - المنتج الهندسي

خطوتنا التالية هي بناء برنامج إحصائي. إذا كانت الإحصائيات هي إطار لتحليل واستخلاص النتائج من البيانات ، فإن البرنامج هو الأداة التي تضع هذا الإطار موضع التنفيذ. علاوة على ذلك ، يجب على عالم البيانات اتخاذ العديد من خيارات البرامج لأي مشروع. إذا كان لديك برنامج مفضل ، فغالبًا ما يكون هذا اختيارًا جيدًا ، إن لم يكن لأي سبب آخر غير معرفتك به. ولكن يمكن أن يكون هناك أسباب وجيهة لاختيار شيء آخر. أو إذا كنت جديدًا في علوم البيانات أو البرامج الإحصائية ، فقد يكون من الصعب العثور على مكان للبدء.

لأي شخص قضى وقتًا كبيرًا في استخدام Microsoft Excel أو تطبيق جدول بيانات آخر ، فإن جداول البيانات والتطبيقات المستندة إلى واجهة المستخدم الرسومية غالبًا ما تكون الخيار الأول لإجراء أي نوع من تحليل البيانات. خاصة إذا كانت البيانات في شكل جدول ، مثل CSV ، ولم يكن هناك الكثير منها ، فقد يكون بدء التحليل في جدول بيانات أمرًا سهلاً. علاوة على ذلك ، إذا كانت الحسابات التي تحتاج إلى إجرائها غير معقدة ، فقد يكون جدول البيانات قادرًا على تغطية جميع احتياجات البرنامج للمشروع. أدوات البرامج الشائعة هنا هي Excel و SPSS و Stata و SAS و Minitab. يمكن أن يكون تعلم لغة البرمجة لإحدى أدوات المستوى المتوسط ​​هذه خطوة جيدة نحو تعلم لغة برمجة حقيقية ، إذا كان هذا هدفًا لك. هذه اللغات يمكن أن تكون مفيدة للغاية من تلقاء نفسها. لدى SAS ، على وجه الخصوص ، متابعة واسعة في الصناعات الإحصائية ، وتعلم لغتها هدف معقول في حد ذاتها.

لغات البرمجة أكثر تنوعًا بكثير من التطبيقات الإحصائية المتوسطة المستوى. الكود في أي لغة شعبية لديه القدرة على القيام بأي شيء. يمكن لهذه اللغات تنفيذ أي عدد من التعليمات على أي جهاز ، ويمكن أن تتفاعل مع خدمات البرامج الأخرى عبر واجهات برمجة التطبيقات ، ويمكن تضمينها في البرامج النصية وغيرها من البرامج. اللغة المرتبطة بتطبيقها الأصلي محدودة للغاية في هذه القدرات.

MATLAB هي بيئة برمجية محمية ولغة برمجة جيدة في التعامل مع المصفوفات. تتكلف MATLAB بعض الشيء ولكن هناك خصومات كبيرة للطلاب وغيرهم من الأفراد المنتسبين للجامعة. قرر بعض الناس تكرارها في مشروع مفتوح المصدر يسمى Octave. مع نضوج Octave ، أصبح أقرب وأقرب إلى MATLAB في الوظائف والقدرات المتاحة. باستثناء الشفرة التي تستخدم حزم الوظائف الإضافية (مثل صناديق الأدوات) ، فإن الغالبية العظمى من الشفرة المكتوبة في MATLAB ستعمل في Octave والعكس صحيح ، وهو أمر لطيف إذا وجدت نفسك مع بعض رموز MATLAB ولكن بدون ترخيص.

بشكل عام ، يعد MATLAB و Octave مثاليين للمهندسين (خاصة الكهرباء) الذين يعملون مع مصفوفات كبيرة في معالجة الإشارات والاتصالات ومعالجة الصور والتحسين ، من بين أمور أخرى.

يعتمد R على لغة البرمجة S التي تم إنشاؤها في Bell Labs. إنه مفتوح المصدر ، لكن ترخيصه أكثر تقييدًا إلى حد ما من بعض اللغات الشائعة الأخرى مثل Python و Java ، خاصةً إذا كنت تقوم بإنشاء منتج برنامج تجاري. مقارنةً بـ MATLAB ، من الأسهل تحميل أنواع مختلفة من البيانات والتعامل معها. يعد MATLAB جيدًا في التعامل مع البيانات الجدولية ، ولكن بشكل عام ، يكون R أفضل مع الجداول ذات الرؤوس وأنواع الأعمدة المختلطة (عدد صحيح ، عشري ، سلاسل ، وما إلى ذلك) ، JSON ، واستعلامات قاعدة البيانات. عند قراءة البيانات الجدولية ، يميل R افتراضيًا إلى إرجاع كائن من إطار نوع البيانات. إطارات البيانات هي كائنات متعددة الاستخدامات تحتوي على بيانات في أعمدة ، حيث يمكن أن يكون كل عمود من نوع بيانات مختلف - على سبيل المثال ، رقمي أو سلسلة أو حتى مصفوفة - ولكن يجب أن تكون جميع الإدخالات في كل عمود هي نفسها. قد يكون العمل مع إطارات البيانات أمرًا مربكًا في البداية ، ولكن تعددية استخداماتها وقوتها واضحة بالتأكيد بعد فترة من الوقت.

تتمثل إحدى ميزات R مفتوحة المصدر في أنه يسهل على المطورين المساهمة في تطوير اللغة والحزم حيثما يرون ذلك مناسبًا. ساعدت هذه المساهمات مفتوحة المصدر R بشكل كبير وتوسيع توافقها مع أدوات البرمجيات الأخرى. تتوفر آلاف الحزم لـ R من موقع CRAN. هذا هو أعظم قوة واحدة من لغة R ؛ من المحتمل أن تجد حزمة تساعدك في إجراء نوع التحليل الذي ترغب في القيام به ، لذلك تم إنجاز بعض العمل من أجلك. تحتوي MATLAB أيضًا على حزم ، لكن ليس بها عدد كبير ، على الرغم من أنها جيدة جدًا في العادة. R لديه أشياء جيدة وأخرى سيئة وكل شيء بينهما. ستجد أيضًا أطنانًا من كود R متاحًا مجانًا في مواقع إعادة الشراء العامة ، لكن ذلك قد لا يجعله في حالة العبوة الرسمية.

بشكل عام ، يعد R خيارًا جيدًا للإحصائيين وغيرهم ممن يتابعون أعمالًا ثقيلة الاستكشاف للبيانات أكثر من قيامهم بإنشاء برامج إنتاج في صناعة البرمجيات التحليلية ، على سبيل المثال.

Python هي لغة قوية يمكن استخدامها لكل من البرمجة النصية وإنشاء برامج الإنتاج. يضفي مزيدًا من الأهمية على المهام غير الإحصائية مثل الدمج مع خدمات البرامج الأخرى ، وإنشاء واجهات برمجة التطبيقات وخدمات الويب ، وبناء التطبيقات. من المحتمل أن بايثون كانت في الأصل لغة برمجة للأغراض العامة ، ولديها إطار قوي للتصميم الموجه للكائنات.

على الرغم من أن Python لم يكن الغرض منه في الأصل أن يكون لغة إحصائية شديدة ، فقد تم تطوير عدة حزم لبيثون التي رفعتها لتتنافس مع R و MATLAB. حزمة numpy للأساليب العددية أمر لا غنى عنه عند العمل مع المتجهات والمصفوفات والمصفوفات. تضيف الحزم وظيفة scipy و scikit-learn في التحسين ، والتكامل ، والتجميع ، والانحدار ، والتصنيف ، والتعلم الآلي ، من بين تقنيات أخرى. مع هذه الحزم الثلاث ، ينافس Python الوظيفة الأساسية لكل من R و MATLAB ، وفي بعض المناطق ، مثل التعلم الآلي ، يبدو Python أكثر شعبية بين علماء البيانات. لمعالجة البيانات ، أصبح الباندا الحزمة شعبية بشكل لا يصدق. يتأثر نوعًا ما بفكرة إطار البيانات في R ولكنه تجاوز ذلك منذ ذلك الحين في الوظيفة. إذا كانت مجموعة البيانات الخاصة بك كبيرة بدرجة كافية لإبطاء العمليات الحسابية ولكنها صغيرة بما يكفي لتناسب ذاكرة جهاز الكمبيوتر الخاص بك ، فقد تكون الباندا مناسبة لك.

أحد حزم بيثون الأكثر بروزًا في علم البيانات هي مجموعة أدوات اللغة الطبيعية (NLTK). إنها بسهولة الأداة الأكثر شعبية والأقوى لمعالجة اللغة الطبيعية (NLP). في هذه الأيام ، إذا كان شخص ما يقوم بتحليل وتحليل النص من Twitter أو ملفات الأخبار أو مجموعة البريد الإلكتروني الخاصة بشركة Enron أو أي مكان آخر ، فمن المحتمل أن يكونوا قد استخدموا NLTK للقيام بذلك. إنه يستخدم أدوات البرمجة اللغوية العصبية الأخرى مثل WordNet والعديد من طرق الرمز المميز ووقف التشغيل لتوفير أكثر مجموعة شاملة من قدرات البرمجة اللغوية العصبية الموجودة في مكان واحد.

بشكل عام ، تعتبر Python رائعة للأشخاص الذين يرغبون في القيام ببعض علوم البيانات بالإضافة إلى تطوير برامج أخرى غير إحصائية. إنها اللغة الشعبية والقوية الوحيدة التي يمكن أن تعمل بشكل جيد.

على الرغم من أنها ليست لغة نصية ، وبالتالي فهي غير مناسبة تمامًا لعلوم البيانات الاستكشافية ، إلا أن Java تعد واحدة من أبرز اللغات لتطوير تطبيقات البرامج ، ولهذا السبب يتم استخدامها غالبًا في تطوير التطبيقات التحليلية. العديد من نفس الأسباب التي تجعل Java سيئة بالنسبة لعلوم البيانات الاستكشافية تجعلها مفيدة لتطوير التطبيقات.

لا تعد Java رائعة بالنسبة لعلوم البيانات الاستكشافية ، ولكنها قد تكون رائعة بالنسبة لكود الإنتاج أو التعليمات البرمجية على نطاق واسع استنادًا إلى علم البيانات. تحتوي Java على العديد من المكتبات الإحصائية للقيام بكل شيء بدءًا من التحسين وحتى التعلم الآلي. يتم توفير العديد من هذه ودعمها من قبل مؤسسة Apache Software Foundation.

عند اختيار أدوات البرامج الإحصائية الخاصة بك ، ضع هذه المعايير في الاعتبار:

  • تنفيذ الطرق: إذا كنت تستخدم طريقة شائعة إلى حد ما ، فمن المحتمل أن يكون هناك العديد من الأدوات بالفعل تطبيق ، وربما يكون من الأفضل استخدام واحدة منها. عادةً ما تكون الشفرة المستخدمة من قبل العديد من الأشخاص خالية نسبيًا من الأخطاء مقارنةً ببعض الرموز التي كتبتها في اليوم واستخدمتها مرة واحدة أو مرتين فقط.
  • المرونة: بالإضافة إلى القدرة على إجراء التحليل الإحصائي الرئيسي الذي تريده ، يكون من المفيد غالبًا ما إذا كان بإمكان الأداة الإحصائية إجراء بعض الأساليب ذات الصلة. غالبًا ما تجد أن الطريقة التي اخترتها لا تعمل جيدًا كما كنت تأمل ، وما تعلمته في هذه العملية يقودك إلى الاعتقاد بأن طريقة مختلفة قد تعمل بشكل أفضل. إذا لم يكن لأداة البرنامج أي بدائل ، فأنت إما متمسك بالخيار الأول أو سيتعين عليك التبديل إلى أداة أخرى.
  • معلوماتية: توفر بعض الأدوات الإحصائية ، وخاصة الأدوات ذات المستوى الأعلى مثل لغات البرمجة الإحصائية ، القدرة على الرؤية داخل كل طريقة إحصائية تقريباً والنتيجة ، وحتى أساليب الصندوق الأسود مثل التعلم الآلي. هذه الدواخل ليست سهلة الاستخدام دائمًا ، ولكنها على الأقل متوفرة.
  • الشائع: مع البرنامج ، يعني المزيد من الأشخاص الذين يستخدمون الأداة أن عددًا أكبر من الأشخاص قد جربوها ، وحصلوا على النتائج ، ودروا النتائج ، وربما أبلغوا عن المشكلات التي واجهوها ، إن وجدت. وبهذه الطريقة ، تحتوي البرامج ، وخاصة البرمجيات مفتوحة المصدر ، على حلقة تغذية مرتدة تعمل على إصلاح الأخطاء والمشكلات في الوقت المناسب بشكل معقول. كلما زاد عدد المشاركين في حلقة التعليقات هذه ، زاد احتمال خلو أحد البرامج من الأخطاء نسبيًا وقويًا.
  • توثيق جيد: بالإضافة إلى الاستخدام الشائع ، يجب أن تحتوي أداة البرنامج الإحصائي على وثائق شاملة ومفيدة. إنها علامة سيئة إذا لم تتمكن من العثور على إجابات لبعض الأسئلة الكبيرة ، مثل كيفية تكوين المدخلات للقيام بالانحدار الخطي أو كيفية تنسيق الميزات للتعلم الآلي. إذا لم تكن الإجابات عن الأسئلة الكبيرة موجودة في الوثائق ، فسيكون من الصعب للغاية العثور على إجابات للأسئلة الأكثر تحديدًا التي ستواجهها لاحقًا.
  • مدمج الغرض: تم تصميم بعض أدوات البرامج أو حزمها لغرض معين ، ثم تمت إضافة وظائف أخرى لاحقًا. على سبيل المثال ، كانت إجراءات جبر المصفوفة في MATLAB و R ذات أهمية أساسية عند بناء اللغات ، لذلك من الآمن افتراض أنها شاملة وقوية. في المقابل ، لم يكن جبر المصفوفة مصدر قلق رئيسي في الإصدارات الأولية من Python و Java ، وهكذا تمت إضافة هذه القدرات لاحقًا في شكل حزم ومكتبات.
  • إمكانية التشغيل المتداخل: إذا كنت تعمل مع قاعدة بيانات ، فقد يكون من المفيد استخدام أداة يمكنها التفاعل مع قاعدة البيانات مباشرةً. إذا كنت بصدد إنشاء تطبيق ويب استنادًا إلى نتائجك ، فقد ترغب في اختيار أداة تدعم أطر الويب - أو على الأقل واحدة يمكنها تصدير البيانات في JSON أو بعض التنسيقات الأخرى الصديقة للويب. أو إذا كنت ستستخدم أداتك الإحصائية على أنواع مختلفة من أجهزة الكمبيوتر ، فأنت تريد أن يكون البرنامج قادرًا على التشغيل على أنظمة التشغيل المختلفة. ليس من غير المألوف دمج طريقة برنامج إحصائي في لغة أو أداة مختلفة تمامًا.
  • التراخيص المسموح بها: إذا كنت تستخدم برنامجًا تجاريًا لأغراض تجارية ، فقد يكون ذلك مخاطرة قانونيًا باستخدام ترخيص أكاديمي أو طالب. قد يكون من الخطر أيضًا بيع البرامج التجارية ، المعدلة أم لا ، لشخص آخر دون التأكد من أن الترخيص لا يحظر ذلك.

8 - تحسين البيانات

الخطوة الثامنة في عمليتنا هي تحسين منتج مع برنامج إضافي. يمكن أن تكون أدوات البرنامج في خطوتنا السابعة متعددة الاستخدامات ، لكنها إحصائية بطبيعتها. يمكن للبرامج أن تفعل أكثر بكثير من الإحصاءات. على وجه الخصوص ، تتوفر العديد من الأدوات المصممة لتخزين البيانات وإدارتها ونقلها بكفاءة. يمكن للبعض أن يجعل كل جانب من جوانب الحساب والتحليل أسرع وأسهل في الإدارة. فيما يلي 4 برامج شائعة يمكن أن تجعل عملك كعالم بيانات أسهل.

تعد قواعد البيانات شائعة ، وفرص تشغيلك عبر واحدة أثناء المشروع مرتفعة إلى حد ما ، لا سيما إذا كنت ستستخدم البيانات التي يستخدمها آخرون كثيرًا. ولكن بدلاً من مجرد الدخول في واحدة على سبيل المثال ، قد يكون من المفيد إنشاء قاعدة بيانات بنفسك لمساعدتك في مشروعك. النوعان الأكثر شيوعًا هما العلائقية (SQL) والموجّهتان بالوثائق (NoSQL ، ElasticSearch). يمكن أن تتمتع قواعد البيانات والأنواع الأخرى ذات الصلة من مخازن البيانات بعدد من المزايا مقارنة بتخزين بياناتك على نظام ملفات الكمبيوتر. في الغالب ، يمكن لقواعد البيانات أن توفر وصولًا تعسفيًا لبياناتك - عن طريق الاستعلامات - بسرعة أكبر مما يمكن لنظام الملفات ، ويمكنها أيضًا التوسع في الأحجام الكبيرة ، مع التكرار ، بطرق ملائمة يمكن أن تكون متفوقة على تغيير حجم نظام الملفات.

الحوسبة عالية الأداء (HPC) هي المصطلح العام المطبق على الحالات التي يوجد فيها الكثير من الحوسبة التي تريد القيام بها وتريد القيام بها بأسرع ما يمكن. يمكنك إما استخدام حاسوب عملاق (والذي يكون أسرع بملايين المرات من جهاز كمبيوتر شخصي) أو مجموعات الكومبيوتر (مجموعة من أجهزة الكمبيوتر المتصلة مع بعضها البعض ، عادةً عبر شبكة محلية ، وتكوينها للعمل بشكل جيد مع بعضها البعض في أداء الحوسبة المهام) ، أو وحدات معالجة الرسومات (والتي تعتبر كبيرة في إجراء عمليات حسابية متوازية للغاية). إذا كان لديك وصول ، فإن HPC هو بديل جيد لانتظار جهاز الكمبيوتر الخاص بك لحساب كل الأشياء التي تحتاج إلى حساب. يجب موازنة الاستفادة من استخدام عرض سحابة لـ HPC - وبعض الآلات القوية جدًا - مقابل التكلفة النقدية قبل الاشتراك.

أكبر مزودي الخدمات السحابية هم في الغالب شركات تكنولوجيا كبيرة أعمالها الأساسية شيء آخر. تمتلك شركات مثل Amazon و Google و Microsoft بالفعل كميات هائلة من موارد الحوسبة والتخزين قبل أن تفتحها للجمهور. لكنهم لم يستخدموا دائمًا الموارد إلى أقصى طاقتها ، ولذا قرروا استئجار طاقة فائضة وتوسيع طاقتها الإجمالية ، فيما اتضح أنه سلسلة من القرارات التجارية المربحة. الخدمات المقدمة عادة ما تكون مكافئة تقريبًا لوظيفة جهاز كمبيوتر شخصي أو مجموعة كمبيوتر أو شبكة محلية. كلها متوفرة في المناطق الجغرافية حول العالم ، ويمكن الوصول إليها عبر اتصال عبر الإنترنت وبروتوكولات الاتصال القياسية ، وكذلك ، عادةً ، واجهة متصفح الويب. إذا لم يكن لديك موارد كافية لتلبية احتياجاتك الخاصة بعلوم البيانات بشكل مناسب ، فمن المفيد التفكير في الخدمات السحابية.

أخيرًا ، يمكنك تجربة تقنيات البيانات الكبيرة: Hadoop و HBase و Hive - من بين أمور أخرى. تم تصميم تقنيات البيانات الكبيرة بحيث لا تنقل البيانات كثيرًا. يوفر هذا الوقت والمال عندما تكون مجموعات البيانات على نطاقات كبيرة جدًا تم تصميم التقنيات من أجلها. كلما كانت المهام الحسابية مرتبطة بنقل البيانات ، يمكن أن تمنحك البيانات الضخمة زيادة في الكفاءة. ولكن أكثر من التقنيات الأخرى الموضحة في هذا الفصل ، فإن برنامج البيانات الكبيرة يبذل بعض الجهد لتشغيله مع البرنامج. يجب ألا تقفز هذه القفزة إلا إذا كان لديك الوقت والموارد للتغلب على البرنامج وتكويناته وإذا كنت متأكدًا تقريبًا من أنك ستحصل على فوائد كبيرة منه.

9 - خطة التنفيذ

الخطوة الأخيرة من مرحلة الإنشاء هي تنفيذ خطة الإنشاء للمنتج. ربما يكون معظم مهندسي البرامج على دراية بالتجارب والمحن التي تكتنف بناء جزء معقد من البرامج ، لكنهم قد لا يكونون على دراية بصعوبة إنشاء برامج تتعامل مع بيانات ذات جودة مشكوك فيها. الإحصائيون ، من ناحية أخرى ، يعرفون ما يشبه الحصول على بيانات قذرة ولكن قد لا يكون لديهم خبرة تذكر في بناء برامج عالية الجودة. وبالمثل ، فإن الأفراد ذوي الأدوار المختلفة المتعلقة بالمشروع ، والذين قد يتمتع كل منهم بخبرات وتدريب مختلف ، يتوقعون ويستعدون لأشياء مختلفة.

  • إذا كنت إحصائيًا ، فأنت تعرف البيانات القذرة وتعرف التحيز وتُبالغ في أهمية النتائج. من ناحية أخرى ، قد لا تكون لديك خبرة كبيرة في إنشاء برامج للأعمال ، وخاصة برامج الإنتاج. يجب عليك استشارة مهندسي البرامج ذوي الخبرة العملية لمعرفة كيفية تحسين متانة البرنامج.
  • إذا كنت مهندس برامج ، فأنت تعرف شكل دورة حياة التطوير ، وتعرف كيفية اختبار البرنامج قبل النشر والتسليم. لكنك قد لا تعرف البيانات وبغض النظر عن مدى جودتك في تصميم البرامج وتطويرها ، ستعمل البيانات في نهاية المطاف على كسر طلبك بطرق لم تحدث لك من قبل. يتطلب هذا أنماطًا جديدة من التفكير عند إنشاء البرامج ومستوى جديد من التسامح مع الأخطاء والأخطاء لأنها ستحدث كثيرًا. يجب عليك استشارة الإحصائيين الذين هم على دراية جيدة بالتنبؤ ومعالجة البيانات الإشكالية مثل القيم الخارجية والقيم المفقودة والقيم التالفة.
  • إذا كنت تبدأ في علم البيانات ، دون خبرة كبيرة في الإحصاء أو هندسة البرمجيات ، فمن المحتمل أن يقدم لك أي شخص لديه بعض الخبرة بعض النصائح القوية إذا أمكنك شرح مشروعك وأهدافك لهم. كمبتدئ ، لديك واجب مزدوج في هذه المرحلة من العملية لتعويض نقص الخبرة.
  • إذا كنت مجرد عضو واحد في الفريق لأغراض هذا المشروع ، فإن التواصل والتنسيق لهما أهمية قصوى. ليس من الضروري أن تعرف كل ما يجري داخل الفريق ، لكن من الضروري أن تكون الأهداف والتوقعات واضحة وأن يقوم شخص ما بإدارة الفريق ككل.

يجب أن تحتوي الخطة على مسارات وخيارات متعددة ، كل هذا يتوقف على النتائج والأهداف والمواعيد النهائية للمشروع. بغض النظر عن مدى جودة الخطة ، هناك دائمًا فرصة لتنقيحها مع تقدم المشروع. حتى إذا كنت تفكر في جميع أوجه عدم اليقين وكنت على علم بكل نتيجة ممكنة ، فقد تتغير الأشياء الخارجة عن نطاق الخطة. السبب الأكثر شيوعًا لخطة تحتاج إلى تغيير هو ظهور معلومات جديدة ، من مصدر خارجي إلى المشروع ، وتغيير مسار واحد أو أكثر من مسارات الخطة أو تغيير الأهداف نفسها.

مع تقدم المشروع ، عادة ما ترى المزيد من النتائج تتراكم ، مما يتيح لك فرصة للتأكد من أنها تلبي توقعاتك. بشكل عام ، في مشروع علم البيانات الذي يتضمن إحصائيات ، تستند التوقعات إما إلى فكرة ذات دلالة إحصائية أو على مفهوم آخر عن الفائدة العملية أو قابلية تطبيق تلك النتائج أو كليهما. غالبًا ما ترتبط الأهمية الإحصائية والفائدة العملية ارتباطًا وثيقًا وبالتأكيد لا يستبعد أحدهما الآخر. كجزء من خطتك للمشروع ، ربما قمت بتضمين هدف تحقيق بعض الدقة أو الأهمية في نتائج تحليلاتك الإحصائية. تحقيق هذه الأهداف يعتبر نجاحًا للمشروع.

المرحلة الثالثة - التشطيب

بمجرد بناء منتج ما ، لا يزال لديك بعض الأشياء التي يمكنك القيام بها لجعل المشروع أكثر نجاحًا ولتسهيل حياتك المستقبلية. فكيف يمكننا الانتهاء من مشروع علم البيانات لدينا؟

10 - تسليم المنتج

الخطوة الأولى من مرحلة التشطيب هي تسليم المنتج. من أجل إنشاء منتج فعال يمكنك تقديمه للعميل ، يجب أولاً فهم منظور العميل. ثانياً ، تحتاج إلى اختيار أفضل الوسائط للمشروع وللعميل. وأخيرًا ، يجب عليك اختيار المعلومات والنتائج التي تريد تضمينها في المنتج وما يجب تركه. يمكن أن يؤدي تحديد خيارات جيدة طوال عملية إنشاء المنتج وتسليمه إلى تحسين فرص نجاح المشروع إلى حد كبير.

يمكن أن تأخذ وسائط التوصيل أشكالًا متعددة. في علم البيانات ، يتمثل أحد أهم جوانب المنتج في ما إذا كان العميل يستهلك المعلومات بشكل سلبي منه ، أو ما إذا كان العميل يشارك بنشاط المنتج ويكون قادرًا على استخدام المنتج للإجابة على أي أسئلة متعددة. يمكن أن تسقط أنواع مختلفة من المنتجات في أي مكان على طول الطيف بين السلبي والفعال:

  • ربما يكون الخيار الأبسط لتقديم النتائج إلى أحد العملاء ، يتضمن التقرير أو الورقة البيضاء نصًا وجداولًا وأرقامًا ومعلومات أخرى تتناول بعض أو كل الأسئلة التي كان الغرض من مشروعك الإجابة عليها. قد تتم طباعة التقارير والأوراق البيضاء على الورق أو تسليمها بتنسيق PDF أو تنسيق إلكتروني آخر.
  • في بعض مشاريع علوم البيانات ، يمكن أيضًا استخدام التحليلات والنتائج من مجموعة البيانات على بيانات خارج النطاق الأصلي للمشروع ، والتي قد تتضمن بيانات تم إنشاؤها بعد البيانات الأصلية (في المستقبل) ، وبيانات مماثلة من مصدر مختلف ، أو غيرها من البيانات التي لم يتم تحليلها بعد لسبب أو لآخر. في هذه الحالات ، يمكن أن يكون مفيدًا للعميل إذا تمكنت من إنشاء أداة تحليلية له يمكنها إجراء هذه التحليلات وتوليد نتائج على مجموعات بيانات جديدة. إذا كان بإمكان العميل استخدام هذه الأداة التحليلية بفعالية ، فقد يسمح لهم بإنشاء أي عدد من النتائج ومواصلة الإجابة عن أسئلتهم الأساسية جيدًا في المستقبل وعلى مجموعات بيانات مختلفة (لكن متشابهة).
  • إذا كنت ترغب في تقديم منتج يمثل خطوة أكثر نشاطًا من أداة تحليلية ، فستحتاج على الأرجح إلى إنشاء تطبيق كامل من نوع ما. إن أهم شيء يجب أن تتذكره حول التطبيقات الرسومية التفاعلية ، إذا كنت تفكر في تقديم أحد التطبيقات ، هو أنه يتعين عليك تصميمها ونشرها. في كثير من الأحيان ، لا شيء من هذه مهمة صغيرة. إذا كنت تريد أن يتمتع التطبيق بالعديد من القدرات وأن يكون مرنًا ، فسيصبح تصميمه وبناءه أكثر صعوبة.

بالإضافة إلى تحديد الوسيلة التي تقدم بها نتائجك ، يجب عليك أيضًا تحديد النتائج التي ستحتوي عليها. بمجرد اختيار منتج ما ، يجب عليك معرفة المحتوى الذي ستستخدمه لملئه.

قد تكون بعض النتائج والمحتوى اختيارات واضحة للتضمين ، ولكن قد لا يكون القرار واضحًا بالنسبة إلى أجزاء أخرى من المعلومات. عادةً ما ترغب في تضمين أكبر قدر ممكن من المعلومات المفيدة ، لكنك تريد تجنب أي احتمال أن يسيء العميل تفسير أو سوء استخدام أي نتائج تختار تضمينها. قد يكون هذا توازنًا دقيقًا في العديد من المواقف ، ويعتمد هذا إلى حد كبير على المشروع المحدد وكذلك على معرفة وخبرة العميل وبقية الجمهور للحصول على النتائج.

11 - عمل المراجعات

بعد تسليم المنتج ، ننتقل إلى مراجعة المنتج بعد التعليقات الأولية. بمجرد أن يبدأ العميل في استخدام المنتج ، هناك احتمال ظهور مجموعة جديدة كاملة من المشكلات والقضايا. على الرغم من بذل قصارى جهدك ، فقد لا تتوقع كل جانب من جوانب الطريقة التي سيستخدم بها العملاء (أو يحاولون) استخدام منتجك. حتى إذا كان المنتج يقوم بالأشياء التي من المفترض أن يفعلها ، فقد لا يقوم عملاؤك ومستخدموك بهذه الأشياء ويقومون بها بكفاءة.

الحصول على ردود الفعل أمر صعب. من ناحية ، غالباً ما يكون من الصعب الحصول على تعليقات بناءة من العملاء أو المستخدمين أو أي شخص آخر. من ناحية أخرى ، قد يكون من الصعب الاستماع إلى التعليقات والانتقادات دون اعتبارها هجومًا على - أو سوء فهم - للمنتج الذي قضيته كثيرًا من الوقت وبناء الجهد. يقوم بعض علماء البيانات بتسليم المنتجات ونسيانها. يقدم بعض علماء البيانات منتجات وينتظرون العملاء لتقديم ملاحظات. يقوم بعض علماء البيانات بتسليم المنتجات وإيقاف هؤلاء العملاء باستمرار من الجيد في كثير من الأحيان المتابعة مع عملائك للتأكد من أن المنتج الذي قدمته يعالج بعض المشكلات التي كان من المفترض معالجتها.

قد يكون إجراء مراجعات المنتجات عملية صعبة ، ويعتمد العثور على حل مناسب واستراتيجية للتنفيذ على نوع المشكلة التي واجهتها وما عليك تغييره لإصلاحه. إذا كنت ، طوال المشروع ، حافظت على وعي بعدم اليقين والنتائج المحتملة العديدة في كل خطوة على طول الطريق ، فربما لا يكون من المستغرب أن تجد نفسك تواجه الآن نتيجة مختلفة عن تلك التي توقعتها سابقًا. لكن هذا الوعي نفسه يمكن أن يضمن تقريبًا أنك على الأقل قريب من حل ناجح. من الناحية العملية ، هذا يعني أنك لم تتوقع أبدًا تصحيح كل شيء بنسبة 100٪ في المرة الأولى ، وبالتالي هناك مشاكل بالطبع. ولكن إذا كنت مجتهدًا ، فالمشاكل صغيرة والإصلاحات سهلة نسبيًا.

بمجرد التعرف على مشكلة في المنتج ومعرفة كيف يمكن إصلاحه ، يظل هناك قرار بشأن إصلاحه. الميل الأولي لبعض الناس هو أن كل مشكلة تحتاج إلى إصلاح ؛ هذا ليس صحيحًا بالضرورة. هناك أسباب وراء عدم رغبتك في إجراء مراجعة للمنتج تعمل على حل مشكلة ، تمامًا كما توجد أسباب لذلك. الشيء المهم هو إيقاف الخيارات والنظر فيها بدلاً من إصلاح كل مشكلة تم العثور عليها بصورة عمياء ، والتي قد تكلف الكثير من الوقت والجهد.

12 - مشروع الختام

الخطوة الأخيرة في عملية علم البيانات لدينا هي اختتامها. مع انتهاء مشروع في علم البيانات ، قد يبدو أنه تم إنجاز كل العمل ، وكل ما تبقى هو إصلاح أي أخطاء متبقية أو مشاكل أخرى قبل أن تتمكن من التوقف عن التفكير في المشروع بالكامل والانتقال إلى التالي واحد (استمرار دعم المنتج وتحسينه). ولكن قبل تنفيذ المشروع ، هناك بعض الأشياء التي يمكنك القيام بها لزيادة فرص نجاحك في المستقبل ، سواء مع امتداد لهذا المشروع نفسه أو مع مشروع مختلف تمامًا.

هناك طريقتان يمكن أن يؤدي به أي شيء الآن إلى زيادة فرص النجاح في المستقبل. تتمثل إحدى الطرق في التأكد من أنه في أي وقت في المستقبل ، يمكنك بسهولة اختيار هذا المشروع مرة أخرى وإعادة إضافته أو تمديده أو تعديله. من خلال القيام بذلك ، ستزيد فرصتك في النجاح في مشروع المتابعة هذا ، مقارنةً بالحالة التي تقوم فيها بعد بضعة أشهر أو سنوات من الآن بحفر مواد مشروعك ورمزه وتجد أنك لا تتذكر بالضبط ما كنت فعلت أو كيف فعلت ذلك. طريقتان عمليتان للقيام بهما هي من خلال الوثائق والتخزين.

هناك طريقة أخرى لزيادة فرص النجاح في المشاريع المستقبلية وهي تعلم أكبر قدر ممكن من هذا المشروع ونقل هذه المعرفة معك في كل مشروع مستقبلي. عن طريق إجراء تشريح الجثة للمشروع ، يمكنك أن تأمل في استخلاص الدروس المفيدة من البقية. يتضمن ذلك مراجعة الأهداف القديمة ، الخطة القديمة ، اختياراتك التكنولوجية ، تعاون الفريق وما إلى ذلك. سواء كان هناك درس محدد يمكنك تطبيقه على المشاريع المستقبلية أو درس عام يساهم في إدراكك للنتائج المحتملة وغير المتوقعة ، والتفكير في المشروع أثناء مراجعة ما بعد الوفاة ، يمكن أن تساعد في الكشف عن المعرفة المفيدة التي ستمكنك من القيام بالأشياء بطريقة مختلفة - ونأمل أن تكون أفضل - في المرة القادمة.

إذا كنت تأخذ درسًا واحدًا فقط من كل مشروع ، فمن المحتمل أن يتعلق الأمر بالمفاجأة الكبرى التي حدثت على طول الطريق. يمكن أن تتفكك حالة عدم اليقين حول كل جانب من جوانب عملك ، ونأمل أن تتسبب جميع أوجه عدم اليقين التي تسببت في مشاكل لك في الماضي في منع حدوث مشكلات مماثلة مرة أخرى. من البيانات إلى التحليل إلى أهداف المشروع ، قد يتغير أي شيء تقريبًا في غضون مهلة قصيرة. إن الإلمام بكل الاحتمالات ليس تحديًا صعبًا فحسب ، بل إنه شبه مستحيل. الفرق بين عالم بيانات جيد وعالم بيانات عظيم هو القدرة على التنبؤ بما قد يحدث الخطأ والتحضير له.

خاتمة

علم البيانات لا يزال يحمل هالة مجال جديد. معظم مكوناته - الإحصاء ، وتطوير البرمجيات ، وحل المشكلات القائمة على الأدلة ، وما إلى ذلك - تنحدر مباشرة من الحقول القديمة الراسخة ، ولكن يبدو أن علم البيانات عبارة عن تجميع جديد لهذه القطع في شيء جديد. لا يهتم جوهر علم البيانات بتطبيقات قواعد البيانات أو لغات البرمجة المحددة ، حتى لو كانت لا غنى عنها للممارسين. الأساسية هي التفاعل بين محتوى البيانات ، وأهداف مشروع معين ، وطرق تحليل البيانات المستخدمة لتحقيق تلك الأهداف.

أود بشدة أن تحقق من كتاب براين للحصول على مزيد من التفاصيل حول كل خطوة من خطوات عملية علم البيانات. يمكن الوصول إليها بسهولة لغير الخبراء في علوم البيانات والبرامج والإحصاءات. إنه يرسم صورة حية لعلوم البيانات كعملية بها العديد من الفروق الدقيقة والمحاذير والشكوك. لا تكمن قوة علم البيانات في معرفة ما يجب أن يحدث بعد ذلك ، ولكن في إدراك ما قد يحدث بعد ذلك وفي النهاية اكتشاف ما يحدث بعد ذلك.

- -

إذا كنت قد استمتعت بهذه القطعة ، فأنا أحبها إذا ضغطت على زر التصفيق حتى يتعثر الآخرون عليها. يمكنك العثور على الكود الخاص بي على GitHub ، والمزيد من كتاباتي ومشاريعي على https://jameskle.com/. يمكنك أيضًا متابعتني على Twitter أو إرسال بريد إلكتروني إلي مباشرة أو العثور علي على LinkedIn. اشترك في النشرة الإخبارية لتلقي أحدث أفكاري حول علم البيانات ، والتعلم الآلي ، والذكاء الاصطناعي مباشرة في صندوق الوارد الخاص بك!