كيف تبدأ مشاريع علوم البيانات

ما يجب فعله عندما لا تعرف ماذا تفعل.

جيمس جيديس

هذا منشور عبر مدونة الهندسة البحثية في معهد آلان تورينج ، المعهد الوطني البريطاني لعلوم البيانات والذكاء الاصطناعي.

أتساءل في بعض الأحيان ما إذا كان الاحتراف يعني معرفة ما يجب فعله عندما لا تعرف ما يجب فعله.

في وقت واحد من حياتي كنت مساعداً للتدريس في دورات الفيزياء الجامعية. ينطوي الكثير من تعلم الفيزياء في المرحلة الجامعية الأولى على حل مشكلات فيزياء المرحلة الجامعية ويمكن أن تكون مشكلات الفيزياء شاقة للغاية بالنسبة للطلاب الجامعيين. تتعثر ليس لديك فكرة عما يجب فعله ؛ كل هذا مرهق للغاية. كانت نصيحتي لطلابي هي: إذا كنت قد قرأت السؤال ولم تكن تعرف كيفية المتابعة ، فعليك رسم مخطط.

أنا: ما رأيك يجب أن تفعل هنا؟

الطالب: لا أعرف. انا عالق.

أنا: ماذا أقول لك دائمًا أنه يجب عليك فعله؟

الطالب: ارسم مخططًا.

أنا: عظيم! دعونا نفعل ذلك ، إذن.

كان لدينا هذه المحادثة كثيرا. لا أعرف عنك ، لكن بصفتي عالم بيانات ، لا أعلم كثيرًا ما يجب فعله وأجد أنه مرهق للغاية. ماذا يجب أن نفعل عندما لا نعرف ماذا نفعل؟

أود أن أخبركم بما نفعله في بداية المشاريع ، وهو في كثير من الأحيان الوقت الذي لا يكون فيه من الواضح ما يجب القيام به.

كيف نبدأ المشروع

في بداية المشروع ، أول ما نقوم به هو كتابة مستند ، يسمى "Backbrief" ، نعرض فيه الخطوط العريضة:

  1. فهمنا للمجال المشكلة
  2. السؤال الذي يتم طرحه
  3. وكيف نقترح الإجابة عليه

نحاول كتابة هذا المستند بالتعاون مع من يريد الحصول على نتائج المشروع ، ولكن على أي حال ، نحرص على مشاركته قبل البدء.

الآن ، سأمنحك ، يبدو هذا واضحًا جدًا. ولكن مرة أخرى ، وكذلك النصيحة لطلابي لرسم رسم تخطيطي (والتي تذكرها جميعًا حتى لو لم يفعلوا ذلك). اتضح أن الأشخاص لا يقومون دائمًا بالأمر الواضح وأعتقد أن سبب عدم قيامنا دائمًا بالقيام بالأمر الواضح هو نفس السبب في أن الطلاب لم يرسموا مخططًا: الذعر.

نشعر بالذعر لأننا نعتقد أنه يتعين علينا أن نرى على الفور كيفية المضي قدما ؛ يجب أن نعرف على الفور طريقة التقديم أقصد ، نحن المهنيين ، أليس كذلك؟ انظر إلى كل هؤلاء الأشخاص الآخرين ، من خلال تعلمهم العميق ، وبنية GPU ، غير البارامترية ، واستخراج المعالم ، والمعرفة المعرفية: إنهم يعرفون بوضوح ماذا يفعلون. لماذا لا يمكنني رؤيته على الفور؟

كما يقول الكتاب ، لا داعي للذعر. السبب في أنك لا تعرف ما يجب عليك فعله هو أنك لا تعرف الأسلوب الصحيح ، بل ببساطة أن السؤال لم يتضح بعد. لذا فإن أول شيء يجب عليك فعله هو محاولة معرفة ماهية السؤال الفعلي.

"السبب في أنك لا تعرف ما يجب فعله هو أنك لا تعرف الأسلوب الصحيح ، إنه ببساطة لم يتم توضيح السؤال بعد."

اتضح أن هناك حلقة مفرغة هنا تحتاج إلى تجنبها. الأشخاص الذين يواجهون المشكلة - العملاء ، إذا أردت - كانوا يعملون في هذا المجال لسنوات. وهم يعرفون ما هي المشكلة. في الواقع ، في هذه الأيام يجدون صعوبة في تخيل ما يعنيه عدم معرفة المشكلة. إنهم لا يريدونك تضييع الوقت في التفكير في طبيعة واقعهم ؛ إنهم يريدونك أن تخبرهم أن تعلمك العميق الهائل ، تسارع GPU ، إلخ ، إلخ ، ستعمل الطريقة على حل مشكلتهم. لذلك ، من السهل أن تشعر بالكثير من الضغط للتحرك بسرعة ، والعودة إلى مجال خبرتك حيث تكون على أرض مألوفة ، حتى لا "تضيع الوقت" ببساطة لتدريس أساسيات مجال المشكلة.

هذا فخ! تحتاج بالتأكيد إلى قضاء بعض الوقت على أساسيات المجال. (أيضًا ، بصراحة ، إنه جزء من فرحة كونك عالِمًا للبيانات نلتقي به في مجالات جديدة.) لن تحتاج فقط إلى فهمه من أجل حل السؤال ولكن هناك كل فرصة لفهم عميلك " أفهمها حقًا ؛ أو على الأقل ، ليس هذا الجزء منه أدى إلى التحدث إليكم.

لقد وجدنا أن كتابة ردة فعل خلفية كانت ذات قيمة استثنائية. اسمحوا لي أن أقول أكثر قليلاً عن الطريقة التي نتعامل بها ولماذا هي مفيدة للغاية.

(لاحظ ، بالطبع ، أنه لا اسم ولا الفكرة الأساسية أصلية بالنسبة لنا. إذا بحثت عن المصطلح ، فستجد كثيرًا من النقاش حول الفكرة ، في القوات المسلحة على سبيل المثال. لكن من المفيد في كثير من الأحيان إعطاء اسم ما ، ويبدو هذا الاسم مناسبًا.)

فهم المجال

أولاً ، فهمنا للمجال. نحاول جعل هذا القسم تقنيًا غير رسمي. تقنية ، لأننا نريد أن نحاول توضيح المجال لأنفسنا ، وأن نتعلم المصطلحات ، وأن نتجنب الغموض الذي قد يؤدي إلى التشويش لاحقًا. لكن غير رسمي ، على وجه التحديد لأننا لسنا خبراء في كل شيء ونريد أن نوضح حدود معرفتنا. نحن لا نحاول اجتياز امتحان. نحن نحاول الوصول إلى أسفل كيفية عمل الأشياء في هذه اللعبة. يجب أن يكون الأمر واضحًا ، فما هو افتراضنا وما لا يمكننا فهمه حتى الآن. في الواقع ، من المقبول تمامًا تقديم نموذج مبسط.

بالطبع ، في البداية ، من المحتمل أن تفهم القليل جدًا من مجال المشكلة. حسنا! جزء من نقطة كتابة backbrief هو توفير الوقت لجمع هذا الفهم. لا بأس أن يكون هناك ثغرات بعد كتابة الخلفية طالما يتم شرح ماهية الثغرات.

فهم السؤال

ثانياً ، فهمنا للسؤال. ربما هذا هو المكان الذي يمكن أن تكون فيه أكثر قيمة كشخص غريب. المسار بين أسئلة خبير المجال والأسئلة التي يمكن معالجتها مباشرة من قبل علم البيانات هو متضخم ومتعرج. دورنا هو توضيح هذا المسار.

نحن نحاول أن نكون متواضعين بعد. متواضع لأن الحصول على السؤال الصحيح صعب ؛ ولكن برأيك لأنه في النهاية سوف تجيب على بعض الأسئلة لذلك كان من الأفضل أن تكون السؤال الذي تريده

"أن تكون صريحًا حول كيفية قياس النجاح (من الناحية الكمية بشكل مثالي!) مفيد للغاية"

فكرتان يمكن أن تساعد. الأول هو إدراك أنه قد يكون هناك فرق بين السؤال الذي يمكننا الإجابة عليه والسؤال الذي نريد الإجابة عليه. من الأفضل في بعض الأحيان الحصول على إجابة تقريبية لسؤالك الحقيقي ؛ في بعض الأحيان يتعين عليك تسوية سؤال مرتبط بشكل وثيق. الشيء المهم هو أن تكون واضحًا بشأن ما تفعله. ثانياً ، لكي تعرف أنه يمكنك الإجابة على سؤال ما ، من الضروري على الأقل أن تكون قادرًا على أن تقول كيف ستقيم إجابة ما ، إذا تم إعطاؤك إجابة واحدة. كونك صريحًا حول كيفية قياس النجاح (من الناحية الكمية بشكل مثالي!) يعد أمرًا مفيدًا للغاية. خطط لبناء نظام يحدد تلقائيًا نجاح أي إجابة محددة.

فهم الجواب

وثالثا ، ما نقترح القيام به. ليس عليك حل المشكلة على الفور! ومع ذلك ، من المفيد تدوين الطريقة التي تعتقد أنك قد تحل بها: ما هو النهج الواسع الذي قد تستخدمه ، ولماذا هو النهج الصحيح ، وما هي حدوده. هدفنا جزئياً هو السماح لعملائنا بـ "قراءة المستقبل" ، وجزئياً إقناع أنفسنا بأن لدينا مكانًا للبدء منه.

ربما يكون أهم تأثير لوجود شيء يسمى backbrief هو أنه يمنحنا الإذن للقيام بالأشياء التي يجب أن نفعلها عندما لا نعرف ما يجب القيام به. إنه يتيح لنا الإذن بالتحدث عن أساسيات المجال وطلب شرح لكل المصطلحات. إنه يعطينا الإذن لطرح أسئلة أساسية ، مثل "كيف سنعرف إذا نجحنا؟". بعبارة أخرى ، إنه يعطينا الإذن للتفكير قبل أن ندخل.