كيفية بناء ذاكرة العضلات الخاصة بك لعلوم البيانات مع بيثون

أولاً: معالجة البيانات مسبقًا

هل تشعر بالإحباط من خلال كسر تدفق تحليلات البيانات الخاصة بك عند البحث عن بناء الجملة؟ لماذا لا تزال لا تتذكرها بعد البحث عنها للمرة الثالثة؟ ذلك لأنك لم تمارسها بما فيه الكفاية لبناء ذاكرة العضلات لها حتى الآن.

الآن ، تخيل أنه عندما تقوم بالتشفير ، فإن بناء جملة Python ووظائفه ينطلقان من أطراف أصابعك في أعقاب أفكارك التحليلية. كم هو عظيم هذا! هذا البرنامج التعليمي هو لمساعدتك في الوصول إلى هناك.

أوصي بممارسة هذا البرنامج النصي كل صباح لمدة 10 دقائق ، وتكراره لمدة أسبوع. إن الأمر يشبه القيام ببعض الأزمات الصغيرة يوميًا - ليس من أجل القيمة المطلقة الخاصة بك ، ولكن من أجل عضلات علم البيانات الخاصة بك. تدريجيا ، ستلاحظ التحسن في كفاءة برمجة تحليلات البيانات بعد هذا التدريب المتكرر.

لتبدأ بـ "تجريب علم البيانات" ، في هذا البرنامج التعليمي ، سنعمل على بناء الجملة الأكثر شيوعًا للمعالجة المسبقة للبيانات كجلسة للإحماء ؛)

محتويات:
0 قراءة وعرض وحفظ البيانات
1. الجدول البعد وأنواع البيانات
2. تلاعب العمود الأساسي
3. القيم الخالية: عرض وحذف و Impute
4. إلغاء البيانات المكررة

0. قراءة وعرض وحفظ البيانات

أولاً ، قم بتحميل المكتبات لممارسة التمارين لدينا:

سنقوم الآن بقراءة البيانات من مستودع جيثب الخاص بي. لقد قمت بتنزيل البيانات من Zillow.

والنتائج تبدو مثل هذا:

حفظ ملف هو dataframe.to_csv (). إذا كنت لا تريد حفظ رقم الفهرس ، فاستخدم dataframe.to_csv (index = False).

1. الجدول البعد وأنواع البيانات

1.1 البعد

كم عدد الصفوف والأعمدة في هذه البيانات؟

1.2 أنواع البيانات

ما هي أنواع البيانات الخاصة بك ، وعدد الأعمدة رقمية؟

ناتج أنواع بيانات الأعمدة القليلة الأولى:

إذا كنت تريد أن تكون أكثر تحديداً بشأن بياناتك ، فاستخدم select_dtypes () لتضمين أو استبعاد نوع البيانات. سؤال: إذا أردت فقط الاطلاع على بيانات 2018 ، فكيف أحصل عليها؟

2. تلاعب العمود الأساسي

2.1 مجموعة فرعية من البيانات عن طريق الأعمدة

حدد الأعمدة حسب أنواع البيانات:

على سبيل المثال ، إذا كنت تريد فقط الأعمدة العائمة والأعداد الصحيحة:

تحديد وإسقاط الأعمدة حسب الأسماء:

2.2 إعادة تسمية الأعمدة

كيف يمكنني إعادة تسمية الأعمدة إذا كنت لا أحبها؟ على سبيل المثال ، قم بتغيير "الدولة" إلى "الدولة" ؛ "المدينة" إلى "المدينة":

3. القيم الخالية: عرض ، حذف و Impute

3.1 ما عدد الصفوف والأعمدة التي لها قيم فارغة؟

مخرجات isnull.any () مقابل isnull.sum ():

isnull.any ()isnull.sum ()

حدد البيانات التي ليست خالية في عمود واحد ، على سبيل المثال ، "المترو" ليس باطلاً.

الصفوف مع قيم N / A 'Metro'

3.2 حدد صفوفًا غير فارغة لمجموعة ثابتة من الأعمدة

حدد مجموعة فرعية من البيانات التي ليست خالية بعد عام 2000:

إذا كنت ترغب في تحديد البيانات في يوليو ، فستحتاج إلى العثور على الأعمدة التي تحتوي على "-07". لمعرفة ما إذا كانت السلسلة تحتوي على سلسلة فرعية ، يمكنك استخدام السلسلة الفرعية في السلسلة ، وستكون النتيجة صحيحة أو خاطئة.

3.3 صفوف مجموعة فرعية بواسطة القيم الخالية

حدد صفوفًا نرغب في الحصول على 50 منها على الأقل من غير القيم ، ولكن لا يلزم أن تكون محددًا في الأعمدة:

3.4 إسقاط والقيم المفقودة

ملء NA أو NA impute:

استخدم حالتك الخاصة لملء باستخدام وظيفة حيث:

4. إلغاء البيانات المكررة

نحتاج إلى التأكد من عدم وجود صفوف مكررة قبل تجميع البيانات أو الانضمام إليها.

نريد أن نرى ما إذا كان هناك أي مدن / مناطق مكررة. نحتاج إلى تحديد المعرف الفريد (المدينة ، المنطقة) الذي نريد استخدامه في التحليل.

اضبط keep = False لرؤية كل الصفوف المكررة بواسطة

إسقاط القيم المكررة.

تركيبة 'CountyName' و 'SizeRank' فريدة بالفعل. لذلك نحن فقط نستخدم الأعمدة لإظهار بناء جملة drop_duplicated.

هذا هو الجزء الأول من سلسلتي حول بناء ذاكرة العضلات لعلوم البيانات في بيثون. يمكن العثور على النص الكامل هنا.

ترقب! سيوضح لك البرنامج التعليمي التالي الخاص بي كيفية "تجعيد عضلات علم البيانات" لتقطيع البيانات والتقطيع.

اتبعني وتعطيني بعض التصفيق إذا وجدت هذا مفيداً :)

أثناء عملك على Python ، ربما تكون مهتمًا بمقالتي السابقة: