-
Narzędzia do automatyzacji eksploracyjnej analizy danych (EDA) w Python
Zrozumienie danych jest pierwszym i najważniejszym krokiem w Data Science i budowie dobrego modelu uczenia maszynowego. Służy do tego analiza eksploracyjna danych (EDA, ang. Exploratory Data Analysis), która jest iteracyjnym, ekscytującym, ale często bardzo żmudnym procesem. Proces zrozumienia i przygotowania danych, którego EDA jest nieodłączną częścią stanowi nawet 80% całego czasu poświęconego na budowę modelu. Z pomocą przychodzi automatyzacja eksploracji, która jest kluczem do usystematyzowania tego procesu i redukcji kosztów. Biblioteki w Python przeznaczone do manipulacji danymi, wizualizacji i uczenia maszynowego jak pandas, scikit-learn, czy seaborn, zawierają w sobie narzędzia, które analizę ułatwiają, jednak nie są stworzone z myślą o automatyzacji powtarzalnych czynności. Ta jest zostawiana twórcom eksperymentów i programistom.…
-
Środowisko pracy Data Science w Python
Każdy specjalista ma swój własny ulubiony zestaw narzędzi i warsztat pracy. Przy okazji uruchomienia kolejnej wersji środowiska wirtualnego Python dla Data Science postanowiłem podzielić się z Wami swoim podstawowym zestawem narzędzi. Conda jako środowisko pracy Ze względu na system operacyjny MS Windows najwygodniejszym środowiskiem jest dla mnie Conda. Przede wszystkim dlatego, że mam do dyspozycji gotowe, stabilne, przetestowane paczki działające pod Windows’em i nie muszę tracić czasu na ich kompilacje (co nie zawsze jest bezproblemowe), czy też ściągać pliki wheel lub egg. Oczywiście nie wszystko znajduje się w repozytoriach Conda, ale do dyspozycji mamy ciągle PyPI. Dodatkowe kanały z paczkami, które należy dodać do standardowej instalacji Conda: Stworzenie środowiska wirtualnego…




