W połowie sierpnia 2017 opublikowałem ankietę związaną z branżą data sciene w Polsce. Ku mojemu ogromnemu zaskoczeniu, została przyjęta bardzo dobrze i jak na początek uzyskałem 115 odpowiedzi. W wpisie dokonuję jej podsumowania.
Post Category → Data science
Teksty opisujące narzędzia, biblioteki oraz projekty związane z przetwarzaniem danych ich wizualizacją oraz przechowywaniem.
Ankieta Data Science 2017
Już od jakiegoś czasu jestem zaangażowany w różne społeczności związane z Data Science i coraz częściej odkrywam kolejne miejsca w których są ludzie piszący, mówiący i oddychający machine learning w Polsce. Przygotowałem ankietę, której zadaniem jest zbadanie naszej Polskiej społeczności, jeżeli jesteś lub chcesz być jej częścią to proszę o uzupełnienie.
Big Data na dysku, czyli jak przetwarzać pliki HDF5 w python
Czy nie macie problemu z przetwarzaniem ogromnego pliku z danymi, albo macie ogrom danych z czujników i nie wiecie jak je zapisać aby łatwo można było później je przetwarzać? Bo ja mam, znaczy miałem odkąd poznałem HDF5.
Biorąc się za jakąkolwiek robotę związaną z analizą danych mamy prosty workflow. Odczytujemy dane, wczytujemy je do pamięci następnie uruchamiamy stosowne algorytmy, dobieramy parametry i zbieramy wyniki. Jednak już na początku tego etapu możemy napotkać problemy. Co zrobić w sytuacji gdy mamy do wczytania ogromny plik, lub gdy mamy miliony małych plików? Jak to zmieścić w RAM’ie naszej maszyny? Odpowiedź jest prosta, wczytywać i przetwarzać dane partiami. Jednak takie podejście wymaga napisania dodatkowego kodu, jeżeli chcemy to zrobić ładnie i łatwo to z pomocą może nam przyjść HDF5.
Continue reading