Python

Data Science Services mit Python – Warum eine perfekte Kombination?

Python wird aus einer Vielzahl von Gründen immer beliebter. Man geht sogar davon aus, dass es zwingend erforderlich ist, die Python-Syntax zu beherrschen, bevor man etwas Interessantes wie Datenanalyse tut. Es gibt zwar eine Fülle von Gründen, Python zu nutzen, aber einer der Hauptgründe ist, die unheimlich aktive Community hinter der Sprache und die mächtigen Bibliotheken zur Realisierung von Projekten.

Im Folgenden werden einige Bibliotheken und Möglichkeiten beschrieben:

Datenexploration und -analyse.

Hier eingeschlossen: Pandas; NumPy; SciPy; eine helfende Hand aus der Python-Standardbibliothek.
Daten-Visualisierung. Ein ziemlich selbsterklärender Name. Daten nehmen und sie in etwas Farbenfrohes verwandeln.
Hier eingeschlossen: Matplotlib; Seaborn; Datashader; andere.

Klassisches maschinelles Lernen.

Konzeptionell könnten wir dies als jede beaufsichtigte oder unbeaufsichtigte Lernaufgabe definieren, die kein Tiefenlernen ist (siehe unten). Scikit-Lernen ist das bei weitem am weitesten verbreitete Werkzeug zur Implementierung von Klassifikation, Regression, Clustering und Dimensionalitätsreduktion, während StatsModels weniger aktiv entwickelt wird, aber immer noch eine Reihe nützlicher Funktionen aufweist.
Hier eingeschlossen: Scikit-Lernen, Statistikmodelle.

Deep Learning.

Dies ist eine Teilmenge des maschinellen Lernens, die eine Renaissance erlebt und unter anderem mit Keras implementiert wird. Es hat in den letzten ~5 Jahren monumentale Verbesserungen erfahren, wie z.B. AlexNet im Jahr 2012, das als erstes Design aufeinanderfolgende Faltungsschichten enthielt.
Hier eingeschlossen: Keras, TensorFlow und eine ganze Reihe anderer.

Datenspeicherung und große Datenframeworks.

Große Daten lassen sich am besten als Daten definieren, die entweder buchstäblich zu groß sind, um auf einer einzigen Maschine gespeichert zu werden, oder die in Abwesenheit einer verteilten Umgebung nicht verarbeitet werden können. Die Python-Bindungen an Apache-Technologien spielen hier eine wichtige Rolle.

Apache Spark; Apache Hadoop; HDFS; Dask; h5py/pytables.

Weiteres.

Enthält Unterthemen wie die Verarbeitung natürlicher Sprache und die Bildmanipulation mit Bibliotheken wie OpenCV.
Enthalten sind hier: nltk; Spacy; OpenCV/cv2; Scikit-Bild; Cython.

More Case Studies