Ulf Morys
  • CV
    • Profession
    • Academia
    • Know How
    • Skill Heatmap
  • Blog
  • Data Science
  • Diverses
  • Kontakt
  • Home
  • Home
  • Blog
  • Uncategorized
  • Let’s pivot like it’s 2019 – ohne Excel, aber mit Pandas
Motivation für den Blog
26/04/2019
EU 2020 “quick fixes” > Überprüfung USt.-Ident-Nr. leicht gemacht
14/12/2019

Let’s pivot like it’s 2019 – ohne Excel, aber mit Pandas

Published by cv_admin at 26/04/2019
Categories
  • Uncategorized
Tags

Dann wollen wir diesen Blog mal mit einem Knall starten: anbei die Links sowohl zu einem YouTube Video also auch zu einem Jupyter Notebook in meinem GitHub Repository für all diejenigen, die etwas mehr erfahren wollen, wie man mit Python und Pandas Pivot-Tabellen basteln kann, ohne durch die typischen Probleme gebremst zu werden, die sich früher oder später mit Excel ergeben.

Das Video stammt von einem Vortrag, den ich auf Python Meeting Düsseldorf im Januar 2019 gehalten habe (….Chapeau an Marc-André Lemburg und Charlie Clark für dieses regelmäßige Event. welches man jedem Python-Interessierten nur wärmsten empfehlen kann !) . Der Vortrag ist auf Deutsch, das Jupyter Notebook auf GitHub (…wegen des höhren Wiederverwendungswertes) auf Englisch. Der YouTube-Video zeigt ALLE Vorträge des Abends, meiner beginnt ab Zeitmarke 1:01h.

Es geht in Vortrag wie Notebook um die grundsätzlichen Probleme, die sich bei größeren und komplexeren Pivot-Tabellen in Excel einstellen – und wie sich diese Probleme mittels Python und Pandas umgehen lassen. Insbesondere werden adressiert:

  • Die grundsätzliche Schwierigkeit, daß für saubere Pivot-Tabellen notwendige “saubere Langformat” zu erhalten (LTD bzw. Long Tidy Format)…. und wie man hier durch Nutzung von Multi-Indices beim Import von CSV-Dateien von vorne herein viel Arbeit sparen kann
  • Die “SVERWEIS-Hölle” bei langen Excel-Tabellen
  • Die deutlich leichtere und flexiblere Berechnung neuer Metriken mit Python und Pandas basierend auf
    • entweder dem ursprünglichen “sauberen Langformat” oder
    • dem Ergebnis einer Pivotisierung

Zusätzlich gehen Vortrag wie Notebook auf das grundsätzliche Basis-Problem von Excel ein, nämlich die nur schwer nachvollziehbare Vermischung von Daten und Logik in einem Dokument. Ein Nachteil, den Python und Pandas insofern elegant umgehen, da Daten Daten bleiben und die Logik, die diese Daten ändert und/oder filtert und/oder zusammenfaßt alleinig und nachvollziehbar im Python Code hinterlegt wird.



Share
0
cv_admin
cv_admin

Related posts

24/10/2022

ATS-optimization Part2 – NLP-based top extraction – A beginner’s guide


Read more
24/10/2022

ATS-optimization Part1 – obtaining the LinkedIn data thru web scraping – A beginner’s guide


Read more
20/07/2021

Strato vServer mit Plesk…. und dann 503 Server Error in der WordPress-Installation


Read more

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Imprint / Impressum ----- Privacy / Datenschutz