Zum Hauptinhalt springen

Öffnen einer Excel-Datei in Python mit pandas

Python ist eine der beliebtesten Programmiersprachen für die Datenanalyse. Eine der Hauptaufgaben beim Arbeiten mit Daten besteht darin, Dateien verschiedener Formate zu lesen und zu verarbeiten. Eines der gängigsten Dateiformate zum Speichern von Daten ist Microsoft Excel.

In diesem Artikel erfahren Sie, wie Sie eine Excel-Datei in Python mit der Pandas-Bibliothek öffnen. Pandas bietet eine bequeme Möglichkeit, mit Daten als Tabelle zu arbeiten, wodurch es zum Werkzeug der Wahl für die Datenanalyse wird. Es verfügt über eine breite Palette von Funktionen zum Lesen und Schreiben von Excel-Dateien.

Mit der Pandas-Bibliothek können Sie eine Excel-Datei in Python einfach öffnen und verschiedene Datenoperationen wie Filtern, Sortieren, Aggregieren und vieles mehr durchführen. Sie müssen keine zusätzlichen Tools verwenden oder eine Excel-Datei in ein anderes Format konvertieren - mit der Pandas-Bibliothek können Sie direkt mit Excel-Dateien arbeiten und Datenoperationen durchführen.

Wie öffne ich eine Excel-Datei in Python mit Pandas

Zuerst müssen Sie die Pandas-Bibliothek installieren. Sie können dies mit dem folgenden Befehl tun:

pip install pandas

Nach der Installation können Sie mit den Excel-Dateien arbeiten. Zum Öffnen der Datei wird die Funktion verwendet read_excel():

import pandas as pd
data = pd.read_excel('file.xlsx')

Hier 'file.xlsx' - der Pfad zur Excel-Datei, die Sie öffnen möchten.

Nachdem Sie diesen Befehl ausgeführt haben, werden die Daten aus der Excel-Datei in die Variable geladen data in Form eines DataFrame-Objekts, das eine Tabelle mit Daten darstellt.

Sie können jetzt verschiedene Datenoperationen mit den von Pandas bereitgestellten Funktionen und Methoden ausführen. Sie können beispielsweise Daten filtern, deren Format ändern, Statistiken berechnen und vieles mehr.

Wenn eine Excel-Datei mehrere Arbeitsblätter enthält, können Sie mit dem Parameter angeben, mit welchem Arbeitsblatt Sie arbeiten möchten sheet_name:

data = pd.read_excel('file.xlsx', sheet_name='Sheet1')

Hier 'Sheet1' - der Name des Arbeitsblatts in der Excel-Datei.

Außerdem können Sie mit Pandas geänderte Daten wieder in eine Excel-Datei speichern. Dazu wird die Methode verwendet to_excel():

Hier 'new_file.xlsx' - der Name der neuen Datei, in der die Daten gespeichert werden sollen, und der Parameter index=False gibt an, dass Zeilenindizes nicht in einer Excel-Datei gespeichert werden sollen.

Sie sind jetzt mit den Grundlagen der Arbeit mit Excel-Dateien in Python mit der Pandas-Bibliothek vertraut. Es ist ein großartiges Tool, das die Datenverarbeitung erheblich vereinfacht und die einfache Interaktion mit Excel-Dateien in Ihrer Python-Anwendung ermöglicht.

Installieren der Pandas-Bibliothek

Um mit der Pandas-Bibliothek zu beginnen, müssen Sie sie auf Ihrem System installieren. Es gibt mehrere Möglichkeiten, Bibliotheken in Python zu installieren, und wir werden uns den gängigsten Weg ansehen.

Stellen Sie zunächst sicher, dass Sie den Pip-Paketmanager installiert haben. Wenn Sie kein Pip haben, müssen Sie es installieren. In den meisten Fällen wird pip mit Python geliefert, aber wenn es keine gibt, können Sie es mit dem folgenden Befehl installieren:

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

python get-pip.py

Nach der Installation von pip können Sie die Pandas-Bibliothek mit folgendem Befehl installieren:

pip install pandas

Bei der Installation der Bibliothek installiert Pandas pip automatisch alle Abhängigkeiten, die für den Betrieb der Bibliothek erforderlich sind. Dies kann abhängig von der Geschwindigkeit Ihrer Internetverbindung einige Zeit in Anspruch nehmen.

Nachdem Sie die Pandas-Bibliothek erfolgreich installiert haben, können Sie in Ihren Python-Projekten damit beginnen.

Anmerkung: Wenn Sie die Pandas-Bibliothek bereits installiert haben, können Sie sie mit dem Befehl auf die neueste Version aktualisieren pip install --upgrade pandas.

Importieren einer Pandas-Bibliothek in ein Projekt

Um mit Excel-Dateien in Python zu arbeiten, verwenden wir die Pandas-Bibliothek. Es verfügt über leistungsstarke Tools zur Datenverarbeitung und -analyse, einschließlich der Möglichkeit, Excel-Dateien zu lesen und zu schreiben.

Um mit der Pandas-Bibliothek zu beginnen, müssen Sie sie mit einem Python-Paketmanager wie pip installieren:

pip install pandas

Nach der Installation können Sie Pandas in Ihr Projekt importieren:

import pandas as pd

Pandas werden normalerweise mit einer Abkürzung zu "pd" importiert, sodass Sie bequemere und kürzere Namen für Bibliotheksfunktionen und -methoden verwenden können.

Jetzt sind wir bereit, mit den leistungsstarken Funktionen von Pandas mit der Arbeit mit Excel-Dateien zu beginnen.

Laden von Daten aus einer Excel-Datei

Um Daten aus einer Excel-Datei in Python zu laden, können wir die Pandas-Bibliothek verwenden. Pandas bietet ein leistungsstarkes Toolkit für die Arbeit mit Daten, einschließlich der Möglichkeit, Excel-Dateien zu lesen und zu schreiben.

Um zu beginnen, müssen wir die Pandas-Bibliothek installieren. Wir können dies mit dem folgenden Befehl tun:

pip install pandas

Nach der Installation der Bibliothek können wir die benötigten Module importieren und mit der Arbeit mit der Excel-Datei beginnen. Hier ist ein Beispielcode, der diesen Prozess veranschaulicht:

import pandas as pd

data = pd.read_excel('file.xlsx')

In diesem Beispiel importieren wir das Pandas-Modul und verwenden die Funktion read_excel() zum Laden von Daten aus einer Excel-Datei mit dem Namen "file.xlsx". Das Ergebnis dieser Funktion ist ein DataFrame-Objekt, das die Daten aus der Excel-Datei darstellt.

Nachdem wir die Daten geladen haben, können wir mit ihnen beginnen, indem wir eine Vielzahl von Operationen durchführen, z. B. Filtern, Sortieren und Aggregieren. Dank der praktischen API der Pandas-Bibliothek können wir die Daten leicht manipulieren und die Informationen abrufen, die wir benötigen.

Daher macht die Verwendung der Pandas-Bibliothek das Laden von Daten aus einer Excel-Datei in Python einfach und bequem. Dank der leistungsstarken Funktionen dieser Bibliothek können wir effizient mit den Daten arbeiten und die gewünschten Ergebnisse erzielen.

Arbeiten mit Daten aus einer Excel-Datei

Um mit den Daten aus einer Excel-Datei zu beginnen, müssen Sie die Pandas-Bibliothek installieren, falls sie noch nicht installiert ist. Dazu können Sie den pip-Paketmanager verwenden und den Befehl ausführen:

pip install pandas

Nachdem Sie die Pandas-Bibliothek installiert haben, können Sie mit dem Öffnen der Excel-Datei beginnen. Dazu müssen Sie ein DataFrame-Objekt erstellen, das die Daten aus der Excel-Datei enthält.

import pandas as pd# Открытие файла Exceldf = pd.read_excel("file.xlsx")

Das df-DataFrame-Objekt enthält jetzt alle Daten aus der Excel-Datei. Standardmäßig liest die Pandas-Bibliothek nur das erste Arbeitsblatt in einer Excel-Datei. Wenn die Datei mehrere Arbeitsblätter enthält, können Sie einen Namen für das zu lesende Arbeitsblatt angeben:

df = pd.read_excel("file.xlsx", sheet_name="Sheet1")

Nachdem Sie die Excel-Datei geöffnet haben, können Sie verschiedene Datenoperationen durchführen. Sie können beispielsweise die ersten Zeilen mit Daten ausgeben:

Sie können auch Informationen zu den Datentypen in jeder Spalte abrufen:

# Информация о типах данныхprint(df.info())

Die Pandas-Bibliothek bietet umfangreiche Möglichkeiten, mit Daten aus einer Excel-Datei zu arbeiten. Es ermöglicht Ihnen, verschiedene Operationen durchzuführen, wie zum Beispiel: filtern von Daten, Sortieren, Gruppieren, Aggregieren und vieles mehr. Dank der einfachen und intuitiven Benutzeroberfläche der Pandas-Bibliothek wird die Arbeit mit Daten aus einer Excel-Datei zu einer bequemen und effizienten Aufgabe.

Ausführen von Datenoperationen

Nachdem Sie eine Excel-Datei mit der Pandas-Bibliothek geöffnet haben, können Sie verschiedene Datenoperationen durchführen. Hier sind einige der am häufigsten verwendeten:

  1. Anzeigen von Daten: verwenden Sie die Methoden head() und tail() , um die ersten und letzten Zeilen der Tabelle anzuzeigen.
  2. Spalten auswählen: sie können die gewünschten Spalten auswählen, indem Sie ihre Namen in eckigen Klammern angeben, z. B. df['spaltenname'] .
  3. Zeilen auswählen: sie können die gewünschten Zeilen mithilfe von logischen Bedingungen wie df auswählen[df['spaltenname'] > Wert] .
  4. Hinzufügen von Spalten: sie können neue Spalten mithilfe von arithmetischen Operationen oder Funktionen wie df hinzufügen['neue Spalte'] = df['spalte 1'] + df['spalte 2'] .
  5. Löschen von Spalten: sie können Spalten mit der drop() -Methode, z. B. df, löschen.drop(['spalte 1', 'Spalte 2'], axis=1) .
  6. Gruppieren von Daten: Sie können die Daten mithilfe der groupby() -Methode nach den Werten einer bestimmten Spalte gruppieren.
  7. Aggregation von Daten: mit den Methoden sum() , mean() , max() und min() können Aggregationsoperationen wie Summe, Mittelwert, Maximum und Minimum durchgeführt werden.
  8. Sortieren von Daten: Sie können die Daten mithilfe der sort_values() -Methode nach den Werten einer oder mehrerer Spalten sortieren.
  9. Daten filtern: sie können Daten mithilfe von logischen Bedingungen filtern, z. B. df[df['spalte'] > Wert] .

Dies sind nur einige der verfügbaren Operationen. Die Pandas-Bibliothek bietet umfangreiche Möglichkeiten zur Datenverarbeitung. Wenn Sie die Dokumentation der Bibliothek studieren, können Sie ihre Funktionalität besser verstehen und sie für Ihre Datenanalyseaufgaben verwenden.

Bearbeiten von Daten und Speichern einer Excel-Datei

Nachdem Sie eine Excel-Datei in Python mit der Pandas-Bibliothek geöffnet haben, können Sie die Daten in der Tabelle ändern und die Änderungen in der Datei speichern.

Um die Daten zu ändern, müssen Sie auf die gewünschte Zelle oder Spalte zugreifen und einen neuen Wert zuweisen. Wenn Sie beispielsweise den Wert in Zelle A1 in "Neuer Wert" ändern möchten, können Sie den folgenden Code verwenden:

df.at[0, 'A'] = 'Neuer Wert'

Hier ist df eine Variable, die eine geöffnete Excel-Datei enthält. Mit der at-Methode können Sie anhand des Zeilenindexes und der Spalte auf eine bestimmte Zelle zugreifen.

Sie können den folgenden Code verwenden, um die Werte in der gesamten Spalte zu ändern:

Hier sind die Werte der Liste [1, 2, 3, 4, 5] wird der Spalte "A" zugewiesen. Wenn die Werteliste eine andere Länge als die Spalte hat, wird eine Ausnahme ausgelöst.

Nachdem Sie die Daten in der Tabelle geändert haben, müssen Sie die Änderungen in einer Excel-Datei speichern. Dazu können Sie die to_excel-Methode der Pandas-Bibliothek verwenden.

Zum Beispiel, um die Änderungen in der neuen Datei "new_data" zu speichern.xlsx", können Sie den folgenden Code verwenden:

Hier ist "new_data.xlsx" ist der Name der neuen Datei, in der die Änderungen gespeichert werden. Der Parameter index=False gibt an, dass Zeilenindizes nicht in einer Datei gespeichert werden sollen.

Jetzt wissen Sie, wie Sie die Daten in Excel-Dateien mit der Pandas-Bibliothek ändern und die Änderungen in einer Datei speichern können.

Schließen einer Excel-Datei und Freigeben von Ressourcen

Nachdem wir die Excel-Datei in Python beendet haben, ist es wichtig, sie zu schließen und die damit verbundenen Ressourcen freizugeben. Dazu muss die Methode verwendet werden close() für das Objekt, das die geöffnete Datei darstellt.

Beim Aufrufen der Methode close() die Excel-Datei wird geschlossen und alle an der Datei vorgenommenen Änderungen werden gespeichert. Außerdem werden mit dieser Methode Ressourcen frei, die der Datei zugeordnet sind, z. B. RAM und CPU-Zeit.

Das Schließen einer Excel-Datei ist auch in Bezug auf die Vermeidung von Speicherlecks wichtig. Wenn die Excel-Datei geöffnet bleibt, kann sie den Arbeitsspeicher belegen, was zu Ineffizienzen oder sogar zum Absturz des Programms führen kann.

Beispiel zum Schließen einer Excel-Datei:

import pandas as pd# Открытие файла Exceldf = pd.read_excel("file.xlsx")# Код для работы с данными# Закрытие файла Exceldf.close()

Seien Sie vorsichtig und stellen Sie sicher, dass Sie alle geöffneten Excel-Dateien schließen, nachdem Sie sie verwendet haben. Dies wird Ihnen helfen, falsche Programmergebnisse zu vermeiden und die Gesamtleistung zu verbessern.