Zum Hauptinhalt springen

Lesen von Daten aus verschiedenen Arbeitsblättern in Excel mit der Pandas-Bibliothek

Pandas - Es ist eine leistungsstarke Bibliothek für die Datenanalyse in Python, die praktische Funktionen für die Arbeit mit Tabellen und Zeitreihen bietet. Eine häufige Aufgabe besteht darin, Daten aus Excel-Dateien zu lesen. In diesem Artikel werden wir uns ansehen, wie Sie die Pandas-Bibliothek verwenden können, um Daten aus verschiedenen Arbeitsblättern in Excel zu lesen.

Normalerweise enthalten Excel-Dateien mehrere Arbeitsblätter, von denen jedes eine separate Tabelle oder ein Datensatz darstellen kann. Mit der Pandas-Bibliothek können wir Daten aus jedem Arbeitsblatt leicht lesen und zu einer großen Tabelle kombinieren, um sie einfach zu analysieren. Dies ist besonders nützlich, wenn wir mehrere verknüpfte Datensätze haben, die zusammen analysiert werden müssen.

Um mit der Pandas-Bibliothek zu beginnen, müssen wir sie mit dem Befehl pip install pandas installieren. Darüber hinaus müssen wir auch eine zusätzliche xlrd-Bibliothek installieren, mit der Pandas Excel-Dateien lesen können. Wir können es mit dem Befehl pip install xlrd installieren.

Arbeiten mit Daten in Excel mit Pandas: aus verschiedenen Blättern lesen

Um mit den Daten aus Excel zu beginnen, müssen Sie die Pandas-Bibliothek importieren:

import pandas as pd

Als nächstes können Sie die Funktion read_excel() verwenden, um Daten aus einer Excel-Datei zu lesen. Mit dieser Funktion können Sie den Dateinamen, den Dateipfad und zusätzliche Parameter angeben, einschließlich des Namens des Arbeitsblatts, aus dem die Daten gelesen werden sollen:

data = pd.read_excel('file.xlsx', sheet_name='Sheet1')

Um Daten aus mehreren Arbeitsblättern zu lesen, können Sie deren Namen in Listenform angeben:

data = pd.read_excel('file.xlsx', sheet_name=['Sheet1', 'Sheet2'])

Wenn Sie alle Arbeitsblätter in der Datei lesen möchten, können Sie den Parameter sheet_name=None verwenden :

data = pd.read_excel('file.xlsx', sheet_name=None)

Nachdem Sie die Daten gelesen haben, können Sie verschiedene Operationen mit ihnen durchführen, z. B. Filtern, Sortieren, Statistiken lesen usw.

Sie können die Funktion query() zum Filtern von Daten verwenden, mit der Sie eine zu filternde Bedingung angeben können:

filtered_data = data.query('column_name > 100')

Sie können die Funktion sort_values() verwenden, um die Daten nach einer bestimmten Spalte zu sortieren :

Sie können die Funktion describe() verwenden, um Statistiken für Spalten zu berechnen :

Die Pandas-Bibliothek bietet daher praktische Werkzeuge für die Arbeit mit Daten im Excel-Format. Mit der Funktion read_excel() können Sie Daten aus verschiedenen Arbeitsblättern einfach und schnell lesen und dann je nach Bedarf verschiedene Operationen mit ihnen durchführen.

Importieren der Pandas-Bibliothek für die Arbeit mit Excel

Es ist praktisch, die Pandas-Bibliothek in der Programmiersprache Python zu verwenden, um mit Daten aus Excel-Dateien zu arbeiten. Pandas bietet eine bequeme und effiziente Möglichkeit, Datentabellen aus Excel zu lesen, zu analysieren und zu manipulieren.

Bevor Sie mit Pandas arbeiten, müssen Sie die Bibliothek importieren. Fügen Sie dazu am Anfang des Skripts oder Notepads die folgende Zeile hinzu:

import pandas as pd

Jetzt können Sie alle Funktionen und Methoden der Pandas-Bibliothek verwenden, um Daten aus Excel-Dateien zu lesen und verschiedene Operationen mit ihnen durchzuführen.

Pandas bietet mehrere Funktionen zum Lesen von Daten aus Excel, einschließlich der Funktionen read_excel() und ExcelFile() . Mit der Funktion read_excel() können Sie Daten aus einem oder mehreren Arbeitsblättern einer Excel-Datei lesen und als Datentabelle im DataFrame-Format zurückgeben, das der primäre Datentyp in Pandas ist.

Beispiel für die Verwendung der Funktion read_excel() :

data = pd.read_excel('file.xlsx')

In diesem Beispiel lesen wir Daten aus einer Excel-Datei mit dem Namen "file.xlsx" und speichern Sie sie in der Variablen "data". Die Variable "data" enthält jetzt eine Datentabelle, die mit verschiedenen Pandas-Methoden analysiert und manipuliert werden kann.

Sie können auch die Funktion ExcelFile() verwenden, um ein Objekt zu erstellen, das eine Excel-Datei darstellt, und dann die Methoden dieses Objekts verwenden, um Daten aus verschiedenen Arbeitsblättern zu lesen. Anwendungsbeispiel:

xlsx = pd.ExcelFile('file.xlsx')data_sheet1 = pd.read_excel(xlsx, 'Sheet1')data_sheet2 = pd.read_excel(xlsx, 'Sheet2')

In diesem Beispiel erstellen wir ein "xlsx" -Objekt, das die Excel-Datei "file" darstellt.xlsx". Dann verwenden wir die Methoden dieses read_excel() -Objekts, um Daten aus verschiedenen Arbeitsblättern einer Excel-Datei zu lesen und sie in den Variablen "data_sheet1" und "data_sheet2" zu speichern. Die Variablen "data_sheet1" und "data_sheet2" enthalten jetzt Datentabellen aus den entsprechenden Arbeitsblättern.

Daher ist das Importieren der Pandas-Bibliothek und die Verwendung ihrer Funktionen zum Lesen von Daten aus Excel-Dateien der erste Schritt bei der Arbeit mit Daten aus verschiedenen Arbeitsblättern in Excel mit Pandas.