Python ist ein leistungsfähiges Werkzeug für die Arbeit mit Daten, und das Lesen von Daten aus verschiedenen Quellen ist eine seiner wichtigen Funktionen. Eines der gängigsten Datenformate ist Excel, und in diesem Artikel werden wir uns ansehen, wie Daten aus Excel-Dateien in Python gelesen und in eine Zeichenfolge konvertiert werden.
Um mit Excel in Python zu arbeiten, verwenden wir die Pandas-Bibliothek, die praktische Werkzeuge für die Arbeit mit Tabellen und Daten bietet. PD-Methode.mit read_excel können wir Daten aus einer Excel-Datei lesen und als Pandas–DataFrame speichern - eine Tabelle, die wir leicht analysieren und konvertieren können.
Beim Lesen von Daten aus einer Excel-Datei können wir verschiedene Parameter angeben, z. B. den Namen des Arbeitsblatts, von dem die Daten gelesen werden sollen, die Zeilennummer, von der aus die Daten gelesen werden sollen, und so weiter. Dann können wir die Pandas-Methoden verwenden, um die Daten in das gewünschte Format zu konvertieren, einschließlich der Konvertierung in eine Zeichenfolge.
Das Konvertieren von Daten in eine Zeichenfolge kann nützlich sein, wenn wir beispielsweise Daten an ein anderes Programm übergeben möchten, das nur ein Textformat akzeptiert. Pandas-Methoden ermöglichen es uns, verschiedene Datenoperationen durchzuführen, einschließlich der Verkettung von Zeilen, dem Entfernen unnötiger Spalten und dem Filtern von Daten nach bestimmten Bedingungen.
Die Verwendung der Pandas-Bibliothek zum Lesen und Verarbeiten von Daten aus Excel nach Python ist eine bequeme und effiziente Möglichkeit, mit Daten zu arbeiten. Die Umwandlung von Daten in eine Zeichenfolge ermöglicht es uns, diese Daten mit anderen Programmen oder Algorithmen zu verwenden, die nur ein Textformat akzeptieren.
Wie liest man Daten aus einer Excel-Datei in Python mit der Pandas-Bibliothek
Installieren Sie zunächst die Pandas-Bibliothek, falls sie noch nicht installiert ist:
pip install pandas
Nach der Installation der Bibliothek können Sie die pd-Funktion verwenden.read_excel() zum Lesen von Daten aus einer Excel-Datei. Geben Sie als Argument für diese Funktion den Pfad zur Excel-Datei an:
import pandas as pd data = pd.read_excel('Pfad zu Datei.xlsx')
Dieser Befehl liest alle Daten aus einer Excel-Datei und speichert sie in der Variablen data als Tabelle. Sie können die gelesenen Daten mithilfe der to_string() -Methode in eine Zeichenfolge konvertieren :
In diesem Fall enthält die Variable data_string eine Zeichenfolgendarstellung der gelesenen Daten.
Wenn Sie nur bestimmte Arbeitsblätter oder Spalten aus einer Excel-Datei auslesen müssen, können Sie sie in den Argumenten der pd-Funktion angeben.read_excel() :
data = pd.read_excel('Pfad zu Datei.xlsx', sheet_name='Listenname', usecols=[0, 1, 2])
In diesem Beispiel wird angegeben, dass nur Daten aus einem bestimmten Arbeitsblatt und bestimmten Spalten (erster, zweiter und dritter) gelesen werden müssen.
Auf diese Weise können Sie die Pandas-Bibliothek verwenden, um Daten aus Excel-Dateien in Python bequem zu lesen und verschiedene Operationen mit ihnen durchzuführen.
Verwenden der pd-Funktion.read_excel
Zum Lesen von Daten aus einer Excel-Datei in Python wird die Funktion verwendet pd.read_excel aus der Pandas-Bibliothek. Mit dieser Funktion können Sie Daten aus einer Datei lesen und in ein arbeitsfreundliches Format als DataFrame konvertieren.
Die Syntax der pd-Funktion.read_excel:
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, . )
- io: der Pfad zu einer Excel-Datei oder einem File-ähnlichen Objekt wie URL, Openpyxl ExcelReader oder xlrd Book.
- sheet_name (optional): Der Name des Blattes oder die Sequenznummer, von der die Daten gelesen werden sollen. Standardmäßig wird das erste Blatt (0) gelesen.
- header (optional): Die Zeilennummer, die die Spaltennamen enthält. Standardmäßig sind keine Spaltennamen angegeben.
- names (optional): Eine Liste mit Spaltennamen. Wenn die Spaltennamen bereits in der Datei enthalten sind, müssen Sie dieses Argument überspringen.
- index_col (optional): Der Index der Spalte, die als Zeilenindizes für den DataFrame verwendet werden soll. Standardmäßig ist kein Zeilenindex angegeben.
- .
Ein Beispiel für die Verwendung der pd-Funktion.read_excel:
import pandas as pd df = pd.read_excel("data.xlsx", sheet_name="Sheet1", header=0)
In diesem Beispiel werden die Daten aus der Datei "data" gelesen.xlsx" vom Blatt "Sheet1". Die Zeile mit den Spaltennamen befindet sich in der ersten Zeile (header=0).
Nachdem Sie diesen Befehl ausgeführt haben, enthält die Variable df einen DataFrame, in dem die Daten aus der Excel-Datei gespeichert werden. Jetzt können Sie verschiedene Operationen und Konvertierungen mit diesen Daten durchführen, z. B. sie in eine Zeichenfolge konvertieren.
Verwenden der pd-Funktion.mit read_excel können Sie bequem und effizient mit Daten aus Excel in Python arbeiten, indem Sie die Vorteile beider Umgebungen kombinieren: die einfache Handhabung von Daten in Excel und die leistungsstarken Funktionen der Pandas-Bibliothek.
Konvertieren gelesener Daten in eine Zeichenfolge
Nachdem die Daten erfolgreich aus der Excel-Datei in den Pandas-DataFrame mit der pd-Funktion gelesen wurden.read_excel() , Sie können mit der Konvertierung dieser Daten in eine Zeichenfolge beginnen. In diesem Format können die Daten einfacher verarbeitet oder an eine andere Funktion oder ein anderes Modul übertragen werden.
Sie können die von pandas bereitgestellte to_string() -Methode verwenden, um Daten in eine Zeichenfolge zu konvertieren. Diese Methode konvertiert alle Werte im DataFrame in ein Zeichenfolgenformat und gibt das Ergebnis als eine einzelne lange Zeichenfolge zurück.
Beispiel für die Verwendung der to_string() -Methode :
df = pd.read_excel('data.xlsx')string_data = df.to_string()print(string_data)
In diesem Beispiel werden die gelesenen Daten aus einer Excel-Datei in der Variablen df gespeichert. Die to_string() -Methode wird dann auf die Variable df angewendet und das Ergebnis wird in der Variablen string_data gespeichert. Schließlich wird der Inhalt der Variablen string_data mithilfe der Funktion print() auf dem Bildschirm angezeigt.
Nachdem dieser Code ausgeführt wurde, wird eine Zeichenfolge in der Konsole ausgegeben, die alle Daten aus dem DataFrame im Format enthält, das in eine Zeichenfolge konvertiert wurde.
So können Sie die gelesenen Daten aus Excel in eine Zeichenfolge konvertieren, um die Daten in einem praktischen Format weiter zu bearbeiten und sie in verschiedenen nachfolgenden Datenanalyseschritten zu verwenden.
Verwenden der .to_string() -Methode
Um die .to_string() -Methode zu verwenden, müssen Sie zuerst die Daten mithilfe der pd-Funktion aus Excel laden.read_excel() . Der resultierende Dataframe kann dann mithilfe der .to_string() -Methode in eine Zeichenfolge konvertiert werden.
Beispiel für die Verwendung der .to_string() -Methode :
import pandas as pd# Загрузка данных из Exceldf = pd.read_excel("data.xlsx")# Преобразование датафрейма в строкуdata_string = df.to_string()# Вывод строки на экранprint(data_string)
Als Ergebnis des obigen Beispiels wird der Inhalt des Dataframes in eine Zeichenfolge konvertiert und auf dem Bildschirm angezeigt.
Methode.to_string() unterstützt auch verschiedene Optionen, mit denen Sie die Formatierung der Zeichenfolge anpassen können. Beispielsweise können Sie mit dem Parameter col_space die Breite der Spalten in einer Zeile festlegen, und mit dem Parameter max_rows können Sie die Anzahl der Zeilen begrenzen, die auf dem Bildschirm angezeigt werden.
Beispiel für die Verwendung von Methodenparametern .to_string() :
import pandas as pd# Загрузка данных из Exceldf = pd.read_excel("data.xlsx")# Преобразование датафрейма в строку с настройкамиdata_string = df.to_string(col_space=10, max_rows=10)# Вывод строки на экранprint(data_string)
In diesem Beispiel beträgt die Breite der Spalten in der Zeile 10 Zeichen, und nur die ersten 10 Zeilen des Dataframes werden angezeigt.
Daher ist die .to_string() -Methode eine bequeme Möglichkeit, Daten aus Excel zur späteren Verwendung oder zum Speichern in eine Zeichenfolge zu konvertieren.
Abrufen einer Zeichenfolge aus gelesenen Daten
Um gelesene Daten in eine Zeichenfolge zu konvertieren, können wir die to_string-Methode verwenden, die für DataFrame-Objekte in der Pandas-Bibliothek verfügbar ist. Die to_string-Methode konvertiert jede Datenzelle in eine Zeichenfolge und kombiniert sie zu einem einzelnen Textblock.
Beispiel für die Verwendung der to_string-Methode zum Konvertieren von Daten in eine Zeichenfolge:
import pandas as pd
# Daten aus einer Excel-Datei lesen
# Konvertieren Sie die Daten in eine Zeichenfolge
# Zeichenkette auf dem Bildschirm anzeigen
Wenn der Code ausgeführt wird, enthält die Variable data_string eine Zeichenfolge, die aus allen Daten aus der Excel-Datei besteht, ohne Zeilenindizes anzugeben.
Sie können diese Zeile verwenden, um die Daten weiter zu verarbeiten oder auf dem Bildschirm anzuzeigen.
Beispiel für die Verwendung der to_html-Methode zum Konvertieren von Daten in eine HTML-Tabelle:
from IPython.display import HTML
# Konvertieren Sie die Daten in eine HTML-Tabelle
Wenn der Code ausgeführt wird, wird eine Tabelle angezeigt, die alle Daten aus der Excel-Datei enthält.
Also mit der pd-Funktion.mit read_excel , den Methoden to_string und to_html können wir die Daten aus Excel abrufen und zur weiteren Verarbeitung oder Anzeige in eine Zeichenfolge oder HTML-Tabelle konvertieren.
Konvertieren von Daten in das gewünschte Format
Nachdem wir die Daten von Excel nach Python mit der pd-Funktion gelesen haben.read_excel , es ist oft erforderlich, diese Daten in das gewünschte Format zu konvertieren. Mögliche Formate können Zahlen, Datumsangaben, Zeichenfolgen oder andere spezifische Datentypen enthalten.
Um Daten in ein numerisches Format zu konvertieren, können wir die Funktion pd.to_numeric verwenden. Es ermöglicht Ihnen, Daten in einer Spalte oder im gesamten Dataframe in einen numerischen Datentyp zu konvertieren. Wenn wir beispielsweise eine Spalte mit Daten haben, die als Zeilen gelesen werden, können wir den folgenden Code verwenden:
df['Spalte'] = pd.to_numeric(df['Spalte'], errors='coerce')
Daher werden die Zeichenfolgenwerte in der Spalte in einen numerischen Datentyp konvertiert, und alle ungültigen Werte werden durch NaN ersetzt.
Wenn wir eine Spalte mit Daten haben, die Daten darstellen, können wir die Funktion pd.to_datetime verwenden, um sie zu konvertieren. Der folgende Code konvertiert beispielsweise eine Spalte mit Datumsangaben in das richtige Format:
Auf diese Weise werden die Werte in der Spalte in einen Datetime-Datentyp konvertiert, mit dem Sie mit Datumsangaben arbeiten und verschiedene Operationen ausführen können.
Außerdem müssen wir manchmal die Daten möglicherweise in ein Zeichenfolgenformat konvertieren, um sie bequemer zu verwenden. Dazu können wir die astype-Funktion verwenden und angeben, dass wir die Spalte oder den Dataframe in den Datentyp str konvertieren möchten. Zum Beispiel:
Die Werte in der Spalte werden nun als Zeilen dargestellt.
Es ist wichtig sich daran zu erinnern, dass Datenkonvertierungsfunktionen dazu dienen können, den Datentyp in Spalten oder im gesamten Datenrahmen zu ändern, sodass die Daten leicht an die Anforderungen angepasst werden können, die wir benötigen, und die Informationen weiter analysiert und verarbeitet werden können.