Artificial Intelligence

PyTorch Tensor Tutorial (5): Import CSV files into a Tensor for Neural Networks

Published 2 Jahren ago C. v. T.2 Jahren ago • Bookmarks: 135 • Comments: 9

PyTorch Tensor Tutorial (5): CSV Datei in einen Tensor für neuronale Netze importieren

Please like, comment and share, if you enjoyed this video 🙂

0:00 Intro
0:25 Format the CSV file in Excel or OpenOffice
1:50 Import torch and pandas
2:05 Reading the CSV file with pandas
3:42 Convert CSV Data in a PyTorch Tensor
4:46 Check the shape of the Tensor

.csv? .xls? .xlsx? .txt? tables? databases? MySQL? pandas? read_csv?

Often the raw data that you need to prepare for analysis are in different formats. Usually they are available in various databases or also in Excel files.

A common output format from all these sources is the so-called CSV format. This format can be created from databases and Excel alike and is actually just a plain text file, but with the data arranged in a structured way (like in a database).

This tutorial shows how to convert the universal CSV format into a PyTorch tensor so that further operations are possible with it.

Python code:

import torch
import pandas as pd

CSV file read and output with pandas

Terragon_Sample_Data = pd.read_csv(‚20181024_Terragon_Sample_Data.csv‘)
print(Terragon_Sample_Data)
print(type(Terragon_Sample_Data))

Convert values from the Pandas DataFrame into a PyTorch tensor

Terragon = torch.tensor(Terragon_Sample_Data.values)
print(Terragon)
print(Terragon.shape)

Transcript:

Daten aus Excel oder OpenOffice in PyTorch laden

Herzlich willkommen zu einem weiteren Tutorial von Tarragon. In diesem Beitrag zeigen wir, wie du Daten aus Excel oder OpenOffice in PyTorch importierst, um sie anschließend in neuronalen Netzen zu verwenden. Das Ziel ist es, die Daten in ein für PyTorch geeignetes Format – nämlich Tensoren – zu konvertieren. Lass uns Schritt für Schritt durchgehen, wie das funktioniert.

Zunächst einmal musst du deine Daten in einem Tabellenkalkulationsprogramm wie Excel oder OpenOffice erstellen. In unserem Beispiel haben wir drei Variablen („Tarragon 1“, „Tarragon 2“ und „Tarragon 3“) angelegt und ihnen zufällige Werte zugeordnet. Diese Daten kannst du natürlich an deine Bedürfnisse anpassen. Wichtig ist, dass die Variablen und Werte in Spalten angeordnet sind. Nachdem du deine Daten erstellt hast, speichere die Datei im CSV-Format (Comma Separated Values). Dies ist entscheidend, da wir die CSV-Datei später mit Pandas einlesen werden.

Nachdem du die CSV-Datei gespeichert hast, wechselst du in deine Entwicklungsumgebung, beispielsweise PyCharm. Um die Daten zu verwenden, benötigen wir zwei wichtige Bibliotheken: Torch für das Arbeiten mit Tensoren und Pandas für das Einlesen und Verarbeiten von CSV-Dateien. Wir starten damit, die Bibliotheken zu importieren und den ersten Schritt vorzubereiten: das Einlesen der CSV-Datei.

Mit Pandas kannst du die CSV-Datei einfach einlesen. Dabei liest Pandas automatisch die Spaltenüberschriften und die zugehörigen Datenzeilen aus. Nachdem die Datei eingelesen wurde, kannst du die Daten direkt im Terminal oder in der Ausgabe anzeigen lassen. Pandas erzeugt automatisch einen Index, um die Zeilen der Datei zu nummerieren. Beachte, dass die Zählweise in Python bei 0 beginnt, während in Excel und OpenOffice die erste Datenzeile bei 1 beginnt.

Nun, da wir die Daten erfolgreich eingelesen haben, ist der nächste Schritt, sie in einen PyTorch Tensor zu konvertieren. Tensoren sind mehrdimensionale Arrays, die PyTorch für die Verarbeitung in neuronalen Netzen benötigt. Durch die Konvertierung der eingelesenen CSV-Daten in einen Tensor können wir mit den numerischen Werten arbeiten und sie für das Training eines neuronalen Netzes verwenden. In unserem Beispiel haben wir eine Tensorstruktur mit 10 Zeilen und 3 Spalten erstellt, wobei jede Spalte eine der Variablen aus der CSV-Datei repräsentiert.

Um sicherzustellen, dass alles korrekt umgewandelt wurde, kannst du die Form (Shape) des Tensors anzeigen lassen. In unserem Beispiel sehen wir, dass der Tensor eine Form von 10 x 3 hat, was bedeutet, dass wir 10 Datenzeilen und 3 Variablen in den Spalten haben. Die numerischen Werte werden dabei ohne die ursprünglichen Indexinformationen angezeigt – nur die reinen Werte aus der CSV-Datei werden in den Tensor übernommen.

Dieser Prozess, von der Erstellung und Speicherung einer Excel- oder OpenOffice-Datei als CSV bis hin zur Umwandlung der Daten in Tensoren in PyTorch, ist ein einfacher und effektiver Weg, um Daten in maschinellen Lernprojekten zu nutzen. Tensoren sind das Herzstück von PyTorch und spielen eine zentrale Rolle bei der Arbeit mit neuronalen Netzen. In diesem Tutorial haben wir gesehen, wie du Daten in Excel oder OpenOffice erstellst, die Daten als CSV speicherst, die CSV-Datei mit Pandas einliest, die Daten in einen PyTorch Tensor konvertierst und schließlich die Struktur und Werte des Tensors überprüfst.

Mit diesen Schritten kannst du deine eigenen Daten in neuronale Netze einbinden und für maschinelle Lernaufgaben vorbereiten. Abschließend: Vielen Dank fürs Lesen. In unserem nächsten Tutorial gehen wir tiefer auf die Verarbeitung von Tensoren und das Training von Modellen in PyTorch ein. Bis dahin viel Erfolg beim Entwickeln.