BwUniCluster2.0/Jupyter (Deutsch)
Als Alternative zum Zugriff auf die HPC Ressourcen mittels SSH kann Jupyter verwendet werden. Hierfür ist lediglich ein Webbrowser nötig. Innerhalb der Website kann Quellcode verschiedener Programmiersprachen editiert und ausgeführt werden. Weiterhin stehen unterschiedliche Benutzerschnittstellen und Terminals zur Verfügung.
Kurzbeschreibung Jupyter
Bei Jupyter handelt es sich um eine Webanwendung, zentrale Komponente von Jupyter ist das Jupyter Notebook. Hierbei handelt es sich um ein Dokument, welches gleichzeitig formatierten Fließtext, ausführbare Code-Abschnitte und (interaktive) Visualisierungen (Bild, Ton, Video, 3D Ansichten) beinhalten kann.
Die Jupyter Notebooks werden in einer interaktiven Sitzung auf den Compute-Knoten des jeweiligen Clusters ausgeführt. Zugegriffen wird über einen beliebigen Webbrowser. Daten werden auf dem Server aufbereitet und visualisiert und müssen somit nicht über das Netzwerk übertragen werden. Es werden lediglich die resultierenden Text-, Bild-, Ton- und Video-Daten übermittelt. Ausgangspunkt einer Jupyter Sitzung ist das HOME-Verzeichnis des Nutzers auf dem jeweiligen Cluster.
JupyterLab ist eine moderne Benutzeroberfläche, innerhalb welcher ein oder mehrere Jupyter Notebooks geöffnet, bearbeitet und ausgeführt werden können. Die einzelnen Notebooks können als Tabs oder gekachelt angeordnet werden. JupyterLab ist die Standard Benutzeroberfläche. Neben JupyterLab steht die klassische Notebook Oberfläche zur Verfügung, in welcher nur jeweils ein Jupyter Notebook pro Browser-Tab geöffnet werden kann.
Ein Jupyter Kernel bezeichnet einen separaten Prozess, in welchem jeweils ein Jupyter Notebook ausgeführt wird. Für unterschiedliche Programmiersprachen oder Sprachversionen stehen unterschiedliche Kernel bereit.
Bevor eine Jupyter Sitzung gestartet wird, muss zunächst die Zugriffsberechtigung geprüft werden. Dies geschieht über JupyterHub, wo zudem die Ressourcenauswahl getroffen wird, beispielsweise die Anzahl an CPU-Kernen, GPUs oder der benötigte Hauptspeicher.
Eine ausführliche Dokumentation des Jupyter Projekts findet sich unter https://jupyter.readthedocs.io.
Zugangsvoraussetzungen
Zur Nutzung von Jupyter auf den HPC Ressourcen des SCC gelten die Zugriffsvoraussetzungen für den bwUniCluster 2.0. Die Registrierung auf https://bwidm.scc.kit.edu/ wird vorausgesetzt.
Der Jupyter Dienst ist nur erreichbar von innerhalb der Netze Ihrer Heimatorganisation. Für den Zugriff von außerhalb müssen Sie zunächst eine VPN Verbindung zu Ihrer Heimatorganisation herstellen.
Derzeit ist es notwendig, sich einmalig über SSH am bwUniCluster anzumelden, um den Jupyter-Dienst zu nutzen. In Zukunft wird dieser Schritt entfallen.
Anmeldevorgang
Die Anmeldung erfolgt unter
- uc2-jupyter.scc.kit.edu
- SDIL: sdil-jupyter.scc.kit.edu
- HoreKa: hk-jupyter.scc.kit.edu
- HAICORE: haicore-jupyter.scc.kit.edu
Für die Anmeldung wird der Benutzername, das Passwort und eine 2-Faktor Authentifizierung benötigt.
Sie landen zunächst auf der Startseite, auf der Sie Informationen zu den zurzeit installieren Software versionen finden. Indem Sie auf den Login Knopf drücken werden sie auf die Jupyterhub Seite weitergeleitet. Klicken Sie auf "Enter Jupyterhub" um den Login Prozess zu starten. Wählen Sie Ihre Heimatorganisation (z.B. KIT) aus und drücken sie auf Fortfahren. Im nun eingeblendeten Abschnitt Einloggen tragen Sie Ihren Benutzernamen und das Passwort ein (nicht das Service Passwort). Nach dem Drücken des Einloggen Knopfes werden Sie auf die Abfrageseite für den zweiten Faktor geleitet. Tragen Sie hier das Einmalpasswort ein (beispielsweise von KIT Token oder Google Authenticator App) und drücken Sie auf Prüfen. Nun sind Sie angemeldet und können sich ihre benötigten Rechenressourcen auswählen
Auswahl der Compute-Ressourcen
Die Jupyter Notebooks werden in einer interaktiven Sitzung auf den Compute-Knoten der HPC Clusters ausgeführt. Genau wie beim Zugriff auf eine interaktive Sitzung mit SSH findet die Ressourcenzuteilung über den Workload Manager Slurm statt. Die Wahl der Ressourcen für Jupyter wird über Dropdown-Menüs realisiert. Es sind nur Jobs mit maximal einem Knoten möglich.
Zur Auswahl stehen
- Anzahl CPU-Kerne
- Anzahl an GPUs
- Laufzeit
- Partition/Queue
- Menge an Hauptspeicher
Wenn Auto-Reservation ausgewählt ist wird die Reservation für Jupyterhub Nutzer beim erzeugen des Notebooks verwendet.
Im normalen Modus enthalten die ausgegrauten Felder eine sinnvolle Vorauswahl der Ressourcen, abhängig von der Anzahl der benötigten CPU-Kerne bzw. GPUs. Die Vorauswahl kann im erweiterten Modus umgangen werden, wo weitere Optionen zur Verfügung stehen.
Wenn der Advanced Modus ausgewählt ist sind folgende Optionen zusätzlich verfügbar:
- Angabe einer Reservation
- LSDF mount Option
- BEEOND mount Option
Nachdem die Auswahl getroffen ist, wird der interaktive Job mit dem Spawn Knopf gestartet. Wie beim Anfordern von interaktiven Compute-Ressourcen mit dem `salloc` Befehl kann es zu Wartezeiten kommen. Diese sind in der Regel um so länger, je größer die angeforderten Ressourcen sind. Auch wenn die gewählten Ressourcen sofort verfügbar sind, kann der Startvorgang bis zu einer Minute dauern.
Sollte versehentlich eine nicht mögliche Ressourcenkombination gewählt werden, wird dies mit einer Fehlermeldung angezeigt.
Das Timeout für das Spawnen ist derzeit auf 10 Minuten eingestellt. Bei einer normalen Auslastung der HPC-Anlage reicht diese Zeit in der Regel aus, um interaktive Ressourcen zu erhalten.
JupyterLab
JupyterLab ist die Standard-Benutzeroberfläche. Im Folgenden werden nur deren wesentlichen Funktionen kurz vorgestellt. Eine ausführliche Dokumentation steht unter https://jupyterlab.readthedocs.io zur Verfügung.
Menüleiste
Die Menüleiste am oberen Rand von JupyterLab verfügt über übergeordnete Menüs, in denen die in JupyterLab verfügbaren Aktionen mit ihren Tastenkombinationen angezeigt werden. Die Standardmenüs sind:
- File: Aktionen im Zusammenhang mit Dateien und Verzeichnissen
- Edit: Aktionen im Zusammenhang mit der Bearbeitung von Dokumenten und anderen Aktivitäten
- View: Aktionen, die das Erscheinungsbild von JupyterLab verändern
- Run: Aktionen zum Ausführen von Code in verschiedenen Aktivitäten wie Notebooks und Code-Konsolen
- Kernel: Aktionen zur Verwaltung von Kerneln, die separate Prozesse zur Ausführung von Code sind
- Tabs: eine Liste der geöffneten Dokumente und Aktivitäten im Dockpanel
- Settings: allgemeine Einstellungen und ein Editor für erweiterte Einstellungen
- Help: eine Liste von Hilfelinks zu JupyterLab und zum Kernel
Linke Seitenleiste
In der linken Seitenleiste befinden sich ausklappbare Tabs. Die relevantesten sind:
- Dateibrowser: Wechsel in Verzeichnisse und Öffnen von Dateien mit linker Maustaste, Kontextmenü mit rechter Maustaste
- Laufende Kernel: Übersicht über laufende Kernel
- Befehlsübersicht
- Tab-Übersicht
- Lmod-Software Auswahl: Suche und Laden/Entladen von Lmod Software Modulen
Haupt-Arbeitsbereich
Der Hauptarbeitsbereich in JupyterLab ermöglicht es, Dokumente (Notebooks, Textdateien usw.) und andere Aktivitäten (Terminals, Code-Konsolen usw.) in Tabs anzuordnen, in der Größe zu verändern und zu unterteilen. Mit gedrückter linker Maustaste können die Tabs ergriffen und neu positioniert werden.
In einer neuen JupyterLab Sitzung ist zunächst der Launcher-Tab geöffnet. In diesem befinden sich Knöpfe zum Starten neuer Notebooks, Code-Konsolen und anderer Funktionen. Bei geöffneten Notebooks kann ein neuer Launcher-Tab gestartet werden, indem im Dateibrowser Tab der linken Seitenleiste das Plus-Symbol gedrückt wird, durch Aufruf von File > New Launcher in der oberen Menüleiste oder durch die Tastenkombination Ctrl+Shift+L.
Classic Notebook
Die klassische Jupyter Notebook Benutzeroberfläche bietet nur jeweils ein geöffnetes Jupyter Notebook bzw. ein Terminal pro Browser-Tab. Aus der JupyterLab Benutzeroberfläche heraus ist die klassische Anzeige erreichbar in der Menüleiste unter Help > Launch Classic Notebook. Das Anklicken des JupyterHub Logos oben links führt zurück auf JupyterLab Oberfläche.
Abmelden
Von einer laufenden Jupyter Sitzung können Sie sich durch Aufruf von File > Log Out in der oberen Menüleiste abmelden.
|
Solange die interaktive Sitzung läuft, können Sie diese jederzeit wieder betreten. Je nach Dauer der Abwesenheit ist die erneute Eingabe von Einmalpasswort und eventuell KIT Passwort nötig.
Wollen Sie die interaktive Sitzung vor Erreichen ihrer Laufzeit beenden, können Sie dies über das Hub Control Panel tun. Unter File > Hub Control Panel in der oberen Menüleiste wird dieses in einem neuen Browser-Tab geöffnet. Durch Drücken des Stop My Server Knopfes wird die Sitzung beendet. Sie können sich nun über den Logout Knopf oben rechts abmelden oder über den Start My Server Knopf direkt eine neue Sitzung starten, beispielsweise mit veränderter Ressourcen-Auswahl.
Auswahl von Software
Für die Auswahl der benötigten Lmod Softwaremodule steht in der linken Seitenleiste der entsprechender Tab Softwares zur Verfügung. Durch Eingabe im Suchfeld kann die Liste der verfügbaren Module eingegrenzt werden. Das gewünschte Modul wird über den Load Knopf geladen. In der Liste mit den geladenen Modulen können diese mit dem Unload Knopf entfernt werden.
|
Software Stacks für Jupyter
Derzeit sind 3 spezielle Jupyter Software Stacks per Lmod verfügbar:
- jupyter/minimal
- Minimale Installation von JupyterLab.
- jupyter/base
- Basis-Installation von JupyterLab.
- Eine vollständige Liste der vorinstallierten Pakete finden Sie hier.
- jupyter/tensorflow (Default-Einstellung)
- Vorinstallierte Softwarepakete für Machine Learning Anwendungen. Beinhaltet unter anderem TensorFlow, Keras, Torch, MXNet, Pandas, Matplotlib, SKLearn
- Eine vollständige Liste der vorinstallierten Pakete und deren jeweilige Version finden Sie hier.
Die Software Stacks können sowohl mit dem Zugriff über Jupyterhub als auch uber SSH mit module load benutzt werden. Eine aktualisierte Liste von installierten Paketen kann auf der entsprechenden Seite des Clusters gefunden werden:
- bwUniCluster 2.0: uc2-jupyter.scc.kit.edu/software-modules
- HoreKa: hk-jupyter.scc.kit.edu/software-modules
Installation eigener Software
Die von den Lmod-Modulen jupyter/base und jupyter/tensorflow bereitgestellte Software kann leicht durch zusätzliche Pakete ergänzt werden. Hierfür gibt es 2 empfohlene Vorgehensweisen.
- User-Installation von pip Paketen
pip install --user <packageName>
Die zusätzlichen Pakete werden im Verzeichnis$HOME/.local/lib/python3.6/site-packages/
installiert, welches Teil desPYTHONPATH
ist. - Virtual Environments
Es können virtuelle Umgebungen angelegt und benutzt werden.
Pakete, welche von den Lmod Modulen zur Verfügung gestellt werden, bleiben sicht- und nutzbar.python -m venv <myEnv> source <myEnv>/bin/activate pip install <packageName>