Jupyter am SCC

From bwHPC Wiki
Jump to: navigation, search

Als Alternative zum Zugriff auf die HPC Ressourcen mittels SSH kann Jupyter verwendet werden. Hierfür ist lediglich ein Webbrowser nötig. Innerhalb der Website kann Quellcode verschiedener Programmiersprachen editiert und ausgeführt werden. Weiterhin stehen unterschiedliche Benutzerschnittstellen und Terminals zur Verfügung.

1 Kurzbeschreibung Jupyter

Bei Jupyter handelt es sich um eine Webanwendung, zentrale Komponente von Jupyter ist das Jupyter Notebook. Hierbei handelt es sich um ein Dokument, welches gleichzeitig formatierten Fließtext, ausführbare Code-Abschnitte und (interaktive) Visualisierungen (Bild, Ton, Video, 3D Ansichten) beinhalten kann.

Die Jupyter Notebooks werden in einer interaktiven Sitzung auf den Compute-Knoten des jeweiligen Clusters ausgeführt. Zugegriffen wird über einen beliebigen Webbrowser. Daten werden auf dem Server aufbereitet und visualisiert und müssen somit nicht über das Netzwerk übertragen werden. Es werden lediglich die resultierenden Text-, Bild-, Ton- und Video-Daten übermittelt. Ausgangspunkt einer Jupyter Sitzung ist das HOME-Verzeichnis des Nutzers auf dem jeweiligen Cluster.

JupyterLab ist eine moderne Benutzeroberfläche, innerhalb welcher ein oder mehrere Jupyter Notebooks geöffnet, bearbeitet und ausgeführt werden können. Die einzelnen Notebooks können als Tabs oder gekachelt angeordnet werden. JupyterLab ist die Standard Benutzeroberfläche. Neben JupyterLab steht die klassische Notebook Oberfläche zur Verfügung, in welcher nur jeweils ein Jupyter Notebook pro Browser-Tab geöffnet werden kann.

Ein Jupyter Kernel bezeichnet einen separaten Prozess, in welchem jeweils ein Jupyter Notebook ausgeführt wird. Für unterschiedliche Programmiersprachen oder Sprachversionen stehen unterschiedliche Kernel bereit.

Bevor eine Jupyter Sitzung gestartet wird, muss zunächst die Zugriffsberechtigung geprüft werden. Dies geschieht über JupyterHub, wo zudem die Ressourcenauswahl getroffen wird, beispielsweise die Anzahl an CPU-Kernen, GPUs oder der benötigte Hauptspeicher.

Eine ausführliche Dokumentation des Jupyter Projekts findet sich unter https://jupyter.readthedocs.io.

2 Zugangsvoraussetzungen

Zur Nutzung von Jupyter auf den HPC Ressourcen des SCC gelten die Zugriffsvoraussetzungen für den bwUniCluster 2.0 bzw. ForHLR. Die Registrierung auf https://bwidm.scc.kit.edu/ wird vorausgesetzt.

Der Jupyter Dienst ist nur erreichbar von innerhalb der Netze Ihrer Heimatorganisation. Für den Zugriff von außerhalb müssen Sie zunächst eine VPN Verbindung zu Ihrer Heimatorganisation herstellen.

Derzeit ist es notwendig, sich einmalig über SSH am bwUniCluster anzumelden, um den Jupyter-Dienst zu nutzen. In Zukunft wird dieser Schritt entfallen.

3 Anmeldevorgang

Die Anmeldung erfolgt unter

Für die Anmeldung wird der KIT Benutzername, das KIT Passwort und eine 2-Faktor Authentifizierung benötigt.

Falls Sie noch nicht am KIT eingeloggt sind, werden Sie zunächst automatisch auf die entsprechende Login-Seite weitergeleitet. Wählen Sie Ihre Heimatorganisation (z.B. KIT) aus und drücken sie auf Fortfahren. Im nun eingeblendeten Abschnitt Einloggen tragen Sie Ihren KIT Benutzernamen und das KIT Passwort ein (nicht das Service Passwort). Nach dem Drücken des Einloggen Knopfes werden Sie auf die Abfrageseite für den zweiten Faktor geleitet. Tragen Sie hier das Einmalpasswort ein (beispielsweise von KIT Token oder Google Authenticator App) und drücken Sie auf Prüfen. Nun werden Sie auf die JupyterHub Seite weitergeleitet, nach dem Drücken des "Sign in with your KIT Account" Knopfes sind Sie angemeldet.

Anmeldung 750.gif

4 Auswahl der Compute-Ressourcen

Die Jupyter Notebooks werden in einer interaktiven Sitzung auf den Compute-Knoten der HPC Clusters ausgeführt. Genau wie beim Zugriff auf eine interaktive Sitzung mit SSH findet die Ressourcenzuteilung über den Workload Manager Slurm statt. Die Wahl der Ressourcen für Jupyter wird über Dropdown-Menüs realisiert. Es sind nur Jobs mit maximal einem Knoten möglich.

Zur Auswahl stehen

  • Anzahl CPU-Kerne
  • Anzahl an GPUs
  • Laufzeit
  • Partition/Queue
  • Menge an Hauptspeicher

Im normalen Modus enthalten die ausgegrauten Felder eine sinnvolle Vorauswahl der Ressourcen, abhängig von der Anzahl der benötigten CPU-Kerne bzw. GPUs. Die Vorauswahl kann im erweiterten Modus umgangen werden, wo weitere Optionen zur Verfügung stehen.

Nachdem die Auswahl getroffen ist, wird der interaktive Job mit dem Spawn Knopf gestartet. Wie beim Anfordern von interaktiven Compute-Ressourcen mit dem `salloc` Befehl kann es zu Wartezeiten kommen. Diese sind in der Regel um so länger, je größer die angeforderten Ressourcen sind. Auch wenn die gewählten Ressourcen sofort verfügbar sind, kann der Startvorgang bis zu einer Minute dauern.

Ressources 750.gif

Sollte versehentlich eine nicht mögliche Ressourcenkombination gewählt werden, wird dies mit einer Fehlermeldung angezeigt.

Falsche ressourcen 750.gif

Das Timeout für das Spawnen ist derzeit auf 10 Minuten eingestellt. Bei einer normalen Auslastung der HPC-Anlage reicht diese Zeit in der Regel aus, um interaktive Ressourcen zu erhalten.

5 JupyterLab

JupyterLab ist die Standard-Benutzeroberfläche. Im Folgenden werden nur deren wesentlichen Funktionen kurz vorgestellt. Eine ausführliche Dokumentation steht unter https://jupyterlab.readthedocs.io zur Verfügung.

5.1 Menüleiste

Die Menüleiste am oberen Rand von JupyterLab verfügt über übergeordnete Menüs, in denen die in JupyterLab verfügbaren Aktionen mit ihren Tastenkombinationen angezeigt werden. Die Standardmenüs sind:

  • File: Aktionen im Zusammenhang mit Dateien und Verzeichnissen
  • Edit: Aktionen im Zusammenhang mit der Bearbeitung von Dokumenten und anderen Aktivitäten
  • View: Aktionen, die das Erscheinungsbild von JupyterLab verändern
  • Run: Aktionen zum Ausführen von Code in verschiedenen Aktivitäten wie Notebooks und Code-Konsolen
  • Kernel: Aktionen zur Verwaltung von Kerneln, die separate Prozesse zur Ausführung von Code sind
  • Tabs: eine Liste der geöffneten Dokumente und Aktivitäten im Dockpanel
  • Settings: allgemeine Einstellungen und ein Editor für erweiterte Einstellungen
  • Help: eine Liste von Hilfelinks zu JupyterLab und zum Kernel

5.2 Linke Seitenleiste

In der linken Seitenleiste befinden sich ausklappbare Tabs. Die relevantesten sind:

  • Dateibrowser: Wechsel in Verzeichnisse und Öffnen von Dateien mit linker Maustaste, Kontextmenü mit rechter Maustaste
  • Laufende Kernel: Übersicht über laufende Kernel
  • Befehlsübersicht
  • Tab-Übersicht
  • Lmod-Software Auswahl: Suche und Laden/Entladen von Lmod Software Modulen

5.3 Haupt-Arbeitsbereich

Der Hauptarbeitsbereich in JupyterLab ermöglicht es, Dokumente (Notebooks, Textdateien usw.) und andere Aktivitäten (Terminals, Code-Konsolen usw.) in Tabs anzuordnen, in der Größe zu verändern und zu unterteilen. Mit gedrückter linker Maustaste können die Tabs ergriffen und neu positioniert werden.

In einer neuen JupyterLab Sitzung ist zunächst der Launcher-Tab geöffnet. In diesem befinden sich Knöpfe zum Starten neuer Notebooks, Code-Konsolen und anderer Funktionen. Bei geöffneten Notebooks kann ein neuer Launcher-Tab gestartet werden, indem im Dateibrowser Tab der linken Seitenleiste das Plus-Symbol gedrückt wird, durch Aufruf von File > New Launcher in der oberen Menüleiste oder durch die Tastenkombination Ctrl+Shift+L.

Hauptbereich small.gif

5.4 Classic Notebook

Die klassische Jupyter Notebook Benutzeroberfläche bietet nur jeweils ein geöffnetes Jupyter Notebook bzw. ein Terminal pro Browser-Tab. Aus der JupyterLab Benutzeroberfläche heraus ist die klassische Anzeige erreichbar in der Menüleiste unter Help > Launch Classic Notebook. Das Anklicken des JupyterHub Logos oben links führt zurück auf JupyterLab Oberfläche.

6 Abmelden

Von einer laufenden Jupyter Sitzung können Sie sich durch Aufruf von File > Log Out in der oberen Menüleiste abmelden.

Achtung

Bitte beachten Sie, dass Ihre interaktive Sitzung im Hintergrund weiterläuft!

Solange die interaktive Sitzung läuft, können Sie diese jederzeit wieder betreten. Je nach Dauer der Abwesenheit ist die erneute Eingabe von Einmalpasswort und eventuell KIT Passwort nötig.

Wollen Sie die interaktive Sitzung vor Erreichen ihrer Laufzeit beenden, können Sie dies über das Hub Control Panel tun. Unter File > Hub Control Panel in der oberen Menüleiste wird dieses in einem neuen Browser-Tab geöffnet. Durch Drücken des Stop My Server Knopfes wird die Sitzung beendet. Sie können sich nun über den Logout Knopf oben rechts abmelden oder über den Start My Server Knopf direkt eine neue Sitzung starten, beispielsweise mit veränderter Ressourcen-Auswahl.

Logout small.gif

7 Auswahl von Software

Für die Auswahl der benötigten Lmod Softwaremodule steht in der linken Seitenleiste der entsprechender Tab Softwares zur Verfügung. Durch Eingabe im Suchfeld kann die Liste der verfügbaren Module eingegrenzt werden. Das gewünschte Modul wird über den Load Knopf geladen. In der Liste mit den geladenen Modulen können diese mit dem Unload Knopf entfernt werden.

Bitte beachten

Bei bereits geöffneten Jupyter Notebooks werden neu geladene Softwaremodule erst nach Neustart des Kernels aktiv (Kernel > Restart Kernel in der oberen Menüleiste). Terminals müssen geschlossen und neu geöffnet werden.

Software small.gif

7.1 Software Stacks für Jupyter

Derzeit sind 2 spezielle Jupyter Software Stacks per Lmod verfügbar:

  • jupyter/base
    Basis-Installation von JupyterLab.
    Eine vollständige Liste der vorinstallierten Pakete finden Sie hier.
  • jupyter/tensorflow (Default-Einstellung)
    Vorinstallierte Softwarepakete für Machine Learning Anwendungen. Beinhaltet unter anderem TensorFlow, Keras, Torch, MXNet, Pandas, Matplotlib, SKLearn
    Eine vollständige Liste der vorinstallierten Pakete und deren jeweilige Version finden Sie hier.

Die Integration weiterer Programmiersprachen und Kernel sind in Arbeit: Julia, R, C/C++ (cling)

8 Installation eigener Software

Die von den Lmod-Modulen jupyter/base und jupyter/tensorflow bereitgestellte Software kann leicht durch zusätzliche Pakete ergänzt werden. Hierfür gibt es 2 empfohlene Vorgehensweisen.

  • User-Installation von pip Paketen
    pip install --user <packageName>
    Die zusätzlichen Pakete werden im Verzeichnis $HOME/.local/lib/python3.6/site-packages/ installiert, welches Teil des PYTHONPATH ist.
  • Virtual Environments
    Es können virtuelle Umgebungen angelegt und benutzt werden.
    Pakete, welche von den Lmod Modulen zur Verfügung gestellt werden, bleiben sicht- und nutzbar.
    python -m venv <myEnv>
    source <myEnv>/bin/activate
    pip install <packageName>