Das Coronavirus hat auf der ganzen Welt eine wahre Digitalisierungsoffensive ausgelöst. Seit dem Ausbruch des Virus haben zahlreiche Unternehmen, denen es möglich war, ihre Mitarbeiter ins Home Office geschickt. Selbst Betriebe, die einer Home-Office-Regelung in der Vergangenheit ablehnend gegenüberstanden, haben versucht, ihre IT-Infrastruktur schnellstmöglich auf die Arbeit von zu Hause oder auf Remote Work umzustellen. Das ist nicht überraschend, da die Arbeit von zu Hause dabei hilft, den Geschäftsbetrieb aufrecht zu erhalten und dabei das Risiko einer Ansteckung der eigenen Angestellten mit Covid-19 zu minimieren.
Die kurzfristige Verlagerung vieler Arbeitsplätze in das Home Office stellt jedoch zahlreiche firmeninterne IT-Abteilungen vor große Herausforderungen, da vielerorts zum einen keine oder nicht ausreichend Infrastrukturen für den Remote-Zugriff auf das Firmennetzwerk und firmeneigene Applikationen vorhanden sind. Zum anderen muss auch die IT-Sicherheit beim Zugriff des Mitarbeiters auf das Unternehmensnetzwerk vom heimischen Küchentisch aus gewährleistet sein. Abhilfe kann hier ein klassisches VPN (Virtual Private Network) leisten. Es bildet einen Tunnel vom Endgerät des Mitarbeiters zum Firmennetzwerk über das Internet. Der Tunnel schützt einerseits die übermittelten Daten vor Zugriff von außen durch eine Verschlüsselung und leitet andererseits die privaten IP-Adressen über die Internet-Verbindung weiter.
Auf diese Weise ist es für den Mitarbeiter möglich, von seinem Endgerät im Heimnetzwerk aus auf die Firmeninfrastruktur zuzugreifen. Umso ärgerlicher ist es jedoch, wenn es immer wieder zu Problemen kommt, da die bereitgestellten VPN-Kapazitäten nicht ausreichen oder der PC sich mit dem falschen DNS-Server verbinden will. Ebenso störend ist es, wenn die VPN-Verbindung deutlich langsamer als die gewohnte Netzwerkverbindung ist. Dies kann zum Beispiel daran liegen, dass das Gateway überlastet ist oder schlichtweg benötigte Lizenzen fehlen. Da der über einen VPN-Tunnel übertragene Datenverkehr an einem Ende verschlüsselt und am anderen Ende entschlüsselt wird, benötigt das VPN-Gateway eine entsprechende CPU-Leistung für die Ver- und Entschlüsselungsprozesse. Reicht die vorhandene Leistung aufgrund der stark gewachsenen Anzahl an VPN-Verbindungen nicht mehr aus, entwickelt sich das Gateway schnell zum Flaschenhals der Remote-Infrastruktur. Dies führt nicht nur zu Frust bei den Anwendern, sondern mindert auch die Produktivität der Mitarbeiter im Home Office.
Für Unternehmen ist es daher wichtig zu wissen, wie viele VPN-Kapazitäten, etwa Verbindungen und Bandbreite, sie brauchen. Ferner sollten sie dabei einkalkulieren, dass unterschiedliche Abteilungen möglicherweise unterschiedliche Kapazitäten benötigen. Neben der Vorhaltung der dafür benötigten Lizenzen sowie der Überwachung des Zustands von VPN-Verbindungen und der übermittelten Datenmenge ist es daher also auch sinnvoll, das VPN-Gateway zu überwachen. Bei einem VPN-Gateway kann es sich beispielsweise um einen Router, einen Server oder einer Firewall handeln.
Probleme auf dem Gateway identifizieren
Das Monitoring der CPU-Load und -Utilization eines VPN-Gateways behebt zwar nicht mögliche Probleme oder Engpässe, die bei der VPN-Nutzung auftreten können. Ein Monitoring dieser Parameter kann jedoch dabei helfen, das Problem frühzeitig zu identifizieren, sodass es der Administrator entweder schnell beheben oder bereits im Vorfeld vermeiden kann. Beide Werte, also CPU-Last und CPU-Utilization, sagen etwas über die CPU-Auslastung aus.
Die Load ist bei Unix-Systemen die Anzahl der Prozesse, die die CPU aktuell berechnet sowie jene, die darauf warten, dass die CPU sie berechnet. Bei einem System mit einem Core sollte die optimale Load nicht 1.00 überschreiten. Ein Wert von 1.00 bedeutet, dass sich zu diesem Zeitpunkt ein Prozess in der Bearbeitungsschlange des Prozessors befindet. Ein Wert unter 1.00 signalisiert, dass der Prozessor nicht ganz ausgelastet ist. Liegt die CPU-Load über 1.00 ist sie entsprechend überfordert. Idealerweise sollte sich der CPU-Load-Wert unter 1.00 befinden, sodass die CPU einen Prozess ohne Wartezeit weiterverarbeiten kann. Viele Systemadministratoren nehmen hier 0.70 als Richtwert, um noch ein wenig Puffer nach oben zu haben. Überschreitet die CPU-Load regelmäßig diesen Wert, sollte der Administrator handeln. Bei Maschinen mit Multicore-Prozessoren richtet sich der CPU-Load-Wert, der die volle Auslastung signalisiert, nach der vorhandenen Kern-Anzahl. 2.00 bei zwei oder 4.00 bei vier CPU-Cores etc.
CPU-Utilization ist der Prozentsatz an verfügbarer Rechenzeit, der durch Rechnen verbraucht wird. Eine CPU-Utilization von 100 Prozent bedeutet also, dass der laufende Prozess über die gesamte Zeit, die er ausgeführt wird, alle logischen CPU-Kerne in Anspruch nimmt. Daraus lässt sich unter anderem ableiten, ob ein System effizient ist. Eine höhere Auslastung der Prozessorkerne kann etwa dazu führen, dass sich die Reaktionszeit verschiedener Anwendungen verlängert.
Am Beispiel einer Eisdiele lässt sich die Unterscheidung zwischen CPU-Load und CPU-Utilizaion – die für alle IT-Systeme und nicht nur für VPN-Gateways gilt – noch einmal verdeutlichen: Dort sollen beispielsweise vier Mitarbeiter hinter der Theke das Eis servieren. Utilization ist der Prozentsatz der Angestellten, die Eis zu einem bestimmten Zeitpunkt servieren, während die Load die Länge der Schlange an Kunden ist, die für das Eis anstehen.
Monitoring von weiteren Parametern
Neben der Überwachung der CPU-Auslastung auf einem VPN-Gateway ist es darüber hinaus ebenso sinnvoll, weitere Parameter zu überwachen. Das kann beispielsweise die Anzahl der aktiven VPN-Sitzungen, die Anzahl der aktiven VPN-Tunnel sowie die Menge der über VPN übermittelten und empfangenen Bytes sein. Es bietet sich daher für Unternehmen an, sich genau zu überlegen, was sie mit einem VPN-Monitoring überwachen wollen und wie.
Auch Checkmk bietet eine Reihe von Möglichkeiten, um die VPN-Verbindungen zu überwachen, um Informationen über den aktuellen Status zu erhalten. Dazu sind bereits verschiedene Plugins verfügbar.
Mit Checkmk 1.6 FP2 wird sich beispielsweise die Anzahl der aktiven WebVPN-Verbindungen auf einer Cisco ASA (Adaptive Security Appliance) überwachen lassen. Ebenso ist die Monitoring-Software in der Lage, die Existenz von inventarisierten IPsec- und Remote-Access-VPN-Tunneln auf einem Cisco ASA Device zu überprüfen. Dazu kreiert die Lösung für jeden IPsec- und Remote-Access-Tunnel einen eigenen Service. Findet Checkmk einen konfigurierten Tunnel ist es möglich, einen Namen und einen Zustand zu konfigurieren. Dabei lässt sich auch ein allgemeiner Status für einen nicht mehr existenten Tunnel konfigurieren. Darüber hinaus kann Checkmk die Anzahl der aktiven SVC Sessions, etwa AnyConnect, auf einem Cisco-Server monitoren.
Ebenso ermöglicht ein neuer Check die Abfrage der Gesamtzahl der aktuellen SSL/VPN-Verbindungen auf den Big-IP Loadblanacern von F5 Networks.
Fortinet-Nutzer können ab Checkmk 1.6 FP2 die Anzahl der verfügbaren IPSec- und VPN-Tunnel auf den FortiGate-Firewalls monitoren und gleichzeitig konfigurierte SSL-VPN-Tunnel auf den FortiGate-Geräten zu überprüfen. Außerdem lässt sich SSL VPN aktivieren oder deaktivieren und pro virtueller Domäne bereitstellen, sodass es einen Dienst pro Domäne gibt..
Zum weiteren Funktionsumfang von Checkmk gehört darüber hinaus die Abfrage des VPN-Status auf der genuscreen VPN-Appliance (Version 5.1) von Genua, das Monitoring des aktuellen Status der VPN-Tunnel auf Juniper ScreenOS und auf Checkpoint Firewalls sowie die Überwachung des Status der Client-Verbindungen und des eingehenden und ausgehenden Datenverkehrs bei OpenVPN.
Flaschenhälse in Remote-Workplace-Umgebungen vermeiden
Ein weiteres Home-Office-Szenario ist die Bereitstellung von Remote-Workplaces über eine VDI-Umgebung (Virtual Desktop Infrastructure). Auf diese Weise kann die Firmen-IT beispielsweise eine sichere virtuelle Arbeitsumgebung bereitstellen, auf die der Mitarbeiter auch von seinem privaten Endgerät aus einem beliebigen Netzwerk heraus zugreifen kann. Hier ist beispielsweise Citrix ein beliebter Anbieter einer solchen Remote-Workplace-Lösung.
Die Citrix-Infrastruktur ist so aufgebaut, dass die Anwender von außen über das NetScaler Gateway auf die hinter der Firmen-Firewall liegende Server-Architektur der Citrix-Umgebung zugreifen. Auf diese Weise ermöglicht es Citrix den Administratoren, eine Zugriffskontrolle auf die Anwendungsebene einzurichten, und den Anwendern, von einem beliebigen Ort aus auf ihren zentral gehosteten, virtuellen Arbeitsplatz zuzugreifen. Die Verbindung mit dem virtuellen NetScaler Gateway beziehungsweise mit dem NetScaler-VPX-Gerät ist mit TLS gesichert. Die Bereitstellung des SSL-VPN-Geräts erfolgt in der DMZ (Demilitarized Zone), also einem von außen erreichbaren Bereich der Unternehmensinfrastruktur, der mittels einer oder mehreren Firewalls von anderen Netzwerken, etwa dem Internet oder dem LAN, abgeschirmt ist. Von dort aus stellt das Gateway einen zentralen Zugriff über die Unternehmensfirewall bereit.
Kommt es in einer solchen VDI-Umgebung zu Performance-Problemen, ist es nicht unbedingt hilfreich, die Zahl der Server zu skalieren, da der Engpass möglicherweise in der DMZ und nicht in der Unternehmensinfrastruktur liegt. Wenn das Gateway beispielsweise durch die vielen Anfragen überlastet ist, lässt sich das nicht mit mehr Servern ausgleichen. Stattdessen ist es notwendig, das Gateway zu skalieren. Zur Problemfindung bietet sich hierfür ein Monitoring des NetScaler-Gateways an, etwa die Überwachung der CPU-Leistung, die aufgrund der SSH-Verbindung durch die Ver- und Entschlüsselung des Datenverkehrs in Anspruch genommen wird. Checkmk bietet neben verschiedenen Monitoring-Funktionen für die Citrix NetScaler Loadbalancing Appliance auch einen Check für die Überwachung der CPU-Utilization an.
Weitere Gründe für Performance-Probleme mit Citrix können – speziell in Deutschland – eine überlastete Internet-Anbindung sein. Sehr häufig erweist sich jedoch die virtuelle Plattform, auf der Citrix läuft, als Flaschenhals, da die zur Verfügung stehenden Ressourcen, etwa CPU, RAM oder Storage-IO, ausgelastet sind und keine weiteren Kapazitäten für eine Skalierung zur Verfügung stehen. Es ist daher enorm wichtig, mit der eingesetzten Monitoring-Lösung alle Bereiche abzudecken, um hier die richtigen Maßnahmen für einen reibungslosen Betrieb treffen zu können.
VMware bietet mit seinem Unfied Access Gateway (ehemals VMware Access Point) ebenso eine Lösung bereit, die einen externen Zugriff auf Unternehmensanwendungen und -ressourcen ermöglichen soll, etwa auf das VMware-Angebot Horizon Desktop und Apps. Auch das Unified Access Gateway (UAG) befindet sich in der DMZ, wo es Authentifizierungsanfragen an den jeweiligen Server weiterleitet oder unbefugte Anfragen blockiert.
Aufgrund der Coronakrise arbeitet tribe29 derzeit daran, mehr Optionen für die Überwachung von IT-Umgebungen bereitzustellen, die für den problemlosen Betrieb von Home Office und Remote Work nötig sind. Dies schließt beispielsweise das UAG mit ein, für das es seit Checkmk 1.6 p12 ebenfalls einen Check gibt. Dieser ermöglicht die Überwachung der CPU, Memory und des VMware Tunnel Servers.
Für die Appliances von Pulse Secure wird es ab Checkmk 1.6 FP2 möglich sein, die Zahl der eingeloggten Web-Nutzer für Pulse Secure über SNMP zu überwachen. Pulse Secure bietet ebenfalls verschiedene Lösungen an, die einen sicheren Remote-Zugriff vom klassischen VPN-Client über eine Workspace-Lösung für BYOD-Geräte (Bring your own Device) und einer ausgereiften NAC-Lösung umfassen. Ein weiterer Check soll das Monitoring von CPU-, Arbeitsspeicher- und Festplatten-Utilization sowie die Überwachung der Temperatur und Log-File-Nutzung auf den Appliances ermöglichen. Dies wird auch Systeme einschließen, die den UCD SNMP Daemon auf den Pulse Secure Appliances verwenden.
Neben einem funktionierenden Zugang auf das Unternehmensnetzwerk sollte die Anbindung unbedingt vor Angriffen von außen geschützt sein, etwa durch eine Firewall. Mit Checkmk ist es möglich, verschiedene Parameter (CPU-Load, Bandbreite, etc.) der eingesetzten Firewall-Lösung zu überwachen, und auf diese Weise ein mögliches Nadelöhr am Übergangspunkt zwischen dem Firmennetzwerk und dem Internet zu vermeiden. Nur wenn die Firewall tadellos funktioniert, kann ein Unternehmen eine möglichst sichere Bereitstellung der Home-Office-Anbindung seiner Mitarbeiter gewährleisten.
Dank der großen Anzahl an Check-Plugins liefert Checkmk bereits viele relevante Daten für das Monitoring. Darüber hinaus bietet es die Möglichkeit, einen eigenen Local Check zu erstellen und auf diese Weise einen eigenen Service einzurichten. Diese Local Check Plugins berechnen den Status direkt auf dem Host, auf dem man die Daten abrufen will. Für den Anwender bietet das den Vorteil, dass er keinen komplexen Check in Python programmieren muss, sondern in seiner Skriptsprache völlig frei ist. Auf diese Weise ist es möglich, auch Daten von Geräten zu erhalten, die beispielsweise SNMP-seitig nicht die benötigten Daten liefern können.
Fazit
Die Verlagerung von vielen Arbeitsplätzen in das Home Office hat in zahlreichen Unternehmen zu Problemen geführt, da oft die nötigen Infrastrukturen für einen Remote-Zugriff auf die Firmenressourcen nicht vorhanden war. Selbst Betriebe, die bereits über entsprechende Infrastrukturen, etwa VPN-Lösungen oder Remote Workspaces, verfügt haben, mussten die Kapazitäten an die gesteigerten Anforderungen anpassen. Und selbst wenn diese ausreichend sind, kann es mit der eingesetzten Firewall oder dem eingesetzten Gateway zu einem weiteren Engpass bei der Anbindung der Home-Office-Arbeitsplätze kommen. Es bietet sich daher an, ein umfangreiches Monitoring aller verschiedenen Bereiche aufzusetzen, um Probleme frühzeitig zu erkennen und gegenzusteuern.
Checkmk bietet hierfür bereits zahlreiche Möglichkeiten, um auf die aktuellen Anforderungen zu reagieren. Unsere Entwickler versuchen derzeit, Feature-Requests mit Bezug zum VPN-Monitoring priorisiert zu bearbeiten. Darüber hinaus sind im Feature Pack 2 bereits einige Neuerungen für die VPN-Überwachung enthalten, sodass Checkmk-Anwender auch die durch Corona-bedingten Herausforderungen an die IT-Infrastruktur problemlos überwachen können.