Beiträge von ElRolfo

    Ich habe seit gestern einen Microsoft-Consultant im Haus der sich mit dem Performance-Problem beschäftigt. Er stellt nur fest daß auf den Datenbanken und auf der CPU mehr als 50% mehr Last liegt als nach seinen Auswertungen eigentlich sein dürfte und hat bisher keinen Grund dafür gefunden. Die Maschinen machen (gemessen!) 3-4 mal so viele IOPS wie eigentlich normal wäre. Heute geht die Suche weiter.

    Eine Frage: gibts vor dem Exchange keine Antispam/Antivirus-Lösung (Fortinet, Symantec Messaging Gateway o.ä.)? Die können die gültigen Adressen automatisch prüfen und die Mail im Fehlerfall sofort ablehnen. Zur Not tut´s auch ein Postfix mit einer Virtual User Table.


    Das Bouncen mit einer E-Mail an den Absender kann böse Nebeneffekte haben ("Backscatter-Spam") - im schlimmsten Fall landet man damit schneller auf Blacklists als einem lieb ist.


    Backscatter: https://de.wikipedia.org/wiki/Backscatter_(E-Mail)

    Wir haben keinen Kemp, sondern eine F5. Die Server für Maintenance nehme ich natürlich aus dem Loadbalancer, und der zeigt auch brav an daß keine Connections mehr bestehen. Aber die Counter "\MSExchange RpcClientAccess\User Count"und "\MSExchange ActiveSync\Current Requests" zeigen auf dem betroffenen Server danach immer noch Verbindungen an. Diese gehen zwar über mehrere Stunden nach dem aktivieren des Maintenance Mode und dem Herausnehmen auf dem Loadbalancer drastisch runter (von ca. 1500 auf wenige hundert), aber es bleiben immer noch Verbindungen erhalten (laut Counter). Meine Vermutung ist daß diese Verbindungen die Ursache für die Probleme sind.


    Nach dem Restart des im Wartungsmodus befindlichen Servers (mit den damit verbundenen Problemmeldungen von Usern) tauchen nach einiger Zeit in den obigen Countern langsam wieder Werte ungleich Null auf - das bedeutet also daß auf magische Weise doch (wenige) Verbindungen auf die Maschine gelangen. Obwohl der Loadbalancer nichts mehr durchläßt, die Clients nicht direkt auf die Exchange-Server können (Firewall!) zeigen die Counter wieder was an. Und das obwohl auf dem Server zu diesem Zeitpunkt auch keine aktiven Datenbankkopien laufen.


    Am Montag ist ein Consultant von Microsoft im Haus (aus anderen Gründen), dem werde ich das Problem mal schildern und das Ergebnis hier posten!

    Da bisher niemandem dazu etwas einfiel habe ich eine noch mysteriösere Story dazu:


    Mittlerweile sind wir dazu übergegangen Server immer Abends nach Büroschluss in den Maintenance Mode zu versetzen. Das ist zwar nicht im Sinne des Erfinders, erspart uns aber eine Menge Support-Tickets und Anrufe (siehe oben). Tagsüber können dann die entsprechenden Server bearbeitet werden und es ist auch möglich sie im laufenden Betrieb wieder aus dem Maintenance Mode zurückzuholen.


    Heute hatten wir jedoch einen ausgesprochen unangenehmen Seiteneffekt.


    Eine Maschine wurde gestern Abend in den Maintenance Mode versetzt, da sie heute früh gepatcht werden sollte. Heute früh gab es hunderte Meldungen von Usern deren Outlook sich nicht starten ließ! Es waren nicht alle User betroffen, aber trotzdem eine durchaus beträchtliche Anzahl.


    Mit der Maschine im Maintenance Mode habe ich das Problem am Anfang gar nicht im Zusammenhang gesehen da wir sowas ja routinemäßig ohne Probleme immer wieder so machen.


    Nachdem die betroffene Maschine fertig gepatcht war, wurde der Maintenance Mode beendet und - auf einmal hatte keiner mehr Probleme mit Outlook!


    Es sieht so aus als wäre aus irgendwelchen Gründen Outlook-Connections auf der Maschine gelandet obwohl diese im Wartungsmodus war.


    Exchange 2016 wird mir langsam echt unheimlich ...

    Wir machen eigentlich auch schon immer LACP und hatten nie Probleme damit. Die Probleme bekamen wir erst mit Windoof 2012 R2 und bei hoher Last auf den Maschinen. Microshaft hat im W2012 das LACP ins Betriebssystem integriert, vorher haben das herstellerspezifische Lösungen der Netzwerkadapter erledigt. Die hatten anscheinend eine bessere Qualität. Aber wie wir in diesem Fall sehen können hat Microsaft auf das Problem reagiert und wird sicherlich am Thema dran bleiben.

    Es gibt Neuigkeiten!


    Microsoft hat zu diesem Problem einen Hotfix: kb3109099


    Anscheinend kann sich der Cisco verhakeln weil Windows 2012 nur "schnelle" LACP-Timer verwendete. Wir haben nur den im Hotfix beschriebenen Registry-Key für "Slow Timer" eingetragen, nicht (!) den Hotfix eingespielt - und voila: die Event ID 16949 sind fast ganz verschwunden (vorher: alle 1-2 Minuten; jetzt: 1-2 Einträge am Tag).