Prüfungssicherheit im Fokus: Zwischen ERP-Daten und KI-Modellen
KI-gestützte Reports, Forecasts und Simulationen prägen zunehmend das Rechnungswesen von Unternehmen. Damit verschieben sich auch die Maßstäbe der Abschlussprüfung: Entscheidend ist nicht mehr nur die formale Richtigkeit von Zahlen, sondern die nachvollziehbare Entstehung automatisiert erzeugter Ergebnisse. Im Interview ordnet KI-Experte Timo Husemann, Partner bei Forvis Mazars, ein, wie sich Prüfungsansätze verändern, wo neue Risiken liegen und wie Mandanten, Prüfer*innen und Systemanbieter ihre Rollen neu definieren müssen.
Was bedeutet Prüfungsqualität in einer Zeit, in der Unternehmen nicht mehr Daten nur aus z. B. ERP-Systemen liefern, sondern etwa KI‑generierte Berichte? Und wie lässt sich im Prüfungsprozess nachvollziehen, warum eine KI ein bestimmtes Ergebnis erzeugt hat?
Timo Husemann: Prüfungsqualität heißt weitaus mehr, als Zahlen zu kontrollieren. Für uns in der Prüfung wird es immer wichtiger zu verstehen: Wie sind die Ergebnisse, Zahlen und Forecasts, die wir sehen, eigentlich zustande gekommen? Wir müssen die Entstehung der KI-generierten Informationen klar nachvollziehen können.
Gute Prüfungsqualität bedeutet dann: genau hinzusehen und Transparenz, Plausibilität und Angemessenheit sicherzustellen – auch wenn der Weg zum Ergebnis durch die KI nicht mehr ganz so geradlinig ist wie früher. Dafür schauen wir uns zuerst an, welche Rolle die KI im Unternehmen überhaupt spielt. Also ganz praktisch gesagt: Wofür wird sie eingesetzt, und wie stark fließen ihre Ergebnisse in Entscheidungen ein? Nutzt ein Unternehmen KI etwa für Planungen oder Forecasts, müssen wir Annahmen und Datenquellen verstehen. Welche Daten bekommt die KI, welche Zeiträume betrachtet sie, und wie sensibel reagieren die Ergebnisse auf Veränderungen?
Wird Künstliche Intelligenz dagegen eingesetzt, um Auffälligkeiten oder Risiken in großen Datenmengen zu erkennen, interessiert uns etwas anderes: Welche Muster soll die KI finden, was gilt als „auffällig“ – und was passiert im Unternehmen, wenn die KI etwas meldet?
Je nachdem, wo und wie die KI genutzt wird, passen wir unseren Prüfungsansatz an und legen fest, worauf wir besonders achten müssen.
Immer mehr ERP-Anbieter integrieren KI‑Funktionen für Analysen, Vorhersagen und Automatisierungen. Wie verändert diese Kombination aus klassischen und KI‑gestützten ERP‑Daten den Prüfungsalltag? Und wie unterscheiden Sie im Prüfungsprozess zwischen ERP‑Rohdaten und KI‑verarbeiteten Daten?
Der Prüfungsalltag wird durch KI-Anwendung deutlich vielfältiger und hybrider. Früher hatten wir vor allem klassische ERP‑Daten vor uns – also Buchungen, Belege und Transaktionen. Heute kommen immer mehr KI‑gestützte Auswertungen dazu: Prognosen, automatisierte Analysen oder verdichtete Reports. Für uns in der Prüfung bedeutet das, dass wir sowohl mit einer Mischung aus „handfesten“ Grunddaten, als auch mit KI-verarbeiteten Ergebnissen arbeiten. Es ist wichtig, dass wir die Datenbasis und deren algorithmische Verarbeitung verstehen und getrennt voneinander beurteilen.
Im Prüfungsprozess unterscheiden wir deshalb klar: Bei den ERP-Rohdaten geht es vor allem um klassische Fragen wie Vollständigkeit und Richtigkeit. Sind alle Geschäftsvorfälle erfasst? Und stimmen die Zahlen? Bei KI-Outputs verschiebt sich der Fokus. Hier fragen wir stärker: Passt das Ergebnis zum Zweck? Ist es plausibel und sachgerecht? Liefert die Künstliche Intelligenz wirklich hilfreiche Aussagen – oder vielleicht auch verzerrte oder unlogische Ergebnisse?
Der Unterschied liegt in der Natur der Daten: ERP‑Rohdaten sind historisch, regelbasiert und reproduzierbar. KI‑verarbeitete Daten hingegen hängen vom jeweiligen Modell ab. Sie arbeiten mit Wahrscheinlichkeiten und sind eben nicht immer reproduzierbar. Deshalb ist es für uns wichtig, zu wissen, welche KI eingesetzt wird und wofür, z. B. eine KI, die zur Prognose von Marktdaten eingesetzt wird und damit die Prognose als Teil der Angaben im Lagebericht unterstützt. Ein möglicher Weg, um die Zuverlässigkeit der Angaben zu prüfen, wäre, nachzusehen, welche Daten das KI-Modell verwendet und auf welchen Algorithmen diese Prognose basiert. Ein weiteres Beispiel ist eine KI, die genutzt wird, um Eingangsrechnungen zu klassifizieren und eine Zuordnung an Freigabeverfahren zu steuern, in Abhängigkeit von einem Risikoprofil. Auch hier wäre es wichtig, zu verstehen, welche Methoden und Techniken eingesetzt werden.
Welche Erwartungen verbinden Unternehmen häufig mit KI‑generierten Daten – und wie lässt sich ihr Potenzial richtig nutzen?
Viele Unternehmen erwarten durch den Einsatz von KI objektivere oder präzisere Ergebnisse sowie mehr Effizienz und stabilere Prozesse. Tatsächlich kann KI hier einen großen Mehrwert liefern. Vor allem dann, wenn sie Entscheidungen unterstützt – etwa, indem sie Muster erkennt oder Risiken rechtzeitig aufzeigt. Wichtig ist allerdings: Die KI funktioniert hier als Unterstützung, ist aber kein Ersatz für menschliches Urteilsvermögen. Sie kann Hinweise geben, Zusammenhänge aufzeigen oder Szenarien durchspielen – die eigentliche Entscheidung sollte aber weiterhin beim Menschen liegen.
Damit das Potenzial der KI wirklich genutzt werden kann, braucht es außerdem eine durchdachte Implementierung und das Wissen, dass sich Effizienzsteigerungen und Prozessstabilität nicht automatisch einstellen. Klare Prozesse und saubere Strukturen sind unersetzbar – die KI kann hier Brücken bauen und neue Lösungswege ermöglichen.
Gleichzeitig müssen Unternehmen Cybersecurity-Risiken auf dem Schirm haben: Mit KI entstehen neue Herausforderungen – z. B. durch manipulierte Eingaben oder eine unkontrollierte Nutzung von KI‑Tools außerhalb definierter Prozesse (Schatten‑IT).
Unterm Strich gilt: Künstliche Intelligenz ist kein Allheilmittel, aber ein sehr wirkungsvolles Werkzeug. Richtig eingesetzt hilft sie, bessere Entscheidungen zu treffen und Effizienzgewinne zu erschließen.
Welche Prüfschritte sind heute zwingend notwendig, um KI‑Outputs verlässlich zu beurteilen?
Am Anfang steht immer die Frage nach der Datenqualität. Stimmt die Grundlage, auf der die KI arbeitet? Sind die Daten vollständig, aktuell und sinnvoll aufbereitet? Genauso wichtig ist das Verständnis des Modellzwecks. Wir müssen wissen, wofür die KI überhaupt eingesetzt wird. Soll sie Prognosen liefern, Risiken aufzeigen oder Prozesse unterstützen? Nur wenn der Einsatzbereich klar ist, lassen sich die Ergebnisse richtig einordnen. Ein weiterer zentraler Punkt ist die Prüfung von Governance und Kontrollen. Also ganz pragmatisch: Wer nutzt die KI-Tools? Wer überwacht sie? Gibt es klare Regeln und Verantwortlichkeiten?
Am Ende zählt vor allem der fachliche Blick: Die KI kann rechnen, vergleichen und Muster erkennen – beurteilen, ob ein Ergebnis wirtschaftlich sinnvoll und plausibel ist, muss weiterhin der Mensch.
Woran erkennen Sie, ob eine Auffälligkeit eine echte Datenanomalie oder ein KI‑Artefakt („Halluzination“) ist?
Ob eine Auffälligkeit eine echte Datenanomalie ist oder eher ein sogenanntes KI‑Artefakt, zeigt sich meist in der wirtschaftlichen Logik. Echte Anomalien lassen sich häufig erklären, z. B. durch operative oder externe Faktoren. Sie wirken ungewöhnlich, aber nicht willkürlich.
KI‑Artefakte dagegen entstehen oft dort, wo das Modell an seine Grenzen stößt. Das kann an den Trainingsdaten liegen oder an Fehlinterpretationen. In diesem Fall „sieht“ die KI z. B. Zusammenhänge, die in der Realität nicht bestehen. Solche Ergebnisse sind häufig auffällig und daher deutlich zu erkennen.
Entscheidend ist, dass wir als Prüfer ein konkretes Verständnis der System-Architektur, System-Prompts sowie der zugrundeliegenden Daten haben. Für uns gilt: Unplausible KI-Ergebnisse sind ein Prüfhinweis. Wir akzeptieren Outputs nicht, nur weil sie technisch erzeugt wurden. Stattdessen steuern wir die Prüftiefe risikoorientiert: Je höher die Auswirkung, desto intensiver prüfen wir Datenbasis, Modellzweck, Kontrollen und die fachliche Plausibilität – bis die Ursache eindeutig ist.
Wie beeinflusst es die Prüfung, wenn KI‑Modelle sich laufend aktualisieren und Ergebnisse nicht 1:1 reproduzierbar sind?
Es beeinflusst die Prüfung spürbar. Entscheidend ist in diesen Fällen nicht, das KI-Modell an sich zu prüfen, sondern wie es zu einem bestimmten Zeitpunkt genutzt wurde. Deshalb rückt die Dokumentation in den Vordergrund: Was wurde wann entschieden, auf Basis welcher KI‑Version und welcher Daten?
Für uns wird besonders wichtig, wie der Einsatz der KI in die Prozesse des Unternehmens eingebettet ist. Gibt es klare Validierungsschritte für die Ergebnisse? Werden Änderungen am Modell nachvollziehbar gesteuert und dokumentiert? Kurz gesagt: Können wir uns auf den Prozess und das Änderungsmanagement beim Mandanten verlassen? Wenn das sauber geregelt ist, lassen sich auch nicht vollständig reproduzierbare KI‑Ergebnisse verlässlich prüfen.
Wie wirkt es sich auf die „professionelle Skepsis“ aus, wenn die Fehlerquelle sowohl im Modell als auch im Menschen liegen kann?
Professionelle Skepsis gewinnt noch mehr an Bedeutung. Denn als Prüfer müssen wir sowohl die technische Logik des Modells als auch menschliche Einschätzungen kritisch hinterfragen. Fehler können auf beiden Seiten entstehen – im Modell genauso wie bei der Interpretation der Ergebnisse.
Gerade deshalb bleibt die menschliche Komponente so wichtig. Neugier, kritisches Nachhaken und das bewusste Hinterfragen auch von scheinbar klaren Ergebnissen sind und bleiben zentrale Stärken des Prüfers. Diese professionelle Skepsis sorgt dafür, dass weder KI‑Ergebnisse noch menschliche Annahmen ungeprüft übernommen werden.
Welchen Mehrwert können KI‑generierte Daten für die Jahresabschlussprüfung bieten – insbesondere bei der Risikofrüherkennung oder der Mustererkennung?
KI-generierte Daten können die Jahresabschlussprüfung deutlich bereichern – vor allem dort, wo große Datenmengen ins Spiel kommen. KI kann Auffälligkeiten erkennen, ungewöhnliche Muster identifizieren und Risiken frühzeitig aufdecken. KI-Systeme können zum Beispiel helfen, ungewöhnliche Buchungskombinationen, Ausreißer oder auffällige Entwicklungen schnell zu erkennen. Kurz gesagt: Künstliche Intelligenz hilft dabei, große Datenmengen beherrschbar zu machen und bei Anomalien bzw. identifizierten Risiken frühzeitig zu handeln.
Welche Prüfungsbereiche profitieren am stärksten von KI‑gestützten Analysen, und wo bleibt menschliches Urteilsvermögen unverzichtbar?
Besonders profitieren davon datenintensive Prüfungsbereiche. So setzen wir z. B. KI ein, um Anomalien zu erkennen, wiederkehrende manuelle Aufgaben zu automatisieren oder Sachverhalte kompakt zusammenzufassen. Neu hinzugekommen sind sogenannte Multi-Agenten-Modelle, bei denen mehrere KI‑Schritte miteinander kombiniert werden, um komplexere Abläufe mit mehreren Entscheidungsstufen zu unterstützen.
Unverzichtbar bleibt das menschliche Urteilsvermögen überall dort, wo es um Bewertungen, Ermessensentscheidungen oder die Gesamtwürdigung von Sachverhalten geht. Dieses Prinzip des „Human in the Loop“ als Sicherungsinstrument ist klarer Bestandteil unserer Strategie.
Was müssen Mandanten tun, damit KI‑gestützte Prozesse prüfbar bleiben und Vertrauen schaffen? Welche internen Kontrollen sollten sie einführen, wenn sie KI in ERP‑Prozessen nutzen?
Sie benötigen vor allem klare Spielregeln – das beginnt schon bei Verantwortlichkeiten. Wer gibt Modelle frei, wer überwacht sie und wer reagiert, wenn etwas nicht passt? Ebenso wichtig ist eine saubere Dokumentation, sowohl bei der Einführung der KI als auch im laufenden Betrieb. Die KI-Governance bildet sozusagen das Rückgrat der Nutzung und beschreibt nachvollziehbar, wie mit Daten, Modellen und Ergebnissen umgegangen wird. Idealerweise werden entlang der Implementierung auch Überlegungen, Tests und Freigaben festgehalten, sodass Entscheidungen später nachvollziehbar sind. Je nach Größe und Komplexität des Projekts sowie dem vorgesehenen Zweck, kann es zudem sinnvoll sein, das System oder die Implementierung zusätzlich prüfen zu lassen. All das schafft Transparenz – und genau diese Transparenz ist die Grundlage für Vertrauen und Prüfbarkeit.
Für weitere Themen rund um die Wirtschaftsprüfung und Forvis Mazars folgen Sie uns auch auf LinkedIn.
Kommentare