KI-Chatbots in der Finanzberatung: Ahnungslos und gefährlich
Trotz des großen Hypes offenbaren führende KI-Chatbots gravierende Schwächen bei der Finanzberatung. Eine neue Studie zeigt: Sprachlich überzeugend, aber inhaltlich oft fehlerhaft – bei wichtigen Finanzentscheidungen bleibt menschliche Expertise unverzichtbar.
Künstliche Intelligenz ist auch in der Finanzbranche stark im Aufwind – doch eine aktuelle Untersuchung zeigt: Führende Chatbots haben weiterhin erhebliche Schwächen bei der Finanzberatung, berichtet das "IT Finanzmagazin". Forschende des "Walter Bradley Center for Natural and Artificial Intelligence" – Gary Smith, Valentina Liberman und Isaac Warshaw – testeten vier große Sprachmodelle (LLMs): OpenAIs ChatGPT-4o, DeepSeek-V2, Elon Musks Grok 3 Beta und Googles Gemini 2. In zwölf typischen Finanzfragen offenbarten alle Modelle deutliche Schwächen.
Ernüchternde Ergebnisse
Das Resultat der Tests fällt klar aus – und ist enttäuschend: Alle Chatbots lieferten häufig falsche oder gravierend fehlerhafte Antworten. Dabei täuschten sie durch einen flüssigen Sprachstil eine Kompetenz vor, die faktisch nicht vorhanden war.
Schon im vergangenen Jahr hatte Gary Smith im "Journal of Financial Planning" auf ähnliche Defizite bei früheren LLM-Versionen hingewiesen. Auch die aktuelle Studie kommt zu dem Schluss: Obwohl die Antworten formal korrekt und sprachlich ansprechend erscheinen, enthalten sie oft schwerwiegende mathematische und analytische Fehler.
Bewertung zeigt schwache Leistungen
Die Bewertung der Chatbot-Antworten erfolgte auf einer einfachen Skala:
- 0 Punkte für vollständig falsche Analysen,
- 0,5 Punkte für inhaltlich richtige, aber rechnerisch fehlerhafte Antworten,
- 1 Punkt für korrekte Analysen ohne Fehler.
Keines der Modelle konnte überzeugen:
- ChatGPT-4o erreichte 5,0 von 12 möglichen Punkten,
- DeepSeek-V2 kam auf 4,0 Punkte,
- Grok schaffte 3,0 Punkte,
- Gemini 2 blieb mit 1,5 Punkten deutlich abgeschlagen.
Eklatante Rechenfehler entlarvt
Die Studie dokumentiert konkrete Beispiele für gravierende Fehler. So addierte Grok eine Monatsmiete von 3.700 US-Dollar und Nebenkosten von 200 Dollar zu einer Gesamtsumme von 4.900 Dollar – ein grundlegender Rechenfehler, der bei Basisfragen der Finanzberatung nicht vorkommen sollte.
Auch in anderen Fällen offenbarten die Chatbots Schwächen: fehlerhafte Zinssatzberechnungen, unvollständige Erklärungen oder offensichtliche Tippfehler waren keine Seltenheit.
Täuschende Sprachgewandtheit erhöht das Risiko
Besonders kritisch bewerten die Forscher den überzeugenden Präsentationsstil der Sprachmodelle. Die Chatbots antworteten freundlich, locker und oft mit dem Einsatz von Ausrufezeichen, was den Eindruck von Kompetenz und Zuverlässigkeit erwecken kann.
Diese täuschende Wirkung berge laut den Autoren erhebliche Risiken, insbesondere wenn Nutzer auf Basis solcher Antworten reale finanzielle Entscheidungen treffen. "Die wirkliche Gefahr besteht nicht darin, dass Computer schlauer sind als wir, sondern dass wir denken, Computer seien schlauer als wir, und ihnen deshalb Entscheidungen anvertrauen, die man ihnen nicht zutrauen sollte", warnt die Studie.
Fazit: Kritischer Umgang mit KI bleibt unerlässlich
Angesichts des aktuellen KI-Hypes mahnen die Forschenden zu einer nüchternen Einschätzung der tatsächlichen Fähigkeiten von Sprachmodellen. Unternehmen wie Privatpersonen sollten sich bewusst sein: LLMs sind keine verlässlichen Finanzberater. Für wichtige Entscheidungen bleibt menschliche Expertise weiterhin unverzichtbar. (mb)