Bewertung von KI-Gesprächen über Text und Sprache

evaluating AI conversations
  • Insight
  • 10 minute read
  • 01/04/25
Sebastian Ahrens

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

Heute wird künstliche Intelligenz in fast jeden Aspekt der Kundeninteraktion eingebunden – von textbasierten Chatbots bis hin zu sprachgesteuerten Agenten in Callcentern. Der wahre Massstab für den Erfolg besteht nicht nur darin, dass KI Ihre Benutzer unterstützt, sondern auch darin, sicherzustellen, dass die KI dies mit gleichbleibender Qualität und Zuverlässigkeit tut. Hier kommt ein umfassendes Bewertungsrahmenwerk ins Spiel.

Warum eine einheitliche Bewertung wichtig ist

In vielen Organisationen müssen Führungskräfte Äpfel mit Birnen vergleichen: einen textbasierten Agenten, der auf grossen Sprachmodellen (LLMs) basiert, und einen sprachbasierten Agenten, der Telefonanrufe entgegennimmt. Beide sind entscheidend, unterscheiden sich jedoch in ihren Eingaben, Ausgaben und Einschränkungen. Wenn es darauf ankommt, haben diese „Äpfel und Birnen“ viel gemeinsam. Beide basieren auf den gleichen grundlegenden Gesprächsfähigkeiten – Kontext verstehen, Anweisungen folgen und kohärente Antworten liefern.

Daher kann eine einheitliche Bewertung, bei der Text- und Sprachausgaben nach denselben Inhaltsstandards beurteilt werden, sehr effektiv sein. Aber seien wir ehrlich, die Sprachumgebung bringt einzigartige Herausforderungen mit sich: Hintergrundgeräusche, Eigenheiten der Spracherkennung und die Notwendigkeit, unter Zeitdruck einen gepflegten Ton beizubehalten. Durch die Kombination einer gemeinsamen Kernbewertungsmethode (z. B. unter Verwendung von Transkripten) mit einer zusätzlichen Reihe von sprachspezifischen Tests können Sie Fairness bewahren und gleichzeitig die besonderen Anforderungen der Audiointeraktion anerkennen.

Anpassung der Bewertung für Sprache

Die Bewertung eines sprachbasierten Agenten erfordert eine tiefere Auseinandersetzung mit Elementen, die bei Textinteraktionen normalerweise nicht auftreten. Berücksichtigen Sie die Klarheit der Sprache, die Intonation und die gefürchtete Verzögerung, die das Erlebnis eines Anrufers stören kann. Sie werden feststellen, dass selbst wenn die faktische Richtigkeit der KI solide ist, die allgemeine Benutzerstimmung sinkt, wenn die Antwort zu robotisch ist oder die Spracherkennung des Systems ständig versagt.

Einige Organisationen verwenden spezialisierte Algorithmen, um sprachspezifische Merkmale direkt aus Audiosignalen zu messen, anstatt aus Text Transkripten. Durch die Untersuchung von Prosodie- oder Intonationsmustern erfassen Sie Nuancen, die eine rein textbasierte Bewertung übersehen würde. Es ist ein Schritt, der möglicherweise zusätzliche Technologieinvestitionen erfordert, aber langfristig grosse Vorteile für die Kundenzufriedenheit bringen kann.

Ganzheitliche Kriterien für Qualität

Unabhängig davon, ob Sie mit Text oder Sprache arbeiten, sollte der Massstab für „Qualität“ transparent und gründlich sein. Sie möchten faktische Genauigkeit, Kohärenz, Kontextbewahrung und Einhaltung von Unternehmensrichtlinien wie Datenschutz- oder Compliance-Richtlinien messen. Ebenso wichtig ist der Ton des Agenten: Der beste Agent wird höflich und einfühlsam sein, ohne unnatürlich zu wirken. In einer Callcenter-Umgebung kann selbst die genaueste Antwort wie ein Flop wirken, wenn sie in einem monotonen Tonfall geliefert wird.

Betrachten Sie diese Kriterien wie überlappende Puzzleteile. Wenn ein Stück – sagen wir die faktische Genauigkeit – fehlt, ist das Gesamtbild nicht vollständig. Eine ausgewogene Scorecard, die Korrektheit, Verhalten, Einhaltung von Richtlinien und Grammatik oder Flüssigkeit umfasst, stellt sicher, dass nichts durch die Lücken fällt.


Comprehensive Evaluation Framework for Effective Communication

Aufbau einer Ground Truth

Wie das alte Sprichwort sagt: „Was gemessen wird, wird gemanagt.“ Aber wie definieren wir, was korrekt ist? Hier kommt eine gut kuratierte Sammlung von Ground-Truth-Daten ins Spiel. Dies ist Ihre Sammlung von „idealen“ oder erwarteten Antworten. Sie könnte aus Transkripten Ihrer besten Kundendienstmitarbeiter oder fachmännisch erstellten Antworten für eine Vielzahl typischer (und nicht so typischer) Anfragen bestehen.

Führende Organisationen erweitern diese Bibliothek von Testszenarien häufig und integrieren neue Herausforderungen, die in realen Interaktionen auftreten. Eine robuste Ground Truth ermöglicht es Ihnen, genau zu bestimmen, wie Ihre KI abschneidet, von allgemeinen Anfragen bis hin zu Randfällen, und fördert kontinuierliche Verbesserungen.

Nutzung von LLMs für automatisiertes Feedback

Das Konzept einer „LLM-Jury“ hat aus einem guten Grund an Bedeutung gewonnen: Es ist skalierbar. Anstatt sich ausschliesslich auf menschliche Bewerter zu verlassen (die müde, überarbeitet oder inkonsistent werden können), können Sie ein oder mehrere grosse Sprachmodelle einsetzen, um die Ausgabe der KI zu überprüfen. Diese Modelle können Echtzeit-Feedback zur Korrektheit, Kohärenz und zum Ton geben und einen Teil der mühsamen Arbeit von Ihrem Team übernehmen.

Es wirft interessante Überlegungen auf: Was ist, wenn das Bewertungsmodell eigene Vorurteile oder Wissenslücken hat? Eine bewährte Methode besteht darin, das Modell zu kalibrieren, indem ihm Beispielbewertungen gegeben werden und dann eine kleine Stichprobe seiner Ergebnisse mit Ihrem Team abgeglichen wird. Durch die Überprüfung der Übereinstimmung dieser Stichprobe gewinnen Sie Vertrauen, dass die Bewertung des LLM konsistent genug ist, um für eine breitere Palette von Testfällen verwendet zu werden.

Implementierung einer formalen Testreihe

Ein wirklich ausgeklügeltes KI-Bewertungsprogramm ist mehr als nur eine einmalige Überprüfung. Es ist ein wiederkehrender, systematischer Prozess. Führende Unternehmen richten häufig Testreihen ein, die sowohl „typische Nutzung“ als auch „Stressszenarien“ umfassen. In der Callcenter-Welt könnte das eine Flut von Abrechnungsfragen, Eskalationen zu einer Rückerstattung oder sogar einen verärgerten Anrufer bedeuten, der schwer zufrieden zu stellen ist. Jedes Testszenario wird dann dem Agenten zugeführt, und die Ausgaben werden automatisch bewertet.

Die Ergebnisse fliessen häufig in Dashboards ein, die Erfolgsquoten, Durchschnittswerte und Anomalien hervorheben – wie schwerwiegende Verstösse gegen Richtlinien oder wiederholte faktische Fehler. Im Laufe der Zeit erkennen Sie Trends: Gibt es bestimmte Fragetypen, die Ihre KI ständig aus dem Gleichgewicht bringen? Müssen bestimmte Richtlinienfilter verfeinert werden? Diese Erkenntnisse leiten Ihre Teams bei der Anpassung von Eingabeaufforderungen, dem erneuten Training von Modellen oder sogar dem Umschreiben von Abschnitten von Wissensdatenbanken, um Wissenslücken zu schliessen.

Ein Wort der Vorsicht: In Sprachszenarien müssen Sie auch die Leistung von Spracherkennungssystemen (ASR) und Text-to-Speech-Systemen (TTS) messen. Schlechte Transkriptionen können selbst die brillantesten Argumentationsprozesse entgleisen lassen. Aus diesem Grund messen einige Rahmenwerke Fehlerquoten bei Wörtern oder haben einen separaten Teststrom, der sich auf die Sprachtreue und Klarheit konzentriert.

Herausforderungen und der Weg nach vorne

Kein Rahmenwerk ist perfekt. Ein LLM-basierter Bewerter kann im Laufe der Zeit abweichen, insbesondere wenn es sich um ein externes Modell handelt, das regelmässig aktualisiert wird. Sie werden auch mit der Komplexität von mehrstufigen Interaktionen konfrontiert, bei denen sichergestellt werden muss, dass der Agent die Kontinuität beibehält und sich nicht nach fünf Austauschen widerspricht.


Navigating LLM Evaluation Challenges

Dennoch lohnt es sich, diese Herausforderungen zu überwinden. Mit einem disziplinierten Ansatz zur Datenerfassung, gründlichen Testreihen und automatisierten Bewertungen können Sie eine leistungsstarke KI-Lösung aufrechterhalten, die sich elegant mit Ihrem Geschäft weiterentwickelt. Da die Benutzererwartungen steigen – insbesondere in kundenorientierten Umgebungen – gibt es einen echten Wettbewerbsvorteil darin, schnelle, genaue und einfühlsame KI-Unterstützung über mehrere Kanäle anzubieten.

Denken Sie schliesslich daran, dass Echtzeit-Benutzerfeedback ein entscheidendes Puzzleteil bleibt. Bewertungen und Metriken sind von unschätzbarem Wert, aber unterschätzen Sie niemals, was direkte Benutzerumfragen oder Anrufaufzeichnungen offenbaren könnten. In vielerlei Hinsicht ist die Verbindung quantifizierbarer Testergebnisse mit echtem menschlichem Empfinden das, was Ihre Bewertungspipeline ehrlich hält.

Fazit

Für Führungskräfte, die das volle Potenzial von KI in Text- und Sprachkanälen ausschöpfen möchten, ist eine ausgeklügelte Bewertungsstrategie unverzichtbar. Sie ermöglicht es Ihnen, die Leistung zu benchmarken, Lücken zu identifizieren und die Fähigkeiten Ihrer KI kontinuierlich zu verfeinern – ohne das Risiko eines Vertrauens- oder Zufriedenheitsverlusts bei den Kunden. Durch die Vereinheitlichung der grundlegenden Bewertungsprinzipien und die Anpassung der Details für jede Modalität schaffen Sie ein robustes System, das Ihre KI-Initiativen verantwortungsvoll und wettbewerbsfähig vorantreibt.

Wenn es eine Erkenntnis aus diesem Leitfaden gibt, dann ist es, dass starke Governance gepaart mit kontinuierlichem Testen der Schlüssel zu zuverlässigen, qualitativ hochwertigen KI-Interaktionen ist. Am Ende wird diese Zuverlässigkeit den Ruf Ihrer Organisation und Ihre Bilanz für Jahre prägen.  

Kontaktieren Sie uns

https://pages.pwc.ch/view-form?id=701Vl00000dxMuJIAU&embed=true&lang=de

Kontaktieren Sie uns

Sebastian Ahrens

AI Center of Excellence Leader, PwC Switzerland

+41 58 792 16 28

Email

Gianfranco Mautone

Partner and Forensic Services and Financial Crime Leader, Zurich, PwC Switzerland

+41 58 792 17 60

Email