Transkription und Sprecheridentifikation: Datenschutzrechtliche Herausforderungen moderner Meeting-Technologien

Transkription und Datenschutz
Kategorien:
Bild von  Aristotelis Zervos

Aristotelis Zervos

Aristotelis Zervos, Editorial Director bei 2B Advice, vereint juristische und journalistische Expertise in Datenschutz, IT-Compliance und KI-Regulierung.

Die zunehmende Nutzung von Transkriptionsfunktionen in digitalen Kommunikationsumgebungen wirft in der Praxis klassische datenschutzrechtliche Fragen auf. Durch neue Technologien wie Microsoft Teams Intelligent Speakers, Voice Match sowie Verfahren der Speaker Identification und Speaker Recognition ergibt sich eine zusätzliche Brisanz. Worauf beim Einsatz zu achten ist.

Von der Transkription zur Identifikation

Die Transkription von Meetings dient der Dokumentation, Qualitätssicherung oder Beweissicherung.

Moderne Systeme können aber noch mehr: Sie wandeln nicht nur Sprache in Text um, sondern versuchen auch, einzelne Sprecher zu erkennen.

Hier kommen Technologien wie Voice Match ins Spiel. Dabei wird die Stimme einer Person mit hinterlegten Stimmprofilen abgeglichen, um Beiträge eindeutig zuzuordnen. In Kombination mit den „Microsoft Teams Intelligent Speakers” wird diese Funktion insbesondere in hybriden Meetings relevant, an denen mehrere Personen gemeinsam in einem Raum teilnehmen. Die Geräte analysieren akustische Merkmale und ordnen die Transkription den einzelnen Personen zu.

Diese Verfahren lassen sich als „Speaker Identification” (Zuordnung eines Beitrags zu einer konkreten Person) und „Speaker Recognition” (Wiedererkennung einer Stimme anhand von Merkmalen) einordnen.

Personenbezug und biometrische Dimension bei der Transkription

Bereits die technische Grundlage solcher Systeme, also die Zwischenspeicherung und Auswertung von Audiodaten, stellt eine Verarbeitung personenbezogener Daten dar, da Sprache unmittelbar einer identifizierbaren Person zugeordnet werden kann. Damit unterliegt sie unmittelbar den Anforderungen der DSGVO sowie ergänzend den strafrechtlichen Vorgaben.

Bei der folgenden Niederschrift kommt es regelmäßig nicht zur eindeutigen Identifizierung einer natürlichen Person. Erst durch die zusätzliche automatisierte Sprecheridentifikation erhöht sich die Eingriffsintensität jedoch erheblich.

Werden Stimmmerkmale gezielt verarbeitet, um eine Person eindeutig zu identifizieren, handelt es sich nach Art. 4 Nr. 14 DSGVO um biometrische Daten. Voraussetzung ist nach der Rechtsprechung des EuGH sowie ErwGr. 51 DSGVO, dass die Verarbeitung speziell zu Identifikationszwecken erfolgt – was bei Speaker Recognition typischerweise der Fall ist. In diesem Fall gelten die strengeren Anforderungen des Art. 9 DSGVO, insbesondere das grundsätzliche Verarbeitungsverbot mit Erlaubnisvorbehalt.

Liegt jedenfalls eine eindeutige Individualisierung von Aussagen vor, erhöht sich das Risiko für die Betroffenen deutlich, etwa im Hinblick auf Leistungs- oder Verhaltenskontrolle im Beschäftigtenkontext.

Berechtigtes Interesse bei Transkription

Insbesondere bei internen Meetings, Schulungen oder strukturierten Interviews kann die einfache Transkription auf Art. 6 Abs. 1 lit. f DSGVO (berechtigtes Interesse) gestützt werden.

Sofern der Verantwortliche ein berechtigtes Interesse als Rechtsgrundlage heranzieht, ist eine sorgfältige und nachvollziehbare Interessenabwägung erforderlich.

  • Zunächst ist zu prüfen, ob die Transkription zur Erreichung des verfolgten Zwecks tatsächlich erforderlich ist. Ihr Einsatz ist nur in Fällen zulässig, in denen kein milderes, gleich effektives Mittel zur Verfügung steht. Genügt die Anfertigung eines manuellen Protokolls, fehlt es an der Erforderlichkeit. Bei umfangreichen Sachverhalten, die eine wortlautgetreue Mitschrift erfordern, kann eine automatische Transkription aber erforderlich sein.

  • Dann muss eine Interessenabwägung erfolgen. Nach Art. 6 Abs. 1 lit. f DSGVO ist die Verarbeitung nur zulässig, wenn das berechtigte Interesse des Verantwortlichen überwiegt und die Rechte der Betroffenen nicht unverhältnismäßig beeinträchtigt werden. Hier sind insbesondere die Aspekte Vertraulichkeit, potenzielle Nachteile durch die Aufzeichnung sowie das Risiko einer Leistungs- oder Verhaltenskontrolle zu berücksichtigen.

  • Schließlich ist eine transparente Dokumentation der durchgeführten Abwägung erforderlich, um die Entscheidung im Streitfall nachvollziehbar begründen zu können.

 

Im Beschäftigungskontext ist Art. 6 Abs. 1 lit. f DSGVO jedoch nur eingeschränkt anwendbar. Soweit die Transkription der Durchführung des Beschäftigungsverhältnisses dient, ist § 26 BDSG als speziellere Norm vorrangig zu prüfen. Für darüber hinausgehende Zwecke, etwa Qualitätssicherung oder Dokumentation, verbleibt es bei der allgemeinen Abwägung nach Art. 6 Abs. 1 lit. f DSGVO, wobei das strukturelle Abhängigkeitsverhältnis regelmäßig erschwerend wirkt.

Transkription erlaubt? Einwilligung als Rechtsgrundlage

Gerade bei Technologien wie Speaker Recognition ist regelmäßig eine Einwilligung erforderlich, da die Verarbeitung besonders eingriffsintensiv ist.

Die Einwilligung muss freiwillig, informiert und eindeutig erfolgen. Damit die Einwilligung gültig ist, muss die betroffene Person durch eine aktive Handlung deutlich machen, dass sie zustimmt. Das kann zum Beispiel durch Klicken auf eine Schaltfläche oder auf andere Weise passieren. Nur zu schweigen oder voreingestellte Optionen oder automatisch aktivierte Funktionen in Konferenztools reichen hierfür nicht aus.

Insbesondere im Beschäftigungsverhältnis bestehen jedoch erhebliche Zweifel an der Freiwilligkeit der Einwilligung. Hier sind ergänzende Regelungen notwendig. Betriebsvereinbarungen sind nach § 26 Abs. 4 BDSG ausdrücklich als eigenständige Rechtsgrundlage für die Datenverarbeitung im Beschäftigungskontext anerkannt und bieten gegenüber der Einwilligung den Vorteil, dass sie kollektiv ausgehandelt werden und das strukturelle Machtungleichgewicht zwischen Arbeitgeber und Beschäftigten teilweise ausgleichen können.

Andere Rechtsgrundlagen sind zwar denkbar, spielen in der Praxis aber eine untergeordnete Rolle:

  • Vertragserfüllung scheidet meist aus, da Transkriptionen selten zwingend erforderlich sind.
  • Gesetzliche Pflichten bestehen in der Regel nicht.


Bei Systemen mit Sprecheridentifikation ist zudem zu prüfen, ob eine Datenschutz-Folgenabschätzung nach Art. 35 DSGVO erforderlich ist. Da biometrische Daten verarbeitet werden, ist dies nach den Positivlisten der deutschen Aufsichtsbehörden regelmäßig der Fall.

Lese-Tipp: Die Einwilligung zur Verarbeitung personenbezogener Daten

Strafrechtliche Risiken: § 201 StGB

Neben dem Datenschutzrecht ist auch das Strafrecht zu beachten. Gemäß § 201 StGB ist die unbefugte Aufnahme des nicht öffentlich gesprochenen Wortes strafbar. Da Transkriptionssysteme in der Regel eine Audioaufzeichnung voraussetzen, besteht ohne entsprechende Befugnis ein erhebliches Risiko.

Eine wirksame Einwilligung kann sowohl datenschutzrechtlich als auch strafrechtlich rechtfertigend wirken. Es ist jedoch wichtig, zu differenzieren: Während im Strafrecht ein tatbestandsausschließendes Einverständnis unter Umständen auch konkludent erklärt werden kann, verlangt die DSGVO eine eindeutige und dokumentierte Einwilligung, bei biometrischen Daten nach Art. 9 Abs. 2 lit. a DSGVO darüber hinaus eine ausdrückliche.

Für Systeme mit Speaker Recognition bedeutet das: Die bloße Teilnahme an einem Meeting genügt nicht, um die Identifizierung rechtlich abzusichern.

Technische und organisatorische Maßnahmen

Der Einsatz solcher Technologien erfordert umfassende technische und organisatorische Maßnahmen. Dazu gehören insbesondere:

  • Privacy by Design und by Default, etwa durch deaktivierte Standardfunktionen für Aufzeichnung und Sprecheridentifikation.
  • Zugriffsbeschränkungen auf Transkripte und Audiodaten.
  • Verschlüsselung bei Speicherung und Übertragung.
  • Schulungen für Beschäftigte.


Ein zentrales Element ist zudem ein Löschkonzept. Insbesondere sollten Audioaufzeichnungen nach Erstellung der Transkripte gelöscht werden, sofern kein weiterer Zweck besteht.

Regulatorische Zusatzanforderungen bei KI-Einsatz

Speaker Recognition basiert häufig auf KI-Systemen. Solche Systeme können je nach Einsatzkontext zusätzlichen regulatorischen Anforderungen unterliegen, insbesondere nach der KI-Verordnung.

Systeme zur biometrischen Identifikation natürlicher Personen sind nach Anhang III Nr. 1 KI-VO als hochriskante KI-Systeme einzustufen, sofern es sich nicht um biometrische Echtzeit-Fernidentifikation handelt, die nach Art. 5 KI-VO weitgehend verboten ist. Für den typischen Meeting-Kontext bedeutet das: Speaker-Recognition-Systeme fallen in die Hochrisiko-Kategorie mit den entsprechenden Pflichten zur Konformitätsbewertung, technischen Dokumentation, Transparenz gegenüber Betroffenen und menschlicher Aufsicht.

Davon zu unterscheiden ist der Einsatz von Systemen zur Emotionserkennung am Arbeitsplatz: Dieser ist nach Art. 5 Abs. 1 lit. f KI-VO grundsätzlich verboten. Ausnahmen bestehen lediglich für eng begrenzte Zwecke, etwa zum Schutz der Gesundheit und Sicherheit der Beschäftigten. Für den Meeting-Kontext dürfte das Verbot damit in aller Regel eingreifen.

Die regulatorischen Anforderungen der KI-Verordnung treten damit kumulativ zu den datenschutz- und strafrechtlichen Vorgaben hinzu und erhöhen den Prüfaufwand für Unternehmen erheblich.

Hohe Anforderungen an den rechtssicheren Einsatz von Transkription

Der rechtssichere Einsatz von Transkription und Sprecheridentifikation erfordert eine sorgfältige Prüfung auf mehreren Ebenen: datenschutzrechtliche Rechtsgrundlage, strafrechtliche Absicherung nach § 201 StGB sowie – beim Einsatz KI-basierter Systeme –  die Anforderungen der KI-Verordnung. Unternehmen sollten dabei stets prüfen, ob weniger invasive Alternativen den verfolgten Zweck gleichermaßen erfüllen. Wo Sprecheridentifikation tatsächlich erforderlich ist, bleibt die ausdrückliche Einwilligung der Betroffenen, flankiert durch eine Betriebsvereinbarung, der verlässlichste Weg zur Rechtssicherheit.

Die rechtlichen Anforderungen sind komplex, ihre praktische Umsetzung muss es nicht sein. Wir unterstützen Sie dabei, Transkriptionslösungen rechtssicher in Ihre Prozesse zu integrieren: von der Wahl der passenden Rechtsgrundlage über die Ausgestaltung von Betriebsvereinbarungen bis hin zur technischen und organisatorischen Umsetzung.

Sprechen Sie uns auf Ihre konkrete Anwendung an.

Quelle: GDD Kurzpapier Gesprächstranskription

Aristotelis Zervos ist Editorial Director bei 2B Advice, Jurist und Journalist mit profundem Know-how in Datenschutz, DSGVO, IT-Compliance und KI-Governance. Er veröffentlicht regelmäßig fundierte Artikel zu KI-Regulierung, DSGVO-Compliance und Risikomanagement. Mehr über ihn erfahren Sie auf seiner Autorenprofil-Seite.

Tags:
Share this post :