Transkription und Sprecheridentifikation: Datenschutzrechtliche Herausforderungen moderner Meeting-Technologien

Transkription und Datenschutz
Categories:
Picture of  Aristotelis Zervos

Aristotelis Zervos

Aristotelis Zervos, Editorial Director at 2B Advice, combines legal and journalistic expertise in Data protectionIT compliance and AI regulation.

Die zunehmende Nutzung von Transkriptionsfunktionen in digitalen Kommunikationsumgebungen wirft in der Praxis klassische datenschutzrechtliche Fragen auf. Durch neue Technologien wie Microsoft Teams Intelligent Speakers, Voice Match sowie Verfahren der Speaker Identification und Speaker Recognition ergibt sich eine zusätzliche Brisanz. Worauf beim Einsatz zu achten ist.

Von der Transkription zur Identifikation

Die Transkription von Meetings dient der Documentation, Qualitätssicherung oder Beweissicherung.

Moderne Systeme können aber noch mehr: Sie wandeln nicht nur Sprache in Text um, sondern versuchen auch, einzelne Sprecher zu erkennen.

Hier kommen Technologien wie Voice Match ins Spiel. Dabei wird die Stimme einer Person mit hinterlegten Stimmprofilen abgeglichen, um Beiträge eindeutig zuzuordnen. In Kombination mit den „Microsoft Teams Intelligent Speakers” wird diese Funktion insbesondere in hybriden Meetings relevant, an denen mehrere Personen gemeinsam in einem Raum teilnehmen. Die Geräte analysieren akustische Merkmale und ordnen die Transkription den einzelnen Personen zu.

Diese Verfahren lassen sich als „Speaker Identification” (Zuordnung eines Beitrags zu einer konkreten Person) und „Speaker Recognition” (Wiedererkennung einer Stimme anhand von Merkmalen) einordnen.

Personenbezug und biometrische Dimension bei der Transkription

Bereits die technische Grundlage solcher Systeme, also die Zwischenspeicherung und Auswertung von Audiodaten, stellt eine Processing personenbezogener Daten dar, da Sprache unmittelbar einer identifizierbaren Person zugeordnet werden kann. Damit unterliegt sie unmittelbar den Anforderungen der GDPR sowie ergänzend den strafrechtlichen Vorgaben.

Bei der folgenden Niederschrift kommt es regelmäßig nicht zur eindeutigen Identifizierung einer natürlichen Person. Erst durch die zusätzliche automatisierte Sprecheridentifikation erhöht sich die Eingriffsintensität jedoch erheblich.

Werden Stimmmerkmale gezielt verarbeitet, um eine Person eindeutig zu identifizieren, handelt es sich nach Art. 4 Nr. 14 GDPR um biometrische Daten. Voraussetzung ist nach der Rechtsprechung des EuGH sowie ErwGr. 51 GDPRthat the Processing speziell zu Identifikationszwecken erfolgt – was bei Speaker Recognition typischerweise der Fall ist. In diesem Fall gelten die strengeren Anforderungen des Art. 9 GDPR, insbesondere das grundsätzliche Verarbeitungsverbot mit Reservation of permission.

Liegt jedenfalls eine eindeutige Individualisierung von Aussagen vor, erhöht sich das Risiko für die Betroffenen deutlich, etwa im Hinblick auf Leistungs- oder Verhaltenskontrolle im Beschäftigtenkontext.

Berechtigtes Interesse bei Transkription

Insbesondere bei internen Meetings, Schulungen oder strukturierten Interviews kann die einfache Transkription auf Art. 6 Abs. 1 lit. f GDPR (berechtigtes Interesse) gestützt werden.

Sofern der Responsible persons ein berechtigtes Interesse als Rechtsgrundlage heranzieht, ist eine sorgfältige und nachvollziehbare Interessenabwägung erforderlich.

  • Zunächst ist zu prüfen, ob die Transkription zur Erreichung des verfolgten Zwecks tatsächlich erforderlich ist. Ihr Einsatz ist nur in Fällen zulässig, in denen kein milderes, gleich effektives Mittel zur Verfügung steht. Genügt die Anfertigung eines manuellen Protokolls, fehlt es an der Necessity. Bei umfangreichen Sachverhalten, die eine wortlautgetreue Mitschrift erfordern, kann eine automatische Transkription aber erforderlich sein.

  • Dann muss eine Interessenabwägung erfolgen. Nach Art. 6 Abs. 1 lit. f GDPR is the Processing nur zulässig, wenn das berechtigte Interesse des Verantwortlichen überwiegt und die Rechte der Betroffenen nicht unverhältnismäßig beeinträchtigt werden. Hier sind insbesondere die Aspekte Confidentiality, potenzielle Nachteile durch die Aufzeichnung sowie das Risiko einer Leistungs- oder Verhaltenskontrolle zu berücksichtigen.

  • Schließlich ist eine transparente Documentation der durchgeführten Abwägung erforderlich, um die Entscheidung im Streitfall nachvollziehbar begründen zu können.

 

Im Beschäftigungskontext ist Art. 6 Abs. 1 lit. f GDPR jedoch nur eingeschränkt anwendbar. Soweit die Transkription der Durchführung des Beschäftigungsverhältnisses dient, ist § 26 BDSG als speziellere Norm vorrangig zu prüfen. Für darüber hinausgehende Zwecke, etwa Qualitätssicherung oder Documentation, verbleibt es bei der allgemeinen Abwägung nach Art. 6 Abs. 1 lit. f GDPR, wobei das strukturelle Abhängigkeitsverhältnis regelmäßig erschwerend wirkt.

Transkription erlaubt? Einwilligung als Rechtsgrundlage

Gerade bei Technologien wie Speaker Recognition ist regelmäßig eine Consent erforderlich, da die Processing besonders eingriffsintensiv ist.

The Consent muss freiwillig, informiert und eindeutig erfolgen. Damit die Consent gültig ist, muss die affected Person durch eine aktive Handlung deutlich machen, dass sie zustimmt. Das kann zum Beispiel durch Klicken auf eine Schaltfläche oder auf andere Weise passieren. Nur zu schweigen oder voreingestellte Optionen oder automatisch aktivierte Funktionen in Konferenztools reichen hierfür nicht aus.

Insbesondere im Beschäftigungsverhältnis bestehen jedoch erhebliche Zweifel an der Freiwilligkeit der Consent. Hier sind ergänzende Regelungen notwendig. Betriebsvereinbarungen sind nach § 26 Abs. 4 BDSG ausdrücklich als eigenständige Rechtsgrundlage für die Datenverarbeitung im Beschäftigungskontext anerkannt und bieten gegenüber der Consent den Vorteil, dass sie kollektiv ausgehandelt werden und das strukturelle Machtungleichgewicht zwischen Arbeitgeber und Beschäftigten teilweise ausgleichen können.

Andere Legal basis sind zwar denkbar, spielen in der Praxis aber eine untergeordnete Rolle:

  • Vertragserfüllung scheidet meist aus, da Transkriptionen selten zwingend erforderlich sind.
  • Gesetzliche Pflichten bestehen in der Regel nicht.


Bei Systemen mit Sprecheridentifikation ist zudem zu prüfen, ob eine Data protection impact assessment according to Art. 35 GDPR erforderlich ist. Da biometrische Daten verarbeitet werden, ist dies nach den Positivlisten der deutschen Aufsichtsbehörden regelmäßig der Fall.

Reading tip: Consent to the processing of personal data

Strafrechtliche Risiken: § 201 StGB

Neben dem Datenschutzrecht ist auch das Strafrecht zu beachten. Gemäß § 201 StGB ist die unbefugte Aufnahme des nicht öffentlich gesprochenen Wortes strafbar. Da Transkriptionssysteme in der Regel eine Audioaufzeichnung voraussetzen, besteht ohne entsprechende Befugnis ein erhebliches Risiko.

An effective Consent kann sowohl datenschutzrechtlich als auch strafrechtlich rechtfertigend wirken. Es ist jedoch wichtig, zu differenzieren: Während im Strafrecht ein tatbestandsausschließendes Einverständnis unter Umständen auch konkludent erklärt werden kann, verlangt die GDPR eine eindeutige und dokumentierte Consent, bei biometrischen Daten nach Art. 9 Abs. 2 lit. a GDPR darüber hinaus eine ausdrückliche.

Für Systeme mit Speaker Recognition bedeutet das: Die bloße Teilnahme an einem Meeting genügt nicht, um die Identifizierung rechtlich abzusichern.

Technical and organizational measures

Der Einsatz solcher Technologien erfordert umfassende Technical and organizational measures. Dazu gehören insbesondere:

  • Privacy by Design und by Default, etwa durch deaktivierte Standardfunktionen für Aufzeichnung und Sprecheridentifikation.
  • Zugriffsbeschränkungen auf Transkripte und Audiodaten.
  • Encryption bei Speicherung und Übertragung.
  • Schulungen für Beschäftigte.


Ein zentrales Element ist zudem ein Deletion concept. Insbesondere sollten Audioaufzeichnungen nach Erstellung der Transkripte gelöscht werden, sofern kein weiterer Zweck besteht.

Regulatorische Zusatzanforderungen bei KI-Einsatz

Speaker Recognition basiert häufig auf KI-Systemen. Solche Systeme können je nach Einsatzkontext zusätzlichen regulatorischen Anforderungen unterliegen, insbesondere nach der KI-Verordnung.

Systeme zur biometrischen Identifikation natürlicher Personen sind nach Anhang III Nr. 1 KI-VO als hochriskante KI-Systeme einzustufen, sofern es sich nicht um biometrische Echtzeit-Fernidentifikation handelt, die nach Art. 5 KI-VO weitgehend verboten ist. Für den typischen Meeting-Kontext bedeutet das: Speaker-Recognition-Systeme fallen in die Hochrisiko-Kategorie mit den entsprechenden Pflichten zur Konformitätsbewertung, technischen Documentation, Transparency gegenüber Betroffenen und menschlicher Aufsicht.

Davon zu unterscheiden ist der Einsatz von Systemen zur Emotionserkennung am Arbeitsplatz: Dieser ist nach Art. 5 Abs. 1 lit. f KI-VO grundsätzlich verboten. Ausnahmen bestehen lediglich für eng begrenzte Zwecke, etwa zum Schutz der Gesundheit und Sicherheit der Beschäftigten. Für den Meeting-Kontext dürfte das Verbot damit in aller Regel eingreifen.

Die regulatorischen Anforderungen der KI-Verordnung treten damit kumulativ zu den datenschutz- und strafrechtlichen Vorgaben hinzu und erhöhen den Prüfaufwand für Unternehmen erheblich.

Hohe Anforderungen an den rechtssicheren Einsatz von Transkription

Der rechtssichere Einsatz von Transkription und Sprecheridentifikation erfordert eine sorgfältige Prüfung auf mehreren Ebenen: datenschutzrechtliche Rechtsgrundlage, strafrechtliche Absicherung nach § 201 StGB sowie – beim Einsatz KI-basierter Systeme –  die Anforderungen der KI-Verordnung. Unternehmen sollten dabei stets prüfen, ob weniger invasive Alternativen den verfolgten Zweck gleichermaßen erfüllen. Wo Sprecheridentifikation tatsächlich erforderlich ist, bleibt die ausdrückliche Consent der Betroffenen, flankiert durch eine Company agreement, der verlässlichste Weg zur Rechtssicherheit.

Die rechtlichen Anforderungen sind komplex, ihre praktische Umsetzung muss es nicht sein. Wir unterstützen Sie dabei, Transkriptionslösungen rechtssicher in Ihre Prozesse zu integrieren: von der Wahl der passenden Rechtsgrundlage über die Ausgestaltung von Betriebsvereinbarungen bis hin zur technischen und organisatorischen Umsetzung.

Sprechen Sie uns auf Ihre konkrete Anwendung an.

Source: GDD Kurzpapier Gesprächstranskription

Aristotelis Zervos is Editorial Director at 2B Advice, a lawyer and journalist with profound expertise in data protection, GDPRIT compliance and AI governance. He regularly publishes in-depth articles on AI regulation, GDPR compliance and risk management. You can find out more about him on his Author profile page.

Tags:
Share this post :