#30 Künstliche Intelligenz: Wie verarbeiten KI-Sprachmodelle personenbezogene Daten?

Shownotes

Der Podcast rund um das Thema Datenschutz und IT. Mit Dr. Klaus Meffert und Stephan Plesnik.

30 Künstliche Intelligenz: Wie verarbeiten KI-Sprachmodelle personenbezogene Daten?

Wie verarbeiten Sprachmodelle wie ChatGPT Trainings- und Eingabedaten?
Wie werden Daten in KI-Modellen gespeichert? Interessanterweise werden auch ganze Worte oder Eigennamen in Vokabularen von Sprachmodellen gespeichert.
Und wie sieht es mit der Ausgabe eines Chatbots aus, wenn er auf eine Frage eines Nutzers antwortet?

Dies und einiges mehr in der aktuellen Episode von Datenschutz Deluxe sowie im Beitrag zum Podcast: https://dr-dsgvo.de/kuenstliche-intelligenz-wie-speichern-ki-sprachmodelle-daten-enthalten-die-modelle-auch-personenbezogene-daten/
Feedback geben? Fragen stellen? Gerne hier:
https://dr-dsgvo.de
Videokanal von Stephan: https://www.youtube.com/datenschutzistpflicht

Impressum:
https://dr-dsgvo.de/impressum

Transkript anzeigen

00:00:00: Datenschutz Deluxe, der Podcast rund um das Thema Datenschutz und IT mit Dr. Klaus Meffert und Stephan Plesnik.

00:00:13: Hallo und herzlich willkommen zum Datenschutz Deluxe Podcast hier am 26. September 2023.

00:00:20: Mein Name ist Stephan Plesnik und ich begrüße euch da zu Hause an den Empfängern.

00:00:25: Ich hoffe, dass ihr vorbereitet seid auf ein ganz spannendes Thema.

00:00:28: Bei mir ist natürlich wie immer Dr. Klaus Meffert. Klaus, ich grüße dich. Wie geht es dir heute Morgen?

00:00:33: Ja, Stephan, ich grüße dich auch. Mir geht's gut. Ich hoffe, dir geht's auch gut und die Zuhörer auch, wenn sie vielleicht unterwegs sind.

00:00:40: Sie können ja auch von aus dem Zug zuhören, da hat man ja auch ein bisschen mehr Zeit, wenn der Zug länger braucht.

00:00:46: Was er meist braucht.

00:00:49: Vielleicht macht die Bahn das sogar extra, dass unser Podcast länger gehört werden kann.

00:00:55: Freuen Sie sich auch auf unser spannendes Thema heute.

00:00:58: Ja, sehr schön. Also, wunderbar. Wir steigen mal direkt ein, würde ich sagen, denn heute sprechen wir über das kritische,

00:01:07: für mich eigentlich ein ziemliches, ich sag das mal mit Angela Merkels Worten, Neuland-Thema.

00:01:12: Und zwar personenbezogene Daten in KI-Modellen und welche datenschutzrelevanten Aspekte dahinter stecken.

00:01:21: Und zum Einstieg hätte ich direkt mal die spannende Frage, von der Ebene quasi des Datenschutzes,

00:01:30: so das Datenschutzrechts, die wir betrachten perspektivisch, spielen sich KI-Modelle und klassische Suchmaschinen,

00:01:39: klassisch meine ich jetzt Google als Beispiel, da in einem ähnlichen Feld ab?

00:01:45: Oder ist das jetzt nochmal wieder eine komplett neue Bemessung? Und wenn ja, auf welcher Grundlage?

00:01:51: Ja, also vielleicht ist es in Ordnung, wenn wir nur über KI-Sprachmodelle zunächst sprechen.

00:01:57: Es gibt ja noch bildgenerierende Verfahren und sowas.

00:02:00: Aber um es nicht zu kompliziert zu machen, vielleicht reden wir über Sprachmodelle,

00:02:03: weil du auf Suchmaschinen sagtest, da geht es ja auch um Texteingaben.

00:02:06: Und da sollen ja üblicherweise zumindest Textergebnisse rauskommen.

00:02:10: Da gibt es zwar auch die Bildersuche, aber da reden wir jetzt vielleicht erst mal nicht drüber.

00:02:13: Und da ist es so, mittlerweile hat sich die Frage etwas verschoben.

00:02:18: Es gibt ja Suchmaschinen wie Bing von Microsoft, die auch künstliche Intelligenz nutzen im Hintergrund

00:02:24: und nicht immer vielleicht, aber teilweise die Suchergebnisse auch durch KI-Suchen sozusagen gestützt darstellen

00:02:32: und auch teilweise Antworten geben, die vorher nicht gegeben wurden.

00:02:35: Das heißt also, man muss gar nicht mehr die Webseite eines Content-Lieferanten besuchen,

00:02:39: sondern sieht direkt in der Google-Suche die Ergebnisse.

00:02:42: Finden viele natürlich nicht gut oder in der Bing-Suche.

00:02:45: Aber ich will das hier nur einfach mal rein objektiv festhalten.

00:02:48: Und da ist es eben schon so, wenn eine Suchmaschine natürlich KI im Hintergrund nutzt,

00:02:51: dann hat sie ja dieselbe Datenbasis wie ein KI-Modell im Endeffekt.

00:02:55: Sogar noch mehr, weil ja der klassische Suchindex noch dazukommt.

00:02:58: Und der klassische Suchindex oder die klassische Suchmaschine, da zielt ja wahrscheinlich auch deine Frage drauf ab.

00:03:04: Da sehe ich in der Tat zunächst mal bei der Datenbeschaffung und Datenhaltung erst mal keine Unterschiede.

00:03:10: Also bei der Beschaffung wenigstens. Bei der Datenhaltung ist es ein bisschen komplizierter.

00:03:14: Da können wir dann gerne auch noch mal drüber sprechen.

00:03:17: Okay, also auf der Ebene, wie kommen die Daten in das System hinein?

00:03:22: Also im Endeffekt der Punkt der Datenerhebung.

00:03:24: Würdest du sagen, es ist datenschutztechnisch eigentlich dasselbe?

00:03:29: Jetzt ist es nun so, dass ich zum Beispiel schon an verschiedenen Stellen gelesen habe,

00:03:34: dass eben zum Beispiel ChatGPT wohl Informationen, die auf nicht-öffentlichen LinkedIn-Profilen veröffentlicht sind,

00:03:43: also quasi nur im Universum von LinkedIn gelesen werden können, wiedergegeben hat.

00:03:48: Und OpenAI hat dann dazu gesagt, dass das ja im Endeffekt nicht deren Ansinnen wäre,

00:03:56: aber dass das eben passieren könnte, weil das sind ja Informationen im Internet.

00:04:00: Und die Informationen finde ich aber ja ganz bewusst in Suchmaschinen jetzt nicht.

00:04:05: Da wäre doch dann der Punkt einer Datenerhebung, die eigentlich nicht datenschutzkonform ist, gegeben, oder?

00:04:10: Und wenn ja, wie geht das überhaupt?

00:04:13: Also lockt sich ChatGPT über die API von LinkedIn ein oder was machen die da dann?

00:04:19: Ja, gute Frage. Also ich kenne jetzt den Fall speziell nicht.

00:04:22: Ich weiß aber auch, dass es Gerüchte gibt, beziehungsweise vielleicht war es auch der Anlass für die italienische Datenschutzbehörde,

00:04:28: ChatGPT mal kurzzeitig zu verbieten, dass es eben so ist, dass OpenAI da Quellen angezapft hat,

00:04:35: wie du sagst, die nicht öffentlich sind.

00:04:37: Die Frage ist, wenn man eine Quelle anzapft, auch die LinkedIn-API zum Beispiel,

00:04:41: die ist ja auch irgendwie halb öffentlich, kann man schon sagen, man hat ja einen Zugang dazu und kann dann Daten abrufen.

00:04:46: Die Frage ist, ob der Inhaber der Daten, wer auch immer das dann ist,

00:04:51: ist es die Plattform, ist es der Ersteller eines Posts auf LinkedIn oder sind es beide zum Beispiel?

00:04:56: Das kommt auch auf die Bedingungen an auf der Plattform, ob die damit einverstanden sind,

00:05:00: dass so ein Dritter wie OpenAI diese Daten abgreift.

00:05:04: Ja, wenn die Daten natürlich geschützt sind vom äußeren Zugriff durch ein Login oder sowas,

00:05:08: dann ist es schon ein bisschen schwieriger, solche Daten zu verwenden in öffentlichen KI-Modellen.

00:05:13: Heißt aber jetzt nicht unbedingt, dass es verboten ist, es wäre nur kritisch zu betrachten natürlich.

00:05:18: Ich kann jetzt den Fall leider nicht konkret ausgestalten, weil ich ihn nicht genug kenne.

00:05:23: Aber wenn es um geschützte Daten geht, die nicht öffentlich sind,

00:05:28: dann ist es natürlich kritisch, wenn man diese Daten abgreift und die dann in einem öffentlichen Modell sozusagen verwendet,

00:05:34: was ja ChatGPT ist.

00:05:37: Ja, okay, dann sind wir da auf jeden Fall d'accord mit dieser Situation.

00:05:44: Jetzt mal die Frage, wenn ich mir jetzt überlege, wo kann denn,

00:05:50: wenn ich an Datenschutz denke, dann geht es ja um Persönlichkeitsrechte,

00:05:53: also wo kann denn in so einem Sprachmodell, nehmen wir ChatGPT als Beispiel,

00:05:58: wo kann denn da ein Problem mit der Verwendung personenbezogener Daten entstehen?

00:06:04: Wir haben jetzt gerade gesagt, Erhebung ist eine Möglichkeit, wo ein Problem entstehen kann.

00:06:09: Also das kann einwilligungspflichtig sein und gegen die Einwilligung oder ohne die Einwilligung passieren.

00:06:15: Klar, den Tatbestand kennen wir quasi von jeder Webseite, die Google Analytics oder sowas einsetzt.

00:06:20: Aber wo sind wir da bei der Verarbeitung der Daten?

00:06:24: Also wie würdest du sehen, könntest du dir vorstellen,

00:06:27: dass da wirklich auch ein Schadensfall für die betroffene Person entsteht?

00:06:32: Oder was kann man mit den Daten machen in einem KI-Modell,

00:06:35: was gefährlicher sein kann als in einer Suchmaschine?

00:06:38: Ja, also genau, ein KI-Modell hat mehr Möglichkeiten als eine Suchmaschine.

00:06:42: Da liegt eben eine der Gefahren drin.

00:06:44: Bei einer Suchmaschine werden ja keine neuen Informationen generiert,

00:06:47: üblicherweise jedenfalls nicht oder wurden bisher nicht,

00:06:50: sondern es werden bestehende Informationen eingelesen und die sozusagen wortgetreu wiedergegeben.

00:06:55: Das ist so der klassische Fall, den man von vor einigen Jahren wenigstens kennt.

00:06:58: Und wie gesagt, bei der Datenbeschaffung an sich, wenn die jetzt auf normalen Wegen stattfindet,

00:07:02: dann gibt es da für mich keinen Unterschied zwischen einer Suchmaschine und einem KI-Modell.

00:07:05: Also ich habe, also außer diese Fälle, die du eben gerade genannt hast natürlich,

00:07:08: aber das will ich bei der Google-Suche jetzt auch nicht ausschließen,

00:07:11: dass die Daten abgreifen, die vielleicht nicht unbedingt vorgesehen sind.

00:07:15: Aber ansonsten hatte ich die Aufregung erst schon nicht verstanden bei KI-Modellen,

00:07:20: warum diese Datenerhebung, wenn sie denn über öffentliche Quellen geht, ein Problem sein sollte.

00:07:25: Hat ja bisher offiziell zumindest niemand drüber gesprochen,

00:07:28: dass diese Daten aus anderen Quellen kämen.

00:07:31: Da bei Suchmaschinen hat man auch nicht so genau hingeschaut.

00:07:34: Jetzt bei KI-Modellen ist was Neues, da gucken die Datenschutzbehörden hin,

00:07:37: aber nur meiner Meinung nach, auch die hessische, die ja sonst gar nichts tut,

00:07:40: für den Datenschutz, meiner Meinung nach.

00:07:43: Ja, ich komme ja aus Hessen, deswegen möchte ich darüber auch immer wieder reden

00:07:46: und weil ich so enttäuscht bin von dieser Behörde,

00:07:48: die übrigens Google Analytics für komplett harmlos hält.

00:07:51: Ja, du musst da anfangen zu arbeiten.

00:07:54: Du musst dich bei denen bewerben, damit du endlich was daran ändern kannst,

00:07:58: dass da mal Zunder reinkommt.

00:08:01: Also gut, lassen wir das.

00:08:03: Da haben dann einige Behörden angefangen, aktiv zu werden bei KI,

00:08:07: weil es ja ein neues Thema ist.

00:08:08: Und dann ist die hessische Behörde halt auch draufgesprungen,

00:08:10: weil es ja dann gefahrlos ist.

00:08:11: Dann kann ja keiner sich unbeliebt machen, wenn andere sich vorher unbeliebt gemacht hätten.

00:08:14: Also Datenerhebung, Daten einlesen, abgehakt.

00:08:18: Jetzt geht es um die Datenspeicherung im KI-Modell erst mal,

00:08:20: weil danach kommt ja erst die Beantwortung einer Frage.

00:08:24: Wie speichern KI-Modelle Daten?

00:08:26: Ich habe mir das mal etwas genauer, also KI-Sprachmodelle genauer gesagt,

00:08:30: habe ich mir genauer angeschaut.

00:08:31: Und da ist es eben so, alle modernen Modelle, die ich mir angeguckt habe,

00:08:36: auch ChatGPT, auch die neueren GPT-Versionen,

00:08:39: die jetzt teilweise keine Open Source sind,

00:08:41: aber die analog arbeiten wie die letzte öffentliche GPT-Version,

00:08:45: die machen es eben so, die nehmen ein Vokabular, was sie erzeugen.

00:08:50: Also sie lesen ganz viele Texte ein.

00:08:52: Da sind ganz viele Begriffe und Worte und Eigennamen drin.

00:08:55: Und daraus wird ein Vokabular erzeugt.

00:08:57: Der naive Ansatz wäre,

00:08:59: jedem Wort einen Eintrag im Vokabular zu verpassen.

00:09:02: Also das heißt Haus, Computer, Stephan, Plastik, Klaus, Meffert, Datenschutz

00:09:09: sind alles einzelne Worte, Einträge im Vokabular.

00:09:12: So, jetzt wird da eine kleine Komprimierung vorgenommen,

00:09:15: indem da sogenannte Tokens oder manche nennen es auch Wortfetzen,

00:09:18: abgespeichert werden.

00:09:20: Das heißt, aus Datenschutz könnten jetzt zum Beispiel

00:09:25: zwei Wortfetzen werden, Daten und Schutz zum Beispiel.

00:09:28: Das würde dann etwas komprimierter abgespeichert,

00:09:31: weil es gibt ja auch noch andere Begriffe,

00:09:33: die mit Daten anfangen oder mit Schutz nicht anfangen.

00:09:36: Also das Wort Mitte oder Wort Ende oder irgendwo haben.

00:09:39: Aber potenziell ist es so, dass alleine schon im Vokabular,

00:09:43: das ist einfach eine Textdatei, die ist im JSON-Format heißt es,

00:09:46: aber das ist eine Textdatei, die menschenlesbar ist

00:09:49: und maschinenverarbeitbar.

00:09:51: Da stehen einfach diese Wortfetzen und auch ganze Worte drinnen.

00:09:54: Das ist eigentlich in jedem KI-Sprachmodell so.

00:09:56: Und da könnte es natürlich sein,

00:09:58: dass da schon personenbezogene Daten drinstehen.

00:10:01: Jetzt muss man natürlich sagen, was ist das Problem,

00:10:04: wenn ein Name, es gibt ja Nachnamen, die sind einmalig auf der Welt

00:10:08: oder in Deutschland zumindest,

00:10:10: wenn wir über ein deutsches Sprachmodell reden.

00:10:12: Und wenn der Name da komplett drinsteht,

00:10:14: dann ist es ein Hinweis auf eine Person.

00:10:16: Aber damit würde ich jetzt sagen, hat man zwar eine Verantwortlichkeit,

00:10:19: aber die Frage ist, wofür?

00:10:21: Weil diese Person, weiß ich nicht, ob die jetzt sich beschweren kann,

00:10:24: dass ihr Name in diesem KI-Sprachmodell drinsteht.

00:10:26: Also wenn es nur der Name ist,

00:10:28: ich meine, im Telefonbuch steht auch ein Name.

00:10:30: Da müsste man nochmal genauer einsteigen.

00:10:32: Aber eigentlich kann aus der Nennung eines Namens,

00:10:36: ohne Kontext sozusagen,

00:10:38: wahrscheinlich kein Datenschutzproblem entstehen,

00:10:40: so würde ich es jetzt mal formulieren.

00:10:42: Und dann geht es eben weiter.

00:10:44: Da würde mich mal interessieren, ob du das genauso siehst,

00:10:46: vielleicht, bevor ich da weitermache.

00:10:48: Ja, also im Endeffekt habe ich jetzt gerade gedacht,

00:10:52: ich surfe mal kurz und gucke nochmal wieder in die DSGVO rein.

00:10:55: Das mache ich ja so gerne in solchen Situationen.

00:10:57: Und da wissen wir ja, dass in Artikel 5

00:10:59: grundsätzlich für die Verarbeitung personenbezogener Daten steht.

00:11:02: Personenbezogene Daten müssen,

00:11:04: und jetzt unter Punkt E, wo wir uns befinden,

00:11:06: in einer Form gespeichert werden,

00:11:09: die die Identifizierung der betroffenen Personen

00:11:12: nur so lange ermöglicht,

00:11:14: wie es für die Zwecke, für die sie verarbeitet werden,

00:11:17: erforderlich ist.

00:11:19: Gehen wir mal nur bis zu dem Punkt,

00:11:21: bevor wir jetzt auf die Einschränkung

00:11:23: durch die Gestaltung technischer organisatorischer Maßnahmen,

00:11:26: die dann gefordert wird, sind.

00:11:28: Aber alleine diese Tatsache sagt doch,

00:11:31: also in Bezug auf das KI-Sprachmodell,

00:11:34: welchen Zweck verargumentieren wir denn datenschutzrechtlich

00:11:37: für das KI-Sprachmodell an der Stelle?

00:11:39: Ja, okay.

00:11:40: Das ist ein guter Punkt.

00:11:42: Ja, also da hast du vollkommen recht.

00:11:44: Also ich würde es folgendermaßen sehen.

00:11:46: Es ist zumindest erlaubt,

00:11:48: laut Urhebergesetz, was jetzt hier nicht unbedingt gilt,

00:11:51: aber man könnte auch sagen, bei personenbezogenen Daten

00:11:53: sind es öffentliche Daten.

00:11:54: Wenn jemand öffentlich auf seiner Webseite schreibt,

00:11:56: dann kann ich nichts dagegen haben,

00:11:58: dass man weiß, dass diese Person existiert, sagen wir mal so.

00:12:01: Jetzt lese ich diesen Personennamen ein.

00:12:03: Das würde ich noch für erlaubt halten,

00:12:05: wenn es legitime Zwecke sind.

00:12:07: Außer die Person hat automatisch oder auch manuell

00:12:10: dann später widersprochen.

00:12:12: Automatisch widersprechen geht momentan gar nicht,

00:12:15: weil es gar keinen Standard gibt dafür,

00:12:17: wie man einem KI-Modell verbietet oder mitteilt,

00:12:20: dass man gar nicht möchte, dass die Daten da landen.

00:12:22: Es gibt zwar Robots, TXT als Crawler, Blocker sozusagen.

00:12:26: Das ist aber ein reiner Wunsch

00:12:27: und außerdem nicht für KI-Modelle gedacht.

00:12:29: So muss man es ja sagen, ja.

00:12:31: Könnte man darüber reden,

00:12:32: ob sich KI-Modelle auch daran halten müssen.

00:12:34: Selbst wenn viele wissen gar nicht, wie KI-Modelle Crawler heißen.

00:12:37: Also insofern landen die Daten wahrscheinlich rechtmäßig im KI-Modell

00:12:41: oder sind schon gelandet.

00:12:43: Der Crawling-Prozess von GPT4 ist ja schon abgeschlossen

00:12:46: nach September 2021.

00:12:49: Wenn jetzt einer seinen Crawling-Schutz aktiviert für ChatGPT,

00:12:52: dann bringt das nur für zukünftige Versionen was.

00:12:54: So, jetzt ist der Name drinnen.

00:12:56: Dein Name zum Beispiel wäre jetzt im Sprachmodell drin.

00:12:58: Der wäre eindeutig.

00:13:00: Ja, es wäre noch wichtig, dass der eindeutig ist,

00:13:02: wenn es 10.000 Plesniks gibt und da nur Plesniks steht irgendwo.

00:13:05: Ich meine, dann kannst du jetzt nicht sagen,

00:13:07: mein Name steht da drin.

00:13:09: Sag dann, nee, das ist der von jemand anders.

00:13:11: Woher wissen Sie das eigentlich, dass es Ihr Name ist?

00:13:13: Ihre Adresse steht ja auch gar nicht dabei

00:13:15: oder Ihre E-Mail oder irgendein anderes Kennzeichen,

00:13:17: was darauf deuten könnte, dass du es bist.

00:13:19: Also dieser Fall, dass der Name nicht eindeutig ist,

00:13:21: finde ich, da ist es eher so,

00:13:23: dass man nicht sagen kann,

00:13:25: dass es der eigene Name ist, der im Sprachmodell steht,

00:13:27: wenn es keinen Kontext gibt dazu.

00:13:29: Wir sind ja erst noch bei der Speicherung der Daten im Modell,

00:13:31: nicht bei der Generierung einer Antwort.

00:13:33: Wenn es aber ein eindeutiger Name ist

00:13:35: und die Person kommt zum Betreiber des KI-Modells

00:13:37: und sagt, hier, ich habe gesehen, ihr habt meinen Namen gespeichert,

00:13:39: dann hätte ich gerne, dass ihr den da rausnehmt,

00:13:41: dann müsste man das machen.

00:13:43: Und da fällt mir jetzt die Möglichkeit ein,

00:13:45: dass man eben aus dem Vokabular ...

00:13:47: Wahrscheinlich müsste man es machen, vermute ich.

00:13:49: Dann könnte man aus dem Vokabular einfach diesen Namen rausnehmen

00:13:51: beziehungsweise durch eine anonymisierte Version ersetzen.

00:13:53: Da schreibt man dann einfach YZ rein oder so was.

00:13:55: Statt Syntax Superi als Beispiel, ja?

00:13:57: Ja.

00:13:59: Das ist möglicherweise ein eindeutiger Name.

00:14:01: Und schon hätte man,

00:14:03: weil wenn nämlich dann Ausgaben generiert werden im KI-Modell,

00:14:05: dann greift er nämlich darauf zu,

00:14:07: auf dieses Vokabular

00:14:09: und gibt dann statt Syntax Superi

00:14:11: gibt er dann den Begriff YZ aus,

00:14:13: was ja dann offensichtlich

00:14:15: nicht mehr der Name der betroffenen Person ist,

00:14:17: die wollte, dass dieser Name gelöscht wurde.

00:14:19: Absolut.

00:14:21: Da stimme ich dir voll zu.

00:14:23: Jetzt ist es ja so,

00:14:25: dass dieser Punkt,

00:14:27: der Speicherbegrenzung,

00:14:29: ist ja zeitlich

00:14:31: und zweckgebunden.

00:14:33: Aber es gibt ja auch noch die Tatsache,

00:14:35: dass die personenbezogenen Daten

00:14:37: dem Zweck angemessen und erheblich

00:14:39: sowie auf das für die Zwecke

00:14:41: der Verarbeitung notwendige Maß

00:14:43: beschränkt sein müssen.

00:14:45: Stichwort der Datenminimierung.

00:14:47: Das ist der Punkt C unter Abschnitt 1 Artikel 5.

00:14:49: Jetzt stellt sich halt für mich

00:14:51: die Frage,

00:14:53: naja gut, wir haben es ja bei so einem KI-Sprachmodell

00:14:55: mit einer Technologie zu tun,

00:14:57: die eigentlich nur dann einen Wert besitzt,

00:14:59: einen Mehrwert schaffen kann,

00:15:01: wenn sie exorbitant

00:15:03: große Mengen an Daten,

00:15:05: also solches Vokabular, zur Verfügung hat,

00:15:07: um daraus eben

00:15:09: logisch vernünftige oder sinnvolle

00:15:11: Antworten zu generieren.

00:15:13: Würdest du da jetzt sagen,

00:15:15: die Zwecke der Verarbeitung,

00:15:17: also aufs notwendige Maß für die Zwecke

00:15:19: der Verarbeitung beschränken, kann man da

00:15:21: eigentlich gar nicht einsetzen,

00:15:23: je mehr Daten das Ding hat,

00:15:25: desto wertvoller,

00:15:27: desto besser funktioniert es

00:15:29: und je weniger Daten es hat,

00:15:31: desto weniger Wert stellt es überhaupt dar.

00:15:33: Oder würdest du dann sagen,

00:15:35: da müssen wir vielleicht tendenziell über die Frage

00:15:37: diskutieren, ob

00:15:39: Sprachmodelle überhaupt vereinbar sind

00:15:41: mit unserem Bestreben nach Privatsphäre?

00:15:43: Ja okay, also

00:15:45: grundsätzlich sehe ich da zunächst mal keinen Unterschied.

00:15:47: Also wir sind bei der Datenspeicherung

00:15:49: noch, ja, immer noch bei der Datenspeicherung.

00:15:51: Kein Unterschied zur Suchmaschine.

00:15:53: Ich meine offensichtlich

00:15:55: speichert die Suchmaschine auch eine komplette Webseite ab.

00:15:57: Also nochmal, eine Person, die

00:15:59: auf ihrer Webseite öffentlich

00:16:01: irgendwelche Informationen über sich selbst gibt,

00:16:03: kann nicht sagen,

00:16:05: sie will ihre Privatsphäre bezüglich

00:16:07: dieser Daten gewährleistet wissen.

00:16:09: Also das halte ich, dann soll sie die Webseite

00:16:11: nicht öffentlich betreiben.

00:16:13: Da hast du recht, absolut.

00:16:15: Ich will jetzt niemanden da

00:16:17: das Tor öffnen,

00:16:19: um so eine Daten zu missbrauchen. Aber wenn ich Daten,

00:16:21: das macht ja auch eine Suchmaschine, Daten von einer

00:16:23: Webseite wiedergebe, die eingelesen wurde,

00:16:25: die öffentlich ist, dann

00:16:27: kann ich die Person sagen, die diese Daten

00:16:29: ursprünglich veröffentlicht hat, ihre Daten

00:16:31: veröffentlicht hat. Das möchte ich

00:16:33: nicht, weil ich

00:16:35: meine Privatsphäre gewahrt haben möchte.

00:16:37: Da geht es dann eher um Fragen, wie

00:16:39: möchte ich das Dritte meine Daten weiter

00:16:41: verwerten? Nicht wegen der DSGVO,

00:16:43: sondern ich weiß von manchen,

00:16:45: dass die ihre Webseite zum Beispiel gegen Crawling

00:16:47: blocken, weil sie nicht wollen, dass ihre Inhalte

00:16:49: irgendwo anders landen und ihre eigene Seite nicht mehr

00:16:51: aufgerufen wird. Das ist so eher der Grund,

00:16:53: wenn man ehrlich ist. Also,

00:16:55: wenn du jetzt deine Webseite und da steht irgendwas

00:16:57: wie alt du bist oder welche Farben

00:16:59: du gerne hast oder so,

00:17:01: dann kannst du nicht sagen, ja, ich möchte nicht,

00:17:03: dass das öffentlich wird. Das ist ja schon öffentlich.

00:17:05: Es ist ja schon auf deiner Webseite gespeichert.

00:17:07: Und diese Speicherbegrenzung, ja,

00:17:09: das wäre, wie gesagt,

00:17:11: das weiß ich nicht, ob das an dem Punkt schon

00:17:13: greift, weil es ja ein legitimes

00:17:15: Interesse einer Suchmaschine ist und eine KI,

00:17:17: die Daten speichert zunächst, könnte man auch

00:17:19: erstmal als bessere Suchmaschine

00:17:21: betrachten. Wir kommen ja gleich noch zu

00:17:23: Antwortgenerierungen vielleicht. Da würde

00:17:25: ich sagen, sehe ich jetzt noch kein Problem mit der

00:17:27: Speicherbegrenzung, weil es sind ja öffentliche Daten.

00:17:29: Die Speicherbegrenzung hätte bei der Person schon

00:17:31: stattfinden müssen, meiner Meinung nach, die die Daten

00:17:33: bereitstellt, wenn sie will, dass die Daten

00:17:35: geschützt sind. Sie kann nicht später

00:17:37: sagen, ich habe die Daten öffentlich gemacht,

00:17:39: aber ich will jetzt, dass andere diese öffentlichen Daten

00:17:41: nur zur Hälfte benutzen. Also,

00:17:43: da muss man sich halt vorher entscheiden, mache ich Daten

00:17:45: öffentlich oder nicht. Aber nochmal, es fehlt

00:17:47: halt ein Mechanismus,

00:17:49: eines Opt-out sozusagen, oder

00:17:51: vielleicht redet man irgendwann auch mal über eine

00:17:53: Einwilligung, also Opt-in, den gibt's

00:17:55: technisch so jetzt nicht. Das muss man einfach

00:17:57: zur Kenntnis nehmen. Und den wird es auch nie

00:17:59: geben. Jedenfalls nicht

00:18:01: in einer sicheren Weise,

00:18:03: denn wenn sich jemand nicht dran hält,

00:18:05: was in der Robots.txt zum Beispiel steht,

00:18:07: auch jetzt schon nicht, dann kann die Webseite

00:18:09: daran wenig ändern, ja. Man kann

00:18:11: höchstens einzelne IP-Adressen aussperren,

00:18:13: aber dann ist es eben so,

00:18:15: dass die Bösartigen ändern

00:18:17: ihre IP-Adresse oder man schreibt rein,

00:18:19: der Bot XYZ soll nicht meine Webseite

00:18:21: abgrasen. Der Bot,

00:18:23: der ändert aber dann irgendwann seinen Namen und

00:18:25: vielleicht sogar aus guten Gründen, also jetzt nicht bösartig,

00:18:27: heißt dann ABC oder XYZ

00:18:29: Version 1.2 und

00:18:31: schon kann er wieder die Webseite einlesen.

00:18:33: Das Einzige, was bleibt, ist eine passwortgeschützte

00:18:35: Webseite mit Abonnenten oder

00:18:37: sonstigen Personen, die dann die Zugriffe

00:18:39: bekommen. Nur so kann man

00:18:41: effektiv Inhalte gegen Abgrasen durch

00:18:43: Dritte schützen. Das betrifft jetzt nicht nur

00:18:45: personenbezogene Daten.

00:18:47: Absolut.

00:18:49: Führt so ein bisschen

00:18:51: gedankentechnisch an

00:18:53: diesen Punkt, den ich mal in einem sehr spannenden

00:18:55: Gedankenexperiment hatte,

00:18:57: sind Anarchie und absolute Demokratie

00:18:59: nicht dasselbe, wenn ich in einem so

00:19:01: liberalen Raum agiere, wie das Internet ihn

00:19:03: darstellt.

00:19:05: Im Endeffekt ist ja dort alles vorhanden

00:19:07: und alles kann konsumiert werden und

00:19:09: jeder kann dazu beitragen, auf seine Art

00:19:11: und Weise. Und wenn man sich anguckt,

00:19:13: wie sich zumindest in Deutschland die Behörden

00:19:15: gegenüber dem Internet positionieren,

00:19:17: habe ich doch, zumindest bei der Exekutive,

00:19:19: sehr häufig das Gefühl,

00:19:21: dass die sagen,

00:19:23: das scheint irgendwie ein anderer

00:19:25: Raum zu sein, als der

00:19:27: rechtliche Rahmen, wenn wir selber auf die

00:19:29: Straße gehen, was ich für sehr komisch und

00:19:31: fahrlässig halte. Aber gut, das ist

00:19:33: meine persönliche Meinung, ich bin auch kein Jurist.

00:19:35: Wo du geradezu kamst,

00:19:37: zu dem Punkt der Antwortgenerierung,

00:19:39: da, finde ich, wird

00:19:41: das Thema halt wirklich unglaublich

00:19:43: spannend. Denn anders, genau wie du

00:19:45: gesagt hast, als bei einer klassischen Suchmaschine

00:19:47: wie Google, die dir Antworten

00:19:49: aus vorhandenen Inhalten im

00:19:51: Internet generiert und damit

00:19:53: im Endeffekt,

00:19:55: was die DSGVO und die personenbezogenen

00:19:57: Daten angeht, nach Artikel 5

00:19:59: Absatz 1 Nummer D,

00:20:01: sachlich richtig und erforderlich

00:20:03: jedenfalls auf dem neuesten Stand

00:20:05: sein müssen. Es sind

00:20:07: alle angemessenen Maßnahmen zu treffen, damit

00:20:09: personenbezogene Daten, die im Hinblick auf die

00:20:11: Zwecke ihrer Verarbeitung unrichtig sind,

00:20:13: unverzüglich gelöscht oder berichtigt

00:20:15: werden. Das Stichwort der Richtigkeit.

00:20:17: Und ich finde, das ist bei einer Antwort

00:20:19: doch eigentlich das Wichtigste, dass wir uns sicher sein können,

00:20:21: dass die Antwort, die wir bekommen, richtig ist.

00:20:23: Bei Google haben wir dann im Endeffekt

00:20:25: nur, wir wissen von vornherein,

00:20:27: die Antwort, die wir bekommen, kommt von irgendwo

00:20:29: anders her. Und dementsprechend

00:20:31: haben wir dann uns selbst an der Richtigkeit

00:20:33: zu zweifeln. Aber so ein KI

00:20:35: wie so ein ChatGPT

00:20:37: generiert ja eine neue Form der

00:20:39: Antwort und kombiniert

00:20:41: dabei Informationen aus

00:20:43: unterschiedlichen Quellen zu einem neuen

00:20:45: Ergebnis, das eben passend

00:20:47: zu meiner Frage ist.

00:20:49: Und wenn dabei

00:20:51: personenbezogene Daten verwendet werden,

00:20:53: dann kann es ja zu sehr,

00:20:55: sehr vielen Fehlern kommen.

00:20:57: Ja, richtig.

00:20:59: Hat dann jemand einen Schadenersatzanspruch?

00:21:01: Ja, also

00:21:03: die sachliche Richtigkeit,

00:21:05: diesen Punkt mit der sachlichen Richtigkeit

00:21:07: und Datenkorrektur, das ist sehr gut, was du

00:21:09: da hervorgebracht hast eben.

00:21:11: Artikel 5, da ist es tatsächlich

00:21:13: so, dass, also ich will mal ein

00:21:15: Gedankenexperiment bemühen, um deine Frage

00:21:17: vielleicht, die Antwort auf deine Frage vielleicht ein bisschen zu

00:21:19: vereinfachen.

00:21:21: Und zwar, angenommen, du hättest einen

00:21:23: ja, so ein Spaßprojekt,

00:21:25: da sind Personennamen drin,

00:21:27: die öffentlich bekannt sind,

00:21:29: zugänglich sind, durch deine Webseite,

00:21:31: durch mein oder durchs Telefonbuch.

00:21:33: Und dann generiert er einfach dazu irgendwelche

00:21:35: Aussagen, Spaßaussagen.

00:21:37: Die müssen jetzt nicht beleidigend sein,

00:21:39: das können irgendwie, Stephan Plesnik

00:21:41: ist 2,17 Meter groß oder so,

00:21:43: könnte ja auch sein, ja, als Beispiel.

00:21:45: Ich vermute, du bist nicht so groß.

00:21:47: Was natürlich nicht so weit von der Realität entfernt ist.

00:21:49: Also es wäre wahrscheinlich

00:21:51: eine Falschaussage. Oder die Haarfarbe

00:21:53: anders benennen oder so.

00:21:55: Wo jetzt, könnte man natürlich sagen, wenn das da

00:21:57: gekennzeichnet ist auf der Webseite, dass

00:21:59: es eine Spaßaussage ist, oder

00:22:01: dass diese Aussage möglicherweise

00:22:03: falsch ist und keinen Anspruch auf Richtigkeit

00:22:05: erhebt und auch die Daten

00:22:07: nicht irgendwo herkommen,

00:22:09: wo gesagt wird, dass es so wäre.

00:22:11: Dann würde ich schon sagen, könnte man darüber streiten,

00:22:13: ob man da eine Datenkorrektur vornehmen

00:22:15: muss, ja.

00:22:17: Bei ChatGPT allerdings, ich habe jetzt

00:22:19: nicht jeden Tag dieses Ding benutzt,

00:22:21: sondern benutzt aus Forschungszwecken hauptsächlich

00:22:23: und zu Untersuchungen bei Datenschutz,

00:22:25: sonst interessiert es mich momentan nicht so sehr. Ich habe andere

00:22:27: Möglichkeiten, auch KI-Modelle,

00:22:29: die selbst laufen. Deswegen weiß ich nicht, wie der heutige

00:22:31: Stand ist, aber vor ein paar Wochen war es zumindest so,

00:22:33: dass ChatGPT überhaupt keinen

00:22:35: Hinweis angezeigt hat, dass die Antworten,

00:22:37: die es gibt, irgendwie falsch

00:22:39: sein könnten, mit Vorsicht zu genießen sind

00:22:41: oder dass man irgendwo drauf achten

00:22:43: müsste. Das halte ich schon für

00:22:45: rechtswidrig,

00:22:47: wenn da so eine Aussage kommt, die falsch ist,

00:22:49: die auf eine Person bezogen ist, die

00:22:51: nicht geeignet ist, der Person

00:22:53: Nachteile zu verschaffen, muss man ja mal sagen.

00:22:55: Darum geht es ja letztendlich.

00:22:57: Wenn jetzt drinstehen würde, Stephan Plesnik

00:22:59: ist der beste

00:23:01: Basketballspieler der Welt,

00:23:03: dann würdest du möglicherweise nicht unbedingt einen Nachteil

00:23:05: dadurch haben. Weiß ich nicht, könnte auch sein,

00:23:07: weil vielleicht immer mehr Leute dir Fanpost schicken

00:23:09: und am Ende hast du sogar die Leute vor deinem

00:23:11: Haus stehen und die würden dich belästigen.

00:23:13: Vielleicht wäre das

00:23:15: auch ein Nachteil, der daraus entstehen könnte, aber

00:23:17: wahrscheinlich nicht, also grundsätzlich,

00:23:19: wenn da eine positive Aussage steht. Aber

00:23:21: ja, klar, Schadensersatz, das muss der

00:23:23: Jurist beantworten, aber kann natürlich immer

00:23:25: beim immateriellen Schaden,

00:23:27: die Höhe des immateriellen Schadens

00:23:29: ist egal, hat der EuGH festgestellt,

00:23:31: stattfinden.

00:23:33: Und da würde ich schon sagen,

00:23:35: dass man da potenziell

00:23:37: den Anspruch auf Schadensersatz hat,

00:23:39: beziehungsweise eine Stufe vor wäre ja der Anspruch

00:23:41: drauf, dass die Daten berichtigt werden oder gelöscht werden,

00:23:43: wenn man der Dateninhaber ist.

00:23:45: Und da ist es eben so,

00:23:47: dass diese Daten aus

00:23:49: einem KI-Modell eigentlich gar nicht herausbekommen

00:23:51: werden können, außer man löscht

00:23:53: in einem Vokabular den Namen,

00:23:55: wenn er denn in Echtform drin

00:23:57: steht. Wenn wir jetzt

00:23:59: mal Namen nehmen, die

00:24:01: Wortteile enthalten,

00:24:03: die auch in normalen deutschen Worten vorkommen können

00:24:05: und der Name ist

00:24:07: jetzt in drei Stücken abgespeichert.

00:24:09: Plastik zum Beispiel,

00:24:11: PL, ES und

00:24:13: NIK oder sowas als Beispiel.

00:24:15: Diese Wortfetzen könnten auch in anderen deutschen

00:24:17: Worten vorkommen. Dann kannst du nicht einfach

00:24:19: deine drei Wortfetzen rauslöschen, die

00:24:21: deinen Namen ergeben, weil sonst würde

00:24:23: die ganze KI kein ordentliches Ergebnis mehr

00:24:25: liefern. Das würde nur funktionieren, wenn ich

00:24:27: wirklich einen Namen habe, der als ganzes

00:24:29: im Vokabular zufällig drinsteht.

00:24:31: Das kommt auf den Kompressionsalgorithmus an

00:24:33: und die anderen Worte, die im

00:24:35: Korpus sind, die eingelesen werden beim

00:24:37: KI-Training. Das heißt, man kann

00:24:39: und wenn man im Vokabular nicht löschen kann,

00:24:41: dann kann man im KI-Modell selbst

00:24:43: erst recht nicht löschen, weil es ist ungefähr so wie

00:24:45: unsere Gehirne beim Menschen.

00:24:47: Da sehe ich keinen grundsätzlichen Unterschied übrigens zwischen

00:24:49: KI-Sprachmodellen und menschlichem

00:24:51: Gehirn, was die Funktionsfähigkeit,

00:24:53: Funktionsweise angeht. Muss ich leider

00:24:55: oder zum Glück, je nachdem wie man es sieht, so sagen.

00:24:59: Da ist es eben so, du kannst ja auch

00:25:01: nicht einfach aus deinem Kopf irgendeine Information löschen.

00:25:03: Also das geht einfach so nicht.

00:25:05: Wie soll das gehen? In den meisten Fällen fällt das schwer, ja.

00:25:07: Ja, also wo

00:25:09: selbst mit einer chirurgischen Zange

00:25:11: oder so, wüsstest du gar nicht,

00:25:13: welche Neuronenverbindung du trennen sollst,

00:25:15: damit deine Information verschwindet. Und genauso

00:25:17: ist es im KI-Modell. Es ist momentan

00:25:19: ein ungelöstes Problem,

00:25:21: wie aus KI-Modellen Daten gelöscht werden

00:25:23: können. Und das ist so,

00:25:25: der einzige Weg, der mir bekannt ist,

00:25:27: und ich kenne, ich lese da auch öfter mal

00:25:29: was, also und da gibt es keine anderen

00:25:31: Sachen, die ich lese, ist

00:25:33: eben, man schmeißt das KI-Modell

00:25:35: weg und trainiert es neu.

00:25:37: Das klingt jetzt erstmal

00:25:39: theoretisch möglich. Problem,

00:25:41: wir reden, wenn wir

00:25:43: über ein ganz gutes KI-Sprachmodell

00:25:45: reden und mit ganz gut meine ich, ich finde es schon

00:25:47: sehr gut, ja. Der verwöhnte

00:25:49: ChatGPT-Nutzer findet es mittelmäßig, ich

00:25:51: fände es sehr gut. Also über ein

00:25:53: wie ich finde gutes KI-Modell,

00:25:55: dann müssen wir über einen

00:25:57: Rechenaufwand mit hochwertigen

00:25:59: Grafikkarten, auf denen wird nämlich ein

00:26:01: KI-Modell berechnet,

00:26:03: die ein Stück Preis von

00:26:05: mindestens 2.000 Euro haben, wenn nicht sogar 15.000

00:26:07: oder 20.000, je nachdem welches Modell man da nimmt.

00:26:09: Also da muss man mit einer Rechenzeit

00:26:11: von mindestens

00:26:13: 200.000 Stunden rechnen,

00:26:15: auf den Grafikkarten. Ich kann also

00:26:17: eine Grafikkarte 200.000 Stunden lang rechnen

00:26:19: lassen, da werde ich also nie fertig.

00:26:21: Vor allem nicht innerhalb der Zeit,

00:26:23: die die DSGVO ja dann zulässt, wahrscheinlich,

00:26:25: ja, also ein paar Tage oder Wochen.

00:26:27: Oder ich lasse halt

00:26:29: 1.000 Grafikkarten 100

00:26:31: Stunden lang jeweils rechnen,

00:26:33: da muss ich aber auch diese 1.000 Grafikkarten

00:26:35: haben. Ja, und wenn ich sie nicht habe,

00:26:37: dann muss ich sie mir mieten und beim Mieten

00:26:39: komme ich wieder in das Problem mit dem Datenschutz rein,

00:26:41: weil wer will schon bei AWS oder

00:26:43: bei Google irgendwas mieten, wenn die Daten

00:26:45: dann auch bei AWS und bei Google sind.

00:26:47: Also das Problem, ich kann diese Daten nicht

00:26:49: rauslöschen. So, das ist

00:26:51: der Punkt.

00:26:53: Ja, und was du angesprochen hast, das Berichtigen

00:26:55: ist ja auch dann im Endeffekt

00:26:57: eigentlich unmöglich. Das heißt, wir haben hier

00:26:59: wirklich auf jeden Fall auf der, sag ich mal,

00:27:01: rechtlichen Ebene der DSGVO

00:27:03: haben wir hier ein paar

00:27:05: sehr spannende Fragen,

00:27:07: die zu sehr hohen

00:27:09: Interessenskonflikten zwischen Recht und

00:27:11: Gesetz oder Rechtmäßigkeit

00:27:13: und aktuellem Vorgehen

00:27:15: bestehen, nämlich bei der Speicherbegrenzung,

00:27:17: bei der Richtigkeit, bei der Minimierung

00:27:19: und bei der Zweckbindung.

00:27:21: Also vier von sechs Punkten,

00:27:23: die schwierig sind.

00:27:25: Einen wichtigen Punkt hab ich nämlich noch,

00:27:27: es kommt ja, also wichtig ist die

00:27:29: Frage auch noch, ob ein KI-Modell überhaupt

00:27:31: wortgetreu oder nahezu

00:27:33: wortgetreu Texte

00:27:35: wiedergeben kann, weil

00:27:37: wenn es nämlich nicht so wäre, dann

00:27:39: könnte man sagen, okay, das ist vielleicht so abstrus

00:27:41: oder so, dass es gar nichts mit der Realität zu tun hat.

00:27:43: Das bezeichnet man als

00:27:45: Anekdote eher.

00:27:47: Und ich hab also ein Experiment gemacht

00:27:49: und es ist so, dass, also bei

00:27:51: ChatGPT ist es

00:27:53: eben so, deutsches

00:27:55: Modell, da hab ich

00:27:57: es geschafft, dass mir wortgetreu

00:27:59: der

00:28:01: erste Teil des Artikel 1

00:28:03: glaube ich war es, der DSGVO

00:28:05: wiedergegeben wurde auf meine Frage hin.

00:28:07: Also wortgetreu als Zitat

00:28:09: sozusagen.

00:28:11: Das bedeutet, wir haben

00:28:13: eine Webseite, die schreibt

00:28:15: irgendwas Schlechtes über dich zum Beispiel.

00:28:17: Und wahrscheinlich,

00:28:19: sagen wir mal, es ist eine Lüge, eine diffamierende

00:28:21: Lüge. Und jetzt

00:28:23: liest ein KI-Modell

00:28:25: diese Lüge ein und gibt sie

00:28:27: dann wortgetreu einem anderen Nutzer

00:28:29: wieder und du bist

00:28:31: die betroffene Person, die dadurch

00:28:33: Nachteile erleidet. Zumindest

00:28:35: immateriellen Schaden hätte.

00:28:37: Dieser Fall kann passieren,

00:28:39: weil eben KI-Modelle

00:28:41: wortgetreu Wiedergaben machen können. Und du hast ja auch schon gesagt,

00:28:43: es gibt ja auch Wiedergaben, die nicht

00:28:45: wortgetreu sind. Die sind wahrscheinlich der übliche Fall

00:28:47: und auch noch schlimmer.

00:28:49: Und das liegt eben daran, dass

00:28:51: KI-Modelle nicht nur dieses Vokabular haben,

00:28:53: sondern im Gehirn sozusagen

00:28:55: viele Neuronen haben

00:28:57: und die speichern die

00:28:59: Reihenfolge-Wahrscheinlichkeit von

00:29:01: Begriffen in einem bestimmten Kontext ab.

00:29:03: Also nicht, was folgt

00:29:05: als nächstes auf das Wort und? Das wäre

00:29:07: Quatsch, weil da können ja 10.000 verschiedene Worte

00:29:09: folgen, sondern was folgt auf das

00:29:11: Wort und am wahrscheinlichsten im

00:29:13: aktuellen Kontext? Und der aktuelle Kontext

00:29:15: ergibt sich aus der Fragestellung und den

00:29:17: vorigen Sätzen der Antwort und vielleicht aus der

00:29:19: Chat-Historie auch, wenn man über ein Chatbot

00:29:21: nachdenkt. Also das heißt, genau so

00:29:23: macht es ein Mensch auch,

00:29:25: sage ich. Bisher hat mir noch

00:29:27: niemand was anderes gesagt. Natürlich

00:29:29: haben wir noch Umwelterfahrung. Wir laufen

00:29:31: durch die Gegend und sehen auch was und können auch physikalische

00:29:33: Zusammenhänge aufgrund unserer

00:29:35: Beobachtung erkennen. Das kann ein KI-Modell

00:29:37: momentan noch nicht, weil es eben nicht in der Gegend rumläuft.

00:29:39: Aber das ist der einzige Grund, sage ich.

00:29:41: Das heißt, ein KI-Modell speichert

00:29:43: sich Wahrscheinlichkeiten,

00:29:45: die kontextspezifisch sind und dadurch kommen

00:29:47: eben diese Halluzinationen auch zustande,

00:29:49: weil so eine Wahrscheinlichkeit kann auch mal, ich sage

00:29:51: mal, leicht verrücken und dann kommt halt ein anderes

00:29:53: Wort oder ein anderer Teilsatz raus,

00:29:55: als der, der ursprünglich in den Originaltexten

00:29:57: drin stand.

00:29:59: Da müssen wir auf jeden Fall

00:30:01: in Bezug auf die Entwicklung von

00:30:03: KI in der Zukunft und auch aktuell

00:30:05: deutlich ein Auge drauf haben

00:30:07: und ich glaube auch aus

00:30:09: mehr Fachrichtungen

00:30:11: darüber diskutieren und

00:30:13: lernen, als nur

00:30:15: jetzt, sage ich mal, so einseitig von

00:30:17: der Entwicklerseite oder von der rechtlichen

00:30:19: Seite. Ich glaube, da

00:30:21: müssen wir viel umfassender mit umgehen.

00:30:23: Eben wie du sagst, es ist einem

00:30:25: Gehirn nachempfunden oder es möchte auch diesen

00:30:27: Anspruch haben und so ein

00:30:29: Gehirn ist ja nun mal etwas

00:30:31: sehr, sehr Komplexes. Nicht umsonst

00:30:33: haben wir das noch nicht entschlüsselt

00:30:35: vollständig und

00:30:37: ich denke, gerade im Punkt,

00:30:39: in Bezug auf das, was du ansprachst, da wird

00:30:41: eine Falschaussage getätigt oder da wird

00:30:43: ein Zitat wiedergegeben, was eigentlich

00:30:45: gar nicht stimmt,

00:30:47: ist einer der ersten Schritte,

00:30:49: dass halt vielleicht

00:30:51: irgendwo so ein Zwang entsteht, dass

00:30:53: alle KI-Sprachmodelle

00:30:55: immer klar ausgezeichnet sind, dass es von

00:30:57: KI generiert und der Anspruch auf

00:30:59: Richtigkeit ist nicht gegeben und

00:31:01: dass man das doppelt und dreifach

00:31:03: vielleicht am besten noch mal gegenprüfen sollte,

00:31:05: ob das, was dabei rausgekommen ist, stimmt.

00:31:07: Denn das, was du beschrieben hast, ist mir

00:31:09: selbst auch passiert. Wenn man ChatGPT

00:31:11: fragt, schreibt mir einen Blogartikel

00:31:13: mit zum Beispiel den fünf wichtigsten

00:31:15: Faktoren für gutes Teamwork,

00:31:17: dann kopiert er sich einfach nur irgendwelche Absätze

00:31:19: aus unterschiedlichen Webseiten zusammen.

00:31:21: Wenn man dann die einzelnen Absätze nimmt

00:31:23: und in Google eingibt, findet man sofort den Artikel,

00:31:25: wovon es 1 zu 1 kopiert

00:31:27: ist, also zitiert ist.

00:31:29: Und ChatGPT gibt darüber keinerlei

00:31:31: Hinweis, dass es einfach nur kopiert,

00:31:33: also geklaut ist.

00:31:35: Und das ist ein Punkt, wo wir

00:31:37: ja über die Frage diskutieren,

00:31:39: KI-Modelle, Urheberrechte,

00:31:41: Erhaltung von Urheberrechten in

00:31:43: KI-Modellen. Und das

00:31:45: ist sehr schön, weil das

00:31:47: ist eine super Überleitung zu unserer nächsten Folge.

00:31:49: Denn das war ja ein Thema, was dir auch am Herzen

00:31:51: lag und ich finde, da können wir

00:31:53: dann den Bogen spannen und in der nächsten Folge

00:31:55: mal gemeinsam über diese Tatsache

00:31:57: sprechen. Ich habe auf jeden Fall

00:31:59: eine ganze Menge gelernt und

00:32:01: fand das sehr spannend, auch mal die DSGVO

00:32:03: zur Rate zu ziehen und zu gucken, wo sind denn da

00:32:05: die Diskussionspunkte zur

00:32:07: Zeit. Danke dir

00:32:09: vielmals, also für diese

00:32:11: weitreichenden und auch

00:32:13: technologisch fundierten

00:32:15: Antworten.

00:32:17: Und ja, ich würde sagen, alle liebe Zuschauer,

00:32:19: ich hoffe, Zuhörer natürlich,

00:32:21: ich hoffe, es hat euch gefallen.

00:32:23: Und ihr genießt den Rest

00:32:25: des Tages und schaltet beim nächsten Mal dann auch

00:32:27: wieder ein, wenn Klaus und ich

00:32:29: uns die Köpfe rauchig reden

00:32:31: über KI und Urheberrechte.

00:32:35: Genau, so machen wir's.

00:32:37: Stephan hat mich auch sehr gefreut, war auch

00:32:39: sehr gut, was du da angemerkt hast.

00:32:41: Artikel 5 DSGVO,

00:32:43: das ist, glaube ich, ein sehr guter Maßstab, da kann sich

00:32:45: jeder dran orientieren, bevor er

00:32:47: danach in Artikel 6 guckt,

00:32:49: die Rechtsgrundlage.

00:32:51: Genau, die kriegen wir dann ja beim nächsten Mal

00:32:53: auf jeden Fall mit unter, die werden da ja eine Rolle

00:32:55: spielen. In diesem Sinne

00:32:57: sage ich schönen Tag noch

00:32:59: und tschüss. Danke dir, Klaus.

00:33:01: Danke auch. Tschüss.

00:33:03: Das war Datenschutz

00:33:05: Deluxe. Du willst

00:33:07: mehr spannende Themen oder Kontakt zu uns?

00:33:09: Dann besuche Klaus Meffert

00:33:11: auf seinem Blog Dr. DSGVO

00:33:13: und Stephan Plesnik

00:33:15: auf seinem YouTube-Kanal

00:33:17: Datenschutz ist Pflicht. Bis zum

00:33:19: nächsten Mal.

Shownotes

30 Künstliche Intelligenz: Wie verarbeiten KI-Sprachmodelle personenbezogene Daten?

Transkript anzeigen

Neuer Kommentar