#30 Künstliche Intelligenz: Wie verarbeiten KI-Sprachmodelle personenbezogene Daten?
Shownotes
Der Podcast rund um das Thema Datenschutz und IT. Mit Dr. Klaus Meffert und Stephan Plesnik.
30 Künstliche Intelligenz: Wie verarbeiten KI-Sprachmodelle personenbezogene Daten?
Wie verarbeiten Sprachmodelle wie ChatGPT Trainings- und Eingabedaten?
Wie werden Daten in KI-Modellen gespeichert? Interessanterweise werden auch ganze Worte oder Eigennamen in Vokabularen von Sprachmodellen gespeichert.
Und wie sieht es mit der Ausgabe eines Chatbots aus, wenn er auf eine Frage eines Nutzers antwortet?
Dies und einiges mehr in der aktuellen Episode von Datenschutz Deluxe sowie im Beitrag zum Podcast: https://dr-dsgvo.de/kuenstliche-intelligenz-wie-speichern-ki-sprachmodelle-daten-enthalten-die-modelle-auch-personenbezogene-daten/
Feedback geben? Fragen stellen? Gerne hier:
https://dr-dsgvo.de
Videokanal von Stephan: https://www.youtube.com/datenschutzistpflicht
Impressum:
https://dr-dsgvo.de/impressum
Transkript anzeigen
00:00:00: Datenschutz Deluxe, der Podcast rund um das Thema Datenschutz und IT mit Dr. Klaus Meffert und Stephan Plesnik.
00:00:13: Hallo und herzlich willkommen zum Datenschutz Deluxe Podcast hier am 26. September 2023.
00:00:20: Mein Name ist Stephan Plesnik und ich begrüße euch da zu Hause an den Empfängern.
00:00:25: Ich hoffe, dass ihr vorbereitet seid auf ein ganz spannendes Thema.
00:00:28: Bei mir ist natürlich wie immer Dr. Klaus Meffert. Klaus, ich grüße dich. Wie geht es dir heute Morgen?
00:00:33: Ja, Stephan, ich grüße dich auch. Mir geht's gut. Ich hoffe, dir geht's auch gut und die Zuhörer auch, wenn sie vielleicht unterwegs sind.
00:00:40: Sie können ja auch von aus dem Zug zuhören, da hat man ja auch ein bisschen mehr Zeit, wenn der Zug länger braucht.
00:00:46: Was er meist braucht.
00:00:49: Vielleicht macht die Bahn das sogar extra, dass unser Podcast länger gehört werden kann.
00:00:55: Freuen Sie sich auch auf unser spannendes Thema heute.
00:00:58: Ja, sehr schön. Also, wunderbar. Wir steigen mal direkt ein, würde ich sagen, denn heute sprechen wir über das kritische,
00:01:07: für mich eigentlich ein ziemliches, ich sag das mal mit Angela Merkels Worten, Neuland-Thema.
00:01:12: Und zwar personenbezogene Daten in KI-Modellen und welche datenschutzrelevanten Aspekte dahinter stecken.
00:01:21: Und zum Einstieg hätte ich direkt mal die spannende Frage, von der Ebene quasi des Datenschutzes,
00:01:30: so das Datenschutzrechts, die wir betrachten perspektivisch, spielen sich KI-Modelle und klassische Suchmaschinen,
00:01:39: klassisch meine ich jetzt Google als Beispiel, da in einem ähnlichen Feld ab?
00:01:45: Oder ist das jetzt nochmal wieder eine komplett neue Bemessung? Und wenn ja, auf welcher Grundlage?
00:01:51: Ja, also vielleicht ist es in Ordnung, wenn wir nur über KI-Sprachmodelle zunächst sprechen.
00:01:57: Es gibt ja noch bildgenerierende Verfahren und sowas.
00:02:00: Aber um es nicht zu kompliziert zu machen, vielleicht reden wir über Sprachmodelle,
00:02:03: weil du auf Suchmaschinen sagtest, da geht es ja auch um Texteingaben.
00:02:06: Und da sollen ja üblicherweise zumindest Textergebnisse rauskommen.
00:02:10: Da gibt es zwar auch die Bildersuche, aber da reden wir jetzt vielleicht erst mal nicht drüber.
00:02:13: Und da ist es so, mittlerweile hat sich die Frage etwas verschoben.
00:02:18: Es gibt ja Suchmaschinen wie Bing von Microsoft, die auch künstliche Intelligenz nutzen im Hintergrund
00:02:24: und nicht immer vielleicht, aber teilweise die Suchergebnisse auch durch KI-Suchen sozusagen gestützt darstellen
00:02:32: und auch teilweise Antworten geben, die vorher nicht gegeben wurden.
00:02:35: Das heißt also, man muss gar nicht mehr die Webseite eines Content-Lieferanten besuchen,
00:02:39: sondern sieht direkt in der Google-Suche die Ergebnisse.
00:02:42: Finden viele natürlich nicht gut oder in der Bing-Suche.
00:02:45: Aber ich will das hier nur einfach mal rein objektiv festhalten.
00:02:48: Und da ist es eben schon so, wenn eine Suchmaschine natürlich KI im Hintergrund nutzt,
00:02:51: dann hat sie ja dieselbe Datenbasis wie ein KI-Modell im Endeffekt.
00:02:55: Sogar noch mehr, weil ja der klassische Suchindex noch dazukommt.
00:02:58: Und der klassische Suchindex oder die klassische Suchmaschine, da zielt ja wahrscheinlich auch deine Frage drauf ab.
00:03:04: Da sehe ich in der Tat zunächst mal bei der Datenbeschaffung und Datenhaltung erst mal keine Unterschiede.
00:03:10: Also bei der Beschaffung wenigstens. Bei der Datenhaltung ist es ein bisschen komplizierter.
00:03:14: Da können wir dann gerne auch noch mal drüber sprechen.
00:03:17: Okay, also auf der Ebene, wie kommen die Daten in das System hinein?
00:03:22: Also im Endeffekt der Punkt der Datenerhebung.
00:03:24: Würdest du sagen, es ist datenschutztechnisch eigentlich dasselbe?
00:03:29: Jetzt ist es nun so, dass ich zum Beispiel schon an verschiedenen Stellen gelesen habe,
00:03:34: dass eben zum Beispiel ChatGPT wohl Informationen, die auf nicht-öffentlichen LinkedIn-Profilen veröffentlicht sind,
00:03:43: also quasi nur im Universum von LinkedIn gelesen werden können, wiedergegeben hat.
00:03:48: Und OpenAI hat dann dazu gesagt, dass das ja im Endeffekt nicht deren Ansinnen wäre,
00:03:56: aber dass das eben passieren könnte, weil das sind ja Informationen im Internet.
00:04:00: Und die Informationen finde ich aber ja ganz bewusst in Suchmaschinen jetzt nicht.
00:04:05: Da wäre doch dann der Punkt einer Datenerhebung, die eigentlich nicht datenschutzkonform ist, gegeben, oder?
00:04:10: Und wenn ja, wie geht das überhaupt?
00:04:13: Also lockt sich ChatGPT über die API von LinkedIn ein oder was machen die da dann?
00:04:19: Ja, gute Frage. Also ich kenne jetzt den Fall speziell nicht.
00:04:22: Ich weiß aber auch, dass es Gerüchte gibt, beziehungsweise vielleicht war es auch der Anlass für die italienische Datenschutzbehörde,
00:04:28: ChatGPT mal kurzzeitig zu verbieten, dass es eben so ist, dass OpenAI da Quellen angezapft hat,
00:04:35: wie du sagst, die nicht öffentlich sind.
00:04:37: Die Frage ist, wenn man eine Quelle anzapft, auch die LinkedIn-API zum Beispiel,
00:04:41: die ist ja auch irgendwie halb öffentlich, kann man schon sagen, man hat ja einen Zugang dazu und kann dann Daten abrufen.
00:04:46: Die Frage ist, ob der Inhaber der Daten, wer auch immer das dann ist,
00:04:51: ist es die Plattform, ist es der Ersteller eines Posts auf LinkedIn oder sind es beide zum Beispiel?
00:04:56: Das kommt auch auf die Bedingungen an auf der Plattform, ob die damit einverstanden sind,
00:05:00: dass so ein Dritter wie OpenAI diese Daten abgreift.
00:05:04: Ja, wenn die Daten natürlich geschützt sind vom äußeren Zugriff durch ein Login oder sowas,
00:05:08: dann ist es schon ein bisschen schwieriger, solche Daten zu verwenden in öffentlichen KI-Modellen.
00:05:13: Heißt aber jetzt nicht unbedingt, dass es verboten ist, es wäre nur kritisch zu betrachten natürlich.
00:05:18: Ich kann jetzt den Fall leider nicht konkret ausgestalten, weil ich ihn nicht genug kenne.
00:05:23: Aber wenn es um geschützte Daten geht, die nicht öffentlich sind,
00:05:28: dann ist es natürlich kritisch, wenn man diese Daten abgreift und die dann in einem öffentlichen Modell sozusagen verwendet,
00:05:34: was ja ChatGPT ist.
00:05:37: Ja, okay, dann sind wir da auf jeden Fall d'accord mit dieser Situation.
00:05:44: Jetzt mal die Frage, wenn ich mir jetzt überlege, wo kann denn,
00:05:50: wenn ich an Datenschutz denke, dann geht es ja um Persönlichkeitsrechte,
00:05:53: also wo kann denn in so einem Sprachmodell, nehmen wir ChatGPT als Beispiel,
00:05:58: wo kann denn da ein Problem mit der Verwendung personenbezogener Daten entstehen?
00:06:04: Wir haben jetzt gerade gesagt, Erhebung ist eine Möglichkeit, wo ein Problem entstehen kann.
00:06:09: Also das kann einwilligungspflichtig sein und gegen die Einwilligung oder ohne die Einwilligung passieren.
00:06:15: Klar, den Tatbestand kennen wir quasi von jeder Webseite, die Google Analytics oder sowas einsetzt.
00:06:20: Aber wo sind wir da bei der Verarbeitung der Daten?
00:06:24: Also wie würdest du sehen, könntest du dir vorstellen,
00:06:27: dass da wirklich auch ein Schadensfall für die betroffene Person entsteht?
00:06:32: Oder was kann man mit den Daten machen in einem KI-Modell,
00:06:35: was gefährlicher sein kann als in einer Suchmaschine?
00:06:38: Ja, also genau, ein KI-Modell hat mehr Möglichkeiten als eine Suchmaschine.
00:06:42: Da liegt eben eine der Gefahren drin.
00:06:44: Bei einer Suchmaschine werden ja keine neuen Informationen generiert,
00:06:47: üblicherweise jedenfalls nicht oder wurden bisher nicht,
00:06:50: sondern es werden bestehende Informationen eingelesen und die sozusagen wortgetreu wiedergegeben.
00:06:55: Das ist so der klassische Fall, den man von vor einigen Jahren wenigstens kennt.
00:06:58: Und wie gesagt, bei der Datenbeschaffung an sich, wenn die jetzt auf normalen Wegen stattfindet,
00:07:02: dann gibt es da für mich keinen Unterschied zwischen einer Suchmaschine und einem KI-Modell.
00:07:05: Also ich habe, also außer diese Fälle, die du eben gerade genannt hast natürlich,
00:07:08: aber das will ich bei der Google-Suche jetzt auch nicht ausschließen,
00:07:11: dass die Daten abgreifen, die vielleicht nicht unbedingt vorgesehen sind.
00:07:15: Aber ansonsten hatte ich die Aufregung erst schon nicht verstanden bei KI-Modellen,
00:07:20: warum diese Datenerhebung, wenn sie denn über öffentliche Quellen geht, ein Problem sein sollte.
00:07:25: Hat ja bisher offiziell zumindest niemand drüber gesprochen,
00:07:28: dass diese Daten aus anderen Quellen kämen.
00:07:31: Da bei Suchmaschinen hat man auch nicht so genau hingeschaut.
00:07:34: Jetzt bei KI-Modellen ist was Neues, da gucken die Datenschutzbehörden hin,
00:07:37: aber nur meiner Meinung nach, auch die hessische, die ja sonst gar nichts tut,
00:07:40: für den Datenschutz, meiner Meinung nach.
00:07:43: Ja, ich komme ja aus Hessen, deswegen möchte ich darüber auch immer wieder reden
00:07:46: und weil ich so enttäuscht bin von dieser Behörde,
00:07:48: die übrigens Google Analytics für komplett harmlos hält.
00:07:51: Ja, du musst da anfangen zu arbeiten.
00:07:54: Du musst dich bei denen bewerben, damit du endlich was daran ändern kannst,
00:07:58: dass da mal Zunder reinkommt.
00:08:01: Also gut, lassen wir das.
00:08:03: Da haben dann einige Behörden angefangen, aktiv zu werden bei KI,
00:08:07: weil es ja ein neues Thema ist.
00:08:08: Und dann ist die hessische Behörde halt auch draufgesprungen,
00:08:10: weil es ja dann gefahrlos ist.
00:08:11: Dann kann ja keiner sich unbeliebt machen, wenn andere sich vorher unbeliebt gemacht hätten.
00:08:14: Also Datenerhebung, Daten einlesen, abgehakt.
00:08:18: Jetzt geht es um die Datenspeicherung im KI-Modell erst mal,
00:08:20: weil danach kommt ja erst die Beantwortung einer Frage.
00:08:24: Wie speichern KI-Modelle Daten?
00:08:26: Ich habe mir das mal etwas genauer, also KI-Sprachmodelle genauer gesagt,
00:08:30: habe ich mir genauer angeschaut.
00:08:31: Und da ist es eben so, alle modernen Modelle, die ich mir angeguckt habe,
00:08:36: auch ChatGPT, auch die neueren GPT-Versionen,
00:08:39: die jetzt teilweise keine Open Source sind,
00:08:41: aber die analog arbeiten wie die letzte öffentliche GPT-Version,
00:08:45: die machen es eben so, die nehmen ein Vokabular, was sie erzeugen.
00:08:50: Also sie lesen ganz viele Texte ein.
00:08:52: Da sind ganz viele Begriffe und Worte und Eigennamen drin.
00:08:55: Und daraus wird ein Vokabular erzeugt.
00:08:57: Der naive Ansatz wäre,
00:08:59: jedem Wort einen Eintrag im Vokabular zu verpassen.
00:09:02: Also das heißt Haus, Computer, Stephan, Plastik, Klaus, Meffert, Datenschutz
00:09:09: sind alles einzelne Worte, Einträge im Vokabular.
00:09:12: So, jetzt wird da eine kleine Komprimierung vorgenommen,
00:09:15: indem da sogenannte Tokens oder manche nennen es auch Wortfetzen,
00:09:18: abgespeichert werden.
00:09:20: Das heißt, aus Datenschutz könnten jetzt zum Beispiel
00:09:25: zwei Wortfetzen werden, Daten und Schutz zum Beispiel.
00:09:28: Das würde dann etwas komprimierter abgespeichert,
00:09:31: weil es gibt ja auch noch andere Begriffe,
00:09:33: die mit Daten anfangen oder mit Schutz nicht anfangen.
00:09:36: Also das Wort Mitte oder Wort Ende oder irgendwo haben.
00:09:39: Aber potenziell ist es so, dass alleine schon im Vokabular,
00:09:43: das ist einfach eine Textdatei, die ist im JSON-Format heißt es,
00:09:46: aber das ist eine Textdatei, die menschenlesbar ist
00:09:49: und maschinenverarbeitbar.
00:09:51: Da stehen einfach diese Wortfetzen und auch ganze Worte drinnen.
00:09:54: Das ist eigentlich in jedem KI-Sprachmodell so.
00:09:56: Und da könnte es natürlich sein,
00:09:58: dass da schon personenbezogene Daten drinstehen.
00:10:01: Jetzt muss man natürlich sagen, was ist das Problem,
00:10:04: wenn ein Name, es gibt ja Nachnamen, die sind einmalig auf der Welt
00:10:08: oder in Deutschland zumindest,
00:10:10: wenn wir über ein deutsches Sprachmodell reden.
00:10:12: Und wenn der Name da komplett drinsteht,
00:10:14: dann ist es ein Hinweis auf eine Person.
00:10:16: Aber damit würde ich jetzt sagen, hat man zwar eine Verantwortlichkeit,
00:10:19: aber die Frage ist, wofür?
00:10:21: Weil diese Person, weiß ich nicht, ob die jetzt sich beschweren kann,
00:10:24: dass ihr Name in diesem KI-Sprachmodell drinsteht.
00:10:26: Also wenn es nur der Name ist,
00:10:28: ich meine, im Telefonbuch steht auch ein Name.
00:10:30: Da müsste man nochmal genauer einsteigen.
00:10:32: Aber eigentlich kann aus der Nennung eines Namens,
00:10:36: ohne Kontext sozusagen,
00:10:38: wahrscheinlich kein Datenschutzproblem entstehen,
00:10:40: so würde ich es jetzt mal formulieren.
00:10:42: Und dann geht es eben weiter.
00:10:44: Da würde mich mal interessieren, ob du das genauso siehst,
00:10:46: vielleicht, bevor ich da weitermache.
00:10:48: Ja, also im Endeffekt habe ich jetzt gerade gedacht,
00:10:52: ich surfe mal kurz und gucke nochmal wieder in die DSGVO rein.
00:10:55: Das mache ich ja so gerne in solchen Situationen.
00:10:57: Und da wissen wir ja, dass in Artikel 5
00:10:59: grundsätzlich für die Verarbeitung personenbezogener Daten steht.
00:11:02: Personenbezogene Daten müssen,
00:11:04: und jetzt unter Punkt E, wo wir uns befinden,
00:11:06: in einer Form gespeichert werden,
00:11:09: die die Identifizierung der betroffenen Personen
00:11:12: nur so lange ermöglicht,
00:11:14: wie es für die Zwecke, für die sie verarbeitet werden,
00:11:17: erforderlich ist.
00:11:19: Gehen wir mal nur bis zu dem Punkt,
00:11:21: bevor wir jetzt auf die Einschränkung
00:11:23: durch die Gestaltung technischer organisatorischer Maßnahmen,
00:11:26: die dann gefordert wird, sind.
00:11:28: Aber alleine diese Tatsache sagt doch,
00:11:31: also in Bezug auf das KI-Sprachmodell,
00:11:34: welchen Zweck verargumentieren wir denn datenschutzrechtlich
00:11:37: für das KI-Sprachmodell an der Stelle?
00:11:39: Ja, okay.
00:11:40: Das ist ein guter Punkt.
00:11:42: Ja, also da hast du vollkommen recht.
00:11:44: Also ich würde es folgendermaßen sehen.
00:11:46: Es ist zumindest erlaubt,
00:11:48: laut Urhebergesetz, was jetzt hier nicht unbedingt gilt,
00:11:51: aber man könnte auch sagen, bei personenbezogenen Daten
00:11:53: sind es öffentliche Daten.
00:11:54: Wenn jemand öffentlich auf seiner Webseite schreibt,
00:11:56: dann kann ich nichts dagegen haben,
00:11:58: dass man weiß, dass diese Person existiert, sagen wir mal so.
00:12:01: Jetzt lese ich diesen Personennamen ein.
00:12:03: Das würde ich noch für erlaubt halten,
00:12:05: wenn es legitime Zwecke sind.
00:12:07: Außer die Person hat automatisch oder auch manuell
00:12:10: dann später widersprochen.
00:12:12: Automatisch widersprechen geht momentan gar nicht,
00:12:15: weil es gar keinen Standard gibt dafür,
00:12:17: wie man einem KI-Modell verbietet oder mitteilt,
00:12:20: dass man gar nicht möchte, dass die Daten da landen.
00:12:22: Es gibt zwar Robots, TXT als Crawler, Blocker sozusagen.
00:12:26: Das ist aber ein reiner Wunsch
00:12:27: und außerdem nicht für KI-Modelle gedacht.
00:12:29: So muss man es ja sagen, ja.
00:12:31: Könnte man darüber reden,
00:12:32: ob sich KI-Modelle auch daran halten müssen.
00:12:34: Selbst wenn viele wissen gar nicht, wie KI-Modelle Crawler heißen.
00:12:37: Also insofern landen die Daten wahrscheinlich rechtmäßig im KI-Modell
00:12:41: oder sind schon gelandet.
00:12:43: Der Crawling-Prozess von GPT4 ist ja schon abgeschlossen
00:12:46: nach September 2021.
00:12:49: Wenn jetzt einer seinen Crawling-Schutz aktiviert für ChatGPT,
00:12:52: dann bringt das nur für zukünftige Versionen was.
00:12:54: So, jetzt ist der Name drinnen.
00:12:56: Dein Name zum Beispiel wäre jetzt im Sprachmodell drin.
00:12:58: Der wäre eindeutig.
00:13:00: Ja, es wäre noch wichtig, dass der eindeutig ist,
00:13:02: wenn es 10.000 Plesniks gibt und da nur Plesniks steht irgendwo.
00:13:05: Ich meine, dann kannst du jetzt nicht sagen,
00:13:07: mein Name steht da drin.
00:13:09: Sag dann, nee, das ist der von jemand anders.
00:13:11: Woher wissen Sie das eigentlich, dass es Ihr Name ist?
00:13:13: Ihre Adresse steht ja auch gar nicht dabei
00:13:15: oder Ihre E-Mail oder irgendein anderes Kennzeichen,
00:13:17: was darauf deuten könnte, dass du es bist.
00:13:19: Also dieser Fall, dass der Name nicht eindeutig ist,
00:13:21: finde ich, da ist es eher so,
00:13:23: dass man nicht sagen kann,
00:13:25: dass es der eigene Name ist, der im Sprachmodell steht,
00:13:27: wenn es keinen Kontext gibt dazu.
00:13:29: Wir sind ja erst noch bei der Speicherung der Daten im Modell,
00:13:31: nicht bei der Generierung einer Antwort.
00:13:33: Wenn es aber ein eindeutiger Name ist
00:13:35: und die Person kommt zum Betreiber des KI-Modells
00:13:37: und sagt, hier, ich habe gesehen, ihr habt meinen Namen gespeichert,
00:13:39: dann hätte ich gerne, dass ihr den da rausnehmt,
00:13:41: dann müsste man das machen.
00:13:43: Und da fällt mir jetzt die Möglichkeit ein,
00:13:45: dass man eben aus dem Vokabular ...
00:13:47: Wahrscheinlich müsste man es machen, vermute ich.
00:13:49: Dann könnte man aus dem Vokabular einfach diesen Namen rausnehmen
00:13:51: beziehungsweise durch eine anonymisierte Version ersetzen.
00:13:53: Da schreibt man dann einfach YZ rein oder so was.
00:13:55: Statt Syntax Superi als Beispiel, ja?
00:13:57: Ja.
00:13:59: Das ist möglicherweise ein eindeutiger Name.
00:14:01: Und schon hätte man,
00:14:03: weil wenn nämlich dann Ausgaben generiert werden im KI-Modell,
00:14:05: dann greift er nämlich darauf zu,
00:14:07: auf dieses Vokabular
00:14:09: und gibt dann statt Syntax Superi
00:14:11: gibt er dann den Begriff YZ aus,
00:14:13: was ja dann offensichtlich
00:14:15: nicht mehr der Name der betroffenen Person ist,
00:14:17: die wollte, dass dieser Name gelöscht wurde.
00:14:19: Absolut.
00:14:21: Da stimme ich dir voll zu.
00:14:23: Jetzt ist es ja so,
00:14:25: dass dieser Punkt,
00:14:27: der Speicherbegrenzung,
00:14:29: ist ja zeitlich
00:14:31: und zweckgebunden.
00:14:33: Aber es gibt ja auch noch die Tatsache,
00:14:35: dass die personenbezogenen Daten
00:14:37: dem Zweck angemessen und erheblich
00:14:39: sowie auf das für die Zwecke
00:14:41: der Verarbeitung notwendige Maß
00:14:43: beschränkt sein müssen.
00:14:45: Stichwort der Datenminimierung.
00:14:47: Das ist der Punkt C unter Abschnitt 1 Artikel 5.
00:14:49: Jetzt stellt sich halt für mich
00:14:51: die Frage,
00:14:53: naja gut, wir haben es ja bei so einem KI-Sprachmodell
00:14:55: mit einer Technologie zu tun,
00:14:57: die eigentlich nur dann einen Wert besitzt,
00:14:59: einen Mehrwert schaffen kann,
00:15:01: wenn sie exorbitant
00:15:03: große Mengen an Daten,
00:15:05: also solches Vokabular, zur Verfügung hat,
00:15:07: um daraus eben
00:15:09: logisch vernünftige oder sinnvolle
00:15:11: Antworten zu generieren.
00:15:13: Würdest du da jetzt sagen,
00:15:15: die Zwecke der Verarbeitung,
00:15:17: also aufs notwendige Maß für die Zwecke
00:15:19: der Verarbeitung beschränken, kann man da
00:15:21: eigentlich gar nicht einsetzen,
00:15:23: je mehr Daten das Ding hat,
00:15:25: desto wertvoller,
00:15:27: desto besser funktioniert es
00:15:29: und je weniger Daten es hat,
00:15:31: desto weniger Wert stellt es überhaupt dar.
00:15:33: Oder würdest du dann sagen,
00:15:35: da müssen wir vielleicht tendenziell über die Frage
00:15:37: diskutieren, ob
00:15:39: Sprachmodelle überhaupt vereinbar sind
00:15:41: mit unserem Bestreben nach Privatsphäre?
00:15:43: Ja okay, also
00:15:45: grundsätzlich sehe ich da zunächst mal keinen Unterschied.
00:15:47: Also wir sind bei der Datenspeicherung
00:15:49: noch, ja, immer noch bei der Datenspeicherung.
00:15:51: Kein Unterschied zur Suchmaschine.
00:15:53: Ich meine offensichtlich
00:15:55: speichert die Suchmaschine auch eine komplette Webseite ab.
00:15:57: Also nochmal, eine Person, die
00:15:59: auf ihrer Webseite öffentlich
00:16:01: irgendwelche Informationen über sich selbst gibt,
00:16:03: kann nicht sagen,
00:16:05: sie will ihre Privatsphäre bezüglich
00:16:07: dieser Daten gewährleistet wissen.
00:16:09: Also das halte ich, dann soll sie die Webseite
00:16:11: nicht öffentlich betreiben.
00:16:13: Da hast du recht, absolut.
00:16:15: Ich will jetzt niemanden da
00:16:17: das Tor öffnen,
00:16:19: um so eine Daten zu missbrauchen. Aber wenn ich Daten,
00:16:21: das macht ja auch eine Suchmaschine, Daten von einer
00:16:23: Webseite wiedergebe, die eingelesen wurde,
00:16:25: die öffentlich ist, dann
00:16:27: kann ich die Person sagen, die diese Daten
00:16:29: ursprünglich veröffentlicht hat, ihre Daten
00:16:31: veröffentlicht hat. Das möchte ich
00:16:33: nicht, weil ich
00:16:35: meine Privatsphäre gewahrt haben möchte.
00:16:37: Da geht es dann eher um Fragen, wie
00:16:39: möchte ich das Dritte meine Daten weiter
00:16:41: verwerten? Nicht wegen der DSGVO,
00:16:43: sondern ich weiß von manchen,
00:16:45: dass die ihre Webseite zum Beispiel gegen Crawling
00:16:47: blocken, weil sie nicht wollen, dass ihre Inhalte
00:16:49: irgendwo anders landen und ihre eigene Seite nicht mehr
00:16:51: aufgerufen wird. Das ist so eher der Grund,
00:16:53: wenn man ehrlich ist. Also,
00:16:55: wenn du jetzt deine Webseite und da steht irgendwas
00:16:57: wie alt du bist oder welche Farben
00:16:59: du gerne hast oder so,
00:17:01: dann kannst du nicht sagen, ja, ich möchte nicht,
00:17:03: dass das öffentlich wird. Das ist ja schon öffentlich.
00:17:05: Es ist ja schon auf deiner Webseite gespeichert.
00:17:07: Und diese Speicherbegrenzung, ja,
00:17:09: das wäre, wie gesagt,
00:17:11: das weiß ich nicht, ob das an dem Punkt schon
00:17:13: greift, weil es ja ein legitimes
00:17:15: Interesse einer Suchmaschine ist und eine KI,
00:17:17: die Daten speichert zunächst, könnte man auch
00:17:19: erstmal als bessere Suchmaschine
00:17:21: betrachten. Wir kommen ja gleich noch zu
00:17:23: Antwortgenerierungen vielleicht. Da würde
00:17:25: ich sagen, sehe ich jetzt noch kein Problem mit der
00:17:27: Speicherbegrenzung, weil es sind ja öffentliche Daten.
00:17:29: Die Speicherbegrenzung hätte bei der Person schon
00:17:31: stattfinden müssen, meiner Meinung nach, die die Daten
00:17:33: bereitstellt, wenn sie will, dass die Daten
00:17:35: geschützt sind. Sie kann nicht später
00:17:37: sagen, ich habe die Daten öffentlich gemacht,
00:17:39: aber ich will jetzt, dass andere diese öffentlichen Daten
00:17:41: nur zur Hälfte benutzen. Also,
00:17:43: da muss man sich halt vorher entscheiden, mache ich Daten
00:17:45: öffentlich oder nicht. Aber nochmal, es fehlt
00:17:47: halt ein Mechanismus,
00:17:49: eines Opt-out sozusagen, oder
00:17:51: vielleicht redet man irgendwann auch mal über eine
00:17:53: Einwilligung, also Opt-in, den gibt's
00:17:55: technisch so jetzt nicht. Das muss man einfach
00:17:57: zur Kenntnis nehmen. Und den wird es auch nie
00:17:59: geben. Jedenfalls nicht
00:18:01: in einer sicheren Weise,
00:18:03: denn wenn sich jemand nicht dran hält,
00:18:05: was in der Robots.txt zum Beispiel steht,
00:18:07: auch jetzt schon nicht, dann kann die Webseite
00:18:09: daran wenig ändern, ja. Man kann
00:18:11: höchstens einzelne IP-Adressen aussperren,
00:18:13: aber dann ist es eben so,
00:18:15: dass die Bösartigen ändern
00:18:17: ihre IP-Adresse oder man schreibt rein,
00:18:19: der Bot XYZ soll nicht meine Webseite
00:18:21: abgrasen. Der Bot,
00:18:23: der ändert aber dann irgendwann seinen Namen und
00:18:25: vielleicht sogar aus guten Gründen, also jetzt nicht bösartig,
00:18:27: heißt dann ABC oder XYZ
00:18:29: Version 1.2 und
00:18:31: schon kann er wieder die Webseite einlesen.
00:18:33: Das Einzige, was bleibt, ist eine passwortgeschützte
00:18:35: Webseite mit Abonnenten oder
00:18:37: sonstigen Personen, die dann die Zugriffe
00:18:39: bekommen. Nur so kann man
00:18:41: effektiv Inhalte gegen Abgrasen durch
00:18:43: Dritte schützen. Das betrifft jetzt nicht nur
00:18:45: personenbezogene Daten.
00:18:47: Absolut.
00:18:49: Führt so ein bisschen
00:18:51: gedankentechnisch an
00:18:53: diesen Punkt, den ich mal in einem sehr spannenden
00:18:55: Gedankenexperiment hatte,
00:18:57: sind Anarchie und absolute Demokratie
00:18:59: nicht dasselbe, wenn ich in einem so
00:19:01: liberalen Raum agiere, wie das Internet ihn
00:19:03: darstellt.
00:19:05: Im Endeffekt ist ja dort alles vorhanden
00:19:07: und alles kann konsumiert werden und
00:19:09: jeder kann dazu beitragen, auf seine Art
00:19:11: und Weise. Und wenn man sich anguckt,
00:19:13: wie sich zumindest in Deutschland die Behörden
00:19:15: gegenüber dem Internet positionieren,
00:19:17: habe ich doch, zumindest bei der Exekutive,
00:19:19: sehr häufig das Gefühl,
00:19:21: dass die sagen,
00:19:23: das scheint irgendwie ein anderer
00:19:25: Raum zu sein, als der
00:19:27: rechtliche Rahmen, wenn wir selber auf die
00:19:29: Straße gehen, was ich für sehr komisch und
00:19:31: fahrlässig halte. Aber gut, das ist
00:19:33: meine persönliche Meinung, ich bin auch kein Jurist.
00:19:35: Wo du geradezu kamst,
00:19:37: zu dem Punkt der Antwortgenerierung,
00:19:39: da, finde ich, wird
00:19:41: das Thema halt wirklich unglaublich
00:19:43: spannend. Denn anders, genau wie du
00:19:45: gesagt hast, als bei einer klassischen Suchmaschine
00:19:47: wie Google, die dir Antworten
00:19:49: aus vorhandenen Inhalten im
00:19:51: Internet generiert und damit
00:19:53: im Endeffekt,
00:19:55: was die DSGVO und die personenbezogenen
00:19:57: Daten angeht, nach Artikel 5
00:19:59: Absatz 1 Nummer D,
00:20:01: sachlich richtig und erforderlich
00:20:03: jedenfalls auf dem neuesten Stand
00:20:05: sein müssen. Es sind
00:20:07: alle angemessenen Maßnahmen zu treffen, damit
00:20:09: personenbezogene Daten, die im Hinblick auf die
00:20:11: Zwecke ihrer Verarbeitung unrichtig sind,
00:20:13: unverzüglich gelöscht oder berichtigt
00:20:15: werden. Das Stichwort der Richtigkeit.
00:20:17: Und ich finde, das ist bei einer Antwort
00:20:19: doch eigentlich das Wichtigste, dass wir uns sicher sein können,
00:20:21: dass die Antwort, die wir bekommen, richtig ist.
00:20:23: Bei Google haben wir dann im Endeffekt
00:20:25: nur, wir wissen von vornherein,
00:20:27: die Antwort, die wir bekommen, kommt von irgendwo
00:20:29: anders her. Und dementsprechend
00:20:31: haben wir dann uns selbst an der Richtigkeit
00:20:33: zu zweifeln. Aber so ein KI
00:20:35: wie so ein ChatGPT
00:20:37: generiert ja eine neue Form der
00:20:39: Antwort und kombiniert
00:20:41: dabei Informationen aus
00:20:43: unterschiedlichen Quellen zu einem neuen
00:20:45: Ergebnis, das eben passend
00:20:47: zu meiner Frage ist.
00:20:49: Und wenn dabei
00:20:51: personenbezogene Daten verwendet werden,
00:20:53: dann kann es ja zu sehr,
00:20:55: sehr vielen Fehlern kommen.
00:20:57: Ja, richtig.
00:20:59: Hat dann jemand einen Schadenersatzanspruch?
00:21:01: Ja, also
00:21:03: die sachliche Richtigkeit,
00:21:05: diesen Punkt mit der sachlichen Richtigkeit
00:21:07: und Datenkorrektur, das ist sehr gut, was du
00:21:09: da hervorgebracht hast eben.
00:21:11: Artikel 5, da ist es tatsächlich
00:21:13: so, dass, also ich will mal ein
00:21:15: Gedankenexperiment bemühen, um deine Frage
00:21:17: vielleicht, die Antwort auf deine Frage vielleicht ein bisschen zu
00:21:19: vereinfachen.
00:21:21: Und zwar, angenommen, du hättest einen
00:21:23: ja, so ein Spaßprojekt,
00:21:25: da sind Personennamen drin,
00:21:27: die öffentlich bekannt sind,
00:21:29: zugänglich sind, durch deine Webseite,
00:21:31: durch mein oder durchs Telefonbuch.
00:21:33: Und dann generiert er einfach dazu irgendwelche
00:21:35: Aussagen, Spaßaussagen.
00:21:37: Die müssen jetzt nicht beleidigend sein,
00:21:39: das können irgendwie, Stephan Plesnik
00:21:41: ist 2,17 Meter groß oder so,
00:21:43: könnte ja auch sein, ja, als Beispiel.
00:21:45: Ich vermute, du bist nicht so groß.
00:21:47: Was natürlich nicht so weit von der Realität entfernt ist.
00:21:49: Also es wäre wahrscheinlich
00:21:51: eine Falschaussage. Oder die Haarfarbe
00:21:53: anders benennen oder so.
00:21:55: Wo jetzt, könnte man natürlich sagen, wenn das da
00:21:57: gekennzeichnet ist auf der Webseite, dass
00:21:59: es eine Spaßaussage ist, oder
00:22:01: dass diese Aussage möglicherweise
00:22:03: falsch ist und keinen Anspruch auf Richtigkeit
00:22:05: erhebt und auch die Daten
00:22:07: nicht irgendwo herkommen,
00:22:09: wo gesagt wird, dass es so wäre.
00:22:11: Dann würde ich schon sagen, könnte man darüber streiten,
00:22:13: ob man da eine Datenkorrektur vornehmen
00:22:15: muss, ja.
00:22:17: Bei ChatGPT allerdings, ich habe jetzt
00:22:19: nicht jeden Tag dieses Ding benutzt,
00:22:21: sondern benutzt aus Forschungszwecken hauptsächlich
00:22:23: und zu Untersuchungen bei Datenschutz,
00:22:25: sonst interessiert es mich momentan nicht so sehr. Ich habe andere
00:22:27: Möglichkeiten, auch KI-Modelle,
00:22:29: die selbst laufen. Deswegen weiß ich nicht, wie der heutige
00:22:31: Stand ist, aber vor ein paar Wochen war es zumindest so,
00:22:33: dass ChatGPT überhaupt keinen
00:22:35: Hinweis angezeigt hat, dass die Antworten,
00:22:37: die es gibt, irgendwie falsch
00:22:39: sein könnten, mit Vorsicht zu genießen sind
00:22:41: oder dass man irgendwo drauf achten
00:22:43: müsste. Das halte ich schon für
00:22:45: rechtswidrig,
00:22:47: wenn da so eine Aussage kommt, die falsch ist,
00:22:49: die auf eine Person bezogen ist, die
00:22:51: nicht geeignet ist, der Person
00:22:53: Nachteile zu verschaffen, muss man ja mal sagen.
00:22:55: Darum geht es ja letztendlich.
00:22:57: Wenn jetzt drinstehen würde, Stephan Plesnik
00:22:59: ist der beste
00:23:01: Basketballspieler der Welt,
00:23:03: dann würdest du möglicherweise nicht unbedingt einen Nachteil
00:23:05: dadurch haben. Weiß ich nicht, könnte auch sein,
00:23:07: weil vielleicht immer mehr Leute dir Fanpost schicken
00:23:09: und am Ende hast du sogar die Leute vor deinem
00:23:11: Haus stehen und die würden dich belästigen.
00:23:13: Vielleicht wäre das
00:23:15: auch ein Nachteil, der daraus entstehen könnte, aber
00:23:17: wahrscheinlich nicht, also grundsätzlich,
00:23:19: wenn da eine positive Aussage steht. Aber
00:23:21: ja, klar, Schadensersatz, das muss der
00:23:23: Jurist beantworten, aber kann natürlich immer
00:23:25: beim immateriellen Schaden,
00:23:27: die Höhe des immateriellen Schadens
00:23:29: ist egal, hat der EuGH festgestellt,
00:23:31: stattfinden.
00:23:33: Und da würde ich schon sagen,
00:23:35: dass man da potenziell
00:23:37: den Anspruch auf Schadensersatz hat,
00:23:39: beziehungsweise eine Stufe vor wäre ja der Anspruch
00:23:41: drauf, dass die Daten berichtigt werden oder gelöscht werden,
00:23:43: wenn man der Dateninhaber ist.
00:23:45: Und da ist es eben so,
00:23:47: dass diese Daten aus
00:23:49: einem KI-Modell eigentlich gar nicht herausbekommen
00:23:51: werden können, außer man löscht
00:23:53: in einem Vokabular den Namen,
00:23:55: wenn er denn in Echtform drin
00:23:57: steht. Wenn wir jetzt
00:23:59: mal Namen nehmen, die
00:24:01: Wortteile enthalten,
00:24:03: die auch in normalen deutschen Worten vorkommen können
00:24:05: und der Name ist
00:24:07: jetzt in drei Stücken abgespeichert.
00:24:09: Plastik zum Beispiel,
00:24:11: PL, ES und
00:24:13: NIK oder sowas als Beispiel.
00:24:15: Diese Wortfetzen könnten auch in anderen deutschen
00:24:17: Worten vorkommen. Dann kannst du nicht einfach
00:24:19: deine drei Wortfetzen rauslöschen, die
00:24:21: deinen Namen ergeben, weil sonst würde
00:24:23: die ganze KI kein ordentliches Ergebnis mehr
00:24:25: liefern. Das würde nur funktionieren, wenn ich
00:24:27: wirklich einen Namen habe, der als ganzes
00:24:29: im Vokabular zufällig drinsteht.
00:24:31: Das kommt auf den Kompressionsalgorithmus an
00:24:33: und die anderen Worte, die im
00:24:35: Korpus sind, die eingelesen werden beim
00:24:37: KI-Training. Das heißt, man kann
00:24:39: und wenn man im Vokabular nicht löschen kann,
00:24:41: dann kann man im KI-Modell selbst
00:24:43: erst recht nicht löschen, weil es ist ungefähr so wie
00:24:45: unsere Gehirne beim Menschen.
00:24:47: Da sehe ich keinen grundsätzlichen Unterschied übrigens zwischen
00:24:49: KI-Sprachmodellen und menschlichem
00:24:51: Gehirn, was die Funktionsfähigkeit,
00:24:53: Funktionsweise angeht. Muss ich leider
00:24:55: oder zum Glück, je nachdem wie man es sieht, so sagen.
00:24:59: Da ist es eben so, du kannst ja auch
00:25:01: nicht einfach aus deinem Kopf irgendeine Information löschen.
00:25:03: Also das geht einfach so nicht.
00:25:05: Wie soll das gehen? In den meisten Fällen fällt das schwer, ja.
00:25:07: Ja, also wo
00:25:09: selbst mit einer chirurgischen Zange
00:25:11: oder so, wüsstest du gar nicht,
00:25:13: welche Neuronenverbindung du trennen sollst,
00:25:15: damit deine Information verschwindet. Und genauso
00:25:17: ist es im KI-Modell. Es ist momentan
00:25:19: ein ungelöstes Problem,
00:25:21: wie aus KI-Modellen Daten gelöscht werden
00:25:23: können. Und das ist so,
00:25:25: der einzige Weg, der mir bekannt ist,
00:25:27: und ich kenne, ich lese da auch öfter mal
00:25:29: was, also und da gibt es keine anderen
00:25:31: Sachen, die ich lese, ist
00:25:33: eben, man schmeißt das KI-Modell
00:25:35: weg und trainiert es neu.
00:25:37: Das klingt jetzt erstmal
00:25:39: theoretisch möglich. Problem,
00:25:41: wir reden, wenn wir
00:25:43: über ein ganz gutes KI-Sprachmodell
00:25:45: reden und mit ganz gut meine ich, ich finde es schon
00:25:47: sehr gut, ja. Der verwöhnte
00:25:49: ChatGPT-Nutzer findet es mittelmäßig, ich
00:25:51: fände es sehr gut. Also über ein
00:25:53: wie ich finde gutes KI-Modell,
00:25:55: dann müssen wir über einen
00:25:57: Rechenaufwand mit hochwertigen
00:25:59: Grafikkarten, auf denen wird nämlich ein
00:26:01: KI-Modell berechnet,
00:26:03: die ein Stück Preis von
00:26:05: mindestens 2.000 Euro haben, wenn nicht sogar 15.000
00:26:07: oder 20.000, je nachdem welches Modell man da nimmt.
00:26:09: Also da muss man mit einer Rechenzeit
00:26:11: von mindestens
00:26:13: 200.000 Stunden rechnen,
00:26:15: auf den Grafikkarten. Ich kann also
00:26:17: eine Grafikkarte 200.000 Stunden lang rechnen
00:26:19: lassen, da werde ich also nie fertig.
00:26:21: Vor allem nicht innerhalb der Zeit,
00:26:23: die die DSGVO ja dann zulässt, wahrscheinlich,
00:26:25: ja, also ein paar Tage oder Wochen.
00:26:27: Oder ich lasse halt
00:26:29: 1.000 Grafikkarten 100
00:26:31: Stunden lang jeweils rechnen,
00:26:33: da muss ich aber auch diese 1.000 Grafikkarten
00:26:35: haben. Ja, und wenn ich sie nicht habe,
00:26:37: dann muss ich sie mir mieten und beim Mieten
00:26:39: komme ich wieder in das Problem mit dem Datenschutz rein,
00:26:41: weil wer will schon bei AWS oder
00:26:43: bei Google irgendwas mieten, wenn die Daten
00:26:45: dann auch bei AWS und bei Google sind.
00:26:47: Also das Problem, ich kann diese Daten nicht
00:26:49: rauslöschen. So, das ist
00:26:51: der Punkt.
00:26:53: Ja, und was du angesprochen hast, das Berichtigen
00:26:55: ist ja auch dann im Endeffekt
00:26:57: eigentlich unmöglich. Das heißt, wir haben hier
00:26:59: wirklich auf jeden Fall auf der, sag ich mal,
00:27:01: rechtlichen Ebene der DSGVO
00:27:03: haben wir hier ein paar
00:27:05: sehr spannende Fragen,
00:27:07: die zu sehr hohen
00:27:09: Interessenskonflikten zwischen Recht und
00:27:11: Gesetz oder Rechtmäßigkeit
00:27:13: und aktuellem Vorgehen
00:27:15: bestehen, nämlich bei der Speicherbegrenzung,
00:27:17: bei der Richtigkeit, bei der Minimierung
00:27:19: und bei der Zweckbindung.
00:27:21: Also vier von sechs Punkten,
00:27:23: die schwierig sind.
00:27:25: Einen wichtigen Punkt hab ich nämlich noch,
00:27:27: es kommt ja, also wichtig ist die
00:27:29: Frage auch noch, ob ein KI-Modell überhaupt
00:27:31: wortgetreu oder nahezu
00:27:33: wortgetreu Texte
00:27:35: wiedergeben kann, weil
00:27:37: wenn es nämlich nicht so wäre, dann
00:27:39: könnte man sagen, okay, das ist vielleicht so abstrus
00:27:41: oder so, dass es gar nichts mit der Realität zu tun hat.
00:27:43: Das bezeichnet man als
00:27:45: Anekdote eher.
00:27:47: Und ich hab also ein Experiment gemacht
00:27:49: und es ist so, dass, also bei
00:27:51: ChatGPT ist es
00:27:53: eben so, deutsches
00:27:55: Modell, da hab ich
00:27:57: es geschafft, dass mir wortgetreu
00:27:59: der
00:28:01: erste Teil des Artikel 1
00:28:03: glaube ich war es, der DSGVO
00:28:05: wiedergegeben wurde auf meine Frage hin.
00:28:07: Also wortgetreu als Zitat
00:28:09: sozusagen.
00:28:11: Das bedeutet, wir haben
00:28:13: eine Webseite, die schreibt
00:28:15: irgendwas Schlechtes über dich zum Beispiel.
00:28:17: Und wahrscheinlich,
00:28:19: sagen wir mal, es ist eine Lüge, eine diffamierende
00:28:21: Lüge. Und jetzt
00:28:23: liest ein KI-Modell
00:28:25: diese Lüge ein und gibt sie
00:28:27: dann wortgetreu einem anderen Nutzer
00:28:29: wieder und du bist
00:28:31: die betroffene Person, die dadurch
00:28:33: Nachteile erleidet. Zumindest
00:28:35: immateriellen Schaden hätte.
00:28:37: Dieser Fall kann passieren,
00:28:39: weil eben KI-Modelle
00:28:41: wortgetreu Wiedergaben machen können. Und du hast ja auch schon gesagt,
00:28:43: es gibt ja auch Wiedergaben, die nicht
00:28:45: wortgetreu sind. Die sind wahrscheinlich der übliche Fall
00:28:47: und auch noch schlimmer.
00:28:49: Und das liegt eben daran, dass
00:28:51: KI-Modelle nicht nur dieses Vokabular haben,
00:28:53: sondern im Gehirn sozusagen
00:28:55: viele Neuronen haben
00:28:57: und die speichern die
00:28:59: Reihenfolge-Wahrscheinlichkeit von
00:29:01: Begriffen in einem bestimmten Kontext ab.
00:29:03: Also nicht, was folgt
00:29:05: als nächstes auf das Wort und? Das wäre
00:29:07: Quatsch, weil da können ja 10.000 verschiedene Worte
00:29:09: folgen, sondern was folgt auf das
00:29:11: Wort und am wahrscheinlichsten im
00:29:13: aktuellen Kontext? Und der aktuelle Kontext
00:29:15: ergibt sich aus der Fragestellung und den
00:29:17: vorigen Sätzen der Antwort und vielleicht aus der
00:29:19: Chat-Historie auch, wenn man über ein Chatbot
00:29:21: nachdenkt. Also das heißt, genau so
00:29:23: macht es ein Mensch auch,
00:29:25: sage ich. Bisher hat mir noch
00:29:27: niemand was anderes gesagt. Natürlich
00:29:29: haben wir noch Umwelterfahrung. Wir laufen
00:29:31: durch die Gegend und sehen auch was und können auch physikalische
00:29:33: Zusammenhänge aufgrund unserer
00:29:35: Beobachtung erkennen. Das kann ein KI-Modell
00:29:37: momentan noch nicht, weil es eben nicht in der Gegend rumläuft.
00:29:39: Aber das ist der einzige Grund, sage ich.
00:29:41: Das heißt, ein KI-Modell speichert
00:29:43: sich Wahrscheinlichkeiten,
00:29:45: die kontextspezifisch sind und dadurch kommen
00:29:47: eben diese Halluzinationen auch zustande,
00:29:49: weil so eine Wahrscheinlichkeit kann auch mal, ich sage
00:29:51: mal, leicht verrücken und dann kommt halt ein anderes
00:29:53: Wort oder ein anderer Teilsatz raus,
00:29:55: als der, der ursprünglich in den Originaltexten
00:29:57: drin stand.
00:29:59: Da müssen wir auf jeden Fall
00:30:01: in Bezug auf die Entwicklung von
00:30:03: KI in der Zukunft und auch aktuell
00:30:05: deutlich ein Auge drauf haben
00:30:07: und ich glaube auch aus
00:30:09: mehr Fachrichtungen
00:30:11: darüber diskutieren und
00:30:13: lernen, als nur
00:30:15: jetzt, sage ich mal, so einseitig von
00:30:17: der Entwicklerseite oder von der rechtlichen
00:30:19: Seite. Ich glaube, da
00:30:21: müssen wir viel umfassender mit umgehen.
00:30:23: Eben wie du sagst, es ist einem
00:30:25: Gehirn nachempfunden oder es möchte auch diesen
00:30:27: Anspruch haben und so ein
00:30:29: Gehirn ist ja nun mal etwas
00:30:31: sehr, sehr Komplexes. Nicht umsonst
00:30:33: haben wir das noch nicht entschlüsselt
00:30:35: vollständig und
00:30:37: ich denke, gerade im Punkt,
00:30:39: in Bezug auf das, was du ansprachst, da wird
00:30:41: eine Falschaussage getätigt oder da wird
00:30:43: ein Zitat wiedergegeben, was eigentlich
00:30:45: gar nicht stimmt,
00:30:47: ist einer der ersten Schritte,
00:30:49: dass halt vielleicht
00:30:51: irgendwo so ein Zwang entsteht, dass
00:30:53: alle KI-Sprachmodelle
00:30:55: immer klar ausgezeichnet sind, dass es von
00:30:57: KI generiert und der Anspruch auf
00:30:59: Richtigkeit ist nicht gegeben und
00:31:01: dass man das doppelt und dreifach
00:31:03: vielleicht am besten noch mal gegenprüfen sollte,
00:31:05: ob das, was dabei rausgekommen ist, stimmt.
00:31:07: Denn das, was du beschrieben hast, ist mir
00:31:09: selbst auch passiert. Wenn man ChatGPT
00:31:11: fragt, schreibt mir einen Blogartikel
00:31:13: mit zum Beispiel den fünf wichtigsten
00:31:15: Faktoren für gutes Teamwork,
00:31:17: dann kopiert er sich einfach nur irgendwelche Absätze
00:31:19: aus unterschiedlichen Webseiten zusammen.
00:31:21: Wenn man dann die einzelnen Absätze nimmt
00:31:23: und in Google eingibt, findet man sofort den Artikel,
00:31:25: wovon es 1 zu 1 kopiert
00:31:27: ist, also zitiert ist.
00:31:29: Und ChatGPT gibt darüber keinerlei
00:31:31: Hinweis, dass es einfach nur kopiert,
00:31:33: also geklaut ist.
00:31:35: Und das ist ein Punkt, wo wir
00:31:37: ja über die Frage diskutieren,
00:31:39: KI-Modelle, Urheberrechte,
00:31:41: Erhaltung von Urheberrechten in
00:31:43: KI-Modellen. Und das
00:31:45: ist sehr schön, weil das
00:31:47: ist eine super Überleitung zu unserer nächsten Folge.
00:31:49: Denn das war ja ein Thema, was dir auch am Herzen
00:31:51: lag und ich finde, da können wir
00:31:53: dann den Bogen spannen und in der nächsten Folge
00:31:55: mal gemeinsam über diese Tatsache
00:31:57: sprechen. Ich habe auf jeden Fall
00:31:59: eine ganze Menge gelernt und
00:32:01: fand das sehr spannend, auch mal die DSGVO
00:32:03: zur Rate zu ziehen und zu gucken, wo sind denn da
00:32:05: die Diskussionspunkte zur
00:32:07: Zeit. Danke dir
00:32:09: vielmals, also für diese
00:32:11: weitreichenden und auch
00:32:13: technologisch fundierten
00:32:15: Antworten.
00:32:17: Und ja, ich würde sagen, alle liebe Zuschauer,
00:32:19: ich hoffe, Zuhörer natürlich,
00:32:21: ich hoffe, es hat euch gefallen.
00:32:23: Und ihr genießt den Rest
00:32:25: des Tages und schaltet beim nächsten Mal dann auch
00:32:27: wieder ein, wenn Klaus und ich
00:32:29: uns die Köpfe rauchig reden
00:32:31: über KI und Urheberrechte.
00:32:35: Genau, so machen wir's.
00:32:37: Stephan hat mich auch sehr gefreut, war auch
00:32:39: sehr gut, was du da angemerkt hast.
00:32:41: Artikel 5 DSGVO,
00:32:43: das ist, glaube ich, ein sehr guter Maßstab, da kann sich
00:32:45: jeder dran orientieren, bevor er
00:32:47: danach in Artikel 6 guckt,
00:32:49: die Rechtsgrundlage.
00:32:51: Genau, die kriegen wir dann ja beim nächsten Mal
00:32:53: auf jeden Fall mit unter, die werden da ja eine Rolle
00:32:55: spielen. In diesem Sinne
00:32:57: sage ich schönen Tag noch
00:32:59: und tschüss. Danke dir, Klaus.
00:33:01: Danke auch. Tschüss.
00:33:03: Das war Datenschutz
00:33:05: Deluxe. Du willst
00:33:07: mehr spannende Themen oder Kontakt zu uns?
00:33:09: Dann besuche Klaus Meffert
00:33:11: auf seinem Blog Dr. DSGVO
00:33:13: und Stephan Plesnik
00:33:15: auf seinem YouTube-Kanal
00:33:17: Datenschutz ist Pflicht. Bis zum
00:33:19: nächsten Mal.
Neuer Kommentar