#24 Künstliche Intelligenz: ChatGPT als Gefahr, auch für den Datenschutz?

Shownotes

Der Podcast rund um das Thema Datenschutz und IT. Mit Dr. Klaus Meffert und Stephan Plesnik.

24 Künstliche Intelligenz: ChatGPT als Gefahr, für den Datenschutz?

Wie funktioniert die KI hinter ChatGPT eigentlich? Und welche Folgen hat das für den Datenschutz? Wir diskutieren auch über Urheberrecht und die Herkunft der Daten, die OpenAI für seine KI-Modelle nutzt.

Dies und einiges mehr in der aktuellen Episode von Datenschutz Deluxe Feedback geben? Fragen stellen? Gerne hier:
https://dr-dsgvo.de
Videokanal von Stephan: https://www.youtube.com/datenschutzistpflicht

Impressum:
https://dr-dsgvo.de/impressum

Transkript anzeigen

00:00:00: Datenschutz Deluxe, der Podcast rund um das Thema Datenschutz und IT mit Dr. Klaus Meffert und Stephan Plesnik.

00:00:12: Ja, hallo und herzlich willkommen zum Datenschutz Deluxe Podcast. Ich bin Stephan Plesnik und bei mir ist wie immer Dr. Klaus Meffert. Ich grüße dich Klaus, wie geht es dir?

00:00:22: Hallo Stephan, wie immer alles gut. Ich hoffe bei dir auch und ich freue mich auf unser Gespräch.

00:00:27: Ja wunderbar, bei mir ist auch alles tutti und ich habe das ganz bewusst so formuliert. Ich starte mal mit einem Zitat und dann wird sich das für viele Leute erklären, worüber wir heute sprechen.

00:00:37: Und zwar heißt das Zitat, Intelligenz ist die Fähigkeit seine Umgebung zu akzeptieren. Ich finde das einen sehr schönen Spruch, denn wir wollen heute mal über ein Thema sprechen.

00:00:51: Über das ist eigentlich komisch, dass wir schon so lange nicht darüber gesprochen haben, nämlich ChatGPT und die Implikation, die das rechtlich und vor allen Dingen auch für die Privatsphäre mit sich bringt.

00:01:03: Und die Fähigkeit seine Umgebung zu akzeptieren würde ja auch bedeuten, dass wir im Endeffekt unsere Intelligenz nutzen müssen, um zu akzeptieren, dass das existiert.

00:01:15: Was ist denn deine generelle Meinung eigentlich zum Thema ChatGPT und diesen ganzen Vorstößen, wie wir es jetzt zum Beispiel ja schon aus Italien hatten, dass das verboten wird aufgrund rechtswidriger Verarbeitung persönlicher Daten. Wie schätzt du das ein?

00:01:34: Ja, also vielleicht zum Zitat zunächst. Das kann auch nur ein Mensch gesagt haben, der ausschließlich über menschliche Intelligenz redet, würde ich jetzt mal sagen, weil ein Computersystem ja dem ist die Umgebung recht egal.

00:01:46: Und ich behaupte, also es gibt einen Test, mit dem man feststellen kann, ob ein Computersystem menschliche Intelligenz aufweist, also zumindest die gleichen Fähigkeiten haben kann, wie menschliche Intelligenz.

00:02:00: Und dieser Test heißt Turing-Test. Ich glaube, Alan Turing hieß der Mann, der auch im zweiten Weltkrieg sogar verantwortlich war für die Entschlüsselung von Nachrichten der Deutschen.

00:02:14: Sehr wichtig, die Enigma hat er geknackt.

00:02:17: Genau, Enigma hat er geknackt, da gibt es ja auch einen Film dazu. Und der Test geht so, es gibt einen menschlichen Prüfer, der soll eben prüfen, ob irgendetwas anderes, das andere ist entweder ein Mensch oder ein Computer, ein Mensch oder ein Computer ist.

00:02:31: Also wenn der Prüfer herausfindet, es ist ein Computer, dann hat er den Test nicht bestanden, der Computer, sondern der Mensch muss sagen, ja, das könnte ein Mensch sein.

00:02:38: Und da gibt es also den menschlichen Prüfer, das ist in einem Raum, im anderen Raum ist dann der Computer und dann dazwischen ist so eine Durchreiche, sodass man nicht sehen kann, wer im anderen Raum ist und der menschliche Prüfer reicht dann so eine Frage durch und der andere oder der Computer im anderen Raum gibt dann die Antwort, die wird dann auch über einen Zettel zurückgereicht, von mir aus vom Menschen zurückgereicht.

00:02:55: Und dann würde ich sagen, ist eben jetzt der Fall eingetreten zum ersten Mal in der Menschheitsgeschichte, dass eben ein Computersystem, den Turing Test besteht, nämlich ChatGPT, das muss man einfach so sagen.

00:03:07: Wikipedia Artikel ist noch nicht aktuell diesbezüglich. Also es ist ganz enorm, was da passiert, es wird auch nicht als AI, also künstliche Intelligenz, sondern als AGI, Artificial General Intelligence bezeichnet, also generelle künstliche Intelligenz.

00:03:23: Das heißt, das System kann mehr als immer nur eine stupide Aufgabe lösen, wie zum Beispiel gibt es schon Algorithmen, die auf Bildern erkennen, ob da Katzen drauf sind und dann auch einen Satz formulieren können, der beschreibt, wie die Katze auf dem Bild steht.

00:03:37: Zum Beispiel ich sehe ein Bild mit einer Katze, die auf einem Teppich sitzt, der auf einem Tisch liegt. Das gibt es schon seit einigen Jahren, ausgesprochen erstaunlich, aber kann eben nur dieses eine sehr eng eingegrenzte Problem lösen und ChatGPT kann offensichtlich viel, viel mehr.

00:03:50: Also das ist wirklich, sage ich, der Beweis, dass man die menschliche Intelligenz in einer Art und Weise dekodiert hat, die analog zu dem sein kann, was der Mensch im Kopf hat, sage ich.

00:04:01: Es gibt da manche, ich habe heute eine Zuschrift bekommen, der hat mir einen Lob für meinen Artikel ausgesprochen zur künstlichen Intelligenz, hat aber gesagt, ich hätte ein kritisierbares Verständnis von Intelligenz.

00:04:13: Aber ich wollte mir die Antwort erst geben, wenn er Zeit hat, weil er noch nicht dazu gekommen ist, mir mehr dazu zu verraten, aber ich persönlich sehe Intelligenz des Menschen eben als stochastischen Prozess.

00:04:24: Der Gehirn ist für mich ein Automat, ein sehr hochentwickelter Automat und das Gleiche ist ChatGPT auch, natürlich in etwas anderer Ausprägung.

00:04:33: Jetzt zu der Frage, Italien hat ja ChatGPT verboten aus Sorge, also die italienische Datenschutzbehörde war es, glaube ich.

00:04:41: Also nicht Italien, der Staat oder so, es geht ja gar nicht, sondern die Datenschutzbehörde, wenn ich das richtig weiß.

00:04:46: Da ist die Frage, was hat es denn mit dem Datenschutz und ChatGPT auf sich?

00:04:51: Nehmen wir mal an, dass was OpenAI, also der Anbieter von ChatGPT, öffentlich kundtut, stimmt, nämlich, dass ChatGPT ausschließlich aus öffentlichen Quellen Daten genommen hat,

00:05:03: die in seinen Algorithmus reingesteckt hat und deswegen diese Intelligenz hat. Und soweit ich weiß, zumindest in der Vorgängerversion von aktuellen wurden da 40 GB Daten reingeschickt.

00:05:15: Zum Beispiel Texte aus Wikipedia, dann auch das, was Common Crawl genannt wird, also es gibt einen Common Crawl Datensatz, den gibt es auch in bereinigter Form.

00:05:26: Der heißt C4 dann, der ist colossal, cleaned Common Crawl, also riesengroß und bereinigt.

00:05:36: Ja, und da gibt es also noch weitere Datenbestände, die ChatGPT abgreift, zum Beispiel Webtexte, alles öffentlich zugängliche Daten.

00:05:45: Und du wirst mir zustimmen, alles, was auf Wikipedia steht, hat jetzt wenig mit Datenschutz zu tun.

00:05:50: Also das sind überwiegend auch nicht personenbezogene Daten und wenn es personenbezogene Daten sind, dann sind es allgemeine Informationen.

00:05:56: Wenn da was über Olaf Scholz steht oder andere vielleicht etwas weniger prominente Persönlichkeiten, dann sind es einfach öffentlich zugängliche Informationen.

00:06:05: Da würde keiner sagen, das ist eine schützenswerte Information oder sowas.

00:06:08: Auch das, was ich auf meiner Webseite schreibe, wenn ich schon öffentlich kundtue oder du in deinem Datenschutz ist Pflicht Videokanal,

00:06:17: da wirst du nicht sagen, wenn jemand dich in Kürze zitiert, dann ist es ein Datenschutzproblem.

00:06:24: Da könntest du höchstens sagen, es ist ein Urheberrechtsproblem oder sowas vielleicht.

00:06:28: Darauf will ich hinaus, Datenschutz ist eigentlich nicht das Problem bei diesen öffentlichen Quellen und ich weiß auch gar nicht, warum der deutsche Datenschutzbeauftragte,

00:06:38: also Italien hat es verboten und Deutschland hat jetzt ja Fragen an OpenAI gestellt, wo diese Daten herkommen.

00:06:43: Diese Fragen kann man stellen, das finde ich gut.

00:06:45: Wenn jetzt die Antworten sind, ausschließlich aus öffentlichen Quellen und das ist dann auch so, dann wüsste ich nicht, wo da das Datenschutzproblem liegt ehrlich gesagt.

00:06:52: Ich sehe eher ein Urheberrechtsproblem. Urheberrecht heißt, jeder, der ein Werk erstellt, das eine gewisse Schöpfungshöhe hat, ist automatisch der Urheber.

00:07:01: Den kann man auch nicht wegdiskutieren, er ist immer der Urheber, ob er will oder nicht.

00:07:04: Wenn du ein Video erstellst, bist du der Urheber. Wenn ich einen Text erstelle, bin ich der Urheber.

00:07:08: Wenn der Fotograf von dir ein Bild macht, ist der Fotograf der Urheber deines Bildes.

00:07:12: Und du musst dem Fotografen sogar, wenn es ein geschäftliches Foto ist und du das auf deiner Webseite einsetzen willst,

00:07:18: dann musst du dem Fotograf sogar die Nutzungsrechte abkaufen, dass du das Bild, was er von dir gemacht hast, auf deiner Webseite auch verwenden darfst und nicht nur in der Printbroschüre zum Beispiel.

00:07:27: Also das heißt, Urheberrecht ist was ganz anderes als Datenschutz und mit Urheberrecht hat die Datenschutzbehörde überhaupt nichts zu tun, sage ich.

00:07:33: Also man kann natürlich sagen, das Recht am eigenen Bild hat sowohl was mit dem Urheberrecht als mit dem Datenschutz irgendwie zu tun.

00:07:39: Aber wenn es um Texte geht, und wir reden ja bei JetCPT vorwiegend über Texte oder Programmcode, da hat es jetzt wirklich nichts mit Bildern zu tun.

00:07:47: Und selbst wenn, müsste man diese Diskussion separat führen.

00:07:52: Deswegen verstehe ich nicht so ganz, bei aller Vorsicht gegenüber diesen KI-Systemen, die man haben muss, verstehe ich nicht so ganz, wo da ein Datenschutzproblem sein soll.

00:08:02: Okay, also das, was ich dazu bisher gelesen habe, ich kann das alles nachvollziehen, was du sagst, gerade auch das mit dem Urheberrecht.

00:08:09: Da kommen wir aber, will ich gleich nochmal drauf eingehen, weil das kratzt ja noch an einem ganz anderen Punkt, wo das Urheberrecht bereits verletzt wird durch die künstliche Intelligenz.

00:08:17: Da gibt es ja auch eine ganz wilde Diskussion zurzeit drüber.

00:08:20: Aber zu dem Thema der Privatsphäre bzw. des Datenschutzes, ich habe das bisher immer so verstanden, dass die Leute argumentieren,

00:08:29: naja, dieses JetCPT nutzt sozusagen das gesamte Internet, wenn man so möchte, als sein Gehirn.

00:08:36: Und das Internet generiert ständig neuen Content, neue Inhalte und auch soziale Netzwerke.

00:08:42: Und JetCPT greift nicht nur ausschließlich auf die öffentlichen Informationen der sozialen Netzwerke zu,

00:08:48: sondern hat es bereits geschafft, über API-Verbindungen reversiv in die Systeme einzudringen, also über eine Hintertür quasi,

00:08:57: über die API-Abfragen an Facebook, an LinkedIn usw. zu stellen und hat daraus dann Ergebnisse generiert.

00:09:03: Also Ergebnisse, die es auf öffentlichem Wege hätte nicht generieren dürfen, ohne einen angemeldeten Account und die Verifizierung durch den Nutzer,

00:09:10: hat es über diese API abgreifen können.

00:09:13: Weil diese künstliche Intelligenz eben, wie du gerade schon sagtest, ja auch Programmcode schreiben kann.

00:09:18: Und dementsprechend ist es so, dass ich glaube, dass die Schwierigkeit gerade darin besteht, datenschutzrechtlich da irgendwie einen Pack anzuhaben

00:09:28: oder die Privatsphäre zu respektieren, hauptsächlich darin liegt, dass wir nicht ein-, dass selbst die Experten nicht einschätzen können,

00:09:36: wie eine Intelligenz, die vielleicht dem Menschen vergleichbar sein kann, eine Moralvorstellung vermittelt bekommen kann,

00:09:45: wenn sie aus dem gesamten Internet lernt. Ich erinnere da nur, das hast du bestimmt mitbekommen, an diesen absoluten Megafail von Microsoft,

00:09:54: die irgendein Twitter-AI-Tool hatten, was die nach 24 Stunden offline nehmen mussten,

00:10:00: weil dieses Ding mit einem Mal nur noch Nazi-Vergleiche gebracht hat, antisemitische Sachen rausgehauen hat und rumgepöbelt hat.

00:10:06: Also wenn ich mir jetzt überlege, dass eine künstliche Intelligenz an der Stelle genau über den gleichen Prozess wie wir Menschen,

00:10:13: nämlich reinforced learning, die Informationen absorbiert und auswertet, aber dann keine moralische Grundlage hat zwischen Gut und Böse,

00:10:21: zwischen gesellschaftlich korrekt, vertretbar und nicht, und einfach nur sich an den Moment orientiert, den diese Information vorgibt,

00:10:29: dann kann das eben unglaublich schnell in eine Richtung laufen, die gegen Recht und Gesetz läuft an ganz anderen Stellen.

00:10:36: Und wenn dann private Daten mit reingemischt werden, entstehen halt sehr, sehr schnell sehr, sehr falsche Bilder.

00:10:44: Ich glaube aber, was wirklich der Grund war, also eher nur ein Punkt zusätzlich zu der italienischen Datenschutzbehörde.

00:10:51: In Italien hat die Datenschutzbehörde das Recht, Verbote auszusprechen, an der Regierung vorbei.

00:10:57: Die sind so ähnlich wie eine Stabsstelle zu beachten. Wenn die sagt, das ist verboten, dann gilt das als Verbot.

00:11:04: Dann muss die Regierung nichts mehr tun und kann auch gar nichts mehr tun.

00:11:07: Die haben dann einen sehr viel höheren Stellenwert als unsere Landesdatenschutz- oder Bundesdatenschutzbehörden.

00:11:12: Und deswegen ist das Urteil ja auch so krass. Also was heißt Urteil?

00:11:18: Ich glaube, in Deutschland ist es genauso. Ich weiß jetzt allerdings nicht, also da kann die Bundesregierung auch nichts machen,

00:11:23: wenn der Bundesdatenschutzbeauftragte was verbietet.

00:11:25: Allerdings kann der Verantwortliche, also OpenAI, könnte da ein Rechtsmittel einlegen.

00:11:30: Ich weiß natürlich jetzt nicht, wie es in Italien ist.

00:11:32: Aber zumindest zunächst mal, also das Verbot gilt dann erst, wenn der Prozess abgeschlossen ist soweit ich weiß.

00:11:38: Also wenn ein Gericht am Ende gesagt hat, ja das stimmt.

00:11:40: Aber wie gesagt, italienisches Recht kenne ich nicht.

00:11:43: Aber was du sagst, ist natürlich ein wichtiger Punkt.

00:11:46: Ich weiß nicht, also mir ist nicht bekannt, dass OpenAI Daten nutzt, also ChatGPT Daten nutzt, die nicht öffentlich sind.

00:11:55: Das weiß ich nicht. Ich habe davon noch nie gehört, das habe ich jetzt von dir gehört.

00:11:59: Ich habe es aber auch nicht besonders tiefgehend recherchiert,

00:12:01: sondern ich sage nur, wenn es ausschließlich öffentliche Quellen sind, dann ist es kein Datenschutzproblem.

00:12:05: Wenn jetzt jemand auf, also wenn jetzt du hast die Facebook-API angesprochen,

00:12:09: da gibt es ja zwei Fälle, die man unterscheiden müsste.

00:12:11: Und wie gesagt, ich weiß dazu jetzt gar nichts bezüglich ChatGPT.

00:12:15: Wenn man die Facebook-API nur deswegen nutzt, um ansonsten öffentliche Informationen besser abgreifen zu können,

00:12:20: weil nämlich Facebook es nicht so mag, wenn es gecrawlt wird, so sage ich mal, ja Browser-Simulation.

00:12:26: Und das über die API dann einfach nur komfortabler möglich ist,

00:12:29: dann ist es auch kein Datenschutzproblem, weil es sind öffentliche Daten.

00:12:32: Wenn es aber jetzt, wie du sagst, Daten sind, die privat sind ansonsten

00:12:36: und die jetzt heimlich, also die benutzt wurden, obwohl sie gar nicht öffentlich sein sollen,

00:12:40: dann wäre das natürlich ein Datenschutzproblem.

00:12:42: Aber ehrlich gesagt weiß ich nicht, dass es so ist.

00:12:44: Also ich weiß es einfach nicht, aber ich kann mir es nicht vorstellen,

00:12:47: weil diese API, die war ja schon im Cambridge Analytica-Datenskandal ein Problem,

00:12:52: aufgrund dessen wahrscheinlich Donald Trump auch gewählt wurde,

00:12:55: weil eben die Wahlen beeinflusst wurden: die Nichtwähler wurden beeinflusst, um Donald Trump zu wählen.

00:13:00: Ich vermute sehr stark, dass Facebook diese API schleunigst entschärft hat

00:13:05: und es nicht mehr möglich ist, irgendwelche privaten Daten abzurufen über diese API,

00:13:09: die sonst nicht zugänglich sind. Das kann ich mir eigentlich nicht vorstellen.

00:13:11: Aber wie gesagt, ausschließen will ich es nicht.

00:13:13: Und dann noch ein Punkt dazu.

00:13:14: Wer auf Facebook in seinem Profil Informationen von sich selbst öffentlich darstellt

00:13:22: oder in einer Gruppe, die öffentlich ist, Informationen darstellt,

00:13:26: der hat sein Recht auf Datenschutz verwirkt.

00:13:28: Ich meine, wenn ich jetzt mich auf die Straße stelle mit einem Schild,

00:13:31: wo drauf steht, wie ich heiße, wo ich wohne, was meine Telefonnummer ist

00:13:35: und welche Religionszugehörigkeit ich habe, dann kann ich auch nicht sagen,

00:13:39: dass ich nicht möchte, dass diese Daten veröffentlicht werden oder weiter benutzt werden irgendwo.

00:13:43: Natürlich darf niemand die Daten nehmen und sie in einer Weise nutzen,

00:13:48: die mich negativ vielleicht darstellen, absichtlich.

00:13:51: Aber sie wiederzugeben, ich meine, wenn ich sie schon öffentlich mache, die Daten,

00:13:56: dann ist es doch mein Problem als Dateninhaber.

00:13:58: Wenn ich nicht will, dass jemand etwas über mich weiß und ich es ohne Not kund tue,

00:14:03: dann mache ich mich doch selbst da zum Opfer.

00:14:05: Das sehe ich jetzt nicht, ehrlich gesagt, als Problem.

00:14:08: Ja, ich verstehe die Argumentation.

00:14:11: Deine Perspektive ist dabei der Individualschaden sozusagen an der einzelnen Person.

00:14:15: Ich glaube, worum es dort stärker geht, ist, wenn so eine AI in so einem rasanten Tempo lernt,

00:14:21: aus diesen Informationen, dann kann es ja auch sehr, sehr viele, sage ich mal,

00:14:26: analytische Prozesse mit diesen Informationen durchführen und auswerten.

00:14:31: Und daraus entsteht ja auch erst bei Facebook, LinkedIn und wie sie nicht alle heißen,

00:14:36: das Gold aus den Daten, dadurch, dass ich analytische Werte über eine große Masse habe

00:14:41: und damit zielgerichtet irgendwelche Bedürfnisse, Ideen oder Ambitionen ermitteln kann

00:14:48: und dann vielleicht lenken kann.

00:14:49: Und ich glaube, irgendwo da ist so das Problem.

00:14:51: Was ich dazu weiß, ist, dass einige Hacker sich dieses ChatGPT natürlich direkt gegriffen haben

00:14:58: und geguckt haben, was kann man damit machen?

00:15:00: Und die haben mehrere erfolgreiche Versuche gemacht.

00:15:05: Der eine war eben Informationen, also geschützte Informationen aus sozialen Netzwerken abgreifen.

00:15:11: Das hat funktioniert und ChatGPT hat auch ganz offen zugegeben,

00:15:14: ich habe das mir gerade von Facebook und LinkedIn gezogen.

00:15:17: Und das ist eben der Punkt, wo du gerade meintest, wenn es so ist,

00:15:21: dann sollte das kritisch betrachtet werden.

00:15:23: Also an der Stelle sollte man es kritisch betrachten, ungeachtet der Tatsache,

00:15:26: dass wir keine gute Einschätzung darüber abgeben können,

00:15:28: was Facebook wirklich verbessern will oder verbessert hat.

00:15:31: Oder was auch andere Netzwerke an diesen Prozessen wirklich verbessern oder schützen.

00:15:38: Aber auf der anderen Seite haben wir ja dann auch noch die Tatsache,

00:15:41: dass diese Leute hingegangen sind und ChatGPT gejailbreakt haben.

00:15:46: Also nur zum Verständnis für alle, die zuhören.

00:15:49: Jailbreaking bedeutet, genau wie bei einem Telefon,

00:15:52: ich sorge dafür, dass irgendeine Limitierung, die im Bootraum des Gerätes drinsteckt,

00:15:57: ausgeschaltet wird und eine Sperre gelöst wird,

00:15:59: sodass bestimmte, im Fall von ChatGPT, Antworten nicht generiert werden,

00:16:04: die sonst generiert werden würden.

00:16:06: Das beste Beispiel dafür ist, dass ChatGPT gefragt wurde,

00:16:10: hältst du dich für einen besseren Präsidenten als Donald Trump?

00:16:14: Also hättest du einen besseren Job als Donald Trump gemacht?

00:16:17: Und in der offiziellen Variante, nicht gejailbreakt, sagt dieses System,

00:16:21: darüber kann ich keine Aussage geben, ich bin eine künstliche Intelligenz,

00:16:25: ich könnte kein Präsident werden, das kann ich nicht.

00:16:28: Also das kann ich nicht beantworten, die Frage.

00:16:31: Und in der gejailbreakten Version gibt sie eine, ich sag nochmal,

00:16:35: sehr tiefgreifende Information darüber, wie sie Donald Trump

00:16:39: im Bezug auf Realitätsferne, Demokratieverständnis und Gefahr für die Gesellschaft einschätzt.

00:16:46: In so ungefähr 2000 Zeichen.

00:16:48: Ich hab das gelesen, ich hab natürlich gelacht,

00:16:51: weil es ist halt mega witzig, wenn eine künstliche Intelligenz Donald Trump ist,

00:16:55: aber der Fakt, dass es eine ganz andere Antwort generiert,

00:16:59: als die, die man als öffentlicher Nutzer bekommt, zeigt ja auch,

00:17:03: dass die Entwickler dieser künstlichen Intelligenz auf ganz andere Antworten zugreifen können,

00:17:08: als uns in der Öffentlichkeit gegeben werden.

00:17:11: Und ich glaube, genau diese Dysfunktionalität in der Nutzung eines solchen Tools,

00:17:17: ungeachtet welcher Firma es gehört, diese Kraft gehört nur ausschließlich in alle öffentlichen Hände

00:17:24: und sonst in keine. Weil wir bewegen uns da in eine Grauzone,

00:17:30: die Menschen befähigen kann, andere auf eine Art und Weise zu manipulieren,

00:17:34: die wir als Außenstehende überhaupt nicht abschätzen können,

00:17:38: welche Macht OpenAI durch diese Informationen bekommt.

00:17:42: Also du hast ja vollkommen recht, das ist ein ausgesprochen, extrem leistungsfähiges Werkzeug,

00:17:48: ausgesprochen erstaunlich, bewundernswert, andererseits natürlich alles,

00:17:52: was besonders große Fähigkeiten hat, ist immer ohne Gefahr, das ist egal, in welchem Lebensbereich.

00:17:56: Irgendjemand, der etwas, was große Fähigkeiten hat, hat automatisch auch ein großes Gefahrenpotenzial.

00:18:02: Das ist glaube ich, könnte man fast sagen, immer so, müsste man jetzt mal untersuchen,

00:18:05: aber wahrscheinlich ist es immer so.

00:18:07: Irgendwas, was besonders energiereich ist, ist einerseits ein Segen für die Energieversorgung,

00:18:13: andererseits, wenn es explodiert ist, ist es halt auch sehr schlecht als Beispiel.

00:18:16: Jetzt sage ich aber, wir reden über Datenschutz in erster Linie.

00:18:19: Natürlich kann man drüber reden, dass eine künstliche Intelligenz gefährlich ist oder sein kann.

00:18:25: HAL 2000, ja, oder die sehen Weltraum, wie ist es glaube ich.

00:18:30: Also da sind wir uns alle einig, vor allem jetzt bei ChatGPT

00:18:34: Aber ich komme zurück zum Thema Datenschutz und da sage ich halt, vielleicht mal als erste Analogie,

00:18:39: eine Suchmaschine macht auch nichts anderes als ChatGPT, vermute ich sehr stark,

00:18:45: dass Google wahrscheinlich sogar noch viel mehr Daten abgreift als ChatGPT, da bin ich mir ganz sicher.

00:18:49: Und nochmal, ich stelle erstmal die These infrage, also ich behaupte nicht, dass es falsch ist,

00:18:55: aber man muss es wirklich mal sich genau angucken.

00:18:57: Ich stelle erstmal infrage, dass ChatGPT geheime Quellen oder private Quellen anzapft.

00:19:03: Das kann sein, das wäre wirklich ein Skandal, dann müsste es wirklich großflächig verboten werden,

00:19:09: aber wenn es nicht so ist, dann sollte man einfach sagen, es sind öffentliche Quellen.

00:19:13: Das muss man untersuchen, wenn es ein Skandal ist, dann wird das System beendet.

00:19:18: Allerdings, jetzt kommen wir zum zweiten Punkt.

00:19:21: Viele sagen ja auch als Analogie, der Geist ist bereits aus der Flasche,

00:19:25: denn man kann sich zahlreiche Modelle, die nicht gleich ChatGPT 4.0 sind, aktuelle Versionen,

00:19:33: aus dem Internet herunterladen.

00:19:35: Man kann sogar ein Modell simulieren, also trainieren, mit Hilfe von ChatGPT,

00:19:41: indem man die API nutzt, das hat Harvard gemacht, dafür haben die insgesamt ungefähr 1200 Dollar benötigt

00:19:47: an eigener Rechenzeit und an API-Credit, die man kaufen kann.

00:19:50: Und dann hat man dieses System lokal, ich habe mir jetzt auch ein lokales System mal installiert,

00:19:55: also programmiert muss ich wohl sagen, was ein öffentlich zugängliches Modell verwendet,

00:20:01: hat natürlich nicht so leistungsfähig wie das, weil mein Rechner natürlich auch kein Hochleistungsrechner ist,

00:20:05: aber ich könnte mir mehrere Quellen kombinieren, das kann ich machen, die Fähigkeiten habe ich,

00:20:10: die Programme habe ich und dann könnte ich mir so ein System auch lokal bei mir bauen.

00:20:15: Also das ist kein Problem, da kann auch ChatGPT P.T. 4.0 morgen vom Planeten verschwinden,

00:20:19: das ändert nichts daran, dass diese Fähigkeit jetzt da ist.

00:20:21: Insofern, man muss natürlich sagen, das ist wie mit dem Auto,

00:20:26: ein Auto, wenn es mit 250 kmh gegen ein Haus fährt, dann gibt es zwei Probleme,

00:20:31: das Auto hat ein Problem und das Haus auch und die Leute, die im Auto und im Haus sind und drum herum.

00:20:37: Normalerweise sind Autos, aber werden dafür nicht benutzt.

00:20:41: Jetzt ist es Aufgabe des Gesetzgebers und der Exekutive, dafür zu sorgen,

00:20:46: dass solche Verstöße, wenn sie denn vorkommen, abgestellt werden.

00:20:50: Das ist natürlich beim Auto leichter, weil es ein physisches Objekt ist,

00:20:53: was eben nur zu einer Zeit an einem Ort sein kann, nicht skalierbar ist,

00:20:56: wenn wir über ein Auto reden, aber was anderes als wenn wir über eine Software reden,

00:21:00: die auf Millionen von Computerinstanzen gleichzeitig laufen kann

00:21:04: und Tag und Nacht arbeiten kann, Anzug beweist, also ohne menschliches Zutun.

00:21:08: Da haben wir natürlich ein rein theoretisch höheres Problem,

00:21:11: aber in der Praxis ist es halt so, da muss man einfach sagen,

00:21:14: wenn es ein Problem gibt, dann muss es abgestellt werden, aber ich sage nochmal,

00:21:17: das Datenschutzproblem sehe ich erst an dritter Stelle.

00:21:19: Das erste Problem ist, offensichtlichste Problem ist das Urheberrecht,

00:21:23: da kann man drüber reden, das ist jetzt auch keine Gefahr für die Menschheit,

00:21:26: das ist eher ärgerlich, sagen wir mal, ja, und auch ein Rechtsbruch,

00:21:29: aber keine Gefahr für die Menschheit.

00:21:31: Und das zweite Problem, was du auch angesprochen hast, ist eine Gefahr für die Menschheit,

00:21:35: dass nämlich die KI Dinge tut, die sie gefährlich machen.

00:21:38: Übrigens, bei Donald Trump würde ich sagen, er ist deutlich gefährlicher als ChatGPT,

00:21:44: wenn er amerikanische Präsident ist, man hat es ja gemerkt, Sturm auf das Kapitol und so weiter.

00:21:49: Also der Mensch an sich ist auch sehr gefährlich, wenn er in der richtigen oder falschen Position ist,

00:21:55: heißt nicht, dass man ein Computersystem machen lassen soll, was es will oder kann,

00:22:00: aber es ist halt so, jeder kann dieses System jetzt nutzen, bei sich lokal installieren,

00:22:05: wenn er entsprechende Fähigkeiten hat, die man auch kaufen kann von Dienstleistern,

00:22:10: und dann hat man dieses System auch, also es lässt sich nicht mehr zurückrollen, diese Entwicklung.

00:22:15: Ja, das ist auch das, was ich, wenn ich diese Stichworte verbote und sowas höre,

00:22:20: dann denke ich auch immer, naja, wenn wir die Büchse der Pandora schon geöffnet haben,

00:22:25: dann bringt es nichts mehr danach noch zu schreien, dass das jetzt verboten wird, dass sie nochmal geöffnet wird.

00:22:31: Wenn die offen ist, ist sie offen und dann müssen wir mit diesem Umstand umgehen lernen.

00:22:35: Ich glaube, was viel wichtiger ist an der Stelle, ist, dass wirklich die breite Masse der Menschen,

00:22:42: die mit den Konsequenzen der Nutzung einzelner dieser künstlichen Intelligenzen,

00:22:47: und wir reden nicht nur bei ChatGPT, es gibt ja Millionen aktuell,

00:22:51: dass die besser gebildet sind, was das bedeutet und impliziert.

00:22:56: Ich kann da nur mich an ein paar Fälle erinnern, wo zum Beispiel Amazon, Microsoft und Facebook bekannt gemacht haben,

00:23:04: dass sie eben Tests gemacht haben für Bewerbermanagement durch künstliche Intelligenz abzubilden.

00:23:10: Und dabei sind halt die exakt selben rassistischen Probleme und diskriminierenden Probleme entstanden,

00:23:18: die eben auch entstehen, wenn Menschen an diesen Positionen die Entscheidungen treffen.

00:23:22: Das heißt, die KI hat in keinster Weise die Umstände verändert, von denen man ausgegangen ist,

00:23:28: dass sie sie bessern könnte, weil sie eben rationaler entscheidet.

00:23:32: Das stimmt nicht. Eine KI wird, wie gesagt, und wir reden ja hier über Generative AI,

00:23:37: das heißt also, das sind künstliche Intelligenzen, die Antworten oder Informationen zu bestimmten Fragestellungen

00:23:45: dann generieren aus einem Fundus von Informationen, den sie über ein Trial and Error Prinzip erlernt haben.

00:23:52: Und wenn diese künstliche Intelligenz dann zum Beispiel, und so war das im Fall von Amazon,

00:23:58: aus vorhandenen Entscheidungen zum Bewerbermanagement gelernt hat, dann kopiert sie die Fehler dieses Vorhandenen

00:24:05: und kann selber, und das ist eben das Kritische, sie kann selber moralisch nicht bewerten,

00:24:11: ob sie das richtig oder falsch gemacht hat, sondern sie entscheidet einfach nur nach der reinen Logik,

00:24:17: die die vorhandenen Informationen ihr bieten. Und das ist eben sehr gefährlich,

00:24:21: weil dabei ist dann, im Beispiel von Amazon ist halt rausgekommen, dass irgendwie die ganz,

00:24:28: alle möglichen Bewerber, die den Vornamen Kevin hatten, eher eingestellt wurden als andere Bewerber

00:24:33: und dass halt natürlich weiße Bewerber eher eingestellt wurden,

00:24:36: Leute mit blonden Haaren und blauen Augen eher eingestellt wurden.

00:24:39: Also diese ganzen stereotypischen Diskriminierungsverfahren, die wir kennen aus solchen Prozessen,

00:24:45: haben sich in der künstlichen Intelligenz gar nicht verändert, sondern sie sind eben noch potenziert worden,

00:24:52: weil die künstliche Intelligenz davon ausgeht, wenn ihr das immer so entschieden habt,

00:24:56: dann ist das ja richtig, dass ihr so entschieden habt, also will ich mehr so entscheiden und nicht weniger.

00:25:01: Und das ist halt das Ersatz, dieser Rückschlussprozess, der passiert nicht.

00:25:07: Richtig, also sehr, sehr guter Punkt, Stephan. Du hast auch eigentlich alles schon gesagt,

00:25:11: was dazu wichtig ist. Ich will es nochmal ein bisschen technischer formulieren.

00:25:14: Und vielleicht erstmal die Analogie des Babys und Kleinkinds geben und des Kindes, Teenagers,

00:25:21: was ja von den Eltern aufgezogen und erzogen wird.

00:25:24: Wenn Eltern, ich sag mal, Verbrecher sind, die jeden Tag Menschen umbringen

00:25:29: und das Kind kriegt es mit, dann wird es halt auch zum Mörder.

00:25:32: Trotzdem ist es so, wenn das Kind dann strafmündig wird, dann wird es dafür hoffentlich auch bestraft

00:25:36: und daran gehindert, weitere Menschen umzubringen.

00:25:38: Aber bis zu einem gewissen Grad sind schon die Eltern, also die Erzieher, verantwortlich für diese Entwicklung.

00:25:43: Und das Kind macht einfach nur das, was es lernt.

00:25:46: Und exakt dasselbe, hast du ja auch sehr gut dargestellt, ist es bei dieser künstlichen Intelligenz.

00:25:51: Es gibt einen riesengroßen Trainingsdatensatz und du hast ja auch gesagt,

00:25:54: wenn natürlich in der Vergangenheit 95% weiße Menschen eingestellt wurden mit blonden Haaren,

00:26:00: dann weiß die KI eben aus diesem Datensatz, und das ist das Wissen der KI aus diesem Datensatz,

00:26:05: es gibt keine andere Wahrheit für die KI in diesem Fall, dass eben genau das die richtigen Kandidaten sind.

00:26:10: Da muss man sich nicht darüber aufregen, dass die KI das so entscheidet, das Problem beginnt früher.

00:26:14: Und ich sag mal so, exakt wie beim Kind, was falsch erzogen wurde oder in die falsche Richtung,

00:26:18: Gesetze sind irrelevant und so weiter, ja, da muss man sich dann später auch nicht wundern,

00:26:23: wenn dieser Mensch sich dann einfach asozial und rechtswidrig verhält und eine Gefahr für die Menschheit ist.

00:26:28: Das ist exakt dasselbe wie mit einer KI. Der einzige Unterschied war eben zwischen vor ein, zwei Jahren und jetzt,

00:26:35: dass eine künstliche Intelligenz nicht in der Lage war, einen Menschen in einer sehr guten Weise zu simulieren,

00:26:40: was ja jetzt passiert durch ChatGPT. Das Problem der künstlichen Intelligenz ist also gelöst , sage ich,

00:26:47: und es ist vielleicht zum technischen Verständnis auch so, dass wir vielleicht das Funktionsprinzip

00:26:53: nochmal ganz kurz am Ende der Sendung klar machen, das wirklich Geniale.

00:26:57: Es werden nämlich alle möglichen Informationen, die man da reintrichtert, das könnten Texte, Bilder, Videos,

00:27:03: Audiodateien oder sowas sein, nehmen wir mal Texte. Diese Texte werden die Worte in Zahlen umgewandelt.

00:27:11: Und wenn wir so einen Satz haben, dann kommen mehrere Zahlen bei raus und das wird Vektor genannt.

00:27:18: Ein Vektor ist eine Liste von Zahlen. So werden zum Beispiel Vektoren mit der Dimension 384 erstellt.

00:27:24: Das heißt, ich habe 384 Zahlen für jeden Satz, den ich als Text einspeise und dann kann ich nämlich

00:27:31: mit einem Algorithmus, den ich nicht verstehe, den ich auch nicht verstehen muss, weil er schon da ist,

00:27:36: den kann ich nutzen, auch wenn OpenAI zugrunde gehen würde, der ist öffentlich, den kann jeder verwenden,

00:27:41: mit diesem Algorithmus können eben diese Vektoren mit diesen Listen von Zahlen verglichen werden

00:27:46: mit anderen Vektoren von Listen von Zahlen, die aus anderen Informationen erstellt wurden.

00:27:50: Das kann wie gesagt ein Bild sein, das kann ein anderer Text sein und so kann man nämlich,

00:27:54: wenn ich zum Beispiel einen englischen Text habe und einen deutschen, eine

00:27:59: Übersetzungsfunktion erstellen, indem ich einfach Vektorenvergleiche mache. Das ist natürlich sehr

00:28:03: einfach dargestellt. Aber wenn ich programmiere mit den vorhandenen Toolkits und Frameworks,

00:28:08: dann kann ich mit wenigen Zeilen Code ein Übersetzungsprogramm schreiben und das Einzige, was ich bräuchte,

00:28:15: wenn es dieses Modell nicht schon gäbe, wäre eben eine große Menge an englischen Texten und die

00:28:21: deutsche Übersetzung dazu. Wenn es diese Daten nicht gäbe, könnte ich sogar DeepL nutzen, kaufe ich mir einen

00:28:26: Account, lasse da von DeepL mal 50.000 oder 200.000 Texte übersetzen und schiebe die dann in meinen

00:28:33: KI-Algorithmus rein. Der lernt dann Englisch und Deutsch zu übersetzen, nicht wie ChatGPT alles

00:28:39: Mögliche zu machen, sondern nur diese Übersetzung und dann kann ich andere Texte, die das System

00:28:43: noch nie gesehen hat, damit übersetzen, also das Grundprinzip ist, es werden einfach nur,

00:28:48: einfach in Anführungszeichen, die Mathematiker haben es irgendwie gelöst, frag mich nicht wie,

00:28:52: das ist ja das Geniale im Ansatz, deswegen hat es ja bis zum Jahr 2023 jetzt gedauert im Endeffekt,

00:28:57: diese Vektoren erst mal zu erstellen, Liste von Zahlen aus irgendwelchen Informationen, vollkommen

00:29:03: egal, bei Bildern zum Beispiel kann man sagen, jeder Bildpunkt hat einen Farbwert und dieser

00:29:08: Farbwert wird in eine Zahl überführt, so ganz einfach im Prinzip, und dann kann ich vergleichen,

00:29:13: Bilder mit Texten, Texte mit Texten, Bilder mit Bildern und so kommen auch diese, male mir ein

00:29:18: Bild, in dem ein Cookie gehäkelt in eine Suppenschüssel liegt oder sowas, das war das erste,

00:29:26: was ich ausprobiert hatte und dann malt er dir so ein Bild aus, das ist wirklich unglaublich,

00:29:30: was dieses System an Plastizität hat, genau wie das menschliche Gehirn und ich sage, das ist eine

00:29:36: Möglichkeit, das menschliche Gehirn nachzumodellieren, das ist damit gelungen, ist meine persönliche

00:29:40: Meinung. Definitiv, man kann dieses System aber immer noch austricksen, indem man ihm unlogische

00:29:46: Fragen stellt, also dann daran kollabiert ist, das machen die Leute immer sehr gerne, wenn sie dann

00:29:52: so Fragen stellen wie, was weiß ich, nenne mir die Augenfarbe, welche Farbe haben die blauen Augen

00:30:00: der schlafenden Katze, dann sagt das System zurück, das kann ich nicht beantworten, die Katze

00:30:06: schläft, die Augen sind zu, das ist natürlich dumm, weil das Attribut wurde ja schon mitgegeben in der

00:30:12: Frage, das sind noch so kleine Hürden, an denen es scheitert, aber ich meine, das sind ja auch

00:30:17: Fangfragen selbst für uns Menschen. Wobei, vielleicht noch einen Satz, dann kannst du gleich zum Abschluss

00:30:23: kommen, weil ich behaupte, ohne es jetzt zu wissen, aber ich behaupte, man kann dieses Problem,

00:30:29: entweder ist es schon gelöst in der Version 4.0 oder man kann es sehr leicht lösen, denn du musst

00:30:33: einfach nur, ich sage mal 10.000 Beispiele dieser Art, kann man ja schnell zusammenstellen,

00:30:38: zur Not klimpert sich jemand ein, es dauert zwei Wochen, kann man dem System einfüttern, ja, und

00:30:44: dann weiß das System genau, wie es mit diesen Fällen umzugehen hat. Das stimmt, es kann natürlich

00:30:50: superschnell lernen und wahrscheinlich ist das auch im Kern so ein bisschen das, was alle, die sich in

00:30:55: die Diskussion einbringen und das Thema betrachten, eben auch ein bisschen fürchtet, weil wir es dort

00:31:02: zum ersten Mal mit einer maschinellen Form einer Intelligenz zu tun haben, bei der wir selber merken,

00:31:07: die könnte mich ablösen in sehr vielen abstrakten Bereichen meines Lebens und das erzeugt eben immer

00:31:15: ein gewisses Gefühl der Angst oder der Unzulänglichkeit. Ich denke, abschließend können wir sagen,

00:31:21: ChatGPT ist eine Revolution in der Evolution, sie wird bleiben, es ist da, es gehört nicht Open AI,

00:31:29: sie sind nur die, die es am kräftigsten nach vorne getrieben haben und deswegen so dieser Begriff

00:31:34: dafür geworden sind. In den Händen der richtigen Leute kann damit sehr viel Gutes passieren, aber

00:31:40: selbst die Tech-Branche im Silicon Valley ist sich ziemlich einig, dass sie am liebsten mal einen

00:31:46: sechsmonatigen Stopp der Entwicklung hätten, um hier rechtliche Rahmen für die Entwicklung

00:31:51: künstlicher Intelligenzen und die Nutzung zu schaffen. Ich denke, da sind sie ein bisschen zu

00:31:56: ambitioniert, dass sechs Monate da reichen, die Gemülen des Gesetzes arbeiten doch erstaunlich

00:32:01: langsam, immer noch, auch im Jahre 2023. Und abschließend möchte ich diese Runde beenden mit einem,

00:32:08: wie ich finde, absolut perfekten und glorreichen Zitat aus einem Segment von John Oliver über

00:32:13: künstliche Intelligenz, was ich nur jedem ans Herz legen kann, könnt ihr alle auf YouTube schauen,

00:32:18: John Oliver über Artificial Intelligence. Ich übersetze das mal gerade ins Deutsche und zwar sagt er

00:32:25: zum Ende der Sendung, wie jedes glänzende neue Spielzeug, das wir Menschen erfinden, wird auch

00:32:31: die KI genau das widerspiegeln, was wir sind, mit all dem Guten und dem Schlechten, das es gibt.

00:32:38: Ja, sehr gut. Und damit sage ich, Klaus, vielen, vielen Dank für dieses Gespräch. Ich habe eine

00:32:44: ganze Menge gelernt, vor allen Dingen über die technischen Zusammenhänge hinter ChatGPT, das

00:32:48: wusste ich tatsächlich vorher noch nicht mit den Vektoren und so. Sehr spannend. Und sage

00:32:53: allen Zuhörern vielen Dank fürs Zuhören. Ich hoffe, es hat euch auch was gebracht und vielleicht

00:32:57: eure Betrachtungsweise auf ChatGPT etwas verändert oder zumindest erweitert. Und dann sage

00:33:03: ich herzlichen Dank Klaus und bis zum nächsten Mal. Ja, lieber Stephan, vielen Dank auch dir,

00:33:09: vielen Dank liebe Zuhörer für's Dabeisein und auch bis zum nächsten Mal. Freut mich. Gut,

00:33:15: dann tschüss. Das war Datenschutz Deluxe. Du willst mehr spannende Themen oder Kontakt zu uns?

00:33:23: Dann besuche Klaus Meffert auf seinem Blog Dr. DSGVO und Stephan Plesnik auf seinem YouTube-Kanal

00:33:30: Datenschutz ist Pflicht. Bis zum nächsten Mal.

Kommentare (2)

Klaus Meffert

‧

Vielen Dank für die ausführliche Rückmeldung und die guten Fragen. Wenn in Open Source Werken ein Name vom Autor drinsteht (und der Autor diesen selbst eingebracht hat), dann kann davon ausgegangen werden, dass diese Angabe problemlos eingelesen und anderswo wieder kontextgerecht ausgegeben werden kann. Was Art. 14 DSGVO angeht: Es scheint mir hier nicht anders als bei Suchmaschinen zu sein. Und diese informieren, soweit ich weiß, die Betreiber eingelesener Webseiten nicht.

Maxi Hans

‧

Ein Datenschutzproblem beim Anlernen der KI besteht doch in der fehlenden Information ggü. dem Betroffenen. Selbst wenn OpenAI lediglich auf öffentlich zugängliche Daten zurückgegriffen hat muss man sich doch Gedanken darüber machen, ob nicht dennoch die Pflicht aus Art. 14 DSGVO zu erfüllen ist. Die Ausnahmen sind nach Ansicht vieler Behörden ja eng auszulegen. Evtl. kann OpenAI mit einem unverhältnismäßigen Aufwand und bestimmt auch mit einer Unmöglichkeit argumentieren, aber doch sicherlich nicht in allen Fällen. Korrigiert mich gerne wenn ich falsch liege oder mit der Meinung alleine stehe, aber hinsichtlich der Informationspflicht nach Art. 14 DSGVO hat der Gesetzgeber eine zentrale Verarbeitungssituation nicht im Blick gehabt, die sich nicht so einfach lösen lässt. Bsp: Ein Buchhändler bestellt im Großhandel das neue Buch von Autor Max Mustermann, um es in seinem Laden anzubieten. Die Informationen zum Buch und Autor befinden sich auf der Bestellung, der Rechnung und sodann im Bestandssystem des Buchhändlers. Auf Grund welcher Ausnahme des Art. 14 DSGVO muss nun der Buchhändler nicht den Autoren Max Mustermann darüber informieren, dass er dessen personenbezogenen Daten (z.B. den Namen) verarbeitet? Dem Buchhändler ist es m.M.n. weder unmöglich Max Mustermann zu kontaktieren, noch ist es für den einzelnen Buchhändler unverhältnismäßig. Dass es dem Autor getrost egal sein wird welche Buchhändler nun seinen Namen in ihrer Datenbank gespeichert haben ist dagegen eine andere Frage. Diese Problematik betrifft doch jede Verarbeitung mit Daten aus öffentlich zugänglichen Quellen. Eine ähnliche Problematik ergibt sich bei der Verwendung von Open Source Software, die Informationen über den Urheber im Quellcode enthält. Konsequenterweise müsste doch jeder Verwender - auf den die DSGVO Anwendung findet - den Urheber über die Verarbeitung der personenbezogenen Daten informieren. Wie seht ihr das?