#37 Künstliche Intelligenz: Der Nutzungsvorbehalt von Urhebern, den es nicht gibt
Shownotes
Der Podcast rund um das Thema Datenschutz und IT. Mit Dr. Klaus Meffert und Stephan Plesnik.
37 Künstliche Intelligenz: Der Nutzungsvorbehalt von Urhebern, den es nicht gibt
Der deutsche Gesetzgeber erfindet eigene technische Standards, die an der Realität vorbeigehen. Anstatt technische Konventionen zu nutzen, die seit Jahrzehnten etabliert sind, werden neue Realitäten ersonnen. Dies wird dazu führen, dass die deutsche Sprache in KI-Sprachmodelle weiter verarmen wird. Gut für alle in Deutschland, die keine Chatbots nutzen möchten.
Begleitartikel zur Folge: https://dr-dsgvo.de/kuenstliche-intelligenz-der-nutzungsvorbehalt-den-es-nicht-gibt
Kleine Korrektur: UrhG = Urheberrechtsgesetz
Dies und einiges mehr in der aktuellen Episode von Datenschutz Deluxe.
Feedback geben? Fragen stellen? Gerne hier:
https://dr-dsgvo.de
Videokanal von Stephan: https://www.youtube.com/datenschutzistpflicht
Impressum:
https://dr-dsgvo.de/impressum
Inhaltlich verantwortlich ist jeder der Sprecher für seine eigenen Äußerungen.
Transkript anzeigen
00:00:00: Hallo und herzlich willkommen beim Datenschutz Deluxe Podcast. Ich bin Stephan Plesnik und bei
00:00:17: mir ist wieder mal Dr. Klaus Meffert. Klaus, wie geht es dir?
00:00:21: Stephan, mir geht es gut. Dir auch, habe ich eben schon vernommen im Vorgespräch und insofern
00:00:26: freue ich mich, dass wir jetzt über ein spannendes Thema sprechen.
00:00:28: Ja, wunderbar. Dann steigen wir auch direkt mal rein. Liebe Zuhörer, Zuhörerinnen und diverse
00:00:33: dazwischen und drumherum und außerhalb. Wir sprechen heute über das Thema künstliche
00:00:39: Intelligenz, aber mit einem ganz besonderen Twist und zwar dem sogenannten Nutzungsvorbehalt,
00:00:46: der laut Paragraf 44b Urheberrechtsgesetz, der jetzt wohl irgendwie neu eingefügt wurde und
00:00:53: neu behandelt wurde, wenn ich es richtig verstanden habe, die Möglichkeit geben soll,
00:00:58: dass Menschen bzw. Webseiten einen Nutzungsvorbehalt ihrer Informationen, die sie veröffentlichen,
00:01:05: im Rahmen von KI-Verwendung, also Crawling und auch KI-Training aussprechen dürfen. Und da gibt
00:01:12: es dann doch wohl sehr große Diskrepanzen Richtung, wann ist das automatisiert möglich und wann muss
00:01:19: man da eine manuelle Einschränkung machen und warum manuelle Einschränkungen nicht funktionieren.
00:01:24: Und damit ich mich hier nicht zu weit aus dem Fenster lehne, weil ihr schon merkt, ich habe
00:01:28: keine Ahnung von dem Thema, gebe ich mal ab an dich, Klaus. Klär uns doch mal allgemein auf,
00:01:32: was ist der Sachverhalt, worum geht es da, was ist genau der Gegenstand dieser schwierigen Thematik?
00:01:39: Ja, vielen Dank Stephan für die Einladung. Urhebergesetz heißt es, nicht Urheberrechtsgesetz,
00:01:43: (-->Korrektur: Urheberrechtsgesetz ist richtig!). Ist nicht schlimm, nur dass wir hier UrhG abgekürzt,
00:01:48: normalerweise hat man damit ja wenig zu tun. Also es geht darum, der deutsche Gesetzgeber
00:01:53: hat für das Text- und Data-Mining und erzählt dann auch künstliche Intelligenz dazu,
00:01:58: sagt, wenn du, Stephan, eine Webseite hast zum Beispiel und da sind Online-Texte drauf von dir,
00:02:03: zum Beispiel Wissensartikel oder sowas, dann sollst du das Recht haben, anderen zu untersagen,
00:02:11: diese Informationen, die du ja selbst erstellt hast, du bist der Urheber, zu verwenden,
00:02:16: um damit eine künstliche Intelligenz zu trainieren. Text- und Data-Mining zu betreiben, um es genauer zu sagen.
00:02:26: Das heißt, die Frage ist, wo ist der Urheber? Das ist eine Frage, die wir uns immer wieder fragen,
00:02:28: wo auf deiner Webseite gibst du das an, weil künstliche Intelligenz basiert ja auf Massendaten.
00:02:33: Es ist also nicht so, typischerweise jedenfalls, ist es nicht so, dass da irgendein Mensch
00:02:38: seitenweise Copy und Paste von Webseiten betreibt, ja, 100.000 Links manuell aufruft
00:02:43: und dann die Inhalte rauskopiert oder so, sondern da wird ein Programm geschrieben,
00:02:48: ein sogenannter Crawler, der ja auch für Suchmaschinen verwendet wird,
00:02:51: ja exakt derselbe Crawler wird auch für Suchmaschinen verwendet und diese Suchmaschine geht dann auf deine Webseite,
00:02:57: auf die Startseite zum Beispiel und liest dann alle Seiten, die da intern verlinkt sind, ein,
00:03:03: ruft die ab und liest die Inhalte ein, also auch deine Wissensartikel.
00:03:07: Und dieser Crawler, der ist wie gesagt für Suchmaschinen identisch wie für jegliche andere Datenverarbeitenden Systeme
00:03:14: wie KI-Systeme, weil diese Crawler sind erstmal dumm.
00:03:18: Und diese Inhalte werden dann in KI eingegeben und die KI lernt damit sozusagen intelligent zu sein,
00:03:23: anhand des Wissens, was sie da gelernt hat, wenn du natürlich nur Unsinn schreiben würdest,
00:03:27: was jetzt hoffentlich nicht der Fall ist, dann würde die KI Unsinn lernen.
00:03:31: Also ich schreibe grundsätzlich nur Unsinn ins Internet, das ist meine liebste Tätigkeit.
00:03:38: Okay, das heißt, du sagst, wir haben es da eigentlich mit demselben Prozess zu tun, den wir auch von Suchmaschinen kennen.
00:03:45: Es werden Daten in großen Mengen automatisiert ausgelesen.
00:03:49: Jetzt ist es ja so, dass wir auf Webseiten Methodiken haben, um das zu steuern.
00:03:53: Angeblich, und das ist, ich sage bewusst, angeblich unter Vorbehalt,
00:03:57: gibt es da ja sowas wie zum Beispiel eine Robots-TXT, die eben diesen Crawling-Bots, wie sie genannt werden,
00:04:03: bestimmte Rechte zugesteht oder nicht zugesteht und denen sagt, wenn die auf die Webseite kommen,
00:04:08: die sollen sich bitte von der Webseite fernhalten zum Beispiel.
00:04:11: Das wäre ja so eine Art Automatismus, der diesen Nutzungsvorbehalt aussprechen könnte.
00:04:16: Richtig oder falsch?
00:04:18: Richtig.
00:04:19: Mhm.
00:04:20: Und wenn ich jetzt so eine Robots-TXT habe, dann weiß ich aus der Vergangenheit, dass man da im Endeffekt,
00:04:27: so ziemlich jedem Crawler einzeln irgendwie sagen muss, ich möchte bitte, dass du das lässt,
00:04:33: dass du das hier nicht indizierst, den Inhalt auf meiner Seite.
00:04:37: Muss ich dann ergo auch wissen, von jeder einzelnen KI, die irgendwo rumfleucht im Internet und da guckt,
00:04:46: wie ich die ausschließe, weil dann, also das ist ja dann unmöglich für ein Unternehmen oder auch für eine Privatperson zu machen, oder nicht?
00:04:54: Also du hast es genau richtig gesagt.
00:04:55: Sehr gut gesagt.
00:04:56: Also bei den Suchmaschinen hat man das Problem ja auch schon.
00:05:00: Wobei es ist so, man kann entweder alle Suchmaschinen verbieten oder auch einzelne oder auch Suchmaschinen erlauben.
00:05:10: Und ich glaube, es ist möglich, da die Reihenfolge wohl auch wichtig ist, man erlaubt zum Beispiel erst der Suchmaschine DuckDuckGo die Webseite einlesen zu dürfen
00:05:20: und danach verbietet man allen anderen, also mit dem Stern sozusagen.
00:05:23: Also allow DuckDuckGo.
00:05:25: Disallow heißt es dann.
00:05:26: Also verbiete, Stern.
00:05:28: Das würde dazu führen, wenn ich es richtig weiß, dass nur DuckDuckGo deine Webseite einlesen darf, also als Suchmaschine und alle anderen danach sehen, ich darf es nicht.
00:05:36: Also das heißt, man müsste jetzt nicht mehr wissen, es gibt 7000 Suchmaschinen, die muss ich allen einzelnen erlauben oder verbieten,
00:05:43: sondern es reicht, wenn ich Einzelnen es erlaube oder auch sage, ich verbiete es Einzelnen.
00:05:47: Weil wenn wir ehrlich sind, bei Suchmaschinen, da gibt es vielleicht mittlerweile maximal 10, die man als halbwegs relevant bezeichnen mag oder relevant.
00:05:56: Darüber hinaus keine.
00:05:58: Und wenn es noch weitere gibt, dann sind die halt da, aber ja, Probleme wird es damit wohl nicht geben.
00:06:03: Bei KI-Systemen ist es ein bisschen anders.
00:06:06: Wie du sagst, man müsste wissen, wie heißen die denn?
00:06:09: Also will ich denn, dass kein KI-System meine Daten einliest?
00:06:13: Das will ich zum Beispiel, ich will es, dass kein KI-System meine Daten auf einer Webseite nimmt, außer mein eigenes.
00:06:20: Das darf ich mir ja selbst auch erlauben, da brauche ich kein Erlaubnis, weil ich ja der Urheber bin.
00:06:24: Ja.
00:06:24: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:25: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:26: Ja.
00:06:27: Ja.
00:06:27: Ja.
00:06:27: Ja.
00:06:27: Ja.
00:06:28: Ja.
00:06:29: Ja.
00:06:30: Ja.
00:06:30: Ja.
00:06:30: Ja.
00:06:31: Ja.
00:06:31: Ja.
00:06:54: Ja.
00:06:54: richtig verstanden habt, dann ist es so, dass quasi diese Nutzungsvorbehalte auf einer Webseite
00:07:00: ausdrücklich erklärt werden müssen, sodass diese automatisierten Systeme, dieses Data Mining,
00:07:08: dann nicht mehr betreiben, aber das wohl irgendwie nicht möglich ist, technologisch umzusetzen,
00:07:14: sondern man das irgendwie manuell erklärt und das ist dann der KI aber wieder egal,
00:07:18: weil die KI automatisiert arbeitet oder irgendwie so.
00:07:21: Ja, also es ist so, der deutsche Gesetzgeber hat ein eigenes, also der hat zum Gesetzentwurf
00:07:29: des Urhebergesetzes, hat er gesagt, also im Urhebergesetz selbst steht nur drin,
00:07:34: dass der Nutzungsmoment, also hier steht, Nutzungen nach Absatz 2 Satz 1,
00:07:42: das ist also Vervielfältigung für das Text und Data Mining, also Einlesen der Webseite,
00:07:47: ist nur zulässig, wenn der rechte Inhaber, also du, wenn es deine Webseite ist,
00:07:51: sich diese Nutzung deiner Inhalte durch die KI nicht vorbehalten hat
00:07:56: und ein Nutzungsvorbehalt bei online zugänglichen Werken, also bei deiner Webseite,
00:08:01: ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.
00:08:04: Also du musst den Nutzungsvorbehalt maschinenlesbarer Form aussprechen,
00:08:07: da könnte man die Robots.txt-Datei natürlich nehmen, weil die versteht jeder.
00:08:11: Jetzt hat aber in der Kommentierung, also in der Drucksache zum Deutscher Bundestag-Gesetzesentwurf,
00:08:21: zu diesem Urhebergesetz, Paragraf 44b, Drucksache 19-27426,
00:08:27: hat der deutsche Gesetzgeber dummerweise gesagt, dass dieser Nutzungsvorbehalt
00:08:33: auch im Impressum oder in den allgemeinen Geschäftsbedingungen AGB enthalten sein kann oder soll,
00:08:40: sofern er auch dort maschinenlesbar ist.
00:08:44: Und das ist einfach Bullshit.
00:08:46: Diese Forderung ist Bullshit.
00:08:48: Ich kann es auch gerne erklären, warum.
00:08:51: Also zunächst mal weiß ja eine Maschine nicht, wo ein Impressum oder die allgemeinen Geschäftsbedingungen auf deiner Webseite sind.
00:09:00: Der Text ist ja erstmal Text.
00:09:03: Genau, Text ist Text und es nennt ja auch nicht jeder sein Impressum,
00:09:07: impressum.html oder slash impressum,
00:09:10: sondern könnte man auch nennen, rechtliche Informationen oder Seite Nummer 49,
00:09:18: oder manche vermischen auch die Datenschutzhinweise,
00:09:21: mit dem Impressum, das ist dann eine Seite, wo erst die Datenschutzhinweise kommen,
00:09:24: dann kommt das Impressum oder sie schreiben es auf die Startseite unten in der Fußzeile oder sonst irgendwo.
00:09:30: Also ich meine, es ist nicht so trivial, ein Impressum als solches zu erkennen.
00:09:34: Das kann ich sagen, es gelingt zwar sehr oft, aber eben nicht immer.
00:09:38: Und bei den AGBs ist es noch viel schlimmer.
00:09:39: Da gibt es ja oft auch PDF-Dateien, die müssen dann eingelesen werden.
00:09:43: Oft sind AGBs dann vielleicht auch zweispaltig geschrieben.
00:09:46: Und ich kann aus Erfahrung berichten, dass es technisch sehr herausfordernd ist,
00:09:50: ein mehrspaltiges PDF.
00:09:51: Das ist ja auch ein sehr schwieriges Dokument,
00:09:53: so einzulesen, dass der Text nicht zerwürfelt wird.
00:09:55: Also nur technische Probleme über Probleme.
00:09:57: Aber dann haben wir ja erst mal darüber gesprochen,
00:09:59: dass die Maschine das Impressum oder die AGB-Seite überhaupt gefunden hat.
00:10:03: Wir reden dann ja erst noch darüber,
00:10:05: dass die Inhalte dieser Seiten auch noch verstanden werden müssen von dem dummen Crawler.
00:10:11: Also es ist nämlich so, dass viele meinen, ein KI-Crawler sei bereits intelligent.
00:10:17: Das ist aber falsch.
00:10:19: Das ist nicht wahr.
00:10:20: Ja, der wird ja erst durch die Daten,
00:10:21: die er gecrawlt hat, später in der Verarbeitung intelligent.
00:10:24: Beim Crawling ist das ja einfach nur ein Sammeln von Informationen.
00:10:28: Genau, wie du sagst.
00:10:30: Wir reden über ein KI-System.
00:10:32: Und die Vorstufe des KI-Systems ist der Crawler.
00:10:35: Und die Hauptkomponente ist ein sogenanntes KI-Modell,
00:10:40: in dem Fall jetzt ein Sprachmodell beispielsweise, wie ChatGPT,
00:10:44: was aufgrund der Daten, die der dumme Crawler liefert,
00:10:48: überhaupt sich erst Intelligenz verschaffen kann.
00:10:50: Also erzogen wird mit diesen Daten.
00:10:52: Das heißt, der Crawler selbst ist dumm.
00:10:54: Der liefert einfach nur Daten.
00:10:56: Der kann also nicht ein Impressum verstehen.
00:10:58: Und angenommen, der Crawler wäre nicht dumm,
00:11:01: weil er nämlich schon auf eine KI zugreifen kann,
00:11:03: dann würde das die großen Unternehmen,
00:11:05: die schon die KI-Systeme haben, deutlich bevorzugen.
00:11:08: Ja, absolut.
00:11:09: Weil wir beide wissen, ChatGPT gibt es schon.
00:11:12: Der Crawler kann auch im Hintergrund ChatGPT fragen.
00:11:15: Aber wenn du jetzt eine KI erstellen möchtest,
00:11:18: dann kannst du deine KI nicht fragen.
00:11:19: Weil es die nämlich noch nicht gibt.
00:11:21: Also wärst du benachteiligt als kleiner Anbieter.
00:11:24: Also das kann jetzt auch nicht ernst gemeint sein.
00:11:27: Und unabhängig davon behaupte ich,
00:11:30: ich habe nämlich eine Diskussion in einem sozialen Netzwerk gemacht,
00:11:34: da hat eine Dame, also ernsthaft,
00:11:38: es war jetzt nicht spaßig gemeint oder so,
00:11:40: als Nutzungsvorbehalt einen Satz vorgeschlagen, der lautet,
00:11:44: ich habe es nachgeguckt extra,
00:11:46: jegliche Datennutzung, also auf ihrer Webseite,
00:11:49: jegliche Datennutzung ist ausschließlich zum Zweck des Informationsgewinns
00:11:53: in menschlichen neuronalen Netzen bestimmt.
00:11:59: Ich bezweifle, dass ein Mensch überhaupt versteht,
00:12:03: was sie damit sagen will,
00:12:04: der nicht weiß, dass es den §44 Urhebergesetz gibt.
00:12:07: Und erst recht bezweifle ich,
00:12:10: dass eine KI diesen Satz zuverlässig verstehen kann.
00:12:13: Ja, absolut.
00:12:15: Gerade nicht beim Crawling,
00:12:16: weil da ist ja noch kein Verständnisprozess.
00:12:17: Das ist ja erst mal nur der Sammelpunkt,
00:12:18: das ist ja erst mal nur der Sammelprozess.
00:12:20: Also diese Information muss ja dann später
00:12:22: von dem KI-System richtig interpretiert werden
00:12:25: und auch im Zusammenhang.
00:12:27: Du sagst es.
00:12:28: Also zunächst ist der Crawler dumm
00:12:30: und dann, selbst wenn es eine KI gäbe,
00:12:32: ich bezweifle auch, dass ChatGPT,
00:12:34: möglicherweise hat ChatGPT auch Probleme,
00:12:36: diesen Satz mit dem §44 BU-Höfergesetz
00:12:39: in Verbindung zu bringen.
00:12:41: Und also der Punkt ist,
00:12:46: derjenige, der diese Webseite einliest,
00:12:48: also der KI-Crawler,
00:12:50: der Crawler, der soll dann beweisen später,
00:12:53: wenn es einen Streit gibt,
00:12:55: dass dieser Nutzungsvorbehalt nicht da war
00:12:58: zum Zeitpunkt X, als die Webseite eingelesen wurde.
00:13:01: Ist da denn nicht sowieso diese generelle Problematik?
00:13:07: Also gehen wir uns mal davon aus,
00:13:09: wenn ich ChatGPT benutzt habe,
00:13:11: nur jetzt als Beispiel, weil das jeder kennt,
00:13:13: dann ist mir das noch nie passiert,
00:13:14: dass der bei seiner Antwort auch nicht sagt,
00:13:15: dass er bei seiner Antwort automatisiert
00:13:17: Querverweise mit Quellenbezügen mit ausgespuckt hat
00:13:20: und gesagt hat, die Informationen,
00:13:21: die ich dir gerade zurückgebe,
00:13:22: die habe ich von da und daher
00:13:23: und die stehen so und so in Zusammenhang zueinander,
00:13:25: weil das müsste doch eigentlich erst möglich sein,
00:13:27: damit ich überhaupt nachvollziehen kann,
00:13:29: als derjenige, der die Informationen aus der KI zurückbekommt,
00:13:32: die er eingefordert hat,
00:13:34: dass bestimmte Urheberrechtsverletzungen vorliegen können,
00:13:37: die eben zum Beispiel auch durch so ein Nutzungsverbot
00:13:40: oder Nutzungsvorbehalt
00:13:42: dann eben eigentlich hätten nicht ausgegeben werden dürfen.
00:13:44: Aber das machen die KI ja nicht, die Systeme.
00:13:47: Die sagen ja nur die Antwort.
00:13:49: Die sagen ja nicht, ich habe diese Antwort
00:13:51: aus den und den Daten an den und den Quellen gelernt.
00:13:54: Genau, das machen sie nicht.
00:13:56: Du hast recht, eine eigene KI,
00:13:58: die ich jetzt gerade für den Kunden erstelle
00:14:00: oder erstellt habe zum großen Teil,
00:14:02: die gibt immer zu jeder Antwort die Quellen zurück,
00:14:04: auf Basis derer die Antwort gegeben wurde.
00:14:07: Da kann man also nicht nur sehen, welche Dateien,
00:14:09: also Dokumente es sind,
00:14:11: in denen die Antwortteile gefunden wurden,
00:14:14: sondern man kann auch sehen,
00:14:16: welche Auszüge aus diesen Dokumenten genommen wurden,
00:14:19: um die Antwort zu generieren.
00:14:21: Also nicht nur ein ganzes Dokument als Stück,
00:14:23: sondern auch ein Abschnitt wird dann sogar genannt.
00:14:25: Also da kann und sollte man dann nachlesen,
00:14:28: stimmt das denn, was die KI da generiert hat.
00:14:30: Und hier ist es eben so,
00:14:32: ich kann einfach nur sehr schwer
00:14:34: oder oft auch gar nicht nachträglich beweisen,
00:14:36: dass am 17.04.2023
00:14:39: der Nutzungsvorbehalt nicht auf einer Seite war.
00:14:42: Ich meine, dieser Negativbeweis ist immer sehr schwer.
00:14:44: Das pervertiert übrigens auch das Gesetzesvorhaben so ein bisschen.
00:14:49: Denn jetzt nehmen wir mal an,
00:14:51: deine Webseite hat 10.000 Unterseiten.
00:14:53: Das gibt es sehr oft, oder noch mehr Unterseiten.
00:14:55: Spiegel Online und wie sie alle heißen.
00:14:57: Die haben Hunderttausende.
00:14:59: Und wenn du dir viel Mühe gibst, kommst du auch auf 10.000.
00:15:01: Du musst halt jeden Tag ein paar Artikel schreiben.
00:15:03: Mit einer KI zum Beispiel.
00:15:05: Genau, ich lasse die schreiben
00:15:07: und dann beschwere ich mich später,
00:15:09: dass jemand meinen Nutzungsvorbehalt missachtet hat.
00:15:11: Das wäre auch schön, da wird es ja noch irrer.
00:15:14: Ist möglich.
00:15:16: Es muss halt einmalig sein.
00:15:20: Und es darf niemand sehen,
00:15:22: dass es mit einer KI generiert wurde.
00:15:24: Weil es gibt manche Leute, die sagen,
00:15:26: also in den USA heißt es wohl, die Rechtslage wohl so,
00:15:28: wenn ich es richtig gelesen habe,
00:15:30: dass KI generierte Inhalte nicht schützenswert sind,
00:15:32: was ich für Schwachsinn halte.
00:15:34: Also ich will jetzt niemanden wirklich verteidigen oder so,
00:15:36: aber ich bin für die Urheber.
00:15:38: Aber ganz ehrlich, wenn du ein Bild malst
00:15:40: und dasselbe Bild wäre durch eine KI entstanden,
00:15:42: wo ist da der Unterschied?
00:15:44: Oder du schreibst einen Text
00:15:46: und derselbe Text wörtlich wäre durch eine KI entstanden,
00:15:49: also kreativ.
00:15:50: Wo ist da der Unterschied, ob du es warst oder eine KI?
00:15:53: Ich sehe da den Unterschied.
00:15:55: Das Ergebnis ist dasselbe.
00:15:57: Also warum soll es einen Unterschied machen,
00:15:59: wer es erstellt hat?
00:16:01: Also da maßt sich der Mensch wieder irgendwas an,
00:16:03: also dann verrate ich einfach niemandem,
00:16:05: dass ich es durch eine KI generiert habe.
00:16:07: Fertig.
00:16:08: Ich meine, wenn es daran liegt,
00:16:09: dann erzähle ich es einfach keinem.
00:16:11: Absolut.
00:16:12: Da gibt es natürlich dann wieder andere,
00:16:14: die bei Bildgenerierung insbesondere,
00:16:16: werden dann so unsichtbare Informationen ins Bild reingeneriert,
00:16:18: dass man sieht, es war eine KI.
00:16:20: Aber ganz ehrlich,
00:16:21: ich habe einen Bildgenerierungsmechanismus
00:16:23: bei mir auf dem System,
00:16:24: da gibt es diesen Schutzmechanismus nicht,
00:16:27: weil ich nämlich nicht drin haben möchte.
00:16:29: Man muss, also meiner Meinung nach,
00:16:31: ist der Kern des Problems ein anderer.
00:16:33: Also zunächst mal,
00:16:35: also nochmal zu dem Perversen, was ich sagen wollte.
00:16:37: Angenommen, deine Webseite hat 100.000 oder 10.000 Unterseiten.
00:16:40: Um sicherzustellen,
00:16:42: dass du keine Nutzungsvorbereitung hast,
00:16:44: oder halt irgendwo formuliert hast,
00:16:46: müsste ich ja alle deine Unterseiten einlesen.
00:16:48: Mhm.
00:16:50: In Wirklichkeit wollte ich aber eigentlich
00:16:52: nur eine PDF-Data einlesen,
00:16:54: auf die ich einen Deeplink,
00:16:56: also der Crawler einen Deeplink gefunden hat.
00:16:58: Mhm.
00:16:59: Ich habe auf meiner Webseite ein PDF-Dokument
00:17:01: oder ein Video von dir auf deiner Webseite verlinkt.
00:17:04: Video kann man ja auch ein Transkript draus machen,
00:17:06: da habe ich deine Sprache.
00:17:08: Das heißt, eigentlich wollte der Crawler
00:17:10: nur eine Seite von deiner Webseite einlesen.
00:17:12: Jetzt kommt der deutsche Gesetzgeber an,
00:17:14: der muss aber,
00:17:16: und zwingt den Crawler,
00:17:18: er soll nach dem Nutzungsvorbehalt suchen.
00:17:20: Jetzt muss er ja alle Seiten durchsuchen,
00:17:22: um sicherzugehen, dass nirgendwo der Nutzungsvorbehalt drauf ist,
00:17:24: beziehungsweise auch noch die Seiten eigentlich ja abspeichern,
00:17:26: wenn man es konsequent betrachtet, ja?
00:17:28: Abspeichern.
00:17:30: Klar, sonst kann er ja nicht nachweisen,
00:17:32: dass er den gefunden hat.
00:17:34: Ja, wie soll ich, wenn mir dann jemand sagt,
00:17:36: du darfst die Seiten nicht abspeichern,
00:17:38: dann sage ich ja, wie soll ich denn da nachweisen,
00:17:40: dass der Nutzungsvorbehalt nicht da war?
00:17:42: Also, ich bin ja ein User,
00:17:44: und also meiner Meinung nach
00:17:46: ist das Kernproblem ein anderes.
00:17:48: Also erstmal, die Lösung wäre,
00:17:50: der deutsche Gesetzgeber hätte einfach schreiben müssen,
00:17:52: in der Robots.txt-Datei,
00:17:54: die seit 25 Jahren oder wie lang Standard ist,
00:17:56: ich weiß es nicht,
00:17:58: hätte man einfach
00:18:00: reinschreiben können,
00:18:02: müssen, wer das nicht will,
00:18:04: dass seine Seiten, Inhalte eingelesen werden
00:18:06: durch eine KI, oder genutzt werden durch eine KI,
00:18:08: muss man ja sagen, eingelesen werden sie ja nicht
00:18:10: durch eine KI, sondern durch einen Crawler.
00:18:12: Also, wenn du sagst, dass deine Webseite
00:18:14: durch eine KI genutzt wird,
00:18:16: der schreibt in die Robots.txt-Datei
00:18:18: einen entsprechenden Eintrag rein.
00:18:20: Da hätte man sich auf eine Konvention einigen können,
00:18:22: vielleicht auch mit dem User-Agent, wie es schon da ist,
00:18:24: da musst du dann, musst du das respektieren.
00:18:26: Wenn da steht User-Agent allow,
00:18:28: also erlaube Dr. Go,
00:18:30: und disallow Stern, also alle anderen sind verboten,
00:18:32: dann bist du als KI-Crawler
00:18:34: auch verboten.
00:18:36: So, das wäre einfach und eindeutig,
00:18:38: und da müsste man nicht weiter drüber diskutieren.
00:18:40: Aber dann hätten wir ja jetzt
00:18:42: eine Sendung.
00:18:44: Also sehen wir das mal so.
00:18:46: Es gibt auf jeden Fall technologisch gesprochen
00:18:48: einen sehr einfachen Workaround,
00:18:50: um dieses gesamte
00:18:52: Nutzungsrechte- und Urheberrechte-Problem
00:18:54: zu umgehen,
00:18:56: zumindest beim Indizieren von eigenen Webseiten.
00:18:58: Jetzt ist es aber ja so,
00:19:00: wir haben ja den
00:19:02: Datenschutz Deluxe Podcast,
00:19:04: und jetzt haben wir ja auch viel schon über
00:19:06: KI und die Verwendung von
00:19:08: personenbezogenen Daten innerhalb von
00:19:10: KI-Systemen geredet, und da haben wir ja auch schon
00:19:12: in den letzten Gesprächen festgestellt,
00:19:14: dass es nicht zuverlässig möglich ist,
00:19:16: personenbezogene Daten
00:19:18: eben von KI-Systemen auszuschließen
00:19:20: oder dafür zu sorgen, dass die
00:19:22: die nicht wieder rausgeben.
00:19:24: Wenn wir jetzt mal davon ausgehen,
00:19:26: wir haben ja auch Millionen von
00:19:28: Informationen auf Webseiten, die nicht uns selbst
00:19:30: gehören.
00:19:32: Nehmen wir mal ein soziales Netzwerk,
00:19:34: das Informationen auch nach
00:19:36: Außenpreis geben kann.
00:19:38: Ich sage nicht, dass das tendenziell immer passiert,
00:19:40: aber es ist nun mal so, dass der Nutzer ja auch selber bestimmen kann,
00:19:42: zum Beispiel wer eine Facebook-Page hat,
00:19:44: kann ja selber bestimmen, was nach
00:19:46: Außen gezeigt wird, auch für die Nicht-Nutzer
00:19:48: von Facebook.
00:19:50: Wenn da jetzt Informationen liegen,
00:19:52: dann kann die KI die ja auch lesen,
00:19:54: wenn die die Seite Facebook
00:19:56: crawlt. Und wenn die diese
00:19:58: Facebook-Seite crawlt, dann crawlt die
00:20:00: ja erstmal einfach wild alles,
00:20:02: was es da zu crawlen gibt,
00:20:04: was quasi öffentlich verfügbar ist.
00:20:06: Wenn ich jetzt
00:20:08: aber da als Urheber, sage ich mal,
00:20:10: irgendwas hochgeladen habe,
00:20:12: was dann da in der Öffentlichkeit sieht,
00:20:14: ist es dann so, dass ich aufgrund
00:20:16: der Tatsache, dass ich das soziale Netzwerk
00:20:18: nutze, rechtlich betrachtet
00:20:20: meine Nutzungsrechte ja schon abgetreten
00:20:22: habe und deswegen auch kein Recht
00:20:24: mehr habe zu sagen, Facebook, du musst
00:20:26: bitte unterbinden, dass meine Informationen
00:20:28: von einer KI verwendet werden?
00:20:30: Oder habe ich meine Nutzungsrechte
00:20:32: per se erstmal nur an Facebook abgegeben?
00:20:36: Ja, das ist eine sehr gute Frage.
00:20:38: Ich kenne die genaue Antwort nicht, muss ich sagen.
00:20:40: Da habe ich mir noch keine tiefergehenden Gedanken
00:20:42: gemacht, eine sehr gute Frage.
00:20:44: Also soweit ich weiß, von früher auch,
00:20:46: ist es so, dass Facebook sich alle Rechte
00:20:48: geben lässt von den Nutzern,
00:20:50: die Facebook nutzen oder Instagram
00:20:52: oder WhatsApp und diese Inhalte alle von
00:20:54: Meta verwendet werden dürfen, angeblich.
00:20:56: So habe ich es mal verstanden.
00:20:58: Ob das dann rechtlich haltbar ist, ist eine andere Frage,
00:21:00: aber ich glaube, Meta möchte das so.
00:21:02: Alles, was du da reinschreibst, kann Meta
00:21:04: zu beliebigen Zwecken verwenden, sage ich mal,
00:21:06: etwas vereinfacht. Das halte ich für
00:21:08: rechtswidrig, aber so ist es, glaube ich,
00:21:10: von Meta gewünscht.
00:21:12: Und das würde ja dazu führen,
00:21:14: dass, also du bist immer noch der
00:21:16: Urheber, der kann auch niemand anders sein.
00:21:18: Die Frage ist allerdings, wie
00:21:20: könntest du denn jetzt einen Nutzungsvorbehalt
00:21:22: formulieren? Da müsstest du
00:21:24: ja, du kannst ja keine Robots.txt
00:21:26: Datei von Facebook.com ändern
00:21:28: als Nutzer von Facebook. Genau.
00:21:30: Und da müsstest du ja über,
00:21:32: ein Impressum hast du zwar, da könnte man
00:21:34: sagen, okay, auf deiner Facebook-Fanpage
00:21:36: könntest du ein Impressum verlinken, musst du ja meistens auch.
00:21:38: Da könntest du es reinschreiben, aber wenn du
00:21:40: jetzt einen Kommentar irgendwo reinschreibst, gut, das ist natürlich
00:21:42: kein urheberrechtlich geschütztes Werk normalerweise,
00:21:44: ein Kommentar. Ja. Wenn du jetzt aber
00:21:46: ein Bild postest,
00:21:48: in den Kommentar rein, ich glaube, das geht, oder?
00:21:50: Ja. Dann
00:21:52: wäre das ja, könnte ja auch ein Werk von dir
00:21:54: sein, auch ein Werk,
00:21:56: was nicht einfach so weiter
00:21:58: verwendet werden darf. Da könnte man natürlich drüber streiten,
00:22:00: wenn du nicht möchtest, dass dein Werk
00:22:02: verteilt wird in der Öffentlichkeit, dann solltest du es nicht auf sozialen
00:22:04: Medien posten, weil dann wird es garantiert verteilt.
00:22:06: Absolut, dafür sind sie ja da.
00:22:08: Genau, also die Frage
00:22:10: wäre, gibt es dann überhaupt Inhalte, die schützen,
00:22:12: die nutzenswert sind,
00:22:14: die du auf Facebook postest?
00:22:16: Ich glaube ja, aber es werden sehr wenige
00:22:18: Fälle nur, und da stellt sich
00:22:20: wirklich die Frage, wie kann ich da Nutzungsvorbehalt
00:22:22: formulieren? Da müsste eigentlich
00:22:24: Facebook für sorgen, das kann aber Facebook
00:22:26: machen, wie es will wahrscheinlich.
00:22:28: Zunächst mal, bis es verklagt wird, wenn die sagen,
00:22:30: wir geben keinen Nutzungsvorbehalt, dann
00:22:32: muss, aber eigentlich hat Facebook
00:22:34: ein Interesse daran, dass andere KIs deren
00:22:36: Daten oder die Daten der Facebook-Nutzer
00:22:38: oder Instagram nicht weiterverwenden, weil
00:22:40: dann kann es Meta alleine machen. Also insofern,
00:22:42: müsste eigentlich Meta selbst den Nutzungsvorbehalt
00:22:44: für alle anderen formulieren, aus eigenem Interesse
00:22:46: heraus. So sehe ich es jetzt mal.
00:22:48: Aber es ist eine sehr gute Frage, da müsste
00:22:50: man nochmal tiefer einsteigen. Ich
00:22:52: kann nur das sagen, was ich jetzt eben gerade gesagt habe.
00:22:54: Wenn ich das richtig verstanden habe, dann ist
00:22:58: ja quasi so der Erarbeiter
00:23:00: der Lösungsvorschlag jetzt
00:23:02: für alle Leute, die selber Webseiten
00:23:04: betreiben und da urheberrechtlich
00:23:06: geschützte Werke
00:23:08: in irgendeiner Form, ob jetzt Text, Bild oder
00:23:10: Video veröffentlichen,
00:23:12: der, dass man sagt, okay,
00:23:14: ich habe eine Datei
00:23:16: wie eine Robots.txt, in der
00:23:18: ich zum Beispiel so einen disallowall-Befehl
00:23:20: drin habe und nur
00:23:22: die inkludiere, von denen ich wirklich möchte,
00:23:24: dass sie die Webseite durchsuchen dürfen
00:23:26: und damit hätte ich dann ja im Endeffekt einen
00:23:28: maschinenlesbaren Nachweis, dass ich gesagt
00:23:30: habe, ich habe mich darum gekümmert, allen das zu
00:23:32: verbieten und das schließt eben Suchmaschinen
00:23:34: sowie KI-Systeme
00:23:36: ein, auch wenn die KI-Systeme
00:23:38: selbst vielleicht darauf
00:23:40: keine Rücksicht nehmen, hätte man dann ja zumindest
00:23:42: den schriftlichen Nachweis, dass man das verboten
00:23:44: hat, der sehr viel besser geeignet
00:23:46: ist, als zu sagen,
00:23:48: die KI muss erstmal meine ganze Webseite
00:23:50: indizieren, crawlen und abspeichern, damit sie
00:23:52: Nachweis liefern kann, dass ich irgendwo auf der Webseite
00:23:54: ein Impressum hatte, in dem ich das reingeschrieben habe.
00:23:56: Ja, genau. Habe ich das so richtig
00:23:58: zusammengefasst? Genau, es geht sogar
00:24:00: noch weiter, denn die großen
00:24:02: KIs,
00:24:04: ChatGPT,
00:24:06: Googlebot,
00:24:08: ist ja auch ein Chatbot,
00:24:10: für die gibt es
00:24:12: registrierte User Agents, also
00:24:14: Kennungen,
00:24:16: User Agents ist das gleiche wie bei einer Suchmaschine,
00:24:18: Googlebot für die Google Suchmaschine
00:24:20: oder
00:24:22: ir-archiver oder
00:24:24: archive.org-bot für
00:24:26: die Internet Archive, also Wayback Machine
00:24:28: und diese User Agents
00:24:30: von ChatGPT und Googlebot,
00:24:32: die kann man schon in der Robots.txt Datei
00:24:34: eintragen und die
00:24:36: Google und OpenAI sagen,
00:24:38: wir halten uns da dran, also angenommen sie halten sich dran,
00:24:40: dann wäre das Problem für die schon gelöst, weil sie
00:24:42: selbst schon den Vorschlag gemacht haben,
00:24:44: die Robots.txt Datei zu benutzen, weil es einfach
00:24:46: das einfachste ist. Jeder, der
00:24:48: einen anderen Vorschlag hat, der hat
00:24:50: einfach keine Ahnung, wie die Realität
00:24:52: ist. Und die Politiker, ich erwarte nicht,
00:24:54: dass die alles wissen, aber sie sollten wenigstens
00:24:56: jemanden fragen, der es weiß.
00:24:58: Ja und vielleicht mal die Fragen, die
00:25:00: es selbst entwickeln, auch wenn man sich dann vielleicht
00:25:02: bei der Intention fragen sollte,
00:25:04: mit welcher
00:25:06: Intention die Antworten auf die Frage
00:25:08: und ihre Beratung durchführen, aber immerhin
00:25:10: hat man dann schon mal jemanden, der
00:25:12: mit Fachwissen an der Stelle gefragt
00:25:14: und nicht einfach irgendwas gemacht,
00:25:16: was halt irgendwie in irgendwelchen
00:25:18: verstaubten Rechtstexten vielleicht eher passt.
00:25:20: Weil so wirkt es halt so ein bisschen.
00:25:22: Jetzt geht es noch weiter. Jetzt hat
00:25:24: nämlich sich ein deutscher
00:25:26: Rechtsservice,
00:25:28: fängt mit B an und dann online,
00:25:32: dann kommt danach noch mehr,
00:25:34: ich will jetzt, also sehr unter Juristen
00:25:36: der bekannteste wohl, der hat
00:25:38: nämlich in seinem
00:25:40: Impressum,
00:25:42: Moment, ich muss mal reingehen,
00:25:44: geschrieben,
00:25:46: brav, wie der deutsche Gesetzgeber es
00:25:48: vorgeschrieben oder vorgeschlagen, muss man
00:25:50: sagen, vorgeschrieben hat,
00:25:52: Text- und Datamining gemäß
00:25:54: § 44b UrhG,
00:25:56: der Verlag behält sich das Recht zu
00:25:58: Vervielfältigung für das Text- und Datamining
00:26:00: gemäß § 44b Urbergesetz
00:26:02: vor. Im Impressum, wie gesagt,
00:26:04: da wo es kein Crawler findet,
00:26:06: könnte man sagen, okay, das ist jetzt 44b,
00:26:08: findet man, aber erstmal
00:26:10: muss man das Impressum finden. Und,
00:26:12: dann hat der Verlag
00:26:14: aber, weil er, also die falschen Berater hat,
00:26:16: sage ich, ja, leider vergessen,
00:26:18: in der Robots.txt-Datei das auch noch konsequent
00:26:20: durchzuziehen, da steht nämlich, es ist wirklich
00:26:22: lustig,
00:26:24: in Englisch wohlgemerkt nur, im Impressum steht's
00:26:26: in Deutsch und Englisch, in der Robots.txt
00:26:28: steht's in Englisch als Kommentar
00:26:30: wohlgemerkt, ja. Als Kommentar,
00:26:32: sehr vernünftig, ja.
00:26:34: Steht drinnen, Legal Notice
00:26:36: Verlag so und so, den Namen will ich jetzt einfach nicht nennen,
00:26:38: könnte ich machen, aber will ich nicht,
00:26:40: Verlag so und so, ein deutscher Verlag,
00:26:42: expressly reserves the right
00:26:44: to use its content for commercial text
00:26:46: and data mining in Klammern, Paragraph
00:26:48: 44b, Urheberrechtsgesetz,
00:26:50: da heißt es doch Urheberrechtsgesetz, ich dachte,
00:26:52: das heißt immer Urhebergesetz, aber vielleicht hast du sogar recht.
00:26:54: Das spielt keine Rolle.
00:26:56: Du hast recht, siehst du, da habe ich schon wieder
00:26:58: was gelernt, ich korrigiere mich,
00:27:00: Urheberrechtsgesetz heißt es, du hast recht gehabt.
00:27:02: Ich hab dich falsch korrigiert.
00:27:04: So, und dann, der Witz ist,
00:27:06: steht in der
00:27:08: Robots.txt-Datei aber als echte Einträge,
00:27:10: dass verboten ist, für
00:27:12: ChatGPT
00:27:14: und
00:27:16: CCBot, weiß ich nicht genau, was
00:27:18: das ist, aber vergessen wurde
00:27:20: Google Extended.
00:27:22: Und ich sag mal so, wenn man schon so viel Wert
00:27:24: drauf legt, dass die Inhalte
00:27:26: nicht eingelesen werden für KI-Systeme, dann sollte
00:27:28: man doch wenigstens die wichtigsten zwei Systeme,
00:27:30: nicht nur das
00:27:32: allerwichtigste, ich meine, Google
00:27:34: Bot ist ja schon mittlerweile auch bekannt,
00:27:36: ich meine, ich bin eine Einzelperson, wenn ich was
00:27:38: vergesse, ist es blöd, aber wie viele Menschen
00:27:40: arbeiten in diesem Verlag, oder
00:27:42: für diesen Verlag, da hätte man
00:27:44: das ja wirklich hinkriegen können. Stattdessen
00:27:46: macht man einen Kommentar in
00:27:48: Robots.txt-Datei und vergisst einen wichtigen
00:27:50: Eintrag, der einfach eindeutig gewesen
00:27:52: wäre. Aber ich möchte noch auf
00:27:54: eine Sache hinweisen, also zwei
00:27:56: Sachen. Das eine ist,
00:27:58: es gibt Menschen, die sagen, der
00:28:00: §44b Urheberrechtsgesetz
00:28:02: wäre nicht für generative
00:28:04: KI gemacht.
00:28:06: Da sage ich, das
00:28:08: muss man erstmal beweisen,
00:28:10: sagen Sie mir doch erstmal, was die Definition von
00:28:12: Text- und Datamining ist, steht in §44b
00:28:14: Absatz 1
00:28:16: Urheberrechtsgesetz drin, glaube
00:28:18: ich. Genau,
00:28:20: Text- und Datamining ist die automatisierte Analyse
00:28:22: von einzelnen oder mehreren digitalen
00:28:24: oder digitalisierten Werken, um daraus
00:28:26: Informationen, insbesondere über Muster,
00:28:28: Trends und Korrelationen zu gewinnen.
00:28:30: Genau das
00:28:32: macht eine KI.
00:28:34: Und dann kommen die und sagen, ja, aber eine generative
00:28:36: KI ist ja was anderes.
00:28:38: Und die meinen damit, eine generative KI
00:28:40: erzeugt Ausgaben.
00:28:42: So habe ich es zumindest verstanden.
00:28:44: Und dann sagen sie auch noch,
00:28:46: und das ist pervers, die erzeugt
00:28:48: Ausgaben, die möglichst nah am Original dran sind.
00:28:50: Was aber vollkommen falsch ist.
00:28:52: Ich meine, du hast vielleicht auch schon mal mit KI-Systemen
00:28:54: rumgespielt, auch mit
00:28:56: Bildgenerierungsprogrammen. Ja, klar.
00:28:58: Der Sinn dieser generativen KI ist nicht,
00:29:00: eine 1 zu 1 Abbildung des Originals
00:29:02: zu machen, ein Zitat eines Bildes,
00:29:04: sondern ein möglichst,
00:29:06: sag mal, vielleicht annähernd
00:29:08: teilweise, aber kreativ,
00:29:10: eine kreative Ausgabe zu machen.
00:29:12: Ja, absolut.
00:29:14: Weil es ist ja so, jedes System,
00:29:16: also ich behaupte mal,
00:29:18: ich stelle es einfach mal zur Diskussion,
00:29:20: ein System, was keine
00:29:22: Ausgabe macht, ein IT-System,
00:29:24: ein IT-System ohne
00:29:26: Ausgabe macht überhaupt gar keinen Sinn.
00:29:28: Also,
00:29:30: ich sage mal, was ist
00:29:32: der Sinn eines Systems, wenn es keine
00:29:34: Ausgabe hat? Was ist der Sinn von Intelligenz,
00:29:36: wenn sie nichts erzeugt?
00:29:38: Also ganz ehrlich. Ja, oder auch,
00:29:40: also generell meine ich jetzt, generell,
00:29:42: ein System ohne Ausgabe,
00:29:44: ich weiß gar nicht, ob es das gibt überhaupt,
00:29:46: und selbst wenn, warum
00:29:48: gibt es dieses System dann?
00:29:50: Nehmen wir mal, also selbst das
00:29:52: Schreiben auf eine Piste... Da geht nur was rein, aber nichts raus.
00:29:54: Das ergibt ja gar keinen Sinn. Warum mache ich dann
00:29:56: irgendwas dazwischen? Input, Put, Put,
00:29:58: Output. Wenn der Output fehlt, dann ist es egal,
00:30:00: wie viel Put, Put ich mache.
00:30:02: Das spielt doch gar keine Rolle.
00:30:04: Genau, das System frisst alles in sich rein und
00:30:06: stirbt dann. Ja, genau.
00:30:08: Wenn der Mensch Holz hackt,
00:30:10: hat er auch ein Output gemacht. Er hat nämlich
00:30:12: seine Hand benutzt, um die Umgebung zu beeinflussen.
00:30:14: Ja, und genau das ist Output.
00:30:16: Ja, genau. Oder wenn ich was auf eine Festplatte
00:30:18: schreibe, ist das auch ein Output.
00:30:20: Das ist wie dieses Monster aus Star Wars,
00:30:22: wo in der Wüste die Leute reinwerfen.
00:30:24: Weißt du, diese Krake, die aus dem Boden kommt,
00:30:26: die fängt dann und dann ist das weg. Und keiner
00:30:28: weiß, wo das hingeht, keiner weiß, woher
00:30:30: das Monster kommt. So ein System
00:30:32: wäre das. Da fliegen einfach nur Sachen rein
00:30:34: und am Ende ist es weg. Wie ein schwarzes Loch
00:30:36: im Endeffekt. Ja. Genau, also wir hatten
00:30:38: einen Anwalt gesagt, er sieht den
00:30:40: 44b Urheberrechtsgesetz nicht
00:30:42: für generative KI gemacht. Er hält ihn für
00:30:44: nicht zutreffend. Und dann habe ich
00:30:46: ihn gefragt, nach zahllosem Hin und Her,
00:30:48: es war konstruktiv, was denn jetzt
00:30:50: seine Definition von Text- und Datamining
00:30:52: wäre und ob er mir Beispiele
00:30:54: nennen könnte dafür, für seine Definition,
00:30:56: die aber dann natürlich keine
00:30:58: generative KI einschließen, weil er ja der
00:31:00: Meinung ist, dass das keine generative KI sei.
00:31:02: Ich habe keine Antwort gekriegt.
00:31:04: Also er redet
00:31:06: permanent über Text- und Datamining,
00:31:08: sagt nur, was es nicht ist, weiß aber nicht, was es ist.
00:31:10: Halte ich für
00:31:12: unzulässig und logisch
00:31:14: Unsinn.
00:31:16: Man kann nicht sagen, ich weiß nicht, was es
00:31:18: ist, aber ich weiß, was es nicht ist.
00:31:20: Da kommen wir nicht weiter, sage ich jetzt mal.
00:31:22: Das geht so in die Richtung
00:31:24: von Glauben und Glauben hat nichts
00:31:26: mit Wissenschaft zu tun. Wissenschaft hat
00:31:28: was mit Wissen zu tun. So ähnlich wie die Frage nach dem Sinn des Lebens.
00:31:30: Da kannst du dir anknüpfen.
00:31:32: Das sind auch so hochmetaphysische
00:31:34: Fragen, wo es halt keine
00:31:36: wirkliche Antwort darauf gibt, aber alle ganz sicher,
00:31:38: dass es nicht so ist.
00:31:40: Vielleicht zum Schluss noch eine wichtige
00:31:42: Anmerkung.
00:31:44: Ich hatte ja vorhin erwähnt, ich glaube, das ganze Thema geht
00:31:46: am Problem vorbei. Also ich bin für den Schutz
00:31:48: der Urheber, aber dann bitte so, dass es jeder auch leisten
00:31:50: kann.
00:31:52: Angenommen, dieser deutsche
00:31:54: Paragraph, diese deutsche Regelung führt
00:31:56: dazu, sage ich, dass die deutsche Sprache
00:31:58: immer mehr verarmt in KI-Modellen, weil
00:32:00: jeder Angst haben muss, dass er nicht den Nachweis
00:32:02: bringen kann, dass der Nutzungsvorbehalt nicht da war.
00:32:04: Dann lese ich doch lieber gar
00:32:06: keine deutsche Webseite ein als amerikanisches Unternehmen.
00:32:08: Deutsch interessiert mich dann einfach nicht.
00:32:10: Deutsch ist unbedeutend.
00:32:12: Weil wir die Einzigen sind, die uns mit dieser Sache
00:32:14: auf diese Art und Weise beschäftigen.
00:32:16: Das stimmt.
00:32:18: Es gibt viel zu wenig Menschen in der Welt, die Deutsch sprechen leider.
00:32:20: Indische Sprachen sind viel
00:32:22: weiter verbreitet. Also Deutsch kommt
00:32:24: ganz weit hinten irgendwo. Interessiert niemanden.
00:32:26: Kann man auch weglassen. Das ist unser Problem.
00:32:28: Denn wir können keine intelligenten KI-Systeme
00:32:30: mehr nutzen zukünftig, die
00:32:32: Deutsch können. Aber jetzt kommt der eigentliche
00:32:34: Kern. Es ist doch
00:32:36: eigentlich egal, ob ein KI-System
00:32:38: Daten gespeichert hat,
00:32:40: die urheberrechtlich geschützt sind,
00:32:42: solange diese Daten
00:32:44: nicht in einer Ausgabe landen,
00:32:46: die ein Urheberrechtsproblem darstellen.
00:32:48: Mhm. Ja.
00:32:50: Also es heißt,
00:32:52: solange eine KI
00:32:54: keine Texte ausgibt,
00:32:56: die sehr nah am Original sind,
00:32:58: muss sich doch niemand Sorgen machen.
00:33:00: Das Problem ist,
00:33:02: ChatGPT zum Beispiel kann das gar nicht garantieren,
00:33:04: dass dieses Problem nicht auftritt.
00:33:06: Da kann man ja auch nicht sagen, dass das nicht
00:33:08: der Fall ist. Da kommt man dann auch sehr schnell in
00:33:10: die Wiedergabe von Falschaussagen über Personen,
00:33:12: also Verleumdung, Wiedergabe von Verleumdungen durch eine KI.
00:33:14: Da haftet dann schon der KI-Betreiber,
00:33:16: würde ich sagen, normalerweise.
00:33:18: Wie man es lösen kann,
00:33:20: ist, indem man
00:33:22: ein eigenes KI-System hat, da kann man nämlich,
00:33:24: wenn man das möchte, alle
00:33:26: Ausgaben vergleichen mit der
00:33:28: Wissensbasis, die man hat.
00:33:30: Die hat man nämlich als KI-Modellbetreiber.
00:33:32: Und kann dann die
00:33:34: Textstellen rauslöschen oder
00:33:36: verfremden, die zu nah am Original sind.
00:33:38: Das kann man aber nur machen, wenn man
00:33:40: ein eigenes KI-System hat.
00:33:42: Ja, oder man macht das, was du
00:33:44: gerade beschrieben hast, was du auch
00:33:46: angewendet und ausprobiert hast, dass man
00:33:48: eben der KI pflichtmäßig mit dazu
00:33:50: gibt, gibt die Ausgabe raus,
00:33:52: woher kommen die Info-, also wie hast du
00:33:54: die Informationen, die du hier generiert hast,
00:33:56: gelernt, aus welchen Quellen hast
00:33:58: du die gelernt und gibt diese Quellen mit an,
00:34:00: damit man das nachvollziehbar machen kann.
00:34:02: Weil dazu hätte ich ja zumindest schon mal eine Grundlage
00:34:04: zu sagen, okay, ich weiß jetzt auch,
00:34:06: woher das kommt, was ich
00:34:08: dann weiter verwende.
00:34:10: Gehen wir mal davon aus, wie du sagtest, du schreibst
00:34:12: 10.000 Blogartikel durch eine KI
00:34:14: und begehst
00:34:16: dabei eine Urheberrechtsverletzung, weil
00:34:18: du irgendwelche Daten von jemand anders nutzt,
00:34:20: die da trainiert wurden. Du weißt
00:34:22: es ja gar nicht. Also wenn ich jetzt ChatGPT
00:34:24: einen Blogartikel für mich schreiben lasse, weiß ich
00:34:26: ja nicht, woher die Daten kommen. Das heißt, ich als
00:34:28: derjenige, der die Daten dann weiter verwendet
00:34:30: und diese Urheberrechtsverletzung
00:34:32: begeht, weiß ja gar nicht, dass ich sie
00:34:34: begangen habe. Weil
00:34:36: OpenAI ja nicht sagt, woher
00:34:38: die Daten kommen, die ChatGPT mir zurückgibt.
00:34:40: Ja, das stimmt.
00:34:42: Allerdings ist es schon so,
00:34:44: also OpenAI, wir hätten schon ein Problem.
00:34:46: Die dürfen nämlich nicht einfach
00:34:48: deine Inhalte, wenn du das nicht möchtest,
00:34:50: wiedergeben. Deine urheberrechtlich geschützten Inhalte
00:34:52: dürfen die gar nicht wiedergeben, wenn du es nicht willst.
00:34:54: Und da hilft es auch nicht, wenn deine
00:34:56: Quelle angegeben wird, sozusagen.
00:34:58: Andererseits hast du natürlich recht, wenn jemand
00:35:00: das weiterverwenden würde, dann müsste
00:35:02: er jede Quelle durchlesen
00:35:04: und gucken, ob die Inhalte, die
00:35:06: die ChatGPT ausgespuckt hat,
00:35:08: in der Quelle zu finden sind und dann es sein lassen.
00:35:10: Das kann man aber alles verhindern,
00:35:12: wie gesagt, und einfach automatisiert prüfen,
00:35:14: wenn man ein eigenes System hat. Und bei Bildern
00:35:16: ist es ja noch extremer. Da kann man nämlich
00:35:18: dann sogar prüfen mit
00:35:20: Bildgeneratoren. Ich habe einen eigenen Bildgenerator,
00:35:22: der kann mir tausende, habe ich auch schon gemacht,
00:35:24: tausende von Bildern generieren und
00:35:26: die kann ich dann sogar gemäß meiner Vorlieben
00:35:28: sortieren lassen. Ich kann dem System beibringen,
00:35:30: welche Bilder mir gefallen, welche nicht.
00:35:32: Dann kriege ich von den tausend Bildern nur die besten zehn
00:35:34: präsentiert und die anderen 990 kann ich mir
00:35:36: der Reihenfolge nach der Beliebtheit angucken.
00:35:38: Nach meiner Beliebtheit. Und ich kann mir
00:35:40: einen Vergleich machen lassen
00:35:42: mit den Bildern, die die Basis
00:35:44: sind für die Generierung, ob da eins
00:35:46: dabei ist, was sehr ähnlich mit dem Ergebnis
00:35:48: ist, was rausgeneriert wurde. Und wenn
00:35:50: es eine Ähnlichkeit hat, die zu hoch ist,
00:35:52: dann schmeiße ich das Bild weg, weil es nämlich ein
00:35:54: Urheberrechtsproblem sein könnte. Und
00:35:56: es gibt ja mehrere Beispiele schon in der Öffentlichkeit,
00:35:58: bei Marvel Comics
00:36:00: zum Beispiel, dass
00:36:02: diese Bildgenerierung, DALL-E 3
00:36:04: oder sowas, quasi Bilder
00:36:06: generieren, die zu 98%
00:36:08: gleich dem Original sind. Da hätte man dann
00:36:10: Urheberrechtsprobleme, eine Urheberrechtsverletzung.
00:36:12: Und das kann man halt einfach nicht vermeiden,
00:36:14: wenn man sowas wie ChatGPT benutzt. Das muss man
00:36:16: einfach wissen. Ich meine, für den privaten Bereich kann man
00:36:18: das nutzen, aber jeder, der die
00:36:20: Ausgaben öffentlich benutzen will,
00:36:22: der sollte es einfach nochmal überdenken,
00:36:24: ob er das machen will.
00:36:26: Das heißt, wir haben da auf jeden Fall ein sehr, sehr spannendes
00:36:28: Feld, das immer noch,
00:36:30: egal wie viel wir uns damit beschäftigen,
00:36:32: sehr, sehr viele Fragen offen lässt
00:36:34: zu der Thematik, was ist
00:36:36: jetzt urheberrechtlich schützenswert, was
00:36:38: wird geschützt, wie kann es geschützt werden
00:36:40: und vor allen Dingen auch, welche automatischen
00:36:42: Mechanismen können wir nutzen. Wir haben
00:36:44: ein paar Lösungswege identifiziert,
00:36:46: bis hin zu der Tatsache, dass man
00:36:48: seine eigene KI nutzt, wobei
00:36:50: ich sage, das ist natürlich auch nur denen
00:36:52: vorbehalten, die sich halt wirklich mit der Materie dann auch
00:36:54: sehr, sehr gut auskennen
00:36:56: und weitaus
00:36:58: fundierter in ihrem Wissensstand
00:37:00: sind, als die Leute, die glaube ich
00:37:02: die Hauptuser von ChatGPT und DALL-E
00:37:04: und den ganzen großen öffentlichen
00:37:06: Systemen sind.
00:37:08: Ich denke,
00:37:10: in Bezug auf die
00:37:12: Zeit und in Bezug darauf,
00:37:14: dass ich eine sehr, sehr interessante
00:37:16: Information anknüpfend an
00:37:18: dieses Thema gefunden habe, sollten wir in der nächsten
00:37:20: Folge das Thema KI nochmal
00:37:22: besprechen und zwar
00:37:24: in die Richtung hin, dass Microsoft
00:37:26: mit ihrem Co-Pilot ein paar
00:37:28: sehr, sehr interessante Dinge gemacht hat,
00:37:30: die, wo ich mir
00:37:32: wirklich die Frage stelle, wie wollt
00:37:34: ihr das in der Realität
00:37:36: umsetzen und seid ihr euch wirklich sicher, was ihr
00:37:38: dort versprecht, denn Microsoft möchte
00:37:40: für Rechtsverletzungen,
00:37:42: die durch ihren
00:37:44: Co-Pilot passieren, eine
00:37:46: Rechtsschutzversicherung anbieten.
00:37:48: Ich habe keine Ahnung,
00:37:50: wie genau die sich das vorstellt
00:37:52: und was das genau wird, aber es
00:37:54: schlägt halt genau in diese Kerbe rein, weil
00:37:56: gerade beim Urheberrecht haben wir ja viele
00:37:58: Hebel und Möglichkeiten, dass
00:38:00: man sich eben auch dagegen rechtlich wehren kann,
00:38:02: dass die Daten irgendwie verwendet werden
00:38:04: und von daher, das knüpft
00:38:06: so schön an das Thema an. Also,
00:38:08: lass uns das mal
00:38:10: beim nächsten Mal besprechen
00:38:12: und dann können wir ja auch gucken,
00:38:14: ob die deutsche Sprache bis dahin
00:38:16: vielleicht schon etwas stärker verarmt ist.
00:38:18: Ja, gerne.
00:38:20: Schlusswort von mir nur, du hast recht,
00:38:22: für den normalen Menschen sind
00:38:24: eigene KI-Systeme schwierig zu errichten,
00:38:26: da muss er technische Kenntnisse haben, aber
00:38:28: für Unternehmen ist es meiner Meinung nach
00:38:30: die erste Wahl, vor allem, weil wir ja da nicht
00:38:32: nur über Datenschutz reden, sondern auch über Geschäftsgeheimnisse
00:38:34: und vertrauliche Daten, NDA
00:38:36: und so weiter, also sollten die Unternehmen, die da sind,
00:38:38: da mal drüber nachdenken. Sie haben vor allem auch
00:38:40: oft viel bessere Ergebnisse, als ChatGPT
00:38:42: sie liefern kann, so wahnsinnig das klingt.
00:38:44: Das ist sehr spannend.
00:38:46: Ich glaube, wir sollten auch mal irgendwie
00:38:48: dazu übergehen, mal so Testings
00:38:50: mit deiner KI zu machen und zu gucken,
00:38:52: was das so im Unterschied rauskommt, wenn dann
00:38:54: ChatGPT was rausgibt und wenn deine KI
00:38:56: was rausgibt, was da so die Unterschiede sind
00:38:58: und was wir daraus lernen können.
00:39:00: Ein unglaublich spannendes Thema.
00:39:02: Ich danke dir sehr,
00:39:04: sehr für die Aufklärung
00:39:06: in diesem Thema und finde das
00:39:08: unglaublich spannend. Wir werden das, wie gesagt,
00:39:10: nochmal neu aufgreifen und dann würde
00:39:12: ich sagen an alle Zuhörer da draußen, vielen Dank
00:39:14: fürs Zuhören. Ich hoffe, ihr habt eine Menge gelernt,
00:39:16: so wie ich und ich hoffe, dass beim nächsten
00:39:18: Mal Klaus uns dann auch
00:39:20: noch belehren kann darüber, was der
00:39:22: Microsoft Co-Pilot für uns denn bereit
00:39:24: hält und ja, in diesem
00:39:26: Sinne würde ich sagen, vielen Dank Klaus,
00:39:28: vielen Dank an alle da draußen und
00:39:30: macht euch noch einen schönen Tag.
00:39:32: Stephan, ich danke dir, ich danke den Zuhörern
00:39:34: fürs Dranbleiben und wünsche eben
00:39:36: jedenfalls allen einen angenehmen Tag.
00:39:38: Tschüss. Ciao.
Neuer Kommentar