#37 Künstliche Intelligenz: Der Nutzungsvorbehalt von Urhebern, den es nicht gibt

Shownotes

Der Podcast rund um das Thema Datenschutz und IT. Mit Dr. Klaus Meffert und Stephan Plesnik.

37 Künstliche Intelligenz: Der Nutzungsvorbehalt von Urhebern, den es nicht gibt

Der deutsche Gesetzgeber erfindet eigene technische Standards, die an der Realität vorbeigehen. Anstatt technische Konventionen zu nutzen, die seit Jahrzehnten etabliert sind, werden neue Realitäten ersonnen. Dies wird dazu führen, dass die deutsche Sprache in KI-Sprachmodelle weiter verarmen wird. Gut für alle in Deutschland, die keine Chatbots nutzen möchten.
Begleitartikel zur Folge: https://dr-dsgvo.de/kuenstliche-intelligenz-der-nutzungsvorbehalt-den-es-nicht-gibt
Kleine Korrektur: UrhG = Urheberrechtsgesetz
Dies und einiges mehr in der aktuellen Episode von Datenschutz Deluxe.

Feedback geben? Fragen stellen? Gerne hier:
https://dr-dsgvo.de
Videokanal von Stephan: https://www.youtube.com/datenschutzistpflicht
Impressum:
https://dr-dsgvo.de/impressum
Inhaltlich verantwortlich ist jeder der Sprecher für seine eigenen Äußerungen.

Transkript anzeigen

00:00:00: Hallo und herzlich willkommen beim Datenschutz Deluxe Podcast. Ich bin Stephan Plesnik und bei

00:00:17: mir ist wieder mal Dr. Klaus Meffert. Klaus, wie geht es dir?

00:00:21: Stephan, mir geht es gut. Dir auch, habe ich eben schon vernommen im Vorgespräch und insofern

00:00:26: freue ich mich, dass wir jetzt über ein spannendes Thema sprechen.

00:00:28: Ja, wunderbar. Dann steigen wir auch direkt mal rein. Liebe Zuhörer, Zuhörerinnen und diverse

00:00:33: dazwischen und drumherum und außerhalb. Wir sprechen heute über das Thema künstliche

00:00:39: Intelligenz, aber mit einem ganz besonderen Twist und zwar dem sogenannten Nutzungsvorbehalt,

00:00:46: der laut Paragraf 44b Urheberrechtsgesetz, der jetzt wohl irgendwie neu eingefügt wurde und

00:00:53: neu behandelt wurde, wenn ich es richtig verstanden habe, die Möglichkeit geben soll,

00:00:58: dass Menschen bzw. Webseiten einen Nutzungsvorbehalt ihrer Informationen, die sie veröffentlichen,

00:01:05: im Rahmen von KI-Verwendung, also Crawling und auch KI-Training aussprechen dürfen. Und da gibt

00:01:12: es dann doch wohl sehr große Diskrepanzen Richtung, wann ist das automatisiert möglich und wann muss

00:01:19: man da eine manuelle Einschränkung machen und warum manuelle Einschränkungen nicht funktionieren.

00:01:24: Und damit ich mich hier nicht zu weit aus dem Fenster lehne, weil ihr schon merkt, ich habe

00:01:28: keine Ahnung von dem Thema, gebe ich mal ab an dich, Klaus. Klär uns doch mal allgemein auf,

00:01:32: was ist der Sachverhalt, worum geht es da, was ist genau der Gegenstand dieser schwierigen Thematik?

00:01:39: Ja, vielen Dank Stephan für die Einladung. Urhebergesetz heißt es, nicht Urheberrechtsgesetz,

00:01:43: (-->Korrektur: Urheberrechtsgesetz ist richtig!). Ist nicht schlimm, nur dass wir hier UrhG abgekürzt,

00:01:48: normalerweise hat man damit ja wenig zu tun. Also es geht darum, der deutsche Gesetzgeber

00:01:53: hat für das Text- und Data-Mining und erzählt dann auch künstliche Intelligenz dazu,

00:01:58: sagt, wenn du, Stephan, eine Webseite hast zum Beispiel und da sind Online-Texte drauf von dir,

00:02:03: zum Beispiel Wissensartikel oder sowas, dann sollst du das Recht haben, anderen zu untersagen,

00:02:11: diese Informationen, die du ja selbst erstellt hast, du bist der Urheber, zu verwenden,

00:02:16: um damit eine künstliche Intelligenz zu trainieren. Text- und Data-Mining zu betreiben, um es genauer zu sagen.

00:02:26: Das heißt, die Frage ist, wo ist der Urheber? Das ist eine Frage, die wir uns immer wieder fragen,

00:02:28: wo auf deiner Webseite gibst du das an, weil künstliche Intelligenz basiert ja auf Massendaten.

00:02:33: Es ist also nicht so, typischerweise jedenfalls, ist es nicht so, dass da irgendein Mensch

00:02:38: seitenweise Copy und Paste von Webseiten betreibt, ja, 100.000 Links manuell aufruft

00:02:43: und dann die Inhalte rauskopiert oder so, sondern da wird ein Programm geschrieben,

00:02:48: ein sogenannter Crawler, der ja auch für Suchmaschinen verwendet wird,

00:02:51: ja exakt derselbe Crawler wird auch für Suchmaschinen verwendet und diese Suchmaschine geht dann auf deine Webseite,

00:02:57: auf die Startseite zum Beispiel und liest dann alle Seiten, die da intern verlinkt sind, ein,

00:03:03: ruft die ab und liest die Inhalte ein, also auch deine Wissensartikel.

00:03:07: Und dieser Crawler, der ist wie gesagt für Suchmaschinen identisch wie für jegliche andere Datenverarbeitenden Systeme

00:03:14: wie KI-Systeme, weil diese Crawler sind erstmal dumm.

00:03:18: Und diese Inhalte werden dann in KI eingegeben und die KI lernt damit sozusagen intelligent zu sein,

00:03:23: anhand des Wissens, was sie da gelernt hat, wenn du natürlich nur Unsinn schreiben würdest,

00:03:27: was jetzt hoffentlich nicht der Fall ist, dann würde die KI Unsinn lernen.

00:03:31: Also ich schreibe grundsätzlich nur Unsinn ins Internet, das ist meine liebste Tätigkeit.

00:03:38: Okay, das heißt, du sagst, wir haben es da eigentlich mit demselben Prozess zu tun, den wir auch von Suchmaschinen kennen.

00:03:45: Es werden Daten in großen Mengen automatisiert ausgelesen.

00:03:49: Jetzt ist es ja so, dass wir auf Webseiten Methodiken haben, um das zu steuern.

00:03:53: Angeblich, und das ist, ich sage bewusst, angeblich unter Vorbehalt,

00:03:57: gibt es da ja sowas wie zum Beispiel eine Robots-TXT, die eben diesen Crawling-Bots, wie sie genannt werden,

00:04:03: bestimmte Rechte zugesteht oder nicht zugesteht und denen sagt, wenn die auf die Webseite kommen,

00:04:08: die sollen sich bitte von der Webseite fernhalten zum Beispiel.

00:04:11: Das wäre ja so eine Art Automatismus, der diesen Nutzungsvorbehalt aussprechen könnte.

00:04:16: Richtig oder falsch?

00:04:18: Richtig.

00:04:19: Mhm.

00:04:20: Und wenn ich jetzt so eine Robots-TXT habe, dann weiß ich aus der Vergangenheit, dass man da im Endeffekt,

00:04:27: so ziemlich jedem Crawler einzeln irgendwie sagen muss, ich möchte bitte, dass du das lässt,

00:04:33: dass du das hier nicht indizierst, den Inhalt auf meiner Seite.

00:04:37: Muss ich dann ergo auch wissen, von jeder einzelnen KI, die irgendwo rumfleucht im Internet und da guckt,

00:04:46: wie ich die ausschließe, weil dann, also das ist ja dann unmöglich für ein Unternehmen oder auch für eine Privatperson zu machen, oder nicht?

00:04:54: Also du hast es genau richtig gesagt.

00:04:55: Sehr gut gesagt.

00:04:56: Also bei den Suchmaschinen hat man das Problem ja auch schon.

00:05:00: Wobei es ist so, man kann entweder alle Suchmaschinen verbieten oder auch einzelne oder auch Suchmaschinen erlauben.

00:05:10: Und ich glaube, es ist möglich, da die Reihenfolge wohl auch wichtig ist, man erlaubt zum Beispiel erst der Suchmaschine DuckDuckGo die Webseite einlesen zu dürfen

00:05:20: und danach verbietet man allen anderen, also mit dem Stern sozusagen.

00:05:23: Also allow DuckDuckGo.

00:05:25: Disallow heißt es dann.

00:05:26: Also verbiete, Stern.

00:05:28: Das würde dazu führen, wenn ich es richtig weiß, dass nur DuckDuckGo deine Webseite einlesen darf, also als Suchmaschine und alle anderen danach sehen, ich darf es nicht.

00:05:36: Also das heißt, man müsste jetzt nicht mehr wissen, es gibt 7000 Suchmaschinen, die muss ich allen einzelnen erlauben oder verbieten,

00:05:43: sondern es reicht, wenn ich Einzelnen es erlaube oder auch sage, ich verbiete es Einzelnen.

00:05:47: Weil wenn wir ehrlich sind, bei Suchmaschinen, da gibt es vielleicht mittlerweile maximal 10, die man als halbwegs relevant bezeichnen mag oder relevant.

00:05:56: Darüber hinaus keine.

00:05:58: Und wenn es noch weitere gibt, dann sind die halt da, aber ja, Probleme wird es damit wohl nicht geben.

00:06:03: Bei KI-Systemen ist es ein bisschen anders.

00:06:06: Wie du sagst, man müsste wissen, wie heißen die denn?

00:06:09: Also will ich denn, dass kein KI-System meine Daten einliest?

00:06:13: Das will ich zum Beispiel, ich will es, dass kein KI-System meine Daten auf einer Webseite nimmt, außer mein eigenes.

00:06:20: Das darf ich mir ja selbst auch erlauben, da brauche ich kein Erlaubnis, weil ich ja der Urheber bin.

00:06:24: Ja.

00:06:25: Ja.

00:06:26: Ja.

00:06:27: Ja.

00:06:28: Ja.

00:06:29: Ja.

00:06:30: Ja.

00:06:31: Ja.

00:06:54: Ja.

00:06:54: richtig verstanden habt, dann ist es so, dass quasi diese Nutzungsvorbehalte auf einer Webseite

00:07:00: ausdrücklich erklärt werden müssen, sodass diese automatisierten Systeme, dieses Data Mining,

00:07:08: dann nicht mehr betreiben, aber das wohl irgendwie nicht möglich ist, technologisch umzusetzen,

00:07:14: sondern man das irgendwie manuell erklärt und das ist dann der KI aber wieder egal,

00:07:18: weil die KI automatisiert arbeitet oder irgendwie so.

00:07:21: Ja, also es ist so, der deutsche Gesetzgeber hat ein eigenes, also der hat zum Gesetzentwurf

00:07:29: des Urhebergesetzes, hat er gesagt, also im Urhebergesetz selbst steht nur drin,

00:07:34: dass der Nutzungsmoment, also hier steht, Nutzungen nach Absatz 2 Satz 1,

00:07:42: das ist also Vervielfältigung für das Text und Data Mining, also Einlesen der Webseite,

00:07:47: ist nur zulässig, wenn der rechte Inhaber, also du, wenn es deine Webseite ist,

00:07:51: sich diese Nutzung deiner Inhalte durch die KI nicht vorbehalten hat

00:07:56: und ein Nutzungsvorbehalt bei online zugänglichen Werken, also bei deiner Webseite,

00:08:01: ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.

00:08:04: Also du musst den Nutzungsvorbehalt maschinenlesbarer Form aussprechen,

00:08:07: da könnte man die Robots.txt-Datei natürlich nehmen, weil die versteht jeder.

00:08:11: Jetzt hat aber in der Kommentierung, also in der Drucksache zum Deutscher Bundestag-Gesetzesentwurf,

00:08:21: zu diesem Urhebergesetz, Paragraf 44b, Drucksache 19-27426,

00:08:27: hat der deutsche Gesetzgeber dummerweise gesagt, dass dieser Nutzungsvorbehalt

00:08:33: auch im Impressum oder in den allgemeinen Geschäftsbedingungen AGB enthalten sein kann oder soll,

00:08:40: sofern er auch dort maschinenlesbar ist.

00:08:44: Und das ist einfach Bullshit.

00:08:46: Diese Forderung ist Bullshit.

00:08:48: Ich kann es auch gerne erklären, warum.

00:08:51: Also zunächst mal weiß ja eine Maschine nicht, wo ein Impressum oder die allgemeinen Geschäftsbedingungen auf deiner Webseite sind.

00:09:00: Der Text ist ja erstmal Text.

00:09:03: Genau, Text ist Text und es nennt ja auch nicht jeder sein Impressum,

00:09:07: impressum.html oder slash impressum,

00:09:10: sondern könnte man auch nennen, rechtliche Informationen oder Seite Nummer 49,

00:09:18: oder manche vermischen auch die Datenschutzhinweise,

00:09:21: mit dem Impressum, das ist dann eine Seite, wo erst die Datenschutzhinweise kommen,

00:09:24: dann kommt das Impressum oder sie schreiben es auf die Startseite unten in der Fußzeile oder sonst irgendwo.

00:09:30: Also ich meine, es ist nicht so trivial, ein Impressum als solches zu erkennen.

00:09:34: Das kann ich sagen, es gelingt zwar sehr oft, aber eben nicht immer.

00:09:38: Und bei den AGBs ist es noch viel schlimmer.

00:09:39: Da gibt es ja oft auch PDF-Dateien, die müssen dann eingelesen werden.

00:09:43: Oft sind AGBs dann vielleicht auch zweispaltig geschrieben.

00:09:46: Und ich kann aus Erfahrung berichten, dass es technisch sehr herausfordernd ist,

00:09:50: ein mehrspaltiges PDF.

00:09:51: Das ist ja auch ein sehr schwieriges Dokument,

00:09:53: so einzulesen, dass der Text nicht zerwürfelt wird.

00:09:55: Also nur technische Probleme über Probleme.

00:09:57: Aber dann haben wir ja erst mal darüber gesprochen,

00:09:59: dass die Maschine das Impressum oder die AGB-Seite überhaupt gefunden hat.

00:10:03: Wir reden dann ja erst noch darüber,

00:10:05: dass die Inhalte dieser Seiten auch noch verstanden werden müssen von dem dummen Crawler.

00:10:11: Also es ist nämlich so, dass viele meinen, ein KI-Crawler sei bereits intelligent.

00:10:17: Das ist aber falsch.

00:10:19: Das ist nicht wahr.

00:10:20: Ja, der wird ja erst durch die Daten,

00:10:21: die er gecrawlt hat, später in der Verarbeitung intelligent.

00:10:24: Beim Crawling ist das ja einfach nur ein Sammeln von Informationen.

00:10:28: Genau, wie du sagst.

00:10:30: Wir reden über ein KI-System.

00:10:32: Und die Vorstufe des KI-Systems ist der Crawler.

00:10:35: Und die Hauptkomponente ist ein sogenanntes KI-Modell,

00:10:40: in dem Fall jetzt ein Sprachmodell beispielsweise, wie ChatGPT,

00:10:44: was aufgrund der Daten, die der dumme Crawler liefert,

00:10:48: überhaupt sich erst Intelligenz verschaffen kann.

00:10:50: Also erzogen wird mit diesen Daten.

00:10:52: Das heißt, der Crawler selbst ist dumm.

00:10:54: Der liefert einfach nur Daten.

00:10:56: Der kann also nicht ein Impressum verstehen.

00:10:58: Und angenommen, der Crawler wäre nicht dumm,

00:11:01: weil er nämlich schon auf eine KI zugreifen kann,

00:11:03: dann würde das die großen Unternehmen,

00:11:05: die schon die KI-Systeme haben, deutlich bevorzugen.

00:11:08: Ja, absolut.

00:11:09: Weil wir beide wissen, ChatGPT gibt es schon.

00:11:12: Der Crawler kann auch im Hintergrund ChatGPT fragen.

00:11:15: Aber wenn du jetzt eine KI erstellen möchtest,

00:11:18: dann kannst du deine KI nicht fragen.

00:11:19: Weil es die nämlich noch nicht gibt.

00:11:21: Also wärst du benachteiligt als kleiner Anbieter.

00:11:24: Also das kann jetzt auch nicht ernst gemeint sein.

00:11:27: Und unabhängig davon behaupte ich,

00:11:30: ich habe nämlich eine Diskussion in einem sozialen Netzwerk gemacht,

00:11:34: da hat eine Dame, also ernsthaft,

00:11:38: es war jetzt nicht spaßig gemeint oder so,

00:11:40: als Nutzungsvorbehalt einen Satz vorgeschlagen, der lautet,

00:11:44: ich habe es nachgeguckt extra,

00:11:46: jegliche Datennutzung, also auf ihrer Webseite,

00:11:49: jegliche Datennutzung ist ausschließlich zum Zweck des Informationsgewinns

00:11:53: in menschlichen neuronalen Netzen bestimmt.

00:11:59: Ich bezweifle, dass ein Mensch überhaupt versteht,

00:12:03: was sie damit sagen will,

00:12:04: der nicht weiß, dass es den §44 Urhebergesetz gibt.

00:12:07: Und erst recht bezweifle ich,

00:12:10: dass eine KI diesen Satz zuverlässig verstehen kann.

00:12:13: Ja, absolut.

00:12:15: Gerade nicht beim Crawling,

00:12:16: weil da ist ja noch kein Verständnisprozess.

00:12:17: Das ist ja erst mal nur der Sammelpunkt,

00:12:18: das ist ja erst mal nur der Sammelprozess.

00:12:20: Also diese Information muss ja dann später

00:12:22: von dem KI-System richtig interpretiert werden

00:12:25: und auch im Zusammenhang.

00:12:27: Du sagst es.

00:12:28: Also zunächst ist der Crawler dumm

00:12:30: und dann, selbst wenn es eine KI gäbe,

00:12:32: ich bezweifle auch, dass ChatGPT,

00:12:34: möglicherweise hat ChatGPT auch Probleme,

00:12:36: diesen Satz mit dem §44 BU-Höfergesetz

00:12:39: in Verbindung zu bringen.

00:12:41: Und also der Punkt ist,

00:12:46: derjenige, der diese Webseite einliest,

00:12:48: also der KI-Crawler,

00:12:50: der Crawler, der soll dann beweisen später,

00:12:53: wenn es einen Streit gibt,

00:12:55: dass dieser Nutzungsvorbehalt nicht da war

00:12:58: zum Zeitpunkt X, als die Webseite eingelesen wurde.

00:13:01: Ist da denn nicht sowieso diese generelle Problematik?

00:13:07: Also gehen wir uns mal davon aus,

00:13:09: wenn ich ChatGPT benutzt habe,

00:13:11: nur jetzt als Beispiel, weil das jeder kennt,

00:13:13: dann ist mir das noch nie passiert,

00:13:14: dass der bei seiner Antwort auch nicht sagt,

00:13:15: dass er bei seiner Antwort automatisiert

00:13:17: Querverweise mit Quellenbezügen mit ausgespuckt hat

00:13:20: und gesagt hat, die Informationen,

00:13:21: die ich dir gerade zurückgebe,

00:13:22: die habe ich von da und daher

00:13:23: und die stehen so und so in Zusammenhang zueinander,

00:13:25: weil das müsste doch eigentlich erst möglich sein,

00:13:27: damit ich überhaupt nachvollziehen kann,

00:13:29: als derjenige, der die Informationen aus der KI zurückbekommt,

00:13:32: die er eingefordert hat,

00:13:34: dass bestimmte Urheberrechtsverletzungen vorliegen können,

00:13:37: die eben zum Beispiel auch durch so ein Nutzungsverbot

00:13:40: oder Nutzungsvorbehalt

00:13:42: dann eben eigentlich hätten nicht ausgegeben werden dürfen.

00:13:44: Aber das machen die KI ja nicht, die Systeme.

00:13:47: Die sagen ja nur die Antwort.

00:13:49: Die sagen ja nicht, ich habe diese Antwort

00:13:51: aus den und den Daten an den und den Quellen gelernt.

00:13:54: Genau, das machen sie nicht.

00:13:56: Du hast recht, eine eigene KI,

00:13:58: die ich jetzt gerade für den Kunden erstelle

00:14:00: oder erstellt habe zum großen Teil,

00:14:02: die gibt immer zu jeder Antwort die Quellen zurück,

00:14:04: auf Basis derer die Antwort gegeben wurde.

00:14:07: Da kann man also nicht nur sehen, welche Dateien,

00:14:09: also Dokumente es sind,

00:14:11: in denen die Antwortteile gefunden wurden,

00:14:14: sondern man kann auch sehen,

00:14:16: welche Auszüge aus diesen Dokumenten genommen wurden,

00:14:19: um die Antwort zu generieren.

00:14:21: Also nicht nur ein ganzes Dokument als Stück,

00:14:23: sondern auch ein Abschnitt wird dann sogar genannt.

00:14:25: Also da kann und sollte man dann nachlesen,

00:14:28: stimmt das denn, was die KI da generiert hat.

00:14:30: Und hier ist es eben so,

00:14:32: ich kann einfach nur sehr schwer

00:14:34: oder oft auch gar nicht nachträglich beweisen,

00:14:36: dass am 17.04.2023

00:14:39: der Nutzungsvorbehalt nicht auf einer Seite war.

00:14:42: Ich meine, dieser Negativbeweis ist immer sehr schwer.

00:14:44: Das pervertiert übrigens auch das Gesetzesvorhaben so ein bisschen.

00:14:49: Denn jetzt nehmen wir mal an,

00:14:51: deine Webseite hat 10.000 Unterseiten.

00:14:53: Das gibt es sehr oft, oder noch mehr Unterseiten.

00:14:55: Spiegel Online und wie sie alle heißen.

00:14:57: Die haben Hunderttausende.

00:14:59: Und wenn du dir viel Mühe gibst, kommst du auch auf 10.000.

00:15:01: Du musst halt jeden Tag ein paar Artikel schreiben.

00:15:03: Mit einer KI zum Beispiel.

00:15:05: Genau, ich lasse die schreiben

00:15:07: und dann beschwere ich mich später,

00:15:09: dass jemand meinen Nutzungsvorbehalt missachtet hat.

00:15:11: Das wäre auch schön, da wird es ja noch irrer.

00:15:14: Ist möglich.

00:15:16: Es muss halt einmalig sein.

00:15:20: Und es darf niemand sehen,

00:15:22: dass es mit einer KI generiert wurde.

00:15:24: Weil es gibt manche Leute, die sagen,

00:15:26: also in den USA heißt es wohl, die Rechtslage wohl so,

00:15:28: wenn ich es richtig gelesen habe,

00:15:30: dass KI generierte Inhalte nicht schützenswert sind,

00:15:32: was ich für Schwachsinn halte.

00:15:34: Also ich will jetzt niemanden wirklich verteidigen oder so,

00:15:36: aber ich bin für die Urheber.

00:15:38: Aber ganz ehrlich, wenn du ein Bild malst

00:15:40: und dasselbe Bild wäre durch eine KI entstanden,

00:15:42: wo ist da der Unterschied?

00:15:44: Oder du schreibst einen Text

00:15:46: und derselbe Text wörtlich wäre durch eine KI entstanden,

00:15:49: also kreativ.

00:15:50: Wo ist da der Unterschied, ob du es warst oder eine KI?

00:15:53: Ich sehe da den Unterschied.

00:15:55: Das Ergebnis ist dasselbe.

00:15:57: Also warum soll es einen Unterschied machen,

00:15:59: wer es erstellt hat?

00:16:01: Also da maßt sich der Mensch wieder irgendwas an,

00:16:03: also dann verrate ich einfach niemandem,

00:16:05: dass ich es durch eine KI generiert habe.

00:16:07: Fertig.

00:16:08: Ich meine, wenn es daran liegt,

00:16:09: dann erzähle ich es einfach keinem.

00:16:11: Absolut.

00:16:12: Da gibt es natürlich dann wieder andere,

00:16:14: die bei Bildgenerierung insbesondere,

00:16:16: werden dann so unsichtbare Informationen ins Bild reingeneriert,

00:16:18: dass man sieht, es war eine KI.

00:16:20: Aber ganz ehrlich,

00:16:21: ich habe einen Bildgenerierungsmechanismus

00:16:23: bei mir auf dem System,

00:16:24: da gibt es diesen Schutzmechanismus nicht,

00:16:27: weil ich nämlich nicht drin haben möchte.

00:16:29: Man muss, also meiner Meinung nach,

00:16:31: ist der Kern des Problems ein anderer.

00:16:33: Also zunächst mal,

00:16:35: also nochmal zu dem Perversen, was ich sagen wollte.

00:16:37: Angenommen, deine Webseite hat 100.000 oder 10.000 Unterseiten.

00:16:40: Um sicherzustellen,

00:16:42: dass du keine Nutzungsvorbereitung hast,

00:16:44: oder halt irgendwo formuliert hast,

00:16:46: müsste ich ja alle deine Unterseiten einlesen.

00:16:48: Mhm.

00:16:50: In Wirklichkeit wollte ich aber eigentlich

00:16:52: nur eine PDF-Data einlesen,

00:16:54: auf die ich einen Deeplink,

00:16:56: also der Crawler einen Deeplink gefunden hat.

00:16:58: Mhm.

00:16:59: Ich habe auf meiner Webseite ein PDF-Dokument

00:17:01: oder ein Video von dir auf deiner Webseite verlinkt.

00:17:04: Video kann man ja auch ein Transkript draus machen,

00:17:06: da habe ich deine Sprache.

00:17:08: Das heißt, eigentlich wollte der Crawler

00:17:10: nur eine Seite von deiner Webseite einlesen.

00:17:12: Jetzt kommt der deutsche Gesetzgeber an,

00:17:14: der muss aber,

00:17:16: und zwingt den Crawler,

00:17:18: er soll nach dem Nutzungsvorbehalt suchen.

00:17:20: Jetzt muss er ja alle Seiten durchsuchen,

00:17:22: um sicherzugehen, dass nirgendwo der Nutzungsvorbehalt drauf ist,

00:17:24: beziehungsweise auch noch die Seiten eigentlich ja abspeichern,

00:17:26: wenn man es konsequent betrachtet, ja?

00:17:28: Abspeichern.

00:17:30: Klar, sonst kann er ja nicht nachweisen,

00:17:32: dass er den gefunden hat.

00:17:34: Ja, wie soll ich, wenn mir dann jemand sagt,

00:17:36: du darfst die Seiten nicht abspeichern,

00:17:38: dann sage ich ja, wie soll ich denn da nachweisen,

00:17:40: dass der Nutzungsvorbehalt nicht da war?

00:17:42: Also, ich bin ja ein User,

00:17:44: und also meiner Meinung nach

00:17:46: ist das Kernproblem ein anderes.

00:17:48: Also erstmal, die Lösung wäre,

00:17:50: der deutsche Gesetzgeber hätte einfach schreiben müssen,

00:17:52: in der Robots.txt-Datei,

00:17:54: die seit 25 Jahren oder wie lang Standard ist,

00:17:56: ich weiß es nicht,

00:17:58: hätte man einfach

00:18:00: reinschreiben können,

00:18:02: müssen, wer das nicht will,

00:18:04: dass seine Seiten, Inhalte eingelesen werden

00:18:06: durch eine KI, oder genutzt werden durch eine KI,

00:18:08: muss man ja sagen, eingelesen werden sie ja nicht

00:18:10: durch eine KI, sondern durch einen Crawler.

00:18:12: Also, wenn du sagst, dass deine Webseite

00:18:14: durch eine KI genutzt wird,

00:18:16: der schreibt in die Robots.txt-Datei

00:18:18: einen entsprechenden Eintrag rein.

00:18:20: Da hätte man sich auf eine Konvention einigen können,

00:18:22: vielleicht auch mit dem User-Agent, wie es schon da ist,

00:18:24: da musst du dann, musst du das respektieren.

00:18:26: Wenn da steht User-Agent allow,

00:18:28: also erlaube Dr. Go,

00:18:30: und disallow Stern, also alle anderen sind verboten,

00:18:32: dann bist du als KI-Crawler

00:18:34: auch verboten.

00:18:36: So, das wäre einfach und eindeutig,

00:18:38: und da müsste man nicht weiter drüber diskutieren.

00:18:40: Aber dann hätten wir ja jetzt

00:18:42: eine Sendung.

00:18:44: Also sehen wir das mal so.

00:18:46: Es gibt auf jeden Fall technologisch gesprochen

00:18:48: einen sehr einfachen Workaround,

00:18:50: um dieses gesamte

00:18:52: Nutzungsrechte- und Urheberrechte-Problem

00:18:54: zu umgehen,

00:18:56: zumindest beim Indizieren von eigenen Webseiten.

00:18:58: Jetzt ist es aber ja so,

00:19:00: wir haben ja den

00:19:02: Datenschutz Deluxe Podcast,

00:19:04: und jetzt haben wir ja auch viel schon über

00:19:06: KI und die Verwendung von

00:19:08: personenbezogenen Daten innerhalb von

00:19:10: KI-Systemen geredet, und da haben wir ja auch schon

00:19:12: in den letzten Gesprächen festgestellt,

00:19:14: dass es nicht zuverlässig möglich ist,

00:19:16: personenbezogene Daten

00:19:18: eben von KI-Systemen auszuschließen

00:19:20: oder dafür zu sorgen, dass die

00:19:22: die nicht wieder rausgeben.

00:19:24: Wenn wir jetzt mal davon ausgehen,

00:19:26: wir haben ja auch Millionen von

00:19:28: Informationen auf Webseiten, die nicht uns selbst

00:19:30: gehören.

00:19:32: Nehmen wir mal ein soziales Netzwerk,

00:19:34: das Informationen auch nach

00:19:36: Außenpreis geben kann.

00:19:38: Ich sage nicht, dass das tendenziell immer passiert,

00:19:40: aber es ist nun mal so, dass der Nutzer ja auch selber bestimmen kann,

00:19:42: zum Beispiel wer eine Facebook-Page hat,

00:19:44: kann ja selber bestimmen, was nach

00:19:46: Außen gezeigt wird, auch für die Nicht-Nutzer

00:19:48: von Facebook.

00:19:50: Wenn da jetzt Informationen liegen,

00:19:52: dann kann die KI die ja auch lesen,

00:19:54: wenn die die Seite Facebook

00:19:56: crawlt. Und wenn die diese

00:19:58: Facebook-Seite crawlt, dann crawlt die

00:20:00: ja erstmal einfach wild alles,

00:20:02: was es da zu crawlen gibt,

00:20:04: was quasi öffentlich verfügbar ist.

00:20:06: Wenn ich jetzt

00:20:08: aber da als Urheber, sage ich mal,

00:20:10: irgendwas hochgeladen habe,

00:20:12: was dann da in der Öffentlichkeit sieht,

00:20:14: ist es dann so, dass ich aufgrund

00:20:16: der Tatsache, dass ich das soziale Netzwerk

00:20:18: nutze, rechtlich betrachtet

00:20:20: meine Nutzungsrechte ja schon abgetreten

00:20:22: habe und deswegen auch kein Recht

00:20:24: mehr habe zu sagen, Facebook, du musst

00:20:26: bitte unterbinden, dass meine Informationen

00:20:28: von einer KI verwendet werden?

00:20:30: Oder habe ich meine Nutzungsrechte

00:20:32: per se erstmal nur an Facebook abgegeben?

00:20:36: Ja, das ist eine sehr gute Frage.

00:20:38: Ich kenne die genaue Antwort nicht, muss ich sagen.

00:20:40: Da habe ich mir noch keine tiefergehenden Gedanken

00:20:42: gemacht, eine sehr gute Frage.

00:20:44: Also soweit ich weiß, von früher auch,

00:20:46: ist es so, dass Facebook sich alle Rechte

00:20:48: geben lässt von den Nutzern,

00:20:50: die Facebook nutzen oder Instagram

00:20:52: oder WhatsApp und diese Inhalte alle von

00:20:54: Meta verwendet werden dürfen, angeblich.

00:20:56: So habe ich es mal verstanden.

00:20:58: Ob das dann rechtlich haltbar ist, ist eine andere Frage,

00:21:00: aber ich glaube, Meta möchte das so.

00:21:02: Alles, was du da reinschreibst, kann Meta

00:21:04: zu beliebigen Zwecken verwenden, sage ich mal,

00:21:06: etwas vereinfacht. Das halte ich für

00:21:08: rechtswidrig, aber so ist es, glaube ich,

00:21:10: von Meta gewünscht.

00:21:12: Und das würde ja dazu führen,

00:21:14: dass, also du bist immer noch der

00:21:16: Urheber, der kann auch niemand anders sein.

00:21:18: Die Frage ist allerdings, wie

00:21:20: könntest du denn jetzt einen Nutzungsvorbehalt

00:21:22: formulieren? Da müsstest du

00:21:24: ja, du kannst ja keine Robots.txt

00:21:26: Datei von Facebook.com ändern

00:21:28: als Nutzer von Facebook. Genau.

00:21:30: Und da müsstest du ja über,

00:21:32: ein Impressum hast du zwar, da könnte man

00:21:34: sagen, okay, auf deiner Facebook-Fanpage

00:21:36: könntest du ein Impressum verlinken, musst du ja meistens auch.

00:21:38: Da könntest du es reinschreiben, aber wenn du

00:21:40: jetzt einen Kommentar irgendwo reinschreibst, gut, das ist natürlich

00:21:42: kein urheberrechtlich geschütztes Werk normalerweise,

00:21:44: ein Kommentar. Ja. Wenn du jetzt aber

00:21:46: ein Bild postest,

00:21:48: in den Kommentar rein, ich glaube, das geht, oder?

00:21:50: Ja. Dann

00:21:52: wäre das ja, könnte ja auch ein Werk von dir

00:21:54: sein, auch ein Werk,

00:21:56: was nicht einfach so weiter

00:21:58: verwendet werden darf. Da könnte man natürlich drüber streiten,

00:22:00: wenn du nicht möchtest, dass dein Werk

00:22:02: verteilt wird in der Öffentlichkeit, dann solltest du es nicht auf sozialen

00:22:04: Medien posten, weil dann wird es garantiert verteilt.

00:22:06: Absolut, dafür sind sie ja da.

00:22:08: Genau, also die Frage

00:22:10: wäre, gibt es dann überhaupt Inhalte, die schützen,

00:22:12: die nutzenswert sind,

00:22:14: die du auf Facebook postest?

00:22:16: Ich glaube ja, aber es werden sehr wenige

00:22:18: Fälle nur, und da stellt sich

00:22:20: wirklich die Frage, wie kann ich da Nutzungsvorbehalt

00:22:22: formulieren? Da müsste eigentlich

00:22:24: Facebook für sorgen, das kann aber Facebook

00:22:26: machen, wie es will wahrscheinlich.

00:22:28: Zunächst mal, bis es verklagt wird, wenn die sagen,

00:22:30: wir geben keinen Nutzungsvorbehalt, dann

00:22:32: muss, aber eigentlich hat Facebook

00:22:34: ein Interesse daran, dass andere KIs deren

00:22:36: Daten oder die Daten der Facebook-Nutzer

00:22:38: oder Instagram nicht weiterverwenden, weil

00:22:40: dann kann es Meta alleine machen. Also insofern,

00:22:42: müsste eigentlich Meta selbst den Nutzungsvorbehalt

00:22:44: für alle anderen formulieren, aus eigenem Interesse

00:22:46: heraus. So sehe ich es jetzt mal.

00:22:48: Aber es ist eine sehr gute Frage, da müsste

00:22:50: man nochmal tiefer einsteigen. Ich

00:22:52: kann nur das sagen, was ich jetzt eben gerade gesagt habe.

00:22:54: Wenn ich das richtig verstanden habe, dann ist

00:22:58: ja quasi so der Erarbeiter

00:23:00: der Lösungsvorschlag jetzt

00:23:02: für alle Leute, die selber Webseiten

00:23:04: betreiben und da urheberrechtlich

00:23:06: geschützte Werke

00:23:08: in irgendeiner Form, ob jetzt Text, Bild oder

00:23:10: Video veröffentlichen,

00:23:12: der, dass man sagt, okay,

00:23:14: ich habe eine Datei

00:23:16: wie eine Robots.txt, in der

00:23:18: ich zum Beispiel so einen disallowall-Befehl

00:23:20: drin habe und nur

00:23:22: die inkludiere, von denen ich wirklich möchte,

00:23:24: dass sie die Webseite durchsuchen dürfen

00:23:26: und damit hätte ich dann ja im Endeffekt einen

00:23:28: maschinenlesbaren Nachweis, dass ich gesagt

00:23:30: habe, ich habe mich darum gekümmert, allen das zu

00:23:32: verbieten und das schließt eben Suchmaschinen

00:23:34: sowie KI-Systeme

00:23:36: ein, auch wenn die KI-Systeme

00:23:38: selbst vielleicht darauf

00:23:40: keine Rücksicht nehmen, hätte man dann ja zumindest

00:23:42: den schriftlichen Nachweis, dass man das verboten

00:23:44: hat, der sehr viel besser geeignet

00:23:46: ist, als zu sagen,

00:23:48: die KI muss erstmal meine ganze Webseite

00:23:50: indizieren, crawlen und abspeichern, damit sie

00:23:52: Nachweis liefern kann, dass ich irgendwo auf der Webseite

00:23:54: ein Impressum hatte, in dem ich das reingeschrieben habe.

00:23:56: Ja, genau. Habe ich das so richtig

00:23:58: zusammengefasst? Genau, es geht sogar

00:24:00: noch weiter, denn die großen

00:24:02: KIs,

00:24:04: ChatGPT,

00:24:06: Googlebot,

00:24:08: ist ja auch ein Chatbot,

00:24:10: für die gibt es

00:24:12: registrierte User Agents, also

00:24:14: Kennungen,

00:24:16: User Agents ist das gleiche wie bei einer Suchmaschine,

00:24:18: Googlebot für die Google Suchmaschine

00:24:20: oder

00:24:22: ir-archiver oder

00:24:24: archive.org-bot für

00:24:26: die Internet Archive, also Wayback Machine

00:24:28: und diese User Agents

00:24:30: von ChatGPT und Googlebot,

00:24:32: die kann man schon in der Robots.txt Datei

00:24:34: eintragen und die

00:24:36: Google und OpenAI sagen,

00:24:38: wir halten uns da dran, also angenommen sie halten sich dran,

00:24:40: dann wäre das Problem für die schon gelöst, weil sie

00:24:42: selbst schon den Vorschlag gemacht haben,

00:24:44: die Robots.txt Datei zu benutzen, weil es einfach

00:24:46: das einfachste ist. Jeder, der

00:24:48: einen anderen Vorschlag hat, der hat

00:24:50: einfach keine Ahnung, wie die Realität

00:24:52: ist. Und die Politiker, ich erwarte nicht,

00:24:54: dass die alles wissen, aber sie sollten wenigstens

00:24:56: jemanden fragen, der es weiß.

00:24:58: Ja und vielleicht mal die Fragen, die

00:25:00: es selbst entwickeln, auch wenn man sich dann vielleicht

00:25:02: bei der Intention fragen sollte,

00:25:04: mit welcher

00:25:06: Intention die Antworten auf die Frage

00:25:08: und ihre Beratung durchführen, aber immerhin

00:25:10: hat man dann schon mal jemanden, der

00:25:12: mit Fachwissen an der Stelle gefragt

00:25:14: und nicht einfach irgendwas gemacht,

00:25:16: was halt irgendwie in irgendwelchen

00:25:18: verstaubten Rechtstexten vielleicht eher passt.

00:25:20: Weil so wirkt es halt so ein bisschen.

00:25:22: Jetzt geht es noch weiter. Jetzt hat

00:25:24: nämlich sich ein deutscher

00:25:26: Rechtsservice,

00:25:28: fängt mit B an und dann online,

00:25:32: dann kommt danach noch mehr,

00:25:34: ich will jetzt, also sehr unter Juristen

00:25:36: der bekannteste wohl, der hat

00:25:38: nämlich in seinem

00:25:40: Impressum,

00:25:42: Moment, ich muss mal reingehen,

00:25:44: geschrieben,

00:25:46: brav, wie der deutsche Gesetzgeber es

00:25:48: vorgeschrieben oder vorgeschlagen, muss man

00:25:50: sagen, vorgeschrieben hat,

00:25:52: Text- und Datamining gemäß

00:25:54: § 44b UrhG,

00:25:56: der Verlag behält sich das Recht zu

00:25:58: Vervielfältigung für das Text- und Datamining

00:26:00: gemäß § 44b Urbergesetz

00:26:02: vor. Im Impressum, wie gesagt,

00:26:04: da wo es kein Crawler findet,

00:26:06: könnte man sagen, okay, das ist jetzt 44b,

00:26:08: findet man, aber erstmal

00:26:10: muss man das Impressum finden. Und,

00:26:12: dann hat der Verlag

00:26:14: aber, weil er, also die falschen Berater hat,

00:26:16: sage ich, ja, leider vergessen,

00:26:18: in der Robots.txt-Datei das auch noch konsequent

00:26:20: durchzuziehen, da steht nämlich, es ist wirklich

00:26:22: lustig,

00:26:24: in Englisch wohlgemerkt nur, im Impressum steht's

00:26:26: in Deutsch und Englisch, in der Robots.txt

00:26:28: steht's in Englisch als Kommentar

00:26:30: wohlgemerkt, ja. Als Kommentar,

00:26:32: sehr vernünftig, ja.

00:26:34: Steht drinnen, Legal Notice

00:26:36: Verlag so und so, den Namen will ich jetzt einfach nicht nennen,

00:26:38: könnte ich machen, aber will ich nicht,

00:26:40: Verlag so und so, ein deutscher Verlag,

00:26:42: expressly reserves the right

00:26:44: to use its content for commercial text

00:26:46: and data mining in Klammern, Paragraph

00:26:48: 44b, Urheberrechtsgesetz,

00:26:50: da heißt es doch Urheberrechtsgesetz, ich dachte,

00:26:52: das heißt immer Urhebergesetz, aber vielleicht hast du sogar recht.

00:26:54: Das spielt keine Rolle.

00:26:56: Du hast recht, siehst du, da habe ich schon wieder

00:26:58: was gelernt, ich korrigiere mich,

00:27:00: Urheberrechtsgesetz heißt es, du hast recht gehabt.

00:27:02: Ich hab dich falsch korrigiert.

00:27:04: So, und dann, der Witz ist,

00:27:06: steht in der

00:27:08: Robots.txt-Datei aber als echte Einträge,

00:27:10: dass verboten ist, für

00:27:12: ChatGPT

00:27:14: und

00:27:16: CCBot, weiß ich nicht genau, was

00:27:18: das ist, aber vergessen wurde

00:27:20: Google Extended.

00:27:22: Und ich sag mal so, wenn man schon so viel Wert

00:27:24: drauf legt, dass die Inhalte

00:27:26: nicht eingelesen werden für KI-Systeme, dann sollte

00:27:28: man doch wenigstens die wichtigsten zwei Systeme,

00:27:30: nicht nur das

00:27:32: allerwichtigste, ich meine, Google

00:27:34: Bot ist ja schon mittlerweile auch bekannt,

00:27:36: ich meine, ich bin eine Einzelperson, wenn ich was

00:27:38: vergesse, ist es blöd, aber wie viele Menschen

00:27:40: arbeiten in diesem Verlag, oder

00:27:42: für diesen Verlag, da hätte man

00:27:44: das ja wirklich hinkriegen können. Stattdessen

00:27:46: macht man einen Kommentar in

00:27:48: Robots.txt-Datei und vergisst einen wichtigen

00:27:50: Eintrag, der einfach eindeutig gewesen

00:27:52: wäre. Aber ich möchte noch auf

00:27:54: eine Sache hinweisen, also zwei

00:27:56: Sachen. Das eine ist,

00:27:58: es gibt Menschen, die sagen, der

00:28:00: §44b Urheberrechtsgesetz

00:28:02: wäre nicht für generative

00:28:04: KI gemacht.

00:28:06: Da sage ich, das

00:28:08: muss man erstmal beweisen,

00:28:10: sagen Sie mir doch erstmal, was die Definition von

00:28:12: Text- und Datamining ist, steht in §44b

00:28:14: Absatz 1

00:28:16: Urheberrechtsgesetz drin, glaube

00:28:18: ich. Genau,

00:28:20: Text- und Datamining ist die automatisierte Analyse

00:28:22: von einzelnen oder mehreren digitalen

00:28:24: oder digitalisierten Werken, um daraus

00:28:26: Informationen, insbesondere über Muster,

00:28:28: Trends und Korrelationen zu gewinnen.

00:28:30: Genau das

00:28:32: macht eine KI.

00:28:34: Und dann kommen die und sagen, ja, aber eine generative

00:28:36: KI ist ja was anderes.

00:28:38: Und die meinen damit, eine generative KI

00:28:40: erzeugt Ausgaben.

00:28:42: So habe ich es zumindest verstanden.

00:28:44: Und dann sagen sie auch noch,

00:28:46: und das ist pervers, die erzeugt

00:28:48: Ausgaben, die möglichst nah am Original dran sind.

00:28:50: Was aber vollkommen falsch ist.

00:28:52: Ich meine, du hast vielleicht auch schon mal mit KI-Systemen

00:28:54: rumgespielt, auch mit

00:28:56: Bildgenerierungsprogrammen. Ja, klar.

00:28:58: Der Sinn dieser generativen KI ist nicht,

00:29:00: eine 1 zu 1 Abbildung des Originals

00:29:02: zu machen, ein Zitat eines Bildes,

00:29:04: sondern ein möglichst,

00:29:06: sag mal, vielleicht annähernd

00:29:08: teilweise, aber kreativ,

00:29:10: eine kreative Ausgabe zu machen.

00:29:12: Ja, absolut.

00:29:14: Weil es ist ja so, jedes System,

00:29:16: also ich behaupte mal,

00:29:18: ich stelle es einfach mal zur Diskussion,

00:29:20: ein System, was keine

00:29:22: Ausgabe macht, ein IT-System,

00:29:24: ein IT-System ohne

00:29:26: Ausgabe macht überhaupt gar keinen Sinn.

00:29:28: Also,

00:29:30: ich sage mal, was ist

00:29:32: der Sinn eines Systems, wenn es keine

00:29:34: Ausgabe hat? Was ist der Sinn von Intelligenz,

00:29:36: wenn sie nichts erzeugt?

00:29:38: Also ganz ehrlich. Ja, oder auch,

00:29:40: also generell meine ich jetzt, generell,

00:29:42: ein System ohne Ausgabe,

00:29:44: ich weiß gar nicht, ob es das gibt überhaupt,

00:29:46: und selbst wenn, warum

00:29:48: gibt es dieses System dann?

00:29:50: Nehmen wir mal, also selbst das

00:29:52: Schreiben auf eine Piste... Da geht nur was rein, aber nichts raus.

00:29:54: Das ergibt ja gar keinen Sinn. Warum mache ich dann

00:29:56: irgendwas dazwischen? Input, Put, Put,

00:29:58: Output. Wenn der Output fehlt, dann ist es egal,

00:30:00: wie viel Put, Put ich mache.

00:30:02: Das spielt doch gar keine Rolle.

00:30:04: Genau, das System frisst alles in sich rein und

00:30:06: stirbt dann. Ja, genau.

00:30:08: Wenn der Mensch Holz hackt,

00:30:10: hat er auch ein Output gemacht. Er hat nämlich

00:30:12: seine Hand benutzt, um die Umgebung zu beeinflussen.

00:30:14: Ja, und genau das ist Output.

00:30:16: Ja, genau. Oder wenn ich was auf eine Festplatte

00:30:18: schreibe, ist das auch ein Output.

00:30:20: Das ist wie dieses Monster aus Star Wars,

00:30:22: wo in der Wüste die Leute reinwerfen.

00:30:24: Weißt du, diese Krake, die aus dem Boden kommt,

00:30:26: die fängt dann und dann ist das weg. Und keiner

00:30:28: weiß, wo das hingeht, keiner weiß, woher

00:30:30: das Monster kommt. So ein System

00:30:32: wäre das. Da fliegen einfach nur Sachen rein

00:30:34: und am Ende ist es weg. Wie ein schwarzes Loch

00:30:36: im Endeffekt. Ja. Genau, also wir hatten

00:30:38: einen Anwalt gesagt, er sieht den

00:30:40: 44b Urheberrechtsgesetz nicht

00:30:42: für generative KI gemacht. Er hält ihn für

00:30:44: nicht zutreffend. Und dann habe ich

00:30:46: ihn gefragt, nach zahllosem Hin und Her,

00:30:48: es war konstruktiv, was denn jetzt

00:30:50: seine Definition von Text- und Datamining

00:30:52: wäre und ob er mir Beispiele

00:30:54: nennen könnte dafür, für seine Definition,

00:30:56: die aber dann natürlich keine

00:30:58: generative KI einschließen, weil er ja der

00:31:00: Meinung ist, dass das keine generative KI sei.

00:31:02: Ich habe keine Antwort gekriegt.

00:31:04: Also er redet

00:31:06: permanent über Text- und Datamining,

00:31:08: sagt nur, was es nicht ist, weiß aber nicht, was es ist.

00:31:10: Halte ich für

00:31:12: unzulässig und logisch

00:31:14: Unsinn.

00:31:16: Man kann nicht sagen, ich weiß nicht, was es

00:31:18: ist, aber ich weiß, was es nicht ist.

00:31:20: Da kommen wir nicht weiter, sage ich jetzt mal.

00:31:22: Das geht so in die Richtung

00:31:24: von Glauben und Glauben hat nichts

00:31:26: mit Wissenschaft zu tun. Wissenschaft hat

00:31:28: was mit Wissen zu tun. So ähnlich wie die Frage nach dem Sinn des Lebens.

00:31:30: Da kannst du dir anknüpfen.

00:31:32: Das sind auch so hochmetaphysische

00:31:34: Fragen, wo es halt keine

00:31:36: wirkliche Antwort darauf gibt, aber alle ganz sicher,

00:31:38: dass es nicht so ist.

00:31:40: Vielleicht zum Schluss noch eine wichtige

00:31:42: Anmerkung.

00:31:44: Ich hatte ja vorhin erwähnt, ich glaube, das ganze Thema geht

00:31:46: am Problem vorbei. Also ich bin für den Schutz

00:31:48: der Urheber, aber dann bitte so, dass es jeder auch leisten

00:31:50: kann.

00:31:52: Angenommen, dieser deutsche

00:31:54: Paragraph, diese deutsche Regelung führt

00:31:56: dazu, sage ich, dass die deutsche Sprache

00:31:58: immer mehr verarmt in KI-Modellen, weil

00:32:00: jeder Angst haben muss, dass er nicht den Nachweis

00:32:02: bringen kann, dass der Nutzungsvorbehalt nicht da war.

00:32:04: Dann lese ich doch lieber gar

00:32:06: keine deutsche Webseite ein als amerikanisches Unternehmen.

00:32:08: Deutsch interessiert mich dann einfach nicht.

00:32:10: Deutsch ist unbedeutend.

00:32:12: Weil wir die Einzigen sind, die uns mit dieser Sache

00:32:14: auf diese Art und Weise beschäftigen.

00:32:16: Das stimmt.

00:32:18: Es gibt viel zu wenig Menschen in der Welt, die Deutsch sprechen leider.

00:32:20: Indische Sprachen sind viel

00:32:22: weiter verbreitet. Also Deutsch kommt

00:32:24: ganz weit hinten irgendwo. Interessiert niemanden.

00:32:26: Kann man auch weglassen. Das ist unser Problem.

00:32:28: Denn wir können keine intelligenten KI-Systeme

00:32:30: mehr nutzen zukünftig, die

00:32:32: Deutsch können. Aber jetzt kommt der eigentliche

00:32:34: Kern. Es ist doch

00:32:36: eigentlich egal, ob ein KI-System

00:32:38: Daten gespeichert hat,

00:32:40: die urheberrechtlich geschützt sind,

00:32:42: solange diese Daten

00:32:44: nicht in einer Ausgabe landen,

00:32:46: die ein Urheberrechtsproblem darstellen.

00:32:48: Mhm. Ja.

00:32:50: Also es heißt,

00:32:52: solange eine KI

00:32:54: keine Texte ausgibt,

00:32:56: die sehr nah am Original sind,

00:32:58: muss sich doch niemand Sorgen machen.

00:33:00: Das Problem ist,

00:33:02: ChatGPT zum Beispiel kann das gar nicht garantieren,

00:33:04: dass dieses Problem nicht auftritt.

00:33:06: Da kann man ja auch nicht sagen, dass das nicht

00:33:08: der Fall ist. Da kommt man dann auch sehr schnell in

00:33:10: die Wiedergabe von Falschaussagen über Personen,

00:33:12: also Verleumdung, Wiedergabe von Verleumdungen durch eine KI.

00:33:14: Da haftet dann schon der KI-Betreiber,

00:33:16: würde ich sagen, normalerweise.

00:33:18: Wie man es lösen kann,

00:33:20: ist, indem man

00:33:22: ein eigenes KI-System hat, da kann man nämlich,

00:33:24: wenn man das möchte, alle

00:33:26: Ausgaben vergleichen mit der

00:33:28: Wissensbasis, die man hat.

00:33:30: Die hat man nämlich als KI-Modellbetreiber.

00:33:32: Und kann dann die

00:33:34: Textstellen rauslöschen oder

00:33:36: verfremden, die zu nah am Original sind.

00:33:38: Das kann man aber nur machen, wenn man

00:33:40: ein eigenes KI-System hat.

00:33:42: Ja, oder man macht das, was du

00:33:44: gerade beschrieben hast, was du auch

00:33:46: angewendet und ausprobiert hast, dass man

00:33:48: eben der KI pflichtmäßig mit dazu

00:33:50: gibt, gibt die Ausgabe raus,

00:33:52: woher kommen die Info-, also wie hast du

00:33:54: die Informationen, die du hier generiert hast,

00:33:56: gelernt, aus welchen Quellen hast

00:33:58: du die gelernt und gibt diese Quellen mit an,

00:34:00: damit man das nachvollziehbar machen kann.

00:34:02: Weil dazu hätte ich ja zumindest schon mal eine Grundlage

00:34:04: zu sagen, okay, ich weiß jetzt auch,

00:34:06: woher das kommt, was ich

00:34:08: dann weiter verwende.

00:34:10: Gehen wir mal davon aus, wie du sagtest, du schreibst

00:34:12: 10.000 Blogartikel durch eine KI

00:34:14: und begehst

00:34:16: dabei eine Urheberrechtsverletzung, weil

00:34:18: du irgendwelche Daten von jemand anders nutzt,

00:34:20: die da trainiert wurden. Du weißt

00:34:22: es ja gar nicht. Also wenn ich jetzt ChatGPT

00:34:24: einen Blogartikel für mich schreiben lasse, weiß ich

00:34:26: ja nicht, woher die Daten kommen. Das heißt, ich als

00:34:28: derjenige, der die Daten dann weiter verwendet

00:34:30: und diese Urheberrechtsverletzung

00:34:32: begeht, weiß ja gar nicht, dass ich sie

00:34:34: begangen habe. Weil

00:34:36: OpenAI ja nicht sagt, woher

00:34:38: die Daten kommen, die ChatGPT mir zurückgibt.

00:34:40: Ja, das stimmt.

00:34:42: Allerdings ist es schon so,

00:34:44: also OpenAI, wir hätten schon ein Problem.

00:34:46: Die dürfen nämlich nicht einfach

00:34:48: deine Inhalte, wenn du das nicht möchtest,

00:34:50: wiedergeben. Deine urheberrechtlich geschützten Inhalte

00:34:52: dürfen die gar nicht wiedergeben, wenn du es nicht willst.

00:34:54: Und da hilft es auch nicht, wenn deine

00:34:56: Quelle angegeben wird, sozusagen.

00:34:58: Andererseits hast du natürlich recht, wenn jemand

00:35:00: das weiterverwenden würde, dann müsste

00:35:02: er jede Quelle durchlesen

00:35:04: und gucken, ob die Inhalte, die

00:35:06: die ChatGPT ausgespuckt hat,

00:35:08: in der Quelle zu finden sind und dann es sein lassen.

00:35:10: Das kann man aber alles verhindern,

00:35:12: wie gesagt, und einfach automatisiert prüfen,

00:35:14: wenn man ein eigenes System hat. Und bei Bildern

00:35:16: ist es ja noch extremer. Da kann man nämlich

00:35:18: dann sogar prüfen mit

00:35:20: Bildgeneratoren. Ich habe einen eigenen Bildgenerator,

00:35:22: der kann mir tausende, habe ich auch schon gemacht,

00:35:24: tausende von Bildern generieren und

00:35:26: die kann ich dann sogar gemäß meiner Vorlieben

00:35:28: sortieren lassen. Ich kann dem System beibringen,

00:35:30: welche Bilder mir gefallen, welche nicht.

00:35:32: Dann kriege ich von den tausend Bildern nur die besten zehn

00:35:34: präsentiert und die anderen 990 kann ich mir

00:35:36: der Reihenfolge nach der Beliebtheit angucken.

00:35:38: Nach meiner Beliebtheit. Und ich kann mir

00:35:40: einen Vergleich machen lassen

00:35:42: mit den Bildern, die die Basis

00:35:44: sind für die Generierung, ob da eins

00:35:46: dabei ist, was sehr ähnlich mit dem Ergebnis

00:35:48: ist, was rausgeneriert wurde. Und wenn

00:35:50: es eine Ähnlichkeit hat, die zu hoch ist,

00:35:52: dann schmeiße ich das Bild weg, weil es nämlich ein

00:35:54: Urheberrechtsproblem sein könnte. Und

00:35:56: es gibt ja mehrere Beispiele schon in der Öffentlichkeit,

00:35:58: bei Marvel Comics

00:36:00: zum Beispiel, dass

00:36:02: diese Bildgenerierung, DALL-E 3

00:36:04: oder sowas, quasi Bilder

00:36:06: generieren, die zu 98%

00:36:08: gleich dem Original sind. Da hätte man dann

00:36:10: Urheberrechtsprobleme, eine Urheberrechtsverletzung.

00:36:12: Und das kann man halt einfach nicht vermeiden,

00:36:14: wenn man sowas wie ChatGPT benutzt. Das muss man

00:36:16: einfach wissen. Ich meine, für den privaten Bereich kann man

00:36:18: das nutzen, aber jeder, der die

00:36:20: Ausgaben öffentlich benutzen will,

00:36:22: der sollte es einfach nochmal überdenken,

00:36:24: ob er das machen will.

00:36:26: Das heißt, wir haben da auf jeden Fall ein sehr, sehr spannendes

00:36:28: Feld, das immer noch,

00:36:30: egal wie viel wir uns damit beschäftigen,

00:36:32: sehr, sehr viele Fragen offen lässt

00:36:34: zu der Thematik, was ist

00:36:36: jetzt urheberrechtlich schützenswert, was

00:36:38: wird geschützt, wie kann es geschützt werden

00:36:40: und vor allen Dingen auch, welche automatischen

00:36:42: Mechanismen können wir nutzen. Wir haben

00:36:44: ein paar Lösungswege identifiziert,

00:36:46: bis hin zu der Tatsache, dass man

00:36:48: seine eigene KI nutzt, wobei

00:36:50: ich sage, das ist natürlich auch nur denen

00:36:52: vorbehalten, die sich halt wirklich mit der Materie dann auch

00:36:54: sehr, sehr gut auskennen

00:36:56: und weitaus

00:36:58: fundierter in ihrem Wissensstand

00:37:00: sind, als die Leute, die glaube ich

00:37:02: die Hauptuser von ChatGPT und DALL-E

00:37:04: und den ganzen großen öffentlichen

00:37:06: Systemen sind.

00:37:08: Ich denke,

00:37:10: in Bezug auf die

00:37:12: Zeit und in Bezug darauf,

00:37:14: dass ich eine sehr, sehr interessante

00:37:16: Information anknüpfend an

00:37:18: dieses Thema gefunden habe, sollten wir in der nächsten

00:37:20: Folge das Thema KI nochmal

00:37:22: besprechen und zwar

00:37:24: in die Richtung hin, dass Microsoft

00:37:26: mit ihrem Co-Pilot ein paar

00:37:28: sehr, sehr interessante Dinge gemacht hat,

00:37:30: die, wo ich mir

00:37:32: wirklich die Frage stelle, wie wollt

00:37:34: ihr das in der Realität

00:37:36: umsetzen und seid ihr euch wirklich sicher, was ihr

00:37:38: dort versprecht, denn Microsoft möchte

00:37:40: für Rechtsverletzungen,

00:37:42: die durch ihren

00:37:44: Co-Pilot passieren, eine

00:37:46: Rechtsschutzversicherung anbieten.

00:37:48: Ich habe keine Ahnung,

00:37:50: wie genau die sich das vorstellt

00:37:52: und was das genau wird, aber es

00:37:54: schlägt halt genau in diese Kerbe rein, weil

00:37:56: gerade beim Urheberrecht haben wir ja viele

00:37:58: Hebel und Möglichkeiten, dass

00:38:00: man sich eben auch dagegen rechtlich wehren kann,

00:38:02: dass die Daten irgendwie verwendet werden

00:38:04: und von daher, das knüpft

00:38:06: so schön an das Thema an. Also,

00:38:08: lass uns das mal

00:38:10: beim nächsten Mal besprechen

00:38:12: und dann können wir ja auch gucken,

00:38:14: ob die deutsche Sprache bis dahin

00:38:16: vielleicht schon etwas stärker verarmt ist.

00:38:18: Ja, gerne.

00:38:20: Schlusswort von mir nur, du hast recht,

00:38:22: für den normalen Menschen sind

00:38:24: eigene KI-Systeme schwierig zu errichten,

00:38:26: da muss er technische Kenntnisse haben, aber

00:38:28: für Unternehmen ist es meiner Meinung nach

00:38:30: die erste Wahl, vor allem, weil wir ja da nicht

00:38:32: nur über Datenschutz reden, sondern auch über Geschäftsgeheimnisse

00:38:34: und vertrauliche Daten, NDA

00:38:36: und so weiter, also sollten die Unternehmen, die da sind,

00:38:38: da mal drüber nachdenken. Sie haben vor allem auch

00:38:40: oft viel bessere Ergebnisse, als ChatGPT

00:38:42: sie liefern kann, so wahnsinnig das klingt.

00:38:44: Das ist sehr spannend.

00:38:46: Ich glaube, wir sollten auch mal irgendwie

00:38:48: dazu übergehen, mal so Testings

00:38:50: mit deiner KI zu machen und zu gucken,

00:38:52: was das so im Unterschied rauskommt, wenn dann

00:38:54: ChatGPT was rausgibt und wenn deine KI

00:38:56: was rausgibt, was da so die Unterschiede sind

00:38:58: und was wir daraus lernen können.

00:39:00: Ein unglaublich spannendes Thema.

00:39:02: Ich danke dir sehr,

00:39:04: sehr für die Aufklärung

00:39:06: in diesem Thema und finde das

00:39:08: unglaublich spannend. Wir werden das, wie gesagt,

00:39:10: nochmal neu aufgreifen und dann würde

00:39:12: ich sagen an alle Zuhörer da draußen, vielen Dank

00:39:14: fürs Zuhören. Ich hoffe, ihr habt eine Menge gelernt,

00:39:16: so wie ich und ich hoffe, dass beim nächsten

00:39:18: Mal Klaus uns dann auch

00:39:20: noch belehren kann darüber, was der

00:39:22: Microsoft Co-Pilot für uns denn bereit

00:39:24: hält und ja, in diesem

00:39:26: Sinne würde ich sagen, vielen Dank Klaus,

00:39:28: vielen Dank an alle da draußen und

00:39:30: macht euch noch einen schönen Tag.

00:39:32: Stephan, ich danke dir, ich danke den Zuhörern

00:39:34: fürs Dranbleiben und wünsche eben

00:39:36: jedenfalls allen einen angenehmen Tag.

00:39:38: Tschüss. Ciao.

Shownotes

37 Künstliche Intelligenz: Der Nutzungsvorbehalt von Urhebern, den es nicht gibt

Transkript anzeigen

Neuer Kommentar