Wszystko co wrzucisz do sieci może służyć do trenowania AI
Znaczy się co, jeżeli kompletnie nie korzystam z produktów Google i mam gdzieś ich śmieszny regulamin, to oni mają na to wywalone i mogą korzystać z moich treści? Jakim urwał prawem? Co oni są już tak bezczelni, że uznali że Internet to ich piaskownica i mogą sobie robić w nim co chcą?
Moze trzeba dodac ze material chroniony przez prawa autorskie i pozwac sztuczna inteligencje do sadu o ich lamanie?
Google już zarządza całym ruchem w sieci że cokolwiek tam wrzucamy jest przez niego analizowane?
Autor zastanawiał sie co pisze?
A czy google musi zarządzać całym ruchem w sieci, żeby mogło przeanalizować strony i wrzucić to potem w wyszukiwarkę? Puszcza swojego crawlera, który "przegląda" i indeksuje strony do wyszukiwania, to co im szkodzi dodać funkcję przesłania zawartości strony do uczenia AI?
To mi odkrycie. Przecież to normalne, że jak coś udostępniamy w internecie, to to jest publiczne. Chyba, że za jakimiś pejłolami czy na prywatnych stronach, gdzie trzeba mieć dostęp np. poprzez zalogowanie. Każdy człowiek może z tego korzystać, bo nie ma prawa zabraniającego odwiedzania stron www. Każdą rzecz, jaką wrzuca się do sieci publicznej mogę wziąć i analizować. Nie ma znaczenia czy zrobię to organoleptycznie, czy w inny sposób. A algorytmy tylko i wyłącznie wszystko analizują.
Jakim prawem? To bardzo proste. Korporacje, które rozwijają AI obeszły prawa autorskie tworząc firmy pionki "non-profit", które zbierają z Internetu WSZYSTKO. Na cele "naukowe" oczywiście. I zgodnie z prawem, organizacje non-profit, które działają dla celów naukowych mogą to robić. A później wyniki tego zbioru zostają wykorzystane przez właściwe korporacje, które już mogą na tym zarabiać.
Gdyby modele AI były trenowane tylko na treściach z domeny publicznej, byłoby to ok, ale wtedy te modele umiałyby promil tego co teraz.
Na chwilę obecną wszystkie modele AI używają kradzionych treści, w tym dokumentacji medycznych, pirackich filmów i gier, dziecięcej pornografii i co tam jeszcze chcesz.
Czy to etyczne? Cóż... Dla wielu wszystko jest etyczne i do zaakceptowania.
Co do obejścia praw autorskich, to niektóre firmy jak microsoft jawnie piszą, że wykorzystują lub wykorzystali do trenowania AI publicznie dostępne materiały np. jak to było w przypadku copilota. Po to m.in. zakupili githuba, żeby mogli z nim robić co będą chcieli i zarabiać na nim więcej papierków. Choć ciekawe jest to, że mimo wszystko skorzystali w przypadku copilota też z innych publicznych materiałów jak to ujęli:
What data has GitHub Copilot been trained on?
GitHub Copilot is powered by Codex, a generative pretrained AI model created by OpenAI. It has been trained on natural language text and source code from publicly available sources, including code in public repositories on GitHub.
FAQ
------
https://github.com/features/copilot
Prawda jest taka, że dla korporacji to pewnie bez większego znaczenia czy będą jawnie czy niejawnie korzystali z czyjejś własności, bo tam siedzą sztaby prawników którzy bez mrugnięcia okiem załatwią co trzeba dla firmy, chociażby tak jak w przypadku apple z którego strony lecą absurdalne pozwy o podobne nazwy czy loga. Poza tym, nawet jakby te wielkie firmy przegrały wszelkie możliwe pozwy ze strony przeciętnych ludzi, to ich produkty już tak się zakotwiczyły na rynku i w głowach ludzi, że wyjdą na swoje koniec końców. Ot taka smutna prawda.
W zasadzie każda treść w internecie w ten czy inny sposób należy do jednego z większych graczy i jest publiczna więc nie wydaje się to mieć większego znaczenia. Liczę, że olbrzymie datasety z czasem zostaną udostępnione również mniejszym graczom przez co powstanie wiele niesamowicie potężnych AI które obecnie trudno sobie wyobrazić. Sensowna i dosyć oczywista taktyka ze strony google.