Futurebeat Wszystko co wrzucisz do sieci może służyć do trenowania AI 05.07.2023 - Forum

05.07.2023 16:00

EG2009_120754240

Generał

Znaczy się co, jeżeli kompletnie nie korzystam z produktów Google i mam gdzieś ich śmieszny regulamin, to oni mają na to wywalone i mogą korzystać z moich treści? Jakim urwał prawem? Co oni są już tak bezczelni, że uznali że Internet to ich piaskownica i mogą sobie robić w nim co chcą?

05.07.2023 16:29

-1

odpowiedz

zanonimizowany1373230

Konsul

To mi odkrycie. Przecież to normalne, że jak coś udostępniamy w internecie, to to jest publiczne. Chyba, że za jakimiś pejłolami czy na prywatnych stronach, gdzie trzeba mieć dostęp np. poprzez zalogowanie. Każdy człowiek może z tego korzystać, bo nie ma prawa zabraniającego odwiedzania stron www. Każdą rzecz, jaką wrzuca się do sieci publicznej mogę wziąć i analizować. Nie ma znaczenia czy zrobię to organoleptycznie, czy w inny sposób. A algorytmy tylko i wyłącznie wszystko analizują.

05.07.2023 17:06

odpowiedz

2 odpowiedzi

zanonimizowany1289944

Konsul

EG2009_120754240 Prawem korporacji! Nawet jeśli niczego nie wrzucasz do sieci, ale ktoś to zrobi za Ciebie, bez Twojej wiedzy i zgody to i tak to zostanie użyte przez AI. Nawet jeśli jest to chronione prawem autorskim, to AI to przemieli.

Jakim prawem? To bardzo proste. Korporacje, które rozwijają AI obeszły prawa autorskie tworząc firmy pionki "non-profit", które zbierają z Internetu WSZYSTKO. Na cele "naukowe" oczywiście. I zgodnie z prawem, organizacje non-profit, które działają dla celów naukowych mogą to robić. A później wyniki tego zbioru zostają wykorzystane przez właściwe korporacje, które już mogą na tym zarabiać.
Gdyby modele AI były trenowane tylko na treściach z domeny publicznej, byłoby to ok, ale wtedy te modele umiałyby promil tego co teraz.

Na chwilę obecną wszystkie modele AI używają kradzionych treści, w tym dokumentacji medycznych, pirackich filmów i gier, dziecięcej pornografii i co tam jeszcze chcesz.
Czy to etyczne? Cóż... Dla wielu wszystko jest etyczne i do zaakceptowania.

05.07.2023 18:56

5.1

rastablasta

Konsul

Co do obejścia praw autorskich, to niektóre firmy jak microsoft jawnie piszą, że wykorzystują lub wykorzystali do trenowania AI publicznie dostępne materiały np. jak to było w przypadku copilota. Po to m.in. zakupili githuba, żeby mogli z nim robić co będą chcieli i zarabiać na nim więcej papierków. Choć ciekawe jest to, że mimo wszystko skorzystali w przypadku copilota też z innych publicznych materiałów jak to ujęli:

What data has GitHub Copilot been trained on?

GitHub Copilot is powered by Codex, a generative pretrained AI model created by OpenAI. It has been trained on natural language text and source code from publicly available sources, including code in public repositories on GitHub.

FAQ
------
https://github.com/features/copilot

Prawda jest taka, że dla korporacji to pewnie bez większego znaczenia czy będą jawnie czy niejawnie korzystali z czyjejś własności, bo tam siedzą sztaby prawników którzy bez mrugnięcia okiem załatwią co trzeba dla firmy, chociażby tak jak w przypadku apple z którego strony lecą absurdalne pozwy o podobne nazwy czy loga. Poza tym, nawet jakby te wielkie firmy przegrały wszelkie możliwe pozwy ze strony przeciętnych ludzi, to ich produkty już tak się zakotwiczyły na rynku i w głowach ludzi, że wyjdą na swoje koniec końców. Ot taka smutna prawda.

post wyedytowany przez rastablasta 2023-07-05 18:57:49

06.07.2023 05:56

😃

5.2

keeper_4chan

104

Generał

Tu powiem, że rozmyte klasyfikatory bardzo dobrze sobie radzą z wykrywaniem już prac na licencji, nawet jeśli został wykorzystany tylko element danego utworu.

05.07.2023 22:03

-1

odpowiedz

Ignazzio

Konsul

W zasadzie każda treść w internecie w ten czy inny sposób należy do jednego z większych graczy i jest publiczna więc nie wydaje się to mieć większego znaczenia. Liczę, że olbrzymie datasety z czasem zostaną udostępnione również mniejszym graczom przez co powstanie wiele niesamowicie potężnych AI które obecnie trudno sobie wyobrazić. Sensowna i dosyć oczywista taktyka ze strony google.