Ma, amikor a mesterséges intelligencia (MI) a fénykorát éli, el kell gondolkodni azon, hogy a használata során mi okozta ezt a hatalmas „robbanást”? Véleményem szerint elsősorban az lehet a válasz, hogy az internet a mindennapi életünk részévé vált, és egyfajta ablakot nyit a világ felé. És ha még hozzátesszük azt a hatalmas adatmennyiséget, amit általa szerezhetünk, akkor a tudásunk rövid idő alatt olyanná válik, mintha több egyetemet végeztünk volna el egy pillanat alatt – vagy több tudós barátunk lenne, aki a legrészletesebben vezet be a saját tudományába.
Mit nevezünk adatnak
„Az adatok nyers tények vagy számok, amelyek önmagukban nem hasznosak. Az adatokat először szervezni és ellenőrizni kell, mielőtt felhasználhatók lennének elemzésre” – mondta Vinay Rao.
Az adat egy mérhető mennyiség. Minél több adattal írható le egy esemény, dolog, annál pontosabb képet kapunk arról. De ez még csak a puszta leírása valaminek, amit megismertünk vagy meg akarunk ismerni.
Mikor lesz hasznos számunkra az adat?
A nyers adat feldolgozásával értelmezhető információt nyerhetünk, amely több mindenben segíthet bennünket. Az, hogy az adatok hogyan válnak információvá, alapvető fontosságú kérdés ahhoz, hogy megismerjük az információtudományt.
„Információ az adatok rendezett, konzisztens formába való szervezése. Az információ könnyebben kezelhető és releváns az adott cél érdekében” – mondta Vinay Rao.
„Az adattudomány és az információtudomány különbözőek, mégis összefonódó területek, amelyek mindegyike egyedi fókusszal és módszertannal rendelkezik. A kölcsönhatásuk és az őket megalapozó közös elvek révén mélyreható betekintést nyújtanak a világ megértésébe. A két terület ilyen árnyalt megértése nélkülözhetetlen egy olyan világban, ahol az adatok és az információk egyre inkább életünk alapjául szolgálnak” (Ye, F.Y. & Ma, F.-C., 2023).
Ezen a ponton már visszakanyarodunk a mesterséges intelligencia megértéséhez. Minél több adatunk van, annál jobb az informáltságunk, tehát számos területen – akár a gyógyászatban vagy az ipar bármely területén – pontos eligazítást kapunk a kérdéseinkre, hogy minél pontosabban írjuk le az adott jelenségeket és hozzuk meg a döntéseinket. Ezek egyike a prediktív analitika, amelyet jövőbeli események vagy eredmények előrejelzésére használunk.
Kié az adat és az információ?
Régen azt mondták, hogy a tudás hatalom. Ma azt mondhatjuk, hogy az információ a hatalom – akié az információ, az akár jó vagy rossz célra is felhasználhatja azt. Minden jelenségről és mindenkiről számos adat tudható, erre sajnos nincs ráhatásunk. De az információ mögött olyan adatok vannak, aminek a tulajdonlása, a felhasználásához való hozzájárulás bizonyos korlátokat is jelenthet. Tehát, akié az adat, az van lépéselőnyben.
Mára, mint cserekereskedelmi termék jelenik meg az adat. Mint mondani szokták, az adat az új arany. Sokszor tapasztaljuk, hogy a szolgáltatónknak megadott adataink más aspektusban, máshol is felhasználásra kerülnek. Ez történhet a szolgáltatónknak adott hozzájárulással vagy rosszabb esetben anélkül, de a személyes adataink, mint egy fajta árucikk, reklámcéllal forog az internetes kereskedelemben.
Másrészről, az adataink ismeretében másod vagy harmadik fél (rendszer) formál jogot arra, hogy felhasználja az általam nyilvánossá tett adataimat. Adott esetben átvegye az irányítást az adataim felett, és beavatkozik a végzett tevékenységembe. Mi adjuk a hozzájárulásunkat az adataink ellenőrzéséhez, felhasználásához, de sokszor nincs is más választásunk, mivel amennyiben használni akarjuk a rendszereket, szoftvereket, akkor egy egyszerű kattintással el kell fogadjuk a sokszor átláthatatlan feltételeket (pl. szoftver frissítés esetén). A szoftverértékesítő cégek sokszor úgy alakítják, hogy az adatainkat csak akkor tudhatjuk biztonságban, ha egy meghatározott díjat fizetünk érte. Az előfizetések garantálják az adat biztonságos kezelését.
Privát adatok
Az internettel egyidőben létrejöttek a hálózati kapcsolatok – ezek már alapvetően a vállalkozások vagy nonprofit tevékenységek működését támogató kommunikációs eszközök. De ahogy a hálózatok fejlődnek, az egyén is részévé akar válni a kommunikációs hálózatnak. Eleinte csak a levelező rendszereinket modernizálta, majd áttért a kommunikációnak arra az „ösvényére”, amikor már a privát életünk eseményeinek dokumentumait, feljegyzéseit, bejegyzéseit, élményfotókat, videókat is meg tudtunk osztani egymással. A közös időtöltés is részben átkerült a virtuális térbe.
De mit ér mindez, ha csak a rokonaink, barátaink ismerik a nagy eseményt, az élményt, avagy akár a kudarcunkat? Tudja meg az egész világ, hogy mi történt velünk! Az emberi kapcsolatok is bővülnek, sok ismerőse lesz az én ismerősöm is.
Ehhez kapcsolódik a „hat lépés távolság” (six degrees of separation) elmélet, amely az emberi kapcsolatok hálózatával foglalkozik, és azt állítja, hogy bármely két ember a Földön legfeljebb hat közvetítő személyen keresztül összekapcsolható.

Az elmélet lényege, hogy a társadalmi hálózatok meglepően szorosak, és a világ sokkal kisebb, mint ahogy azt mi gondolnánk.
Ez az elmélet inkább szociológiai jellegű, és Stanley Milgram pszichológus kísérletei révén vált híressé az 1960-as években. A „kis világ” (small-world phenomenon) kísérletében bizonyította, hogy az emberek közötti kapcsolatok távolsága valóban meglepően rövidek lehetnek. Ehhez az elmélethez kapcsolható még egy magyar érdekesség is. Az elméletet eredetileg Karinthy Frigyes magyar író is megfogalmazta az 1929-ben megjelent Láncszemek című novellájában. Ebben a történetben Karinthy azt vizionálja, hogy bármely két ember a világon legfeljebb néhány közvetítő személyen keresztül kapcsolatba léphet egymással.
Egy 2011-es Facebook-tanulmány szerint az emberek átlagosan 4,74 lépésre vannak egymástól a platformon.
A közösségi háló kapcsolatai immár üzleti célúvá válnak, új piaci szegmensek jönnek létre, melyek újfajta megélhetést biztosítanak az alkalmazójuk számára (pl. Instagram, Tik-Tok). Kiterjesztett privát világ, beláthatatlan következményekkel (trollkodás, shaming vagy egyszerűen cyberbullying – internetes zaklatás).
Adat- és információéhség
Az emberek többsége – és ez nem függ az egyén iskolázottságától – a közösségi hálón éli az életét. Adat- és információéhségben szenvedünk. Ezeket az adatokat megosztjuk, véleményezzük, hozzáteszünk, elveszünk belőle elemeket, így azok sokszor torzulhatnak is.
Sok olyan adatot osztunk meg másokkal, amit előre nem látható módon ellenünk is fordíthatnak. Nem véletlen, hogy számtalan nyomozati esetben a közösségi hálón szereplők kapcsolatrendszerét használják fel arra, hogy egy komplex bűnhálózatot derítsenek fel.
Persze félrevezetés céljára is lehet használni ezeket a hálózatokat. Megjelennek a „fake news”-ok, amit akár politikai, akár egyéb céllal a tömegek befolyásolására is használhatnak. A marketing is az egyik olyan iparág, amely nagyot „kaszál” a közösségi hálók kapcsán.
A közösségi hálón ma már az adatokat véleményformálásra, választási előrejelzésekre is használják. Néha torzulnak ezek az adatok attól függően, hogy első, másod vagy harmad kézből származnak. De a mesterséges intelligencia is alkalmazza ezeket a véleménygenerátorokat, mint prediktív eseményelőrejelzéseket – főleg a fejlett országokban, a választási időszakokban.
Biztonságban vannak az adataink?
A közösségi háló már nem képes garantálni az adataink biztonságát, ugyanakkor a banki szférában nagyon vigyáznak az adatainkra. Ennek fő oka, hogy a bank a mi bizalmunk letéteményese, és a pénzünk őre. Ha úgy érezzük, hogy nincs biztonságban a bankszámlánkon elhelyezett számlapénz, akkor átpártolunk egy másik pénzintézethez. Az információs technológia legújabb fejlesztéseit is a banki közegben próbálták/próbálják ki elsők között, mint ahogy a kétkörös biztonsági beléptető rendszert vagy a blokklánc-technológiát. Az államigazgatási adatok vonatkozásában pedig újabban megjelent az Authenticator mobil alkalmazás vagy a NAV által alkalmazott blokklánc technológia a levelezési rendszer biztonsága érdekében. Persze, a hackertámadások ellen gyakorlatilag egy rendszer sem képes 100%-os védelmet biztosítani, de ahogy „fejlődnek” a csalások, a biztonsági rendszereket is fejlesztik. Szóval egyelőre nem kell aggódni, de azért illik óvatosnak lenni!
Adatbázisok
Szokták mondani, hogy ami egyszer felkerül az internetre az ott is marad. Sokszor maguk a felhasználók hozzák létre azokat az adatbázisokat (UGC” – User Generated Content), melyeket később gazdasági, marketing és egyéb célokra fel lehet használni. Ezeket a nagy adatbázisokat ma már a mesterséges intelligencia is használja. Habár, a HUN-REN SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) meetup-sorozatának első előadásán Christian Szegedy magyar kutató-matematikus szerint elfogyott az adat; a tech cégek kimerítették a szabadon elérhető tréningadatok tárházát – gyakorlatilag az egész internetet felhasználták már, és nincs könnyen hozzáférhető új adat (qubit.hu/2023/09/22/christian-szegedyelfogyott-az-adat, 2023. 09. 22.).
Elon Musk, a techmilliárdos Szegedy által felvetett problémát kiegészítette azzal, hogy a szintetikus adatokra támaszkodó önálló tanulásra kellene áttérni – bár ez egyesek szerint a nyelvi modellek összeomlásához vezethet (hvg.hu, 2025. január 09.).
Hol vannak ezek az adatbázisok?
Sokszor halljuk, hogy egy adat, egy bizonylat, sőt az orvosi receptek felkerültek a „felhőbe”. Már sok tévhitet próbáltam az előző cikkeimben is eloszlatni, ez is többek között egy divatos tévhit. De a felhőből adatot nem, legfeljebb esőcseppeket kapunk vissza. Mi az a „felhő”, amibe elküldik az adatokat? Nem más, mint az internet által, egy távoli szerverkapcsolatot létrehozva egy adott adattárba tároljuk a megfelelő adatot. Kérdezhetnénk, hogy akkor miért mondjuk felhőnek? Sokan tudják, de még többen nem is sejtik, hogy az internet szimbóluma a felhő – tehát ezt a kapcsolatot szerették volna a fejlesztők kihangsúlyozni. A terrorfenyegetettség és egyéb okok miatt komoly érdekek állnak amögött, hogy ne lehessen felderíteni a pontos fizikai elhelyezkedésüket ezeknek a szerverparkoknak. A „Big Tree” 3 legnagyobb cloud szerverpark üzemeltetője az Amazon Web Services (AWS), a Microsoft Azure és a Google Cloud Platform (GCP). Természetesen ezeknek a fizikai elhelyezkedésükről a fenti okok miatt csak egy szűk, belső kör tud.
MI és big data szerverek
Az NVIDIA DGX szuperszerverek – amelyeket mesterséges intelligencia-alapú számításokhoz használnak – terabájtos memóriával rendelkeznek. Például 1,5–3 TB kapacitású rendszermemóriával és dedikált, nagy sebességű HBM2 (High Bandwidth Memory) modulokkal.
Elon Musk 2023-ban alapította az xAI nevű mesterséges intelligencia intézetet, amelynek célja a tudományos felfedezések előmozdítása és az univerzum mélyebb megértése. Az xAI egyik jelentős projektje a „Colossus” nevű szuperszámítógép, amelyet Memphisben építettek, és amely a világ legnagyobb számítási klasztere. A Colossus több mint 100 000 Nvidia H100 grafikus feldolgozó egységgel (GPU) rendelkezik, és kulcsszerepet játszik az xAI Grok nevű nyelvi modelljének fejlesztésében, amely az OpenAI GPT-4.0 versenytársa kíván lenni. (ChatGPT 4.0)
Mi történik, ha telítődik a big data? Beszélhetünk az adat időszerűségéről, illetve elavulásáról?
Az adatok egy része – amelyek az internet alkalmazása során felkerülnek a „felhőbe”, elavulnak – már nem biztosítják a naprakészséget. De honnan tudhatjuk, hogy melyek ezek? Számtalanszor félrevezető adatokat használunk fel információcserére, mások informálására. Mi történik ilyen esetben? Minden adatot ellenőrizni kell keletkezésük, forrásuk és felhasználásuk vonatkozásában.
Létezik olyan felügyeleti szerv, amelyik az idősáv alkalmazásával szelekciót végez az adatállományban? Honnan tudható, hogy mely adatok avultak el?
Gondolom, hogy ennek is megvan a mesterséges intelligencia által adott válasza. Bár azt is tudjuk, hogy némely MI (pl. ChatGPT) alkalmazás – melyre nem fizettünk elő – ellenőrizetlen, téves adatokat/információkat adnak a felvetett kérdésre.
A helyzetet még bonyolítja, hogy egymás után jelennek meg a nyílt forráskódú nagy nyelvi modellek (LLM – Large Language Modell), mint legutóbb nagy meglepetésre a DeepSeek (kiadás dátuma: 2025. január 10.). „A DeepSeek-R1 modell teljesítménye összehasonlítható más kortárs LLMekkel, például az OpenAI GPT-4.0 és o1 modelljeivel annak ellenére, hogy jelentősen alacsonyabb költséggel képezték ki. Körülbelül 6 millió amerikai dollárból, szemben az OpenAI GPT-4 2023-as 100 millió dolláros költségével – és a hasonló LLM-ek számítási teljesítményének tizedét igényli.” (en.wikipedia.org)
Az adat hatalom, és láthatjuk, hogy az OpenAI rendszerek terjedésével a világ újra felosztásán munkálkodnak a nagyhatalmak. Még súlyosbítja ezt a versenyt, hogy ahhoz, hogy a nagy szolgáltatók fenntartsák ezeket a nagy adatbázisokat hatalmas energiára van szükség. Tehát a háttérben az energia- és gazdasági háború is fokozódni fog, különösen Amerika és Kína között. A szükséges adatigényre még a Microsoft is ekképpen lépett: „A Microsoft a mesterséges intelligencia rendszereinek növekvő energiaigénye miatt úgy döntött, hogy újraindítja a Pennsylvania állambeli Three Mile Island atomerőmű 2019-ben leállított 1-es blokkját.” (hvg.hu).
Mi a jó és biztonságos adat ismérve?
Azt hiszem, ma még nem tudhatjuk biztosan! Amennyiben olyan adatot használunk fel a döntéshozatalainkhoz vagy előrejelzésekre, melyek forrása bizonytalan, akkor bizonyosan torzulni fog a világ. Hallhatjuk, hogy már a tudósok kezében van a nagy adatszűrő, az „adatkupola” (Data Dome), mint egyfajta elhárító rendszer fejlesztése. Természetesen, ez is Elon Musk nevéhez és a 2023-ban indított xAI intézethez fűződik. Ehhez a kutatáshoz nyerte meg Elon Musk az előbbiekben már említett Christian Szegedy-t, aki korábban a Googlenél dolgozott.
Komoly lépés lenne, ha az adatok a keletkezésük során egy szűrön áteresztve csak a megbízhatósági faktorral megjelölve kerülhetnének be a nagy adatbázisokba. De mi van azokkal az adatokkal, amelyek már korábban odakerültek? Lehet rájuk egy revíziót alkalmazni? Azonban, amikor már felhasználták, nincs az a rendszer, amelyik felismerné, hogy mely folyamathoz és milyen célra használták fel az adott adatot, és vajon a felhasználás eredménye valós vagy hamis volt?
Bizakodjunk, hogy talán erre is meglesznek a matematikusaink, tudósaink válasza, megoldása. Az viszont nagyon valószínű, hogy az egyik leginkább foglalkoztatott szakma az adattisztító lesz akár már a közeljövőben is. Addig is jól gondolják meg, hogy milyen adatot/információt osztanak meg a közösségi hálón!
Hivatkozások jegyzéke:
Vinay Rao „From data to knowledge”, IBM Developer article (05 March 2018)
Ye, F.Y. & Ma, F.-C. (2023) An essay on the differences and linkages between data science and information science. Data and Information Management, DOI: 10.1016/j.dim.2023.100032HP.com: HP Notebook PCs – Size of Disk Drive Does not Match Specifications. [2009. január 15-i dátummal az eredetiből archiválva].
qubit.hu/2023/09/22/christian-szegedyelfogyott-az-adat (2023. 09. 22.)