Hegedűs István: A második világháborús hadifoglyok és internáltak újbóli "hazatérése" [DKA metaadatok]

K é p a l á í r á s : A második világháborús hadifoglyok és internáltak újbóli "hazatérése"

N y e r s v a g y O C R - e s s z ö v e g : A második világháborús hadifoglyok és internáltak újbóli "hazatérése" Hegedűs István Digitális Tartalomfejlesztési Osztály 2022. április 21. Előzmények A Magyar Nemzeti Levéltár és az Orosz Állami Hadilevéltár (RGVA) 2019. április 8-án kötött együttműködést a második világháború idején a Vörös Hadsereg által foglyul ejtett és ezt követően a Szovjetunióban fogolyként nyilvántartott magyar nemzetiségű személyek nyilvántartó kartonjainak digitalizálásáról és a digitális másolatok átadásáról. Közel 682 000 karton másolata A Magyar Nemzeti Levéltárnak átadott iratmásolatokhoz egy orosz nyelvű, cirill betűs leírást is készített az orosz fél, amely a nyilvántartó kartonokon szereplő, az egyes személyekhez köthető legfontosabb információkat tartalmazta. Ezért a személyneveknél és a földrajzi neveknél az átírás és a fordítás nyelvi feldolgozáson alapuló gépi algoritmusok segítségével történt - az ELKH Nyelvtudományi Intézetének bevonásával. 2020. végéig a fordító algoritmus számos finomításon esett át, így 2021-re a személyneveknél 90% feletti, míg a földrajzi neveknél 70%-ot meghaladó találati eredményt sikerült az algoritmusnak elérni. A projekt második szakaszának célja (2021. szeptember – 2022 március) Különálló adatbázisok rekordjai közötti kapcsolatok feltárása Adatstruktúra kidolgozása, adatok tisztítása, normalizálása AI használata a folyamat meggyorsításához (tanulóadatok, AI modell tanítás, alkalmazás) Gráfadatbázis kialakítása az eredmények vizualizációjához Keretrendszer kialakítása Technológiai környezet és módszertani alapok lefektetése a hosszútávon elvégzendő adattisztítás és elemzési feladatok támogatásához A projekt második szakaszának lépései Adattisztítás és elemzés Tábornevek kinyerése folyó szövegből Nemek meghatározása Nemzetiségek kategorizálása Helyszínnevek tisztítása (lakhely, szül. hely, fogságba esés) Beosztások hierarchiába rendezése AI modell tervezés Folyamatosan tanuló modell Később továbbfejleszthető megoldás Alkalmazás és adatbázis Statisztikai módszerekkel előszűrés Könnyen személyre szabható megoldás Adatbázis Felhasználói felület Vizualizáció Folyamatábra Egy folyamatosan futó, tanuló, és továbbfejleszthető megoldás keretrendszerének sematikus ábrája: A GT mellett a többi komponens is úgy lett kialakítva, hogy azok könnyen módosíthatóak, és a folyamat képes ezen módosításokat kezelni Levéltáros/történész általi validáció/modelltanítás Az AI modell tanítóadata nem állt rendelkezésre a megoldás átadásakor Ezt az emberi munkaerő hozza létre azzal, hogy egy alapmodell eredményeit validálja (elfogadja, vagy elutasítja) Így tudja a modell idővel kiváltani az emberi jóváhagyást Az ember általi validáció által érhető el, hogy a modell tanuljon és egyre jobb legyen. 2. Ütem fejlesztési lépések Nem eldönthető kategória bevezetése Frontend felületen külön gombbal megjelenítve Szűrések során „Nem eldönthető” döntés figyelembe vétele Szűrések mentén történő validáció A validáló felületen a megjelenített rekordok szűrhetőek: Adatbázis ID, Modell által javasolt egyezőség, Minimális validálások száma, Minimális egyező validálások száma, Maximális „Nem eldönthető” döntések száma alapján Több személy általi validáció Minden validálandó párt felkínál a rendszer több különböző validáló személynek is, előnyben részesítve a már validált párokat Gyakorisági adatok kiszámítása MNL által biztosított adattáblák alapján minden személy neve, és különböző településnév adatainak Népszámlási adatokból vett gyakorisága alapján egy gyakorisági érték számítása Optimalizálás Gyakorisági adatok számításnak optimalizálása Validációs felület megjelenítésért felelős lekérdezésének optimalizálása Vizsgált modellek Logisztikus regresszió A logisztikus regresszió során a modell célja, hogy egy olyan egyenletet állítson fel, melyben a bemeneti súlyok egy modell által meghatározott súllyal vett szorzatainak összege és egy konstans összege kiadja a modell kimenetét Hagyományos döntési fa Egy darab döntési fa felépítése, mely a bemeneti paraméterek értékkészletét olyan módon vágja több részre minden egyes paraméter mentén, hogy az ágak végén lévő leveleken egy csoportba (egyező/nem egyező) párok szerepeljenek csak túlnyomórészt Random Forest A döntési fa továbbfejlesztése, melyben több egyedi fából álló „erdő” létezik, és a modell ezen fák egyedi többségi döntését adja kimenetként Gradient Boosted Tree A random forest továbbfejlesztése, mely során a fák egymás után épülnek fel, így a korábbi fák tudását felhasználva jönnek létre egyre újabb fák Neurális hálók A bemeneti paraméterek gyakorlatilag egy logisztikus regresszióhoz hasonló módon a rejtett réteg mindegy egyes neuronját aszerint aktiválják, hogy a modell milyen súlyt rendel az egyes bemeneti változókhoz. Majd ezen rejtett rétegen szereplő különálló neuronok további rejtett rétegek neuronjait aktiválják hasonló módon, de itt már a neuronok kapnak saját súlyokat, és így tovább. A végén egy darab neuronban egyesülnek ezen aktivációk, mely meghatározza a kimenetet Modellezési eredmények (validációs adatokon) Logisztikus regresszió Gyakorlatilag mindent „Egyező”-re prediktált Az adatbázis ID kapta a legnagyobb súlyt Döntési fa Elég jó eredmény, komplexitásában az egyik legegyszerűbb és legjobban értelmezhető modell Random forest A döntési fánál csak minimálisan jobb eredmény Neurális hálók A neurális hálók csak speciális adatelőkészítés esetén működnek hatékonyan, és erőforrásigényesek Választott modell (Gradient Boosted Tree) Az eredmények javulásának elsődleges oka a pontosabb validálás és a több személy általi validálások által nyert magasabb bizonyosság Emellett kisebb részben javított az eredményeken a modellek hiperparaméterezése Több különböző modell architektúra is kipróbálásra került, azonban nem tudják olyan mértékben befolyásolni az eredményt, mint a jobb minőségű tanítóadat Modell eredmények A bal oldali diagramon látható, hogy minél több validálás történt egy adott páron, annál kisebb a modell eredményének szórása A modell eredmények jellemzően a 2 szélső tartomány felé tendálnak (jobb oldali ábra), azaz elég biztosan alkot véleményt most már a modell Modell eredménye Az új modell eredményeként a következő megállapításokat tehetjük: Az adatbázisban szereplő személyrekordok száma: 941 401 A modell futtatása után létrejövő mesterrekordok száma: 846 359 Ebből az egy személyrekordot tartalmazó mesterID-k: 806 141, azaz ennyi olyan személy van, akihez nem lehet másik személyrekordot rendelni Tehát van 135 260 (941 401 - 806 141) olyan személyrekord, akik nem egyediek, ezek összesen 40 218 (846 359 - 806 141) mesterrekordba rendezhetőek össze Emellett megállapíthatjuk, hogy a modell alapján találtunk 95 042 (941 401 - 846 359) duplikációt, melyek összevonhatóak egy- vagy több másik személyrekorddal A projekt legfőbb eredménye olyan lehetséges kapcsolatok beazonosítása a kartonok között amelyek emberi munkaerővel, tömegesen nem felfedezhetők Tanulságok Előzetes adatelemzés -az adatok eloszlását, hiányzó értékeket, lehetséges értékkészletet elemezni! 2. Adatok tisztítása - további adattisztítási lépések bevezetése, hogy jobb összehasonlítási eredményeket kapjunk (Hol a határ?) 3. Keretrendszer és architektúra tervezés - Olyan architektúrát kell tervezni, mely eléggé nyitott, ahhoz, hogy más projektben is felhasználható legyen, de mégis hibatűrő 4. Adatbázis architektúra kialakítása - Köztes táblákat kellett bevezetni, melyek tárolják az egyes lépések értékeit, és a következő már erre tud építkezni. 5. AI modell megtervezése és kialakítása - Rengeteg hagyományos adatelemzési és előkészítési folyamat szükséges ahhoz, hogy megfelelő formába létrejöjjön az adat egy AI modell betanításához (adatelőkészítés fontossága!!) 6. Infrastruktúra biztonságossá tétele - AD integráció, adatbázis biztonsági szintek kialakítása, szerverek logikai, fizikai és hálózati szétválasztása biztosítja az illetéktelen módosítások elleni védelmet 7. Felhasználói felület fejlesztés - Mindezek után szükséges egy olyan felület, mely gyorsan és könnyen elérhetővé és használhatóvá teszi a felhasználó számára az így létrejött megoldást Az elkészült fejlesztés csak az induló pontja annak a tevékenységnek amely során az adatok tisztasága, a hasonlóság számítások és a kapcsolatok feltárását célzó modellek folyamatosan javíthatók adatbazisokonline.hu Köszönöm a figyelmet! Hegedűs István Digitális Tartalomfejlesztési Osztály Innovációs és Informatikai Igazgatóság Magyar Nemzeti Levéltár hegedus.istvan@mnl.gov.hu

D o k u m e n t u m n y e l v e : magyar