A Hamshahri korpusz ( perzsa پیکره همشهری ) egy perzsa nyelvű szövegek korpusza, amely a Hamshahri iráni újság , az egyik első perzsa nyelvű online kiadvány tartalma alapján készült . Eredetileg Ehsan Darrudi, a Teheráni Egyetemen működő DBRG Csoport [1] munkatársa gyűjtötte és állította össze . Később egy Ali Ahmad [2] vezette csoport e korpusz alapján hozta létre az első információkeresési feladatokra alkalmas perzsa szövegek adatbázisát.
A Hamshahri korpusz úgy jött létre, hogy a Hamshahri újság honlapjáról beszkennelték a híreket, majd HTML oldalakat dolgoztak fel egy szabványos információkeresésre alkalmas szabványos szövegkorpusz létrehozására.
Ez a verzió több mint 160 000 cikket tartalmazott a következő témakategóriákban: politika, városi hírek, közgazdaságtan, jelentések, szerkesztőségek, irodalom, tudomány, társadalom, külföldi hírek, sport stb. A dokumentumok mérete a rövid hírektől (kevesebb, mint 1 KB) terjed. meglehetősen hosszú cikkek (kb. 140 KB), átlagosan 1,8 KB.
A korpusz többféle letöltési formátumban is elérhető [2] :
Ez a verzió 2008. október 20-án jelent meg, az előzőhöz képest több újdonsággal is rendelkezik:
A korpusz XML formátumban letölthető .
Korpusznyelvészet | |
---|---|
angol korpuszok |
|
Orosz nyelvű korpuszok |
|
Korpuszok más nyelveken |
|
Szervezetek |