Hamshahri hadtest

A Hamshahri korpusz ( perzsa پیکره همشهری ) egy perzsa nyelvű szövegek korpusza, amely a Hamshahri iráni újság , az egyik első perzsa nyelvű online kiadvány tartalma alapján készült . Eredetileg Ehsan Darrudi, a Teheráni Egyetemen működő DBRG Csoport [1] munkatársa gyűjtötte és állította össze . Később egy Ali Ahmad [2] vezette csoport e korpusz alapján hozta létre az első információkeresési feladatokra alkalmas perzsa szövegek adatbázisát.

A Hamshahri korpusz úgy jött létre, hogy a Hamshahri újság honlapjáról beszkennelték a híreket, majd HTML oldalakat dolgoztak fel egy szabványos információkeresésre alkalmas szabványos szövegkorpusz létrehozására.

1.0 verzió

Ez a verzió több mint 160 000 cikket tartalmazott a következő témakategóriákban: politika, városi hírek, közgazdaságtan, jelentések, szerkesztőségek, irodalom, tudomány, társadalom, külföldi hírek, sport stb. A dokumentumok mérete a rövid hírektől (kevesebb, mint 1 KB) terjed. meglehetősen hosszú cikkek (kb. 140 KB), átlagosan 1,8 KB.

A korpusz többféle letöltési formátumban is elérhető [2] :

2.0 verzió

Ez a verzió 2008. október 20-án jelent meg, az előzőhöz képest több újdonsággal is rendelkezik:

A korpusz XML formátumban letölthető .

Jegyzetek

  1. DBRG News archiválva : 2017. május 15. a Wayback Machine Database Research Groupnál
  2. 1 2 Hamshahri archiválva : 2017. május 14. a Wayback Machine Database Research Groupnál

Linkek