Az adatbázis ötlete: Olaszy Gábor (BME TMIT) 2010.

Annotálás, címkézés, egyéb adatok: Olaszy Gábor (BME TMIT) és Abari Kálmán (Debreceni Egyetem Pszichológiai Intézet) 2010-2012 között.

Beszélők: 6 férfi és 6 nő ugyanazt a szövegkorpuszt (mondatok) olvasta fel minden instrukció nélkül. A beszélők magyar anyanyelvűek, budapestiek,  beszédhibájuk nincs. Foglalkozásuk változatos: színész, adminisztrátor, tanár kutató, mérnök stb.

Hangfelvétel: Professzionális stúdióban 44 kHz/16 bit beállításokkal.

Cél: Olyan párhuzamos és precíziós beszédadatbázist akartunk létrehozni (felolvasott beszédre), amely gazdag jelölési, címkézési hátterével biztos alapot nyújt beszédkutatásokhoz, tudományos vizsgálatokhoz. A párhuzamosság annyit jelent, hogy a 6 nő és a 6 férfi ugyanazokat a magyar mondatokat olvasta fel ugyanolyan felvételi körülmények között. A precíziós jelző azt jelenti, hogy a beszédhullám mögötti annotálási, címkézési és egyéb adatok nagy pontosságúak, gépi és manuális feldolgozás kombinálásával készültek. A manuális ellenőrzés azt jelenti, hogy az adatbázis minden mondatát (minden hangját) vizuális és auditív ellenőrzésnek vetettük alá, ha szükség volt bármilyen javításra azt végrehajtottuk. A végeredmény a PPBA.

Kapcsolódó irodalom: 
Olaszy Gábor: Precíziós, párhuzamos magyar beszédadatbázis fejlesztése és szolgáltatásai. Beszédkutatás 2013. MTA Nyelvtudományi Intézet. 261-270. 

Hivatkozás: az adatbázisra a kapcsolódó irodalomban megadott publikáció bibliográfiai adataival lehet hivatkozni. 

Támogatás: Az adatbázis létrehozását a CESAR projekt támogatta (Grant no. 271022)

Visszajelzés: észrevételek küldhetők a fenti címre: olaszy@tmit.bme.hu