THE
HUNGARIAN
LANGUAGE IN
THE DIGITAL
AGE
A MAGYAR
NYELV A
DIGITLIS
KORBAN
Simon Eszter
Lendvai Piroska
Nmeth Gza
Olaszy Gbor
Vicsi Klra
THE
HUNGARIAN
LANGUAGE IN
THE DIGITAL
AGE
A MAGYAR
NYELV A
DIGITLIS
KORBAN
Simon Eszter MTA Nyelvtudomnyi Intzet
Lendvai Piroska MTA Nyelvtudomnyi Intzet
Nmeth Gza BME
Olaszy Gbor BME
Vicsi Klra BME
ELSZ PREFACE
Ez a fehr knyv egy sorozat rszt kpezi, amelynek
ogy vision and strategic research agenda for multilingual Europe 2020.
III
A fehr knyv megrst az Eurpai Bizottsg 7. keretprogramja s ICT PSP programja tmogatta a T4ME (szerzdsszm: 249 119), a CESAR (szerzdsszm: 271 022),
a METANET4U (szerzdsszm: 270 893) s a METANORD (szerzdsszm: 270 899) projekteken keresztl.
IV
2.1
2.2
Veszlyben a nyelveink . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
2.4
A nyelvtechnolgia lehetsgei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5
A nyelvtechnolgia kihvsai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
10
3.1
ltalnos tnyek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2
3.3
Modernkori fejlds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4
Nyelvmvels Magyarorszgon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5
3.6
Nemzetkzi vonatkozsok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.7
4 Nyelvtechnolgia magyarul
15
5 A META-NET-rl
34
35
38
2.1
2.2
2.3
2.4
2.5
2.6
43
3.1
General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2
3.3
Recent Developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4
3.5
Language in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.6
International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7
48
5 About META-NET
66
A Hivatkozsok -- References
67
69
73
1
VEZETI SSZEFOGLAL
Az informcis technolgia jelentsen megvltoz-
e-mailrsra,
informciszerzsre s szrakozsra,
A Magyar
Sokan panaszkodnak Magyarorszgon az anglicizmusok egyre ersd hasznlata miatt, s attl tartanak,
hogy a magyar nyelvet elrasztjk az angol szavak s kifejezsek. Ez a megkzelts flrevezet. A magyar nyelv
mr tllte az j szavak hatst, melyeket klnbz
trk nyelvekbl vettnk t a honfoglals eltti korban,
s tllte az ers szlv hatst is a Krpt-medencben.
Ksbb az Oszmn Birodalom rsze volt az orszg 150
vig, majd a Habsburg Birodalom ideje alatt a latin s a
nmet nyelv hatsa volt nagyon ers. Kedves kis magyar
szavaink elvesztsnek egy j ellenszere, ha hasznljuk
vsrls.
cis trben s a szoveralkalmazsokban. Egy meglehetsen aktv magyar nyelv webes kzssg ltezsrl
tanskodik az, hogy a magyar Wikipdia a 19. legnagyobb, megelzve olyan tbb beszlvel rendelkez eurpai nyelveket, mint a trk, a romn vagy a dn,
s olyan vilgnyelveket, mint az arab vagy a koreai.
Nhny fontos nemzetkzi szover magyar vltozatban
is elrhet, azonban a magyar nyelv specialitsa megnehezti az angolalap alkalmazsok adaptlst. A
kltsges magyar nyelv technolgik fejlesztst az is
htrltatja, hogy a magyar piac meglehetsen kicsi.
Nagyrszt llami,
A szemlyi
megfelel.
tani.
2
VESZLYBEN A NYELVEINK:
KIHVS A NYELVTECHNOLGINAK
Digitlis forradalom szemtani vagyunk, amely drma-
Az elmlt hsz vben az informcis technolgia szmos folyamat automatizlst s knnyebb hasznlatt
segtette el:
A kiadvnyszerkeszt szover felvltotta a gprst
s a nyomdai formzst.
feldolgozst s tudscsert:
A nagy nyelvek helyesrsi s nyelvtani szabvnyostsa lehetv tette az j tudomnyos s intellektulis tletek gyors terjesztst.
A hivatalos nyelvek kialakulsa lehetv tette a
polgrok szmra a (gyakran politikai) hatrokon
tvel kommunikcit.
A nyelvtants s fordts elsegtette a nyelvek
kztti csert.
Az jsgri s bibliograi tmutatk biztostottk
a nyomtatott anyagok minsgt s elrhetsgt.
2.1 AZ EURPAI
INFORMCIS TRSADALOM
GTJAI: A NYELVI HATROK
Nem tudjuk pontosan, hogyan fog kinzni a jvbeli informcis trsadalom. Azonban igen valszn, hogy
a kommunikcis technolgia forradalma a klnbz
nyelveket beszl embereket sszehozza. Ez a folyamat
hasznlk 55%-a olvas idegen nyelv szveget az interneten, mg csak 35%-uk hasznl ms nyelvet e-mailek
vagy egyb zenetek rshoz a weben [2]. Pr vvel
ezeltt mg az angol volt a lingua anca a weben
Pldaknt: becs-
2.4 A NYELVTECHNOLGIA
LEHETSGEI
menedzsment szolgltatsokat.
menthetnek.
2.5 A NYELVTECHNOLGIA
KIHVSAI
A nyelvtechnolgia segthet a
nyelvi gtak ledntsben.
tot.
kzelebb hozsban.
nyelvet.
A msodik nyelv elsajttsa mr ennl sokkal nagyobb
erfesztsbe kerl, amennyiben ez nem anyanyelvi
kzegben zajlik. Iskols korban az idegen nyelv elsajttsa a nyelv nyelvtani szerkezetnek, szkincsnek
s helyesrsnak knyvekbl s oktat anyagokbl val
megtanulsval zajlik, amelyek a nyelvet szablyokon,
tblzatokon s pldaszvegeken keresztl mutatjk be.
Egy idegen nyelv megtanulsa sok erfesztst s idt
ignyel, s mindez az vek mlsval egyre nehezebb
vlik.
nyelvekre kizetd.
tatlaboratriumban.
3
A MAGYAR NYELV AZ EURPAI
INFORMCIS TRSADALOMBAN
3.1 LTALNOS TNYEK
A Magyar Kztr-
kzl a legnagyobb a romniai, megkzeltleg msfl milli nyelvhasznlval. Becslsek szerint a ma-
ben.
10
a nyelvtani ele-
Jkedvvel, bsggel.
rag.
Le-val
a kocsi-bl
utaz-hat
jr-ogat
with Leo
can travel
usually goes
Isten
ldd
meg
magyart
God
bless
the
Hungarian
we). A kt sz felptse azonos a ltszlagos klnbsget a magnhangzk okozzk, az n. magnhangzharmnia (ms nven illeszkeds) miatt. A magnhangzk kt osztlyba soroldnak: mlyek (deep): a
o u s magasak (high): e i . A vgzdsekben a
magnhangz az alapsznak megfelelen jelenik meg: a
-vel
merriment
bsgwith
-gel
plenty
A magyarban nincsenek
11
Hova?
Where to?
Hol?
Where?
Honnan?
Where from?
bell
inside
a dobozba
into the box
a dobozban
inside the box
a dobozbl
out of the box
rajta
on
a dobozra
onto the box
a dobozon
on the box
a dobozrl
o the box
kzelben
near
a dobozhoz
to the box
a doboznl
at the box
a doboztl
from near the box
ers hatsnak.
A magyar nyelv kutatsnak vezet magyarorszgi
3.4 NYELVMVELS
MAGYARORSZGON
domnyi Intzete. A Nyelvtudomnyi Intzet 1949ben jtt ltre, a Kzoktatsi Minisztrium felgyelete
12
Napoca, Romnia).
kln tantjk.
rtke van.
3.6 NEMZETKZI
VONATKOZSOK
arnyt.
domny tern.
Ahogy mindenhol mshol a tudomnyos vilgban, a
nyomssal. Mivel a vezet nemzetkzi folyiratok jelents rsze angol nyelv, tovbb n az angol nyelv szerepe.
13
gazdasgi htrnyait.
esetben.
[13].
vgzdsekkel elltott alakjait, illetve az eltr tvltozatokat is meg kell tallnunk, mint pldul a l-loak
vagy a koreai.
jelenlegi llapott.
14
4
NYELVTECHNOLGIA MAGYARUL
A nyelvtechnolgiai rendszerek olyan szoverek, ame-
helyesrs-ellenrzs,
informcikinyers,
szvegtmrts,
krdsmegvlaszol rendszerek,
beszdfelismers s
nolgia az emberi kommunikcinak ezt a kt klnbz formjt dolgozza fel, illetve lltja el, s mindket-
beszdszintzis.
illusztrlja.
szer felptst.
Kommunikcinkban vegytjk a nyelvet s a kommunikci ms mdjait s csatornit. A beszdet gesztusokkal s arckifejezsekkel ksrjk. A digitlis szvegek
kpekkel s hangz anyagokkal egytt jelennek meg.
A lmek a nyelvet beszlt s rott formban is megjelentik. Vagyis a beszd- s nyelvtechnolgia tfed
s egyttmkdik ms technolgikkal, amelyek gy
egytt erstik a multimodlis kommunikci s a multimdis tartalmak feldolgozst.
4.1 A NYELVTECHNOLGIAI
ALKALMAZSOK FELPTSE
A tipikus nyelvtechnolgiai alkalmazsok tbb komponensbl llnak ssze, amelyek a nyelv egyes szintjeit
tkrzik. A 3. bra egy szvegfeldolgoz rendszer egyszerstett felptst mutatja. Az els hrom modul a
bemen szveg szerkezett s jelentst dolgozza fel:
tben) stb.
15
Beszdtechnolgia
Multimdis &
multimodlis
technolgik
Termszetesnyelvfeldolgozs
Tudsreprezentci
Nyelvtechnolgia
2: Termszetesnyelv-feldolgozs
4.2 A F ALKALMAZSI
TERLETEK
Ebben a fejezetben a legfontosabb nyelvtechnolgiai
eszkzkre s erforrsokra fkuszlunk, s ttekintst
adunk a magyarorszgi nyelvtechnolgiai tevkenysg-
rl.
16
Bemen szveg
Elfeldolgozs
Kimenet
Nyelvtani elemzs
Szemantikai
elemzs
Feladatspecifikus
modulok
san elllthatk nagy mret, ellenrztt adatot tartalmaz szveghalmazokbl, ms nven korpuszokbl.
Ez a megkzelts elssorban angol nyelv adatokra lett
kifejlesztve, de a magyarra is alkalmazhat. Azt azonban
gyelembe kell venni, hogy a mdszerek nem ltethetk
t egy az egyben a magyar nyelv agglutinl jellege s szabad szrendje miatt.
a Microso Oce, a uarkXPress, az Adobe InDesign s ms szveg- s kiadvnyszerkesztvel is hasznlhat. A MorphoLogic nyelvhelyessg-ellenrz programokat is fejlesztett, amelyek felismernek olyan he-
17
Bemen szveg
Helyesrs-ellenrzs
Nyelvtani ellenrzs
Javtsi javaslatok
Mr a magyar
18
Weboldalak
Elfeldolgozs
Szemantikai elemzs
Indexels
Egyezs
&
Relevancia
Elfeldolgozs
A lekrdezs elemzse
Felhasznli
lekrdezs
Keressi eredmnyek
tulajdonnv-felismerk.
szerkezetre tmaszkodni.
Viszont az esetragok s
meg a mondatrszek szerept. Az igk s a hozzjuk tartoz vonzatok alkotjk a mondat szerkezetnek alapjt,
ezrt fontosak az n. vonzatkerettrak.
Egy ilyen
nyelvre.
beptve.
19
alapulnak.
Ltezik egy magyar nyelv ltalnos cl metakeres,
a PolyMeta [23], amely lehetsget nyjt tetszleges
szm, interneten keresztl elrhet adatbzis, forrs
egyidej lekrdezsre. A tallati eredmnyekbl kzs
lista kszl, amelyben az elemek fontossgi sorrend szerint vannak rendezve. A metakeres termszetesnyelvfeldolgozsi s informci-visszakeressi algoritmusokat hasznl a kereskifejezsek elemzshez s a talla-
tok sorrendezshez.
De nemcsak kis- s kzpvllalatok fejlesztenek informcikinyer eszkzket Magyarorszgon.
Sz-
4.2.3 Beszdtechnolgia
felismers jelenti, vagyis hogy a rendszer minl pontosabban felismerje a felhasznl ltal kiejtett szavakat.
alternatvjaknt.
20
Beszdkimenet
Beszdszintzis
Beszdbemenet
Jelfeldolgozs
Felismers
megkzelts.
Ami a beszdinterfsz kimeneti oldalt illeti, a vllalatok egyre inkbb elre felvett kifejezseket hasznlnak.
A statikus kifejezsek esetben, amikor a beszd nem
fgg adott kontextustl vagy a felhasznl adataitl, ez a
mdszer kell mrtk felhasznli elgedettsget eredmnyez. Viszont minl dinamikusabb a lejtszani kvnt
tartalom, annl rosszabb lesz az elemekbl sszelltott
mondat prozdija az audifjlok sszevgsa miatt
mg akkor is, ha a mai beszdszintetizl rendszerek
egyre jobban teljestenek, ksznheten az egyre termszetesebb vl prozdinak.
A beszdtechnolgia piacn az elmlt vtizedekben
fontos szabvnyostsi lpsek trtntek a klnbz technolgiai komponensek kztti interfszek,
valamint az egyes alkalmazsokra pl termkek esetben is. Intenzv piaci konszolidci zajlott le az elmlt
tz vben, fknt a beszdfelismers s -szintzis tern.
A G20 orszgok nemzeti piacait kevesebb mint 5 cg
dominlja, mint a Nuance (USA) s a Loquendo (Olaszorszg), csak hogy a legprominensebbeket emltsk az
Egy 1,5
konszolidcija fel.
21
tben mkdik.
nak eredmnyekppen klnfle orvosi leletez beszdfelismerk is kszltek, melyek az orvosi vizsglatokat
a telefonkzpont-irnyts.
De
22
Szvegelemzs (formzs,
morfolgia, szintaxis stb.)
Forrsszveg
Statisztikai
alap gpi
fordts
Fordtsi szablyok
Szveggenerls
Clszveg
ahogy a
korpuszokbl lehet kiszmtani, mint amilyen az Europarl prhuzamos korpusz, amely az Eurpai Parlament jegyzknyveit tartalmazza 21 eurpai nyelven. Kell mennyisg adat birtokban a statisztikai
alap gpi fordts elg j becslst tud adni egy idegen nyelv szveg jelentsrl. Azonban a szablyalap
rendszerekkel ellenttben a statisztikai (ms nven
adatvezrelt) gpi fordtk gyakran nyelvtanilag helytelen kimenetet produklnak.
Msrszrl viszont az
adatvezrelt rendszereknek tbb elnyk is van: amellett, hogy kevesebb emberi munkt ignyelnek, a nyelv
olyan klnlegessgeit is tudjk kezelni (pldul az idiomatikus kifejezseket), amilyeneket a szablyalapak
nem.
kimenetet.
23
csomag [27].
A nyelvtechnolgiai alkalmazsok
gyakran nem jelennek meg a felhasznl
szintjn, hanem nagyobb rendszerekbe
beptve, a httrben mkdnek.
sokat okoz a fordti munkafolyamatban, s arra knyszerti a gpi fordtst hasznlkat, hogy klnbz
elsajttsk.
24
EN
BG
DE
CS
DA
EL
ES
ET
FI
FR
HU
IT
LT
LV
MT
NL
PL
PT
RO
SK
SL
SV
EN
61.3
53.6
58.4
57.6
59.5
60.0
52.0
49.3
64.0
48.0
61.0
51.8
54.0
72.1
56.9
60.8
60.7
60.8
60.8
61.0
58.5
BG
40.5
26.3
32.0
28.7
32.4
31.1
24.6
23.2
34.5
24.7
32.1
27.6
29.1
32.2
29.3
31.5
31.4
33.1
32.6
33.1
26.9
DE
46.8
38.7
42.6
44.1
43.1
42.7
37.3
36.0
45.1
34.3
44.3
33.9
35.0
37.2
46.9
40.2
42.9
38.5
39.4
37.9
41.0
CS
52.6
39.4
35.4
35.7
37.7
37.5
35.2
32.0
39.5
30.0
38.9
37.0
37.8
37.9
37.0
44.2
38.4
37.8
48.1
43.5
35.6
DA
50.0
39.6
43.1
43.6
44.5
44.4
37.8
37.9
47.4
33.0
45.8
36.8
38.5
38.9
45.4
42.1
42.8
40.3
41.0
42.6
46.6
EL
41.0
34.5
32.8
34.6
34.3
39.4
28.2
27.2
42.8
25.5
40.6
26.5
29.7
33.7
35.3
34.2
40.2
35.6
33.3
34.0
33.3
ES
55.2
46.9
47.1
48.9
47.5
54.0
40.4
39.7
60.9
34.1
26.9
21.1
8.0
48.7
49.7
46.2
60.7
50.4
46.2
47.0
46.6
ET
34.8
25.5
26.7
30.7
27.8
26.5
25.4
34.9
26.7
29.6
25.0
34.2
34.2
26.9
27.5
29.2
26.4
24.6
29.8
31.1
27.4
MT
39.8
25.9
19.8
26.3
21.1
23.8
24.6
20.5
19.4
25.3
18.1
24.6
22.2
23.3
22.0
27.9
24.8
28.7
28.5
30.0
23.7
NL
52.3
44.9
50.2
46.5
48.5
48.9
48.8
41.3
40.6
51.6
36.1
50.5
38.1
41.5
44.0
44.8
49.3
43.0
44.4
45.9
45.6
PL
49.2
35.1
30.2
39.2
34.3
34.2
33.9
32.0
28.8
35.7
29.8
35.2
31.6
34.4
37.1
32.0
34.5
35.8
39.0
38.2
32.2
PT
55.0
45.9
44.1
45.7
45.4
52.5
57.3
37.8
37.5
61.0
34.2
56.5
31.6
39.6
45.9
47.7
44.1
48.5
43.3
44.1
44.2
RO
49.0
36.8
30.7
36.5
33.9
37.2
38.1
28.0
26.5
43.8
25.7
39.3
29.3
31.0
38.9
33.0
38.2
39.4
35.3
35.8
32.7
SK
44.7
34.1
29.4
43.6
33.0
33.1
31.7
30.6
27.3
33.1
25.6
32.5
31.8
33.3
35.8
30.1
38.2
32.1
31.5
38.9
31.3
SL
50.7
34.1
31.4
41.3
36.2
36.3
33.9
32.9
28.2
35.6
28.2
34.7
35.3
37.1
40.0
34.6
39.8
34.4
35.1
42.6
33.5
SV
52.0
39.9
41.2
42.9
47.2
43.3
43.7
37.3
37.6
45.8
30.5
44.3
35.3
38.0
41.6
43.6
42.1
43.9
39.4
41.8
42.7
8: Gpi fordts 22 hivatalos eurpai nyelvre Machine translation between 22 EU-languages [29]
a felhasznl egy konkrt krdst tehet fel, amelyre egy
gyelembevtelvel.
25
nyelvre.
4.4 NYELVTECHNOLGIA AZ
OKTATSBAN
funkcii kzl.
A krdsmegvlaszols s szveggenerls
a magyar nyelvre sokkal kevsb fejlett, mint
az angol nyelv esetben.
nyelvtechnolgia-oktats.
erfesztseinek ellenre,
Ennek
a jvend nemzedkek
26
szereplkhz.
orszgokhoz
hasonlan
termszetesnyelv-feldolgozs
kezdetei
magyarorszgi
is
gpi
van). Ezek ltalban ssze nem egyeztethet formtumak, nem szabvnyostottak, tovbb hinyos a
27
4.6 AZ ESZKZK S
ERFORRSOK ELRHETSGE
tani.
tokra.
Magyarorszgon
beszdfelismerssel
gpi
sokrl.
ramok szksgesek.
tostva:
28
Lefedettsg
Fejlettsg
Fenntarthatsg
Alkalmazhatsg
Beszdszintzis
Nyelvtani elemzs
4,5
4,5
4,5
Szemantikai elemzs
0,6
2,5
0,5
Szveggenerls
Gpi fordts
Minsg
Elrhetsg
Mennyisg
Beszdfelismers
3,5
5,5
5,5
Beszdkorpuszok
Prhuzamos korpuszok
4,5
2,5
Lexikai erforrsok
3,5
3,5
3,5
3,5
4,5
Nyelvtanok
2. klaszter: j tmogats
Szvegelemzs:
nolgik (morfolgia,
szintaxis,
szemantika)
A ltez szveg-,
beszd- s
29
4.8 SSZEGZS
infrastruktra megteremtst.
30
A technol-
erit.
31
Kivl
tmogats
J
tmogats
angol
Kzepes
tmogats
cseh
nn
francia
holland
nmet
olasz
portugl
spanyol
Tredkes
tmogats
baszk
bolgr
dn
szt
galciai
grg
r
kataln
lengyel
magyar
norvg
svd
szerb
szlovk
szlovn
Gyenge/semmi
tmogats
horvt
izlandi
lett
litvn
mltai
romn
Kivl
tmogats
J
tmogats
angol
Kzepes
tmogats
francia
spanyol
Tredkes
tmogats
holland
kataln
lengyel
magyar
nmet
olasz
romn
Gyenge/semmi
tmogats
baszk
bolgr
cseh
dn
szt
nn
galciai
grg
horvt
r
izlandi
lett
litvn
mltai
norvg
portugl
svd
szerb
szlovk
szlovn
32
Kivl
tmogats
J
tmogats
angol
Kzepes
tmogats
francia
holland
nmet
olasz
spanyol
Tredkes
tmogats
baszk
bolgr
cseh
dn
nn
galciai
grg
kataln
lengyel
magyar
norvg
portugl
romn
svd
szlovk
szlovn
Gyenge/semmi
tmogats
szt
horvt
r
izlandi
lett
litvn
mltai
szerb
Kivl
tmogats
J
tmogats
angol
Kzepes
tmogats
cseh
francia
holland
lengyel
magyar
nmet
olasz
spanyol
svd
Tredkes
tmogats
baszk
bolgr
dn
szt
nn
galciai
grg
horvt
kataln
norvg
portugl
romn
szerb
szlovk
szlovn
Gyenge/semmi
tmogats
r
izlandi
lett
litvn
mltai
33
5
A META-NET-RL
A META-NET az Eurpai Bizottsg ltal alaptott
azokat.
META-SHARE s a META-RESEARCH.
oce@meta-net.eu http://www.meta-net.eu
34
1
EXECUTIVE SUMMARY
Information technology changes our everyday lives. We
nd out all about it, but even then they wont read the
tional scene.
cleanly-separated language communities. What the Internet connects is still divided by the languages of its
users. Will it always be like this?
the Old Turkish on the steppes, then later from the Slavs
35
bile assistant Siri for the iPhone that can react to voice
36
ments.
other applications.
the fact that, for y years now, the methods and algo-
Summing up, despite the prophets of doom the Hungarian language is not in danger, even from the prowess of
English language computing. However, the whole situation could change dramatically when a new generation of technologies really starts to master human languages eectively. rough improvements in machine
translation, language technology will help in overcoming language barriers, it will only be able to operate between those languages that have managed to survive in
the digital world. If there is adequate language technology available, then it will be able to ensure the survival
of languages with very small populations of speakers. If
not, even larger languages will come under severe pressure.
under the sun all you want, but if you really intend to
to support them.
37
2
LANGUAGES AT RISK: A CHALLENGE FOR
LANGUAGE TECHNOLOGY
We are witnesses to a digital revolution that is dramati-
nology are sometimes compared to Gutenbergs invention of the printing press. What can this analogy tell
38
society will look like. However, there is a strong likelihood that the revolution in communication technology is bringing together people who speak dierent languages in new ways. is is putting pressure both on in-
dividuals to learn new languages and especially on developers to create new technology applications to ensure
guages?
have been the lingua franca of the Web the vast ma-
39
ready reasonably accurate in specic domains, and experimental applications provide multilingual informa-
systems were developed for specialised domains, and often exhibit limited performance. However, there are
huge market opportunities in the education and entertainment industries for integrating language technologies into games, edutainment packages, libraries, simu-
40
businesses, organisations and schools. However, citizens need to communicate across the language borders
of the European Common Market, and language tech-
nology can help overcome this nal barrier, while supporting the free and open use of individual languages.
lets look briey at the way humans acquire rst and sec-
systems work.
Looking even further ahead, innovative European multilingual language technology will provide a benchmark
41
lar manner. Statistical (or data-driven) approaches obtain linguistic knowledge from vast collections of concrete example texts. While it is sucient to use text in a
single language for training, e. g., a spell checker, parallel texts in two (or more) languages have to be available
for training a machine translation system. e machine
learning algorithm then learns patterns of how words,
As the strengths and weaknesses of statistical and rulebased systems tend to be complementary, current research focusses on hybrid approaches that combine the
two methodologies. However, these approaches have so
far been less successful in industrial applications than in
the research lab.
42
3
THE HUNGARIAN LANGUAGE IN THE
EUROPEAN INFORMATION SOCIETY
3.1 GENERAL FACTS
ian.
as:
are seven dialects identied in the present area of Hungary. ese dialects are, for the most part, mutually intelligible. Two additional Hungarian dialects exist in
Romania: Szkely and Csng.
scribed.
43
Le-val
a kocsi-bl
utaz-hat
jr-ogat
words:
with Leo
can travel
usually goes
Isten
ldd
meg
magyart
God
bless
the
Hungarian
jkedvwith
merriment
-vel
bsgwith
-gel
plenty
to the so-called vowel harmony (also known as assimilation). e vowels are relegated into one of two classes:
deep: a o u, and high: e i . In the suxes, the
as well: - + - e - [6].
44
Hova?
Where to?
Hol?
Where?
Honnan?
Where from?
bell
inside
a dobozba
into the box
a dobozban
inside the box
a dobozbl
out of the box
rajta
on
a dobozra
onto the box
a dobozon
on the box
a dobozrl
o the box
kzelben
near
a dobozhoz
to the box
a doboznl
at the box
a doboztl
from near the box
45
experts abroad, as well as organises courses of Hungarian studies and minority rights [7].
e Research Institute for Linguistics is among the leading institutions in the eld of research on the Hungarian language. It was founded in 1949, and placed under
the direction of the Hungarian Academy of Sciences in
1951. Its primary tasks include research in Hungarian
linguistics, general, theoretical and applied linguistics,
Uralic linguistics, and phonetics. e Institutes tasks
include the preparation of a comprehensive dictionary
of the Hungarian language, and the maintenance of its
archival materials. Its research projects investigate various aspects of Hungarian as well as minority languages
in and outside Hungary, and deal with issues of language policy within the framework of the European integration. Further activities include the compilation of
linguistic corpora and databases, and the laying of the
linguistic groundwork for language technology applications. Besides, the Institute operates a public counselling service on language and linguistics, and runs the
eoretical Linguistics undergraduate and PhD programmes, jointly with Etvs Lornd University [8].
Academy of Sciences are intended to use. e regulations are not obligatory, but misspellings can certainly
cause loss of prestige.
46
Arabic or Korean.
oral communication.
language. For Hungarian this comprises taking into account the dierent inectional endings of nouns, adjec-
use language technology in less obvious ways, for example, by automatically translating web page contents
from one language into another. Despite the high cost
of manually translating this content, comparatively little
4
LANGUAGE TECHNOLOGY SUPPORT
FOR HUNGARIAN
Language technology is used to develop soware sys-
information retrieval,
information extraction,
text summarisation,
question answering,
speech synthesis.
4.1 APPLICATION
ARCHITECTURES
input:
authoring support,
48
Speech Technologies
Multimedia &
Multimodality
Technologies
Language
Technologies
Knowledge Technologies
Text Technologies
2: Language technologies
readable way.
of this series.
49
Input Text
Pre-processing
Output
Grammatical Analysis
Semantic Analysis
Task-specific Modules
restrictions.
tion system.
50
Input Text
Spelling Check
Grammar Check
Correction Proposals
tions.
sources (e. g, WordNet for English or Hungarian WordNet for Hungarian) have demonstrated improvements
approach.
panies that acquired other companies. For the expression last ve years, the system needs to determine the relevant years. And, the query needs to be matched against
51
Web Pages
Pre-processing
Semantic Processing
Indexing
Matching
&
Relevance
Pre-processing
Query Analysis
User Query
Search Results
guages and then translating the results back into the tar-
get language.
For inectional languages like Hungarian, it is important to be able to search for all the inected forms of
a word simultaneously, instead of having to enter each
52
ing algorithms.
nologies:
Net).
One of the major challenges of ASR systems is to ac-
Today, these voice user interfaces (VUI) are used for par-
53
Speech Output
Speech Input
Speech Synthesis
Signal Processing
Natural Language
Understanding &
Dialogue
Recognition
ances.
tries (economically resilient countries with high populations) have been dominated by just ve global players, with Nuance (USA) and Loquendo (Italy) being the
most prominent players in Europe. In 2011, Nuance announced the acquisition of Loquendo, which represents
a further step in market consolidation.
54
the spread of smartphones as a new platform for managing customer relationships, in addition to xed telephones, the Internet and e-mail. is will also aect
how speech interaction technology is used. In the long
term, there will be fewer telephone-based VUIs, and
rule-based (or linguistic knowledge-driven) systems often analyse the input text and create an intermediary
55
Source Text
Statistical
Machine
Translation
Translation Rules
Target Text
Text Generation
language.
to be aligned.
56
ere is still a huge potential for improving the quality of MT systems. e challenges involve adapting language resources to a given subject domain or user area,
and integrating the technology into workows that already have term bases and translation memories. Another problem is that most of the current systems are
English-centred and only support English from and into
Answer: 38.
the context.
57
portant words in a text (i. e., words that occur very fre-
4.4 EDUCATIONAL
PROGRAMMES
puter scientists, mathematicians, philosophers, psycholinguists, and neuroscientists among others. As a result, it has not acquired a clear, independent existence in
the Hungarian faculty system yet, so in Hungary there is
58
59
processing.
be summed up as follows:
the corpus.
recognition.
4.7 CROSS-LANGUAGE
COMPARISON
60
Coverage
Maturity
Sustainability
Adaptability
Speech Synthesis
Grammatical analysis
4.5
4.5
4.5
Semantic analysis
0.6
2.5
0.5
Text generation
Machine translation
uality
Availability
uantity
Speech Recognition
3.5
5.5
5.5
Speech corpora
Parallel corpora
4.5
2.5
Lexical resources
3.5
3.5
3.5
3.5
4.5
Grammars
point scale:
1. Excellent support
2. Good support
3. Moderate support
4. Fragmentary support
MT applications.
Text Analysis: uality and coverage of existing text
analysis technologies (morphology, syntax, semantics),
coverage of linguistic phenomena and domains, amount
and variety of available applications, quality and size of
5. Weak or no support
teria:
speech-based applications.
61
ever, the scope of the resources and the range of tools are
tools for the English language, and they are simply not
knowledge society.
chine translation.
Nor can we simply transfer technologies already developed and optimised for the English language to handle
4.8 CONCLUSIONS
In this series of white papers, we have made an important eort by assessing the language technology support
for 30 European languages, and by providing a high-
Hungarian. English-based systems for parsing (syntactic and grammatical analysis of sentence structure) typically perform far less well on Hungarian texts, due to the
specic characteristics of the Hungarian language.
62
cultural diversity.
Commission level.
63
Excellent
support
Good
support
English
Moderate
support
Czech
Dutch
Finnish
French
German
Italian
Portuguese
Spanish
Fragmentary
support
Basque
Bulgarian
Catalan
Danish
Estonian
Galician
Greek
Hungarian
Irish
Norwegian
Polish
Serbian
Slovak
Slovene
Swedish
Weak/no
support
Croatian
Icelandic
Latvian
Lithuanian
Maltese
Romanian
Excellent
support
Good
support
English
Moderate
support
French
Spanish
Fragmentary
support
Catalan
Dutch
German
Hungarian
Italian
Polish
Romanian
Weak/no
support
Basque
Bulgarian
Croatian
Czech
Danish
Estonian
Finnish
Galician
Greek
Icelandic
Irish
Latvian
Lithuanian
Maltese
Norwegian
Portuguese
Serbian
Slovak
Slovene
Swedish
10: Machine translation: state of language technology support for 30 European languages
64
Excellent
support
Good
support
English
Moderate
support
Dutch
French
German
Italian
Spanish
Fragmentary
support
Basque
Bulgarian
Catalan
Czech
Danish
Finnish
Galician
Greek
Hungarian
Norwegian
Polish
Portuguese
Romanian
Slovak
Slovene
Swedish
Weak/no
support
Croatian
Estonian
Icelandic
Irish
Latvian
Lithuanian
Maltese
Serbian
11: Text analysis: state of language technology support for 30 European languages
Excellent
support
Good
support
English
Moderate
support
Czech
Dutch
French
German
Hungarian
Italian
Polish
Spanish
Swedish
Fragmentary
support
Basque
Bulgarian
Catalan
Croatian
Danish
Estonian
Finnish
Galician
Greek
Norwegian
Portuguese
Romanian
Serbian
Slovak
Slovene
Weak/no
support
Icelandic
Irish
Latvian
Lithuanian
Maltese
12: Speech and text resources: State of support for 30 European languages
65
5
ABOUT META-NET
META-NET is a Network of Excellence funded by the
ciety that:
of the community.
oce@meta-net.eu http://www.meta-net.eu
66
A
HIVATKOZSOK REFERENCES
[1] Aljoscha Burchard, Markus Egg, Kathrin Eichler, Brigitte Krenn, Jrn Kreutel, Annette Lemllmann, Georg
Rehm, Manfred Stede, Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeitalter e
German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit
(Series Editors). Springer, 2012.
[2] Directorate-General Information Society & Media of the European Commission. User Language Preferences
Online, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.
[3] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment, 2008. http://ec.
europa.eu/languages/pdf/comm2008_en.pdf.
[4] Directorate-General of the UNESCO. Intersectoral Mid-term Strategy on Languages and Multilingualism,
2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.
[5] Directorate-General for Translation of the European Commission. Size of the Language Industry in the EU,
2009. http://ec.europa.eu/dgs/translation/publications/studies.
[6] dm Ndasdy. Did you know? Educational publication about the Hungarian language.
[7] http://www.bbi.hu/index.php?id=99&fid=110.
[8] http://www.nytud.hu/eng/index.html.
[9] PISA 2009 Results: What Students Know and Can Do: Student Performance in Reading, Mathematics and
Science (Volume I). http://www.oecd.org/document/61/0,3343,en_2649_35845621_46567613_1_1_1_
1,00.html.
[10] http://www.tarki.hu/tarkitekinto/20050412.html.
[11] http://www.google.com/publicdata?ds=wb-wdi&met_y=it_net_user_p2&idim=country:HUN&dl=
hu&hl=hu&q=internethaszn%C3%A1lat.
[12] http://www.nic.hu/English/statisztika/domain-teljes.html.
[13] http://www.webhosting.info/registries/country_stats/HU.
[14] Daniel Jurafsky and James H. Martin. Speech and Language Processing (2nd Edition). Prentice Hall, 2009.
67
[15] Christopher D. Manning and Hinrich Schtze. Foundations of Statistical Natural Language Processing. MIT
Press, 1999.
[16] Language Technology World (LT World). http://www.lt-world.org/.
[17] Ronald Cole, Joseph Mariani, Hans Uszkoreit, Giovanni Battista Varile, Annie Zaenen, and Antonio Zampolli, editors. Survey of the State of the Art in Human Language Technology (Studies in Natural Language
Processing). Cambridge University Press, 1998.
[18] Jerrold H. Zar. Candidate for a Pullet Surprise. Journal of Irreproducible Results, page 13, 1994.
[19] http://www.morphologic.hu/.
[20] http://hunspell.sourceforge.net/.
[21] Spiegel Online. Google zieht weiter davon (Google is still leaving everybody behind), 2009. http://www.
spiegel.de/netzwelt/web/0,1518,619398,00.html.
[22] Juan Carlos Perez.
http://www.pcworld.com/
businesscenter/article/161869/google_rolls_out_semantic_search_capabilities.html.
[23] http://www.weblib.com/.
[24] http://www.tmit.bme.hu/home.
[25] http://szotar.mokk.bme.hu/hunglish/search/corpus.
[26] http://itranslate4.eu/.
[27] http://kilgray.com/.
[28] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. BLEU: A Method for Automatic Evaluation
of Machine Translation). In Proceedings of the 40th Annual Meeting of ACL, Philadelphia, PA, 2002.
[29] Philipp Koehn, Alexandra Birch, and Ralf Steinberger. 462 Machine Translation Systems for Europe. In
Proceedings of MT Summit XII, 2009.
[30] http://hlt-platform.hu/.
[31] Gianni Lazzari. Sprachtechnologien fr Europa (Language Technology for Europe), 2006. http://tcstar.org/
pubblicazioni/D17_HLT_DE.pdf.
[32] Georg Rehm and Hans Uszkoreit. Multilingual Europe: A challenge for language tech. MultiLingual,
22(3):5152, April/May 2011.
68
B
META-NET TAGOK META-NET MEMBERS
Ausztria
Austria
Belgium
Belgium
Bulgria
Bulgaria
Ciprus
Cyprus
Csehorszg
Czech Republic
Inst. of Formal and Applied Linguistics, Charles Univ. in Prague: Jan Hajic
Dnia
Denmark
Egyeslt Kirlysg
UK
Inst. for Lang., Cognition and Computation, Center for Speech Technology Research, Univ. of Edinburgh: Steve Renals
Research Inst. of Informatics and Lang. Proc., Univ. of Wolverhampton:
Ruslan Mitkov
School of Computer Science, Univ. of Manchester: Sophia Ananiandou
sztorszg
Estonia
Finnorszg
Finland
Franciaorszg
France
Grgorszg
Greece
Hollandia
Netherlands
Horvtorszg
Croatia
rorszg
Ireland
Izland
Iceland
Lengyelorszg
Poland
69
Latvia
Litvnia
Lithuania
Luxemburg
Luxembourg
Magyarorszg
Hungary
Mlta
Malta
Nmetorszg
Germany
Norvgia
Norway
Olaszorszg
Italy
Portuglia
Portugal
Romnia
Romania
Spanyolorszg
Spain
70
Svjc
Switzerland
Svdorszg
Sweden
Szerbia
Serbia
Szlovkia
Slovakia
Szlovnia
Slovenia
Tbb mint 100 nyelvtechnolgus szakrt a META-NET-ben rszt vev orszgok s nyelvek kpviseli vitatta
meg s vglegestette a fehr knyvek sorozat fbb krdseit egy META-NET tallkozn Berlinben, 2011. oktber 21-22-n. About 100 language technology experts representatives of the countries and languages
represented in META-NET discussed and nalised the key results and messages of the White Paper Series at a
META-NET meeting in Berlin, Germany, on October 21/22, 2011.
71
C
A META-NET FEHR THE META-NET
KNYVEK SOROZAT WHITE PAPER SERIES
angol
English
English
baszk
Basque
euskara
bolgr
Bulgarian
cseh
Czech
etina
dn
Danish
dansk
szt
Estonian
eesti
nn
Finnish
suomi
francia
French
franais
galciai
Galician
galego
grg
Greek
holland
Dutch
Nederlands
horvt
Croatian
hrvatski
Irish
Gaeilge
izlandi
Icelandic
slenska
kataln
Catalan
catal
lengyel
Polish
polski
lett
Latvian
latvieu valoda
litvn
Lithuanian
lietuvi kalba
magyar
Hungarian
magyar
mltai
Maltese
Malti
nmet
German
Deutsch
norvg bokml
Norwegian Bokml
bokml
norvg nynorsk
Norwegian Nynorsk
nynorsk
olasz
Italian
italiano
portugl
Portuguese
portugus
romn
Romanian
romn
spanyol
Spanish
espaol
svd
Swedish
svenska
szerb
Serbian
szlovk
Slovak
slovenina
szlovn
Slovene
slovenina
73
Research
Co
ies
unit
mm
Lan
gu
a
es
stri
u
d
Soc
iet
rs
Use
e
g
In
eurpai nyelvre.
A nyelvtechnolgia
META-NET is making a signicant contribution to innovation, research and development in Europe and to an
eective implementation of the European idea.
Valria Cspe (Deputy General Secretary of Hungarian Academy of Sciences)
A META-NET jelents mrtkben hozzjrul az innovcihoz s a kutats-fejlesztshez, valamint az eurpai
eszme hatkony megvalstshoz.
Cspe Valria (ftitkrhelyettes, MTA)
www.meta-net.eu
www.meta-net.eu