Anda di halaman 1dari 4

Topluluk renmesi ve Karma Tipli znitelikler ile

Film Derecelendirme Puan Tahmini


Movie Rating Prediction Using Ensemble Learning
and Mixed Type Attributes

Ayegl ZKAYA EREN ve Mustafa SERT


Bilgisayar Mhendislii Blm
Bakent niversitesi
Ankara, Trkiye
21610279@mail.baskent.edu.tr, msert@baskent.edu.tr

zete Gnmzde kullanclar izledikleri bir film hakknda I. GR


duygu ve dncelerini, internet araclyla annda paylaabilir
hale gelmilerdir. Kullanc derecelendirme puanlarnn otomatik
Film derecelendirme puan (FDP) tahmini zerine pek ok
yntemlerle tahmin edilmesi, gie haslatn tahmin edebilmek aratrmac, farkl veri kmesi ve farkl renme algoritmalar
asndan sinema sektr iin ok nemli bir gstergedir. Bu kullanarak almlardr. Internet Movie Database (IMDb) veri
nedenle film derecelendirme puan tahmini, makine renmesi kmesi bu alanda ok kullanlan veri kmelerinden biridir ve
alannda zerinde allan popler konulardan biri olmutur. kullanma ak, cretsiz olarak datlmaktadr. IMDb veri
Mevcut almalarn ounda veri kmeleri ierisindeki saysal kmesi, filmlerin ynetmenleri, oyuncular, dili, sresi, btesi
znitelikler kullanlrken, saysal olmayan zniteliklerin kullanm gibi saysal ve nominal (saysal olmayan) pek ok znitelik ierir
grece kstldr. Bu almada, film derecelendirme puan tahmini ancak renme algoritmalarnn ou saysal deerleri
iin, saysal ve saysal olmayan zniteliklerin bir arada
kullanabiliyorken, nominal deerlerin bir n ilemden
kullanmna ve topluluk renmesi (ensemble learning)
yaklamna dayal bir yntem nerilmektedir. nerilen yntemin
geirilmesi gerekir [1].
etkinlii ve baarm Internet Movie Database (IMDb) performans Literatrde yaplan almalarn ounda aratrmaclar veri
veri kmesi zerinde, literatrdeki farkl yntemlerle kmesinin saysal veya nominal zniteliklerine ayr almalar
karlatrmal olarak dorulanmtr. Elde edilen sonular, uygulamlardr. Bu znitelikleri birlikte kullanan almalar ise,
karma znitelik kullanmnn, topluluk renmesi yntemi ile algoritmalarna gre veri tiplerini tek bir veri tipine evirerek
puan tahminini iyiletirdiini gstermektedir. verileri n ilemden geirmilerdir. Bu alandaki aratrmalar,
kullandklar yaklamlara gre ierik tabanl, ibirliki ve
Anahtar Kelimeler Film derecelendirme puan tahmini; karma yntemler olmak zere grupta incelenebilir [2]. erik
topluluk renmesi; IMDb.
tabanl yntemler, puan kestirilmek istenen filmin zelliklerine
Abstract Nowadays, audience can easily share their rating benzer filmleri bulmaya ynelik bir model olutururken,
about a movie on the internet. Predicting movie user ratings ibirliki yntemler bir kullancnn verdii puana gre benzer
automatically is specifically valuable for prediction box office filmleri izlemi dier kullanclarn seili filme ka puan
gross in the cinema sector. As a result, movie rating prediction has vereceini bulmaya alr. Karma yntemler ise ierik tabanl
been a popular application area for machine learning researchers.
yntemler ile ibirliki yntemlerin sonularn birletirerek
Although most of the recent studies consider using mostly
numerical features in analyses, handling nominal features is still yeni bir model ortaya koyar. En yakn komu algoritmas (K-
an open problem. In this study, we propose a method for NN), karar aalar, yapay sinir alar ve baz zel algoritmalar
predicting movie user ratings based on numerical and nominal yukardaki yntemler esas alnarak bu alandaki almalarda
feature collaboration and ensemble learning. The effectiveness sklkla kullanlmtr.
and the performance of the proposed approach is validated on Hsu ve arkadalar dorusal kombinasyon ile
Internet Movie Database (IMDb) performance dataset by derecelendirme puan tahmini yapmtr [3]. Bu yntemde
comparing with different methods in the literature. Results show IMDb veri kmesi ve bu veri kmesinin ynetmen, aktr, tr
that, using mixed data types along with the ensemble learning gibi nominal znitelikleri kullanlmtr. Saysal deer olan sre
improves the movie rating prediction.
znitelii ise kategorik deerlere dntrlerek kullanlmtr.
Keywords Movie Rating prediction; ensemble learning; IMDb. Rapor edilen tahmin mutlak hata (Prediction Absolute Error-
PAE) oran, uyguladklar 3 farkl algoritma iin 0.82nin
altndadr.

978-1-5090-6494-6/17/$31.00 2017 IEEE


Debnath ve arkadalar, zniteliklere farkl arlklar vererek
IMDb veri kmesini kullanmlar ve dorusal kombinasyon
yntemiyle elde ettikleri znitelik arlklarn birletirmilerdir.
Saysal ve nominal znitelikler bir arada kullanlm, nominal
zniteliklere kategorik deerler atanmtr. almann
sonucunda zniteliklerin arlklarn doru bir ekilde
deitirince, duyarllk orannn artt tespit edilmitir [4].
Wernard Schmit ve Sander Wubben Twitter ierii
kullanarak FDP tahmin etmeye almlardr [5]. Twitterda
konusu geen filmlerin, kullanclarn yorumlarn ierdiinden
yola kmlar ve Twitter ieriini ileyerek, Destek Vektr
Makinesi (DVM) renme yntemini kullanmlardr.
Biramane ve arkadalar tarafndan yaplan bir almada ise
filmler hakknda sosyal medyadan elde edilen bilgiler ile
filmlerin aktr, ynetmen vb gibi znitelikleri arasndaki iliki
bulunmaya allm ve sosyal medya bilgilerinin (Youtube,
Wikipedia) de film derecelendirme puan tahmini yapmakta
nemli bilgiler ierdiini gstermilerdir [6].
Jing Gao ve arkadalar ise NetFlix veri kmesi zerinde
ibirliki yntemler ile topluluk renme algoritmas zerine ekil 1: Sistem Blok emas
almlar ve ortalama Karesel Hatann Karekk (Root Mean
Squared Error-RMSE) 0.87 olarak hesaplamlardr [7].
bazlar film ad, yaplan yorum says, bte ynetmen
Bu bildiride, karma tipteki zniteliklerin ayr ayr ve birlikte ad, 1. Oyuncu ad, 1. Oyuncuya yaplan facebook beeni
kullanmnn farkl tahmin algoritmalarndaki baarmlar ierik says eklindedir. Bu znitelikler ierisinden en ok katks
tabanl renme yntemi esas alnarak analiz edilmitir. Benzer olan zniteliklerin seimi iin bilgi kazanlar hesaplanm ve
almalardan farkl olarak, farkl veri tiplerindeki znitelikler buna gre znitelikler arasnda eleme yaplmtr. Bu sonular
ve topluluk algoritmas bir arada kullanldnda hata orannn dikkate alnarak 12 znitelik elde edilmitir. ekil 2de
azalaca ngrlmtr. Bu amala, analizlere 3 farkl renme znitelikler ve bilgi kazanlar, Tablo 1de ise seilen
algoritmas dahil edilmi, algoritmalardan 2 tanesi iin veriler znitelikler ve veri tipleri hakknda bilgi verilmitir. Bilgi
aras dnm ilemi uygulanrken, dier algoritmada dnm kazanc deerleri (1) ve (2) [10] kullanlarak hesaplanmtr.
ilemi uygulanmamtr. Bylelikle, saysal ve nominal karma
veriler olarak adlandrdmz zniteliklerin tek bir algoritmada
kullanlmas salanmtr. alma kapsamnda renme
algoritmalar olarak K-NN ve karar aalar algoritmalar
kullanlmtr. Karar aalar algoritmalar iin birden fazla (1)
karar aac ile topluluk renmesi algoritmas oluturan
TreeBagger (Bag of Decision Trees) algoritmas [8] ile saysal,
nominal ve ilikisel veri tiplerini bir arada kullanabilen Trestle
Tree algoritmas seilmitir [9]. (2)
Bu bildirinin dier blmleri u ekilde dzenlenmitir: 2.
blmde, nerilen snflandrma algoritmalar ve znitelik Denklem (1) ve (2)de S rnek kmesini, p S kmesinin i
analizleri tantlmtr. Blm 3te, deneyler ve deerlendirme snfna ait ksmnn orann, c hedef snfn ka deer
sonular, Blm 4te ise almann sonular, kstlar ve alabileceini, A seili znitelii, Deerler(A) A zniteliinin
gelecek alma planlar sunulmutur. olas deerlerini, Sv ise A zniteliinin v deerine sahip olduu
alt kmeleri temsil etmektedir.
II. YNTEM
B. Snflandrma Algoritmalar
nerilen FDP sistemi iki aamadan olumaktadr. lk znitellik seiminden sonra, veri kmesine sistem blok
aamada, veri kmesine n ilem uygulanarak znitelik emasnda grld gibi, 3 farkl algoritma uygulanmtr. K-
analizleri gerekletirilmektedir. kinci aamada, elde edilen NN ve TreeBagger algoritmalar MatLab [8] kullanlarak
znitelik temsilleri kullanlarak tahmin yaplmaktadr. nerilen gelitirilmi, Trestle Tree algoritmas ise Python programlama
sistemin genel yaps ekil 1'de sunulmutur. dili ile gelitirilmitir. K-NN algoritmasnda Euclidean uzakl
yntemi veri kmesine uygulanmtr.
A. Veri Kmesi Analizi
TreeBagger algoritmas topluluk renme algoritmas olan
Kullandmz IMDB veri kmesi 5044 veri ve 27 znitelikten karar aac yntemidir. Birden fazla karar aac oluturularak,
olumaktadr. IMDb veri kmesinin ierdii 27 znitelikten
K-NN ve TreeBagger karar aac algoritmalar sadece
saysal deerlerle alt iin, nominal deerlerin kullanm
iin One-Hot-Encoding (OHE) yntemi kullanlmtr. rnek
olarak ynetmen adlarnn her biri bir znitelikmi gibi ele
alnm ve veri kmesindeki her bir veri iin bu znitelie sahip
olup olmadna baklmtr. Her bir znitelik bir bit ile
gsterilmitir. Filmin ynetmeni, znitelik olarak belirtilen
ynetmene eit olduu durumda bit 1 ile gsterilirken, eit
olmad durumlar iin 0 ile gsterilmitir. Bu uygulama ile
znitelik says, ynetmen ad says kadar artmtr. Trestle
Tree algoritmas ise saysal ve nominal deerleri ayn anda kabul
ederek alabilir. Bu nedenle nominal deerlere ayrca bir ilem
uygulanmamtr. Tm deerler, tm algoritmalarda [-1,1] deer
aralnda normalize edilmitir.
B. Deneysel Sonular
almann sonularn deerlendirmek iin literatrde bu
ekil 2: znitelikler Bilgi Kazanc
alanda kullanlan deerlendirme yntemlerinden biri olan
Tablo 1 Veri Kmesi znitelikleri Tahmin Mutlak Hata (PAE) yntemi [3] seilmitir. PAE ve
ortalama PAE deerleri (3) ve (4) kullanlarak hesaplanmtr.
znitelik Ad Veri Tipi
Bte Saysal
K-NN iin komu says 7 seildiinde elde edilen sonular K-
Yaplan yorum says Saysal NN iin en yksek sonucu vermitir (Tablo 1). TreeBagger
Oylayan kullanc says Saysal algoritmas ise farkl aa saylar ile denenmi, aa saysna
Yaplan eletiri says Saysal bal olarak elde edilen PAE grafii ekil 3te sunulmutur.
Yapm irketine yaplan Facebook beeni Saysal
says
Topluluktaki aa says 75 olduunda en iyi sonu alnm,
1.Oyuncuya yaplan Facebook beeni says Saysal aa says bydke hata oran sabit kalmtr.
2.Oyuncuya yaplan Facebook beeni says Saysal
Ynetmen ad Nominal
1. Oyuncu ad Nominal
2. Oyuncu ad Nominal (3)
Dil Nominal
lke Nominal
Tr Nominal

her aatan farkl bir sonu elde edilir ve sonular birletirilir. (4)
Karar aac says ve snflandrma metodu (snflandrma-
regresyon) parametreleri ile verilen sayda aa oluturur. Uygulanan algoritma sonular ve literatrde ayn
Literatrde yaplan topluluk algoritmalarnn baar oran deerlendirme yntemini kullanan bir almann sonular
yksektir [8], bu nedenle karma veri tipi deneylerinden biri iin Tablo 2 ve Tablo 3te karlatrlmtr. Tablo 2 ve Tablo 3te
topluluk algoritmas seilmitir. verildii zere, en iyi sonular karma veri tipi ile topluluk
Trestle Tree algoritmas da bir karar aac algoritmasdr [9]. renme algoritmasndan elde edilmitir.
Bu karar aac algoritmasnda, insan beyninin nceki
tecrbelerden yararlanarak, her tip veriyi ileyerek ve veriler
aras iliki kurarak rendiinden yola klarak bir algoritma
oluturulmutur. FDP tahmini yaplrken de, veri kmesindeki
tm verilerin ayn anda deerlendirilebilmesi amacyla bu
yntem almamza uygulanmtr. Trestle Tree ilk olarak bir
eitim oyunu iin gelitirilmitir. Elde edilen sonularn baar
orannn nceki almalar yakalad ortaya konmutur.

III. DENEYSEL ALIMALAR VE


DEERLENDRMELER
A. Veri Kmesi
Veri analizi yapldktan sonra elde edilen znitelikler
zerinden, veri kmesinde eksik bilgi ieren kaytlar veri
kmesinden karlmtr. Bu ilemden sonra, elde edilen 4492
veri, 3499 tanesi eitim ve 993 tanesi test veri kmesi olmak
zere 2 paraya blnmtr. ekil 3: Topluluktaki Aa says ve PAE Oranlar
Tablo 2 PAE yntemi ile alma sonular ve Literatr Sonular Uygulanan 3 yntemde de en iyi sonucu karma zniteliklerin
Algoritma Kullanlan znitellik PAE kullanm vermitir. Sonular, bu almann nerdii saysal ve
Tipi nominal zniteliklerin bir arada kullanlmas dncesini
K-NN Saysal 0.95 desteklemektedir.
Nominal 1.06
Saysal + Nominal 0.88 IV. SONULAR
TreeBagger Saysal 0.81 Bu almada, karma znitelik kullanmna ve topluluk
Nominal 0.94 renmesi (ensemble learning) yntemine dayal film
Saysal + Nominal 0.76 derecelendirme puan tahmin sistemi nerilmitir. Karma
Trestle Tree Saysal 1.04 zniteliklerin seiminde zniteliklerin bilgi kazanlar baz
Nominal 0.97 alnmtr. Topluluk renme algoritmas olarak TreeBagger
Saysal + Nominal 0.94 yntemi probleme uygulanm ve sonular K-NN ve Trestle
Linear Prediction [3] Saysal + Nominal 0.73 Tree yntemlerine ek olarak literatr almalar ile
Multiple Linear Regression Saysal + Nominal 0.81
karlatrlmtr. Deneysel sonular, seilen topluluk
[3] renmesi algoritmasnn K-NN ve Trestle Tree
Neural Networks [3] Saysal + Nominal 0.69 algoritmalarndan daha baarl olduunu gstermektedir. Btn
yntem testlerinde karma znitelik kullanldnda tahmin hata
orannn dt grlmtr (Tablo 2). Bu yntem farkl
Tablo 3 PAE yntemi ile belli eik deerleri iin almann doruluk oranlar algoritmalarla birletirilerek veya zniteliklere farkl arlklar
ve Literatr Sonular vererek denendiinde daha baarl sonular elde edilebilir.
Algoritma PAE PAE<1 1<=PAE<2 2<=PAE<3 3<=PAE<4 Karma veri tiplerinin kullanmnn, baka tahmin
problemlerinde de hatay azaltabilecei deerlendirilmektedir.
K-NN 0.92 %61.4 %28.4 %8.05 %1.9 Baar orann artrmak amacyla, nominal deerlerin saysal
Trestle Tree 0.94 %61.1 %25.98 %8.16 %5.94
deerlere uyarlanmas ilemi iin farkl yntemler denenebilir.
Makine renmesi konusunda hala ak bir problem olan
TreeBagger 0.76 %71.25 %23.76 %4.6 %0.4 nominal deerlerin ilenmesi konusunda denenecek yeni
Linear 0.73 %72.73 %24.45 %2.19 %0.31 yntemler, bu almann baarsn da olumlu ynde
Prediction[3] etkileyebilir. Gelecek almalar kapsamnda, nominal
Multiple 0.81 %67.08 %28.21 %4.08 %0.31 deerlerin ilenmesi konusunda almalar planlanmaktadr.
Linear
Regression[3] KAYNAKLAR
Neural 0.69 %76.8 %18.5 %4.39 %0.31
Networks [3] [1] Zdravevski E., Lameski P., Kulakov A., Advanced Transformations for
nominal and Categorical Data into Numeric Data in Supervised Learning
Problems, The 10th Conference for Informatics and Information
Tm algoritmalar 3.40 GHz*2 ve 12 GB RAMe sahip bir Technology (CIIT), 2013
bilgisayarda altrlmtr. TreeBagger algoritmas performans [2] Marovic M., Mihokovic M., Miksa M., Pribil S., and Tus A., Automatic
asndan deerlendirildiinde de en hzl alan algoritmadr movie ratings prediction using machine learning, MIPRO 2011
ve 75 aa says iin alma sresi 3 dakikadr, daha yksek [3] Hsu P., Shen Y., and Xie X., Predicting Movies User Ratings with Imdb
aa saylar iin bu sre artmtr. K-NN algoritmas, Trestle Attributes, International Conference on Rough Sets and Knowledge
Technology, 2014
Tree algoritmasndan daha iyi sonu vermitir. 7 aa says iin
[4] Debnath S., Ganguly N., Mitra P., Feature Weighting in Content Based
alma sresi yaklak 5 dakikadr. Recommendation System Using Social Network Analysis, WWW
Trestle Tree algoritmas ise dierlerinden daha yksek hata 2008/Poster Paper, Beijing, China, April 2125, 2008
oranna sahiptir. Performans asndan da daha yava [5] Schmit W., Wubben S., Predicting Ratings for New Movie Releases from
almaktadr, alma sresi seilen zniteliklere gre bir 0.5-2 Twitter Content Proceedings of the 6th Workshop on Computational
saat aralnda deimitir. Ayrca Trestle Treede ortalama hata Approaches to Subjectivity, Sentiment and Social Media Analysis
(WASSA 2015), p. 122126
deerinin son snflandrma aral olan PAE 3 ve 4 aralnda
[6] Biramane V., Kulkarni H., Bhave A., Kosamkar P., Relationships
dier algoritmalara gre daha yksek olmas, bu snflandrcnn between Classical Factors, Social Factors and Box Office Collections ,
baar orann drmtr. alma sonular, literatrdeki 2016 International Conference on Internet of Things and Applications
almalar ile kyaslandnda ise TreeBagger, Multiple Linear (IOTA), India, 2016
Regression ynteminden daha baarldr. [7] Gao J., Fan W., Han J., On the Power of Ensemble: Supervised and
Doruluk oranlar kyaslandnda ise PAEnin en kk Unsupervised Methods, SDM2010 Columbus, 2010
olma durumu iin TreeBagger, Multiple Linear Regression [8] https://www.mathworks.com/help/stats/treebagger.html
yntemini gemitir. PAEnin 2den kk olma durumunda ise [9] J. MacLellan J., Harpstead E., Aleven V., Koedinger Kenneth R.,
TreeBagger %95.01, Multiple Linear Regression %95.29, TRESTLE: A Model of Concept Formation in Structured Domains,
Advances in Cognitive Systems, 2016
Neural Networks algoritmas %95.3, Linear prediction
[10] Mitchell T. M., Machine Learning , McGra-Hill , 1997
algoritmas ise %97.18 doruluk oran gstermitir.

Anda mungkin juga menyukai