Anda di halaman 1dari 21

Comparazione tra sistemi di apprendimento:

il caso di C4.5 e ITI

Davide Aresta

Esame di Intelligenza Artificiale


Corso di laurea in Informatica Magistrale
Università degli Studi di Bari

1
Indice generale
Capitolo 1.Introduzione........................................................................................................................3
Capitolo 2.Sistemi di apprendimento...................................................................................................3
2.1C4.5.............................................................................................................................................3
2.2ITI...............................................................................................................................................4
Capitolo 3.Data set...............................................................................................................................4
3.1Credit Approval...........................................................................................................................5
3.2Car Evaluation Database.............................................................................................................7
Capitolo 4.Preparazione ed esecuzione................................................................................................8
4.1K-fold cross validation................................................................................................................9
Capitolo 5.Analisi dei dati e interpretazione dei risultati.....................................................................9
5.1Credit Approval ........................................................................................................................10
5.2Car Evaluation Database ..........................................................................................................16
Capitolo 6.Conclusioni.......................................................................................................................21

2
Capitolo 1. Introduzione

Lo scopo principale di questo documento è quello di esaminare approfonditamente le differenze tra


due sistemi di apprendimento che fanno riferimento alla famiglia di algoritmi che generano alberi di
decisione. In seguito verranno elencate e approfondite le peculiarità dei sistemi presi in esame, i
data set utilizzati per compararli e i risultati dei test statistici effettuati sui risultati, al fine di
scoprire particolari comportamenti delle due soluzioni proposte.

Capitolo 2. Sistemi di apprendimento

I sistemi di apprendimento utilizzati sono, nella fattispecie, due generatori di alberi di decisione :
C4.5 ed Incremental Tree Inducer (ITI). In breve, un albero di decisione descrive una struttura ad
albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà
che portano a quelle classificazioni. Di conseguenza ogni nodo interno risulta essere una macro-
classe costituita dall'unione delle classi associate ai suoi nodi figli. Il predicato che si associa ad
ogni nodo interno (sulla base del quale avviene la ripartizione dei dati) è chiamato condizione di
split.

Un'altra caratteristica in comune fra C4.5 e ITI è quella di avere un formato di rappresentazione dei
dati di training uguale che ha portato a pochi cambiamenti nella struttura dei data set e, quindi, ha
facilitato l'intera comparazione.

2.1 C4.5

C4.5 è un sistema di apprendimento, come precedentemente scritto, appartenente alla famiglia dei
generatori di alberi di decisione. L'algoritmo alla base di questo sistema è stato inventato da Ross
Quinlan che, a sua volta, aveva già creato il sistema di apprendimento ID3. In seguito, è stata
rilasciata una versione successiva a C4.5 col nome di C5 o See5.

Principalmente C4.5 costruisce alberi di decisione da dati di esempio (training data) e sfrutta per
l'elaborazione un'importante caratteristica: l'entropia dell'informazione. I dati di training sono
rappresentati da un insieme E=e1,e2,... di esempi già classificati. Ogni esempio ei=x1,x2,... non è
altro che un vettore dove x1,x2,... rappresentano gli attributi o le caratteristiche proprie dell'esempio.

3
A questi attributi viene aggiunto un insieme di classi C=c1,c2,... dove c1,c2,... rappresentano le classi
a cui ogni esempio appartiene.

Essendo un generatore di alberi di decisione, C4.5 implementa anche il pruning utile


all'alleggerimento dell'albero prodotto dalla computazione che non influisce direttamente sulla
bontà del modello stesso.

A corredo del generatore di alberi è fornito anche un generatore di regole (C4.5rules) che crea un
insieme di regole a partire da un albero precedentemente prodotto con C4.5.

2.2 ITI

Incremental Tree Inducer, come dice lo stesso nome, è un sistema di apprendimento per la
generazione di alberi di decisione con sviluppo incrementale. Proprio quest'ultima caratteristica è
molto importante, perché permette al sistema di sviluppare una soluzione man mano che viene
fornita nuova conoscenza, senza ricostruire l'albero da zero. In verità è possibile, tramite appositi
comandi, utilizzare ITI anche in modalità batch (in seguito verranno presentate le differenze
prestazionali dei due modalità di esecuzione del sistema).

Come per C4.5, anche ITI tratta dati di tipo simbolico piuttosto che numerico ed è capace di
effettuare il pruning e trattare i valori omessi dei traning set.

Capitolo 3. Data set

I data set utilizzati per la comparazione tra i due sistemi sono Car evaluation database (CAR) e
Credit Approval (CRX). La scelta è caduta su questi due data set poiché presentano delle
caratteristiche particolarmente utili al fine della comparazione. È possibile vedere a confronto le
caratteristiche in dettaglio dei due data set:

Nome data set Credit Approval Car Evaluation Database


Numero istanze 690 1728
Numero classi 2 4
Numero attributi 15 6
Tipo attributi Nominale e simbolico Nominale

4
Valori mancanti Si (5%) No
Tabella 1: confronto delle caratteristiche dei data set
Come si può evincere dalla tabella 1, i data set hanno una numerosità di istanze diversa (anche se
non molto marcata), un numero di classi simile, ma un numero di attributi diverso. Ciò che
distingue maggiormente il data set Credit Approval è l'assenza di alcuni valori del training set e la
presenza di due tipi di attributi, invece che del solo tipo nominale del data set Car Evaluation
Database.

3.1 Credit Approval

Come suggerisce lo stesso nome, il data set Credit Approval tratta dei dati di carte di credito a cui
però son stati sostituiti i valori reali con altri fittizi per mantenere l'anonimato sugli stessi. Il data set
è interessante poiché ha un buon mix di attributi – di tipo continuo, nominale con piccoli valori e
nominale con valori più grandi – ed ha anche dei missing values.

Gli attributi sono cosi fatti:

Nome Attributo Valori possibili


A1 b, a
A2 continuous
A3 continuous
A4 u, y, l, t
A5 g, p, gg
A6 c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff
A7 v, h, bb, j, n, z, dd, ff, o
A8 continuous
A9 t, f
A10 t, f
A11 continuous
A12 t, f
A13 g, p, s
A14 continuous
A15 continuous
A16 (attributo di classe) +,-
Tabella 2: confronto dei tipi di attributi utilizzati dai data set

5
I missing values, invece, rappresentano il 5% dell'intero data set e sono cosi distribuiti tra gli
attributi:

Nome Attributo Quantità di valori mancanti


A1 12
A2 12
A4 6
A5 6
A6 9
A7 9
A14 13
Tabella 3: nel data set “Credit Approval” alcune istanze non sono complete o completamente
mancanti

La distribuzione delle istanze nelle classi è cosi composta:

Classe Numero di istanze appartenenti Percentuale


+ 307 44,50%
- 383 55,50%
Tabella 4: distribuzione delle istanze in base alle loro classi

3.2 Car Evaluation Database

Le informazioni contenute in questo data set sono utili alla rappresentazione modellare di alcuni
modelli di auto secondo delle caratteristiche ben precise che fanno riferimento agli attributi stessi
del data set. É stato ricavato da un modello di decisione preesistente utile allo studio del
comportamento di DEX (è un programma interattivo per lo sviluppo di modelli di decisioni multi-
attributo qualitativi).

Ecco le caratteristiche del data set in tabella:

6
Nome Attributo Valori possibili
buying v-high, high, med, low
maint v-high, high, med, low
doors 2, 3, 4, 5-more
persons 2, 4, more
lug_boot small, med, big
safety low, med, high
Tabella 5 : caratteristiche in dettaglio del data set CAR

La distribuzione delle istanze per classi (o categorie predittive) è cosi composta:

Classe Numero di istanze appartenenti Percentuale


Unacc 1210 70,023%
Acc 384 22,222%
good 69 3,993%
v-good 65 3,762%
Tabella 6: distribuzione delle istanze per classe

7
Capitolo 4. Preparazione ed esecuzione

Uno dei due data set ha avuto bisogno di qualche modifica prima di poterlo utilizzare: ITI
interpretava male alcuni degli attributi contenuti nel data set Car Evaluation Database e, quindi, è
stato necessario apportare dei piccoli cambiamenti alle istanze. É stata, quindi, necessaria una
sostituzione di alcuni valori numerici (2,3,4,5) con valori simbolici (two,three,four,five) per far si
che ITI leggesse correttamente il contenuto del data set e l'esecuzione andasse a buon fine.

I sistemi di apprendimento sono stati utilizzati nelle loro ultime versioni disponibili:

• C4.5 versione R8

• ITI versione 3.10

Entrambi i sistemi sono stati compilati e utilizzati in ambiente Linux (Ubuntu 10.10 x86).

Sia C4.5 e ITI utilizzano lo stesso formato di dati, anche se ITI ha bisogno di una strutturazione
diversa per quanto riguarda i nomi dei file. Ad esempio, per C4.5, i file necessari devono presentarsi
in questo modo:

• [nome_file].names

• [nome_file].data

• [nome_file].test

per ITI, invece, i file devono essere rinominati in questo modo, in sottocartelle differenti:

• names

• [nome_file].data

• [nome_file_test].data

8
4.1 K-fold cross validation

Al fine di confrontare i due sistemi si è ricorsi all'utilizzo della tecnica nota come k-fold cross
validation: è un metodo statistico per validare modelli predittivi; il data set viene diviso in k
sottoinsiemi. Ogni volta viene scelto un k sottoinsieme del data set principale come test set, mentre i
dati di training vengono ricavati dalle istanze degli altri sottoinsiemi rimanenti; i sistemi di
apprendimento prima elaborano il training set, poi eseguono il proprio algoritmo sul test set (istanze
di dati non comuni, ovviamente, al training set) per verificare quanto è precisa la classificazione dei
sistemi stessi. Il tutto viene ripetuto k volte visto che i sottoinsiemi sono k.

9
Capitolo 5. Analisi dei dati e interpretazione dei risultati
In questa sezione saranno presentati i risultati delle computazioni dei due sistemi di apprendimento
su entrambi i data set e, in seguito, l'interpretazione di ciò che è stato prodotto dagli stessi sistemi.
L'interpretazione dei risultati sarà effettuata attraverso l'utilizzo del test statistico che prende il nome
di test di Wilcoxon-Mann-Whitney o anche soltanto test di Wilcoxon: è un test di tipo non
parametrico utile a verificare se due campioni statistici appartengono alla stessa popolazione. In
particolare, in questo caso, serve a sottolineare se ci sono differenze sostanziali tra i due sistemi di
apprendimento in quanto a precisione nella classificazione dei dati di test nel merito dell'esecuzione
della 10-fold cross validation. Sono stati, inoltre, memorizzati i tempi di esecuzione degli algoritmi
per ogni fold (tramite l'utilizzo del comando time in Linux) cosi da poter confrontare le prestazioni
in ordine di efficienza dei due sistemi di apprendimento. Più precisamente il valore tempo registrato
è rappresentato dalla media dei valori dati in output dal comando time (real) eseguito 3 volte per
ogni fold.

Saranno, inoltre, utilizzati dei grafici di tipo istogramma che mettono in risalto i risultati ottenuti e
riassunti in tabelle e si utilizzerà il software statistico R al fine di portare a compimento i test
statistici e disegnare i box plot utili, anch'essi, alla interpretazione dei risultati.

Un'altra nota importante da considerare è la modalità di calcolo dell'accuratezza di classificazione


dei due sistemi di apprendimento: mentre ITI fornisce un sistema automatico per calcolare
l'accuracy, per quanto riguarda C4.5, quest'ultima è stata calcolata manualmente. La formula
utilizzata per il calcolo dell'accuratezza è la seguente:

istanze classificate correttamente


AccuratezzafoldX =
istanze totali

Ovviamente, la media calcolata dal calcolo dell'accuratezza di tutti i fold sarà poi confrontata con la
media dei dati di accuracy prodotte da ITI.

5.1 Credit Approval

L'esecuzione della 10-fold cross validation utilizzando C4.5 sul data set Credit Approval ha portato
ai seguenti risultati:

10
Numero Fold Accuracy Tempo di esecuzione
1 82,456% 0,060s
2 83,319% 0,022s
3 82,456% 0,036s
4 87,691% 0,021s
5 79,796% 0,028s
6 92,530% 0,053s
7 77,292% 0,058s
8 90,033% 0,023s
9 80,687% 0,034s
10 84,864% 0,036s
Medie 84,112% 0,037s
Tabella 7: accuratezza di C4.5 e data set CRX (Credit Approval).

Si può notare da subito come i tempi di elaborazione dei 10 fold da parte di C4.5 siano molto rapidi
a fronte delle dimensioni di 690 (622 per il training e 68 per il test circa per ogni fold) istanze
presenti nel data set in esame.

Vediamo come si comporta, invece, ITI in modalità incrementale:

Numero Fold Accuracy Tempo di esecuzione


1 73,529% 0,35s
2 82,353% 0,358s
3 73,529% 0,326s
4 82,609% 0,37s
5 75,362% 0,349s
6 81,159% 0,435s
7 76,812% 0,336s
8 82,857% 0,392s
9 81,429% 0,384s
10 82,857% 0,371s
Medie 79,250% 0,367s
Tabella 8: i risultati di ITI (incremental mode) con CRX.

Si possono fare subito due deduzioni: la prima indica che C4.5 , per questo data set, ha un

11
comportamento migliore di ITI per quanto riguarda l'accuratezza dei risultati; la media dice
chiaramente che C4.5 classifica correttamente più del'84% delle istanze del data set, mentre ITI si
ferma al 79% circa. La seconda deduzione ci fa capire come l'approccio incrementale di ITI paghi
sotto l'aspetto delle prestazioni intese come tempo di elaborazione: C4.5 è mediamente più veloce di
ITI di 0,32 secondi.
Essendo questi risultati platealmente a favore di C4.5, per pura curiosità, ma, anche per confermare
che sia la natura incrementale di ITI a sfavorirlo, nel confronto prestazionale è stata eseguita la 10-
fold cross validation utilizzando ITI in modalità fast (modalità batch).

I risultati sono i seguenti:

Numero Fold Accuracy Tempo di esecuzione


1 73,529% 0,039s
2 82,353% 0,03s
3 73,529% 0,037s
4 82,609% 0,03s
5 75,362% 0,031s
6 81,159% 0,042s
7 76,812% 0,038s
8 82,857% 0,04s
9 81,429% 0,038s
10 82,857% 0,028s
Medie 79,250% 0,0353s
Tabella 9: i valori di accuratezza di ITI in modalità batch. I tempi si riducono drasticamente.

L'accuratezza rimane la stessa, ma i tempi di esecuzione scendono di dieci volte: basta dare
un'occhiata alle due medie temporali:
• Media tempo di esecuzione ITI incremental → 0,367s
• Media tempo di esecuzione ITI batch → 0,0353s

Le prestazioni in ordine di tempo di ITI si avvicinano, in modalità batch, molto a quelle di C4.5.
Il grafico sotto riportato mette in risalto i risultati riportati in tabella per quanto riguarda
l'accuratezza.

12
Accuracy C4.5 - ITI
Credit Approval
100,000

90,000

80,000

70,000

60,000
Accuracy

C4.5
50,000 ITI
40,000

30,000

20,000

10,000

0,000
1 2 3 4 5 6 7 8 9 10
Fold

Illustrazione 1: il grafico mette a confronto i valori di accuratezza di C4.5 e di ITI. Il valore medio è
rappresentato dalle linee colorate semitrasparenti.

Può essere, inoltre, utile vedere come cambiano le prestazioni di C4.5 e ITI (batch); è possibile farlo
guardando il grafico sotto riportato.

C4.5 - ITI
Accuracy/Time Credit Approval
1,2

0,8
Valori normalizzati

C4.5
0,6 ITI

0,4

0,2

0
1 2 3 4 5 6 7 8 9 10

Fold

Illustrazione 2: in verde è rappresentato il valore massimo rilevato, in giallo il minimo.


13
I valori rappresentati nell'illustrazione 2 mostrano le prestazioni di C4.5 e di ITI in ordine di
accuratezza/tempo di esecuzione; i valori, poi, sono stati normalizzati al massimo del risultato
ottenuto (Fold 4 in questo caso), ed è, inoltre, rappresentata la media attraverso l'utilizzo delle linee
che attraversano l'intero grafico. É facile evincere come C4.5 “vinca”, seppur di poco, per
accuratezza e per tempo di esecuzione il confronto con ITI.

Passiamo all'analisi dei box plot:

Illustrazione 3: box plot raffigurante la distribuzione dei valori di


accuratezza calcolati da C4.5 e ITI

Uno sguardo rapido alla illustrazione 3, sopra riportata, mette in risalto la diversa distribuzione dei
dati di accuratezza provenienti dai due sistemi di apprendimento: C4.5 ha una forbice più ampia di
valori restituiti, non ci sono outliers, e la mediana è pari a 83,088%; ITI, invece, ha un range di
valori più ristretto, una distribuzione dei valori massimi più vicina al valore della mediana
(81,294%),ma anch'esso non presenta outliers.

14
C4.5 ITI
Minimo 78,260% 73,529%
Massimo 92,753% 82,857%
Mediana 83,088% 81,294%
Media 84,480% 79,250%
Tabella 10: dettaglio accuratezza dei fold per il data set CRX

Dalla tabella è possibile dedurre quale possa essere un risultato del test di Wilcoxon: esiste una
piccola possibilità che l'ipotesi nulla H0 (ipotesi che ci suggerisce che non c'è alcuna differenza
sostanziale tra i valori rilevati di accuratezza fra i due campioni statistici) non venga rigettata, vista
la vicinanza di valori della mediana per entrambi i sistemi di apprendimento.

> wilcox.test(Dataset$V1, Dataset$V2, correct=FALSE)

Wilcoxon rank sum test

data: Dataset$V1 and Dataset$V2


W = 76.5, p-value = 0.04467

Il Wilcoxon test, effettuato utilizzando l'applicazione R, smentisce parzialmente le ipotesi fatte in


precedenza: il p-value registrato è minore (seppure di pochissimo) della soglia di confidenza (fissata
di default a 0.05), quindi, c'è differenza statisticamente significativa di prestazioni, in ordine di
accuratezza, di C4.5 rispetto ad ITI, almeno per quanto riguarda questo data set; l'ipotesi nulla H0,
quindi, è rigettata, anche se di poco, e viene accettata l'ipotesi di test H1 che stabilisce la differenza
statistica fra i due campioni.

5.2 Car Evaluation Database

Ecco, in tabella 11, i risultati della 10-fold cross validation per il secondo data set preso in esame. I
risultati si riferiscono al sistema di apprendimento C4.5.

15
Numero Fold Accuracy Tempo di esecuzione
1 94,152% 0,029s
2 92,397% 0,027s
3 93,604% 0,03s
4 91,279% 0,029s
5 94,186% 0,023s
6 86,705% 0,016s
7 90,229% 0,022s
8 92,528% 0,029s
9 92,528% 0,032s
10 91,954% 0,019s
Medie 91,956% 0,026s
Tabella 11: valori di accuratezza per C4.5 e data set CAR

Dopo aver notato come l'accuratezza media di classificazione delle istanze di questo data set superi
il 90% in C4.5, è importante analizzare quale sia il comportamento di ITI (in modalità
incrementale) in questo caso.

Numero Fold Accuracy Tempo di esecuzione


1 95,906% 0,156s
2 98,256% 0,15s
3 93,023% 0,165s
4 97,674% 0,15s
5 97,093% 0,153s
6 95,954% 0,16s
7 93,678% 0,151s
8 97,126% 0,168s
9 98,276% 0,148s
10 91,954% 0,163s
Medie 96,359% 0,156s
Tabella 12: valori di accuratezza di ogni fold per ITI e data set CAR

La differenza di media di accuratezza nella classificazione delle istanze fra i due sistemi è pari quasi
al 5%; ciò viene confermato dal grafico sottostante.

16
Accuracy C4.5 - ITI
Car evaluation dataset
100

98

96

94

92
Accuracy %

C4.5
90 ITI
88

86

84

82

80
1 2 3 4 5 6 7 8 9 10
Fold

Illustrazione 4: accuratezza per ogni fold riscontrata per questo secondo data set.
Ci sono pochi dubbi guardando questo grafico: ITI è più “preciso” di C4.5. La pecca di ITI, però, è
il fatto che abbia tempi lunghi di computazione in modalità incrementale, visto che la differenza tra
le medie di tempo di calcolo fra i due sistemi per questo data set è pari a 0,13 secondi circa.
Anche in questo caso, non solo per curiosità, ma per dovere di precisione, ho effettuato una
misurazione delle prestazioni in ordine di accuratezze e di tempo di ITI in versione batch.

Numero Fold Accuracy Tempo di esecuzione


1 95,906% 0,033s
2 98,256% 0,03s
3 93,023% 0,033s
4 97,674% 0,034s
5 97,093% 0,03s
6 95,954% 0,033s
7 93,678% 0,032s
8 97,126% 0,021s
9 98,276% 0,019s
10 91,954% 0,025s
Medie 96,359% 0,029s

Dalla tabella sovrastante è facilmente deducibile come i tempi di ITI eseguito in modalità batch

17
siano direttamente confrontabili con quelli di C4.5. In aggiunta, le prestazioni riguardanti
l'accuratezza non cambiano; il prossimo grafico mette a confronto C4.5 e ITI (batch) misurando le
prestazioni in ordine di accuratezza su tempo.

C4.5 - ITI (batch)


Accuracy/Time - Car evaluation dataset
1,2

0,8
Valore normalizzato

C4.5
0,6 ITI

0,4

0,2

0
1 2 3 4 5 6 7 8 9 10
Fold

Illustrazione 5: il grafico confronta il rapporto accuratezza/tempo di esecuzione per il data set


CAR. Le medie premiano C4.5 anche in questo confronto
I valori rappresentati in grafico sono normalizzati al massimo valore di accuracy/time risultante dai
due sistemi (in questo caso il fold 6 di C4.5). Dal grafico si evidenzia come le prestazioni in
relazione al tempo diano una spinta a C4.5, visto che la media è superiore (seppur di pochissimo) a
quella fatta registrare da ITI.

Tralasciando ITI in modalità batch, è utile considerare soltanto i valori di accuratezza restituiti
direttamente dai sistemi: i seguenti box plot forniscono una maggiore prospettiva di come sono
distribuiti i dati.

18
Illustrazione 6: il grafico a “scatola e baffi” offre una panoramica ottimale
sulla distribuzione dei dati rilevati.

Le mediane dei risultati di accuratezza dei due sistemi sono molto lontane, cosi come la forbice di
valori rappresentati nel grafico. Il valore della mediana per C4.5 è intorno al 93% ,mentre è presente
un outlier con valore al di sotto del 88%; ITI, invece, ha una mediana molto vicina al 97%, una
concentrazione di valori più verso l'alto nel suo range e un outlier con valore vicina al 93%.
I valori di outlier sono dati dal risultato del fold 6 per C4.5 (con 86,705%) e dal risultato di
accuratezza del fold 3 per ITI (con 93,023%).
Le differenze sono abbastanza evidenti, come è possibile vedere in tabella 13.
C4.5 ITI
Minimo 86,705% 93,186%
Massimo 94,186% 98,276%
Mediana 92,463% 96,823%
Media 91,957% 96,354%
Tabella 13: confronto dei dettagli sulla distribuzione dei valori di accuratezza dei due sistemi a
confronto.

19
Non resta che confermare tutti i nostri sospetti sulle differenze sostanziali tra i risultati prodotti dai
due sistemi di apprendimento utilizzando un test statistico come il Wilcoxon.
L'ipotesi H0, come per il caso precedente, suppone che la differenza tra i due campioni in termini di
accuratezza è statisticamente non importante (cioè il risultato del p-value, ricavato dal test, sarà
inferiore alla soglia di confidenza fissata a 0,05). Se l'ipotesi H0 è rigettata, allora si riterrà valida
l'ipotesi H1 per cui i due campioni sono statisticamente differenti in modo significativo.

> wilcox.test(Dataset$V1, Dataset$V2, correct=FALSE)

Wilcoxon rank sum test

data: Dataset$V1 and Dataset$V2


W = 5, p-value = 0.0006666

Come previsto rigettiamo l'ipotesi H0 in virtù del fatto che il p-value risultante dal test di Wilcoxon
è di molto inferiore alla soglia di confidenza.
In definitiva, il comportamento di ITI per quanto riguarda l'accuratezza delle classificazioni delle
istanze del data set corrente è risultato migliore di C4.5.

Capitolo 6. Conclusioni

Alla luce dell'analisi dei risultati, dei grafici e dei test statistici si può stabilire che il comportamento
dei due sistemi di apprendimento dipende da vari fattori relativi ai data set quali:
• Numerosità delle istanze
• Numero di attributi
• Numero di classi
• Valori mancanti

In caso di valori mancanti e poche istanze, C4.5 ha dimostrato di comportarsi meglio di ITI, quindi,
si suppone, che quei data set con queste caratteristiche siano meglio “digeriti” dalla creazione di
Ross Quinlan. Un numero maggiore di istanze, senza valori mancanti, e un numero di classi
maggiore oltre che un unico tipo di attributi, favorisce, invece, ITI.
In generale, però, considerando la variabile tempo, la soluzione C4.5 si comporta meglio di ITI,
poiché quest'ultimo è, di default, utilizzato in modalità incrementale. Anche in modalità batch, in

20
verità, C4.5 mostra comunque prestazioni migliori in ordine di tempo: questo è un dettaglio da non
trascurare, poiché, per data set di dimensioni maggiori, i tempi si allungano anche di molto e risulta
essenziale ridurre al minimo l'influenza di questa variabile.

21

Anda mungkin juga menyukai