Anda di halaman 1dari 147

Halaman 1

Isi Iklan dan Konsumen Keterlibatan di Media Sosial:


Bukti dari Facebook

Dokyun Lee
The Wharton School
Kartik Hosanagar
The Wharton School
Harikesh S. Nair
Stanford GSB
Versi pertama: September 2013. Versi ini: September 2015.
Abstrak
Kami menyelidiki efek dari konten iklan media sosial pada keterlibatan pelanggan
melalui skala besar
studi lapangan di Facebook. Kami konten-kode lebih dari 100.000 pesan di 800
perusahaan menggunakan
Kombinasi dari Amazon Mechanical Turk dan negara-of-the-art algoritma Alam
Bahasa Pengolahan.
Kami menggunakan ini dataset skala besar konten atribut untuk menguji pengaruh
media sosial con- pemasaran
tenda di keterlibatan pengguna berikutnya
didefinisikan sebagai Suka, komentar, saham, dan klik-through
dengan
pesan. Kami mengembangkan metode untuk memperhitungkan bias seleksi potensial
yang timbul dari Facebook
algoritma filtering, EdgeRank, yang memberikan pesan non-acak kepada
pengguna. Kami menemukan inklusi yang
isi banyak digunakan berkaitan dengan merek-kepribadian
seperti humor, emosi dan filantropis merek
positioning
meningkatkan keterlibatan konsumen dengan pesan. Kami menemukan bahwa konten
secara langsung informatif
seperti menyebutkan harga dan ketersediaan
mengurangi keterlibatan ketika dimasukkan dalam pesan dalam isolasi,
tetapi meningkatkan keterlibatan ketika diberikan dalam kombinasi dengan merekkepribadian atribut terkait. Kita
juga menemukan konten secara langsung informatif tertentu seperti penyebutan
penawaran dan promosi mendorong consumers 'jalan-ke-konversi (klik-through). Oleh karena itu hasil menunjukkan bahwa
mungkin ada yang substansial

keuntungan dari rekayasa konten dengan menggabungkan karakteristik informatif


terkait dengan lead langsung
(melalui peningkatan klik-through) dengan konten merek-kepribadian terkait yang
membantu menjaga jangkauan masa depan dan
branding pada situs media sosial (melalui peningkatan keterlibatan). Hasil kami
informasikan-strategi desain konten
gies di media sosial, dan metodologi kami berlaku untuk konten-kode data tekstual
skala besar menyediakan
kerangka kerja untuk studi masa depan pada data yang tidak terstruktur seperti konten
iklan atau ulasan produk.
Kata kunci: keterlibatan konsumen, media sosial, konten iklan, komunikasi
pemasaran, skala besar
data, pengolahan bahasa alami, pembelajaran mesin, seleksi, Facebook, EdgeRank.

Kami berterima kasih kepada peserta seminar pada Konferensi ISS (Jan 2013), Mack
Institute Conference (Musim Semi 2013), SCECR
Conference (musim panas 2013), WITS konferensi (Desember 2013), INFORMS
konferensi (Oktober 2014), dan konferensi WISE (Desember 2014)
untuk komentar, dan perusahaan berkolaborasi yang ingin menjadi anonim untuk
menyediakan data yang digunakan dalam analisis. Itu
penulis mengucapkan terima kasih atas dukungan keuangan dari Jay H. Baker Ritel
Center dan Mack Institute of Wharton
Sekolah dan Pusat Risiko Wharton (Russell Ackoff Fellowship). Para penulis juga
berterima kasih kepada David Bell, Yunus Berger, Cexun
Jeffrey Cai, Pradeep Chintagunta, Pedro Gardete, Arun Gopalakrishnan, Raghuram
Iyengar, Carl Mela, Navdeep Sahni, Olivier
Toubia dan Christophe Van den Bulte untuk umpan balik membantu mereka. Semua
kesalahan yang kita sendiri.
1
Halaman 2

1. Perkenalan
Jaringan sosial semakin mengambil bagian yang lebih besar dari waktu konsumen
menghabiskan online. Hasil dari,
media sosial
yang meliputi iklan di jaringan sosial dan / atau komunikasi pemasaran dengan sosial
karakteristik
menjadi komponen yang lebih besar dari anggaran pemasaran perusahaan. Sebagai
perusahaan meningkatkan sosial mereka
aktivitas media, peran rekayasa konten telah menjadi semakin penting. Rekayasa
konten berusaha

untuk mengembangkan konten yang melibatkan lebih tepat sasaran pengguna dan
drive tujuan yang diinginkan dari pemasar dari
kampanye mereka melaksanakan. Hal ini menimbulkan pertanyaan: apa konten yang
terbaik? Anehnya, jawabannya
tidak jelas. Tubuh yang paling penting dari karya akademis pada topik ini adalah
psikologi terapan dan
literatur perilaku konsumen yang telah dibahas cara-cara di mana isi dari komunikasi
pemasaran
melibatkan konsumen dan menangkap perhatian. Namun, sebagian besar pekerjaan ini
telah diuji dan disempurnakan teori
tentang konten terutama dalam pengaturan laboratorium. Relatif sedikit yang telah
dieksplorasi secara sistematis tentang
konsekuensi empiris iklan dan konten promosi di dunia nyata, pengaturan bidang luar
laboratorium. Meskipun relevansi yang jelas untuk praktek, pemasaran dan konten
iklan juga relatif
di bawah ditekankan dalam teori ekonomi. Model kanonik iklan di mana iklan
intensitas bertindak sebagai sinyal
kualitas (cf Nelson (1974); Kihlstrom dan Riordan (1984); Milgrom dan Roberts
(1986)) tidak mendalilkan
peran untuk konten iklan karena intensitas iklan menyampaikan semua informasi yang
relevan tentang kualitas produk di
ekuilibrium pelaku pasar. Model ekonomi iklan langsung informatif (cf Butters
(1977);
Grossman dan Shapiro (1984)) biasanya memungkinkan untuk iklan untuk
menginformasikan agen hanya tentang harga dan produk
adanya
Namun, pengamatan kasual dan beberapa penelitian dalam pengaturan laboratorium
(cf Armstrong (2010); Berger (2012))
menunjukkan bahwa iklan berisi lebih banyak informasi dan konten di luar
harga. Dalam tulisan ini, kita
mengeksplorasi peran konten dalam mengemudi keterlibatan konsumen di media
sosial dalam pengaturan lapangan skala besar. Kita
mendokumentasikan jenis konten yang digunakan oleh perusahaan-perusahaan dalam
praktek. Kami menunjukkan bahwa berbagai emosi, filantropis,
dan langsung informatif atribut konten iklan mempengaruhi keterlibatan dan peran
konten bervariasi
secara signifikan di seluruh perusahaan dan industri. Kekayaan data keterlibatan kami
dan kemampuan untuk isi
kode pesan media sosial dengan cara yang hemat biaya memungkinkan kita untuk
mempelajari masalah pada skala yang lebih besar dari
banyak literatur sebelumnya pada topik.

Analisis kami adalah relevansi langsung dengan industri dalam pemahaman yang
lebih baik dan media sosial meningkatkan perusahaan '
strategi pemasaran. Banyak survei industri (Ascend2, 2013; Gerber, 2014; eMarketer,
2013; SmartBrief,
2010; Ragan dan Solusi, 2012) melaporkan bahwa mencapai keterlibatan pada
platform audiens yang besar seperti tatap
Buku merupakan tujuan pemasaran yang penting bagi perusahaan dalam menghadapi
konsumen. Agen pemasaran media sosial 'keuangan
pengaturan juga semakin dikontrak atas dasar keterlibatan lembaga ini berjanji untuk
mendorong
untuk klien mereka. Pada hari-hari awal industri, ia berpikir bahwa keterlibatan
terutama didorong oleh
volume pengguna sosial terhubung ke merek dengan meningkatkan jangkauan tulisan
yang dirilis oleh perusahaan.
Dengan demikian, perusahaan agresif mengakuisisi penggemar dan pengikut di
platform seperti Facebook oleh investasi besar-besaran
dalam iklan pada jaringan. Namun, audit awal data (misalnya, Creamer 2012)
menyarankan bahwa hanya sekitar 1%
fans Facebook sebuah perusahaan rata-rata ini menunjukkan keterlibatan dengan
merek oleh Menyukai, berbagi, atau komentar2
halaman 3

ing pada pesan merek pada platform. Ini berarti viralitas miskin atau jangkauan sosial
yang terkait dengan
posting oleh perusahaan. Pengembangan algoritma filtering oleh platform seperti
Facebook, di mana saat ini
keterlibatan pengguna dengan posting sebuah perusahaan 'menentukan jangkauan
masa depan mereka pada platform, lebih ditekankan
pentingnya menciptakan konten menarik. Akibatnya, perhatian industri bergeser dari
akuisisi sosial
pengikut Media per se, dengan desain konten yang mencapai kedua jangkauan yang
lebih baik dan keterlibatan antara
pengikut media sosial. Dalam contoh dilaporkan secara luas yang mencerminkan tren
ini, selama rentang waktu dari kami
Data (2011-12), General Motors mengurangi belanja tahunan dari $ 10M pada iklan
dibayar Facebook wahana
memperoleh penggemar baru untuk merek
bukannya memilih untuk fokus pada menciptakan konten untuk Facebook-nya
bermerek

Page, di mana ia menghabiskan $ 30M (WSJ, 2012). Sementara perhatian di industri


telah bergeser ke arah konten di ini
cara, industri masih berjuang dengan pemahaman apa jenis pekerjaan konten yang
lebih baik untuk yang perusahaan dan di
apa cara. Misalnya, pesan yang ingin menginformasikan konsumen tentang produk
atau harga atribut lebih
efektif daripada pesan persuasif dengan humor atau emosi? Apakah pesan eksplisit
meminta respon pengguna
(misalnya, "Seperti posting ini jika ...") menarik lebih banyak keterlibatan atau pada
gilirannya pengguna kenyataannya jauh? Apakah strategi yang sama berlaku
di industri yang berbeda? Makalah kami sistematis mengeksplorasi jenis-jenis
pertanyaan dan memberikan kontribusi untuk
perumusan kebijakan rekayasa konten yang lebih baik dalam praktek.
1
Investigasi empiris kami diimplementasikan di Facebook, yang merupakan platform
media sosial terbesar di
dunia. Banyak merek atas mempertahankan halaman Facebook yang mereka layani
posting dan pesan untuk terhubung
pengguna. Ini adalah bentuk pemasaran media sosial gratis yang telah semakin
menjadi populer dan penting
saluran untuk pemasaran. Data kami terdiri dari informasi di sekitar 100.000 pesan
tersebut diposting oleh panel
sekitar 800 perusahaan selama periode 11-bulan antara September 2011 dan Juli 2012.
Untuk setiap pesan, data kami
juga berisi informasi time-series pada dua jenis tindakan keterlibatan
Suka dan komentar
diamati
di Facebook. Selain itu, kami memiliki data cross-sectional pada saham dan klikthrough. Kami melengkapi ini
Data keterlibatan dengan pesan atribut informasi yang kami buat menggunakan survei
skala besar kami menerapkan
di Amazon Mechanical Turk (selanjutnya "AMT"), dikombinasikan dengan algoritma
Alam Bahasa Pengolahan
(selanjutnya "NLP"), kita membangun untuk menandai pesan. Kami menggabungkan
metode dan prosedur untuk meningkatkan baru
keakuratan konten tagging yang kami percaya akan berguna dalam studi masa depan
menganalisis jenis lain
konten iklan dan ulasan produk.
Data kami memiliki beberapa keunggulan yang memfasilitasi studi rinci
konten. Pertama, pesan Facebook

memiliki atribut konten yang kaya (seperti misalnya, Twitter tweets, yang dibatasi 140
karakter) dan kaya
Data pada keterlibatan pengguna. Kedua, Facebook membutuhkan nama asli dan,
karena itu, data tentang aktivitas pengguna di
Facebook seringkali lebih handal dibandingkan dengan situs media sosial
lainnya. Ketiga, keterlibatan diukur pada
setiap hari (data panel) dengan keterlibatan pesan-tingkat yang sebenarnya seperti
Suka dan komentar yang tepat
dilacak dalam sistem tertutup. Aspek-aspek ini membuat Facebook pengaturan hampir
ideal untuk mempelajari peran
1
Pada Desember 2013 (saat tulisan ini ditulis), analisis media sosial perusahaan
industri terkemuka seperti Wildfire (sekarang
bagian dari Google) tidak menawarkan analisis rekayasa konten rinci menghubungkan
berbagai macam konten media sosial dengan real
Data keterlibatan. Sebaliknya, mereka menyediakan analisis sederhana seperti
keterlibatan pelaporan pada saat-of-the-hari atau hari-of-the-minggu
untuk mengirim dan membagi dengan dimasukkannya gambar atau video. Baru-baru
ini, konten industri rekayasa telah menjamur dan
menjadi lebih canggih dalam penggunaan analisis. Rekayasa konten untuk
mendapatkan jangkauan yang lebih baik di Facebook melalui halaman perusahaan
memiliki
paralel untuk Search Engine Optimization (SEO) untuk mendapatkan daftar organik
ditingkatkan di search engine.
3
halaman 4

konten dalam pemasaran media sosial.


Strategi kami untuk pengkodean konten dimotivasi oleh psikologi, pemasaran dan
literatur ekonomi di
iklan (lihat Cialdini (2001); Bagwell (2007); Berger (2012);. Chandy et al (2001);
Vakratsas dan Ambler
(1999) untuk beberapa ikhtisar perwakilan). Dalam literatur ekonomi, itu adalah
umum untuk mengklasifikasikan iklan sebagai
informatif (pergeseran keyakinan tentang keberadaan produk atau harga) atau
persuasif (pergeseran preferensi langsung).
Klasifikasi ini sulit untuk mengoperasionalkan dalam banyak konteks karena dua
alasan. Pertama, dasar
konten informatif biasanya terbatas pada harga dan / atau keberadaan, dan persis apa
yang "konten persuasif"

biasanya tidak didefinisikan dengan baik dan diperlakukan sebagai "menangkapsemua" tanpa klasifikasi halus. Kedua, beberapa konten
dapat menjadi "persuasif" dan secara tidak langsung "informatif" (misalnya, Sahni et
al. (2015)). Misalnya, fakta bahwa
banyak orang dalam kelompok sosial konsumen menggunakan produk dapat
membujuk konsumen untuk menggunakan
produk (misalnya, itu adalah "persuasif") atau memberikan sinyal bahwa itu cocok
dengan konsumen seperti dia (misalnya, itu adalah
"Secara tidak langsung informatif").
Untuk menghindari perbedaan kasar ini dan kesulitan yang berhubungan dalam
penafsiran, pertama kami menyajikan
hasil penuh untuk efek setiap konten atribut secara terpisah sehingga pembaca dapat
menilai efek disagregat
tanpa perlu untuk setiap ex-post pengelompokan. Kedua, kami menyajikan
pengelompokan konten atribut yang
mencerminkan jenis konten yang kita lihat di Facebook dan paralel halus klasifikasi
skema yang telah muncul
dalam literatur iklan. Di sini, kita mengikuti karya awal penting dari Resnik dan Stern
(1977), yang
mengoperasionalkan iklan langsung informatif berdasarkan jumlah isyarat informasi
hadir dalam pesan
(lihat Abernethy dan Franke 1996 untuk gambaran studi dalam aliran ini). Beberapa
kriteria yang Resnik dan
Stern (1977) menyarankan untuk mengklasifikasi konten secara langsung informatif
adalah apakah itu termasuk rincian tentang
produk, promosi, ketersediaan, harga, dan aspek produk terkait yang dapat digunakan
dalam mengoptimalkan
keputusan pembelian. Berikut aliran ini, produk apapun yang berorientasi fakta, dan
merek dan produk menyebutkan adalah
dikategorikan sebagai konten secara langsung informatif.
Jenis lain dari konten yang kita lihat di Facebook posting melibatkan aspek
kepribadian merek. Contohnya,
kita melihat ribuan posting dari perusahaan yang mengandung humor, daya tarik
emosional, olok-olok kasual atau mendiskusikan
merek outreach filantropi. Kami menafsirkan ini sebagai upaya oleh perusahaan untuk
membangun kepribadian merek
yaitu, "seperangkat karakteristik manusia yang berhubungan dengan merek." (Aaker
1997; Weiss dan Huber 2000). Satu
perusahaan alasan mungkin menggunakan konten tersebut karena konsumen
cenderung memilih merek yang dalam keselarasan

dengan kepribadian mereka sendiri (Govers dan Schoormans 2005). Selanjutnya,


literatur merek menunjukkan bahwa
manfaat fungsional dari sebuah merek juga menjadi lebih persuasif ketika
diungkapkan oleh kepribadian merek
(Keller 1993; Aaker 1996). Secara keseluruhan, kami melihat peran dari jenis konten
sebagai upaya oleh perusahaan untuk mempromosikan
hubungan-bangunan dan untuk membujuk konsumen untuk menggunakan merek
mereka melalui hubungan tersebut.
Estimasi pengaruh konten pada keterlibatan berikutnya adalah rumit oleh alokasi nonacak
pesan ke pengguna. Kekhawatiran khas dalam pekerjaan empiris dalam pengaturan
tersebut adalah kausalitas terbalik
bahwa perusahaan
menargetkan konten khusus untuk dipilih sub-pemirsa
begitu, covariation berikutnya dalam hasil mencerminkan baik
pengaruh konten serta kebijakan penargetan dari perusahaan (misalnya, Nair et al.
2013). kekhawatiran ini
4
halaman 5

tidak orde pertama dalam konteks kita karena tidak seperti iklan banner Facebook atau
posting disponsori, yang
Facebook lingkungan halaman organik tidak memungkinkan perusahaan untuk
menargetkan audiens yang spesifik. Artinya, perusahaan ini
posting dimaksudkan untuk semua penggemarnya. Sebaliknya, semua penargetan
diimplementasikan ex post oleh Facebook melalui proprietary
EdgeRank algoritma, tujuan yang adalah untuk menyajikan pengguna dengan
pengalaman positif di Facebook yang
tidak tercemar dengan konten yang ia tidak nilai. EdgeRank cenderung untuk
melayani pesan pengguna yang
baru dan diharapkan untuk menarik lebih baik untuk / nya selera nya. Oleh karena itu,
perhatian utama bagi inferensi dibuat oleh
penargetan muncul dari pemilihan disebabkan oleh EdgeRank. Kami
memperhitungkan pemilihan disebabkan oleh EdgeRank
dengan mengembangkan koreksi semi-parametrik untuk penyaringan menginduksi,
dan menunjukkan bagaimana hal itu dapat dimasukkan
ke dalam prosedur estimasi. Koreksi kami berfungsi sebagai semi-parametrik "fungsi
kontrol" ke non
pilihan acak yang disebabkan oleh algoritma filtering. Kami mendiskusikan masalah
endogeneity lain dan ketahanan
ancaman tambahan untuk validitas kemudian di koran.

Temuan utama kami adalah bahwa konten merek-kepribadian yang berhubungan


dengan mendorong keterlibatan media sosial secara signifikan,
sedangkan konten langsung informatif cenderung mendorong keterlibatan positif
hanya bila dikombinasikan dengan seperti
konten. Selain itu, konten secara langsung informatif drive jalan-ke-konversi (klikthrough). menggabungkan
kedua jenis konten sehingga memungkinkan merek untuk mendapatkan kedua
keterlibatan dan branding yang diproduksi oleh merek
kepribadian terkait konten, serta lead segera diproduksi oleh konten langsung
informatif, bersama
dengan keterlibatan tambahan yang mereka hasilkan dalam kombinasi. Temuan ini
dari kepentingan substansial karena
sebagian besar perusahaan dalam pesan posting data kami dengan satu jenis konten
atau lainnya, bukan dalam kombinasi. hasil kami
Oleh karena itu menunjukkan bahwa mungkin ada keuntungan besar untuk
engineering konten dengan menggabungkan karakteristik.
Hanya menggunakan merek konten terkait kepribadian yang mendorong keterlibatan,
tetapi hanya menggunakan jenis konten
melibatkan brondong beberapa manfaat dari mendapatkan lead dan respon
langsung. Demikian pula, hanya menggunakan langsung
konten informatif dalam posting adalah kontraproduktif karena mengurangi
keterlibatan, dan dengan demikian mengurangi masa
mencapai karena peran intermediasi penyaringan EdgeRank ini. Hal ini tampaknya
tradeoff utama antara
dua jenis konten pada platform Facebook. Menggabungkan karakteristik sehingga
mencapai tradeoff yang seimbang
antara jangkauan dan situs kunjungan. Hasil empiris kami juga membongkar efek ini
menjadi atribut komponen
efek dan juga memperkirakan heterogenitas di efek ini seluruh perusahaan dan
industri, memungkinkan fine tuning
strategi ini seluruh perusahaan dan industri.
Kertas kami menambah literatur yang berkembang di media sosial. Studi telah
meneliti difusi userkonten yang dihasilkan dan dampaknya terhadap kinerja perusahaan (Rui et al, 2013
(Susarla et al, 2012.);. Dellarocas,
2006). Beberapa kertas baru-baru ini juga telah meneliti strategi media sosial
perusahaan, dengan fokus utama pada
blog online dan forum. Ini termasuk studi tentang dampak dari pesan blog negatif oleh
karyawan pada
blog pembaca (Aggarwal et al., 2012), sentimen blog dan kualitas dari pembaca
(Singh et al., 2014), sosial

fitur produk pada kesediaan konsumen untuk membayar (Oestreicher-Singer dan


Zalmanson, 2013), dan peran
kontributor aktif pada partisipasi forum (Jabr et al., 2014). Kami menambah literatur
ini dengan memeriksa
dampak strategi konten perusahaan pada keterlibatan pengguna.
Sebuah literatur teoritis yang muncul dalam iklan telah mulai menyelidiki efek dari
konten. Ini
5
halaman 6

termasuk model baru yang memungkinkan konten iklan untuk peduli dalam
kesetimbangan dengan menambah sinyal kanonik
model dalam berbagai cara (misalnya Anand dan Shachar (2009)) dengan
memungkinkan iklan berisik dan ditargetkan; Sebuahderson dan Renault (2006) oleh konten iklan yang memungkinkan untuk mengatasi
ketidakpastian konsumen tentang pertandingan-nilai mereka
dengan produk; dan Mayzlin dan Shin (2011) dan Gardete (2013) oleh konten iklan
yang memungkinkan untuk mendorong konsumen
untuk mencari informasi lebih lanjut tentang produk. Makalah kami paling erat terkait
dengan lit- empiris kecil
erature yang telah meneliti efek dari konten iklan dalam pengaturan lapangan. Ini
termasuk Bertrand et al. (2010)
(efek konten iklan langsung-mail pada permintaan kredit); Anand dan Shachar
(2011); Liaukonyte et al. (2013) (efek
konten iklan TV pada pemirsa dan penjualan online); Tucker (2012a) (efek persuasi
iklan pada video YouTube
sharing) dan Tucker (2012b) (efek "sosial" Facebook iklan pada partisipasi
filantropis). juga terkait
adalah studi terbaru mengeksplorasi efek dari konten yang lebih umum (dan tidak
secara khusus konten iklan) termasuk
Berger dan Tukang Susu (2012) (pengaruh kadar emosional dalam artikel New York
Times pada berbagi artikel)
dan Gentzkow dan Shapiro (2010) (efek konten politik surat kabar pada
pembaca). Sehubungan dengan ini
literatur, penelitian kami membuat dua kontribusi utama. Pertama, dari sudut pandang
manajerial, kita membahas
nilai menggabungkan kepribadian merek-terkait dan konten langsung informatif untuk
menyeimbangkan jangkauan / keterlibatan
dengan situs klik di media sosial, dan menunjukkan efek diferensial dari jenis konten
pada

hasil berorientasi konsumen. Hal ini dapat membantu mendorong kebijakan rekayasa
konten dalam perusahaan. Kami juga menunjukkan bagaimana
efek berbeda berdasarkan jenis industri. Kedua, tidak ada penelitian sebelumnya pada
konten iklan telah dilakukan di
skala studi ini, yang mencakup sejumlah besar industri. Kami percaya metodologi
konten-tagging
kita mengembangkan, yang menggabungkan survei dilaksanakan pada AMT dengan
algoritma berbasis NLP, menyediakan berguna
kerangka untuk membangun masa depan studi yang menganalisis isi dari komunikasi
pemasaran.
Kami menutup pendahuluan ini dengan tiga peringatan. Pertama, kita tidak mengatasi
terpisah tapi penting
pertanyaan tentang bagaimana keterlibatan mempengaruhi permintaan produk dan
penjualan perusahaan sehingga untuk menyelesaikan hubungan antara
ad-atribut dan langkah-langkah hasil. Pembaca harus mencatat bahwa data yang
dibutuhkan untuk analisis
pertanyaan ini pada skala yang sebanding dengan penelitian ini masih belum banyak
tersedia untuk peneliti. Lebih lanjut,
seperti yang disebutkan, perusahaan dan pengiklan peduli keterlibatan per se dan
bersedia untuk berinvestasi di media sosial
pemasaran untuk menghasilkan keterlibatan, bukan hanya peduli penjualan. Hal ini
konsisten dengan pandangan
iklan itu adalah masalah yang dinamis dan peran dominan iklan adalah untuk
membangun jangka panjang merek-modal
bagi perusahaan. Meskipun efek periode berjalan iklan pada permintaan mungkin
kecil, jangka panjang
Pengaruh iklan mungkin besar, yang dihasilkan oleh aktivitas perantara seperti
peningkatan keterlibatan konsumen,
peningkatan kesadaran dan dimasukkan dalam pertimbangan konsumen set. Dengan
demikian, mempelajari formasi dan
evolusi kegiatan perantara
seperti keterlibatan
berharga untuk lebih memahami
mekanisme yang benar dimana iklan mempengaruhi hasil dalam pengaturan
pasar. Kami lebih lanjut mencatat bahwa lainnya
makalah seperti Kumar et al. (2013); Goh et al. (2013); Rishika et al. (2013); Li dan
Wu (2014); Tukang giling
dan Tucker (2013); Sunghun et al. (2014); Luo dan Zhang (2013); Luo et al. (2013)
serta industri
laporan (comScore, 2013; Chadwick-Martin-Bailey, 2010; 90octane, 2012; HubSpot,
2013) telah menghubungkan

Media tindakan keterlibatan sosial kita anggap akuisisi pelanggan, penjualan, dan
metrik profitabilitas.
6
halaman 7

Kedua, peringatan untuk koreksi pilihan adalah bahwa itu dibangun di atas
pengetahuan sebelumnya (tapi tidak sempurna) tentang bagaimana
EdgeRank diimplementasikan. Dengan tidak adanya tambahan eksperimental / variasi
eksogen, kami tidak dapat
mengatasi semua kemungkinan masalah dengan potensi tugas nonrandom
sempurna. Kami melihat pekerjaan kami sebagai skala besar
studi eksplorasi variabel konten di media sosial yang bisa menjadi dasar pengujian
lebih lanjut ketat
dan penilaian kausal, meskipun pada skala yang lebih terbatas. Sebuah percobaan
berskala besar sepenuhnya acak yang
menyediakan cross-perusahaan dan lintas-industri penilaian seperti yang diberikan di
sini mungkin mustahil atau biaya terlalu tinggi
untuk melaksanakan, dan karenanya, kami pikir penelitian lintas-industri skala besar
berdasarkan data lapangan semacam ini
berharga.
2
Ketiga, meskipun kami mempertimbangkan berbagai besar atribut konten dari literatur
yang ada, itu adalah
hampir mustahil untuk detail lengkap profil konten yang mungkin dihasilkan pada
domain besar seperti
Facebook (atau dalam data besar seperti kita). Kami memilih profil konten yang
mencerminkan isu-isu ditandai dalam yang ada
literatur akademis dan orang-orang yang banyak digunakan oleh perusahaanperusahaan di Facebook. Kami membahas ini lebih
rinci dalam Bagian 2.
2 data
Dataset kami berasal dari fitur "halaman" yang ditawarkan oleh Facebook. Fitur ini
diperkenalkan di Facebook
pada bulan November 2007. Facebook Pages memungkinkan perusahaan untuk
membuat halaman profil dan posting update status,
mengiklankan promosi baru, peta dan mendorong konten secara langsung kepada
konsumen. Panel kiri Gambar 1
menunjukkan contoh dari Walmart Facebook Page, yang khas dari jenis halaman besar
host perusahaan
di jaringan sosial. Dalam apa yang berikut, kita menggunakan halaman istilah, merek,
dan perusahaan secara bergantian. Data kami

terdiri posting disajikan dari halaman perusahaan 'ke profil Facebook pengguna yang
terkait dengan perusahaan
pada platform. Untuk memperbaiki ide-ide, pertimbangkan pesan khas (lihat panel
kanan Gambar 1): "seeing Pretty cool
Andy memberikan Monfils beberapa cinta ... Periksa pro mengenakan sini:.
Http://bit.ly/nyiPeW "
3
Di
Update status ini, pengecer peralatan tenis dimulai dengan pembicaraan kecil, berbagi
rincian tentang selebriti (Andy
Murray dan Gael Monfils) dan berakhir dengan link ke halaman produk. Setiap pesan
tersebut merupakan unit analisis dalam
data kami.
2.1 Deskripsi Data
2.1.1 Data Mentah dan Seleksi Kriteria
Untuk mengumpulkan data, kami bermitra dengan sebuah perusahaan anonim,
selanjutnya disebut Perusahaan X yang
menyediakan layanan analisis untuk pemilik Halaman Facebook dengan
memanfaatkan data dari Wawasan Facebook. wawasan adalah
2
Seorang peneliti yang ingin menjalankan eksperimen untuk memecahkan masalah
akan dengan keberuntungan, meyakinkan bagian dari perusahaan host
Facebook halaman untuk menjalankan eksperimen di mana mereka secara acak
mencoba berbagai jenis pesan pada platform; Namun, kondisional
alokasi acak ini, apakah pengguna benar-benar memperoleh tulisan di newsfeed
mereka selalu ditentukan oleh
Algoritma EdgeRank Facebook. Ini istirahat pengacakan karena sebagian pengguna
diperlakukan yang EdgeRank memilih untuk
menunjukkan pos untuk selalu sampel yang dipilih. Peneliti atau pengiklan tidak bisa
memecahkan masalah ini; hanya bisa Facebook.
Dengan demikian, dalam pandangan kami, bidang eksperimen di skala - meskipun
sangat diinginkan - saat ini praktis tidak layak untuk penelitian
masyarakat.
3
Pengecer dipilih secara acak dari pencarian online; tidak harus dari data kami.
7
halaman 8

Gambar 1:
(Kiri) Contoh perusahaan Facebook Page (Walmart). (Kanan) Contoh pesan
perusahaan dan pengguna berikutnya

keterlibatan dengan pesan (Gudang Tennis). Contohnya adalah tidak harus dari data
kami.
alat yang disediakan oleh Facebook yang memungkinkan pemilik halaman untuk
memantau kinerja pesan Facebook mereka.
Perusahaan X menambah data dari Facebook Insights di sejumlah besar dari
perusahaan klien dengan tambahan
catatan karakteristik pesan setiap hari, untuk menghasilkan dataset baku yang terdiri
dari panel pesan-hari-tingkat
pesan yang diposting oleh perusahaan melalui halaman Facebook mereka. Data ini
juga mencakup keterlibatan dua konsumen
metrik: jumlah Suka dan komentar untuk setiap pesan setiap hari. Metrik ini biasanya
digunakan dalam
industri sebagai ukuran keterlibatan. Mereka juga lebih granular dari metrik lainnya
yang digunakan dalam penelitian yang masih ada
seperti jumlah fans yang telah Menyukai halaman. Juga tersedia dalam data adalah
jumlah tayangan
setiap pesan per hari (yaitu, jumlah total pengguna pesan terkena). Selain itu,
halaman-hari
Informasi tingkat seperti demografi agregat pengguna (fans) yang Menyukai halaman
di Facebook atau memiliki
pesan yang pernah dilihat oleh halaman yang dikumpulkan oleh Perusahaan X pada
tingkat harian. Ini terdiri dari populasi
pengguna pesan dari suatu perusahaan dapat berpotensi disajikan kepada. Kami
memanfaatkan informasi ini dalam metodologi
kami mengembangkan kemudian untuk akuntansi untuk tugas non-acak pesan ke
pengguna dengan Facebook. Setelah sebuah perusahaan
menyajikan pesan, kesan pesan ini, Suka, dan komentar dicatat setiap hari untuk ratarata sekitar
30 hari (maksimum: 126 hari).
4
Data mentah mengandung sekitar satu juta pesan unik oleh sekitar 2.600
perusahaan yang unik.
Pembaca harus mencatat bahwa untuk yang terbaik dari pengetahuan kita, karena ini
menulis data kami adalah yang paling lengkap
Data pengamatan yang tersedia di luar Facebook
Data yang mencakup rincian seperti demografi halaman
fans dan penggemar yang terlibat, yang tidak dapat tergores oleh pihak luar (tapi
sangat penting untuk mengoreksi EdgeRank)
namun yang tersedia hanya untuk pemilik halaman melalui Facebook Application
Programming Interface. Data kami

juga termasuk snapshot harian keterlibatan pesan-tingkat bahwa Facebook


menyediakan untuk pemilik halaman. Ini
snapshot harian menghasilkan variasi dalam-pesan yang memungkinkan analisis panel
dalam makalah kami. Akhirnya,
Halaman-pemilik tidak memiliki akses ke data pada kinerja dari setiap pesan halaman
lain, tidak seperti dataset kami
4
Mayoritas pesan tidak mendapatkan tayangan atau keterlibatan setelah 7 hari. Setelah
15 hari, hampir semua keterlibatan
dan tayangan (lebih dari 99,9%) dicatat.
8
halaman 9

yang mencakup sejumlah besar perusahaan di seluruh sektor.


Kami membersihkan data untuk mencerminkan kriteria berikut: (i) hanya halaman
yang terletak di Amerika Serikat, (ii) hanya pesan
ditulis dalam bahasa Inggris, dan (iii) hanya pesan dengan data demografis
lengkap. Setelah membersihkan, rentang data yang
106.316 pesan unik diposting oleh 782 perusahaan (termasuk banyak merek besar)
antara September 2011
dan Juli 2012. Hal ini menyebabkan sekitar 1,3 juta baris snapshot harian pesantingkat merekam sekitar 450
tanggapan juta fans page '. Menghapus periode setelah ada aktivitas yang signifikan
diamati untuk pesan
mengurangi ini untuk 665.916 baris snapshot pesan-tingkat (di mana aktivitas
didefinisikan sebagai tayangan, Suka,
atau komentar). Perusahaan dalam dataset kami dikategorikan ke dalam 6 kategori
industri yang lebih luas berikut
Kriteria klasifikasi Halaman Facebook: Selebriti & Tokoh Masyarakat (misalnya,
Roger Federer), Entertainment (misalnya,
Star Trek), Consumer Products & Merk (misalnya, Tesla Motors), Organisasi &
Company (misalnya, WHO),
Website (misalnya, TED), Tempat Lokal & Bisnis (misalnya, MoMA).
2.1.2 Content-kode data
Kami menggunakan metode dua langkah untuk label konten. Pertama, kami kontrak
dengan pekerja melalui AMT dan tag 5.000
pesan untuk berbagai profil konten. Selanjutnya, kita membangun suatu algoritma
NLP dengan menggabungkan beberapa
pengklasifikasi statistik dan algoritma berbasis aturan untuk memperpanjang kontencoding untuk set lengkap 100.000-pesan yang

bijak. Algoritma ini menggunakan 5.000 pesan AMT-tagged sebagai data trainingset. Kami menjelaskan ini
metode lebih rinci nanti di koran.
Tabel 2 menguraikan klasifikasi halus dari atribut kita kode up, termasuk definisi yang
tepat, ringkasan
statistik, dan sumber untuk pengkodean atribut. Kami secara luas kelompok pesan
secara langsung informatif,
kepribadian merek terkait, atau keduanya. Beberapa pesan menginformasikan
konsumen tentang penawaran dan diskon sekitar products, sedangkan pesan lain berusaha untuk menghubungkan dengan konsumen pada
tingkat pribadi untuk mempromosikan kepribadian merek,
hubungan bentuk dan bersifat sosial. Kita sebut jenis pertama konten langsung
informatif, dan
merek kedua kepribadian yang berhubungan dengan konten. Beberapa pesan
melakukan keduanya pada saat yang sama dengan memasukkan kasual
olok-olok dan informasi produk secara bersamaan (misalnya, "Apakah Anda orang teh
atau orang kopi? Dapatkan Anda
minuman favorit dari website kami: http://www.specific-link-here.com ").
Variabel konten secara langsung informatif diidentifikasi menggunakan karya Resnik
dan Stern (1977), yang
memberikan empat belas kriteria konten evaluatif untuk mengidentifikasi konten
secara langsung informatif yang mencakup konten
seperti harga produk, penawaran dan ketersediaan. Pada Tabel 2, 8 variabel:
BRANDMENTION, DEAL,
PRICECOMPARE, HARGA, TARGET, PRODAVAIL, PRODLOCATION, dan
PRODMENTION yang ditidak langsung informatif. Variabel ini memungkinkan kita untuk menilai efek dari
atribut pencarian, merek, harga, dan
informasi ketersediaan produk pada keterlibatan. Merek konten terkait kepribadian
kita dipilih oleh pick
ing atribut yang terjadi umumnya di posting Facebook dan juga mencerminkan
menunjukkan sebagai penting dalam
mengemudi respon konsumen dalam penelitian perilaku konsumen yang
ada. Misalnya, emosional dan lucu
konten telah diidentifikasi sebagai driver viralitas (Porter dan Golan, 2006; Berger,
2012, 2011; Berger dan
Tukang Susu, 2012). Konten filantropi telah dipelajari dalam konteks efektivitas
periklanan (Tucker,
9
halaman 10

Pesan sampel
konten Tags
Misi Maria membantu veteran dan keluarga mereka mencari pekerjaan.
Seperti ini dan menonton cerita Maria. http://walmarturl.com/VzWFlh
Filantropis, Smalltalk,
ASKLIKE, HTTP
Tepuk tangan! Mari Welch bantuan cincin di Tahun Baru.
BRANDMENTION, Smalltalk,
HOLIDAYMENTION, EMOSI
Pada skala 1-10 seberapa besar adalah Anda Natal?
Smalltalk, PERTANYAAN,
HOLIDAYMENTION
Skor iPad 3 untuk harga iPad2! Sekarang di toko lokal Anda, $ 50 dari
iPad 3. Plus, mendapatkan $ 30 iTunes Gift Card. Menawarkan baik melalui 12/31
atau
Selama persediaan masih ada.
PRODMENTION, DEAL,
PRODLOCATION, PRODAVAIL,
HARGA
Tabel 1:
Contoh Pesan dan Konten Tags mereka: Pesan tersebut diambil dari 2.012 pesan
Desember di
Halaman Facebook Walmart.
2012b). Demikian pula, Berger dan Schwartz (2011) mendokumentasikan bahwa
interestingness konten seperti mentions fakta yang luar biasa efektif dalam menghasilkan kata-of-mulut. 8 variabel:
REMFACT, EMOSI,
Emoticon, HOLIDAYMENTION, HUMOR, filantropis, FRIENDLIKELY, dan
Smalltalk
diklasifikasikan sebagai kepribadian merek-terkait. Definisi ini mencakup konten
emosional, humor, olok-olok, dan
konten filantropis. Meskipun tidak sepenuhnya lengkap, kami telah berusaha untuk
menutupi sebagian variabel yang 1)
disorot oleh penelitian akademik sebelum relevan, 2) umum dibahas dan digunakan
dalam industri.
Selain variabel-variabel utama bunga, kontrol dan pola-terkait konten tercatat sebagai
penting dalam dilaporan dustry diprofilkan. Kami menyertakan kategori konten ini untuk menyelidiki
pertimbangan lebih formal
diletakkan di kertas industri putih, artikel trade-tekan, dan blog tentang kemanjuran
dari pesan atribut di

sosial keterlibatan media yang. Ini termasuk konten yang secara eksplisit solicits
pembaca untuk berkomentar atau termasuk kosong
bagi pengguna untuk mengisi (sehingga memberikan pilihan yang jelas untuk
memfasilitasi keterlibatan). Selain itu, karakteristik
seperti apakah pesan berisi foto, link website, dan jenis halaman-pemilik (misalnya,
bisnis
organisasi terhadap selebriti) juga kode. karakteristik dan kontrol pesan-spesifik
lainnya termasuk
metrik seperti panjang pesan dalam karakter dan SMOG ( "Ukur Sederhana dari
gobbledygook"), sebuah automatically dihitung membaca indeks kompleksitas yang digunakan secara luas. nilai-nilai
yang lebih tinggi dari SMOG menyiratkan pesan adalah
sulit untuk dibaca. Tabel 1 menunjukkan pesan sampel yang diambil dari halaman
Walmart pada Desember 2012 dan menunjukkan
bagaimana kita akan menandai mereka. pembaca harus mencatat bahwa beberapa
elemen dari penandaan konten dan Classi
fikasi yang tentu subjektif dan berdasarkan penilaian manusia. Kami membahas
metode kami (yang melibatkan
memperoleh kesepakatan di 9 individu tagging) di bagian 2.2. Semua hal
dipertimbangkan, kami percaya ini adalah salah satu
dari upaya paling komprehensif di tagging komunikasi pemasaran terkait konten di
empiris
literatur.
2.1.3 data deskriptif Graphics
Bagian ini menyajikan statistik deskriptif dari pola bergaya utama dalam
data. Sementara ada aktif
bunga di media sosial, sangat sedikit yang diketahui (bahkan pada tingkat deskriptif)
tentang apa jenis konten yang
biasa digunakan oleh perusahaan-perusahaan. Oleh karena itu, pertama kita
melaporkan apa jenis konten yang digunakan oleh perusahaan-perusahaan. tabel 2
10
halaman 11

Variabel
Deskripsi
Sumber
Berarti
SD
Min Max
TAU ()
Waktu sejak rilis posting (Day)

Facebook
6,253
3,657
1
16
LIKES
Mati rasa
er dari "Suka" pasca ha
s diperoleh
Facebook
48,373
1017
0
324.543
KOMENTAR
Jumlah "Komentar" posting telah memperoleh
Facebook
4,465
78,19
0
22.522
KESAN
Jumlah pesan kali ditunjukkan kepada pengguna (unik)
Facebook
9.969,2
129.874 1
4.510
7
ASBUT
Indeks SMOG pembacaan (berarti lebih tinggi sulit untuk dibaca)
dihitung
7,362
2,991
3
25,5
MSGLEN
panjang pesan dalam karakter
dihitung
157,41
134,54
1

6510
HTTP
Pesan berisi link
dihitung
0,353
0,478
0
1
PERTANYAAN
Pesan berisi pertanyaan
dihitung
0,358
0,479
0
1
KOSONG
Pesan berisi kosong (misalnya "artis favorit saya adalah __")
dihitung
0.010
0.099
0
1
ASKLIKE
ajakan eksplisit
untuk "Suka" (misalnya "Lik
e jika ... ")
dihitung
0,006
0.080
0
1
ASKCOMMENT
ajakan eksplisit untuk "Komentar"
dihitung
0,001
0.029
0
1
MSGTYPE
Jenis pesan kategoris ditugaskan oleh Facebook
Facebook

- Aplikasi
aplikasi pesan terkait
Facebook
0.099
0,299
0
1
- link
link
Facebook
0,389
0,487
0
1
- Foto
foto
Facebook
0,366
0,481
0
1
- Update Status
Update status biasa
Facebook
0.140
0,347
0
1
- Video
video
Facebook
0,005
0.070
0
1
PAGECATEGORY
kategori Halaman erat mengikuti kategorisasi Facebook
Facebook
- Selebriti
Penyanyi, aktor, atlet dll
Facebook

0,056
0.230
0
1
- Produk konsumen
elektronik konsumen, barang dikemas dll
Facebook
0.296
0.456
0
1
- Hiburan
Acara tv, film dll
Facebook
0.278
0,447
0
1
- Organisasi
organisasi non-profit, pemerintah, organisasi sekolah
Facebook
0,211
0,407
0
1
- PlaceBusiness
tempat lokal dan bisnis
Facebook
0,071
0,257
0
1
- Situs web
Halaman tentang sebuah website
Facebook
0.088
0,283
0
1
Kepribadian merek terkait
REMFACT

Bahkan yang luar biasa disebutkan


AMT
0,527
0.499
0
1
EMOSI
Setiap jenis emosi ini
AMT
0,524
0.499
0
1
emoticon
Berisi emoticon atau gaul bersih (sekitar 1000
dikorek dari web emoticon kamus misalnya: D, LOL)
dihitung
0,012
0,108
0
1
HOLIDAYMENTION
Menyebutkan Liburan US
dihitung
0,006
0.076
0
1
HUMOR
Humor digunakan
AMT
0,375
0,484
0
1
DERMAWAN
Pesan filantropi atau aktivis
AMT
0,498
0.500
0

1
FRIENDLIKELY
Jawaban untuk pertanyaan: "Apakah teman Anda di media sosial
kemungkinan untuk mengirim pesan seperti yang ditunjukkan "?
AMT
0,533
0.499
0
1
Smalltalk
Mengandung basi atau olok-olok (didefinisikan sebagai konten lainnya
dari sekitar produk atau perusahaan bisnis)
AMT
0,852
0.355
0
1
langsung informatif
BRANDMENTION
Menyebutkan merek atau nama organisasi tertentu
AMT + Comp
0.264
0,441
0
1
BERURUSAN
Berisi penawaran: semua jenis diskon dan gratis
AMT
0,620
0.485
0
1
PRICECOMPARE
Membandingkan harga atau membuat jaminan harga cocok
AMT
0.442
0,497
0
1
HARGA
Berisi harga produk

AMT + Comp
0.051
0.220
0
1
TARGET
Pesan ditargetkan terhadap segmen pemirsa (misalnya
demografi, kualifikasi tertentu seperti "Moms")
AMT
0,530
0.499
0
1
PRODAVAIL
Berisi informasi tentang ketersediaan produk (misalnya saham
dan tanggal rilis)
AMT
0.557
0,497
0
1
PRODLOCATION
Berisi informasi tentang di mana untuk mendapatkan produk (misalnya
link atau lokasi fisik)
AMT
0.690
0,463
0
1
PRODMENTION
produk tertentu telah disebutkan
AMT + Comp
0,146
0,353
0
1
Tabel 2:
Deskripsi variabel dan Ringkasan Data Content-kode: Untuk menafsirkan "Sumber"
kolom, perhatikan bahwa
"Facebook" berarti nilai-nilai yang diperoleh dari Facebook, "AMT" berarti nilai-nilai
yang diperoleh dari Amazon Mechanical

Turk dan "Computed" berarti telah baik dihitung atau diidentifikasi menggunakan
database online dan metode berbasis aturan di mana
frasa tertentu atau konten (misalnya merek) yang cocok. Akhirnya, "AMT +
Computed" berarti data primer telah diperoleh dari
Amazon Mechanical Turk dan telah lebih jauh ditambah dengan sumber daya online
dan metode berbasis aturan.
11
halaman 12

Gambar 2:
Co-terjadinya Karakteristik Atribut Across pesan. Shades di segitiga atas mewakili
korelasi
tions. Nomor di segitiga bawah mewakili korelasi yang sama dalam bentuk numerik
di 100-s unit (kisaran -100, + 100). Untuk misalnya,
korelasi di terjadinya humor dan Smalltalk di pesan adalah 0,26 (sel [3,2]). Garis
gelap menunjukkan pemisahan menjadi
2 cluster. Merek konten terkait kepribadian dan atribut konten langsung informatif
cenderung membentuk dua kelompok terpisah.
melaporkan proporsi rata-rata pesan yang memiliki karakteristik masing-masing
konten. Satu dapat melihat bahwa pesan
dengan video, informasi harga, liburan menyebutkan atau emoticon yang relatif
jarang, sementara mereka dengan
Smalltalk dan dengan informasi tentang di mana untuk mendapatkan produk
(PRODAVAIL / PRODLOCATION) yang
sangat umum. Gambar 2 laporan tentang co-terjadinya berbagai atribut di pesan. pola
intuitif. Misalnya, konten emosional dan filantropis co-sering terjadi, begitu juga
emosional dan temanseperti konten, serta konten yang menggambarkan penawaran produk dan
ketersediaan. Untuk lebih menggambarkan korelasi
matrix grafis dan mengelompok variabel yang sangat berkorelasi bersama-sama, kami
berlari analisis cluster (hirarkis
pengelompokan dengan jumlah cluster ditentukan dengan lebar siluet rata
(Rousseeuw, 1987)),
yang menunjukkan bahwa ada dua kelompok dalam data. Gambar 2 menunjukkan
melalui garis yang solid bagaimana konten jenis
berkumpul di pesan. Kami melihat bahwa merek terkait kepribadian jenis konten dan
langsung informatif
jenis konten secara kasar dibagi menjadi dua kelompok terpisah, menunjukkan bahwa
perusahaan-perusahaan biasanya cenderung menggunakan satu atau
yang lain dalam pesan mereka. Kemudian di koran, kami menunjukkan bukti yang
menunjukkan bahwa strategi ini mungkin tidak

optimal.
Gambar 3 menunjukkan persentase pesan menampilkan atribut konten dibagi
berdasarkan kategori industri. Kita
mewakili persentase relatif di setiap sel dengan ukuran gelembung di
grafik. Gelembung terbesar adalah
Smalltalk untuk kategori selebriti (60,4%) sedangkan yang terkecil adalah
PRICECOMPARE untuk selebriti
kategori (0%). Ini berarti bahwa 6 dari 10 pesan halaman selebriti dalam data
memiliki semacam kecil
berbicara (olok-olok) dan / atau konten yang tidak berhubungan dengan produk atau
merek; dan bahwa tidak ada pesan
12
halaman 13

selebriti milik halaman yang menampilkan perbandingan harga. "Fakta-fakta yang


luar biasa" (definisi kita) yang diposting lainnya
perusahaan dalam kategori hiburan dan kurang oleh tempat lokal dan
bisnis. Konsisten dengan intuisi, consumer halaman produk dan tempat-tempat lokal / bisnis posting paling tentang produk
(PRODMENTION), produk
ketersediaan (PRODAVAIL), lokasi produk (PRODLOC), dan penawaran
(DEAL). Emosional (EMOSI) dan
filantropis (PHILAN) konten memiliki perwakilan tinggi di halaman diklasifikasikan
sebagai selebriti, organisasi, dan
website.
selebriti
Produk konsumen
Hiburan
Organisasi
PlacesBusiness
website
17
7
1
0
3
7
12
48
46
9

0
3
5
7
24
18
10
2
0
0
1
2
8
39
53
19
0
6
7
11
36
37
21
12
0
0
2
16
14
50
44
9
0
3
8
6
28
17
7
5
0

1
1
2
10
40
53
39
1
7
7
18
36
31
7
14
0
1
3
11
13
50
24
22
0
2
7
10
39
17
8
12
2
0
1
13
19
60
33
5
0
2

2
9
27
11
remf
bertindak
emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
Industri Kategori VS Konten Pesan Penampilan Persentase
Label pada gelembung adalah persentase
Gambar 3:
Gelembung Bagan lebih luas Industri Kategori vs Konten Pesan: Setiap balon
menunjukkan persentase
pesan dalam baris-industri yang memiliki kolom-atribut. Dihitung untuk 5000 pesan
ditandai. Lebih besar dan lebih ringan
gelembung menyiratkan persentase yang lebih tinggi dari pesan dalam sel
itu. Persentase tidak menambahkan hingga 100 sepanjang baris atau kolom karena
setiap diberikan
Pesan dapat memiliki beberapa atribut termasuk di dalamnya. Gelembung terbesar
(60,4%) sesuai dengan Smalltalk untuk selebriti

kategori halaman dan gelembung terkecil (0%) sesuai dengan PRICECOMPARE


untuk kategori selebriti.
Kita sekarang membahas data keterlibatan. Gambar 4 menunjukkan kotak plot dari
log tayangan, Suka, dan
komentar versus waktu (dalam hari) sejak pesan dilepaskan (). Kedua komentar
dan Suka lancip ke
nol setelah dua dan enam hari berturut-turut. Tingkat pembusukan tayangan lebih
lambat. Hampir semua keterlibatan
dan tayangan (lebih dari 99,9%) dicatat dalam waktu 15 hari dari rilis pesan.
Gambar 5 menunjukkan rata-rata jumlah Suka dan komentar dengan jenis pesan (foto,
tautan, dll) selama
seumur hidup dari pesan. Pesan dengan foto memiliki rata-rata Suka tertinggi (94,7)
dan komentar (7,0) lebih
seumur hidup mereka. update status memperoleh lebih banyak komentar (5.5) ratarata dari video (4,6) tapi mendapatkan kurang Suka
dari video. Link memperoleh Suka terendah rata-rata (19,8) serta komentar terendah
(2,2). Angka
6 menunjukkan bar plot yang sama dibagi di 6 kategori industri. Pola yang konsisten
adalah bahwa pesan dengan
Foto selalu mendapatkan Suka tertinggi di industri. Angka tersebut juga
mendokumentasikan heterogenitas menarik di
keterlibatan respon di industri. Pola di plot ini echo yang dijelaskan dalam laporan
oleh banyak
perusahaan riset pasar seperti Wildfire dan comScore.
Gambar 7 menyajikan rata-rata jumlah Suka dan komentar dengan atribut
konten. pesan emosional
memperoleh paling banyak Suka diikuti oleh pesan diidentifikasi sebagai "mungkin
diposting oleh teman-teman" (variabel:
FRIENDLIKELY). konten emosional juga mendapatkan jumlah tertinggi komentar
rata-rata diikuti oleh
13
halaman 14

Smalltalk dan FRIENDLIKELY. Pembaca harus mencatat grafik ini tidak


memperhitungkan pasar-orang
Ukuran (yaitu, jumlah tayangan pesan tercapai). Kemudian, kami menyajikan model
ekonometrik yang
menggabungkan pasar-ukuran serta pilihan oleh algoritma filtering Facebook untuk
menilai keterlibatan pengguna.
0
5

10
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Tau
Log (Imp + 1)
Log (Imp + 1) VS Tau (kalinya sejak pasca rilis) boxplot
0
2
4
6
8
10
1
2
3
4
5
6
7
8
9
10
11
12
13
14

15
16
Tau
Log (Komentar + 1)
Log (Komentar + 1) VS Tau (kalinya sejak pasca rilis) boxplot
0
2
4
6
8
10
12
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Tau
Log (Lik
e + 1)
Log (Seperti + 1) VS Tau (kalinya sejak pasca rilis) boxplot
Gambar 4::
Box Plot Log (keterlibatan + 1) vs Waktu sejak pesan Pers: Tiga grafik menunjukkan
kotak plot
dari (log) tayangan, komentar dan suka vs masing-masing. Kedua komentar dan
Suka lancip ke nol setelah dua dan enam hari
masing-masing. Tayangan memakan waktu lebih lama. Setelah 15 hari, hampir semua
keterlibatan dan tayangan (lebih dari 99,9%) dicatat
untuk. Ada banyak outlier.
0

20
40
60
80
link
aplikasi
Update status
video
foto
SEBUAH
v
er
usia Hitungan
komentar
seperti
Jumlah rata-rata suka dan komentar diperoleh
seumur hidup oleh jenis pesan
Gambar 5:
Rata-rata Suka dan Komentar oleh Pesan Jenis: Angka ini menunjukkan rata-rata
jumlah Suka dan komentar
diperoleh pesan sepanjang hidup mereka di Facebook, terbelah oleh jenis pesan.
14
halaman 15

0
100
200
300
400
500
link
aplikasi
Update status
foto video
SEBUAH
v
er
usia Hitungan
komentar
seperti
selebriti

0
10
20
30
40
link
aplikasi
Update status
foto video
SEBUAH
v
er
usia Hitungan
komentar
seperti
Produk konsumen
0
20
40
60
80
100
link
aplikasi
Update status
foto video
SEBUAH
v
er
usia Hitungan
komentar
seperti
Hiburan
0
20
40
60
link
aplikasi
Update status
foto video

SEBUAH
v
er
usia Hitungan
komentar
seperti
Organisasi
0
5
10
link
aplikasi
Update status
foto video
SEBUAH
v
er
usia Hitungan
komentar
seperti
PlacesBusiness
0
50
100
150
link
aplikasi
Update status
foto video
SEBUAH
v
er
usia Hitungan
komentar
seperti
website
Gambar 6:
Rata-rata Suka dan Komentar oleh Jenis pesan oleh Industri: Angka ini menunjukkan
jumlah rata-rata
Suka dan komentar yang diperoleh pesan selama hidupnya dibagi berdasarkan jenis
pesan untuk masing-masing industri.

0
50
100
150
remf
bertindak
emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
SEBUAH
v
er
usia Hitungan
komentar
seperti
Jumlah rata-rata suka dan komentar diperoleh
seumur hidup oleh isi pesan
Gambar 7:
Rata-rata Suka dan Komentar oleh Konten Pesan: Angka ini menunjukkan rata-rata
jumlah Suka dan
komentar diperoleh pesan selama hidupnya dibagi oleh isi pesan.

2.2 Amazon Mechanical Turk (AMT)


Kami sekarang menggambarkan metodologi kami untuk pesan konten-coding
menggunakan AMT. AMT adalah mar- kerumunan sourcing
ketplace untuk tugas-tugas sederhana seperti pengumpulan data, survei, dan analisis
teks. Sekarang sudah berhasil
leveraged dalam beberapa makalah akademis untuk pengumpulan data online dan
klasifikasi. Untuk konten-kode-pesan kami
15
halaman 16

0
50
100
150
0.0
0,2
0,4
0.6
0.8
1.0
Cronbach Alpha
hitungan
Cronbach Alpha untuk 5.000 Tagged
Pesan antara 9+ Input
Angka 8:
Cronbach Alpha untuk 5.000 Pesan: grafik batang ini menunjukkan antar-penilai
keandalan ukuran Cronbach
Alpha antara setidaknya 9 input Turkers 'berbeda untuk setiap 5.000 pesan. mean 0.82
dan median adalah 0,84. Kami direplikasi
studi dengan hanya yang di atas 0,7 dan menemukan hasilnya menjadi kuat.
bijak, kita membuat instrumen survei yang terdiri dari satu set ya biner / tidak ada
pertanyaan kita berpose untuk pekerja (atau
"Turkers") pada AMT. Untuk memastikan respon kualitas tinggi dari Turkers, kita
mengikuti beberapa praktek-praktek terbaik
diidentifikasi dalam literatur (misalnya, kita memperoleh tag dari setidaknya 9
Turkers berbeda memilih hanya mereka yang
dari AS, memiliki lebih dari 100 tugas selesai, dan tingkat persetujuan lebih dari
97%. Kami juga mencakup
pertanyaan perhatian-verifikasi.) Silakan lihat lampiran untuk instrumen survei akhir
dan lengkap
daftar strategi yang diterapkan untuk memastikan kualitas output.

Gambar 8 menyajikan histogram dari Cronbach Alpha, yang biasa digunakan antarpenilai keandalan ukuran,
diperoleh untuk 5, 000 pesan.
5
Rata-rata Cronbach Alpha untuk 5, 000 pesan kami ditandai 0.82
(Median 0,84), jauh di atas ambang batas biasanya diterima dari 0,7. Tentang 87,5%
dari pesan memperoleh
alpha lebih tinggi dari 0,7, dan 95,4% lebih tinggi dari 0,6. Untuk ketahanan, kami
direplikasi penelitian dengan hanya mereka
pesan dengan Alpha diatas 0,7 (4378 pesan) dan menemukan bahwa hasil kami
kualitatif serupa.
Pada akhir langkah AMT, sekitar 2, 500 Turkers berbeda berkontribusi konten-coding
5, 000
pesan. Ini merupakan dataset pelatihan untuk algoritma NLP digunakan pada langkah
berikutnya.
2.3 Pengolahan Bahasa Alami (NLP) untuk Atribut Tagging
Kami menggunakan teknik NLP untuk label isi pesan dari pesan Facebook
menggunakan pesan AMT-label sebagai
data pelatihan. langkah khas untuk tugas-tugas pelabelan tersebut meliputi: 1)
melanggar kalimat ke dimengerti
blok bangunan (misalnya, kata-kata atau lemma) dan mengidentifikasi kalimat-atribut
yang mirip dengan apa yang manusia lakukan ketika
bacaan; 2) memperoleh satu set kalimat pelatihan dengan label tag dari sumber yang
terpercaya mengidentifikasi apakah
kalimat melakukan atau tidak memiliki profil konten yang diberikan (dalam kasus
kami, sumber ini terdiri dari 5000 AMTtagged pesan); 3) menggunakan alat statistik untuk menyimpulkan mana kalimatatribut berkorelasi dengan konten
hasil, sehingga belajar untuk mengidentifikasi konten dalam kalimat. Ketika disajikan
dengan satu set baru kalimat,
5
Ingat, setidaknya ada 9 Turkers per pesan. Kami menghitung Cronbach Alpha untuk
setiap pesan dengan menghitung
keandalan di 9 Turkers, di semua tugas klasifikasi konten yang terkait dengan
pesan. Gambar 8 maka plot sebuah
histogram dari Cronbach Alpha sehingga dihitung di seluruh 5.000 pesan.
16
halaman 17

algoritma istirahat kalimat ke blok bangunan, mengidentifikasi atribut kalimat-tingkat,


dan penerima

label menggunakan model statistik yang fine-tuned dalam proses pelatihan. Kami
meringkas metode kami
di sini sebentar. Sebuah penjelasan rinci tentang algoritma yang digunakan disajikan
dalam Lampiran.
Penggunaan metode NLP telah memperoleh traksi baru dalam penelitian bisnis karena
tersedia
Data teks online (misalnya, Netzer et al (2012);. Ghose et al (2012);. Geva dan Zahavi
(2013)). metode NLP kami
erat cermin skala besar, metode multi-langkah yang digunakan dalam industri jasa
keuangan untuk secara otomatis mengekstrak
informasi keuangan dari sumber-sumber tekstual (misalnya, Hassan et al. (2011)) dan
mirip dalam rasa untuk memenangkan
algoritma dari kompetisi Netflix Prize baru-baru ini.
6
Metode kami menggabungkan lima pengklasifikasi statistik dengan
metode berbasis aturan via heterogen "belajar ensemble" untuk membangun-up final,
tuan classifier. statistik yang yang
pengklasifikasi vertikal yang kami gunakan adalah mesin klasifikasi model
pembelajaran pada dasarnya biner yang mengambil atribut sebagai
input dan output diperkirakan probabilitas klasifikasi. Kami sesuai dengan berbagai
pengklasifikasi untuk dataset pelatihan kami.
Ini termasuk regresi logistik dengan L1 regularisasi (yang menghukum jumlah atribut
dan
biasa digunakan untuk seleksi atribut untuk masalah dengan banyak atribut; melihat
(Hastie et al., 2009)), Naif
Bayes (classifier probabilistik yang berlaku teorema Bayes berdasarkan ada atau tidak
adanya fitur), dan
mesin dukungan vektor (algoritma standar emas dalam pembelajaran mesin yang
bekerja dengan baik untuk-dimensi tinggi
masalah sional) dengan L1 dan L2 regularisasi dan berbagai kernel termasuk linear,
radial fungsi dasar,
dan kernel polinomial. Kami juga memanfaatkan pengklasifikasi kelas-tertimbang dan
metode resampling untuk memperhitungkan
ketidakseimbangan dalam label positif dan negatif. Metode berbasis aturan yang kita
gunakan pada dasarnya algoritma penggunaan yang
sumber data yang besar (alias kamus) atau menggunakan spesifik aturan jika-maka
diinput oleh para ahli manusia, untuk memindai melalui
kata-kata tertentu atau kejadian entitas linguistik dalam pesan untuk menghasilkan
klasifikasi. Kami menggunakan
berbagai metode berbasis aturan. Misalnya, dalam mengidentifikasi merek dan produk
menyebutkan, kami menambah kami

AMT-tag jawaban dengan beberapa daftar besar merek dan produk dari sumber online
dan daftar perusahaan
database dari Thomson Reuters. Selanjutnya, untuk meningkatkan berbagai nama
merek kami dan produk database,
kami juga berlari studi AMT terpisah dengan 20.000 pesan di mana kami meminta
AMT Turkers untuk mengidentifikasi
merek atau nama produk yang termasuk dalam pesan. Kami menambahkan semua
nama-nama merek dan produk kami dipanen
cara ini untuk database kami melihat-up. Kami kemudian memanfaatkan seperangkat
aturan untuk mengidentifikasi merek dan produk menyebutkan
dengan melihat daftar ini. Demikian pula, dalam mengidentifikasi emoticon dalam
pesan, kita menggunakan kamus besar
emoticon berbasis teks tersedia secara bebas di internet.
Akhirnya, kami menggabungkan klasifikasi dari banyak pengklasifikasi dan algoritma
berbasis aturan yang kita gunakan bersama-sama
melalui metode pembelajaran ensemble. Menggabungkan pengklasifikasi cara ini
memiliki beberapa keunggulan sejak statistik tunggal
classifier tidak dapat berhasil mengatasi klasik presisi-recall tradeoff yang melekat
dalam klasifikasi
masalah.
7
Pemilah gabungan akhir memiliki presisi tinggi dan recall dari salah satu
pengklasifikasi konstituen.
Penting untuk dicatat bahwa algoritma kami dioptimalkan untuk mengidentifikasi
konten yang spesifik di 106.000 pesan di
6
Lihat http://www.netflixprize.com.
7
Kinerja algoritma NLP biasanya dinilai berdasarkan akurasi (total% diklasifikasikan
dengan benar), presisi
(Dari positif diprediksi, berapa banyak yang benar-benar positif), dan ingat (dari
positif yang sebenarnya, berapa banyak diperkirakan sebagai
positif). Sebuah tradeoff penting dalam algoritma tersebut adalah bahwa peningkatan
presisi sering menyebabkan penurunan recall atau sebaliknya.
tradeoff ini mirip dengan standar tradeoff bias-varians dalam estimasi.
17
halaman 18

Dengan Ensemble Belajar (The


Terbaik Pertunjukan Algoritma)
Tanpa Belajar Ensemble

(Versi Support Vector Machine


1 + Rule-based)
akurasi Presisi
Penarikan
akurasi Presisi
Penarikan
REMFACT
0.94
0.99
0.68
0.88
0.99
0.33
EMOSI
0.97
0.99
0.87
0.94
0.98
0.65
HUMOR
0.98
1
0.90
0.97
1
0.14
DERMAWAN
0.97
0.99
0.85
0.93
0.99
0.62
FRIENDLIKELY
0.94
0.99
0.68
0.90
0.99
0.41

Smalltalk
0.85
0.88
0.80
0.78
0.34
0.28
BERURUSAN
0.94
0.99
0.65
0.90
1
0.43
PRICECOMPARE
0.99
0.99
1
0.99
1
0.85
PENARGETAN
0.98
0.99
0.89
0.95
0.99
0.71
PRODAVAILABILITY
0.96
0.99
0.76
0.91
1
0.10
PRODLOCATION
0.97
0.99
0.90
0.87
1

0.11
Tabel 3:
Kinerja Algoritma Mining Text pada 5000 Pesan Menggunakan 10-kali lipat Crossvalidasi: Tabel ini
menyediakan metrik untuk kinerja algoritma klasifikasi yang
digunakan. meninggalkan 3 kolom yang menunjukkan metrik untuk final
algoritma yang menggabungkan pengklasifikasi melalui metode pembelajaran
ensemble sementara hak 3 kolom menunjukkan metrik untuk dukungan
algoritma mesin vektor. Perhatikan bahwa dukungan mesin vektor classifier
cenderung memiliki recall rendah dan presisi tinggi. Naif
Bayes cenderung memiliki recall tinggi tetapi presisi rendah. Classifiers sendiri tidak
dapat berhasil mengatasi precision- standar
ingat tradeoff (jika lebih tinggi, yang lain lebih rendah). Tapi menggabungkan banyak
pengklasifikasi berbeda dengan pembelajaran ansambel dapat meningkatkan
baik presisi dan recall. Kami mendapatkan hasil yang sama untuk label kelas negatif.
dataset, bukan isi umum kami dalam teks apapun.
Penilaian Kami menilai kinerja algoritma NLP keseluruhan pada tiga langkah, yaitu,
akurasi,
presisi, dan ingat (sebagaimana didefinisikan dalam catatan kaki 7) menggunakan 10fold cross-validasi. 10-fold cross-validasi
komputasi intensif dan membuat lebih sulit untuk mencapai akurasi yang lebih tinggi,
presisi dan recall pada umumnya.
Namun, kami menemukan menggunakan kriteria 10 kali lipat penting untuk
memperoleh validitas eksternal yang diperlukan untuk skala besar
klasifikasi. Tabel 3 menunjukkan metrik ini untuk profil konten yang berbeda. Kinerja
yang sangat baik
dan sebanding dengan kinerja yang dicapai oleh sistem informasi pertambangan
keuangan teks terkemuka (Hassan
et al., 2011). Kami juga melaporkan peningkatan metode pembelajaran ensemble
akhir relatif hanya menggunakan
dukungan mesin vektor classifier. Seperti ditunjukkan, keuntungan dari
menggabungkan pengklasifikasi yang sangat besar. Kita
memperoleh hasil yang sama untuk label kelas negatif.
Sebagai titik akhir dari penilaian, diketahui bahwa beberapa makalah dalam ilmu
manajemen menggunakan metode NLP
menerapkan pembelajaran tanpa pengawasan yang tidak memerlukan data manusiatag. Teknik ini menggunakan yang sudah ada
database seperti WordNet (database leksikal untuk bahasa Inggris) atau tag korpus
(misalnya, ditandai Brown Corpus)
untuk mempelajari isi dengan pola dan korelasi. Diawasi NLP bukan menggunakan
manusia-taggers untuk mendapatkan

seperangkat kuat data yang dapat digunakan untuk melatih algoritma dengan contohcontoh. Sementara tanpa pengawasan NLP adalah
murah, kinerja yang relatif miskin dibandingkan dengan algoritma NLP diawasi
seperti
yang dilaksanakan di sini. Akhirnya, untuk yang terbaik dari pengetahuan kita,
metode NLP yang digunakan dalam makalah ini bahwa
menggunakan pembelajaran ansambel untuk menggabungkan beberapa
pengklasifikasi statistik dan metode berbasis aturan, tidak digunakan
dalam jurnal penelitian bisnis. Selanjutnya, beberapa implementasi saat NLP tidak
memanfaatkan ketat
bar memanfaatkan kriteria cross-validasi 10 kali lipat. Kami percaya salah satu
kontribusi dari makalah ini adalah untuk
menunjukkan bagaimana memanfaatkan AMT dalam kombinasi dengan teknik
pembelajaran ensemble, untuk melaksanakan diawasi
18
halaman 19

NLP dalam penelitian bisnis untuk menghasilkan algoritma NLP kuat dan hemat
biaya, yang tampil baik di skala
diperlukan untuk pekerjaan empiris. Kami percaya metode ini akan sangat berguna
dalam studi masa depan tidak terstruktur alami
Data bahasa seperti konten iklan atau ulasan produk. Untuk pembaca yang tertarik,
langkah-demi-langkah rinci
deskripsi prosedur pelatihan dan klasifikasi algoritma NLP kami disajikan dalam
Lampiran.
3 Strategi Empiris
Tujuan empiris kami adalah untuk mengetahui pengaruh konten iklan pesan pada
keterlibatan pelanggan berikutnya.
Pertunangan
y-variabel
diamati dalam data; dan konten
x-variabel
telah ditandai
seperti di atas dan juga diamati. Jika pesan secara acak dialokasikan ke pengguna, isu
menilai
Pengaruh pesan-konten pada keterlibatan sangat mudah; satu hanya memproyeksikan
y pada x. Sayangnya,
komplikasi muncul karena kebijakan Facebook untuk pengiriman pesan ke pengguna
non-acak: lebih banyak pengguna
mungkin untuk menemukan pesan menarik lebih mungkin untuk melihat pesan di
newsfeed mereka, penyaringan yang dilaksanakan

melalui "EdgeRank" algoritma Facebook. penyaringan menyiratkan masalah pilihan


dalam estimasi dari efek
Pesan-karakteristik dari keterlibatan
jika kita melihat bahwa pesan dengan foto yang lebih mungkin berkomentar
oleh pengguna, kita tidak tahu apakah ini karena kecenderungan konsumen untuk
mengomentari pesan dengan foto, atau
apakah Facebook sangat efektif dalam menunjukkan pesan dengan foto untuk
pengguna yang lebih mungkin untuk komentar
pada mereka. Untuk pengetahuan kita, masalah tersebut telah diabaikan dalam
literatur analisis media sosial sejauh ini.
8
Kita
mengatasi masalah pilihan melalui prosedur dua langkah, pertama dengan
membangun model semi-parametrik EdgeRank
yang memberikan perkiraan jumlah yang diharapkan dari tayangan pesan cenderung
menerima, dan kemudian,
dengan memasukkan model ini untuk menjalankan proyeksi selektivitas-dikoreksi
Suka dan komentar pada pesan
karakteristik dalam tahap kedua. Untuk tahap pertama, kita mengeksploitasi fakta
bahwa kita mengamati agregat
keputusan Facebook untuk melayani tayangan kepada pengguna, dan yang EdgeRank
didasarkan pada tiga variabel seperti diungkapkan
oleh Facebook: Jenis, Tie, dan Waktu.
9
Type
(Z) mengacu pada jenis pesan. Facebook mengkategorikan pesan-jenis menjadi 5
kelas: Update status,
foto, video, aplikasi, atau link.
Tie
(h
IJT
) Mengacu pada skor kedekatan antara halaman j (perusahaan) dan pengguna
Facebook i (penampil dari
pesan) pada waktu t yang didasarkan pada kekuatan dan frekuensi sejarah interaksi
antara
pengguna dan halaman.
Waktu
() mengacu pada waktu sejak pesan.
dataset kami berisi pengamatan langsung pada variabel Jenis dan Waktu. Kami tidak
memiliki tingkat individu

Data sejarah pengguna dengan halaman untuk model kekuatan dasi. Namun, kami
mengeksploitasi fakta bahwa kita memiliki akses
8
Kita bahas nanti di koran mengapa sumber mengacaukan (seperti penargetan langsung
oleh perusahaan) adalah orde kedua dalam pengaturan ini,
dibandingkan dengan pemilihan yang disebabkan oleh filtering berbasis
EdgeRank. Bagian (4.4) menyajikan beberapa analisis sensitivitas dan ketahanan
untuk menilai sumber-sumber lain dari bias potensial endogeneity.
9
Seperti diungkapkan pertama di "f8" konferensi 2010. Lihat
http://whatisEdgeRank.com untuk deskripsi singkat dari EdgeRank. Untuk
durasi pengumpulan data kami, spesifikasi EdgeRank ini berlaku.
19
halaman 20

demografi data pada set pengguna yang berpotensi telah terbukti pesan, dibandingkan
yang
benar-benar menunjukkan pesan. Perbedaannya mencerminkan pemilihan oleh
EdgeRank, yang kita memanfaatkan sebagai proxy
ukuran penargetan berdasarkan Tie-kekuatan. Karena kita tidak tahu bentuk
fungsional yang tepat dari EdgeRank ini
menargetkan aturan, kami bekerja dengan spesifikasi semi-parametrik, memanfaatkan
splines fleksibel untuk menangkap efek
dari EdgeRank. Pada akhir langkah ini, dengan demikian kita mengembangkan
pendekatan fleksibel untuk penargetan EdgeRank ini.
Pada langkah kedua, kita kemudian bisa mengukur efek dari konten iklan di Suka dan
komentar, dengan mengendalikan
untuk non-acak menargetkan dengan menggunakan model tahap pertama
kami. Gambar 9 menunjukkan strategi empiris visual.
Keuntungan langsung pemodelan EdgeRank cara ini, adalah bahwa 1) dengan
memisahkan kesan Facebook
Mekanisme dari efek konten pada keterlibatan konsumen, hasil kami berbicara dengan
perilaku konsumen dan
tidak Facebook algoritma filtering, sehingga meningkatkan validitas eksternal hasil
kami untuk alam luar
Facebook Pages dan 2) kami juga mampu memprediksi pesan akhirnya akan
menjangkau pengguna di samping
seleksi menyerahkan, yang memiliki nilai manajerial tambahan bagi pengiklan
mencari jangkauan yang lebih tinggi.
Gambar 9:

Kesan-Engagement Saluran: Facebook EdgeRank memilih subset dari penggemar


Halaman untuk menampilkan pesan dirilis
dengan halaman dan fans yang telah melihat pesan terlibat dengan pesan berdasarkan
konten dan jenis. EdgeRank dimodelkan
dengan model semi-parametrik (umum model aditif) dan keterlibatan akhir
diperkirakan melalui logistik agregat
regresi. Rincian dari estimasi berada di Bagian 3.1 dan 3.2.
3.1 Pertama-tahap: Tugas mendekati EdgeRank ini
Kami mewakili jenis pesan k dalam sebuah z vektor
k
, Waktu sejak pesan k dirilis di
k
, Dan sejarah
pengguna i keterlibatan masa lalu dengan perusahaan j di Facebook dalam h vektor
IJT
. Tabel 4 merangkum notasi.
Untuk memahami prosedur kami, biarkan n
(d)
KJT
menunjukkan jumlah pengguna jenis demografi d = 1, .., D yang
menunjukkan pesan k oleh perusahaan j pada waktu t. Kami mengacu n
(d)
KJT
sebagai tayangan. Kami mengamati n
KJT
langsung, dan n
(d)
KJT
secara tidak langsung dilaporkan dalam data dan dapat reverse-engineered dari
laporan Perusahaan X. Sebuah deskripsi
Prosedur ini disediakan dalam lampiran. biarkan N
(d)
jt
menunjukkan jumlah total pengguna jenis demografi d untuk
perusahaan j pada hari t kepada siapa pesan secara potensial dapat disampaikan. N
(d)
jt
langsung diamati dalam data, dan
terdiri dari semua pengguna demografi d yang telah Menyukai perusahaan di
Facebook. Untuk menjadi jelas, perhatikan Menyukai bahwa
pesan berbeda dari Menyukai halaman

Menyukai halaman memberikan perusahaan yang menyatakan bahwa halaman sebuah


kesempatan untuk melayani pesan untuk pengguna melalui Facebook Newsfeed. N
(d)
jt
adalah jumlah semua pengguna tersebut.
Jika posting secara acak disajikan kepada pengguna dengan Facebook, maka distribusi
demografis n
(d)
KJT
akan
20
halaman 21

identik dengan distribusi N


(d)
jt
. Perbedaannya adalah karena EdgeRank. Sekarang, perhatikan bahwa dengan
EdgeRank ini
aturan tugas, tayangan agregat untuk jenis demografi d, n
(d)
KJT
, Adalah (tidak diketahui) fungsi likedpenggemar N
(d)
jt
, Kekuatan ikatan antara pengguna dalam demografi ember d dan perusahaan posting,
h
(d)
IJT
, tipe
pesan z
k
, Dan waktu sejak rilis pesan
k
.
E (n
(d)
KJT
) = G (N
(d)
jt

,h
(d)
IJT
,z
k
,
k
)
(1)
Kami tidak mengamati data individu-tingkat pada setiap pengguna i
0
s interaksi dengan setiap pesan yang bisa
dasar memperkirakan Persamaan (1). Sebaliknya, kita dapat membangun jumlah
gabungan tayangan dan
menyukai-fans dalam satu set ember demografi dalam data. Untuk menggunakan
variasi ini sebagai sumber yang mendekati
EdgeRank, kita mendekati RHS dari Persamaan (1) sebagai,
E (n
(d)
KJT
) tg
d
(N
(d)
jt
,
(d)
1j
,z
k
,
k
)
(2)
mana, kita menggunakan bin efek tetap spesifik perusahaan-demografi,
(d)
1j
, Untuk menangkap efek dari sejarah pengguna. Ini
pendekatan akan benar benar jika semua individu dalam demografi ember d memiliki
sejarah yang sama

dengan perusahaan j. Dalam prakteknya, hal ini tidak terjadi, dan ini dapat
menyebabkan kesalahan pendekatan ke prosedur,
karena tambahan sejarah-heterogenitas dalam ember demografis tidak dimodelkan
(atau diasumsikan ke dalam
jangka error). Ini adalah peringatan untuk analisis kami. Akses ke data tingkat
individu bisa menjadi dasar untuk meningkatkan
prosedur ini dan santai asumsi ini. Kami melihat Persamaan (2) sebagai pendekatan
yang fleksibel yang memungkinkan
kita untuk memanfaatkan variasi diamati dalam tayangan tingkat perusahaan di
seluruh demografi, sementara memungkinkan kita untuk
termasuk efek tegas dan demografi tingkat tetap menjadi prosedur yang paling
mendekati EdgeRank berdasarkan
pada apa yang kita sebagai peneliti (dan perusahaan) tahu tentang algoritma filtering
Facebook. Kami juga akan memperkirakan
Fungsi-kanan g
d
(.) Secara terpisah untuk setiap ember demografis, berlaku memungkinkan untuk
kemiringan heterogenitas
demografi selain untuk mencegat heterogenitas di demografi.
Langkah selanjutnya berkaitan dengan mendekati fungsi g
d
(.). Karena kita tidak tahu bentuk fungsional yang tepat
catatan
Deskripsi
saya
pemakai
j
Perusahaan
k
pesan
t
Waktu (hari)
z
k
Pesan k ini jenis media (5 pilihan: foto, video, pembaruan status, aplikasi, link)

k
Waktu sejak pesan k dirilis
h
IJT
Sejarah pengguna i adalah keterlibatan masa lalu dengan perusahaan j

g (.)
EdgeRank skor yang mendekati fungsi
n
(d)
KJT
Tayangan pesan k oleh Halaman j pada waktu t oleh pengguna di demografi bin d
N
(d)
jt
Jumlah pengguna demografi bin d yang Disukai halaman j pada waktu t

(d)
0
Istilah Intercept untuk setiap demografi d

(d)
.
Parameter dalam EdgeRank pendekatan untuk demografi bin d
Tabel 4: User-level Pengaturan Notasi
21
halaman 22

dari persamaan pilihan di atas, kita mendekati fungsi semi-parametrically melalui


Generalized Additive
Model (GAM) (cf, Hastie dan Tibshirani (1990)). GAM adalah model linear umum
dengan aditif
prediktor yang terdiri dari merapikan (misalnya interpolasi dan curve fitting)
kovariat. Ini memberikan peningkatan
fleksibilitas dalam mendekati fungsi yang tidak diketahui, g
d
(.). GAM cocok hubungan fleksibel berikut
antara satu set kovariat X dan variabel dependen Y,
(E (Y | X
1
,X
2
, ..., X
p
)) = + s
1
(X
1

)+S
2
(X
2
) + ... + S
p
(X
p
)
di mana adalah fungsi link (misalnya gaussian, poisson, gamma), dan s
1
,s
2
... S
p
adalah smoothing nonparametrik
fungsi seperti splines kubik atau smoothers kernel. Kita model persamaan pilihan
EdgeRank untuk setiap
demografi d sebagai berikut,
h
d
hlog (n
(d)
KJT
+ 1) i =
(d)
0
+
(d)
1j
+
(d)
2
N
(d)
jt
+s
1
(N
(d)
jt

;
(d)
3
)+
5
X
r=2

(d)
4r
I (z
k
= R)
(3)
+
16
X
r=2

(d)
5r
Saya (
k
= R) +
(d)
KJT
mana, h
d
g
1
d
(.) Adalah identitas fungsi link (Gaussian),
(d)
0
adalah istilah intercept unik untuk setiap demographic, d, dan
(d)
1j
adalah efek tetap perusahaan-demografis yang menangkap kekuatan dasi antara
perusahaan j
dan demografi d.
10

N
(d)
jt
adalah jumlah penggemar d demografis untuk perusahaan j pada waktu t dan
menunjukkan
Potensi penonton untuk pesan. s
1
adalah fungsi spline smoothing kubik, pada dasarnya piecewise-didefinisikan
Fungsi yang terdiri dari banyak polinomial kubik bergabung bersama secara berkala
dari domain seperti yang
kurva pas, turunan pertama dan kedua yang berkesinambungan. Kami mewakili fungsi
interpolasi
s
1
(.) Sebagai kombinasi linear dari satu set fungsi dasar b dan write (.): S
1
(N
(d)
jt
;
(d)
3
)=P
q
r=3
b
r
N
(d)
jt

(d)
3r
.
di mana b
r
(.) Adalah seperangkat fungsi dasar dari dimensi q untuk dipilih dan
(d)
3.
adalah seperangkat parameter

untuk diperkirakan. Kami mengikuti metode standar untuk menghasilkan fungsi dasar,
b
r
(.), Untuk spline kubik
interpolasi sebagaimana didefinisikan dalam Wood (2006). Pas spline juga
memerlukan memilih parameter smoothing,
yang kita selaras via umum lintas validasi. Kami cocok untuk semua model melalui
mgcv paket R dijelaskan di Kayu
(2006).
Akhirnya, kami menyertakan variabel dummy untuk pesan-jenis (z
k
) Dan untuk setiap hari sejak rilis dari pesan
(
k
; hingga 16 hari), untuk menangkap efek dari pesan-jenis dan waktu-sejak-release
semi-parametrically. Ini
yang diizinkan untuk d tertentu. Kami mengumpulkan set parameter yang akan
diestimasi untuk setiap kotak demografi
di vektor,
(d)
.
, Yang kami perkirakan oleh estimasi GAM. Diperkirakan vektor parameter,
denoted The
(d)
.
,D=
1, .., D, berfungsi sebagai masukan untuk tahap kedua dari prosedur estimasi.
10
Kami juga mencoba Poisson dan fungsi tautan Binomial Negatif (karena n
(d)
KJT
adalah variabel count), serta link identitas
Fungsi tanpa log y-variabel. Di spesifikasi ini, kami menemukan fungsi link identitas
dengan log (y) menghasilkan
di cocok, mungkin karena banyak outlier. Kami juga dianggap spesifikasi dengan
berbagai interaksi kovariat
termasuk, tetapi menemukan mereka baik tidak signifikan atau disediakan keuntungan
sepele di R
2
. Terakhir, menghapus keragaman ekstrim
tidak mengubah hasil secara kualitatif.

22
halaman 23

3.2 Kedua tahap: Modeling Engagement Mengingat Pesan Assignment


Kami mengoperasionalkan keterlibatan melalui dua tindakan, Suka dan komentar
pada pesan. Masalah seleksi
adalah bahwa pengguna dapat memilih untuk suka atau mengomentari pesan tayangan
hanya jika mereka dilayani, yang
menghasilkan sensor non-acak karena kesan penugasan adalah endogen dengan
tindakan. Kami menangani
yang sensor oleh termasuk koreksi untuk fakta bahwa pengguna akan ditampilkan
pesan non-acak, diperkirakan
semi-parametrically seperti di atas. Seharusnya
(d)
KJT
menunjukkan estimasi dipasang dari tahap pertama dari yang diharapkan
jumlah tayangan pesan k untuk perusahaan j di antara pengguna tipe d saat
t,
(d)
KJT
=g
d
N
(d)
jt
,z
k
,
k
;
(d)

(4)
Kita model probabilitas bahwa pengguna tipe-d akan suka pesan yang diberikan set
lengkap karakteristik pesan,
M
kt
, Seperti logistik dengan parameter = (
d
,)
d = 1..D

d
(M
kt
; ) =
1
1+e
(
d
+M
kt
)
(5)
Vektor parameter, , adalah objek inferensi di tahap kedua.
11
Kami akan memperkirakan oleh pas model untuk menjelaskan Q
KJT
, Jumlah diamati Suka pesan di
setiap periode dalam data. Untuk melihat intuisi untuk bagaimana koreksi kami
bekerja dalam estimasi, diketahui bahwa kami
dapat agregat Persamaan (5) seluruh pengguna, sehingga jumlah yang diharapkan dari
Suka adalah,
E (Q
KJT
; ) t
D
X
d=1
(d)
KJT

1
1+e
(
d
+M
kt
)
(6)
dengan

(d)
KJT
diperlakukan sebagai diketahui dari tahap pertama (Persamaan 4). Sisi kanan adalah
jumlah tertimbang
probabilitas logit dari Menyukai pesan. Secara intuitif, keputusan untuk Seperti pesan
diamati oleh
Peneliti hanya untuk subset dari pengguna yang endogen ditugaskan kesan oleh
FB. seleksi
fungsi
(d)
KJT
berfungsi sebagai bobot yang reweigh probabilitas Menyukai ke account untuk fakta
bahwa para pengguna
yang endogen sampel, sehingga mengoreksi sifat non-acak pesan tugas saat
memperkirakan persamaan hasil.
Kita bisa menggunakan harapan dalam Persamaan (6) sebagai dasar dari persamaan
estimasi. Sebaliknya, untuk efisiensi,
kami memperkirakan vektor parameter oleh kemungkinan maksimum. Untuk
mengatur kemungkinan, perhatikan diharapkan
jumlah tayangan pesan k untuk perusahaan j pada waktu t di semua ember demografi
hanya jumlah,
KJT
=
D
X
d=1
g
d
N
(d)
jt
,z
k
,
k
;

(d)

(7)

Kita bisa mendapatkan perkiraan probabilitas tersirat bahwa kesan dipilih secara acak
dari kolam renang
11
membiarkan
menjadi d-tertentu serta dalam Persamaan (5) secara konseptual langsung. Sayangnya,
hasil ini dalam parameter
proliferasi dan masalah dengan konvergensi; maka kami menetap untuk spesifikasi
yang lebih terbatas dengan d-spesifik penyadapan.
23
halaman 24

jenis-d,%
DKT
=
(d)
KJT
KJT
(8)
Dengan demikian, probabilitas (M
kt
; ) bahwa tayangan dipilih secara acak dari kolam renang akan suka pesan
diberi menebak dari , adalah,
(M
kt
; ) =
D
X
d=1
P
kt
(D)
P
kt
(Seperti | d) =
D
X
d=1
%
DKT

(M
kt
; )
(9)
Secara intuitif, dengan probabilitas P
kt
(D) =%
DKT
kesan adalah tipe-d, dan dengan probabilitas P (Seperti
| D) =

d
(M
kt
; ), kesan akan suka pesan bersyarat untuk menjadi tipe-d; maka prob- tanpa syarat
Kemampuan kesan acak akan suka pesan adalah jumlah-produk marginal ini dan
conditional
di semua jenis D.
Jumlah Suka adalah variabel count yang kami tentukan kemungkinan Binomial. Oleh
karena itu,
probabilitas bahwa Q
KJT
diluar
KJT
tayangan ditugaskan diamati Seperti pesan, dan bahwa
KJT
Q
KJT
dari tayangan yang tersisa diamati tidak, adalah binomial dengan probabilitas, (M
kt
; ),
Q
KJT

Binomium(
KJT
, (M
kt
; ))
(10)
Memaksimalkan kemungkinan binomial tersirat di semua data, mengobati

KJT
seperti yang diberikan, kemudian memberikan perkiraan
dari . Intuisi untuk koreksi seleksi di sini adalah sama seperti yang dirumuskan
dalam Persamaan (6). Kita
dapat mengulangi prosedur yang sama dengan menggunakan jumlah komentar pada
pesan sebagai variabel dependen
sehingga memulihkan efek pesan-karakteristik dari komentar juga. prosedur dua
langkah ini sehingga
memberikan perkiraan dampak pesan-karakteristik dari dua hasil yang
menarik. kesalahan standar
diperoleh dengan bootstrap kedua langkah 1 dan 2 di atas seluruh dataset.
Diskusi Pendekatan kami telah diuraikan di atas pada dasarnya menggunakan
pendekatan EdgeRank sebagai con- a
Fungsi trol (Heckman dan Robb (1986)) yang mengoreksi selektivitas dalam tahap
kedua, di mana kita
mengukur pengaruh karakteristik pesan pada hasil. Secara intuitif, kita
mengeksploitasi perbedaan diamati
dalam distribusi demografis antara set individu kepada siapa pesan bisa telah bertugas,
N
(d)
jt
.
dibandingkan mereka yang benar-benar melayani, n
(d)
KJT
. perbedaan tersebut mencerminkan penyaringan oleh EdgeRank. kami pertama
tahap dasarnya proyek perbedaan ini ke pesan-jenis, waktu-sejak-release, halaman dan
char- demografi
acteristics dengan cara yang fleksibel. fungsi kontrol kami bergantung pada
pengetahuan parsial aturan tugas / seleksi,
dan mengembangkan model bagaimana tugas non-acak posting untuk pengguna
diimplementasikan pada platform.
Jika kita tahu EdgeRank sempurna, ini akan menjadi efisien (dan disukai) solusi untuk
masalah pilihan.
Karena kita tahu EdgeRank hanya sebagian, kita khawatir tentang kesalahan
spesifikasi dari fungsi kontrol. Itu
fleksibel semi-parametrik tahap pertama bersama dengan dimasukkannya efek khusus
halaman-demografi tetap mollifies kekhawatiran tentang bias dari kesalahan spesifikasi ini. Kami juga mencoba
beberapa spesifikasi alternatif yang berbeda
24

halaman 25

dengan fungsi link yang berbeda (termasuk linear, poisson dan binomial negatif)
memperoleh kualitatif serupa
hasil, tapi cocok rendah sesuai dengan spesifikasi kami pilihan. Di bawah ini kami
juga menunjukkan bahwa hasil
kita peroleh dari perkiraan EdgeRank melewati beberapa pemeriksaan kewarasan
seperti waktu-sejak-posting memiliki
efek negatif pada probabilitas pos dilayani oleh EdgeRank, dan fakta bahwa waktukoefisien
monoton penurunan sebagai waktu-sejak-rilis pasca kenaikan seperti yang dilaporkan
dalam beberapa penelitian industri dari
comScore / Wildfire. Demografis-halaman efek tetap, yang sesuai dengan demografishalaman "affinity "tingkat, juga bertepatan dengan pola yang diharapkan (misalnya, bin demografis
yang memiliki afinitas tertinggi dengan
halaman pakaian bayi baru lahir adalah salah satu yang sesuai dengan laki-laki dan
perempuan 25-34, tidak ada efek signifikan bagi
demografi yang lebih tua
dibahas di bawah). Meskipun aspek-aspek tersebut, untuk yang terbaik dari
pengetahuan kita,
rincian lengkap dari EdgeRank tidak diketahui setiap perusahaan atau peneliti. Dalam
pandangan kami, "sempurna" solusi untuk
Masalah seleksi tidak mungkin dicapai tanpa pengetahuan penuh aturan penargetan
Facebook. Untuk approaches yang memiliki rasa yang sama, silakan lihat Manchanda et al. (2004); Nair et
al. (2013) dalam konteks
pemasaran yang ditargetkan; Ellickson dan Misra (2010) dalam konteks koreksi
selektivitas dalam sebuah game entri; dan
khususnya, Ahn dan Powell (1993) untuk pendekatan fungsi kontrol setengah /
nonparametrik.
4 Hasil
4.1 Pertama-Tahap
Model tahap pertama, sebagaimana ditentukan dalam persamaan 3, mendekati
algoritma pesan tugas EdgeRank ini.
Kami menjalankan model terpisah untuk masing-masing 14 tempat sampah usia-jenis
kelamin yang digunakan oleh Facebook. Ini sesuai dengan dua
gender dan tujuh sampah usia. Untuk bin diberikan, model berkaitan jumlah pengguna
jenis demografi d yang
menunjukkan pesan k oleh perusahaan j pada waktu t untuk jenis pesan (z
k

), Hari sejak pesan (), dan dasi antara


perusahaan dan pengguna. Tabel 5 menyajikan hasil. Penyadapan (
(d)
0
) Menunjukkan bahwa pesan dari perusahaan
dalam dataset kami diperlihatkan paling sering untuk Wanita usia 35-44 tahun, Wanita
45-54, dan Pria 25-34. Paling rendah
jumlah tayangan yang untuk kelompok usia 65+. Dalam model kami, dasi antara
pengguna dan perusahaan yang diproksikan dengan
tetap-efek untuk setiap pasangan perusahaan-demografis. Ini berarti 800

14 efek tetap sesuai dengan 800 perusahaan


dan 14 sampah demografi. Karena keterbatasan ruang, kita tidak menyajikan semua
koefisien estimasi tersebut. Meja
5 menyajikan koefisien untuk dua perusahaan yang dipilih secara acak. Yang pertama
adalah merek pakaian baru lahir dan
kedua adalah merek protein bar. Untuk memudahkan visualisasi, efek tetap ini
ditunjukkan secara grafik pada Gambar
10 (hanya koefisien signifikan secara statistik diplot). Untuk pesan dengan pakaian
baru lahir
merek, paling tayangan di antara perempuan di kelompok usia 25-34 tahun, 18-24,
dan 35-44. Antara laki-laki,
usia 25-34 menerima paling banyak tayangan. Untuk pesan dengan protein bar merek,
tayangan
lebih merata di seluruh sampah demografis yang berbeda, dengan 18-24 kelompok
laki menerima paling
tayangan. Ini diperkirakan koefisien konsisten dengan harapan kami untuk dua merek.
Perkiraan untuk jenis pesan yang kira-kira sama di semua tempat sampah
demografi. Untuk semua demografi,
jenis foto memiliki koefisien tertinggi (sekitar 0,25) menunjukkan bahwa foto lebih
disukai untuk semua lainnya
25
halaman 26

jenis media oleh EdgeRank. Hal ini mungkin karena pengguna secara historis terlibat
baik dengan foto menyebabkan
Facebook untuk menampilkan foto lebih sering. Jenis pesan yang paling disukai
berikutnya adalah status update dengan
koefisien rata-rata sekitar 0,12 diikuti oleh video dan link. Jenis pesan dasar, aplikasi,
adalah

Jenis pesan yang paling disukai oleh EdgeRank. Pangkat pemesanan koefisien untuk
jenis pesan lakukan
tidak ketat mengikuti urutan ranking jumlah pesan yang dirilis oleh perusahaan, yang
ditunjukkan pada Tabel
2. Bahwa link yang diposting lebih sering, Foto mendapatkan lebih banyak tayangan
relatif terhadap pesan dari jenis lain,
jelas menyoroti peran EdgeRank. Hari sejak pesan () tidak disajikan dalam Tabel 5
karena
kendala ruang. Namun, Gambar 11 menyajikan kotak plot koefisien untuk di
semua 14 demografi
sampah. Semua koefisien negatif dan signifikan dan juga lebih negatif untuk nilai
yang lebih tinggi dari , menyiratkan
yang EdgeRank lebih memilih untuk menampilkan pesan yang lebih baru. Akhirnya,
koefisien untuk jumlah fans,
N
(d)
jt
.
positif dan signifikan tetapi mereka memiliki magnitude yang relatif rendah. Hal ini
karena model kami mencakup
jangka merapikan dari jumlah fans,
s (N
(d)
jt
)
, Yang menyerap baik besarnya dan non-linear. Itu
merapikan fan-angka semua signifikan.
Wanita
F 13-17
F 18-24
F 25-34
F 35-44
F 45-54
F 55-64
F 65+
Mencegat
5,528 ***
6,071 ***
6,446 ***
7,165 ***
7,209 ***

6,133 ***
4,887 ***
Halaman 1 fixed effect - baru
merek pakaian lahir
-0,210
2,458 ***
2,685 ***
1,544 **
0,888
0,813
0,489
Halaman 2 efek tetap protein bar merek
-0,573 ***
1,285 ***
1,466 ***
0,928 ***
0,016
1,671 ***
1,518 ***
Jenis pesan - App adalah dasar
Link
0.010
0,045 ***
0,063 ***
0,042 ***
0.051 ***
0.051 ***
0.048 ***
Foto
0,253 ***
0,318 ***
0.340 ***
0,309 ***
0.297 ***
0,267 ***
0,249 ***
Update Status
0.100 ***
0,161 ***
0,175 ***

0,152 ***
0,152 ***
0,129 ***
0,114 ***
Video
0,033
0,041
0,061 **
0,041
0,021
0.024
0.030
N
(d)
jt
(Fan Number)
2.0
10
6
***
1,8
10
6
***
7.2
10
6
***
1,9
10
5
***
1,9
10
5
***
3.8
10
5
***
8,5

10
5
***
s (N
(d)
jt
) signifikansi
***
***
***
***
***
***
***
R-Squared
0.78
0.78
0.77
0.78
0.78
0.78
0.77
Pria
M 13-17
M 18-24
M 25-34
M 35-44
M 45-54
M 55-64
M 65+
Mencegat
5,486 ***
6,118 ***
7,075 ***
6,635 ***
6,125 ***
5,151 ***
4,011 ***
Halaman 1 fixed effect - baru
merek pakaian lahir
0,156

0,932
1,673 **
1,082
0,722
0,209
0.111
Halaman 2 efek tetap protein bar merek
1,867 ***
2,423 ***
0,907 ***
0.670 ***
1,158 ***
1.575 ***
1,502 ***
Jenis pesan - App adalah dasar
Link
-0,005
0,025 ***
0,033 ***
0.034 ***
0038 ***
0.049 ***
0.030 ***
Foto
0,226 ***
0.284 ***
0,295 ***
0,277 ***
0,254 ***
0.230 ***
0,212 ***
Update Status
0.077 ***
0,124 ***
0,126 ***
0.120 ***
0,106 ***
0,103 ***
0,084 ***
Video

0.014
0.039
0,044 *
0.031
0,016
0.007
0.023
N
(d)
jt
(Fan Number)
3.6
10
6
***
1.0
10
6
***
6.7
10
6
***
2,5
10
5
***
3.8
10
5
***
5.2
10
5
***
2.3
10
4
***
s (N
(d)

jt
) signifikansi
***
***
***
***
***
***
***
R-Squared
0.79
0.80
0.79
0.78
0.78
0.77
0.76
* App adalah dasar untuk jenis pesan. Signifikansi Tingkat: '***' <0,001 '**' <0,01 '*'
0,05
Tabel 5:
EdgeRank Model Perkiraan: Tabel ini menyajikan koefisien yang diperoleh dari 14
model aditif umum
untuk EdgeRank, dihitung untuk setiap bin demografis. Ada 14 demografi (jenis
kelamin usia) sampah yang disediakan oleh Facebook. F13-17
berarti semua perempuan di usia antara 13 dan 17. Waktu sejak pesan (), dan efek
tetap page-level yang tidak termasuk dalam
meja dan disajikan secara grafis secara terpisah.
26
halaman 27

Model aditif umum dari EdgeRank pulih koefisien yang masuk akal intuitif dan
konsisten dengan klaim yang dibuat dalam beberapa laporan industri (misalnya bahwa
foto memiliki berat badan EdgeRank tertinggi).
Selanjutnya, model fit tampaknya menjadi baik terutama mengingat bahwa kita telah
menggunakan umum cross-validasi untuk
waspada terhadap overfitting.
0
1
2
perempuan 13
-

17
perempuan 18
24
perempuan 25
34
perempuan 35
44
perempuan 45
54
perempuan 55
64
65+ perempuan
laki-laki 13
17
laki-laki 18
24
laki-laki 25
34
laki-laki 35
44
laki-laki 45
54
laki-laki 55
64
65+ laki-laki
P
usia
le
v

el fix
ed
eff
ect dari GAM
New Born Pakaian Merek
Protein Bar Merek
Halaman-tingkat perkiraan fixed-efek dari GAM
di 14 tempat sampah demografis
Gambar 10:
Halaman-tingkat Estimasi efek tetap dari Generalized Additive Model Across 14 Bins
Demografis:
grafik batang ini menunjukkan dua dipilih secara acak halaman-tingkat perkiraan efek
tetap dari model EdgeRank. Hanya statistik
estimasi signifikan yang akan ditampilkan. Baru merek pakaian lahir yang positif
signifikan selama 18-24 perempuan, 25-34 perempuan, 35-44 perempuan,
dan 25-34 laki-laki. Protein bar merek memiliki efek tetap tertinggi di antara 18-24
demografi laki-laki.
-6
-5
-4
-3
-2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Tau
Koefisien T
aus dari Edger

Model ank
Tau (kalinya sejak pasca rilis) Koefisien dari Edgerank Model (GAM)
Gambar 11:
Waktu Sejak pesan Release () Koefisien Box Plot Across Demografi: box plot ini
menunjukkan
Koefisien pada di semua bin demografi. = 1 adalah kasus dasar dan setiap
koefisien yang signifikan pada tingkat tertinggi
dari p <0,001.
4.2 Kedua-Tahap
Pada tahap kedua, kita mengukur pengaruh karakteristik konten pada keterlibatan
menggunakan selectivity- kami
Model dikoreksi dari tahap pertama. Semua hasil dalam bagian ini didasarkan pada
analisis dari seluruh rangkaian
lebih dari 100.000 pesan (yaitu pesan 5.000 AMT-tagged serta pesan ditandai
menggunakan NLP). Itu
hasil untuk hanya 5.000 pesan AMT-tagged secara kualitatif serupa dan disajikan
dalam lampiran.
Untuk menyajikan hasil dengan cara yang sederhana, pertama kita membuat dua
variabel Ringkasan komposit sesuai dengan
merek konten terkait kepribadian dan konten secara langsung informatif. Merek
variabel yang berhubungan dengan kepribadian
diperoleh dengan menambahkan nilai-nilai REMFACT, EMOSI, emoticon,
HOLIDAYMENTION, HUMOR,
Filantropis, FRIENDLIKELY, dan Smalltalk menghasilkan variabel komposit mulai
dari
27
halaman 28

0 8. variabel komposit langsung informatif diperoleh dengan menambahkan nilai-nilai


BRANDMENTION,
DEAL, PRICECOMPARE, HARGA, TARGET, PRODAVAIL, PRODLOCATION,
dan PRODMENTION
menghasilkan variabel komposit mulai dari 0 sampai 8. Tabel 6 menunjukkan hasil
regresi logistik pada
keterlibatan dengan variabel-variabel komposit dan interaksi dari kedua variabel
sebagai xs.
Kami menemukan bahwa masuknya lebih merek konten terkait kepribadian memiliki
positif dan secara statistik signifEfek icant pada kedua jenis keterlibatan; lanjut, masuknya lebih banyak konten secara
langsung informatif mengurangi

pertunangan. Menariknya, interaksi antara kepribadian merek-terkait dan langsung


informatif contenda positif, yang menyiratkan bahwa konten langsung informatif meningkatkan
keterlibatan dengan adanya merek
konten terkait kepribadian dalam pesan. Apa yang bisa menjelaskan pola hasil? Salah
satu alasan yang mungkin
mengapa keterlibatan menurun konten meningkat secara langsung informatif adalah
bahwa terlalu banyak konten informatif
sekaligus dapat ditafsirkan sebagai penjualan langsung, yang merusak pengalaman
mengkonsumsi platform,
analog dengan cara iklan umumnya manja pengalaman menonton TV. Alasan lain
mungkin
putuskan bahwa konten tersebut menghasilkan dengan bingkai pengguna dari pikiran
ketika masuk ke Facebook. Untuk
Misalnya, mungkin menggelegar untuk dilayani iklan tentang diskon, harga rendah
dan jual ketika pengguna log ke
platform untuk interaksi sosial dan untuk memeriksa update dari teman dan
keluarga. Alasan lain yang mungkin adalah
bahwa pengguna tidak terlibat secara publik - melalui Suka terlihat, Komentar dan
Saham-dengan langsung informasi yang
konten tive tapi merespon dengan mengklik pada posting informatif yang relevan
dengan mengklik link dan mengunjungi
website. Ini mungkin lagi disebabkan disconnect antara konten secara langsung
informatif dan sisanya
dari konten sosial di Facebook. Ini hanyalah dugaan. Menyelidiki mekanisme
bawahan
adalah di luar lingkup dari data saat ini; Namun demikian, tanda efeknya kuat di
spesifikasi.
Akhirnya, meningkatkan keterlibatan yang terkait dengan merek konten terkait
kepribadian mungkin didorong oleh
kongruensi kepribadian merek dengan kepribadian konsumen sendiri dan karena
manfaat dari merek
menjadi lebih persuasif ketika diungkapkan oleh kepribadian merek, seperti yang
disarankan dalam pendahuluan. Seperti itu
konten tampaknya untuk membantu perusahaan dalam membangun hubungan dan
untuk membujuk konsumen untuk terlibat dengan merek mereka
melalui hubungan tersebut.
Variabel
Komentar
Seperti
Konstan

-6,913 *** (0,002)


-4,671 *** (0,001)
Kepribadian merek terkait
0,053 *** (0,001)
0,061 *** (0,000)
langsung informatif
-0,143 *** (0,001)
-0,068 *** (0,000)
Kepribadian merek terkait Langsung informatif
0,012 *** (0,000)
0,003 *** (0,000)
McFadden R-sq.
0,015
0,009
Nagelkerke R-sq.
0,015
0,009
Log-kemungkinan
-4.208.220,431
-33.678.695,014
Deviance
8012471.987
66409947.187
AIC
8416448.861
67357398.028
N
665.916
665.916
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 6:
Kepribadian merek terkait vs Langsung informatif: regresi logistik untuk {Komentar,
Seperti} dengan komposit
variabel ringkasan untuk kepribadian merek-terkait dan langsung informatif konten.
28
halaman 29

Tabel 7 menyajikan hasil regresi logistik agregat dengan daftar lengkap dari variabel
konten. Kita
Hasil ini untuk kedua metrik keterlibatan (Suka / komentar) serta untuk model dengan
dan tanpa

koreksi EdgeRank. Kami mengecualikan 16 diperkirakan koefisien dari meja


karena mereka semua negatif
dan signifikan secara statistik seperti dalam model EdgeRank pada Gambar 11. Kami
juga mengecualikan demografis tetap
efek untuk ruang.
NO ER Komentar
ATAU
ER komentar
ATAU
NO ER seperti
ATAU
ER seperti
ATAU
Konstan
12,309 *** (0,197)
14,083 *** (0,142)
-7,383 *** (0,089)
13,504 *** (0,065)
ASBUT
-0,045 *** (0,000)
0,956
-0,066 *** (0,000)
0.936 -0,029 *** (0,000)
0,971 -0,057 *** (0,000)
0,945
MSGLEN
0.000 (0,000)
1.000
-0,000 *** (0,000)
1.000 -0,000 *** (0,000)
1.000 -0,000 *** (0,000)
1.000
HTTP
-0,484 *** (0,002)
0,616
-0,324 *** (0,002)
0,723 -0,353 *** (0,000)
0,703 -0,180 *** (0,000)
0,835
PERTANYAAN
0,449 *** (0,001)

1,567
0,527 *** (0,001)
1,694 -0,292 *** (0,000)
0,747 -0,185 *** (0,000)
0,831
KOSONG
0,942 *** (0,003)
2,565
1,099 *** (0,003)
3,001 -0,716 *** (0,002)
0,489 -0,625 *** (0,002)
0,535
ASKLIKE
0,002 (0,010)
1,002
0,178 *** (0.010)
1,195 0,456 *** (0,003)
1,578 0,501 *** (0,003)
1.650
ASKCOMMENT
0,779 *** (0,021)
2,179
0,710 *** (0,021)
2,034 -0,090 *** (0,011)
0,914 -0,282 *** (0,011)
0,754
Kepribadian merek terkait
REMFACT
-0,019 *** (0,002)
0,981
0.010 *** (0,002)
1.010 -0,060 *** (0,001)
0,942 -0,035 *** (0,001)
0.966
EMOSI
0,203 *** (0,002)
1,225
0,257 *** (0,002)
1,293 0,201 *** (0,001)
1,223 0,257 *** (0,001)
1,293

emoticon
0,118 *** (0,004)
1,125
-0,053 *** (0,004)
0,948 -0,132 *** (0,001)
0,876 -0,214 *** (0,001)
0,807
HOLIDAYMENTION
-0,493 *** (0.014)
0,611
-0,352 *** (0.014)
0,703 -0,323 *** (0,004)
0,724 -0,136 *** (0,004)
0,873
HUMOR
0,023 *** (0,002)
1,023
0,082 *** (0,002)
1,085 -0,044 *** (0,000)
0,957 0,012 *** (0,000)
1,012
DERMAWAN
0.147 *** (0,002)
1,158
0.140 *** (0,002)
1.150 0,008 *** (0,001)
1.008
0.001 (0,001)
1,001
FRIENDLIKELY
0,002 (0,002)
1,002
-0,022 *** (0,002)
0,978 0,073 *** (0,001)
1,076 0,058 *** (0,001)
1.060
Smalltalk
0,045 *** (0,002)
1,046
-0,074 *** (0,002)
0.929 -0,052 *** (0,001)

0,949 -0,121 *** (0,001)


0,886
langsung informatif
BRANDMENTION
0.000 (0,002)
1.000
0.077 *** (0,002)
1.080 -0,031 *** (0,000)
0,969 0,004 *** (0,000)
1,004
BERURUSAN
-0,163 *** (0,002)
0.850
-0,168 *** (0,002)
0,845 -0,198 *** (0,001)
0.820 -0,200 *** (0,001)
0,819
PRICECOMPARE
-0,031 *** (0,001)
0,969
0,005 *** (0,001)
1,005 -0,037 *** (0,000)
0,964 -0,040 *** (0,000)
0,961
HARGA
-0,104 *** (0,005)
0,901
-0,319 *** (0,005)
0,727 -0,187 *** (0,001)
0,829 -0,400 *** (0,001)
0.670
TARGET
-0,016 *** (0,002)
0,984
-0,073 *** (0,002)
0,930 0,030 *** (0,001)
1.030 -0,041 *** (0,001)
0,960
PRODAVAIL
-0,067 *** (0,002)
0,935

-0,060 *** (0,002)


0,942 -0,109 *** (0,001)
0,897 -0,065 *** (0,001)
0,937
PRODLOCATION
-0,054 *** (0,002)
0,947
0,009 *** (0,002)
1,009 0,063 *** (0,001)
1,065 0,107 *** (0,001)
1,113
PRODMENTION
-0,050 *** (0,002)
0,951
-0,148 *** (0,002)
0,862 0,077 *** (0,001)
1.080 -0,007 *** (0,001)
0,993
Jenis pesan - App adalah dasar
-Link
0,177 *** (0,003)
1,194
-0,238 *** (0,003)
0,788 0,126 *** (0,001)
1,134 -0,374 *** (0,001)
0,688
-Foto
0,867 *** (0,003)
2,380
0,519 *** (0,003)
1.680 1,011 *** (0,001)
2,748 0,651 *** (0,001)
1,917
-Status Perbarui
1,146 *** (0,003)
3,146
0,818 *** (0,003)
2,266 0,478 *** (0,001)
1,613 0,060 *** (0,001)
1,062
-Video

-0,106 *** (0,009)


0,899
0,466 *** (0,009)
1,594 -0,200 *** (0,003)
0,819 0,341 *** (0,003)
1,406
Industri Kategori - Selebriti adalah dasar
-Produk konsumen
0,171 *** (0,002)
1,186
-0,319 *** (0,002)
0,727 -0,369 *** (0,001)
0,691 -0,813 *** (0,001)
0.444
-Hiburan
0.362 *** (0,002)
1,436
0,418 *** (0,002)
1,519 -0,291 *** (0,001)
0,748 -0,256 *** (0,001)
0,774
-Organisasi
0.485 *** (0,002)
1,624
0,281 *** (0,002)
1,324 -0,004 *** (0,001)
0.996 -0,212 *** (0,001)
0.809
-PlaceBusiness
0.429 *** (0,005)
1,536
0,021 *** (0,005)
1,021 -0,639 *** (0,002)
0,528 -1,109 *** (0,002)
0.330
-Websites
0,012 *** (0,003)
1,012
0,074 *** (0,003)
1,077 0,088 *** (0,001)
1,092 0,118 *** (0,001)

1,125
McFadden R-sq.
0.271
0,207
0.32
0,239
Nagelkerke R-sq.
0.271
0,207
0,321
0,241
Log-kemungkinan
-2,446,467.133
-3,423,466.377
-14,108,100.91
-25,950,910.53
Deviance
4,488,295.547
6,443,162.73
27,268,539.27
50,955,992.81
AIC
4,893,058.266
6,847,056.753
28,216,325.82
51,901,945.06
N
665.916
665.916
665.916
665.916
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 7:
Agregat Logistic Regression Hasil Untuk Komentar dan Suka: Tabel ini menyajikan
logistik agregat
regresi pada komentar dan Suka untuk kedua EdgeRank-dikoreksi (ER) dan tidak
dikoreksi (NO ER) untuk semua data. OR berarti Odds
rasio dan menunjukkan rasio odds untuk perkiraan kiri kolom.
Pemindaian melalui hasil, kita amati bahwa perkiraan terarah serupa, dalam banyak
kasus,

dengan dan tanpa koreksi EdgeRank. Namun, besaran sering berubah. Misalnya,
pertimbangkan
29
halaman 30

koefisien untuk jenis pesan Photo. Dalam model tanpa koreksi EdgeRank, Foto sangat
mungkin
mendapatkan komentar (koefisien = 0,867) dan Suka (koefisien = 1,011). Setelah
koreksi EdgeRank, hasil
yang serupa tetapi besarnya efek tetes. Ini masuk akal karena kita tahu bahwa
EdgeRank lebih suka
Foto. Dalam beberapa kasus, ada perubahan arah untuk beberapa koefisien. Misalnya,
hasil yang
Link lebih mungkin untuk mendapatkan Suka / komentar relatif apps perubahan
menandatangani setelah koreksi EdgeRank. Ini
menyoroti pentingnya koreksi EdgeRank, sebuah isu yang laporan industri yang
paling (misalnya, Wildfire 2012)
sering mengabaikan.
Kami menemukan bahwa kompleksitas membaca tinggi (SMOG) menurun baik Suka
dan komentar sedangkan lebih pendek
Pesan (MSGLEN) yang Disukai dan mengomentari lebih, meskipun dengan efek
ukuran kecil. memiliki link
(HTTP) dikaitkan dengan keterlibatan rendah sedangkan mengajukan pertanyaan
(PERTANYAAN) secara signifikan meningkatkan
komentar tapi pada biaya Suka. Menggunakan kosong dalam pesan untuk mendorong
komentar memiliki efek yang sama dari
meningkatkan komentar tapi menyakiti Suka. Menariknya, sedangkan rasio odds
komentar meningkat 69% jika
Pesan mengajukan pertanyaan, meningkatkan 200% jika kosong termasuk
menunjukkan bahwa kekosongan yang lebih efektif
dari pertanyaan jika tujuannya adalah untuk meningkatkan komentar. Meminta Suka
meningkatkan baik Suka dan komentar,
sedangkan meminta komentar meningkatkan komentar tapi pada biaya Suka. Hal ini
jelas bahwa bahkan sederhana ini
variabel konten keterlibatan dampak pengguna.
-0.4
-0,2
0.0
0,2
remf
bertindak

emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
Logistic Regression Coefficients
edgerank
ada edgerank
Koefisien Regresi Logistik Isi Pesan untuk Komentar
-0.4
-0,2
0.0
0,2
remf
bertindak
emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik

ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
Logistic Regression Coefficients
edgerank
ada edgerank
Koefisien Regresi Logistik Isi Pesan untuk Suka
Gambar 12:
Pesan Koefisien Karakteristik untuk Komentar dan Suka: grafik batang ini
menunjukkan koefisien
regresi logistik untuk kedua EdgeRank dikoreksi dan model dikoreksi. Hanya
koefisien signifikan diplot.
16 variabel berikutnya dalam tabel adalah kepribadian merek-terkait dan langsung
informatif konten
variabel. Gambar 12 grafik koefisien untuk variabel ini dalam grafik bar dan
menunjukkan tajam
Perbedaan antara kepribadian merek-terkait dan langsung informatif jenis
konten. Melihat komentar, sebuah
Pola mencolok adalah bahwa sebagian besar langsung isi informatif berdampak
negatif sedangkan merek personalityIsi terkait memiliki dampak positif. Variabel konten langsung informatif dengan
paling negatif
Dampak yang HARGA, DEAL, dan PRODMENTION. Merek terkait kepribadian
variabel konten dengan
dampak yang paling positif adalah EMOSI dan filantropis. Menariknya,
HOLIDAYMENTION dis
courages komentar. Satu penjelasan yang mungkin adalah bahwa dekat liburan, semua
halaman Facebook tanpa pandang bulu

menyebutkan liburan, yang mengarah ke respon tumpul. Misalnya, selama Paskah,


terjadinya liburan men30
halaman 31

tion melompat hampir 40% di semua pesan yang dirilis hari itu dibandingkan dengan
terjadinya rata-rata sekitar
1%. Melihat Suka, sedikit merek terkait kepribadian variabel konten berdampak
positif tetapi hasil
secara kualitatif serupa dengan komentar. Di antara merek isinya terkait kepribadian,
EMOSI memiliki
dampak yang paling positif pada Suka. Kebanyakan langsung variabel konten
informatif terus memiliki negatif
dampak (yaitu, mengurangi keterlibatan), dengan HARGA dan DEAL memiliki
dampak paling negatif. Hasil
juga menyoroti bahwa terdapat perbedaan antara dampak konten di Suka
dibandingkan Komentar.
Kami juga menyelidiki bagaimana industri memoderasi dampak konten pada
keterlibatan, kami mengulangi utama
analisis data subsetted pada setiap jenis industri seperti yang dijelaskan dan
dikategorikan dalam Tabel 2. Beberapa koefisien
berbeda di industri baik dalam besarnya dan, untuk beberapa variabel, arah. Namun,
ada
juga banyak koefisien yang gigih di seluruh industri. Selain itu, membandingkan
Angka 3 dan 17
memberikan perbandingan yang menarik dari apa yang masing-masing industri saat
posting dan apa yang pengguna terlibat dengan.
Karena panjang kertas, kami menyediakan lebih banyak diskusi dalam Lampiran.
4.3 Saham, Klik-through, dan Eksplorasi Tambahan Hasil
Hasil di atas menunjukkan bahwa merek konten terkait kepribadian meningkatkan
keterlibatan sementara langsung masi
konten mative secara umum mengurangi itu (kecuali dikombinasikan dengan konten
kepribadian merek terkait). Melakukan hal ini
menyiratkan bahwa perusahaan tidak mendapatkan keuntungan dari menggunakan
konten secara langsung informatif? Kesimpulan ini akan menjadi salah
secara langsung konten informatif bisa mendorong perilaku yang menguntungkan
lainnya selain keterlibatan. Contohnya,
konsumen yang menghargai / aspek utilitarian ekonomi informatif, pesan langsung
respon mungkin ditidak langsung melanjutkan untuk membeli produk atau mengambil tindakan konversi
lainnya, yang bermanfaat bagi perusahaan. Untuk

sejauh yang kita amati hanya keterlibatan dan bukan data konversi / penjualan, hasil
ini tidak terjawab oleh
analisis saat ini. Meskipun akan ideal untuk menambah analisis kami dengan data
penjualan, mitra data kami tidak
memiliki data data pembelian dan kebanyakan perusahaan tidak melacak informasi
tersebut di tingkat pasca. Namun demikian, untuk
menilai ini, kami menambah data kami dengan dua potong tambahan informasi. Datadata tambahan termasuk:
1. Jumlah klik kumulatif dari tanggal rilis sampai tanggal terakhir dari data pada
masing-masing 106.000
pesan dalam database kami.
2. Jumlah saham kumulatif dari tanggal rilis sampai tanggal terakhir dari data pada
masing-masing 106.000
pesan dalam database kami.
klik tersebut kemungkinan akan menjadi langkah pertama dalam serangkaian tindakan
yang mengarah ke pembelian akhirnya. Oleh karena itu, mereka
bagian penting dari teka-teki untuk mengeksplorasi efek respon langsung dari pesan
informatif. saham
Data adalah variabel keterlibatan penting di Facebook dan memungkinkan kita untuk
memeriksa kekokohan kami
Temuan untuk Suka / Komentar.
12
12
Kami berterima kasih kepada tim review jurnal untuk mendorong kita untuk
mengeksplorasi ide-ide ini lebih lanjut. Sayangnya, kami tidak
untuk mendapatkan ultimate penjualan / informasi konversi. partner data kami tidak
memiliki data tentang aktivitas pembelian yang terjadi pada
situs web pihak ketiga klien. Data ini berada hanya dengan perusahaan individual
yang menjalankan website.
31
halaman 32

Kami kemudian menjalankan serangkaian penuh model di koran lagi menggunakan


klik dan saham sebagai variabel dependen.
Gambar 13 menunjukkan hasil. Angka tersebut menggambarkan koefisien pada
atribut konten dari menjalankan
Model dengan saham dan klik masing-masing sebagai variabel dependen. Melihat
model saham, kita melihat
temuan dasar dari model keterlibatan lainnya direplikasi - atribut dengan merek
personality-

konten terkait seperti emosi dan humor memiliki efek positif pada berbagi pos,
sementara informasi langsung
seperti menyebutkan dari penawaran dan harga dan perbandingan harga pada
khususnya tidak mendapatkan banyak saham dari pengguna.
Hasil untuk klik juga disajikan di bawah ini. Berbeda dengan hasil sebelumnya, kami
menemukan efek
informasi kesepakatan sekarang sangat positif. Sementara menyajikan informasi
tentang penawaran (yaitu diskon) tidak
tampaknya untuk memperoleh Suka, komentar, dan saham, kami menemukan bukti
mereka meningkatkan klik melalui. Hasil
untuk atribut konten lainnya secara kualitatif sama dengan yang untuk Suka dan
komentar. Atribut lainnya
yang memiliki efek positif pada klik-melalui adalah penyebutan liburan di pos
(mungkin mencerminkan
Kehadiran diskon dan penawaran di website perusahaan selama liburan). Keduanya
menunjukkan bahwa informasi tersebut,
sambil mengurangi keterlibatan, dapat mengatur konsumen pada jalur untuk
konversi. Hasil ini menunjukkan lebih
interpretasi bernuansa efek kepribadian merek terkait dibandingkan konten secara
langsung informatif. Merek
konten yang berhubungan dengan kepribadian terutama mendorong keterlibatan dan
tampaknya kunci untuk membangun merek jangka panjang, sementara
langsung konten informatif mendorong tanggapan langsung dan tampaknya kunci
untuk kinerja pemasaran.
Konten Desain Hasil ini kemudian menyiratkan pedoman untuk desain konten yang
lebih baik. hasil kami menunjukkan konten
desain harus didorong oleh timbal balik antara tujuan kampanye bagi perusahaan. Kita
melihat
trade-off antara konten yang berhubungan dengan kepribadian secara langsung
informatif dan merek sebagai salah satu antara langsung
lead (klik-through) terhadap visibilitas masa depan di situs media sosial dan branding
(dari keterlibatan).
Sejak keterlibatan merek terkait kepribadian konten drive dan tertentu berkendara
konten langsung informatif
jalan-ke-konversi dan tidak mengurangi keterlibatan bila dikombinasikan dengan
konten kepribadian merek terkait,
tampaknya menggabungkan kedua bersama-sama, jika memungkinkan, akan
membentuk dasar dari peningkatan rekayasa konten.
Hanya menggunakan merek konten terkait kepribadian yang mendorong keterlibatan,
tetapi hanya menggunakan jenis konten

melibatkan brondong beberapa manfaat dari mendapatkan lalu lintas situs Web dan
respon langsung. Demikian pula, menggunakan langsung
konten informatif dalam pesan membantu gain lead langsung perusahaan, tetapi untuk
mengulang hanya jenis konten di
posting setelah posting mungkin menjadi kontraproduktif. konten tersebut tidak hanya
akan memiliki jangkauan sosial yang buruk tetapi, sejak
algoritma EdgeRank menggunakan keterlibatan perusahaan saat ini untuk menentukan
jangkauan masa depan pos perusahaan,
berulang kali posting konten informasi eksklusif pada akhirnya akan mengurangi
jangkauan masa depan perusahaan. Demikian,
sementara pesan informatif langsung membantu memfasilitasi klik dan potensi
konversi, kesulitan adalah bahwa
terjadi pada biaya mengurangi ukuran masa depan mencapai-fan-base. Hal ini
tampaknya tradeoff utama antara
dua jenis konten pada platform Facebook. Menggabungkan karakteristik sehingga
mencapai tradeoff yang seimbang
antara jangkauan dan potensi konversi. Kami didokumentasikan di awal bagian (2.1.3)
bahwa perusahaan biasanya cenderung
menggunakan satu konten-jenis atau yang lain dalam pesan mereka. Hasil penelitian
kami saat ini menunjukkan strategi ini mungkin tidak
optimal bahwa keuntungan untuk manajemen konten ditingkatkan sepanjang baris
yang disarankan di atas mungkin cukup besar.
32
halaman 33

-0,6
-0.4
-0,2
0.0
0,2
remf
bertindak
emosi
emoticon
holida
y
humor philan
fr
iendlik
ely
Smalltalk

br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
Menyeberang
Sectional Logistic Regression Coefficients
Bagikan
Regresi Logistik Koefisien untuk Saham (Cross-Sectional)
-0.4
-0,2
0.0
0,2
remf
bertindak
emosi
emoticon
holida
y
humor philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target

PRODA
v
bersakit
prodloc
prodmention
Menyeberang
Sectional Logistic Regression Coefficients
Klik
Regresi Logistik Koefisien untuk Klik (Cross-Sectional)
Gambar 13:
Pesan Koefisien Karakteristik untuk Saham dan klik-through: grafik batang ini
menunjukkan koefisien
regresi logistik untuk model EdgeRank-dikoreksi untuk Saham dan klikthrough. Hanya koefisien signifikan diplot.
4.4 Ketahanan dan Analisis Sensitivitas
Penargetan nonrandom Pos oleh Perusahaan untuk Konsumen
Kami berkonsentrasi pada pemilihan EdgeRank diinduksi sebagai kesulitan utama
dalam inferensi karena kami percaya
spesifik dari lingkungan Facebook membuat beberapa sumber lain mengacaukan orde
kedua dibandingkan dengan
efek EdgeRank. Salah satu perhatian mungkin bahwa perusahaan dapat menargetkan
konten langsung ke pengguna tertentu atau sub
penonton di Facebook. Dalam konteks kita, penargetan langsung seperti tidak
mungkin. Berbeda dengan spanduk Facebook
iklan atau posting disponsori, lingkungan halaman organik Facebook (yang data kami
sesuai)
tidak memungkinkan perusahaan untuk menargetkan audiens yang spesifik. Artinya,
setiap posting oleh perusahaan adalah calon untuk semua
penggemar dan Facebook menentukan fans ini akan melihat posting berdasarkan
algoritma proprietary.
Semua penargetan secara implisit dilaksanakan oleh Facebook melalui penyaringan
EdgeRank ini. Satu-satunya faktor platform yang
dapat dikontrol oleh perusahaan adalah hari waktu-of-rilis pesan.
Namun demikian, ada cara yang halus di mana kekhawatiran menargetkan dapat
menampakkan diri. Satu arah
adalah bahwa perusahaan amati bahwa jenis tertentu dari konten menerima
keterlibatan signifikan, dan kemudian
mulai posting konten yang mirip dengan itu. Jadi, konten baru mencerminkan
keterlibatan masa lalu menghasilkan sebuah

keprihatinan endogeneity terkait dengan perilaku penargetan. Atau, beberapa jenis


perusahaan dapat sistematis
memilih jenis konten tertentu, sehingga mungkin efek perusahaan tidak teramati
bahwa kita mengambil dalam perkiraan kami,
dan tidak efek konten - sumber lain bias penargetan diinduksi. Untuk memeriksa
apakah hasil kami mencerminkan
pemilihan jenis tertentu dari posting oleh perusahaan berkinerja tinggi, kami
mengevaluasi keragaman konten yang diposting
oleh perusahaan serta korelasi serial dalam posting. Sejauh keragaman posting oleh
perusahaan terbatas,
itu menimbulkan kekhawatiran bahwa beberapa jenis atribut konten tidak digunakan
oleh beberapa rendah atau tinggi berkinerja
perusahaan. Demikian pula, jika ada korelasi serial tinggi di posting oleh perusahaan,
itu mungkin mencerminkan keragaman konten terbatas
atau bahwa perusahaan yang memilih posting berdasarkan kinerja posting
sebelumnya.
33
halaman 34

Untuk mengevaluasi masalah ini, kami mewakili setiap posting oleh perusahaan
dengan vektor biner enam belas panjang (8
langsung informatif dan 8 merek kepribadian yang berhubungan) di mana 1
menyatakan bahwa atribut konten
hadir (dan 0 sebaliknya). Selanjutnya, semua vektor tersebut dengan perusahaan yang
sama hanya ditambahkan untuk membentuk vektor
menunjukkan pembuatan konten secara keseluruhan untuk setiap perusahaan. Indeks
Herfindahl
13
kemudian dihitung untuk setiap perusahaan.
Indeks Herfindahl rata adalah 0,089, dan median 0.088, yang hanya di atas nilai
minimal mungkin
dari
1
16
= 0,0625. Langkah-langkah konsentrasi lain, seperti koefisien Gini, juga melaporkan
pola yang sama, yang
menunjukkan bahwa perusahaan dalam dataset posting jenis kami yang berbeda dari
konten.
Demikian pula, untuk menilai sejauh mana korelasi serial pada pos yang dirilis oleh
perusahaan, kita lagi mewakili masing-masing

posting dengan vektor panjang enam belas, dengan setiap entri dalam vektor yang
mewakili variabel biner untuk tekanan yang
ence dari 16 atribut konten. Untuk setiap perusahaan, pesan yang diperintahkan oleh
tanggal rilis, maka fungsi XOR
diterapkan untuk semua pesan berturut-turut untuk mengukur kesamaan konten.
14
Nilai 1 untuk sarana fungsi XOR
bahwa atribut konten yang digunakan dalam posting sebelumnya tidak hadir dalam
posting saat ini, dan sebaliknya.
Misalnya, jika posting pertama dirilis oleh perusahaan adalah vektor
(1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0) dan yang kedua
adalah (0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1), maka vektor XOR membandingkan dua adalah
(1,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,1).
Rerata vektor XOR ini
2
16
= 0,125. Menghitung mean vektor XOR tersebut untuk semua berurutan
pasang posting untuk semua perusahaan dalam data kami menghasilkan nilai rata-rata
0,32 (median 0,33). Hal ini menunjukkan signifvariasi icant dalam konten oleh perusahaan dalam dataset kami. Akhirnya, efek
perusahaan-tetap termasuk dalam semua spesifikasi
untuk menjaga terhadap mencampur atribut didorong perbedaan keterlibatan dengan
efek khusus perusahaan.
Masalah terakhir adalah kekhawatiran bahwa perusahaan dapat mengoptimalkan
waktu dari pesan. Misalnya, mengatakan
perusahaan ingin memberikan pesan emosional eksposur yang lebih baik daripada
pesan lucu. Jika perusahaan tahu bahwa
banyak orang yang login Facebook di 15:00 vs 08:00, perusahaan dapat mengirim
pesan emosional di 3:00 dan
satu lucu di 08:00. control model kami untuk demografi dan tayangan untuk
mengurangi masalah ini pada
orde pertama secara. Kami tambahan memeriksa data kami jika ada bukti bahwa
perusahaan menargetkan waktu tertentu
hari untuk memasukkan campuran konten tertentu. Data kami menunjukkan tidak ada
bukti untuk mendukung pilihan waktu tersebut. Gambar 14
menyajikan distribusi saat posting untuk setiap atribut konten enam belas. Setiap baris
mewakili
konten-jenis yang berbeda. Grafik ini menunjukkan bahwa sementara volume konten
memiliki waktu-of-hari yang signifikan
ketergantungan (seperti pada 5:00-18:00 ketika orang meninggalkan tempat kerja
mereka), campuran dari konten tidak menunjukkan seperti

ketergantungan. Semua distribusi tampak mirip. Bahkan, tidak ada


16
2
Pasangan-bijaksana tes Kolmogorov-Smirnov
mampu menolak nol bahwa garis berasal dari distribusi yang sama. Sosok, ditambah
dengan tinggi
keragaman konten, menunjukkan bahwa perusahaan dalam dataset kami tidak
sistematis memilih atribut konten
pada saat-of-hari. Satu mungkin bertanya-tanya apa yang menjelaskan kurangnya jelas
ini kecanggihan. Salah satu alasan mungkin
karena kurangnya alat analisis media sosial yang tersedia analytics konten-level untuk
perusahaan selama
waktu pengumpulan data. Bahkan, alat media sosial analytics tersedia di pasar pada
saat data
koleksi hanya tersedia strategi waktu sederhana seperti apa waktu hari untuk
mengirim, seperti yang tercermin dalam
13
Ukuran keanekaragaman yang berkisar dari
1
n
1 1 berarti sangat terkonsentrasi. Untuk kasus kami ini dapat berkisar dari
1
16
untuk
1 di mana
1
16
berarti semua enam belas isinya sama-sama digunakan.
14
"Exclusive OR" - yaitu, "A atau B tetapi tidak A dan B".
34
halaman 35

0.02
0.04
0.06
0.08
0.10
0
5
10

15
20
Jam hari
propor
tion dari setiap perpecahan konten ke jam
tempat sampah
Proporsi Konten Berpisah ke Jam-bin
(Setiap baris mewakili sebuah konten)
Gambar 14:
Proporsi Konten Posted Berpisah ke Hour-bin: Setiap baris mewakili satu dari enam
belas jenis konten.
Data dan dikendalikan untuk dalam model kami, tapi tidak yang atribut konten
bekerja dengan baik atau ketika untuk mengirim spesifik
jenis konten. Meskipun sulit untuk secara resmi menutup kemungkinan bias seleksi,
analisis ini keragaman konten
dan waktu menunjukkan bahwa penargetan strategis perusahaan 'mungkin dari urutan
kedua untuk konteks kita.
Karakteristik Pesan dihilangkan
Kekhawatiran akhir adalah bahwa keterlibatan didorong oleh karakteristik pesan yang
tidak terukur yang co-terjadi dengan
karakteristik pesan disertakan. Sejauh karakteristik pesan yang tidak terukur ini
mendorong engagement, mereka mewakili unobservables yang berpotensi berkorelasi dengan
karakteristik pesan termasuk dan
menghasilkan variabel masalah dihilangkan. Kekhawatiran ini masuk akal, tetapi
urutan kedua dalam pandangan kami untuk mantan yang
tenda yang kami telah memasukkan satu set yang sangat kaya karakteristik
pesan. Kami telah mencantumkan dan / atau keras-kode a
sejumlah besar karakteristik pesan (termasuk hal-hal seperti emosi dan konten humor,
yang biasanya
dianggap sebagai berada di unobservables). Pendekatan kami untuk masalah ini
adalah untuk mengkonversi unobservables
ke diamati dengan mengumpulkan data langsung pada set relatif komprehensif pesankarakteristik dan
melakukan inferensi langsung pada efek dari konstruksi tangan-untukmengukur. Kami menilai sejauh mana ini
variabel dihilangkan yang bermasalah dengan menggunakan residual dari tahap
pertama sebagai kontrol ditambahkan dalam
tahap kedua. Untuk melihat ini, perhatikan residual dalam Persamaan 3,
(d)

KJT
, Merupakan alasan yang tidak teramati bahwa pengguna di
demografi ember d akan lebih mungkin untuk menjadi sasaran pesan k oleh
EdgeRank. Seperti ketahanan, kami
bertanya apakah hasil kami pada efek dari pesan atribut perubahan ketika kita
mengendalikan teramati ini
driver dari daya tarik setiap kotak pesan itu. Untuk melakukan hal ini, diketahui
bahwa dari tahap pertama kami, kami bisa
memperoleh perkiraan sisa, denoted
(d)
KJT
. Kami kembali menjalankan estimasi tahap kedua kami termasuk estimasi yang
mated
(d)
KJT
-s sebagai kovariat di M
kt
dalam Persamaan 5. Kami dapat menginterpretasikan hasil revisi sebagai efek dari
pesan
karakteristik pada keterlibatan setelah "mengendalikan" tarik teramati dari setiap
kotak untuk itu
pesan. Hasil dari model-model alternatif (disajikan dalam Lampiran) menunjukkan
bahwa kualitatif utama
fitur dari hasil kami kuat di spesifikasi ini.
35
halaman 36

Spesifikasi alternatif
Kami juga menjalankan berbagai spesifikasi alternatif untuk menilai kekokohan hasil
kami. Perkiraan ini
spesifikasi alternatif disajikan dalam Lampiran. Pertama, kita meniru hasil hanya
menggunakan set
5.000 pesan langsung kode oleh Amazon Mechanical Turkers. Kedua, kami menilai
sejauh mana
parameter stabil ketika kita drop subset dari atribut. Kami menemukan bahwa sifat
hasil kami tetap
tidak berubah.
5. Kesimpulan
Kami menunjukkan melalui studi berskala besar yang rekayasa konten di media sosial
memiliki dampak yang signifikan terhadap

keterlibatan pengguna yang diukur dengan Suka, komentar, saham, dan klik-through
untuk pesan. analisis kami
menunjukkan bahwa merek terkait kepribadian konten, seperti konten emosional dan
filantropis, memiliki yang kuat
dampak positif pada keterlibatan. Hal ini menunjukkan bahwa perusahaan
memperoleh dari berbagi kepribadian merek mereka dan
informasi tentang inisiatif sosial mereka di media sosial. Selanjutnya, kita menemukan
bahwa konten secara langsung informatif
memiliki dampak negatif pada keterlibatan media sosial, tapi konten informatif
tertentu menginduksi klik-tinggi
through. Dengan demikian, merek konten terkait kepribadian terutama mendorong
keterlibatan dan tampaknya kunci untuk panjang
jangka membangun merek, sedangkan konten langsung informatif mendorong
tanggapan langsung dan tampaknya kunci untuk kinerja
pemasaran. Ini menyajikan sebuah tantangan untuk pemasar yang berusaha untuk
membangun berikut besar di media sosial dan
yang berusaha untuk memanfaatkan yang berikut untuk menyebarkan informasi
tentang produk-produk baru dan promosi. Satu
takeaway dari penelitian kami adalah bahwa strategi ini bekerja ketika secara
langsung konten informatif dikombinasikan dengan
kepribadian merek terkait konten untuk menyeimbangkan jangkauan dan keterlibatan
pada platform.
Karena skala penelitian kami (hampir 800 perusahaan dan lebih dari 100.000 pesan
dianalisis), kami percaya
hasil kami menggeneralisasi dan memiliki penerapan yang luas. Meskipun demikian,
penting untuk mengenali beberapa keterbatasan
dari penelitian kami. Pertama, kami mencatat bahwa hasil dari setiap studi tentang
respon konsumen untuk konten tergantung pada
campuran konten digunakan dalam penelitian ini. Sebagai contoh, kita menemukan
bahwa pesan menyebutkan liburan, terutama
oleh perusahaan produk konsumen, memiliki efek negatif pada keterlibatan. Hal ini
mungkin karena penggunaan yang berlebihan dari
liburan pesan oleh perusahaan. Ada kemungkinan bahwa efeknya mungkin positif jika
perusahaan menggunakan jenis-jenis pesan dalam
moderasi. Demikian pula, kita menemukan bahwa pesan-pesan emosional memiliki
dampak positif pada keterlibatan. Disini lagi,
adalah mungkin efek ini dapat mengurangi di masa depan jika perusahaan mulai
menggunakan konten emosional berlebihan. Oleh karena itu,
penting untuk menginterpretasikan hasil kami dalam konteks campuran konten yang
digunakan oleh perusahaan-perusahaan dan mengulang analisis

dalam hal perubahan besar-besaran di mix konten yang digunakan oleh perusahaanperusahaan. Pada akhirnya, kami mendesak manajer untuk menyerang
keseimbangan yang tepat antara konten secara langsung informatif (dimaksudkan
untuk mendorong lead dan penjualan) dan merek
kepribadian-terkait konten (dimaksudkan untuk melibatkan konsumen), terutama
karena EdgeRank menggunakan arus perusahaan '
tingkat keterlibatan untuk menentukan jangkauan masa depan.
Kami menggunakan beberapa metrik untuk keterlibatan pengguna, yaitu Suka dan
komentar tentang pesan serta apakah
pengguna berbagi pesan dengan teman-teman atau kunjungi link dalam pesan. Kami
penggunaan Suka, komentar, saham,
36
halaman 37

dan klik-through dimotivasi baik oleh meluasnya penggunaan metrik ini sebagai
tujuan pemasaran di sosial
pengaturan media, dan juga ketersediaan data. Studi masa depan yang mengevaluasi
langkah-langkah lain yang menarik
dapat menambah nilai, terutama dalam memvalidasi generalisasi dari temuan kami
dan dalam mekanisme menjelajahi
mendasari efek kami jelaskan. Sebagaimana dicatat dalam pendahuluan, kami tidak
menjawab pertanyaan tentang bagaimana
keterlibatan mempengaruhi permintaan produk dan keuntungan perusahaan sehingga
untuk menyelesaikan hubungan antara iklan-atribut dan
langkah-langkah hasil. Data tersebut masih belum banyak tersedia di skala yang
dibutuhkan untuk penelitian ini. Meskipun
itu bukan fokus dari penelitian kami, itu sangat berharga menyoroti bahwa beberapa
studi yang masih ada telah mempelajari link
antara keterlibatan Facebook dan penjualan, meskipun pada skala yang lebih
kecil. Sebagai contoh, berdasarkan acak
studi, comScore (2012) melaporkan angkat 38% dalam pembelian untuk para
penggemar terkena Starbucks di Facebook melalui
Facebook Pages atau facebook iklan dibayar. Demikian pula, studi seperti Kumar et
al. (2013); Goh et al.
(2013); Rishika et al. (2013); Li dan Wu (2014); Miller dan Tucker (2013); Sunghun
et al. (2014); luo dan
Zhang (2013); Luo et al. (2013) menunjukkan bahwa media sosial dapat digunakan
untuk menghasilkan pertumbuhan penjualan, dan ROI,
partisipasi konsumen, retensi, dan profitabilitas, menghubungkan metrik media sosial
seperti "komentar" untuk
metrik keuangan.

Kompetisi untuk perhatian konsumen di seluruh media yang intens, terutama pada
plat- media sosial
bentuk. Konsumen, pada gilirannya, kewalahan oleh proliferasi konten online, dan
tampak jelas bahwa
pemasar tidak akan berhasil tanpa rekayasa konten ini untuk penonton. Kami berharap
penelitian ini conupeti untuk meningkatkan konten rekayasa oleh perusahaan di situs media sosial dan,
lebih umum, menciptakan bunga
dalam mengevaluasi dampak dari konten pada hasil bisnis.
Referensi
90octane: 2012, 'Konten Facebook Baru dan ConversionStrategies Menghasilkan
Keterlibatan dan Rujukan untuk
Gates Otomotif '. laporan teknis, 90octane.
Aaker, DA: 1996, Membangun Merek Kuat ,. New York: The Free Press.
Aaker, J .: 1997, 'Dimensi kepribadian merek'. Jurnal Riset Pemasaran, 34 (3), 347356.
Abernethy, AM dan GR Franke: 1996, 'The Isi Informasi dari Iklan: A Meta-Analisis'.
Journal of Advertising 25 (2), 1-17.
Aggarwal, R., R. Gopal, R. Sankaranarayanan, dan PV Singh: 2012, 'Blog, blogger,
dan perusahaan: Can
Pesan karyawan negatif menyebabkan hasil yang positif? '. Sistem Penelitian
Informasi 23 (2), 306-322.
Ahn, H. dan JL Powell: 1993, 'estimasi Semiparametrik model pilihan disensor
dengan nonparamekanisme seleksi metrik '. Journal of Econometrics 58 (3), 29.
Anand, B. dan R. Shachar: 2009, 'Target iklan sebagai sinyal'. Pemasaran kuantitatif
dan Ekonomi
7 (3), 237-266.
Anand, B. dan R. Shachar: 2011, 'Periklanan yang Matchmaker'. Rand Jurnal
Ekonomi 42 (2), 205-245.
Anderson, S. dan R. Renault: 2006, 'Isi Iklan'. American Economic Review Maret, 93113.
Armstrong, S .: 2010, Periklanan persuasif. Palgrave Macmillan.
Ascend2: 2013, 'Pemasaran Laporan Strategi: Media Sosial'. laporan teknis, Ascend2
dan Penelitian Under
penulis.
37
halaman 38

Bagwell, K .: 2007, 'Bab 28: Analisis Ekonomi Advertising'. Handbook of IO 3, 17011844.

Bennett, PN: 2006, 'Membangun Metaclassifiers Handal untuk Belajar


Teks'. Ph.D. tesis, CMU.
Berger, J .: 2011, 'Gairah Meningkatkan Sosial Transmisi Informasi'. Ilmu psikologi
22 (7), 891-93.
Berger, J .: 2012, 'Word-of-Mouth: A reveiew dan Arah untuk Penelitian Masa
Depan'. Bekerja di Progress.
Berger, J. dan KL Tukang Susu: 2012, 'Apa yang Membuat Konten secara online
Viral?'. Jurnal Riset Pemasaran
49 (2), 192-205.
Berger, J. dan E. Schwartz: 2011, 'Apa Drives Segera dan berkelanjutan Word-ofMouth?'. jurnal
Marketing Research 48 (5), 869-880.
Bertrand, M., D. Karlan, S. Mullianathan, E. Shafir, dan J. Zinman: 2010, 'Apa Isi
Iklan
Bernilai? Bukti dari Percobaan Consumer Credit Marketing Lapangan '. pp. 263-306.
Burung, S., E. Klein, dan E. Loper: 2009, Natural Language Processing dengan
Python. O'Reilly Media.
Brieman, L .: 1996, 'Bagging prediktor'. Machine Learning 24, 123-140.
Buhrmester, M., T. Kwang, dan SD Gosling: 2011, 'Amazon Mechanical Turk:
Sumber Baru Inextermenung, Namun Berkualitas Tinggi, Data? ". Psychological Science 6 (1).
Mentega, G .: 1977, 'Equilibrium Distribusi Penjualan dan Harga Advertising'. Ulasan
Studi Ekonomi
44 (3), 465-91.
Chadwick-Martin-Bailey: 2010, 'Konsumen Bergerak Via Social Media Apakah Lebih
Kemungkinan Untuk Beli, direkomendasi
memperbaiki'.
Chandy, R., G. Tellis, D. MacInnis, dan P. Thaivanich: 2001, 'Apa yang Katakanlah
Ketika: Iklan Banding di
Berkembang Pasar '. Journal of Marketing Research 38, 399-414.
Cialdini, R .: 2001, Pengaruh: Sains dan Praktek. Needham Heights, MA: Allyn dan
Bacon.
comScore: 2012, 'The Power of suka 2'. laporan teknis, comScore.
comScore: 2013, 'The Power of suka Eropa'. laporan teknis, comScore.
Creamer, M .: 2012, 'Study Hanya 1 persen dari Facebook' Fans 'Terlibat Dengan
Merek'. Pepatah.
Dellarocas, C .: 2006, 'manipulasi Strategis forum opini internet: Implikasi bagi
konsumen dan
perusahaan '. Ilmu Manajemen 52 (10), 1577-1593.
Ellickson, PB dan S. Misra: 2010, 'Memperkaya Interaksi: Memasukkan data Hasil ke
Static Discrete

Pertandingan'. Pemasaran kuantitatif dan Ekonomi 1 (10).


eMarketer: 2013, 'Yang Taktik Social Media Marketing Bekerja Terbaik?'. laporan
teknis, eMarketer.
Freund, Y. dan RE Schapire: 1995, 'A Generalisasi teori keputusan-on-line belajar dan
applikation untuk meningkatkan '. Komputasi Teori Belajar: EUROCOLT pp 23-37..
Gardete, PM: 2013, 'murah-Talk Iklan dan keliru dalam Vertikal Differentiated Pasar'.
Ilmu pemasaran.
Gentzkow, M. dan J. Shapiro: 2010, 'Apa Drives Media Slant? Bukti dari Koran
AS. ekonom
Metrica 78 (1).
Gerber, S .: 2014, '9 Cara Social Media Marketing Akan Mengubah pada tahun 2014'.
Geva, T. dan J. Zahavi: 2013, 'evaluasi empiris dari sistem rekomendasi saham
intraday otomatis
menggabungkan kedua data pasar dan berita tekstual '. Sistem Pendukung Keputusan.
Ghose, A., PG Ipeirotis, dan B. Li: 2012, 'Merancang Ranking Sistem untuk Hotel di
Travel Search Engine
oleh Pertambangan User-Generated Content dan Crowd-Bersumber '. Pemasaran
Sains 31 (3).
38
halaman 39

Goh, K.-Y., C.-S. Heng, dan Z. Lin: 2013, 'Media sosial masyarakat merek dan
perilaku konsumen: quantum
tifying dampak relatif user-dan konten marketer yang dihasilkan '. Sistem Informasi
Penelitian 24 (1),
88-107.
Govers, PC dan JP Schoormans: 2005, 'kepribadian Produk dan pengaruhnya pada
preferensi konsumen.
Journal of Consumer Pemasaran 22 (4), 189-197.
Grossman, G. dan C. Shapiro: 1984, 'Informative Advertising dengan Differentiated
Produk'. ulasan
Studi Ekonomi 51 (1), 63-81.
Hassan, MH, BS Vikas, dan H. Fiorletta: 2011, 'Akurat Informasi Ekstraksi untuk
kwantitatif
Acara keuangan '. CIKM.
Hastie, T., R. Tibshirani, dan J. Friedman: 2009, The Elements of statistik Learning:
Data Mining,
Kesimpulan, dan Prediksi. Peloncat.
Hastie, T. dan RJ Tibshirani: 1990, Generalized Additive Model. Chapman and Hall
CRC.

Metode alternatif 1986, untuk memecahkan masalah bias seleksi dalam mengevaluasi:
Heckman, J. dan R. Robb
dampak perawatan pada hasil.
HubSpot: 2013, 'State of Inbound Pemasaran'. laporan teknis, HubSpot.
Ipeirotis, PG, F. Provost, dan J. Wang: 2010, 'Kualitas Mangagement di Amazon
Mechanical Turk'.
HCOMP.
Jabr, W., R. Mookerjee, Y. Tan, dan VS Mookerjee: 2014, 'Memanfaatkan Perilaku
filantropis untuk Pelanggan
Dukungan: Kasus Forum dukungan Pengguna. MIS Quarterly 38 (1).
Jurafsky, D. dan JH Martin: 2008, Pidato dan Bahasa Pengolahan. Prentice Hall.
Keller, KL: 1993, 'Konseptualisasi, mengukur, dan mengelola pelanggan berbasis
ekuitas merek'. The Journal
dari Pemasaran 1 (1-22).
Kihlstrom, R. dan M. Riordan: 1984, 'Advertising sebagai Signal'. Jurnal Ekonomi
Politik 92 (3), 427-50.
Kumar, V., V. Bhaskara, R. Mirchandani, dan M. Shah: 2013, 'Membuat Terukur
Social Media Marmarketing Strategi: Meningkatkan Nilai dan ROI dari Berwujud dan Tangibles untuk
Hokey Pokey '. Pemasaran
Ilmu 32 (2), 194-212.
Li, X. dan L. Wu: 2014, 'Pengaruh Pengukuran dari pengamatan Belajar dan SosialJaringan Word-of-Mouth
(WOM) pada Penjualan Voucher Harian-Deal '. SSRN Working Paper.
Liaukonyte, J., T. Teixeira, dan K. Wilbur: 2013, 'TV Isi Iklan dan Belanja Online'. (di
kemajuan).
Luo, X. dan J. Zhang: 2013, 'Bagaimana Konsumen Buzz dan Lalu Lintas di Social
Media Marketing Memprediksi
Nilai Firm? '. Jurnal Sistem Informasi Manajemen 30 (2), 213-238.
Luo, X., J. Zhang, dan W. Duan: 2013, 'Media Sosial dan nilai ekuitas
perusahaan'. Sistem Informasi Riset
24 (1), 146-163.
Manchanda, P., PE Rossi, dan P. Chintagunta .: 2004, 'Respon Modeling dengan
Pemasaran Acak Non
Campur Variabel '. Journal of Marketing Research 41, 467-478.
Mason, WA dan S. Suri: 2012, 'Melakukan penelitian perilaku pada Amazon
Mechanical Turk'. Tingkah laku
Metode Penelitian 44 (1), 1-23.
Mayzlin, D. dan J. Shin: 2011, 'tidak informatif Advertising sebagai Undangan untuk
Cari'. Ilmu pemasaran
30 (4), 666-685.

Milgrom, P. dan J. Roberts: 1986, 'Harga dan Periklanan Sinyal Kualitas


Produk'. Jurnal Politik
Ekonomi 94 (4), 796-821.
39
halaman 40

Miller, AR dan C. Tucker: 2013, 'Active media sosial manajemen: kasus


kesehatan'. Informasi
Sistem Penelitian 24 (1), 52-70.
Nair, H., S. Misra, W. Hornbuckle IV, R. Mishra, dan A. Acharya: 2013, 'Big Data dan
Pemasaran Analytics
di Gaming: Menggabungkan Model Empiris dan Lapangan Percobaan '.
Nelson, P .: 1974, 'Advertising sebagai Informasi'. Jurnal Ekonomi Politik 82 (4), 72954.
Netzer, O., R. Feldman, J. Goldenberg, dan M. Fresko: 2012, 'Mine Bisnis Anda
Sendiri: Pasar-Struktur
Surveillance Melalui Mining Text '. Pemasaran Sains 31 (3), 521-543.
Oestreicher-Singer, G. dan L. Zalmanson: 2013, 'KONTEN ATAU
MASYARAKAT? BISNIS DIGITAL
STRATEGI UNTUK PENYEDIA KONTEN DI USIA SOSIAL. '. MIS Quarterly 37
(2).
Paolacci, G., J. Chandler, dan PG Ipeirotis: 2010, 'Running experiements di Amazon
Mechcanical Turk'.
Kiamat dan Pengambilan Keputusan 5 (5).
Porter, L. dan GJ Golan: 2006, 'Dari Ayam tunduk ke berotot Men: a Perbandingan
Viral
Iklan untuk Iklan Televisi '. Journal of Interactive Advertising 6 (2).
Ragan dan NOC Solusi: 2012, 'Penataan Sosial Media Team'. laporan teknis, Ragan
dan
NASDAQ OMX Solusi Korporat.
Resnik, A. dan BL Stern: 1977, 'Analisis Isi Informatif di Iklan Televisi'. majalah
Pemasaran 41 (1).
Rishika, R., A. Kumar, R. Janakiraman, dan R. Bezawada: 2013, 'Pengaruh pelanggan
par- media sosial
ticipation pada pelanggan frekuensi kunjungan dan profitabilitas: penyelidikan
empiris '. Sistem Informasi
Penelitian 24 (1), 108-127.
Rousseeuw, PJ: 1987, 'Siluet: bantuan grafis untuk interpretasi dan validasi analisis
cluster'.
Jurnal komputasi dan matematika terapan 20, 53-65.

Rui, H., Y. Liu, dan A. Whinston: 2013, 'siapa dan apa obrolan hal? Pengaruh tweet
tentang film
penjualan'. Sistem Pendukung Keputusan 55 (4), 863-870.
Sahni, N., C. Wheeler, dan P. Chintagunta: 2015, 'Iklan Menjahit: efek persuasif dari
iklan
konten '. kertas kerja, Stanford GSB.
Sheng, V., F. Provost, dan PG Ipeirotis: 2007, 'Dapatkan label lain? Meningkatkan
kualitas data dan data
pertambangan menggunakan beberapa, labelers berisik '. 14 ACM SIGKDD pp. 614622.
Singh, PV, N. Sahoo, dan T. Mukhopadhyay: 2014, 'berbagai Mencari: Sebuah model
dinamis blog karyawan
membaca perilaku '. datang di Sistem Informasi Riset.
SmartBrief: 2010, 'The State of Social Media untuk Bisnis'. laporan teknis,
SmartBrief.
Salju, R., B. O'Connor, D. Jurafsky, dan AY Ng: 2008, 'murah dan cepat - tetapi
apakah itu baik? mengevaluasi
non-ahli anotasi untuk tugas-tugas bahasa alami '. Metode empiris di Natural
Language Processing.
Sunghun, C., A. Animesh, G. Han, dan A. Pinsonneault:
2014, Upaya 'Perusahaan' Social Media,
Perilaku Konsumen, dan Kinerja Perusahaan: Bukti dari Facebook '.
SSRN Kertas Kerja
http://ssrn.com/abstract=2448510.
Susarla, A., J.-H. Oh, dan Y. Tan: 2012, 'Jaringan sosial dan difusi konten yang dibuat
pengguna:
Bukti dari YouTube '. Sistem Penelitian Informasi 23 (1), 23-41.
Tucker, C .: 2012a, 'Ad viralitas dan Ad Persuasif'. kertas MIT Kerja.
Tucker, C .: 2012b, 'Advertising Sosial'. Bekerja kertas, MIT.
Vakratsas, D. dan T. Ambler: 1999, 'Bagaimana Iklan Pekerjaan: Apa yang kita benarbenar tahu?'. jurnal
Pemasaran 63 (1).
40
halaman 41

Weiss, M. dan F. Huber: 2000, Nilai dari Kepribadian Merek: Fenomena dari posisi
strategis
tioning dari Merek. Wiesbaden: Jerman Universitas Publishing.
Wildfire: 2012, 'Edgerank dan Merek Anda: Sebuah Analisis Messaging Engagement
di Facebook oleh Bisnis
Kategori'. laporan teknis, Wildfire.

Kayu, SN: 2006, Generalized Additive Model: Sebuah Pengantar dengan R. CRC
tekan.
WSJ: 2012, 'GM Says Iklan Facebook Jangan Bayar Off'.
Xu, L. dan A. Krzyzak: 1992, 'Metode Menggabungkan Beberapa Classifiers dan
Aplikasinya untuk tanganmenulis Pengakuan '. Transaksi IEEE pada sistem.
Zadrozny, B. dan C. Elkan: 2002, 'Transforming Classifier Skor menjadi Probabilitas
multiclass Akurat
Perkiraan '. KDD.
41
halaman 42

Lampiran 1: Survey Instrument


Gambar 15: Form Survey Digunakan di Amazon Mechanical Turk
1
halaman 43

Lampiran 2: Amazon Mechanical Turk - Kuat Konten Ekstraksi


Berikut praktek terbaik dalam literatur, kami menerapkan strategi berikut untuk
meningkatkan kualitas
klasifikasi oleh Turkers dalam penelitian kami.
1. Untuk setiap pesan, masukan setidaknya 9 Turkers berbeda 'dicatat. Kami
memperoleh klasifikasi akhir
oleh kekuasaan mayoritas-voting.
2. Kami membatasi kualitas Turkers termasuk dalam studi kami hanya terdiri orangorang dengan setidaknya 100
melaporkan tugas selesai dan 97% atau tarif tugas-persetujuan dilaporkan lebih baik.
3. Kami hanya menggunakan Turkers dari AS sehingga untuk menyaring orang-orang
yang berpotensi tidak mahir dalam bahasa Inggris, dan
untuk cocok dengan basis pengguna dari data kami (recall, data kami telah disaring
untuk hanya menyertakan halaman
terletak di Amerika Serikat).
4. Kami halus instrumen survei kami melalui serangkaian berulang dari sekitar 10
studi percontohan, di mana kita
tanya Turkers untuk mengidentifikasi pertanyaan membingungkan atau tidak
jelas. Dalam setiap iterasi, kami meminta 10-30 Turkers
untuk mengidentifikasi pertanyaan membingungkan dan alasan mereka menemukan
pertanyaan-pertanyaan membingungkan. Kami disempurnakan
survei dengan cara ini sampai hampir semua bertanya Turkers menyatakan tidak ada
pertanyaan yang membingungkan.
5. Untuk menyaring peserta yang tidak memperhatikan, kita termasuk pertanyaan tes
dengan mudah diverifikasi

"Pesannya memiliki tanda dolar ($)?". Tanggapan dari Turkers yang gagal tes
verifikasi
turun dari data.
6. Dalam rangka untuk mendorong pekerja, kita diberikan bonus tambahan dari $ 2- $
5 sampai atas 20 pekerja dengan
akurasi yang luar biasa dan throughput.
7. Rata-rata, kami menemukan bahwa penandaan pesan mengambil sedikit lebih dari
3 menit dan biasanya butuh setidaknya
20 detik atau lebih untuk benar-benar membaca pertanyaan tagging. Kami
mendefinisikan kurang dari 30 detik menjadi
terlalu pendek, dan dibuang setiap tag pesan dengan waktu penyelesaian lebih pendek
dari durasi yang untuk menyaring
out Turkers lalai dan program otomatis ( "bot").
8. Setelah Turker tag lebih dari 20 pesan, beberapa sampel tagged secara acak
memilih dan
diperiksa secara manual untuk kualitas dan kinerja. Proses ini mengidentifikasi sekitar
20 Turkers volume tinggi
yang menyelesaikan semua survei dalam waktu kurang dari 10 detik dan menandai
beberapa ribu pesan (ada
juga Turkers yang mengambil waktu untuk menyelesaikan survei tetapi memilih
jawaban acak). Kita
menyimpulkan program ini adalah otomatis. Hasil ini dijatuhkan, dan Turkers "keras
diblokir"
dari survei, melalui opsi memblokir disediakan di AMT.
Kami percaya metodologi kami untuk konten-klasifikasi memiliki validitas eksternal
yang kuat. Biner klasifikasi
Tugas yang kami sajikan ke Turkers AMT dalam penelitian kami relatif lebih
sederhana daripada tugas-tugas yang lebih kompleks untuk
yang berbasis data AMT telah digunakan dengan sukses dalam literatur. Literatur
AMT ada
2
halaman 44

memiliki bukti yang terdokumentasi bahwa beberapa strategi yang diterapkan di atas
meningkatkan kualitas data
dihasilkan (Mason dan Suri (2012);. Ipeirotis et al (2010);. Paolacci et al
(2010)). Salju et al. (2008) menunjukkan
yang menggabungkan hasil dari beberapa Turkers dapat menghasilkan data yang
setara dalam kualitas dengan yang labelers ahli
untuk berbagai tugas penandaan teks. Demikian pula, Sheng et al. (2007) dokumen
yang berulang pelabelan jenis

kami menerapkan dimana setiap pesan ditandai oleh beberapa Turkers, adalah lebih
baik untuk label tunggal di mana
satu orang tag satu kalimat. Akhirnya, mengevaluasi studi berdasarkan AMT,
Buhrmester et al. (2011) menyimpulkan
bahwa (1) Turkers yang demografis lebih beragam dari penelitian sampel psikometri
biasa, dan (2)
Data yang diperoleh setidaknya dapat diandalkan seperti yang diperoleh melalui
metode tradisional yang diukur dengan psikometri
standar seperti Cronbach Alpha, yang biasa digunakan antar-penilai keandalan ukuran.
3
halaman 45

Lampiran 3: NLP Algoritma


Bagian ini memberikan garis besar rinci dari algoritma yang digunakan di
koran. Gambar 16 menunjukkan proses
visual.
Pelatihan Algoritma
1. Data tekstual baku dari 5, 000 pesan dalam sampel pelatihan dipecah menjadi
bangunan dasar
blok kalimat menggunakan removal stop-kata (menghapus tanda baca dan kata-kata
dengan informasi rendah
seperti artikel yang pasti "dalam"), tokenization (proses memecah kalimat dengan
kata-kata, frase,
dan simbol atau "token"), yang berasal (proses mengurangi kata-kata infleksi ke
bentuk akar mereka, misalnya,
"Bermain" untuk "bermain"), dan bagian-of-speech tagging (menentukan bagian-ofspeech seperti kata benda). untuk referendum
ence melihat Jurafsky dan Martin (2008). Dalam proses ini, input ke algoritma adalah
kalimat biasa
dan output adalah serangkaian memerintahkan entitas linguistik mendasar dengan
nilai semantik. Kami menggunakan
sangat dihormati kerangka python NLP bernama NLTK (Bird et al., 2009) untuk
menerapkan langkah ini.
2. Setelah pesan dipecah seperti di atas, algoritma ekstrak atribut kalimat-tingkat dan
aturan kalimat-struktur yang membantu mengidentifikasi konten disertakan. Beberapa
contoh kalimat-tingkat
atribut dan aturan meliputi: kata yang sering noun (bag-of-kata pendekatan), bigrams,
rasio paruh
of-speech digunakan, tf-idf (jangka frekuensi dan frekuensi dokumen invers)
tertimbang kata informatif

bobot, dan apakah "kunci-kata tertentu hadir" aturan. Untuk kelengkapan, kami
menjelaskan masing-masing
ini di Tabel 8. Kunci untuk merancang sebuah algoritma NLP sukses adalah untuk
mencari tahu apa yang kita (manusia)
lakukan ketika mengidentifikasi informasi tertentu. Misalnya, apa yang kita
perhatikan tentang kalimat kita
telah diidentifikasi memiliki kandungan emosional? Kita mungkin melihat
penggunaan beberapa jenis kata, gunakan
tanda seru, penggunaan huruf kapital, dll Pada akhir langkah ini, dataset terdiri
atribut kalimat-level yang dihasilkan seperti di atas (x-variabel), sesuai dengan
serangkaian biner
(Konten hadir / tidak hadir) label konten dihasilkan dari AMT (y-variabel).
3. Untuk setiap label konten biner, kita kemudian melatih model klasifikasi dengan
menggabungkan statistik dan-aturan
pengklasifikasi berbasis. Pada langkah ini, algoritma NLP cocok label konten biner
(y-variabel) menggunakan
kalimat-tingkat atribut sebagai x-variabel. Misalnya, algoritma akan cocok atau tidak
pesan memiliki konten emosional ditandai dengan AMT menggunakan atribut kalimat
yang diambil dari
Pesan melalui langkah 2. Kami menggunakan berbagai pengklasifikasi berbeda dalam
langkah ini termasuk regresi logistik dengan
L1 regularisasi (yang menghukum jumlah atribut dan umumnya digunakan untuk
seleksi atribut
untuk masalah dengan banyak atribut; melihat (Hastie et al., 2009)), Naif Bayes
(classifier probabilistik
yang berlaku teorema Bayes berdasarkan ada atau tidak adanya fitur), dan dukungan
mesin vektor
(Algoritma standar emas dalam pembelajaran mesin yang bekerja dengan baik untuk
masalah dimensi tinggi) dengan
rasa yang berbeda dari regularisasi dan kernel
15
. Untuk menjelaskan ketidakseimbangan dalam kelas positif dan negatif
15
Kami mencoba dukungan mesin vektor dengan L1 dan L2 regularisasi dan berbagai
kernel termasuk linear, radial fungsi dasar,
4
halaman 46

label di beberapa konten, kami menggunakan kombinasi pengklasifikasi kelastertimbang dan metode resampling.

4. Untuk melatih classifier prediksi utama, kita menggunakan metode ensemble untuk
menggabungkan hasil dari beberapa orang
pengklasifikasi statistik kami muat di langkah 3. Motivasi untuk belajar ensemble
adalah bahwa pengklasifikasi berbeda
melakukan berbeda berdasarkan karakteristik yang mendasari data atau memiliki
berbagai presisi atau mengingat di
lokasi yang berbeda dari ruang vektor fitur. Dengan demikian, menggabungkan
mereka akan mencapai klasifikasi yang lebih baik
Output baik dengan mengurangi varians (misalnya Bagging (Brieman, 1996)) atau
mengurangi prasangka (misalnya Meningkatkan
(Freund dan Schapire, 1995)). Silakan lihat Xu dan Krzyzak (1992); Bennett (2006)
untuk membaca lebih lanjut tentang
metode ensemble. Langkah ini melibatkan menggabungkan prediksi dari
pengklasifikasi individu dengan tertimbang
suara terbanyak, suara berbobot mayoritas, atau metode yang lebih rumit disebut
regresi isotonik
(Zadrozny dan Elkan, 2002) dan memilih metode berkinerja terbaik dalam hal akurasi,
presisi
dan ingat untuk setiap profil konten. Dalam kasus kami, kami menemukan bahwa
pengklasifikasi dukungan mesin berbasis vektor
disampaikan presisi tinggi dan recall rendah, sementara Naif pengklasifikasi
berdasarkan Bayes disampaikan recall tinggi tetapi
presisi rendah. Dengan menggabungkan ini, kami mampu mengembangkan classifier
ditingkatkan yang memberikan lebih tinggi
presisi dan recall dan berlaku, akurasi yang lebih tinggi. Tabel 9 menunjukkan
peningkatan dari ansambel akhir
belajar metode relatif hanya menggunakan satu mesin pendukung vektor. Seperti
ditunjukkan, keuntungan dari menggabungkan
pengklasifikasi substansial. Kami mendapatkan hasil yang sama untuk label kelas
negatif.
5. Akhirnya, kami menilai kinerja algoritma NLP keseluruhan pada tiga langkah,
yaitu, akurasi,
presisi, dan ingat (sebagaimana didefinisikan dalam catatan kaki 4) dengan
menggunakan metode "10-fold cross-validasi". Di bawah ini
strategi, kami membagi data secara acak ke dalam 10 subset yang sama sebelum
langkah 2. Salah satu subset digunakan sebagai
validasi sampel, dan algoritma dilatih pada 9 set tersisa. Ini diulang 10 kali, masingmasing
Waktu menggunakan subset yang berbeda sebagai sampel validasi, dan ukuran kinerja
rata-rata di

10 berjalan. Penggunaan 10-fold cross-validasi mengurangi risiko overfitting dan


meningkatkan eksternal
validitas algoritma NLP kita kembangkan. Catatan, 10-fold cross-validasi semacam
ini adalah komputasi
intensif dan dampak ukuran kinerja negatif dan tidak dilaksanakan di beberapa kertas
yang ada
dalam penelitian bisnis. Sedangkan penggunaan 10-fold cross-validasi mungkin
berdampak negatif terhadap kinerja
langkah-langkah, perlu untuk meningkatkan validitas eksternal. Tabel 9 menunjukkan
metrik ini untuk konten yang berbeda
profil. Kinerja yang sangat baik dan sebanding dengan kinerja yang dicapai oleh
terkemuka
sistem pertambangan teks informasi keuangan (Hassan et al., 2011).
6. Kami ulangi langkah 2-5 sampai ukuran kinerja yang diinginkan tercapai.
Penandaan Pesan Baru
1. Untuk setiap pesan baru ulangi langkah 1-2 dijelaskan di atas.
2. Gunakan classifier utama yang dikembangkan di atas untuk memprediksi apakah
jenis tertentu dari konten hadir
atau tidak.
dan kernel polinomial. Untuk lebih jelasnya, lihat Hastie et al. (2009).
5
halaman 47

Salah satu bisa memikirkan algoritma NLP ini sebagai meniru opini kolektif Turkers
'di konten-coding.
Gambar 16:
Diagram Pelatihan NLP dan Tagging Prosedur: Diagram ini menunjukkan langkahlangkah dari pelatihan NLP
algoritma dan menggunakan algoritma untuk menandai pesan yang tersisa. Langkahlangkah ini dijelaskan dalam Lampiran 3.
Aturan dan Atribut
Deskripsi
Bag Kata
Mengumpulkan semua kata-kata dan frekuensi untuk pesan. variasi yang berbeda
termasuk
mengumpulkan atas N paling kata terjadi.
bigram
Sebuah bigram dibentuk oleh dua kata yang berdekatan (misalnya "Bigram adalah",
"dibentuk" adalah bigrams).
Rasio bagian-of-speech
Bagian-of-speech (kata benda, kata kerja, dll) rasio di setiap pesan.

TF-IDF tertimbang kata informatif


Jangka Frekuensi dan Inverse Document Frequency berat setiap kata berdasarkan
mereka
terjadinya di seluruh data dan dalam satu pesan.
Kata kunci yang spesifik
kata kunci spesifik untuk konten yang berbeda dapat dikumpulkan dan
dicari. misalnya,
pesan filantropis memiliki perubahan tinggi yang mengandung kata-kata
"menyumbangkan" dan "bantuan".
Untuk merek dan identifikasi produk, daftar online besar yang tergores dan diubah
menjadi
kamus untuk memeriksa.
Frekuensi tanda baca yang berbeda
tanda
Menghitung jumlah tanda baca yang berbeda seperti tanda seru dan pertanyaan
menandai. Hal ini membantu untuk mengidentifikasi emosi, pertanyaan, penampilan
penawaran dll
Hitungan non-alphanumerics
Menghitung jumlah karakter yang tidak AZ dan 0-9.
Tabel 8:
Beberapa Contoh Pesan Atribut Digunakan Algoritma Pengolahan Bahasa Alami
6
halaman 48

Dengan Ensemble Belajar (The


Terbaik Pertunjukan Algoritma)
Tanpa Belajar Ensemble
(Versi Support Vector Machine
1 + Rule-based)
Ketepatan
Ketelitian
Penarikan
Ketepatan
Ketelitian
Penarikan
REMFACT
0.94
0.99
0.68
0.88
0.99

0.33
EMOSI
0.97
0.99
0.87
0.94
0.98
0.65
HUMOR
0.98
1
0.90
0.97
1
0.14
DERMAWAN
0.97
0.99
0.85
0.93
0.99
0.62
FRIENDLIKELY
0.94
0.99
0.68
0.90
0.99
0.41
Smalltalk
0.85
0.88
0.80
0.78
0.34
0.28
BERURUSAN
0.94
0.99
0.65
0.90

1
0.43
PRICECOMPARE
0.99
0.99
1
0.99
1
0.85
PENARGETAN
0.98
0.99
0.89
0.95
0.99
0.71
PRODAVAILABILITY
0.96
0.99
0.76
0.91
1
0.10
PRODLOCATION
0.97
0.99
0.90
0.87
1
0.11
Tabel 9:
Kinerja Algoritma Mining Text pada 5000 Pesan Menggunakan 10-kali lipat Crossvalidasi: Tabel ini
menyediakan metrik untuk kinerja algoritma klasifikasi yang
digunakan. meninggalkan 3 kolom yang menunjukkan metrik untuk algoritma akhir
yang menggabungkan pengklasifikasi melalui metode pembelajaran ensemble
sementara hak 3 kolom menunjukkan metrik untuk mesin dukungan vektor
algoritma. Perhatikan bahwa dukungan mesin vektor classifier cenderung memiliki
recall rendah dan presisi tinggi. Naif Bayes cenderung
memiliki recall tinggi tetapi presisi rendah. Classifiers sendiri tidak dapat berhasil
mengatasi presisi-recall tradeoff (jika salah satu

lebih tinggi, satu lebih rendah). Tapi menggabungkan banyak pengklasifikasi berbeda
dengan pembelajaran ansambel dapat meningkatkan baik presisi dan recall.
Kami mendapatkan hasil yang sama untuk label kelas negatif.
7
halaman 49

Lampiran 4: Mendapatkan Jumlah Tayangan


Kami membahas prosedur kami untuk membangun n
(d)
KJT
, Jumlah tayangan untuk setiap pesan k perusahaan j di
hari t terbelah oleh demografis bin d untuk digunakan dalam model koreksi
EdgeRank. Seperti disebutkan di atas, n
(d)
KJT
aku s
tidak langsung dilaporkan oleh Perusahaan X (atau dibuat tersedia untuk halamanpemilik dengan Facebook Insights). Sebagai gantinya,
Perusahaan X melaporkan n
(d)
jt
, Jumlah tayangan untuk semua pesan yang terkait dengan perusahaan j dalam
demografi
ember d pada hari t, yang pada dasarnya adalah n
(d)
KJT
disimpulkan di semua k terkait dengan j. Selain itu, kita amati
n
KJT
, Jumlah total kesan yang diperoleh posting k tertentu dengan j perusahaan pada hari
t. Untuk menilai bagaimana kita
mungkin membagi ini di berbagai ember demografi, kami memeriksa sejauh mana
halaman melepaskan berbeda
jenis pesan dari waktu ke waktu. Sebagian besar tayangan untuk pesan terjadi dalam
minggu pertama peluncurannya.
Oleh karena itu, total tayangan untuk halaman pada hari tertentu dari ember
demografis tertentu, n
(d)
jt
, Mencerminkan

tayangan agregat pengguna dalam ember semua pesan yang dirilis oleh perusahaan
yang selama satu minggu terakhir.
Sejak EdgeRank mengalokasikan pesan ke pengguna dengan pesan-jenis, jika
perusahaan melepaskan jenis yang sama dari pesan
(Yaitu, foto, video, update status, aplikasi atau link) selama durasi satu minggu, maka
distribusi n
(d)
jt
di berbagai pesan k dirilis oleh perusahaan j dalam seminggu terakhir mungkin kirakira sama. di lain
kata, distribusi demografi tayangan semua pesan yang dirilis oleh perusahaan di masa
lalu
minggu harus sama jika semua pesan-pesan yang dirilis serupa.
Untuk memeriksa informal jika hal ini terjadi, kami memilih sampel acak dari 10, 000
kombinasi page-7-hari
dari data kami. Untuk setiap kombinasi, kita susun semua pesan yang dirilis oleh
laman bahwa selama 7 hari
jendela dan ditabulasi jenis pesan tersebut (yaitu, foto, video, update status, aplikasi
atau link). Kita
kemudian membangun dua metrik konsentrasi, C
1
, Proporsi pesan yang dirilis oleh laman bahwa selama
7 hari jendela yang termasuk ke dalam jenis ember tertinggi, dan C
2
, Proporsi pesan dirilis oleh yang
Halaman selama bahwa 7-hari window milik tertinggi dan tertinggi kedua jenis
ember. C
1
dan C
2
analog dengan top-perusahaan dan top-dua-perusahaan rasio konsentrasi yang
digunakan dalam studi industri-konsentrasi, dan
mengukur sejauh mana pesan yang dirilis oleh halaman dalam jangka waktu 7-hari
tertentu yang tersebar di seluruh jenis.
Jika semua pesan yang dirilis oleh laman selama jendela 7-hari adalah dari jenis yang
sama, C
1
dan C
2
akan baik 1.

Penyebaran jauh dari 1 sehingga menunjukkan variasi yang lebih tinggi dalam pesanjenis dirilis oleh Facebook rata-rata
Halaman lebih lama satu minggu. Tabel 10 laporan tentang distribusi C
1
dan C
2
kami dihitung dengan cara ini.
Melihat Table 10, kita menemukan bahwa median C
1
adalah 0,71 (mean 0,72) dan median C
2
adalah 1,0 (mean 0,94).
Sebagian besar halaman tampaknya akan merilis di-paling 2-jenis pesan dalam jendela
seminggu, dan lebih dari
2
/
3
rd
dari
pesan dirilis oleh laman rata-rata dalam seminggu rata-rata adalah dari jenis yang
sama. Mengingat ini, kita mengasumsikan bahwa
n
KJT
dibagi menjadi n
(d)
KJT
dengan distribusi yang sama seperti yang diberikan oleh n
(d)
jt
. Kami membangun variabel n
(d)
KJT
di kiri
tangan-sisi persamaan EdgeRank koreksi 2 dengan cara ini. Kami direplikasi
penelitian dengan berbagai perpecahan
distribusi seperti 7-hari distribusi agregat dari n
(d)
jt
, Kernel merapikan distribusi, dan hasilnya
adalah serupa.

Metode ini bukan tanpa keterbatasan. Kami melihatnya sebagai cara praktis untuk
menangani kurangnya datapelaporan oleh Facebook, sementara mengeksploitasi variasi tertanam dalam tayangan
diamati dan berkorelasi
8
halaman 50

Min.
1 Qu.
rata-rata
Berarti
3 Qu.
Max.
C
1
0.250
0,535
0,706
0,719
0,915
1.000
C
2
0.500
0,889
1.000
0,942
1.000
1.000
Tabel 10:
Distribusi Top (C
1
) Dan Top-dua (C
2
) Rasio Konsentrasi jenis pesan Dilayani
oleh Facebook Page selama acak memilih periode 7 hari
dengan variasi yang diamati di pasar potensial untuk setiap pesan dalam setiap kotak
demografi
N
(d)
jt

. Metode ini menghasilkan potensi kesalahan pengukuran dalam variabel dependen,


n
(d)
KJT
di EdgeRank yang
tahap koreksi. Pengukuran kesalahan dalam variabel dependen diserap ke dalam
unobservables RHS dan
biasanya kurang perhatian kecuali berkorelasi dengan unobservables. Fakta bahwa
kami menyertakan halaman-tetap
efek secara terpisah untuk setiap demografis (
(d)
1j
di Persamaan 3) meringankan kekhawatiran untuk sebagian besar bahwa
unobservables mungkin sistematis berkorelasi dengan karakteristik disertakan.
9
halaman 51

Lampiran 5: Hasil Across Industries Berbeda


Dalam rangka untuk menyelidiki bagaimana industri memoderasi dampak konten
pada keterlibatan, kami mengulangi utama
analisis data subsetted pada setiap jenis industri seperti yang dijelaskan dan
dikategorikan dalam Tabel 2.
Gambar 17 menunjukkan hasil pada efek konten dengan industri. Hanya hasil yang
signifikan secara statistik yang
digambarkan dan semua hasil yang EdgeRank-dikoreksi. Beberapa koefisien yang
berbeda di industri baik dalam
besarnya dan, untuk beberapa variabel, arah. Misalnya, konten emosional dan
filantropis memiliki
dampak yang paling positif pada halaman Facebook dari jenis "Organisasi" yang
termasuk non-profit, pendidikan
organisasi dan kelompok agama. Selanjutnya, sembari menyebutkan liburan memiliki
dampak negatif pada keterlibatan
untuk jenis industri yang paling, memiliki dampak positif pada keterlibatan untuk
Organisasi. Demikian pula, melihat
konten informatif, kita mengamati bahwa variabel seperti Harga, Ketersediaan
Produk, dan Produk Mentions
umumnya memiliki dampak negatif pada keterlibatan untuk jenis industri yang paling,
tetapi memiliki dampak positif bagi
Jenis industri "Celebrity." Pengguna tampak lebih pemaaf dari halaman selebriti
mendukung produk dan berbagi harga

informasi. Di sisi lain, ada konten yang memiliki efek yang gigih di seluruh
industri. Untuk
Misalnya, jenis pos, foto, memiliki keterlibatan positif di seluruh industri, sedangkan
termasuk blank memiliki positif
berdampak pada komentar untuk semua industri.
Membandingkan Angka 3 dan 17 juga menyediakan perbandingan yang menarik dari
apa yang masing-masing industri saat ini
posting dan apa yang pengguna terlibat dengan. Misalnya, halaman jenis Places dan
Bisnis, Hiburan, dan
Produk Konsumen tidak memposting konten emosional banyak meskipun Gambar 17
menunjukkan bahwa konten emosional
menginduksi Suka tinggi dan Komentar. Demikian pula, sementara Places dan
halaman Bisnis cenderung mengirim lebih dari kesepakatan
konten, hanya halaman Produk Konsumen tampaknya akan mendapatkan keuntungan
dari konten kesepakatan (dalam hal mendapatkan
lebih komentar). Tempat dan halaman Bisnis juga memasukkan lebih besar persen
dari produk konten ketersediaan sementara
hanya Produk Konsumen dan halaman Celebrity manfaat dari masuknya konten
tersebut.
10
halaman 52

-1
0
1
-1
0
1
-1
0
1
-1
0
1
-1
0
1
-1
0
1
celebr

ity
konsumen
produk
memasukkan
tainment
organisasi
placesb
isnis
w
ebsite
ASBUT
msglen
http
pertanyaan
b
lurus
asklik
e
askcomment
remf
bertindak
emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v

bersakit
prodloc
prodmention
T
ype: link
T
ype: foto
T
ype: StatusUpdate
T
ype: Video
variabel
Logitstic Regresi koefisien
Logistic Regression Hasil di Industri (Komentar)
-1
0
1
-1
0
1
-1
0
1
-1
0
1
-1
0
1
-1
0
1
celebr
ity
konsumen
produk
memasukkan
tainment
organisasi
placesb
isnis

w
ebsite
ASBUT
msglen
http
pertanyaan
b
lurus
asklik
e
askcomment
remf
bertindak
emosi
emoticon
holida
y
kelucuan
philan
fr
iendlik
ely
Smalltalk
br
andmention
berurusan
pr
icecompare
pr
es
target
PRODA
v
bersakit
prodloc
prodmention
T
ype: link
T
ype: foto
T

ype: StatusUpdate
T
ype: Video
variabel
Logitstic Regresi koefisien
Logistic Regression Hasil di Industri (suka)
Gambar 17:
Logistic Regression oleh Industri (Komentar dan Suka): ini grafik batang
menunjukkan koefisien logistik
regresi untuk model EdgeRank-dikoreksi. Hanya koefisien yang signifikan (p <0,05)
yang grafiknya. Dalam plot Seperti di sebelah kanan,
koefisien untuk ASKCOMMENT untuk website adalah -4,8 tetapi diperbesar untuk
mengoptimalkan kejelasan grafik.
11
halaman 53

Lampiran 6: Hasil untuk AMT-Tagged & Model Berbeda


NO ER Komentar
ATAU
ER komentar
ATAU
NO ER seperti
ATAU
ER seperti
ATAU
Konstan
-5,431 *** (0,047)
-5,682 *** (0,041)
-3,326 *** (0.014)
-4,199 *** (0,012)
ASBUT
-0,098 *** (0,001)
0,907
-0,125 *** (0,001)
0,882 -0,045 *** (0,000)
0,956 -0,066 *** (0,000)
0.936
MSGLEN
-0,000 *** (0,000)
1.000
-0,000 *** (0,000)

1.000 -0,000 *** (0,000)


1.000 -0,000 *** (0,000)
1.000
HTTP
-0,253 *** (0,005)
0,776
-0,143 *** (0,005)
0,867 -0,097 *** (0,002)
0,908 -0,025 *** (0,002)
0.975
PERTANYAAN
0,164 *** (0,004)
1,178
0,191 *** (0,004)
1.210 -0,325 *** (0,001)
0,723 -0,220 *** (0,001)
0,803
KOSONG
0,739 *** (0,012)
2,094
0,755 *** (0,012)
2,128 -1,009 *** (0.010)
0,365 -1,098 *** (0.010)
0,334
ASKLIKE
-0,376 *** (0,033)
0,687
-0,336 *** (0,033)
0,715 -0,100 *** (0,009)
0,905 -0,072 *** (0,009)
0,931
ASKCOMMENT
0,927 *** (0,049)
2,527
0,272 *** (0,049)
1,313 0,111 *** (0.020)
1,117 -0,406 *** (0.020)
0,666
Kepribadian merek terkait
REMFACT
0,105 *** (0,006)

1.111
0.145 *** (0,005)
1,156 -0,063 *** (0,002)
0,939 -0,032 *** (0,002)
0,969
EMOSI
0,159 *** (0,006)
1,172
0,135 *** (0,006)
1,145 0,084 *** (0,002)
1,088 0,106 *** (0,002)
1,112
emoticon
-0,383 *** (0,026)
0,682
-0,361 *** (0,026)
0,697 -0,416 *** (0,008)
0.660 -0,192 *** (0,008)
0,825
HOLIDAYMENTION
-1,465 *** (0,033)
0.231
-1,293 *** (0,033)
0,274 -0,433 *** (0,006)
0,649 -0,266 *** (0,006)
0,766
HUMOR
-0,086 *** (0,012)
0,918
0,163 *** (0,012)
1,177 -0,275 *** (0,004)
0,760 0,019 *** (0,004)
1.019
DERMAWAN
0,142 *** (0,007)
1,153
0.138 *** (0,007)
1,148 0,182 *** (0,002)
1.200 0,168 *** (0,002)
1,183
FRIENDLIKELY

-0,159 *** (0,005)


0,853
-0,130 *** (0,005)
0,878 0,206 *** (0,002)
1,229 0,159 *** (0,002)
1,172
Smalltalk
-0,005 (0,004)
0,995
-0,051 *** (0,004)
0,950 0,022 *** (0,001)
1,022 -0,028 *** (0,001)
0,972
langsung informatif
BRANDMENTION
-0,179 *** (0,004)
0,836
-0,228 *** (0,004)
0.796 -0,141 *** (0,001)
0,868 -0,224 *** (0,001)
0,799
BERURUSAN
-0,151 *** (0,008)
0.860
0,011 (0,007)
1,011 -0,478 *** (0,002)
0,620 -0,302 *** (0,002)
0,739
PRICECOMPARE
0,688 *** (0,193)
1.990
0,302 (0,193)
1,353 -0,498 *** (0,103)
0,608 -0,857 *** (0,103)
0,424
HARGA
-0,051 *** (0.014)
0,950
-0,500 *** (0.014)
0,607 -0,316 *** (0,005)
0,729 -0,712 *** (0,005)

0,491
TARGET
0,188 *** (0.010)
1,207
0.076 *** (0.010)
1,079 0.130 *** (0,003)
1,139 0,059 *** (0,003)
1,061
PRODAVAIL
-0,281 *** (0,007)
0,755
-0,360 *** (0,007)
0,698 0,073 *** (0,002)
1,076 -0,022 *** (0,002)
0,978
PRODLOCATION
-0,151 *** (0,006)
0.860
-0,015 ** (0,005)
0,985 -0,239 *** (0,002)
0,787 -0,080 *** (0,002)
0.923
PRODMENTION
-0,170 *** (0,005)
0,844
-0,349 *** (0,005)
0,705 0,291 *** (0,001)
1,338 0,095 *** (0,001)
1.100
Jenis pesan - App adalah dasar
-Link
0,226 *** (0,008)
1,254
-0,051 *** (0,008)
0,950
0,004 (0,003)
1,004 -0,310 *** (0,003)
0,733
-Foto
0,633 *** (0,008)
1,883

0,379 *** (0,008)


1,461 0,718 *** (0,002)
2.050 0,418 *** (0,002)
1,519
-Status Perbarui
1,325 *** (0,009)
3,762
1,148 *** (0,009)
3,152 0,671 *** (0,003)
1,956 0,553 *** (0,003)
1,738
-Video
-0,191 *** (0,027)
0,826
-0,447 *** (0,027)
0.640 -0,636 *** (0,011)
0,529 -0,928 *** (0,011)
0,395
Industri Kategori - Selebriti adalah dasar
-Produk konsumen
-0,024 *** (0,007)
0,976
-0,368 *** (0,007)
0,692 -0,541 *** (0,002)
0,582 -0,761 *** (0,002)
0,467
-Hiburan
0.014 * (0,006)
1.014
0,221 *** (0,006)
1,247 -0,472 *** (0,002)
0,624 -0,169 *** (0,002)
0,845
-Organisasi
0,222 *** (0,007)
1,249
0,072 *** (0,007)
1,075 -0,163 *** (0,002)
0.850 -0,161 *** (0,002)
0,851
-PlaceBusiness

0.600 *** (0.014)


1.822
0,339 *** (0.014)
1,404 -0,698 *** (0,007)
0,498 -0,869 *** (0,007)
0,419
-Websites
-0,076 *** (0,009)
0,927
0,152 *** (0,008)
1,164 0,099 *** (0,002)
1,104 0,398 *** (0,002)
1,489
McFadden R-sq.
0,288
0,239
0.295
0,214
Nagelkerke R-sq.
0,288
0,239
0.296
0,216
Log-kemungkinan
-299060,434
-428096,493
-1.728.807,768
-3,119,513.948
Deviance
552.293,46
810390.763
3365047.493
6,146,513.932
AIC
598244.869
856316.985
3457739.535
6,239,151.895
N
38.706
38.706

38.706
38.706
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 11: Agregat Logistic Regression Hasil Untuk Komentar dan Suka (5000
Messages):
Tabel ini menyajikan regresi logistik agregat pada komentar dan Suka untuk kedua
EdgeRank-dikoreksi
(ER) dan tidak dikoreksi (NO ER) untuk 5000 pesan data ditandai oleh Turkers. OR
berarti rasio Odds dan menunjukkan
rasio odds untuk perkiraan kiri kolom.
12
halaman 54

NO ER Komentar
ATAU
ER komentar
ATAU
NO ER seperti
ATAU
ER seperti
ATAU
Konstan
-8,122 *** (0,004)
-7,129 *** (0,004)
-5,168 *** (0,001)
-4,205 *** (0,001)
ASBUT
-0,047 *** (0,000)
0,954
-0,059 *** (0,000)
0,943 -0,031 *** (0,000)
0,969 -0,049 *** (0,000)
0,952
MSGLEN
0.000 *** (0,000)
1.000
-0,000 *** (0,000)
1.000 -0,000 *** (0,000)
1.000 -0,000 *** (0,000)
1.000
HTTP

-0,545 *** (0,002)


0,580
-0,301 *** (0,002)
0,740 -0,388 *** (0,000)
0,678 -0,085 *** (0,000)
0,919
PERTANYAAN
0,488 *** (0,001)
1,629
0,581 *** (0,001)
1,788 -0,284 *** (0,000)
0,753 -0,186 *** (0,000)
0.830
KOSONG
1,002 *** (0,003)
2,724
1,186 *** (0,003)
3,274 -0,709 *** (0,002)
0,492 -0,538 *** (0,002)
0,584
ASKLIKE
0.080 *** (0.010)
1,083
0,259 *** (0.010)
1,296 0,494 *** (0,003)
1,639 0,598 *** (0,003)
1,818
ASKCOMMENT
0,514 *** (0,021)
1,672
0,413 *** (0,021)
1,511 -0,244 *** (0,011)
0,783 -0,557 *** (0,011)
0,573
Kepribadian merek terkait
REMFACT
-0,026 *** (0,002)
0,974
0,017 *** (0,002)
1,017 -0,055 *** (0,001)
0,946 -0,015 *** (0,001)

0,985
EMOSI
0.213 *** (0,002)
1,237
0,217 *** (0,002)
1,242 0,218 *** (0,001)
1,244 0,191 *** (0,001)
1.210
emoticon
0,171 *** (0,004)
1,186
0,101 *** (0,004)
1,106 -0,056 *** (0,001)
0,946 -0,087 *** (0,001)
0,917
HOLIDAYMENTION
-0,485 *** (0.014)
0,616
-0,378 *** (0.014)
0,685 -0,329 *** (0,004)
0,720 -0,162 *** (0,004)
0.850
HUMOR
0.030 *** (0,001)
1.030
0,094 *** (0,002)
1,099 -0,049 *** (0,000)
0,952 0,047 *** (0,000)
1,048
DERMAWAN
0,182 *** (0,002)
1.200
0,261 *** (0,002)
1,298 0,019 *** (0,001)
1,019 0,157 *** (0,001)
1.170
FRIENDLIKELY
0,008 *** (0,002)
1.008
-0,053 *** (0,002)
0,948 0,076 *** (0,001)

1,079 0,005 *** (0,001)


1,005
Smalltalk
0.059 *** (0,002)
1,061
-0,111 *** (0,002)
0,895 -0,061 *** (0,001)
0,941 -0,172 *** (0,001)
0,842
langsung informatif
BRANDMENTION
0,013 *** (0,002)
1.013
0,084 *** (0,002)
1,088 -0,015 *** (0,000)
0,985 0,043 *** (0,000)
1,044
BERURUSAN
-0,134 *** (0,002)
0,875
-0,245 *** (0,002)
0,783 -0,183 *** (0,001)
0,833 -0,357 *** (0,001)
0.700
PRICECOMPARE
-0,038 *** (0,001)
0.963
0,008 *** (0,001)
1,008 -0,033 *** (0,000)
0,968 -0,020 *** (0,000)
0.980
HARGA
-0,031 *** (0,005)
0,969
-0,303 *** (0,005)
0,739 -0,185 *** (0,001)
0,831 -0,459 *** (0,001)
0,632
TARGET
-0,021 *** (0,002)
0,979

-0,135 *** (0,002)


0,874 0,036 *** (0,001)
1,037 -0,120 *** (0,001)
0,887
PRODAVAIL
-0,090 *** (0,002)
0,914
-0,003 (0,002)
0,997 -0,119 *** (0,001)
0,888 0,038 *** (0,001)
1,039
PRODLOCATION
-0,056 *** (0,002)
0,946
-0,043 *** (0,002)
0,958 0,072 *** (0,001)
1,075 0,034 *** (0,001)
1,035
PRODMENTION
-0,087 *** (0,002)
0,917
-0,128 *** (0,002)
0.880 0.076 *** (0,001)
1,079 0,039 *** (0,001)
1.040
Jenis pesan - App adalah dasar
-Link
0,201 *** (0,003)
1,223
-0,301 *** (0,003)
0,740 0,116 *** (0,001)
1,123 -0,389 *** (0,001)
0,678
-Foto
0,876 *** (0,003)
2,401
0,318 *** (0,003)
1,374 1,036 *** (0,001)
2,818 0,475 *** (0,001)
1,608
-Status Perbarui

1,118 *** (0,003)


3,059
0,666 *** (0,003)
1,946 0,458 *** (0,001)
1,581 -0,015 *** (0,001)
0,985
-Video
0.641 *** (0,009)
1,898
0,108 *** (0,009)
1,114 0,218 *** (0,003)
1,244 0,203 *** (0,003)
1,225
Industri Kategori - Selebriti adalah dasar
-Produk konsumen
0.068 *** (0,002)
1.070
-0,062 *** (0,002)
0.940 -0,446 *** (0,001)
0.640 -0,544 *** (0,001)
0,580
-Hiburan
0.420 *** (0,002)
1,522
0.660 *** (0,002)
1,935 -0,260 *** (0,001)
0,771 -0,067 *** (0,001)
0,935
-Organisasi
0,497 *** (0,002)
1,644
0,631 *** (0,002)
1,879 -0,005 *** (0,001)
0,995 0,110 *** (0,001)
1,116
-PlaceBusiness
0,381 *** (0,005)
1,464
0,234 *** (0,005)
1,264 -0,726 *** (0,002)
0,484 -0,933 *** (0,002)

0,393
-Websites
0,218 *** (0,003)
1,244
0,380 *** (0,003)
1,462 0,183 *** (0,001)
1,201 0,314 *** (0,001)
1,369
1 Tahap Residual
-0,000 *** (0,000)
1.000
0.000 *** (0,000)
1.000 -0,000 *** (0,000)
1.000 0.000 *** (0,000)
0.000
McFadden R-sq.
0,229
0,199
0.298
0.270
Nagelkerke R-sq.
0.230
0,199
0.298
0,272
Log-kemungkinan
-2.575.187,42
-3.460.249,739
-14.563.950,18
-24.911.467,22
Deviance
4745694.741
6516530.605
28.179.842,5
48.875.491,61
AIC
5150474.839
6920599.479
29.128.000,36
49.823.034,45
N

665.916
665.916
665.916
665.916
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 12: Agregat Logistic Regression Hasil Untuk Komentar dan Suka (Semua Pesan
dengan
yang Residual Tahap 1 sebagai Fungsi Kontrol): Tabel ini menyajikan regresi logistik
agregat
komentar dan Suka untuk kedua EdgeRank-dikoreksi (ER) dan tidak dikoreksi (NO
ER) untuk semua data pesan.
OR berarti rasio Odds dan menunjukkan rasio odds untuk perkiraan kiri kolom. Model
ini tahap kedua
termasuk residual tahap pertama sebagai fungsi kontrol.
13
halaman 55

Variabel
intercept hanya
kontrol
Friendlikely
Kepribadian merek terkait langsung informatif Semua (ada kontrol demo)
Konstan
-7,052 *** (0,001) -6,906 *** (0,003) -6,952 *** (0,004)
-6,975 *** (0,004)
-6,861 *** (0,004)
-6,889 *** (0,004)
ASBUT
-0,065 *** (0,000) -0,065 *** (0,000)
-0,065 *** (0,000)
-0,067 *** (0,000)
-0,068 *** (0,000)
MSGLEN
-0,000 *** (0,000) -0,000 *** (0,000)
-0,000 *** (0,000)
-0,000 *** (0,000)
-0,000 *** (0,000)
HTTP
-0,406 *** (0,001) -0,400 *** (0,001)
-0,393 *** (0,001)
-0,390 *** (0,002)

-0,355 *** (0,002)


PERTANYAAN
0.543 *** (0,001) 0,546 *** (0,001)
0.557 *** (0,001)
0,541 *** (0,001)
0,564 *** (0,001)
KOSONG
1,172 *** (0,003) 1,168 *** (0,003)
1,187 *** (0,003)
1,144 *** (0,003)
1,146 *** (0,003)
ASKLIKE
0,222 *** (0.010) 0,229 *** (0.010)
0.220 *** (0.010)
0,223 *** (0.010)
0,221 *** (0.010)
ASKCOMMENT
0.508 *** (0,021) 0,529 *** (0,021)
0,465 *** (0,021)
0,506 *** (0,021)
0,469 *** (0,021)
Jenis pesan - App adalah dasar
-Link
-0,388 *** (0,003) -0,389 *** (0,003)
-0,394 *** (0,003)
-0,376 *** (0,003)
-0,370 *** (0,003)
-Foto
0,376 *** (0,003) 0,371 *** (0,003)
0,365 *** (0,003)
0.372 *** (0,003)
0,373 *** (0,003)
-Status Perbarui
0,656 *** (0,003) 0,654 *** (0,003)
0,644 *** (0,003)
0,645 *** (0,003)
0.641 *** (0,003)
-Video
0,406 *** (0,009) 0,406 *** (0,009)
0.410 *** (0,009)
0,395 *** (0,009)

0,398 *** (0,009)


Industri Kategori - Selebriti adalah dasar
-Produk konsumen
-0,402 *** (0,002) -0,392 *** (0,002)
-0,371 *** (0,002)
-0,374 *** (0,002)
-0,347 *** (0,002)
-Hiburan
0,514 *** (0,002) 0,519 *** (0,002)
0,537 *** (0,002)
0,514 *** (0,002)
0,529 *** (0,002)
-Organisasi
0,391 *** (0,002) 0,393 *** (0,002)
0.409 *** (0,002)
0.400 *** (0,002)
0,408 *** (0,002)
-PlaceBusiness
-0,087 *** (0,005) -0,082 *** (0,005)
-0,052 *** (0,005)
-0,065 *** (0,005)
-0,021 *** (0,005)
-Websites
0,123 *** (0,002) 0,134 *** (0,002)
0.150 *** (0,003)
0,136 *** (0,003)
0,182 *** (0,003)
FRIENDLIKELY
0,064 *** (0,001)
-0,051 *** (0,002)
-0,006 *** (0,002)
REMFACT
-0,065 *** (0,002)
0.014 *** (0,002)
EMOSI
0,217 *** (0,002)
0.256 *** (0,002)
emoticon
0,109 *** (0,004)
0,121 *** (0,004)
HOLIDAYMENTION

-0,391 *** (0.014)


-0,388 *** (0.014)
HUMOR
0.022 *** (0,001)
0,072 *** (0,002)
DERMAWAN
0,054 *** (0,002)
0,174 *** (0,002)
Smalltalk
-0,055 *** (0,002)
-0,086 *** (0,002)
BRANDMENTION
0,071 *** (0,002)
0,081 *** (0,002)
BERURUSAN
-0,124 *** (0,002)
-0,172 *** (0,002)
PRICECOMPARE
0,043 *** (0,001)
-0,006 *** (0,001)
HARGA
-0,368 *** (0,005)
-0,317 *** (0,005)
TARGET
0.049 *** (0,002)
-0,071 *** (0,002)
PRODAVAIL
0,028 *** (0,002)
-0,064 *** (0,002)
PRODLOCATION
0,023 *** (0,002)
0,011 *** (0,002)
PRODMENTION
-0,186 *** (0,002)
-0,151 *** (0,002)
proporsi demografi
variabel dikecualikan
McFadden R-sq.
0,161
0,161
0,165

0,164
0,171
Nagelkerke R-sq.
0,161
0,162
0,165
0,165
0,172
Log-kemungkinan
-4.267.283,759
-3.612.205,117
-3.610.817,72
-3.597.891,814
-3.598.824,088
-3.570.184,37
Deviance
8130598.643
6.820.441,36
6817666.566
6791814.753
6793679.301
6736399.867
AIC
8534569.517
7224474.234
7.221.701,44
7195863.627
7197730.175
7.140.466,74
N
665.916
665.916
665.916
665.916
665.916
665.916
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 13: Regresi Logistik EdgeRank-Dikoreksi Estimasi Model Perbandingan
(Komentar)
14

halaman 56

Variabel
intercept hanya
kontrol
Friendlikely
Kepribadian merek terkait langsung informatif Semua (ada kontrol demo)
Konstan
-4,662 *** (0,000) -3,929 *** (0,001) -3,979 *** (0,001)
-3,931 *** (0,001)
-3,921 *** (0,001)
-3,892 *** (0,001)
ASBUT
-0,057 *** (0,000) -0,057 *** (0,000)
-0,057 *** (0,000)
-0,060 *** (0,000)
-0,061 *** (0,000)
MSGLEN
-0,001 *** (0,000) -0,000 *** (0,000)
-0,001 *** (0,000)
-0,000 *** (0,000)
-0,000 *** (0,000)
HTTP
-0,214 *** (0,000) -0,207 *** (0,000)
-0,205 *** (0,000)
-0,205 *** (0,000)
-0,189 *** (0,000)
PERTANYAAN
-0,198 *** (0,000) -0,195 *** (0,000)
-0,181 *** (0,000)
-0,198 *** (0,000)
-0,175 *** (0,000)
KOSONG
-0,603 *** (0,002) -0,612 *** (0,002)
-0,592 *** (0,002)
-0,602 *** (0,002)
-0,596 *** (0,002)
ASKLIKE
0,576 *** (0,003) 0,583 *** (0,003)
0,576 *** (0,003)
0,564 *** (0,003)
0,565 *** (0,003)

ASKCOMMENT
-0,379 *** (0,011) -0,359 *** (0,011)
-0,444 *** (0,011)
-0,404 *** (0,011)
-0,465 *** (0,011)
Jenis pesan - App adalah dasar
-Link
-0,517 *** (0,001) -0,519 *** (0,001)
-0,518 *** (0,001)
-0,511 *** (0,001)
-0,505 *** (0,001)
-Foto
0,572 *** (0,001) 0,567 *** (0,001)
0,561 *** (0,001)
0,566 *** (0,001)
0,561 *** (0,001)
-Status Perbarui
-0,062 *** (0,001) -0,067 *** (0,001)
-0,083 *** (0,001)
-0,067 *** (0,001)
-0,083 *** (0,001)
-Video
0,244 *** (0,003) 0,245 *** (0,003)
0.252 *** (0,003)
0,225 *** (0,003)
0.231 *** (0,003)
Industri Kategori - Selebriti adalah dasar
-Produk konsumen
-0,948 *** (0,001) -0,937 *** (0,001)
-0,941 *** (0,001)
-0,939 *** (0,001)
-0,932 *** (0,001)
-Hiburan
-0,172 *** (0,001) -0,168 *** (0,001)
-0,174 *** (0,001)
-0,189 *** (0,001)
-0,193 *** (0,001)
-Organisasi
-0,165 *** (0,001) -0,164 *** (0,001)
-0,160 *** (0,001)
-0,171 *** (0,001)

-0,171 *** (0,001)


-PlaceBusiness
-1,305 *** (0,002) -1,301 *** (0,002)
-1,292 *** (0,002)
-1,294 *** (0,002)
-1,275 *** (0,002)
-Websites
0,028 *** (0,001) 0,038 *** (0,001)
0.019 *** (0,001)
0,042 *** (0,001)
0,041 *** (0,001)
FRIENDLIKELY
0,072 *** (0,000)
0.051 *** (0,001)
0.080 *** (0,001)
REMFACT
-0,065 *** (0,001)
-0,021 *** (0,001)
EMOSI
0.250 *** (0,001)
0.260 *** (0,001)
emoticon
-0,049 *** (0,001)
-0,020 *** (0,001)
HOLIDAYMENTION
-0,187 *** (0,004)
-0,183 *** (0,004)
HUMOR
-0,009 *** (0,000)
0,009 *** (0,000)
DERMAWAN
-0,072 *** (0,001)
0.002 * (0,001)
Smalltalk
-0,112 *** (0,001)
-0,146 *** (0,001)
BRANDMENTION
0,012 *** (0,000)
0,021 *** (0,000)
BERURUSAN
-0,166 *** (0,001)

-0,207 *** (0,001)


PRICECOMPARE
-0,036 *** (0,000)
-0,047 *** (0,000)
HARGA
-0,504 *** (0,001)
-0,471 *** (0,001)
TARGET
0.050 *** (0,001)
-0,019 *** (0,001)
PRODAVAIL
-0,027 *** (0,001)
-0,073 *** (0,001)
PRODLOCATION
0.134 *** (0,001)
0.138 *** (0,001)
PRODMENTION
-0,004 *** (0,001)
0,012 *** (0,001)
proporsi demografi
variabel dikecualikan
McFadden R-sq.
0,191
0,191
0.195
0,196
0,201
Nagelkerke R-sq.
0,192
0,193
0,197
0,197
0,203
Log-kemungkinan
-33.968.732,078
-27.584.573,527
-27.566.219,315
-27.424.516,699
-27.419.099,696
-27.221.231,997
Deviance

66990021.316
54221704.214
54184995.789
53901590.557
53890756.552
53495021.154
AIC
67937466.156
55169211.054
55132504.629
54849113.398
54838281.393
54442561.994
N
665.916
665.916
665.916
665.916
665.916
665.916
Signifikansi '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1
Tabel 14: Regresi Logistik EdgeRank-Dikoreksi Estimasi Model Perbandingan (Suka)
15

Anda mungkin juga menyukai