Selamat datang di Scribd!

Stack Overflow Mid Final

Diunggah oleh

0% menganggap dokumen ini bermanfaat (0 suara)

21 tayangan12 halaman

This document discusses predicting tags for questions on Stack Overflow using machine learning. It outlines the business problem of automatically suggesting tags based on question title and description. The goals are high precision and recall while avoiding incorrect tags. The data contains over 6 million questions. Performance will be evaluated using micro/macro averaged F1 score and hamming loss on a multi-label classification problem. The document describes preprocessing steps like removing code snippets and stopwords. Feature extraction will use TF-IDF and bag of words. Classifiers to be tested are logistic regression, linear SVM, random forest and GBDT.

Deskripsi Asli:

Regarding stack overflow predictor case study

Hak Cipta

Format Tersedia

PPTX, PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

21 tayangan12 halaman

Stack Overflow Mid Final

Diunggah oleh

bindusree yadamakanti

Hak Cipta:

Format Tersedia

Unduh sebagai PPTX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 12

Cari di dalam dokumen

STACK

OVERFLOW TAG
PREDICTOR
CONTENTS
● REAL BUSINESS PROBLEM
● BUSINESS OBJECTIVES & CONSTRAINTS
● DATA OVERVIEW
● TYPE OF MACHINE LEARNING PROBLEM
● PERFORMANCE METRICS
● ANALYSIS OF TAGS
● DATA PREPROCESSING
● FEATURIZATION
● CLASSIFIERS TO BE USED
REAL BUSINESS PROBLEM
In a bunch of questions
provided, each contains
three segments Title,
Description and Tags.

We should suggest the

tags related to the
subject of the question
automatically by using
the text in the title and
description.
BUSINESS OBJECTIVES &
CONSTRAINTS
i. Predict as many tags as possible with high precision and recall.

ii. Incorrect tags could impact customer experience on Stack Overflow

iii. No Strict Latency Constraints

DATA OVERVIEW
Train: 6.75GB size

Test: 2GB size.

Data set contains 6,034,195 rows.

The columns include:

Id : Unique identifier for each question

Title: The title of question

Body: The body of the question

Tags: The tags associated with the question in a space separated format
TYPE OF MACHINE LEARNING
PROBLEM
Multi-class classification problem:

If yi belongs to two or more values, let’s say 0,1,2,3,4,5,6,7,8,9 .

It can’t belongs to two classes at a time.

Multi-label Classification:

If yi is assigned to each sample a set of target labels.yi is a set of classes.

xi belongs to one or more classes i.e a set of classes.

PERFORMANCE METRICS
As part of the business requirement we want high precision and recall rates
for each and every predicted tag.

We can use F1 Score here as it only gives good value if both the Precision and
Recall are high. For Multi Label Setting F1 score is modified as:

i. Micro Averaged F1 Score

ii. Macro Averaged F1 Score

iii. Hamming Loss

ANALYSIS OF TAGS
Tags are our class labels.After
removing all the duplicated data
we are left with 4.2 Million data
points and 42k unique tags.
OBSERVATIONS:
DATA PREPROCESSING
Steps to process further

i. Sampled 1M data points because of compute and memory limitations

ii. Separated code-snippets from Body

iii. Removed Special characters from Question title and description (not in
code)

iv. Removed stop words (Except ‘C’)

v. Removed HTML Tags using Regular Expressions

vi. Converted all the characters into small letters

vii. Used SnowballStemmer to stem the words

FEATURIZATION
Term Frequency Inverse Document
Frequency [TFIDF]:

Bag Of Words:
CLASSIFIERS TO BE USED
Our One vs Rest classifier can take any model

Preferred:

Logistic Regression

Not Preferred:

Support vector Machine(Linear SVM)

Random Forest

GBDT

Anda mungkin juga menyukai

Learning Dynamics NAV Patterns
Dari Everand
Learning Dynamics NAV Patterns
Mark Brummel
Belum ada peringkat
Sap Module 4 Ehs
Dokumen17 halaman
Sap Module 4 Ehs
Parthiban Mahalingam
Belum ada peringkat
Code like a Pro in C#
Dari Everand
Code like a Pro in C#
Jort Rodenburg
Belum ada peringkat
Amazon Products Review Sentiment Analysis
Dokumen23 halaman
Amazon Products Review Sentiment Analysis
الريس حمادة
Belum ada peringkat
HTML language complete
Dari Everand
HTML language complete
Hiyesh Ratee
Belum ada peringkat
Java Coding Conventions PDF
Dokumen17 halaman
Java Coding Conventions PDF
satsrini
Belum ada peringkat
Learn Professional Programming in .Net Using C#, Visual Basic, and Asp.Net
Dari Everand
Learn Professional Programming in .Net Using C#, Visual Basic, and Asp.Net
Adalat Khan
Belum ada peringkat
Din cr100
Dokumen27 halaman
Din cr100
Thinker
Belum ada peringkat
SAP Security Interview Questions, Answers, and Explanations
Dari Everand
SAP Security Interview Questions, Answers, and Explanations
Equity Press
Penilaian: 4 dari 5 bintang
4/5 (3)
Advanced Database Sample Test
Dokumen6 halaman
Advanced Database Sample Test
Dobre Daniel
Belum ada peringkat
IBM Cognos TM1 Developer's Certification guide
Dari Everand
IBM Cognos TM1 Developer's Certification guide
James D. Miller
Belum ada peringkat
100+ C Interview Questions, Your Interviewer Might Ask: For Free Interview Preparation Check The Links Below
Dokumen87 halaman
100+ C Interview Questions, Your Interviewer Might Ask: For Free Interview Preparation Check The Links Below
Pranjal Jalan
Belum ada peringkat
Mastering TypoScript: TYPO3 Website, Template, and Extension Development
Dari Everand
Mastering TypoScript: TYPO3 Website, Template, and Extension Development
Daniel Koch
Belum ada peringkat
Screenshot 2024 01 03 202027 - 1
Dokumen9 halaman
Screenshot 2024 01 03 202027 - 1
Sơn Vũ
Belum ada peringkat
EnterpriseOne Interview Questions
Dari Everand
EnterpriseOne Interview Questions
Equity Press
Belum ada peringkat
New Text Document
Dokumen5 halaman
New Text Document
sub more
Belum ada peringkat
IP Addressing and Subnetting INC IPV6: Including IPv6
Dari Everand
IP Addressing and Subnetting INC IPV6: Including IPv6
Syngress
Belum ada peringkat
Pages From Microsoft - 98-361
Dokumen54 halaman
Pages From Microsoft - 98-361
mahmoud_sker
Belum ada peringkat
TOGAF® 9.2 Level 1 Wonder Guide Volume 1 – 2023 Enhanced Edition: TOGAF® 9.2 Wonder Guide Series, #1
Dari Everand
TOGAF® 9.2 Level 1 Wonder Guide Volume 1 – 2023 Enhanced Edition: TOGAF® 9.2 Wonder Guide Series, #1
Ramki
Penilaian: 5 dari 5 bintang
5/5 (1)
DMS Configuration Document
Dokumen106 halaman
DMS Configuration Document
marcos16v
Belum ada peringkat
IT Interview Guide for Freshers: Crack your IT interview with confidence
Dari Everand
IT Interview Guide for Freshers: Crack your IT interview with confidence
Sameer S Paradkar
Belum ada peringkat
Customizing Customer Hierarchy in SD
Dokumen6 halaman
Customizing Customer Hierarchy in SD
TK Ahamad
Belum ada peringkat
C# 6 and .NET Core 1.0: Modern Cross-Platform Development
Dari Everand
C# 6 and .NET Core 1.0: Modern Cross-Platform Development
Mark J. Price
Belum ada peringkat
Question # A01 - 01 (15 Marks) The Problem Is 3.6 PP 99 of Statistical Quality Control by Douglas C. Montogomery
Dokumen2 halaman
Question # A01 - 01 (15 Marks) The Problem Is 3.6 PP 99 of Statistical Quality Control by Douglas C. Montogomery
Aditya Tiwari
Belum ada peringkat
Jump into JMP Scripting, Second Edition
Dari Everand
Jump into JMP Scripting, Second Edition
Wendy Murphrey
Belum ada peringkat
Candidate Profile - Implementation Tips & Tricks
Dokumen3 halaman
Candidate Profile - Implementation Tips & Tricks
VivekMehla
Belum ada peringkat
Practice Questions for UiPath Certified RPA Associate Case Based
Dari Everand
Practice Questions for UiPath Certified RPA Associate Case Based
Exam OG
Belum ada peringkat
Database Fundamentals
Dokumen4 halaman
Database Fundamentals
Carlos Elosegui
100% (1)
Code Review Checklist - To Perform Effective Code Reviews
Dokumen4 halaman
Code Review Checklist - To Perform Effective Code Reviews
shashankniec
Belum ada peringkat
Rep 4451
Dokumen2 halaman
Rep 4451
Anand mohan
Belum ada peringkat
COS3711 2024 Assignment 1
Dokumen4 halaman
COS3711 2024 Assignment 1
gch.010796
Belum ada peringkat
Vendor: Oracle
Dokumen128 halaman
Vendor: Oracle
Victor Manuel Ospina Bautista
100% (1)
Group Technology: Presentation On
Dokumen22 halaman
Group Technology: Presentation On
monti_1234
Belum ada peringkat
Coding of Material: Submitted To-Mrs Guneet Mam Submitted by - Bhumika Nagi Rollno - 1921924
Dokumen27 halaman
Coding of Material: Submitted To-Mrs Guneet Mam Submitted by - Bhumika Nagi Rollno - 1921924
bhumika nagi
Belum ada peringkat
Q&A DEMO Version: Axapta 3.0 Programming
Dokumen4 halaman
Q&A DEMO Version: Axapta 3.0 Programming
Venkatesh Rajaraman
Belum ada peringkat
CSharp Coding Standards
Dokumen18 halaman
CSharp Coding Standards
Marouane Bouzid
100% (1)
Catalogs
Dokumen129 halaman
Catalogs
Rohit shahi
Belum ada peringkat
Sap Master Data in Materials Management
Dokumen13 halaman
Sap Master Data in Materials Management
edmondo77
Belum ada peringkat
Interview Success Kit - Free Edition
Dokumen180 halaman
Interview Success Kit - Free Edition
vivek_sharma13
Belum ada peringkat
All Interview Questions Cognos Ibm
Dokumen13 halaman
All Interview Questions Cognos Ibm
Kishore Maram
Belum ada peringkat
SQL Guid Vs Int
Dokumen19 halaman
SQL Guid Vs Int
Francisco Carabez
Belum ada peringkat
Logical Data Modeling Guide
Dokumen13 halaman
Logical Data Modeling Guide
Boyapally Ravikanth Reddy
Belum ada peringkat
Oracle Database 12c: SQL Fundamentals: Oracle 1Z0-061 Dumps Available Here at
Dokumen13 halaman
Oracle Database 12c: SQL Fundamentals: Oracle 1Z0-061 Dumps Available Here at
Sriram A
Belum ada peringkat
Microsoft Certleader 98-381 Practice Test V2018-May-17 by Darcy 134q Vce PDF
Dokumen7 halaman
Microsoft Certleader 98-381 Practice Test V2018-May-17 by Darcy 134q Vce PDF
Sravan Kumar
Belum ada peringkat
Microsoft Certleader 98-381 Practice Test V2018-May-17 by Darcy 134q Vce PDF
Dokumen7 halaman
Microsoft Certleader 98-381 Practice Test V2018-May-17 by Darcy 134q Vce PDF
Sravan Kumar
Belum ada peringkat
Data Definition Job Aid
Dokumen10 halaman
Data Definition Job Aid
NoSpam
Belum ada peringkat
MIS604 Assessment 2 Brief ELINK-converted Elink
Dokumen8 halaman
MIS604 Assessment 2 Brief ELINK-converted Elink
Zouh Bharat
Belum ada peringkat
Confiion - Workbook - EC - Employee - Data - ECM - v4
Dokumen67 halaman
Confiion - Workbook - EC - Employee - Data - ECM - v4
Gunjan Shah
Belum ada peringkat
Project - Implementing CRM For Result Tracking of A Candidate With Internal Marks
Dokumen11 halaman
Project - Implementing CRM For Result Tracking of A Candidate With Internal Marks
Venkateswara Rasupalli
Belum ada peringkat
Microsoft Word - 03RD Practices AnswersAdvancedFeatures 3
Dokumen17 halaman
Microsoft Word - 03RD Practices AnswersAdvancedFeatures 3
Venkatakishore Ch
Belum ada peringkat
Assignment P.G.D.C
Dokumen9 halaman
Assignment P.G.D.C
dn82shukla
Belum ada peringkat
Ultimate Microsoft Technical Q & A
Dokumen320 halaman
Ultimate Microsoft Technical Q & A
api-3824338
Belum ada peringkat
Actual 1Z0 591 Exam Questions
Dokumen10 halaman
Actual 1Z0 591 Exam Questions
Jinendraabhi
0% (1)
SQL Guid Vs Int
Dokumen19 halaman
SQL Guid Vs Int
Francisco Carabez
Belum ada peringkat
It430 Mid Term Session
Dokumen4 halaman
It430 Mid Term Session
Ayesha Mughal
Belum ada peringkat
Stu019 SK
Dokumen6 halaman
Stu019 SK
suryamenon21
Belum ada peringkat
Test Scenario Test Cases: Validation
Dokumen4 halaman
Test Scenario Test Cases: Validation
Ranjit Singh
Belum ada peringkat
Parser Transformation
Dokumen4 halaman
Parser Transformation
Shiva CH
Belum ada peringkat
Twitter Case
Dokumen4 halaman
Twitter Case
Peeyush Sanam
Belum ada peringkat
Computer - P840 - 2023 - 08 June 2
Dokumen39 halaman
Computer - P840 - 2023 - 08 June 2
Preservice Teacher 6
Belum ada peringkat
Mechanical Engg 4th Year
Dokumen21 halaman
Mechanical Engg 4th Year
Piyush Pant
Belum ada peringkat
Support Vector Based Battery State of Charge Estimator: Terry Hansen, Chia-Jiu Wang
Dokumen8 halaman
Support Vector Based Battery State of Charge Estimator: Terry Hansen, Chia-Jiu Wang
fast scope
Belum ada peringkat
Final Dzuo Tding Vfang PDF
Dokumen3 halaman
Final Dzuo Tding Vfang PDF
Mark Edward Gonzales
Belum ada peringkat
Sciencedirect Sciencedirect Sciencedirect
Dokumen6 halaman
Sciencedirect Sciencedirect Sciencedirect
Amine Sassi
Belum ada peringkat
Credit Card Project-2
Dokumen17 halaman
Credit Card Project-2
Jeevan J
Belum ada peringkat
Kernels, Model Selection and Feature Selection
Dokumen5 halaman
Kernels, Model Selection and Feature Selection
Gautam Vashisht
Belum ada peringkat
Automatically Learning Construction Injury Precursors From Text
Dokumen35 halaman
Automatically Learning Construction Injury Precursors From Text
prasmyth6897
Belum ada peringkat
Large Margin Deep Networks For Classification
Dokumen16 halaman
Large Margin Deep Networks For Classification
Shah Nawaz Khan
Belum ada peringkat
T-04 A Survey On Device Behavior Fingerprinting II-2021
Dokumen30 halaman
T-04 A Survey On Device Behavior Fingerprinting II-2021
VICTOR ALVIN AYVAR RISCO
Belum ada peringkat
A Study On Supervised Machine Learning Algorithm To Improvise Intrusion Detection Systems For Mobile Ad Hoc Networks
Dokumen10 halaman
A Study On Supervised Machine Learning Algorithm To Improvise Intrusion Detection Systems For Mobile Ad Hoc Networks
Dilip Kumar
Belum ada peringkat
Blockchain Management and Machine Learning Adaptation For IoT
Dokumen27 halaman
Blockchain Management and Machine Learning Adaptation For IoT
jasmine
Belum ada peringkat
Machine Learning: Huawei AI Academy Training Materials
Dokumen46 halaman
Machine Learning: Huawei AI Academy Training Materials
fadhil muhammad hanafi
Belum ada peringkat
Survey Paper On Algorithms Used For Sentiment Analysis
Dokumen6 halaman
Survey Paper On Algorithms Used For Sentiment Analysis
IJRASETPublications
Belum ada peringkat
Dragon Bundle Projects List
Dokumen18 halaman
Dragon Bundle Projects List
Qasim
Belum ada peringkat
Methods in Single Phase To Ground Faults On Power Distribution Systems
Dokumen9 halaman
Methods in Single Phase To Ground Faults On Power Distribution Systems
Jorge Restrepo
Belum ada peringkat
A Comparative Study On Sentiment Analysis
Dokumen4 halaman
A Comparative Study On Sentiment Analysis
International Journal of Innovative Science and Research Technology
100% (1)
Pore Pressure Prediction by Machine Learning Techniques
Dokumen15 halaman
Pore Pressure Prediction by Machine Learning Techniques
haderman
Belum ada peringkat
Machine Learning To Design Full-Reference Image Quality Assessment Algorithm
Dokumen11 halaman
Machine Learning To Design Full-Reference Image Quality Assessment Algorithm
Cẩm Tú Cầu
Belum ada peringkat
Multi-Traffic Scene Perception Based On Supervised Learning
Dokumen10 halaman
Multi-Traffic Scene Perception Based On Supervised Learning
Amit Kumar
Belum ada peringkat
Toronto FinTech Curriculum
Dokumen13 halaman
Toronto FinTech Curriculum
Thanh
Belum ada peringkat
Re 2022 28004
Dokumen45 halaman
Re 2022 28004
Mallineni Meghana
Belum ada peringkat
Fundamentals of Predictive Analytics A Business Analytics Course
Dokumen36 halaman
Fundamentals of Predictive Analytics A Business Analytics Course
King Reyes
Belum ada peringkat
Diabetes Disease Prediction Using A Web Tool With The Help of A Machine Learning Model.
Dokumen43 halaman
Diabetes Disease Prediction Using A Web Tool With The Help of A Machine Learning Model.
Iann Clarke
Belum ada peringkat
CIS 419/519 Introduction To Machine Learning Assignment 2: Instructions
Dokumen12 halaman
CIS 419/519 Introduction To Machine Learning Assignment 2: Instructions
Toán
Belum ada peringkat
Al Hawari2019
Dokumen17 halaman
Al Hawari2019
Ragnar Alon
Belum ada peringkat
A Comparative Study On Air Quality Analysis by SVM K - Means and Naive Bayes Algorithms
Dokumen17 halaman
A Comparative Study On Air Quality Analysis by SVM K - Means and Naive Bayes Algorithms
mani
Belum ada peringkat
Applied Sciences: Outlier Detection Based Feature Selection Exploiting Bio-Inspired Optimization Algorithms
Dokumen28 halaman
Applied Sciences: Outlier Detection Based Feature Selection Exploiting Bio-Inspired Optimization Algorithms
Ayman Tanira
Belum ada peringkat
Predictive Maintenance For Industrial IoT of Vehicle PDF
Dokumen15 halaman
Predictive Maintenance For Industrial IoT of Vehicle PDF
a
Belum ada peringkat
The Applications of Artificial Intelligence in Logistics and Supply Chain
Dokumen12 halaman
The Applications of Artificial Intelligence in Logistics and Supply Chain
Sumit Bhardwaj
Belum ada peringkat
Mini Project Report: Submitted in Partial Fulfilment of The Requirement For The University of Mumbai For The Degree of by
Dokumen24 halaman
Mini Project Report: Submitted in Partial Fulfilment of The Requirement For The University of Mumbai For The Degree of by
Sana Khan
Belum ada peringkat