Selamat datang di Scribd!

Lewati carousel

Extracting Meta-Data and Text: Najam Alvi

Diunggah oleh

Najam Alvi

0% menganggap dokumen ini bermanfaat (0 suara)

19 tayangan8 halaman

Extracting meta data

Judul Asli

Najam-6-05-2016

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Extracting meta data

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

19 tayangan8 halaman

Extracting Meta-Data and Text: Najam Alvi

Diunggah oleh

Najam Alvi

Extracting meta data

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 8

Cari di dalam dokumen

F R I D A Y

6TH MAY 16

Zeropoint is a Belgian enterprise offering businesses a competitive advantage through offshoring. Our model is aimed at offering
you precisely the talented people you need while allowing you to
stay in charge of all your processes.

EXTRACTING META-DATA AND TEXT

NAJAM ALVI

Introduction Solution Python Example Reference Questions

Meta-data & Text Extraction

Introduction

Solution

Python Example

Reference

Questions

Extracting Meta-data and Text by Najam Alvi

2/8

Introduction Solution Python Example Reference Questions

Problem
Document handling is still not an easy task. While working on a
personal project, I came across a problem where I have to extract
the document information along-with the text using Python.
Custom ContentHandler and Custom Document parsers were not
suitable as different document types has different formats.
Complexity of the problem was raising with the induction of
different file types, like:
Scanned PDFs
Scanned images with text. (PNG, JPG etc)
Actual documents like doc, ppt, odt, PDF etc.

Extracting Meta-data and Text by Najam Alvi

3/8

Introduction Solution Python Example Reference Questions

Solution

Apache Tika
Apache Tika toolkit detects and extracts meta-data and text from
over a thousand different file types (such as PPT, XLS, PDF and
many more....)
Files can be parsed through a single interface
Useful for search engine indexing
Content Analysis
Translations

Extracting Meta-data and Text by Najam Alvi

4/8

Introduction Solution Python Example Reference Questions

App & JAXRS

Tika App Mode: Works at a network pipe level
Starting Server: java -jar tika-app.jar server port XXXX
Usage: nc 127.0.0.1 xxxx <[FILENAME]
Tika JAXRS: Provides a full RESTful interface
Starting Server: java -jar tika-server.jar host = HOSTNAME port
= XXXX
Usage: curl -X PUT data-binary @FILENAME
http://localhost:XXX/tika header Content-type:
application/pdf
Command Line: java -jar tika-app.jar [Options.] [file]
Usage java -jar tika-app.jar xml test.pdf

Extracting Meta-data and Text by Najam Alvi

5/8

Introduction Solution Python Example Reference Questions

Python Usage

1
2
3

import tika
from tika import parser

4
5

6
7

parsed = parser . from_file ( / path / to / file , http ://

localhost :9292/ tika )
print ( parsed [" metadata "])
print ( parsed [" content "])

8
9

Extracting Meta-data and Text by Najam Alvi

6/8

Introduction Solution Python Example Reference Questions

Further information:

https://tika.apache.org
https://tika.apache.org/0.9/formats.html

Extracting Meta-data and Text by Najam Alvi

7/8

Introduction Solution Python Example Reference Questions

Questions?

Extracting Meta-data and Text by Najam Alvi

8/8

Anda mungkin juga menyukai

Python: Journey from Novice to Expert
Dari Everand
Python: Journey from Novice to Expert
Dusty Phillips
Penilaian: 4.5 dari 5 bintang
4.5/5 (5)
Python Course Content
Dokumen24 halaman
Python Course Content
Arun Bahl
Belum ada peringkat
Your First Python Program
Dari Everand
Your First Python Program
Alexander Paz
Belum ada peringkat
Data Ty
Dokumen59 halaman
Data Ty
Inaara Rajwani
Belum ada peringkat
Python for Data Mining Quick Syntax Reference
Dari Everand
Python for Data Mining Quick Syntax Reference
Valentina Porcu
Belum ada peringkat
Unit - Ii: Mr. Babu Illuri
Dokumen57 halaman
Unit - Ii: Mr. Babu Illuri
Babu I
Belum ada peringkat
Input and Output Text and Binary I/O: Introduction To Java Y.Daniel Liang 1
Dokumen64 halaman
Input and Output Text and Binary I/O: Introduction To Java Y.Daniel Liang 1
Deepak Chaudhary
Belum ada peringkat
Python Programming and Learning
Dokumen26 halaman
Python Programming and Learning
Ravikiran Bhattacharya
Belum ada peringkat
Au Python PDF
Dokumen8 halaman
Au Python PDF
Ismael Ferreras Herrera
Belum ada peringkat
Prediction Dropout or Academic Success
Dokumen5 halaman
Prediction Dropout or Academic Success
nur ashfaraliana
Belum ada peringkat
Data Science Lecture No 5
Dokumen16 halaman
Data Science Lecture No 5
Noman Liaqat
Belum ada peringkat
Audit PDF / Read PDF With Peepdf - Analyze & Modify PDF Files
Dokumen2 halaman
Audit PDF / Read PDF With Peepdf - Analyze & Modify PDF Files
DongDuongICT
Belum ada peringkat
Python Training
Dokumen8 halaman
Python Training
softcrayons tech solutions
Belum ada peringkat
What Is Python?: Why Python For Data Science?
Dokumen3 halaman
What Is Python?: Why Python For Data Science?
sabari balaji
Belum ada peringkat
F 12 CH 04 TEXT FILE HANDLING 1
Dokumen111 halaman
F 12 CH 04 TEXT FILE HANDLING 1
Madhuresh Thakur
Belum ada peringkat
Advanced Python Programming PDF
Dokumen5 halaman
Advanced Python Programming PDF
raluca
Belum ada peringkat
Advantages of Python Over Other Programming Languages
Dokumen42 halaman
Advantages of Python Over Other Programming Languages
samson oino
Belum ada peringkat
Unit 4: Dr. Mohammad Sultan Alam
Dokumen70 halaman
Unit 4: Dr. Mohammad Sultan Alam
Abhinav Jain
Belum ada peringkat
WWW Javatpoint Com Python Interview Questions
Dokumen50 halaman
WWW Javatpoint Com Python Interview Questions
GEN GENTLE INFAMOUS
Belum ada peringkat
Project Format
Dokumen16 halaman
Project Format
jayyadav7474
Belum ada peringkat
Data Science & Python With Deep Learning
Dokumen21 halaman
Data Science & Python With Deep Learning
DR. vaibhav pandit
Belum ada peringkat
Beel 0-285747
Dokumen4 halaman
Beel 0-285747
Daniel Alejandro Herrera Ramírez
Belum ada peringkat
Python Course Content by W3training School
Dokumen5 halaman
Python Course Content by W3training School
INDRADEVI
Belum ada peringkat
Thesis Python
Dokumen5 halaman
Thesis Python
aflnbwmjhdinys
100% (2)
Extract XML From PDF Java
Dokumen2 halaman
Extract XML From PDF Java
Jenn
Belum ada peringkat
Chapter - 2: Data Science & Python
Dokumen17 halaman
Chapter - 2: Data Science & Python
Mubaraka Kundawala
Belum ada peringkat
What Does It Mean Texfile Is Parse in Program - Google Search
Dokumen1 halaman
What Does It Mean Texfile Is Parse in Program - Google Search
Atirut Sengmuang
Belum ada peringkat
Pyton Ls Dyna
Dokumen9 halaman
Pyton Ls Dyna
Nanda
Belum ada peringkat
Sinaxube Functional Programming in Python PDF Saveg PDF
Dokumen3 halaman
Sinaxube Functional Programming in Python PDF Saveg PDF
Sailesh Pilla
Belum ada peringkat
PWP Chapter 6
Dokumen23 halaman
PWP Chapter 6
Sanket Badave
Belum ada peringkat
Python - Processing Text Files
Dokumen34 halaman
Python - Processing Text Files
Kilian Fernando Hernandez Florian
Belum ada peringkat
WADS 2007 Django PDF
Dokumen18 halaman
WADS 2007 Django PDF
Marcelo Teixeira
Belum ada peringkat
Industrial Training Report Python: Submitted To: Submitted by
Dokumen25 halaman
Industrial Training Report Python: Submitted To: Submitted by
Rohit Rana
Belum ada peringkat
Allan Visochek - Practical Data Wrangling-Packt Publishing (2017)
Dokumen284 halaman
Allan Visochek - Practical Data Wrangling-Packt Publishing (2017)
Edwin Paul Araujo Barahona
0% (1)
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
Dokumen37 halaman
Learn Python Pandas For Data Science Quick TutorialExamples For All Primary Operations of DataFrames
Juanito Alimaña
Belum ada peringkat
Top 18 Python Libraries
Dokumen11 halaman
Top 18 Python Libraries
AB
Belum ada peringkat
Python Tutorial
Dokumen60 halaman
Python Tutorial
James Ngugi
Belum ada peringkat
Fundamentals of Programming Assignment
Dokumen13 halaman
Fundamentals of Programming Assignment
Mashood Ahmad
Belum ada peringkat
Ruby and Rails PDF Generation With Prawn, by John McCaffrey at WindyCityRails 09
Dokumen51 halaman
Ruby and Rails PDF Generation With Prawn, by John McCaffrey at WindyCityRails 09
jmccaf
Belum ada peringkat
13 Files and Stream
Dokumen7 halaman
13 Files and Stream
May-ann Norico
Belum ada peringkat
Comprehending The Statistics of Zomato
Dokumen33 halaman
Comprehending The Statistics of Zomato
Gunjan Nautiyal
Belum ada peringkat
Python
Dokumen23 halaman
Python
Manish Goyal
Belum ada peringkat
Anshika Jain Class 10 B
Dokumen15 halaman
Anshika Jain Class 10 B
Shresth Jain
Belum ada peringkat
Python U 4 One Shot Notes - 5fb3c31c 1918 47a2 Bf55 Feb50cb9a8c9
Dokumen32 halaman
Python U 4 One Shot Notes - 5fb3c31c 1918 47a2 Bf55 Feb50cb9a8c9
kr387767
Belum ada peringkat
Stream and File IO
Dokumen44 halaman
Stream and File IO
Ayano Boresa
Belum ada peringkat
Suyash Python File
Dokumen7 halaman
Suyash Python File
Sumit Kumar
Belum ada peringkat
Python For Networking, Security and F5 Administrators
Dokumen4 halaman
Python For Networking, Security and F5 Administrators
Santanu
Belum ada peringkat
Python Network Programming Cookbook Sample Chapter
Dokumen28 halaman
Python Network Programming Cookbook Sample Chapter
Packt Publishing
Belum ada peringkat
Changed
Dokumen16 halaman
Changed
kolle arunkumar
Belum ada peringkat
Python Modules For Machine Learling
Dokumen7 halaman
Python Modules For Machine Learling
seventy six genesis
Belum ada peringkat
Python Unit 1 Nots
Dokumen31 halaman
Python Unit 1 Nots
mdsamadabdul28
Belum ada peringkat
Unit 4
Dokumen87 halaman
Unit 4
Aarthi E
Belum ada peringkat
8.4 File Handling
Dokumen3 halaman
8.4 File Handling
wildcashnumber01
Belum ada peringkat
Data Wrangling & Visualization - II
Dokumen41 halaman
Data Wrangling & Visualization - II
Ujwal mudhiraj
Belum ada peringkat
IP Project
Dokumen9 halaman
IP Project
Ashes
Belum ada peringkat
Arun Teaches Python A Step by Step Guide
Dokumen264 halaman
Arun Teaches Python A Step by Step Guide
Enock Anderson
Belum ada peringkat
Python Programming Unit-1
Dokumen11 halaman
Python Programming Unit-1
Ravi Sundar Matangi
Belum ada peringkat
Project Explanation For Web Scraping
Dokumen36 halaman
Project Explanation For Web Scraping
someshgunda
Belum ada peringkat
100+ Essential Python Questions
Dokumen45 halaman
100+ Essential Python Questions
abhilash gowda
100% (1)
PY0101EN 4 1 ReadFile
Dokumen9 halaman
PY0101EN 4 1 ReadFile
Nguyễn Linh
Belum ada peringkat
ABB FT8 Control System Overview
Dokumen4 halaman
ABB FT8 Control System Overview
Cyrix.One
Belum ada peringkat
New List Femboy Patches 2
Dokumen4 halaman
New List Femboy Patches 2
John Malkovich
Belum ada peringkat
Mobile App Marketing: Sasha, Kinjal, Max and Archit
Dokumen30 halaman
Mobile App Marketing: Sasha, Kinjal, Max and Archit
Kinjal
Belum ada peringkat
ETH - PORT - CTRL Function Block
Dokumen3 halaman
ETH - PORT - CTRL Function Block
MohanChandra
Belum ada peringkat
Getting Started
Dokumen70 halaman
Getting Started
Fernando Duarte
Belum ada peringkat
Secure Coding Practices
Dokumen19 halaman
Secure Coding Practices
das
Belum ada peringkat
Sample Security Plan
Dokumen8 halaman
Sample Security Plan
Antonio Espinosa
Belum ada peringkat
LI-MAT Soft Solutions PVT LTD
Dokumen7 halaman
LI-MAT Soft Solutions PVT LTD
amisha singh
Belum ada peringkat
Envirtech TCPIP-DCTU-01 Concentrator and Transceiver For SCADA
Dokumen2 halaman
Envirtech TCPIP-DCTU-01 Concentrator and Transceiver For SCADA
Furio Ruggiero
Belum ada peringkat
Top Cert
Dokumen199 halaman
Top Cert
Henry
Belum ada peringkat
Online Voting System
Dokumen56 halaman
Online Voting System
ajay_anav
Belum ada peringkat
Windows System Artifacts: Understanding File Systems
Dokumen4 halaman
Windows System Artifacts: Understanding File Systems
test2012
Belum ada peringkat
RWS 5 Q3
Dokumen1 halaman
RWS 5 Q3
Eunice Kyla Mapisa
Belum ada peringkat
New Starters Guide: 2G and 3G MML Commands
Dokumen11 halaman
New Starters Guide: 2G and 3G MML Commands
Sam B
Belum ada peringkat
TBF Drop Improvement Tips in Huawei GSM
Dokumen5 halaman
TBF Drop Improvement Tips in Huawei GSM
bruno
Belum ada peringkat
Software Testing PPT 1
Dokumen24 halaman
Software Testing PPT 1
celine
Belum ada peringkat
Hostel Finder: Web Application: Karan Singh Patel, Mr. Zulfikar Ali Ansari, Harshit Sharma, Aman Kumar, Mohd Nomaan Alam
Dokumen10 halaman
Hostel Finder: Web Application: Karan Singh Patel, Mr. Zulfikar Ali Ansari, Harshit Sharma, Aman Kumar, Mohd Nomaan Alam
Akbar Shaikh
Belum ada peringkat
02 - Global and Local Scopes
Dokumen14 halaman
02 - Global and Local Scopes
michal.zbysinski
Belum ada peringkat
H8Dgu H8Dgu-F: User'S Manual
Dokumen74 halaman
H8Dgu H8Dgu-F: User'S Manual
Iman Mirbloki
Belum ada peringkat
Syllabus M.Com 3
Dokumen8 halaman
Syllabus M.Com 3
Sagar Bangre
Belum ada peringkat
Graphing With Excel Rev 6-10-13
Dokumen6 halaman
Graphing With Excel Rev 6-10-13
Fahad Areeb
Belum ada peringkat
Radiosat 6010 Philips 22dc461 User Manual: Mirror Link #1
Dokumen5 halaman
Radiosat 6010 Philips 22dc461 User Manual: Mirror Link #1
TARIK DERDOURI
Belum ada peringkat
UG 3-2 ECE R16-Syllabus
Dokumen26 halaman
UG 3-2 ECE R16-Syllabus
chandra kiran
Belum ada peringkat
Report Shamoon StoneDrill Final
Dokumen30 halaman
Report Shamoon StoneDrill Final
Mos Moh
Belum ada peringkat
OpenText Documentum Server CE 22.2 - DQL Reference Guide English
Dokumen448 halaman
OpenText Documentum Server CE 22.2 - DQL Reference Guide English
Damo
Belum ada peringkat
Eclipse Shortcut
Dokumen3 halaman
Eclipse Shortcut
Ankit Bhardwaj
Belum ada peringkat
Create PDF in Your Applications With The Pdfcrowd: HTML To PDF Api
Dokumen6 halaman
Create PDF in Your Applications With The Pdfcrowd: HTML To PDF Api
Jean Pierre
100% (1)
Internship Report Documentation
Dokumen21 halaman
Internship Report Documentation
Adugna Etana
Belum ada peringkat
MIL-PRF-25732 REV. D (MIL-P-25732) - Part14
Dokumen1 halaman
MIL-PRF-25732 REV. D (MIL-P-25732) - Part14
David Wong
Belum ada peringkat
251 Internship Report
Dokumen28 halaman
251 Internship Report
Eshwar K
Belum ada peringkat