Tesseract OCR for Digital Preservation
Tesseract OCR for Digital Preservation
Title:
Tesseract OCR for Digital Preservation
Document Type:
Standard Operating Procedure
Security Classification:
Technology, Digital Preservation
Department:
NF Technology
Author (s):
Natkeeran,Sangeetha
Approved By:
Year:
April 2020
நோக்கம் (Purpose of the Document) நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source) மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.
பிரச்சினைகள் (Problems)
மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும்.
நன்மைகள் (Benefits)
Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன் சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம் நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி செய்துகொள்ள முடியும். Audience இந்த script, Digital Preservation ல் பங்குவகிப்போருக்கும் நூலக பணியாளர்களுக்கும், எழுத்துணரியாக்கம் சார்ந்த செயற்பாடுகளில் ஈடுபடுவோருக்கு பயனுள்ளதாக அமையும்.
Prerequisites Python 3 Tesseract OCR Text Cleaner NLTK - Natural Language Toolkit Script ஐ கையாளும் முறை Step 1: எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ script ல் குறிப்பிடல்
Step2: script ஐ run செய்தல்
Reference:
- Github இணைப்பு: https://github.com/tesseract-ocr/tesseract
- Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw