Difference between revisions of "Tesseract OCR for Digital Preservation"
(One intermediate revision by the same user not shown) | |||
Line 19: | Line 19: | ||
'''Approved By:</br>''' | '''Approved By:</br>''' | ||
− | Year:</br> | + | '''Year:</br>''' |
April 2020 | April 2020 | ||
Line 50: | Line 50: | ||
* Github இணைப்பு: https://github.com/tesseract-ocr/tesseract | * Github இணைப்பு: https://github.com/tesseract-ocr/tesseract | ||
* Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw | * Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw | ||
+ | |||
+ | [[Category:Technology]] |
Latest revision as of 22:11, 8 July 2020
Tesseract OCR for Digital Preservation
Title:
Tesseract OCR for Digital Preservation
Document Type:
Standard Operating Procedure
Security Classification:
Technology, Digital Preservation
Department:
NF Technology
Author (s):
Natkeeran
Sangeetha
Approved By:
Year:
April 2020
Contents
நோக்கம் (Purpose of the Document)
நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source) மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.
பிரச்சினைகள் (Problems)
மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும்.
நன்மைகள் (Benefits)
Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன் சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம் நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி செய்துகொள்ள முடியும். Audience இந்த script, Digital Preservation ல் பங்குவகிப்போருக்கும் நூலக பணியாளர்களுக்கும், எழுத்துணரியாக்கம் சார்ந்த செயற்பாடுகளில் ஈடுபடுவோருக்கு பயனுள்ளதாக அமையும்.
Prerequisites
- Python 3
- Tesseract OCR
- Text Cleaner
Script ஐ கையாளும் முறை
Step 1:
எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ script ல் குறிப்பிடல்
Step2:
script ஐ run செய்தல்
Reference:
- Github இணைப்பு: https://github.com/tesseract-ocr/tesseract
- Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw