Difference between revisions of "Tesseract OCR for Digital Preservation"
(3 intermediate revisions by the same user not shown) | |||
Line 1: | Line 1: | ||
Tesseract OCR for Digital Preservation | Tesseract OCR for Digital Preservation | ||
− | Title:</br> | + | '''Title:</br>''' |
Tesseract OCR for Digital Preservation | Tesseract OCR for Digital Preservation | ||
− | Document Type:</br> | + | '''Document Type:</br>''' |
Standard Operating Procedure | Standard Operating Procedure | ||
− | Security Classification:</br> | + | '''Security Classification:</br>''' |
Technology, Digital Preservation | Technology, Digital Preservation | ||
− | Department:</br> | + | '''Department:</br>''' |
NF Technology | NF Technology | ||
− | Author (s):</br> | + | '''Author (s):</br>''' |
− | Natkeeran | + | Natkeeran </br> |
+ | Sangeetha | ||
− | Approved By:</br> | + | '''Approved By:</br>''' |
− | Year:</br> | + | '''Year:</br>''' |
April 2020 | April 2020 | ||
Line 35: | Line 36: | ||
==Prerequisites== | ==Prerequisites== | ||
− | Python 3 | + | * Python 3 |
− | Tesseract OCR | + | * Tesseract OCR |
− | Text Cleaner | + | * Text Cleaner |
− | |||
==Script ஐ கையாளும் முறை== | ==Script ஐ கையாளும் முறை== | ||
Line 50: | Line 50: | ||
* Github இணைப்பு: https://github.com/tesseract-ocr/tesseract | * Github இணைப்பு: https://github.com/tesseract-ocr/tesseract | ||
* Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw | * Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw | ||
+ | |||
+ | [[Category:Technology]] |
Latest revision as of 22:11, 8 July 2020
Tesseract OCR for Digital Preservation
Title:
Tesseract OCR for Digital Preservation
Document Type:
Standard Operating Procedure
Security Classification:
Technology, Digital Preservation
Department:
NF Technology
Author (s):
Natkeeran
Sangeetha
Approved By:
Year:
April 2020
Contents
நோக்கம் (Purpose of the Document)
நூலக நிறுவனத்தில் மின்வருடப்பட்ட ஆவணங்களின் ஒவ்வொரு தனிப்பட்ட TIF ஆவணங்களையும் text file ஆக மாற்றி வலைத்தளத்தில் பதிவேற்றம் செய்வதற்கும், மின்னூல் உருவாக்கத்திற்கு அடிப்படையாகத் தேவைப்படும் Text (எழுத்துருக்களை) பெற்றுக்கொள்வதற்கு Tesseract4 திறந்த வெளி (Open Source) மென்பொருட்களைப் பயன்படுத்தி உருவாக்கப்பட்ட தானியக்க script இதுவாகும்.
பிரச்சினைகள் (Problems)
மின்வருடப்படும் ஆவணங்கள்மின்னூலாகவும், எழுத்துணரியாக்க கோப்பாக நூலக வலைத்தளத்தில் பதிவேற்றப்படுவதற்கும் தேவை உள்ளது. இதுவரை காலமும் Google OCR பயன்படுத்தப்பட்டது. Google OCR தனிநபர் சேவையாகவும், திறந்த கட்டற்ற மென்பொருளாகவும் அல்லாத காரணத்தால் பிற சேவைகளை நாட வேண்டிய தேவை ஏற்பட்டது அல்லது பணம் செலுத்த வேண்டிய தேவை ஏற்படும்.
நன்மைகள் (Benefits)
Tesseract4 திறந்த மூல கட்டற்ற மென்பொருளாக உள்ள காரணத்தால் இதன் பயன்பாடு நூலகத்திற்கு மிக அவசிய தேவையாகக் கருதப்படுகிறது. ஆரம்பகட்ட நிலையிலேயே இப்போது இதன் சேவை காணப்பட்டாலும் விரைவில் இது ஒரு சிறந்த சேவையாக உருவாக்கம் பெறும். இதன் மூலம் நூலகத்திற்கு தேவையான எழுத்துணரி சார்ந்த தேவைகளை பூர்த்தி செய்துகொள்ள முடியும். Audience இந்த script, Digital Preservation ல் பங்குவகிப்போருக்கும் நூலக பணியாளர்களுக்கும், எழுத்துணரியாக்கம் சார்ந்த செயற்பாடுகளில் ஈடுபடுவோருக்கு பயனுள்ளதாக அமையும்.
Prerequisites
- Python 3
- Tesseract OCR
- Text Cleaner
Script ஐ கையாளும் முறை
Step 1:
எழுத்துணரியாக்கம் செய்யப்பட வேண்டிய ஆவணத்தின் TIF கோப்புக்கள் அடங்கிய Folder ன் path ஐ script ல் குறிப்பிடல்
Step2:
script ஐ run செய்தல்
Reference:
- Github இணைப்பு: https://github.com/tesseract-ocr/tesseract
- Tesseract பாவனை தொடர்பான விளக்கக் காணொளி: https://www.youtube.com/watch?v=kxHp5ng6Rgw