VietOCR 15 Nhan dang ky tu tieng Viet chuan khong can chinh

Thứ sáu, 25 Tháng mười hai 2009, 15:12 GMT+7

Sau nhieu lan nang cap, phien ban moi cua VietOCR da co them nhieu tinh nang dang gia nhu: ho tro che do quet tich hop, nhan dang ky tu tieng Viet tren nhieu dang anh (bmp, jpg, tiff, png), ho tro cac tai lieu anh nhieu trang va co che xu ly hau ky, giup khac phuc mot so loi ve ngu nghia, chinh ta sau khi xu ly. Dac biet chuong trinh hoan toan mien phi.

Dung luong: 4,2MB.
Tai tai: http://websitetinhoc.com (mien phi).


Mo ta anh.
Nguon: Diendantinhoc
So voi mot so phan mem nhan dang van ban tieng Viet nhu: VnDOCR, VietOCR thuoc vao hang “ngon, bo” va mien phi. Toc do bien dich noi dung nhanh, giao dien don gian, de su dung va muc do chinh xac co the dat hon 80%.

VietOCR bao gom hai phien ban: phien ban GUI Form chay tren Windows (ho tro ca 32/64bit) va phien ban Swing GUI (su dung Java) co the hoat dong tren nhieu he dieu hanh khac nhau nhu: Windows, Linux,…

VietOCR co the su dung nhu mot trinh nhan dang ky tu quang hoc doc lap (xu ly cac file anh, du lieu san co) hoac ket hop voi chuc nang quet de xu ly cac tai lieu duoc nap tu ben ngoai.

Thao tac xu ly van ban duoc chia thanh cac loai:

1. Nhan dang tai lieu anh:

Thong thuong khi quet xong mot tai lieu van ban, file thu duoc se duoc luu duoi dang mot tai lieu anh va khong the xu ly (xoa text, nhap lieu, chinh sua noi dung,…) nhu ban dau. VietOCR se co nhiem vu chuyen doi cac tai lieu nay sang van ban de ban co the xu ly de dang. VietOCR ho tro kha nhieu dinh dang anh nhu: jpg, bmp, png, tiff, tuy nhien khong ho tro dinh dang gif.

De su dung chuong trinh, ban can cai dat them goi Visual C++ 2008 SP1 (neu goi nay chua duoc cai dat vao he thong), sau do truy cap menu File > Open, trong phan File of types ban chon la All Image Files va nap vao file van ban can xu ly. Xong, nhan nut Open.

Tiep den, tren giao dien chinh, ban se nhin thay hai khu vuc: khu vuc nam ben trai chua noi dung cua file tai lieu vua moi them vao, khung ben phai se la tai lieu sau khi trich xuat tu file anh. Khi phan noi dung da duoc nap xong, ban nhan de muc OCR Language (goc tren ben phai man hinh) va chon Vietnamese. Sau do, nhan nut OCR de bat dau qua trinh bien dich noi dung, toc do nhanh hay cham con tuy thuoc vao do dai, ngan cua van ban va toc do xu ly cua may tinh.

Sau khi bien dich xong, ban se co ngay phan du lieu dang text, co the xoa hay thay doi mot cach de dang. Mot diem hay cua VietOCR, do la kha nang tich hop bo go tieng Viet (hoat dong dua tren bo go Unikey), cho phep ban de dang thay doi noi dung van ban co dau ma khong can bo go Unikey thuong truc noi khay he thong. De dinh bo go trong VietOCR, ban truy cap menu Settings > Viet Input Method va chon mot trong cac kieu go: VNI, Telex, VIQR voi Font mac dinh la Unicode duoc tich hop san.

Truong hop chi muon nhan dang rieng mot khu vuc nao do, ban giu trai chuot va re vao vung van ban ma ban muon trich xuat. Khi do, chi noi dung cua vung nay se duoc hien thi ben khung phai man hinh. Neu muon bien dich tai lieu nhieu trang, ban truy cap menu Command > OCR All Pages.

De “thu” kiem tra kha nang nhan dien van ban cua chuong trinh tren cac dinh dang khac nhau, nguoi viet da su dung thu vien mau van ban co san (C:Program FilesVietUnicodeVietOCR.NETsamples) va dung chuong trinh MS Paint cua Windows de luu lai thanh cac dinh dang khac nhau nhu: PNG, JPG va BMP (256 bit) tu file goc co dinh dang .TIFF

Ket qua, ca ba truong hop deu nhan dang duoc van ban kha chuan xac. Tuy nhien mot so dau cau chua dung va mot vai tu van con sai chinh ta, khong ro nghia nhung muc do bien dich so voi ban goc la kha chuan.

2. Cai dat may quet:

Neu nhu cau cua ban la xu ly cac tai lieu ben ngoai thong qua he thong quet cua chuong trinh, nhat thiet ban phai cai dat them may quet. De lam viec nay, ban truy cap vao thu muc cai dat cua VietOCR, tim va sao chep file WIAAut.dll (C:Program FilesVietUnicodeVietOCR.NET) vao thu muc C:WindowsSystem32.

Sau do, ban vao Start > Run, go lenh regsvr32 C:WindowsSystem32WIAAut.dll de dang ky thu vien nay voi Windows. Khi dang ky xong, ban cai driver cho may quet va bat dau tien trinh xu ly van ban nhu tren.

Luu y:

Trong qua trinh bien dich, doi luc ban se gap phai thong bao loi Attemp to read or write protected memory, mot trong nhung nguyen nhan gay ra loi nay la do van ban da dinh sai huong (lech huong di, thay vi nam ngang, van ban da chuyen sang huong dung), ban chi viec nhan nut Rotate vai lan cho dung huong la xong.

Neu khong co may quet va ban van muon “trai nghiem” tinh nang cua phan mem, ban co the tai tien ich ImagePrinter, giup ban chuyen doi bat ky tai lieu nao sang bon dinh dang ho tro san cua chuong trinh (bmp, png, tiff, jpg). Truong hop neu muon chuyen giao dien chuong trinh sang tieng Viet, ban truy cap menu Settings > User Interface Language, chon Vietnamese.

Cung tuong tu qua trinh nhan dang tai lieu anh o tren, trong truong hop nay tai lieu quet se duoc chia thanh hai dang de kiem tra: dang van ban thuan (text) va van ban kem hinh anh. Qua trinh xu ly va bien dich duoc thuc hien nhu buoc 1. Ket qua chuong trinh nhan dang tot voi cac van ban thuan va gap phai tinh trang loi OCR Operation voi cac tai lieu co kem hinh anh. Viec thuc hien nay cung xay ra voi cac dinh dang khac.

Mot dieu luu y voi cac ban, de qua trinh nhan dang anh duoc chinh xac, do phan giai cua ban quet phai dat chuan 300dpi, khong mo, cang sach va ro cang tot.

3. Xu ly tai lieu PDF:

Ngoai kha nang nhan dang cac tai lieu anh, VietOCR con co kha nang xu ly cac tai lieu PDF. De co the su dung duoc tinh nang nay trong VietOCR, ban can cai dat them goi GPL GhostScript 8.7. Sau khi cai xong, ban thuc hien viec xu ly tuong tu cac buoc tren (voi cac tai lieu PDF co chua hinh anh, ket qua van bi loi nhu truong hop hai).

Nhin chung, VietOCR co kha nang xu ly van ban tieng Viet tot, do chinh xac kha cao va tuong thich voi nhieu dinh dang anh khac nhau trong dieu kien van ban thuan (khong chua hinh anh), ban co the dung van ban sau khi xu ly de phuc vu cho cong viec ma khong phai ton thoi gian chinh sua nhieu.

Theo Huy Tran/Echip

Cac bai viet khac:

Tiep theo >>


^ Lên đầu trang ^


Copyright © 2006-2012 by VietBao.vn
Viet Bao Viet Nam - All Rights Reserved.