Gratis OCR-programvara som gör en PDF-sökbar (med sökbar text på rätt plats)

Fråga:

Gratis OCR-programvara som gör en PDF-sökbar (med sökbar text på rätt plats)

Cornelius

2014-04-20 16:30:51 UTC

view on stackexchange narkive permalink

Finns det någon freeware-OCR-programvara (för Linux och / eller Windows) som kan ta ett PDF-skannat dokument som inmatning och mata ut en sökbar PDF som Adobe Acrobat gör?

Med sökbar PDF menade jag att OCR-text är osynlig över originaltexten och kan väljas med musen och kopieras.

Jag vet att gscan2pdf på Linux kan göra något liknande, men texten placeras i sidans övre vänstra hörn och är alldeles för liten, inte alls synkroniserad med texten på den skannade bakgrundssidan. Detta eftersom gscan2pdf matar hela sidan till en OCR-motor. Den ska sönderdela bilden i små bilder med enstaka textrader eller små stycken som ska skickas till OCR-programvara.

Vilket språk vill du använda OCR? Engelsk? Franska? Japanska?

Rumänska och engelska. Tesseract kan göra det men jag kan inte bädda in texten i PDF.

[Lios] (http://linux-intelligent-ocr-solution.googlecode.com/) borde göra det, men jag har ingen personlig erfarenhet av det mjuka.

@VicAche Jag har provat Lios med Tesseract men det kraschar när jag exporterar till PDF. Gränssnittet ser ut som [OCR-matare] (https://code.google.com/p/ocrfeeder/) men mer komplicerat. Hur som helst, tack för ditt förslag. Aldrig hört talas om Lios förut.

@Cornelius det är FLOSS, du kanske vill rapportera de buggar du stöter på.

Ta en titt på den här frågan på AskUbuntu: http: //askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution

Elva svar:

Guido Domenici

2014-06-30 21:03:06 UTC

view on stackexchange narkive permalink

Ett verktyg som låter dig göra det är PDF-XChange Viewer. Den fria versionen låter dig OCR ditt dokument på en mängd olika språk (du kan ladda ner ytterligare språkpaket gratis) och lägga till OCR-texten som ett överlagringstextlager som du kan kopiera från och söka med CTRL + F.

snabb PDF-visare med många funktioner
snabb OCR-motor (om du inte väljer bästa noggrannhet)
många alternativ har PRO -ikonen bredvid dem (endast tillgänglig i Pro-versionen) men du kan dölja dem
färghantering och anpassad skärm DPI-inställningar
Endast Windows-applikation, som inte verkar inte fungera på Vin (tittaren fungerar, men OCR-funktionen gör att den kraschar)

Vad den inte gör:

OCR utnyttjar inte flera kärnor
OCR upptäcker inte teckenstilar (fet, kursiv) eller kopieringsfunktionen förlorar dem
den använder inte korrigera Rumänska diakritiker, men kan fixas om du kopierar text i en redigerare och söker och ersätter:

enter image description here

enter image description here

Bra programvara. Jag uppdaterade ditt svar med min erfarenhet av det hittills.

Det fungerar faktiskt med Wine 1.5.28 ... Inte andra versioner. Lyckligtvis låter PlayOnLinux dig använda flera vinversioner.

@AndreaLazzarotto för mig fungerade det felfritt i Wine 1.8.

@Cornelius, du har rätt. Jag har nyligen provat den nya versionen av PDF Xchange Viewer med Wine 1.9 och nu verkar det fungera. Men det gjorde det inte tidigare, jag antar att de också uppdaterade programmet och det beror inte bara på ett bättre vin.

Betraktaren har avbrutits men kan fortfarande laddas ner via https://www.tracker-software.com/product/pdf-xchange-viewer/download?fileid=446

Verkar fungera med bärbar version 2.5.0322.7 och vin 2.0.3. OCR-sökväg `C: \ Program Files \ Tracker Software \ PDF Viewer \ ocrdats`

student

2014-12-16 01:57:53 UTC

view on stackexchange narkive permalink

Testa pdfsandwich . Från man-sidan:

pdfsandwich genererar "sandwich" OCR pdf-filer, dvs. pdf-filer som endast innehåller bilder (ingen text) kommer att bearbetas av optisk teckenigenkänning (OCR) och texten kommer att läggs till varje sida osynligt "bakom" bilderna.

pdfsandwich är ett kommandoradsverktyg. Om du har en skannad pdf-fil, till exempel den här: alice.pdf (som är det första kapitlet i en roman du kanske har hört talas om), anropa pdfsandwich så här:
  pdfsandwich alice.pdf  
Detta genererar en fil alice_ocr.pdf som ser ut som den ursprungliga filen, men den igenkända texten placeras bakom skannade bilder. Du kan göra sökningar i fulltext nu eller välja textområden.

Ett annat alternativ kan vara OCRmyPDF .

Cornelius

2014-07-22 21:11:52 UTC

view on stackexchange narkive permalink

Den nyare versionen av Tesseract (3.03 RC när detta skrivs) kan göra detta:

gratis, opensource och tvärplarform
från version 3.03 PDF-utdata är tillgänglig
CLI-programvara
stöd för flera språk
tyvärr, enbildsinmatning, så för att skapa ett komplett dokument måste man skapa ett batch-skript för att konvertera varje sidbild till sökbar PDF. Därefter ska PDF-sidor kombineras till en enda PDF med hjälp av verktyg som pdftk strong.

Detta är kommandot:

  tesseract -l <lang> input.tif output pdf

Observera att för att kunna använda detta tillvägagångssätt måste den inmatade PDF-filen först rasteras, eftersom tesseract inte får PDF som inmatning.

Zaroth

2015-06-26 15:22:26 UTC

view on stackexchange narkive permalink

pypdfocr är det som fungerade för mig. Det är ett Python-skript som effektiviserar hela Tesseract-användningen. Efter att ha installerat beroenden (på Linux är det en mycket enklare process) så enkelt som att skriva:

pypdfocr myfile.pdf

Och öppna myfile_ocr .pdf ett tag senare.

BarathVutukuri

2015-07-23 16:18:51 UTC

view on stackexchange narkive permalink

Jag använder Microsoft OneNote som OCR-verktyg. Vid högerklick mot en bild Den kan kopiera hela texten i bilder och den har också möjlighet att söka text med i bilden. Det är gratis och exakt och körs på windows och stöder nästan alla bildformat.

Det kan också söka igenom PDF-filer och Bilder i PDF-filer.

Bonuspoäng är att den stöder flera språk :) Engelska, franska, spanska också

James Polley

2016-08-21 10:14:06 UTC

view on stackexchange narkive permalink

https://www.microsoft.com/en-us/store/p/leadtools-ocr/9wzdncrdr0d5 är en liten enkel WinRT-app (fungerar också bra på Win10) som inte gör något mer än att ta en bild eller pdf och skicka en sandwich-PDF eller text. Det är ganska ful och har absolut ingen konfiguration, men det gör den här lilla uppgiften perfekt.

aparente001

2016-09-07 19:18:34 UTC

view on stackexchange narkive permalink

Du kan få sökbar text med Google Drive.

Välj först en nyckelinställning. Under "allmänt" i dina Google Drive-inställningar markerar du rutan "Konvertera uppladdningar: Konvertera uppladdade filer till Google Docs-redigeringsformat."

Ladda nu upp pdf-filen till din Google Drive (klicka på "ny" och sedan "filuppladdning"). När uppladdningen är klar (kan ta en minut eller två) högerklickar du på den. (Om du har problem med att hitta det, försök att slå "Senaste" i vänster sidofält.) Som jag sa högerklickar du på pdf-filen du laddade upp och väljer "Öppna med ... Google Docs". Nu har du sökbar text.

Leo Cardoso

2017-03-07 17:55:31 UTC

view on stackexchange narkive permalink

Ett annat alternativ är pdf2pdfocr ( https://github.com/LeoFCardoso/pdf2pdfocr) som är baserad på Tesseract-OCR och kan köras på Windows, MacOS och Linux operativsystem.

Ansvarsfriskrivning: Jag är pdf2pdfocr-utvecklaren.

calvinyoung

2015-12-16 03:59:53 UTC

view on stackexchange narkive permalink

Medan de andra svaren på den här tråden fokuserar på skrivbordsprogramvara har jag haft mycket framgång med den här webbtjänsten: http://www.searchablepdfs.org/

Det låter dig ladda upp en PDF av ett skannat dokument och det genererar en "sandwich-PDF" med inbäddad OCR-text som du kan kopiera / klistra in.

Fördelar:

Snabb
OCR-textigenkänning av hög kvalitet (de resultat jag har fått har varit minst lika bra som vad jag har kunnat få från att använda tesseract , som Cornelius nämnde )
Plattformsöverskridande (det är en webbapplikation så att du inte behöver installera någon programvara själv)
Gratis

Nackdelar:

Stöder endast engelska dokument
Bearbetar bara upp till 10 sidor per fil

kpk

2017-10-05 11:03:57 UTC

view on stackexchange narkive permalink

Ytterligare två alternativ:

1) Online: www.sandwichpdf.com

2) Skrivbord (flera operativsystem): NAPS2 - https: //www.naps2 .com /

CodingLove

2019-12-06 01:15:17 UTC

view on stackexchange narkive permalink

Ta en titt på OCRvision. OCRvision är en sökbar PDF-programvara. Den kan konvertera alla skannade dokument i en mapp till sökbar PDF automatiskt. Den stöder flerspråkig OCR. Den kan konfigureras för både skannade PDF- och bildfiler och sedan konvertera till sökbar pdf

Ansvarsfriskrivning: - Jag är associerad med OCRvision som utvecklare

ⓘ

Denna fråga och svar översattes automatiskt från det engelska språket.Det ursprungliga innehållet finns tillgängligt på stackexchange, vilket vi tackar för cc by-sa 3.0-licensen som det distribueras under.

about - legalese

Loading...