Convert PDF to TXT in C#

Kā programmētājs, bieži vien jums ir jāizņem saturs no PDF failiem kā plašs teksts turpmākai apstrādei, piemēram, analīzes un informācijas ekstrakcijas. apstrāde PDF failus un pārvērst visu PDF TXT formātā ir grūti uzdevums, kad jums nav pareizo rīku#.

C# bibliotēka PDF uz TXT konversiju

[Aspose.Words for .NET][1] ir pārsteidzošs dokumentu apstrādes API, kas ļauj izstrādātājiem strādāt ar Word dokumentiem, kā arī dažādiem citiem formātiem, tostarp PDF. ar tā plašu funkciju kopumu, Asposa.Vords vienkāršo dokumentu manipulāciju, konversiju un ģenerācijas uzdevumus.

Jūs varat instalēt bibliotēku no [NuGet][5], izmantojot šādu komandu. vai lejupielādēt tās DLL no sadaļas [Releases][6.

PM> Install-Package Aspose.Words 

Konvertēt PDF uz TXT C#

Aspose.Words for .NET slēpj visas sarežģītās tekstus no PDF failiem un ļauj veikt PDF uz TXT konversiju dažos soļos, kā minēts zemāk.

  • Lejupielādēt PDF failu.
  • Konvertēt PDF uz TXT formātu ar vienu funkcijas zvanu.

Tātad, ar pāris kodu līnijas, jūs varat konvertēt saturu PDF failu uz plašu tekstu, neatkarīgi no tā, cik liels ir avots PDF#.

  • Pirmkārt, lejupielādējiet PDF, izmantojot Dokuments klases.
  • Tad saglabājiet dokumentu kā TXT failu, izmantojot Document.Save(filePath) metodi.

Nākamais C# kods snippet konvertē PDF uz TXT formātu.

Iegūt bezmaksas API licences

Jūs varat saņemt [bezmaksas pagaidu licences][2], lai konvertētu PDF failus TXT formātā bez novērtēšanas ierobežojumiem.

Conclusion

Šajā blogā mēs izpētījām, kā konvertēt PDF uz TXT C#, izmantojot Aspose.Words .NET bibliotēkai. sekojot pamatnostādnēm un izmantojot kods snippet, jūs varat viegli apstrādāt lielas PDF failus un pārvērst tos skaidrā tekstā. Asposa.Vords vienkāršo dokumentu apstrādes uzdevumus, padarot to vērtīgu rīku izstrādātājiem, kas strādā ar dažādiem dokumentu formātiem viņu lietojumprogrammās].

Papildu iestatījumi un iespējas

Teksta ekstrakcijas precizitātes uzlabošana

Lai iegūtu tīrāku tekstu un izvairītos no liekiem formatējuma simboliem, varat izmantot Document.TextAbsorber (ja pieejams) vai vienkārši saglabāt dokumentu ar .txt paplašinājumu, kas automātiski filtrē grafiskos elementus. Ja PDF satur tabulas vai kolonnas, teksts tiks saglabāts lineārā secībā, bet varat papildu apstrādāt izvilkto tekstu, izmantojot System.Text.StringBuilder, lai pievienotu jaunu rindkopu vai noņemtu nevajadzīgus tukšumus.

Lielu failu apstrāde

Strādājot ar milzīgiem PDF (vairāk nekā 100 MB), ieteicams izmantot MemoryStream kombināciju, lai samazinātu diska I/O:

Šis piemērs demonstrē, kā izvairīties no pagaidu failiem, turpinot apstrādi tikai atmiņā. Tas ir īpaši noderīgi mākoņpakalpojumos vai konteinerizētās vidēs.

Biežāk uzdotie jautājumi (FAQ)

1. Vai Aspose.PDF var saglabāt teksta kodējumu?

Jā, bibliotēka automātiski saglabā UTF‑8 kodējumu, kas nodrošina pareizu latviešu diakritisko rakstzīmju attēlošanu. Ja nepieciešams cits kodējums, varat izmantot System.Text.Encoding un pārveidot izvadīto byte[] masīvu.

2. Kā extrahēt tikai konkrētas lapas tekstu?

Izmantojiet Document.Pages[x] kolekciju, lai atlasītu vajadzīgo lapu, un tad izsauciet Save tikai šai lapai:

3. Vai var izveidot teksta failu ar pielāgotu faila nosaukumu, kas ietver datuma un laika zīmi?

Jā, vienkārši izmantojiet DateTime.Now.ToString("yyyyMMdd_HHmmss") kā daļu no faila ceļa:

4. Kā izvairīties no “OutOfMemoryException” kļūdas lieliem PDF?

Izmantojiet iepriekš minēto MemoryStream pieeju vai sadaliet PDF vairākās mazākās daļās, apstrādājot katru lapu atsevišķi.

5. Vai Aspose.PDF nodrošina atbalstu šifrētiem PDF?

Jā, ja PDF ir aizsargāts ar paroli, ielādējiet to, norādot paroli Document konstruktoram:

Šie biežāk uzdotie jautājumi palīdz risināt tipiskus izaicinājumus, ar ko saskaras izstrādātāji, veicot PDF‑uz‑TXT konversiju, un ļauj izmantot Aspose.PDF iespējas pilnā apjomā.

More in this category