{< figure align=center src=“images/Extract-Text-from-Word-Documents.jpg” alt=“Poimi tekstiä MS Word -asiakirjoista C#:lla”>}}

Microsoft Word -asiakirjat ovat perustekijä tekstisisällön luomisessa ja jakamisessa. Jos kehität C#-sovelluksia, jotka ovat vuorovaikutuksessa näiden asiakirjojen kanssa, saatat löytää itsesi tarvitsevan tekstin poimimista niistä. Tämä voi olla tarkoituksiin, kuten tekstin analysointiin tai tiettyjen asiakirjojen osien poimimiseen kootaan uusiin.

Sisällön taulukko

C# Kirjaston tekstinpoisto {# Kirjaston-poista-Text-from-Word-Documents}

Aspose.Words for .NET on tehokas ja käyttäjäystävällinen kirjasto, joka on suunniteltu työskentelemään Word-asiakirjojen kanssa. Se tarjoaa kattavan joukon ominaisuuksia, kuten tekstin poistoa, asiakirjojen luomista, manipulointia ja muuntamista. Aspose.Words for .NET -ohjelmalla kehittäjät voivat hallita tehokkaasti eri osa-alueita Word-asiakirjoista, mikä tekee siitä arvokkaan työkalun kehittämistarpeisiisi.

Jotta voimme aloittaa, Lataa kirjastot tai asentaa suoraan NuGet Käytä seuraavaa komentoa pakettien hallintakonsolissa:

PM> Install-Package Aspose.Words

Tekstiä Word-asiakirjoissa

MS Word -asiakirja sisältää erilaisia elementtejä, kuten kappaleita, taulukoita ja kuvia. Tämän seurauksena tekstin poistoa koskevat vaatimukset voivat vaihdella käytön perusteella.

Jokainen Word-asiakirjan elementti on edustettu solmuna. Siksi asiakirjan tehokkaaseen käsittelyyn sinun on työskenneltävä näiden solmujen kanssa.

Vaiheittainen opas tekstin poistoon Word-asiakirjasta

Tässä osassa toteutamme C#-tekstin uutiskirjeen Word-asiakirjoille.Tekstiä uutiskirjeen työnkulku sisältää seuraavat vaiheet:

  1. Määritä solmut, jotka on sisällytettävä uuttoprosessiin.
  2. Poista sisältö määritettyjen solmujen välillä (mukaan lukien tai sulkemalla alku- ja loppusolut).
  3. Käytä kloonattuja poistettuja solmuja luodaksesi uuden Word-asiakirjan, joka sisältää poistetun sisällön.

Luodaan menetelmä, jonka nimi on ExtractContent joka hyväksyy solmuja ja muita parametreja tekstin poistoon.Tämä menetelmä analysoi asiakirjan ja kloontaa solmuja seuraavien parametrien perusteella:

  • StartNode ja EndNode: Nämä määrittelevät sisällönpoistopisteiden alku- ja loppupisteet. Ne voivat olla lohkotasolla (esim.., kappaleessa, Pöytätai inline-tason solmuja (esimerkiksi., juokseminen, FieldStart, BookmarkStart).
    • kentät, siirtäkää vastaava FieldStart kohteen kanssa.
    • Bookmarks - Käytä BookmarkStart ja BookmarkEnd Nokian kanssa.
    • Kommentteja, työllistäminen CommentRangeStart ja CommentRangeEnd Nokian kanssa.
  • IsInclusive: Tämä parametri määrittää, sisältyvätkö merkit uuttamiseen.Jos asetetaan väärä ja samat tai peräkkäiset solmut on annettu, tyhjä luettelo palautetaan.

Tässä on täydellinen toteutus ExtractContent menetelmä, jolla sisältö poistetaan määritettyjen solmujen välillä:

Lisäksi jotkut apuvälineet ovat tarpeen ExtractContent menetelmä tekstin uutto toiminnan helpottamiseksi:

Nyt kun menetelmämme ovat valmiita, voimme jatkaa tekstin poimimista Word-asiakirjasta.

Tekstin poiminta tekstin välissä

Voit poimia sisältöä kahden kappaleen välillä Word DOCX -asiakirjassa seuraavasti:

  1. Lataa Word-asiakirja käyttämällä asiakirja Luokan kanssa.
  2. Saada viittauksia alku- ja loppupäätteisiin käyttämällä Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) menetelmää varten.
  3. Soita heille ExtractContent(startPara, endPara, True) menetelmä, jolla solmut poistetaan objektiin.
  4. Käytä sitä GenerateDocument(Document, extractedNodes) Apuväline, jolla luodaan dokumentti, jossa on poistettu sisältö.
  5. Tallenna uusi asiakirja käyttämällä Document.Save(string) menetelmää varten.

Tässä on koodinäyte, joka osoittaa, miten tekstin poisto 7 ja 11 kappaleen välillä Word-asiakirjassa:

Erilaisten solmujen välinen teksti

Voit myös poimia sisältöä eri tyyppisten solmujen välillä. Esimerkiksi poista sisältöä kappaleen ja taulukon välillä ja tallenna se uuteen Word-asiakirjaan.:

  1. Saada viittauksia aloitus- ja päättymisliikkeisiin käyttämällä Document.FirstSection.Body.GetChild(NodeType, int, boolean) menetelmää varten.
  2. soittaminen ExtractContent(startPara, endPara, True) Poistetaan solmut kohteeseen.
  3. Tallenna uusi asiakirja käyttämällä Document.Save(string).

Tässä on koodin näyte kappaleen ja taulukon välisestä tekstin poimimisesta C#: ssä:

Tekstin poisto tyylin perusteella {#Poista tekstiä - välissä - kappaleiden perusteella - tyylit}

Voit poimia sisältöä kappaleiden välillä tyylien perusteella seuraamalla näitä vaiheita.Tässä esittelyssä poimimme sisältöä ensimmäisen “otsikko 1” ja ensimmäisen “otsikko 3” väliltä Word-asiakirjassa:

  1. Poista kappaleita objektiin, jossa käytetään Tiedostojen nimi(Dokumentti, ”otsikko 1”) Apuva menetelmä.
  2. Poista kappaleita toiseen objektiin käyttämällä Tiedostojen nimi(Dokumentti, ”otsikko 3”).
  3. soittaminen ExtractContent(startPara, endPara, True) Ensimmäiset kappaleet molemmista kappaleista.
  4. Tallenna uusi asiakirja käyttämällä Document.Save(string).

Tässä on koodin näyte kappaleiden sisällön poimimiseksi tyylien perusteella:

Lue lisää tekstinpoisto

Tutki lisäskenaarioita tekstin poimimiseksi Word-asiakirjoista Tämä dokumentti artikkeli.

Hanki ilmainen Word Text Extractor -kirjasto

Voit saada a Vapaa tilapäinen lupa Tekstiä voi poimia ilman arviointirajoituksia.

Päätelmää

Aspose.Words for .NET on monipuolinen kirjasto, joka tehostaa tekstin poimimista Word-asiakirjoista C#:lla. Laajojen ominaisuuksiensa ja käyttäjäystävällisen API:n avulla voit tehokkaasti käsitellä Word-asiakirjoja ja automatisoida erilaisia tekstin poimintaskenaarioita. Olipa kyseessä sovellusten kehittäminen, jotka vaativat Word-asiakirjojen käsittelyä, tai pelkkä tekstin poiminta, Aspose.Words for .NET on olennainen työkalu kehittäjille.

Jos haluat tutustua lisäämme Aspose.Words for .NET -ohjelman ominaisuuksiin, katso Dokumentaatio.Jos sinulla on kysyttävää, voit vapaasti tavoittaa meitä foorumi.

More in this category