{< figure align=center src=“images/Extract-Text-from-Word-Documents.jpg” alt=“Poimi tekstiä MS Word -asiakirjoista C#:lla”>}}
Microsoft Word -asiakirjat ovat perustekijä tekstisisällön luomisessa ja jakamisessa. Jos kehität C#-sovelluksia, jotka ovat vuorovaikutuksessa näiden asiakirjojen kanssa, saatat löytää itsesi tarvitsevan tekstin poimimista niistä. Tämä voi olla tarkoituksiin, kuten tekstin analysointiin tai tiettyjen asiakirjojen osien poimimiseen kootaan uusiin.
Sisällön taulukko
- C# - Kirjaston tekstin poisto
- Tekstin poistoa Word-asiakirjoissa
- Vaiheittainen opas tekstin poistamiseen Word-asiakirjasta
C# Kirjaston tekstinpoisto {# Kirjaston-poista-Text-from-Word-Documents}
Aspose.Words for .NET on tehokas ja käyttäjäystävällinen kirjasto, joka on suunniteltu työskentelemään Word-asiakirjojen kanssa. Se tarjoaa kattavan joukon ominaisuuksia, kuten tekstin poistoa, asiakirjojen luomista, manipulointia ja muuntamista. Aspose.Words for .NET -ohjelmalla kehittäjät voivat hallita tehokkaasti eri osa-alueita Word-asiakirjoista, mikä tekee siitä arvokkaan työkalun kehittämistarpeisiisi.
Jotta voimme aloittaa, Lataa kirjastot tai asentaa suoraan NuGet Käytä seuraavaa komentoa pakettien hallintakonsolissa:
PM> Install-Package Aspose.Words
Tekstiä Word-asiakirjoissa
MS Word -asiakirja sisältää erilaisia elementtejä, kuten kappaleita, taulukoita ja kuvia. Tämän seurauksena tekstin poistoa koskevat vaatimukset voivat vaihdella käytön perusteella.
Jokainen Word-asiakirjan elementti on edustettu solmuna. Siksi asiakirjan tehokkaaseen käsittelyyn sinun on työskenneltävä näiden solmujen kanssa.
Vaiheittainen opas tekstin poistoon Word-asiakirjasta
Tässä osassa toteutamme C#-tekstin uutiskirjeen Word-asiakirjoille.Tekstiä uutiskirjeen työnkulku sisältää seuraavat vaiheet:
- Määritä solmut, jotka on sisällytettävä uuttoprosessiin.
- Poista sisältö määritettyjen solmujen välillä (mukaan lukien tai sulkemalla alku- ja loppusolut).
- Käytä kloonattuja poistettuja solmuja luodaksesi uuden Word-asiakirjan, joka sisältää poistetun sisällön.
Luodaan menetelmä, jonka nimi on ExtractContent joka hyväksyy solmuja ja muita parametreja tekstin poistoon.Tämä menetelmä analysoi asiakirjan ja kloontaa solmuja seuraavien parametrien perusteella:
- StartNode ja EndNode: Nämä määrittelevät sisällönpoistopisteiden alku- ja loppupisteet. Ne voivat olla lohkotasolla (esim.., kappaleessa, Pöytätai inline-tason solmuja (esimerkiksi., juokseminen, FieldStart, BookmarkStart).
- kentät, siirtäkää vastaava FieldStart kohteen kanssa.
- Bookmarks - Käytä BookmarkStart ja BookmarkEnd Nokian kanssa.
- Kommentteja, työllistäminen CommentRangeStart ja CommentRangeEnd Nokian kanssa.
- IsInclusive: Tämä parametri määrittää, sisältyvätkö merkit uuttamiseen.Jos asetetaan väärä ja samat tai peräkkäiset solmut on annettu, tyhjä luettelo palautetaan.
Tässä on täydellinen toteutus ExtractContent menetelmä, jolla sisältö poistetaan määritettyjen solmujen välillä:
Lisäksi jotkut apuvälineet ovat tarpeen ExtractContent menetelmä tekstin uutto toiminnan helpottamiseksi:
Nyt kun menetelmämme ovat valmiita, voimme jatkaa tekstin poimimista Word-asiakirjasta.
Tekstin poiminta tekstin välissä
Voit poimia sisältöä kahden kappaleen välillä Word DOCX -asiakirjassa seuraavasti:
- Lataa Word-asiakirja käyttämällä asiakirja Luokan kanssa.
- Saada viittauksia alku- ja loppupäätteisiin käyttämällä Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean) menetelmää varten.
- Soita heille ExtractContent(startPara, endPara, True) menetelmä, jolla solmut poistetaan objektiin.
- Käytä sitä GenerateDocument(Document, extractedNodes) Apuväline, jolla luodaan dokumentti, jossa on poistettu sisältö.
- Tallenna uusi asiakirja käyttämällä Document.Save(string) menetelmää varten.
Tässä on koodinäyte, joka osoittaa, miten tekstin poisto 7 ja 11 kappaleen välillä Word-asiakirjassa:
Erilaisten solmujen välinen teksti
Voit myös poimia sisältöä eri tyyppisten solmujen välillä. Esimerkiksi poista sisältöä kappaleen ja taulukon välillä ja tallenna se uuteen Word-asiakirjaan.:
- Saada viittauksia aloitus- ja päättymisliikkeisiin käyttämällä Document.FirstSection.Body.GetChild(NodeType, int, boolean) menetelmää varten.
- soittaminen ExtractContent(startPara, endPara, True) Poistetaan solmut kohteeseen.
- Tallenna uusi asiakirja käyttämällä Document.Save(string).
Tässä on koodin näyte kappaleen ja taulukon välisestä tekstin poimimisesta C#: ssä:
Tekstin poisto tyylin perusteella {#Poista tekstiä - välissä - kappaleiden perusteella - tyylit}
Voit poimia sisältöä kappaleiden välillä tyylien perusteella seuraamalla näitä vaiheita.Tässä esittelyssä poimimme sisältöä ensimmäisen “otsikko 1” ja ensimmäisen “otsikko 3” väliltä Word-asiakirjassa:
- Poista kappaleita objektiin, jossa käytetään Tiedostojen nimi(Dokumentti, ”otsikko 1”) Apuva menetelmä.
- Poista kappaleita toiseen objektiin käyttämällä Tiedostojen nimi(Dokumentti, ”otsikko 3”).
- soittaminen ExtractContent(startPara, endPara, True) Ensimmäiset kappaleet molemmista kappaleista.
- Tallenna uusi asiakirja käyttämällä Document.Save(string).
Tässä on koodin näyte kappaleiden sisällön poimimiseksi tyylien perusteella:
Lue lisää tekstinpoisto
Tutki lisäskenaarioita tekstin poimimiseksi Word-asiakirjoista Tämä dokumentti artikkeli.
Hanki ilmainen Word Text Extractor -kirjasto
Voit saada a Vapaa tilapäinen lupa Tekstiä voi poimia ilman arviointirajoituksia.
Päätelmää
Aspose.Words for .NET on monipuolinen kirjasto, joka tehostaa tekstin poimimista Word-asiakirjoista C#:lla. Laajojen ominaisuuksiensa ja käyttäjäystävällisen API:n avulla voit tehokkaasti käsitellä Word-asiakirjoja ja automatisoida erilaisia tekstin poimintaskenaarioita. Olipa kyseessä sovellusten kehittäminen, jotka vaativat Word-asiakirjojen käsittelyä, tai pelkkä tekstin poiminta, Aspose.Words for .NET on olennainen työkalu kehittäjille.
Jos haluat tutustua lisäämme Aspose.Words for .NET -ohjelman ominaisuuksiin, katso Dokumentaatio.Jos sinulla on kysyttävää, voit vapaasti tavoittaa meitä foorumi.
More in this category
- Vaihda Word DOC/DOCX PDF:ään C# .NET Aspose.Words' Document Converter Plugin
- Tuot Barcode Wordin asiakirjoissa (.NET, C#) ja Lue Barcode Wordista (.NET)
- Vähennä kuvia Word-asiakirjoista C#:n automaattisessa kuvankäsittelyssä
- Automaattiset raportoinnit C# Mailin kanssa Sekoita Aspose.Words' Mail Sekoita Plugin
- Löydä ja korvaa teksti Word-asiakirjoissa käyttämällä C#-automaattista Word-muokkausta