Semalt Expert: Tekst uit webpagina's extraheren

Hoewel er schraapgereedschappen zijn die in staat zijn om binnen enkele seconden gegevens van meerdere pagina's te extraheren, is de enige zekere manier om tekst van webpagina's te extraheren altijd het markeren en kopiëren van de tekst geweest. Maar deze methode is enigszins omslachtig, vooral in gevallen waarin u tekst van meerdere pagina's moet kopiëren. Ook bedenken webontwikkelaars manieren om de inhoud van een webpagina te vergrendelen om te voorkomen dat deze wordt "gekopieerd".

'Om te beginnen zijn er verschillende snelle methoden om tekst uit webpagina's te halen. Afhankelijk van de hoeveelheid tekst die u wilt verkrijgen, kunt u kiezen uit de volgende modi:

1. Save-page methode

Deze techniek is afhankelijk van het vermogen van browsers om een kopie van de huidige webpagina lokaal op te slaan. Om dit te doen, houdt u simpelweg de bedieningsknop + S ingedrukt of u kunt met de rechtermuisknop op de pagina klikken en de pagina opslaan selecteren in het pop-upmenu. Hierdoor wordt een verkennervenster geopend waarin u enkele kenmerken van de webpagina moet specificeren.

In het onderste gedeelte is er een "bestandsnaam" -optie waarmee u de naam van het webpagina-bestand kunt specificeren. Het is belangrijk op te merken dat de browser ook een map met een vergelijkbare naam zal maken die alle bijgevoegde gegevens van de webpagina zal bevatten, zoals afbeeldingen en achtergronden.

Daaronder is er een optie "opslaan als type" waarmee u kunt specificeren welk bestandstype u wilt opslaan. Aangezien we geïnteresseerd zijn in tekst, selecteert u alleen opslaan als ".txt", dat automatisch een tekstbestand zal maken dat alle tekst van de webpagina bevat en kan worden bewerkt met elke tekstverwerker. Deze methode is vooral handig in scenario's waarin u volledige pagina's moet kopiëren. Als u bepaalde delen van de tekst wilt weglaten, open dan gewoon het tekstbestand en knip de overbodige tekst uit.

2. Ctrl + C en Ctrl + V-methode

Dit is waarschijnlijk de oudste truc in het boek, door alleen je muis te gebruiken om de tekst te markeren die je wilt extraheren, kun je doorgaan met kopiëren en ergens anders plakken. Deze methode is handig wanneer u fragmenten moet kopiëren en deze snel in een ander document moet gebruiken.

Om dit uit te voeren, moet u naar het gedeelte met de gewenste tekst scrollen, de linkermuisknop ingedrukt houden om de cursor van de "navigatie" -modus naar de "highlight" -modus te schakelen. Hiermee kunt u de tekst markeren. Blijf de linkermuisknop ingedrukt houden en beweeg de cursor om uw tekst te markeren. Als je klaar bent, laat je de knop los en klik je met de rechtermuisknop op de tekst die je hebt gekopieerd om het navigatiemenu te openen. Daarop klikt u op de optie "kopiëren" om de geselecteerde tekst te kopiëren.

Navigeer naar het tekstdocument waar u de tekst wilt opslaan en klik met de rechtermuisknop om het menu te openen en klik op plakken.

Het is belangrijk op te merken dat u kunt kiezen tussen verschillende plakmodi, maar als u alleen geïnteresseerd bent in tekst, klikt u op plakken als platte tekst.