Aby pobrać kod HTML ze strony internetowej, istnieje kilka metod – zarówno manualnych, jak i automatycznych, z użyciem narzędzi do programowania lub przeglądarek. Poniżej znajdziesz szczegółowy poradnik z przykładami zastosowań i kodami gotowymi do użycia.
Pobieranie kodu HTML ręcznie przez przeglądarkę
Najprostszą metodą jest wykorzystanie funkcji przeglądarki internetowej.
Instrukcje krok po kroku:
- Wejdź na wybraną stronę internetową,
- Kliknij prawym przyciskiem myszy w dowolnym miejscu strony,
- Wybierz opcję „Wyświetl źródło strony” lub „Pokaż źródło strony” (zależnie od przeglądarki),
- Otworzy się nowa karta z kodem HTML strony. Możesz całość skopiować do schowka lub zapisać jako plik TXT/HTML.
Dodatkowa opcja: zapisz stronę jako plik
- Kliknij prawym przyciskiem myszy na stronie i wybierz „Zapisz jako” lub „Save as”,
- Wybierz „Strona internetowa, tylko HTML” aby pobrać sam kod źródłowy, lub „Strona internetowa, kompletna” aby pobrać również zasoby dodatkowe (obrazki, skrypty, style CSS).
Pobieranie kodu HTML programistycznie
Python (biblioteka requests)
Idealny dla automatyzacji, pobierania danych z wielu podstron lub integracji w aplikacji.
import requests
url = 'https://przyklad-strony.pl'
response = requests.get(url)
html = response.text
with open('kod_strony.html', 'w', encoding='utf-8') as f:
f.write(html)
C# (klasa HttpWebRequest)
using System.IO;
using System.Net;
string url = "https://przyklad-strony.pl";
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);
request.Proxy = null;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
StreamReader sr = new StreamReader(response.GetResponseStream());
string html = sr.ReadToEnd();
sr.Close();
C++ (biblioteka libcurl)
#include <curl/curl.h>
#include <fstream>
size_t write_data(void *ptr, size_t size, size_t nmemb, std::string *data) {
data->append((char*)ptr, size * nmemb);
return size * nmemb;
}
int main() {
CURL *curl = curl_easy_init();
std::string html;
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://przyklad-strony.pl");
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, write_data);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &html);
curl_easy_perform(curl);
curl_easy_cleanup(curl);
}
std::ofstream file("kod_strony.html");
file << html;
file.close();
return 0;
}
Pobieranie kodu „rozszerzonego” (po modyfikacjach JS)
Zwykłe pobranie źródła HTML zwraca kod bazowy wygenerowany przez serwer. Jeżeli strona dynamicznie modyfikuje treść przy pomocy JavaScript, najlepiej użyć narzędzi emulujących przeglądarkę (np. Selenium, Puppeteer, Playwright). Dzięki temu pobierzesz kod HTML już po wykonaniu wszystkich skryptów.
Przykład: Python + Selenium
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://przyklad-strony.pl")
html = driver.page_source
with open('kod_rozszerzony.html', 'w', encoding='utf-8') as f:
f.write(html)
driver.quit()
Zastosowania pobierania kodu HTML
Zastosowań jest wiele, między innymi –
- Web scraping – automatyczne zbieranie danych ze stron do analiz, monitoring cen, agregatory wiadomości;
- Archiwizacja – zapisywanie wersji stron na potrzeby dokumentowania, analizy zmian czy compliance;
- Testowanie i optymalizacja – pobieranie kodu do testów automatycznych, audytów SEO, porównywania wyświetlania stron;
- Rozwój oprogramowania – pobieranie i analiza kodu w celu budowy parserów, narzędzi czy aplikacji internetowych;
- Edukacja i nauka – analizowanie kodu stron do nauki HTML, JavaScript, SEO czy programowania.
Wskazówki końcowe
- Kod pobrany klasycznymi narzędziami to kod "serwerowy" widoczny w przeglądarce przed wykonaniem skryptów JavaScript,
- Aby pobrać żywą, zmodyfikowaną przez JS wersję strony, wybierz rozwiązania z emulacją przeglądarki,
- Przy pobieraniu danych z cudzych witryn pamiętaj o respektowaniu regulaminów oraz praw autorskich.
Dzięki tym wskazówkom pobierzesz kod HTML ze strony – zarówno w celach edukacyjnych, jak i do złożonych automatyzacji czy web scrapingu.