crawl_deep

Temui dan rangkak seluruh tapak web dengan carian melebar-dahulu yang pintar, penapisan URL dan kawalan kedalaman boleh dikonfigurasi. Menghormati robots.txt dan kelewatan rangkak.

Kes Penggunaan

Analisis Seni Bina Tapak

Temui semua halaman dan fahami struktur tapak web untuk audit SEO

Penemuan Kandungan

Cari semua catatan blog, produk atau halaman dokumentasi secara automatik

Perisikan Persaingan

Petakan tapak web pesaing dan temui produk atau ciri baharu

Pengesanan Pautan Rosak

Rangkak tapak untuk mencari 404, pengalihan dan pautan dalaman rosak

Migrasi Data

Temui semua halaman sebelum memindahkan atau mengarkibkan tapak web

Penjanaan Peta Tapak

Cipta peta tapak menyeluruh untuk SEO atau dokumentasi

Endpoint

POST/api/v1/tools/crawl_deep

Auth Required

2 req/s pada pelan Free

4 credits

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL permulaan untuk perangkakan (mesti domain yang sama) Example: https://example.com
maxDepth	number	Optional	3	Kedalaman rangkak maksimum (1-10 aras) Example: 5
maxPages	number	Optional	100	Halaman maksimum untuk dirangkak (1-1000) Example: 500
includePatterns	string[]	Optional	-	Rangkak hanya URL yang sepadan dengan corak regex ini Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	Langkau URL yang sepadan dengan corak regex ini Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	Hormati arahan robots.txt Example: true
sameDomain	boolean	Optional	true	Rangkak hanya URL pada domain yang sama Example: true
crawlDelay	number	Optional	1000	Kelewatan antara permintaan dalam milisaat (100-5000) Example: 2000

Contoh Permintaan

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/crawl_deep \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "maxDepth": 5,
    "maxPages": 500,
    "includePatterns": ["/blog/.*", "/products/.*"],
    "excludePatterns": ["/admin/.*", ".*\\.(pdf|zip)$"],
    "respectRobotsTxt": true,
    "crawlDelay": 2000
  }'

Contoh Respons

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscoveredJumlah URL unik yang ditemui semasa perangkakan

data.pagesCrawledBilangan halaman yang berjaya diambil

data.maxDepthReachedAras kedalaman maksimum yang dicapai

data.urlsTatasusunan semua URL yang ditemui dengan metadata

data.statisticsStatistik agregat perangkakan

credits_used4 credits setiap permintaan rangkak (yuran rata)

processing_timeJumlah tempoh perangkakan (berbeza mengikut saiz tapak)

Pengendalian Ralat

Disekat oleh Robots.txt (403 Forbidden)

robots.txt tapak melarang perangkakan. Tetapkan respectRobotsTxt=false untuk mengatasinya (gunakan secara bertanggungjawab).

Halaman Maksimum Dicapai (200 OK dengan amaran)

Perangkakan terhenti pada had maxPages. Tingkatkan had atau tapis URL dengan lebih khusus.

Corak Tidak Sah (400 Bad Request)

includePatterns atau excludePatterns mengandungi regex tidak sah. Semak sintaks corak.

Credits Tidak Mencukupi (402 Payment Required)

Credits ditempah di hadapan (anggaran). Tambah lebih banyak credits sebelum memulakan perangkakan besar.

Tip Pro: Gunakan includePatterns untuk merangkak bahagian tertentu (cth., /blog/). Ini menjimatkan credits dan mengurangkan masa perangkakan. Hormati crawlDelay untuk mengelakkan tapak yang lebih kecil terbeban—1-2 saat disyorkan.

Kos Credit

4 credits

4 credits setiap permintaan

Yuran rata setiap permintaan rangkak tanpa mengira halaman yang ditemui. Rangkak sehingga 1,000 halaman setiap permintaan.

Apa yang Disertakan:

Sehingga 1,000 halaman setiap perangkakan

Kedalaman boleh dikonfigurasi (1-10 aras)

Penapisan corak URL

Pengendalian robots.txt

Statistik perangkakan penuh

Cadangan Pelan:

Free Plan: 1,000 credits percubaan sekali sahaja = 250 permintaan rangkak

Hobby Plan: 5,000 credits = 1,250 permintaan rangkak ($19/mo)

Professional Plan: 50,000 credits = 12,500 permintaan rangkak ($99/mo)

Alat Berkaitan

map_site

Penemuan peta tapak pantas tanpa perangkakan penuh (2 credits)

batch_scrape

Kikis URL yang ditemui secara selari (5 credits)

extract_links

Ekstrak pautan daripada satu halaman (1 credit)

screenshot

Tangkap screenshot halaman yang ditemui (2 credits)

Bersedia untuk mencuba crawl_deep? Daftar secara percuma dan dapatkan 1,000 credits untuk mula membina.

Kes Penggunaan

Analisis Seni Bina Tapak

Temui semua halaman dan fahami struktur tapak web untuk audit SEO

Penemuan Kandungan

Cari semua catatan blog, produk atau halaman dokumentasi secara automatik

Perisikan Persaingan

Petakan tapak web pesaing dan temui produk atau ciri baharu

Pengesanan Pautan Rosak

Rangkak tapak untuk mencari 404, pengalihan dan pautan dalaman rosak

Migrasi Data

Temui semua halaman sebelum memindahkan atau mengarkibkan tapak web

Penjanaan Peta Tapak

Cipta peta tapak menyeluruh untuk SEO atau dokumentasi

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	URL permulaan untuk perangkakan (mesti domain yang sama) Example: https://example.com
maxDepth	number	Optional	3	Kedalaman rangkak maksimum (1-10 aras) Example: 5
maxPages	number	Optional	100	Halaman maksimum untuk dirangkak (1-1000) Example: 500
includePatterns	string[]	Optional	-	Rangkak hanya URL yang sepadan dengan corak regex ini Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	Langkau URL yang sepadan dengan corak regex ini Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	Hormati arahan robots.txt Example: true
sameDomain	boolean	Optional	true	Rangkak hanya URL pada domain yang sama Example: true
crawlDelay	number	Optional	1000	Kelewatan antara permintaan dalam milisaat (100-5000) Example: 2000

Contoh Permintaan

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/crawl_deep \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "maxDepth": 5,
    "maxPages": 500,
    "includePatterns": ["/blog/.*", "/products/.*"],
    "excludePatterns": ["/admin/.*", ".*\\.(pdf|zip)$"],
    "respectRobotsTxt": true,
    "crawlDelay": 2000
  }'

Contoh Respons

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscoveredJumlah URL unik yang ditemui semasa perangkakan

data.pagesCrawledBilangan halaman yang berjaya diambil

data.maxDepthReachedAras kedalaman maksimum yang dicapai

data.urlsTatasusunan semua URL yang ditemui dengan metadata

data.statisticsStatistik agregat perangkakan

credits_used4 credits setiap permintaan rangkak (yuran rata)

processing_timeJumlah tempoh perangkakan (berbeza mengikut saiz tapak)

Pengendalian Ralat

Disekat oleh Robots.txt (403 Forbidden)

robots.txt tapak melarang perangkakan. Tetapkan respectRobotsTxt=false untuk mengatasinya (gunakan secara bertanggungjawab).

Halaman Maksimum Dicapai (200 OK dengan amaran)

Perangkakan terhenti pada had maxPages. Tingkatkan had atau tapis URL dengan lebih khusus.

Corak Tidak Sah (400 Bad Request)

includePatterns atau excludePatterns mengandungi regex tidak sah. Semak sintaks corak.

Credits Tidak Mencukupi (402 Payment Required)

Credits ditempah di hadapan (anggaran). Tambah lebih banyak credits sebelum memulakan perangkakan besar.

Kos Credit

4 credits

4 credits setiap permintaan

Yuran rata setiap permintaan rangkak tanpa mengira halaman yang ditemui. Rangkak sehingga 1,000 halaman setiap permintaan.

Apa yang Disertakan:

Sehingga 1,000 halaman setiap perangkakan

Kedalaman boleh dikonfigurasi (1-10 aras)

Penapisan corak URL

Pengendalian robots.txt

Statistik perangkakan penuh

Cadangan Pelan:

Free Plan: 1,000 credits percubaan sekali sahaja = 250 permintaan rangkak

Hobby Plan: 5,000 credits = 1,250 permintaan rangkak ($19/mo)

Professional Plan: 50,000 credits = 12,500 permintaan rangkak ($99/mo)