Pengumpulan Data Latihan AI

Kumpul dan susun set data web berskala besar untuk penalaan halus dan latihan model AI.

Jawapan Pantas

Gunakan CrawlForge batch_scrape (5 credits) untuk mengambil ratusan URL secara selari, kemudian extract_content (2 credits) untuk memulangkan teks atau markdown yang bersih dan bebas boilerplate sedia untuk saluran paip latihan. Anda mengumpul kandungan berstruktur dan bukannya HTML mentah yang bising, yang meningkatkan kualiti set data dan menurunkan kos prapemprosesan -- kira-kira 7 credits setiap dokumen.

Masalahnya

Melatih dan menala halus model AI memerlukan set data yang besar dan bersih daripada pelbagai sumber web. Mengumpul data ini secara manual tidak praktikal, dan HTML mentah terlalu bising untuk latihan model.

Penyelesaiannya

batch_scrape CrawlForge memproses ratusan URL secara selari untuk skala, manakala extract_content mengembalikan teks bersih dan berstruktur yang sedia untuk saluran paip latihan. Bina set data daripada mana-mana sumber web.

Contoh Kod

// Collect training data from documentation sites
const batch = await mcp.batch_scrape({
  urls: [
    "https://docs.example.com/guide/intro",
    "https://docs.example.com/guide/setup",
    "https://docs.example.com/guide/advanced",
    // ... hundreds more URLs
  ],
  format: "markdown",
});

// Extract clean content for each page
const dataset = await Promise.all(
  batch.results.map(page =>
    mcp.extract_content({
      url: page.url,
      format: "text",
      remove_navigation: true,
    })
  )
);

console.log(`Collected ${dataset.length} documents`);

Alat Digunakan

batch_scrape5 credits

extract_content2 credits

Anggaran kos: ~7 credits setiap dokumen

Soalan Lazim

Bagaimana saya boleh mengumpul data latihan yang bersih daripada web secara berskala besar?

Gunakan batch_scrape CrawlForge untuk mengambil ratusan URL secara selari, kemudian extract_content untuk memulangkan teks yang bersih dan bebas boilerplate yang sedia untuk saluran latihan. Anda mendapat kandungan berstruktur, bukannya HTML mentah yang berselerak.

Mengapa tidak gunakan sahaja HTML mentah untuk latihan model?

HTML mentah penuh dengan navigasi, iklan, dan markup yang menambah gangguan dan membazirkan tokens. extract_content menggunakan pas kebolehbacaan untuk memulangkan hanya kandungan utama sebagai teks bersih atau markdown, yang meningkatkan kualiti set data dan menurunkan kos prapemprosesan.

Bolehkah saya membina set data yang besar daripada banyak sumber?

Ya. batch_scrape pada 5 credits setiap kelompok menyelarikan pengambilan merentasi ratusan URL, dan extract_content pada 2 credits membersihkan setiap satunya. Gabungkan dengan map_site untuk menyenaraikan sesuatu sumber terlebih dahulu, kemudian kelompokkan URL yang terhasil.

Adakah CrawlForge menghormati robots.txt semasa mengumpul data?

CrawlForge mematuhi arahan robots dan anda mengawal sumber mana yang anda crawl. Anda bertanggungjawab ke atas hak data yang anda kumpulkan, jadi sasarkan tapak yang anda dibenarkan gunakan untuk latihan dan pastikan skop crawl anda kekal terancang.

Sedia untuk Bermula?

Setiap akaun baharu mendapat 1,000 credits percuma. Tiada kad kredit diperlukan.

Mula Percuma dengan 1,000 Credits

Kes Penggunaan Berkaitan

Saluran Paip Data Ejen AI

Suapkan ejen AI anda dengan data web langsung melalui pengekstrakan berstruktur dan penyelidikan berbilang sumber.

deep_research (10 cr)extract_content (2 cr)

Pemindahan Kandungan

Ekstrak dan susun semula kandungan daripada laman lama untuk pemindahan ke platform moden.

crawl_deep (4 cr)extract_text (1 cr)

Jawapan Pantas

Contoh Kod

// Collect training data from documentation sites const batch = await mcp.batch_scrape({ urls: [ "https://docs.example.com/guide/intro", "https://docs.example.com/guide/setup", "https://docs.example.com/guide/advanced", // ... hundreds more URLs ], format: "markdown", }); // Extract clean content for each page const dataset = await Promise.all( batch.results.map(page => mcp.extract_content({ url: page.url, format: "text", remove_navigation: true, }) ) ); console.log(`Collected ${dataset.length} documents`);

Soalan Lazim

Bagaimana saya boleh mengumpul data latihan yang bersih daripada web secara berskala besar?

Mengapa tidak gunakan sahaja HTML mentah untuk latihan model?

Bolehkah saya membina set data yang besar daripada banyak sumber?

Adakah CrawlForge menghormati robots.txt semasa mengumpul data?