Pengumpulan Data Latihan AI
Kumpul dan susun set data web berskala besar untuk penalaan halus dan latihan model AI.
Masalahnya
Melatih dan menala halus model AI memerlukan set data yang besar dan bersih daripada pelbagai sumber web. Mengumpul data ini secara manual tidak praktikal, dan HTML mentah terlalu bising untuk latihan model.
Penyelesaiannya
batch_scrape CrawlForge memproses ratusan URL secara selari untuk skala, manakala extract_content mengembalikan teks bersih dan berstruktur yang sedia untuk saluran paip latihan. Bina set data daripada mana-mana sumber web.
Contoh Kod
// Collect training data from documentation sites
const batch = await mcp.batch_scrape({
urls: [
"https://docs.example.com/guide/intro",
"https://docs.example.com/guide/setup",
"https://docs.example.com/guide/advanced",
// ... hundreds more URLs
],
format: "markdown",
});
// Extract clean content for each page
const dataset = await Promise.all(
batch.results.map(page =>
mcp.extract_content({
url: page.url,
format: "text",
remove_navigation: true,
})
)
);
console.log(`Collected ${dataset.length} documents`);Alat Digunakan
batch_scrape5 credits
extract_content2 credits
Anggaran kos: ~7 credits setiap dokumen
Sedia untuk Bermula?
Setiap akaun baharu mendapat 1,000 credits percuma. Tiada kad kredit diperlukan.
Mula Percuma dengan 1,000 CreditsKes Penggunaan Berkaitan
Saluran Paip Data Ejen AI
Suapkan ejen AI anda dengan data web langsung melalui pengekstrakan berstruktur dan penyelidikan berbilang sumber.
deep_research (10 cr)extract_content (2 cr)
Pemindahan Kandungan
Ekstrak dan susun semula kandungan daripada laman lama untuk pemindahan ke platform moden.
crawl_deep (5 cr)extract_text (1 cr)