CrawlForge
Alat LanjutanSetiap Halaman2 credits

process_document

Proses dokumen PDF, DOCX dan TXT dengan pengekstrakan teks, pengekstrakan imej dan sokongan OCR pilihan. Sesuai untuk menghurai kertas akademik, invois, borang dan pemprosesan dokumen pelbagai format.

Kes Penggunaan

Penghuraian Dokumen

Ekstrak teks dan metadata daripada PDF, dokumen Word dan fail teks

Penyelidikan Akademik

Proses kertas penyelidikan, tesis dan penerbitan akademik untuk analisis

Pemprosesan Invois

Ekstrak data berstruktur daripada invois, resit dan dokumen kewangan

Pengekstrakan Borang

Hurai borang permohonan, tinjauan dan soal selidik

Dokumen Undang-undang

Ekstrak teks daripada kontrak, perjanjian dan fail undang-undang

OCR Dokumen Diimbas

Tukar imej dan PDF yang diimbas kepada teks boleh dicari dengan OCR

Endpoint

POST/api/v1/tools/process_document
Auth Required
2 req/s pada pelan Free
2 credits

Parameters

NameTypeRequiredDefaultDescription
source
stringRequired-
Sumber dokumen (URL atau laluan fail bergantung pada sourceType)
Example: https://example.com/document.pdf
sourceType
stringRequired-
Jenis sumber: "url", "pdf_url", "file", atau "pdf_file"
Example: pdf_url
options
objectOptional-
Pilihan pemprosesan
Example: {"extractImages": true, "ocrEnabled": false}
options.extractImages
booleanOptionalfalse
Sama ada untuk mengekstrak imej daripada dokumen
Example: true
options.ocrEnabled
booleanOptionalfalse
Dayakan OCR untuk dokumen yang diimbas (menambah 2 credits setiap halaman)
Example: false
options.maxPages
numberOptional-
Bilangan maksimum halaman untuk diproses (lalai: semua halaman)
Example: 10
Kos Credit: 2 credits setiap halaman + 2 credits tambahan setiap halaman jika OCR didayakan. PDF 10 halaman berkos 20 credits (atau 40 credits dengan OCR).

Contoh Permintaan

terminalBash

Contoh Respons

200 OK3450ms
{
"success": true,
"data": {
"pages": [
{
"pageNumber": 1,
"text": "Introduction\n\nThis research paper explores the applications of machine learning...",
"wordCount": 523,
"images": [
"image_1_base64..."
]
},
{
"pageNumber": 2,
"text": "Methodology\n\nOur approach involves collecting data from multiple sources...",
"wordCount": 612,
"images": []
}
],
"metadata": {
"title": "Machine Learning Applications in Healthcare",
"author": "Dr. Jane Smith",
"creationDate": "2024-01-15",
"pageCount": 10,
"fileSize": 2456789,
"format": "PDF"
},
"extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...",
"images": [
"image_1_base64..."
],
"totalPages": 10,
"processedPages": 10
},
"credits_used": 20,
"credits_remaining": 980,
"processing_time": 3450
}
Field Descriptions
data.pagesTatasusunan objek halaman dengan teks dan imej bagi setiap halaman
data.metadataMetadata dokumen (tajuk, pengarang, tarikh, format)
data.extractedTextTeks gabungan daripada semua halaman
data.imagesTatasusunan imej yang diekstrak dalam format base64 (jika extractImages: true)
data.totalPagesJumlah bilangan halaman dalam dokumen
credits_usedCredits ditolak (2 setiap halaman × 10 halaman = 20 credits)
processing_timeJumlah masa pemprosesan dalam milisaat

Pengendalian Ralat

Format Tidak Disokong (400 Bad Request)

Format dokumen tidak disokong. Format yang disokong: PDF, DOCX, TXT.

Fail Terlalu Besar (413 Payload Too Large)

Dokumen melebihi saiz fail maksimum 50MB. Pecahkan dokumen besar kepada fail yang lebih kecil.

Dokumen Rosak (422 Unprocessable Entity)

Dokumen rosak atau dilindungi kata laluan. Pastikan fail sah dan tidak disulitkan.

Credits Tidak Mencukupi (402 Payment Required)

Akaun anda tidak mempunyai credits yang mencukupi untuk dokumen ini (perlu {pageCount} × 2 credits). Beli lebih banyak credits.

Had Kadar Dilampaui (429 Too Many Requests)

Anda telah melampaui had kadar pelan anda. Tunggu sebentar atau naik taraf pelan anda untuk had yang lebih tinggi.

Petua Pro: Gunakan parameter maxPages untuk mengehadkan penggunaan credit semasa memproses dokumen besar. Proses secara berkelompok jika anda hanya memerlukan bahagian tertentu.

Kos Credit

2 credits
2 credits setiap halaman (4 credits dengan OCR)
Setiap halaman yang diproses berkos 2 credits. Dayakan OCR untuk tambahan 2 credits setiap halaman.

Contoh: PDF 10 halaman = 20 credits (atau 40 credits dengan OCR)

Free Plan: 1,000 credit percubaan sekali sahaja = 500 halaman (atau 250 halaman dengan OCR)

Hobby Plan: 5,000 credits/bulan = 2,500 halaman ($19/bln)

Professional Plan: 50,000 credits/bulan = 25,000 halaman ($99/bln)

Alat Berkaitan

summarize_content
Ringkaskan teks dokumen yang diekstrak (4 credits)
extract_text
Ekstrak teks bersih daripada dokumen HTML (1 credit)
Bersedia untuk mencuba process_document? Daftar secara percuma dan dapatkan 1,000 credits untuk mula membina.