process_document
Proses dokumen PDF, DOCX dan TXT dengan pengekstrakan teks, pengekstrakan imej dan sokongan OCR pilihan. Sesuai untuk menghurai kertas akademik, invois, borang dan pemprosesan dokumen pelbagai format.
Kes Penggunaan
Penghuraian Dokumen
Ekstrak teks dan metadata daripada PDF, dokumen Word dan fail teks
Penyelidikan Akademik
Proses kertas penyelidikan, tesis dan penerbitan akademik untuk analisis
Pemprosesan Invois
Ekstrak data berstruktur daripada invois, resit dan dokumen kewangan
Pengekstrakan Borang
Hurai borang permohonan, tinjauan dan soal selidik
Dokumen Undang-undang
Ekstrak teks daripada kontrak, perjanjian dan fail undang-undang
OCR Dokumen Diimbas
Tukar imej dan PDF yang diimbas kepada teks boleh dicari dengan OCR
Endpoint
/api/v1/tools/process_documentParameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
source | string | Required | - | Sumber dokumen (URL atau laluan fail bergantung pada sourceType) Example: https://example.com/document.pdf |
sourceType | string | Required | - | Jenis sumber: "url", "pdf_url", "file", atau "pdf_file" Example: pdf_url |
options | object | Optional | - | Pilihan pemprosesan Example: {"extractImages": true, "ocrEnabled": false} |
options.extractImages | boolean | Optional | false | Sama ada untuk mengekstrak imej daripada dokumen Example: true |
options.ocrEnabled | boolean | Optional | false | Dayakan OCR untuk dokumen yang diimbas (menambah 2 credits setiap halaman) Example: false |
options.maxPages | number | Optional | - | Bilangan maksimum halaman untuk diproses (lalai: semua halaman) Example: 10 |
Contoh Permintaan
Contoh Respons
{ "success": true, "data": { "pages": [ { "pageNumber": 1, "text": "Introduction\n\nThis research paper explores the applications of machine learning...", "wordCount": 523, "images": [ "image_1_base64..." ] }, { "pageNumber": 2, "text": "Methodology\n\nOur approach involves collecting data from multiple sources...", "wordCount": 612, "images": [] } ], "metadata": { "title": "Machine Learning Applications in Healthcare", "author": "Dr. Jane Smith", "creationDate": "2024-01-15", "pageCount": 10, "fileSize": 2456789, "format": "PDF" }, "extractedText": "Introduction\n\nThis research paper explores the applications of machine learning...\n\nMethodology\n\nOur approach involves...", "images": [ "image_1_base64..." ], "totalPages": 10, "processedPages": 10 }, "credits_used": 20, "credits_remaining": 980, "processing_time": 3450}data.pagesTatasusunan objek halaman dengan teks dan imej bagi setiap halamandata.metadataMetadata dokumen (tajuk, pengarang, tarikh, format)data.extractedTextTeks gabungan daripada semua halamandata.imagesTatasusunan imej yang diekstrak dalam format base64 (jika extractImages: true)data.totalPagesJumlah bilangan halaman dalam dokumencredits_usedCredits ditolak (2 setiap halaman × 10 halaman = 20 credits)processing_timeJumlah masa pemprosesan dalam milisaatPengendalian Ralat
Format Tidak Disokong (400 Bad Request)
Format dokumen tidak disokong. Format yang disokong: PDF, DOCX, TXT.
Fail Terlalu Besar (413 Payload Too Large)
Dokumen melebihi saiz fail maksimum 50MB. Pecahkan dokumen besar kepada fail yang lebih kecil.
Dokumen Rosak (422 Unprocessable Entity)
Dokumen rosak atau dilindungi kata laluan. Pastikan fail sah dan tidak disulitkan.
Credits Tidak Mencukupi (402 Payment Required)
Akaun anda tidak mempunyai credits yang mencukupi untuk dokumen ini (perlu {pageCount} × 2 credits). Beli lebih banyak credits.
Had Kadar Dilampaui (429 Too Many Requests)
Anda telah melampaui had kadar pelan anda. Tunggu sebentar atau naik taraf pelan anda untuk had yang lebih tinggi.
Kos Credit
Contoh: PDF 10 halaman = 20 credits (atau 40 credits dengan OCR)
Free Plan: 1,000 credit percubaan sekali sahaja = 500 halaman (atau 250 halaman dengan OCR)
Hobby Plan: 5,000 credits/bulan = 2,500 halaman ($19/bln)
Professional Plan: 50,000 credits/bulan = 25,000 halaman ($99/bln)