Token
Definisi
Token ialah unit asas teks yang diproses oleh model bahasa. Teks dipecahkan kepada token (kira-kira 4 aksara atau 0.75 perkataan setiap satu) sebelum diproses oleh model. Kiraan token menentukan kos dan had konteks.
Bagaimana Ia Berkaitan dengan CrawlForge
Memahami token adalah penting apabila menggunakan CrawlForge dengan ejen AI kerana kandungan yang di-scrape menggunakan ruang tetingkap konteks. Halaman web yang panjang mungkin menghasilkan ribuan token, berpotensi memenuhi konteks ejen dan meningkatkan kos API.
Alat CrawlForge seperti extract_text dan summarize_content membantu menguruskan penggunaan token. extract_text mengembalikan hanya kandungan utama tanpa teks pelat dandang, dan summarize_content memadatkan halaman panjang kepada ringkasan padat, mengurangkan jejak token yang dihantar ke LLM anda.
Alat CrawlForge Berkaitan
Istilah Berkaitan
Tetingkap Konteks
Tetingkap konteks ialah jumlah maksimum teks (diukur dalam token) yang boleh diproses oleh model bahasa dalam satu permintaan. Ia termasuk kedua-dua gesaan input dan output yang dijana.
Model Bahasa Besar (LLM)
Model bahasa besar ialah rangkaian neural yang dilatih dengan jumlah data teks yang besar yang boleh memahami dan menjana bahasa manusia. LLM menguasakan pembantu AI, penjana kod, dan ejen autonomi.
Kejuruteraan Gesaan
Kejuruteraan gesaan ialah amalan mereka bentuk dan memperhalus arahan yang diberikan kepada model bahasa untuk mencapai output yang dikehendaki. Ia melibatkan penghasilan gesaan sistem, contoh few-shot, dan pertanyaan berstruktur.
Penalaan Halus
Penalaan halus ialah proses melatih lagi model bahasa pra-latih pada set data tertentu untuk mengkhususkan tingkah lakunya bagi tugasan atau domain tertentu. Ia menyesuaikan model tujuan umum kepada kes penggunaan yang disasarkan.
Mula Scraping dengan 1,000 Credits Percuma
Mulakan dengan CrawlForge hari ini. Tiada kad kredit diperlukan.
Mula scraping dengan 1,000 credits percuma