Mới🚀 Dựa trên mô hình DeepSeek OCR 3B - Mã nguồn mở!

Deepseek-OCR: Nén quang học theo ngữ cảnh

DeepSeek OCR là giải pháp nhận dạng ký tự quang học (OCR) thế hệ mới được xây dựng bởi DeepSeek, hiện có sẵn thông qua mô hình mã nguồn mở và API của họ. Nó hỗ trợ các đầu vào văn bản-hình ảnh phức tạp—bao gồm tài liệu quét, ảnh chụp, biểu mẫu và các trang bố cục hỗn hợp—và thống nhất việc trích xuất văn bản, hiểu bố cục và hiểu ngữ cảnh hình ảnh vào một mô hình liền mạch. DeepSeek OCR có thể chuyển đổi hình ảnh độ phân giải cao ở quy mô công nghiệp (ví dụ: hàng trăm nghìn trang mỗi ngày trên một GPU cấp A100). Hãy dùng thử DeepSeek OCR miễn phí ngay bên dưới!

Dùng thử bản demo trực tiếp DeepSeek OCR

Trải nghiệm sức mạnh của DeepSeek OCR theo thời gian thực. Tải lên hình ảnh của bạn và xem kết quả trích xuất văn bản tức thì với độ chính xác cao.

Loading DeepSeek OCR...

DeepSeek OCR là gì

DeepSeek OCR là một hệ thống nhận dạng ký tự quang học tiên tiến tận dụng công nghệ AI tiên tiến để trích xuất văn bản chính xác từ hình ảnh và tài liệu. Được xây dựng với các mạng nơ-ron phức tạp và hỗ trợ đa ngôn ngữ, nó cung cấp khả năng phát hiện và nhận dạng văn bản mạnh mẽ cho các tình huống phức tạp, cung cấp cả giao diện web trực quan và tích hợp API mạnh mẽ cho quy trình xử lý văn bản hiệu quả và linh hoạt.

Nhận dạng văn bản đa ngôn ngữ
Trích xuất chính xác văn bản từ hình ảnh bằng hơn 80 ngôn ngữ với công nghệ mạng nơ-ron tiên tiến và khả năng xử lý nhận biết ngôn ngữ.
Xử lý cảnh phức tạp
Xử lý các bố cục tài liệu khó khăn với văn bản cong, nhiều hướng và nền phức tạp bằng các thuật toán phát hiện tinh vi.
Nhận dạng độ chính xác cao
Đạt được độ chính xác trích xuất văn bản hàng đầu trong ngành với nhận dạng ký tự quang học được tối ưu hóa và các kỹ thuật hậu xử lý tiên tiến.

Tính năng chính của DeepSeek OCR

Khả năng nhận dạng văn bản được hỗ trợ bởi AI tiên tiến được thiết kế cho các chuyên gia và nhà phát triển trên toàn thế giới.

Hỗ trợ đa ngôn ngữ

Nhận dạng văn bản từ hơn 80 ngôn ngữ bao gồm tiếng Trung, tiếng Anh, tiếng Ả Rập và nhiều hơn nữa với nhận dạng ký tự nhận biết ngôn ngữ.

Phát hiện văn bản mạnh mẽ

Phát hiện các vùng văn bản trong bố cục phức tạp với văn bản cong, nhiều hướng và điều kiện nền khó khăn.

Xử lý tốc độ cao

Xử lý hình ảnh nhanh chóng với pipeline suy luận được tối ưu hóa và tăng tốc GPU cho kết quả trích xuất văn bản theo thời gian thực.

Framework thống nhất

Sử dụng hệ thống phát hiện và nhận dạng văn bản tích hợp cung cấp trích xuất văn bản từ đầu đến cuối từ hình ảnh.

Khôi phục bố cục có cấu trúc

Bảo toàn cấu trúc tài liệu bao gồm đoạn văn, cột và bảng trong khi trích xuất văn bản với định dạng phù hợp.

Tích hợp API

Tích hợp khả năng OCR mạnh mẽ vào ứng dụng của bạn với API RESTful và hỗ trợ SDK cho nhiều ngôn ngữ lập trình.

Mọi người đang nói gì về DeepSeek-OCR trên X

Nếu bạn thích sử dụng DeepSeek OCR, vui lòng chia sẻ trải nghiệm của bạn trên Twitter với hashtag

Massively unexpected update from DeepSeek: a powerful, high-compression MoE OCR model.
> In production, DeepSeek-OCR can generate 33 million pages of data per day for LLMs/VLMs using 20 nodes (x8 A100-40G).
They want ALL the tokens. You're welcome to have some too. https://t.co/ks97gjFuhd pic.twitter.com/mXV08ifRle
— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) October 20, 2025

DeepSeek-OCR has some weird architectural choices for the LLM decoder: DeepSeek3B-MoE-A570M
-> uses MHA, no MLA (not even GQA?)
-> 2 shared experts (like DeepSeek V2, but V3 only has 1)
-> quite low sparsity, activation ratio is 12.5%. For V3 it’s 3.52%, for V2 it’s 5%
-> not… pic.twitter.com/nOYptOn3OE
— elie (@eliebakouch) October 20, 2025

Letsss gooo! DeepSeek just released a 3B OCR model on Hugging Face 🔥

Optimised to be token efficient AND scale ~200K+ pages/day on A100-40G

Same arch as DeepSeek VL2

Use it with Transformers, vLLM and more 🤗https://t.co/n4kHihS3At
— Vaibhav (VB) Srivastav (@reach_vb) October 20, 2025

NEW DeepSeek OCR model that outperforms dots ocr while prefilling 3x less tokens pic.twitter.com/g9T93PndFb
— Casper Hansen (@casper_hansen_) October 20, 2025

🚀 DeepSeek-OCR — the new frontier of OCR from @deepseek_ai , exploring optical context compression for LLMs, is running blazingly fast on vLLM ⚡ (~2500 tokens/s on A100-40G) — powered by vllm==0.8.5 for day-0 model support.

🧠 Compresses visual contexts up to 20× while keeping… pic.twitter.com/bx3d7LnfaR
— vLLM (@vllm_project) October 20, 2025

🚨 DeepSeek just did something wild.

They built an OCR system that compresses long text into vision tokens literally turning paragraphs into pixels.

Their model, DeepSeek-OCR, achieves 97% decoding precision at 10× compression and still manages 60% accuracy even at 20×. That… pic.twitter.com/5ChoESanC8
— God of Prompt (@godofprompt) October 20, 2025

is it just me or is this deepseek paper really…weird? like the flagship results are all about compression ratios and they’re gesturing at implications for LLM memory but… it’s an OCR model? are they suggesting that LLMs should ingest OCR embeddings of screenshots of old notes?? pic.twitter.com/ptxkgANIeW
— will brown (@willccbb) October 20, 2025

DeepSeek-OCR: https://t.co/Hww4tubUiS
— Ray Fernando (@RayFernando1337) October 20, 2025

I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter.

The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language… https://t.co/AxRXBdoO0F
— Andrej Karpathy (@karpathy) October 20, 2025

Compress everything visually!

DeepSeek has just released DeepSeek-OCR, a state-of-the-art OCR model with 3B parameters.

Core idea: explore long-context compression via 2D optical mapping.

Architecture:

- DeepEncoder → compresses high-res inputs into few vision tokens;
-… pic.twitter.com/qbRTi8ViLY
— 机器之心 JIQIZHIXIN (@jiqizhixin) October 20, 2025

Deepseek-OCR: Nén quang học theo ngữ cảnh

Dùng thử bản demo trực tiếp DeepSeek OCR

DeepSeek OCR là gì

Tính năng chính của DeepSeek OCR

Hỗ trợ đa ngôn ngữ

Phát hiện văn bản mạnh mẽ

Xử lý tốc độ cao

Framework thống nhất

Khôi phục bố cục có cấu trúc

Tích hợp API

Mọi người đang nói gì về DeepSeek-OCR trên X

Câu hỏi thường gặp

DeepSeek OCR là gì và nó hoạt động như thế nào?

DeepSeek OCR có thể xử lý những loại tài liệu nào?

Tôi có cần cài đặt bất cứ thứ gì để sử dụng DeepSeek OCR không?

Các tính năng chính của hệ thống nhận dạng DeepSeek OCR là gì?

Tôi có thể tích hợp DeepSeek OCR với phần mềm và ứng dụng khác không?

DeepSeek OCR chính xác như thế nào so với các hệ thống OCR khác?