DeepSeek-OCR:ビジュアル圧縮の新時代を切り開く
DeepSeek-OCRは、視覚言語モデルと「文脈光学圧縮」技術に基づき、画像を視覚トークンに変換することで効率的な長文テキスト処理を実現し、圧縮率10倍で97%、圧縮率20倍で60%の精度を維持します。圧縮率10倍で97%、圧縮率20倍で60%の精度を維持し、テストでは、ビジュアルトークン100個でGOT-OCR2.0を上回り、トークン800個以下でMinerU2.0を上回り、複雑な文書の構造を再構築できる。
DeepSeek-OCR:ビジュアル圧縮の新時代を切り開く 続きを読む "





