DeepSeek-OCR:开启视觉压缩新纪元
DeepSeek-OCR基于视觉语言模型和"上下文光学压缩"技术,通过将图像转化为视觉token实现高效长文本处理。在10倍压缩比下保持97%精度,20倍压缩比下精度约60%。测试中,以100个视觉token超越GOT-OCR2.0,以不到800个token超越MinerU2.0,能重建复杂文档结构。
DeepSeek-OCR:开启视觉压缩新纪元 Read More »
聚焦以视觉token为核心的新一代OCR技术,聚合压缩识别、图文混排解析等前沿进展与应用案例。
DeepSeek-OCR基于视觉语言模型和"上下文光学压缩"技术,通过将图像转化为视觉token实现高效长文本处理。在10倍压缩比下保持97%精度,20倍压缩比下精度约60%。测试中,以100个视觉token超越GOT-OCR2.0,以不到800个token超越MinerU2.0,能重建复杂文档结构。
DeepSeek-OCR:开启视觉压缩新纪元 Read More »
