对于依赖大语言模型(LLM)的各种应用程序,如聊天机器人、内容摘要生成器等,提供高质量的输入一直是一大挑战。原始网页内容通常包含大量噪声数据、格式杂乱、结构化程度低,直接输入LLM往往会降低模型的理解和处理效率。
jina-ai/reader应运而生,旨在解决这一痛点。它是一款免费开源的实用工具,能够将任何网页URL转换为LLM友好的输入格式。使用起来非常简单,只需在目标URL前加上"https://r.jina.ai/"前缀,就可以自动获得经过格式化和清理的网页正文内容。
该工具的主要优势包括:
提高输入质量,确保LLM接收规范化的内容。
支持流式、JSON等多种输出模式,满足不同需求。
显著改善基于LLM的自动化系统输出质量。
延迟低,绝大部分网页能在2秒内处理完毕。
操作简单,无需API密钥,只需改写URL即可使用。
使用方法:
获取目标网页URL,如https://en.wikipedia.org/wiki/Artificial_intelligence
在URL前加上前缀"https://r.jina.ai/",构建新的URL:https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
访问新URL,即可获得格式化后的LLM友好内容
除了默认的标准输出模式,还支持以下模式:
流式模式(mode=stream):将结果分块传输,适合大型动态内容
JSON模式(mode=json):以JSON格式输出结构化数据
目前jina-ai/reader只支持从公开可访问的URL提取内容,不支持本地文件和媒体内容的处理,但未来将添加图像字幕、视频摘要等功能。