智能文档切片工具
上传文档或输入文本,体验基于语义理解的智能文档切片服务
点击选择文件或拖拽文件到此处
支持 PDF、Word(.docx)、纯文本(.txt) 格式,最大 50MB
0 字符
📚 API接口说明
文件处理接口
POST /api/process-file
上传文件进行语义切片处理,支持PDF、Word、TXT格式。
文本处理接口
POST /api/process-text
直接处理文本内容进行语义切片。
获取默认配置
GET /api/config/default
获取系统默认的切片配置参数。
更多详细信息请访问 Swagger API文档
⚙️ 切片配置参数
?
理想的文本切片字符数目标。系统会尽量将文本切分到接近这个长度,同时保持语义完整性。较大的目标值会产生更长的切片,包含更多上下文信息。
推荐范围: 600-1200 字符
?
单个文本切片的最小字符数。低于此长度的切片会被合并到相邻切片中,确保每个切片都有足够的信息量。设置过小可能产生信息不完整的切片。
最小 50 字符
?
单个文本切片的最大字符数限制。超过此长度的文本段会被强制切分,即使可能破坏语义完整性。防止单个切片过长影响处理效率。
最大 5000 字符
?
判断相邻文本段是否应该合并的语义相似度门槛。值越高表示要求越严格,只有高度相关的内容才会被合并。较低的值会产生更长但可能主题分散的切片。
0.0-1.0,越高越严格
?
决定相邻段落是否应该合并成一个切片的相似度阈值。高阈值保持段落独立性,低阈值允许相关段落合并,创建更有上下文的切片。
用于判断段落是否应合并,0.0-1.0
?
相邻切片之间重叠内容的比例。重叠可以保持上下文连续性,提高信息检索的准确性。较高的重叠比例会增加总体数据量但提供更好的语义连接。
切片间重叠比例
?
指定文档的主要语言,影响文本分词、语义分析和句子边界检测。正确的语言设置能显著提高切片质量和语义理解准确性。
选择文档主要语言
?
启用后会识别并保持文档的层级结构(如标题、章节、段落),确保切片边界不会破坏重要的文档组织结构,保持内容的逻辑完整性。
保持章节段落结构
?
启用后会特别处理表格、代码块、公式、列表等特殊内容,确保这些结构化内容的完整性,避免在特殊内容中间进行切分。
处理表格、图片等
正在进行语义分析和智能切片...