如何将段落拆分成没有标点符号(包括句号、逗号等)的句子

问题描述 投票:0回答:1

我想将段落分成没有标点符号的句子,包括句号、逗号等。

例如:“我叫 Brayan,今年 12 岁”

需要拆分为

我的名字是布雷扬

我12岁了

我尝试过 Spacy 和 NLTK 库。但无法达到这个结果。

machine-learning nlp nltk spacy
1个回答
0
投票

一种可能(相对简单)的解决方案是使用法学硕士。他们可以捕捉不同句子之间的逻辑段落。

例如,您可以将 MistralHuggingFace 库一起使用:

import requests

API_URL = "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.2"
headers = {"Authorization": f"Bearer {API_TOKEN}"} # Replace with your API_TOKEN

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
        return response.json()
    
my_prompt = "Separate the following text in different sentences, without adding additiona text: "
my_sentences = "'My name is Brayan I am 12 years old'"

output = query({
    "inputs": my_prompt+my_sentences,
})

print(output[0]['generated_text'])

输出为:

My name is Brayan.
I am 12 years old.

当然这很大程度上取决于你的句子,你必须根据它来调整提示。您还可以使用不同的法学硕士。

© www.soinside.com 2019 - 2024. All rights reserved.