我想将段落分成没有标点符号的句子,包括句号、逗号等。
例如:“我叫 Brayan,今年 12 岁”
需要拆分为
我的名字是布雷扬
我12岁了
我尝试过 Spacy 和 NLTK 库。但无法达到这个结果。
一种可能(相对简单)的解决方案是使用法学硕士。他们可以捕捉不同句子之间的逻辑段落。
例如,您可以将 Mistral 与 HuggingFace 库一起使用:
import requests
API_URL = "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.2"
headers = {"Authorization": f"Bearer {API_TOKEN}"} # Replace with your API_TOKEN
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
my_prompt = "Separate the following text in different sentences, without adding additiona text: "
my_sentences = "'My name is Brayan I am 12 years old'"
output = query({
"inputs": my_prompt+my_sentences,
})
print(output[0]['generated_text'])
输出为:
My name is Brayan.
I am 12 years old.
当然这很大程度上取决于你的句子,你必须根据它来调整提示。您还可以使用不同的法学硕士。