[通常,一个段落包含许多子段落,每个子段落都具有一定的含义。在NLP中,如何将段落拆分为具有含义的子段落,换句话说,我想检测子段落之间的边界
您要说明的问题很有趣,但是定义不正确,因为“含义”本身的定义不明确,而且我们实际上不知道如何区分段落和不良段落。
但是,我们可以这样简化问题:如果它们的topic类似,即它们是相同或相似的对象,或者包含其他相似的词或短语,我们希望将相邻的句子组合在一起。因此我们可以正式描述我们的算法:
如果该算法看起来像您想要的,我可以在Python中提供其基线实现。