任务:给定每首美国和英国歌曲的足够大且无偏斜样本的歌词,获取歌词,将它们分解为独特的单词(称为歌词'),然后将它们存储到一个不断增长的独特单词列表中。单词(称为词典)。如果歌词中有未存储在词典中的单词,则这些单词将添加到词典中。如果歌词'中的每个单词也在词典中找到,那么添加歌词'会导致词典保持不变(幂等性)。
对象: 一个将歌词转换为唯一单词列表的程序,一个将第一个程序的输出添加到词典中的程序,以及词典本身(可能是一个简单的 .txt 文件,但如果有更好的东西) ,请推荐。)
操作系统:Windows 11 Home。
令人担忧的是,该列表可能会变得非常大,以至于通过歌词中每个单词的词典进行线性搜索来检查唯一性可能会非常昂贵。
设置和编程这三个对象的最有效方法是什么,以便该任务能够成功?
问题有 3 个部分
您可以在内存中保留一个缓冲区作为缓存,并在发生缓存未命中时查找数据库。