如何在短时间内构建准确的数据集?

问题描述 投票:0回答:1

我们正在开发一款 iOS 应用程序,让用户可以发送可定制的数字卡片。用户可以从各种卡片模板中进行选择,输入自己的文本,并根据自己的喜好对卡片进行编辑。我们还有一项功能,用户可以提供一条短信,例如“妈妈生日快乐”,并收到文本的扩展版本,例如“祝我特别的妈妈生日快乐!我爱你,希望你度过美好的一天。 ”

我正在研究如何实现这一目标,并计划使用自然语言处理 (NLP) 和 CoreML 创建一个模型。但是,我在为该特定任务寻找合适的数据集时遇到了问题。因此,我有兴趣构建专门为此目的而定制的准确数据集。但是,我不确定在哪里可以获得必要的数据,或者是否有其他数据源可供快速使用。

如果您有任何见解或替代方法来实现此功能,请分享。

swift machine-learning nlp dataset coreml
1个回答
0
投票

尽管可能缺少有关该主题的现成数据集,但您可以尝试抓取现有的数字明信片网站。例如,您可以尝试开发一个剪贴器来在 Google 上搜索“生日明信片文本”并从前 20 个网站中提取文本。您可以参考本指南开始使用Python进行抓取。

如果您仍然对管理自己的数据集感兴趣,请记住以下步骤,并确保您的团队拥有足够的专业知识,以便充分利用这些数据,因为数据集创建非常广泛:

  • 明确定义数据集的用途,以激发您的动力并帮助您实现目标

  • 确定与您将收集数据的目的相关的关键变量或特征。例如,如果您的案例是关于场合(例如生日、婚礼)和明信片文本之间的关系,那么您的变量将是场合和明信片文本。

  • 制定如何收集数据的计划,包括方法(调查、观察等)、所需的参与者数量、如何选择参与者以及将使用的工具。

  • 按照您的计划迭代收集第一批数据。

  • 仔细检查第一次收集的数据,修复任何错误并删除重复项。整理得井井有条。然后迭代此收集和审查步骤,直到收集到足够数量的数据。

您还可以参考以下指南: https://www.data-mania.com/blog/creating-datasets/ https://towardsdatascience.com/the-definite-guide-for-creating-an-academic-level-dataset-with-industry-requirements-and-6db446a26cb2 https://pcsocial.medium.com/how-to-create-a-dataset-a-compressive-step-by-step-interactive-guide-c1271a5f18e5

© www.soinside.com 2019 - 2024. All rights reserved.